वैरिएशनल बायेसियन विधियाँ

वेरिएशनल बायेसियन विधियाँ बायेसियन अनुमान और यंत्र अधिगम  में उत्पन्न होने वाले असाध्य  अभिन्न ्स का अनुमान लगाने की तकनीकों का एक परिवार है। इनका उपयोग आमतौर पर जटिल सांख्यिकीय मॉडल में किया जाता है जिसमें प्रेक्षित चर (आमतौर पर डेटा कहा जाता है) के साथ-साथ अज्ञात पैरामीटर और अव्यक्त चर होते हैं, तीन प्रकार के यादृच्छिक चर के बीच विभिन्न प्रकार के संबंधों के साथ, जैसा कि एक  चित्रमय मॉडल  द्वारा वर्णित किया जा सकता है। जैसा कि बायेसियन अनुमान में विशिष्ट है, पैरामीटर और अव्यक्त चर को एक साथ न देखे गए चर के रूप में समूहीकृत किया जाता है। वेरिएशनल बायेसियन विधियाँ मुख्य रूप से दो उद्देश्यों के लिए उपयोग की जाती हैं:
 * 1) इन चरों पर सांख्यिकीय अनुमान लगाने के लिए, न देखे गए चरों की पिछली संभावना के लिए एक विश्लेषणात्मक अनुमान प्रदान करना।
 * 2) अवलोकित डेटा की सीमांत संभावना (जिसे कभी-कभी साक्ष्य भी कहा जाता है) के लिए निचली सीमा प्राप्त करना (अर्थात मॉडल दिए गए डेटा की सीमांत संभावना, बिना देखे गए चर पर हाशिए पर प्रदर्शन के साथ)। इसका उपयोग आम तौर पर मॉडल चयन करने के लिए किया जाता है, सामान्य विचार यह है कि किसी दिए गए मॉडल के लिए उच्च सीमांत संभावना उस मॉडल द्वारा डेटा के बेहतर फिट को इंगित करती है और इसलिए अधिक संभावना है कि प्रश्न में मॉडल वह था जिसने डेटा उत्पन्न किया था। (बेयस फैक्टर लेख भी देखें।)

पूर्व उद्देश्य में (पश्च संभाव्यता का अनुमान लगाने के लिए), वैरिएबल बेयस मोंटे कार्लो नमूनाकरण विधियों का एक विकल्प है - विशेष रूप से, मार्कोव श्रृंखला मोंटे कार्लो विधियां जैसे गिब्स नमूनाकरण - जटिल संभाव्यता वितरण पर सांख्यिकीय अनुमान के लिए पूरी तरह से बायेसियन दृष्टिकोण लेने के लिए सीधे या नमूना (सांख्यिकी) का मूल्यांकन करना कठिन है। विशेष रूप से, जबकि मोंटे कार्लो तकनीक नमूनों के एक सेट का उपयोग करके सटीक पोस्टीरियर के लिए एक संख्यात्मक अनुमान प्रदान करती है, वेरिएबल बेयस पोस्टीरियर के अनुमान के लिए एक स्थानीय-इष्टतम, सटीक विश्लेषणात्मक समाधान प्रदान करता है।

वैरिएशनल बेयस को एक्सपेक्टेशन-मैक्सिमाइजेशन एल्गोरिदम के विस्तार के रूप में देखा जा सकता है। एक्सपेक्टेशन-मैक्सिमाइजेशन (ईएम) एल्गोरिदम प्रत्येक पैरामीटर के एकल सबसे संभावित मूल्य के अधिकतम पोस्टीरियरी अनुमान (एमएपी अनुमान) से लेकर पूरी तरह से बायेसियन अनुमान तक, जो (एक अनुमान) की गणना करता है। ) मापदंडों और अव्यक्त चर का संपूर्ण पश्च वितरण। ईएम की तरह, यह इष्टतम पैरामीटर मानों का एक सेट ढूंढता है, और इसमें ईएम के समान ही वैकल्पिक संरचना होती है, जो इंटरलॉक्ड (परस्पर निर्भर) समीकरणों के एक सेट पर आधारित होती है जिसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है।

कई अनुप्रयोगों के लिए, वैरिएबल बेयस अधिक गति से गिब्स सैंपलिंग के तुलनीय सटीकता के समाधान तैयार करता है। हालाँकि, मापदंडों को अद्यतन करने के लिए उपयोग किए जाने वाले समीकरणों के सेट को प्राप्त करने के लिए अक्सर तुलनीय गिब्स नमूना समीकरणों को प्राप्त करने की तुलना में बड़ी मात्रा में काम की आवश्यकता होती है। यह कई मॉडलों के लिए भी मामला है जो वैचारिक रूप से काफी सरल हैं, जैसा कि केवल दो मापदंडों और कोई अव्यक्त चर के साथ एक बुनियादी गैर-पदानुक्रमित मॉडल के मामले में नीचे दिखाया गया है।

समस्या
विविधता अनुमान के कैलकुलस में, न देखे गए चरों के एक सेट पर पश्च वितरण $$\mathbf{Z} = \{Z_1 \dots Z_n\}$$ कुछ डेटा दिया $$\mathbf{X}$$ तथाकथित परिवर्तनशील वितरण द्वारा अनुमानित है, $$Q(\mathbf{Z}):$$
 * $$P(\mathbf{Z}\mid \mathbf{X}) \approx Q(\mathbf{Z}).$$

बंटवारा $$Q(\mathbf{Z})$$ की तुलना में सरल रूप के वितरण के परिवार से संबंधित होने तक सीमित है $$P(\mathbf{Z}\mid \mathbf{X})$$ (उदाहरण के लिए गॉसियन वितरण का एक परिवार), बनाने के इरादे से चुना गया $$Q(\mathbf{Z})$$ वास्तविक पश्च भाग के समान, $$P(\mathbf{Z}\mid \mathbf{X})$$.

समानता (या असमानता) को असमानता फ़ंक्शन के संदर्भ में मापा जाता है $$d(Q; P)$$ और इसलिए वितरण का चयन करके अनुमान लगाया जाता है $$Q(\mathbf{Z})$$ वह न्यूनतम करता है $$d(Q; P)$$.

केएल विचलन
वैरिएबल बेज़ का सबसे आम प्रकार असमानता फ़ंक्शन की पसंद के रूप में पी से क्यू के कुल्बैक-लीब्लर डाइवर्जेंस (केएल-डाइवर्जेंस) का उपयोग करता है। यह विकल्प इस न्यूनतमकरण को सुव्यवस्थित बनाता है। केएल-विचलन को इस प्रकार परिभाषित किया गया है


 * $$D_{\mathrm{KL}}(Q \parallel P) \triangleq \sum_\mathbf{Z} Q(\mathbf{Z}) \log \frac{Q(\mathbf{Z})}{P(\mathbf{Z}\mid \mathbf{X})}.$$

ध्यान दें कि Q और P किसी की अपेक्षा से उलट हैं। उलटे केएल-विचलन का यह उपयोग अवधारणात्मक रूप से अपेक्षा-अधिकतमकरण एल्गोरिदम के समान है। (केएल-डाइवर्जेंस का दूसरे तरीके से उपयोग करने से अपेक्षा प्रसार एल्गोरिदम उत्पन्न होता है।)

दुरूहता
विभिन्न तकनीकों का उपयोग आम तौर पर इसका अनुमान लगाने के लिए किया जाता है:


 * $$P(\mathbf Z \mid \mathbf X) = \frac{P(\mathbf X \mid \mathbf Z)P(\mathbf Z)}{P(\mathbf X)} = \frac{P(\mathbf X \mid \mathbf Z)P(\mathbf Z)}{\int_{\mathbf Z} P(\mathbf X,\mathbf Z') \,d\mathbf Z'}$$

हाशियाकरण ख़त्म $$\mathbf Z$$ की गणना करना $$P(\mathbf X)$$ हर में आमतौर पर अघुलनशील होता है, क्योंकि, उदाहरण के लिए, का खोज स्थान $$\mathbf Z$$ संयुक्त रूप से बड़ा है। इसलिए, हम इसका उपयोग करते हुए एक अनुमान चाहते हैं $$Q(\mathbf Z) \approx P(\mathbf Z \mid \mathbf X)$$.

साक्ष्य निचली सीमा
मान लें कि $$P(\mathbf Z \mid \mathbf X) = \frac{P(\mathbf X, \mathbf Z)}{P(\mathbf X)}$$, उपरोक्त केएल-विचलन को इस प्रकार भी लिखा जा सकता है



D_{\mathrm{KL}}(Q \parallel P) = \sum_\mathbf{Z} Q(\mathbf{Z}) \left[ \log \frac{Q(\mathbf{Z})}{P(\mathbf{Z},\mathbf{X})} + \log P(\mathbf{X}) \right] = \sum_\mathbf{Z} Q(\mathbf{Z}) \left[ \log Q(\mathbf{Z}) -  \log P(\mathbf{Z},\mathbf{X}) \right] + \sum_\mathbf{Z}  Q(\mathbf{Z}) \left[ \log P(\mathbf{X}) \right] $$ क्योंकि $$P(\mathbf{X})$$ के संबंध में एक स्थिरांक है $$\mathbf Z$$ और $$\sum_\mathbf{Z} Q(\mathbf{Z}) = 1$$ क्योंकि $$Q(\mathbf{Z})$$ एक वितरण है, हमारे पास है

D_{\mathrm{KL}}(Q \parallel P) = \sum_\mathbf{Z} Q(\mathbf{Z}) \left[ \log Q(\mathbf{Z}) -  \log P(\mathbf{Z},\mathbf{X}) \right] + \log P(\mathbf{X}) $$ जिसे अपेक्षित मान की परिभाषा के अनुसार (एक असतत यादृच्छिक चर के लिए) निम्नानुसार लिखा जा सकता है



D_{\mathrm{KL}}(Q \parallel P) = \mathbb{E}_{\mathbf Q } \left[ \log Q(\mathbf{Z}) - \log P(\mathbf{Z},\mathbf{X}) \right] + \log P(\mathbf{X}) $$ जिसे पुनर्व्यवस्थित करके बनाया जा सकता है

\log P(\mathbf{X}) = D_{\mathrm{KL}}(Q \parallel P) - \mathbb{E}_{\mathbf Q } \left[ \log Q(\mathbf{Z}) - \log P(\mathbf{Z},\mathbf{X}) \right] = D_{\mathrm{KL}}(Q\parallel P) + \mathcal{L}(Q) $$ लॉग-मॉडल साक्ष्य के रूप में $$\log P(\mathbf{X})$$ के संबंध में तय किया गया है $$Q$$, अंतिम कार्यकाल को अधिकतम करना $$\mathcal{L}(Q)$$ केएल विचलन को कम करता है $$Q$$ से $$P$$. उचित चयन द्वारा $$Q$$, $$\mathcal{L}(Q)$$ गणना करने और अधिकतम करने के लिए सुव्यवस्थित हो जाता है। इसलिए हमारे पास एक विश्लेषणात्मक सन्निकटन है $$Q$$ पीछे के लिए $$P(\mathbf{Z}\mid \mathbf{X})$$, और एक निचली सीमा $$\mathcal{L}(Q)$$ लॉग-साक्ष्य के लिए $$\log P(\mathbf{X})$$ (चूंकि केएल-विचलन गैर-नकारात्मक है)।

निचली सीमा $$\mathcal{L}(Q)$$ इसे थर्मोडायनामिक मुक्त ऊर्जा के अनुरूप (नकारात्मक) परिवर्तनशील मुक्त ऊर्जा के रूप में जाना जाता है क्योंकि इसे नकारात्मक ऊर्जा के रूप में भी व्यक्त किया जा सकता है $$\operatorname{E}_{Q}[\log P(\mathbf{Z},\mathbf{X})]$$ प्लस एन्ट्रॉपी (सूचना सिद्धांत)। $$Q$$. शब्द $$\mathcal{L}(Q)$$ इसे एविडेंस लोअर बाउंड के रूप में भी जाना जाता है, जिसे संक्षेप में एविडेंस लोअर बाउंड के रूप में जाना जाता है, इस बात पर जोर देने के लिए कि यह डेटा के लॉग-एविडेंस पर एक निचला बाउंड है।

प्रमाण
ब्रेगमैन विचलन के सामान्यीकृत पायथागॉरियन प्रमेय द्वारा, जिसमें केएल-विचलन एक विशेष मामला है, यह दिखाया जा सकता है कि: :$$ D_{\mathrm{KL}}(Q\parallel P) \geq D_{\mathrm{KL}}(Q\parallel Q^{*}) + D_{\mathrm{KL}}(Q^{*}\parallel P), \forall Q^{*} \in\mathcal{C} $$ कहाँ $$\mathcal{C}$$ एक उत्तल समुच्चय है और समानता तब कायम रहती है यदि:


 * $$ Q = Q^{*} \triangleq \arg\min_{Q\in\mathcal{C}}D_{\mathrm{KL}}(Q\parallel P). $$

इस मामले में, वैश्विक न्यूनतमकर्ता $$Q^{*}(\mathbf{Z}) = q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)q^{*}(\mathbf{Z}_2) = q^{*}(\mathbf{Z}_2\mid\mathbf{Z}_1)q^{*}(\mathbf{Z}_1),$$ साथ $$\mathbf{Z}=\{\mathbf{Z_1},\mathbf{Z_2}\},$$ इस प्रकार पाया जा सकता है:


 * $$ q^{*}(\mathbf{Z}_2)

= \frac{P(\mathbf{X})}{\zeta(\mathbf{X})}\frac{P(\mathbf{Z}_2\mid\mathbf{X})}{\exp(D_{\mathrm{KL}}(q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)\parallel P(\mathbf{Z}_1\mid\mathbf{Z}_2,\mathbf{X})))} = \frac{1}{\zeta(\mathbf{X})}\exp\mathbb{E}_{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\left(\log\frac{P(\mathbf{Z},\mathbf{X})}{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\right),$$ जिसमें सामान्यीकरण स्थिरांक है:


 * $$\zeta(\mathbf{X})

=P(\mathbf{X})\int_{\mathbf{Z}_2}\frac{P(\mathbf{Z}_2\mid\mathbf{X})}{\exp(D_{\mathrm{KL}}(q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)\parallel P(\mathbf{Z}_1\mid\mathbf{Z}_2,\mathbf{X})))} = \int_{\mathbf{Z}_{2}}\exp\mathbb{E}_{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\left(\log\frac{P(\mathbf{Z},\mathbf{X})}{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\right).$$ शब्द $$\zeta(\mathbf{X})$$ व्यवहार में इसे अक्सर मॉडल एविडेंस लोअर बाउंड (ईएलबीओ) कहा जाता है $$P(\mathbf{X})\geq\zeta(\mathbf{X})=\exp(\mathcal{L}(Q^{*}))$$, जैसा कि उपर दिखाया गया है।

की भूमिकाओं की अदला-बदली करके $$\mathbf{Z}_1$$ और $$\mathbf{Z}_2,$$ हम अनुमानित रूप से पुनरावर्ती गणना कर सकते हैं $$q^{*}(\mathbf{Z}_1)$$ और $$q^{*}(\mathbf{Z}_2)$$ सच्चे मॉडल के हाशिये पर $$P(\mathbf{Z}_1\mid\mathbf{X})$$ और $$P(\mathbf{Z}_2\mid\mathbf{X}),$$ क्रमश। यद्यपि इस पुनरावृत्तीय योजना को नीरस रूप से अभिसरण करने की गारंटी है, एकत्रित $$Q^{*}$$ का केवल एक स्थानीय मिनिमाइज़र है $$D_{\mathrm{KL}}(Q\parallel P)$$.

यदि विवश स्थान $$\mathcal{C}$$ स्वतंत्र स्थान के भीतर ही सीमित है, अर्थात $$q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2) = q^{*}(\mathbf{Z_1}),$$उपरोक्त पुनरावृत्तीय योजना तथाकथित माध्य क्षेत्र सन्निकटन बन जाएगी $$Q^{*}(\mathbf{Z}) = q^{*}(\mathbf{Z}_1)q^{*}(\mathbf{Z}_2),$$जैसा कि नीचे दिया गया है।

माध्य क्षेत्र सन्निकटन
परिवर्तनशील वितरण $$Q(\mathbf{Z})$$ आम तौर पर यह माना जाता है कि अव्यक्त चर के एक सेट के कुछ विभाजन पर कारक बनाया जाता है, यानी अव्यक्त चर के कुछ विभाजन के लिए $$\mathbf{Z}$$ में $$\mathbf{Z}_1 \dots \mathbf{Z}_M$$,


 * $$Q(\mathbf{Z}) = \prod_{i=1}^M q_i(\mathbf{Z}_i\mid \mathbf{X})$$

इसे विविधताओं की गणना (इसलिए नाम वेरिएबल बेयस) का उपयोग करके दिखाया जा सकता है कि सबसे अच्छा वितरण $$q_j^{*}$$ प्रत्येक कारक के लिए $$q_j$$ (वितरण के संदर्भ में केएल विचलन को न्यूनतम करना, जैसा कि ऊपर वर्णित है) संतुष्ट करता है:


 * $$q_j^{*}(\mathbf{Z}_j\mid \mathbf{X}) = \frac{e^{\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]}}{\int e^{\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]}\, d\mathbf{Z}_j}$$

कहाँ $$\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]$$ डेटा और अव्यक्त चर की संयुक्त संभावना के लघुगणक का अपेक्षित मूल्य है, जिसके संबंध में लिया गया है $$q^*$$ विभाजन में मौजूद सभी वेरिएबल्स पर: लेम्मा 4.1 का संदर्भ लें वितरण की व्युत्पत्ति के लिए $$q_j^{*}(\mathbf{Z}_j\mid \mathbf{X})$$.

व्यवहार में, हम आम तौर पर लघुगणक के संदर्भ में काम करते हैं, अर्थात:


 * $$\ln q_j^{*}(\mathbf{Z}_j\mid \mathbf{X}) = \operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})] + \text{constant}$$

उपरोक्त अभिव्यक्ति में स्थिरांक सामान्यीकृत स्थिरांक (उपरोक्त अभिव्यक्ति में हर) से संबंधित है $$q_j^{*}$$) और आमतौर पर निरीक्षण द्वारा बहाल किया जाता है, क्योंकि अभिव्यक्ति के बाकी हिस्सों को आमतौर पर एक ज्ञात प्रकार के वितरण (जैसे गाऊसी वितरण, गामा वितरण, आदि) के रूप में पहचाना जा सकता है।

अपेक्षाओं के गुणों का प्रयोग, अभिव्यक्ति $$\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]$$ आमतौर पर अव्यक्त चर और अपेक्षाओं (और कभी-कभी उच्चतर क्षण (गणित) जैसे विचरण) पर पूर्व वितरण के निश्चित हाइपरपैरामीटर के एक फ़ंक्शन में सरलीकृत किया जा सकता है, जो कि वर्तमान विभाजन में नहीं है (यानी अव्यक्त चर शामिल नहीं हैं) में $$\mathbf{Z}_j$$). यह एक विभाजन में चर पर वितरण के मापदंडों और अन्य विभाजन में चर की अपेक्षाओं के बीच परिपत्र निर्भरता बनाता है। यह स्वाभाविक रूप से ईएम (अपेक्षा-अधिकतमकरण एल्गोरिदम) की तरह एक पुनरावृत्त एल्गोरिदम का सुझाव देता है, जिसमें अव्यक्त चर की अपेक्षाओं (और संभवतः उच्च क्षणों) को कुछ फैशन में (शायद यादृच्छिक रूप से) प्रारंभ किया जाता है, और फिर प्रत्येक वितरण के पैरामीटर होते हैं अपेक्षाओं के वर्तमान मूल्यों का उपयोग करके बारी-बारी से गणना की जाती है, जिसके बाद गणना किए गए मापदंडों के अनुसार नए गणना किए गए वितरण की अपेक्षा उचित रूप से निर्धारित की जाती है। इस प्रकार का एल्गोरिदम अनुक्रम की सीमा की गारंटी देता है। दूसरे शब्दों में, चर के प्रत्येक विभाजन के लिए, विभाजन के चर पर वितरण के लिए अभिव्यक्ति को सरल बनाकर और प्रश्न में चर पर वितरण की कार्यात्मक निर्भरता की जांच करके, वितरण का परिवार आमतौर पर निर्धारित किया जा सकता है (जो बदले में निर्धारित करता है) स्थिरांक का मान)। वितरण के मापदंडों का सूत्र पूर्व वितरणों के हाइपरपैरामीटर (जो ज्ञात स्थिरांक हैं) के संदर्भ में व्यक्त किया जाएगा, लेकिन अन्य विभाजनों में चर के कार्यों की अपेक्षाओं के संदर्भ में भी व्यक्त किया जाएगा। आमतौर पर इन अपेक्षाओं को स्वयं चरों की अपेक्षाओं के कार्यों में सरलीकृत किया जा सकता है (अर्थात साधन); कभी-कभी वर्गाकार चरों की अपेक्षाएं (जो चरों के विचरण से संबंधित हो सकती हैं), या उच्च शक्तियों (अर्थात उच्चतर क्षण (गणित)) की अपेक्षाएं भी प्रकट होती हैं। ज्यादातर मामलों में, अन्य चर का वितरण ज्ञात परिवारों से होगा, और प्रासंगिक अपेक्षाओं के लिए सूत्रों को देखा जा सकता है। हालाँकि, वे सूत्र उन वितरण मापदंडों पर निर्भर करते हैं, जो बदले में अन्य चर के बारे में अपेक्षाओं पर निर्भर करते हैं। इसका परिणाम यह है कि प्रत्येक चर के वितरण के मापदंडों के सूत्रों को चर के बीच पारस्परिक, गैर-रेखीय निर्भरता वाले समीकरणों की एक श्रृंखला के रूप में व्यक्त किया जा सकता है। आमतौर पर, समीकरणों की इस प्रणाली को सीधे हल करना संभव नहीं है। हालाँकि, जैसा कि ऊपर बताया गया है, निर्भरताएँ एक सरल पुनरावृत्त एल्गोरिथ्म का सुझाव देती हैं, जो ज्यादातर मामलों में अभिसरण की गारंटी देता है। एक उदाहरण से यह प्रक्रिया और स्पष्ट हो जायेगी.

परिवर्तनात्मक अनुमान के लिए एक द्वैत सूत्र
निम्नलिखित प्रमेय को परिवर्तनशील अनुमान के लिए द्वैत सूत्र के रूप में जाना जाता है। यह वैरिएबल बेयस विधियों में उपयोग किए जाने वाले वैरिएबल वितरण के कुछ महत्वपूर्ण गुणों की व्याख्या करता है।

$$ दो संभाव्यता स्थानों पर विचार करें $$(\Theta,\mathcal{F},P)$$ और $$(\Theta,\mathcal{F},Q)$$ साथ $$Q \ll P$$. मान लें कि एक सामान्य प्रभावी संभाव्यता माप है $$\lambda$$ ऐसा है कि $$P \ll \lambda$$ और $$Q \ll \lambda$$. होने देना $$h$$ किसी भी वास्तविक-मूल्यवान यादृच्छिक चर को निरूपित करें $$(\Theta,\mathcal{F},P)$$ जो संतुष्ट करता है $$h \in L_1(P)$$. तब निम्नलिखित समानता कायम रहती है


 * $$ \log E_P[\exp h] = \text{sup}_{Q \ll P} \{ E_Q[h] - D_\text{KL}(Q \parallel P)\}.$$

इसके अलावा, दाहिनी ओर का सर्वोच्च तभी प्राप्त होता है जब वह कायम रहता है


 * $$ \frac{q(\theta)}{p(\theta)} = \frac{\exp h(\theta)}{E_P[\exp h]},$$

संभाव्यता माप के संबंध में लगभग निश्चित रूप से $$Q$$, कहाँ $$p(\theta) = dP/d\lambda$$ और $$q(\theta) = dQ/d\lambda$$ संभाव्यता उपायों के रेडॉन-निकोडिम डेरिवेटिव को निरूपित करें $$P$$ और $$Q$$ इसके संबंध में $$\lambda$$, क्रमश।

एक बुनियादी उदाहरण
एक सरल गैर-पदानुक्रमित बायेसियन मॉडल पर विचार करें जिसमें स्वतंत्र रूप से वितरित i.i.d. का एक सेट शामिल है। अज्ञात माध्य और विचरण के साथ गॉसियन वितरण से अवलोकन। निम्नलिखित में, हम इस मॉडल के माध्यम से वेरिएबल बेयस विधि की कार्यप्रणाली को स्पष्ट करने के लिए विस्तार से काम करते हैं।

गणितीय सुविधा के लिए, निम्नलिखित उदाहरण में हम परिशुद्धता (सांख्यिकी) के संदर्भ में काम करते हैं - अर्थात विचरण का व्युत्क्रम (या एक बहुभिन्नरूपी गॉसियन में, सहप्रसरण मैट्रिक्स का व्युत्क्रम) - न कि स्वयं विचरण के। (सैद्धांतिक दृष्टिकोण से, परिशुद्धता और भिन्नता समतुल्य हैं क्योंकि दोनों के बीच एक-से-एक पत्राचार है।)

गणितीय मॉडल
हम संयुग्मित पूर्व वितरणों को अज्ञात माध्य पर रखते हैं $$\mu$$ और परिशुद्धता $$\tau$$, अर्थात माध्य भी गाऊसी वितरण का अनुसरण करता है जबकि परिशुद्धता गामा वितरण का अनुसरण करती है। दूसरे शब्दों में:



\begin{align} \tau & \sim \operatorname{Gamma}(a_0, b_0) \\ \mu|\tau & \sim \mathcal{N}(\mu_0, (\lambda_0 \tau)^{-1}) \\ \{x_1, \dots, x_N\} & \sim \mathcal{N}(\mu, \tau^{-1}) \\ N &= \text{number of data points} \end{align} $$ हाइपरपैरामीटर $$\mu_0, \lambda_0, a_0$$ और $$b_0$$ पूर्व में वितरण निश्चित होते हैं, मान दिए जाते हैं। व्यापक पूर्व वितरण देने के लिए उन्हें छोटी सकारात्मक संख्याओं पर सेट किया जा सकता है जो पूर्व वितरणों के बारे में अज्ञानता का संकेत देते हैं $$\mu$$ और $$\tau$$.

हम दे रहे हैं $$N$$ डेटा अंक $$\mathbf{X} = \{x_1, \ldots, x_N\}$$ और हमारा लक्ष्य पश्च वितरण का अनुमान लगाना है $$q(\mu, \tau)=p(\mu,\tau\mid x_1, \ldots, x_N)$$ मापदंडों का $$\mu$$ और $$\tau.$$

संयुक्त संभावना
सभी चरों की संयुक्त प्रायिकता को इस प्रकार पुनः लिखा जा सकता है


 * $$p(\mathbf{X},\mu,\tau) = p(\mathbf{X}\mid \mu,\tau) p(\mu\mid \tau) p(\tau)$$

जहां व्यक्तिगत कारक हैं



\begin{align} p(\mathbf{X}\mid \mu,\tau) & = \prod_{n=1}^N \mathcal{N}(x_n\mid \mu,\tau^{-1}) \\ p(\mu\mid \tau) & = \mathcal{N} \left (\mu\mid \mu_0, (\lambda_0 \tau)^{-1} \right ) \\ p(\tau) & = \operatorname{Gamma}(\tau\mid a_0, b_0) \end{align} $$ कहाँ



\begin{align} \mathcal{N}(x\mid \mu,\sigma^2) & = \frac{1}{\sqrt{2\pi\sigma^2}} e^{\frac{-(x-\mu)^2}{2\sigma^2}} \\ \operatorname{Gamma}(\tau\mid a,b) & = \frac{1}{\Gamma(a)} b^a \tau^{a-1} e^{-b \tau} \end{align} $$

गुणनखंडित सन्निकटन
ये मान लीजिए $$q(\mu,\tau) = q(\mu)q(\tau)$$, यानी कि पश्च वितरण स्वतंत्र कारकों में विभाजित होता है $$\mu$$ और $$\tau$$. इस प्रकार की धारणा वैरिएबल बायेसियन पद्धति को रेखांकित करती है। वास्तविक पश्च वितरण वास्तव में इस तरह से कारक नहीं होता है (वास्तव में, इस साधारण मामले में, इसे गाऊसी-गामा वितरण के रूप में जाना जाता है), और इसलिए हम जो परिणाम प्राप्त करेंगे वह एक अनुमान होगा।

की व्युत्पत्ति $q(&mu;)$
तब



\begin{align} \ln q_\mu^*(\mu) &= \operatorname{E}_\tau\left[\ln p(\mathbf{X}\mid \mu,\tau) + \ln p(\mu\mid \tau) + \ln p(\tau)\right] + C \\ &= \operatorname{E}_\tau\left[\ln p(\mathbf{X}\mid \mu,\tau)\right] + \operatorname{E}_\tau\left[\ln p(\mu\mid \tau)\right] + \operatorname{E}_{\tau}\left[\ln p(\tau)\right] + C \\ &= \operatorname{E}_\tau\left[\ln \prod_{n=1}^N \mathcal{N} \left (x_n\mid \mu,\tau^{-1} \right )\right] + \operatorname{E}_\tau\left[\ln \mathcal{N} \left (\mu\mid \mu_0, (\lambda_0 \tau)^{-1} \right )\right] + C_2 \\ &= \operatorname{E}_\tau\left[\ln \prod_{n=1}^N \sqrt{\frac{\tau}{2\pi}} e^{-\frac{(x_n-\mu)^2\tau}{2}}\right] + \operatorname{E}_{\tau}\left[\ln \sqrt{\frac{\lambda_0 \tau}{2\pi}} e^{-\frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}}\right] + C_2 \\ &= \operatorname{E}_{\tau}\left[\sum_{n=1}^N \left(\frac{1}{2}(\ln\tau - \ln 2\pi) - \frac{(x_n-\mu)^2\tau}{2}\right)\right] + \operatorname{E}_{\tau}\left[\frac{1}{2}(\ln \lambda_0 + \ln \tau - \ln 2\pi) - \frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}\right] + C_2 \\ &= \operatorname{E}_{\tau}\left[\sum_{n=1}^N -\frac{(x_n-\mu)^2\tau}{2}\right] + \operatorname{E}_{\tau}\left[-\frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}\right] + \operatorname{E}_{\tau}\left[\sum_{n=1}^N \frac{1}{2}(\ln\tau - \ln 2\pi)\right] + \operatorname{E}_{\tau}\left[\frac{1}{2}(\ln \lambda_0 + \ln \tau - \ln 2\pi)\right] + C_2 \\ &= \operatorname{E}_{\tau}\left[\sum_{n=1}^N -\frac{(x_n-\mu)^2\tau}{2}\right] + \operatorname{E}_{\tau}\left[-\frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}\right] + C_3 \\ &= - \frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu-\mu_0)^2 \right\} + C_3 \end{align} $$ उपरोक्त व्युत्पत्ति में, $$C$$, $$C_2$$ और $$C_3$$ उन मूल्यों को संदर्भित करें जो संबंध में स्थिर हैं $$\mu$$. ध्यान दें कि शब्द $$\operatorname{E}_{\tau}[\ln p(\tau)]$$ का कार्य नहीं है $$\mu$$ और मूल्य की परवाह किए बिना उसका मूल्य समान होगा $$\mu$$. इसलिए पंक्ति 3 में हम इसे अंत में स्थिर पद में समाहित कर सकते हैं। हम पंक्ति 7 में भी यही कार्य करते हैं।

अंतिम पंक्ति बस एक द्विघात बहुपद है $$\mu$$. चूँकि यह का लघुगणक है $$q_\mu^*(\mu)$$, हम देख सकते हैं कि $$q_\mu^*(\mu)$$ स्वयं एक गाऊसी वितरण है।

एक निश्चित मात्रा में कठिन गणित के साथ (ब्रेसिज़ के अंदर के वर्गों का विस्तार करना, अलग करना और शामिल शब्दों को समूहीकृत करना) $$\mu$$ और $$\mu^2$$ और वर्ग पूरा करना $$\mu$$), हम गाऊसी वितरण के पैरामीटर प्राप्त कर सकते हैं:


 * $$\begin{align}

\ln q_\mu^*(\mu) &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu-\mu_0)^2 \right\} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \sum_{n=1}^N (x_n^2-2x_n\mu + \mu^2) + \lambda_0(\mu^2-2\mu_0\mu + \mu_0^2) \right \} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \left(\sum_{n=1}^N x_n^2\right)-2\left(\sum_{n=1}^N x_n\right)\mu + \left ( \sum_{n=1}^N \mu^2 \right) + \lambda_0\mu^2-2\lambda_0\mu_0\mu + \lambda_0\mu_0^2 \right\} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\mu^2 -2\left(\lambda_0\mu_0 + \sum_{n=1}^N x_n\right)\mu + \left(\sum_{n=1}^N x_n^2\right) + \lambda_0\mu_0^2 \right\} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\mu^2 -2\left(\lambda_0\mu_0 + \sum_{n=1}^N x_n\right)\mu \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N} \right)(\lambda_0+N) \mu \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right) \mu\right) \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right) \mu + \left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 - \left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2\right) \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right) \mu + \left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 \right) \right\} + C_5 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu-\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 \right\} + C_5 \\ &= -\frac{1}{2} (\lambda_0+N)\operatorname{E}_{\tau}[\tau] \left(\mu-\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 + C_5 \end{align}$$ ध्यान दें कि उपरोक्त सभी चरणों को सामान्य वितरण#दो द्विघातों के योग के सूत्र का उपयोग करके छोटा किया जा सकता है।

दूसरे शब्दों में:



\begin{align} q_\mu^*(\mu) &\sim \mathcal{N}(\mu\mid \mu_N,\lambda_N^{-1}) \\ \mu_N &= \frac{\lambda_0 \mu_0 + N \bar{x}}{\lambda_0 + N} \\ \lambda_N &= (\lambda_0 + N) \operatorname{E}_{\tau}[\tau] \\ \bar{x} &= \frac{1}{N}\sum_{n=1}^N x_n \end{align} $$

की व्युत्पत्ति $q(&tau;)$
की व्युत्पत्ति $$q_\tau^*(\tau)$$ उपरोक्त के समान है, हालाँकि हम संक्षिप्तता के लिए कुछ विवरण छोड़ देते हैं।



\begin{align} \ln q_\tau^*(\tau) &= \operatorname{E}_{\mu}[\ln p(\mathbf{X}\mid \mu,\tau) + \ln p(\mu\mid \tau)] + \ln p(\tau) + \text{constant} \\ &= (a_0 - 1) \ln \tau - b_0 \tau + \frac{1}{2} \ln \tau + \frac{N}{2} \ln \tau - \frac{\tau}{2} \operatorname{E}_\mu \left [ \sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2 \right ] + \text{constant} \end{align} $$ दोनों पक्षों को घातांकित करने पर हम यह देख सकते हैं $$q_\tau^*(\tau)$$ एक गामा वितरण है. विशेष रूप से:



\begin{align} q_\tau^*(\tau) &\sim \operatorname{Gamma}(\tau\mid a_N, b_N) \\ a_N &= a_0 + \frac{N+1}{2} \\ b_N &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[\sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2\right] \end{align} $$

पैरामीटर की गणना के लिए एल्गोरिदम
आइए हम पिछले अनुभागों के निष्कर्षों का पुनर्कथन करें:



\begin{align} q_\mu^*(\mu) &\sim \mathcal{N}(\mu\mid\mu_N,\lambda_N^{-1}) \\ \mu_N &= \frac{\lambda_0 \mu_0 + N \bar{x}}{\lambda_0 + N} \\ \lambda_N &= (\lambda_0 + N) \operatorname{E}_{\tau}[\tau] \\ \bar{x} &= \frac{1}{N}\sum_{n=1}^N x_n \end{align} $$ और



\begin{align} q_\tau^*(\tau) &\sim \operatorname{Gamma}(\tau\mid a_N, b_N) \\ a_N &= a_0 + \frac{N+1}{2} \\ b_N &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[\sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2\right] \end{align} $$ प्रत्येक मामले में, किसी एक चर पर वितरण के पैरामीटर दूसरे चर के संबंध में ली गई अपेक्षाओं पर निर्भर करते हैं। हम गॉसियन और गामा वितरण के क्षणों की अपेक्षाओं के लिए मानक सूत्रों का उपयोग करके अपेक्षाओं का विस्तार कर सकते हैं:



\begin{align} \operatorname{E}[\tau\mid a_N, b_N] &= \frac{a_N}{b_N} \\ \operatorname{E} \left [\mu\mid\mu_N,\lambda_N^{-1} \right ] &= \mu_N \\ \operatorname{E}\left[X^2 \right] &= \operatorname{Var}(X) + (\operatorname{E}[X])^2 \\ \operatorname{E} \left [\mu^2\mid\mu_N,\lambda_N^{-1} \right ] &= \lambda_N^{-1} + \mu_N^2 \end{align} $$ इन सूत्रों को उपरोक्त समीकरणों पर लागू करना ज्यादातर मामलों में मामूली है, लेकिन समीकरण के लिए $$b_N$$ अधिक काम लेता है:



\begin{align} b_N &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[\sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2\right] \\ &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[ (\lambda_0+N)\mu^2 -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right )\mu + \left(\sum_{n=1}^N x_n^2 \right ) + \lambda_0\mu_0^2 \right] \\ &= b_0 + \frac{1}{2} \left[ (\lambda_0+N)\operatorname{E}_\mu[\mu^2] -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right)\operatorname{E}_\mu [\mu] + \left (\sum_{n=1}^N x_n^2 \right ) + \lambda_0\mu_0^2 \right] \\ &= b_0 + \frac{1}{2} \left[ (\lambda_0+N) \left (\lambda_N^{-1} + \mu_N^2 \right ) -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right)\mu_N + \left(\sum_{n=1}^N x_n^2 \right) + \lambda_0\mu_0^2 \right] \\ \end{align} $$ फिर हम पैरामीटर समीकरणों को बिना किसी अपेक्षा के इस प्रकार लिख सकते हैं:


 * $$\begin{align}

\mu_N &= \frac{\lambda_0 \mu_0 + N \bar{x}}{\lambda_0 + N} \\ \lambda_N &= (\lambda_0 + N) \frac{a_N}{b_N} \\ \bar{x} &= \frac{1}{N}\sum_{n=1}^N x_n \\ a_N &= a_0 + \frac{N+1}{2} \\ b_N &= b_0 + \frac{1}{2} \left[ (\lambda_0+N) \left (\lambda_N^{-1} + \mu_N^2 \right ) -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right )\mu_N + \left (\sum_{n=1}^N x_n^2 \right ) + \lambda_0\mu_0^2 \right] \end{align}$$ ध्यान दें कि सूत्रों के बीच चक्रीय निर्भरताएँ हैं $$\lambda_N$$और $$b_N$$. यह स्वाभाविक रूप से एक अपेक्षा-अधिकतमकरण एल्गोरिथ्म-जैसे एल्गोरिदम का सुझाव देता है:


 * 1) गणना करें $$\sum_{n=1}^N x_n$$ और $$\sum_{n=1}^N x_n^2.$$ गणना करने के लिए इन मानों का उपयोग करें $$\mu_N$$ और $$a_N.$$
 * 2) प्रारंभ करें $$\lambda_N$$ कुछ मनमाने मूल्य के लिए.
 * 3) के वर्तमान मान का उपयोग करें $$\lambda_N,$$ गणना करने के लिए अन्य मापदंडों के ज्ञात मूल्यों के साथ $$b_N$$.
 * 4) के वर्तमान मान का उपयोग करें $$b_N,$$ गणना करने के लिए अन्य मापदंडों के ज्ञात मूल्यों के साथ $$\lambda_N$$.
 * 5) अंतिम दो चरणों को अभिसरण होने तक दोहराएँ (अर्थात जब तक कि कोई भी मान कुछ छोटी राशि से अधिक न बदल जाए)।

फिर हमारे पास पश्च मापदंडों के अनुमानित वितरण के हाइपरपैरामीटर के लिए मान हैं, जिनका उपयोग हम पश्च भाग के किसी भी गुण की गणना करने के लिए कर सकते हैं - उदाहरण के लिए इसका माध्य और विचरण, 95% उच्चतम-घनत्व क्षेत्र (सबसे छोटा अंतराल जिसमें कुल संभावना का 95% शामिल है), आदि।

यह दिखाया जा सकता है कि यह एल्गोरिदम स्थानीय अधिकतम में परिवर्तित होने की गारंटी देता है।

यह भी ध्यान दें कि पिछले वितरणों का स्वरूप संबंधित पिछले वितरणों के समान ही है। हमने यह नहीं माना; हमने जो एकमात्र धारणा बनाई वह यह थी कि वितरण गुणनखंडित होते हैं, और वितरण का स्वरूप स्वाभाविक रूप से अनुसरण किया जाता है। यह पता चला है (नीचे देखें) कि तथ्य यह है कि पिछले वितरणों का रूप पिछले वितरणों के समान है, यह कोई संयोग नहीं है, बल्कि एक सामान्य परिणाम है जब भी पिछले वितरण घातीय परिवार के सदस्य होते हैं, जो कि अधिकांश के लिए मामला है मानक वितरण.

स्टेप-बाय-स्टेप रेसिपी
उपरोक्त उदाहरण उस विधि को दर्शाता है जिसके द्वारा किसी दिए गए बायेसियन नेटवर्क में पश्च संभाव्यता घनत्व के लिए वैरिएबल-बायेसियन सन्निकटन प्राप्त किया जाता है:
 * 1) ग्राफ़िकल मॉडल के साथ नेटवर्क का वर्णन करें, देखे गए चर (डेटा) की पहचान करें $$\mathbf{X}$$ और न देखे गए चर (पैरामीटर) $$\boldsymbol\Theta$$ और अव्यक्त चर $$\mathbf{Z}$$) और उनके सशर्त संभाव्यता वितरण। वेरिएशनल बेज़ इसके बाद पश्च संभाव्यता का एक अनुमान तैयार करेंगे $$p(\mathbf{Z},\boldsymbol\Theta\mid\mathbf{X})$$. सन्निकटन की मूल संपत्ति यह है कि यह एक गुणनखंडित वितरण है, यानी न देखे गए चर के असंयुक्त उपसमुच्चय पर दो या दो से अधिक सांख्यिकीय स्वतंत्रता वितरण का उत्पाद है।
 * 2) न देखे गए चरों को दो या दो से अधिक उपसमूहों में विभाजित करें, जिन पर स्वतंत्र कारक प्राप्त किए जाएंगे। ऐसा करने की कोई सार्वभौमिक प्रक्रिया नहीं है; बहुत अधिक उपसमुच्चय बनाने से खराब सन्निकटन प्राप्त होता है, जबकि बहुत कम उपसमुच्चय बनाने से संपूर्ण परिवर्तनशील बेयस प्रक्रिया कठिन हो जाती है। आमतौर पर, पहला विभाजन पैरामीटर और अव्यक्त चर को अलग करने के लिए होता है; अक्सर, यह अपने आप में एक सुगम परिणाम उत्पन्न करने के लिए पर्याप्त होता है। मान लें कि विभाजन बुलाए गए हैं $$\mathbf{Z}_1,\ldots,\mathbf{Z}_M$$.
 * 3) किसी दिए गए विभाजन के लिए $$\mathbf{Z}_j$$, सर्वोत्तम अनुमानित वितरण के लिए सूत्र लिखें $$q_j^{*}(\mathbf{Z}_j\mid \mathbf{X})$$ मूल समीकरण का उपयोग करना $$\ln q_j^{*}(\mathbf{Z}_j\mid \mathbf{X}) = \operatorname{E}_{i \neq j} [\ln p(\mathbf{Z}, \mathbf{X})] + \text{constant}$$.
 * 4) ग्राफ़िकल मॉडल का उपयोग करके संयुक्त संभाव्यता वितरण के लिए सूत्र भरें। कोई भी घटक सशर्त वितरण जिसमें कोई भी चर शामिल नहीं है $$\mathbf{Z}_j$$ नजरअंदाज किया जा सकता है; उन्हें स्थिर अवधि में जोड़ दिया जाएगा।
 * 5) उपरोक्त उदाहरण का अनुसरण करते हुए सूत्र को सरल बनाएं और अपेक्षा ऑपरेटर लागू करें। आदर्श रूप से, इसे चर के बुनियादी कार्यों की अपेक्षाओं में सरलीकृत नहीं किया जाना चाहिए $$\mathbf{Z}_j$$ (जैसे पहला या दूसरा कच्चा क्षण (गणित), लघुगणक की अपेक्षा, आदि)। वेरिएबल बेयस प्रक्रिया को अच्छी तरह से काम करने के लिए, इन अपेक्षाओं को आम तौर पर इन चर के वितरण के मापदंडों और/या हाइपरपैरामीटर के कार्यों के रूप में विश्लेषणात्मक रूप से व्यक्त किया जाना चाहिए। सभी मामलों में, ये अपेक्षा शर्तें वर्तमान विभाजन में चर के संबंध में स्थिरांक हैं।
 * 6) वर्तमान विभाजन में चर के संबंध में सूत्र का कार्यात्मक रूप वितरण के प्रकार को इंगित करता है। विशेष रूप से, सूत्र को घातांकित करने से वितरण की संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) उत्पन्न होती है (या कम से कम, इसके लिए कुछ आनुपातिक, अज्ञात सामान्यीकरण स्थिरांक के साथ)। समग्र विधि को ट्रैक्टेबल बनाने के लिए, ज्ञात वितरण से संबंधित कार्यात्मक रूप को पहचानना संभव होना चाहिए। सूत्र को ज्ञात वितरण के पीडीएफ से मेल खाने वाले फॉर्म में बदलने के लिए महत्वपूर्ण गणितीय हेरफेर की आवश्यकता हो सकती है। जब यह किया जा सकता है, तो सामान्यीकरण स्थिरांक को परिभाषा द्वारा बहाल किया जा सकता है, और ज्ञात वितरण के मापदंडों के लिए समीकरण सूत्र के उचित भागों को निकालकर प्राप्त किया जा सकता है।
 * 7) जब सभी अपेक्षाओं को विश्लेषणात्मक रूप से उन चरों के कार्यों से बदला जा सकता है जो वर्तमान विभाजन में नहीं हैं, और पीडीएफ को एक ऐसे रूप में रखा जाता है जो ज्ञात वितरण के साथ पहचान की अनुमति देता है, तो परिणाम समीकरणों का एक सेट होता है जो इष्टतम मापदंडों के मूल्यों को कार्यों के रूप में व्यक्त करता है अन्य विभाजनों में चर के पैरामीटर।
 * 8) जब इस प्रक्रिया को सभी विभाजनों पर लागू किया जा सकता है, तो परिणाम सभी मापदंडों के इष्टतम मूल्यों को निर्दिष्ट करने वाले परस्पर जुड़े समीकरणों का एक सेट होता है।
 * 9) फिर एक अपेक्षा अधिकतमीकरण (ईएम) प्रकार की प्रक्रिया लागू की जाती है, प्रत्येक पैरामीटर के लिए एक प्रारंभिक मान चुना जाता है और चरणों की एक श्रृंखला के माध्यम से पुनरावृत्ति की जाती है, जहां प्रत्येक चरण में हम समीकरणों के माध्यम से चक्र करते हैं, प्रत्येक पैरामीटर को बारी-बारी से अपडेट करते हैं। यह जुटने की गारंटी है.

सबसे महत्वपूर्ण बिंदु
इसमें शामिल सभी गणितीय जोड़-तोड़ों के कारण, बड़ी तस्वीर का ध्यान भटकाना आसान है। महत्वपूर्ण बातें ये हैं:
 * 1) वैरिएबल बेयस का विचार डेटा को देखते हुए, न देखे गए चर (पैरामीटर और अव्यक्त चर) के सेट की पिछली संभावना के लिए एक विश्लेषणात्मक सन्निकटन का निर्माण करना है। इसका मतलब यह है कि समाधान का रूप अन्य बायेसियन अनुमान विधियों के समान है, जैसे कि गिब्स नमूनाकरण - यानी एक वितरण जो चर के बारे में ज्ञात हर चीज का वर्णन करना चाहता है। जैसा कि अन्य बायेसियन तरीकों में होता है - लेकिन उदाहरण के विपरीत। अपेक्षा अधिकतमीकरण (ईएम) या अन्य अधिकतम संभावना विधियों में - दोनों प्रकार के अप्राप्य चर (यानी पैरामीटर और अव्यक्त चर) को समान माना जाता है, यानी यादृच्छिक चर के रूप में। फिर चरों का अनुमान मानक बायेसियन तरीकों से प्राप्त किया जा सकता है, जैसे एकल बिंदु अनुमान प्राप्त करने के लिए वितरण के माध्य की गणना करना या एक विश्वसनीय अंतराल, उच्चतम घनत्व क्षेत्र आदि प्राप्त करना।
 * 2) विश्लेषणात्मक सन्निकटन का अर्थ है कि पश्च वितरण के लिए एक सूत्र लिखा जा सकता है। सूत्र में आम तौर पर प्रसिद्ध संभाव्यता वितरण का एक उत्पाद शामिल होता है, जिनमें से प्रत्येक न देखे गए चर के एक सेट पर कारक होता है (यानी, देखे गए डेटा को देखते हुए, यह अन्य चर से सशर्त रूप से स्वतंत्र है)। यह सूत्र वास्तविक पश्च वितरण नहीं है, बल्कि इसका एक अनुमान है; विशेष रूप से, यह आम तौर पर न देखे गए चरों के निम्नतम क्षण (गणित) में काफी निकटता से सहमत होगा, उदाहरण के लिए माध्य और विचरण.
 * 3) सभी गणितीय जोड़-तोड़ों का परिणाम है (1) कारकों को बनाने वाले संभाव्यता वितरण की पहचान, और (2) इन वितरणों के मापदंडों के लिए परस्पर निर्भर सूत्र। इन मापदंडों के वास्तविक मूल्यों की गणना ईएम की तरह एक वैकल्पिक पुनरावृत्त प्रक्रिया के माध्यम से संख्यात्मक रूप से की जाती है।

अपेक्षा अधिकतमकरण (ईएम) के साथ तुलना में
वेरिएशनल बेयस (वीबी) की तुलना अक्सर अपेक्षा अधिकतमकरण (ईएम) से की जाती है। वास्तविक संख्यात्मक प्रक्रिया काफी समान है, जिसमें दोनों वैकल्पिक पुनरावृत्त प्रक्रियाएं हैं जो क्रमिक रूप से इष्टतम पैरामीटर मानों पर एकत्रित होती हैं। संबंधित प्रक्रियाओं को प्राप्त करने के प्रारंभिक चरण भी अस्पष्ट रूप से समान हैं, दोनों संभाव्यता घनत्व के सूत्रों के साथ शुरू होते हैं और दोनों में महत्वपूर्ण मात्रा में गणितीय जोड़-तोड़ शामिल होते हैं।

हालाँकि, इसमें कई अंतर हैं। सबसे महत्वपूर्ण यह है कि गणना क्या की जा रही है।
 * ईएम उन यादृच्छिक चरों के पश्च वितरण के बिंदु अनुमानों की गणना करता है जिन्हें मापदंडों के रूप में वर्गीकृत किया जा सकता है, लेकिन केवल अव्यक्त चर के वास्तविक पश्च वितरण का अनुमान (कम से कम नरम ईएम में, और अक्सर केवल जब अव्यक्त चर अलग होते हैं)। गणना किए गए बिंदु अनुमान इन मापदंडों के मोड (सांख्यिकी) हैं; कोई अन्य जानकारी उपलब्ध नहीं है.
 * दूसरी ओर, वीबी सभी चर, दोनों मापदंडों और अव्यक्त चर के वास्तविक पश्च वितरण के अनुमान की गणना करता है। जब बिंदु अनुमान प्राप्त करने की आवश्यकता होती है, तो आमतौर पर मोड के बजाय माध्य का उपयोग किया जाता है, जैसा कि बायेसियन अनुमान में सामान्य है। इसके साथ ही, वीबी में गणना किए गए मापदंडों का ईएम के समान महत्व नहीं है। ईएम बेयस नेटवर्क के मापदंडों के इष्टतम मूल्यों की गणना स्वयं करता है। वीबी बेयस नेटवर्क के मापदंडों और अव्यक्त चर का अनुमान लगाने के लिए उपयोग किए जाने वाले वितरण के मापदंडों के इष्टतम मूल्यों की गणना करता है। उदाहरण के लिए, एक विशिष्ट गाऊसी मिश्रण मॉडल में प्रत्येक मिश्रण घटक के माध्य और विचरण के लिए पैरामीटर होंगे। ईएम सीधे इन मापदंडों के लिए इष्टतम मूल्यों का अनुमान लगाएगा। हालाँकि, वीबी पहले इन मापदंडों के अनुसार एक वितरण को फिट करेगा - आम तौर पर पूर्व वितरण के रूप में, उदाहरण के लिए। एक सामान्य-स्केल व्युत्क्रम गामा वितरण - और फिर इस पूर्व वितरण के मापदंडों के लिए मूल्यों की गणना करेगा, यानी अनिवार्य रूप से हाइपरपैरामीटर। इस मामले में, वीबी सामान्य-स्केल व्युत्क्रम गामा वितरण के चार मापदंडों के इष्टतम अनुमानों की गणना करेगा जो घटक के माध्य और विचरण के संयुक्त वितरण का वर्णन करता है।

एक अधिक जटिल उदाहरण
एक बायेसियन गाऊसी मिश्रण मॉडल की कल्पना करें जिसका वर्णन इस प्रकार है:



\begin{align} \mathbf{\pi} & \sim \operatorname{SymDir}(K, \alpha_0) \\ \mathbf{\Lambda}_{i=1 \dots K} & \sim \mathcal{W}(\mathbf{W}_0, \nu_0) \\ \mathbf{\mu}_{i=1 \dots K} & \sim \mathcal{N}(\mathbf{\mu}_0, (\beta_0 \mathbf{\Lambda}_i)^{-1}) \\ \mathbf{z}[i = 1 \dots N] & \sim \operatorname{Mult}(1, \mathbf{\pi}) \\ \mathbf{x}_{i=1 \dots N} & \sim \mathcal{N}(\mathbf{\mu}_{z_i}, {\mathbf{\Lambda}_{z_i}}^{-1}) \\ K &= \text{number of mixing components} \\ N &= \text{number of data points} \end{align} $$ टिप्पणी:
 * SymDir आयाम का सममित डिरिचलेट वितरण है $$K$$, प्रत्येक घटक के लिए हाइपरपैरामीटर सेट के साथ $$\alpha_0$$. डिरिचलेट वितरण श्रेणीबद्ध वितरण या बहुपद वितरण से पहले का संयुग्म है।
 * $$\mathcal{W}$$ विशार्ट वितरण है, जो बहुभिन्नरूपी गॉसियन वितरण के लिए सटीक मैट्रिक्स (व्युत्क्रम परिशुद्धता मैट्रिक्स) का संयुग्मित पूर्व है।
 * मल्टी एकल अवलोकन पर एक बहुपद वितरण है (एक श्रेणीबद्ध वितरण के बराबर)। राज्य स्थान एक-के-के प्रतिनिधित्व है, यानी, ए $$K$$-आयामी वेक्टर जिसमें तत्वों में से एक 1 है (अवलोकन की पहचान निर्दिष्ट करते हुए) और अन्य सभी तत्व 0 हैं।
 * $$\mathcal{N}$$ गाऊसी वितरण है, इस मामले में विशेष रूप से बहुभिन्नरूपी गाऊसी वितरण।

उपरोक्त चरों की व्याख्या इस प्रकार है:
 * $$\mathbf{X} = \{\mathbf{x}_1, \dots, \mathbf{x}_N\}$$ का सेट है $$N$$ डेटा बिंदु, जिनमें से प्रत्येक एक है $$D$$-आयामी वेक्टर को बहुभिन्नरूपी गॉसियन वितरण के अनुसार वितरित किया जाता है।
 * $$\mathbf{Z} = \{\mathbf{z}_1, \dots, \mathbf{z}_N\}$$ अव्यक्त चर का एक सेट है, प्रति डेटा बिंदु एक, घटकों के साथ एक-के-वेक्टर प्रतिनिधित्व का उपयोग करके निर्दिष्ट करता है कि संबंधित डेटा बिंदु किस मिश्रण घटक से संबंधित है $$z_{nk}$$ के लिए $$k = 1 \dots K$$, जैसा ऊपर वर्णित है।
 * $$\mathbf{\pi}$$ के लिए मिश्रण अनुपात है $$K$$ मिश्रण घटक.
 * $$\mathbf{\mu}_{i=1 \dots K}$$ और $$\mathbf{\Lambda}_{i=1 \dots K}$$ प्रत्येक मिश्रण घटक से जुड़े पैरामीटर (माध्य और परिशुद्धता (सांख्यिकी)) निर्दिष्ट करें।

सभी चरों की संयुक्त प्रायिकता को इस प्रकार पुनः लिखा जा सकता है


 * $$p(\mathbf{X},\mathbf{Z},\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda}) = p(\mathbf{X}\mid \mathbf{Z},\mathbf{\mu},\mathbf{\Lambda}) p(\mathbf{Z}\mid \mathbf{\pi}) p(\mathbf{\pi}) p(\mathbf{\mu}\mid \mathbf{\Lambda}) p(\mathbf{\Lambda})$$

जहां व्यक्तिगत कारक हैं



\begin{align} p(\mathbf{X}\mid \mathbf{Z},\mathbf{\mu},\mathbf{\Lambda}) & = \prod_{n=1}^N \prod_{k=1}^K \mathcal{N}(\mathbf{x}_n\mid \mathbf{\mu}_k,\mathbf{\Lambda}_k^{-1})^{z_{nk}} \\ p(\mathbf{Z}\mid \mathbf{\pi}) & = \prod_{n=1}^N \prod_{k=1}^K \pi_k^{z_{nk}} \\ p(\mathbf{\pi}) & = \frac{\Gamma(K\alpha_0)}{\Gamma(\alpha_0)^K} \prod_{k=1}^K \pi_k^{\alpha_0-1} \\ p(\mathbf{\mu}\mid \mathbf{\Lambda}) & = \prod_{k=1}^K \mathcal{N}(\mathbf{\mu}_k\mid \mathbf{\mu}_0,(\beta_0 \mathbf{\Lambda}_k)^{-1}) \\ p(\mathbf{\Lambda}) & = \prod_{k=1}^K \mathcal{W}(\mathbf{\Lambda}_k\mid \mathbf{W}_0, \nu_0) \end{align} $$ कहाँ



\begin{align} \mathcal{N}(\mathbf{x}\mid \mathbf{\mu},\mathbf{\Sigma}) & = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\mathbf{\Sigma}|^{1/2}} \exp \left\{ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\rm T} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right\} \\ \mathcal{W}(\mathbf{\Lambda}\mid \mathbf{W},\nu) & = B(\mathbf{W},\nu) |\mathbf{\Lambda}|^{(\nu-D-1)/2} \exp \left(-\frac{1}{2} \operatorname{Tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) \right) \\ B(\mathbf{W},\nu) & = |\mathbf{W}|^{-\nu/2} \left\{ 2^{\nu D/2} \pi^{D(D-1)/4} \prod_{i=1}^{D} \Gamma\left(\frac{\nu + 1 - i}{2}\right) \right\}^{-1} \\ D & = \text{dimensionality of each data point} \end{align} $$ ये मान लीजिए $$q(\mathbf{Z},\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda}) = q(\mathbf{Z})q(\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda})$$.

तब



\begin{align} \ln q^*(\mathbf{Z}) &= \operatorname{E}_{\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda}}[\ln p(\mathbf{X},\mathbf{Z},\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda})] + \text{constant} \\ &= \operatorname{E}_{\mathbf{\pi}}[\ln p(\mathbf{Z}\mid \mathbf{\pi})] + \operatorname{E}_{\mathbf{\mu},\mathbf{\Lambda}}[\ln p(\mathbf{X}\mid \mathbf{Z},\mathbf{\mu},\mathbf{\Lambda})] + \text{constant} \\ &= \sum_{n=1}^N \sum_{k=1}^K z_{nk} \ln \rho_{nk} + \text{constant} \end{align} $$ जहां हमने परिभाषित किया है


 * $$\ln \rho_{nk} = \operatorname{E}[\ln \pi_k] + \frac{1}{2} \operatorname{E}[\ln |\mathbf{\Lambda}_k|] - \frac{D}{2} \ln(2\pi) - \frac{1}{2} \operatorname{E}_{\mathbf{\mu}_k,\mathbf{\Lambda}_k} [(\mathbf{x}_n - \mathbf{\mu}_k)^{\rm T} \mathbf{\Lambda}_k (\mathbf{x}_n - \mathbf{\mu}_k)]$$

के लिए सूत्र के दोनों पक्षों का घातांक लगाना $$\ln q^*(\mathbf{Z})$$ पैदावार


 * $$q^*(\mathbf{Z}) \propto \prod_{n=1}^N \prod_{k=1}^K \rho_{nk}^{z_{nk}}$$

इसे सामान्य बनाने की आवश्यकता के कारण यह आवश्यक हो जाता है $$\rho_{nk}$$ के सभी मानों का योग 1 है $$k$$, उपज


 * $$q^*(\mathbf{Z}) = \prod_{n=1}^N \prod_{k=1}^K r_{nk}^{z_{nk}}$$

कहाँ


 * $$r_{nk} = \frac{\rho_{nk}}{\sum_{j=1}^K \rho_{nj}}$$

दूसरे शब्दों में, $$q^*(\mathbf{Z})$$ एकल-अवलोकन बहुपद वितरण और प्रत्येक व्यक्ति पर कारकों का एक उत्पाद है $$\mathbf{z}_n$$, जिसे मापदंडों के साथ एकल-अवलोकन बहुपद वितरण के रूप में वितरित किया जाता है $$r_{nk}$$ के लिए $$k = 1 \dots K$$.

इसके अलावा, हम उस पर ध्यान देते हैं


 * $$\operatorname{E}[z_{nk}] = r_{nk} \, $$

जो श्रेणीबद्ध वितरण के लिए एक मानक परिणाम है।

अब, कारक पर विचार करें $$q(\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda})$$, ध्यान दें कि यह स्वचालित रूप से इसमें शामिल होता है $$q(\mathbf{\pi}) \prod_{k=1}^K q(\mathbf{\mu}_k,\mathbf{\Lambda}_k)$$ हमारे गॉसियन मिश्रण मॉडल को परिभाषित करने वाले ग्राफिकल मॉडल की संरचना के कारण, जो ऊपर निर्दिष्ट है।

तब,



\begin{align} \ln q^*(\mathbf{\pi}) &= \ln p(\mathbf{\pi}) + \operatorname{E}_{\mathbf{Z}}[\ln p(\mathbf{Z}\mid \mathbf{\pi})] + \text{constant} \\ &= (\alpha_0 - 1) \sum_{k=1}^K \ln \pi_k + \sum_{n=1}^N \sum_{k=1}^K r_{nk} \ln \pi_k + \text{constant} \end{align} $$ दोनों पक्षों का घातांक लेते हुए हम पहचानते हैं $$q^*(\mathbf{\pi})$$ डिरिचलेट वितरण के रूप में


 * $$q^*(\mathbf{\pi}) \sim \operatorname{Dir}(\mathbf{\alpha}) \, $$

कहाँ


 * $$\alpha_k = \alpha_0 + N_k \, $$

कहाँ


 * $$N_k = \sum_{n=1}^N r_{nk} \, $$

आखिरकार


 * $$\ln q^*(\mathbf{\mu}_k,\mathbf{\Lambda}_k) = \ln p(\mathbf{\mu}_k,\mathbf{\Lambda}_k) + \sum_{n=1}^N \operatorname{E}[z_{nk}] \ln \mathcal{N}(\mathbf{x}_n\mid \mathbf{\mu}_k,\mathbf{\Lambda}_k^{-1}) + \text{constant}$$

शामिल शर्तों को समूहीकृत करना और पढ़ना $$\mathbf{\mu}_k$$ और $$\mathbf{\Lambda}_k$$, परिणाम गाऊसी-विशार्ट वितरण द्वारा दिया गया है


 * $$q^*(\mathbf{\mu}_k,\mathbf{\Lambda}_k) = \mathcal{N}(\mathbf{\mu}_k\mid \mathbf{m}_k,(\beta_k \mathbf{\Lambda}_k)^{-1}) \mathcal{W}(\mathbf{\Lambda}_k\mid \mathbf{W}_k,\nu_k)$$

परिभाषाएँ दी गईं



\begin{align} \beta_k            &= \beta_0 + N_k \\ \mathbf{m}_k       &= \frac{1}{\beta_k} (\beta_0 \mathbf{\mu}_0 + N_k {\bar{\mathbf{x}}}_k) \\ \mathbf{W}_k^{-1}  &= \mathbf{W}_0^{-1} + N_k \mathbf{S}_k + \frac{\beta_0 N_k}{\beta_0 + N_k} ({\bar{\mathbf{x}}}_k - \mathbf{\mu}_0)({\bar{\mathbf{x}}}_k - \mathbf{\mu}_0)^{\rm T} \\ \nu_k              &= \nu_0 + N_k \\ N_k                &= \sum_{n=1}^N r_{nk} \\ {\bar{\mathbf{x}}}_k &= \frac{1}{N_k} \sum_{n=1}^N r_{nk} \mathbf{x}_n \\ \mathbf{S}_k       &= \frac{1}{N_k} \sum_{n=1}^N r_{nk} (\mathbf{x}_n - {\bar{\mathbf{x}}}_k) (\mathbf{x}_n - {\bar{\mathbf{x}}}_k)^{\rm T} \end{align} $$ अंत में, ध्यान दें कि इन कार्यों के लिए मानों की आवश्यकता होती है $$r_{nk}$$, जिसका उपयोग किया जाता है $$\rho_{nk}$$, जिसके आधार पर बारी-बारी से परिभाषित किया गया है $$\operatorname{E}[\ln \pi_k]$$, $$\operatorname{E}[\ln |\mathbf{\Lambda}_k|]$$, और $$\operatorname{E}_{\mathbf{\mu}_k,\mathbf{\Lambda}_k} [(\mathbf{x}_n - \mathbf{\mu}_k)^{\rm T} \mathbf{\Lambda}_k (\mathbf{x}_n - \mathbf{\mu}_k)]$$. अब जब हमने उन वितरणों को निर्धारित कर लिया है जिन पर ये अपेक्षाएँ ली गई हैं, तो हम उनके लिए सूत्र प्राप्त कर सकते हैं:



\begin{align} \operatorname{E}_{\mathbf{\mu}_k,\mathbf{\Lambda}_k} [(\mathbf{x}_n - \mathbf{\mu}_k)^{\rm T} \mathbf{\Lambda}_k (\mathbf{x}_n - \mathbf{\mu}_k)] & = D\beta_k^{-1} + \nu_k (\mathbf{x}_n - \mathbf{m}_k)^{\rm T} \mathbf{W}_k (\mathbf{x}_n - \mathbf{m}_k) \\ \ln {\widetilde{\Lambda}}_k &\equiv \operatorname{E}[\ln |\mathbf{\Lambda}_k|] = \sum_{i=1}^D \psi \left(\frac{\nu_k + 1 - i}{2}\right) + D \ln 2 + \ln |\mathbf{W}_k| \\ \ln {\widetilde{\pi}}_k &\equiv \operatorname{E}\left[\ln |\pi_k|\right] = \psi(\alpha_k) - \psi\left(\sum_{i=1}^K \alpha_i\right) \end{align} $$ इन परिणामों की ओर ले जाते हैं


 * $$r_{nk} \propto {\widetilde{\pi}}_k {\widetilde{\Lambda}}_k^{1/2} \exp \left\{ - \frac{D}{2 \beta_k} - \frac{\nu_k}{2} (\mathbf{x}_n - \mathbf{m}_k)^{\rm T} \mathbf{W}_k (\mathbf{x}_n - \mathbf{m}_k) \right\}$$

इन्हें सामान्यीकृत करके आनुपातिक से निरपेक्ष मान में परिवर्तित किया जा सकता है $$k$$ ताकि संबंधित मानों का योग 1 हो।

ध्यान दें कि:


 * 1) पैरामीटर के लिए अद्यतन समीकरण $$\beta_k$$, $$\mathbf{m}_k$$, $$\mathbf{W}_k$$ और $$\nu_k$$ चरों का $$\mathbf{\mu}_k$$ और $$\mathbf{\Lambda}_k$$ आंकड़ों पर निर्भर $$N_k$$, $${\bar{\mathbf{x}}}_k$$, और $$\mathbf{S}_k$$, और ये आँकड़े बदले में निर्भर करते हैं $$r_{nk}$$.
 * 2) पैरामीटर के लिए अद्यतन समीकरण $$\alpha_{1 \dots K}$$ चर का $$\mathbf{\pi}$$ आंकड़ों पर निर्भर $$N_k$$, जो बदले में निर्भर करता है $$r_{nk}$$.
 * 3) के लिए अद्यतन समीकरण $$r_{nk}$$ पर प्रत्यक्ष चक्रीय निर्भरता है $$\beta_k$$, $$\mathbf{m}_k$$, $$\mathbf{W}_k$$ और $$\nu_k$$ साथ ही अप्रत्यक्ष चक्रीय निर्भरता भी $$\mathbf{W}_k$$, $$\nu_k$$ और $$\alpha_{1 \dots K}$$ द्वारा $${\widetilde{\pi}}_k$$ और $${\widetilde{\Lambda}}_k$$.

यह एक पुनरावृत्तीय प्रक्रिया का सुझाव देता है जो दो चरणों के बीच वैकल्पिक होती है:


 * 1) एक ई-स्टेप जो के मूल्य की गणना करता है $$r_{nk}$$ अन्य सभी पैरामीटरों के वर्तमान मानों का उपयोग करना।
 * 2) एक एम-स्टेप जो नए मान का उपयोग करता है $$r_{nk}$$ अन्य सभी मापदंडों के नए मूल्यों की गणना करने के लिए।

ध्यान दें कि गाऊसी मिश्रण मॉडल के मापदंडों के लिए अधिकतम संभावना या अधिकतम पोस्टीरियरी (एमएपी) समाधान प्राप्त करने के लिए ये चरण मानक ईएम एल्गोरिथ्म के साथ निकटता से मेल खाते हैं। ज़िम्मेदारियाँ $$r_{nk}$$ ई चरण में डेटा दिए गए अव्यक्त चर की पिछली संभावना से निकटता से मेल खाता है, यानी। $$p(\mathbf{Z}\mid \mathbf{X})$$; सांख्यिकी की गणना $$N_k$$, $${\bar{\mathbf{x}}}_k$$, और $$\mathbf{S}_k$$ डेटा पर संगत सॉफ्ट-काउंट आँकड़ों की गणना से निकटता से मेल खाता है; और पैरामीटर के नए मानों की गणना करने के लिए उन आँकड़ों का उपयोग गाऊसी मिश्रण मॉडल पर सामान्य ईएम में नए पैरामीटर मानों की गणना करने के लिए सॉफ्ट काउंट के उपयोग से निकटता से मेल खाता है।

घातांकीय-पारिवारिक वितरण
ध्यान दें कि पिछले उदाहरण में, एक बार न देखे गए चर पर वितरण को मापदंडों पर वितरण और अव्यक्त डेटा पर वितरण में कारक मान लिया गया था, प्रत्येक चर के लिए व्युत्पन्न सर्वोत्तम वितरण चर पर संबंधित पूर्व वितरण के समान परिवार में था। यह एक सामान्य परिणाम है जो घातीय परिवार से प्राप्त सभी पूर्व वितरणों के लिए सही है।

यह भी देखें

 * विविध संदेश भेजना: वेरिएशनल बायेसियन अनुमान के लिए एक मॉड्यूलर एल्गोरिदम।
 * वैरिएशनल ऑटोएनकोडर : संभाव्य ग्राफिकल मॉडल और वेरिएशनल बायेसियन तरीकों के परिवारों से संबंधित एक कृत्रिम तंत्रिका नेटवर्क।
 * अपेक्षा-अधिकतमकरण एल्गोरिथ्म: एक संबंधित दृष्टिकोण जो परिवर्तनशील बायेसियन अनुमान के एक विशेष मामले से मेल खाता है।
 * सामान्यीकृत फ़िल्टरिंग: नॉनलाइनियर स्टेट स्पेस मॉडल के लिए एक परिवर्तनीय फ़िल्टरिंग योजना।
 * विविधताओं की गणना: गणितीय विश्लेषण का क्षेत्र जो कार्यात्मकताओं को अधिकतम या न्यूनतम करने से संबंधित है।
 * अधिकतम एन्ट्रापी भेदभाव: यह एक परिवर्तनशील अनुमान ढांचा है जो अतिरिक्त बड़े-मार्जिन बाधाओं को पेश करने और लेखांकन की अनुमति देता है

बाहरी संबंध

 * The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay provides an introduction to variational methods (p. 422).
 * A Tutorial on Variational Bayes. Fox, C. and Roberts, S. 2012. Artificial Intelligence Review,.
 * Variational-Bayes Repository A repository of research papers, software, and links related to the use of variational methods for approximate Bayesian learning up to 2003.
 * Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs.
 * High-Level Explanation of Variational Inference by Jason Eisner may be worth reading before a more mathematically detailed treatment.
 * Copula Variational Bayes inference via information geometry (pdf) by Tran, V.H. 2018. This paper is primarily written for students. Via Bregman divergence, the paper shows that Variational Bayes is simply a generalized Pythagorean projection of true model onto an arbitrarily correlated (copula) distributional space, of which the independent space is merely a special case.