वैरिएशनल बायेसियन विधियाँ

वेरिएशनल बायेसियन विधियाँ बायेसियन अनुमान और यंत्र अधिगम में उत्पन्न होने वाले असाध्य अभिन्न का अनुमान लगाने की विधि का वर्ग है। इनका उपयोग सामान्यतः जटिल सांख्यिकीय मॉडल में किया जाता है जिसमें प्रेक्षित वेरिएबल (सामान्यतः डेटा कहा जाता है) के साथ-साथ अज्ञात पैरामीटर और अव्यक्त वेरिएबल होते हैं, तथा तीन प्रकार के यादृच्छिक वेरिएबल के मध्य विभिन्न प्रकार के संबंधों के साथ होता है, जैसा कि चित्रमय मॉडल द्वारा वर्णित किया जा सकता है। जैसा कि बायेसियन अनुमान में विशिष्ट है, पैरामीटर और अव्यक्त वेरिएबल को साथ न देखे गए वेरिएबल के रूप में समूहीकृत किया जाता है। वेरिएशनल बायेसियन विधियाँ मुख्य रूप से दो उद्देश्यों के लिए उपयोग की जाती हैं:
 * 1) इन वेरिएबलों का कार्य इन पर सांख्यिकीय अनुमान लगाने के लिए, न देखे गए वेरिएबलों की पिछली संभावना के लिए विश्लेषणात्मक अनुमान प्रदान करना होता है।
 * 2) अवलोकित डेटा की सीमांत संभावना (जिसे कभी-कभी साक्ष्य भी कहा जाता है) के लिए निचली सीमा प्राप्त करना है | (अर्थात मॉडल दिए गए डेटा की सीमांत संभावना, बिना देखे गए वेरिएबल पर मर्गिनाल्स पर प्रदर्शन के साथ)। इसका उपयोग सामान्यतः मॉडल चयन करने के लिए किया जाता है, तथा सामान्य विचार यह है कि किसी दिए गए मॉडल के लिए उच्च सीमांत संभावना उस मॉडल द्वारा डेटा के उत्तम फिट को निरुपित करती है और इसलिए अधिक संभावना है कि प्रश्न में मॉडल वह था जिसने डेटा उत्पन्न किया था। (बेयस फैक्टर लेख भी देखें।)

पूर्व उद्देश्य में (पश्च संभाव्यता का अनुमान लगाने के लिए), वैरिएबल बेयस मोंटे कार्लो नमूनाकरण विधियों का विकल्प है - विशेष रूप से, मार्कोव श्रृंखला मोंटे कार्लो विधियां जैसे गिब्स नमूनाकरण - जटिल संभाव्यता वितरण पर सांख्यिकीय अनुमान के लिए पूरी तरह से बायेसियन दृष्टिकोण लेने के लिए सीधे या नमूना (सांख्यिकी) का विशेष रूप से मूल्यांकन करना कठिन है। जबकि मोंटे कार्लो विधि प्रतिरूपों के समुच्चय का उपयोग करके त्रुटिहीन पोस्टीरियर के लिए संख्यात्मक अनुमान प्रदान करती है, वेरिएबल बेयस पोस्टीरियर के अनुमान के लिए स्थानीय-इष्टतम, त्रुटिहीन विश्लेषणात्मक समाधान प्रदान करता है।

वैरिएशनल बेयस को एक्सपेक्टेशन-मैक्सिमाइजेशन एल्गोरिदम के विस्तार के रूप में देखा जा सकता है। एक्सपेक्टेशन-मैक्सिमाइजेशन (ईएम) एल्गोरिदम प्रत्येक पैरामीटर के एकल सबसे संभावित मूल्य के अधिकतम पोस्टीरियरी अनुमान (एमएपी अनुमान) से लेकर पूरी तरह से बायेसियन अनुमान तक, जो (एक अनुमान) की गणना करता है। ) मापदंडों और अव्यक्त वेरिएबल का संपूर्ण पश्च वितरण। ईएम की तरह, यह इष्टतम पैरामीटर मानों का समुच्चय ढूंढता है, और इसमें ईएम के समान ही वैकल्पिक संरचना होती है, जो इंटरलॉक्ड (परस्पर निर्भर) समीकरणों के समुच्चय पर आधारित होती है जिसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है।

अनेक अनुप्रयोगों के लिए, वैरिएबल बेयस अधिक गति से गिब्स सैंपलिंग के तुलनीय त्रुटिहीनता के समाधान तैयार करता है। चूँकि, मापदंडों को अद्यतन करने के लिए उपयोग किए जाने वाले समीकरणों के समुच्चय को प्राप्त करने के लिए अधिकांशतः तुलनीय गिब्स नमूना समीकरणों को प्राप्त करने की तुलना में बड़ी मात्रा में काम की आवश्यकता होती है। यह अनेक मॉडलों के लिए भी स्तिथि है जो वैचारिक रूप से अधिक सरल हैं, जैसा कि केवल दो मापदंडों और कोई अव्यक्त वेरिएबल के साथ मूलभूत गैर-पदानुक्रमित मॉडल के स्थितियां में नीचे दिखाया गया है।

समस्या
वैरिएबल अनुमान में, कुछ डेटा $$\mathbf{X}$$ दिए जाने पर न देखे गए वेरिएबल्स $$\mathbf{Z} = \{Z_1 \dots Z_n\}$$ के समुच्चय पर पश्च वितरण को तथाकथित वेरिएबल डिस्ट्रीब्यूशन, $$Q(\mathbf{Z}):$$द्वारा अनुमानित किया जाता है।
 * $$P(\mathbf{Z}\mid \mathbf{X}) \approx Q(\mathbf{Z}).$$

बंटवारा $$Q(\mathbf{Z})$$ $$P(\mathbf{Z}\mid \mathbf{X})$$ की तुलना में सरल रूप के वितरण के वर्ग से संबंधित होने तक सीमित है  (उदाहरण के लिए गॉसियन वितरण का वर्ग ), $$Q(\mathbf{Z})$$ बनाने के इरादे से चुना गया वास्तविक पश्च भाग के समान, $$P(\mathbf{Z}\mid \mathbf{X})$$ होगा |

समानता (या असमानता) को असमानता फलन $$d(Q; P)$$ के संदर्भ में मापा जाता है और इसलिए वितरण $$Q(\mathbf{Z})$$ का चयन करके अनुमान लगाया जाता है वह $$d(Q; P)$$ को न्यूनतम करता है |.

केएल विचलन
वैरिएबल बेज़ का सबसे सामान्य प्रकार असमानता फलन की पसंद के रूप में P से Q के कुल्बैक-लीब्लर डाइवर्जेंस (केएल-डाइवर्जेंस) का उपयोग करता है। यह विकल्प इस न्यूनतमकरण को सुव्यवस्थित बनाता है। केएल-विचलन को इस प्रकार परिभाषित किया गया है


 * $$D_{\mathrm{KL}}(Q \parallel P) \triangleq \sum_\mathbf{Z} Q(\mathbf{Z}) \log \frac{Q(\mathbf{Z})}{P(\mathbf{Z}\mid \mathbf{X})}.$$

ध्यान दें कि Q और P किसी की अपेक्षा से उलट हैं। उलटे केएल-विचलन का यह उपयोग अवधारणात्मक रूप से अपेक्षा-अधिकतमकरण एल्गोरिदम के समान है। (केएल-डाइवर्जेंस का दूसरे तरीके से उपयोग करने से अपेक्षा प्रसार एल्गोरिदम उत्पन्न होता है।)

दुरूहता
विभिन्न विधियों का उपयोग सामान्यतः इसका अनुमान लगाने के लिए किया जाता है:


 * $$P(\mathbf Z \mid \mathbf X) = \frac{P(\mathbf X \mid \mathbf Z)P(\mathbf Z)}{P(\mathbf X)} = \frac{P(\mathbf X \mid \mathbf Z)P(\mathbf Z)}{\int_{\mathbf Z} P(\mathbf X,\mathbf Z') \,d\mathbf Z'}$$

हर में $$P(\mathbf X)$$ की गणना करने के लिए $$\mathbf Z$$ से अधिक का मर्गिनाल्स पर जाना सामान्यतः कठिन है, क्योंकि, उदाहरण के लिए, $$\mathbf Z$$ का खोज स्थान संयुक्त रूप से बड़ा है। इसलिए, हम $$Q(\mathbf Z) \approx P(\mathbf Z \mid \mathbf X)$$ का उपयोग करके एक अनुमान करना चाहते हैं।

साक्ष्य निचली सीमा
मान लें कि $$P(\mathbf Z \mid \mathbf X) = \frac{P(\mathbf X, \mathbf Z)}{P(\mathbf X)}$$, उपरोक्त केएल-विचलन को इस प्रकार भी लिखा जा सकता है



D_{\mathrm{KL}}(Q \parallel P) = \sum_\mathbf{Z} Q(\mathbf{Z}) \left[ \log \frac{Q(\mathbf{Z})}{P(\mathbf{Z},\mathbf{X})} + \log P(\mathbf{X}) \right] = \sum_\mathbf{Z} Q(\mathbf{Z}) \left[ \log Q(\mathbf{Z}) -  \log P(\mathbf{Z},\mathbf{X}) \right] + \sum_\mathbf{Z}  Q(\mathbf{Z}) \left[ \log P(\mathbf{X}) \right] $$ क्योंकि $$P(\mathbf{X})$$ के संबंध में स्थिरांक $$\mathbf Z$$ है और $$\sum_\mathbf{Z} Q(\mathbf{Z}) = 1$$ क्योंकि $$Q(\mathbf{Z})$$ वितरण है, जो कि हमारे पास है

D_{\mathrm{KL}}(Q \parallel P) = \sum_\mathbf{Z} Q(\mathbf{Z}) \left[ \log Q(\mathbf{Z}) -  \log P(\mathbf{Z},\mathbf{X}) \right] + \log P(\mathbf{X}) $$ जिसे अपेक्षित मान की परिभाषा के अनुसार (एक असतत यादृच्छिक वेरिएबल के लिए) निम्नानुसार लिखा जा सकता है



D_{\mathrm{KL}}(Q \parallel P) = \mathbb{E}_{\mathbf Q } \left[ \log Q(\mathbf{Z}) - \log P(\mathbf{Z},\mathbf{X}) \right] + \log P(\mathbf{X}) $$ जिसे पुनर्व्यवस्थित करके बनाया जा सकता है

\log P(\mathbf{X}) = D_{\mathrm{KL}}(Q \parallel P) - \mathbb{E}_{\mathbf Q } \left[ \log Q(\mathbf{Z}) - \log P(\mathbf{Z},\mathbf{X}) \right] = D_{\mathrm{KL}}(Q\parallel P) + \mathcal{L}(Q) $$ चूंकि लॉग-साक्ष्य $$\log P(\mathbf{X})$$ $$Q$$ के संबंध में तय किया गया है, अंतिम पद $$\mathcal{L}(Q)$$ को अधिकतम करने से  $$P$$ से $$Q$$. का केएल विचलन कम हो जाता है। $$Q$$ के उचित विकल्प द्वारा, $$Q$$, $$\mathcal{L}(Q)$$ सुव्यवस्थित हो जाता है गणना करना और अधिकतम करना। इसलिए हमारे पास पश्च $$P(\mathbf{Z}\mid \mathbf{X})$$ के लिए एक विश्लेषणात्मक सन्निकटन और लॉग-साक्ष्य $$\log P(\mathbf{X})$$ के लिए निचली सीमा $$\mathcal{L}(Q)$$ दोनों हैं (चूंकि केएल-विचलन गैर-नकारात्मक है)।

निचली सीमा $$\mathcal{L}(Q)$$ इसे थर्मोडायनामिक मुक्त ऊर्जा के अनुरूप (ऋणात्मक) परिवर्तनशील मुक्त ऊर्जा के रूप में जाना जाता है क्योंकि इसे ऋणात्मक ऊर्जा के रूप में भी व्यक्त किया जा सकता है $$\operatorname{E}_{Q}[\log P(\mathbf{Z},\mathbf{X})]$$ प्लस $$Q$$ एन्ट्रॉपी (सूचना सिद्धांत)।. शब्द $$\mathcal{L}(Q)$$ इसे एविडेंस लोअर बाउंड के रूप में भी जाना जाता है, जिसे संक्षेप में एविडेंस लोअर बाउंड के रूप में जाना जाता है, इस बात पर जोर देने के लिए कि यह डेटा के लॉग-एविडेंस पर निचला बाउंड है।

प्रमाण
ब्रेगमैन विचलन के सामान्यीकृत पायथागॉरियन प्रमेय द्वारा, जिसमें केएल-विचलन विशेष स्तिथि है, यह दिखाया जा सकता है कि: :$$ D_{\mathrm{KL}}(Q\parallel P) \geq D_{\mathrm{KL}}(Q\parallel Q^{*}) + D_{\mathrm{KL}}(Q^{*}\parallel P), \forall Q^{*} \in\mathcal{C} $$ जहाँ $$\mathcal{C}$$ उत्तल समुच्चय है और समानता जब  कायम रहती है यदि:


 * $$ Q = Q^{*} \triangleq \arg\min_{Q\in\mathcal{C}}D_{\mathrm{KL}}(Q\parallel P). $$

इस स्थितियों में, वैश्विक न्यूनतमकर्ता $$Q^{*}(\mathbf{Z}) = q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)q^{*}(\mathbf{Z}_2) = q^{*}(\mathbf{Z}_2\mid\mathbf{Z}_1)q^{*}(\mathbf{Z}_1),$$ साथ $$\mathbf{Z}=\{\mathbf{Z_1},\mathbf{Z_2}\},$$ इस प्रकार पाया जा सकता है:


 * $$ q^{*}(\mathbf{Z}_2)

= \frac{P(\mathbf{X})}{\zeta(\mathbf{X})}\frac{P(\mathbf{Z}_2\mid\mathbf{X})}{\exp(D_{\mathrm{KL}}(q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)\parallel P(\mathbf{Z}_1\mid\mathbf{Z}_2,\mathbf{X})))} = \frac{1}{\zeta(\mathbf{X})}\exp\mathbb{E}_{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\left(\log\frac{P(\mathbf{Z},\mathbf{X})}{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\right),                                                                          $$ जिसमें सामान्यीकरण स्थिरांक है:


 * $$\zeta(\mathbf{X})

=P(\mathbf{X})\int_{\mathbf{Z}_2}\frac{P(\mathbf{Z}_2\mid\mathbf{X})}{\exp(D_{\mathrm{KL}}(q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)\parallel P(\mathbf{Z}_1\mid\mathbf{Z}_2,\mathbf{X})))} = \int_{\mathbf{Z}_{2}}\exp\mathbb{E}_{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\left(\log\frac{P(\mathbf{Z},\mathbf{X})}{q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2)}\right). $$ शब्द $$\zeta(\mathbf{X})$$ व्यवहार में इसे अधिकांशतः मॉडल एविडेंस लोअर बाउंड (ईएलबीओ) कहा जाता है क्योंकि $$P(\mathbf{X})\geq\zeta(\mathbf{X})=\exp(\mathcal{L}(Q^{*}))$$, जैसा कि उपर दिखाया गया है।

$$\mathbf{Z}_1$$और $$\mathbf{Z}_2,$$ की भूमिकाओं की अदला-बदली करके हम क्रमशः अनुमानित रूप से $$q^{*}(\mathbf{Z}_1)$$ और $$q^{*}(\mathbf{Z}_2)$$ और $$P(\mathbf{Z}_1\mid\mathbf{X})$$ और $$P(\mathbf{Z}_2\mid\mathbf{X}),$$ पुनरावर्ती गणना कर सकते हैं यद्यपि इस पुनरावृत्तीय योजना को नीरस रूप से अभिसरण करने की गारंटी है, एकत्रित $$Q^{*}$$ का केवल $$D_{\mathrm{KL}}(Q\parallel P)$$ स्थानीय मिनिमाइज़र है.

यदि विवश स्थान $$\mathcal{C}$$ स्वतंत्र स्थान के अंदर ही सीमित है, अर्थात $$q^{*}(\mathbf{Z}_1\mid\mathbf{Z}_2) = q^{*}(\mathbf{Z_1}),$$उपरोक्त पुनरावृत्तीय योजना तथाकथित माध्य क्षेत्र सन्निकटन बन जाएगी $$Q^{*}(\mathbf{Z}) = q^{*}(\mathbf{Z}_1)q^{*}(\mathbf{Z}_2),$$जैसा कि नीचे दिया गया है।

माध्य क्षेत्र सन्निकटन
परिवर्तनशील वितरण $$Q(\mathbf{Z})$$ सामान्यतः यह माना जाता है कि अव्यक्त वेरिएबल के समुच्चय के कुछ विभाजन पर कारक बनाया जाता है, अर्थात अव्यक्त वेरिएबल के कुछ विभाजन के लिए $$\mathbf{Z}$$ में $$\mathbf{Z}_1 \dots \mathbf{Z}_M$$ सम्मिलित होगा


 * $$Q(\mathbf{Z}) = \prod_{i=1}^M q_i(\mathbf{Z}_i\mid \mathbf{X})$$

इसे विविधताओं की गणना (इसलिए नाम वेरिएबल बेयस) का उपयोग करके दिखाया जा सकता है कि सबसे अच्छा वितरण $$q_j^{*}$$ प्रत्येक कारक के लिए $$q_j$$ (वितरण के संदर्भ में केएल विचलन को न्यूनतम करना, जैसा कि ऊपर वर्णित है) संतुष्ट करता है:


 * $$q_j^{*}(\mathbf{Z}_j\mid \mathbf{X}) = \frac{e^{\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]}}{\int e^{\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]}\, d\mathbf{Z}_j}$$

जहाँ $$\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]$$ डेटा और अव्यक्त वेरिएबल की संयुक्त संभावना के लघुगणक का अपेक्षित मूल्य है, जिसके संबंध में $$q^*$$ लिया गया है  विभाजन में उपस्तिथ सभी वेरिएबल्स पर: लेम्मा 4.1 का संदर्भ लें $$q_j^{*}(\mathbf{Z}_j\mid \mathbf{X})$$  वितरण की व्युत्पत्ति के लिए किया जाता है.

व्यवहार में, हम सामान्यतः लघुगणक के संदर्भ में काम करते हैं, अर्थात:


 * $$\ln q_j^{*}(\mathbf{Z}_j\mid \mathbf{X}) = \operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})] + \text{constant}$$

उपरोक्त अभिव्यक्ति में स्थिरांक सामान्यीकृत स्थिरांक (उपरोक्त अभिव्यक्ति में हर) $$q_j^{*}$$ से संबंधित है ) और सामान्यतः निरीक्षण द्वारा बहाल किया जाता है, क्योंकि अभिव्यक्ति के बाकी हिस्सों को सामान्यतः ज्ञात प्रकार के वितरण (जैसे गाऊसी वितरण, गामा वितरण, आदि) के रूप में पहचाना जा सकता है।

अपेक्षाओं के गुणों का प्रयोग, अभिव्यक्ति $$\operatorname{E}_{q^*_{-j}} [\ln p(\mathbf{Z}, \mathbf{X})]$$ सामान्यतः अव्यक्त वेरिएबल और अपेक्षाओं (और कभी-कभी उच्चतर क्षण (गणित) जैसे विचरण) पर पूर्व वितरण के निश्चित हाइपरपैरामीटर के फलन में सरलीकृत किया जा सकता है, जो कि वर्तमान विभाजन $$\mathbf{Z}_j$$ में नहीं है (अर्थात अव्यक्त वेरिएबल सम्मिलित नहीं हैं) में ). यह विभाजन में वेरिएबल पर वितरण के मापदंडों और अन्य विभाजन में वेरिएबल की अपेक्षाओं के मध्य परिपत्र निर्भरता बनाता है। यह स्वाभाविक रूप से ईएम (अपेक्षा-अधिकतमकरण एल्गोरिदम) की तरह पुनरावृत्त एल्गोरिदम का सुझाव देता है, जिसमें अव्यक्त वेरिएबल की अपेक्षाओं (और संभवतः उच्च क्षणों) को कुछ फैशन में (संभवतःयादृच्छिक रूप से) प्रारंभ किया जाता है, और फिर प्रत्येक वितरण के पैरामीटर होते हैं तथा अपेक्षाओं के वर्तमान मानों का उपयोग करके बारी-बारी से गणना की जाती है, जिसके पश्चात् गणना किए गए मापदंडों के अनुसार नए गणना किए गए वितरण की अपेक्षा उचित रूप से निर्धारित की जाती है। इस प्रकार का एल्गोरिदम अनुक्रम की सीमा की गारंटी देता है।

दूसरे शब्दों में, वेरिएबल के प्रत्येक विभाजन के लिए, विभाजन के वेरिएबल पर वितरण के लिए अभिव्यक्ति को सरल बनाकर और प्रश्न में वेरिएबल पर वितरण की कार्यात्मक निर्भरता की जांच करके, वितरण का वर्ग सामान्यतः निर्धारित किया जा सकता है (जो बदले में निर्धारित करता है) स्थिरांक का मान)। वितरण के मापदंडों का सूत्र पूर्व वितरणों के हाइपरपैरामीटर (जो ज्ञात स्थिरांक हैं) के संदर्भ में व्यक्त किया जाएगा, किन्तु अन्य विभाजनों में वेरिएबल के कार्यों की अपेक्षाओं के संदर्भ में भी व्यक्त किया जाएगा। सामान्यतः इन अपेक्षाओं को स्वयं वेरिएबलों की अपेक्षाओं के कार्यों में सरलीकृत किया जा सकता है (अर्थात साधन); कभी-कभी वर्गाकार वेरिएबलों  की अपेक्षाएं (जो वेरिएबलों  के विचरण से संबंधित हो सकती हैं), या उच्च शक्तियों (अर्थात उच्चतर क्षण (गणित)) की अपेक्षाएं भी प्रकट होती हैं। अधिकतर स्थितियों में, अन्य वेरिएबल का वितरण ज्ञात वर्ग से होगा, और प्रासंगिक अपेक्षाओं के लिए सूत्रों को देखा जा सकता है। चूँकि, वह सूत्र उन वितरण मापदंडों पर निर्भर करते हैं, जो बदले में अन्य वेरिएबल के बारे में अपेक्षाओं पर निर्भर करते हैं। इसका परिणाम यह है कि प्रत्येक वेरिएबल के वितरण के मापदंडों के सूत्रों को वेरिएबल के मध्य पारस्परिक, गैर-रेखीय निर्भरता वाले समीकरणों की श्रृंखला के रूप में व्यक्त किया जा सकता है। सामान्यतः, समीकरणों की इस प्रणाली को सीधे हल करना संभव नहीं है। चूँकि, जैसा कि ऊपर बताया गया है, निर्भरताएँ सरल पुनरावृत्त एल्गोरिथ्म का सुझाव देती हैं, जो अधिकतर स्थितियों में अभिसरण की गारंटी देता है। उदाहरण से यह प्रक्रिया और स्पष्ट हो जायेगी.

परिवर्तनात्मक अनुमान के लिए द्वैत सूत्र
निम्नलिखित प्रमेय को परिवर्तनशील अनुमान के लिए द्वैत सूत्र के रूप में जाना जाता है। यह वैरिएबल बेयस विधियों में उपयोग किए जाने वाले वैरिएबल वितरण के कुछ महत्वपूर्ण गुणों की व्याख्या करता है।

प्रमेय दो संभाव्यता स्थान $$(\Theta,\mathcal{F},P)$$ और $$(\Theta,\mathcal{F},Q)$$ के साथ $$Q \ll P$$ पर विचार करें  मान लें कि सामान्य प्रभावी संभाव्यता माप $$\lambda$$ है  जैसे कि है कि $$P \ll \lambda$$ और $$Q \ll \lambda$$. मान लीजिये कि $$h$$ $$(\Theta,\mathcal{F},P)$$ पर किसी भी वास्तविक-मूल्यवान यादृच्छिक वेरिएबल को निरूपित करें जो $$h \in L_1(P)$$ संतुष्ट करता है. तब निम्नलिखित समानता कायम रहती है


 * $$ \log E_P[\exp h] = \text{sup}_{Q \ll P} \{ E_Q[h] - D_\text{KL}(Q \parallel P)\}.$$
 * $$ \log E_P[\exp h] = \text{sup}_{Q \ll P} \{ E_Q[h] - D_\text{KL}(Q \parallel P)\}.$$

इसके अतिरिक्त, दाहिनी ओर का सर्वोच्च तभी प्राप्त होता है जब वह कायम रहता है


 * $$ \frac{q(\theta)}{p(\theta)} = \frac{\exp h(\theta)}{E_P[\exp h]},$$

संभाव्यता माप $$Q$$ के संबंध में लगभग निश्चित रूप से, जहाँ $$p(\theta) = dP/d\lambda$$ और $$q(\theta) = dQ/d\lambda$$ क्रमश $$\lambda$$ के संबंध में संभाव्यता  माप $$P$$ और $$Q$$ के रेडॉन-निकोडिम डेरिवेटिव को निरूपित करते है |

एक मूलभूत उदाहरण
एक सरल गैर-पदानुक्रमित बायेसियन मॉडल पर विचार करें जिसमें स्वतंत्र रूप से वितरित i.i.d. का समुच्चय सम्मिलित है। तथा अज्ञात माध्य और विचरण के साथ गॉसियन वितरण से अवलोकन भी सम्मिलित हो । निम्नलिखित में, हम इस मॉडल के माध्यम से वेरिएबल बेयस विधि की कार्यप्रणाली को स्पष्ट करने के लिए विस्तार से काम करते हैं।

गणितीय सुविधा के लिए, निम्नलिखित उदाहरण में हम परिशुद्धता (सांख्यिकी) के संदर्भ में काम करते हैं - अर्थात विचरण का व्युत्क्रम हो (या बहुभिन्नरूपी गॉसियन में, सहप्रसरण आव्युह का व्युत्क्रम) - न कि स्वयं विचरण हो । (सैद्धांतिक दृष्टिकोण से, परिशुद्धता और भिन्नता समतुल्य हैं क्योंकि दोनों के मध्य एक-से-एक पत्राचार है।)

गणितीय मॉडल
हम संयुग्मित पूर्व वितरणों को अज्ञात माध्य $$\mu$$ और परिशुद्धता $$\tau$$ पर रखते हैं अर्थात माध्य भी गाऊसी वितरण का अनुसरण करता है जबकि दूसरे शब्दों में परिशुद्धता गामा वितरण का अनुसरण करती है।



\begin{align} \tau & \sim \operatorname{Gamma}(a_0, b_0) \\ \mu|\tau & \sim \mathcal{N}(\mu_0, (\lambda_0 \tau)^{-1}) \\ \{x_1, \dots, x_N\} & \sim \mathcal{N}(\mu, \tau^{-1}) \\ N &= \text{number of data points} \end{align} $$           पिछले वितरणों में हाइपर पैरामीटर $$\mu_0, \lambda_0, a_0$$ और $$b_0$$ मान दिए जाते हैं $$\mu$$ और $$\tau$$. के पूर्व में वितरण निश्चित होते हैं, जो पूर्व वितरणों के बारे में अज्ञानता का संकेत देते हैं तथा व्यापक पूर्व वितरण देने के लिए उन्हें छोटी धनात्मक संख्याओं पर समुच्चय किया जा सकता है

हम $$N$$ डेटा पॉइंट $$\mathbf{X} = \{x_1, \ldots, x_N\}$$ दे रहे हैं  और हमारा लक्ष्य पश्च वितरण  $$q(\mu, \tau)=p(\mu,\tau\mid x_1, \ldots, x_N)$$ का अनुमान लगाना है  मापदंडों का $$\mu$$ और $$\tau.$$

संयुक्त संभावना
सभी वेरिएबलों की संयुक्त प्रायिकता को इस प्रकार पुनः लिखा जा सकता है


 * $$p(\mathbf{X},\mu,\tau) = p(\mathbf{X}\mid \mu,\tau) p(\mu\mid \tau) p(\tau)$$

जहां व्यक्तिगत कारक हैं



\begin{align} p(\mathbf{X}\mid \mu,\tau) & = \prod_{n=1}^N \mathcal{N}(x_n\mid \mu,\tau^{-1}) \\ p(\mu\mid \tau) & = \mathcal{N} \left (\mu\mid \mu_0, (\lambda_0 \tau)^{-1} \right ) \\ p(\tau) & = \operatorname{Gamma}(\tau\mid a_0, b_0) \end{align} $$ जहाँ



\begin{align} \mathcal{N}(x\mid \mu,\sigma^2) & = \frac{1}{\sqrt{2\pi\sigma^2}} e^{\frac{-(x-\mu)^2}{2\sigma^2}} \\ \operatorname{Gamma}(\tau\mid a,b) & = \frac{1}{\Gamma(a)} b^a \tau^{a-1} e^{-b \tau} \end{align} $$

गुणनखंडित सन्निकटन
यह मान लीजिए $$q(\mu,\tau) = q(\mu)q(\tau)$$, अर्थात कि पश्च वितरण $$\mu$$ और $$\tau$$ के लिए स्वतंत्र कारकों में विभाजित होता है. इस प्रकार की धारणा वैरिएबल बायेसियन पद्धति को रेखांकित करती है। वास्तविक पश्च वितरण वास्तव में इस तरह से कारक नहीं होता है (वास्तव में, इस साधारण स्थितियां में, इसे गाऊसी-गामा वितरण के रूप में जाना जाता है), और इसलिए हम जो परिणाम प्राप्त करेंगे उसे अनुमान अनुमान कहा जायेगा ।

की व्युत्पत्ति $q(&mu;)$
तब



\begin{align} \ln q_\mu^*(\mu) &= \operatorname{E}_\tau\left[\ln p(\mathbf{X}\mid \mu,\tau) + \ln p(\mu\mid \tau) + \ln p(\tau)\right] + C \\ &= \operatorname{E}_\tau\left[\ln p(\mathbf{X}\mid \mu,\tau)\right] + \operatorname{E}_\tau\left[\ln p(\mu\mid \tau)\right] + \operatorname{E}_{\tau}\left[\ln p(\tau)\right] + C \\ &= \operatorname{E}_\tau\left[\ln \prod_{n=1}^N \mathcal{N} \left (x_n\mid \mu,\tau^{-1} \right )\right] + \operatorname{E}_\tau\left[\ln \mathcal{N} \left (\mu\mid \mu_0, (\lambda_0 \tau)^{-1} \right )\right] + C_2 \\ &= \operatorname{E}_\tau\left[\ln \prod_{n=1}^N \sqrt{\frac{\tau}{2\pi}} e^{-\frac{(x_n-\mu)^2\tau}{2}}\right] + \operatorname{E}_{\tau}\left[\ln \sqrt{\frac{\lambda_0 \tau}{2\pi}} e^{-\frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}}\right] + C_2 \\ &= \operatorname{E}_{\tau}\left[\sum_{n=1}^N \left(\frac{1}{2}(\ln\tau - \ln 2\pi) - \frac{(x_n-\mu)^2\tau}{2}\right)\right] + \operatorname{E}_{\tau}\left[\frac{1}{2}(\ln \lambda_0 + \ln \tau - \ln 2\pi) - \frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}\right] + C_2 \\ &= \operatorname{E}_{\tau}\left[\sum_{n=1}^N -\frac{(x_n-\mu)^2\tau}{2}\right] + \operatorname{E}_{\tau}\left[-\frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}\right] + \operatorname{E}_{\tau}\left[\sum_{n=1}^N \frac{1}{2}(\ln\tau - \ln 2\pi)\right] + \operatorname{E}_{\tau}\left[\frac{1}{2}(\ln \lambda_0 + \ln \tau - \ln 2\pi)\right] + C_2 \\ &= \operatorname{E}_{\tau}\left[\sum_{n=1}^N -\frac{(x_n-\mu)^2\tau}{2}\right] + \operatorname{E}_{\tau}\left[-\frac{(\mu-\mu_0)^2\lambda_0 \tau}{2}\right] + C_3 \\ &= - \frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu-\mu_0)^2 \right\} + C_3 \end{align} $$ उपरोक्त व्युत्पत्ति में, $$C$$, $$C_2$$ और $$C_3$$ उन मानों को संदर्भित करें जो $$\mu$$ के संबंध में स्थिर हैं. ध्यान दें कि शब्द $$\operatorname{E}_{\tau}[\ln p(\tau)]$$ $$\mu$$ का कार्य नहीं है और $$\mu$$ के मूल्य की परवाह किए बिना उसका मूल्य समान होगा. इसलिए पंक्ति 3 में हम इसे अंत में स्थिर पद में समाहित कर सकते हैं। हम पंक्ति 7 में भी यही कार्य करते हैं।

अंतिम पंक्ति $$\mu$$ में बस द्विघात बहुपद है. चूँकि यह $$q_\mu^*(\mu)$$ का लघुगणक है, हम देख सकते हैं कि $$q_\mu^*(\mu)$$ स्वयं गाऊसी वितरण है।

एक निश्चित मात्रा में कठिन गणित के साथ (ब्रेसिज़ के अंदर के वर्गों का विस्तार करना, $$\mu$$ और $$\mu^2$$ से सम्मिलित शब्दों को भिन्न करना और समूहीकृत करना और $$\mu$$ पर वर्ग पूरा करना ), हम गाऊसी वितरण के पैरामीटर प्राप्त कर सकते हैं:


 * $$\begin{align}

\ln q_\mu^*(\mu) &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu-\mu_0)^2 \right\} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \sum_{n=1}^N (x_n^2-2x_n\mu + \mu^2) + \lambda_0(\mu^2-2\mu_0\mu + \mu_0^2) \right \} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ \left(\sum_{n=1}^N x_n^2\right)-2\left(\sum_{n=1}^N x_n\right)\mu + \left ( \sum_{n=1}^N \mu^2 \right) + \lambda_0\mu^2-2\lambda_0\mu_0\mu + \lambda_0\mu_0^2 \right\} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\mu^2 -2\left(\lambda_0\mu_0 + \sum_{n=1}^N x_n\right)\mu + \left(\sum_{n=1}^N x_n^2\right) + \lambda_0\mu_0^2 \right\} + C_3 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\mu^2 -2\left(\lambda_0\mu_0 + \sum_{n=1}^N x_n\right)\mu \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N} \right)(\lambda_0+N) \mu \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right) \mu\right) \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right) \mu + \left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 - \left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2\right) \right\} + C_4 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu^2 -2\left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right) \mu + \left(\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 \right) \right\} + C_5 \\ &= -\frac{\operatorname{E}_{\tau}[\tau]}{2} \left\{ (\lambda_0+N)\left(\mu-\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 \right\} + C_5 \\ &= -\frac{1}{2} (\lambda_0+N)\operatorname{E}_{\tau}[\tau] \left(\mu-\frac{\lambda_0\mu_0 + \sum_{n=1}^N x_n}{\lambda_0+N}\right)^2 + C_5 \end{align}                    $$ ध्यान दें कि उपरोक्त सभी चरणों को सामान्य वितरण या दो द्विघातों के योग के सूत्र का उपयोग करके छोटा किया जा सकता है।

दूसरे शब्दों में:



\begin{align} q_\mu^*(\mu) &\sim \mathcal{N}(\mu\mid \mu_N,\lambda_N^{-1}) \\ \mu_N &= \frac{\lambda_0 \mu_0 + N \bar{x}}{\lambda_0 + N} \\ \lambda_N &= (\lambda_0 + N) \operatorname{E}_{\tau}[\tau] \\ \bar{x} &= \frac{1}{N}\sum_{n=1}^N x_n \end{align} $$

की व्युत्पत्ति $q(&tau;)$
उपरोक्त की व्युत्पत्ति $$q_\tau^*(\tau)$$के समान है, चूँकि हम संक्षिप्तता के लिए कुछ विवरण छोड़ देते हैं।



\begin{align} \ln q_\tau^*(\tau) &= \operatorname{E}_{\mu}[\ln p(\mathbf{X}\mid \mu,\tau) + \ln p(\mu\mid \tau)] + \ln p(\tau) + \text{constant} \\ &= (a_0 - 1) \ln \tau - b_0 \tau + \frac{1}{2} \ln \tau + \frac{N}{2} \ln \tau - \frac{\tau}{2} \operatorname{E}_\mu \left [ \sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2 \right ] + \text{constant} \end{align} $$ दोनों पक्षों को घातांकित करने पर हम यह देख सकते हैं कि $$q_\tau^*(\tau)$$ गामा वितरण है. विशेष रूप से:



\begin{align} q_\tau^*(\tau) &\sim \operatorname{Gamma}(\tau\mid a_N, b_N) \\ a_N &= a_0 + \frac{N+1}{2} \\ b_N &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[\sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2\right] \end{align} $$

पैरामीटर की गणना के लिए एल्गोरिदम
आइए हम पिछले अनुभागों के निष्कर्षों का पुनर्कथन करें:



\begin{align} q_\mu^*(\mu) &\sim \mathcal{N}(\mu\mid\mu_N,\lambda_N^{-1}) \\ \mu_N &= \frac{\lambda_0 \mu_0 + N \bar{x}}{\lambda_0 + N} \\ \lambda_N &= (\lambda_0 + N) \operatorname{E}_{\tau}[\tau] \\ \bar{x} &= \frac{1}{N}\sum_{n=1}^N x_n \end{align} $$ और



\begin{align} q_\tau^*(\tau) &\sim \operatorname{Gamma}(\tau\mid a_N, b_N) \\ a_N &= a_0 + \frac{N+1}{2} \\ b_N &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[\sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2\right] \end{align} $$ प्रत्येक स्थितियों में, किसी वेरिएबल पर वितरण के पैरामीटर दूसरे वेरिएबल के संबंध में ली गई अपेक्षाओं पर निर्भर करते हैं। हम गॉसियन और गामा वितरण के क्षणों की अपेक्षाओं के लिए मानक सूत्रों का उपयोग करके अपेक्षाओं का विस्तार कर सकते हैं:



\begin{align} \operatorname{E}[\tau\mid a_N, b_N] &= \frac{a_N}{b_N} \\ \operatorname{E} \left [\mu\mid\mu_N,\lambda_N^{-1} \right ] &= \mu_N \\ \operatorname{E}\left[X^2 \right] &= \operatorname{Var}(X) + (\operatorname{E}[X])^2 \\ \operatorname{E} \left [\mu^2\mid\mu_N,\lambda_N^{-1} \right ] &= \lambda_N^{-1} + \mu_N^2 \end{align} $$ इन सूत्रों को उपरोक्त समीकरणों पर प्रयुक्त करना अधिकतर स्थितियों में साधारण है, किन्तु समीकरण के लिए $$b_N$$ अधिक काम लेता है:



\begin{align} b_N &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[\sum_{n=1}^N (x_n-\mu)^2 + \lambda_0(\mu - \mu_0)^2\right] \\ &= b_0 + \frac{1}{2} \operatorname{E}_\mu \left[ (\lambda_0+N)\mu^2 -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right )\mu + \left(\sum_{n=1}^N x_n^2 \right ) + \lambda_0\mu_0^2 \right] \\ &= b_0 + \frac{1}{2} \left[ (\lambda_0+N)\operatorname{E}_\mu[\mu^2] -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right)\operatorname{E}_\mu [\mu] + \left (\sum_{n=1}^N x_n^2 \right ) + \lambda_0\mu_0^2 \right] \\ &= b_0 + \frac{1}{2} \left[ (\lambda_0+N) \left (\lambda_N^{-1} + \mu_N^2 \right ) -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right)\mu_N + \left(\sum_{n=1}^N x_n^2 \right) + \lambda_0\mu_0^2 \right] \\ \end{align} $$ फिर हम पैरामीटर समीकरणों को बिना किसी अपेक्षा के इस प्रकार लिख सकते हैं:


 * $$\begin{align}

\mu_N &= \frac{\lambda_0 \mu_0 + N \bar{x}}{\lambda_0 + N} \\ \lambda_N &= (\lambda_0 + N) \frac{a_N}{b_N} \\ \bar{x} &= \frac{1}{N}\sum_{n=1}^N x_n \\ a_N &= a_0 + \frac{N+1}{2} \\ b_N &= b_0 + \frac{1}{2} \left[ (\lambda_0+N) \left (\lambda_N^{-1} + \mu_N^2 \right ) -2 \left (\lambda_0\mu_0 + \sum_{n=1}^N x_n \right )\mu_N + \left (\sum_{n=1}^N x_n^2 \right ) + \lambda_0\mu_0^2 \right] \end{align}                                                                                                                                                                              $$ ध्यान दें कि $$\lambda_N$$और $$b_N$$ सूत्रों के मध्य चक्रीय निर्भरताएँ हैं. यह स्वाभाविक रूप से अपेक्षा-अधिकतमकरण ईएम जैसा एल्गोरिदम का सुझाव देता है:


 * 1) $$\sum_{n=1}^N x_n$$ और $$\sum_{n=1}^N x_n^2                                        $$ गणना करें | $$\mu_N$$ और $$a_N        $$ गणना करने के लिए इन मानों का उपयोग किया जाता है |
 * 2) कुछ इच्छानुसार मूल्य के लिए $$\lambda_N$$ प्रारंभ करें.
 * 3) $$b_N$$की गणना करने के लिए अन्य मापदंडों के ज्ञात मानों के साथ $$\lambda_N,$$ के वर्तमान मान का उपयोग करें.
 * 4) $$\lambda_N$$ की गणना करने के लिए अन्य मापदंडों के ज्ञात मानों के साथ $$b_N,$$के वर्तमान मान का उपयोग करें.
 * 5) अंतिम दो चरणों को अभिसरण होने तक दोहराएँ (अर्थात जब तक कि कोई भी मान कुछ छोटी राशि से अधिक न बदल जाए)।

फिर हमारे पास पश्च मापदंडों के अनुमानित वितरण के हाइपरपैरामीटर के लिए मान हैं, जिनका उपयोग हम पश्च भाग के किसी भी गुण की गणना करने के लिए कर सकते हैं - उदाहरण के लिए इसका माध्य और विचरण, 95% उच्चतम-घनत्व क्षेत्र (सबसे छोटा अंतराल जिसमें कुल संभावना का 95% सम्मिलित है), आदि।

यह दिखाया जा सकता है कि यह एल्गोरिदम स्थानीय अधिकतम में परिवर्तित होने की गारंटी देता है।

यह भी ध्यान दें कि पिछले वितरणों का स्वरूप संबंधित पिछले वितरणों के समान ही है। हमने यह नहीं माना कि हमने जो एकमात्र धारणा बनाई वह यह थी कि वितरण गुणनखंडित होते हैं, और वितरण का स्वरूप स्वाभाविक रूप से अनुसरण किया जाता है। यह पता चला है (नीचे देखें) कि तथ्य यह है कि पिछले वितरणों का रूप पिछले वितरणों के समान है, यह कोई संयोग नहीं है, किंतु सामान्य परिणाम है जब भी पिछले वितरण घातीय वर्ग के सदस्य होते हैं, जो कि अधिकांश मानक वितरणों के लिए स्तिथि है.

स्टेप-बाय-स्टेप रेसिपी
उपरोक्त उदाहरण उस विधि को दर्शाता है जिसके द्वारा किसी दिए गए बायेसियन नेटवर्क में पश्च संभाव्यता घनत्व के लिए वैरिएबल-बायेसियन सन्निकटन प्राप्त किया जाता है:
 * 1) ग्राफ़िकल मॉडल के साथ नेटवर्क का वर्णन करें, देखे गए वेरिएबल (डेटा) $$\mathbf{X}$$ और न देखे गए वेरिएबल (पैरामीटर) $$\boldsymbol\Theta$$ और अव्यक्त वेरिएबल $$\mathbf{Z}$$) और उनके सशर्त संभाव्यता वितरण की पहचान करें। वेरिएशनल बेज़ इसके पश्चात्  पश्च संभाव्यता $$p(\mathbf{Z},\boldsymbol\Theta\mid\mathbf{X})$$ का अनुमान तैयार करेंगे |. सन्निकटन की मूल संपत्ति यह है कि यह गुणनखंडित वितरण है, अर्थात न देखे गए वेरिएबल के असंयुक्त उपसमुच्चय पर दो या दो से अधिक सांख्यिकीय स्वतंत्रता वितरण का उत्पाद है।
 * 2) न देखे गए वेरिएबलों को दो या दो से अधिक उपसमूहों में विभाजित करें, जिन पर स्वतंत्र कारक प्राप्त किए जाएंगे। ऐसा करने की कोई सार्वभौमिक प्रक्रिया नहीं है; बहुत अधिक उपसमुच्चय बनाने से खराब सन्निकटन प्राप्त होता है, जबकि बहुत कम उपसमुच्चय बनाने से संपूर्ण परिवर्तनशील बेयस प्रक्रिया कठिन हो जाती है। सामान्यतः, पहला विभाजन पैरामीटर और अव्यक्त वेरिएबल को भिन्न करने के लिए होता है; अधिकांशतः, यह अपने आप में सुगम परिणाम उत्पन्न करने के लिए पर्याप्त होता है। मान लें कि विभाजन $$\mathbf{Z}_1,\ldots,\mathbf{Z}_M$$ कहा जाता हैं.
 * 3) किसी दिए गए विभाजन $$\mathbf{Z}_j$$ के लिए, मूल समीकरण $$\ln q_j^{*}(\mathbf{Z}_j\mid \mathbf{X}) = \operatorname{E}_{i \neq j} [\ln p(\mathbf{Z}, \mathbf{X})] + \text{constant}$$ का उपयोग करके सर्वोत्तम अनुमानित वितरण $$q_j^{*}(\mathbf{Z}_j\mid \mathbf{X})$$ के लिए सूत्र लिखें.
 * 4) ग्राफ़िकल मॉडल का उपयोग करके संयुक्त संभाव्यता वितरण के लिए सूत्र भरें। कोई भी घटक सशर्त वितरण जिसमें $$\mathbf{Z}_j$$ कोई भी वेरिएबल सम्मिलित नहीं है  नजरअंदाज किया जा सकता है; उन्हें स्थिर अवधि में जोड़ दिया जाएगा।
 * 5) उपरोक्त उदाहरण का अनुसरण करते हुए सूत्र को सरल बनाएं और अपेक्षा ऑपरेटर प्रयुक्त करें। आदर्श रूप से, इसे वेरिएबल $$\mathbf{Z}_j$$ के मूलभूत कार्यों की अपेक्षाओं में सरलीकृत नहीं किया जाना चाहिए (जैसे पहला या दूसरा कच्चा क्षण (गणित), लघुगणक की अपेक्षा, आदि)। वेरिएबल बेयस प्रक्रिया को अच्छी तरह से काम करने के लिए, इन अपेक्षाओं को सामान्यतः इन वेरिएबल के वितरण के मापदंडों और/या हाइपरपैरामीटर के कार्यों के रूप में विश्लेषणात्मक रूप से व्यक्त किया जाना चाहिए। सभी स्थितियों में, यह अपेक्षा शर्तें वर्तमान विभाजन में वेरिएबल के संबंध में स्थिरांक हैं।
 * 6) वर्तमान विभाजन में वेरिएबल के संबंध में सूत्र का कार्यात्मक रूप वितरण के प्रकार को निरुपित करता है। विशेष रूप से, सूत्र को घातांकित करने से वितरण की संभाव्यता घनत्व फलन (पीडीएफ) उत्पन्न होती है (या कम से कम, इसके लिए कुछ आनुपातिक, अज्ञात सामान्यीकरण स्थिरांक के साथ)। समग्र विधि को ट्रैक्टेबल बनाने के लिए उत्पन्न होती है, तथा इस ज्ञात वितरण से संबंधित कार्यात्मक रूप को पहचानना संभव होना चाहिए। सूत्र को ज्ञात वितरण के पीडीएफ से मेल खाने वाले रूप में बदलने के लिए महत्वपूर्ण गणितीय हेरफेर की आवश्यकता हो सकती है। जब यह किया जा सकता है, तब सामान्यीकरण स्थिरांक को परिभाषा द्वारा बहाल किया जा सकता है, और ज्ञात वितरण के मापदंडों के लिए समीकरण सूत्र के उचित भागों को निकालकर प्राप्त किया जा सकता है।
 * 7) जब सभी अपेक्षाओं को विश्लेषणात्मक रूप से उन वेरिएबलों के कार्यों से बदला जा सकता है जो वर्तमान विभाजन में नहीं हैं, और पीडीएफ को ऐसे रूप में रखा जाता है जो ज्ञात वितरण के साथ पहचान की अनुमति देता है, तब परिणाम समीकरणों का समुच्चय होता है जो इष्टतम मापदंडों के मानों को अन्य विभाजनों में वेरिएबल के पैरामीटर के कार्यों के रूप में व्यक्त करता है ।
 * 8) जब इस प्रक्रिया को सभी विभाजनों पर प्रयुक्त किया जा सकता है, तब परिणाम सभी मापदंडों के इष्टतम मानों को निर्दिष्ट करने वाले परस्पर जुड़े समीकरणों का समुच्चय होता है।
 * 9) फिर अपेक्षा अधिकतमीकरण (ईएम) प्रकार की प्रक्रिया प्रयुक्त की जाती है, प्रत्येक पैरामीटर के लिए प्रारंभिक मान चुना जाता है और चरणों की श्रृंखला के माध्यम से पुनरावृत्ति की जाती है, जहां प्रत्येक चरण में हम समीकरणों के माध्यम से चक्र करते हैं, प्रत्येक पैरामीटर को बारी-बारी से अपडेट करते हैं। यह जुटने की गारंटी है.

सबसे महत्वपूर्ण बिंदु
इसमें सम्मिलित सभी गणितीय जोड़-तोड़ों के कारण, बड़ी तस्वीर का ध्यान भटकाना आसान है। महत्वपूर्ण बातें यह हैं:
 * 1) वैरिएबल बेयस का विचार डेटा को देखते हुए, न देखे गए वेरिएबल (पैरामीटर और अव्यक्त वेरिएबल ) के समुच्चय की पिछली संभावना के लिए विश्लेषणात्मक सन्निकटन का निर्माण करना है। इसका कारण यह है कि समाधान का रूप अन्य बायेसियन अनुमान विधियों के समान है, जैसे कि गिब्स नमूनाकरण - अर्थात वितरण जो वेरिएबल के बारे में ज्ञात हर चीज का वर्णन करना चाहता है। जैसा कि अन्य बायेसियन तरीकों में होता है - किन्तु उदाहरण के विपरीत। अपेक्षा अधिकतमीकरण (ईएम) या अन्य अधिकतम संभावना विधियों में - दोनों प्रकार के अप्राप्य वेरिएबल (अर्थात पैरामीटर और अव्यक्त वेरिएबल ) को समान माना जाता है, अर्थात यादृच्छिक वेरिएबल के रूप में माना जाता है । फिर वेरिएबलों का अनुमान मानक बायेसियन तरीकों से प्राप्त किया जा सकता है, जैसे एकल बिंदु अनुमान प्राप्त करने के लिए वितरण के माध्य की गणना करना या विश्वसनीय अंतराल, उच्चतम घनत्व क्षेत्र आदि प्राप्त करना।
 * 2) विश्लेषणात्मक सन्निकटन का अर्थ है कि पश्च वितरण के लिए सूत्र लिखा जा सकता है। सूत्र में सामान्यतः प्रसिद्ध संभाव्यता वितरण का उत्पाद सम्मिलित होता है, जिनमें से प्रत्येक न देखे गए वेरिएबल के समुच्चय पर कारक होता है (अर्थात, देखे गए डेटा को देखते हुए, यह अन्य वेरिएबल से सशर्त रूप से स्वतंत्र है)। यह सूत्र वास्तविक पश्च वितरण नहीं है, किंतु इसका अनुमान है; विशेष रूप से, यह सामान्यतः न देखे गए वेरिएबलों  के निम्नतम क्षण (गणित) में अधिक  निकटता से सहमत होगा, उदाहरण के लिए माध्य और विचरण.
 * 3) सभी गणितीय जोड़-तोड़ों का परिणाम है (1) कारकों को बनाने वाले संभाव्यता वितरण की पहचान, और (2) इन वितरणों के मापदंडों के लिए परस्पर निर्भर सूत्र। इन मापदंडों के वास्तविक मानों की गणना ईएम की तरह वैकल्पिक पुनरावृत्त प्रक्रिया के माध्यम से संख्यात्मक रूप से की जाती है।

अपेक्षा अधिकतमकरण (ईएम) के साथ तुलना में
वेरिएशनल बेयस (वीबी) की तुलना अधिकांशतः अपेक्षा अधिकतमकरण (ईएम) से की जाती है। वास्तविक संख्यात्मक प्रक्रिया अधिक समान है, जिसमें दोनों वैकल्पिक पुनरावृत्त प्रक्रियाएं हैं जो क्रमिक रूप से इष्टतम पैरामीटर मानों पर एकत्रित होती हैं। संबंधित प्रक्रियाओं को प्राप्त करने के प्रारंभिक चरण भी अस्पष्ट रूप से समान हैं, दोनों संभाव्यता घनत्व के सूत्रों के साथ प्रारंभ होते हैं और दोनों में महत्वपूर्ण मात्रा में गणितीय जोड़-तोड़ सम्मिलित होते हैं।

चूँकि, इसमें अनेक अंतर हैं। सबसे महत्वपूर्ण यह है कि गणना क्या की जा रही है।
 * ईएम उन यादृच्छिक वेरिएबलों के पश्च वितरण के बिंदु अनुमानों की गणना करता है जिन्हें मापदंडों के रूप में वर्गीकृत किया जा सकता है, किन्तु केवल अव्यक्त वेरिएबल के वास्तविक पश्च वितरण का अनुमान (कम से कम नरम ईएम में, और अधिकांशतः केवल जब अव्यक्त वेरिएबल भिन्न होते हैं)। गणना किए गए बिंदु अनुमान इन मापदंडों के मोड (सांख्यिकी) हैं; कोई अन्य जानकारी उपलब्ध नहीं है.
 * दूसरी ओर, वीबी सभी वेरिएबल, दोनों मापदंडों और अव्यक्त वेरिएबल के वास्तविक पश्च वितरण के अनुमान की गणना करता है। जब बिंदु अनुमान प्राप्त करने की आवश्यकता होती है, तब सामान्यतः मोड के अतिरिक्त माध्य का उपयोग किया जाता है, जैसा कि बायेसियन अनुमान में सामान्य है। इसके साथ ही, वीबी में गणना किए गए मापदंडों का ईएम के समान महत्व नहीं है। ईएम बेयस नेटवर्क के मापदंडों के इष्टतम मानों की गणना स्वयं करता है। वीबी बेयस नेटवर्क के मापदंडों और अव्यक्त वेरिएबल का अनुमान लगाने के लिए उपयोग किए जाने वाले वितरण के मापदंडों के इष्टतम मानों की गणना करता है। उदाहरण के लिए, विशिष्ट गाऊसी मिश्रण मॉडल में प्रत्येक मिश्रण घटक के माध्य और विचरण के लिए पैरामीटर होंगे। ईएम सीधे इन मापदंडों के लिए इष्टतम मानों का अनुमान लगाएगा। चूँकि, वीबी पहले इन मापदंडों के अनुसार वितरण को फिट करेगा - सामान्यतः पूर्व वितरण के रूप में, उदाहरण के लिए। सामान्य-स्केल व्युत्क्रम गामा वितरण - और फिर इस पूर्व वितरण के मापदंडों के लिए मानों की गणना करेगा, अर्थात अनिवार्य रूप से हाइपरपैरामीटर में गणना की जाती है। इस स्थितियां में, वीबी सामान्य-स्केल व्युत्क्रम गामा वितरण के चार मापदंडों के इष्टतम अनुमानों की गणना करेगा जो घटक के माध्य और विचरण के संयुक्त वितरण का वर्णन करता है।

एक अधिक जटिल उदाहरण
एक बायेसियन गाऊसी मिश्रण मॉडल की कल्पना करें जिसका वर्णन इस प्रकार है:



\begin{align} \mathbf{\pi} & \sim \operatorname{SymDir}(K, \alpha_0) \\ \mathbf{\Lambda}_{i=1 \dots K} & \sim \mathcal{W}(\mathbf{W}_0, \nu_0) \\ \mathbf{\mu}_{i=1 \dots K} & \sim \mathcal{N}(\mathbf{\mu}_0, (\beta_0 \mathbf{\Lambda}_i)^{-1}) \\ \mathbf{z}[i = 1 \dots N] & \sim \operatorname{Mult}(1, \mathbf{\pi}) \\ \mathbf{x}_{i=1 \dots N} & \sim \mathcal{N}(\mathbf{\mu}_{z_i}, {\mathbf{\Lambda}_{z_i}}^{-1}) \\ K &= \text{number of mixing components} \\ N &= \text{number of data points} \end{align} $$ टिप्पणी:
 * सिमडिर आयाम का सममित डिरिचलेट वितरण है $$K$$, प्रत्येक घटक के लिए हाइपरपैरामीटर $$\alpha_0$$ समुच्चय के साथ है. डिरिचलेट वितरण श्रेणीबद्ध वितरण या बहुपद वितरण से पहले का संयुग्म है।
 * $$\mathcal{W}$$ विशार्ट वितरण है, जो बहुभिन्नरूपी गॉसियन वितरण के लिए त्रुटिहीन आव्युह (व्युत्क्रम परिशुद्धता आव्युह) का संयुग्मित पूर्व है।
 * मल्टी एकल अवलोकन पर बहुपद वितरण है (एक श्रेणीबद्ध वितरण के सामान्तर)। राज्य स्थान एक-के-$$K$$ प्रतिनिधित्व है, अर्थात, a $$K$$-आयामी सदिश जिसमें तत्वों में से 1 है (अवलोकन की पहचान निर्दिष्ट करते हुए) और अन्य सभी तत्व 0 हैं।
 * $$\mathcal{N}$$ गाऊसी वितरण है, इस स्थितियां में विशेष रूप से बहुभिन्नरूपी गाऊसी वितरण।

उपरोक्त वेरिएबलों की व्याख्या इस प्रकार है:
 * $$\mathbf{X} = \{\mathbf{x}_1, \dots, \mathbf{x}_N\}$$ का समुच्चय है $$N$$ डेटा बिंदु, जिनमें से प्रत्येक है $$D$$-आयामी सदिश को बहुभिन्नरूपी गॉसियन वितरण के अनुसार वितरित किया जाता है।
 * $$\mathbf{Z} = \{\mathbf{z}_1, \dots, \mathbf{z}_N\}$$ अव्यक्त वेरिएबल का समुच्चय है, प्रति डेटा बिंदु एक, घटकों के साथ एक-के-सदिश प्रतिनिधित्व का उपयोग करके निर्दिष्ट करता है कि संबंधित डेटा बिंदु किस मिश्रण घटक से संबंधित है $$z_{nk}$$ के लिए $$k = 1 \dots K$$, जैसा ऊपर वर्णित है।
 * $$\mathbf{\pi}$$ के लिए मिश्रण अनुपात है $$K$$ मिश्रण घटक.
 * $$\mathbf{\mu}_{i=1 \dots K}$$ और $$\mathbf{\Lambda}_{i=1 \dots K}$$ प्रत्येक मिश्रण घटक से जुड़े पैरामीटर (माध्य और परिशुद्धता (सांख्यिकी)) निर्दिष्ट करें।

सभी वेरिएबलों की संयुक्त प्रायिकता को इस प्रकार पुनः लिखा जा सकता है


 * $$p(\mathbf{X},\mathbf{Z},\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda}) = p(\mathbf{X}\mid \mathbf{Z},\mathbf{\mu},\mathbf{\Lambda}) p(\mathbf{Z}\mid \mathbf{\pi}) p(\mathbf{\pi}) p(\mathbf{\mu}\mid \mathbf{\Lambda}) p(\mathbf{\Lambda})$$

जहां व्यक्तिगत कारक हैं



\begin{align} p(\mathbf{X}\mid \mathbf{Z},\mathbf{\mu},\mathbf{\Lambda}) & = \prod_{n=1}^N \prod_{k=1}^K \mathcal{N}(\mathbf{x}_n\mid \mathbf{\mu}_k,\mathbf{\Lambda}_k^{-1})^{z_{nk}} \\ p(\mathbf{Z}\mid \mathbf{\pi}) & = \prod_{n=1}^N \prod_{k=1}^K \pi_k^{z_{nk}} \\ p(\mathbf{\pi}) & = \frac{\Gamma(K\alpha_0)}{\Gamma(\alpha_0)^K} \prod_{k=1}^K \pi_k^{\alpha_0-1} \\ p(\mathbf{\mu}\mid \mathbf{\Lambda}) & = \prod_{k=1}^K \mathcal{N}(\mathbf{\mu}_k\mid \mathbf{\mu}_0,(\beta_0 \mathbf{\Lambda}_k)^{-1}) \\ p(\mathbf{\Lambda}) & = \prod_{k=1}^K \mathcal{W}(\mathbf{\Lambda}_k\mid \mathbf{W}_0, \nu_0) \end{align} $$ जहाँ



\begin{align} \mathcal{N}(\mathbf{x}\mid \mathbf{\mu},\mathbf{\Sigma}) & = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\mathbf{\Sigma}|^{1/2}} \exp \left\{ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\rm T} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right\} \\ \mathcal{W}(\mathbf{\Lambda}\mid \mathbf{W},\nu) & = B(\mathbf{W},\nu) |\mathbf{\Lambda}|^{(\nu-D-1)/2} \exp \left(-\frac{1}{2} \operatorname{Tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) \right) \\ B(\mathbf{W},\nu) & = |\mathbf{W}|^{-\nu/2} \left\{ 2^{\nu D/2} \pi^{D(D-1)/4} \prod_{i=1}^{D} \Gamma\left(\frac{\nu + 1 - i}{2}\right) \right\}^{-1} \\ D & = \text{dimensionality of each data point} \end{align} $$ यहमान लीजिए $$q(\mathbf{Z},\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda}) = q(\mathbf{Z})q(\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda})$$.

तब



\begin{align} \ln q^*(\mathbf{Z}) &= \operatorname{E}_{\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda}}[\ln p(\mathbf{X},\mathbf{Z},\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda})] + \text{constant} \\ &= \operatorname{E}_{\mathbf{\pi}}[\ln p(\mathbf{Z}\mid \mathbf{\pi})] + \operatorname{E}_{\mathbf{\mu},\mathbf{\Lambda}}[\ln p(\mathbf{X}\mid \mathbf{Z},\mathbf{\mu},\mathbf{\Lambda})] + \text{constant} \\ &= \sum_{n=1}^N \sum_{k=1}^K z_{nk} \ln \rho_{nk} + \text{constant} \end{align} $$ जहां हमने परिभाषित किया है


 * $$\ln \rho_{nk} = \operatorname{E}[\ln \pi_k] + \frac{1}{2} \operatorname{E}[\ln |\mathbf{\Lambda}_k|] - \frac{D}{2} \ln(2\pi) - \frac{1}{2} \operatorname{E}_{\mathbf{\mu}_k,\mathbf{\Lambda}_k} [(\mathbf{x}_n - \mathbf{\mu}_k)^{\rm T} \mathbf{\Lambda}_k (\mathbf{x}_n - \mathbf{\mu}_k)]$$

के लिए सूत्र के दोनों पक्षों का घातांक लगाना $$\ln q^*(\mathbf{Z})$$ पैदावार


 * $$q^*(\mathbf{Z}) \propto \prod_{n=1}^N \prod_{k=1}^K \rho_{nk}^{z_{nk}}$$

इसे सामान्य बनाने की आवश्यकता के कारण यह आवश्यक हो जाता है $$\rho_{nk}$$ के सभी मानों का योग 1 है $$k$$, उपज


 * $$q^*(\mathbf{Z}) = \prod_{n=1}^N \prod_{k=1}^K r_{nk}^{z_{nk}}$$

कहाँ


 * $$r_{nk} = \frac{\rho_{nk}}{\sum_{j=1}^K \rho_{nj}}$$

दूसरे शब्दों में, $$q^*(\mathbf{Z})$$ एकल-अवलोकन बहुपद वितरण और प्रत्येक व्यक्ति पर कारकों का उत्पाद है $$\mathbf{z}_n$$, जिसे मापदंडों के साथ एकल-अवलोकन बहुपद वितरण के रूप में वितरित किया जाता है $$r_{nk}$$ के लिए $$k = 1 \dots K$$.

इसके अतिरिक्त, हम उस पर ध्यान देते हैं


 * $$\operatorname{E}[z_{nk}] = r_{nk} \, $$

जो श्रेणीबद्ध वितरण के लिए मानक परिणाम है।

अभी, कारक पर विचार करें $$q(\mathbf{\pi},\mathbf{\mu},\mathbf{\Lambda})$$, ध्यान दें कि यह स्वचालित रूप से इसमें सम्मिलित होता है $$q(\mathbf{\pi}) \prod_{k=1}^K q(\mathbf{\mu}_k,\mathbf{\Lambda}_k)$$ हमारे गॉसियन मिश्रण मॉडल को परिभाषित करने वाले ग्राफिकल मॉडल की संरचना के कारण, जो ऊपर निर्दिष्ट है।

तब,



\begin{align} \ln q^*(\mathbf{\pi}) &= \ln p(\mathbf{\pi}) + \operatorname{E}_{\mathbf{Z}}[\ln p(\mathbf{Z}\mid \mathbf{\pi})] + \text{constant} \\ &= (\alpha_0 - 1) \sum_{k=1}^K \ln \pi_k + \sum_{n=1}^N \sum_{k=1}^K r_{nk} \ln \pi_k + \text{constant} \end{align} $$ दोनों पक्षों का घातांक लेते हुए हम पहचानते हैं $$q^*(\mathbf{\pi})$$ डिरिचलेट वितरण के रूप में


 * $$q^*(\mathbf{\pi}) \sim \operatorname{Dir}(\mathbf{\alpha}) \, $$

कहाँ


 * $$\alpha_k = \alpha_0 + N_k \, $$

कहाँ


 * $$N_k = \sum_{n=1}^N r_{nk} \, $$

आखिरकार


 * $$\ln q^*(\mathbf{\mu}_k,\mathbf{\Lambda}_k) = \ln p(\mathbf{\mu}_k,\mathbf{\Lambda}_k) + \sum_{n=1}^N \operatorname{E}[z_{nk}] \ln \mathcal{N}(\mathbf{x}_n\mid \mathbf{\mu}_k,\mathbf{\Lambda}_k^{-1}) + \text{constant}$$

सम्मिलित शर्तों को समूहीकृत करना और पढ़ना $$\mathbf{\mu}_k$$ और $$\mathbf{\Lambda}_k$$, परिणाम गाऊसी-विशार्ट वितरण द्वारा दिया गया है


 * $$q^*(\mathbf{\mu}_k,\mathbf{\Lambda}_k) = \mathcal{N}(\mathbf{\mu}_k\mid \mathbf{m}_k,(\beta_k \mathbf{\Lambda}_k)^{-1}) \mathcal{W}(\mathbf{\Lambda}_k\mid \mathbf{W}_k,\nu_k)$$

परिभाषाएँ दी गईं



\begin{align} \beta_k            &= \beta_0 + N_k \\ \mathbf{m}_k       &= \frac{1}{\beta_k} (\beta_0 \mathbf{\mu}_0 + N_k {\bar{\mathbf{x}}}_k) \\ \mathbf{W}_k^{-1}  &= \mathbf{W}_0^{-1} + N_k \mathbf{S}_k + \frac{\beta_0 N_k}{\beta_0 + N_k} ({\bar{\mathbf{x}}}_k - \mathbf{\mu}_0)({\bar{\mathbf{x}}}_k - \mathbf{\mu}_0)^{\rm T} \\ \nu_k              &= \nu_0 + N_k \\ N_k                &= \sum_{n=1}^N r_{nk} \\ {\bar{\mathbf{x}}}_k &= \frac{1}{N_k} \sum_{n=1}^N r_{nk} \mathbf{x}_n \\ \mathbf{S}_k       &= \frac{1}{N_k} \sum_{n=1}^N r_{nk} (\mathbf{x}_n - {\bar{\mathbf{x}}}_k) (\mathbf{x}_n - {\bar{\mathbf{x}}}_k)^{\rm T} \end{align} $$ अंत में, ध्यान दें कि इन कार्यों के लिए मानों की आवश्यकता होती है $$r_{nk}$$, जिसका उपयोग किया जाता है $$\rho_{nk}$$, जिसके आधार पर बारी-बारी से परिभाषित किया गया है $$\operatorname{E}[\ln \pi_k]$$, $$\operatorname{E}[\ln |\mathbf{\Lambda}_k|]$$, और $$\operatorname{E}_{\mathbf{\mu}_k,\mathbf{\Lambda}_k} [(\mathbf{x}_n - \mathbf{\mu}_k)^{\rm T} \mathbf{\Lambda}_k (\mathbf{x}_n - \mathbf{\mu}_k)]$$. अभी जब हमने उन वितरणों को निर्धारित कर लिया है जिन पर यहअपेक्षाएँ ली गई हैं, तब हम उनके लिए सूत्र प्राप्त कर सकते हैं:



\begin{align} \operatorname{E}_{\mathbf{\mu}_k,\mathbf{\Lambda}_k} [(\mathbf{x}_n - \mathbf{\mu}_k)^{\rm T} \mathbf{\Lambda}_k (\mathbf{x}_n - \mathbf{\mu}_k)] & = D\beta_k^{-1} + \nu_k (\mathbf{x}_n - \mathbf{m}_k)^{\rm T} \mathbf{W}_k (\mathbf{x}_n - \mathbf{m}_k) \\ \ln {\widetilde{\Lambda}}_k &\equiv \operatorname{E}[\ln |\mathbf{\Lambda}_k|] = \sum_{i=1}^D \psi \left(\frac{\nu_k + 1 - i}{2}\right) + D \ln 2 + \ln |\mathbf{W}_k| \\ \ln {\widetilde{\pi}}_k &\equiv \operatorname{E}\left[\ln |\pi_k|\right] = \psi(\alpha_k) - \psi\left(\sum_{i=1}^K \alpha_i\right) \end{align} $$ इन परिणामों की ओर ले जाते हैं


 * $$r_{nk} \propto {\widetilde{\pi}}_k {\widetilde{\Lambda}}_k^{1/2} \exp \left\{ - \frac{D}{2 \beta_k} - \frac{\nu_k}{2} (\mathbf{x}_n - \mathbf{m}_k)^{\rm T} \mathbf{W}_k (\mathbf{x}_n - \mathbf{m}_k) \right\}$$

इन्हें सामान्यीकृत करके आनुपातिक से निरपेक्ष मान में परिवर्तित किया जा सकता है $$k$$ जिससे कि संबंधित मानों का योग 1 हो।

ध्यान दें कि:


 * 1) पैरामीटर के लिए अद्यतन समीकरण $$\beta_k$$, $$\mathbf{m}_k$$, $$\mathbf{W}_k$$ और $$\nu_k$$ वेरिएबलों का $$\mathbf{\mu}_k$$ और $$\mathbf{\Lambda}_k$$ आंकड़ों पर निर्भर $$N_k$$, $${\bar{\mathbf{x}}}_k$$, और $$\mathbf{S}_k$$, और यहआँकड़े बदले में निर्भर करते हैं $$r_{nk}$$.
 * 2) पैरामीटर के लिए अद्यतन समीकरण $$\alpha_{1 \dots K}$$ वेरिएबल का $$\mathbf{\pi}$$ आंकड़ों पर निर्भर $$N_k$$, जो बदले में निर्भर करता है $$r_{nk}$$.
 * 3) के लिए अद्यतन समीकरण $$r_{nk}$$ पर प्रत्यक्ष चक्रीय निर्भरता है $$\beta_k$$, $$\mathbf{m}_k$$, $$\mathbf{W}_k$$ और $$\nu_k$$ साथ ही अप्रत्यक्ष चक्रीय निर्भरता भी $$\mathbf{W}_k$$, $$\nu_k$$ और $$\alpha_{1 \dots K}$$ द्वारा $${\widetilde{\pi}}_k$$ और $${\widetilde{\Lambda}}_k$$.

यह पुनरावृत्तीय प्रक्रिया का सुझाव देता है जो दो चरणों के मध्य वैकल्पिक होती है:


 * 1) एक ई-स्टेप जो के मूल्य की गणना करता है $$r_{nk}$$ अन्य सभी पैरामीटरों के वर्तमान मानों का उपयोग करना।
 * 2) एक एम-स्टेप जो नए मान का उपयोग करता है $$r_{nk}$$ अन्य सभी मापदंडों के नए मानों की गणना करने के लिए।

ध्यान दें कि गाऊसी मिश्रण मॉडल के मापदंडों के लिए अधिकतम संभावना या अधिकतम पोस्टीरियरी (एमएपी) समाधान प्राप्त करने के लिए यहचरण मानक ईएम एल्गोरिथ्म के साथ निकटता से मेल खाते हैं। ज़िम्मेदारियाँ $$r_{nk}$$ ई चरण में डेटा दिए गए अव्यक्त वेरिएबल की पिछली संभावना से निकटता से मेल खाता है, अर्थात। $$p(\mathbf{Z}\mid \mathbf{X})$$; सांख्यिकी की गणना $$N_k$$, $${\bar{\mathbf{x}}}_k$$, और $$\mathbf{S}_k$$ डेटा पर संगत सॉफ्ट-काउंट आँकड़ों की गणना से निकटता से मेल खाता है; और पैरामीटर के नए मानों की गणना करने के लिए उन आँकड़ों का उपयोग गाऊसी मिश्रण मॉडल पर सामान्य ईएम में नए पैरामीटर मानों की गणना करने के लिए सॉफ्ट काउंट के उपयोग से निकटता से मेल खाता है।

घातांकीय-पारिवारिक वितरण
ध्यान दें कि पिछले उदाहरण में, बार न देखे गए वेरिएबल पर वितरण को मापदंडों पर वितरण और अव्यक्त डेटा पर वितरण में कारक मान लिया गया था, प्रत्येक वेरिएबल के लिए व्युत्पन्न सर्वोत्तम वितरण वेरिएबल पर संबंधित पूर्व वितरण के समान वर्ग में था। यह सामान्य परिणाम है जो घातीय वर्ग  से प्राप्त सभी पूर्व वितरणों के लिए सही है।

यह भी देखें

 * विविध संदेश भेजना: वेरिएशनल बायेसियन अनुमान के लिए मॉड्यूलर एल्गोरिदम।
 * वैरिएशनल ऑटोएनकोडर : संभाव्य ग्राफिकल मॉडल और वेरिएशनल बायेसियन तरीकों के वर्ग ों से संबंधित कृत्रिम तंत्रिका नेटवर्क।
 * अपेक्षा-अधिकतमकरण एल्गोरिथ्म: संबंधित दृष्टिकोण जो परिवर्तनशील बायेसियन अनुमान के विशेष स्थितियां से मेल खाता है।
 * सामान्यीकृत फ़िल्टरिंग: नॉनलाइनियर स्टेट स्पेस मॉडल के लिए परिवर्तनीय फ़िल्टरिंग योजना।
 * विविधताओं की गणना: गणितीय विश्लेषण का क्षेत्र जो कार्यात्मकताओं को अधिकतम या न्यूनतम करने से संबंधित है।
 * अधिकतम एन्ट्रापी भेदभाव: यह परिवर्तनशील अनुमान ढांचा है जो अतिरिक्त बड़े-मार्जिन बाधाओं को प्रस्तुत करने और लेखांकन की अनुमति देता है

बाहरी संबंध

 * The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay provides an introduction to variational methods (p. 422).
 * A Tutorial on Variational Bayes. Fox, C. and Roberts, S. 2012. Artificial Intelligence Review,.
 * Variational-Bayes Repository A repository of research papers, software, and links related to the use of variational methods for approximate Bayesian learning up to 2003.
 * Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs.
 * High-Level Explanation of Variational Inference by Jason Eisner may be worth reading before a more mathematically detailed treatment.
 * Copula Variational Bayes inference via information geometry (pdf) by Tran, V.H. 2018. This paper is primarily written for students. Via Bregman divergence, the paper shows that Variational Bayes is simply a generalized Pythagorean projection of true model onto an arbitrarily correlated (copula) distributional space, of which the independent space is merely a special case.