वैरिएशनल बायेसियन विधियाँ
| Part of a series on |
| Bayesian statistics |
|---|
| Posterior = Likelihood × Prior ÷ Evidence |
| Background |
| Model building |
| Posterior approximation |
| Estimators |
| Evidence approximation |
| Model evaluation |
|
|
वेरिएशनल बायेसियन विधियाँ बायेसियन अनुमान और यंत्र अधिगम में उत्पन्न होने वाले असाध्य अभिन्न ्स का अनुमान लगाने की तकनीकों का एक परिवार है। इनका उपयोग आमतौर पर जटिल सांख्यिकीय मॉडल में किया जाता है जिसमें प्रेक्षित चर (आमतौर पर डेटा कहा जाता है) के साथ-साथ अज्ञात पैरामीटर और अव्यक्त चर होते हैं, तीन प्रकार के यादृच्छिक चर के बीच विभिन्न प्रकार के संबंधों के साथ, जैसा कि एक चित्रमय मॉडल द्वारा वर्णित किया जा सकता है। जैसा कि बायेसियन अनुमान में विशिष्ट है, पैरामीटर और अव्यक्त चर को एक साथ न देखे गए चर के रूप में समूहीकृत किया जाता है। वेरिएशनल बायेसियन विधियाँ मुख्य रूप से दो उद्देश्यों के लिए उपयोग की जाती हैं:
- इन चरों पर सांख्यिकीय अनुमान लगाने के लिए, न देखे गए चरों की पिछली संभावना के लिए एक विश्लेषणात्मक अनुमान प्रदान करना।
- अवलोकित डेटा की सीमांत संभावना (जिसे कभी-कभी साक्ष्य भी कहा जाता है) के लिए निचली सीमा प्राप्त करना (अर्थात मॉडल दिए गए डेटा की सीमांत संभावना, बिना देखे गए चर पर हाशिए पर प्रदर्शन के साथ)। इसका उपयोग आम तौर पर मॉडल चयन करने के लिए किया जाता है, सामान्य विचार यह है कि किसी दिए गए मॉडल के लिए उच्च सीमांत संभावना उस मॉडल द्वारा डेटा के बेहतर फिट को इंगित करती है और इसलिए अधिक संभावना है कि प्रश्न में मॉडल वह था जिसने डेटा उत्पन्न किया था। (बेयस फैक्टर लेख भी देखें।)
पूर्व उद्देश्य में (पश्च संभाव्यता का अनुमान लगाने के लिए), वैरिएबल बेयस मोंटे कार्लो नमूनाकरण विधियों का एक विकल्प है - विशेष रूप से, मार्कोव श्रृंखला मोंटे कार्लो विधियां जैसे गिब्स नमूनाकरण - जटिल संभाव्यता वितरण पर सांख्यिकीय अनुमान के लिए पूरी तरह से बायेसियन दृष्टिकोण लेने के लिए सीधे या नमूना (सांख्यिकी) का मूल्यांकन करना कठिन है। विशेष रूप से, जबकि मोंटे कार्लो तकनीक नमूनों के एक सेट का उपयोग करके सटीक पोस्टीरियर के लिए एक संख्यात्मक अनुमान प्रदान करती है, वेरिएबल बेयस पोस्टीरियर के अनुमान के लिए एक स्थानीय-इष्टतम, सटीक विश्लेषणात्मक समाधान प्रदान करता है।
वैरिएशनल बेयस को एक्सपेक्टेशन-मैक्सिमाइजेशन एल्गोरिदम के विस्तार के रूप में देखा जा सकता है। एक्सपेक्टेशन-मैक्सिमाइजेशन (ईएम) एल्गोरिदम प्रत्येक पैरामीटर के एकल सबसे संभावित मूल्य के अधिकतम पोस्टीरियरी अनुमान (एमएपी अनुमान) से लेकर पूरी तरह से बायेसियन अनुमान तक, जो (एक अनुमान) की गणना करता है। ) मापदंडों और अव्यक्त चर का संपूर्ण पश्च वितरण। ईएम की तरह, यह इष्टतम पैरामीटर मानों का एक सेट ढूंढता है, और इसमें ईएम के समान ही वैकल्पिक संरचना होती है, जो इंटरलॉक्ड (परस्पर निर्भर) समीकरणों के एक सेट पर आधारित होती है जिसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है।
कई अनुप्रयोगों के लिए, वैरिएबल बेयस अधिक गति से गिब्स सैंपलिंग के तुलनीय सटीकता के समाधान तैयार करता है। हालाँकि, मापदंडों को अद्यतन करने के लिए उपयोग किए जाने वाले समीकरणों के सेट को प्राप्त करने के लिए अक्सर तुलनीय गिब्स नमूना समीकरणों को प्राप्त करने की तुलना में बड़ी मात्रा में काम की आवश्यकता होती है। यह कई मॉडलों के लिए भी मामला है जो वैचारिक रूप से काफी सरल हैं, जैसा कि केवल दो मापदंडों और कोई अव्यक्त चर के साथ एक बुनियादी गैर-पदानुक्रमित मॉडल के मामले में नीचे दिखाया गया है।
गणितीय व्युत्पत्ति
समस्या
विविधता अनुमान के कैलकुलस में, न देखे गए चरों के एक सेट पर पश्च वितरण कुछ डेटा दिया तथाकथित परिवर्तनशील वितरण द्वारा अनुमानित है,
बंटवारा की तुलना में सरल रूप के वितरण के परिवार से संबंधित होने तक सीमित है (उदाहरण के लिए गॉसियन वितरण का एक परिवार), बनाने के इरादे से चुना गया वास्तविक पश्च भाग के समान, .
समानता (या असमानता) को असमानता फ़ंक्शन के संदर्भ में मापा जाता है और इसलिए वितरण का चयन करके अनुमान लगाया जाता है वह न्यूनतम करता है .
केएल विचलन
वैरिएबल बेज़ का सबसे आम प्रकार असमानता फ़ंक्शन की पसंद के रूप में पी से क्यू के कुल्बैक-लीब्लर डाइवर्जेंस (केएल-डाइवर्जेंस) का उपयोग करता है। यह विकल्प इस न्यूनतमकरण को सुव्यवस्थित बनाता है। केएल-विचलन को इस प्रकार परिभाषित किया गया है
ध्यान दें कि Q और P किसी की अपेक्षा से उलट हैं। उलटे केएल-विचलन का यह उपयोग अवधारणात्मक रूप से अपेक्षा-अधिकतमकरण एल्गोरिदम के समान है। (केएल-डाइवर्जेंस का दूसरे तरीके से उपयोग करने से अपेक्षा प्रसार एल्गोरिदम उत्पन्न होता है।)
दुरूहता
विभिन्न तकनीकों का उपयोग आम तौर पर इसका अनुमान लगाने के लिए किया जाता है:
हाशियाकरण ख़त्म की गणना करना हर में आमतौर पर अघुलनशील होता है, क्योंकि, उदाहरण के लिए, का खोज स्थान संयुक्त रूप से बड़ा है। इसलिए, हम इसका उपयोग करते हुए एक अनुमान चाहते हैं .
साक्ष्य निचली सीमा
मान लें कि , उपरोक्त केएल-विचलन को इस प्रकार भी लिखा जा सकता है
क्योंकि के संबंध में एक स्थिरांक है और क्योंकि एक वितरण है, हमारे पास है
जिसे अपेक्षित मान की परिभाषा के अनुसार (एक असतत यादृच्छिक चर के लिए) निम्नानुसार लिखा जा सकता है
जिसे पुनर्व्यवस्थित करके बनाया जा सकता है
लॉग-मॉडल साक्ष्य के रूप में के संबंध में तय किया गया है , अंतिम कार्यकाल को अधिकतम करना केएल विचलन को कम करता है से . उचित चयन द्वारा , गणना करने और अधिकतम करने के लिए सुव्यवस्थित हो जाता है। इसलिए हमारे पास एक विश्लेषणात्मक सन्निकटन है पीछे के लिए , और एक निचली सीमा लॉग-साक्ष्य के लिए (चूंकि केएल-विचलन गैर-नकारात्मक है)।
निचली सीमा इसे थर्मोडायनामिक मुक्त ऊर्जा के अनुरूप (नकारात्मक) परिवर्तनशील मुक्त ऊर्जा के रूप में जाना जाता है क्योंकि इसे नकारात्मक ऊर्जा के रूप में भी व्यक्त किया जा सकता है प्लस एन्ट्रॉपी (सूचना सिद्धांत)। . शब्द इसे एविडेंस लोअर बाउंड के रूप में भी जाना जाता है, जिसे संक्षेप में एविडेंस लोअर बाउंड के रूप में जाना जाता है, इस बात पर जोर देने के लिए कि यह डेटा के लॉग-एविडेंस पर एक निचला बाउंड है।
प्रमाण
ब्रेगमैन विचलन के सामान्यीकृत पायथागॉरियन प्रमेय द्वारा, जिसमें केएल-विचलन एक विशेष मामला है, यह दिखाया जा सकता है कि:[1][2]
:
कहाँ एक उत्तल समुच्चय है और समानता तब कायम रहती है यदि:
इस मामले में, वैश्विक न्यूनतमकर्ता साथ इस प्रकार पाया जा सकता है:[1]
जिसमें सामान्यीकरण स्थिरांक है:
शब्द व्यवहार में इसे अक्सर मॉडल एविडेंस लोअर बाउंड (ईएलबीओ) कहा जाता है ,[1]जैसा कि उपर दिखाया गया है।
की भूमिकाओं की अदला-बदली करके और हम अनुमानित रूप से पुनरावर्ती गणना कर सकते हैं और सच्चे मॉडल के हाशिये पर और क्रमश। यद्यपि इस पुनरावृत्तीय योजना को नीरस रूप से अभिसरण करने की गारंटी है,[1]एकत्रित का केवल एक स्थानीय मिनिमाइज़र है .
यदि विवश स्थान स्वतंत्र स्थान के भीतर ही सीमित है, अर्थात उपरोक्त पुनरावृत्तीय योजना तथाकथित माध्य क्षेत्र सन्निकटन बन जाएगी जैसा कि नीचे दिया गया है।
माध्य क्षेत्र सन्निकटन
परिवर्तनशील वितरण आम तौर पर यह माना जाता है कि अव्यक्त चर के एक सेट के कुछ विभाजन पर कारक बनाया जाता है, यानी अव्यक्त चर के कुछ विभाजन के लिए में ,
इसे विविधताओं की गणना (इसलिए नाम वेरिएबल बेयस) का उपयोग करके दिखाया जा सकता है कि सबसे अच्छा वितरण प्रत्येक कारक के लिए (वितरण के संदर्भ में केएल विचलन को न्यूनतम करना, जैसा कि ऊपर वर्णित है) संतुष्ट करता है:
कहाँ डेटा और अव्यक्त चर की संयुक्त संभावना के लघुगणक का अपेक्षित मूल्य है, जिसके संबंध में लिया गया है विभाजन में मौजूद सभी वेरिएबल्स पर: लेम्मा 4.1 का संदर्भ लें[3] वितरण की व्युत्पत्ति के लिए .
व्यवहार में, हम आम तौर पर लघुगणक के संदर्भ में काम करते हैं, अर्थात:
उपरोक्त अभिव्यक्ति में स्थिरांक सामान्यीकृत स्थिरांक (उपरोक्त अभिव्यक्ति में हर) से संबंधित है ) और आमतौर पर निरीक्षण द्वारा बहाल किया जाता है, क्योंकि अभिव्यक्ति के बाकी हिस्सों को आमतौर पर एक ज्ञात प्रकार के वितरण (जैसे गाऊसी वितरण, गामा वितरण, आदि) के रूप में पहचाना जा सकता है।
अपेक्षाओं के गुणों का प्रयोग, अभिव्यक्ति आमतौर पर अव्यक्त चर और अपेक्षाओं (और कभी-कभी उच्चतर क्षण (गणित) जैसे विचरण) पर पूर्व वितरण के निश्चित हाइपरपैरामीटर के एक फ़ंक्शन में सरलीकृत किया जा सकता है, जो कि वर्तमान विभाजन में नहीं है (यानी अव्यक्त चर शामिल नहीं हैं) में ). यह एक विभाजन में चर पर वितरण के मापदंडों और अन्य विभाजन में चर की अपेक्षाओं के बीच परिपत्र निर्भरता बनाता है। यह स्वाभाविक रूप से ईएम (अपेक्षा-अधिकतमकरण एल्गोरिदम) की तरह एक पुनरावृत्त एल्गोरिदम का सुझाव देता है, जिसमें अव्यक्त चर की अपेक्षाओं (और संभवतः उच्च क्षणों) को कुछ फैशन में (शायद यादृच्छिक रूप से) प्रारंभ किया जाता है, और फिर प्रत्येक वितरण के पैरामीटर होते हैं अपेक्षाओं के वर्तमान मूल्यों का उपयोग करके बारी-बारी से गणना की जाती है, जिसके बाद गणना किए गए मापदंडों के अनुसार नए गणना किए गए वितरण की अपेक्षा उचित रूप से निर्धारित की जाती है। इस प्रकार का एल्गोरिदम अनुक्रम की सीमा की गारंटी देता है।[4] दूसरे शब्दों में, चर के प्रत्येक विभाजन के लिए, विभाजन के चर पर वितरण के लिए अभिव्यक्ति को सरल बनाकर और प्रश्न में चर पर वितरण की कार्यात्मक निर्भरता की जांच करके, वितरण का परिवार आमतौर पर निर्धारित किया जा सकता है (जो बदले में निर्धारित करता है) स्थिरांक का मान)। वितरण के मापदंडों का सूत्र पूर्व वितरणों के हाइपरपैरामीटर (जो ज्ञात स्थिरांक हैं) के संदर्भ में व्यक्त किया जाएगा, लेकिन अन्य विभाजनों में चर के कार्यों की अपेक्षाओं के संदर्भ में भी व्यक्त किया जाएगा। आमतौर पर इन अपेक्षाओं को स्वयं चरों की अपेक्षाओं के कार्यों में सरलीकृत किया जा सकता है (अर्थात साधन); कभी-कभी वर्गाकार चरों की अपेक्षाएं (जो चरों के विचरण से संबंधित हो सकती हैं), या उच्च शक्तियों (अर्थात उच्चतर क्षण (गणित)) की अपेक्षाएं भी प्रकट होती हैं। ज्यादातर मामलों में, अन्य चर का वितरण ज्ञात परिवारों से होगा, और प्रासंगिक अपेक्षाओं के लिए सूत्रों को देखा जा सकता है। हालाँकि, वे सूत्र उन वितरण मापदंडों पर निर्भर करते हैं, जो बदले में अन्य चर के बारे में अपेक्षाओं पर निर्भर करते हैं। इसका परिणाम यह है कि प्रत्येक चर के वितरण के मापदंडों के सूत्रों को चर के बीच पारस्परिक, गैर-रेखीय निर्भरता वाले समीकरणों की एक श्रृंखला के रूप में व्यक्त किया जा सकता है। आमतौर पर, समीकरणों की इस प्रणाली को सीधे हल करना संभव नहीं है। हालाँकि, जैसा कि ऊपर बताया गया है, निर्भरताएँ एक सरल पुनरावृत्त एल्गोरिथ्म का सुझाव देती हैं, जो ज्यादातर मामलों में अभिसरण की गारंटी देता है। एक उदाहरण से यह प्रक्रिया और स्पष्ट हो जायेगी.
परिवर्तनात्मक अनुमान के लिए एक द्वैत सूत्र
निम्नलिखित प्रमेय को परिवर्तनशील अनुमान के लिए द्वैत सूत्र के रूप में जाना जाता है।[3]यह वैरिएबल बेयस विधियों में उपयोग किए जाने वाले वैरिएबल वितरण के कुछ महत्वपूर्ण गुणों की व्याख्या करता है।
Theorem दो संभाव्यता स्थानों पर विचार करें और साथ . मान लें कि एक सामान्य प्रभावी संभाव्यता माप है ऐसा है कि और . होने देना किसी भी वास्तविक-मूल्यवान यादृच्छिक चर को निरूपित करें जो संतुष्ट करता है . तब निम्नलिखित समानता कायम रहती है
इसके अलावा, दाहिनी ओर का सर्वोच्च तभी प्राप्त होता है जब वह कायम रहता है
संभाव्यता माप के संबंध में लगभग निश्चित रूप से , कहाँ और संभाव्यता उपायों के रेडॉन-निकोडिम डेरिवेटिव को निरूपित करें और इसके संबंध में , क्रमश।
एक बुनियादी उदाहरण
एक सरल गैर-पदानुक्रमित बायेसियन मॉडल पर विचार करें जिसमें स्वतंत्र रूप से वितरित i.i.d. का एक सेट शामिल है। अज्ञात माध्य और विचरण के साथ गॉसियन वितरण से अवलोकन।[5] निम्नलिखित में, हम इस मॉडल के माध्यम से वेरिएबल बेयस विधि की कार्यप्रणाली को स्पष्ट करने के लिए विस्तार से काम करते हैं।
गणितीय सुविधा के लिए, निम्नलिखित उदाहरण में हम परिशुद्धता (सांख्यिकी) के संदर्भ में काम करते हैं - अर्थात विचरण का व्युत्क्रम (या एक बहुभिन्नरूपी गॉसियन में, सहप्रसरण मैट्रिक्स का व्युत्क्रम) - न कि स्वयं विचरण के। (सैद्धांतिक दृष्टिकोण से, परिशुद्धता और भिन्नता समतुल्य हैं क्योंकि दोनों के बीच एक-से-एक पत्राचार है।)
गणितीय मॉडल
हम संयुग्मित पूर्व वितरणों को अज्ञात माध्य पर रखते हैं और परिशुद्धता , अर्थात माध्य भी गाऊसी वितरण का अनुसरण करता है जबकि परिशुद्धता गामा वितरण का अनुसरण करती है। दूसरे शब्दों में:
हाइपरपैरामीटर और पूर्व में वितरण निश्चित होते हैं, मान दिए जाते हैं। व्यापक पूर्व वितरण देने के लिए उन्हें छोटी सकारात्मक संख्याओं पर सेट किया जा सकता है जो पूर्व वितरणों के बारे में अज्ञानता का संकेत देते हैं और .
हम दे रहे हैं डेटा अंक और हमारा लक्ष्य पश्च वितरण का अनुमान लगाना है मापदंडों का और
संयुक्त संभावना
सभी चरों की संयुक्त प्रायिकता को इस प्रकार पुनः लिखा जा सकता है
जहां व्यक्तिगत कारक हैं
कहाँ
गुणनखंडित सन्निकटन
ये मान लीजिए , यानी कि पश्च वितरण स्वतंत्र कारकों में विभाजित होता है और . इस प्रकार की धारणा वैरिएबल बायेसियन पद्धति को रेखांकित करती है। वास्तविक पश्च वितरण वास्तव में इस तरह से कारक नहीं होता है (वास्तव में, इस साधारण मामले में, इसे गाऊसी-गामा वितरण के रूप में जाना जाता है), और इसलिए हम जो परिणाम प्राप्त करेंगे वह एक अनुमान होगा।
की व्युत्पत्ति q(μ)
तब
उपरोक्त व्युत्पत्ति में, , और उन मूल्यों को संदर्भित करें जो संबंध में स्थिर हैं . ध्यान दें कि शब्द का कार्य नहीं है और मूल्य की परवाह किए बिना उसका मूल्य समान होगा . इसलिए पंक्ति 3 में हम इसे अंत में स्थिर पद में समाहित कर सकते हैं। हम पंक्ति 7 में भी यही कार्य करते हैं।
अंतिम पंक्ति बस एक द्विघात बहुपद है . चूँकि यह का लघुगणक है , हम देख सकते हैं कि स्वयं एक गाऊसी वितरण है।
एक निश्चित मात्रा में कठिन गणित के साथ (ब्रेसिज़ के अंदर के वर्गों का विस्तार करना, अलग करना और शामिल शब्दों को समूहीकृत करना) और और वर्ग पूरा करना ), हम गाऊसी वितरण के पैरामीटर प्राप्त कर सकते हैं:
ध्यान दें कि उपरोक्त सभी चरणों को सामान्य वितरण#दो द्विघातों के योग के सूत्र का उपयोग करके छोटा किया जा सकता है।
दूसरे शब्दों में:
की व्युत्पत्ति q(τ)
की व्युत्पत्ति उपरोक्त के समान है, हालाँकि हम संक्षिप्तता के लिए कुछ विवरण छोड़ देते हैं।
दोनों पक्षों को घातांकित करने पर हम यह देख सकते हैं एक गामा वितरण है. विशेष रूप से:
पैरामीटर की गणना के लिए एल्गोरिदम
आइए हम पिछले अनुभागों के निष्कर्षों का पुनर्कथन करें:
और
प्रत्येक मामले में, किसी एक चर पर वितरण के पैरामीटर दूसरे चर के संबंध में ली गई अपेक्षाओं पर निर्भर करते हैं। हम गॉसियन और गामा वितरण के क्षणों की अपेक्षाओं के लिए मानक सूत्रों का उपयोग करके अपेक्षाओं का विस्तार कर सकते हैं:
इन सूत्रों को उपरोक्त समीकरणों पर लागू करना ज्यादातर मामलों में मामूली है, लेकिन समीकरण के लिए अधिक काम लेता है:
फिर हम पैरामीटर समीकरणों को बिना किसी अपेक्षा के इस प्रकार लिख सकते हैं:
ध्यान दें कि सूत्रों के बीच चक्रीय निर्भरताएँ हैं और . यह स्वाभाविक रूप से एक अपेक्षा-अधिकतमकरण एल्गोरिथ्म-जैसे एल्गोरिदम का सुझाव देता है:
- गणना करें और गणना करने के लिए इन मानों का उपयोग करें और
- प्रारंभ करें कुछ मनमाने मूल्य के लिए.
- के वर्तमान मान का उपयोग करें गणना करने के लिए अन्य मापदंडों के ज्ञात मूल्यों के साथ .
- के वर्तमान मान का उपयोग करें गणना करने के लिए अन्य मापदंडों के ज्ञात मूल्यों के साथ .
- अंतिम दो चरणों को अभिसरण होने तक दोहराएँ (अर्थात जब तक कि कोई भी मान कुछ छोटी राशि से अधिक न बदल जाए)।
फिर हमारे पास पश्च मापदंडों के अनुमानित वितरण के हाइपरपैरामीटर के लिए मान हैं, जिनका उपयोग हम पश्च भाग के किसी भी गुण की गणना करने के लिए कर सकते हैं - उदाहरण के लिए इसका माध्य और विचरण, 95% उच्चतम-घनत्व क्षेत्र (सबसे छोटा अंतराल जिसमें कुल संभावना का 95% शामिल है), आदि।
यह दिखाया जा सकता है कि यह एल्गोरिदम स्थानीय अधिकतम में परिवर्तित होने की गारंटी देता है।
यह भी ध्यान दें कि पिछले वितरणों का स्वरूप संबंधित पिछले वितरणों के समान ही है। हमने यह नहीं माना; हमने जो एकमात्र धारणा बनाई वह यह थी कि वितरण गुणनखंडित होते हैं, और वितरण का स्वरूप स्वाभाविक रूप से अनुसरण किया जाता है। यह पता चला है (नीचे देखें) कि तथ्य यह है कि पिछले वितरणों का रूप पिछले वितरणों के समान है, यह कोई संयोग नहीं है, बल्कि एक सामान्य परिणाम है जब भी पिछले वितरण घातीय परिवार के सदस्य होते हैं, जो कि अधिकांश के लिए मामला है मानक वितरण.
आगे की चर्चा
स्टेप-बाय-स्टेप रेसिपी
उपरोक्त उदाहरण उस विधि को दर्शाता है जिसके द्वारा किसी दिए गए बायेसियन नेटवर्क में पश्च संभाव्यता घनत्व के लिए वैरिएबल-बायेसियन सन्निकटन प्राप्त किया जाता है:
- ग्राफ़िकल मॉडल के साथ नेटवर्क का वर्णन करें, देखे गए चर (डेटा) की पहचान करें और न देखे गए चर (पैरामीटर) और अव्यक्त चर ) और उनके सशर्त संभाव्यता वितरण। वेरिएशनल बेज़ इसके बाद पश्च संभाव्यता का एक अनुमान तैयार करेंगे . सन्निकटन की मूल संपत्ति यह है कि यह एक गुणनखंडित वितरण है, यानी न देखे गए चर के असंयुक्त उपसमुच्चय पर दो या दो से अधिक सांख्यिकीय स्वतंत्रता वितरण का उत्पाद है।
- न देखे गए चरों को दो या दो से अधिक उपसमूहों में विभाजित करें, जिन पर स्वतंत्र कारक प्राप्त किए जाएंगे। ऐसा करने की कोई सार्वभौमिक प्रक्रिया नहीं है; बहुत अधिक उपसमुच्चय बनाने से खराब सन्निकटन प्राप्त होता है, जबकि बहुत कम उपसमुच्चय बनाने से संपूर्ण परिवर्तनशील बेयस प्रक्रिया कठिन हो जाती है। आमतौर पर, पहला विभाजन पैरामीटर और अव्यक्त चर को अलग करने के लिए होता है; अक्सर, यह अपने आप में एक सुगम परिणाम उत्पन्न करने के लिए पर्याप्त होता है। मान लें कि विभाजन बुलाए गए हैं .
- किसी दिए गए विभाजन के लिए , सर्वोत्तम अनुमानित वितरण के लिए सूत्र लिखें मूल समीकरण का उपयोग करना .
- ग्राफ़िकल मॉडल का उपयोग करके संयुक्त संभाव्यता वितरण के लिए सूत्र भरें। कोई भी घटक सशर्त वितरण जिसमें कोई भी चर शामिल नहीं है नजरअंदाज किया जा सकता है; उन्हें स्थिर अवधि में जोड़ दिया जाएगा।
- उपरोक्त उदाहरण का अनुसरण करते हुए सूत्र को सरल बनाएं और अपेक्षा ऑपरेटर लागू करें। आदर्श रूप से, इसे चर के बुनियादी कार्यों की अपेक्षाओं में सरलीकृत नहीं किया जाना चाहिए (जैसे पहला या दूसरा कच्चा क्षण (गणित), लघुगणक की अपेक्षा, आदि)। वेरिएबल बेयस प्रक्रिया को अच्छी तरह से काम करने के लिए, इन अपेक्षाओं को आम तौर पर इन चर के वितरण के मापदंडों और/या हाइपरपैरामीटर के कार्यों के रूप में विश्लेषणात्मक रूप से व्यक्त किया जाना चाहिए। सभी मामलों में, ये अपेक्षा शर्तें वर्तमान विभाजन में चर के संबंध में स्थिरांक हैं।
- वर्तमान विभाजन में चर के संबंध में सूत्र का कार्यात्मक रूप वितरण के प्रकार को इंगित करता है। विशेष रूप से, सूत्र को घातांकित करने से वितरण की संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) उत्पन्न होती है (या कम से कम, इसके लिए कुछ आनुपातिक, अज्ञात सामान्यीकरण स्थिरांक के साथ)। समग्र विधि को ट्रैक्टेबल बनाने के लिए, ज्ञात वितरण से संबंधित कार्यात्मक रूप को पहचानना संभव होना चाहिए। सूत्र को ज्ञात वितरण के पीडीएफ से मेल खाने वाले फॉर्म में बदलने के लिए महत्वपूर्ण गणितीय हेरफेर की आवश्यकता हो सकती है। जब यह किया जा सकता है, तो सामान्यीकरण स्थिरांक को परिभाषा द्वारा बहाल किया जा सकता है, और ज्ञात वितरण के मापदंडों के लिए समीकरण सूत्र के उचित भागों को निकालकर प्राप्त किया जा सकता है।
- जब सभी अपेक्षाओं को विश्लेषणात्मक रूप से उन चरों के कार्यों से बदला जा सकता है जो वर्तमान विभाजन में नहीं हैं, और पीडीएफ को एक ऐसे रूप में रखा जाता है जो ज्ञात वितरण के साथ पहचान की अनुमति देता है, तो परिणाम समीकरणों का एक सेट होता है जो इष्टतम मापदंडों के मूल्यों को कार्यों के रूप में व्यक्त करता है अन्य विभाजनों में चर के पैरामीटर।
- जब इस प्रक्रिया को सभी विभाजनों पर लागू किया जा सकता है, तो परिणाम सभी मापदंडों के इष्टतम मूल्यों को निर्दिष्ट करने वाले परस्पर जुड़े समीकरणों का एक सेट होता है।
- फिर एक अपेक्षा अधिकतमीकरण (ईएम) प्रकार की प्रक्रिया लागू की जाती है, प्रत्येक पैरामीटर के लिए एक प्रारंभिक मान चुना जाता है और चरणों की एक श्रृंखला के माध्यम से पुनरावृत्ति की जाती है, जहां प्रत्येक चरण में हम समीकरणों के माध्यम से चक्र करते हैं, प्रत्येक पैरामीटर को बारी-बारी से अपडेट करते हैं। यह जुटने की गारंटी है.
सबसे महत्वपूर्ण बिंदु
इसमें शामिल सभी गणितीय जोड़-तोड़ों के कारण, बड़ी तस्वीर का ध्यान भटकाना आसान है। महत्वपूर्ण बातें ये हैं:
- वैरिएबल बेयस का विचार डेटा को देखते हुए, न देखे गए चर (पैरामीटर और अव्यक्त चर) के सेट की पिछली संभावना के लिए एक विश्लेषणात्मक सन्निकटन का निर्माण करना है। इसका मतलब यह है कि समाधान का रूप अन्य बायेसियन अनुमान विधियों के समान है, जैसे कि गिब्स नमूनाकरण - यानी एक वितरण जो चर के बारे में ज्ञात हर चीज का वर्णन करना चाहता है। जैसा कि अन्य बायेसियन तरीकों में होता है - लेकिन उदाहरण के विपरीत। अपेक्षा अधिकतमीकरण (ईएम) या अन्य अधिकतम संभावना विधियों में - दोनों प्रकार के अप्राप्य चर (यानी पैरामीटर और अव्यक्त चर) को समान माना जाता है, यानी यादृच्छिक चर के रूप में। फिर चरों का अनुमान मानक बायेसियन तरीकों से प्राप्त किया जा सकता है, जैसे एकल बिंदु अनुमान प्राप्त करने के लिए वितरण के माध्य की गणना करना या एक विश्वसनीय अंतराल, उच्चतम घनत्व क्षेत्र आदि प्राप्त करना।
- विश्लेषणात्मक सन्निकटन का अर्थ है कि पश्च वितरण के लिए एक सूत्र लिखा जा सकता है। सूत्र में आम तौर पर प्रसिद्ध संभाव्यता वितरण का एक उत्पाद शामिल होता है, जिनमें से प्रत्येक न देखे गए चर के एक सेट पर कारक होता है (यानी, देखे गए डेटा को देखते हुए, यह अन्य चर से सशर्त रूप से स्वतंत्र है)। यह सूत्र वास्तविक पश्च वितरण नहीं है, बल्कि इसका एक अनुमान है; विशेष रूप से, यह आम तौर पर न देखे गए चरों के निम्नतम क्षण (गणित) में काफी निकटता से सहमत होगा, उदाहरण के लिए माध्य और विचरण.
- सभी गणितीय जोड़-तोड़ों का परिणाम है (1) कारकों को बनाने वाले संभाव्यता वितरण की पहचान, और (2) इन वितरणों के मापदंडों के लिए परस्पर निर्भर सूत्र। इन मापदंडों के वास्तविक मूल्यों की गणना ईएम की तरह एक वैकल्पिक पुनरावृत्त प्रक्रिया के माध्यम से संख्यात्मक रूप से की जाती है।
अपेक्षा अधिकतमकरण (ईएम) के साथ तुलना में
वेरिएशनल बेयस (वीबी) की तुलना अक्सर अपेक्षा अधिकतमकरण (ईएम) से की जाती है। वास्तविक संख्यात्मक प्रक्रिया काफी समान है, जिसमें दोनों वैकल्पिक पुनरावृत्त प्रक्रियाएं हैं जो क्रमिक रूप से इष्टतम पैरामीटर मानों पर एकत्रित होती हैं। संबंधित प्रक्रियाओं को प्राप्त करने के प्रारंभिक चरण भी अस्पष्ट रूप से समान हैं, दोनों संभाव्यता घनत्व के सूत्रों के साथ शुरू होते हैं और दोनों में महत्वपूर्ण मात्रा में गणितीय जोड़-तोड़ शामिल होते हैं।
हालाँकि, इसमें कई अंतर हैं। सबसे महत्वपूर्ण यह है कि गणना क्या की जा रही है।
- ईएम उन यादृच्छिक चरों के पश्च वितरण के बिंदु अनुमानों की गणना करता है जिन्हें मापदंडों के रूप में वर्गीकृत किया जा सकता है, लेकिन केवल अव्यक्त चर के वास्तविक पश्च वितरण का अनुमान (कम से कम नरम ईएम में, और अक्सर केवल जब अव्यक्त चर अलग होते हैं)। गणना किए गए बिंदु अनुमान इन मापदंडों के मोड (सांख्यिकी) हैं; कोई अन्य जानकारी उपलब्ध नहीं है.
- दूसरी ओर, वीबी सभी चर, दोनों मापदंडों और अव्यक्त चर के वास्तविक पश्च वितरण के अनुमान की गणना करता है। जब बिंदु अनुमान प्राप्त करने की आवश्यकता होती है, तो आमतौर पर मोड के बजाय माध्य का उपयोग किया जाता है, जैसा कि बायेसियन अनुमान में सामान्य है। इसके साथ ही, वीबी में गणना किए गए मापदंडों का ईएम के समान महत्व नहीं है। ईएम बेयस नेटवर्क के मापदंडों के इष्टतम मूल्यों की गणना स्वयं करता है। वीबी बेयस नेटवर्क के मापदंडों और अव्यक्त चर का अनुमान लगाने के लिए उपयोग किए जाने वाले वितरण के मापदंडों के इष्टतम मूल्यों की गणना करता है। उदाहरण के लिए, एक विशिष्ट गाऊसी मिश्रण मॉडल में प्रत्येक मिश्रण घटक के माध्य और विचरण के लिए पैरामीटर होंगे। ईएम सीधे इन मापदंडों के लिए इष्टतम मूल्यों का अनुमान लगाएगा। हालाँकि, वीबी पहले इन मापदंडों के अनुसार एक वितरण को फिट करेगा - आम तौर पर पूर्व वितरण के रूप में, उदाहरण के लिए। एक सामान्य-स्केल व्युत्क्रम गामा वितरण - और फिर इस पूर्व वितरण के मापदंडों के लिए मूल्यों की गणना करेगा, यानी अनिवार्य रूप से हाइपरपैरामीटर। इस मामले में, वीबी सामान्य-स्केल व्युत्क्रम गामा वितरण के चार मापदंडों के इष्टतम अनुमानों की गणना करेगा जो घटक के माध्य और विचरण के संयुक्त वितरण का वर्णन करता है।
एक अधिक जटिल उदाहरण
एक बायेसियन गाऊसी मिश्रण मॉडल की कल्पना करें जिसका वर्णन इस प्रकार है:[5]
टिप्पणी:
- SymDir() आयाम का सममित डिरिचलेट वितरण है , प्रत्येक घटक के लिए हाइपरपैरामीटर सेट के साथ . डिरिचलेट वितरण श्रेणीबद्ध वितरण या बहुपद वितरण से पहले का संयुग्म है।
- विशार्ट वितरण है, जो बहुभिन्नरूपी गॉसियन वितरण के लिए सटीक मैट्रिक्स (व्युत्क्रम परिशुद्धता मैट्रिक्स) का संयुग्मित पूर्व है।
- मल्टी() एकल अवलोकन पर एक बहुपद वितरण है (एक श्रेणीबद्ध वितरण के बराबर)। राज्य स्थान एक-के-के प्रतिनिधित्व है, यानी, ए -आयामी वेक्टर जिसमें तत्वों में से एक 1 है (अवलोकन की पहचान निर्दिष्ट करते हुए) और अन्य सभी तत्व 0 हैं।
- गाऊसी वितरण है, इस मामले में विशेष रूप से बहुभिन्नरूपी गाऊसी वितरण।
उपरोक्त चरों की व्याख्या इस प्रकार है:
- का सेट है डेटा बिंदु, जिनमें से प्रत्येक एक है -आयामी वेक्टर को बहुभिन्नरूपी गॉसियन वितरण के अनुसार वितरित किया जाता है।
- अव्यक्त चर का एक सेट है, प्रति डेटा बिंदु एक, घटकों के साथ एक-के-वेक्टर प्रतिनिधित्व का उपयोग करके निर्दिष्ट करता है कि संबंधित डेटा बिंदु किस मिश्रण घटक से संबंधित है के लिए , जैसा ऊपर वर्णित है।
- के लिए मिश्रण अनुपात है मिश्रण घटक.
- और प्रत्येक मिश्रण घटक से जुड़े पैरामीटर (माध्य और परिशुद्धता (सांख्यिकी)) निर्दिष्ट करें।
सभी चरों की संयुक्त प्रायिकता को इस प्रकार पुनः लिखा जा सकता है
जहां व्यक्तिगत कारक हैं
कहाँ
ये मान लीजिए .
तब
जहां हमने परिभाषित किया है
के लिए सूत्र के दोनों पक्षों का घातांक लगाना पैदावार
इसे सामान्य बनाने की आवश्यकता के कारण यह आवश्यक हो जाता है के सभी मानों का योग 1 है , उपज
कहाँ
दूसरे शब्दों में, एकल-अवलोकन बहुपद वितरण और प्रत्येक व्यक्ति पर कारकों का एक उत्पाद है , जिसे मापदंडों के साथ एकल-अवलोकन बहुपद वितरण के रूप में वितरित किया जाता है के लिए .
इसके अलावा, हम उस पर ध्यान देते हैं
जो श्रेणीबद्ध वितरण के लिए एक मानक परिणाम है।
अब, कारक पर विचार करें , ध्यान दें कि यह स्वचालित रूप से इसमें शामिल होता है हमारे गॉसियन मिश्रण मॉडल को परिभाषित करने वाले ग्राफिकल मॉडल की संरचना के कारण, जो ऊपर निर्दिष्ट है।
तब,
दोनों पक्षों का घातांक लेते हुए हम पहचानते हैं डिरिचलेट वितरण के रूप में
कहाँ
कहाँ
आखिरकार
शामिल शर्तों को समूहीकृत करना और पढ़ना और , परिणाम गाऊसी-विशार्ट वितरण द्वारा दिया गया है
परिभाषाएँ दी गईं
अंत में, ध्यान दें कि इन कार्यों के लिए मानों की आवश्यकता होती है , जिसका उपयोग किया जाता है , जिसके आधार पर बारी-बारी से परिभाषित किया गया है , , और . अब जब हमने उन वितरणों को निर्धारित कर लिया है जिन पर ये अपेक्षाएँ ली गई हैं, तो हम उनके लिए सूत्र प्राप्त कर सकते हैं:
इन परिणामों की ओर ले जाते हैं
इन्हें सामान्यीकृत करके आनुपातिक से निरपेक्ष मान में परिवर्तित किया जा सकता है ताकि संबंधित मानों का योग 1 हो।
ध्यान दें कि:
- पैरामीटर के लिए अद्यतन समीकरण , , और चरों का और आंकड़ों पर निर्भर , , और , और ये आँकड़े बदले में निर्भर करते हैं .
- पैरामीटर के लिए अद्यतन समीकरण चर का आंकड़ों पर निर्भर , जो बदले में निर्भर करता है .
- के लिए अद्यतन समीकरण पर प्रत्यक्ष चक्रीय निर्भरता है , , और साथ ही अप्रत्यक्ष चक्रीय निर्भरता भी , और द्वारा और .
यह एक पुनरावृत्तीय प्रक्रिया का सुझाव देता है जो दो चरणों के बीच वैकल्पिक होती है:
- एक ई-स्टेप जो के मूल्य की गणना करता है अन्य सभी पैरामीटरों के वर्तमान मानों का उपयोग करना।
- एक एम-स्टेप जो नए मान का उपयोग करता है अन्य सभी मापदंडों के नए मूल्यों की गणना करने के लिए।
ध्यान दें कि गाऊसी मिश्रण मॉडल के मापदंडों के लिए अधिकतम संभावना या अधिकतम पोस्टीरियरी (एमएपी) समाधान प्राप्त करने के लिए ये चरण मानक ईएम एल्गोरिथ्म के साथ निकटता से मेल खाते हैं। ज़िम्मेदारियाँ ई चरण में डेटा दिए गए अव्यक्त चर की पिछली संभावना से निकटता से मेल खाता है, यानी। ; सांख्यिकी की गणना , , और डेटा पर संगत सॉफ्ट-काउंट आँकड़ों की गणना से निकटता से मेल खाता है; और पैरामीटर के नए मानों की गणना करने के लिए उन आँकड़ों का उपयोग गाऊसी मिश्रण मॉडल पर सामान्य ईएम में नए पैरामीटर मानों की गणना करने के लिए सॉफ्ट काउंट के उपयोग से निकटता से मेल खाता है।
घातांकीय-पारिवारिक वितरण
ध्यान दें कि पिछले उदाहरण में, एक बार न देखे गए चर पर वितरण को मापदंडों पर वितरण और अव्यक्त डेटा पर वितरण में कारक मान लिया गया था, प्रत्येक चर के लिए व्युत्पन्न सर्वोत्तम वितरण चर पर संबंधित पूर्व वितरण के समान परिवार में था। यह एक सामान्य परिणाम है जो घातीय परिवार से प्राप्त सभी पूर्व वितरणों के लिए सही है।
यह भी देखें
- विविध संदेश भेजना: वेरिएशनल बायेसियन अनुमान के लिए एक मॉड्यूलर एल्गोरिदम।
- वैरिएशनल ऑटोएनकोडर : संभाव्य ग्राफिकल मॉडल और वेरिएशनल बायेसियन तरीकों के परिवारों से संबंधित एक कृत्रिम तंत्रिका नेटवर्क।
- अपेक्षा-अधिकतमकरण एल्गोरिथ्म: एक संबंधित दृष्टिकोण जो परिवर्तनशील बायेसियन अनुमान के एक विशेष मामले से मेल खाता है।
- सामान्यीकृत फ़िल्टरिंग: नॉनलाइनियर स्टेट स्पेस मॉडल के लिए एक परिवर्तनीय फ़िल्टरिंग योजना।
- विविधताओं की गणना: गणितीय विश्लेषण का क्षेत्र जो कार्यात्मकताओं को अधिकतम या न्यूनतम करने से संबंधित है।
- अधिकतम एन्ट्रापी भेदभाव: यह एक परिवर्तनशील अनुमान ढांचा है जो अतिरिक्त बड़े-मार्जिन बाधाओं को पेश करने और लेखांकन की अनुमति देता है[6]
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 Tran, Viet Hung (2018). "सूचना ज्यामिति के माध्यम से कोपुला वेरिएशनल बेज़ अनुमान". arXiv:1803.10998 [cs.IT].
- ↑ 2.0 2.1 Adamčík, Martin (2014). "ब्रेगमैन डायवर्जेंस की सूचना ज्यामिति और मल्टी-एक्सपर्ट रीजनिंग में कुछ अनुप्रयोग". Entropy. 16 (12): 6338–6381. Bibcode:2014Entrp..16.6338A. doi:10.3390/e16126338.
- ↑ 3.0 3.1 3.2 Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods: 1–21. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.
- ↑ Boyd, Stephen P.; Vandenberghe, Lieven (2004). उत्तल अनुकूलन (PDF). Cambridge University Press. ISBN 978-0-521-83378-3. Retrieved October 15, 2011.
- ↑ 5.0 5.1 Bishop, Christopher M. (2006). "Chapter 10". पैटर्न मान्यता और मशीन प्रवीणता. Springer. ISBN 978-0-387-31073-2.
- ↑ Sotirios P. Chatzis, “Infinite Markov-Switching Maximum Entropy Discrimination Machines,” Proc. 30th International Conference on Machine Learning (ICML). Journal of Machine Learning Research: Workshop and Conference Proceedings, vol. 28, no. 3, pp. 729–737, June 2013.
बाहरी संबंध
- The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay provides an introduction to variational methods (p. 422).
- A Tutorial on Variational Bayes. Fox, C. and Roberts, S. 2012. Artificial Intelligence Review, doi:10.1007/s10462-011-9236-8.
- Variational-Bayes Repository A repository of research papers, software, and links related to the use of variational methods for approximate Bayesian learning up to 2003.
- Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs.
- High-Level Explanation of Variational Inference by Jason Eisner may be worth reading before a more mathematically detailed treatment.
- Copula Variational Bayes inference via information geometry (pdf) by Tran, V.H. 2018. This paper is primarily written for students. Via Bregman divergence, the paper shows that Variational Bayes is simply a generalized Pythagorean projection of true model onto an arbitrarily correlated (copula) distributional space, of which the independent space is merely a special case.