प्रत्याशा-अधिकतमकरण एल्गोरिथ्म: Difference between revisions
(Created page with "{{Short description|Iterative method for finding maximum likelihood estimates in statistical models}} आंकड़ों में, एक अपेक्षा-अधि...") |
No edit summary |
||
| (19 intermediate revisions by 3 users not shown) | |||
| Line 1: | Line 1: | ||
{{Short description|Iterative method for finding maximum likelihood estimates in statistical models}} | {{Short description|Iterative method for finding maximum likelihood estimates in statistical models}} | ||
सांख्यिकी में, एक '''प्रत्याशा-अधिकतमकरण (EM) कलन विधि''' [[सांख्यिकीय मॉडल]] में पैरामीटर के (स्थानीय) अधिकतम संभाविता या अधिकतम पोस्टीरियोरी (MAP) अनुमान को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य [[अव्यक्त चर]] पर निर्भर करता है।<ref>{{cite journal |last1=Meng |first1=X.-L. |last2=van Dyk |first2=D. |title=The EM algorithm – an old folk-song sung to a fast new tune |journal=J. Royal Statist. Soc. B |date=1997 |volume=59 |issue=3 |pages=511-567}}</ref> EM पुनरावृत्ति एक प्रत्याशा (E) चरण के प्रदर्शन के बीच वैकल्पिक होती है, जो पैरामीटर के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन की गई log-संभाविता की प्रत्याशा के लिए एक फलन बनाती है, और एक अधिकतमकरण (M) चरण, जो E चरण पर पाई गई प्रत्याशा log-संभाविता को अधिकतम करने वाले पैरामीटर की गणना करता है फिर इन पैरामीटर-अनुमानों का उपयोग अगले E चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है। | |||
[[File:EM Clustering of Old Faithful data.gif|right|frame|पुराने फेथफुल विस्फोट डेटा की | [[File:EM Clustering of Old Faithful data.gif|right|frame|पुराने फेथफुल विस्फोट डेटा की EM क्लस्टरिंग। यादृच्छिक प्रारंभिक मॉडल (जो, अक्षों के विभिन्न पैमानों के कारण, दो बहुत सपाट और चौड़े दीर्घवृत्त प्रतीत होता है) प्रेक्षित डेटा के लिए उपयुक्त है। पहले पुनरावृत्तियों में, मॉडल काफी हद तक बदल जाता है, लेकिन फिर[[ गरम पानी का झरना ]]के दो मोड में परिवर्तित हो जाता है। [[ELKI]] का उपयोग करके विज़ुअलाइज़ किया गया।]] | ||
== इतिहास == | == इतिहास == | ||
EM कलन विधि को आर्थर डेम्पस्टर, नान [[लेयर्ड में|लेयर्ड]] और [[डोनाल्ड रुबिन]] द्वारा 1977 के एक क्लासिक पेपर में समझाया गया और इसका नाम दिया गया था।<ref name="Dempster1977"> | |||
{{cite journal | {{cite journal | ||
|last1=Dempster |first1= A.P. |author-link1=Arthur P. Dempster | |last1=Dempster |first1= A.P. |author-link1=Arthur P. Dempster | ||
| Line 16: | Line 16: | ||
|jstor=2984875 |mr= 0501537 | |jstor=2984875 |mr= 0501537 | ||
}} | }} | ||
</ref> उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा विशेष परिस्थितियों में कई बार प्रस्तावित की गई | </ref> उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा "विशेष परिस्थितियों में कई बार प्रस्तावित" की गई थी। [[सेड्रिक स्मिथ (सांख्यिकीविद्)|सेड्रिक स्मिथ]] द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे प्रारम्भ में से एक है।<ref>{{cite journal |last1=Ceppelini |first1=R.M. |title=यादृच्छिक-संभोग आबादी में जीन आवृत्तियों का अनुमान|journal=Ann. Hum. Genet. |volume=20 |issue=2 |pages=97–115 |doi=10.1111/j.1469-1809.1955.tb01360.x|pmid=13268982 |year=1955 |s2cid=38625779 }}</ref> दूसरा प्रस्ताव 1958 में एचओ हार्टले और 1977 में हार्टले और हॉकिंग द्वारा दिया गया था, जिससे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई।<ref>{{Cite journal |last=Hartley |first=Herman Otto |date=1958 |title=अपूर्ण डेटा से अधिकतम संभावना अनुमान|journal=Biometrics |volume=14 |issue=2 |pages=174–194|doi=10.2307/2527783 |jstor=2527783 }}</ref> 1977 में एस.के. एनजी, त्रियंबकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और उत्पत्ति हुई।<ref>{{Citation |last1=Ng |first1=Shu Kay |title=The EM Algorithm |date=2011-12-21 |url=http://dx.doi.org/10.1007/978-3-642-21551-3_6 |work=Handbook of Computational Statistics |pages=139–172 |place=Berlin, Heidelberg |publisher=Springer Berlin Heidelberg |isbn=978-3-642-21550-6 |access-date=2022-10-15 |last2=Krishnan |first2=Thriyambakam |last3=McLachlan |first3=Geoffrey J.|doi=10.1007/978-3-642-21551-3_6 |s2cid=59942212 }}</ref> हार्टले के विचारों को किसी भी समूहीकृत पृथक वितरण तक विस्तारित किया जा सकता है। पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद, रोल्फ़ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में घातीय परिवारों के लिए EM पद्धति का एक बहुत विस्तृत उपचार प्रकाशित किया था,<ref name="Sundberg1974">{{cite journal | ||
|last=Sundberg |first=Rolf | |last=Sundberg |first=Rolf | ||
|title=Maximum likelihood theory for incomplete data from an exponential family | |title=Maximum likelihood theory for incomplete data from an exponential family | ||
| Line 30: | Line 30: | ||
|volume=5 |issue=1 |pages=55–64 | |volume=5 |issue=1 |pages=55–64 | ||
|doi=10.1080/03610917608812007 |mr=443190 | |doi=10.1080/03610917608812007 |mr=443190 | ||
}}</ref> | }}</ref><ref>See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.</ref><ref name="Martin-Löf1966">प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहूस विश्वविद्यालय। (सुंडबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय दिया गया)।</ref><ref name="Martin-Löf1970">प्रति मार्टिन-लोफ। 1970. सांख्यिकीय मॉडल: रॉल्फ सुंदरबर्ग की सहायता से स्कूल वर्ष 1969-1970 में सेमिनारों के नोट्स (व्याख्यान नोट्स 1969-1970)। स्टॉकहोम विश्वविद्यालय. </ref><ref name="Martin-Löf1974a">मार्टिन-लोफ, पी. अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विचलन के मात्रात्मक माप के रूप में इसका उपयोग। एफ. एबिल्डगार्ड, आर्थर पी. डेम्पस्टर|ए की चर्चा के साथ। पी. डेम्पस्टर, डी. बसु, डी. आर. कॉक्स, ए. डब्ल्यू. एफ. एडवर्ड्स, डी. ए. स्प्रोट, जॉर्ज ए. बरनार्ड|जी. ए. बरनार्ड, ओ. बार्नडॉर्फ-नील्सन, जे. डी. काल्बफ्लिश और राश मॉडल|जी. रैश और लेखक का उत्तर। सांख्यिकीय अनुमान में मूलभूत प्रश्नों पर सम्मेलन की कार्यवाही (आरहस, 1973), पीपी 1-42। संस्मरण, नंबर 1, विभाग सिद्धांत। सांख्यिकीविद्., उदाहरण. गणित., विश्वविद्यालय. आरहूस, आरहूस, 1974.</ref><ref name="Martin-Löf1974b">{{cite journal |last=Martin-Löf |first=Per |title=अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग|journal=Scand. J. Statist. |volume=1 |year=1974 |issue=1 |pages=3–18 }}</ref> 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के एक व्यापक वर्ग के लिए एक अभिसरण विश्लेषण का खाका तैयार किया। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने EM पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डायक (1997) भी देखें। | ||
डेम्पस्टर-लेयर्ड-रुबिन कलन विधि का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। वू के प्रमाण ने EM पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने प्राप्य किया था। | |||
== परिचय == | == परिचय == | ||
EM कलन विधि का उपयोग सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभाविता पैरामीटर को खोजने के लिए किया जाता है, जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात पैरामीटर और ज्ञात डेटा अवलोकनों के अलावा गुप्त चर सम्मिलित होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान उपस्थित हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक [[मिश्रण मॉडल]] को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु, या अव्यक्त चर होता है, जो मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है। | |||
अधिकतम | अधिकतम संभाविता समाधान ढूढ़ने के लिए सामान्यतः सभी अज्ञात मूल्यों, पैरामीटर और अव्यक्त चर के संबंध में संभाविता फलन के डेरिवेटिव को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। गुप्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके स्थान में, परिणाम सामान्यतः इंटरलॉकिंग समीकरणों का एक समुच्चय होता है जिसमें पैरामीटर के समाधान के लिए अव्यक्त चर के मानों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक समुच्चय को दूसरे में प्रतिस्थापित करने से एक जटिल समीकरण उत्पन्न होता है। | ||
EM कलन विधि इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो समुच्चयों को संख्यात्मक रूप से हल करने की एक विधि है। कोई अज्ञात के दो समुच्चयों में से एक के लिए यादृच्छिक मान चुन सकता है, दूसरे समुच्चय का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले समुच्चय का बेहतर अनुमान खोजने के लिए इन नए मानों का उपयोग करें, और तब तक दोनों के बीच बारी-बारी से काम करते रहें जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे साबित किया जा सकता है। इसके अतिरिक्त, यह सिद्ध किया जा सकता है कि उस बिंदु पर संभाविता का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है। सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इस बात की कोई प्रत्याभूति नहीं है कि वैश्विक मैक्सिमा मिल जाएगी। कुछ संभावनाओं में विलक्षणताएँ भी होती हैं, यानी, निरर्थक अधिकतमा उदाहरण के लिए, मिश्रण मॉडल में EM द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए माध्य पैरामीटर को डेटा बिंदुओं में से एक के बराबर समुच्चय करना सम्मिलित है। | |||
== विवरण == | == विवरण == | ||
=== प्रतीक === | === प्रतीक === | ||
सांख्यिकीय मॉडल को देखते हुए जो एक | सांख्यिकीय मॉडल को देखते हुए, जो देखे गए डेटा का एक समुच्चय <math>\mathbf{X}</math>, न देखे गए अव्यक्त डेटा का एक समुच्चय या लुप्त मान <math>\mathbf{Z}</math> उत्पन्न करता है, और अज्ञात पैरामीटर <math>\boldsymbol\theta</math> का एक वेक्टर, एक संभाविता फलन <math>L(\boldsymbol\theta; \mathbf{X}, \mathbf{Z}) = p(\mathbf{X}, \mathbf{Z}\mid\boldsymbol\theta)</math> के साथ, अज्ञात पैरामीटर की अधिकतम संभाविता अनुमान (MLE) देखे गए डेटा की सीमांत संभाविता को अधिकतम करके निर्धारित किया जाता है | ||
:<math>L(\boldsymbol\theta; \mathbf{X}) = p(\mathbf{X}\mid\boldsymbol\theta) = \int p(\mathbf{X},\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} = \int p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol\theta) p(\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} </math> | :<math>L(\boldsymbol\theta; \mathbf{X}) = p(\mathbf{X}\mid\boldsymbol\theta) = \int p(\mathbf{X},\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} = \int p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol\theta) p(\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} </math> | ||
हालाँकि, यह मात्रा | हालाँकि, यह मात्रा प्रायः कठिन होती है क्योंकि <math>\mathbf{Z}</math> का अवलोकन नहीं किया जाता है और <math>\boldsymbol\theta</math> प्राप्त करने से पहले <math>\mathbf{Z}</math> का वितरण अज्ञात है। | ||
=== | === EM कलन विधि === | ||
EM कलन विधि इन दो चरणों को पुनरावृत्त रूप से प्रयुक्त करके सीमांत संभाविता के MLE को ढूंढना चाहता है: | |||
: | :प्रत्याशा चरण (E चरण): <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math>परिभाषित करें log संभाविता फलन के प्रत्याशा मान <math>\boldsymbol\theta</math> के रूप में, की वर्तमान [[सशर्त संभाव्यता वितरण]] के संबंध में <math>\mathbf{Z}</math> दिया गया <math>\mathbf{X}</math> और पैरामीटर <math>\boldsymbol\theta^{(t)}</math> का वर्तमान अनुमान: | ||
::<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) = \operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta) \right] \,</math> | ::<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) = \operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta) \right] \,</math> | ||
:अधिकतमकरण चरण ( | :अधिकतमकरण चरण (M चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें: | ||
::<math>\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} \ Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) \, </math> | ::<math>\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} \ Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) \, </math> | ||
अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:<math display="block">\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} | अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:<math display="block">\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} | ||
\operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta) \right] \, </math> | \operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta) \right] \, </math> | ||
=== चरों की व्याख्या === | === चरों की व्याख्या === | ||
जिन विशिष्ट मॉडलों पर | जिन विशिष्ट मॉडलों पर EM प्रयुक्त किया जाता है <math>\mathbf{Z}</math> समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में: | ||
#अवलोकित डेटा बिंदु <math>\mathbf{X}</math> [[असतत यादृच्छिक चर]] (एक परिमित या गणनीय अनंत | #अवलोकित डेटा बिंदु <math>\mathbf{X}</math> [[असतत यादृच्छिक चर]] (एक परिमित या गणनीय अनंत समुच्चय में मान लेना) या [[निरंतर यादृच्छिक चर]] (एक बेशुमार अनंत समुच्चय में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है। | ||
#अनुपलब्ध मान ( | #अनुपलब्ध मान (उपनाम [[अव्यक्त चर]]) <math>\mathbf{Z}</math> असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है। | ||
#पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)। | #पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)। | ||
हालाँकि, EM को अन्य प्रकार के मॉडलों पर | हालाँकि, EM को अन्य प्रकार के मॉडलों पर प्रयुक्त करना संभव है। | ||
प्रेरणा इस प्रकार है. यदि पैरामीटर का मान <math>\boldsymbol\theta</math> ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य <math>\mathbf{Z}</math> के सभी संभावित मानों पर | प्रेरणा इस प्रकार है. यदि पैरामीटर का मान <math>\boldsymbol\theta</math> ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य <math>\mathbf{Z}</math> के सभी संभावित मानों पर log-संभाविता को अधिकतम करके पाया जा सकता है <math>\mathbf{Z}</math>, या तो बस बार-बार दोहराकर <math>\mathbf{Z}</math> या छिपे [[छिपा हुआ मार्कोव मॉडल]] के लिए [[विटर्बी एल्गोरिदम|विटर्बी कलन विधि]] जैसे कलन विधि के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं <math>\mathbf{Z}</math>, हम पैरामीटर का अनुमान पा सकते हैं <math>\boldsymbol\theta</math> काफी आसानी से, सामान्यतः देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फलन का औसत निकालकर। यह एक पुनरावृत्त कलन विधि का सुझाव देता है, उस स्थिति में जब दोनों <math>\boldsymbol\theta</math> और <math>\mathbf{Z}</math> अज्ञात हैं: | ||
# सबसे पहले, पैरामीटर्स | # सबसे पहले, पैरामीटर्स <math>\boldsymbol\theta</math> को इनिशियलाइज़ करें कुछ यादृच्छिक मूल्यों के लिए है। | ||
# प्रत्येक संभावित मान | # प्रत्येक संभावित मान <math>\mathbf{Z}</math> की संभाविता की गणना करें, <math>\boldsymbol\theta</math> दिया गया है। | ||
# फिर, अभी-अभी गणना किए गए मानों | # फिर, अभी-अभी गणना किए गए मानों <math>\mathbf{Z}</math> का उपयोग करें पैरामीटर <math>\boldsymbol\theta</math> के लिए बेहतर अनुमान की गणना करना है। | ||
# अभिसरण होने तक चरण 2 और 3 को दोहराएँ। | # अभिसरण होने तक चरण 2 और 3 को दोहराएँ। | ||
जैसा कि अभी बताया गया है, | जैसा कि अभी बताया गया है, कलन विधि नीरस रूप से लागत फलन के स्थानीय न्यूनतम तक पहुंचता है। | ||
== गुण == | == गुण == | ||
हालाँकि एक EM पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभाविता फलन को बढ़ाती है, लेकिन कोई प्रत्याभूति नहीं है कि अनुक्रम [[अधिकतम संभावना अनुमानक|अधिकतम संभाविता अनुमानक]] में परिवर्तित हो जाता है। मल्टीमॉडल वितरण के लिए, इसका मतलब यह है कि एक EM कलन विधि प्रारंभिक मूल्यों के आधार पर, देखे गए डेटा संभाविता फलन के स्थानीय अधिकतम में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या [[मेटाह्यूरिस्टिक]] दृष्टिकोण उपस्थित हैं, जैसे कि यादृच्छिक-पुनरारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों <math>\boldsymbol\theta^{(t)}</math> से प्रारम्भ करना, या सिम्युलेटेड एनीलिंग विधियों को प्रयुक्त करना)। | |||
EM विशेष रूप से तब उपयोगी होता है जब संभाविता एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें:<ref>{{cite book |last1=Sundberg |first1=Rolf |title=घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग|date=2019 |publisher=Cambridge University Press |isbn=9781108701112}}</ref> E चरण पर्याप्त सांख्यिकी की अपेक्षाओं का योग बन जाता है, और M चरण में एक रैखिक फलन को अधिकतम करना सम्मिलित होता है . ऐसे स्थिति में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके प्रत्येक चरण के लिए बंद-फॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है<ref>{{cite web |last1=Laird |first1=Nan |title=सुंदरबर्ग सूत्र|url=https://doi.org/10.1002/0471667196.ess2643.pub2 |website=Wiley online library |publisher=Wiley |date=2006}}</ref> (प्रति मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर रॉल्फ सुंदरबर्ग द्वारा सिद्ध और प्रकाशित)।<ref name="Sundberg1971"/><ref name="Sundberg1976"/><ref name="Martin-Löf1966"/><ref name="Martin-Löf1970"/><ref name="Martin-Löf1974a"/><ref name="Martin-Löf1974b"/> | |||
डेम्पस्टर, | डेम्पस्टर, लैयर्ड और रुबिन द्वारा मूल पेपर में [[बायेसियन अनुमान]] के लिए अधिकतम पोस्टीरियरी (MAP) अनुमानों की गणना करने के लिए EM विधि को संशोधित किया गया था। | ||
अधिकतम | अधिकतम संभाविता का अनुमान लगाने के लिए अन्य विधियाँ उपस्थित हैं, जैसे कि ग्रेडिएंट डिसेंट, संयुग्म ग्रेडिएंट, या गॉस-न्यूटन कलन विधि के वेरिएंट। EM के विपरीत, ऐसे तरीकों को आमतौर पर संभाविता फलन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है। | ||
== शुद्धता का प्रमाण == | == शुद्धता का प्रमाण == | ||
अपेक्षा-अधिकतमीकरण | अपेक्षा-अधिकतमीकरण सीधे <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math> में श्रेष्ठतर करने के स्थान में <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> में श्रेष्ठतर करने के लिए काम करता है। यहां यह दिखाया गया है कि पहले में श्रेष्ठतर से बाद में श्रेष्ठतर होता है।<ref name="Little1987">{{cite book |last1=Little |first1= Roderick J.A. |last2= Rubin |first2= Donald B. |author2-link= Donald Rubin |title= गायब डेटा के साथ सांख्यिकीय विश्लेषण|url=https://archive.org/details/statisticalanaly00litt |url-access=limited | series = Wiley Series in Probability and Mathematical Statistics |year= 1987 |publisher= John Wiley & Sons |location= New York |isbn= 978-0-471-80254-9 |pages= [https://archive.org/details/statisticalanaly00litt/page/n145 134]–136}}</ref> | ||
किसी के लिए <math>\mathbf{Z}</math> गैर-शून्य | |||
किसी के लिए <math>\mathbf{Z}</math> गैर-शून्य संभाविता के साथ <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta)</math>, हम लिख सकते हैं | |||
: <math> | : <math> | ||
\log p(\mathbf{X}\mid\boldsymbol\theta) = \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta). | \log p(\mathbf{X}\mid\boldsymbol\theta) = \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta). | ||
</math> | </math> | ||
हम अज्ञात डेटा के संभावित मूल्यों पर | हम अज्ञात डेटा के संभावित मूल्यों पर प्रत्याशा रखते हैं <math>\mathbf{Z}</math> वर्तमान पैरामीटर <math>\theta^{(t)}</math>अनुमान के तहत दोनों पक्षों को गुणा करके <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)})</math> और सारांशित करना (या एकीकृत करना)। <math>\mathbf{Z}</math>. बाईं ओर एक स्थिरांक की प्रत्याशा है, इसलिए हमें मिलता है: | ||
: <math> | : <math> | ||
\begin{align} | \begin{align} | ||
| Line 112: | Line 96: | ||
\end{align} | \end{align} | ||
</math> | </math> | ||
जहाँ <math>H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> इसे उस ऋणात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है। | |||
यह अंतिम समीकरण प्रत्येक मान | |||
यह अंतिम समीकरण प्रत्येक मान <math>\boldsymbol\theta</math> सम्मिलित <math>\boldsymbol\theta = \boldsymbol\theta^{(t)}</math> के लिए मान्य है, | |||
: <math> | : <math> | ||
\log p(\mathbf{X}\mid\boldsymbol\theta^{(t)}) | \log p(\mathbf{X}\mid\boldsymbol\theta^{(t)}) | ||
| Line 129: | Line 114: | ||
\ge Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) - Q(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}). | \ge Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) - Q(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}). | ||
</math> | </math> | ||
शब्दों में, | शब्दों में, <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> को सुधारने के लिए <math>\boldsymbol\theta</math> चुनने से <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math>में कम से कम उतना ही श्रेष्ठतर होता है। | ||
== अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में == | == अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में == | ||
EM कलन विधि को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी [[समन्वय वंश|समन्वित अवतरण]] के उदाहरण के रूप में।<ref name="neal1999">{{cite book|last1=Neal |first=Radford |last2=Hinton |first2=Geoffrey |author-link2=Geoffrey Hinton |title=ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को उचित ठहराता है|journal=Learning in Graphical Models |editor=Michael I. Jordan |editor-link=Michael I. Jordan |pages= 355–368 |publisher= MIT Press |location=Cambridge, MA |year=1999 |isbn=978-0-262-60032-3 |url=http://ftp.cs.toronto.edu/pub/radford/emk.pdf |access-date=2009-03-22}}</ref><ref name="hastie2001">{{cite book|last1=Hastie |first1= Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome |year=2001 |title=सांख्यिकीय सबक के तत्व|url=https://archive.org/details/elementsstatisti00thas_842 |url-access=limited |isbn=978-0-387-95284-0 |publisher=Springer |location=New York |chapter=8.5 The EM algorithm |pages=[https://archive.org/details/elementsstatisti00thas_842/page/n237 236]–243}}</ref> फलन पर विचार करें: | |||
:<math> F(q,\theta) := \operatorname{E}_q [ \log L (\theta ; x,Z) ] + H(q), </math> जहां q, न देखे गए डेटा z पर एक | :<math> F(q,\theta) := \operatorname{E}_q [ \log L (\theta ; x,Z) ] + H(q), </math> जहां q, न देखे गए डेटा z पर एक यादृच्छिक संभाव्यता वितरण है और ''H(q)'' वितरण ''q'' की [[एन्ट्रॉपी (सूचना सिद्धांत)|एन्ट्रॉपी]] है। इस फलन को इस प्रकार लिखा जा सकता है | ||
:<math> F(q,\theta) = -D_{\mathrm{KL}}\big(q \parallel p_{Z\mid X}(\cdot\mid x;\theta ) \big) + \log L(\theta;x), </math> | :<math> F(q,\theta) = -D_{\mathrm{KL}}\big(q \parallel p_{Z\mid X}(\cdot\mid x;\theta ) \big) + \log L(\theta;x), </math> | ||
जहाँ <math>p_{Z\mid X}(\cdot\mid x;\theta )</math> देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण <math>x</math> है और <math>D_{KL}</math> कुल्बैक-लीब्लर विचलन है। | |||
फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है: | फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है: | ||
: | :प्रत्याशा चरण: चुनें <math>q</math> बढ़ाने के लिए <math>F</math>: | ||
::<math> q^{(t)} = \operatorname{arg\,max}_q \ F(q,\theta^{(t)}) </math> | ::<math> q^{(t)} = \operatorname{arg\,max}_q \ F(q,\theta^{(t)}) </math> | ||
:अधिकतमीकरण चरण: | :''अधिकतमीकरण चरण'': अधिकतम <math>F</math> के लिए <math>\theta</math> चुनें: | ||
::<math> \theta^{(t+1)} = \operatorname{arg\,max}_\theta \ F(q^{(t)},\theta) </math> | ::<math> \theta^{(t+1)} = \operatorname{arg\,max}_\theta \ F(q^{(t)},\theta) </math> | ||
== अनुप्रयोग == | == अनुप्रयोग == | ||
EM का प्रयोग प्रायः मिश्रित मॉडलों के पैरामीटर आकलन के लिए किया जाता है,<ref>{{cite journal |doi=10.1080/01621459.1988.10478693 |title=Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data |journal=Journal of the American Statistical Association |volume=83 |issue=404 |pages=1014 |year=1988 |last1=Lindstrom |first1=Mary J |last2=Bates |first2=Douglas M }}</ref><ref>{{cite journal |doi=10.2307/1390614 |jstor=1390614 |title=कुशल ईएम-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल फिट करना|journal=Journal of Computational and Graphical Statistics |volume=9 |issue=1 |pages=78–98 |year=2000 |last1=Van Dyk |first1=David A }}</ref> विशेष रूप से [[मात्रात्मक आनुवंशिकी]] में।<ref>{{cite journal |doi=10.1111/anzs.12208 |title=रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम|journal=Australian & New Zealand Journal of Statistics |volume=59 |issue=4 |pages=433 |year=2017 |last1=Diffey |first1=S. M |last2=Smith |first2=A. B |last3=Welsh |first3=A. H |last4=Cullis |first4=B. R |doi-access=free }}</ref> | |||
[[साइकोमेट्रिक्स]] में, [[आइटम प्रतिक्रिया सिद्धांत|विषय प्रतिक्रिया सिद्धांत]] मॉडल के विषय मापदंडों और अव्यक्त क्षमताओं का आकलन करने के लिए EM एक महत्वपूर्ण उपकरण है। | |||
लापता डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, EM एक पोर्टफोलियो के मूल्य निर्धारण और जोखिम का प्रबंधन करने के लिए एक उपयोगी उपकरण बन रहा है। | |||
EM कलन विधि (और इसके तेज़ वेरिएंट ऑर्डर किए गए उपसमुच्चय अपेक्षा अधिकतमकरण) का व्यापक रूप से चिकित्सा छवि पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पॉज़िट्रॉन उत्सर्जन टोमोग्राफी, एकल-फोटॉन उत्सर्जन कंप्यूटेड टोमोग्राफी और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें। | |||
EM का उपयोग | संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) <ref>Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951</ref> कलन विधि का उपयोग करके स्ट्रक्चरल आइडेंटिफिकेशन, नियंत्रक डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है (ऑपरेशनल मोडल विश्लेषण देखें)। | ||
EM का उपयोग [[डेटा क्लस्टरिंग]] के लिए भी किया जाता है। [[प्राकृतिक भाषा प्रसंस्करण]] में, कलन विधि के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च कलन विधि हैं, और संभाव्य संदर्भ-मुक्त व्याकरणों के अनियंत्रित प्रेरण के लिए अंदर-बाहर कलन विधि हैं। | |||
इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी स्टॉक एक्सचेंज में स्टॉक के शेयरों में बाद के ट्रेडों के बीच का समय, EM कलन विधि बहुत उपयोगी साबित हुआ है।<ref>{{Cite journal|last1=Kreer|first1=Markus|last2=Kizilersu|first2=Ayse|last3=Thomas|first3=Anthony W.|date=2022|title=Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times|journal=Physica A: Statistical Mechanics and its Applications|volume=587|issue=1|pages=126456|doi=10.1016/j.physa.2021.126456|issn=0378-4371|url=https://www.sciencedirect.com/science/article/pii/S0378437121007299}}</ref> | |||
== | == EM कलन विधि को फ़िल्टर करना और स्मूथ करना == | ||
एक [[कलमन फ़िल्टर]] का उपयोग | एक [[कलमन फ़िल्टर]] का उपयोग सामान्यतः ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल पैरामीटर के अनुमान की आवश्यकता होती है। EM कलन विधि का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है। | ||
इस दो-चरणीय प्रक्रिया को दोहराकर | इस दो-चरणीय प्रक्रिया को दोहराकर EM कलन विधि को फ़िल्टर करना और स्मूथ करना उत्पन्न होता है: | ||
; | ;E-चरण | ||
: अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें। | : अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें। | ||
; | ;M-चरण | ||
: अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम- | : अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभाविता गणना के भीतर फ़िल्टर किए गए या स्मूथ स्टेट अनुमानों का उपयोग करें। | ||
मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें | मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें योगात्मक श्वेत रव होता है। अधिकतम संभाविता गणना से एक अद्यतन माप रव विचरण अनुमान प्राप्त किया जा सकता है | ||
: <math>\widehat{\sigma}^2_v = \frac{1}{N} \sum_{k=1}^N {(z_k-\widehat{x}_k)}^2,</math> | : <math>\widehat{\sigma}^2_v = \frac{1}{N} \sum_{k=1}^N {(z_k-\widehat{x}_k)}^2,</math> | ||
जहाँ <math>\widehat{x}_k</math> स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ <math>z_k</math> द्वारा गणना किए जाते हैं उपरोक्त अद्यतन को पॉइसन माप रव तीव्रता को अद्यतन करने के लिए भी प्रयुक्त किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया रव विचरण अनुमान की गणना की जा सकती है | |||
: <math>\widehat{\sigma}^2_w = \frac{1}{N} \sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F}\widehat{{x}}_k)}^2,</math> | : <math>\widehat{\sigma}^2_w = \frac{1}{N} \sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F}\widehat{{x}}_k)}^2,</math> | ||
जहाँ <math>\widehat{x}_k</math> और <math>\widehat{x}_{k+1}</math> स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है | |||
: <math>\widehat{F} = \frac{\sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F} \widehat{x}_k)}^2}{\sum_{k=1}^N \widehat{x}_k^2}.</math> | : <math>\widehat{F} = \frac{\sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F} \widehat{x}_k)}^2}{\sum_{k=1}^N \widehat{x}_k^2}.</math> | ||
उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।<ref>{{Cite journal | उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।<ref>{{Cite journal | ||
| Line 240: | Line 223: | ||
|s2cid = 32667132 | |s2cid = 32667132 | ||
}}</ref> | }}</ref> | ||
== वेरिएंट == | |||
EM कलन विधि के कभी-कभी धीमे अभिसरण में तेजी लाने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना।<ref>{{cite journal |first1= Mortaza |last1=Jamshidian |first2=Robert I. |last2=Jennrich|title=अर्ध-न्यूटन विधियों का उपयोग करके ईएम एल्गोरिदम का त्वरण|year=1997 |journal=[[Journal of the Royal Statistical Society, Series B]] |volume=59 |issue=2 |pages=569–587 |doi=10.1111/1467-9868.00083 |mr=1452026 |s2cid=121966443 }}</ref> इसके अलावा, EM का उपयोग विवश आकलन विधियों के साथ किया जा सकता है। | |||
''पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण'' ''(PX-EM)'' कलन विधि प्रायः M चरण के विश्लेषण को सही करने के लिए "us[ing] एक 'सहप्रसरण समायोजन' द्वारा गति प्रदान करता है, जो कि आरोपित संपूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है"।<ref>{{cite journal |doi=10.1093/biomet/85.4.755 |title=Parameter expansion to accelerate EM: The PX-EM algorithm |journal=Biometrika |volume=85 |issue=4 |pages=755–770 |year=1998 |last1=Liu |first1=C |citeseerx=10.1.1.134.9617 }}</ref> | |||
== | ''प्रत्याशा सशर्त अधिकतमीकरण (ECM)'' प्रत्येक M चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θi को व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से शेष अन्य मापदंडों पर।<ref>{{cite journal |doi= 10.1093/biomet/81.4.633|jstor=2337067 |title=The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence |journal=Biometrika |volume=81 |issue=4 |pages=633 |year=1994 |last1=Liu |first1=Chuanhai |last2=Rubin |first2=Donald B }}</ref> स्वयं को ''एक्सपेक्टेशन कंडीशनल मैक्सिमाइज़ेशन (ECME)'' कलन विधि में बढ़ाया जा सकता है।<ref>{{cite journal|last1=Meng |first1= Xiao-Li |last2=Rubin |first2=Donald B. |s2cid= 40571416 |author-link2=Donald Rubin |title=Maximum likelihood estimation via the ECM algorithm: A general framework |year=1993 |journal=[[Biometrika]] |volume=80 |issue=2 |pages=267–278 |doi=10.1093/biomet/80.2.267 |mr=1243503}}</ref> | ||
इस विचार को ''सामान्यीकृत अपेक्षा अधिकतमीकरण (GEM)'' कलन विधि में आगे बढ़ाया गया है, जिसमें ई चरण और M चरण दोनों के लिए उद्देश्य फलन एफ में केवल वृद्धि की मांग की गई है, जैसा कि अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग में वर्णित है।<ref name="neal1999" /> GEM को एक वितरित वातावरण में आगे विकसित किया गया है और आशाजनक परिणाम दिखाता है।<ref> | |||
अपेक्षा | |||
{{cite journal | {{cite journal | ||
|author1=Jiangtao Yin |author2=Yanfeng Zhang |author3=Lixin Gao |title=Accelerating Expectation–Maximization Algorithms with Frequent Updates | |author1=Jiangtao Yin |author2=Yanfeng Zhang |author3=Lixin Gao |title=Accelerating Expectation–Maximization Algorithms with Frequent Updates | ||
| Line 255: | Line 238: | ||
}} | }} | ||
</ref> | </ref> | ||
=== α-EM | EM कलन विधि को एमएम (संदर्भ के आधार पर मेजराइज/मिनिमाइज या माइनराइज/मैक्सिमाइज) कलन विधि के उपवर्ग के रूप में मानना भी संभव है, <ref>Hunter DR and Lange K (2004), [http://www.stat.psu.edu/~dhunter/papers/mmtutorial.pdf A Tutorial on MM Algorithms], The American Statistician, 58: 30–37</ref>और इसलिए अधिक सामान्य स्थिति में विकसित किसी भी मशीनरी का उपयोग करें। | ||
=== α-EM कलन विधि === | |||
EM कलन विधि में प्रयुक्त Q-फलन log संभाविता पर आधारित है। इसलिए, इसे log-EM कलन विधि माना जाता है। log संभाविता के उपयोग को α-log संभाविता अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-log संभाविता अनुपात को α-log संभाविता अनुपात और α-विचलन के Q-फलन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस Q-फलन को प्राप्त करना एक सामान्यीकृत E चरण है। इसका अधिकतमीकरण एक सामान्यीकृत M चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है<ref> | |||
{{cite journal | {{cite journal | ||
|last=Matsuyama |first=Yasuo | |last=Matsuyama |first=Yasuo | ||
| Line 266: | Line 250: | ||
|doi=10.1109/TIT.2002.808105 | |doi=10.1109/TIT.2002.808105 | ||
}} | }} | ||
</ref> | </ref> जिसमें इसके उपवर्ग के रूप में log-EM कलन विधि सम्मिलित है। इस प्रकार, [[यासुओ मात्सुयामा]] द्वारा α-EM कलन विधि log-EM कलन विधि का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर log-EM कलन विधि की तुलना में तेज़ अभिसरण दिखाता है। α-EM कलन विधि हिडन मार्कोव मॉडल आकलन कलन विधि α-HMM के तेज़ संस्करण की ओर ले जाता है।<ref> | ||
जिसमें इसके उपवर्ग के रूप में | |||
<ref> | |||
{{cite journal | {{cite journal | ||
|last=Matsuyama |first=Yasuo | |last=Matsuyama |first=Yasuo | ||
| Line 276: | Line 258: | ||
}} | }} | ||
</ref> | </ref> | ||
== परिवर्तनशील बेयस विधियों से संबंध == | == परिवर्तनशील बेयस विधियों से संबंध == | ||
EM आंशिक रूप से गैर-बायेसियन, अधिकतम संभाविता विधि है। इसका अंतिम परिणाम ''θ'' के लिए एक बिंदु अनुमान (या तो [[अधिकतम संभावना अनुमान|अधिकतम संभाविता अनुमान]] या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो ''θ'' और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, ''E'' और ''M'' चरणों के बीच का अंतर लुप्त हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित ''Q'' सन्निकटन ([[वैरिएबल बेयस]]) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब ''θ'' सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति ''k'' चरणों की आवश्यकता है, जहाँ ''k'' अव्यक्त चर की संख्या है। [[चित्रमय मॉडल]] के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया ''Q'' केवल उसके [[मार्कोव कंबल|मार्कोव ब्लैंकेट]] पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है। | |||
==ज्यामितीय व्याख्या== | ==ज्यामितीय व्याख्या== | ||
{{Further| | {{Further|सूचना ज्यामिति}} | ||
[[सूचना ज्यामिति]] में, | [[सूचना ज्यामिति]] में, E चरण और M चरण की व्याख्या दोहरे [[एफ़िन कनेक्शन]] के तहत प्रक्षेपण के रूप में की जाती है, जिसे E-कनेक्शन और M-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है। | ||
== उदाहरण == | == उदाहरण == | ||
=== गाऊसी मिश्रण === <!--This section is linked from [[Matrix calculus]] --> | === गाऊसी मिश्रण === <!--This section is linked from [[Matrix calculus]] --> | ||
[[File:ClusterAnalysis_Mouse.svg|thumb|400px | [[File:ClusterAnalysis_Mouse.svg|thumb|400px|के-मीन्स और EM की तुलना। भिन्नताओं का उपयोग करते हुए, EM कलन विधि सामान्य वितरण का सटीक वर्णन कर सकता है, जबकि के-साधन [[वोरोनोई आरेख]]-कोशिकाओं में डेटा को विभाजित करता है। क्लस्टर केंद्र को हल्के, बड़े प्रतीक द्वारा दर्शाया गया है।]] | ||
[[File:Em old faithful.gif|thumb|240px|पुराने फेथफुल डेटासेट में दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले | [[File:Em old faithful.gif|thumb|240px|पुराने फेथफुल डेटासेट में दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले EM कलन विधि को प्रदर्शित करने वाला एक एनीमेशन। कलन विधि यादृच्छिक आरंभीकरण से अभिसरण की ओर बढ़ता है।]]मान लीजिये <math>\mathbf{x} = (\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n)</math> का एक नमूना <math>n</math> हो आयाम के दो [[बहुभिन्नरूपी सामान्य वितरण]] के मिश्रण मॉडल से स्वतंत्र अवलोकन <math>d</math>, और <math>\mathbf{z} = (z_1,z_2,\ldots,z_n)</math>जाने वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।<ref name="hastie2001"/>: | ||
<math>X_i \mid(Z_i = 1) \sim \mathcal{N}_d(\boldsymbol{\mu}_1,\Sigma_1)</math> और <math>X_i \mid(Z_i = 2) \sim \mathcal{N}_d(\boldsymbol{\mu}_2,\Sigma_2),</math> | |||
जहाँ | |||
: <math>\operatorname{P} (Z_i = 1 ) = \tau_1 \, </math> और <math>\operatorname{P} (Z_i=2) = \tau_2 = 1-\tau_1.</math> | : <math>\operatorname{P} (Z_i = 1 ) = \tau_1 \, </math> और <math>\operatorname{P} (Z_i=2) = \tau_2 = 1-\tau_1.</math> | ||
इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात | इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात पैरामीटर का अनुमान लगाना है: | ||
: <math>\theta = \big( \boldsymbol{\tau},\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\Sigma_1,\Sigma_2 \big),</math> | : <math>\theta = \big( \boldsymbol{\tau},\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\Sigma_1,\Sigma_2 \big),</math> | ||
जहां अपूर्ण-डेटा | जहां अपूर्ण-डेटा संभाविता फलन है | ||
: <math>L(\theta;\mathbf{x}) = \prod_{i=1}^n \sum_{j=1}^2 \tau_j \ f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j),</math> | : <math>L(\theta;\mathbf{x}) = \prod_{i=1}^n \sum_{j=1}^2 \tau_j \ f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j),</math> | ||
और पूर्ण-डेटा | और पूर्ण-डेटा संभाविता फलन है | ||
: <math>L(\theta;\mathbf{x},\mathbf{z}) = p(\mathbf{x},\mathbf{z} \mid \theta) = \prod_{i=1}^n \prod_{j=1}^2 \ [f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j) \tau_j] ^{\mathbb{I}(z_i=j)},</math> | : <math>L(\theta;\mathbf{x},\mathbf{z}) = p(\mathbf{x},\mathbf{z} \mid \theta) = \prod_{i=1}^n \prod_{j=1}^2 \ [f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j) \tau_j] ^{\mathbb{I}(z_i=j)},</math> | ||
या | या | ||
: <math>L(\theta;\mathbf{x},\mathbf{z}) = \exp \left\{ \sum_{i=1}^n \sum_{j=1}^2 \mathbb{I}(z_i=j) \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big] \right\},</math> | : <math>L(\theta;\mathbf{x},\mathbf{z}) = \exp \left\{ \sum_{i=1}^n \sum_{j=1}^2 \mathbb{I}(z_i=j) \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big] \right\},</math> | ||
जहाँ <math>\mathbb{I}</math> एक [[सूचक कार्य]] है और <math>f</math> बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है। | |||
अंतिम समानता में, प्रत्येक के लिए {{math|''i''}}, एक सूचक <math>\mathbb{I}(z_i=j)</math> शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है। | अंतिम समानता में, प्रत्येक के लिए {{math|''i''}}, एक सूचक <math>\mathbb{I}(z_i=j)</math> शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है। | ||
==== | ==== E चरण ==== | ||
पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ<sup>(t)</sup>, Z का सशर्त वितरण<sub>''i''</sub> [[बेयस प्रमेय]] द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व | पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ<sup>(t)</sup>, Z का सशर्त वितरण<sub>''i''</sub> [[बेयस प्रमेय]] द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फलन की आनुपातिक ऊंचाई निर्धारित की जाती है: | ||
: <math>T_{j,i}^{(t)} := \operatorname{P}(Z_i=j \mid X_i=\mathbf{x}_i ;\theta^{(t)}) = \frac{\tau_j^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_j^{(t)},\Sigma_j^{(t)})}{\tau_1^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_1^{(t)},\Sigma_1^{(t)}) + \tau_2^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_2^{(t)},\Sigma_2^{(t)})}.</math> | : <math>T_{j,i}^{(t)} := \operatorname{P}(Z_i=j \mid X_i=\mathbf{x}_i ;\theta^{(t)}) = \frac{\tau_j^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_j^{(t)},\Sigma_j^{(t)})}{\tau_1^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_1^{(t)},\Sigma_1^{(t)}) + \tau_2^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_2^{(t)},\Sigma_2^{(t)})}.</math> | ||
इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें | इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें सामान्यतः E चरण का आउटपुट माना जाता है (हालांकि यह नीचे का Q फलन नहीं है)। | ||
यह E चरण Q के लिए इस | यह E चरण Q के लिए इस फलन को समुच्चय करने से मेल खाता है: | ||
: <math>\begin{align}Q(\theta\mid\theta^{(t)}) | : <math>\begin{align}Q(\theta\mid\theta^{(t)}) | ||
&= \operatorname{E}_{\mathbf{Z}\mid\mathbf{X}=\mathbf{x};\mathbf{\theta}^{(t)}} [\log L(\theta;\mathbf{x},\mathbf{Z}) ] \\ | &= \operatorname{E}_{\mathbf{Z}\mid\mathbf{X}=\mathbf{x};\mathbf{\theta}^{(t)}} [\log L(\theta;\mathbf{x},\mathbf{Z}) ] \\ | ||
| Line 320: | Line 303: | ||
&= \sum_{i=1}^n \sum_{j=1}^2 T_{j,i}^{(t)} \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big]. | &= \sum_{i=1}^n \sum_{j=1}^2 T_{j,i}^{(t)} \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big]. | ||
\end{align}</math> | \end{align}</math> | ||
की | की प्रत्याशा <math>\log L(\theta;\mathbf{x}_i,Z_i)</math> योग के अंदर संभाव्यता घनत्व फलन के संबंध में लिया जाता है <math>P(Z_i \mid X_i = \mathbf{x}_i; \theta^{(t)})</math>, जो प्रत्येक के लिए भिन्न हो सकता है <math>\mathbf{x}_i</math> प्रशिक्षण समुच्चय का. E चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है अतिरिक्त इसके <math>T_{j,i}</math>, जिसकी गणना E चरण अनुभाग की प्रारम्भ में समीकरण के अनुसार की जाती है। | ||
इस पूर्ण सशर्त | इस पूर्ण सशर्त प्रत्याशा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है। | ||
==== | ==== M चरण ==== | ||
Q( | ''Q''(''θ'' | ''θ''<sup>(''t'')</sup>) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, ''τ'', ('''μ'''<sub>1</sub>,''Σ''<sub>1</sub>) और ('''μ'''<sub>2</sub>,''Σ''<sub>2</sub>) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं। | ||
आरंभ करने के लिए, τ पर विचार करें, जिसमें | आरंभ करने के लिए, τ पर विचार करें, जिसमें बाध्यता ''τ''<sub>1</sub> + ''τ''<sub>2</sub>=1 है: | ||
: <math>\begin{align}\boldsymbol{\tau}^{(t+1)} | : <math>\begin{align}\boldsymbol{\tau}^{(t+1)} | ||
&= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}}\ Q(\theta \mid \theta^{(t)} ) \\ | &= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}}\ Q(\theta \mid \theta^{(t)} ) \\ | ||
&= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}} \ \left\{ \left[ \sum_{i=1}^n T_{1,i}^{(t)} \right] \log \tau_1 + \left[ \sum_{i=1}^n T_{2,i}^{(t)} \right] \log \tau_2 \right\}. | &= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}} \ \left\{ \left[ \sum_{i=1}^n T_{1,i}^{(t)} \right] \log \tau_1 + \left[ \sum_{i=1}^n T_{2,i}^{(t)} \right] \log \tau_2 \right\}. | ||
\end{align}</math> | \end{align}</math> | ||
इसका रूप [[द्विपद वितरण]] के लिए | इसका रूप [[द्विपद वितरण]] के लिए MLE के समान है | ||
: <math>\tau^{(t+1)}_j = \frac{\sum_{i=1}^n T_{j,i}^{(t)}}{\sum_{i=1}^n (T_{1,i}^{(t)} + T_{2,i}^{(t)} ) } = \frac{1}{n} \sum_{i=1}^n T_{j,i}^{(t)}.</math> | : <math>\tau^{(t+1)}_j = \frac{\sum_{i=1}^n T_{j,i}^{(t)}}{\sum_{i=1}^n (T_{1,i}^{(t)} + T_{2,i}^{(t)} ) } = \frac{1}{n} \sum_{i=1}^n T_{j,i}^{(t)}.</math> | ||
(μ) के अगले अनुमानों के लिए<sub>1</sub>, | (μ) के अगले अनुमानों के लिए ('''μ'''<sub>1</sub>,Σ<sub>1</sub>): | ||
: <math>\begin{align}(\boldsymbol{\mu}_1^{(t+1)},\Sigma_1^{(t+1)}) | : <math>\begin{align}(\boldsymbol{\mu}_1^{(t+1)},\Sigma_1^{(t+1)}) | ||
&= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ Q(\theta \mid \theta^{(t)} ) \\ | &= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ Q(\theta \mid \theta^{(t)} ) \\ | ||
&= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ \sum_{i=1}^n T_{1,i}^{(t)} \left\{ -\tfrac{1}{2} \log |\Sigma_1| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_1)^\top\Sigma_1^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_1) \right\} | &= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ \sum_{i=1}^n T_{1,i}^{(t)} \left\{ -\tfrac{1}{2} \log |\Sigma_1| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_1)^\top\Sigma_1^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_1) \right\} | ||
\end{align}.</math> | \end{align}.</math> | ||
इसका रूप सामान्य वितरण के लिए भारित | इसका रूप सामान्य वितरण के लिए भारित MLE के समान है | ||
: <math>\boldsymbol{\mu}_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{1,i}^{(t)}} </math> और <math>\Sigma_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)})^\top }{\sum_{i=1}^n T_{1,i}^{(t)}} </math> | : <math>\boldsymbol{\mu}_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{1,i}^{(t)}} </math> और <math>\Sigma_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)})^\top }{\sum_{i=1}^n T_{1,i}^{(t)}} </math> | ||
और, समरूपता से, | और, समरूपता से, | ||
: <math>\boldsymbol{\mu}_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{2,i}^{(t)}} </math> और <math>\Sigma_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)})^\top }{\sum_{i=1}^n T_{2,i}^{(t)}}.</math> | : <math>\boldsymbol{\mu}_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{2,i}^{(t)}} </math> और <math>\Sigma_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)})^\top }{\sum_{i=1}^n T_{2,i}^{(t)}}.</math> | ||
====निवृत्ति ==== | |||
==== | |||
यदि पुनरावृत्तीय प्रक्रिया समाप्त करें <math> E_{Z\mid\theta^{(t)},\mathbf{x}}[\log L(\theta^{(t)};\mathbf{x},\mathbf{Z})] \leq E_{Z\mid\theta^{(t-1)},\mathbf{x}}[\log L(\theta^{(t-1)};\mathbf{x},\mathbf{Z})] + \varepsilon</math> के लिए <math> \varepsilon </math> कुछ पूर्व निर्धारित सीमा से नीचे. | यदि पुनरावृत्तीय प्रक्रिया समाप्त करें <math> E_{Z\mid\theta^{(t)},\mathbf{x}}[\log L(\theta^{(t)};\mathbf{x},\mathbf{Z})] \leq E_{Z\mid\theta^{(t-1)},\mathbf{x}}[\log L(\theta^{(t-1)};\mathbf{x},\mathbf{Z})] + \varepsilon</math> के लिए <math> \varepsilon </math> कुछ पूर्व निर्धारित सीमा से नीचे. | ||
==== सामान्यीकरण ==== | ==== सामान्यीकरण ==== | ||
ऊपर | ऊपर दर्शाए गए कलन विधि को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है। | ||
=== संक्षिप्त और नियंत्रक किया गया प्रतिगमन === | |||
EM कलन विधि को उस स्थिति में प्रयुक्त किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के नियंत्रक या संक्षिप्त संस्करण हैं।<ref name=Wolynetz>{{cite journal |title= सीमित और सेंसर किए गए सामान्य डेटा से एक रैखिक मॉडल में अधिकतम संभावना अनुमान|last1= Wolynetz |first1= M.S. |journal= [[Journal of the Royal Statistical Society, Series C]] |year= 1979 |volume= 28 |issue= 2 |pages= 195–206 |doi= 10.2307/2346749|jstor= 2346749 }}</ref> इस मॉडल के विशेष स्थिति में एक [[सामान्य वितरण]] से नियंत्रक किए गए या संक्षिप्त किए गए अवलोकन सम्मिलित हैं।<ref name=Wolynetz/> | |||
== विकल्प == | == विकल्प == | ||
EM सामान्यतः स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य रूप से अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की संख्या घातांक हो सकती है। इसलिए, विशेष रूप से उच्च-आयामी सेटिंग में, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता उपस्थित है। EM के विकल्प निरंतरता की बेहतर गारंटी के साथ उपस्थित हैं, जिन्हें क्षण-आधारित दृष्टिकोण <ref>{{Cite journal|last=Pearson|first=Karl|date=1894|title=विकास के गणितीय सिद्धांत में योगदान|journal=Philosophical Transactions of the Royal Society of London A|volume=185|pages=71–110|issn=0264-3820|jstor=90667|doi=10.1098/rsta.1894.0003|bibcode=1894RSPTA.185...71P|doi-access=free}}</ref> या तथाकथित वर्णक्रमीय तकनीक <ref>{{Cite journal|last1=Shaban|first1=Amirreza|last2=Mehrdad|first2=Farajtabar|last3=Bo|first3=Xie|last4=Le|first4=Song|last5=Byron|first5=Boots|date=2015|title=बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना|url=https://www.cc.gatech.edu/~bboots3/files/SpectralExteriorPoint-NIPSWorkshop.pdf|journal=UAI|pages=792–801}}</ref><ref>{{Cite book|title=Local Loss Optimization in Operator Models: A New Insight into Spectral Learning|last=Balle, Borja Quattoni, Ariadna Carreras, Xavier|date=2012-06-27|oclc=815865081}}</ref> कहा जाता है। एक संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि के हैं क्योंकि वे EM के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो प्रायः स्थानीय ऑप्टिमा में फंसने के मुद्दे से ग्रस्त होता है। सीखने की गारंटी वाले कलन विधि कई महत्वपूर्ण मॉडलों जैसे मिश्रण मॉडल, HMMs इत्यादि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है। | |||
== यह भी देखें == | == यह भी देखें == | ||
| Line 363: | Line 343: | ||
* [[यौगिक वितरण]] | * [[यौगिक वितरण]] | ||
*[[घनत्व अनुमान]] | *[[घनत्व अनुमान]] | ||
* प्रमुख घटक विश्लेषण | |||
* पूर्ण अवशोषण स्पेक्ट्रोस्कोपी | |||
* EM कलन विधि को मेजराइज़-मिनिमाइज़ेशन (MM) कलन विधि के एक विशेष स्थिति के रूप में देखा जा सकता है।<ref>{{cite web|last=Lange|first=Kenneth|title=एमएम एल्गोरिदम|url=http://www.stat.berkeley.edu/~aldous/Colloq/lange-talk.pdf}}</ref> | |||
== संदर्भ == | == संदर्भ == | ||
{{Reflist}} | {{Reflist}} | ||
| Line 392: | Line 372: | ||
* [https://github.com/l-/CommonDataAnalysis Class hierarchy] in [[C++]] (GPL) including Gaussian Mixtures | * [https://github.com/l-/CommonDataAnalysis Class hierarchy] in [[C++]] (GPL) including Gaussian Mixtures | ||
* [http://www.inference.phy.cam.ac.uk/mackay/itila/ The on-line textbook: Information Theory, Inference, and Learning Algorithms], by [[David J.C. MacKay]] includes simple examples of the EM algorithm such as clustering using the soft ''k''-means algorithm, and emphasizes the variational view of the EM algorithm, as described in Chapter 33.7 of version 7.2 (fourth edition). | * [http://www.inference.phy.cam.ac.uk/mackay/itila/ The on-line textbook: Information Theory, Inference, and Learning Algorithms], by [[David J.C. MacKay]] includes simple examples of the EM algorithm such as clustering using the soft ''k''-means algorithm, and emphasizes the variational view of the EM algorithm, as described in Chapter 33.7 of version 7.2 (fourth edition). | ||
* [http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf Variational Algorithms for Approximate Bayesian Inference], by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs | * [http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf Variational Algorithms for Approximate Bayesian Inference], by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs ([http://www.cse.buffalo.edu/faculty/mbeal/thesis/index.html chapters]). | ||
* [http://www.seanborman.com/publications/EM_algorithm.pdf The Expectation Maximization Algorithm: A short tutorial], A self-contained derivation of the EM Algorithm by Sean Borman. | * [http://www.seanborman.com/publications/EM_algorithm.pdf The Expectation Maximization Algorithm: A short tutorial], A self-contained derivation of the EM Algorithm by Sean Borman. | ||
* [http://pages.cs.wisc.edu/~jerryzhu/cs838/EM.pdf The EM Algorithm], by Xiaojin Zhu. | * [http://pages.cs.wisc.edu/~jerryzhu/cs838/EM.pdf The EM Algorithm], by Xiaojin Zhu. | ||
* [https://arxiv.org/abs/1105.1476 EM algorithm and variants: an informal tutorial] by Alexis Roche. | * [https://arxiv.org/abs/1105.1476 EM algorithm and variants: an informal tutorial] by Alexis Roche. A concise and very clear description of EM and many interesting variants. | ||
{{DEFAULTSORT:Expectation-maximization Algorithm}} | |||
[[Category: | [[Category:Articles with hatnote templates targeting a nonexistent page|Expectation-maximization Algorithm]] | ||
[[Category:Created On 25/07/2023]] | [[Category:CS1 errors|Expectation-maximization Algorithm]] | ||
[[Category:CS1 maint|Expectation-maximization Algorithm]] | |||
[[Category:Created On 25/07/2023|Expectation-maximization Algorithm]] | |||
[[Category:Lua-based templates|Expectation-maximization Algorithm]] | |||
[[Category:Machine Translated Page|Expectation-maximization Algorithm]] | |||
[[Category:Pages with reference errors|Expectation-maximization Algorithm]] | |||
[[Category:Pages with script errors|Expectation-maximization Algorithm]] | |||
[[Category:Short description with empty Wikidata description|Expectation-maximization Algorithm]] | |||
[[Category:Template documentation pages|Short description/doc]] | |||
[[Category:Templates Vigyan Ready|Expectation-maximization Algorithm]] | |||
[[Category:Templates that add a tracking category|Expectation-maximization Algorithm]] | |||
[[Category:Templates that generate short descriptions|Expectation-maximization Algorithm]] | |||
[[Category:Templates using TemplateData|Expectation-maximization Algorithm]] | |||
Latest revision as of 09:42, 23 August 2023
सांख्यिकी में, एक प्रत्याशा-अधिकतमकरण (EM) कलन विधि सांख्यिकीय मॉडल में पैरामीटर के (स्थानीय) अधिकतम संभाविता या अधिकतम पोस्टीरियोरी (MAP) अनुमान को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य अव्यक्त चर पर निर्भर करता है।[1] EM पुनरावृत्ति एक प्रत्याशा (E) चरण के प्रदर्शन के बीच वैकल्पिक होती है, जो पैरामीटर के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन की गई log-संभाविता की प्रत्याशा के लिए एक फलन बनाती है, और एक अधिकतमकरण (M) चरण, जो E चरण पर पाई गई प्रत्याशा log-संभाविता को अधिकतम करने वाले पैरामीटर की गणना करता है फिर इन पैरामीटर-अनुमानों का उपयोग अगले E चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।
इतिहास
EM कलन विधि को आर्थर डेम्पस्टर, नान लेयर्ड और डोनाल्ड रुबिन द्वारा 1977 के एक क्लासिक पेपर में समझाया गया और इसका नाम दिया गया था।[2] उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा "विशेष परिस्थितियों में कई बार प्रस्तावित" की गई थी। सेड्रिक स्मिथ द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे प्रारम्भ में से एक है।[3] दूसरा प्रस्ताव 1958 में एचओ हार्टले और 1977 में हार्टले और हॉकिंग द्वारा दिया गया था, जिससे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई।[4] 1977 में एस.के. एनजी, त्रियंबकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और उत्पत्ति हुई।[5] हार्टले के विचारों को किसी भी समूहीकृत पृथक वितरण तक विस्तारित किया जा सकता है। पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद, रोल्फ़ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में घातीय परिवारों के लिए EM पद्धति का एक बहुत विस्तृत उपचार प्रकाशित किया था,[6][7][8][9][10][11][12][13] 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के एक व्यापक वर्ग के लिए एक अभिसरण विश्लेषण का खाका तैयार किया। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने EM पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डायक (1997) भी देखें।
डेम्पस्टर-लेयर्ड-रुबिन कलन विधि का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। वू के प्रमाण ने EM पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने प्राप्य किया था।
परिचय
EM कलन विधि का उपयोग सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभाविता पैरामीटर को खोजने के लिए किया जाता है, जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात पैरामीटर और ज्ञात डेटा अवलोकनों के अलावा गुप्त चर सम्मिलित होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान उपस्थित हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक मिश्रण मॉडल को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु, या अव्यक्त चर होता है, जो मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।
अधिकतम संभाविता समाधान ढूढ़ने के लिए सामान्यतः सभी अज्ञात मूल्यों, पैरामीटर और अव्यक्त चर के संबंध में संभाविता फलन के डेरिवेटिव को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। गुप्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके स्थान में, परिणाम सामान्यतः इंटरलॉकिंग समीकरणों का एक समुच्चय होता है जिसमें पैरामीटर के समाधान के लिए अव्यक्त चर के मानों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक समुच्चय को दूसरे में प्रतिस्थापित करने से एक जटिल समीकरण उत्पन्न होता है।
EM कलन विधि इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो समुच्चयों को संख्यात्मक रूप से हल करने की एक विधि है। कोई अज्ञात के दो समुच्चयों में से एक के लिए यादृच्छिक मान चुन सकता है, दूसरे समुच्चय का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले समुच्चय का बेहतर अनुमान खोजने के लिए इन नए मानों का उपयोग करें, और तब तक दोनों के बीच बारी-बारी से काम करते रहें जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे साबित किया जा सकता है। इसके अतिरिक्त, यह सिद्ध किया जा सकता है कि उस बिंदु पर संभाविता का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है। सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इस बात की कोई प्रत्याभूति नहीं है कि वैश्विक मैक्सिमा मिल जाएगी। कुछ संभावनाओं में विलक्षणताएँ भी होती हैं, यानी, निरर्थक अधिकतमा उदाहरण के लिए, मिश्रण मॉडल में EM द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए माध्य पैरामीटर को डेटा बिंदुओं में से एक के बराबर समुच्चय करना सम्मिलित है।
विवरण
प्रतीक
सांख्यिकीय मॉडल को देखते हुए, जो देखे गए डेटा का एक समुच्चय , न देखे गए अव्यक्त डेटा का एक समुच्चय या लुप्त मान उत्पन्न करता है, और अज्ञात पैरामीटर का एक वेक्टर, एक संभाविता फलन के साथ, अज्ञात पैरामीटर की अधिकतम संभाविता अनुमान (MLE) देखे गए डेटा की सीमांत संभाविता को अधिकतम करके निर्धारित किया जाता है
हालाँकि, यह मात्रा प्रायः कठिन होती है क्योंकि का अवलोकन नहीं किया जाता है और प्राप्त करने से पहले का वितरण अज्ञात है।
EM कलन विधि
EM कलन विधि इन दो चरणों को पुनरावृत्त रूप से प्रयुक्त करके सीमांत संभाविता के MLE को ढूंढना चाहता है:
- प्रत्याशा चरण (E चरण): परिभाषित करें log संभाविता फलन के प्रत्याशा मान के रूप में, की वर्तमान सशर्त संभाव्यता वितरण के संबंध में दिया गया और पैरामीटर का वर्तमान अनुमान:
- अधिकतमकरण चरण (M चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें:
अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:
चरों की व्याख्या
जिन विशिष्ट मॉडलों पर EM प्रयुक्त किया जाता है समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में:
- अवलोकित डेटा बिंदु असतत यादृच्छिक चर (एक परिमित या गणनीय अनंत समुच्चय में मान लेना) या निरंतर यादृच्छिक चर (एक बेशुमार अनंत समुच्चय में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है।
- अनुपलब्ध मान (उपनाम अव्यक्त चर) असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है।
- पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)।
हालाँकि, EM को अन्य प्रकार के मॉडलों पर प्रयुक्त करना संभव है।
प्रेरणा इस प्रकार है. यदि पैरामीटर का मान ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य के सभी संभावित मानों पर log-संभाविता को अधिकतम करके पाया जा सकता है , या तो बस बार-बार दोहराकर या छिपे छिपा हुआ मार्कोव मॉडल के लिए विटर्बी कलन विधि जैसे कलन विधि के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं , हम पैरामीटर का अनुमान पा सकते हैं काफी आसानी से, सामान्यतः देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फलन का औसत निकालकर। यह एक पुनरावृत्त कलन विधि का सुझाव देता है, उस स्थिति में जब दोनों और अज्ञात हैं:
- सबसे पहले, पैरामीटर्स को इनिशियलाइज़ करें कुछ यादृच्छिक मूल्यों के लिए है।
- प्रत्येक संभावित मान की संभाविता की गणना करें, दिया गया है।
- फिर, अभी-अभी गणना किए गए मानों का उपयोग करें पैरामीटर के लिए बेहतर अनुमान की गणना करना है।
- अभिसरण होने तक चरण 2 और 3 को दोहराएँ।
जैसा कि अभी बताया गया है, कलन विधि नीरस रूप से लागत फलन के स्थानीय न्यूनतम तक पहुंचता है।
गुण
हालाँकि एक EM पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभाविता फलन को बढ़ाती है, लेकिन कोई प्रत्याभूति नहीं है कि अनुक्रम अधिकतम संभाविता अनुमानक में परिवर्तित हो जाता है। मल्टीमॉडल वितरण के लिए, इसका मतलब यह है कि एक EM कलन विधि प्रारंभिक मूल्यों के आधार पर, देखे गए डेटा संभाविता फलन के स्थानीय अधिकतम में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या मेटाह्यूरिस्टिक दृष्टिकोण उपस्थित हैं, जैसे कि यादृच्छिक-पुनरारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों से प्रारम्भ करना, या सिम्युलेटेड एनीलिंग विधियों को प्रयुक्त करना)।
EM विशेष रूप से तब उपयोगी होता है जब संभाविता एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें:[14] E चरण पर्याप्त सांख्यिकी की अपेक्षाओं का योग बन जाता है, और M चरण में एक रैखिक फलन को अधिकतम करना सम्मिलित होता है . ऐसे स्थिति में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके प्रत्येक चरण के लिए बंद-फॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है[15] (प्रति मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर रॉल्फ सुंदरबर्ग द्वारा सिद्ध और प्रकाशित)।[7][8][10][11][12][13]
डेम्पस्टर, लैयर्ड और रुबिन द्वारा मूल पेपर में बायेसियन अनुमान के लिए अधिकतम पोस्टीरियरी (MAP) अनुमानों की गणना करने के लिए EM विधि को संशोधित किया गया था।
अधिकतम संभाविता का अनुमान लगाने के लिए अन्य विधियाँ उपस्थित हैं, जैसे कि ग्रेडिएंट डिसेंट, संयुग्म ग्रेडिएंट, या गॉस-न्यूटन कलन विधि के वेरिएंट। EM के विपरीत, ऐसे तरीकों को आमतौर पर संभाविता फलन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।
शुद्धता का प्रमाण
अपेक्षा-अधिकतमीकरण सीधे में श्रेष्ठतर करने के स्थान में में श्रेष्ठतर करने के लिए काम करता है। यहां यह दिखाया गया है कि पहले में श्रेष्ठतर से बाद में श्रेष्ठतर होता है।[16]
किसी के लिए गैर-शून्य संभाविता के साथ , हम लिख सकते हैं
हम अज्ञात डेटा के संभावित मूल्यों पर प्रत्याशा रखते हैं वर्तमान पैरामीटर अनुमान के तहत दोनों पक्षों को गुणा करके और सारांशित करना (या एकीकृत करना)। . बाईं ओर एक स्थिरांक की प्रत्याशा है, इसलिए हमें मिलता है:
जहाँ इसे उस ऋणात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है।
यह अंतिम समीकरण प्रत्येक मान सम्मिलित के लिए मान्य है,
और इस अंतिम समीकरण को पिछले समीकरण से घटाने पर प्राप्त होता है
हालाँकि, गिब्स की असमानता हमें यह बताती है , तो हम यह निष्कर्ष निकाल सकते हैं
शब्दों में, को सुधारने के लिए चुनने से में कम से कम उतना ही श्रेष्ठतर होता है।
अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में
EM कलन विधि को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी समन्वित अवतरण के उदाहरण के रूप में।[17][18] फलन पर विचार करें:
- जहां q, न देखे गए डेटा z पर एक यादृच्छिक संभाव्यता वितरण है और H(q) वितरण q की एन्ट्रॉपी है। इस फलन को इस प्रकार लिखा जा सकता है
जहाँ देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण है और कुल्बैक-लीब्लर विचलन है।
फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:
- प्रत्याशा चरण: चुनें बढ़ाने के लिए :
- अधिकतमीकरण चरण: अधिकतम के लिए चुनें:
अनुप्रयोग
EM का प्रयोग प्रायः मिश्रित मॉडलों के पैरामीटर आकलन के लिए किया जाता है,[19][20] विशेष रूप से मात्रात्मक आनुवंशिकी में।[21]
साइकोमेट्रिक्स में, विषय प्रतिक्रिया सिद्धांत मॉडल के विषय मापदंडों और अव्यक्त क्षमताओं का आकलन करने के लिए EM एक महत्वपूर्ण उपकरण है।
लापता डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, EM एक पोर्टफोलियो के मूल्य निर्धारण और जोखिम का प्रबंधन करने के लिए एक उपयोगी उपकरण बन रहा है।
EM कलन विधि (और इसके तेज़ वेरिएंट ऑर्डर किए गए उपसमुच्चय अपेक्षा अधिकतमकरण) का व्यापक रूप से चिकित्सा छवि पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पॉज़िट्रॉन उत्सर्जन टोमोग्राफी, एकल-फोटॉन उत्सर्जन कंप्यूटेड टोमोग्राफी और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें।
संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) [22] कलन विधि का उपयोग करके स्ट्रक्चरल आइडेंटिफिकेशन, नियंत्रक डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है (ऑपरेशनल मोडल विश्लेषण देखें)।
EM का उपयोग डेटा क्लस्टरिंग के लिए भी किया जाता है। प्राकृतिक भाषा प्रसंस्करण में, कलन विधि के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च कलन विधि हैं, और संभाव्य संदर्भ-मुक्त व्याकरणों के अनियंत्रित प्रेरण के लिए अंदर-बाहर कलन विधि हैं।
इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी स्टॉक एक्सचेंज में स्टॉक के शेयरों में बाद के ट्रेडों के बीच का समय, EM कलन विधि बहुत उपयोगी साबित हुआ है।[23]
EM कलन विधि को फ़िल्टर करना और स्मूथ करना
एक कलमन फ़िल्टर का उपयोग सामान्यतः ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल पैरामीटर के अनुमान की आवश्यकता होती है। EM कलन विधि का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है।
इस दो-चरणीय प्रक्रिया को दोहराकर EM कलन विधि को फ़िल्टर करना और स्मूथ करना उत्पन्न होता है:
- E-चरण
- अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें।
- M-चरण
- अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभाविता गणना के भीतर फ़िल्टर किए गए या स्मूथ स्टेट अनुमानों का उपयोग करें।
मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें योगात्मक श्वेत रव होता है। अधिकतम संभाविता गणना से एक अद्यतन माप रव विचरण अनुमान प्राप्त किया जा सकता है
जहाँ स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ द्वारा गणना किए जाते हैं उपरोक्त अद्यतन को पॉइसन माप रव तीव्रता को अद्यतन करने के लिए भी प्रयुक्त किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया रव विचरण अनुमान की गणना की जा सकती है
जहाँ और स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है
उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।[24][25][26][27]
वेरिएंट
EM कलन विधि के कभी-कभी धीमे अभिसरण में तेजी लाने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना।[28] इसके अलावा, EM का उपयोग विवश आकलन विधियों के साथ किया जा सकता है।
पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण (PX-EM) कलन विधि प्रायः M चरण के विश्लेषण को सही करने के लिए "us[ing] एक 'सहप्रसरण समायोजन' द्वारा गति प्रदान करता है, जो कि आरोपित संपूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है"।[29]
प्रत्याशा सशर्त अधिकतमीकरण (ECM) प्रत्येक M चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θi को व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से शेष अन्य मापदंडों पर।[30] स्वयं को एक्सपेक्टेशन कंडीशनल मैक्सिमाइज़ेशन (ECME) कलन विधि में बढ़ाया जा सकता है।[31]
इस विचार को सामान्यीकृत अपेक्षा अधिकतमीकरण (GEM) कलन विधि में आगे बढ़ाया गया है, जिसमें ई चरण और M चरण दोनों के लिए उद्देश्य फलन एफ में केवल वृद्धि की मांग की गई है, जैसा कि अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग में वर्णित है।[17] GEM को एक वितरित वातावरण में आगे विकसित किया गया है और आशाजनक परिणाम दिखाता है।[32]
EM कलन विधि को एमएम (संदर्भ के आधार पर मेजराइज/मिनिमाइज या माइनराइज/मैक्सिमाइज) कलन विधि के उपवर्ग के रूप में मानना भी संभव है, [33]और इसलिए अधिक सामान्य स्थिति में विकसित किसी भी मशीनरी का उपयोग करें।
α-EM कलन विधि
EM कलन विधि में प्रयुक्त Q-फलन log संभाविता पर आधारित है। इसलिए, इसे log-EM कलन विधि माना जाता है। log संभाविता के उपयोग को α-log संभाविता अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-log संभाविता अनुपात को α-log संभाविता अनुपात और α-विचलन के Q-फलन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस Q-फलन को प्राप्त करना एक सामान्यीकृत E चरण है। इसका अधिकतमीकरण एक सामान्यीकृत M चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है[34] जिसमें इसके उपवर्ग के रूप में log-EM कलन विधि सम्मिलित है। इस प्रकार, यासुओ मात्सुयामा द्वारा α-EM कलन विधि log-EM कलन विधि का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर log-EM कलन विधि की तुलना में तेज़ अभिसरण दिखाता है। α-EM कलन विधि हिडन मार्कोव मॉडल आकलन कलन विधि α-HMM के तेज़ संस्करण की ओर ले जाता है।[35]
परिवर्तनशील बेयस विधियों से संबंध
EM आंशिक रूप से गैर-बायेसियन, अधिकतम संभाविता विधि है। इसका अंतिम परिणाम θ के लिए एक बिंदु अनुमान (या तो अधिकतम संभाविता अनुमान या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो θ और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, E और M चरणों के बीच का अंतर लुप्त हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित Q सन्निकटन (वैरिएबल बेयस) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब θ सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति k चरणों की आवश्यकता है, जहाँ k अव्यक्त चर की संख्या है। चित्रमय मॉडल के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया Q केवल उसके मार्कोव ब्लैंकेट पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।
ज्यामितीय व्याख्या
सूचना ज्यामिति में, E चरण और M चरण की व्याख्या दोहरे एफ़िन कनेक्शन के तहत प्रक्षेपण के रूप में की जाती है, जिसे E-कनेक्शन और M-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।
उदाहरण
गाऊसी मिश्रण
मान लीजिये का एक नमूना हो आयाम के दो बहुभिन्नरूपी सामान्य वितरण के मिश्रण मॉडल से स्वतंत्र अवलोकन , और जाने वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।[18]:
और
जहाँ
- और
इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात पैरामीटर का अनुमान लगाना है:
जहां अपूर्ण-डेटा संभाविता फलन है
और पूर्ण-डेटा संभाविता फलन है
या
जहाँ एक सूचक कार्य है और बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है।
अंतिम समानता में, प्रत्येक के लिए i, एक सूचक शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है।
E चरण
पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ(t), Z का सशर्त वितरणi बेयस प्रमेय द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फलन की आनुपातिक ऊंचाई निर्धारित की जाती है:
इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें सामान्यतः E चरण का आउटपुट माना जाता है (हालांकि यह नीचे का Q फलन नहीं है)।
यह E चरण Q के लिए इस फलन को समुच्चय करने से मेल खाता है:
की प्रत्याशा योग के अंदर संभाव्यता घनत्व फलन के संबंध में लिया जाता है , जो प्रत्येक के लिए भिन्न हो सकता है प्रशिक्षण समुच्चय का. E चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है अतिरिक्त इसके , जिसकी गणना E चरण अनुभाग की प्रारम्भ में समीकरण के अनुसार की जाती है।
इस पूर्ण सशर्त प्रत्याशा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है।
M चरण
Q(θ | θ(t)) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, τ, (μ1,Σ1) और (μ2,Σ2) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।
आरंभ करने के लिए, τ पर विचार करें, जिसमें बाध्यता τ1 + τ2=1 है:
इसका रूप द्विपद वितरण के लिए MLE के समान है
(μ) के अगले अनुमानों के लिए (μ1,Σ1):
इसका रूप सामान्य वितरण के लिए भारित MLE के समान है
- और
और, समरूपता से,
- और
निवृत्ति
यदि पुनरावृत्तीय प्रक्रिया समाप्त करें के लिए कुछ पूर्व निर्धारित सीमा से नीचे.
सामान्यीकरण
ऊपर दर्शाए गए कलन विधि को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।
संक्षिप्त और नियंत्रक किया गया प्रतिगमन
EM कलन विधि को उस स्थिति में प्रयुक्त किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के नियंत्रक या संक्षिप्त संस्करण हैं।[36] इस मॉडल के विशेष स्थिति में एक सामान्य वितरण से नियंत्रक किए गए या संक्षिप्त किए गए अवलोकन सम्मिलित हैं।[36]
विकल्प
EM सामान्यतः स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य रूप से अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की संख्या घातांक हो सकती है। इसलिए, विशेष रूप से उच्च-आयामी सेटिंग में, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता उपस्थित है। EM के विकल्प निरंतरता की बेहतर गारंटी के साथ उपस्थित हैं, जिन्हें क्षण-आधारित दृष्टिकोण [37] या तथाकथित वर्णक्रमीय तकनीक [38][39] कहा जाता है। एक संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि के हैं क्योंकि वे EM के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो प्रायः स्थानीय ऑप्टिमा में फंसने के मुद्दे से ग्रस्त होता है। सीखने की गारंटी वाले कलन विधि कई महत्वपूर्ण मॉडलों जैसे मिश्रण मॉडल, HMMs इत्यादि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।
यह भी देखें
- प्रमुख घटक विश्लेषण
- पूर्ण अवशोषण स्पेक्ट्रोस्कोपी
- EM कलन विधि को मेजराइज़-मिनिमाइज़ेशन (MM) कलन विधि के एक विशेष स्थिति के रूप में देखा जा सकता है।[40]
संदर्भ
- ↑ Meng, X.-L.; van Dyk, D. (1997). "The EM algorithm – an old folk-song sung to a fast new tune". J. Royal Statist. Soc. B. 59 (3): 511–567.
- ↑ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
- ↑ Ceppelini, R.M. (1955). "यादृच्छिक-संभोग आबादी में जीन आवृत्तियों का अनुमान". Ann. Hum. Genet. 20 (2): 97–115. doi:10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
- ↑ Hartley, Herman Otto (1958). "अपूर्ण डेटा से अधिकतम संभावना अनुमान". Biometrics. 14 (2): 174–194. doi:10.2307/2527783. JSTOR 2527783.
- ↑ Ng, Shu Kay; Krishnan, Thriyambakam; McLachlan, Geoffrey J. (2011-12-21), "The EM Algorithm", Handbook of Computational Statistics, Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 139–172, doi:10.1007/978-3-642-21551-3_6, ISBN 978-3-642-21550-6, S2CID 59942212, retrieved 2022-10-15
- ↑ Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics. 1 (2): 49–58. JSTOR 4615553. MR 0381110.
- ↑ 7.0 7.1 Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
- ↑ 8.0 8.1 Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation. 5 (1): 55–64. doi:10.1080/03610917608812007. MR 0443190.
- ↑ See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.
- ↑ 10.0 10.1 प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहूस विश्वविद्यालय। (सुंडबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय दिया गया)।
- ↑ 11.0 11.1 प्रति मार्टिन-लोफ। 1970. सांख्यिकीय मॉडल: रॉल्फ सुंदरबर्ग की सहायता से स्कूल वर्ष 1969-1970 में सेमिनारों के नोट्स (व्याख्यान नोट्स 1969-1970)। स्टॉकहोम विश्वविद्यालय.
- ↑ 12.0 12.1 मार्टिन-लोफ, पी. अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विचलन के मात्रात्मक माप के रूप में इसका उपयोग। एफ. एबिल्डगार्ड, आर्थर पी. डेम्पस्टर|ए की चर्चा के साथ। पी. डेम्पस्टर, डी. बसु, डी. आर. कॉक्स, ए. डब्ल्यू. एफ. एडवर्ड्स, डी. ए. स्प्रोट, जॉर्ज ए. बरनार्ड|जी. ए. बरनार्ड, ओ. बार्नडॉर्फ-नील्सन, जे. डी. काल्बफ्लिश और राश मॉडल|जी. रैश और लेखक का उत्तर। सांख्यिकीय अनुमान में मूलभूत प्रश्नों पर सम्मेलन की कार्यवाही (आरहस, 1973), पीपी 1-42। संस्मरण, नंबर 1, विभाग सिद्धांत। सांख्यिकीविद्., उदाहरण. गणित., विश्वविद्यालय. आरहूस, आरहूस, 1974.
- ↑ 13.0 13.1 Martin-Löf, Per (1974). "अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग". Scand. J. Statist. 1 (1): 3–18.
- ↑ Sundberg, Rolf (2019). घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग. Cambridge University Press. ISBN 9781108701112.
- ↑ Laird, Nan (2006). "सुंदरबर्ग सूत्र". Wiley online library. Wiley.
- ↑ Little, Roderick J.A.; Rubin, Donald B. (1987). गायब डेटा के साथ सांख्यिकीय विश्लेषण. Wiley Series in Probability and Mathematical Statistics. New York: John Wiley & Sons. pp. 134–136. ISBN 978-0-471-80254-9.
- ↑ 17.0 17.1 Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को उचित ठहराता है (PDF). pp. 355–368. ISBN 978-0-262-60032-3. Retrieved 2009-03-22.
{{cite book}}:|journal=ignored (help) - ↑ 18.0 18.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). "8.5 The EM algorithm". सांख्यिकीय सबक के तत्व. New York: Springer. pp. 236–243. ISBN 978-0-387-95284-0.
- ↑ Lindstrom, Mary J; Bates, Douglas M (1988). "Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data". Journal of the American Statistical Association. 83 (404): 1014. doi:10.1080/01621459.1988.10478693.
- ↑ Van Dyk, David A (2000). "कुशल ईएम-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल फिट करना". Journal of Computational and Graphical Statistics. 9 (1): 78–98. doi:10.2307/1390614. JSTOR 1390614.
- ↑ Diffey, S. M; Smith, A. B; Welsh, A. H; Cullis, B. R (2017). "रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम". Australian & New Zealand Journal of Statistics. 59 (4): 433. doi:10.1111/anzs.12208.
- ↑ Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
- ↑ Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times". Physica A: Statistical Mechanics and its Applications. 587 (1): 126456. doi:10.1016/j.physa.2021.126456. ISSN 0378-4371.
- ↑ Einicke, G. A.; Malos, J. T.; Reid, D. C.; Hainsworth, D. W. (January 2009). "Riccati Equation and EM Algorithm Convergence for Inertial Navigation Alignment". IEEE Trans. Signal Process. 57 (1): 370–375. Bibcode:2009ITSP...57..370E. doi:10.1109/TSP.2008.2007090. S2CID 1930004.
- ↑ Einicke, G. A.; Falco, G.; Malos, J. T. (May 2010). "EM Algorithm State Matrix Estimation for Navigation". IEEE Signal Processing Letters. 17 (5): 437–440. Bibcode:2010ISPL...17..437E. doi:10.1109/LSP.2010.2043151. S2CID 14114266.
- ↑ Einicke, G. A.; Falco, G.; Dunn, M. T.; Reid, D. C. (May 2012). "Iterative Smoother-Based Variance Estimation". IEEE Signal Processing Letters. 19 (5): 275–278. Bibcode:2012ISPL...19..275E. doi:10.1109/LSP.2012.2190278. S2CID 17476971.
- ↑ Einicke, G. A. (Sep 2015). "Iterative Filtering and Smoothing of Measurements Possessing Poisson Noise". IEEE Transactions on Aerospace and Electronic Systems. 51 (3): 2205–2011. Bibcode:2015ITAES..51.2205E. doi:10.1109/TAES.2015.140843. S2CID 32667132.
- ↑ Jamshidian, Mortaza; Jennrich, Robert I. (1997). "अर्ध-न्यूटन विधियों का उपयोग करके ईएम एल्गोरिदम का त्वरण". Journal of the Royal Statistical Society, Series B. 59 (2): 569–587. doi:10.1111/1467-9868.00083. MR 1452026. S2CID 121966443.
- ↑ Liu, C (1998). "Parameter expansion to accelerate EM: The PX-EM algorithm". Biometrika. 85 (4): 755–770. CiteSeerX 10.1.1.134.9617. doi:10.1093/biomet/85.4.755.
- ↑ Liu, Chuanhai; Rubin, Donald B (1994). "The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence". Biometrika. 81 (4): 633. doi:10.1093/biomet/81.4.633. JSTOR 2337067.
- ↑ Meng, Xiao-Li; Rubin, Donald B. (1993). "Maximum likelihood estimation via the ECM algorithm: A general framework". Biometrika. 80 (2): 267–278. doi:10.1093/biomet/80.2.267. MR 1243503. S2CID 40571416.
- ↑ Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Accelerating Expectation–Maximization Algorithms with Frequent Updates" (PDF). Proceedings of the IEEE International Conference on Cluster Computing.
- ↑ Hunter DR and Lange K (2004), A Tutorial on MM Algorithms, The American Statistician, 58: 30–37
- ↑ Matsuyama, Yasuo (2003). "The α-EM algorithm: Surrogate likelihood maximization using α-logarithmic information measures". IEEE Transactions on Information Theory. 49 (3): 692–706. doi:10.1109/TIT.2002.808105.
- ↑ Matsuyama, Yasuo (2011). "Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs". International Joint Conference on Neural Networks: 808–816.
- ↑ 36.0 36.1 Wolynetz, M.S. (1979). "सीमित और सेंसर किए गए सामान्य डेटा से एक रैखिक मॉडल में अधिकतम संभावना अनुमान". Journal of the Royal Statistical Society, Series C. 28 (2): 195–206. doi:10.2307/2346749. JSTOR 2346749.
- ↑ Pearson, Karl (1894). "विकास के गणितीय सिद्धांत में योगदान". Philosophical Transactions of the Royal Society of London A. 185: 71–110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003. ISSN 0264-3820. JSTOR 90667.
- ↑ Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना" (PDF). UAI: 792–801.
- ↑ Balle, Borja Quattoni, Ariadna Carreras, Xavier (2012-06-27). Local Loss Optimization in Operator Models: A New Insight into Spectral Learning. OCLC 815865081.
{{cite book}}: CS1 maint: multiple names: authors list (link) - ↑ Lange, Kenneth. "एमएम एल्गोरिदम" (PDF).
अग्रिम पठन
- Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introduction to Mathematical Statistics. Upper Saddle River, NJ: Pearson Prentice Hall. pp. 359–364.
- Dellaert, Frank (2002). "The Expectation Maximization Algorithm". CiteSeerX 10.1.1.9.9735.
{{cite journal}}: Cite journal requires|journal=(help) gives an easier explanation of EM algorithm as to lowerbound maximization. - Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
- Gupta, M. R.; Chen, Y. (2010). "Theory and Use of the EM Algorithm". Foundations and Trends in Signal Processing. 4 (3): 223–296. CiteSeerX 10.1.1.219.6830. doi:10.1561/2000000034. A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
- Bilmes, Jeff (1998). "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models". CiteSeerX 10.1.1.28.613.
{{cite journal}}: Cite journal requires|journal=(help) includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models. - McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). The EM Algorithm and Extensions (2nd ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.
बाहरी संबंध
- Various 1D, 2D and 3D demonstrations of EM together with Mixture Modeling are provided as part of the paired SOCR activities and applets. These applets and activities show empirically the properties of the EM algorithm for parameter estimation in diverse settings.
- Class hierarchy in C++ (GPL) including Gaussian Mixtures
- The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay includes simple examples of the EM algorithm such as clustering using the soft k-means algorithm, and emphasizes the variational view of the EM algorithm, as described in Chapter 33.7 of version 7.2 (fourth edition).
- Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs (chapters).
- The Expectation Maximization Algorithm: A short tutorial, A self-contained derivation of the EM Algorithm by Sean Borman.
- The EM Algorithm, by Xiaojin Zhu.
- EM algorithm and variants: an informal tutorial by Alexis Roche. A concise and very clear description of EM and many interesting variants.