प्रत्याशा-अधिकतमकरण एल्गोरिथ्म: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Iterative method for finding maximum likelihood estimates in statistical models}} आंकड़ों में, एक अपेक्षा-अधि...")
 
No edit summary
 
(19 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Iterative method for finding maximum likelihood estimates in statistical models}}
{{Short description|Iterative method for finding maximum likelihood estimates in statistical models}}


आंकड़ों में, एक अपेक्षा-अधिकतमकरण (ईएम) एल्गोरिथ्म [[सांख्यिकीय मॉडल]] में मापदंडों के (स्थानीय) अधिकतम संभावना या अधिकतम पोस्टीरियरी (एमएपी) अनुमानों को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य [[अव्यक्त चर]] पर निर्भर करता है।<ref>{{cite journal |last1=Meng |first1=X.-L. |last2=van Dyk |first2=D. |title=The EM algorithm – an old folk-song sung to a fast new tune |journal=J. Royal Statist. Soc. B |date=1997 |volume=59 |issue=3 |pages=511-567}}</ref> ईएम पुनरावृत्ति एक अपेक्षा () चरण को निष्पादित करने के बीच वैकल्पिक होती है, जो मापदंडों के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन किए गए संभावना फ़ंक्शन#लॉग-संभावना|लॉग-संभावना की अपेक्षा के लिए एक फ़ंक्शन बनाता है, और एक अधिकतमकरण (एम) चरण, जो चरण पर पाए जाने वाले अपेक्षित लॉग-संभावना को अधिकतम करने वाले पैरामीटर की गणना करता है। इन पैरामीटर-अनुमानों का उपयोग अगले चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।
सांख्यिकी में, एक '''प्रत्याशा-अधिकतमकरण (EM) कलन विधि''' [[सांख्यिकीय मॉडल]] में पैरामीटर के (स्थानीय) अधिकतम संभाविता या अधिकतम पोस्टीरियोरी (MAP) अनुमान को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य [[अव्यक्त चर]] पर निर्भर करता है।<ref>{{cite journal |last1=Meng |first1=X.-L. |last2=van Dyk |first2=D. |title=The EM algorithm – an old folk-song sung to a fast new tune |journal=J. Royal Statist. Soc. B |date=1997 |volume=59 |issue=3 |pages=511-567}}</ref> EM पुनरावृत्ति एक प्रत्याशा (E) चरण के प्रदर्शन के बीच वैकल्पिक होती है, जो पैरामीटर के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन की गई log-संभाविता की प्रत्याशा के लिए एक फलन बनाती है, और एक अधिकतमकरण (M) चरण, जो E चरण पर पाई गई प्रत्याशा log-संभाविता को अधिकतम करने वाले पैरामीटर की गणना करता है फिर इन पैरामीटर-अनुमानों का उपयोग अगले E चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।


[[File:EM Clustering of Old Faithful data.gif|right|frame|पुराने फेथफुल विस्फोट डेटा की ईएम क्लस्टरिंग। यादृच्छिक प्रारंभिक मॉडल (जो, अक्षों के विभिन्न पैमानों के कारण, दो बहुत सपाट और चौड़े दीर्घवृत्त प्रतीत होता है) प्रेक्षित डेटा के लिए उपयुक्त है। पहले पुनरावृत्तियों में, मॉडल काफी हद तक बदल जाता है, लेकिन फिर [[ गरम पानी का झरना ]] के दो मोड में परिवर्तित हो जाता है। [[ELKI]] का उपयोग करके विज़ुअलाइज़ किया गया।]]
[[File:EM Clustering of Old Faithful data.gif|right|frame|पुराने फेथफुल विस्फोट डेटा की EM क्लस्टरिंग। यादृच्छिक प्रारंभिक मॉडल (जो, अक्षों के विभिन्न पैमानों के कारण, दो बहुत सपाट और चौड़े दीर्घवृत्त प्रतीत होता है) प्रेक्षित डेटा के लिए उपयुक्त है। पहले पुनरावृत्तियों में, मॉडल काफी हद तक बदल जाता है, लेकिन फिर[[ गरम पानी का झरना ]]के दो मोड में परिवर्तित हो जाता है। [[ELKI]] का उपयोग करके विज़ुअलाइज़ किया गया।]]


== इतिहास ==
== इतिहास ==
ईएम एल्गोरिथ्म को आर्थर पी. डेम्पस्टर, [[लेयर्ड में]] और [[डोनाल्ड रुबिन]] द्वारा 1977 के एक क्लासिक पेपर में समझाया गया था और इसका नाम दिया गया था।<ref name="Dempster1977">
EM कलन विधि को आर्थर डेम्पस्टर, नान [[लेयर्ड में|लेयर्ड]] और [[डोनाल्ड रुबिन]] द्वारा 1977 के एक क्लासिक पेपर में समझाया गया और इसका नाम दिया गया था।<ref name="Dempster1977">
{{cite journal
{{cite journal
  |last1=Dempster  |first1= A.P. |author-link1=Arthur P. Dempster
  |last1=Dempster  |first1= A.P. |author-link1=Arthur P. Dempster
Line 16: Line 16:
  |jstor=2984875 |mr= 0501537
  |jstor=2984875 |mr= 0501537
}}
}}
</ref> उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा विशेष परिस्थितियों में कई बार प्रस्तावित की गई थी। [[सेड्रिक स्मिथ (सांख्यिकीविद्)]] द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे शुरुआती में से एक है।<ref>{{cite journal |last1=Ceppelini |first1=R.M. |title=यादृच्छिक-संभोग आबादी में जीन आवृत्तियों का अनुमान|journal=Ann. Hum. Genet. |volume=20 |issue=2 |pages=97–115 |doi=10.1111/j.1469-1809.1955.tb01360.x|pmid=13268982 |year=1955 |s2cid=38625779 }}</ref> दूसरा प्रस्ताव हरमन ओट्टो हार्टले|एच.ओ. द्वारा दिया गया था। 1958 में हार्टले, और 1977 में हार्टले और हॉकिंग, जिनसे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई।<ref>{{Cite journal |last=Hartley |first=Herman Otto |date=1958 |title=अपूर्ण डेटा से अधिकतम संभावना अनुमान|journal=Biometrics |volume=14 |issue=2 |pages=174–194|doi=10.2307/2527783 |jstor=2527783 }}</ref> 1977 में एस.के. एनजी, त्रियम्बकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और।<ref>{{Citation |last1=Ng |first1=Shu Kay |title=The EM Algorithm |date=2011-12-21 |url=http://dx.doi.org/10.1007/978-3-642-21551-3_6 |work=Handbook of Computational Statistics |pages=139–172 |place=Berlin, Heidelberg |publisher=Springer Berlin Heidelberg |isbn=978-3-642-21550-6 |access-date=2022-10-15 |last2=Krishnan |first2=Thriyambakam |last3=McLachlan |first3=Geoffrey J.|doi=10.1007/978-3-642-21551-3_6 |s2cid=59942212 }}</ref> हार्टले के विचारों को किसी भी समूहीकृत असतत वितरण तक विस्तृत किया जा सकता है। घातीय परिवारों के लिए ईएम पद्धति का एक बहुत विस्तृत उपचार रॉल्फ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में प्रकाशित किया था,<ref name="Sundberg1974">{{cite journal
</ref> उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा "विशेष परिस्थितियों में कई बार प्रस्तावित" की गई थी। [[सेड्रिक स्मिथ (सांख्यिकीविद्)|सेड्रिक स्मिथ]] द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे प्रारम्भ में से एक है।<ref>{{cite journal |last1=Ceppelini |first1=R.M. |title=यादृच्छिक-संभोग आबादी में जीन आवृत्तियों का अनुमान|journal=Ann. Hum. Genet. |volume=20 |issue=2 |pages=97–115 |doi=10.1111/j.1469-1809.1955.tb01360.x|pmid=13268982 |year=1955 |s2cid=38625779 }}</ref> दूसरा प्रस्ताव 1958 में एचओ हार्टले और 1977 में हार्टले और हॉकिंग द्वारा दिया गया था, जिससे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई।<ref>{{Cite journal |last=Hartley |first=Herman Otto |date=1958 |title=अपूर्ण डेटा से अधिकतम संभावना अनुमान|journal=Biometrics |volume=14 |issue=2 |pages=174–194|doi=10.2307/2527783 |jstor=2527783 }}</ref> 1977 में एस.के. एनजी, त्रियंबकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और उत्पत्ति हुई।<ref>{{Citation |last1=Ng |first1=Shu Kay |title=The EM Algorithm |date=2011-12-21 |url=http://dx.doi.org/10.1007/978-3-642-21551-3_6 |work=Handbook of Computational Statistics |pages=139–172 |place=Berlin, Heidelberg |publisher=Springer Berlin Heidelberg |isbn=978-3-642-21550-6 |access-date=2022-10-15 |last2=Krishnan |first2=Thriyambakam |last3=McLachlan |first3=Geoffrey J.|doi=10.1007/978-3-642-21551-3_6 |s2cid=59942212 }}</ref> हार्टले के विचारों को किसी भी समूहीकृत पृथक वितरण तक विस्तारित किया जा सकता है। पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद, रोल्फ़ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में घातीय परिवारों के लिए EM पद्धति का एक बहुत विस्तृत उपचार प्रकाशित किया था,<ref name="Sundberg1974">{{cite journal
  |last=Sundberg |first=Rolf
  |last=Sundberg |first=Rolf
  |title=Maximum likelihood theory for incomplete data from an exponential family
  |title=Maximum likelihood theory for incomplete data from an exponential family
Line 30: Line 30:
  |volume=5 |issue=1 |pages=55–64
  |volume=5 |issue=1 |pages=55–64
  |doi=10.1080/03610917608812007 |mr=443190
  |doi=10.1080/03610917608812007 |mr=443190
}}</ref> पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद।<ref>See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.</ref><ref name="Martin-Löf1966">प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहूस विश्वविद्यालय। (सुंडबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय दिया गया)।</ref><ref name="Martin-Löf1970">प्रति मार्टिन-लोफ। 1970. सांख्यिकीय मॉडल: रॉल्फ सुंदरबर्ग की सहायता से स्कूल वर्ष 1969-1970 में सेमिनारों के नोट्स (व्याख्यान नोट्स 1969-1970)। स्टॉकहोम विश्वविद्यालय. </ref><!-- * Martin-Löf, P. "Exact tests, confidence regions and estimates", with a discussion by [[A. W. F. Edwards]], [[George A. Barnard|G. A. Barnard]], D. A. Sprott, O. Barndorff-Nielsen, [[D. Basu]] and [[Rasch model|G. Rasch]]. ''Proceedings of Conference on Foundational Questions in Statistical Inference'' (Aarhus, 1973), pp. 121–138. Memoirs, No. 1, Dept. Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus, 1974. --><ref name="Martin-Löf1974a">मार्टिन-लोफ, पी. अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विचलन के मात्रात्मक माप के रूप में इसका उपयोग। एफ. एबिल्डगार्ड, आर्थर पी. डेम्पस्टर|ए की चर्चा के साथ। पी. डेम्पस्टर, डी. बसु, डी. आर. कॉक्स, ए. डब्ल्यू. एफ. एडवर्ड्स, डी. ए. स्प्रोट, जॉर्ज ए. बरनार्ड|जी. ए. बरनार्ड, ओ. बार्नडॉर्फ-नील्सन, जे. डी. काल्बफ्लिश और राश मॉडल|जी. रैश और लेखक का उत्तर। सांख्यिकीय अनुमान में मूलभूत प्रश्नों पर सम्मेलन की कार्यवाही (आरहस, 1973), पीपी 1-42। संस्मरण, नंबर 1, विभाग सिद्धांत। सांख्यिकीविद्., उदाहरण. गणित., विश्वविद्यालय. आरहूस, आरहूस, 1974.</ref><ref name="Martin-Löf1974b">{{cite journal |last=Martin-Löf |first=Per |title=अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग|journal=Scand. J. Statist. |volume=1 |year=1974 |issue=1 |pages=3–18 }}</ref> 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के व्यापक वर्ग के लिए एक अभिसरण विश्लेषण की रूपरेखा तैयार की। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने ईएम पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डाइक (1997) भी देखें।
}}</ref><ref>See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.</ref><ref name="Martin-Löf1966">प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहूस विश्वविद्यालय। (सुंडबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय दिया गया)।</ref><ref name="Martin-Löf1970">प्रति मार्टिन-लोफ। 1970. सांख्यिकीय मॉडल: रॉल्फ सुंदरबर्ग की सहायता से स्कूल वर्ष 1969-1970 में सेमिनारों के नोट्स (व्याख्यान नोट्स 1969-1970)। स्टॉकहोम विश्वविद्यालय. </ref><ref name="Martin-Löf1974a">मार्टिन-लोफ, पी. अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विचलन के मात्रात्मक माप के रूप में इसका उपयोग। एफ. एबिल्डगार्ड, आर्थर पी. डेम्पस्टर|ए की चर्चा के साथ। पी. डेम्पस्टर, डी. बसु, डी. आर. कॉक्स, ए. डब्ल्यू. एफ. एडवर्ड्स, डी. ए. स्प्रोट, जॉर्ज ए. बरनार्ड|जी. ए. बरनार्ड, ओ. बार्नडॉर्फ-नील्सन, जे. डी. काल्बफ्लिश और राश मॉडल|जी. रैश और लेखक का उत्तर। सांख्यिकीय अनुमान में मूलभूत प्रश्नों पर सम्मेलन की कार्यवाही (आरहस, 1973), पीपी 1-42। संस्मरण, नंबर 1, विभाग सिद्धांत। सांख्यिकीविद्., उदाहरण. गणित., विश्वविद्यालय. आरहूस, आरहूस, 1974.</ref><ref name="Martin-Löf1974b">{{cite journal |last=Martin-Löf |first=Per |title=अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग|journal=Scand. J. Statist. |volume=1 |year=1974 |issue=1 |pages=3–18 }}</ref> 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के एक व्यापक वर्ग के लिए एक अभिसरण विश्लेषण का खाका तैयार किया। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने EM पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डायक (1997) भी देखें।
 
डेम्पस्टर-लेयर्ड-रुबिन एल्गोरिदम का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। रेफरी नाम = वू >
{{cite journal
|first=C. F. Jeff
|last=Wu
|title=ईएम एल्गोरिथम के अभिसरण गुणों पर|journal=[[Annals of Statistics]]
|volume=11
|issue=1
|date=Mar 1983
|pages=95–103
|jstor=2240463
|doi=10.1214/aos/1176346060
|mr= 684867
|doi-access=free
}}</ref>
वू के प्रमाण ने ईएम पद्धति के अभिसरण को [[घातीय परिवार]] के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने दावा किया था।<ref name="Wu" />
 


डेम्पस्टर-लेयर्ड-रुबिन कलन विधि का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। वू के प्रमाण ने EM पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने प्राप्य किया था।
== परिचय ==
== परिचय ==
ईएम एल्गोरिथ्म का उपयोग उन मामलों में सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभावना मापदंडों को खोजने के लिए किया जाता है जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात मापदंडों और ज्ञात डेटा अवलोकनों के अलावा अव्यक्त चर शामिल होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान मौजूद हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक [[मिश्रण मॉडल]] को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु या अव्यक्त चर होता है, जो उस मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।
EM कलन विधि का उपयोग सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभाविता पैरामीटर को खोजने के लिए किया जाता है, जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात पैरामीटर और ज्ञात डेटा अवलोकनों के अलावा गुप्त चर सम्मिलित होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान उपस्थित हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक [[मिश्रण मॉडल]] को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु, या अव्यक्त चर होता है, जो मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।


अधिकतम संभावना समाधान खोजने के लिए आम तौर पर सभी अज्ञात मूल्यों, मापदंडों और अव्यक्त चर के संबंध में संभावना फ़ंक्शन के व्युत्पन्न को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। अव्यक्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके बजाय, परिणाम आम तौर पर इंटरलॉकिंग समीकरणों का एक सेट होता है जिसमें मापदंडों के समाधान के लिए अव्यक्त चर के मूल्यों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक सेट को दूसरे में प्रतिस्थापित करने से एक अघुलनशील समीकरण उत्पन्न होता है।
अधिकतम संभाविता समाधान ढूढ़ने के लिए सामान्यतः सभी अज्ञात मूल्यों, पैरामीटर और अव्यक्त चर के संबंध में संभाविता फलन के डेरिवेटिव को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। गुप्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके स्थान में, परिणाम सामान्यतः इंटरलॉकिंग समीकरणों का एक समुच्चय होता है जिसमें पैरामीटर के समाधान के लिए अव्यक्त चर के मानों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक समुच्चय को दूसरे में प्रतिस्थापित करने से एक जटिल समीकरण उत्पन्न होता है।


ईएम एल्गोरिदम इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो सेटों को संख्यात्मक रूप से हल करने का एक तरीका है। कोई व्यक्ति अज्ञात के दो सेटों में से किसी एक के लिए मनमाना मान चुन सकता है, दूसरे सेट का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले सेट का बेहतर अनुमान लगाने के लिए इन नए मानों का उपयोग कर सकता है, और तब तक दोनों के बीच परिवर्तन जारी रख सकता है जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे सिद्ध किया जा सकता है। इसके अतिरिक्त, यह साबित किया जा सकता है कि उस बिंदु पर संभावना का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है।<ref name="Wu" />सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इसकी कोई गारंटी नहीं है कि वैश्विक मैक्सिमा मिल जाएगा। कुछ संभावनाओं में [[गणितीय विलक्षणता]] भी होती है, यानी निरर्थक मैक्सिमा। उदाहरण के लिए, मिश्रण मॉडल में ईएम द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए औसत पैरामीटर को डेटा बिंदुओं में से एक के बराबर सेट करना शामिल है।
EM कलन विधि इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो समुच्चयों को संख्यात्मक रूप से हल करने की एक विधि है। कोई अज्ञात के दो समुच्चयों में से एक के लिए यादृच्छिक मान चुन सकता है, दूसरे समुच्चय का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले समुच्चय का बेहतर अनुमान खोजने के लिए इन नए मानों का उपयोग करें, और तब तक दोनों के बीच बारी-बारी से काम करते रहें जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे साबित किया जा सकता है। इसके अतिरिक्त, यह सिद्ध किया जा सकता है कि उस बिंदु पर संभाविता का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है। सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इस बात की कोई प्रत्याभूति नहीं है कि वैश्विक मैक्सिमा मिल जाएगी। कुछ संभावनाओं में विलक्षणताएँ भी होती हैं, यानी, निरर्थक अधिकतमा उदाहरण के लिए, मिश्रण मॉडल में EM द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए माध्य पैरामीटर को डेटा बिंदुओं में से एक के बराबर समुच्चय करना सम्मिलित है।


== विवरण ==
== विवरण ==


=== प्रतीक ===
=== प्रतीक ===
सांख्यिकीय मॉडल को देखते हुए जो एक सेट उत्पन्न करता है <math>\mathbf{X}</math> देखे गए डेटा का, न देखे गए अव्यक्त डेटा या लुप्त मानों का एक सेट <math>\mathbf{Z}</math>, और अज्ञात मापदंडों का एक वेक्टर <math>\boldsymbol\theta</math>, एक संभाव्यता फ़ंक्शन के साथ <math>L(\boldsymbol\theta; \mathbf{X}, \mathbf{Z}) = p(\mathbf{X}, \mathbf{Z}\mid\boldsymbol\theta)</math>, अज्ञात मापदंडों का [[अधिकतम संभावना अनुमान]] (एमएलई) देखे गए डेटा की [[सीमांत संभावना]] को अधिकतम करके निर्धारित किया जाता है
सांख्यिकीय मॉडल को देखते हुए, जो देखे गए डेटा का एक समुच्चय <math>\mathbf{X}</math>, न देखे गए अव्यक्त डेटा का एक समुच्चय या लुप्त मान <math>\mathbf{Z}</math> उत्पन्न करता है, और अज्ञात पैरामीटर <math>\boldsymbol\theta</math> का एक वेक्टर, एक संभाविता फलन <math>L(\boldsymbol\theta; \mathbf{X}, \mathbf{Z}) = p(\mathbf{X}, \mathbf{Z}\mid\boldsymbol\theta)</math> के साथ, अज्ञात पैरामीटर की अधिकतम संभाविता अनुमान (MLE) देखे गए डेटा की सीमांत संभाविता को अधिकतम करके निर्धारित किया जाता है


:<math>L(\boldsymbol\theta; \mathbf{X}) = p(\mathbf{X}\mid\boldsymbol\theta) = \int  p(\mathbf{X},\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} = \int  p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol\theta) p(\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} </math>
:<math>L(\boldsymbol\theta; \mathbf{X}) = p(\mathbf{X}\mid\boldsymbol\theta) = \int  p(\mathbf{X},\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} = \int  p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol\theta) p(\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} </math>
हालाँकि, यह मात्रा अक्सर कठिन होती है <math>\mathbf{Z}</math> अप्राप्य है और का वितरण <math>\mathbf{Z}</math> पाने से पहले अज्ञात है <math>\boldsymbol\theta</math>.
हालाँकि, यह मात्रा प्रायः कठिन होती है क्योंकि <math>\mathbf{Z}</math> का अवलोकन नहीं किया जाता है और <math>\boldsymbol\theta</math> प्राप्त करने से पहले <math>\mathbf{Z}</math> का वितरण अज्ञात है।


=== ईएम एल्गोरिदम ===
=== EM कलन विधि ===
ईएम एल्गोरिदम इन दो चरणों को पुनरावृत्त रूप से लागू करके सीमांत संभावना के एमएलई को ढूंढना चाहता है:
EM कलन विधि इन दो चरणों को पुनरावृत्त रूप से प्रयुक्त करके सीमांत संभाविता के MLE को ढूंढना चाहता है:
:अपेक्षा चरण (चरण): परिभाषित करें <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> लॉग संभावना फ़ंक्शन के अपेक्षित मान के रूप में <math>\boldsymbol\theta</math>, की वर्तमान [[सशर्त संभाव्यता वितरण]] के संबंध में <math>\mathbf{Z}</math> दिया गया <math>\mathbf{X}</math> और मापदंडों का वर्तमान अनुमान <math>\boldsymbol\theta^{(t)}</math>:
:प्रत्याशा चरण (E चरण): <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math>परिभाषित करें log संभाविता फलन के प्रत्याशा मान <math>\boldsymbol\theta</math> के रूप में, की वर्तमान [[सशर्त संभाव्यता वितरण]] के संबंध में <math>\mathbf{Z}</math> दिया गया <math>\mathbf{X}</math> और पैरामीटर <math>\boldsymbol\theta^{(t)}</math> का वर्तमान अनुमान:
::<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) = \operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta)  \right] \,</math>
::<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) = \operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta)  \right] \,</math>
:अधिकतमकरण चरण (एम चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें:
:अधिकतमकरण चरण (M चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें:
::<math>\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} \ Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) \, </math>
::<math>\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} \ Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) \, </math>
अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:<math display="block">\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}}  
अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:<math display="block">\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}}  
\operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta)  \right] \, </math>
\operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta)  \right] \, </math>


=== चरों की व्याख्या ===
=== चरों की व्याख्या ===
जिन विशिष्ट मॉडलों पर ईएम लागू किया जाता है <math>\mathbf{Z}</math> समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में:
जिन विशिष्ट मॉडलों पर EM प्रयुक्त किया जाता है <math>\mathbf{Z}</math> समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में:
#अवलोकित डेटा बिंदु <math>\mathbf{X}</math> [[असतत यादृच्छिक चर]] (एक परिमित या गणनीय अनंत सेट में मान लेना) या [[निरंतर यादृच्छिक चर]] (एक बेशुमार अनंत सेट में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है।
#अवलोकित डेटा बिंदु <math>\mathbf{X}</math> [[असतत यादृच्छिक चर]] (एक परिमित या गणनीय अनंत समुच्चय में मान लेना) या [[निरंतर यादृच्छिक चर]] (एक बेशुमार अनंत समुच्चय में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है।
#अनुपलब्ध मान (उर्फ [[अव्यक्त चर]]) <math>\mathbf{Z}</math> असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है।
#अनुपलब्ध मान (उपनाम [[अव्यक्त चर]]) <math>\mathbf{Z}</math> असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है।
#पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)।
#पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)।
हालाँकि, EM को अन्य प्रकार के मॉडलों पर लागू करना संभव है।
हालाँकि, EM को अन्य प्रकार के मॉडलों पर प्रयुक्त करना संभव है।


प्रेरणा इस प्रकार है. यदि पैरामीटर का मान <math>\boldsymbol\theta</math> ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य <math>\mathbf{Z}</math> के सभी संभावित मानों पर लॉग-संभावना को अधिकतम करके पाया जा सकता है <math>\mathbf{Z}</math>, या तो बस बार-बार दोहराकर <math>\mathbf{Z}</math> या छिपे [[छिपा हुआ मार्कोव मॉडल]] के लिए [[विटर्बी एल्गोरिदम]] जैसे एल्गोरिदम के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं <math>\mathbf{Z}</math>, हम मापदंडों का अनुमान पा सकते हैं <math>\boldsymbol\theta</math> काफी आसानी से, आम तौर पर देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फ़ंक्शन का औसत निकालकर। यह एक पुनरावृत्त एल्गोरिथ्म का सुझाव देता है, उस स्थिति में जब दोनों <math>\boldsymbol\theta</math> और <math>\mathbf{Z}</math> अज्ञात हैं:
प्रेरणा इस प्रकार है. यदि पैरामीटर का मान <math>\boldsymbol\theta</math> ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य <math>\mathbf{Z}</math> के सभी संभावित मानों पर log-संभाविता को अधिकतम करके पाया जा सकता है <math>\mathbf{Z}</math>, या तो बस बार-बार दोहराकर <math>\mathbf{Z}</math> या छिपे [[छिपा हुआ मार्कोव मॉडल]] के लिए [[विटर्बी एल्गोरिदम|विटर्बी कलन विधि]] जैसे कलन विधि के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं <math>\mathbf{Z}</math>, हम पैरामीटर का अनुमान पा सकते हैं <math>\boldsymbol\theta</math> काफी आसानी से, सामान्यतः देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फलन का औसत निकालकर। यह एक पुनरावृत्त कलन विधि का सुझाव देता है, उस स्थिति में जब दोनों <math>\boldsymbol\theta</math> और <math>\mathbf{Z}</math> अज्ञात हैं:
# सबसे पहले, पैरामीटर्स को इनिशियलाइज़ करें <math>\boldsymbol\theta</math> कुछ यादृच्छिक मूल्यों के लिए.
# सबसे पहले, पैरामीटर्स <math>\boldsymbol\theta</math> को इनिशियलाइज़ करें कुछ यादृच्छिक मूल्यों के लिए है।
# प्रत्येक संभावित मान की संभावना की गणना करें <math>\mathbf{Z}</math> , दिया गया <math>\boldsymbol\theta</math>.
# प्रत्येक संभावित मान <math>\mathbf{Z}</math> की संभाविता की गणना करें, <math>\boldsymbol\theta</math> दिया गया है।
# फिर, अभी-अभी गणना किए गए मानों का उपयोग करें <math>\mathbf{Z}</math> मापदंडों के लिए बेहतर अनुमान की गणना करना <math>\boldsymbol\theta</math>.
# फिर, अभी-अभी गणना किए गए मानों <math>\mathbf{Z}</math> का उपयोग करें पैरामीटर <math>\boldsymbol\theta</math> के लिए बेहतर अनुमान की गणना करना है।
# अभिसरण होने तक चरण 2 और 3 को दोहराएँ।
# अभिसरण होने तक चरण 2 और 3 को दोहराएँ।
जैसा कि अभी बताया गया है, एल्गोरिथ्म नीरस रूप से लागत फ़ंक्शन के स्थानीय न्यूनतम तक पहुंचता है।
जैसा कि अभी बताया गया है, कलन विधि नीरस रूप से लागत फलन के स्थानीय न्यूनतम तक पहुंचता है।


== गुण ==
== गुण ==
यद्यपि ईएम पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभावना फ़ंक्शन को बढ़ाती है, लेकिन कोई गारंटी नहीं है कि अनुक्रम [[अधिकतम संभावना अनुमानक]] में परिवर्तित हो जाता है। बिमोडल वितरण के लिए, इसका मतलब है कि एक ईएम एल्गोरिदम शुरुआती मूल्यों के आधार पर देखे गए डेटा संभावना फ़ंक्शन के [[स्थानीय अधिकतम]] में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या [[मेटाह्यूरिस्टिक]] दृष्टिकोण मौजूद हैं, जैसे यादृच्छिक-पुनः प्रारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों से शुरू) <math>\boldsymbol\theta^{(t)}</math>), या [[ तैयार किए हुयी धातु पे पानी चढाने की कला ]] विधियों को लागू करना।
हालाँकि एक EM पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभाविता फलन को बढ़ाती है, लेकिन कोई प्रत्याभूति नहीं है कि अनुक्रम [[अधिकतम संभावना अनुमानक|अधिकतम संभाविता अनुमानक]] में परिवर्तित हो जाता है। मल्टीमॉडल वितरण के लिए, इसका मतलब यह है कि एक EM कलन विधि प्रारंभिक मूल्यों के आधार पर, देखे गए डेटा संभाविता फलन के स्थानीय अधिकतम में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या [[मेटाह्यूरिस्टिक]] दृष्टिकोण उपस्थित हैं, जैसे कि यादृच्छिक-पुनरारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों <math>\boldsymbol\theta^{(t)}</math> से प्रारम्भ करना, या सिम्युलेटेड एनीलिंग विधियों को प्रयुक्त करना)।


ईएम विशेष रूप से तब उपयोगी होता है जब संभावना एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें:<ref>{{cite book |last1=Sundberg |first1=Rolf |title=घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग|date=2019 |publisher=Cambridge University Press |isbn=9781108701112}}</ref> चरण पर्याप्त आँकड़ों की अपेक्षाओं का योग बन जाता है, और एम चरण में एक रैखिक फ़ंक्शन को अधिकतम करना शामिल है। ऐसे मामले में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके, प्रत्येक चरण के लिए बंद-फ़ॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है<ref>{{cite web |last1=Laird |first1=Nan |title=सुंदरबर्ग सूत्र|url=https://doi.org/10.1002/0471667196.ess2643.pub2 |website=Wiley online library |publisher=Wiley |date=2006}}</ref> (रॉल्फ सुंदरबर्ग द्वारा प्रमाणित और प्रकाशित, पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर)।<ref name="Sundberg1971"/><ref name="Sundberg1976"/><ref name="Martin-Löf1966"/><ref name="Martin-Löf1970"/><ref name="Martin-Löf1974a"/><ref name="Martin-Löf1974b"/>
EM विशेष रूप से तब उपयोगी होता है जब संभाविता एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें:<ref>{{cite book |last1=Sundberg |first1=Rolf |title=घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग|date=2019 |publisher=Cambridge University Press |isbn=9781108701112}}</ref> E चरण पर्याप्त सांख्यिकी की अपेक्षाओं का योग बन जाता है, और M चरण में एक रैखिक फलन को अधिकतम करना सम्मिलित होता है . ऐसे स्थिति में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके प्रत्येक चरण के लिए बंद-फॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है<ref>{{cite web |last1=Laird |first1=Nan |title=सुंदरबर्ग सूत्र|url=https://doi.org/10.1002/0471667196.ess2643.pub2 |website=Wiley online library |publisher=Wiley |date=2006}}</ref> (प्रति मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर रॉल्फ सुंदरबर्ग द्वारा सिद्ध और प्रकाशित)।<ref name="Sundberg1971"/><ref name="Sundberg1976"/><ref name="Martin-Löf1966"/><ref name="Martin-Löf1970"/><ref name="Martin-Löf1974a"/><ref name="Martin-Löf1974b"/>


डेम्पस्टर, लेयर्ड और रुबिन द्वारा मूल पेपर में [[बायेसियन अनुमान]] के लिए अधिकतम पोस्टीरियरी (एमएपी) अनुमानों की गणना करने के लिए ईएम पद्धति को संशोधित किया गया था।
डेम्पस्टर, लैयर्ड और रुबिन द्वारा मूल पेपर में [[बायेसियन अनुमान]] के लिए अधिकतम पोस्टीरियरी (MAP) अनुमानों की गणना करने के लिए EM विधि को संशोधित किया गया था।


अधिकतम संभावना अनुमान खोजने के लिए अन्य विधियाँ मौजूद हैं, जैसे कि [[ ढतला हुआ वंश ]], [[संयुग्मी ढाल]], या गॉस-न्यूटन एल्गोरिदम के वेरिएंट। ईएम के विपरीत, ऐसे तरीकों के लिए आम तौर पर संभावना फ़ंक्शन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।
अधिकतम संभाविता का अनुमान लगाने के लिए अन्य विधियाँ उपस्थित हैं, जैसे कि ग्रेडिएंट डिसेंट, संयुग्म ग्रेडिएंट, या गॉस-न्यूटन कलन विधि के वेरिएंट। EM के विपरीत, ऐसे तरीकों को आमतौर पर संभाविता फलन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।


== शुद्धता का प्रमाण ==
== शुद्धता का प्रमाण ==
अपेक्षा-अधिकतमीकरण सुधार का कार्य करता है <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> सीधे सुधार करने के बजाय <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math>. यहां यह दिखाया गया है कि पूर्व में सुधार से बाद में सुधार होता है।<ref name="Little1987">{{cite book |last1=Little |first1= Roderick J.A. |last2= Rubin |first2= Donald B. |author2-link= Donald Rubin |title= गायब डेटा के साथ सांख्यिकीय विश्लेषण|url=https://archive.org/details/statisticalanaly00litt |url-access=limited | series = Wiley Series in Probability and Mathematical Statistics |year= 1987 |publisher= John Wiley & Sons |location= New York |isbn= 978-0-471-80254-9 |pages= [https://archive.org/details/statisticalanaly00litt/page/n145 134]–136}}</ref>
अपेक्षा-अधिकतमीकरण सीधे <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math> में श्रेष्ठतर करने के स्थान में <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> में श्रेष्ठतर करने के लिए काम करता है। यहां यह दिखाया गया है कि पहले में श्रेष्ठतर से बाद में श्रेष्ठतर होता है।<ref name="Little1987">{{cite book |last1=Little |first1= Roderick J.A. |last2= Rubin |first2= Donald B. |author2-link= Donald Rubin |title= गायब डेटा के साथ सांख्यिकीय विश्लेषण|url=https://archive.org/details/statisticalanaly00litt |url-access=limited | series = Wiley Series in Probability and Mathematical Statistics |year= 1987 |publisher= John Wiley & Sons |location= New York |isbn= 978-0-471-80254-9 |pages= [https://archive.org/details/statisticalanaly00litt/page/n145 134]–136}}</ref>
किसी के लिए <math>\mathbf{Z}</math> गैर-शून्य संभावना के साथ <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta)</math>, हम लिख सकते हैं
 
किसी के लिए <math>\mathbf{Z}</math> गैर-शून्य संभाविता के साथ <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta)</math>, हम लिख सकते हैं
: <math>
: <math>
\log p(\mathbf{X}\mid\boldsymbol\theta) = \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta).
\log p(\mathbf{X}\mid\boldsymbol\theta) = \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta).
</math>
</math>
हम अज्ञात डेटा के संभावित मूल्यों पर अपेक्षा रखते हैं <math>\mathbf{Z}</math> वर्तमान पैरामीटर अनुमान के तहत <math>\theta^{(t)}</math> दोनों पक्षों को गुणा करके <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)})</math> और सारांशित करना (या एकीकृत करना)। <math>\mathbf{Z}</math>. बाईं ओर एक स्थिरांक की अपेक्षा है, इसलिए हमें मिलता है:
हम अज्ञात डेटा के संभावित मूल्यों पर प्रत्याशा रखते हैं <math>\mathbf{Z}</math> वर्तमान पैरामीटर <math>\theta^{(t)}</math>अनुमान के तहत दोनों पक्षों को गुणा करके <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)})</math> और सारांशित करना (या एकीकृत करना)। <math>\mathbf{Z}</math>. बाईं ओर एक स्थिरांक की प्रत्याशा है, इसलिए हमें मिलता है:
: <math>
: <math>
\begin{align}
\begin{align}
Line 112: Line 96:
\end{align}
\end{align}
</math>
</math>
कहाँ <math>H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> इसे उस नकारात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है।
जहाँ <math>H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> इसे उस ऋणात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है।
यह अंतिम समीकरण प्रत्येक मान के लिए मान्य है <math>\boldsymbol\theta</math> शामिल <math>\boldsymbol\theta = \boldsymbol\theta^{(t)}</math>,
 
यह अंतिम समीकरण प्रत्येक मान <math>\boldsymbol\theta</math> सम्मिलित <math>\boldsymbol\theta = \boldsymbol\theta^{(t)}</math> के लिए मान्य है,
: <math>
: <math>
\log p(\mathbf{X}\mid\boldsymbol\theta^{(t)})
\log p(\mathbf{X}\mid\boldsymbol\theta^{(t)})
Line 129: Line 114:
\ge Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) - Q(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}).
\ge Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) - Q(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}).
</math>
</math>
शब्दों में, चुनना <math>\boldsymbol\theta</math> सुधार करने के लिए <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> कारण <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math> कम से कम इतना सुधार करने के लिए.
शब्दों में, <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> को सुधारने के लिए <math>\boldsymbol\theta</math> चुनने से <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math>में कम से कम उतना ही श्रेष्ठतर होता है।


== अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में ==
== अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में ==
ईएम एल्गोरिदम को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी [[समन्वय वंश]] के उदाहरण के रूप में।<ref name="neal1999">{{cite book|last1=Neal |first=Radford |last2=Hinton |first2=Geoffrey |author-link2=Geoffrey Hinton |title=ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को उचित ठहराता है|journal=Learning in Graphical Models |editor=Michael I. Jordan |editor-link=Michael I. Jordan |pages= 355–368 |publisher= MIT Press |location=Cambridge, MA |year=1999 |isbn=978-0-262-60032-3 |url=http://ftp.cs.toronto.edu/pub/radford/emk.pdf |access-date=2009-03-22}}</ref><ref name="hastie2001">{{cite book|last1=Hastie |first1= Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome |year=2001 |title=सांख्यिकीय सबक के तत्व|url=https://archive.org/details/elementsstatisti00thas_842 |url-access=limited |isbn=978-0-387-95284-0 |publisher=Springer |location=New York |chapter=8.5 The EM algorithm |pages=[https://archive.org/details/elementsstatisti00thas_842/page/n237 236]–243}}</ref> फ़ंक्शन पर विचार करें:
EM कलन विधि को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी [[समन्वय वंश|समन्वित अवतरण]] के उदाहरण के रूप में।<ref name="neal1999">{{cite book|last1=Neal |first=Radford |last2=Hinton |first2=Geoffrey |author-link2=Geoffrey Hinton |title=ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को उचित ठहराता है|journal=Learning in Graphical Models |editor=Michael I. Jordan |editor-link=Michael I. Jordan |pages= 355–368 |publisher= MIT Press |location=Cambridge, MA |year=1999 |isbn=978-0-262-60032-3 |url=http://ftp.cs.toronto.edu/pub/radford/emk.pdf |access-date=2009-03-22}}</ref><ref name="hastie2001">{{cite book|last1=Hastie |first1= Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome |year=2001 |title=सांख्यिकीय सबक के तत्व|url=https://archive.org/details/elementsstatisti00thas_842 |url-access=limited |isbn=978-0-387-95284-0 |publisher=Springer |location=New York |chapter=8.5 The EM algorithm |pages=[https://archive.org/details/elementsstatisti00thas_842/page/n237 236]–243}}</ref> फलन पर विचार करें:
:<math> F(q,\theta) := \operatorname{E}_q [ \log L (\theta ; x,Z) ] + H(q), </math> जहां q, न देखे गए डेटा z पर एक मनमाना संभाव्यता वितरण है और H(q) वितरण q की [[एन्ट्रॉपी (सूचना सिद्धांत)]] है। इस फ़ंक्शन को इस प्रकार लिखा जा सकता है
:<math> F(q,\theta) := \operatorname{E}_q [ \log L (\theta ; x,Z) ] + H(q), </math> जहां q, न देखे गए डेटा z पर एक यादृच्छिक संभाव्यता वितरण है और ''H(q)'' वितरण ''q'' की [[एन्ट्रॉपी (सूचना सिद्धांत)|एन्ट्रॉपी]] है। इस फलन को इस प्रकार लिखा जा सकता है
:<math> F(q,\theta) = -D_{\mathrm{KL}}\big(q \parallel p_{Z\mid X}(\cdot\mid x;\theta ) \big) + \log L(\theta;x), </math>
:<math> F(q,\theta) = -D_{\mathrm{KL}}\big(q \parallel p_{Z\mid X}(\cdot\mid x;\theta ) \big) + \log L(\theta;x), </math>
कहाँ  <math>p_{Z\mid X}(\cdot\mid x;\theta )</math> देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण है <math>x</math> और <math>D_{KL}</math> कुल्बैक-लीब्लर विचलन है।
जहाँ <math>p_{Z\mid X}(\cdot\mid x;\theta )</math> देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण <math>x</math> है और <math>D_{KL}</math> कुल्बैक-लीब्लर विचलन है।


फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:
फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:
:अपेक्षा चरण: चुनें <math>q</math> बढ़ाने के लिए <math>F</math>:
:प्रत्याशा चरण: चुनें <math>q</math> बढ़ाने के लिए <math>F</math>:
::<math> q^{(t)} = \operatorname{arg\,max}_q \ F(q,\theta^{(t)}) </math>
::<math> q^{(t)} = \operatorname{arg\,max}_q \ F(q,\theta^{(t)}) </math>
:अधिकतमीकरण चरण: चुनें <math>\theta</math> बढ़ाने के लिए <math>F</math>:
:''अधिकतमीकरण चरण'': अधिकतम <math>F</math> के लिए <math>\theta</math> चुनें:
::<math> \theta^{(t+1)} = \operatorname{arg\,max}_\theta \ F(q^{(t)},\theta) </math>
::<math> \theta^{(t+1)} = \operatorname{arg\,max}_\theta \ F(q^{(t)},\theta) </math>
== अनुप्रयोग ==
== अनुप्रयोग ==
[[मिश्रित मॉडल]]ों के पैरामीटर आकलन के लिए अक्सर EM का उपयोग किया जाता है,<ref>{{cite journal |doi=10.1080/01621459.1988.10478693 |title=Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data |journal=Journal of the American Statistical Association |volume=83 |issue=404 |pages=1014 |year=1988 |last1=Lindstrom |first1=Mary J |last2=Bates |first2=Douglas M }}</ref><ref>{{cite journal |doi=10.2307/1390614 |jstor=1390614 |title=कुशल ईएम-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल फिट करना|journal=Journal of Computational and Graphical Statistics |volume=9 |issue=1 |pages=78–98 |year=2000 |last1=Van Dyk |first1=David A }}</ref> विशेष रूप से [[मात्रात्मक आनुवंशिकी]] में।<ref>{{cite journal |doi=10.1111/anzs.12208 |title=रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम|journal=Australian & New Zealand Journal of Statistics |volume=59 |issue=4 |pages=433 |year=2017 |last1=Diffey |first1=S. M |last2=Smith |first2=A. B |last3=Welsh |first3=A. H |last4=Cullis |first4=B. R |doi-access=free }}</ref>
EM का प्रयोग प्रायः मिश्रित मॉडलों के पैरामीटर आकलन के लिए किया जाता है,<ref>{{cite journal |doi=10.1080/01621459.1988.10478693 |title=Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data |journal=Journal of the American Statistical Association |volume=83 |issue=404 |pages=1014 |year=1988 |last1=Lindstrom |first1=Mary J |last2=Bates |first2=Douglas M }}</ref><ref>{{cite journal |doi=10.2307/1390614 |jstor=1390614 |title=कुशल ईएम-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल फिट करना|journal=Journal of Computational and Graphical Statistics |volume=9 |issue=1 |pages=78–98 |year=2000 |last1=Van Dyk |first1=David A }}</ref> विशेष रूप से [[मात्रात्मक आनुवंशिकी]] में।<ref>{{cite journal |doi=10.1111/anzs.12208 |title=रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम|journal=Australian & New Zealand Journal of Statistics |volume=59 |issue=4 |pages=433 |year=2017 |last1=Diffey |first1=S. M |last2=Smith |first2=A. B |last3=Welsh |first3=A. H |last4=Cullis |first4=B. R |doi-access=free }}</ref>  
[[साइकोमेट्रिक्स]] में, ईएम आइटम मापदंडों और [[आइटम प्रतिक्रिया सिद्धांत]] मॉडल की अव्यक्त क्षमताओं का अनुमान लगाने के लिए एक महत्वपूर्ण उपकरण है।


गुम डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, ईएम पोर्टफोलियो की कीमत और जोखिम प्रबंधन के लिए एक उपयोगी उपकरण बन रहा है।{{Citation needed|date=November 2017}}
[[साइकोमेट्रिक्स]] में, [[आइटम प्रतिक्रिया सिद्धांत|विषय प्रतिक्रिया सिद्धांत]] मॉडल के विषय मापदंडों और अव्यक्त क्षमताओं का आकलन करने के लिए EM एक महत्वपूर्ण उपकरण है।


ईएम एल्गोरिथ्म (और इसके तेज़ संस्करण [[आदेशित उपसमुच्चय अपेक्षा अधिकतमीकरण]] का आदेश दिया) का व्यापक रूप से चिकित्सा इमेजिंग पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से [[पोजीट्रान एमिशन टोमोग्राफी]], एकल-फोटॉन उत्सर्जन [[ परिकलित टोमोग्राफी ]] और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें।
लापता डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, EM एक पोर्टफोलियो के मूल्य निर्धारण और जोखिम का प्रबंधन करने के लिए एक उपयोगी उपकरण बन रहा है।


संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) का उपयोग करके संरचनात्मक पहचान<ref>Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951</ref> एल्गोरिदम सेंसर डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है ([[ऑपरेशनल मॉडल विश्लेषण]] देखें)।
EM कलन विधि (और इसके तेज़ वेरिएंट ऑर्डर किए गए उपसमुच्चय अपेक्षा अधिकतमकरण) का व्यापक रूप से चिकित्सा छवि पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पॉज़िट्रॉन उत्सर्जन टोमोग्राफी, एकल-फोटॉन उत्सर्जन कंप्यूटेड टोमोग्राफी और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें।


EM का उपयोग [[डेटा क्लस्टरिंग]] के लिए भी किया जाता है। [[प्राकृतिक भाषा प्रसंस्करण]] में, एल्गोरिदम के दो प्रमुख उदाहरण [[छिपे हुए मार्कोव मॉडल]] के लिए बॉम-वेल्च एल्गोरिदम हैं, और [[संभाव्य संदर्भ-मुक्त व्याकरण]] के अप्रशिक्षित प्रेरण के लिए अंदर-बाहर एल्गोरिदम हैं।
संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) <ref>Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951</ref> कलन विधि का उपयोग करके स्ट्रक्चरल आइडेंटिफिकेशन, नियंत्रक डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है (ऑपरेशनल मोडल विश्लेषण देखें)।


इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी [[ शेयर बाजार ]] में [[शेयर (वित्त)]] में बाद के ट्रेडों के बीच का समय, ईएम एल्गोरिदम बहुत उपयोगी साबित हुआ है।<ref>{{Cite journal|last1=Kreer|first1=Markus|last2=Kizilersu|first2=Ayse|last3=Thomas|first3=Anthony W.|date=2022|title=Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times|journal=Physica A: Statistical Mechanics and its Applications|volume=587|issue=1|pages=126456|doi=10.1016/j.physa.2021.126456|issn=0378-4371|url=https://www.sciencedirect.com/science/article/pii/S0378437121007299}}</ref>
EM का उपयोग [[डेटा क्लस्टरिंग]] के लिए भी किया जाता है। [[प्राकृतिक भाषा प्रसंस्करण]] में, कलन विधि के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च कलन विधि हैं, और संभाव्य संदर्भ-मुक्त व्याकरणों के अनियंत्रित प्रेरण के लिए अंदर-बाहर कलन विधि हैं।


इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी स्टॉक एक्सचेंज में स्टॉक के शेयरों में बाद के ट्रेडों के बीच का समय, EM कलन विधि बहुत उपयोगी साबित हुआ है।<ref>{{Cite journal|last1=Kreer|first1=Markus|last2=Kizilersu|first2=Ayse|last3=Thomas|first3=Anthony W.|date=2022|title=Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times|journal=Physica A: Statistical Mechanics and its Applications|volume=587|issue=1|pages=126456|doi=10.1016/j.physa.2021.126456|issn=0378-4371|url=https://www.sciencedirect.com/science/article/pii/S0378437121007299}}</ref>


== ईएम एल्गोरिदम को फ़िल्टर करना और चिकना करना ==
== EM कलन विधि को फ़िल्टर करना और स्मूथ करना ==
एक [[कलमन फ़िल्टर]] का उपयोग आम तौर पर ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल मापदंडों के अनुमान की आवश्यकता होती है। ईएम एल्गोरिदम का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है।
एक [[कलमन फ़िल्टर]] का उपयोग सामान्यतः ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल पैरामीटर के अनुमान की आवश्यकता होती है। EM कलन विधि का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है।


इस दो-चरणीय प्रक्रिया को दोहराकर ईएम एल्गोरिदम को फ़िल्टर करना और चिकना करना उत्पन्न होता है:
इस दो-चरणीय प्रक्रिया को दोहराकर EM कलन विधि को फ़िल्टर करना और स्मूथ करना उत्पन्न होता है:


;-कदम
;E-चरण
: अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें।
: अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें।


;एम-स्टेप
;M-चरण
: अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभावना गणना के भीतर फ़िल्टर किए गए या सुचारू राज्य अनुमानों का उपयोग करें।
: अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभाविता गणना के भीतर फ़िल्टर किए गए या स्मूथ स्टेट अनुमानों का उपयोग करें।


मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें एडिटिव व्हाइट शोर होता है। अधिकतम संभावना गणना से एक अद्यतन माप शोर विचरण अनुमान प्राप्त किया जा सकता है
मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें योगात्मक श्वेत रव होता है। अधिकतम संभाविता गणना से एक अद्यतन माप रव विचरण अनुमान प्राप्त किया जा सकता है
: <math>\widehat{\sigma}^2_v = \frac{1}{N} \sum_{k=1}^N {(z_k-\widehat{x}_k)}^2,</math>
: <math>\widehat{\sigma}^2_v = \frac{1}{N} \sum_{k=1}^N {(z_k-\widehat{x}_k)}^2,</math>
कहाँ <math>\widehat{x}_k</math> स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ द्वारा गणना किए जाते हैं <math>z_k</math>. उपरोक्त अद्यतन को पॉइसन माप शोर तीव्रता को अद्यतन करने के लिए भी लागू किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया शोर विचरण अनुमान की गणना की जा सकती है
जहाँ <math>\widehat{x}_k</math> स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ <math>z_k</math> द्वारा गणना किए जाते हैं उपरोक्त अद्यतन को पॉइसन माप रव तीव्रता को अद्यतन करने के लिए भी प्रयुक्त किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया रव विचरण अनुमान की गणना की जा सकती है
: <math>\widehat{\sigma}^2_w =  \frac{1}{N} \sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F}\widehat{{x}}_k)}^2,</math>
: <math>\widehat{\sigma}^2_w =  \frac{1}{N} \sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F}\widehat{{x}}_k)}^2,</math>
कहाँ <math>\widehat{x}_k</math> और <math>\widehat{x}_{k+1}</math> स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है
जहाँ <math>\widehat{x}_k</math> और <math>\widehat{x}_{k+1}</math> स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है
: <math>\widehat{F} = \frac{\sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F} \widehat{x}_k)}^2}{\sum_{k=1}^N \widehat{x}_k^2}.</math>
: <math>\widehat{F} = \frac{\sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F} \widehat{x}_k)}^2}{\sum_{k=1}^N \widehat{x}_k^2}.</math>
उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।<ref>{{Cite journal
उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।<ref>{{Cite journal
Line 240: Line 223:
|s2cid = 32667132
|s2cid = 32667132
}}</ref>
}}</ref>
== वेरिएंट ==
EM कलन विधि के कभी-कभी धीमे अभिसरण में तेजी लाने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना।<ref>{{cite journal |first1= Mortaza |last1=Jamshidian |first2=Robert I. |last2=Jennrich|title=अर्ध-न्यूटन विधियों का उपयोग करके ईएम एल्गोरिदम का त्वरण|year=1997 |journal=[[Journal of the Royal Statistical Society, Series B]] |volume=59 |issue=2 |pages=569–587 |doi=10.1111/1467-9868.00083 |mr=1452026 |s2cid=121966443 }}</ref> इसके अलावा, EM का उपयोग विवश आकलन विधियों के साथ किया जा सकता है।


''पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण'' ''(PX-EM)'' कलन विधि प्रायः M चरण के विश्लेषण को सही करने के लिए "us[ing] एक 'सहप्रसरण समायोजन' द्वारा गति प्रदान करता है, जो कि आरोपित संपूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है"।<ref>{{cite journal |doi=10.1093/biomet/85.4.755 |title=Parameter expansion to accelerate EM: The PX-EM algorithm |journal=Biometrika |volume=85 |issue=4 |pages=755–770 |year=1998 |last1=Liu |first1=C |citeseerx=10.1.1.134.9617 }}</ref>


== वेरिएंट ==
''प्रत्याशा सशर्त अधिकतमीकरण (ECM)'' प्रत्येक M चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θi को व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से शेष अन्य मापदंडों पर।<ref>{{cite journal |doi= 10.1093/biomet/81.4.633|jstor=2337067 |title=The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence |journal=Biometrika |volume=81 |issue=4 |pages=633 |year=1994 |last1=Liu |first1=Chuanhai |last2=Rubin |first2=Donald B }}</ref> स्वयं को ''एक्सपेक्टेशन कंडीशनल मैक्सिमाइज़ेशन (ECME)'' कलन विधि में बढ़ाया जा सकता है।<ref>{{cite journal|last1=Meng  |first1= Xiao-Li |last2=Rubin |first2=Donald B. |s2cid= 40571416 |author-link2=Donald Rubin |title=Maximum likelihood estimation via the ECM algorithm: A general framework |year=1993 |journal=[[Biometrika]] |volume=80 |issue=2 |pages=267–278 |doi=10.1093/biomet/80.2.267 |mr=1243503}}</ref>
ईएम एल्गोरिथ्म के कभी-कभी धीमे अभिसरण को तेज करने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना।<ref>{{cite journal |first1= Mortaza |last1=Jamshidian |first2=Robert I. |last2=Jennrich|title=अर्ध-न्यूटन विधियों का उपयोग करके ईएम एल्गोरिदम का त्वरण|year=1997 |journal=[[Journal of the Royal Statistical Society, Series B]] |volume=59 |issue=2 |pages=569–587 |doi=10.1111/1467-9868.00083 |mr=1452026 |s2cid=121966443 }}</ref> इसके अलावा, ईएम का उपयोग प्रतिबंधित अनुमान विधियों के साथ किया जा सकता है।


पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण (पीएक्स-ईएम) एल्गोरिथ्म अक्सर हमारे द्वारा एम चरण के विश्लेषण को सही करने के लिए 'सहप्रसरण समायोजन' की गति प्रदान करता है, जो कि आरोपित पूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है।<ref>{{cite journal |doi=10.1093/biomet/85.4.755 |title=Parameter expansion to accelerate EM: The PX-EM algorithm |journal=Biometrika |volume=85 |issue=4 |pages=755–770 |year=1998 |last1=Liu |first1=C |citeseerx=10.1.1.134.9617 }}</ref>
इस विचार को ''सामान्यीकृत अपेक्षा अधिकतमीकरण (GEM)'' कलन विधि में आगे बढ़ाया गया है, जिसमें ई चरण और M चरण दोनों के लिए उद्देश्य फलन एफ में केवल वृद्धि की मांग की गई है, जैसा कि अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग में वर्णित है।<ref name="neal1999" /> GEM को एक वितरित वातावरण में आगे विकसित किया गया है और आशाजनक परिणाम दिखाता है।<ref>
अपेक्षा सशर्त अधिकतमीकरण (ईसीएम) प्रत्येक एम चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θ<sub>''i''</sub> व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से अन्य मापदंडों पर तय किया जाता है।<ref>{{cite journal|last1=Meng  |first1= Xiao-Li |last2=Rubin |first2=Donald B. |s2cid= 40571416 |author-link2=Donald Rubin |title=Maximum likelihood estimation via the ECM algorithm: A general framework |year=1993 |journal=[[Biometrika]] |volume=80 |issue=2 |pages=267–278 |doi=10.1093/biomet/80.2.267 |mr=1243503}}</ref> स्वयं को एक्सपेक्टेशन कंडीशनल मैक्सिमाइजेशन (ईसीएमई) एल्गोरिथम में विस्तारित किया जा सकता है।<ref>{{cite journal |doi= 10.1093/biomet/81.4.633|jstor=2337067 |title=The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence |journal=Biometrika |volume=81 |issue=4 |pages=633 |year=1994 |last1=Liu |first1=Chuanhai |last2=Rubin |first2=Donald B }}</ref>
इस विचार को सामान्यीकृत अपेक्षा अधिकतमीकरण (जीईएम) एल्गोरिदम में आगे बढ़ाया गया है, जिसमें ई चरण और एम चरण दोनों के लिए उद्देश्य फ़ंक्शन एफ में केवल वृद्धि की मांग की गई है जैसा कि #अधिकतमकरण-अधिकतमकरण प्रक्रिया के रूप में|अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग के रूप में वर्णित है।<ref name="neal1999"/>GEM को एक वितरित वातावरण में विकसित किया गया है और आशाजनक परिणाम दिखाता है।<ref>
{{cite journal
{{cite journal
  |author1=Jiangtao Yin |author2=Yanfeng Zhang |author3=Lixin Gao |title=Accelerating Expectation–Maximization Algorithms with Frequent Updates
  |author1=Jiangtao Yin |author2=Yanfeng Zhang |author3=Lixin Gao |title=Accelerating Expectation–Maximization Algorithms with Frequent Updates
Line 255: Line 238:
}}
}}
</ref>
</ref>
[[एमएम एल्गोरिथ्म]] को एमएम एल्गोरिथम (संदर्भ के आधार पर मेजराइज़/मिनिमाइज़ या माइनराइज़/मैक्सिमाइज़) एल्गोरिथम के उपवर्ग के रूप में विचार करना भी संभव है,<ref>Hunter DR and Lange K (2004), [http://www.stat.psu.edu/~dhunter/papers/mmtutorial.pdf A Tutorial on MM Algorithms], The American Statistician, 58: 30–37</ref> और इसलिए अधिक सामान्य मामले में विकसित किसी भी मशीनरी का उपयोग करें।


=== α-EM एल्गोरिथ्म ===
EM कलन विधि को एमएम (संदर्भ के आधार पर मेजराइज/मिनिमाइज या माइनराइज/मैक्सिमाइज) कलन विधि के उपवर्ग के रूप में मानना भी संभव है, <ref>Hunter DR and Lange K (2004), [http://www.stat.psu.edu/~dhunter/papers/mmtutorial.pdf A Tutorial on MM Algorithms], The American Statistician, 58: 30–37</ref>और इसलिए अधिक सामान्य स्थिति में विकसित किसी भी मशीनरी का उपयोग करें।
ईएम एल्गोरिदम में प्रयुक्त क्यू-फ़ंक्शन लॉग संभावना पर आधारित है। इसलिए, इसे लॉग-ईएम एल्गोरिदम माना जाता है। लॉग संभावना के उपयोग को α-लॉग संभावना अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-लॉग संभावना अनुपात को α-लॉग संभावना अनुपात और α-विचलन के क्यू-फ़ंक्शन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस क्यू-फ़ंक्शन को प्राप्त करना एक सामान्यीकृत चरण है। इसका अधिकतमीकरण एक सामान्यीकृत एम चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है<ref>
 
=== α-EM कलन विधि ===
EM कलन विधि में प्रयुक्त Q-फलन log संभाविता पर आधारित है। इसलिए, इसे log-EM कलन विधि माना जाता है। log संभाविता के उपयोग को α-log संभाविता अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-log संभाविता अनुपात को α-log संभाविता अनुपात और α-विचलन के Q-फलन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस Q-फलन को प्राप्त करना एक सामान्यीकृत E चरण है। इसका अधिकतमीकरण एक सामान्यीकृत M चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है<ref>
{{cite journal
{{cite journal
|last=Matsuyama |first=Yasuo
|last=Matsuyama |first=Yasuo
Line 266: Line 250:
|doi=10.1109/TIT.2002.808105
|doi=10.1109/TIT.2002.808105
}}
}}
</ref>
</ref> जिसमें इसके उपवर्ग के रूप में log-EM कलन विधि सम्मिलित है। इस प्रकार, [[यासुओ मात्सुयामा]] द्वारा α-EM कलन विधि log-EM कलन विधि का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर log-EM कलन विधि की तुलना में तेज़ अभिसरण दिखाता है। α-EM कलन विधि हिडन मार्कोव मॉडल आकलन कलन विधि α-HMM के तेज़ संस्करण की ओर ले जाता है।<ref>
जिसमें इसके उपवर्ग के रूप में लॉग-ईएम एल्गोरिदम शामिल है। इस प्रकार, [[यासुओ मात्सुयामा]] द्वारा α-EM एल्गोरिथ्म लॉग-ईएम एल्गोरिथ्म का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर लॉग-EM एल्गोरिदम की तुलना में तेज़ अभिसरण दिखाता है। α-EM एल्गोरिदम हिडन मार्कोव मॉडल आकलन एल्गोरिदम α-HMM के तेज़ संस्करण की ओर ले जाता है।
<ref>
{{cite journal
{{cite journal
|last=Matsuyama |first=Yasuo
|last=Matsuyama |first=Yasuo
Line 276: Line 258:
}}
}}
</ref>
</ref>
== परिवर्तनशील बेयस विधियों से संबंध ==
== परिवर्तनशील बेयस विधियों से संबंध ==
ईएम आंशिक रूप से गैर-बायेसियन, अधिकतम संभावना विधि है। इसका अंतिम परिणाम θ के लिए एक बिंदु अनुमान (या तो [[अधिकतम संभावना अनुमान]] या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो θ और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, और एम चरणों के बीच का अंतर गायब हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित Q सन्निकटन ([[वैरिएबल बेयस]]) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब θ सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति k चरणों की आवश्यकता है, जहाँ k अव्यक्त चर की संख्या है। [[चित्रमय मॉडल]] के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया क्यू केवल उसके [[मार्कोव कंबल]] पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।
EM आंशिक रूप से गैर-बायेसियन, अधिकतम संभाविता विधि है। इसका अंतिम परिणाम ''θ'' के लिए एक बिंदु अनुमान (या तो [[अधिकतम संभावना अनुमान|अधिकतम संभाविता अनुमान]] या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो ''θ'' और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, ''E'' और ''M'' चरणों के बीच का अंतर लुप्त हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित ''Q'' सन्निकटन ([[वैरिएबल बेयस]]) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब ''θ'' सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति ''k'' चरणों की आवश्यकता है, जहाँ ''k'' अव्यक्त चर की संख्या है। [[चित्रमय मॉडल]] के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया ''Q'' केवल उसके [[मार्कोव कंबल|मार्कोव ब्लैंकेट]] पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।


==ज्यामितीय व्याख्या==
==ज्यामितीय व्याख्या==
{{Further|Information geometry}}
{{Further|सूचना ज्यामिति}}
[[सूचना ज्यामिति]] में, चरण और एम चरण की व्याख्या दोहरे [[एफ़िन कनेक्शन]] के तहत प्रक्षेपण के रूप में की जाती है, जिसे -कनेक्शन और एम-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।
[[सूचना ज्यामिति]] में, E चरण और M चरण की व्याख्या दोहरे [[एफ़िन कनेक्शन]] के तहत प्रक्षेपण के रूप में की जाती है, जिसे E-कनेक्शन और M-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।


== उदाहरण ==
== उदाहरण ==


=== गाऊसी मिश्रण === <!--This section is linked from [[Matrix calculus]] -->
=== गाऊसी मिश्रण === <!--This section is linked from [[Matrix calculus]] -->
[[File:ClusterAnalysis_Mouse.svg|thumb|400px|इंडेक्स-स्ट्रक्चर्स द्वारा समर्थित केडीडी-अनुप्रयोगों के विकास के लिए पर्यावरण के साथ देखे गए कृत्रिम डेटा पर [[ K- का अर्थ है क्लस्टरिंग ]]|के-मीन्स और ईएम की तुलना। भिन्नताओं का उपयोग करते हुए, ईएम एल्गोरिदम सामान्य वितरण का सटीक वर्णन कर सकता है, जबकि के-साधन [[वोरोनोई आरेख]]-कोशिकाओं में डेटा को विभाजित करता है। क्लस्टर केंद्र को हल्के, बड़े प्रतीक द्वारा दर्शाया गया है।]]
[[File:ClusterAnalysis_Mouse.svg|thumb|400px|के-मीन्स और EM की तुलना। भिन्नताओं का उपयोग करते हुए, EM कलन विधि सामान्य वितरण का सटीक वर्णन कर सकता है, जबकि के-साधन [[वोरोनोई आरेख]]-कोशिकाओं में डेटा को विभाजित करता है। क्लस्टर केंद्र को हल्के, बड़े प्रतीक द्वारा दर्शाया गया है।]]


[[File:Em old faithful.gif|thumb|240px|पुराने फेथफुल डेटासेट में दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले ईएम एल्गोरिदम को प्रदर्शित करने वाला एक एनीमेशन। एल्गोरिथ्म यादृच्छिक आरंभीकरण से अभिसरण की ओर बढ़ता है।]]होने देना <math>\mathbf{x} = (\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n)</math> का एक नमूना हो <math>n</math> आयाम के दो [[बहुभिन्नरूपी सामान्य वितरण]]ों के मिश्रण मॉडल से स्वतंत्र अवलोकन <math>d</math>, और जाने <math>\mathbf{z} = (z_1,z_2,\ldots,z_n)</math> वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।<ref name="hastie2001"/>: <math>X_i \mid(Z_i = 1) \sim \mathcal{N}_d(\boldsymbol{\mu}_1,\Sigma_1)</math> और <math>X_i \mid(Z_i = 2) \sim \mathcal{N}_d(\boldsymbol{\mu}_2,\Sigma_2),</math>
[[File:Em old faithful.gif|thumb|240px|पुराने फेथफुल डेटासेट में दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले EM कलन विधि को प्रदर्शित करने वाला एक एनीमेशन। कलन विधि यादृच्छिक आरंभीकरण से अभिसरण की ओर बढ़ता है।]]मान लीजिये <math>\mathbf{x} = (\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n)</math> का एक नमूना <math>n</math> हो आयाम के दो [[बहुभिन्नरूपी सामान्य वितरण]] के मिश्रण मॉडल से स्वतंत्र अवलोकन <math>d</math>, और <math>\mathbf{z} = (z_1,z_2,\ldots,z_n)</math>जाने वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।<ref name="hastie2001"/>:
कहाँ
 
<math>X_i \mid(Z_i = 1) \sim \mathcal{N}_d(\boldsymbol{\mu}_1,\Sigma_1)</math> और <math>X_i \mid(Z_i = 2) \sim \mathcal{N}_d(\boldsymbol{\mu}_2,\Sigma_2),</math>
 
जहाँ
: <math>\operatorname{P} (Z_i = 1 ) = \tau_1 \, </math> और <math>\operatorname{P} (Z_i=2) = \tau_2 = 1-\tau_1.</math>
: <math>\operatorname{P} (Z_i = 1 ) = \tau_1 \, </math> और <math>\operatorname{P} (Z_i=2) = \tau_2 = 1-\tau_1.</math>
इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात मापदंडों का अनुमान लगाना है:
इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात पैरामीटर का अनुमान लगाना है:
: <math>\theta = \big( \boldsymbol{\tau},\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\Sigma_1,\Sigma_2 \big),</math>
: <math>\theta = \big( \boldsymbol{\tau},\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\Sigma_1,\Sigma_2 \big),</math>
जहां अपूर्ण-डेटा संभावना फ़ंक्शन है
जहां अपूर्ण-डेटा संभाविता फलन है
: <math>L(\theta;\mathbf{x}) =  \prod_{i=1}^n \sum_{j=1}^2 \tau_j \ f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j),</math>
: <math>L(\theta;\mathbf{x}) =  \prod_{i=1}^n \sum_{j=1}^2 \tau_j \ f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j),</math>
और पूर्ण-डेटा संभावना फ़ंक्शन है
और पूर्ण-डेटा संभाविता फलन है
: <math>L(\theta;\mathbf{x},\mathbf{z}) = p(\mathbf{x},\mathbf{z} \mid \theta) = \prod_{i=1}^n  \prod_{j=1}^2  \ [f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j) \tau_j] ^{\mathbb{I}(z_i=j)},</math>
: <math>L(\theta;\mathbf{x},\mathbf{z}) = p(\mathbf{x},\mathbf{z} \mid \theta) = \prod_{i=1}^n  \prod_{j=1}^2  \ [f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j) \tau_j] ^{\mathbb{I}(z_i=j)},</math>
या
या


: <math>L(\theta;\mathbf{x},\mathbf{z}) = \exp \left\{ \sum_{i=1}^n \sum_{j=1}^2 \mathbb{I}(z_i=j) \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big] \right\},</math>
: <math>L(\theta;\mathbf{x},\mathbf{z}) = \exp \left\{ \sum_{i=1}^n \sum_{j=1}^2 \mathbb{I}(z_i=j) \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big] \right\},</math>
कहाँ <math>\mathbb{I}</math> एक [[सूचक कार्य]] है और <math>f</math> बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है।
जहाँ <math>\mathbb{I}</math> एक [[सूचक कार्य]] है और <math>f</math> बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है।


अंतिम समानता में, प्रत्येक के लिए {{math|''i''}}, एक सूचक <math>\mathbb{I}(z_i=j)</math> शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है।
अंतिम समानता में, प्रत्येक के लिए {{math|''i''}}, एक सूचक <math>\mathbb{I}(z_i=j)</math> शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है।


==== चरण ====
==== E चरण ====
पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ<sup>(t)</sup>, Z का सशर्त वितरण<sub>''i''</sub> [[बेयस प्रमेय]] द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फ़ंक्शन की आनुपातिक ऊंचाई निर्धारित की जाती है:
पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ<sup>(t)</sup>, Z का सशर्त वितरण<sub>''i''</sub> [[बेयस प्रमेय]] द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फलन की आनुपातिक ऊंचाई निर्धारित की जाती है:
: <math>T_{j,i}^{(t)} := \operatorname{P}(Z_i=j \mid X_i=\mathbf{x}_i ;\theta^{(t)}) = \frac{\tau_j^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_j^{(t)},\Sigma_j^{(t)})}{\tau_1^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_1^{(t)},\Sigma_1^{(t)}) + \tau_2^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_2^{(t)},\Sigma_2^{(t)})}.</math>
: <math>T_{j,i}^{(t)} := \operatorname{P}(Z_i=j \mid X_i=\mathbf{x}_i ;\theta^{(t)}) = \frac{\tau_j^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_j^{(t)},\Sigma_j^{(t)})}{\tau_1^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_1^{(t)},\Sigma_1^{(t)}) + \tau_2^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_2^{(t)},\Sigma_2^{(t)})}.</math>
इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें आम तौर पर ई चरण का आउटपुट माना जाता है (हालांकि यह नीचे का क्यू फ़ंक्शन नहीं है)।
इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें सामान्यतः E चरण का आउटपुट माना जाता है (हालांकि यह नीचे का Q फलन नहीं है)।


यह E चरण Q के लिए इस फ़ंक्शन को सेट करने से मेल खाता है:
यह E चरण Q के लिए इस फलन को समुच्चय करने से मेल खाता है:
: <math>\begin{align}Q(\theta\mid\theta^{(t)})
: <math>\begin{align}Q(\theta\mid\theta^{(t)})
&= \operatorname{E}_{\mathbf{Z}\mid\mathbf{X}=\mathbf{x};\mathbf{\theta}^{(t)}} [\log L(\theta;\mathbf{x},\mathbf{Z}) ] \\
&= \operatorname{E}_{\mathbf{Z}\mid\mathbf{X}=\mathbf{x};\mathbf{\theta}^{(t)}} [\log L(\theta;\mathbf{x},\mathbf{Z}) ] \\
Line 320: Line 303:
&= \sum_{i=1}^n \sum_{j=1}^2 T_{j,i}^{(t)} \big[ \log \tau_j  -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big].
&= \sum_{i=1}^n \sum_{j=1}^2 T_{j,i}^{(t)} \big[ \log \tau_j  -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big].
\end{align}</math>
\end{align}</math>
की अपेक्षा <math>\log L(\theta;\mathbf{x}_i,Z_i)</math> योग के अंदर संभाव्यता घनत्व फ़ंक्शन के संबंध में लिया जाता है <math>P(Z_i \mid X_i = \mathbf{x}_i; \theta^{(t)})</math>, जो प्रत्येक के लिए भिन्न हो सकता है <math>\mathbf{x}_i</math> प्रशिक्षण सेट का. चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है सिवाय इसके <math>T_{j,i}</math>, जिसकी गणना चरण अनुभाग की शुरुआत में समीकरण के अनुसार की जाती है।
की प्रत्याशा <math>\log L(\theta;\mathbf{x}_i,Z_i)</math> योग के अंदर संभाव्यता घनत्व फलन के संबंध में लिया जाता है <math>P(Z_i \mid X_i = \mathbf{x}_i; \theta^{(t)})</math>, जो प्रत्येक के लिए भिन्न हो सकता है <math>\mathbf{x}_i</math> प्रशिक्षण समुच्चय का. E चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है अतिरिक्त इसके <math>T_{j,i}</math>, जिसकी गणना E चरण अनुभाग की प्रारम्भ में समीकरण के अनुसार की जाती है।


इस पूर्ण सशर्त अपेक्षा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है।
इस पूर्ण सशर्त प्रत्याशा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है।


==== एम चरण ====
==== M चरण ====
Q(θ | θ<sup>(टी)</sup>) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, τ, ('μ'<sub>1</sub>,एस<sub>1</sub>) और (μ<sub>2</sub>,एस<sub>2</sub>) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।
''Q''(''θ'' | ''θ''<sup>(''t'')</sup>) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, ''τ'', ('''''<sub>1</sub>,''Σ''<sub>1</sub>) और ('''μ'''<sub>2</sub>,''Σ''<sub>2</sub>) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।


आरंभ करने के लिए, τ पर विचार करें, जिसमें बाधा τ है<sub>1</sub> + टी<sub>2</sub>=1:
आरंभ करने के लिए, τ पर विचार करें, जिसमें बाध्यता ''τ''<sub>1</sub> + ''τ''<sub>2</sub>=1 है:
: <math>\begin{align}\boldsymbol{\tau}^{(t+1)}
: <math>\begin{align}\boldsymbol{\tau}^{(t+1)}
&= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}}\  Q(\theta \mid \theta^{(t)} ) \\
&= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}}\  Q(\theta \mid \theta^{(t)} ) \\
&= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}} \ \left\{ \left[  \sum_{i=1}^n T_{1,i}^{(t)} \right] \log \tau_1 + \left[  \sum_{i=1}^n T_{2,i}^{(t)} \right] \log \tau_2  \right\}.
&= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}} \ \left\{ \left[  \sum_{i=1}^n T_{1,i}^{(t)} \right] \log \tau_1 + \left[  \sum_{i=1}^n T_{2,i}^{(t)} \right] \log \tau_2  \right\}.
\end{align}</math>
\end{align}</math>
इसका रूप [[द्विपद वितरण]] के लिए एमएलई के समान है
इसका रूप [[द्विपद वितरण]] के लिए MLE के समान है
: <math>\tau^{(t+1)}_j = \frac{\sum_{i=1}^n T_{j,i}^{(t)}}{\sum_{i=1}^n (T_{1,i}^{(t)} + T_{2,i}^{(t)} ) } = \frac{1}{n} \sum_{i=1}^n T_{j,i}^{(t)}.</math>
: <math>\tau^{(t+1)}_j = \frac{\sum_{i=1}^n T_{j,i}^{(t)}}{\sum_{i=1}^n (T_{1,i}^{(t)} + T_{2,i}^{(t)} ) } = \frac{1}{n} \sum_{i=1}^n T_{j,i}^{(t)}.</math>
(μ) के अगले अनुमानों के लिए<sub>1</sub>,एस<sub>1</sub>):
(μ) के अगले अनुमानों के लिए ('''μ'''<sub>1</sub>,Σ<sub>1</sub>):
: <math>\begin{align}(\boldsymbol{\mu}_1^{(t+1)},\Sigma_1^{(t+1)})
: <math>\begin{align}(\boldsymbol{\mu}_1^{(t+1)},\Sigma_1^{(t+1)})
&= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ Q(\theta \mid \theta^{(t)} ) \\
&= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ Q(\theta \mid \theta^{(t)} ) \\
&= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ \sum_{i=1}^n T_{1,i}^{(t)} \left\{ -\tfrac{1}{2} \log |\Sigma_1| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_1)^\top\Sigma_1^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_1) \right\}
&= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ \sum_{i=1}^n T_{1,i}^{(t)} \left\{ -\tfrac{1}{2} \log |\Sigma_1| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_1)^\top\Sigma_1^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_1) \right\}
\end{align}.</math>
\end{align}.</math>
इसका रूप सामान्य वितरण के लिए भारित एमएलई के समान है
इसका रूप सामान्य वितरण के लिए भारित MLE के समान है
: <math>\boldsymbol{\mu}_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{1,i}^{(t)}} </math> और <math>\Sigma_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)})^\top }{\sum_{i=1}^n T_{1,i}^{(t)}} </math>
: <math>\boldsymbol{\mu}_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{1,i}^{(t)}} </math> और <math>\Sigma_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)})^\top }{\sum_{i=1}^n T_{1,i}^{(t)}} </math>
और, समरूपता से,
और, समरूपता से,
: <math>\boldsymbol{\mu}_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{2,i}^{(t)}} </math> और <math>\Sigma_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)})^\top }{\sum_{i=1}^n T_{2,i}^{(t)}}.</math>
: <math>\boldsymbol{\mu}_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{2,i}^{(t)}} </math> और <math>\Sigma_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)})^\top }{\sum_{i=1}^n T_{2,i}^{(t)}}.</math>


 
====निवृत्ति ====
====समाप्ति ====


यदि पुनरावृत्तीय प्रक्रिया समाप्त करें <math> E_{Z\mid\theta^{(t)},\mathbf{x}}[\log L(\theta^{(t)};\mathbf{x},\mathbf{Z})] \leq E_{Z\mid\theta^{(t-1)},\mathbf{x}}[\log L(\theta^{(t-1)};\mathbf{x},\mathbf{Z})] + \varepsilon</math> के लिए <math> \varepsilon </math> कुछ पूर्व निर्धारित सीमा से नीचे.
यदि पुनरावृत्तीय प्रक्रिया समाप्त करें <math> E_{Z\mid\theta^{(t)},\mathbf{x}}[\log L(\theta^{(t)};\mathbf{x},\mathbf{Z})] \leq E_{Z\mid\theta^{(t-1)},\mathbf{x}}[\log L(\theta^{(t-1)};\mathbf{x},\mathbf{Z})] + \varepsilon</math> के लिए <math> \varepsilon </math> कुछ पूर्व निर्धारित सीमा से नीचे.


==== सामान्यीकरण ====
==== सामान्यीकरण ====
ऊपर चित्रित एल्गोरिदम को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।
ऊपर दर्शाए गए कलन विधि को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।
 
=== काट-छाँट और सेंसर किया गया प्रतिगमन ===
ईएम एल्गोरिदम को उस मामले में लागू किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के सेंसर किए गए या काट दिए गए संस्करण हैं।<ref name=Wolynetz>{{cite journal |title= सीमित और सेंसर किए गए सामान्य डेटा से एक रैखिक मॉडल में अधिकतम संभावना अनुमान|last1= Wolynetz |first1= M.S. |journal= [[Journal of the Royal Statistical Society, Series C]] |year= 1979 |volume= 28 |issue= 2 |pages= 195–206 |doi= 10.2307/2346749|jstor= 2346749 }}</ref> इस मॉडल के विशेष मामलों में एक [[सामान्य वितरण]] से सेंसर किए गए या काटे गए अवलोकन शामिल हैं।<ref name=Wolynetz/>
 


=== संक्षिप्त और नियंत्रक किया गया प्रतिगमन ===
EM कलन विधि को उस स्थिति में प्रयुक्त किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के नियंत्रक या संक्षिप्त संस्करण हैं।<ref name=Wolynetz>{{cite journal |title= सीमित और सेंसर किए गए सामान्य डेटा से एक रैखिक मॉडल में अधिकतम संभावना अनुमान|last1= Wolynetz |first1= M.S. |journal= [[Journal of the Royal Statistical Society, Series C]] |year= 1979 |volume= 28 |issue= 2 |pages= 195–206 |doi= 10.2307/2346749|jstor= 2346749 }}</ref> इस मॉडल के विशेष स्थिति में एक [[सामान्य वितरण]] से नियंत्रक किए गए या संक्षिप्त किए गए अवलोकन सम्मिलित हैं।<ref name=Wolynetz/>
== विकल्प ==
== विकल्प ==
ईएम आमतौर पर स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य तौर पर अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की घातीय संख्या हो सकती है। इसलिए, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता मौजूद है, खासकर उच्च-आयामी सेटिंग में। स्थिरता के लिए बेहतर गारंटी के साथ ईएम के विकल्प मौजूद हैं, जिन्हें क्षण-आधारित दृष्टिकोण कहा जाता है<ref>{{Cite journal|last=Pearson|first=Karl|date=1894|title=विकास के गणितीय सिद्धांत में योगदान|journal=Philosophical Transactions of the Royal Society of London A|volume=185|pages=71–110|issn=0264-3820|jstor=90667|doi=10.1098/rsta.1894.0003|bibcode=1894RSPTA.185...71P|doi-access=free}}</ref> या तथाकथित वर्णक्रमीय तकनीकें<ref>{{Cite journal|last1=Shaban|first1=Amirreza|last2=Mehrdad|first2=Farajtabar|last3=Bo|first3=Xie|last4=Le|first4=Song|last5=Byron|first5=Boots|date=2015|title=बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना|url=https://www.cc.gatech.edu/~bboots3/files/SpectralExteriorPoint-NIPSWorkshop.pdf|journal=UAI|pages=792–801}}</ref><ref>{{Cite book|title=Local Loss Optimization in Operator Models: A New Insight into Spectral Learning|last=Balle, Borja Quattoni, Ariadna Carreras, Xavier|date=2012-06-27|oclc=815865081}}</ref>{{Citation needed|date=April 2019}}. संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि का है{{when|date=January 2022}} चूंकि वे ईएम के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो अक्सर स्थानीय ऑप्टिमा में फंसने की समस्या से ग्रस्त होता है। सीखने की गारंटी वाले एल्गोरिदम कई महत्वपूर्ण मॉडल जैसे मिश्रण मॉडल, एचएमएम आदि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।{{Citation needed|date=April 2019}}.
EM सामान्यतः स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य रूप से अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की संख्या घातांक हो सकती है। इसलिए, विशेष रूप से उच्च-आयामी सेटिंग में, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता उपस्थित है। EM के विकल्प निरंतरता की बेहतर गारंटी के साथ उपस्थित हैं, जिन्हें क्षण-आधारित दृष्टिकोण <ref>{{Cite journal|last=Pearson|first=Karl|date=1894|title=विकास के गणितीय सिद्धांत में योगदान|journal=Philosophical Transactions of the Royal Society of London A|volume=185|pages=71–110|issn=0264-3820|jstor=90667|doi=10.1098/rsta.1894.0003|bibcode=1894RSPTA.185...71P|doi-access=free}}</ref> या तथाकथित वर्णक्रमीय तकनीक <ref>{{Cite journal|last1=Shaban|first1=Amirreza|last2=Mehrdad|first2=Farajtabar|last3=Bo|first3=Xie|last4=Le|first4=Song|last5=Byron|first5=Boots|date=2015|title=बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना|url=https://www.cc.gatech.edu/~bboots3/files/SpectralExteriorPoint-NIPSWorkshop.pdf|journal=UAI|pages=792–801}}</ref><ref>{{Cite book|title=Local Loss Optimization in Operator Models: A New Insight into Spectral Learning|last=Balle, Borja Quattoni, Ariadna Carreras, Xavier|date=2012-06-27|oclc=815865081}}</ref> कहा जाता है। एक संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि के हैं क्योंकि वे EM के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो प्रायः स्थानीय ऑप्टिमा में फंसने के मुद्दे से ग्रस्त होता है। सीखने की गारंटी वाले कलन विधि कई महत्वपूर्ण मॉडलों जैसे मिश्रण मॉडल, HMMs इत्यादि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।


== यह भी देखें ==
== यह भी देखें ==
Line 363: Line 343:
* [[यौगिक वितरण]]
* [[यौगिक वितरण]]
*[[घनत्व अनुमान]]
*[[घनत्व अनुमान]]
* [[प्रमुख कंपोनेंट विश्लेषण]]
* [[कुल अवशोषण स्पेक्ट्रोस्कोपी]]
* ईएम एल्गोरिदम को एमएम एल्गोरिदम | मेजराइज-मिनिमाइजेशन (एमएम) एल्गोरिदम के एक विशेष मामले के रूप में देखा जा सकता है।<ref>{{cite web|last=Lange|first=Kenneth|title=एमएम एल्गोरिदम|url=http://www.stat.berkeley.edu/~aldous/Colloq/lange-talk.pdf}}</ref>


* प्रमुख घटक विश्लेषण
* पूर्ण अवशोषण स्पेक्ट्रोस्कोपी


* EM कलन विधि को मेजराइज़-मिनिमाइज़ेशन (MM) कलन विधि के एक विशेष स्थिति के रूप में देखा जा सकता है।<ref>{{cite web|last=Lange|first=Kenneth|title=एमएम एल्गोरिदम|url=http://www.stat.berkeley.edu/~aldous/Colloq/lange-talk.pdf}}</ref>
== संदर्भ ==
== संदर्भ ==
{{Reflist}}
{{Reflist}}
Line 392: Line 372:
* [https://github.com/l-/CommonDataAnalysis Class hierarchy] in [[C++]] (GPL) including Gaussian Mixtures
* [https://github.com/l-/CommonDataAnalysis Class hierarchy] in [[C++]] (GPL) including Gaussian Mixtures
* [http://www.inference.phy.cam.ac.uk/mackay/itila/ The on-line textbook: Information Theory, Inference, and Learning Algorithms], by [[David J.C. MacKay]] includes simple examples of the EM algorithm such as clustering using the soft ''k''-means algorithm, and emphasizes the variational view of the EM algorithm, as described in Chapter 33.7 of version 7.2 (fourth edition).
* [http://www.inference.phy.cam.ac.uk/mackay/itila/ The on-line textbook: Information Theory, Inference, and Learning Algorithms], by [[David J.C. MacKay]] includes simple examples of the EM algorithm such as clustering using the soft ''k''-means algorithm, and emphasizes the variational view of the EM algorithm, as described in Chapter 33.7 of version 7.2 (fourth edition).
* [http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf Variational Algorithms for Approximate Bayesian Inference], by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs ([http://www.cse.buffalo.edu/faculty/mbeal/thesis/index.html chapters]).
* [http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf Variational Algorithms for Approximate Bayesian Inference], by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs ([http://www.cse.buffalo.edu/faculty/mbeal/thesis/index.html chapters]).
* [http://www.seanborman.com/publications/EM_algorithm.pdf The Expectation Maximization Algorithm: A short tutorial], A self-contained derivation of the EM Algorithm by Sean Borman.
* [http://www.seanborman.com/publications/EM_algorithm.pdf The Expectation Maximization Algorithm: A short tutorial], A self-contained derivation of the EM Algorithm by Sean Borman.
* [http://pages.cs.wisc.edu/~jerryzhu/cs838/EM.pdf The EM Algorithm], by Xiaojin Zhu.
* [http://pages.cs.wisc.edu/~jerryzhu/cs838/EM.pdf The EM Algorithm], by Xiaojin Zhu.
* [https://arxiv.org/abs/1105.1476 EM algorithm and variants: an informal tutorial] by Alexis Roche. A concise and very clear description of EM and many interesting variants.
* [https://arxiv.org/abs/1105.1476 EM algorithm and variants: an informal tutorial] by Alexis Roche. A concise and very clear description of EM and many interesting variants.
 
{{DEFAULTSORT:Expectation-maximization Algorithm}}[[Category: अनुमान के तरीके]] [[Category: मशीन लर्निंग एल्गोरिदम]] [[Category: लापता आँकड़े]] [[Category: सांख्यिकीय एल्गोरिदम]] [[Category: अनुकूलन एल्गोरिदम और विधियाँ]] [[Category: क्लस्टर विश्लेषण एल्गोरिदम]]
 


{{DEFAULTSORT:Expectation-maximization Algorithm}}


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Expectation-maximization Algorithm]]
[[Category:Created On 25/07/2023]]
[[Category:CS1 errors|Expectation-maximization Algorithm]]
[[Category:CS1 maint|Expectation-maximization Algorithm]]
[[Category:Created On 25/07/2023|Expectation-maximization Algorithm]]
[[Category:Lua-based templates|Expectation-maximization Algorithm]]
[[Category:Machine Translated Page|Expectation-maximization Algorithm]]
[[Category:Pages with reference errors|Expectation-maximization Algorithm]]
[[Category:Pages with script errors|Expectation-maximization Algorithm]]
[[Category:Short description with empty Wikidata description|Expectation-maximization Algorithm]]
[[Category:Template documentation pages|Short description/doc]]
[[Category:Templates Vigyan Ready|Expectation-maximization Algorithm]]
[[Category:Templates that add a tracking category|Expectation-maximization Algorithm]]
[[Category:Templates that generate short descriptions|Expectation-maximization Algorithm]]
[[Category:Templates using TemplateData|Expectation-maximization Algorithm]]

Latest revision as of 09:42, 23 August 2023

सांख्यिकी में, एक प्रत्याशा-अधिकतमकरण (EM) कलन विधि सांख्यिकीय मॉडल में पैरामीटर के (स्थानीय) अधिकतम संभाविता या अधिकतम पोस्टीरियोरी (MAP) अनुमान को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य अव्यक्त चर पर निर्भर करता है।[1] EM पुनरावृत्ति एक प्रत्याशा (E) चरण के प्रदर्शन के बीच वैकल्पिक होती है, जो पैरामीटर के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन की गई log-संभाविता की प्रत्याशा के लिए एक फलन बनाती है, और एक अधिकतमकरण (M) चरण, जो E चरण पर पाई गई प्रत्याशा log-संभाविता को अधिकतम करने वाले पैरामीटर की गणना करता है फिर इन पैरामीटर-अनुमानों का उपयोग अगले E चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।

पुराने फेथफुल विस्फोट डेटा की EM क्लस्टरिंग। यादृच्छिक प्रारंभिक मॉडल (जो, अक्षों के विभिन्न पैमानों के कारण, दो बहुत सपाट और चौड़े दीर्घवृत्त प्रतीत होता है) प्रेक्षित डेटा के लिए उपयुक्त है। पहले पुनरावृत्तियों में, मॉडल काफी हद तक बदल जाता है, लेकिन फिरगरम पानी का झरना के दो मोड में परिवर्तित हो जाता है। ELKI का उपयोग करके विज़ुअलाइज़ किया गया।

इतिहास

EM कलन विधि को आर्थर डेम्पस्टर, नान लेयर्ड और डोनाल्ड रुबिन द्वारा 1977 के एक क्लासिक पेपर में समझाया गया और इसका नाम दिया गया था।[2] उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा "विशेष परिस्थितियों में कई बार प्रस्तावित" की गई थी। सेड्रिक स्मिथ द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे प्रारम्भ में से एक है।[3] दूसरा प्रस्ताव 1958 में एचओ हार्टले और 1977 में हार्टले और हॉकिंग द्वारा दिया गया था, जिससे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई।[4] 1977 में एस.के. एनजी, त्रियंबकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और उत्पत्ति हुई।[5] हार्टले के विचारों को किसी भी समूहीकृत पृथक वितरण तक विस्तारित किया जा सकता है। पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद, रोल्फ़ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में घातीय परिवारों के लिए EM पद्धति का एक बहुत विस्तृत उपचार प्रकाशित किया था,[6][7][8][9][10][11][12][13] 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के एक व्यापक वर्ग के लिए एक अभिसरण विश्लेषण का खाका तैयार किया। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने EM पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डायक (1997) भी देखें।

डेम्पस्टर-लेयर्ड-रुबिन कलन विधि का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। वू के प्रमाण ने EM पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने प्राप्य किया था।

परिचय

EM कलन विधि का उपयोग सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभाविता पैरामीटर को खोजने के लिए किया जाता है, जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात पैरामीटर और ज्ञात डेटा अवलोकनों के अलावा गुप्त चर सम्मिलित होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान उपस्थित हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक मिश्रण मॉडल को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु, या अव्यक्त चर होता है, जो मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।

अधिकतम संभाविता समाधान ढूढ़ने के लिए सामान्यतः सभी अज्ञात मूल्यों, पैरामीटर और अव्यक्त चर के संबंध में संभाविता फलन के डेरिवेटिव को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। गुप्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके स्थान में, परिणाम सामान्यतः इंटरलॉकिंग समीकरणों का एक समुच्चय होता है जिसमें पैरामीटर के समाधान के लिए अव्यक्त चर के मानों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक समुच्चय को दूसरे में प्रतिस्थापित करने से एक जटिल समीकरण उत्पन्न होता है।

EM कलन विधि इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो समुच्चयों को संख्यात्मक रूप से हल करने की एक विधि है। कोई अज्ञात के दो समुच्चयों में से एक के लिए यादृच्छिक मान चुन सकता है, दूसरे समुच्चय का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले समुच्चय का बेहतर अनुमान खोजने के लिए इन नए मानों का उपयोग करें, और तब तक दोनों के बीच बारी-बारी से काम करते रहें जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे साबित किया जा सकता है। इसके अतिरिक्त, यह सिद्ध किया जा सकता है कि उस बिंदु पर संभाविता का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है। सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इस बात की कोई प्रत्याभूति नहीं है कि वैश्विक मैक्सिमा मिल जाएगी। कुछ संभावनाओं में विलक्षणताएँ भी होती हैं, यानी, निरर्थक अधिकतमा उदाहरण के लिए, मिश्रण मॉडल में EM द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए माध्य पैरामीटर को डेटा बिंदुओं में से एक के बराबर समुच्चय करना सम्मिलित है।

विवरण

प्रतीक

सांख्यिकीय मॉडल को देखते हुए, जो देखे गए डेटा का एक समुच्चय , न देखे गए अव्यक्त डेटा का एक समुच्चय या लुप्त मान उत्पन्न करता है, और अज्ञात पैरामीटर का एक वेक्टर, एक संभाविता फलन के साथ, अज्ञात पैरामीटर की अधिकतम संभाविता अनुमान (MLE) देखे गए डेटा की सीमांत संभाविता को अधिकतम करके निर्धारित किया जाता है

हालाँकि, यह मात्रा प्रायः कठिन होती है क्योंकि का अवलोकन नहीं किया जाता है और प्राप्त करने से पहले का वितरण अज्ञात है।

EM कलन विधि

EM कलन विधि इन दो चरणों को पुनरावृत्त रूप से प्रयुक्त करके सीमांत संभाविता के MLE को ढूंढना चाहता है:

प्रत्याशा चरण (E चरण): परिभाषित करें log संभाविता फलन के प्रत्याशा मान के रूप में, की वर्तमान सशर्त संभाव्यता वितरण के संबंध में दिया गया और पैरामीटर का वर्तमान अनुमान:
अधिकतमकरण चरण (M चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें:

अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:

चरों की व्याख्या

जिन विशिष्ट मॉडलों पर EM प्रयुक्त किया जाता है समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में:

  1. अवलोकित डेटा बिंदु असतत यादृच्छिक चर (एक परिमित या गणनीय अनंत समुच्चय में मान लेना) या निरंतर यादृच्छिक चर (एक बेशुमार अनंत समुच्चय में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है।
  2. अनुपलब्ध मान (उपनाम अव्यक्त चर) असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है।
  3. पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)।

हालाँकि, EM को अन्य प्रकार के मॉडलों पर प्रयुक्त करना संभव है।

प्रेरणा इस प्रकार है. यदि पैरामीटर का मान ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य के सभी संभावित मानों पर log-संभाविता को अधिकतम करके पाया जा सकता है , या तो बस बार-बार दोहराकर या छिपे छिपा हुआ मार्कोव मॉडल के लिए विटर्बी कलन विधि जैसे कलन विधि के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं , हम पैरामीटर का अनुमान पा सकते हैं काफी आसानी से, सामान्यतः देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फलन का औसत निकालकर। यह एक पुनरावृत्त कलन विधि का सुझाव देता है, उस स्थिति में जब दोनों और अज्ञात हैं:

  1. सबसे पहले, पैरामीटर्स को इनिशियलाइज़ करें कुछ यादृच्छिक मूल्यों के लिए है।
  2. प्रत्येक संभावित मान की संभाविता की गणना करें, दिया गया है।
  3. फिर, अभी-अभी गणना किए गए मानों का उपयोग करें पैरामीटर के लिए बेहतर अनुमान की गणना करना है।
  4. अभिसरण होने तक चरण 2 और 3 को दोहराएँ।

जैसा कि अभी बताया गया है, कलन विधि नीरस रूप से लागत फलन के स्थानीय न्यूनतम तक पहुंचता है।

गुण

हालाँकि एक EM पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभाविता फलन को बढ़ाती है, लेकिन कोई प्रत्याभूति नहीं है कि अनुक्रम अधिकतम संभाविता अनुमानक में परिवर्तित हो जाता है। मल्टीमॉडल वितरण के लिए, इसका मतलब यह है कि एक EM कलन विधि प्रारंभिक मूल्यों के आधार पर, देखे गए डेटा संभाविता फलन के स्थानीय अधिकतम में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या मेटाह्यूरिस्टिक दृष्टिकोण उपस्थित हैं, जैसे कि यादृच्छिक-पुनरारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों से प्रारम्भ करना, या सिम्युलेटेड एनीलिंग विधियों को प्रयुक्त करना)।

EM विशेष रूप से तब उपयोगी होता है जब संभाविता एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें:[14] E चरण पर्याप्त सांख्यिकी की अपेक्षाओं का योग बन जाता है, और M चरण में एक रैखिक फलन को अधिकतम करना सम्मिलित होता है . ऐसे स्थिति में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके प्रत्येक चरण के लिए बंद-फॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है[15] (प्रति मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर रॉल्फ सुंदरबर्ग द्वारा सिद्ध और प्रकाशित)।[7][8][10][11][12][13]

डेम्पस्टर, लैयर्ड और रुबिन द्वारा मूल पेपर में बायेसियन अनुमान के लिए अधिकतम पोस्टीरियरी (MAP) अनुमानों की गणना करने के लिए EM विधि को संशोधित किया गया था।

अधिकतम संभाविता का अनुमान लगाने के लिए अन्य विधियाँ उपस्थित हैं, जैसे कि ग्रेडिएंट डिसेंट, संयुग्म ग्रेडिएंट, या गॉस-न्यूटन कलन विधि के वेरिएंट। EM के विपरीत, ऐसे तरीकों को आमतौर पर संभाविता फलन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।

शुद्धता का प्रमाण

अपेक्षा-अधिकतमीकरण सीधे में श्रेष्ठतर करने के स्थान में में श्रेष्ठतर करने के लिए काम करता है। यहां यह दिखाया गया है कि पहले में श्रेष्ठतर से बाद में श्रेष्ठतर होता है।[16]

किसी के लिए गैर-शून्य संभाविता के साथ , हम लिख सकते हैं

हम अज्ञात डेटा के संभावित मूल्यों पर प्रत्याशा रखते हैं वर्तमान पैरामीटर अनुमान के तहत दोनों पक्षों को गुणा करके और सारांशित करना (या एकीकृत करना)। . बाईं ओर एक स्थिरांक की प्रत्याशा है, इसलिए हमें मिलता है:

जहाँ इसे उस ऋणात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है।

यह अंतिम समीकरण प्रत्येक मान सम्मिलित के लिए मान्य है,

और इस अंतिम समीकरण को पिछले समीकरण से घटाने पर प्राप्त होता है

हालाँकि, गिब्स की असमानता हमें यह बताती है , तो हम यह निष्कर्ष निकाल सकते हैं

शब्दों में, को सुधारने के लिए चुनने से में कम से कम उतना ही श्रेष्ठतर होता है।

अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में

EM कलन विधि को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी समन्वित अवतरण के उदाहरण के रूप में।[17][18] फलन पर विचार करें:

जहां q, न देखे गए डेटा z पर एक यादृच्छिक संभाव्यता वितरण है और H(q) वितरण q की एन्ट्रॉपी है। इस फलन को इस प्रकार लिखा जा सकता है

जहाँ देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण है और कुल्बैक-लीब्लर विचलन है।

फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:

प्रत्याशा चरण: चुनें बढ़ाने के लिए :
अधिकतमीकरण चरण: अधिकतम के लिए चुनें:

अनुप्रयोग

EM का प्रयोग प्रायः मिश्रित मॉडलों के पैरामीटर आकलन के लिए किया जाता है,[19][20] विशेष रूप से मात्रात्मक आनुवंशिकी में।[21]

साइकोमेट्रिक्स में, विषय प्रतिक्रिया सिद्धांत मॉडल के विषय मापदंडों और अव्यक्त क्षमताओं का आकलन करने के लिए EM एक महत्वपूर्ण उपकरण है।

लापता डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, EM एक पोर्टफोलियो के मूल्य निर्धारण और जोखिम का प्रबंधन करने के लिए एक उपयोगी उपकरण बन रहा है।

EM कलन विधि (और इसके तेज़ वेरिएंट ऑर्डर किए गए उपसमुच्चय अपेक्षा अधिकतमकरण) का व्यापक रूप से चिकित्सा छवि पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पॉज़िट्रॉन उत्सर्जन टोमोग्राफी, एकल-फोटॉन उत्सर्जन कंप्यूटेड टोमोग्राफी और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें।

संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) [22] कलन विधि का उपयोग करके स्ट्रक्चरल आइडेंटिफिकेशन, नियंत्रक डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है (ऑपरेशनल मोडल विश्लेषण देखें)।

EM का उपयोग डेटा क्लस्टरिंग के लिए भी किया जाता है। प्राकृतिक भाषा प्रसंस्करण में, कलन विधि के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च कलन विधि हैं, और संभाव्य संदर्भ-मुक्त व्याकरणों के अनियंत्रित प्रेरण के लिए अंदर-बाहर कलन विधि हैं।

इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी स्टॉक एक्सचेंज में स्टॉक के शेयरों में बाद के ट्रेडों के बीच का समय, EM कलन विधि बहुत उपयोगी साबित हुआ है।[23]

EM कलन विधि को फ़िल्टर करना और स्मूथ करना

एक कलमन फ़िल्टर का उपयोग सामान्यतः ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल पैरामीटर के अनुमान की आवश्यकता होती है। EM कलन विधि का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है।

इस दो-चरणीय प्रक्रिया को दोहराकर EM कलन विधि को फ़िल्टर करना और स्मूथ करना उत्पन्न होता है:

E-चरण
अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें।
M-चरण
अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभाविता गणना के भीतर फ़िल्टर किए गए या स्मूथ स्टेट अनुमानों का उपयोग करें।

मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें योगात्मक श्वेत रव होता है। अधिकतम संभाविता गणना से एक अद्यतन माप रव विचरण अनुमान प्राप्त किया जा सकता है

जहाँ स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ द्वारा गणना किए जाते हैं उपरोक्त अद्यतन को पॉइसन माप रव तीव्रता को अद्यतन करने के लिए भी प्रयुक्त किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया रव विचरण अनुमान की गणना की जा सकती है

जहाँ और स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है

उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।[24][25][26][27]

वेरिएंट

EM कलन विधि के कभी-कभी धीमे अभिसरण में तेजी लाने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना।[28] इसके अलावा, EM का उपयोग विवश आकलन विधियों के साथ किया जा सकता है।

पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण (PX-EM) कलन विधि प्रायः M चरण के विश्लेषण को सही करने के लिए "us[ing] एक 'सहप्रसरण समायोजन' द्वारा गति प्रदान करता है, जो कि आरोपित संपूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है"।[29]

प्रत्याशा सशर्त अधिकतमीकरण (ECM) प्रत्येक M चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θi को व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से शेष अन्य मापदंडों पर।[30] स्वयं को एक्सपेक्टेशन कंडीशनल मैक्सिमाइज़ेशन (ECME) कलन विधि में बढ़ाया जा सकता है।[31]

इस विचार को सामान्यीकृत अपेक्षा अधिकतमीकरण (GEM) कलन विधि में आगे बढ़ाया गया है, जिसमें ई चरण और M चरण दोनों के लिए उद्देश्य फलन एफ में केवल वृद्धि की मांग की गई है, जैसा कि अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग में वर्णित है।[17] GEM को एक वितरित वातावरण में आगे विकसित किया गया है और आशाजनक परिणाम दिखाता है।[32]

EM कलन विधि को एमएम (संदर्भ के आधार पर मेजराइज/मिनिमाइज या माइनराइज/मैक्सिमाइज) कलन विधि के उपवर्ग के रूप में मानना भी संभव है, [33]और इसलिए अधिक सामान्य स्थिति में विकसित किसी भी मशीनरी का उपयोग करें।

α-EM कलन विधि

EM कलन विधि में प्रयुक्त Q-फलन log संभाविता पर आधारित है। इसलिए, इसे log-EM कलन विधि माना जाता है। log संभाविता के उपयोग को α-log संभाविता अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-log संभाविता अनुपात को α-log संभाविता अनुपात और α-विचलन के Q-फलन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस Q-फलन को प्राप्त करना एक सामान्यीकृत E चरण है। इसका अधिकतमीकरण एक सामान्यीकृत M चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है[34] जिसमें इसके उपवर्ग के रूप में log-EM कलन विधि सम्मिलित है। इस प्रकार, यासुओ मात्सुयामा द्वारा α-EM कलन विधि log-EM कलन विधि का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर log-EM कलन विधि की तुलना में तेज़ अभिसरण दिखाता है। α-EM कलन विधि हिडन मार्कोव मॉडल आकलन कलन विधि α-HMM के तेज़ संस्करण की ओर ले जाता है।[35]

परिवर्तनशील बेयस विधियों से संबंध

EM आंशिक रूप से गैर-बायेसियन, अधिकतम संभाविता विधि है। इसका अंतिम परिणाम θ के लिए एक बिंदु अनुमान (या तो अधिकतम संभाविता अनुमान या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो θ और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, E और M चरणों के बीच का अंतर लुप्त हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित Q सन्निकटन (वैरिएबल बेयस) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब θ सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति k चरणों की आवश्यकता है, जहाँ k अव्यक्त चर की संख्या है। चित्रमय मॉडल के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया Q केवल उसके मार्कोव ब्लैंकेट पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।

ज्यामितीय व्याख्या

सूचना ज्यामिति में, E चरण और M चरण की व्याख्या दोहरे एफ़िन कनेक्शन के तहत प्रक्षेपण के रूप में की जाती है, जिसे E-कनेक्शन और M-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।

उदाहरण

गाऊसी मिश्रण

के-मीन्स और EM की तुलना। भिन्नताओं का उपयोग करते हुए, EM कलन विधि सामान्य वितरण का सटीक वर्णन कर सकता है, जबकि के-साधन वोरोनोई आरेख-कोशिकाओं में डेटा को विभाजित करता है। क्लस्टर केंद्र को हल्के, बड़े प्रतीक द्वारा दर्शाया गया है।
पुराने फेथफुल डेटासेट में दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले EM कलन विधि को प्रदर्शित करने वाला एक एनीमेशन। कलन विधि यादृच्छिक आरंभीकरण से अभिसरण की ओर बढ़ता है।

मान लीजिये का एक नमूना हो आयाम के दो बहुभिन्नरूपी सामान्य वितरण के मिश्रण मॉडल से स्वतंत्र अवलोकन , और जाने वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।[18]:

और

जहाँ

और

इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात पैरामीटर का अनुमान लगाना है:

जहां अपूर्ण-डेटा संभाविता फलन है

और पूर्ण-डेटा संभाविता फलन है

या

जहाँ एक सूचक कार्य है और बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है।

अंतिम समानता में, प्रत्येक के लिए i, एक सूचक शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है।

E चरण

पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ(t), Z का सशर्त वितरणi बेयस प्रमेय द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फलन की आनुपातिक ऊंचाई निर्धारित की जाती है:

इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें सामान्यतः E चरण का आउटपुट माना जाता है (हालांकि यह नीचे का Q फलन नहीं है)।

यह E चरण Q के लिए इस फलन को समुच्चय करने से मेल खाता है:

की प्रत्याशा योग के अंदर संभाव्यता घनत्व फलन के संबंध में लिया जाता है , जो प्रत्येक के लिए भिन्न हो सकता है प्रशिक्षण समुच्चय का. E चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है अतिरिक्त इसके , जिसकी गणना E चरण अनुभाग की प्रारम्भ में समीकरण के अनुसार की जाती है।

इस पूर्ण सशर्त प्रत्याशा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है।

M चरण

Q(θ | θ(t)) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, τ, (μ1,Σ1) और (μ2,Σ2) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।

आरंभ करने के लिए, τ पर विचार करें, जिसमें बाध्यता τ1 + τ2=1 है:

इसका रूप द्विपद वितरण के लिए MLE के समान है

(μ) के अगले अनुमानों के लिए (μ11):

इसका रूप सामान्य वितरण के लिए भारित MLE के समान है

और

और, समरूपता से,

और

निवृत्ति

यदि पुनरावृत्तीय प्रक्रिया समाप्त करें के लिए कुछ पूर्व निर्धारित सीमा से नीचे.

सामान्यीकरण

ऊपर दर्शाए गए कलन विधि को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।

संक्षिप्त और नियंत्रक किया गया प्रतिगमन

EM कलन विधि को उस स्थिति में प्रयुक्त किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के नियंत्रक या संक्षिप्त संस्करण हैं।[36] इस मॉडल के विशेष स्थिति में एक सामान्य वितरण से नियंत्रक किए गए या संक्षिप्त किए गए अवलोकन सम्मिलित हैं।[36]

विकल्प

EM सामान्यतः स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य रूप से अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की संख्या घातांक हो सकती है। इसलिए, विशेष रूप से उच्च-आयामी सेटिंग में, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता उपस्थित है। EM के विकल्प निरंतरता की बेहतर गारंटी के साथ उपस्थित हैं, जिन्हें क्षण-आधारित दृष्टिकोण [37] या तथाकथित वर्णक्रमीय तकनीक [38][39] कहा जाता है। एक संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि के हैं क्योंकि वे EM के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो प्रायः स्थानीय ऑप्टिमा में फंसने के मुद्दे से ग्रस्त होता है। सीखने की गारंटी वाले कलन विधि कई महत्वपूर्ण मॉडलों जैसे मिश्रण मॉडल, HMMs इत्यादि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।

यह भी देखें

  • प्रमुख घटक विश्लेषण
  • पूर्ण अवशोषण स्पेक्ट्रोस्कोपी
  • EM कलन विधि को मेजराइज़-मिनिमाइज़ेशन (MM) कलन विधि के एक विशेष स्थिति के रूप में देखा जा सकता है।[40]

संदर्भ

  1. Meng, X.-L.; van Dyk, D. (1997). "The EM algorithm – an old folk-song sung to a fast new tune". J. Royal Statist. Soc. B. 59 (3): 511–567.
  2. Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
  3. Ceppelini, R.M. (1955). "यादृच्छिक-संभोग आबादी में जीन आवृत्तियों का अनुमान". Ann. Hum. Genet. 20 (2): 97–115. doi:10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
  4. Hartley, Herman Otto (1958). "अपूर्ण डेटा से अधिकतम संभावना अनुमान". Biometrics. 14 (2): 174–194. doi:10.2307/2527783. JSTOR 2527783.
  5. Ng, Shu Kay; Krishnan, Thriyambakam; McLachlan, Geoffrey J. (2011-12-21), "The EM Algorithm", Handbook of Computational Statistics, Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 139–172, doi:10.1007/978-3-642-21551-3_6, ISBN 978-3-642-21550-6, S2CID 59942212, retrieved 2022-10-15
  6. Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics. 1 (2): 49–58. JSTOR 4615553. MR 0381110.
  7. 7.0 7.1 Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
  8. 8.0 8.1 Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation. 5 (1): 55–64. doi:10.1080/03610917608812007. MR 0443190.
  9. See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.
  10. 10.0 10.1 प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहूस विश्वविद्यालय। (सुंडबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय दिया गया)।
  11. 11.0 11.1 प्रति मार्टिन-लोफ। 1970. सांख्यिकीय मॉडल: रॉल्फ सुंदरबर्ग की सहायता से स्कूल वर्ष 1969-1970 में सेमिनारों के नोट्स (व्याख्यान नोट्स 1969-1970)। स्टॉकहोम विश्वविद्यालय.
  12. 12.0 12.1 मार्टिन-लोफ, पी. अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विचलन के मात्रात्मक माप के रूप में इसका उपयोग। एफ. एबिल्डगार्ड, आर्थर पी. डेम्पस्टर|ए की चर्चा के साथ। पी. डेम्पस्टर, डी. बसु, डी. आर. कॉक्स, ए. डब्ल्यू. एफ. एडवर्ड्स, डी. ए. स्प्रोट, जॉर्ज ए. बरनार्ड|जी. ए. बरनार्ड, ओ. बार्नडॉर्फ-नील्सन, जे. डी. काल्बफ्लिश और राश मॉडल|जी. रैश और लेखक का उत्तर। सांख्यिकीय अनुमान में मूलभूत प्रश्नों पर सम्मेलन की कार्यवाही (आरहस, 1973), पीपी 1-42। संस्मरण, नंबर 1, विभाग सिद्धांत। सांख्यिकीविद्., उदाहरण. गणित., विश्वविद्यालय. आरहूस, आरहूस, 1974.
  13. 13.0 13.1 Martin-Löf, Per (1974). "अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग". Scand. J. Statist. 1 (1): 3–18.
  14. Sundberg, Rolf (2019). घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग. Cambridge University Press. ISBN 9781108701112.
  15. Laird, Nan (2006). "सुंदरबर्ग सूत्र". Wiley online library. Wiley.
  16. Little, Roderick J.A.; Rubin, Donald B. (1987). गायब डेटा के साथ सांख्यिकीय विश्लेषण. Wiley Series in Probability and Mathematical Statistics. New York: John Wiley & Sons. pp. 134–136. ISBN 978-0-471-80254-9.
  17. 17.0 17.1 Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को उचित ठहराता है (PDF). pp. 355–368. ISBN 978-0-262-60032-3. Retrieved 2009-03-22. {{cite book}}: |journal= ignored (help)
  18. 18.0 18.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). "8.5 The EM algorithm". सांख्यिकीय सबक के तत्व. New York: Springer. pp. 236–243. ISBN 978-0-387-95284-0.
  19. Lindstrom, Mary J; Bates, Douglas M (1988). "Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data". Journal of the American Statistical Association. 83 (404): 1014. doi:10.1080/01621459.1988.10478693.
  20. Van Dyk, David A (2000). "कुशल ईएम-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल फिट करना". Journal of Computational and Graphical Statistics. 9 (1): 78–98. doi:10.2307/1390614. JSTOR 1390614.
  21. Diffey, S. M; Smith, A. B; Welsh, A. H; Cullis, B. R (2017). "रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम". Australian & New Zealand Journal of Statistics. 59 (4): 433. doi:10.1111/anzs.12208.
  22. Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
  23. Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times". Physica A: Statistical Mechanics and its Applications. 587 (1): 126456. doi:10.1016/j.physa.2021.126456. ISSN 0378-4371.
  24. Einicke, G. A.; Malos, J. T.; Reid, D. C.; Hainsworth, D. W. (January 2009). "Riccati Equation and EM Algorithm Convergence for Inertial Navigation Alignment". IEEE Trans. Signal Process. 57 (1): 370–375. Bibcode:2009ITSP...57..370E. doi:10.1109/TSP.2008.2007090. S2CID 1930004.
  25. Einicke, G. A.; Falco, G.; Malos, J. T. (May 2010). "EM Algorithm State Matrix Estimation for Navigation". IEEE Signal Processing Letters. 17 (5): 437–440. Bibcode:2010ISPL...17..437E. doi:10.1109/LSP.2010.2043151. S2CID 14114266.
  26. Einicke, G. A.; Falco, G.; Dunn, M. T.; Reid, D. C. (May 2012). "Iterative Smoother-Based Variance Estimation". IEEE Signal Processing Letters. 19 (5): 275–278. Bibcode:2012ISPL...19..275E. doi:10.1109/LSP.2012.2190278. S2CID 17476971.
  27. Einicke, G. A. (Sep 2015). "Iterative Filtering and Smoothing of Measurements Possessing Poisson Noise". IEEE Transactions on Aerospace and Electronic Systems. 51 (3): 2205–2011. Bibcode:2015ITAES..51.2205E. doi:10.1109/TAES.2015.140843. S2CID 32667132.
  28. Jamshidian, Mortaza; Jennrich, Robert I. (1997). "अर्ध-न्यूटन विधियों का उपयोग करके ईएम एल्गोरिदम का त्वरण". Journal of the Royal Statistical Society, Series B. 59 (2): 569–587. doi:10.1111/1467-9868.00083. MR 1452026. S2CID 121966443.
  29. Liu, C (1998). "Parameter expansion to accelerate EM: The PX-EM algorithm". Biometrika. 85 (4): 755–770. CiteSeerX 10.1.1.134.9617. doi:10.1093/biomet/85.4.755.
  30. Liu, Chuanhai; Rubin, Donald B (1994). "The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence". Biometrika. 81 (4): 633. doi:10.1093/biomet/81.4.633. JSTOR 2337067.
  31. Meng, Xiao-Li; Rubin, Donald B. (1993). "Maximum likelihood estimation via the ECM algorithm: A general framework". Biometrika. 80 (2): 267–278. doi:10.1093/biomet/80.2.267. MR 1243503. S2CID 40571416.
  32. Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Accelerating Expectation–Maximization Algorithms with Frequent Updates" (PDF). Proceedings of the IEEE International Conference on Cluster Computing.
  33. Hunter DR and Lange K (2004), A Tutorial on MM Algorithms, The American Statistician, 58: 30–37
  34. Matsuyama, Yasuo (2003). "The α-EM algorithm: Surrogate likelihood maximization using α-logarithmic information measures". IEEE Transactions on Information Theory. 49 (3): 692–706. doi:10.1109/TIT.2002.808105.
  35. Matsuyama, Yasuo (2011). "Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs". International Joint Conference on Neural Networks: 808–816.
  36. 36.0 36.1 Wolynetz, M.S. (1979). "सीमित और सेंसर किए गए सामान्य डेटा से एक रैखिक मॉडल में अधिकतम संभावना अनुमान". Journal of the Royal Statistical Society, Series C. 28 (2): 195–206. doi:10.2307/2346749. JSTOR 2346749.
  37. Pearson, Karl (1894). "विकास के गणितीय सिद्धांत में योगदान". Philosophical Transactions of the Royal Society of London A. 185: 71–110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003. ISSN 0264-3820. JSTOR 90667.
  38. Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना" (PDF). UAI: 792–801.
  39. Balle, Borja Quattoni, Ariadna Carreras, Xavier (2012-06-27). Local Loss Optimization in Operator Models: A New Insight into Spectral Learning. OCLC 815865081.{{cite book}}: CS1 maint: multiple names: authors list (link)
  40. Lange, Kenneth. "एमएम एल्गोरिदम" (PDF).


अग्रिम पठन

  • Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introduction to Mathematical Statistics. Upper Saddle River, NJ: Pearson Prentice Hall. pp. 359–364.
  • Dellaert, Frank (2002). "The Expectation Maximization Algorithm". CiteSeerX 10.1.1.9.9735. {{cite journal}}: Cite journal requires |journal= (help) gives an easier explanation of EM algorithm as to lowerbound maximization.
  • Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
  • Gupta, M. R.; Chen, Y. (2010). "Theory and Use of the EM Algorithm". Foundations and Trends in Signal Processing. 4 (3): 223–296. CiteSeerX 10.1.1.219.6830. doi:10.1561/2000000034. A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
  • Bilmes, Jeff (1998). "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models". CiteSeerX 10.1.1.28.613. {{cite journal}}: Cite journal requires |journal= (help) includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
  • McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). The EM Algorithm and Extensions (2nd ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.


बाहरी संबंध