प्रत्याशा-अधिकतमकरण एल्गोरिथ्म

आंकड़ों में, एक अपेक्षा-अधिकतमकरण (ईएम) एल्गोरिथ्म सांख्यिकीय मॉडल में मापदंडों के (स्थानीय) अधिकतम संभावना या अधिकतम पोस्टीरियरी (एमएपी) अनुमानों को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य अव्यक्त चर पर निर्भर करता है। ईएम पुनरावृत्ति एक अपेक्षा (ई) चरण को निष्पादित करने के बीच वैकल्पिक होती है, जो मापदंडों के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन किए गए संभावना फ़ंक्शन#लॉग-संभावना|लॉग-संभावना की अपेक्षा के लिए एक फ़ंक्शन बनाता है, और एक अधिकतमकरण (एम) चरण, जो ई चरण पर पाए जाने वाले अपेक्षित लॉग-संभावना को अधिकतम करने वाले पैरामीटर की गणना करता है। इन पैरामीटर-अनुमानों का उपयोग अगले ई चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।



इतिहास
ईएम एल्गोरिथ्म को आर्थर पी. डेम्पस्टर, लेयर्ड में और डोनाल्ड रुबिन द्वारा 1977 के एक क्लासिक पेपर में समझाया गया था और इसका नाम दिया गया था। उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा विशेष परिस्थितियों में कई बार प्रस्तावित की गई थी। सेड्रिक स्मिथ (सांख्यिकीविद्) द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे शुरुआती में से एक है। दूसरा प्रस्ताव हरमन ओट्टो हार्टले|एच.ओ. द्वारा दिया गया था। 1958 में हार्टले, और 1977 में हार्टले और हॉकिंग, जिनसे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई। 1977 में एस.के. एनजी, त्रियम्बकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और। हार्टले के विचारों को किसी भी समूहीकृत असतत वितरण तक विस्तृत किया जा सकता है। घातीय परिवारों के लिए ईएम पद्धति का एक बहुत विस्तृत उपचार रॉल्फ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में प्रकाशित किया था,  पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद।    1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के व्यापक वर्ग के लिए एक अभिसरण विश्लेषण की रूपरेखा तैयार की। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने ईएम पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डाइक (1997) भी देखें।

डेम्पस्टर-लेयर्ड-रुबिन एल्गोरिदम का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। रेफरी नाम = वू > वू के प्रमाण ने ईएम पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने दावा किया था।

परिचय
ईएम एल्गोरिथ्म का उपयोग उन मामलों में सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभावना मापदंडों को खोजने के लिए किया जाता है जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात मापदंडों और ज्ञात डेटा अवलोकनों के अलावा अव्यक्त चर शामिल होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान मौजूद हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक मिश्रण मॉडल को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु या अव्यक्त चर होता है, जो उस मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।

अधिकतम संभावना समाधान खोजने के लिए आम तौर पर सभी अज्ञात मूल्यों, मापदंडों और अव्यक्त चर के संबंध में संभावना फ़ंक्शन के व्युत्पन्न को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। अव्यक्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके बजाय, परिणाम आम तौर पर इंटरलॉकिंग समीकरणों का एक सेट होता है जिसमें मापदंडों के समाधान के लिए अव्यक्त चर के मूल्यों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक सेट को दूसरे में प्रतिस्थापित करने से एक अघुलनशील समीकरण उत्पन्न होता है।

ईएम एल्गोरिदम इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो सेटों को संख्यात्मक रूप से हल करने का एक तरीका है। कोई व्यक्ति अज्ञात के दो सेटों में से किसी एक के लिए मनमाना मान चुन सकता है, दूसरे सेट का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले सेट का बेहतर अनुमान लगाने के लिए इन नए मानों का उपयोग कर सकता है, और तब तक दोनों के बीच परिवर्तन जारी रख सकता है जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे सिद्ध किया जा सकता है। इसके अतिरिक्त, यह साबित किया जा सकता है कि उस बिंदु पर संभावना का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है। सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इसकी कोई गारंटी नहीं है कि वैश्विक मैक्सिमा मिल जाएगा। कुछ संभावनाओं में गणितीय विलक्षणता भी होती है, यानी निरर्थक मैक्सिमा। उदाहरण के लिए, मिश्रण मॉडल में ईएम द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए औसत पैरामीटर को डेटा बिंदुओं में से एक के बराबर सेट करना शामिल है।

प्रतीक
सांख्यिकीय मॉडल को देखते हुए जो एक सेट उत्पन्न करता है $$\mathbf{X}$$ देखे गए डेटा का, न देखे गए अव्यक्त डेटा या लुप्त मानों का एक सेट $$\mathbf{Z}$$, और अज्ञात मापदंडों का एक वेक्टर $$\boldsymbol\theta$$, एक संभाव्यता फ़ंक्शन के साथ $$L(\boldsymbol\theta; \mathbf{X}, \mathbf{Z}) = p(\mathbf{X}, \mathbf{Z}\mid\boldsymbol\theta)$$, अज्ञात मापदंडों का अधिकतम संभावना अनुमान (एमएलई) देखे गए डेटा की सीमांत संभावना को अधिकतम करके निर्धारित किया जाता है


 * $$L(\boldsymbol\theta; \mathbf{X}) = p(\mathbf{X}\mid\boldsymbol\theta) = \int p(\mathbf{X},\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} = \int  p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol\theta) p(\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} $$

हालाँकि, यह मात्रा अक्सर कठिन होती है $$\mathbf{Z}$$ अप्राप्य है और का वितरण $$\mathbf{Z}$$ पाने से पहले अज्ञात है $$\boldsymbol\theta$$.

ईएम एल्गोरिदम
ईएम एल्गोरिदम इन दो चरणों को पुनरावृत्त रूप से लागू करके सीमांत संभावना के एमएलई को ढूंढना चाहता है:
 * अपेक्षा चरण (ई चरण): परिभाषित करें $$Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})$$ लॉग संभावना फ़ंक्शन के अपेक्षित मान के रूप में $$\boldsymbol\theta$$, की वर्तमान सशर्त संभाव्यता वितरण के संबंध में $$\mathbf{Z}$$ दिया गया $$\mathbf{X}$$ और मापदंडों का वर्तमान अनुमान $$\boldsymbol\theta^{(t)}$$:
 * $$Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) = \operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta) \right] \,$$
 * अधिकतमकरण चरण (एम चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें:
 * $$\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} \ Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) \, $$

अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:$$\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} \operatorname{E}_{\mathbf{Z} \sim p(\cdot | \mathbf{X},\boldsymbol\theta^{(t)})}\left[ \log p (\mathbf{X},\mathbf{Z} | \boldsymbol\theta) \right] \, $$

चरों की व्याख्या
जिन विशिष्ट मॉडलों पर ईएम लागू किया जाता है $$\mathbf{Z}$$ समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में: हालाँकि, EM को अन्य प्रकार के मॉडलों पर लागू करना संभव है।
 * 1) अवलोकित डेटा बिंदु $$\mathbf{X}$$ असतत यादृच्छिक चर (एक परिमित या गणनीय अनंत सेट में मान लेना) या निरंतर यादृच्छिक चर (एक बेशुमार अनंत सेट में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है।
 * 2) अनुपलब्ध मान (उर्फ अव्यक्त चर) $$\mathbf{Z}$$ असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है।
 * 3) पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)।

प्रेरणा इस प्रकार है. यदि पैरामीटर का मान $$\boldsymbol\theta$$ ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य $$\mathbf{Z}$$ के सभी संभावित मानों पर लॉग-संभावना को अधिकतम करके पाया जा सकता है $$\mathbf{Z}$$, या तो बस बार-बार दोहराकर $$\mathbf{Z}$$ या छिपे छिपा हुआ मार्कोव मॉडल के लिए विटर्बी एल्गोरिदम जैसे एल्गोरिदम के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं $$\mathbf{Z}$$, हम मापदंडों का अनुमान पा सकते हैं $$\boldsymbol\theta$$ काफी आसानी से, आम तौर पर देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फ़ंक्शन का औसत निकालकर। यह एक पुनरावृत्त एल्गोरिथ्म का सुझाव देता है, उस स्थिति में जब दोनों $$\boldsymbol\theta$$ और $$\mathbf{Z}$$ अज्ञात हैं: जैसा कि अभी बताया गया है, एल्गोरिथ्म नीरस रूप से लागत फ़ंक्शन के स्थानीय न्यूनतम तक पहुंचता है।
 * 1) सबसे पहले, पैरामीटर्स को इनिशियलाइज़ करें $$\boldsymbol\theta$$ कुछ यादृच्छिक मूल्यों के लिए.
 * 2) प्रत्येक संभावित मान की संभावना की गणना करें $$\mathbf{Z}$$, दिया गया $$\boldsymbol\theta$$.
 * 3) फिर, अभी-अभी गणना किए गए मानों का उपयोग करें $$\mathbf{Z}$$ मापदंडों के लिए बेहतर अनुमान की गणना करना $$\boldsymbol\theta$$.
 * 4) अभिसरण होने तक चरण 2 और 3 को दोहराएँ।

गुण
यद्यपि ईएम पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभावना फ़ंक्शन को बढ़ाती है, लेकिन कोई गारंटी नहीं है कि अनुक्रम अधिकतम संभावना अनुमानक में परिवर्तित हो जाता है। बिमोडल वितरण के लिए, इसका मतलब है कि एक ईएम एल्गोरिदम शुरुआती मूल्यों के आधार पर देखे गए डेटा संभावना फ़ंक्शन के स्थानीय अधिकतम में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या मेटाह्यूरिस्टिक दृष्टिकोण मौजूद हैं, जैसे यादृच्छिक-पुनः प्रारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों से शुरू) $$\boldsymbol\theta^{(t)}$$), या तैयार किए हुयी धातु पे पानी चढाने की कला  विधियों को लागू करना।

ईएम विशेष रूप से तब उपयोगी होता है जब संभावना एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें: ई चरण पर्याप्त आँकड़ों की अपेक्षाओं का योग बन जाता है, और एम चरण में एक रैखिक फ़ंक्शन को अधिकतम करना शामिल है। ऐसे मामले में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके, प्रत्येक चरण के लिए बंद-फ़ॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है (रॉल्फ सुंदरबर्ग द्वारा प्रमाणित और प्रकाशित, पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर)।

डेम्पस्टर, लेयर्ड और रुबिन द्वारा मूल पेपर में बायेसियन अनुमान के लिए अधिकतम पोस्टीरियरी (एमएपी) अनुमानों की गणना करने के लिए ईएम पद्धति को संशोधित किया गया था।

अधिकतम संभावना अनुमान खोजने के लिए अन्य विधियाँ मौजूद हैं, जैसे कि ढतला हुआ वंश, संयुग्मी ढाल, या गॉस-न्यूटन एल्गोरिदम के वेरिएंट। ईएम के विपरीत, ऐसे तरीकों के लिए आम तौर पर संभावना फ़ंक्शन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।

शुद्धता का प्रमाण
अपेक्षा-अधिकतमीकरण सुधार का कार्य करता है $$Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})$$ सीधे सुधार करने के बजाय $$\log p(\mathbf{X}\mid\boldsymbol\theta)$$. यहां यह दिखाया गया है कि पूर्व में सुधार से बाद में सुधार होता है। किसी के लिए $$\mathbf{Z}$$ गैर-शून्य संभावना के साथ $$p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta)$$, हम लिख सकते हैं

\log p(\mathbf{X}\mid\boldsymbol\theta) = \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta). $$ हम अज्ञात डेटा के संभावित मूल्यों पर अपेक्षा रखते हैं $$\mathbf{Z}$$ वर्तमान पैरामीटर अनुमान के तहत $$\theta^{(t)}$$ दोनों पक्षों को गुणा करके $$p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)})$$ और सारांशित करना (या एकीकृत करना)। $$\mathbf{Z}$$. बाईं ओर एक स्थिरांक की अपेक्षा है, इसलिए हमें मिलता है:

\begin{align} \log p(\mathbf{X}\mid\boldsymbol\theta) & = \sum_{\mathbf{Z}} p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)}) \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \sum_{\mathbf{Z}} p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)}) \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta) \\ & = Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) + H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}), \end{align} $$ कहाँ $$H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})$$ इसे उस नकारात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है। यह अंतिम समीकरण प्रत्येक मान के लिए मान्य है $$\boldsymbol\theta$$ शामिल $$\boldsymbol\theta = \boldsymbol\theta^{(t)}$$,

\log p(\mathbf{X}\mid\boldsymbol\theta^{(t)}) = Q(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}) + H(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}), $$ और इस अंतिम समीकरण को पिछले समीकरण से घटाने पर प्राप्त होता है

\log p(\mathbf{X}\mid\boldsymbol\theta) - \log p(\mathbf{X}\mid\boldsymbol\theta^{(t)}) = Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) - Q(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}) + H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) - H(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}). $$ हालाँकि, गिब्स की असमानता हमें यह बताती है $$H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) \ge H(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)})$$, तो हम यह निष्कर्ष निकाल सकते हैं

\log p(\mathbf{X}\mid\boldsymbol\theta) - \log p(\mathbf{X}\mid\boldsymbol\theta^{(t)}) \ge Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) - Q(\boldsymbol\theta^{(t)}\mid\boldsymbol\theta^{(t)}). $$ शब्दों में, चुनना $$\boldsymbol\theta$$ सुधार करने के लिए $$Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})$$ कारण $$\log p(\mathbf{X}\mid\boldsymbol\theta)$$ कम से कम इतना सुधार करने के लिए.

अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में
ईएम एल्गोरिदम को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी समन्वय वंश के उदाहरण के रूप में। फ़ंक्शन पर विचार करें:
 * $$ F(q,\theta) := \operatorname{E}_q [ \log L (\theta ; x,Z) ] + H(q), $$ जहां q, न देखे गए डेटा z पर एक मनमाना संभाव्यता वितरण है और H(q) वितरण q की एन्ट्रॉपी (सूचना सिद्धांत) है। इस फ़ंक्शन को इस प्रकार लिखा जा सकता है
 * $$ F(q,\theta) = -D_{\mathrm{KL}}\big(q \parallel p_{Z\mid X}(\cdot\mid x;\theta ) \big) + \log L(\theta;x), $$

कहाँ $$p_{Z\mid X}(\cdot\mid x;\theta )$$ देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण है $$x$$ और $$D_{KL}$$ कुल्बैक-लीब्लर विचलन है।

फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:
 * अपेक्षा चरण: चुनें $$q$$ बढ़ाने के लिए $$F$$:
 * $$ q^{(t)} = \operatorname{arg\,max}_q \ F(q,\theta^{(t)}) $$
 * अधिकतमीकरण चरण: चुनें $$\theta$$ बढ़ाने के लिए $$F$$:
 * $$ \theta^{(t+1)} = \operatorname{arg\,max}_\theta \ F(q^{(t)},\theta) $$

अनुप्रयोग
मिश्रित मॉडलों के पैरामीटर आकलन के लिए अक्सर EM का उपयोग किया जाता है, विशेष रूप से मात्रात्मक आनुवंशिकी में। साइकोमेट्रिक्स में, ईएम आइटम मापदंडों और आइटम प्रतिक्रिया सिद्धांत मॉडल की अव्यक्त क्षमताओं का अनुमान लगाने के लिए एक महत्वपूर्ण उपकरण है।

गुम डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, ईएम पोर्टफोलियो की कीमत और जोखिम प्रबंधन के लिए एक उपयोगी उपकरण बन रहा है।

ईएम एल्गोरिथ्म (और इसके तेज़ संस्करण आदेशित उपसमुच्चय अपेक्षा अधिकतमीकरण का आदेश दिया) का व्यापक रूप से चिकित्सा इमेजिंग पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पोजीट्रान एमिशन टोमोग्राफी, एकल-फोटॉन उत्सर्जन परिकलित टोमोग्राफी  और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें।

संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) का उपयोग करके संरचनात्मक पहचान एल्गोरिदम सेंसर डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है (ऑपरेशनल मॉडल विश्लेषण देखें)।

EM का उपयोग डेटा क्लस्टरिंग के लिए भी किया जाता है। प्राकृतिक भाषा प्रसंस्करण में, एल्गोरिदम के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च एल्गोरिदम हैं, और संभाव्य संदर्भ-मुक्त व्याकरण के अप्रशिक्षित प्रेरण के लिए अंदर-बाहर एल्गोरिदम हैं।

इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी शेयर बाजार  में शेयर (वित्त) में बाद के ट्रेडों के बीच का समय, ईएम एल्गोरिदम बहुत उपयोगी साबित हुआ है।

ईएम एल्गोरिदम को फ़िल्टर करना और चिकना करना
एक कलमन फ़िल्टर का उपयोग आम तौर पर ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल मापदंडों के अनुमान की आवश्यकता होती है। ईएम एल्गोरिदम का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है।

इस दो-चरणीय प्रक्रिया को दोहराकर ईएम एल्गोरिदम को फ़िल्टर करना और चिकना करना उत्पन्न होता है:


 * ई-कदम
 * अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें।


 * एम-स्टेप
 * अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभावना गणना के भीतर फ़िल्टर किए गए या सुचारू राज्य अनुमानों का उपयोग करें।

मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें एडिटिव व्हाइट शोर होता है। अधिकतम संभावना गणना से एक अद्यतन माप शोर विचरण अनुमान प्राप्त किया जा सकता है
 * $$\widehat{\sigma}^2_v = \frac{1}{N} \sum_{k=1}^N {(z_k-\widehat{x}_k)}^2,$$

कहाँ $$\widehat{x}_k$$ स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ द्वारा गणना किए जाते हैं $$z_k$$. उपरोक्त अद्यतन को पॉइसन माप शोर तीव्रता को अद्यतन करने के लिए भी लागू किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया शोर विचरण अनुमान की गणना की जा सकती है
 * $$\widehat{\sigma}^2_w =  \frac{1}{N} \sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F}\widehat_k)}^2,$$

कहाँ $$\widehat{x}_k$$ और $$\widehat{x}_{k+1}$$ स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है
 * $$\widehat{F} = \frac{\sum_{k=1}^N {(\widehat{x}_{k+1}-\widehat{F} \widehat{x}_k)}^2}{\sum_{k=1}^N \widehat{x}_k^2}.$$

उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।

वेरिएंट
ईएम एल्गोरिथ्म के कभी-कभी धीमे अभिसरण को तेज करने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना। इसके अलावा, ईएम का उपयोग प्रतिबंधित अनुमान विधियों के साथ किया जा सकता है।

पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण (पीएक्स-ईएम) एल्गोरिथ्म अक्सर हमारे द्वारा एम चरण के विश्लेषण को सही करने के लिए 'सहप्रसरण समायोजन' की गति प्रदान करता है, जो कि आरोपित पूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है। अपेक्षा सशर्त अधिकतमीकरण (ईसीएम) प्रत्येक एम चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θi व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से अन्य मापदंडों पर तय किया जाता है। स्वयं को एक्सपेक्टेशन कंडीशनल मैक्सिमाइजेशन (ईसीएमई) एल्गोरिथम में विस्तारित किया जा सकता है। इस विचार को सामान्यीकृत अपेक्षा अधिकतमीकरण (जीईएम) एल्गोरिदम में आगे बढ़ाया गया है, जिसमें ई चरण और एम चरण दोनों के लिए उद्देश्य फ़ंक्शन एफ में केवल वृद्धि की मांग की गई है जैसा कि #अधिकतमकरण-अधिकतमकरण प्रक्रिया के रूप में|अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग के रूप में वर्णित है। GEM को एक वितरित वातावरण में विकसित किया गया है और आशाजनक परिणाम दिखाता है। एमएम एल्गोरिथ्म को एमएम एल्गोरिथम (संदर्भ के आधार पर मेजराइज़/मिनिमाइज़ या माइनराइज़/मैक्सिमाइज़) एल्गोरिथम के उपवर्ग के रूप में विचार करना भी संभव है, और इसलिए अधिक सामान्य मामले में विकसित किसी भी मशीनरी का उपयोग करें।

α-EM एल्गोरिथ्म
ईएम एल्गोरिदम में प्रयुक्त क्यू-फ़ंक्शन लॉग संभावना पर आधारित है। इसलिए, इसे लॉग-ईएम एल्गोरिदम माना जाता है। लॉग संभावना के उपयोग को α-लॉग संभावना अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-लॉग संभावना अनुपात को α-लॉग संभावना अनुपात और α-विचलन के क्यू-फ़ंक्शन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस क्यू-फ़ंक्शन को प्राप्त करना एक सामान्यीकृत ई चरण है। इसका अधिकतमीकरण एक सामान्यीकृत एम चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है जिसमें इसके उपवर्ग के रूप में लॉग-ईएम एल्गोरिदम शामिल है। इस प्रकार, यासुओ मात्सुयामा द्वारा α-EM एल्गोरिथ्म लॉग-ईएम एल्गोरिथ्म का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर लॉग-EM एल्गोरिदम की तुलना में तेज़ अभिसरण दिखाता है। α-EM एल्गोरिदम हिडन मार्कोव मॉडल आकलन एल्गोरिदम α-HMM के तेज़ संस्करण की ओर ले जाता है।

परिवर्तनशील बेयस विधियों से संबंध
ईएम आंशिक रूप से गैर-बायेसियन, अधिकतम संभावना विधि है। इसका अंतिम परिणाम θ के लिए एक बिंदु अनुमान (या तो अधिकतम संभावना अनुमान या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो θ और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, ई और एम चरणों के बीच का अंतर गायब हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित Q सन्निकटन (वैरिएबल बेयस) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब θ सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति k चरणों की आवश्यकता है, जहाँ k अव्यक्त चर की संख्या है। चित्रमय मॉडल के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया क्यू केवल उसके मार्कोव कंबल पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।

ज्यामितीय व्याख्या
सूचना ज्यामिति में, ई चरण और एम चरण की व्याख्या दोहरे एफ़िन कनेक्शन के तहत प्रक्षेपण के रूप में की जाती है, जिसे ई-कनेक्शन और एम-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।

गाऊसी मिश्रण


होने देना $$\mathbf{x} = (\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n)$$ का एक नमूना हो $$n$$ आयाम के दो बहुभिन्नरूपी सामान्य वितरणों के मिश्रण मॉडल से स्वतंत्र अवलोकन $$d$$, और जाने $$\mathbf{z} = (z_1,z_2,\ldots,z_n)$$ वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है। : $$X_i \mid(Z_i = 1) \sim \mathcal{N}_d(\boldsymbol{\mu}_1,\Sigma_1)$$ और $$X_i \mid(Z_i = 2) \sim \mathcal{N}_d(\boldsymbol{\mu}_2,\Sigma_2),$$ कहाँ
 * $$\operatorname{P} (Z_i = 1 ) = \tau_1 \, $$ और $$\operatorname{P} (Z_i=2) = \tau_2 = 1-\tau_1.$$

इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात मापदंडों का अनुमान लगाना है:
 * $$\theta = \big( \boldsymbol{\tau},\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\Sigma_1,\Sigma_2 \big),$$

जहां अपूर्ण-डेटा संभावना फ़ंक्शन है
 * $$L(\theta;\mathbf{x}) = \prod_{i=1}^n \sum_{j=1}^2 \tau_j \ f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j),$$

और पूर्ण-डेटा संभावना फ़ंक्शन है
 * $$L(\theta;\mathbf{x},\mathbf{z}) = p(\mathbf{x},\mathbf{z} \mid \theta) = \prod_{i=1}^n \prod_{j=1}^2  \ [f(\mathbf{x}_i;\boldsymbol{\mu}_j,\Sigma_j) \tau_j] ^{\mathbb{I}(z_i=j)},$$

या


 * $$L(\theta;\mathbf{x},\mathbf{z}) = \exp \left\{ \sum_{i=1}^n \sum_{j=1}^2 \mathbb{I}(z_i=j) \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big] \right\},$$

कहाँ $$\mathbb{I}$$ एक सूचक कार्य है और $$f$$ बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है।

अंतिम समानता में, प्रत्येक के लिए $i$, एक सूचक $$\mathbb{I}(z_i=j)$$ शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है।

ई चरण
पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ(t), Z का सशर्त वितरणi बेयस प्रमेय द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फ़ंक्शन की आनुपातिक ऊंचाई निर्धारित की जाती है:
 * $$T_{j,i}^{(t)} := \operatorname{P}(Z_i=j \mid X_i=\mathbf{x}_i ;\theta^{(t)}) = \frac{\tau_j^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_j^{(t)},\Sigma_j^{(t)})}{\tau_1^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_1^{(t)},\Sigma_1^{(t)}) + \tau_2^{(t)} \ f(\mathbf{x}_i;\boldsymbol{\mu}_2^{(t)},\Sigma_2^{(t)})}.$$

इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें आम तौर पर ई चरण का आउटपुट माना जाता है (हालांकि यह नीचे का क्यू फ़ंक्शन नहीं है)।

यह E चरण Q के लिए इस फ़ंक्शन को सेट करने से मेल खाता है:
 * $$\begin{align}Q(\theta\mid\theta^{(t)})

&= \operatorname{E}_{\mathbf{Z}\mid\mathbf{X}=\mathbf{x};\mathbf{\theta}^{(t)}} [\log L(\theta;\mathbf{x},\mathbf{Z}) ] \\ &= \operatorname{E}_{\mathbf{Z}\mid\mathbf{X}=\mathbf{x};\mathbf{\theta}^{(t)}} [\log \prod_{i=1}^{n}L(\theta;\mathbf{x}_i,Z_i) ] \\ &= \operatorname{E}_{\mathbf{Z}\mid\mathbf{X}=\mathbf{x};\mathbf{\theta}^{(t)}} [\sum_{i=1}^n \log L(\theta;\mathbf{x}_i,Z_i) ] \\ &= \sum_{i=1}^n\operatorname{E}_{Z_i\mid X_i=x_i;\mathbf{\theta}^{(t)}} [\log L(\theta;\mathbf{x}_i,Z_i) ] \\ &= \sum_{i=1}^n \sum_{j=1}^2 P(Z_i =j \mid X_i = \mathbf{x}_i; \theta^{(t)}) \log L(\theta_j;\mathbf{x}_i,j) \\ &= \sum_{i=1}^n \sum_{j=1}^2 T_{j,i}^{(t)} \big[ \log \tau_j -\tfrac{1}{2} \log |\Sigma_j| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_j)^\top\Sigma_j^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_j) -\tfrac{d}{2} \log(2\pi) \big]. \end{align}$$ की अपेक्षा $$\log L(\theta;\mathbf{x}_i,Z_i)$$ योग के अंदर संभाव्यता घनत्व फ़ंक्शन के संबंध में लिया जाता है $$P(Z_i \mid X_i = \mathbf{x}_i; \theta^{(t)})$$, जो प्रत्येक के लिए भिन्न हो सकता है $$\mathbf{x}_i$$ प्रशिक्षण सेट का. ई चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है सिवाय इसके $$T_{j,i}$$, जिसकी गणना ई चरण अनुभाग की शुरुआत में समीकरण के अनुसार की जाती है।

इस पूर्ण सशर्त अपेक्षा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है।

एम चरण
Q(θ | θ(टी)) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, τ, ('μ'1,एस1) और (μ2,एस2) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।

आरंभ करने के लिए, τ पर विचार करें, जिसमें बाधा τ है1 + टी2=1:
 * $$\begin{align}\boldsymbol{\tau}^{(t+1)}

&= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}}\ Q(\theta \mid \theta^{(t)} ) \\ &= \underset{\boldsymbol{\tau}} {\operatorname{arg\,max}} \ \left\{ \left[ \sum_{i=1}^n T_{1,i}^{(t)} \right] \log \tau_1 + \left[  \sum_{i=1}^n T_{2,i}^{(t)} \right] \log \tau_2  \right\}. \end{align}$$ इसका रूप द्विपद वितरण के लिए एमएलई के समान है
 * $$\tau^{(t+1)}_j = \frac{\sum_{i=1}^n T_{j,i}^{(t)}}{\sum_{i=1}^n (T_{1,i}^{(t)} + T_{2,i}^{(t)} ) } = \frac{1}{n} \sum_{i=1}^n T_{j,i}^{(t)}.$$

(μ) के अगले अनुमानों के लिए1,एस1):
 * $$\begin{align}(\boldsymbol{\mu}_1^{(t+1)},\Sigma_1^{(t+1)})

&= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ Q(\theta \mid \theta^{(t)} ) \\ &= \underset{\boldsymbol{\mu}_1,\Sigma_1} \operatorname{arg\,max}\ \sum_{i=1}^n T_{1,i}^{(t)} \left\{ -\tfrac{1}{2} \log |\Sigma_1| -\tfrac{1}{2}(\mathbf{x}_i-\boldsymbol{\mu}_1)^\top\Sigma_1^{-1} (\mathbf{x}_i-\boldsymbol{\mu}_1) \right\} \end{align}.$$ इसका रूप सामान्य वितरण के लिए भारित एमएलई के समान है
 * $$\boldsymbol{\mu}_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{1,i}^{(t)}} $$ और $$\Sigma_1^{(t+1)} = \frac{\sum_{i=1}^n T_{1,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_1^{(t+1)})^\top }{\sum_{i=1}^n T_{1,i}^{(t)}} $$

और, समरूपता से,
 * $$\boldsymbol{\mu}_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} \mathbf{x}_i}{\sum_{i=1}^n T_{2,i}^{(t)}} $$ और $$\Sigma_2^{(t+1)} = \frac{\sum_{i=1}^n T_{2,i}^{(t)} (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)}) (\mathbf{x}_i - \boldsymbol{\mu}_2^{(t+1)})^\top }{\sum_{i=1}^n T_{2,i}^{(t)}}.$$

समाप्ति
यदि पुनरावृत्तीय प्रक्रिया समाप्त करें $$ E_{Z\mid\theta^{(t)},\mathbf{x}}[\log L(\theta^{(t)};\mathbf{x},\mathbf{Z})] \leq E_{Z\mid\theta^{(t-1)},\mathbf{x}}[\log L(\theta^{(t-1)};\mathbf{x},\mathbf{Z})] + \varepsilon$$ के लिए $$ \varepsilon $$ कुछ पूर्व निर्धारित सीमा से नीचे.

सामान्यीकरण
ऊपर चित्रित एल्गोरिदम को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।

काट-छाँट और सेंसर किया गया प्रतिगमन
ईएम एल्गोरिदम को उस मामले में लागू किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के सेंसर किए गए या काट दिए गए संस्करण हैं। इस मॉडल के विशेष मामलों में एक सामान्य वितरण से सेंसर किए गए या काटे गए अवलोकन शामिल हैं।

विकल्प
ईएम आमतौर पर स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य तौर पर अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की घातीय संख्या हो सकती है। इसलिए, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता मौजूद है, खासकर उच्च-आयामी सेटिंग में। स्थिरता के लिए बेहतर गारंटी के साथ ईएम के विकल्प मौजूद हैं, जिन्हें क्षण-आधारित दृष्टिकोण कहा जाता है या तथाकथित वर्णक्रमीय तकनीकें. संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि का है चूंकि वे ईएम के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो अक्सर स्थानीय ऑप्टिमा में फंसने की समस्या से ग्रस्त होता है। सीखने की गारंटी वाले एल्गोरिदम कई महत्वपूर्ण मॉडल जैसे मिश्रण मॉडल, एचएमएम आदि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।.

यह भी देखें

 * मिश्रण वितरण
 * यौगिक वितरण
 * घनत्व अनुमान
 * प्रमुख कंपोनेंट विश्लेषण
 * कुल अवशोषण स्पेक्ट्रोस्कोपी
 * ईएम एल्गोरिदम को एमएम एल्गोरिदम | मेजराइज-मिनिमाइजेशन (एमएम) एल्गोरिदम के एक विशेष मामले के रूप में देखा जा सकता है।

अग्रिम पठन

 * gives an easier explanation of EM algorithm as to lowerbound maximization.
 * A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
 * includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
 * A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
 * includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.

बाहरी संबंध

 * Various 1D, 2D and 3D demonstrations of EM together with Mixture Modeling are provided as part of the paired SOCR activities and applets. These applets and activities show empirically the properties of the EM algorithm for parameter estimation in diverse settings.
 * Class hierarchy in C++ (GPL) including Gaussian Mixtures
 * The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay includes simple examples of the EM algorithm such as clustering using the soft k-means algorithm, and emphasizes the variational view of the EM algorithm, as described in Chapter 33.7 of version 7.2 (fourth edition).
 * Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs (chapters).
 * The Expectation Maximization Algorithm: A short tutorial, A self-contained derivation of the EM Algorithm by Sean Borman.
 * The EM Algorithm, by Xiaojin Zhu.
 * EM algorithm and variants: an informal tutorial by Alexis Roche. A concise and very clear description of EM and many interesting variants.