प्रत्याशा-अधिकतमकरण एल्गोरिथ्म

From Vigyanwiki

सांख्यिकी में, एक प्रत्याशा-अधिकतमकरण (EM) कलन विधि सांख्यिकीय मॉडल में पैरामीटर के (स्थानीय) अधिकतम संभाविता या अधिकतम पोस्टीरियोरी (MAP) अनुमान को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य अव्यक्त चर पर निर्भर करता है।[1] EM पुनरावृत्ति एक प्रत्याशा (E) चरण के प्रदर्शन के बीच वैकल्पिक होती है, जो पैरामीटर के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन की गई log-संभाविता की प्रत्याशा के लिए एक फलन बनाती है, और एक अधिकतमकरण (M) चरण, जो E चरण पर पाई गई प्रत्याशा log-संभाविता को अधिकतम करने वाले पैरामीटर की गणना करता है फिर इन पैरामीटर-अनुमानों का उपयोग अगले E चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।

पुराने फेथफुल विस्फोट डेटा की EM क्लस्टरिंग। यादृच्छिक प्रारंभिक मॉडल (जो, अक्षों के विभिन्न पैमानों के कारण, दो बहुत सपाट और चौड़े दीर्घवृत्त प्रतीत होता है) प्रेक्षित डेटा के लिए उपयुक्त है। पहले पुनरावृत्तियों में, मॉडल काफी हद तक बदल जाता है, लेकिन फिरगरम पानी का झरना के दो मोड में परिवर्तित हो जाता है। ELKI का उपयोग करके विज़ुअलाइज़ किया गया।

इतिहास

EM कलन विधि को आर्थर डेम्पस्टर, नान लेयर्ड और डोनाल्ड रुबिन द्वारा 1977 के एक क्लासिक पेपर में समझाया गया और इसका नाम दिया गया था।[2] उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा "विशेष परिस्थितियों में कई बार प्रस्तावित" की गई थी। सेड्रिक स्मिथ द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे प्रारम्भ में से एक है।[3] दूसरा प्रस्ताव 1958 में एचओ हार्टले और 1977 में हार्टले और हॉकिंग द्वारा दिया गया था, जिससे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई।[4] 1977 में एस.के. एनजी, त्रियंबकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और उत्पत्ति हुई।[5] हार्टले के विचारों को किसी भी समूहीकृत पृथक वितरण तक विस्तारित किया जा सकता है। पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद, रोल्फ़ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में घातीय परिवारों के लिए EM पद्धति का एक बहुत विस्तृत उपचार प्रकाशित किया था,[6][7][8][9][10][11][12][13] 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के एक व्यापक वर्ग के लिए एक अभिसरण विश्लेषण का खाका तैयार किया। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने EM पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डायक (1997) भी देखें।

डेम्पस्टर-लेयर्ड-रुबिन कलन विधि का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। वू के प्रमाण ने EM पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने प्राप्य किया था।

परिचय

EM कलन विधि का उपयोग सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभाविता पैरामीटर को खोजने के लिए किया जाता है, जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात पैरामीटर और ज्ञात डेटा अवलोकनों के अलावा गुप्त चर सम्मिलित होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान उपस्थित हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक मिश्रण मॉडल को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु, या अव्यक्त चर होता है, जो मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।

अधिकतम संभाविता समाधान ढूढ़ने के लिए सामान्यतः सभी अज्ञात मूल्यों, पैरामीटर और अव्यक्त चर के संबंध में संभाविता फलन के डेरिवेटिव को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। गुप्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके स्थान में, परिणाम सामान्यतः इंटरलॉकिंग समीकरणों का एक समुच्चय होता है जिसमें पैरामीटर के समाधान के लिए अव्यक्त चर के मानों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक समुच्चय को दूसरे में प्रतिस्थापित करने से एक जटिल समीकरण उत्पन्न होता है।

EM कलन विधि इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो समुच्चयों को संख्यात्मक रूप से हल करने की एक विधि है। कोई अज्ञात के दो समुच्चयों में से एक के लिए यादृच्छिक मान चुन सकता है, दूसरे समुच्चय का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले समुच्चय का बेहतर अनुमान खोजने के लिए इन नए मानों का उपयोग करें, और तब तक दोनों के बीच बारी-बारी से काम करते रहें जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे साबित किया जा सकता है। इसके अतिरिक्त, यह सिद्ध किया जा सकता है कि उस बिंदु पर संभाविता का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है। सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इस बात की कोई प्रत्याभूति नहीं है कि वैश्विक मैक्सिमा मिल जाएगी। कुछ संभावनाओं में विलक्षणताएँ भी होती हैं, यानी, निरर्थक अधिकतमा उदाहरण के लिए, मिश्रण मॉडल में EM द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए माध्य पैरामीटर को डेटा बिंदुओं में से एक के बराबर समुच्चय करना सम्मिलित है।

विवरण

प्रतीक

सांख्यिकीय मॉडल को देखते हुए, जो देखे गए डेटा का एक समुच्चय , न देखे गए अव्यक्त डेटा का एक समुच्चय या लुप्त मान उत्पन्न करता है, और अज्ञात पैरामीटर का एक वेक्टर, एक संभाविता फलन के साथ, अज्ञात पैरामीटर की अधिकतम संभाविता अनुमान (MLE) देखे गए डेटा की सीमांत संभाविता को अधिकतम करके निर्धारित किया जाता है

हालाँकि, यह मात्रा प्रायः कठिन होती है क्योंकि का अवलोकन नहीं किया जाता है और प्राप्त करने से पहले का वितरण अज्ञात है।

EM कलन विधि

EM कलन विधि इन दो चरणों को पुनरावृत्त रूप से प्रयुक्त करके सीमांत संभाविता के MLE को ढूंढना चाहता है:

प्रत्याशा चरण (E चरण): परिभाषित करें log संभाविता फलन के प्रत्याशा मान के रूप में, की वर्तमान सशर्त संभाव्यता वितरण के संबंध में दिया गया और पैरामीटर का वर्तमान अनुमान:
अधिकतमकरण चरण (M चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें:

अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:

चरों की व्याख्या

जिन विशिष्ट मॉडलों पर EM प्रयुक्त किया जाता है समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में:

  1. अवलोकित डेटा बिंदु असतत यादृच्छिक चर (एक परिमित या गणनीय अनंत समुच्चय में मान लेना) या निरंतर यादृच्छिक चर (एक बेशुमार अनंत समुच्चय में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है।
  2. अनुपलब्ध मान (उपनाम अव्यक्त चर) असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है।
  3. पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)।

हालाँकि, EM को अन्य प्रकार के मॉडलों पर प्रयुक्त करना संभव है।

प्रेरणा इस प्रकार है. यदि पैरामीटर का मान ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य के सभी संभावित मानों पर log-संभाविता को अधिकतम करके पाया जा सकता है , या तो बस बार-बार दोहराकर या छिपे छिपा हुआ मार्कोव मॉडल के लिए विटर्बी कलन विधि जैसे कलन विधि के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं , हम पैरामीटर का अनुमान पा सकते हैं काफी आसानी से, सामान्यतः देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फलन का औसत निकालकर। यह एक पुनरावृत्त कलन विधि का सुझाव देता है, उस स्थिति में जब दोनों और अज्ञात हैं:

  1. सबसे पहले, पैरामीटर्स को इनिशियलाइज़ करें कुछ यादृच्छिक मूल्यों के लिए है।
  2. प्रत्येक संभावित मान की संभाविता की गणना करें, दिया गया है।
  3. फिर, अभी-अभी गणना किए गए मानों का उपयोग करें पैरामीटर के लिए बेहतर अनुमान की गणना करना है।
  4. अभिसरण होने तक चरण 2 और 3 को दोहराएँ।

जैसा कि अभी बताया गया है, कलन विधि नीरस रूप से लागत फलन के स्थानीय न्यूनतम तक पहुंचता है।

गुण

हालाँकि एक EM पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभाविता फलन को बढ़ाती है, लेकिन कोई प्रत्याभूति नहीं है कि अनुक्रम अधिकतम संभाविता अनुमानक में परिवर्तित हो जाता है। मल्टीमॉडल वितरण के लिए, इसका मतलब यह है कि एक EM कलन विधि प्रारंभिक मूल्यों के आधार पर, देखे गए डेटा संभाविता फलन के स्थानीय अधिकतम में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या मेटाह्यूरिस्टिक दृष्टिकोण उपस्थित हैं, जैसे कि यादृच्छिक-पुनरारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों से प्रारम्भ करना, या सिम्युलेटेड एनीलिंग विधियों को प्रयुक्त करना)।

EM विशेष रूप से तब उपयोगी होता है जब संभाविता एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें:[14] E चरण पर्याप्त सांख्यिकी की अपेक्षाओं का योग बन जाता है, और M चरण में एक रैखिक फलन को अधिकतम करना सम्मिलित होता है . ऐसे स्थिति में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके प्रत्येक चरण के लिए बंद-फॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है[15] (प्रति मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर रॉल्फ सुंदरबर्ग द्वारा सिद्ध और प्रकाशित)।[7][8][10][11][12][13]

डेम्पस्टर, लैयर्ड और रुबिन द्वारा मूल पेपर में बायेसियन अनुमान के लिए अधिकतम पोस्टीरियरी (MAP) अनुमानों की गणना करने के लिए EM विधि को संशोधित किया गया था।

अधिकतम संभाविता का अनुमान लगाने के लिए अन्य विधियाँ उपस्थित हैं, जैसे कि ग्रेडिएंट डिसेंट, संयुग्म ग्रेडिएंट, या गॉस-न्यूटन कलन विधि के वेरिएंट। EM के विपरीत, ऐसे तरीकों को आमतौर पर संभाविता फलन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।

शुद्धता का प्रमाण

अपेक्षा-अधिकतमीकरण सीधे में श्रेष्ठतर करने के स्थान में में श्रेष्ठतर करने के लिए काम करता है। यहां यह दिखाया गया है कि पहले में श्रेष्ठतर से बाद में श्रेष्ठतर होता है।[16]

किसी के लिए गैर-शून्य संभाविता के साथ , हम लिख सकते हैं

हम अज्ञात डेटा के संभावित मूल्यों पर प्रत्याशा रखते हैं वर्तमान पैरामीटर अनुमान के तहत दोनों पक्षों को गुणा करके और सारांशित करना (या एकीकृत करना)। . बाईं ओर एक स्थिरांक की प्रत्याशा है, इसलिए हमें मिलता है:

जहाँ इसे उस ऋणात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है।

यह अंतिम समीकरण प्रत्येक मान सम्मिलित के लिए मान्य है,

और इस अंतिम समीकरण को पिछले समीकरण से घटाने पर प्राप्त होता है

हालाँकि, गिब्स की असमानता हमें यह बताती है , तो हम यह निष्कर्ष निकाल सकते हैं

शब्दों में, को सुधारने के लिए चुनने से में कम से कम उतना ही श्रेष्ठतर होता है।

अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में

EM कलन विधि को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी समन्वित अवतरण के उदाहरण के रूप में।[17][18] फलन पर विचार करें:

जहां q, न देखे गए डेटा z पर एक यादृच्छिक संभाव्यता वितरण है और H(q) वितरण q की एन्ट्रॉपी है। इस फलन को इस प्रकार लिखा जा सकता है

जहाँ देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण है और कुल्बैक-लीब्लर विचलन है।

फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:

प्रत्याशा चरण: चुनें बढ़ाने के लिए :
अधिकतमीकरण चरण: अधिकतम के लिए चुनें:

अनुप्रयोग

EM का प्रयोग प्रायः मिश्रित मॉडलों के पैरामीटर आकलन के लिए किया जाता है,[19][20] विशेष रूप से मात्रात्मक आनुवंशिकी में।[21]

साइकोमेट्रिक्स में, विषय प्रतिक्रिया सिद्धांत मॉडल के विषय मापदंडों और अव्यक्त क्षमताओं का आकलन करने के लिए EM एक महत्वपूर्ण उपकरण है।

लापता डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, EM एक पोर्टफोलियो के मूल्य निर्धारण और जोखिम का प्रबंधन करने के लिए एक उपयोगी उपकरण बन रहा है।

EM कलन विधि (और इसके तेज़ वेरिएंट ऑर्डर किए गए उपसमुच्चय अपेक्षा अधिकतमकरण) का व्यापक रूप से चिकित्सा छवि पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पॉज़िट्रॉन उत्सर्जन टोमोग्राफी, एकल-फोटॉन उत्सर्जन कंप्यूटेड टोमोग्राफी और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें।

संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) [22] कलन विधि का उपयोग करके स्ट्रक्चरल आइडेंटिफिकेशन, नियंत्रक डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है (ऑपरेशनल मोडल विश्लेषण देखें)।

EM का उपयोग डेटा क्लस्टरिंग के लिए भी किया जाता है। प्राकृतिक भाषा प्रसंस्करण में, कलन विधि के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च कलन विधि हैं, और संभाव्य संदर्भ-मुक्त व्याकरणों के अनियंत्रित प्रेरण के लिए अंदर-बाहर कलन विधि हैं।

इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी स्टॉक एक्सचेंज में स्टॉक के शेयरों में बाद के ट्रेडों के बीच का समय, EM कलन विधि बहुत उपयोगी साबित हुआ है।[23]

EM कलन विधि को फ़िल्टर करना और स्मूथ करना

एक कलमन फ़िल्टर का उपयोग सामान्यतः ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल पैरामीटर के अनुमान की आवश्यकता होती है। EM कलन विधि का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है।

इस दो-चरणीय प्रक्रिया को दोहराकर EM कलन विधि को फ़िल्टर करना और स्मूथ करना उत्पन्न होता है:

E-चरण
अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें।
M-चरण
अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभाविता गणना के भीतर फ़िल्टर किए गए या स्मूथ स्टेट अनुमानों का उपयोग करें।

मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें योगात्मक श्वेत रव होता है। अधिकतम संभाविता गणना से एक अद्यतन माप रव विचरण अनुमान प्राप्त किया जा सकता है

जहाँ स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ द्वारा गणना किए जाते हैं उपरोक्त अद्यतन को पॉइसन माप रव तीव्रता को अद्यतन करने के लिए भी प्रयुक्त किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया रव विचरण अनुमान की गणना की जा सकती है

जहाँ और स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है

उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।[24][25][26][27]

वेरिएंट

EM कलन विधि के कभी-कभी धीमे अभिसरण में तेजी लाने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना।[28] इसके अलावा, EM का उपयोग विवश आकलन विधियों के साथ किया जा सकता है।

पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण (PX-EM) कलन विधि प्रायः M चरण के विश्लेषण को सही करने के लिए "us[ing] एक 'सहप्रसरण समायोजन' द्वारा गति प्रदान करता है, जो कि आरोपित संपूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है"।[29]

प्रत्याशा सशर्त अधिकतमीकरण (ECM) प्रत्येक M चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θi को व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से शेष अन्य मापदंडों पर।[30] स्वयं को एक्सपेक्टेशन कंडीशनल मैक्सिमाइज़ेशन (ECME) कलन विधि में बढ़ाया जा सकता है।[31]

इस विचार को सामान्यीकृत अपेक्षा अधिकतमीकरण (GEM) कलन विधि में आगे बढ़ाया गया है, जिसमें ई चरण और M चरण दोनों के लिए उद्देश्य फलन एफ में केवल वृद्धि की मांग की गई है, जैसा कि अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग में वर्णित है।[17] GEM को एक वितरित वातावरण में आगे विकसित किया गया है और आशाजनक परिणाम दिखाता है।[32]

EM कलन विधि को एमएम (संदर्भ के आधार पर मेजराइज/मिनिमाइज या माइनराइज/मैक्सिमाइज) कलन विधि के उपवर्ग के रूप में मानना भी संभव है, [33]और इसलिए अधिक सामान्य स्थिति में विकसित किसी भी मशीनरी का उपयोग करें।

α-EM कलन विधि

EM कलन विधि में प्रयुक्त Q-फलन log संभाविता पर आधारित है। इसलिए, इसे log-EM कलन विधि माना जाता है। log संभाविता के उपयोग को α-log संभाविता अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-log संभाविता अनुपात को α-log संभाविता अनुपात और α-विचलन के Q-फलन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस Q-फलन को प्राप्त करना एक सामान्यीकृत E चरण है। इसका अधिकतमीकरण एक सामान्यीकृत M चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है[34] जिसमें इसके उपवर्ग के रूप में log-EM कलन विधि सम्मिलित है। इस प्रकार, यासुओ मात्सुयामा द्वारा α-EM कलन विधि log-EM कलन विधि का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर log-EM कलन विधि की तुलना में तेज़ अभिसरण दिखाता है। α-EM कलन विधि हिडन मार्कोव मॉडल आकलन कलन विधि α-HMM के तेज़ संस्करण की ओर ले जाता है।[35]

परिवर्तनशील बेयस विधियों से संबंध

EM आंशिक रूप से गैर-बायेसियन, अधिकतम संभाविता विधि है। इसका अंतिम परिणाम θ के लिए एक बिंदु अनुमान (या तो अधिकतम संभाविता अनुमान या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो θ और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, E और M चरणों के बीच का अंतर लुप्त हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित Q सन्निकटन (वैरिएबल बेयस) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब θ सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति k चरणों की आवश्यकता है, जहाँ k अव्यक्त चर की संख्या है। चित्रमय मॉडल के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया Q केवल उसके मार्कोव ब्लैंकेट पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।

ज्यामितीय व्याख्या

सूचना ज्यामिति में, E चरण और M चरण की व्याख्या दोहरे एफ़िन कनेक्शन के तहत प्रक्षेपण के रूप में की जाती है, जिसे E-कनेक्शन और M-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।

उदाहरण

गाऊसी मिश्रण

के-मीन्स और EM की तुलना। भिन्नताओं का उपयोग करते हुए, EM कलन विधि सामान्य वितरण का सटीक वर्णन कर सकता है, जबकि के-साधन वोरोनोई आरेख-कोशिकाओं में डेटा को विभाजित करता है। क्लस्टर केंद्र को हल्के, बड़े प्रतीक द्वारा दर्शाया गया है।
पुराने फेथफुल डेटासेट में दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले EM कलन विधि को प्रदर्शित करने वाला एक एनीमेशन। कलन विधि यादृच्छिक आरंभीकरण से अभिसरण की ओर बढ़ता है।

मान लीजिये का एक नमूना हो आयाम के दो बहुभिन्नरूपी सामान्य वितरण के मिश्रण मॉडल से स्वतंत्र अवलोकन , और जाने वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।[18]:

और

जहाँ

और

इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात पैरामीटर का अनुमान लगाना है:

जहां अपूर्ण-डेटा संभाविता फलन है

और पूर्ण-डेटा संभाविता फलन है

या

जहाँ एक सूचक कार्य है और बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है।

अंतिम समानता में, प्रत्येक के लिए i, एक सूचक शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है।

E चरण

पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ(t), Z का सशर्त वितरणi बेयस प्रमेय द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फलन की आनुपातिक ऊंचाई निर्धारित की जाती है:

इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें सामान्यतः E चरण का आउटपुट माना जाता है (हालांकि यह नीचे का Q फलन नहीं है)।

यह E चरण Q के लिए इस फलन को समुच्चय करने से मेल खाता है:

की प्रत्याशा योग के अंदर संभाव्यता घनत्व फलन के संबंध में लिया जाता है , जो प्रत्येक के लिए भिन्न हो सकता है प्रशिक्षण समुच्चय का. E चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है अतिरिक्त इसके , जिसकी गणना E चरण अनुभाग की प्रारम्भ में समीकरण के अनुसार की जाती है।

इस पूर्ण सशर्त प्रत्याशा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है।

M चरण

Q(θ | θ(t)) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, τ, (μ1,Σ1) और (μ2,Σ2) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।

आरंभ करने के लिए, τ पर विचार करें, जिसमें बाध्यता τ1 + τ2=1 है:

इसका रूप द्विपद वितरण के लिए MLE के समान है

(μ) के अगले अनुमानों के लिए (μ11):

इसका रूप सामान्य वितरण के लिए भारित MLE के समान है

और

और, समरूपता से,

और

निवृत्ति

यदि पुनरावृत्तीय प्रक्रिया समाप्त करें के लिए कुछ पूर्व निर्धारित सीमा से नीचे.

सामान्यीकरण

ऊपर दर्शाए गए कलन विधि को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।

संक्षिप्त और नियंत्रक किया गया प्रतिगमन

EM कलन विधि को उस स्थिति में प्रयुक्त किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के नियंत्रक या संक्षिप्त संस्करण हैं।[36] इस मॉडल के विशेष स्थिति में एक सामान्य वितरण से नियंत्रक किए गए या संक्षिप्त किए गए अवलोकन सम्मिलित हैं।[36]

विकल्प

EM सामान्यतः स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य रूप से अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की संख्या घातांक हो सकती है। इसलिए, विशेष रूप से उच्च-आयामी सेटिंग में, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता उपस्थित है। EM के विकल्प निरंतरता की बेहतर गारंटी के साथ उपस्थित हैं, जिन्हें क्षण-आधारित दृष्टिकोण [37] या तथाकथित वर्णक्रमीय तकनीक [38][39] कहा जाता है। एक संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि के हैं क्योंकि वे EM के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो प्रायः स्थानीय ऑप्टिमा में फंसने के मुद्दे से ग्रस्त होता है। सीखने की गारंटी वाले कलन विधि कई महत्वपूर्ण मॉडलों जैसे मिश्रण मॉडल, HMMs इत्यादि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।

यह भी देखें

  • प्रमुख घटक विश्लेषण
  • पूर्ण अवशोषण स्पेक्ट्रोस्कोपी
  • EM कलन विधि को मेजराइज़-मिनिमाइज़ेशन (MM) कलन विधि के एक विशेष स्थिति के रूप में देखा जा सकता है।[40]

संदर्भ

  1. Meng, X.-L.; van Dyk, D. (1997). "The EM algorithm – an old folk-song sung to a fast new tune". J. Royal Statist. Soc. B. 59 (3): 511–567.
  2. Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
  3. Ceppelini, R.M. (1955). "यादृच्छिक-संभोग आबादी में जीन आवृत्तियों का अनुमान". Ann. Hum. Genet. 20 (2): 97–115. doi:10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
  4. Hartley, Herman Otto (1958). "अपूर्ण डेटा से अधिकतम संभावना अनुमान". Biometrics. 14 (2): 174–194. doi:10.2307/2527783. JSTOR 2527783.
  5. Ng, Shu Kay; Krishnan, Thriyambakam; McLachlan, Geoffrey J. (2011-12-21), "The EM Algorithm", Handbook of Computational Statistics, Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 139–172, doi:10.1007/978-3-642-21551-3_6, ISBN 978-3-642-21550-6, S2CID 59942212, retrieved 2022-10-15
  6. Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics. 1 (2): 49–58. JSTOR 4615553. MR 0381110.
  7. 7.0 7.1 Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
  8. 8.0 8.1 Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation. 5 (1): 55–64. doi:10.1080/03610917608812007. MR 0443190.
  9. See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.
  10. 10.0 10.1 प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहूस विश्वविद्यालय। (सुंडबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय दिया गया)।
  11. 11.0 11.1 प्रति मार्टिन-लोफ। 1970. सांख्यिकीय मॉडल: रॉल्फ सुंदरबर्ग की सहायता से स्कूल वर्ष 1969-1970 में सेमिनारों के नोट्स (व्याख्यान नोट्स 1969-1970)। स्टॉकहोम विश्वविद्यालय.
  12. 12.0 12.1 मार्टिन-लोफ, पी. अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विचलन के मात्रात्मक माप के रूप में इसका उपयोग। एफ. एबिल्डगार्ड, आर्थर पी. डेम्पस्टर|ए की चर्चा के साथ। पी. डेम्पस्टर, डी. बसु, डी. आर. कॉक्स, ए. डब्ल्यू. एफ. एडवर्ड्स, डी. ए. स्प्रोट, जॉर्ज ए. बरनार्ड|जी. ए. बरनार्ड, ओ. बार्नडॉर्फ-नील्सन, जे. डी. काल्बफ्लिश और राश मॉडल|जी. रैश और लेखक का उत्तर। सांख्यिकीय अनुमान में मूलभूत प्रश्नों पर सम्मेलन की कार्यवाही (आरहस, 1973), पीपी 1-42। संस्मरण, नंबर 1, विभाग सिद्धांत। सांख्यिकीविद्., उदाहरण. गणित., विश्वविद्यालय. आरहूस, आरहूस, 1974.
  13. 13.0 13.1 Martin-Löf, Per (1974). "अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग". Scand. J. Statist. 1 (1): 3–18.
  14. Sundberg, Rolf (2019). घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग. Cambridge University Press. ISBN 9781108701112.
  15. Laird, Nan (2006). "सुंदरबर्ग सूत्र". Wiley online library. Wiley.
  16. Little, Roderick J.A.; Rubin, Donald B. (1987). गायब डेटा के साथ सांख्यिकीय विश्लेषण. Wiley Series in Probability and Mathematical Statistics. New York: John Wiley & Sons. pp. 134–136. ISBN 978-0-471-80254-9.
  17. 17.0 17.1 Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को उचित ठहराता है (PDF). pp. 355–368. ISBN 978-0-262-60032-3. Retrieved 2009-03-22. {{cite book}}: |journal= ignored (help)
  18. 18.0 18.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). "8.5 The EM algorithm". सांख्यिकीय सबक के तत्व. New York: Springer. pp. 236–243. ISBN 978-0-387-95284-0.
  19. Lindstrom, Mary J; Bates, Douglas M (1988). "Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data". Journal of the American Statistical Association. 83 (404): 1014. doi:10.1080/01621459.1988.10478693.
  20. Van Dyk, David A (2000). "कुशल ईएम-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल फिट करना". Journal of Computational and Graphical Statistics. 9 (1): 78–98. doi:10.2307/1390614. JSTOR 1390614.
  21. Diffey, S. M; Smith, A. B; Welsh, A. H; Cullis, B. R (2017). "रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम". Australian & New Zealand Journal of Statistics. 59 (4): 433. doi:10.1111/anzs.12208.
  22. Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
  23. Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times". Physica A: Statistical Mechanics and its Applications. 587 (1): 126456. doi:10.1016/j.physa.2021.126456. ISSN 0378-4371.
  24. Einicke, G. A.; Malos, J. T.; Reid, D. C.; Hainsworth, D. W. (January 2009). "Riccati Equation and EM Algorithm Convergence for Inertial Navigation Alignment". IEEE Trans. Signal Process. 57 (1): 370–375. Bibcode:2009ITSP...57..370E. doi:10.1109/TSP.2008.2007090. S2CID 1930004.
  25. Einicke, G. A.; Falco, G.; Malos, J. T. (May 2010). "EM Algorithm State Matrix Estimation for Navigation". IEEE Signal Processing Letters. 17 (5): 437–440. Bibcode:2010ISPL...17..437E. doi:10.1109/LSP.2010.2043151. S2CID 14114266.
  26. Einicke, G. A.; Falco, G.; Dunn, M. T.; Reid, D. C. (May 2012). "Iterative Smoother-Based Variance Estimation". IEEE Signal Processing Letters. 19 (5): 275–278. Bibcode:2012ISPL...19..275E. doi:10.1109/LSP.2012.2190278. S2CID 17476971.
  27. Einicke, G. A. (Sep 2015). "Iterative Filtering and Smoothing of Measurements Possessing Poisson Noise". IEEE Transactions on Aerospace and Electronic Systems. 51 (3): 2205–2011. Bibcode:2015ITAES..51.2205E. doi:10.1109/TAES.2015.140843. S2CID 32667132.
  28. Jamshidian, Mortaza; Jennrich, Robert I. (1997). "अर्ध-न्यूटन विधियों का उपयोग करके ईएम एल्गोरिदम का त्वरण". Journal of the Royal Statistical Society, Series B. 59 (2): 569–587. doi:10.1111/1467-9868.00083. MR 1452026. S2CID 121966443.
  29. Liu, C (1998). "Parameter expansion to accelerate EM: The PX-EM algorithm". Biometrika. 85 (4): 755–770. CiteSeerX 10.1.1.134.9617. doi:10.1093/biomet/85.4.755.
  30. Liu, Chuanhai; Rubin, Donald B (1994). "The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence". Biometrika. 81 (4): 633. doi:10.1093/biomet/81.4.633. JSTOR 2337067.
  31. Meng, Xiao-Li; Rubin, Donald B. (1993). "Maximum likelihood estimation via the ECM algorithm: A general framework". Biometrika. 80 (2): 267–278. doi:10.1093/biomet/80.2.267. MR 1243503. S2CID 40571416.
  32. Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Accelerating Expectation–Maximization Algorithms with Frequent Updates" (PDF). Proceedings of the IEEE International Conference on Cluster Computing.
  33. Hunter DR and Lange K (2004), A Tutorial on MM Algorithms, The American Statistician, 58: 30–37
  34. Matsuyama, Yasuo (2003). "The α-EM algorithm: Surrogate likelihood maximization using α-logarithmic information measures". IEEE Transactions on Information Theory. 49 (3): 692–706. doi:10.1109/TIT.2002.808105.
  35. Matsuyama, Yasuo (2011). "Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs". International Joint Conference on Neural Networks: 808–816.
  36. 36.0 36.1 Wolynetz, M.S. (1979). "सीमित और सेंसर किए गए सामान्य डेटा से एक रैखिक मॉडल में अधिकतम संभावना अनुमान". Journal of the Royal Statistical Society, Series C. 28 (2): 195–206. doi:10.2307/2346749. JSTOR 2346749.
  37. Pearson, Karl (1894). "विकास के गणितीय सिद्धांत में योगदान". Philosophical Transactions of the Royal Society of London A. 185: 71–110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003. ISSN 0264-3820. JSTOR 90667.
  38. Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना" (PDF). UAI: 792–801.
  39. Balle, Borja Quattoni, Ariadna Carreras, Xavier (2012-06-27). Local Loss Optimization in Operator Models: A New Insight into Spectral Learning. OCLC 815865081.{{cite book}}: CS1 maint: multiple names: authors list (link)
  40. Lange, Kenneth. "एमएम एल्गोरिदम" (PDF).


अग्रिम पठन

  • Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introduction to Mathematical Statistics. Upper Saddle River, NJ: Pearson Prentice Hall. pp. 359–364.
  • Dellaert, Frank (2002). "The Expectation Maximization Algorithm". CiteSeerX 10.1.1.9.9735. {{cite journal}}: Cite journal requires |journal= (help) gives an easier explanation of EM algorithm as to lowerbound maximization.
  • Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
  • Gupta, M. R.; Chen, Y. (2010). "Theory and Use of the EM Algorithm". Foundations and Trends in Signal Processing. 4 (3): 223–296. CiteSeerX 10.1.1.219.6830. doi:10.1561/2000000034. A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
  • Bilmes, Jeff (1998). "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models". CiteSeerX 10.1.1.28.613. {{cite journal}}: Cite journal requires |journal= (help) includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
  • McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). The EM Algorithm and Extensions (2nd ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.


बाहरी संबंध