प्रत्याशा-अधिकतमकरण एल्गोरिथ्म

From Vigyanwiki
Revision as of 22:58, 25 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Iterative method for finding maximum likelihood estimates in statistical models}} आंकड़ों में, एक अपेक्षा-अधि...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

आंकड़ों में, एक अपेक्षा-अधिकतमकरण (ईएम) एल्गोरिथ्म सांख्यिकीय मॉडल में मापदंडों के (स्थानीय) अधिकतम संभावना या अधिकतम पोस्टीरियरी (एमएपी) अनुमानों को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अप्राप्य अव्यक्त चर पर निर्भर करता है।[1] ईएम पुनरावृत्ति एक अपेक्षा (ई) चरण को निष्पादित करने के बीच वैकल्पिक होती है, जो मापदंडों के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन किए गए संभावना फ़ंक्शन#लॉग-संभावना|लॉग-संभावना की अपेक्षा के लिए एक फ़ंक्शन बनाता है, और एक अधिकतमकरण (एम) चरण, जो ई चरण पर पाए जाने वाले अपेक्षित लॉग-संभावना को अधिकतम करने वाले पैरामीटर की गणना करता है। इन पैरामीटर-अनुमानों का उपयोग अगले ई चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।

पुराने फेथफुल विस्फोट डेटा की ईएम क्लस्टरिंग। यादृच्छिक प्रारंभिक मॉडल (जो, अक्षों के विभिन्न पैमानों के कारण, दो बहुत सपाट और चौड़े दीर्घवृत्त प्रतीत होता है) प्रेक्षित डेटा के लिए उपयुक्त है। पहले पुनरावृत्तियों में, मॉडल काफी हद तक बदल जाता है, लेकिन फिर गरम पानी का झरना के दो मोड में परिवर्तित हो जाता है। ELKI का उपयोग करके विज़ुअलाइज़ किया गया।

इतिहास

ईएम एल्गोरिथ्म को आर्थर पी. डेम्पस्टर, लेयर्ड में और डोनाल्ड रुबिन द्वारा 1977 के एक क्लासिक पेपर में समझाया गया था और इसका नाम दिया गया था।[2] उन्होंने बताया कि यह विधि पहले के लेखकों द्वारा विशेष परिस्थितियों में कई बार प्रस्तावित की गई थी। सेड्रिक स्मिथ (सांख्यिकीविद्) द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जीन-गिनती विधि सबसे शुरुआती में से एक है।[3] दूसरा प्रस्ताव हरमन ओट्टो हार्टले|एच.ओ. द्वारा दिया गया था। 1958 में हार्टले, और 1977 में हार्टले और हॉकिंग, जिनसे डेम्पस्टर-लेयर्ड-रुबिन पेपर में कई विचारों की उत्पत्ति हुई।[4] 1977 में एस.के. एनजी, त्रियम्बकम कृष्णन और जी.जे. मैकलाचलन द्वारा एक और।[5] हार्टले के विचारों को किसी भी समूहीकृत असतत वितरण तक विस्तृत किया जा सकता है। घातीय परिवारों के लिए ईएम पद्धति का एक बहुत विस्तृत उपचार रॉल्फ सुंडबर्ग ने अपनी थीसिस और कई पत्रों में प्रकाशित किया था,[6][7][8] पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद।[9][10][11][12][13] 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने विधि को सामान्यीकृत किया और समस्याओं के व्यापक वर्ग के लिए एक अभिसरण विश्लेषण की रूपरेखा तैयार की। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने ईएम पद्धति को सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में स्थापित किया। मेंग और वैन डाइक (1997) भी देखें।

डेम्पस्टर-लेयर्ड-रुबिन एल्गोरिदम का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सी.एफ. जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। रेफरी नाम = वू > Wu, C. F. Jeff (Mar 1983). "ईएम एल्गोरिथम के अभिसरण गुणों पर". Annals of Statistics. 11 (1): 95–103. doi:10.1214/aos/1176346060. JSTOR 2240463. MR 0684867.</ref> वू के प्रमाण ने ईएम पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रुबिन ने दावा किया था।[14]


परिचय

ईएम एल्गोरिथ्म का उपयोग उन मामलों में सांख्यिकीय मॉडल के (स्थानीय) अधिकतम संभावना मापदंडों को खोजने के लिए किया जाता है जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आमतौर पर इन मॉडलों में अज्ञात मापदंडों और ज्ञात डेटा अवलोकनों के अलावा अव्यक्त चर शामिल होते हैं। अर्थात्, या तो डेटा के बीच लुप्त मान मौजूद हैं, या आगे न देखे गए डेटा बिंदुओं के अस्तित्व को मानकर मॉडल को अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक मिश्रण मॉडल को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक देखे गए डेटा बिंदु में एक संबंधित अप्राप्य डेटा बिंदु या अव्यक्त चर होता है, जो उस मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।

अधिकतम संभावना समाधान खोजने के लिए आम तौर पर सभी अज्ञात मूल्यों, मापदंडों और अव्यक्त चर के संबंध में संभावना फ़ंक्शन के व्युत्पन्न को लेने और साथ ही परिणामी समीकरणों को हल करने की आवश्यकता होती है। अव्यक्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव है। इसके बजाय, परिणाम आम तौर पर इंटरलॉकिंग समीकरणों का एक सेट होता है जिसमें मापदंडों के समाधान के लिए अव्यक्त चर के मूल्यों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक सेट को दूसरे में प्रतिस्थापित करने से एक अघुलनशील समीकरण उत्पन्न होता है।

ईएम एल्गोरिदम इस अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो सेटों को संख्यात्मक रूप से हल करने का एक तरीका है। कोई व्यक्ति अज्ञात के दो सेटों में से किसी एक के लिए मनमाना मान चुन सकता है, दूसरे सेट का अनुमान लगाने के लिए उनका उपयोग कर सकता है, फिर पहले सेट का बेहतर अनुमान लगाने के लिए इन नए मानों का उपयोग कर सकता है, और तब तक दोनों के बीच परिवर्तन जारी रख सकता है जब तक कि परिणामी मान दोनों निश्चित बिंदुओं पर परिवर्तित न हो जाएं। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे सिद्ध किया जा सकता है। इसके अतिरिक्त, यह साबित किया जा सकता है कि उस बिंदु पर संभावना का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ यह है कि बिंदु या तो स्थानीय अधिकतम या सैडल बिंदु है।[14]सामान्य तौर पर, मल्टीपल मैक्सिमा हो सकता है, इसकी कोई गारंटी नहीं है कि वैश्विक मैक्सिमा मिल जाएगा। कुछ संभावनाओं में गणितीय विलक्षणता भी होती है, यानी निरर्थक मैक्सिमा। उदाहरण के लिए, मिश्रण मॉडल में ईएम द्वारा पाए जाने वाले समाधानों में से एक में घटकों में से एक को शून्य भिन्नता और उसी घटक के लिए औसत पैरामीटर को डेटा बिंदुओं में से एक के बराबर सेट करना शामिल है।

विवरण

प्रतीक

सांख्यिकीय मॉडल को देखते हुए जो एक सेट उत्पन्न करता है देखे गए डेटा का, न देखे गए अव्यक्त डेटा या लुप्त मानों का एक सेट , और अज्ञात मापदंडों का एक वेक्टर , एक संभाव्यता फ़ंक्शन के साथ , अज्ञात मापदंडों का अधिकतम संभावना अनुमान (एमएलई) देखे गए डेटा की सीमांत संभावना को अधिकतम करके निर्धारित किया जाता है

हालाँकि, यह मात्रा अक्सर कठिन होती है अप्राप्य है और का वितरण पाने से पहले अज्ञात है .

ईएम एल्गोरिदम

ईएम एल्गोरिदम इन दो चरणों को पुनरावृत्त रूप से लागू करके सीमांत संभावना के एमएलई को ढूंढना चाहता है:

अपेक्षा चरण (ई चरण): परिभाषित करें लॉग संभावना फ़ंक्शन के अपेक्षित मान के रूप में , की वर्तमान सशर्त संभाव्यता वितरण के संबंध में दिया गया और मापदंडों का वर्तमान अनुमान :
अधिकतमकरण चरण (एम चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर ढूंढें:

अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:


चरों की व्याख्या

जिन विशिष्ट मॉडलों पर ईएम लागू किया जाता है समूहों के किसी एक समूह में सदस्यता को दर्शाने वाले एक गुप्त चर के रूप में:

  1. अवलोकित डेटा बिंदु असतत यादृच्छिक चर (एक परिमित या गणनीय अनंत सेट में मान लेना) या निरंतर यादृच्छिक चर (एक बेशुमार अनंत सेट में मान लेना) हो सकता है। प्रत्येक डेटा बिंदु के साथ अवलोकनों का एक वेक्टर जुड़ा हो सकता है।
  2. अनुपलब्ध मान (उर्फ अव्यक्त चर) असतत यादृच्छिक चर होते हैं, जो निश्चित संख्या में मानों से तैयार किए जाते हैं, और प्रति प्रेक्षित इकाई में एक अव्यक्त चर होता है।
  3. पैरामीटर निरंतर हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और वे पैरामीटर जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, उन सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संबंधित अव्यक्त चर का वह मान होता है)।

हालाँकि, EM को अन्य प्रकार के मॉडलों पर लागू करना संभव है।

प्रेरणा इस प्रकार है. यदि पैरामीटर का मान ज्ञात है, आमतौर पर अव्यक्त चर का मूल्य के सभी संभावित मानों पर लॉग-संभावना को अधिकतम करके पाया जा सकता है , या तो बस बार-बार दोहराकर या छिपे छिपा हुआ मार्कोव मॉडल के लिए विटर्बी एल्गोरिदम जैसे एल्गोरिदम के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं , हम मापदंडों का अनुमान पा सकते हैं काफी आसानी से, आम तौर पर देखे गए डेटा बिंदुओं को संबंधित अव्यक्त चर के मूल्य के अनुसार समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मूल्यों के कुछ फ़ंक्शन का औसत निकालकर। यह एक पुनरावृत्त एल्गोरिथ्म का सुझाव देता है, उस स्थिति में जब दोनों और अज्ञात हैं:

  1. सबसे पहले, पैरामीटर्स को इनिशियलाइज़ करें कुछ यादृच्छिक मूल्यों के लिए.
  2. प्रत्येक संभावित मान की संभावना की गणना करें , दिया गया .
  3. फिर, अभी-अभी गणना किए गए मानों का उपयोग करें मापदंडों के लिए बेहतर अनुमान की गणना करना .
  4. अभिसरण होने तक चरण 2 और 3 को दोहराएँ।

जैसा कि अभी बताया गया है, एल्गोरिथ्म नीरस रूप से लागत फ़ंक्शन के स्थानीय न्यूनतम तक पहुंचता है।

गुण

यद्यपि ईएम पुनरावृत्ति प्रेक्षित डेटा (यानी, सीमांत) संभावना फ़ंक्शन को बढ़ाती है, लेकिन कोई गारंटी नहीं है कि अनुक्रम अधिकतम संभावना अनुमानक में परिवर्तित हो जाता है। बिमोडल वितरण के लिए, इसका मतलब है कि एक ईएम एल्गोरिदम शुरुआती मूल्यों के आधार पर देखे गए डेटा संभावना फ़ंक्शन के स्थानीय अधिकतम में परिवर्तित हो सकता है। स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या मेटाह्यूरिस्टिक दृष्टिकोण मौजूद हैं, जैसे यादृच्छिक-पुनः प्रारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों से शुरू) ), या तैयार किए हुयी धातु पे पानी चढाने की कला विधियों को लागू करना।

ईएम विशेष रूप से तब उपयोगी होता है जब संभावना एक घातीय परिवार होती है, व्यापक उपचार के लिए सुंदरबर्ग (2019, अध्याय 8) देखें:[15] ई चरण पर्याप्त आँकड़ों की अपेक्षाओं का योग बन जाता है, और एम चरण में एक रैखिक फ़ंक्शन को अधिकतम करना शामिल है। ऐसे मामले में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके, प्रत्येक चरण के लिए बंद-फ़ॉर्म अभिव्यक्ति अपडेट प्राप्त करना संभव है[16] (रॉल्फ सुंदरबर्ग द्वारा प्रमाणित और प्रकाशित, पेर मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर)।[7][8][10][11][12][13]

डेम्पस्टर, लेयर्ड और रुबिन द्वारा मूल पेपर में बायेसियन अनुमान के लिए अधिकतम पोस्टीरियरी (एमएपी) अनुमानों की गणना करने के लिए ईएम पद्धति को संशोधित किया गया था।

अधिकतम संभावना अनुमान खोजने के लिए अन्य विधियाँ मौजूद हैं, जैसे कि ढतला हुआ वंश , संयुग्मी ढाल, या गॉस-न्यूटन एल्गोरिदम के वेरिएंट। ईएम के विपरीत, ऐसे तरीकों के लिए आम तौर पर संभावना फ़ंक्शन के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।

शुद्धता का प्रमाण

अपेक्षा-अधिकतमीकरण सुधार का कार्य करता है सीधे सुधार करने के बजाय . यहां यह दिखाया गया है कि पूर्व में सुधार से बाद में सुधार होता है।[17] किसी के लिए गैर-शून्य संभावना के साथ , हम लिख सकते हैं

हम अज्ञात डेटा के संभावित मूल्यों पर अपेक्षा रखते हैं वर्तमान पैरामीटर अनुमान के तहत दोनों पक्षों को गुणा करके और सारांशित करना (या एकीकृत करना)। . बाईं ओर एक स्थिरांक की अपेक्षा है, इसलिए हमें मिलता है:

कहाँ इसे उस नकारात्मक राशि से परिभाषित किया जाता है जिसे वह प्रतिस्थापित कर रहा है। यह अंतिम समीकरण प्रत्येक मान के लिए मान्य है शामिल ,

और इस अंतिम समीकरण को पिछले समीकरण से घटाने पर प्राप्त होता है

हालाँकि, गिब्स की असमानता हमें यह बताती है , तो हम यह निष्कर्ष निकाल सकते हैं

शब्दों में, चुनना सुधार करने के लिए कारण कम से कम इतना सुधार करने के लिए.

अधिकतमीकरण-अधिकतमकरण प्रक्रिया के रूप में

ईएम एल्गोरिदम को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, यानी समन्वय वंश के उदाहरण के रूप में।[18][19] फ़ंक्शन पर विचार करें:

जहां q, न देखे गए डेटा z पर एक मनमाना संभाव्यता वितरण है और H(q) वितरण q की एन्ट्रॉपी (सूचना सिद्धांत) है। इस फ़ंक्शन को इस प्रकार लिखा जा सकता है

कहाँ देखे गए डेटा को देखते हुए न देखे गए डेटा का सशर्त वितरण है और कुल्बैक-लीब्लर विचलन है।

फिर EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:

अपेक्षा चरण: चुनें बढ़ाने के लिए :
अधिकतमीकरण चरण: चुनें बढ़ाने के लिए :


अनुप्रयोग

मिश्रित मॉडलों के पैरामीटर आकलन के लिए अक्सर EM का उपयोग किया जाता है,[20][21] विशेष रूप से मात्रात्मक आनुवंशिकी में।[22] साइकोमेट्रिक्स में, ईएम आइटम मापदंडों और आइटम प्रतिक्रिया सिद्धांत मॉडल की अव्यक्त क्षमताओं का अनुमान लगाने के लिए एक महत्वपूर्ण उपकरण है।

गुम डेटा से निपटने और अज्ञात चर का निरीक्षण करने की क्षमता के साथ, ईएम पोर्टफोलियो की कीमत और जोखिम प्रबंधन के लिए एक उपयोगी उपकरण बन रहा है।[citation needed]

ईएम एल्गोरिथ्म (और इसके तेज़ संस्करण आदेशित उपसमुच्चय अपेक्षा अधिकतमीकरण का आदेश दिया) का व्यापक रूप से चिकित्सा इमेजिंग पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पोजीट्रान एमिशन टोमोग्राफी, एकल-फोटॉन उत्सर्जन परिकलित टोमोग्राफी और एक्स-रे कंप्यूटेड टोमोग्राफी में। EM के अन्य तेज़ वेरिएंट के लिए नीचे देखें।

संरचनात्मक इंजीनियरिंग में, एक्सपेक्टेशन मैक्सिमाइजेशन (स्ट्राइड) का उपयोग करके संरचनात्मक पहचान[23] एल्गोरिदम सेंसर डेटा का उपयोग करके संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए एक आउटपुट-केवल विधि है (ऑपरेशनल मॉडल विश्लेषण देखें)।

EM का उपयोग डेटा क्लस्टरिंग के लिए भी किया जाता है। प्राकृतिक भाषा प्रसंस्करण में, एल्गोरिदम के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च एल्गोरिदम हैं, और संभाव्य संदर्भ-मुक्त व्याकरण के अप्रशिक्षित प्रेरण के लिए अंदर-बाहर एल्गोरिदम हैं।

इंटरट्रेड प्रतीक्षा समय के विश्लेषण में यानी शेयर बाजार में शेयर (वित्त) में बाद के ट्रेडों के बीच का समय, ईएम एल्गोरिदम बहुत उपयोगी साबित हुआ है।[24]


ईएम एल्गोरिदम को फ़िल्टर करना और चिकना करना

एक कलमन फ़िल्टर का उपयोग आम तौर पर ऑन-लाइन स्थिति अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच स्थिति अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल मापदंडों के अनुमान की आवश्यकता होती है। ईएम एल्गोरिदम का उपयोग संयुक्त स्थिति और पैरामीटर अनुमान समस्याओं को हल करने के लिए किया जा सकता है।

इस दो-चरणीय प्रक्रिया को दोहराकर ईएम एल्गोरिदम को फ़िल्टर करना और चिकना करना उत्पन्न होता है:

ई-कदम
अद्यतन स्थिति अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किया गया कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथ संचालित करें।
एम-स्टेप
अद्यतन पैरामीटर अनुमान प्राप्त करने के लिए अधिकतम-संभावना गणना के भीतर फ़िल्टर किए गए या सुचारू राज्य अनुमानों का उपयोग करें।

मान लीजिए कि एक कलमैन फ़िल्टर या न्यूनतम-विचरण स्मूथर एकल-इनपुट-एकल-आउटपुट सिस्टम के माप पर काम करता है जिसमें एडिटिव व्हाइट शोर होता है। अधिकतम संभावना गणना से एक अद्यतन माप शोर विचरण अनुमान प्राप्त किया जा सकता है

कहाँ स्केलर आउटपुट अनुमान एन स्केलर माप से फ़िल्टर या स्मूथ द्वारा गणना किए जाते हैं . उपरोक्त अद्यतन को पॉइसन माप शोर तीव्रता को अद्यतन करने के लिए भी लागू किया जा सकता है। इसी प्रकार, प्रथम-क्रम ऑटो-रिग्रेसिव प्रक्रिया के लिए, एक अद्यतन प्रक्रिया शोर विचरण अनुमान की गणना की जा सकती है

कहाँ और स्केलर स्थिति अनुमान एक फिल्टर या स्मूथ द्वारा गणना किए जाते हैं। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है

उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।[25][26][27][28]


वेरिएंट

ईएम एल्गोरिथ्म के कभी-कभी धीमे अभिसरण को तेज करने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे कि संयुग्म ग्रेडिएंट और संशोधित न्यूटन के तरीकों (न्यूटन-रफसन) का उपयोग करना।[29] इसके अलावा, ईएम का उपयोग प्रतिबंधित अनुमान विधियों के साथ किया जा सकता है।

पैरामीटर-विस्तारित अपेक्षा अधिकतमीकरण (पीएक्स-ईएम) एल्गोरिथ्म अक्सर हमारे द्वारा एम चरण के विश्लेषण को सही करने के लिए 'सहप्रसरण समायोजन' की गति प्रदान करता है, जो कि आरोपित पूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी का लाभ उठाता है।[30] अपेक्षा सशर्त अधिकतमीकरण (ईसीएम) प्रत्येक एम चरण को सशर्त अधिकतमीकरण (सीएम) चरणों के अनुक्रम से प्रतिस्थापित करता है जिसमें प्रत्येक पैरामीटर θi व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से अन्य मापदंडों पर तय किया जाता है।[31] स्वयं को एक्सपेक्टेशन कंडीशनल मैक्सिमाइजेशन (ईसीएमई) एल्गोरिथम में विस्तारित किया जा सकता है।[32] इस विचार को सामान्यीकृत अपेक्षा अधिकतमीकरण (जीईएम) एल्गोरिदम में आगे बढ़ाया गया है, जिसमें ई चरण और एम चरण दोनों के लिए उद्देश्य फ़ंक्शन एफ में केवल वृद्धि की मांग की गई है जैसा कि #अधिकतमकरण-अधिकतमकरण प्रक्रिया के रूप में|अधिकतमीकरण-अधिकतमकरण प्रक्रिया अनुभाग के रूप में वर्णित है।[18]GEM को एक वितरित वातावरण में विकसित किया गया है और आशाजनक परिणाम दिखाता है।[33] एमएम एल्गोरिथ्म को एमएम एल्गोरिथम (संदर्भ के आधार पर मेजराइज़/मिनिमाइज़ या माइनराइज़/मैक्सिमाइज़) एल्गोरिथम के उपवर्ग के रूप में विचार करना भी संभव है,[34] और इसलिए अधिक सामान्य मामले में विकसित किसी भी मशीनरी का उपयोग करें।

α-EM एल्गोरिथ्म

ईएम एल्गोरिदम में प्रयुक्त क्यू-फ़ंक्शन लॉग संभावना पर आधारित है। इसलिए, इसे लॉग-ईएम एल्गोरिदम माना जाता है। लॉग संभावना के उपयोग को α-लॉग संभावना अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-लॉग संभावना अनुपात को α-लॉग संभावना अनुपात और α-विचलन के क्यू-फ़ंक्शन का उपयोग करके समानता के रूप में व्यक्त किया जा सकता है। इस क्यू-फ़ंक्शन को प्राप्त करना एक सामान्यीकृत ई चरण है। इसका अधिकतमीकरण एक सामान्यीकृत एम चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है[35] जिसमें इसके उपवर्ग के रूप में लॉग-ईएम एल्गोरिदम शामिल है। इस प्रकार, यासुओ मात्सुयामा द्वारा α-EM एल्गोरिथ्म लॉग-ईएम एल्गोरिथ्म का एक सटीक सामान्यीकरण है। ग्रेडिएंट या हेसियन मैट्रिक्स की कोई गणना की आवश्यकता नहीं है। α-EM उचित α चुनकर लॉग-EM एल्गोरिदम की तुलना में तेज़ अभिसरण दिखाता है। α-EM एल्गोरिदम हिडन मार्कोव मॉडल आकलन एल्गोरिदम α-HMM के तेज़ संस्करण की ओर ले जाता है। [36]


परिवर्तनशील बेयस विधियों से संबंध

ईएम आंशिक रूप से गैर-बायेसियन, अधिकतम संभावना विधि है। इसका अंतिम परिणाम θ के लिए एक बिंदु अनुमान (या तो अधिकतम संभावना अनुमान या पश्च मोड) के साथ अव्यक्त चर (बायेसियन शैली में) पर संभाव्यता वितरण देता है। इसका एक पूर्ण बायेसियन संस्करण वांछित हो सकता है, जो θ और अव्यक्त चर पर संभाव्यता वितरण देता है। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, ई और एम चरणों के बीच का अंतर गायब हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित Q सन्निकटन (वैरिएबल बेयस) का उपयोग किया जाता है, तो समाधान प्रत्येक अव्यक्त चर (अब θ सहित) पर पुनरावृत्त हो सकता है और उन्हें एक समय में एक अनुकूलित कर सकता है। अब, प्रति पुनरावृत्ति k चरणों की आवश्यकता है, जहाँ k अव्यक्त चर की संख्या है। चित्रमय मॉडल के लिए यह करना आसान है क्योंकि प्रत्येक चर का नया क्यू केवल उसके मार्कोव कंबल पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।

ज्यामितीय व्याख्या

सूचना ज्यामिति में, ई चरण और एम चरण की व्याख्या दोहरे एफ़िन कनेक्शन के तहत प्रक्षेपण के रूप में की जाती है, जिसे ई-कनेक्शन और एम-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।

उदाहरण

गाऊसी मिश्रण

के-मीन्स और ईएम की तुलना। भिन्नताओं का उपयोग करते हुए, ईएम एल्गोरिदम सामान्य वितरण का सटीक वर्णन कर सकता है, जबकि के-साधन वोरोनोई आरेख-कोशिकाओं में डेटा को विभाजित करता है। क्लस्टर केंद्र को हल्के, बड़े प्रतीक द्वारा दर्शाया गया है।
पुराने फेथफुल डेटासेट में दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले ईएम एल्गोरिदम को प्रदर्शित करने वाला एक एनीमेशन। एल्गोरिथ्म यादृच्छिक आरंभीकरण से अभिसरण की ओर बढ़ता है।

होने देना का एक नमूना हो आयाम के दो बहुभिन्नरूपी सामान्य वितरणों के मिश्रण मॉडल से स्वतंत्र अवलोकन , और जाने वे अव्यक्त चर हों जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।[19]: और

कहाँ

और

इसका उद्देश्य गाऊसी और प्रत्येक के साधन और सहप्रसरण के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात मापदंडों का अनुमान लगाना है:

जहां अपूर्ण-डेटा संभावना फ़ंक्शन है

और पूर्ण-डेटा संभावना फ़ंक्शन है

या

कहाँ एक सूचक कार्य है और बहुभिन्नरूपी सामान्य का संभाव्यता घनत्व फलन है।

अंतिम समानता में, प्रत्येक के लिए i, एक सूचक शून्य के बराबर है, और एक सूचक एक के बराबर है। इस प्रकार आंतरिक योग एक पद तक कम हो जाता है।

ई चरण

पैरामीटर्स के हमारे वर्तमान अनुमान को देखते हुए θ(t), Z का सशर्त वितरणi बेयस प्रमेय द्वारा τ द्वारा भारित सामान्य संभाव्यता घनत्व फ़ंक्शन की आनुपातिक ऊंचाई निर्धारित की जाती है:

इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें आम तौर पर ई चरण का आउटपुट माना जाता है (हालांकि यह नीचे का क्यू फ़ंक्शन नहीं है)।

यह E चरण Q के लिए इस फ़ंक्शन को सेट करने से मेल खाता है:

की अपेक्षा योग के अंदर संभाव्यता घनत्व फ़ंक्शन के संबंध में लिया जाता है , जो प्रत्येक के लिए भिन्न हो सकता है प्रशिक्षण सेट का. ई चरण में सब कुछ चरण उठाए जाने से पहले ही ज्ञात हो जाता है सिवाय इसके , जिसकी गणना ई चरण अनुभाग की शुरुआत में समीकरण के अनुसार की जाती है।

इस पूर्ण सशर्त अपेक्षा की गणना एक चरण में करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार इन्हें स्वतंत्र रूप से अधिकतम किया जा सकता है।

एम चरण

Q(θ | θ(टी)) रूप में द्विघात होने का मतलब है कि θ के अधिकतम मूल्यों को निर्धारित करना अपेक्षाकृत सरल है। इसके अलावा, τ, ('μ'1,एस1) और (μ2,एस2) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।

आरंभ करने के लिए, τ पर विचार करें, जिसमें बाधा τ है1 + टी2=1:

इसका रूप द्विपद वितरण के लिए एमएलई के समान है

(μ) के अगले अनुमानों के लिए1,एस1):

इसका रूप सामान्य वितरण के लिए भारित एमएलई के समान है

और

और, समरूपता से,

और


समाप्ति

यदि पुनरावृत्तीय प्रक्रिया समाप्त करें के लिए कुछ पूर्व निर्धारित सीमा से नीचे.

सामान्यीकरण

ऊपर चित्रित एल्गोरिदम को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।

काट-छाँट और सेंसर किया गया प्रतिगमन

ईएम एल्गोरिदम को उस मामले में लागू किया गया है जहां एक अंतर्निहित रैखिक प्रतिगमन मॉडल कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए मूल्यों के सेंसर किए गए या काट दिए गए संस्करण हैं।[37] इस मॉडल के विशेष मामलों में एक सामान्य वितरण से सेंसर किए गए या काटे गए अवलोकन शामिल हैं।[37]


विकल्प

ईएम आमतौर पर स्थानीय इष्टतम में परिवर्तित होता है, जरूरी नहीं कि वैश्विक इष्टतम में, सामान्य तौर पर अभिसरण दर पर कोई सीमा नहीं होती है। यह संभव है कि यह उच्च आयामों में मनमाने ढंग से खराब हो सकता है और स्थानीय ऑप्टिमा की घातीय संख्या हो सकती है। इसलिए, गारंटीकृत सीखने के लिए वैकल्पिक तरीकों की आवश्यकता मौजूद है, खासकर उच्च-आयामी सेटिंग में। स्थिरता के लिए बेहतर गारंटी के साथ ईएम के विकल्प मौजूद हैं, जिन्हें क्षण-आधारित दृष्टिकोण कहा जाता है[38] या तथाकथित वर्णक्रमीय तकनीकें[39][40][citation needed]. संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ती रुचि का है[when?] चूंकि वे ईएम के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो अक्सर स्थानीय ऑप्टिमा में फंसने की समस्या से ग्रस्त होता है। सीखने की गारंटी वाले एल्गोरिदम कई महत्वपूर्ण मॉडल जैसे मिश्रण मॉडल, एचएमएम आदि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता शर्तों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।[citation needed].

यह भी देखें


संदर्भ

  1. Meng, X.-L.; van Dyk, D. (1997). "The EM algorithm – an old folk-song sung to a fast new tune". J. Royal Statist. Soc. B. 59 (3): 511–567.
  2. Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
  3. Ceppelini, R.M. (1955). "यादृच्छिक-संभोग आबादी में जीन आवृत्तियों का अनुमान". Ann. Hum. Genet. 20 (2): 97–115. doi:10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
  4. Hartley, Herman Otto (1958). "अपूर्ण डेटा से अधिकतम संभावना अनुमान". Biometrics. 14 (2): 174–194. doi:10.2307/2527783. JSTOR 2527783.
  5. Ng, Shu Kay; Krishnan, Thriyambakam; McLachlan, Geoffrey J. (2011-12-21), "The EM Algorithm", Handbook of Computational Statistics, Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 139–172, doi:10.1007/978-3-642-21551-3_6, ISBN 978-3-642-21550-6, S2CID 59942212, retrieved 2022-10-15
  6. Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics. 1 (2): 49–58. JSTOR 4615553. MR 0381110.
  7. 7.0 7.1 Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
  8. 8.0 8.1 Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation. 5 (1): 55–64. doi:10.1080/03610917608812007. MR 0443190.
  9. See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.
  10. 10.0 10.1 प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहूस विश्वविद्यालय। (सुंडबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय दिया गया)।
  11. 11.0 11.1 प्रति मार्टिन-लोफ। 1970. सांख्यिकीय मॉडल: रॉल्फ सुंदरबर्ग की सहायता से स्कूल वर्ष 1969-1970 में सेमिनारों के नोट्स (व्याख्यान नोट्स 1969-1970)। स्टॉकहोम विश्वविद्यालय.
  12. 12.0 12.1 मार्टिन-लोफ, पी. अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विचलन के मात्रात्मक माप के रूप में इसका उपयोग। एफ. एबिल्डगार्ड, आर्थर पी. डेम्पस्टर|ए की चर्चा के साथ। पी. डेम्पस्टर, डी. बसु, डी. आर. कॉक्स, ए. डब्ल्यू. एफ. एडवर्ड्स, डी. ए. स्प्रोट, जॉर्ज ए. बरनार्ड|जी. ए. बरनार्ड, ओ. बार्नडॉर्फ-नील्सन, जे. डी. काल्बफ्लिश और राश मॉडल|जी. रैश और लेखक का उत्तर। सांख्यिकीय अनुमान में मूलभूत प्रश्नों पर सम्मेलन की कार्यवाही (आरहस, 1973), पीपी 1-42। संस्मरण, नंबर 1, विभाग सिद्धांत। सांख्यिकीविद्., उदाहरण. गणित., विश्वविद्यालय. आरहूस, आरहूस, 1974.
  13. 13.0 13.1 Martin-Löf, Per (1974). "अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग". Scand. J. Statist. 1 (1): 3–18.
  14. 14.0 14.1 Cite error: Invalid <ref> tag; no text was provided for refs named Wu
  15. Sundberg, Rolf (2019). घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग. Cambridge University Press. ISBN 9781108701112.
  16. Laird, Nan (2006). "सुंदरबर्ग सूत्र". Wiley online library. Wiley.
  17. Little, Roderick J.A.; Rubin, Donald B. (1987). गायब डेटा के साथ सांख्यिकीय विश्लेषण. Wiley Series in Probability and Mathematical Statistics. New York: John Wiley & Sons. pp. 134–136. ISBN 978-0-471-80254-9.
  18. 18.0 18.1 Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को उचित ठहराता है (PDF). pp. 355–368. ISBN 978-0-262-60032-3. Retrieved 2009-03-22. {{cite book}}: |journal= ignored (help)
  19. 19.0 19.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). "8.5 The EM algorithm". सांख्यिकीय सबक के तत्व. New York: Springer. pp. 236–243. ISBN 978-0-387-95284-0.
  20. Lindstrom, Mary J; Bates, Douglas M (1988). "Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data". Journal of the American Statistical Association. 83 (404): 1014. doi:10.1080/01621459.1988.10478693.
  21. Van Dyk, David A (2000). "कुशल ईएम-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल फिट करना". Journal of Computational and Graphical Statistics. 9 (1): 78–98. doi:10.2307/1390614. JSTOR 1390614.
  22. Diffey, S. M; Smith, A. B; Welsh, A. H; Cullis, B. R (2017). "रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम". Australian & New Zealand Journal of Statistics. 59 (4): 433. doi:10.1111/anzs.12208.
  23. Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
  24. Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times". Physica A: Statistical Mechanics and its Applications. 587 (1): 126456. doi:10.1016/j.physa.2021.126456. ISSN 0378-4371.
  25. Einicke, G. A.; Malos, J. T.; Reid, D. C.; Hainsworth, D. W. (January 2009). "Riccati Equation and EM Algorithm Convergence for Inertial Navigation Alignment". IEEE Trans. Signal Process. 57 (1): 370–375. Bibcode:2009ITSP...57..370E. doi:10.1109/TSP.2008.2007090. S2CID 1930004.
  26. Einicke, G. A.; Falco, G.; Malos, J. T. (May 2010). "EM Algorithm State Matrix Estimation for Navigation". IEEE Signal Processing Letters. 17 (5): 437–440. Bibcode:2010ISPL...17..437E. doi:10.1109/LSP.2010.2043151. S2CID 14114266.
  27. Einicke, G. A.; Falco, G.; Dunn, M. T.; Reid, D. C. (May 2012). "Iterative Smoother-Based Variance Estimation". IEEE Signal Processing Letters. 19 (5): 275–278. Bibcode:2012ISPL...19..275E. doi:10.1109/LSP.2012.2190278. S2CID 17476971.
  28. Einicke, G. A. (Sep 2015). "Iterative Filtering and Smoothing of Measurements Possessing Poisson Noise". IEEE Transactions on Aerospace and Electronic Systems. 51 (3): 2205–2011. Bibcode:2015ITAES..51.2205E. doi:10.1109/TAES.2015.140843. S2CID 32667132.
  29. Jamshidian, Mortaza; Jennrich, Robert I. (1997). "अर्ध-न्यूटन विधियों का उपयोग करके ईएम एल्गोरिदम का त्वरण". Journal of the Royal Statistical Society, Series B. 59 (2): 569–587. doi:10.1111/1467-9868.00083. MR 1452026. S2CID 121966443.
  30. Liu, C (1998). "Parameter expansion to accelerate EM: The PX-EM algorithm". Biometrika. 85 (4): 755–770. CiteSeerX 10.1.1.134.9617. doi:10.1093/biomet/85.4.755.
  31. Meng, Xiao-Li; Rubin, Donald B. (1993). "Maximum likelihood estimation via the ECM algorithm: A general framework". Biometrika. 80 (2): 267–278. doi:10.1093/biomet/80.2.267. MR 1243503. S2CID 40571416.
  32. Liu, Chuanhai; Rubin, Donald B (1994). "The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence". Biometrika. 81 (4): 633. doi:10.1093/biomet/81.4.633. JSTOR 2337067.
  33. Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Accelerating Expectation–Maximization Algorithms with Frequent Updates" (PDF). Proceedings of the IEEE International Conference on Cluster Computing.
  34. Hunter DR and Lange K (2004), A Tutorial on MM Algorithms, The American Statistician, 58: 30–37
  35. Matsuyama, Yasuo (2003). "The α-EM algorithm: Surrogate likelihood maximization using α-logarithmic information measures". IEEE Transactions on Information Theory. 49 (3): 692–706. doi:10.1109/TIT.2002.808105.
  36. Matsuyama, Yasuo (2011). "Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs". International Joint Conference on Neural Networks: 808–816.
  37. 37.0 37.1 Wolynetz, M.S. (1979). "सीमित और सेंसर किए गए सामान्य डेटा से एक रैखिक मॉडल में अधिकतम संभावना अनुमान". Journal of the Royal Statistical Society, Series C. 28 (2): 195–206. doi:10.2307/2346749. JSTOR 2346749.
  38. Pearson, Karl (1894). "विकास के गणितीय सिद्धांत में योगदान". Philosophical Transactions of the Royal Society of London A. 185: 71–110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003. ISSN 0264-3820. JSTOR 90667.
  39. Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना" (PDF). UAI: 792–801.
  40. Balle, Borja Quattoni, Ariadna Carreras, Xavier (2012-06-27). Local Loss Optimization in Operator Models: A New Insight into Spectral Learning. OCLC 815865081.{{cite book}}: CS1 maint: multiple names: authors list (link)
  41. Lange, Kenneth. "एमएम एल्गोरिदम" (PDF).


अग्रिम पठन

  • Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introduction to Mathematical Statistics. Upper Saddle River, NJ: Pearson Prentice Hall. pp. 359–364.
  • Dellaert, Frank (2002). "The Expectation Maximization Algorithm". CiteSeerX 10.1.1.9.9735. {{cite journal}}: Cite journal requires |journal= (help) gives an easier explanation of EM algorithm as to lowerbound maximization.
  • Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
  • Gupta, M. R.; Chen, Y. (2010). "Theory and Use of the EM Algorithm". Foundations and Trends in Signal Processing. 4 (3): 223–296. CiteSeerX 10.1.1.219.6830. doi:10.1561/2000000034. A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
  • Bilmes, Jeff (1998). "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models". CiteSeerX 10.1.1.28.613. {{cite journal}}: Cite journal requires |journal= (help) includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
  • McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). The EM Algorithm and Extensions (2nd ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.


बाहरी संबंध