मिश्रण मॉडल

आँकड़ों में, एक मिश्रण मॉडल एक समग्र जनसंख्या के भीतर उप-जनसंख्या की उपस्थिति का प्रतिनिधित्व करने के लिए एक संभाव्य मॉडल है, बिना किसी देखे गए डेटा सेट को उप-जनसंख्या की पहचान करनी चाहिए जिसमें एक व्यक्तिगत अवलोकन होता है। औपचारिक रूप से एक मिश्रण मॉडल मिश्रण वितरण से मेल खाता है जो समग्र जनसंख्या में टिप्पणियों के संभाव्यता वितरण का प्रतिनिधित्व करता है। हालाँकि, जबकि मिश्रण वितरण से जुड़ी समस्याएँ उप-आबादी से समग्र जनसंख्या के गुणों को प्राप्त करने से संबंधित हैं, मिश्रण मॉडल का उपयोग उप-आबादी के गुणों के बारे में सांख्यिकीय अनुमान लगाने के लिए किया जाता है, बिना पूल की गई आबादी पर केवल अवलोकन दिया जाता है। उप-जनसंख्या पहचान जानकारी।

मिश्रण मॉडल को संरचनागत डेटा के मॉडल के साथ भ्रमित नहीं होना चाहिए, अर्थात, डेटा जिसके घटक एक स्थिर मान (1, 100%, आदि) के योग के लिए विवश हैं। हालाँकि, संरचनागत मॉडल को मिश्रण मॉडल के रूप में माना जा सकता है, जहाँ जनसंख्या के सदस्यों को यादृच्छिक रूप से नमूना लिया जाता है। इसके विपरीत, मिश्रण मॉडल को रचनात्मक मॉडल के रूप में माना जा सकता है, जहां माप (गणित) पढ़ने वाली आबादी को सामान्य कर दिया गया है।

संरचना

सामान्य मिश्रण मॉडल

एक विशिष्ट परिमित-आयामी मिश्रण मॉडल एक पदानुक्रमित बेयस मॉडल है जिसमें निम्नलिखित घटक शामिल हैं:

N यादृच्छिक चर जो देखे गए हैं, प्रत्येक वितरण के समान पैरामीट्रिक परिवार से संबंधित घटकों के साथ K घटकों के मिश्रण के अनुसार वितरित किया गया है (जैसे, सभी सामान्य वितरण, सभी Zipf का नियम, आदि) लेकिन विभिन्न मापदंडों के साथ
एन यादृच्छिक गुप्त चर प्रत्येक अवलोकन के मिश्रण घटक की पहचान निर्दिष्ट करते हैं, प्रत्येक को के-आयामी श्रेणीबद्ध वितरण के अनुसार वितरित किया जाता है
K मिश्रण भार का एक सेट, जो कि 1 के योग की संभावनाएँ हैं।
K मापदंडों का एक सेट, प्रत्येक संबंधित मिश्रण घटक के पैरामीटर को निर्दिष्ट करता है। कई मामलों में, प्रत्येक पैरामीटर वास्तव में पैरामीटर का एक सेट होता है। उदाहरण के लिए, यदि मिश्रण घटक गाऊसी वितरण हैं, तो प्रत्येक घटक के लिए एक माध्य और विचरण होगा। यदि मिश्रण घटक श्रेणीबद्ध वितरण हैं (उदाहरण के लिए, जब प्रत्येक अवलोकन आकार V के एक परिमित वर्णमाला से एक टोकन है), तो V संभावनाओं का एक सदिश 1 होगा।

इसके अलावा, बायेसियन अनुमान में, मिश्रण भार और पैरामीटर स्वयं यादृच्छिक चर होंगे, और पूर्व वितरण को चर पर रखा जाएगा। ऐसे मामले में, वजन को आमतौर पर एक डीरिचलेट वितरण (श्रेणीबद्ध वितरण से पहले संयुग्मित) से तैयार किए गए के-आयामी यादृच्छिक वेक्टर के रूप में देखा जाता है, और मापदंडों को उनके संबंधित संयुग्म पूर्ववर्तियों के अनुसार वितरित किया जाएगा।

गणितीय रूप से, एक मूल पैरामीट्रिक मिश्रण मॉडल को निम्नानुसार वर्णित किया जा सकता है:

{\begin{array}{lcl}K&=&{\text{number of mixture components}}\\N&=&{\text{number of observations}}\\\theta _{i=1\dots K}&=&{\text{parameter of distribution of observation associated with component }}i\\\phi _{i=1\dots K}&=&{\text{mixture weight, i.e., prior probability of a particular component }}i\\{\boldsymbol {\phi }}&=&K{\text{-dimensional vector composed of all the individual }}\phi _{1\dots K}{\text{; must sum to 1}}\\z_{i=1\dots N}&=&{\text{component of observation }}i\\x_{i=1\dots N}&=&{\text{observation }}i\\F(x|\theta )&=&{\text{probability distribution of an observation, parametrized on }}\theta \\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}|z_{i=1\dots N}&\sim &F(\theta _{z_{i}})\end{array}}

बायेसियन सेटिंग में, सभी पैरामीटर यादृच्छिक चर से जुड़े होते हैं, इस प्रकार हैं:

{\begin{array}{lcl}K,N&=&{\text{as above}}\\\theta _{i=1\dots K},\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N},F(x|\theta )&=&{\text{as above}}\\\alpha &=&{\text{shared hyperparameter for component parameters}}\\\beta &=&{\text{shared hyperparameter for mixture weights}}\\H(\theta |\alpha )&=&{\text{prior probability distribution of component parameters, parametrized on }}\alpha \\\theta _{i=1\dots K}&\sim &H(\theta |\alpha )\\{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\z_{i=1\dots N}|{\boldsymbol {\phi }}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}|z_{i=1\dots N},\theta _{i=1\dots K}&\sim &F(\theta _{z_{i}})\end{array}}

यह लक्षण वर्णन क्रमशः टिप्पणियों और मापदंडों पर मनमाना वितरण का वर्णन करने के लिए F और H का उपयोग करता है। आमतौर पर H, F से पहले का संयुग्मी होगा। F के दो सबसे आम विकल्प गॉसियन वितरण उर्फ सामान्य वितरण (वास्तविक-मूल्यवान टिप्पणियों के लिए) और श्रेणीबद्ध वितरण (असतत टिप्पणियों के लिए) हैं। मिश्रण घटकों के वितरण के लिए अन्य सामान्य संभावनाएँ हैं:

द्विपद वितरण, सकारात्मक घटनाओं की संख्या के लिए (जैसे, सफलता, हाँ वोट, आदि) कुल घटनाओं की एक निश्चित संख्या दी गई है
बहुपद वितरण, द्विपद वितरण के समान, लेकिन बहु-मार्गीय घटनाओं की संख्या के लिए (उदाहरण के लिए, हाँ/नहीं/शायद एक सर्वेक्षण में)
नकारात्मक द्विपद वितरण, द्विपद-प्रकार के प्रेक्षणों के लिए लेकिन जहां ब्याज की मात्रा दी गई सफलताओं की संख्या होने से पहले विफलताओं की संख्या है
पॉसों वितरण, किसी निश्चित समयावधि में किसी घटना की घटनाओं की संख्या के लिए, उस घटना के लिए जो घटना की निश्चित दर से होती है
अगली घटना होने से पहले के समय के लिए घातीय वितरण, एक घटना के लिए जो घटना की निश्चित दर से विशेषता है
लॉग-सामान्य वितरण , पॉज़िटिव रियल नंबर्स के लिए जो घातीय रूप से बढ़ते हैं, जैसे कि आय या कीमतें
बहुभिन्नरूपी सामान्य वितरण (उर्फ बहुभिन्नरूपी गॉसियन वितरण), सहसंबद्ध परिणामों के वैक्टर के लिए जो व्यक्तिगत रूप से गॉसियन-वितरित हैं
मल्टीवेरिएट टी-डिस्ट्रीब्यूशन|मल्टीवेरिएट स्टूडेंट का टी-डिस्ट्रीब्यूशन, हैवी-टेल्ड कोरिलेटेड परिणामों के वेक्टर्स के लिए^[1]
Bernoulli वितरण-वितरित मानों का एक वेक्टर, संबंधित, उदाहरण के लिए, एक श्वेत-श्याम छवि के लिए, जिसमें प्रत्येक मान एक पिक्सेल का प्रतिनिधित्व करता है; हस्तलिपि-पहचान का उदाहरण नीचे देखें

विशिष्ट उदाहरण

गाऊसी मिश्रण मॉडल

File:Nonbayesian-gaussian-mixture.svg

प्लेट संकेतन का उपयोग करते हुए गैर-बायेसियन गॉसियन मिश्रण मॉडल। छोटे वर्ग निश्चित पैरामीटर दर्शाते हैं; बड़े वृत्त यादृच्छिक चर दर्शाते हैं। भरी हुई आकृतियाँ ज्ञात मानों को दर्शाती हैं। संकेत [K] का अर्थ K आकार का एक वेक्टर है।

एक विशिष्ट गैर-बायेसियन गाऊसी वितरण मिश्रण मॉडल इस तरह दिखता है:

{\begin{array}{lcl}K,N&=&{\text{as above}}\\\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N}&=&{\text{as above}}\\\theta _{i=1\dots K}&=&\{\mu _{i=1\dots K},\sigma _{i=1\dots K}^{2}\}\\\mu _{i=1\dots K}&=&{\text{mean of component }}i\\\sigma _{i=1\dots K}^{2}&=&{\text{variance of component }}i\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\mathcal {N}}(\mu _{z_{i}},\sigma _{z_{i}}^{2})\end{array}}

File:Bayesian-gaussian-mixture.svg

प्लेट नोटेशन का उपयोग करते हुए बायेसियन गाऊसी मिश्रण मॉडल। छोटे वर्ग निश्चित पैरामीटर दर्शाते हैं; बड़े वृत्त यादृच्छिक चर दर्शाते हैं। भरी हुई आकृतियाँ ज्ञात मानों को दर्शाती हैं। संकेत [K] का अर्थ K आकार का एक वेक्टर है।

गाऊसी वितरण मिश्रण मॉडल का बायेसियन संस्करण इस प्रकार है:

\begin{array}{lcl} K, N & = & as above \\ ϕ_{i = 1 \dots K}, ϕ & = & as above \\ z_{i = 1 \dots N}, x_{i = 1 \dots N} & = & as above \\ θ_{i = 1 \dots K} & = & {μ_{i = 1 \dots K}, σ_{i = 1 \dots K}^{2}} \\ μ_{i = 1 \dots K} & = & mean of component i \\ σ_{i = 1 \dots K}^{2} & = & variance of component i \\ μ_{0}, λ, ν, σ_{0}^{2} & = & shared hyperparameters \\ μ_{i = 1 \dots K} & \sim & N (μ_{0}, λ σ_{i}^{2}) \\ σ_{i = 1 \dots K}^{2} & \sim & I n v e r s e - G a m m a (ν, σ_{0}^{2}) \\ ϕ & \sim & {S y m m e t r i c - D i r i c h l e t}_{K} (β) \\ z_{i = 1 \dots N} & \sim & Categorical (ϕ) \\ x_{i = 1 \dots N} & \sim & N (μ_{z_{i}}, σ_{z_{}} \end{array}

File:Parameter estimation process infinite Gaussian mixture model.webm

बायेसियन गॉसियन मिश्रण मॉडल का उपयोग करके एक-आयामी डेटा के लिए क्लस्टरिंग प्रक्रिया का एनीमेशन जहां सामान्य वितरण एक डिरिचलेट प्रक्रिया से तैयार किए जाते हैं। समूहों के हिस्टोग्राम को विभिन्न रंगों में दिखाया गया है। पैरामीटर आकलन प्रक्रिया के दौरान, नए क्लस्टर बनाए जाते हैं और डेटा पर बढ़ते हैं। किंवदंती क्लस्टर रंग और प्रत्येक क्लस्टर को निर्दिष्ट डेटापॉइंट्स की संख्या दिखाती है।

बहुभिन्नरूपी गाऊसी मिश्रण मॉडल

एक बायेसियन गॉसियन मिश्रण मॉडल को आमतौर पर अज्ञात मापदंडों (बोल्ड में चिह्नित), या बहुभिन्नरूपी सामान्य वितरणों के वेक्टर में फिट करने के लिए विस्तारित किया जाता है। एक बहुभिन्नरूपी वितरण में (अर्थात एक वेक्टर मॉडलिंग

{\boldsymbol {x}}

एन यादृच्छिक चर के साथ) एक गॉसियन मिश्रण मॉडल का उपयोग करके मापदंडों के एक वेक्टर को मॉडल कर सकता है (जैसे कि एक छवि के भीतर एक संकेत या पैच के कई अवलोकन) द्वारा दिए गए अनुमानों के वेक्टर पर पूर्व वितरण

p({\boldsymbol {\theta }})=\sum _{i=1}^{K}\phi _{i}{\mathcal {N}}({\boldsymbol {\mu _{i},\Sigma _{i}}})

जहां मैं^th सदिश घटक को भार के साथ सामान्य वितरण द्वारा अभिलक्षित किया जाता है $\phi _{i}$ , साधन ${\boldsymbol {\mu _{i}}}$ और सहप्रसरण मैट्रिक्स ${\boldsymbol {\Sigma _{i}}}$ . बायेसियन अनुमान में इसे पूर्व में शामिल करने के लिए, पूर्व को ज्ञात वितरण से गुणा किया जाता है $p({\boldsymbol {x|\theta }})$ डेटा का ${\boldsymbol {x}}$ मापदंडों पर सशर्त ${\boldsymbol {\theta }}$ अनुमान लगाया जाना है। इस सूत्रीकरण के साथ, पश्च संभाव्यता $p({\boldsymbol {\theta |x}})$ रूप का गॉसियन मिश्रण मॉडल भी है

p({\boldsymbol {\theta |x}})=\sum _{i=1}^{K}{\tilde {\phi _{i}}}{\mathcal {N}}({\boldsymbol {{\tilde {\mu _{i}}},{\tilde {\Sigma _{i}}}}})

नए मापदंडों के साथ ${\tilde {\phi _{i}}},{\boldsymbol {\tilde {\mu _{i}}}}$ और ${\boldsymbol {\tilde {\Sigma _{i}}}}$ जो अपेक्षा-अधिकतमकरण एल्गोरिथम का उपयोग करके अपडेट किए जाते हैं। ^[2] हालांकि ईएम-आधारित पैरामीटर अपडेट अच्छी तरह से स्थापित हैं, इन पैरामीटरों के लिए प्रारंभिक अनुमान प्रदान करना वर्तमान में सक्रिय शोध का एक क्षेत्र है। ध्यान दें कि यह सूत्रीकरण पूर्ण पश्च वितरण के लिए एक बंद-रूप समाधान उत्पन्न करता है। यादृच्छिक चर का अनुमान ${\boldsymbol {\theta }}$ कई अनुमानकों में से एक के माध्यम से प्राप्त किया जा सकता है, जैसे कि पश्च वितरण का औसत या अधिकतम।

इस तरह के वितरण छवियों और समूहों के पैच-वार आकार ग्रहण करने के लिए उपयोगी होते हैं, उदाहरण के लिए। छवि प्रतिनिधित्व के मामले में, प्रत्येक गॉसियन सहप्रसरण मेट्रिसेस के अनुसार झुका, विस्तारित और विकृत हो सकता है ${\boldsymbol {\Sigma _{i}}}$ . सेट का एक गाऊसी वितरण छवि में प्रत्येक पैच (आमतौर पर आकार 8x8 पिक्सेल) के लिए फिट होता है। विशेष रूप से, क्लस्टर के चारों ओर बिंदुओं का कोई भी वितरण (के-मीन्स क्लस्टरिंग | के-मीन्स देखें) पर्याप्त गॉसियन घटकों को सटीक रूप से दिया जा सकता है, लेकिन किसी दिए गए छवि वितरण या डेटा के क्लस्टर को सटीक रूप से मॉडल करने के लिए के = 20 से अधिक घटकों की आवश्यकता होती है।

श्रेणीबद्ध मिश्रण मॉडल

File:Nonbayesian-categorical-mixture.svg

प्लेट नोटेशन का उपयोग करते हुए गैर-बायेसियन श्रेणीबद्ध मिश्रण मॉडल। छोटे वर्ग निश्चित पैरामीटर दर्शाते हैं; बड़े वृत्त यादृच्छिक चर दर्शाते हैं। भरी हुई आकृतियाँ ज्ञात मानों को दर्शाती हैं। संकेत [के] का अर्थ है आकार के वेक्टर; इसी तरह [वी] के लिए।

श्रेणीबद्ध वितरण टिप्पणियों वाला एक विशिष्ट गैर-बायेसियन मिश्रण मॉडल इस तरह दिखता है:

$K,N:$ ऊपरोक्त अनुसार
$\phi _{i=1\dots K},{\boldsymbol {\phi }}:$ ऊपरोक्त अनुसार
$z_{i=1\dots N},x_{i=1\dots N}:$ ऊपरोक्त अनुसार
$V:$ श्रेणीबद्ध टिप्पणियों का आयाम, उदाहरण के लिए, शब्द शब्दावली का आकार
$\theta _{i=1\dots K,j=1\dots V}:$ घटक के लिए संभावना $i$ वस्तु का अवलोकन करना $j$
${\boldsymbol {\theta }}_{i=1\dots K}:$ आयाम का वेक्टर $V,$ की रचना $\theta _{i,1\dots V};$ योग 1 होना चाहिए

यादृच्छिक चर:

{\begin{array}{lcl}z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\text{Categorical}}({\boldsymbol {\theta }}_{z_{i}})\end{array}}

File:Bayesian-categorical-mixture.svg

प्लेट नोटेशन का उपयोग करते हुए बायेसियन श्रेणीबद्ध मिश्रण मॉडल। छोटे वर्ग निश्चित पैरामीटर दर्शाते हैं; बड़े वृत्त यादृच्छिक चर दर्शाते हैं। भरी हुई आकृतियाँ ज्ञात मानों को दर्शाती हैं। संकेत [के] का अर्थ है आकार के वेक्टर; इसी तरह [वी] के लिए।

विशिष्ट वितरण टिप्पणियों वाला एक विशिष्ट बायेसियन मिश्रण मॉडल इस तरह दिखता है:

$K,N:$ ऊपरोक्त अनुसार
$\phi _{i=1\dots K},{\boldsymbol {\phi }}:$ ऊपरोक्त अनुसार
$z_{i=1\dots N},x_{i=1\dots N}:$ ऊपरोक्त अनुसार
$V:$ श्रेणीबद्ध टिप्पणियों का आयाम, उदाहरण के लिए, शब्द शब्दावली का आकार
$\theta _{i=1\dots K,j=1\dots V}:$ घटक के लिए संभावना $i$ वस्तु का अवलोकन करना $j$
${\boldsymbol {\theta }}_{i=1\dots K}:$ आयाम का वेक्टर $V,$ की रचना $\theta _{i,1\dots V};$ योग 1 होना चाहिए
$\alpha :$ की साझा एकाग्रता हाइपरपैरामीटर ${\boldsymbol {\theta }}$ प्रत्येक घटक के लिए
$\beta :$ की एकाग्रता हाइपरपैरामीटर ${\boldsymbol {\phi }}$

यादृच्छिक चर:

{\begin{array}{lcl}{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\{\boldsymbol {\theta }}_{i=1\dots K}&\sim &{\text{Symmetric-Dirichlet}}_{V}(\alpha )\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\text{Categorical}}({\boldsymbol {\theta }}_{z_{i}})\end{array}}

उदाहरण

एक वित्तीय मॉडल

Error creating thumbnail:

सामान्य वितरण को विभिन्न माध्यमों और भिन्नताओं का उपयोग करके प्लॉट किया जाता है

वित्तीय रिटर्न अक्सर सामान्य परिस्थितियों में और संकट के समय में अलग तरह से व्यवहार करते हैं। एक मिश्रण मॉडल^[3] वापसी डेटा के लिए उचित लगता है। कभी-कभी इस्तेमाल किया जाने वाला मॉडल एक कूद-प्रसार मॉडल होता है, या दो सामान्य वितरणों के मिश्रण के रूप में होता है। देखना Financial economics § Challenges and criticism और Financial risk management § Banking आगे के संदर्भ के लिए।

घर की कीमतें

मान लें कि हम एन विभिन्न घरों की कीमतों का निरीक्षण करते हैं। अलग-अलग मोहल्लों में अलग-अलग प्रकार के घरों की कीमतें काफी अलग होंगी, लेकिन किसी विशेष पड़ोस में एक विशेष प्रकार के घर की कीमत (उदाहरण के लिए, मध्यम उच्च स्तर के पड़ोस में तीन-बेडरूम का घर) औसत के आसपास काफी बारीकी से क्लस्टर करेगा। ऐसी कीमतों का एक संभावित मॉडल यह मानना होगा कि कीमतों को मिश्रण मॉडल द्वारा के विभिन्न घटकों के साथ सटीक रूप से वर्णित किया गया है, प्रत्येक अज्ञात माध्य और भिन्नता के साथ सामान्य वितरण के रूप में वितरित किया गया है, प्रत्येक घटक घर के प्रकार/पड़ोस के विशेष संयोजन को निर्दिष्ट करता है। इस मॉडल को देखी गई कीमतों के लिए फिट करना, उदाहरण के लिए, अपेक्षा-अधिकतमकरण एल्गोरिदम का उपयोग करके, घर के प्रकार/पड़ोस के अनुसार कीमतों को क्लस्टर करना होगा और प्रत्येक प्रकार/पड़ोस में कीमतों के फैलाव को प्रकट करना होगा। (ध्यान दें कि कीमतों या आय जैसे मूल्यों के लिए जो सकारात्मक होने की गारंटी देते हैं और जो घातीय वृद्धि को बढ़ाते हैं, एक लॉग-सामान्य वितरण वास्तव में सामान्य वितरण से बेहतर मॉडल हो सकता है।)

दस्तावेज़ में विषय

मान लें कि एक दस्तावेज़ आकार V की कुल शब्दावली से N भिन्न शब्दों से बना है, जहाँ प्रत्येक शब्द K संभावित विषयों में से एक से मेल खाता है। ऐसे शब्दों के वितरण को K भिन्न V-आयामी श्रेणीबद्ध वितरण के मिश्रण के रूप में तैयार किया जा सकता है। इस तरह के एक मॉडल को आमतौर पर एक विषय मॉडल कहा जाता है। ध्यान दें कि इस तरह के मॉडल पर लागू होने वाली अपेक्षा अधिकतमकरण आम तौर पर overfitting के कारण (अन्य बातों के अलावा) यथार्थवादी परिणाम उत्पन्न करने में विफल रहेगा। अच्छे परिणाम प्राप्त करने के लिए आमतौर पर कुछ प्रकार की अतिरिक्त धारणाएँ आवश्यक होती हैं। आमतौर पर दो प्रकार के अतिरिक्त घटक मॉडल में जोड़े जाते हैं:

एक पूर्व वितरण विषय वितरण का वर्णन करने वाले मापदंडों पर रखा गया है, एक एकाग्रता पैरामीटर के साथ डिरिचलेट वितरण का उपयोग करके जो 1 से काफी नीचे सेट किया गया है, ताकि विरल वितरण को प्रोत्साहित किया जा सके (जहां केवल कुछ शब्दों में गैर-शून्य संभावनाएं हैं) .
प्राकृतिक क्लस्टरिंग का लाभ उठाने के लिए, शब्दों की विषय पहचान पर कुछ प्रकार की अतिरिक्त बाधाएँ रखी जाती हैं।

* उदाहरण के लिए, एक मार्कोव श्रृंखला को विषय की पहचान पर रखा जा सकता है (अर्थात, प्रत्येक अवलोकन के मिश्रण घटक को निर्दिष्ट करने वाले अव्यक्त चर), इस तथ्य के अनुरूप कि पास के शब्द समान विषयों से संबंधित हैं। (यह एक छिपे छिपा हुआ मार्कोव मॉडल में परिणत होता है, विशेष रूप से एक जहां एक पूर्व वितरण राज्य के बदलावों पर रखा जाता है जो एक ही राज्य में रहने वाले संक्रमणों का समर्थन करता है।)

एक अन्य संभावना अव्यक्त डिरिचलेट आवंटन मॉडल है, जो शब्दों को डी विभिन्न दस्तावेजों में विभाजित करता है और मानता है कि प्रत्येक दस्तावेज़ में किसी भी आवृत्ति के साथ केवल कुछ ही विषय होते हैं।

लिखावट की पहचान

निम्नलिखित उदाहरण क्रिस्टोफर एम. बिशप, पैटर्न रिकग्निशन एंड मशीन लर्निंग में एक उदाहरण पर आधारित है।^[4] कल्पना कीजिए कि हमें एक N×N श्वेत-श्याम छवि दी गई है जिसे 0 और 9 के बीच हाथ से लिखे अंक के स्कैन के रूप में जाना जाता है, लेकिन हम नहीं जानते कि कौन सा अंक लिखा गया है। हम एक मिश्रण मॉडल बना सकते हैं $K=10$ विभिन्न घटक, जहाँ प्रत्येक घटक आकार का एक सदिश है $N^{2}$ बरनौली वितरण (प्रति पिक्सेल एक)। इस तरह के एक मॉडल को हाथ से लिखे अंकों के बिना लेबल वाले सेट पर अपेक्षा-अधिकतमकरण एल्गोरिथ्म के साथ प्रशिक्षित किया जा सकता है, और प्रभावी रूप से लिखे जा रहे अंकों के अनुसार छवियों को क्लस्टर करेगा। उसी मॉडल का उपयोग केवल मापदंडों को स्थिर रखते हुए, प्रत्येक संभावित अंक (एक तुच्छ गणना) के लिए नई छवि की संभावना की गणना करके और उच्चतम संभाव्यता उत्पन्न करने वाले अंक को वापस करके दूसरी छवि के अंक को पहचानने के लिए किया जा सकता है।

प्रक्षेप्य सटीकता का आकलन (उर्फ परिपत्र त्रुटि संभावित, सीईपी)

मिश्रण मॉडल एक लक्ष्य पर कई प्रोजेक्टाइल को निर्देशित करने की समस्या में लागू होते हैं (जैसे वायु, भूमि या समुद्री रक्षा अनुप्रयोगों में), जहां प्रोजेक्टाइल की भौतिक और/या सांख्यिकीय विशेषताएं कई प्रोजेक्टाइल के भीतर भिन्न होती हैं। एक उदाहरण एक लक्ष्य पर निर्देशित कई स्थानों से कई प्रकार के गोला-बारूद या शॉट्स से हो सकता है। प्रक्षेप्य प्रकार के संयोजन को गाऊसी मिश्रण मॉडल के रूप में वर्णित किया जा सकता है।^[5] इसके अलावा, प्रोजेक्टाइल के एक समूह के लिए सटीकता का एक प्रसिद्ध उपाय परिपत्र त्रुटि संभावित (सीईपी) है, जो कि संख्या आर है, औसतन, प्रोजेक्टाइल के समूह का आधा लक्ष्य के बारे में त्रिज्या आर के घेरे में आता है। बिंदु। मिश्रण मॉडल का उपयोग मूल्य आर निर्धारित (या अनुमान) करने के लिए किया जा सकता है। मिश्रण मॉडल विभिन्न प्रकार के प्रोजेक्टाइल को ठीक से पकड़ लेता है।

प्रत्यक्ष और अप्रत्यक्ष अनुप्रयोग

उपरोक्त वित्तीय उदाहरण मिश्रण मॉडल का एक प्रत्यक्ष अनुप्रयोग है, एक ऐसी स्थिति जिसमें हम एक अंतर्निहित तंत्र मानते हैं ताकि प्रत्येक अवलोकन विभिन्न स्रोतों या श्रेणियों में से किसी एक से संबंधित हो। हालाँकि, यह अंतर्निहित तंत्र देखने योग्य हो भी सकता है और नहीं भी। मिश्रण के इस रूप में, प्रत्येक स्रोत को एक घटक प्रायिकता घनत्व फ़ंक्शन द्वारा वर्णित किया गया है, और इसका मिश्रण वजन इस घटक से एक अवलोकन आने की संभावना है।

मिश्रण मॉडल के अप्रत्यक्ष अनुप्रयोग में हम इस तरह के तंत्र को नहीं मानते हैं। मिश्रण मॉडल का उपयोग केवल गणितीय लचीलेपन के लिए किया जाता है। उदाहरण के लिए, अलग-अलग साधनों के साथ दो सामान्य वितरणों के मिश्रण के परिणामस्वरूप दो मोड (सांख्यिकी) के साथ घनत्व हो सकता है, जो मानक पैरामीट्रिक वितरणों द्वारा प्रतिरूपित नहीं किया जाता है। एक और उदाहरण बुनियादी गॉसियन की तुलना में मोटी पूंछों को मॉडल करने के लिए मिश्रण वितरण की संभावना से दिया जाता है, ताकि अधिक चरम घटनाओं के मॉडलिंग के लिए उम्मीदवार बन सकें। गतिशील स्थिरता के साथ संयुक्त होने पर, यह दृष्टिकोण स्थानीय अस्थिरता मॉडल के संदर्भ में अस्थिरता मुस्कान की उपस्थिति में वित्तीय डेरिवेटिव मूल्यांकन पर लागू किया गया है। यह हमारे आवेदन को परिभाषित करता है।

भविष्य कहनेवाला रखरखाव

भविष्य कहनेवाला रखरखाव में मशीन की स्थिति की पहचान करने के लिए मिश्रण मॉडल-आधारित क्लस्टरिंग का भी मुख्य रूप से उपयोग किया जाता है। घनत्व भूखंडों का उपयोग उच्च आयामी सुविधाओं के घनत्व का विश्लेषण करने के लिए किया जाता है। यदि बहु-मॉडल घनत्व देखे जाते हैं, तो यह माना जाता है कि घनत्व का एक परिमित सेट सामान्य मिश्रण के परिमित सेट द्वारा बनता है। एक बहुभिन्नरूपी गॉसियन मिश्रण मॉडल का उपयोग फीचर डेटा को समूहों की संख्या में क्लस्टर करने के लिए किया जाता है जहां k मशीन के प्रत्येक राज्य का प्रतिनिधित्व करता है। मशीन की स्थिति एक सामान्य स्थिति, बिजली बंद राज्य या दोषपूर्ण स्थिति हो सकती है।^[6] वर्णक्रमीय विश्लेषण जैसी तकनीकों का उपयोग करके प्रत्येक गठित क्लस्टर का निदान किया जा सकता है। हाल के वर्षों में, यह अन्य क्षेत्रों में भी व्यापक रूप से उपयोग किया गया है जैसे कि शुरुआती गलती का पता लगाना।^[7]

फ़ज़ी इमेज सेगमेंटेशन

File:Movie.gif

ग्रे हिस्टोग्राम के साथ छवि विभाजन में गाऊसी मिश्रण का एक उदाहरण

इमेज प्रोसेसिंग और कंप्यूटर विज़न में, पारंपरिक छवि विभाजन मॉडल अक्सर एक पिक्सेल को केवल एक विशिष्ट पैटर्न प्रदान करते हैं। फ़ज़ी या सॉफ्ट सेगमेंटेशन में, किसी भी पैटर्न का किसी एक पिक्सेल पर निश्चित स्वामित्व हो सकता है। यदि पैटर्न गाऊसी हैं, फजी विभाजन स्वाभाविक रूप से गाऊसी मिश्रण में परिणाम देता है। अन्य विश्लेषणात्मक या ज्यामितीय उपकरणों (जैसे, विसरित सीमाओं पर चरण संक्रमण) के साथ संयुक्त, इस तरह के स्थानिक नियमित मिश्रण मॉडल अधिक यथार्थवादी और कम्प्यूटेशनल रूप से कुशल विभाजन विधियों को जन्म दे सकते हैं।^[8]

प्वाइंट सेट पंजीकरण

संभाव्य मिश्रण मॉडल जैसे गाऊसी मिश्रण मॉडल (जीएमएम) का उपयोग छवि प्रसंस्करण और कंप्यूटर दृष्टि क्षेत्रों में बिंदु सेट पंजीकरण समस्याओं को हल करने के लिए किया जाता है। जोड़ी-वार बिंदु सेट पंजीकरण के लिए, एक बिंदु सेट को मिश्रण मॉडल के केन्द्रक के रूप में माना जाता है, और दूसरे बिंदु सेट को डेटा बिंदु (अवलोकन) माना जाता है। अत्याधुनिक तरीके हैं उदा। प्वाइंट_सेट_पंजीकरण#प्वाइंट_सेट_पंजीकरण_एल्गोरिदम#सुसंगत बिंदु बहाव (सीपीडी)^[9] और छात्र का टी-वितरण मिश्रण मॉडल (टीएमएम)।^[10] हाल के शोध के नतीजे हाइब्रिड मिश्रण मॉडल की श्रेष्ठता प्रदर्शित करते हैं^[11] (उदाहरण के लिए छात्र के टी-वितरण और वाटसन वितरण/बिंगहैम वितरण को मॉडल स्थानिक स्थितियों और अक्षों के अलग-अलग वितरण को मिलाकर) अंतर्निहित मजबूती, सटीकता और विवेकपूर्ण क्षमता के संदर्भ में सीपीडी और टीएमएम की तुलना करें।

पहचान योग्यता

पहचान का तात्पर्य उस वर्ग (परिवार) में किसी एक मॉडल के लिए एक अद्वितीय लक्षण वर्णन के अस्तित्व से है, जिस पर विचार किया जा रहा है। अनुमान प्रक्रिया अच्छी तरह से परिभाषित नहीं हो सकती है और यदि कोई मॉडल पहचानने योग्य नहीं है तो एसिम्प्टोटिक सिद्धांत धारण नहीं कर सकता है।

उदाहरण

J को सभी द्विपद वितरणों का वर्ग होने दें n = 2. तब J के दो सदस्यों का मिश्रण होगा

p_{0}=\pi (1-\theta _{1})^{2}+(1-\pi )(1-\theta _{2})^{2}

p_{1}=2\pi \theta _{1}(1-\theta _{1})+2(1-\pi )\theta _{2}(1-\theta _{2})

और p₂ = 1 − p₀ − p₁. स्पष्ट रूप से, दिया गया पी₀ और पी₁उपरोक्त मिश्रण मॉडल को विशिष्ट रूप से निर्धारित करना संभव नहीं है, क्योंकि तीन पैरामीटर (π, θ₁, मैं₂) निर्धारित किए जाने हेतु।

परिभाषा

समान वर्ग के पैरामीट्रिक वितरणों के मिश्रण पर विचार करें। होने देना

J=\{f(\cdot ;\theta ):\theta \in \Omega \}

सभी घटक वितरणों का वर्ग हो। तब J का उत्तल पतवार K, J में वितरण के सभी परिमित मिश्रण के वर्ग को परिभाषित करता है:

K=\left\{p(\cdot ):p(\cdot )=\sum _{i=1}^{n}a_{i}f_{i}(\cdot ;\theta _{i}),a_{i}>0,\sum _{i=1}^{n}a_{i}=1,f_{i}(\cdot ;\theta _{i})\in J\ \forall i,n\right\}

K को पहचानने योग्य कहा जाता है यदि इसके सभी सदस्य अद्वितीय हैं, अर्थात दो सदस्य p और दिए गए हैं p′ कश्मीर में, के वितरण के मिश्रण होने के नाते और k′ क्रमशः जे में वितरण, हमारे पास है p = p′ अगर और केवल अगर, सबसे पहले, k = k′ और दूसरी बात यह है कि हम योगों को फिर से व्यवस्थित कर सकते हैं a_i = a_i′ और ƒ_i = ƒ_i′ सभी के लिए मैं।

पैरामीटर अनुमान और सिस्टम पहचान

पैरामीट्रिक मिश्रण मॉडल का उपयोग अक्सर तब किया जाता है जब हम वितरण Y को जानते हैं और हम X से नमूना ले सकते हैं, लेकिन हम यह निर्धारित करना चाहेंगे कि_iऔर θ_iमान। ऐसी स्थितियाँ उन अध्ययनों में उत्पन्न हो सकती हैं जिनमें हम एक ऐसी आबादी से नमूने लेते हैं जो कई अलग-अलग उप-जनसंख्याओं से बनी होती है।

संभाव्यता मिश्रण मॉडलिंग को लापता डेटा समस्या के रूप में सोचना आम है। इसे समझने का एक तरीका यह मान लेना है कि जिन डेटा बिंदुओं पर विचार किया जा रहा है, उनमें से किसी एक वितरण में सदस्यता है जिसका उपयोग हम डेटा को मॉडल करने के लिए कर रहे हैं। जब हम शुरू करते हैं, तो यह सदस्यता अज्ञात होती है, या गायब होती है। अनुमान का काम हमारे द्वारा चुने गए मॉडल कार्यों के लिए उपयुक्त पैरामीटर तैयार करना है, डेटा बिंदुओं के कनेक्शन के साथ व्यक्तिगत मॉडल वितरण में उनकी सदस्यता के रूप में प्रतिनिधित्व किया जा रहा है।

मिश्रण अपघटन की समस्या के लिए कई तरह के दृष्टिकोण प्रस्तावित किए गए हैं, जिनमें से कई अधिकतम संभावना विधियों पर ध्यान केंद्रित करते हैं जैसे कि अपेक्षा अधिकतमकरण (ईएम) या अधिकतम पश्च अनुमान (एमएपी)। आम तौर पर ये विधियां सिस्टम पहचान और पैरामीटर अनुमान के प्रश्नों पर अलग से विचार करती हैं; मिश्रण के भीतर घटकों की संख्या और कार्यात्मक रूप निर्धारित करने के तरीकों को संबंधित पैरामीटर मानों का अनुमान लगाने के तरीकों से अलग किया जाता है। कुछ उल्लेखनीय विचलन टार्टर और लॉक में उल्लिखित चित्रमय तरीके हैं^[12] और हाल ही में न्यूनतम संदेश लंबाई (एमएमएल) तकनीक जैसे फिगुएरेडो और जैन^[13] और कुछ हद तक मैकविलियम और लोह (2009) द्वारा सुझाए गए पल मिलान पैटर्न विश्लेषण रूटीन।^[14]

अपेक्षा अधिकतमकरण (ईएम)

अपेक्षा-अधिकतमकरण एल्गोरिथम (EM) प्रतीत होता है कि सबसे लोकप्रिय तकनीक है जिसका उपयोग किसी प्राथमिकता वाले घटकों की संख्या के साथ मिश्रण के मापदंडों को निर्धारित करने के लिए किया जाता है। यह इस समस्या के लिए अधिकतम संभावना अनुमान लागू करने का एक विशेष तरीका है। ईएम परिमित सामान्य मिश्रणों के लिए विशेष रूप से अपील करता है जहां बंद-रूप अभिव्यक्तियां संभव हैं जैसे डेम्पस्टर एट अल द्वारा निम्नलिखित पुनरावृत्त एल्गोरिदम में। (1977)^[15]

w_{s}^{(j+1)}={\frac {1}{N}}\sum _{t=1}^{N}h_{s}^{(j)}(t)

\mu _{s}^{(j+1)}={\frac {\sum _{t=1}^{N}h_{s}^{(j)}(t)x^{(t)}}{\sum _{t=1}^{N}h_{s}^{(j)}(t)}}

\Sigma _{s}^{(j+1)}={\frac {\sum _{t=1}^{N}h_{s}^{(j)}(t)[x^{(t)}-\mu _{s}^{(j+1)}][x^{(t)}-\mu _{s}^{(j+1)}]^{\top }}{\sum _{t=1}^{N}h_{s}^{(j)}(t)}}

पश्च संभावनाओं के साथ

h_{s}^{(j)}(t)={\frac {w_{s}^{(j)}p_{s}(x^{(t)};\mu _{s}^{(j)},\Sigma _{s}^{(j)})}{\sum _{i=1}^{n}w_{i}^{(j)}p_{i}(x^{(t)};\mu _{i}^{(j)},\Sigma _{i}^{(j)})}}.

इस प्रकार पैरामीटर के लिए वर्तमान अनुमान के आधार पर, किसी दिए गए अवलोकन x के लिए सशर्त संभावना^(t) राज्य s से उत्पन्न किया जा रहा है प्रत्येक के लिए निर्धारित किया जाता है t = 1, …, N ; एन नमूना आकार है। मापदंडों को तब अद्यतन किया जाता है जैसे कि नए घटक भार औसत सशर्त संभाव्यता के अनुरूप होते हैं और प्रत्येक घटक माध्य और सहप्रसरण पूरे नमूने के माध्य और सहप्रसरण का घटक विशिष्ट भारित औसत होता है।

डेम्पस्टर^[15]यह भी दिखाया कि प्रत्येक क्रमिक ईएम पुनरावृत्ति संभावना को कम नहीं करेगा, अन्य ढाल आधारित अधिकतमकरण तकनीकों द्वारा साझा नहीं की जाने वाली संपत्ति। इसके अलावा, ईएम स्वाभाविक रूप से संभाव्यता वेक्टर पर बाधाओं को एम्बेड करता है, और पर्याप्त रूप से बड़े नमूना आकार के लिए सहसंयोजक पुनरावृत्तियों की सकारात्मक निश्चितता। यह एक प्रमुख लाभ है क्योंकि स्पष्ट रूप से विवश विधियों में उचित मूल्यों की जांच और रखरखाव के लिए अतिरिक्त कम्प्यूटेशनल लागतें होती हैं। सैद्धांतिक रूप से EM एक प्रथम-क्रम एल्गोरिथम है और इस तरह धीरे-धीरे एक निश्चित-बिंदु समाधान में परिवर्तित हो जाता है। रेडनर और वाकर (1984)^{[full citation needed]} इस बिंदु को सुपरलीनियर और दूसरे क्रम के न्यूटन और अर्ध-न्यूटन विधियों के पक्ष में तर्क दें और उनके अनुभवजन्य परीक्षणों के आधार पर EM में धीमे अभिसरण की रिपोर्ट करें। वे स्वीकार करते हैं कि संभाव्यता में अभिसरण तेजी से था भले ही पैरामीटर मानों में अभिसरण स्वयं नहीं था। अन्य साहित्य में ईएम और अन्य एल्गोरिदम बनाम अभिसरण के सापेक्ष गुणों पर चर्चा की गई है।^[16] ईएम के उपयोग के लिए अन्य आम आपत्तियां यह हैं कि इसमें स्थानीय मैक्सिमा की नकली पहचान करने की प्रवृत्ति है, साथ ही प्रारंभिक मूल्यों के प्रति संवेदनशीलता प्रदर्शित होती है।^[17]^[18] पैरामीटर स्पेस में कई शुरुआती बिंदुओं पर ईएम का मूल्यांकन करके इन समस्याओं का समाधान किया जा सकता है, लेकिन यह कम्प्यूटेशनल रूप से महंगा है और अन्य दृष्टिकोण, जैसे कि यूडिया और नाकानो (1998) की एनीलिंग ईएम विधि (जिसमें प्रारंभिक घटकों को अनिवार्य रूप से ओवरलैप करने के लिए मजबूर किया जाता है, प्रारंभिक अनुमानों के लिए कम विषम आधार प्रदान करना), बेहतर हो सकता है।

फिगुएरेडो और जैन^[13]ध्यान दें कि सीमा पर प्राप्त 'अर्थहीन' पैरामीटर मानों का अभिसरण (जहां नियमितता की स्थिति टूट जाती है, उदाहरण के लिए, घोष और सेन (1985)) अक्सर देखा जाता है जब मॉडल घटकों की संख्या इष्टतम/सही एक से अधिक हो जाती है। इस आधार पर वे अनुमान और पहचान के लिए एक एकीकृत दृष्टिकोण का सुझाव देते हैं जिसमें प्रारंभिक n को अपेक्षित इष्टतम मान से बहुत अधिक चुना जाता है। उनका अनुकूलन रूटीन एक न्यूनतम संदेश लंबाई (एमएमएल) मानदंड के माध्यम से बनाया गया है जो एक उम्मीदवार घटक को प्रभावी रूप से समाप्त कर देता है यदि इसका समर्थन करने के लिए अपर्याप्त जानकारी है। इस तरह n में कटौती को व्यवस्थित करना और संयुक्त रूप से अनुमान और पहचान पर विचार करना संभव है।

उम्मीद का कदम

हमारे मिश्रण मॉडल के मापदंडों के लिए प्रारंभिक अनुमानों के साथ, प्रत्येक घटक वितरण में प्रत्येक डेटा बिंदु की आंशिक सदस्यता की गणना प्रत्येक डेटा बिंदु के सदस्यता चर के लिए अपेक्षित मूल्यों की गणना करके की जाती है। अर्थात्, प्रत्येक डेटा बिंदु x के लिए_jऔर वितरण वाई_i, सदस्यता मूल्य y_{i, j} है:

y_{i,j}={\frac {a_{i}f_{Y}(x_{j};\theta _{i})}{f_{X}(x_{j})}}.

अधिकतम चरण

समूह सदस्यता के लिए अपेक्षित मूल्यों के साथ, वितरण मापदंडों के लिए प्लग-इन अनुमानों की पुन: गणना की जाती है।

मिश्रण गुणांक ए_iएन डेटा बिंदुओं पर सदस्यता मूल्यों के अंकगणितीय साधन हैं।

a_{i}={\frac {1}{N}}\sum _{j=1}^{N}y_{i,j}

घटक मॉडल पैरामीटर θ_iडेटा बिंदु x का उपयोग करके अपेक्षा अधिकतमकरण द्वारा भी गणना की जाती है_jजिन्हें सदस्यता मूल्यों का उपयोग करके भारित किया गया है। उदाहरण के लिए, यदि θ एक माध्य μ है

\mu _{i}={\frac {\sum _{j}y_{i,j}x_{j}}{\sum _{j}y_{i,j}}}.

के लिए नए अनुमानों के साथ_iऔर θ_iएस, नए सदस्यता मूल्यों की पुनर्गणना करने के लिए अपेक्षा चरण दोहराया जाता है। पूरी प्रक्रिया तब तक दोहराई जाती है जब तक कि मॉडल पैरामीटर अभिसरण नहीं हो जाते।

मार्कोव चेन मोंटे कार्लो

EM एल्गोरिथम के विकल्प के रूप में, मिश्रण मॉडल पैरामीटर्स को पश्च नमूनाकरण का उपयोग करके घटाया जा सकता है जैसा कि बेयस प्रमेय द्वारा दर्शाया गया है। यह अभी भी एक अपूर्ण डेटा समस्या के रूप में माना जाता है जिससे डेटा बिंदुओं की सदस्यता लापता डेटा है। गिब्स नमूनाकरण के रूप में जानी जाने वाली दो-चरणीय पुनरावृत्ति प्रक्रिया का उपयोग किया जा सकता है।

दो गाऊसी वितरणों के मिश्रण का पिछला उदाहरण प्रदर्शित कर सकता है कि विधि कैसे काम करती है। पहले की तरह, मिश्रण मॉडल के लिए प्राचलों का प्रारंभिक अनुमान लगाया जाता है। प्रत्येक मौलिक वितरण के लिए आंशिक सदस्यता की गणना करने के बजाय, प्रत्येक डेटा बिंदु के लिए एक सदस्यता मूल्य बर्नौली वितरण से तैयार किया जाता है (अर्थात, इसे पहले या दूसरे गॉसियन को सौंपा जाएगा)। Bernoulli पैरामीटर θ घटक वितरण में से एक के आधार पर प्रत्येक डेटा बिंदु के लिए निर्धारित किया जाता है।^[vague] वितरण से ड्रा प्रत्येक डेटा बिंदु के लिए सदस्यता संघों को उत्पन्न करता है। प्लग-इन अनुमानकों का उपयोग ईएम के एम चरण के रूप में मिश्रण मॉडल पैरामीटर का एक नया सेट उत्पन्न करने के लिए किया जा सकता है, और द्विपद ड्रा चरण दोहराया जाता है।

क्षण मिलान

क्षणों की विधि (सांख्यिकी) 1894 के कार्ल पियर्सन के सेमिनल कार्य से संबंधित मिश्रण मापदंडों को निर्धारित करने के लिए सबसे पुरानी तकनीकों में से एक है। इस दृष्टिकोण में मिश्रण के पैरामीटर इस तरह निर्धारित किए जाते हैं कि समग्र वितरण में कुछ दिए गए मान से मेल खाने वाले क्षण होते हैं। कई उदाहरणों में पल समीकरणों के समाधान निकालने से गैर-तुच्छ बीजगणितीय या कम्प्यूटेशनल समस्याएं हो सकती हैं। इसके अलावा, दिन के हिसाब से संख्यात्मक विश्लेषण^[19] ने संकेत दिया है कि ईएम की तुलना में ऐसी विधियां अक्षम हो सकती हैं। बहरहाल, इस पद्धति में नए सिरे से रुचि दिखाई गई है, उदाहरण के लिए, क्रेगमील और टिटरिंगटन (1998) और वांग।^[20] मैकविलियम और लोह (2009) बड़े आयामी प्रणालियों में एक हाइपर-क्यूबॉइड सामान्य मिश्रण कोप्युला (सांख्यिकी) के लक्षण वर्णन पर विचार करते हैं जिसके लिए ईएम कम्प्यूटेशनल रूप से निषेधात्मक होगा। यहाँ एक पैटर्न विश्लेषण रूटीन का उपयोग बहुभिन्नरूपी पूंछ-निर्भरता उत्पन्न करने के लिए किया जाता है, जो एक प्रकार के अविभाजित और (कुछ अर्थों में) द्विभाजित क्षणों के अनुरूप होता है। इस पद्धति के प्रदर्शन का मूल्यांकन कोलमोगोरोव-स्मिर्नोव परीक्षण आंकड़ों के साथ इक्विटी लॉग-रिटर्न डेटा का उपयोग करके किया जाता है जो एक अच्छा वर्णनात्मक फिट का सुझाव देता है।

स्पेक्ट्रल विधि

वर्णक्रमीय विधियों का उपयोग करके मिश्रण मॉडल के आकलन में कुछ समस्याओं को हल किया जा सकता है। विशेष रूप से यह उपयोगी हो जाता है यदि डेटा बिंदु x है_iउच्च-आयामी वास्तविक समन्वय स्थान में बिंदु हैं, और छिपे हुए वितरण को लघुगणक रूप से अवतल कार्य | लॉग-अवतल (जैसे गॉसियन वितरण या घातीय वितरण) के रूप में जाना जाता है।

सीखने के मिश्रण मॉडल के वर्णक्रमीय तरीके एक मैट्रिक्स के एकवचन मूल्य अपघटन के उपयोग पर आधारित होते हैं जिसमें डेटा बिंदु होते हैं। विचार शीर्ष k एकवचन वैक्टर पर विचार करना है, जहाँ k सीखने के लिए वितरण की संख्या है। प्रक्षेपण प्रत्येक डेटा बिंदु उन वैक्टर समूहों द्वारा फैले एक रेखीय उप-स्थान की ओर इशारा करता है जो समान वितरण से उत्पन्न होते हैं एक साथ बहुत पास होते हैं, जबकि विभिन्न वितरणों के अंक दूर-दूर रहते हैं।

वर्णक्रमीय पद्धति की एक विशिष्ट विशेषता यह है कि यह हमें गणितीय प्रमाण की अनुमति देती है कि यदि बंटन निश्चित अलगाव की स्थिति को पूरा करते हैं (उदाहरण के लिए, बहुत करीब नहीं), तो अनुमानित मिश्रण उच्च संभावना के साथ सही के बहुत करीब होगा।

ग्राफिकल तरीके

टार्टर और लॉक^[12]मिश्रण पहचान के लिए एक ग्राफिकल दृष्टिकोण का वर्णन करें जिसमें एक कर्नेल फ़ंक्शन को अनुभवजन्य आवृत्ति प्लॉट पर लागू किया जाता है ताकि इंट्रा-घटक भिन्नता को कम किया जा सके। इस तरह अलग-अलग साधनों वाले घटकों की अधिक आसानी से पहचान की जा सकती है। हालांकि इस λ-पद्धति को घटकों की संख्या या कार्यात्मक रूप के पूर्व ज्ञान की आवश्यकता नहीं होती है, लेकिन इसकी सफलता कर्नेल पैरामीटर की पसंद पर निर्भर करती है जो कुछ हद तक घटक संरचना के बारे में धारणाओं को एम्बेड करती है।

अन्य तरीके

उनमें से कुछ शायद भारी-पूंछ वाले वितरणों के मिश्रण को भी सीख सकते हैं जिनमें शामिल हैं अनंत विचरण (नीचे #Recent पेपर देखें)। इस सेटिंग में, EM आधारित विधियाँ काम नहीं करेंगी, क्योंकि उम्मीद का चरण की उपस्थिति के कारण अलग हो जाएगा ग़ैर

एक सिमुलेशन

आकार N के नमूने का अनुकरण करने के लिए जो वितरण F के मिश्रण से है_i, i=1 से n, प्रायिकता p के साथ_i (योग = पी_i= 1):

आकार n और प्रायिकता p के स्पष्ट वितरण से N यादृच्छिक संख्या उत्पन्न करें_i i= 1= से n के लिए। ये आपको बताते हैं कि कौन से F_i प्रत्येक N मान से आएगा। एम द्वारा निरूपित करें_ii को सौंपी गई यादृच्छिक संख्याओं की मात्रा^वें श्रेणी।
प्रत्येक i के लिए, m उत्पन्न करें_iएफ से यादृच्छिक संख्या_i वितरण।

एक्सटेंशन

बायेसियन अनुमान में, मिश्रण मॉडल को परिभाषित करने वाले ग्राफिकल मॉडल में अतिरिक्त स्तर जोड़े जा सकते हैं। उदाहरण के लिए, सामान्य अव्यक्त डिरिचलेट आवंटन विषय मॉडल में, अवलोकन D विभिन्न दस्तावेज़ों से लिए गए शब्दों के समूह हैं और K मिश्रण घटक उन विषयों का प्रतिनिधित्व करते हैं जो दस्तावेज़ों में साझा किए जाते हैं। प्रत्येक दस्तावेज़ में मिश्रण भार का एक अलग सेट होता है, जो उस दस्तावेज़ में प्रचलित विषयों को निर्दिष्ट करता है। मिश्रण भार के सभी सेट सामान्य hyperparameter साझा करते हैं।

यह मानने के बजाय कि वे स्वतंत्र रूप से समान रूप से वितरित यादृच्छिक चर हैं, एक मार्कोव श्रृंखला में मिश्रण घटक पहचान को परिभाषित करने वाले अव्यक्त चर को जोड़ने के लिए एक बहुत ही सामान्य विस्तार है। परिणामी मॉडल को एक छिपा हुआ मार्कोव मॉडल कहा जाता है और यह सबसे आम अनुक्रमिक श्रेणीबद्ध मॉडल में से एक है। छिपे हुए मार्कोव मॉडल के कई विस्तार विकसित किए गए हैं; अधिक जानकारी के लिए परिणामी लेख देखें।

इतिहास

मिश्रण वितरण और मिश्रण अपघटन की समस्या, जो कि इसके घटक घटकों और उसके मापदंडों की पहचान है, को साहित्य में 1846 तक उद्धृत किया गया है (मैकलचैन में क्वेटलेट,^[17] 2000) हालांकि सामान्य संदर्भ कार्ल पियर्सन (1894) के काम के लिए किया जाता है रेफरी नाम = अमेंडोला2015>{{Cite journal |last=Améndola |first=Carlos |display-authors=etal |arxiv=1510.04654 |year=2015 |title=गौसियन मिश्रण की क्षण किस्में|doi=10.18409/jas.v7i1.42 |volume=7 |journal=Journal of Algebraic Statistics|bibcode=2015arXiv151004654A |s2cid=88515304 }</ref> पहले लेखक के रूप में मादा किनारे केकड़े की आबादी में माथे से शरीर की लंबाई के अनुपात की गैर-सामान्य विशेषताओं को चिह्नित करने में अपघटन समस्या को स्पष्ट रूप से संबोधित करने के लिए। इस काम के लिए प्रेरणा प्राणी विज्ञानी वाल्टर फ्रैंक राफेल वेल्डन द्वारा प्रदान की गई थी जिन्होंने 1893 में अनुमान लगाया था (टार्टर और लॉक में)^[12] कि इन अनुपातों के हिस्टोग्राम में विषमता विकासवादी विचलन का संकेत दे सकती है। पियर्सन का दृष्टिकोण मिश्रण के पांच मापदंडों को चुनकर डेटा में दो मानदंडों के एक अविभाज्य मिश्रण को फिट करना था, जैसे कि अनुभवजन्य क्षण मॉडल के मेल खाते थे।

जबकि उनका काम दो संभावित अलग-अलग उप-आबादी की पहचान करने में सफल रहा और एक क्षण मिलान उपकरण के रूप में मिश्रण के लचीलेपन को प्रदर्शित करने में, सूत्रीकरण के लिए 9वीं डिग्री (नॉनिक) बहुपद के समाधान की आवश्यकता थी जो उस समय एक महत्वपूर्ण कम्प्यूटेशनल चुनौती थी।

इसके बाद के कार्यों ने इन समस्याओं को दूर करने पर ध्यान केंद्रित किया, लेकिन यह तब तक नहीं था जब तक कि आधुनिक कंप्यूटर का आगमन और अधिकतम संभावना (MLE) पैरामीटराइजेशन तकनीकों का लोकप्रियकरण नहीं हो गया था, जो वास्तव में शोध से दूर हो गए थे।^[21] उस समय से मत्स्य, कृषि, वनस्पति विज्ञान, अर्थशास्त्र, चिकित्सा, आनुवंशिकी, मनोविज्ञान, जीवाश्म विज्ञान, वैद्युतकणसंचलन, वित्त, भूविज्ञान और जीव विज्ञानं जैसे क्षेत्रों में फैले इस विषय पर अनुसंधान का एक विशाल निकाय रहा है।^[22]

यह भी देखें