मिश्रण वितरण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{Short description|Probability distribution}}
{{Short description|Probability distribution}}
{{See also|मिश्रण मॉडल|यौगिक संभाव्यता वितरण}}
{{See also|मिश्रण मॉडल|यौगिक संभाव्यता वितरण}}
संभाव्यता और आंकड़ों में, एक मिश्रण वितरण एक यादृच्छिक चर का संभाव्यता वितरण है जो अन्य यादृच्छिक चर के संग्रह से प्राप्त होता है: पहले, चयन की दी गई [[संभावना]]ओं के अनुसार संग्रह से एक यादृच्छिक चर का चयन किया जाता है, और फिर चयनित यादृच्छिक चर का मान प्राप्त होता है। अंतर्निहित यादृच्छिक चर यादृच्छिक वास्तविक संख्या हो सकते हैं, या वे यादृच्छिक वैक्टर हो सकते हैं (प्रत्येक समान आयाम वाले), इस मामले में मिश्रण वितरण एक [[बहुभिन्नरूपी वितरण]] है।
संभाव्यता और आंकड़ों में, एक मिश्रण वितरण एक यादृच्छिक चर का संभाव्यता वितरण है जो अन्य यादृच्छिक चर के संग्रह से प्राप्त होता है: पहले, चयन की दी गई [[संभावना|संभावनाओं]] के अनुसार संग्रह से एक यादृच्छिक चर का चयन किया जाता है, और फिर चयनित यादृच्छिक चर का मान प्राप्त होता है। अंतर्निहित यादृच्छिक चर यादृच्छिक वास्तविक संख्या हो सकते हैं, या वे यादृच्छिक वैक्टर (प्रत्येक समान आयाम वाले) हो सकते हैं, इस स्थिति में मिश्रण वितरण एक [[बहुभिन्नरूपी वितरण]] है।


ऐसे मामलों में जहां अंतर्निहित यादृच्छिक चर में से प्रत्येक निरंतर यादृच्छिक चर है, परिणाम चर भी निरंतर होगा और इसकी संभावना घनत्व समारोह को कभी-कभी मिश्रण घनत्व के रूप में संदर्भित किया जाता है। संचयी वितरण फ़ंक्शन (और संभावना घनत्व फ़ंक्शन यदि मौजूद है) को अन्य वितरण कार्यों और घनत्व कार्यों के [[उत्तल संयोजन]] (यानी एक भारित योग, गैर-ऋणात्मक भार के साथ 1 तक) के रूप में व्यक्त किया जा सकता है। व्यक्तिगत वितरण जो मिश्रण वितरण बनाने के लिए संयुक्त होते हैं उन्हें मिश्रण घटक कहा जाता है, और प्रत्येक घटक से जुड़ी संभावनाओं (या वजन) को मिश्रण वजन कहा जाता है। मिश्रण वितरण में घटकों की संख्या अक्सर परिमित होने तक सीमित होती है, हालांकि कुछ मामलों में घटक संख्या में [[गणनीय]] हो सकते हैं। अधिक सामान्य मामले (अर्थात् घटक वितरण का एक [[बेशुमार]] सेट), साथ ही साथ गणनीय मामला, [[यौगिक संभाव्यता वितरण]] के शीर्षक के तहत माना जाता है।
ऐसे स्थितियों में जहां अंतर्निहित यादृच्छिक चर में से प्रत्येक निरंतर यादृच्छिक चर है, परिणाम चर भी निरंतर होगा और इसकी संभावना घनत्व समारोह को कभी-कभी मिश्रण घनत्व के रूप में संदर्भित किया जाता है। संचयी वितरण फलन (और संभावना घनत्व फलन यदि उपस्थित है) को अन्य वितरण कार्यों और घनत्व कार्यों के [[उत्तल संयोजन]] (अर्थात् एक भारित योग, गैर-ऋणात्मक भार के साथ 1 तक) के रूप में व्यक्त किया जा सकता है। व्यक्तिगत वितरण जो मिश्रण वितरण बनाने के लिए संयुक्त होते हैं उन्हें मिश्रण घटक कहा जाता है, और प्रत्येक घटक से जुड़ी संभावनाओं (या वजन) को मिश्रण वजन कहा जाता है। मिश्रण वितरण में घटकों की संख्या अधिकांश परिमित होने तक सीमित होती है, चूंकि कुछ स्थितियों में घटक संख्या में [[गणनीय]] हो सकते हैं। अधिक सामान्य स्थिति (अर्थात् घटक वितरण का एक [[बेशुमार]] सेट), साथ ही साथ गणनीय स्थिति, [[यौगिक संभाव्यता वितरण]] के शीर्षक के अनुसार माना जाता है।


एक यादृच्छिक चर के बीच एक अंतर बनाने की आवश्यकता है जिसका वितरण कार्य या घनत्व घटकों के एक सेट (यानी एक मिश्रण वितरण) का योग है और एक यादृच्छिक चर जिसका मान दो या दो से अधिक अंतर्निहित यादृच्छिक चर के मानों का योग है, में किस मामले में [[कनवल्शन]] ऑपरेटर द्वारा वितरण दिया जाता है। एक उदाहरण के रूप में, दो [[बहुभिन्नरूपी सामान्य वितरण]] यादृच्छिक चर का योग, प्रत्येक अलग-अलग साधनों के साथ, अभी भी एक सामान्य वितरण होगा। दूसरी ओर, अलग-अलग साधनों के साथ दो सामान्य वितरणों के मिश्रण के रूप में निर्मित मिश्रण घनत्व में दो चोटियाँ होंगी, बशर्ते कि दो साधन काफी दूर हों, यह दर्शाता है कि यह वितरण सामान्य वितरण से मौलिक रूप से भिन्न है।
एक यादृच्छिक चर के बीच एक अंतर बनाने की आवश्यकता है जिसका वितरण कार्य या घनत्व घटकों के एक सेट (अर्थात् एक मिश्रण वितरण) का योग है और एक यादृच्छिक चर जिसका मान दो या दो से अधिक अंतर्निहित यादृच्छिक चर के मानों का योग है, में किस स्थिति में [[कनवल्शन]] ऑपरेटर द्वारा वितरण दिया जाता है। एक उदाहरण के रूप में, दो [[बहुभिन्नरूपी सामान्य वितरण]] यादृच्छिक चर का योग, प्रत्येक अलग-अलग साधनों के साथ, अभी भी एक सामान्य वितरण होगा। दूसरी ओर, अलग-अलग साधनों के साथ दो सामान्य वितरणों के मिश्रण के रूप में निर्मित मिश्रण घनत्व में दो चोटियाँ होंगी, किन्तु दो साधन काफी दूर हों, यह दर्शाता है कि यह वितरण सामान्य वितरण से मौलिक रूप से भिन्न है।


मिश्रण वितरण साहित्य में कई संदर्भों में उत्पन्न होता है और स्वाभाविक रूप से उत्पन्न होता है जहां एक सांख्यिकीय आबादी में दो या दो से अधिक [[उप-जनसंख्या]] होती है। उन्हें कभी-कभी गैर-सामान्य वितरण का प्रतिनिधित्व करने के साधन के रूप में भी उपयोग किया जाता है। मिश्रण वितरण से जुड़े [[सांख्यिकीय मॉडल]] से संबंधित डेटा विश्लेषण पर [[मिश्रण मॉडल]] के शीर्षक के तहत चर्चा की गई है, जबकि वर्तमान लेख मिश्रण वितरण के सरल संभाव्य और सांख्यिकीय गुणों पर ध्यान केंद्रित करता है और ये अंतर्निहित वितरण के गुणों से कैसे संबंधित हैं।
मिश्रण वितरण साहित्य में कई संदर्भों में उत्पन्न होता है और स्वाभाविक रूप से उत्पन्न होता है जहां एक सांख्यिकीय आबादी में दो या दो से अधिक [[उप-जनसंख्या]] होती है। उन्हें कभी-कभी गैर-सामान्य वितरण का प्रतिनिधित्व करने के साधन के रूप में भी उपयोग किया जाता है। मिश्रण वितरण से जुड़े [[सांख्यिकीय मॉडल]] से संबंधित डेटा विश्लेषण पर [[मिश्रण मॉडल]] के शीर्षक के अनुसार चर्चा की गई है, जबकि वर्तमान लेख मिश्रण वितरण के सरल संभाव्य और सांख्यिकीय गुणों पर ध्यान केंद्रित करता है और ये अंतर्निहित वितरण के गुणों से कैसे संबंधित हैं।


== परिमित और गणनीय मिश्रण ==
== परिमित और गणनीय मिश्रण ==
[[Image:Gaussian-mixture-example.svg|thumb|समान वजन वाले तीन सामान्य वितरण (μ= 5, 10, 15, σ = 2) के मिश्रण का घनत्व। प्रत्येक घटक को भारित घनत्व के रूप में दिखाया गया है (प्रत्येक 1/3 को एकीकृत करता है)]]संभाव्यता घनत्व कार्यों पी के एक सीमित सेट को देखते हुए<sub>1</sub>(एक्स), ..., पी<sub>n</sub>(एक्स), या संबंधित संचयी वितरण कार्य पी<sub>1</sub>(एक्स), ..., पी<sub>n</sub>(एक्स) और 'वजन' डब्ल्यू<sub>1</sub>, ..., में<sub>n</sub>ऐसा है कि {{nowrap|''w<sub>i</sub>'' ≥ 0}} और {{nowrap|Σ''w<sub>i</sub>'' {{=}} 1, }} मिश्रण वितरण को या तो घनत्व, f, या वितरण फलन, F, को एक योग के रूप में लिखकर प्रदर्शित किया जा सकता है (जो दोनों ही मामलों में एक उत्तल संयोजन है):
[[Image:Gaussian-mixture-example.svg|thumb|समान वजन वाले तीन सामान्य वितरण (μ= 5, 10, 15, σ = 2) के मिश्रण का घनत्व। प्रत्येक घटक को भारित घनत्व के रूप में दिखाया गया है (प्रत्येक 1/3 को एकीकृत करता है)]]संभाव्यता घनत्व कार्यों पी के एक सीमित सेट को देखते हुए<sub>1</sub>(एक्स), ..., पी<sub>n</sub>(एक्स), या संबंधित संचयी वितरण कार्य पी<sub>1</sub>(एक्स), ..., पी<sub>n</sub>(एक्स) और 'वजन' डब्ल्यू<sub>1</sub>, ..., में<sub>n</sub>ऐसा है कि {{nowrap|''w<sub>i</sub>'' ≥ 0}} और {{nowrap|Σ''w<sub>i</sub>'' {{=}} 1, }} मिश्रण वितरण को या तो घनत्व, f, या वितरण फलन, F, को एक योग के रूप में लिखकर प्रदर्शित किया जा सकता है (जो दोनों ही स्थितियों में एक उत्तल संयोजन है):
:<math> F(x) = \sum_{i=1}^n \, w_i \, P_i(x), </math>
:<math> F(x) = \sum_{i=1}^n \, w_i \, P_i(x), </math>
:<math> f(x) = \sum_{i=1}^n \, w_i \, p_i(x) .</math>
:<math> f(x) = \sum_{i=1}^n \, w_i \, p_i(x) .</math>
इस प्रकार का मिश्रण, एक परिमित राशि होने के नाते, एक परिमित मिश्रण कहा जाता है, और अनुप्रयोगों में, मिश्रण घनत्व के लिए एक अयोग्य संदर्भ का अर्थ आमतौर पर एक परिमित मिश्रण होता है। घटकों के एक अनगिनत अनंत सेट के मामले को अनुमति देकर औपचारिक रूप से कवर किया गया है <math> n = \infty\!</math> .
इस प्रकार का मिश्रण, एक परिमित राशि होने के नाते, एक परिमित मिश्रण कहा जाता है, और अनुप्रयोगों में, मिश्रण घनत्व के लिए एक अयोग्य संदर्भ का अर्थ आमतौर पर एक परिमित मिश्रण होता है। घटकों के एक अनगिनत अनंत सेट के स्थिति को अनुमति देकर औपचारिक रूप से कवर किया गया है <math> n = \infty\!</math> .


== बेशुमार मिश्रण ==
== बेशुमार मिश्रण ==
{{Main article|यौगिक वितरण}}
{{Main article|यौगिक वितरण}}


जहां घटक वितरण का सेट बेशुमार होता है, परिणाम को अक्सर यौगिक संभाव्यता वितरण कहा जाता है। इस तरह के वितरण के निर्माण में मिश्रण वितरण के लिए एक औपचारिक समानता होती है, जिसमें या तो अनंत योग या परिमित मिश्रण के लिए उपयोग किए जाने वाले परिमित योगों की जगह अभिन्न अंग होते हैं।
जहां घटक वितरण का सेट बेशुमार होता है, परिणाम को अधिकांश यौगिक संभाव्यता वितरण कहा जाता है। इस तरह के वितरण के निर्माण में मिश्रण वितरण के लिए एक औपचारिक समानता होती है, जिसमें या तो अनंत योग या परिमित मिश्रण के लिए उपयोग किए जाने वाले परिमित योगों की जगह अभिन्न अंग होते हैं।


प्रायिकता घनत्व फलन p(x;a) पर एक चर x के लिए विचार करें, जिसे a द्वारा परिचालित किया गया है। अर्थात्, किसी समुच्चय A में a के प्रत्येक मान के लिए, p(x;a) x के संबंध में प्रायिकता घनत्व फलन है। प्रायिकता घनत्व फ़ंक्शन w दिया गया है (जिसका अर्थ है कि w गैर-नकारात्मक है और 1 को एकीकृत करता है), फ़ंक्शन
प्रायिकता घनत्व फलन p(x;a) पर एक चर x के लिए विचार करें, जिसे a द्वारा परिचालित किया गया है। अर्थात्, किसी समुच्चय A में a के प्रत्येक मान के लिए, p(x;a) x के संबंध में प्रायिकता घनत्व फलन है। प्रायिकता घनत्व फलन w दिया गया है (जिसका अर्थ है कि w गैर-नकारात्मक है और 1 को एकीकृत करता है), फलन


:<math> f(x) = \int_A \, w(a) \, p(x;a) \, da </math>
:<math> f(x) = \int_A \, w(a) \, p(x;a) \, da </math>
फिर से x के लिए प्रायिकता घनत्व फलन है। संचयी वितरण समारोह के लिए एक समान अभिन्न लिखा जा सकता है। ध्यान दें कि यहाँ सूत्र परिमित या अनंत मिश्रण के मामले में कम हो जाते हैं यदि घनत्व w को [[असतत वितरण]] के संचयी वितरण समारोह के व्युत्पन्न का प्रतिनिधित्व करने वाला एक सामान्यीकृत कार्य होने की अनुमति है।
फिर से x के लिए प्रायिकता घनत्व फलन है। संचयी वितरण समारोह के लिए एक समान अभिन्न लिखा जा सकता है। ध्यान दें कि यहाँ सूत्र परिमित या अनंत मिश्रण के स्थिति में कम हो जाते हैं यदि घनत्व w को [[असतत वितरण]] के संचयी वितरण समारोह के व्युत्पन्न का प्रतिनिधित्व करने वाला एक सामान्यीकृत कार्य होने की अनुमति है।


== एक [[पैरामीट्रिक परिवार]] के भीतर मिश्रण ==
== एक [[पैरामीट्रिक परिवार]] के भीतर मिश्रण ==
मिश्रण के घटक अक्सर मनमाना संभाव्यता वितरण नहीं होते हैं, बल्कि इसके बजाय एक पैरामीट्रिक परिवार (जैसे सामान्य वितरण) के सदस्य होते हैं, एक पैरामीटर या पैरामीटर के लिए अलग-अलग मान होते हैं। ऐसे मामलों में, यह मानते हुए कि यह मौजूद है, घनत्व को योग के रूप में लिखा जा सकता है:
मिश्रण के घटक अधिकांश मनमाना संभाव्यता वितरण नहीं होते हैं, बल्कि इसके बजाय एक पैरामीट्रिक परिवार (जैसे सामान्य वितरण) के सदस्य होते हैं, एक पैरामीटर या पैरामीटर के लिए अलग-अलग मान होते हैं। ऐसे स्थितियों में, यह मानते हुए कि यह उपस्थित है, घनत्व को योग के रूप में लिखा जा सकता है:
:<math> f(x; a_1, \ldots , a_n) = \sum_{i=1}^n \, w_i \, p(x;a_i) </math>
:<math> f(x; a_1, \ldots , a_n) = \sum_{i=1}^n \, w_i \, p(x;a_i) </math>
एक पैरामीटर के लिए, या
एक पैरामीटर के लिए, या
Line 35: Line 35:


=== उत्तलता ===
=== उत्तलता ===
संभाव्यता घनत्व कार्यों का एक सामान्य [[रैखिक संयोजन]] अनिवार्य रूप से एक संभावना घनत्व नहीं है, क्योंकि यह नकारात्मक हो सकता है या यह 1 के अलावा किसी अन्य चीज़ से एकीकृत हो सकता है। हालांकि, संभावना घनत्व कार्यों का एक उत्तल संयोजन इन दोनों गुणों (गैर-नकारात्मकता और एकीकृत) को संरक्षित करता है से 1), और इस प्रकार मिश्रण घनत्व स्वयं संभाव्यता घनत्व कार्य हैं।
संभाव्यता घनत्व कार्यों का एक सामान्य [[रैखिक संयोजन]] अनिवार्य रूप से एक संभावना घनत्व नहीं है, क्योंकि यह नकारात्मक हो सकता है या यह 1 के अलावा किसी अन्य चीज़ से एकीकृत हो सकता है। चूंकि, संभावना घनत्व कार्यों का एक उत्तल संयोजन इन दोनों गुणों (गैर-नकारात्मकता और एकीकृत) को संरक्षित करता है से 1), और इस प्रकार मिश्रण घनत्व स्वयं संभाव्यता घनत्व कार्य हैं।


=== क्षण ===
=== क्षण ===
चलो एक्स<sub>1</sub>, ..., एक्स<sub>''n''</sub> n घटक वितरण से यादृच्छिक चर को निरूपित करें, और X को मिश्रण वितरण से एक यादृच्छिक चर को निरूपित करें। फिर, किसी भी फ़ंक्शन H(·) के लिए जिसके लिए <math>\operatorname{E}[H(X_i)]</math> मौजूद है, और यह मानते हुए कि घटक घनत्व पी<sub>i</sub>(एक्स) मौजूद है,
चलो एक्स<sub>1</sub>, ..., एक्स<sub>''n''</sub> n घटक वितरण से यादृच्छिक चर को निरूपित करें, और X को मिश्रण वितरण से एक यादृच्छिक चर को निरूपित करें। फिर, किसी भी फलन H(·) के लिए जिसके लिए <math>\operatorname{E}[H(X_i)]</math> उपस्थित है, और यह मानते हुए कि घटक घनत्व पी<sub>i</sub>(एक्स) उपस्थित है,


:<math>
:<math>
Line 55: Line 55:
कहाँ μ<sub>i</sub>Iवें घटक के माध्य को दर्शाता है।
कहाँ μ<sub>i</sub>Iवें घटक के माध्य को दर्शाता है।


वजन डब्ल्यू के साथ एक आयामी वितरण के मिश्रण के मामले में<sub>i</sub>, का अर्थ है μ<sub>i</sub>और प्रसरण σ<sub>i</sub><sup>2</sup>, कुल माध्य और प्रसरण होगा:
वजन डब्ल्यू के साथ एक आयामी वितरण के मिश्रण के स्थिति में<sub>i</sub>, का अर्थ है μ<sub>i</sub>और प्रसरण σ<sub>i</sub><sup>2</sup>, कुल माध्य और प्रसरण होगा:
: <math> \operatorname{E}[X] = \mu = \sum_{i = 1}^n w_i \mu_i ,</math>
: <math> \operatorname{E}[X] = \mu = \sum_{i = 1}^n w_i \mu_i ,</math>
: <math>  
: <math>  
Line 70: Line 70:
=== मोड ===
=== मोड ===


[[बहुविध वितरण]] का प्रश्न कुछ मामलों के लिए सरल है, जैसे कि घातीय बंटनों का मिश्रण: ऐसे सभी मिश्रण [[एकरूपता]] वाले होते हैं।<ref>Frühwirth-Schnatter (2006, Ch.1)</ref> हालांकि, [[सामान्य वितरण]] के मिश्रण के मामले में, यह एक जटिल है। रे एंड लिंडसे द्वारा एक बहुभिन्नरूपी सामान्य मिश्रण में मोड की संख्या के लिए शर्तों का पता लगाया जाता है<ref name="RayLindsay">{{citation  
[[बहुविध वितरण]] का प्रश्न कुछ स्थितियों के लिए सरल है, जैसे कि घातीय बंटनों का मिश्रण: ऐसे सभी मिश्रण [[एकरूपता]] वाले होते हैं।<ref>Frühwirth-Schnatter (2006, Ch.1)</ref> चूंकि, [[सामान्य वितरण]] के मिश्रण के स्थिति में, यह एक जटिल है। रे एंड लिंडसे द्वारा एक बहुभिन्नरूपी सामान्य मिश्रण में मोड की संख्या के लिए शर्तों का पता लगाया जाता है<ref name="RayLindsay">{{citation  
|title=The topography of multivariate normal mixtures|
|title=The topography of multivariate normal mixtures|
last1=Ray |first1=R.|
last1=Ray |first1=R.|
Line 82: Line 82:
|arxiv=math/0602238}}</ref> univariate पर पहले के काम का विस्तार करना<ref name=Robertson1969>Robertson CA, Fryer JG (1969) Some descriptive properties of normal mixtures. Skand Aktuarietidskr 137–146</ref><ref name=Behboodian1970>{{cite journal | last1 = Behboodian | first1 = J | year = 1970 | title = दो सामान्य वितरण के मिश्रण के मोड पर| journal = Technometrics | volume = 12 | pages = 131–139 | doi=10.2307/1267357| jstor = 1267357 }}</ref> और बहुभिन्नरूपी<ref>{{cite book | last1 = Carreira-Perpiñán | first1 = M Á | last2 = Williams | first2 = C | year = 2003 | title = गॉसियन मिश्रण के मोड पर| series = Published as: Lecture Notes in Computer Science 2695 | publisher = [[Springer-Verlag]] | pages = 625–640 | doi=10.1007/3-540-44935-3_44 | issn = 0302-9743 | url = http://faculty2.ucmerced.edu/mcarreira-perpinan/papers/EDI-INF-RR-0159.pdf}}</ref> वितरण।
|arxiv=math/0602238}}</ref> univariate पर पहले के काम का विस्तार करना<ref name=Robertson1969>Robertson CA, Fryer JG (1969) Some descriptive properties of normal mixtures. Skand Aktuarietidskr 137–146</ref><ref name=Behboodian1970>{{cite journal | last1 = Behboodian | first1 = J | year = 1970 | title = दो सामान्य वितरण के मिश्रण के मोड पर| journal = Technometrics | volume = 12 | pages = 131–139 | doi=10.2307/1267357| jstor = 1267357 }}</ref> और बहुभिन्नरूपी<ref>{{cite book | last1 = Carreira-Perpiñán | first1 = M Á | last2 = Williams | first2 = C | year = 2003 | title = गॉसियन मिश्रण के मोड पर| series = Published as: Lecture Notes in Computer Science 2695 | publisher = [[Springer-Verlag]] | pages = 625–640 | doi=10.1007/3-540-44935-3_44 | issn = 0302-9743 | url = http://faculty2.ucmerced.edu/mcarreira-perpinan/papers/EDI-INF-RR-0159.pdf}}</ref> वितरण।


यहाँ एक डी डायमेंशनल स्पेस में एक एन घटक मिश्रण के मोड के मूल्यांकन की समस्या को महत्वपूर्ण बिंदुओं (स्थानीय मिनिमा, मैक्सिमा और सैडल पॉइंट्स) की पहचान के लिए कम किया जाता है, जिसे [[कई गुना]] रिजलाइन सतह के रूप में संदर्भित किया जाता है, जो की छवि है। रिजलाइन फ़ंक्शन
यहाँ एक डी डायमेंशनल स्पेस में एक एन घटक मिश्रण के मोड के मूल्यांकन की समस्या को महत्वपूर्ण बिंदुओं (स्थानीय मिनिमा, मैक्सिमा और सैडल पॉइंट्स) की पहचान के लिए कम किया जाता है, जिसे [[कई गुना]] रिजलाइन सतह के रूप में संदर्भित किया जाता है, जो की छवि है। रिजलाइन फलन
:<math> x^{*}(\alpha) = \left[ \sum_{i=1}^{n} \alpha_i \Sigma_i^{-1} \right]^{-1} \times \left[  \sum_{i=1}^{n}  \alpha_i \Sigma_i^{-1} \mu_i \right],
:<math> x^{*}(\alpha) = \left[ \sum_{i=1}^{n} \alpha_i \Sigma_i^{-1} \right]^{-1} \times \left[  \sum_{i=1}^{n}  \alpha_i \Sigma_i^{-1} \mu_i \right],
</math>
</math>
Line 89: Line 89:
  \{ \alpha \in \mathbb{R}^n: \alpha_i \in [0,1], \sum_{i=1}^n \alpha_i = 1 \}
  \{ \alpha \in \mathbb{R}^n: \alpha_i \in [0,1], \sum_{i=1}^n \alpha_i = 1 \}
</math>
</math>
और <math>\Sigma_i \in R^{D\times D},\, \mu_i \in R^D</math> i के सहप्रसरण और माध्य के अनुरूप<sup>वें</sup> घटक। रे और लिंडसे<ref name="RayLindsay" />जिस मामले में विचार करें <math>n-1 < D</math> मिश्रण के मोड और रिज एलिवेशन फ़ंक्शन पर एक-से-एक पत्राचार दिखा रहा है <math>h(\alpha)=q(x^*(\alpha)</math> इस प्रकार कोई हल करके मोड की पहचान कर सकता है <math> \frac{d h(\alpha)}{d \alpha} = 0 </math> इसके संबंध में <math>\alpha</math> और मूल्य का निर्धारण <math>x^*(\alpha)</math>.
और <math>\Sigma_i \in R^{D\times D},\, \mu_i \in R^D</math> i के सहप्रसरण और माध्य के अनुरूप<sup>वें</sup> घटक। रे और लिंडसे<ref name="RayLindsay" />जिस स्थिति में विचार करें <math>n-1 < D</math> मिश्रण के मोड और रिज एलिवेशन फलन पर एक-से-एक पत्राचार दिखा रहा है <math>h(\alpha)=q(x^*(\alpha)</math> इस प्रकार कोई हल करके मोड की पहचान कर सकता है <math> \frac{d h(\alpha)}{d \alpha} = 0 </math> इसके संबंध में <math>\alpha</math> और मूल्य का निर्धारण <math>x^*(\alpha)</math>.


ग्राफिकल टूल्स का उपयोग करते हुए, घटकों की संख्या के साथ मिश्रण की संभावित बहु-रूपता <math>n \in \{2,3\}</math> प्रदर्शित किया जाता है; विशेष रूप से यह दिखाया गया है कि मोड की संख्या अधिक हो सकती है <math>n</math> और यह कि मोड घटक साधनों के साथ मेल नहीं खा सकते हैं। दो घटकों के लिए वे पहले मिश्रण वजन के संबंध में उपरोक्त अंतर को हल करने के बजाय विश्लेषण के लिए एक ग्राफिकल टूल विकसित करते हैं <math>w_1</math> (जो दूसरे मिश्रण वजन को भी निर्धारित करता है <math>w_2 = 1-w_1</math>) और समाधानों को एक फलन के रूप में व्यक्त करना <math>\Pi(\alpha), \,\alpha \in [0,1]</math> ताकि दिए गए मान के लिए मोड की संख्या और स्थान <math>w_1</math> लाइन पर ग्राफ के चौराहों की संख्या से मेल खाती है <math>\Pi(\alpha)=w_1</math>. यह बदले में ग्राफ के दोलनों की संख्या से संबंधित हो सकता है और इसलिए के समाधान के लिए <math> \frac{d \Pi(\alpha)}{d \alpha} = 0 </math> के साथ दो घटक मिश्रण के मामले के लिए एक स्पष्ट समाधान के लिए अग्रणी <math>\Sigma_1 = \Sigma_2 = \Sigma </math> (कभी-कभी [[समलिंगी]] मिश्रण कहा जाता है) द्वारा दिया गया
ग्राफिकल टूल्स का उपयोग करते हुए, घटकों की संख्या के साथ मिश्रण की संभावित बहु-रूपता <math>n \in \{2,3\}</math> प्रदर्शित किया जाता है; विशेष रूप से यह दिखाया गया है कि मोड की संख्या अधिक हो सकती है <math>n</math> और यह कि मोड घटक साधनों के साथ मेल नहीं खा सकते हैं। दो घटकों के लिए वे पहले मिश्रण वजन के संबंध में उपरोक्त अंतर को हल करने के बजाय विश्लेषण के लिए एक ग्राफिकल टूल विकसित करते हैं <math>w_1</math> (जो दूसरे मिश्रण वजन को भी निर्धारित करता है <math>w_2 = 1-w_1</math>) और समाधानों को एक फलन के रूप में व्यक्त करना <math>\Pi(\alpha), \,\alpha \in [0,1]</math> ताकि दिए गए मान के लिए मोड की संख्या और स्थान <math>w_1</math> लाइन पर ग्राफ के चौराहों की संख्या से मेल खाती है <math>\Pi(\alpha)=w_1</math>. यह बदले में ग्राफ के दोलनों की संख्या से संबंधित हो सकता है और इसलिए के समाधान के लिए <math> \frac{d \Pi(\alpha)}{d \alpha} = 0 </math> के साथ दो घटक मिश्रण के स्थिति के लिए एक स्पष्ट समाधान के लिए अग्रणी <math>\Sigma_1 = \Sigma_2 = \Sigma </math> (कभी-कभी [[समलिंगी]] मिश्रण कहा जाता है) द्वारा दिया गया
:<math>  1 - \alpha(1-\alpha) d_M(\mu_1, \mu_2, \Sigma)^2 </math>
:<math>  1 - \alpha(1-\alpha) d_M(\mu_1, \mu_2, \Sigma)^2 </math>
कहाँ <math> d_M(\mu_1,\mu_2,\Sigma) = \sqrt{(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1)} </math> के बीच की महालनोबिस दूरी है <math>\mu_1</math> और <math>\mu_2</math>.
कहाँ <math> d_M(\mu_1,\mu_2,\Sigma) = \sqrt{(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1)} </math> के बीच की महालनोबिस दूरी है <math>\mu_1</math> और <math>\mu_2</math>.
Line 116: Line 116:
सरल उदाहरण दो सामान्य वितरणों के मिश्रण द्वारा दिए जा सकते हैं। (अधिक विवरण के लिए मल्टीमॉडल वितरण # दो सामान्य वितरणों का मिश्रण देखें।)
सरल उदाहरण दो सामान्य वितरणों के मिश्रण द्वारा दिए जा सकते हैं। (अधिक विवरण के लिए मल्टीमॉडल वितरण # दो सामान्य वितरणों का मिश्रण देखें।)


एक ही मानक विचलन और अलग-अलग साधनों (समरूपता) के साथ दो सामान्य वितरणों के बराबर (50/50) मिश्रण को देखते हुए, समग्र वितरण एकल सामान्य वितरण के सापेक्ष कम कर्टोसिस प्रदर्शित करेगा - उप-जनसंख्या के साधन कंधों पर पड़ते हैं समग्र वितरण। यदि पर्याप्त रूप से अलग किया जाता है, अर्थात् दो बार (सामान्य) मानक विचलन द्वारा, इसलिए <math>\left|\mu_1 - \mu_2\right| > 2\sigma,</math> ये एक बिमोडल वितरण बनाते हैं, अन्यथा इसका केवल एक विस्तृत शिखर होता है।<ref name="Schilling2002">{{Cite journal|title=Is human height bimodal?|first1=Mark F. |last1=Schilling |first2= Ann E.| last2=Watkins|author2-link=Ann E. Watkins |first3=William |last3=Watkins| journal=[[The American Statistician]]| doi=10.1198/00031300265 |volume=56 |year=2002| pages=223–229 |issue=3}}</ref> समग्र जनसंख्या की भिन्नता भी दो उप-जनसंख्याओं (विभिन्न माध्यमों से फैलने के कारण) की भिन्नता से अधिक होगी, और इस प्रकार निश्चित भिन्नता के साथ एक सामान्य वितरण के सापेक्ष अधिक फैलाव प्रदर्शित करती है। <math>\sigma,</math> हालांकि यह समग्र आबादी के भिन्नता के बराबर भिन्नता के साथ सामान्य वितरण के सापेक्ष अतिप्रसारित नहीं होगा।
एक ही मानक विचलन और अलग-अलग साधनों (समरूपता) के साथ दो सामान्य वितरणों के बराबर (50/50) मिश्रण को देखते हुए, समग्र वितरण एकल सामान्य वितरण के सापेक्ष कम कर्टोसिस प्रदर्शित करेगा - उप-जनसंख्या के साधन कंधों पर पड़ते हैं समग्र वितरण। यदि पर्याप्त रूप से अलग किया जाता है, अर्थात् दो बार (सामान्य) मानक विचलन द्वारा, इसलिए <math>\left|\mu_1 - \mu_2\right| > 2\sigma,</math> ये एक बिमोडल वितरण बनाते हैं, अन्यथा इसका केवल एक विस्तृत शिखर होता है।<ref name="Schilling2002">{{Cite journal|title=Is human height bimodal?|first1=Mark F. |last1=Schilling |first2= Ann E.| last2=Watkins|author2-link=Ann E. Watkins |first3=William |last3=Watkins| journal=[[The American Statistician]]| doi=10.1198/00031300265 |volume=56 |year=2002| pages=223–229 |issue=3}}</ref> समग्र जनसंख्या की भिन्नता भी दो उप-जनसंख्याओं (विभिन्न माध्यमों से फैलने के कारण) की भिन्नता से अधिक होगी, और इस प्रकार निश्चित भिन्नता के साथ एक सामान्य वितरण के सापेक्ष अधिक फैलाव प्रदर्शित करती है। <math>\sigma,</math> चूंकि यह समग्र आबादी के भिन्नता के बराबर भिन्नता के साथ सामान्य वितरण के सापेक्ष अतिप्रसारित नहीं होगा।


वैकल्पिक रूप से, एक ही माध्य और विभिन्न मानक विचलन के साथ दो उप-जनसंख्या दी गई है, समग्र जनसंख्या एकल वितरण की तुलना में एक तेज चोटी और भारी पूंछ (और इसी तरह उथले कंधे) के साथ उच्च कर्टोसिस प्रदर्शित करेगी।
वैकल्पिक रूप से, एक ही माध्य और विभिन्न मानक विचलन के साथ दो उप-जनसंख्या दी गई है, समग्र जनसंख्या एकल वितरण की तुलना में एक तेज चोटी और भारी पूंछ (और इसी तरह उथले कंधे) के साथ उच्च कर्टोसिस प्रदर्शित करेगी।
Line 131: Line 131:
द्वारा परिभाषित मिश्रण वितरण पर विचार करें
द्वारा परिभाषित मिश्रण वितरण पर विचार करें
:{{math|''F''(''x'') &nbsp; {{=}} &nbsp; (1 − 10<sup>−10</sup>) ([[Normal distribution|standard normal]]) + 10<sup>−10</sup> ([[Cauchy distribution|standard Cauchy]])}}.
:{{math|''F''(''x'') &nbsp; {{=}} &nbsp; (1 − 10<sup>−10</sup>) ([[Normal distribution|standard normal]]) + 10<sup>−10</sup> ([[Cauchy distribution|standard Cauchy]])}}.
i.i.d का मतलब से अवलोकन {{math|''F''(''x'')}} सामान्य रूप से बड़े नमूनों को छोड़कर सामान्य रूप से व्यवहार करता है, हालांकि इसका मतलब है {{math|''F''(''x'')}} मौजूद ही नहीं है।
i.i.d का मतलब से अवलोकन {{math|''F''(''x'')}} सामान्य रूप से बड़े नमूनों को छोड़कर सामान्य रूप से व्यवहार करता है, चूंकि इसका मतलब है {{math|''F''(''x'')}} उपस्थित ही नहीं है।


== अनुप्रयोग ==
== अनुप्रयोग ==
Line 142: Line 142:
मिश्रण घनत्व का उपयोग प्रयोगात्मक त्रुटि या संदूषण के मॉडल के लिए भी किया जा सकता है - एक मानता है कि अधिकांश नमूने वांछित घटना को मापते हैं, कुछ नमूने एक अलग, गलत वितरण से।
मिश्रण घनत्व का उपयोग प्रयोगात्मक त्रुटि या संदूषण के मॉडल के लिए भी किया जा सकता है - एक मानता है कि अधिकांश नमूने वांछित घटना को मापते हैं, कुछ नमूने एक अलग, गलत वितरण से।


पैरामीट्रिक आँकड़े जो कोई त्रुटि नहीं मानते हैं, अक्सर ऐसे मिश्रण घनत्वों पर विफल होते हैं - उदाहरण के लिए, सामान्य मान लेने वाले आँकड़े अक्सर कुछ [[बाहरी कारकों के कारण]] की उपस्थिति में विनाशकारी रूप से विफल होते हैं - और इसके बजाय कोई मजबूत आँकड़ों का उपयोग करता है।
पैरामीट्रिक आँकड़े जो कोई त्रुटि नहीं मानते हैं, अधिकांश ऐसे मिश्रण घनत्वों पर विफल होते हैं - उदाहरण के लिए, सामान्य मान लेने वाले आँकड़े अधिकांश कुछ [[बाहरी कारकों के कारण]] की उपस्थिति में विनाशकारी रूप से विफल होते हैं - और इसके बजाय कोई मजबूत आँकड़ों का उपयोग करता है।


अलग-अलग अध्ययनों के मेटा-विश्लेषण में, विषमता का अध्ययन परिणामों के वितरण को मिश्रण वितरण का कारण बनता है, और अनुमानित त्रुटि के सापेक्ष परिणामों के अतिप्रसार की ओर जाता है। उदाहरण के लिए, एक [[सांख्यिकीय सर्वेक्षण]] में, त्रुटि का मार्जिन (नमूना आकार द्वारा निर्धारित) [[नमूनाकरण त्रुटि]] की भविष्यवाणी करता है और इसलिए बार-बार सर्वेक्षणों पर परिणामों का फैलाव होता है। अध्ययन की विषमता (अध्ययनों में अलग-अलग नमूनाकरण पूर्वाग्रह हैं) की उपस्थिति [[त्रुटि के मार्जिन]] के सापेक्ष फैलाव को बढ़ाती है।
अलग-अलग अध्ययनों के मेटा-विश्लेषण में, विषमता का अध्ययन परिणामों के वितरण को मिश्रण वितरण का कारण बनता है, और अनुमानित त्रुटि के सापेक्ष परिणामों के अतिप्रसार की ओर जाता है। उदाहरण के लिए, एक [[सांख्यिकीय सर्वेक्षण]] में, त्रुटि का मार्जिन (नमूना आकार द्वारा निर्धारित) [[नमूनाकरण त्रुटि]] की भविष्यवाणी करता है और इसलिए बार-बार सर्वेक्षणों पर परिणामों का फैलाव होता है। अध्ययन की विषमता (अध्ययनों में अलग-अलग नमूनाकरण पूर्वाग्रह हैं) की उपस्थिति [[त्रुटि के मार्जिन]] के सापेक्ष फैलाव को बढ़ाती है।

Revision as of 11:21, 29 March 2023

संभाव्यता और आंकड़ों में, एक मिश्रण वितरण एक यादृच्छिक चर का संभाव्यता वितरण है जो अन्य यादृच्छिक चर के संग्रह से प्राप्त होता है: पहले, चयन की दी गई संभावनाओं के अनुसार संग्रह से एक यादृच्छिक चर का चयन किया जाता है, और फिर चयनित यादृच्छिक चर का मान प्राप्त होता है। अंतर्निहित यादृच्छिक चर यादृच्छिक वास्तविक संख्या हो सकते हैं, या वे यादृच्छिक वैक्टर (प्रत्येक समान आयाम वाले) हो सकते हैं, इस स्थिति में मिश्रण वितरण एक बहुभिन्नरूपी वितरण है।

ऐसे स्थितियों में जहां अंतर्निहित यादृच्छिक चर में से प्रत्येक निरंतर यादृच्छिक चर है, परिणाम चर भी निरंतर होगा और इसकी संभावना घनत्व समारोह को कभी-कभी मिश्रण घनत्व के रूप में संदर्भित किया जाता है। संचयी वितरण फलन (और संभावना घनत्व फलन यदि उपस्थित है) को अन्य वितरण कार्यों और घनत्व कार्यों के उत्तल संयोजन (अर्थात् एक भारित योग, गैर-ऋणात्मक भार के साथ 1 तक) के रूप में व्यक्त किया जा सकता है। व्यक्तिगत वितरण जो मिश्रण वितरण बनाने के लिए संयुक्त होते हैं उन्हें मिश्रण घटक कहा जाता है, और प्रत्येक घटक से जुड़ी संभावनाओं (या वजन) को मिश्रण वजन कहा जाता है। मिश्रण वितरण में घटकों की संख्या अधिकांश परिमित होने तक सीमित होती है, चूंकि कुछ स्थितियों में घटक संख्या में गणनीय हो सकते हैं। अधिक सामान्य स्थिति (अर्थात् घटक वितरण का एक बेशुमार सेट), साथ ही साथ गणनीय स्थिति, यौगिक संभाव्यता वितरण के शीर्षक के अनुसार माना जाता है।

एक यादृच्छिक चर के बीच एक अंतर बनाने की आवश्यकता है जिसका वितरण कार्य या घनत्व घटकों के एक सेट (अर्थात् एक मिश्रण वितरण) का योग है और एक यादृच्छिक चर जिसका मान दो या दो से अधिक अंतर्निहित यादृच्छिक चर के मानों का योग है, में किस स्थिति में कनवल्शन ऑपरेटर द्वारा वितरण दिया जाता है। एक उदाहरण के रूप में, दो बहुभिन्नरूपी सामान्य वितरण यादृच्छिक चर का योग, प्रत्येक अलग-अलग साधनों के साथ, अभी भी एक सामान्य वितरण होगा। दूसरी ओर, अलग-अलग साधनों के साथ दो सामान्य वितरणों के मिश्रण के रूप में निर्मित मिश्रण घनत्व में दो चोटियाँ होंगी, किन्तु दो साधन काफी दूर हों, यह दर्शाता है कि यह वितरण सामान्य वितरण से मौलिक रूप से भिन्न है।

मिश्रण वितरण साहित्य में कई संदर्भों में उत्पन्न होता है और स्वाभाविक रूप से उत्पन्न होता है जहां एक सांख्यिकीय आबादी में दो या दो से अधिक उप-जनसंख्या होती है। उन्हें कभी-कभी गैर-सामान्य वितरण का प्रतिनिधित्व करने के साधन के रूप में भी उपयोग किया जाता है। मिश्रण वितरण से जुड़े सांख्यिकीय मॉडल से संबंधित डेटा विश्लेषण पर मिश्रण मॉडल के शीर्षक के अनुसार चर्चा की गई है, जबकि वर्तमान लेख मिश्रण वितरण के सरल संभाव्य और सांख्यिकीय गुणों पर ध्यान केंद्रित करता है और ये अंतर्निहित वितरण के गुणों से कैसे संबंधित हैं।

परिमित और गणनीय मिश्रण

समान वजन वाले तीन सामान्य वितरण (μ= 5, 10, 15, σ = 2) के मिश्रण का घनत्व। प्रत्येक घटक को भारित घनत्व के रूप में दिखाया गया है (प्रत्येक 1/3 को एकीकृत करता है)

संभाव्यता घनत्व कार्यों पी के एक सीमित सेट को देखते हुए1(एक्स), ..., पीn(एक्स), या संबंधित संचयी वितरण कार्य पी1(एक्स), ..., पीn(एक्स) और 'वजन' डब्ल्यू1, ..., मेंnऐसा है कि wi ≥ 0 और Σwi = 1, मिश्रण वितरण को या तो घनत्व, f, या वितरण फलन, F, को एक योग के रूप में लिखकर प्रदर्शित किया जा सकता है (जो दोनों ही स्थितियों में एक उत्तल संयोजन है):

इस प्रकार का मिश्रण, एक परिमित राशि होने के नाते, एक परिमित मिश्रण कहा जाता है, और अनुप्रयोगों में, मिश्रण घनत्व के लिए एक अयोग्य संदर्भ का अर्थ आमतौर पर एक परिमित मिश्रण होता है। घटकों के एक अनगिनत अनंत सेट के स्थिति को अनुमति देकर औपचारिक रूप से कवर किया गया है .

बेशुमार मिश्रण

जहां घटक वितरण का सेट बेशुमार होता है, परिणाम को अधिकांश यौगिक संभाव्यता वितरण कहा जाता है। इस तरह के वितरण के निर्माण में मिश्रण वितरण के लिए एक औपचारिक समानता होती है, जिसमें या तो अनंत योग या परिमित मिश्रण के लिए उपयोग किए जाने वाले परिमित योगों की जगह अभिन्न अंग होते हैं।

प्रायिकता घनत्व फलन p(x;a) पर एक चर x के लिए विचार करें, जिसे a द्वारा परिचालित किया गया है। अर्थात्, किसी समुच्चय A में a के प्रत्येक मान के लिए, p(x;a) x के संबंध में प्रायिकता घनत्व फलन है। प्रायिकता घनत्व फलन w दिया गया है (जिसका अर्थ है कि w गैर-नकारात्मक है और 1 को एकीकृत करता है), फलन

फिर से x के लिए प्रायिकता घनत्व फलन है। संचयी वितरण समारोह के लिए एक समान अभिन्न लिखा जा सकता है। ध्यान दें कि यहाँ सूत्र परिमित या अनंत मिश्रण के स्थिति में कम हो जाते हैं यदि घनत्व w को असतत वितरण के संचयी वितरण समारोह के व्युत्पन्न का प्रतिनिधित्व करने वाला एक सामान्यीकृत कार्य होने की अनुमति है।

एक पैरामीट्रिक परिवार के भीतर मिश्रण

मिश्रण के घटक अधिकांश मनमाना संभाव्यता वितरण नहीं होते हैं, बल्कि इसके बजाय एक पैरामीट्रिक परिवार (जैसे सामान्य वितरण) के सदस्य होते हैं, एक पैरामीटर या पैरामीटर के लिए अलग-अलग मान होते हैं। ऐसे स्थितियों में, यह मानते हुए कि यह उपस्थित है, घनत्व को योग के रूप में लिखा जा सकता है:

एक पैरामीटर के लिए, या

दो मापदंडों के लिए, और इसी तरह।

गुण

उत्तलता

संभाव्यता घनत्व कार्यों का एक सामान्य रैखिक संयोजन अनिवार्य रूप से एक संभावना घनत्व नहीं है, क्योंकि यह नकारात्मक हो सकता है या यह 1 के अलावा किसी अन्य चीज़ से एकीकृत हो सकता है। चूंकि, संभावना घनत्व कार्यों का एक उत्तल संयोजन इन दोनों गुणों (गैर-नकारात्मकता और एकीकृत) को संरक्षित करता है से 1), और इस प्रकार मिश्रण घनत्व स्वयं संभाव्यता घनत्व कार्य हैं।

क्षण

चलो एक्स1, ..., एक्सn n घटक वितरण से यादृच्छिक चर को निरूपित करें, और X को मिश्रण वितरण से एक यादृच्छिक चर को निरूपित करें। फिर, किसी भी फलन H(·) के लिए जिसके लिए उपस्थित है, और यह मानते हुए कि घटक घनत्व पीi(एक्स) उपस्थित है,

जेवाँ क्षण शून्य के बारे में (अर्थात चुनना H(x) = xj) घटकों के जेवें क्षणों का भारित औसत है। माध्य के बारे में क्षण H(x) = (x − μ)j एक द्विपद विस्तार शामिल है:[1]

कहाँ μiIवें घटक के माध्य को दर्शाता है।

वजन डब्ल्यू के साथ एक आयामी वितरण के मिश्रण के स्थिति मेंi, का अर्थ है μiऔर प्रसरण σi2, कुल माध्य और प्रसरण होगा:

ये संबंध गैर-तुच्छ उच्च-क्रम के क्षणों जैसे तिरछापन और कुकुदता (वसा पूंछ) और बहु-मोडलिटी को प्रदर्शित करने के लिए मिश्रण वितरण की क्षमता को उजागर करते हैं, यहां तक ​​​​कि घटकों के भीतर ऐसी विशेषताओं की अनुपस्थिति में भी। मैरोन और वैंड (1992) इस ढांचे के लचीलेपन का उदाहरण देते हैं।[2]


मोड

बहुविध वितरण का प्रश्न कुछ स्थितियों के लिए सरल है, जैसे कि घातीय बंटनों का मिश्रण: ऐसे सभी मिश्रण एकरूपता वाले होते हैं।[3] चूंकि, सामान्य वितरण के मिश्रण के स्थिति में, यह एक जटिल है। रे एंड लिंडसे द्वारा एक बहुभिन्नरूपी सामान्य मिश्रण में मोड की संख्या के लिए शर्तों का पता लगाया जाता है[4] univariate पर पहले के काम का विस्तार करना[5][6] और बहुभिन्नरूपी[7] वितरण।

यहाँ एक डी डायमेंशनल स्पेस में एक एन घटक मिश्रण के मोड के मूल्यांकन की समस्या को महत्वपूर्ण बिंदुओं (स्थानीय मिनिमा, मैक्सिमा और सैडल पॉइंट्स) की पहचान के लिए कम किया जाता है, जिसे कई गुना रिजलाइन सतह के रूप में संदर्भित किया जाता है, जो की छवि है। रिजलाइन फलन

कहाँ के अंतर्गत आता है -आयामी मानक संकेतन: और i के सहप्रसरण और माध्य के अनुरूपवें घटक। रे और लिंडसे[4]जिस स्थिति में विचार करें मिश्रण के मोड और रिज एलिवेशन फलन पर एक-से-एक पत्राचार दिखा रहा है इस प्रकार कोई हल करके मोड की पहचान कर सकता है इसके संबंध में और मूल्य का निर्धारण .

ग्राफिकल टूल्स का उपयोग करते हुए, घटकों की संख्या के साथ मिश्रण की संभावित बहु-रूपता प्रदर्शित किया जाता है; विशेष रूप से यह दिखाया गया है कि मोड की संख्या अधिक हो सकती है और यह कि मोड घटक साधनों के साथ मेल नहीं खा सकते हैं। दो घटकों के लिए वे पहले मिश्रण वजन के संबंध में उपरोक्त अंतर को हल करने के बजाय विश्लेषण के लिए एक ग्राफिकल टूल विकसित करते हैं (जो दूसरे मिश्रण वजन को भी निर्धारित करता है ) और समाधानों को एक फलन के रूप में व्यक्त करना ताकि दिए गए मान के लिए मोड की संख्या और स्थान लाइन पर ग्राफ के चौराहों की संख्या से मेल खाती है . यह बदले में ग्राफ के दोलनों की संख्या से संबंधित हो सकता है और इसलिए के समाधान के लिए के साथ दो घटक मिश्रण के स्थिति के लिए एक स्पष्ट समाधान के लिए अग्रणी (कभी-कभी समलिंगी मिश्रण कहा जाता है) द्वारा दिया गया

कहाँ के बीच की महालनोबिस दूरी है और .

चूंकि उपरोक्त द्विघात है, इसलिए यह इस प्रकार है कि इस उदाहरण में आयाम या भार के बावजूद अधिकतम दो मोड हैं।

सामान्य के साथ सामान्य मिश्रण के लिए और , संभावित मोड की अधिकतम संख्या के लिए एक निचली सीमा, और{{snd}सशर्त रूप से इस धारणा पर कि अधिकतम संख्या परिमित है – एक ऊपरी सीमा ज्ञात है। उन संयोजनों के लिए और जिसके लिए अधिकतम संख्या ज्ञात है, यह निचली सीमा से मेल खाता है।[8]


उदाहरण

दो सामान्य वितरण

सरल उदाहरण दो सामान्य वितरणों के मिश्रण द्वारा दिए जा सकते हैं। (अधिक विवरण के लिए मल्टीमॉडल वितरण # दो सामान्य वितरणों का मिश्रण देखें।)

एक ही मानक विचलन और अलग-अलग साधनों (समरूपता) के साथ दो सामान्य वितरणों के बराबर (50/50) मिश्रण को देखते हुए, समग्र वितरण एकल सामान्य वितरण के सापेक्ष कम कर्टोसिस प्रदर्शित करेगा - उप-जनसंख्या के साधन कंधों पर पड़ते हैं समग्र वितरण। यदि पर्याप्त रूप से अलग किया जाता है, अर्थात् दो बार (सामान्य) मानक विचलन द्वारा, इसलिए ये एक बिमोडल वितरण बनाते हैं, अन्यथा इसका केवल एक विस्तृत शिखर होता है।[9] समग्र जनसंख्या की भिन्नता भी दो उप-जनसंख्याओं (विभिन्न माध्यमों से फैलने के कारण) की भिन्नता से अधिक होगी, और इस प्रकार निश्चित भिन्नता के साथ एक सामान्य वितरण के सापेक्ष अधिक फैलाव प्रदर्शित करती है। चूंकि यह समग्र आबादी के भिन्नता के बराबर भिन्नता के साथ सामान्य वितरण के सापेक्ष अतिप्रसारित नहीं होगा।

वैकल्पिक रूप से, एक ही माध्य और विभिन्न मानक विचलन के साथ दो उप-जनसंख्या दी गई है, समग्र जनसंख्या एकल वितरण की तुलना में एक तेज चोटी और भारी पूंछ (और इसी तरह उथले कंधे) के साथ उच्च कर्टोसिस प्रदर्शित करेगी।


एक सामान्य और एक कॉची वितरण

निम्नलिखित उदाहरण हम्पेल से लिया गया है,[10] जो जॉन टुकी को श्रेय देता है।

द्वारा परिभाषित मिश्रण वितरण पर विचार करें

F(x)   =   (1 − 10−10) (standard normal) + 10−10 (standard Cauchy).

i.i.d का मतलब से अवलोकन F(x) सामान्य रूप से बड़े नमूनों को छोड़कर सामान्य रूप से व्यवहार करता है, चूंकि इसका मतलब है F(x) उपस्थित ही नहीं है।

अनुप्रयोग

मिश्रण घनत्व सरल घनत्व (मिश्रण घटकों) के संदर्भ में अभिव्यक्त जटिल घनत्व हैं, और दोनों का उपयोग किया जाता है क्योंकि वे कुछ डेटा सेटों के लिए एक अच्छा मॉडल प्रदान करते हैं (जहां डेटा के विभिन्न उपसमुच्चय अलग-अलग विशेषताओं को प्रदर्शित करते हैं और अलग-अलग मॉडल किए जा सकते हैं), और क्योंकि वे अधिक गणितीय रूप से ट्रैक्टेबल हो सकते हैं, क्योंकि समग्र मिश्रण घनत्व की तुलना में व्यक्तिगत मिश्रण घटकों का अधिक आसानी से अध्ययन किया जा सकता है।

उप-जनसंख्या के साथ एक सांख्यिकीय आबादी को मॉडल करने के लिए मिश्रण घनत्व का उपयोग किया जा सकता है, जहां मिश्रण घटक उप-जनसंख्या पर घनत्व होते हैं, और वजन समग्र जनसंख्या में प्रत्येक उप-जनसंख्या का अनुपात होता है।

मिश्रण घनत्व का उपयोग प्रयोगात्मक त्रुटि या संदूषण के मॉडल के लिए भी किया जा सकता है - एक मानता है कि अधिकांश नमूने वांछित घटना को मापते हैं, कुछ नमूने एक अलग, गलत वितरण से।

पैरामीट्रिक आँकड़े जो कोई त्रुटि नहीं मानते हैं, अधिकांश ऐसे मिश्रण घनत्वों पर विफल होते हैं - उदाहरण के लिए, सामान्य मान लेने वाले आँकड़े अधिकांश कुछ बाहरी कारकों के कारण की उपस्थिति में विनाशकारी रूप से विफल होते हैं - और इसके बजाय कोई मजबूत आँकड़ों का उपयोग करता है।

अलग-अलग अध्ययनों के मेटा-विश्लेषण में, विषमता का अध्ययन परिणामों के वितरण को मिश्रण वितरण का कारण बनता है, और अनुमानित त्रुटि के सापेक्ष परिणामों के अतिप्रसार की ओर जाता है। उदाहरण के लिए, एक सांख्यिकीय सर्वेक्षण में, त्रुटि का मार्जिन (नमूना आकार द्वारा निर्धारित) नमूनाकरण त्रुटि की भविष्यवाणी करता है और इसलिए बार-बार सर्वेक्षणों पर परिणामों का फैलाव होता है। अध्ययन की विषमता (अध्ययनों में अलग-अलग नमूनाकरण पूर्वाग्रह हैं) की उपस्थिति त्रुटि के मार्जिन के सापेक्ष फैलाव को बढ़ाती है।

यह भी देखें

मिश्रण

पदानुक्रमित मॉडल

टिप्पणियाँ

  1. Frühwirth-Schnatter (2006, Ch.1.2.4)
  2. Marron, J. S.; Wand, M. P. (1992). "सटीक माध्य एकीकृत चुकता त्रुटि". The Annals of Statistics. 20 (2): 712–736. doi:10.1214/aos/1176348653., http://projecteuclid.org/euclid.aos/1176348653
  3. Frühwirth-Schnatter (2006, Ch.1)
  4. 4.0 4.1 Ray, R.; Lindsay, B. (2005), "The topography of multivariate normal mixtures", The Annals of Statistics, 33 (5): 2042–2065, arXiv:math/0602238, doi:10.1214/009053605000000417
  5. Robertson CA, Fryer JG (1969) Some descriptive properties of normal mixtures. Skand Aktuarietidskr 137–146
  6. Behboodian, J (1970). "दो सामान्य वितरण के मिश्रण के मोड पर". Technometrics. 12: 131–139. doi:10.2307/1267357. JSTOR 1267357.
  7. Carreira-Perpiñán, M Á; Williams, C (2003). गॉसियन मिश्रण के मोड पर (PDF). Published as: Lecture Notes in Computer Science 2695. Springer-Verlag. pp. 625–640. doi:10.1007/3-540-44935-3_44. ISSN 0302-9743.
  8. Améndola, C.; Engström, A.; Haase, C. (2020), "Maximum number of modes of Gaussian mixtures", Information and Inference: A Journal of the IMA, 9 (3): 587–600, arXiv:1702.05066, doi:10.1093/imaiai/iaz013
  9. Schilling, Mark F.; Watkins, Ann E.; Watkins, William (2002). "Is human height bimodal?". The American Statistician. 56 (3): 223–229. doi:10.1198/00031300265.
  10. Hampel, Frank (1998), "Is statistics too difficult?", Canadian Journal of Statistics, 26: 497–513, doi:10.2307/3315772, hdl:20.500.11850/145503


संदर्भ

  • Frühwirth-Schnatter, Sylvia (2006), Finite Mixture and Markov Switching Models, Springer, ISBN 978-1-4419-2194-9
  • Lindsay, Bruce G. (1995), Mixture models: theory, geometry and applications, NSF-CBMS Regional Conference Series in Probability and Statistics, vol. 5, Hayward, CA, USA: Institute of Mathematical Statistics, ISBN 0-940600-32-3, JSTOR 4153184
  • Seidel, Wilfried (2010), "Mixture models", in Lovric, M. (ed.), International Encyclopedia of Statistical Science, Heidelberg: Springer, pp. 827–829, arXiv:0909.0389, doi:10.1007/978-3-642-04898-2, ISBN 978-3-642-04898-2