मिश्रण वितरण

संभाव्यता और आंकड़ों में, एक मिश्रण वितरण एक यादृच्छिक चर का संभाव्यता वितरण है जो अन्य यादृच्छिक चर के संग्रह से प्राप्त होता है: पहले, चयन की दी गई संभावनाओं के अनुसार संग्रह से एक यादृच्छिक चर का चयन किया जाता है, और फिर चयनित यादृच्छिक चर का मान प्राप्त होता है। अंतर्निहित यादृच्छिक चर यादृच्छिक वास्तविक संख्या हो सकते हैं, या वे यादृच्छिक वैक्टर हो सकते हैं (प्रत्येक समान आयाम वाले), इस मामले में मिश्रण वितरण एक बहुभिन्नरूपी वितरण है।

ऐसे मामलों में जहां अंतर्निहित यादृच्छिक चर में से प्रत्येक निरंतर यादृच्छिक चर है, परिणाम चर भी निरंतर होगा और इसकी संभावना घनत्व समारोह को कभी-कभी मिश्रण घनत्व के रूप में संदर्भित किया जाता है। संचयी वितरण फ़ंक्शन (और संभावना घनत्व फ़ंक्शन यदि मौजूद है) को अन्य वितरण कार्यों और घनत्व कार्यों के उत्तल संयोजन (यानी एक भारित योग, गैर-ऋणात्मक भार के साथ 1 तक) के रूप में व्यक्त किया जा सकता है। व्यक्तिगत वितरण जो मिश्रण वितरण बनाने के लिए संयुक्त होते हैं उन्हें मिश्रण घटक कहा जाता है, और प्रत्येक घटक से जुड़ी संभावनाओं (या वजन) को मिश्रण वजन कहा जाता है। मिश्रण वितरण में घटकों की संख्या अक्सर परिमित होने तक सीमित होती है, हालांकि कुछ मामलों में घटक संख्या में गणनीय हो सकते हैं। अधिक सामान्य मामले (अर्थात् घटक वितरण का एक बेशुमार सेट), साथ ही साथ गणनीय मामला, यौगिक संभाव्यता वितरण के शीर्षक के तहत माना जाता है।

एक यादृच्छिक चर के बीच एक अंतर बनाने की आवश्यकता है जिसका वितरण कार्य या घनत्व घटकों के एक सेट (यानी एक मिश्रण वितरण) का योग है और एक यादृच्छिक चर जिसका मान दो या दो से अधिक अंतर्निहित यादृच्छिक चर के मानों का योग है, में किस मामले में कनवल्शन ऑपरेटर द्वारा वितरण दिया जाता है। एक उदाहरण के रूप में, दो बहुभिन्नरूपी सामान्य वितरण यादृच्छिक चर का योग, प्रत्येक अलग-अलग साधनों के साथ, अभी भी एक सामान्य वितरण होगा। दूसरी ओर, अलग-अलग साधनों के साथ दो सामान्य वितरणों के मिश्रण के रूप में निर्मित मिश्रण घनत्व में दो चोटियाँ होंगी, बशर्ते कि दो साधन काफी दूर हों, यह दर्शाता है कि यह वितरण सामान्य वितरण से मौलिक रूप से भिन्न है।

मिश्रण वितरण साहित्य में कई संदर्भों में उत्पन्न होता है और स्वाभाविक रूप से उत्पन्न होता है जहां एक सांख्यिकीय आबादी में दो या दो से अधिक उप-जनसंख्या होती है। उन्हें कभी-कभी गैर-सामान्य वितरण का प्रतिनिधित्व करने के साधन के रूप में भी उपयोग किया जाता है। मिश्रण वितरण से जुड़े सांख्यिकीय मॉडल से संबंधित डेटा विश्लेषण पर मिश्रण मॉडल के शीर्षक के तहत चर्चा की गई है, जबकि वर्तमान लेख मिश्रण वितरण के सरल संभाव्य और सांख्यिकीय गुणों पर ध्यान केंद्रित करता है और ये अंतर्निहित वितरण के गुणों से कैसे संबंधित हैं।

परिमित और गणनीय मिश्रण

समान वजन वाले तीन सामान्य वितरण (μ= 5, 10, 15, σ = 2) के मिश्रण का घनत्व। प्रत्येक घटक को भारित घनत्व के रूप में दिखाया गया है (प्रत्येक 1/3 को एकीकृत करता है)

संभाव्यता घनत्व कार्यों पी के एक सीमित सेट को देखते हुए₁(एक्स), ..., पी_n(एक्स), या संबंधित संचयी वितरण कार्य पी₁(एक्स), ..., पी_n(एक्स) और 'वजन' डब्ल्यू₁, ..., में_nऐसा है कि w_i ≥ 0 और Σw_i = 1, मिश्रण वितरण को या तो घनत्व, f, या वितरण फलन, F, को एक योग के रूप में लिखकर प्रदर्शित किया जा सकता है (जो दोनों ही मामलों में एक उत्तल संयोजन है):

F(x)=\sum _{i=1}^{n}\,w_{i}\,P_{i}(x),

f(x)=\sum _{i=1}^{n}\,w_{i}\,p_{i}(x).

इस प्रकार का मिश्रण, एक परिमित राशि होने के नाते, एक परिमित मिश्रण कहा जाता है, और अनुप्रयोगों में, मिश्रण घनत्व के लिए एक अयोग्य संदर्भ का अर्थ आमतौर पर एक परिमित मिश्रण होता है। घटकों के एक अनगिनत अनंत सेट के मामले को अनुमति देकर औपचारिक रूप से कवर किया गया है $n=\infty \!$ .

बेशुमार मिश्रण

जहां घटक वितरण का सेट बेशुमार होता है, परिणाम को अक्सर यौगिक संभाव्यता वितरण कहा जाता है। इस तरह के वितरण के निर्माण में मिश्रण वितरण के लिए एक औपचारिक समानता होती है, जिसमें या तो अनंत योग या परिमित मिश्रण के लिए उपयोग किए जाने वाले परिमित योगों की जगह अभिन्न अंग होते हैं।

प्रायिकता घनत्व फलन p(x;a) पर एक चर x के लिए विचार करें, जिसे a द्वारा परिचालित किया गया है। अर्थात्, किसी समुच्चय A में a के प्रत्येक मान के लिए, p(x;a) x के संबंध में प्रायिकता घनत्व फलन है। प्रायिकता घनत्व फ़ंक्शन w दिया गया है (जिसका अर्थ है कि w गैर-नकारात्मक है और 1 को एकीकृत करता है), फ़ंक्शन

f(x)=\int _{A}\,w(a)\,p(x;a)\,da

फिर से x के लिए प्रायिकता घनत्व फलन है। संचयी वितरण समारोह के लिए एक समान अभिन्न लिखा जा सकता है। ध्यान दें कि यहाँ सूत्र परिमित या अनंत मिश्रण के मामले में कम हो जाते हैं यदि घनत्व w को असतत वितरण के संचयी वितरण समारोह के व्युत्पन्न का प्रतिनिधित्व करने वाला एक सामान्यीकृत कार्य होने की अनुमति है।

एक पैरामीट्रिक परिवार के भीतर मिश्रण

मिश्रण के घटक अक्सर मनमाना संभाव्यता वितरण नहीं होते हैं, बल्कि इसके बजाय एक पैरामीट्रिक परिवार (जैसे सामान्य वितरण) के सदस्य होते हैं, एक पैरामीटर या पैरामीटर के लिए अलग-अलग मान होते हैं। ऐसे मामलों में, यह मानते हुए कि यह मौजूद है, घनत्व को योग के रूप में लिखा जा सकता है:

f(x;a_{1},\ldots ,a_{n})=\sum _{i=1}^{n}\,w_{i}\,p(x;a_{i})

एक पैरामीटर के लिए, या

f(x;a_{1},\ldots ,a_{n},b_{1},\ldots ,b_{n})=\sum _{i=1}^{n}\,w_{i}\,p(x;a_{i},b_{i})

दो मापदंडों के लिए, और इसी तरह।

गुण

उत्तलता

संभाव्यता घनत्व कार्यों का एक सामान्य रैखिक संयोजन अनिवार्य रूप से एक संभावना घनत्व नहीं है, क्योंकि यह नकारात्मक हो सकता है या यह 1 के अलावा किसी अन्य चीज़ से एकीकृत हो सकता है। हालांकि, संभावना घनत्व कार्यों का एक उत्तल संयोजन इन दोनों गुणों (गैर-नकारात्मकता और एकीकृत) को संरक्षित करता है से 1), और इस प्रकार मिश्रण घनत्व स्वयं संभाव्यता घनत्व कार्य हैं।

क्षण

चलो एक्स₁, ..., एक्स_n n घटक वितरण से यादृच्छिक चर को निरूपित करें, और X को मिश्रण वितरण से एक यादृच्छिक चर को निरूपित करें। फिर, किसी भी फ़ंक्शन H(·) के लिए जिसके लिए $\operatorname {E} [H(X_{i})]$ मौजूद है, और यह मानते हुए कि घटक घनत्व पी_i(एक्स) मौजूद है,

{\begin{aligned}\operatorname {E} [H(X)]&=\int _{-\infty }^{\infty }H(x)\sum _{i=1}^{n}w_{i}p_{i}(x)\,dx\\&=\sum _{i=1}^{n}w_{i}\int _{-\infty }^{\infty }p_{i}(x)H(x)\,dx=\sum _{i=1}^{n}w_{i}\operatorname {E} [H(X_{i})].\end{aligned}}

जेवाँ क्षण शून्य के बारे में (अर्थात चुनना H(x) = x^j) घटकों के जेवें क्षणों का भारित औसत है। माध्य के बारे में क्षण H(x) = (x − μ)^j एक द्विपद विस्तार शामिल है:^[1]

{\begin{aligned}\operatorname {E} [(X-\mu )^{j}]&=\sum _{i=1}^{n}w_{i}\operatorname {E} [(X_{i}-\mu _{i}+\mu _{i}-\mu )^{j}]\\&=\sum _{i=1}^{n}w_{i}\sum _{k=0}^{j}\left({\begin{array}{c}j\\k\end{array}}\right)(\mu _{i}-\mu )^{j-k}\operatorname {E} [(X_{i}-\mu _{i})^{k}],\end{aligned}}

कहाँ μ_iIवें घटक के माध्य को दर्शाता है।

वजन डब्ल्यू के साथ एक आयामी वितरण के मिश्रण के मामले में_i, का अर्थ है μ_iऔर प्रसरण σ_i², कुल माध्य और प्रसरण होगा:

\operatorname {E} [X]=\mu =\sum _{i=1}^{n}w_{i}\mu _{i},

{\begin{aligned}\operatorname {E} [(X-\mu )^{2}]&=\sigma ^{2}\\&=\operatorname {E} [X^{2}]-\mu ^{2}&(\mathrm {standard} \ \mathrm {variance} \ \mathrm {reformulation} )\\&=\left(\sum _{i=1}^{n}w_{i}(\operatorname {E} [X_{i}^{2}])\right)-\mu ^{2}\\&=\sum _{i=1}^{n}w_{i}(\sigma _{i}^{2}+\mu _{i}^{2})-\mu ^{2}&(\mathrm {from} \ \sigma _{i}^{2}=\operatorname {E} [X_{i}^{2}]-\mu _{i}^{2},\mathrm {therefore} \,\operatorname {E} [X_{i}^{2}]=\sigma _{i}^{2}+\mu _{i}^{2}.)\end{aligned}}

ये संबंध गैर-तुच्छ उच्च-क्रम के क्षणों जैसे तिरछापन और कुकुदता (वसा पूंछ) और बहु-मोडलिटी को प्रदर्शित करने के लिए मिश्रण वितरण की क्षमता को उजागर करते हैं, यहां तक कि घटकों के भीतर ऐसी विशेषताओं की अनुपस्थिति में भी। मैरोन और वैंड (1992) इस ढांचे के लचीलेपन का उदाहरण देते हैं।^[2]

मोड

बहुविध वितरण का प्रश्न कुछ मामलों के लिए सरल है, जैसे कि घातीय बंटनों का मिश्रण: ऐसे सभी मिश्रण एकरूपता वाले होते हैं।^[3] हालांकि, सामान्य वितरण के मिश्रण के मामले में, यह एक जटिल है। रे एंड लिंडसे द्वारा एक बहुभिन्नरूपी सामान्य मिश्रण में मोड की संख्या के लिए शर्तों का पता लगाया जाता है^[4] univariate पर पहले के काम का विस्तार करना^[5]^[6] और बहुभिन्नरूपी^[7] वितरण।

यहाँ एक डी डायमेंशनल स्पेस में एक एन घटक मिश्रण के मोड के मूल्यांकन की समस्या को महत्वपूर्ण बिंदुओं (स्थानीय मिनिमा, मैक्सिमा और सैडल पॉइंट्स) की पहचान के लिए कम किया जाता है, जिसे कई गुना रिजलाइन सतह के रूप में संदर्भित किया जाता है, जो की छवि है। रिजलाइन फ़ंक्शन

x^{*}(\alpha )=\left[\sum _{i=1}^{n}\alpha _{i}\Sigma _{i}^{-1}\right]^{-1}\times \left[\sum _{i=1}^{n}\alpha _{i}\Sigma _{i}^{-1}\mu _{i}\right],

कहाँ $\alpha$ के अंतर्गत आता है $(n-1)$ -आयामी मानक संकेतन: ${\mathcal {S}}_{n}=\{\alpha \in \mathbb {R} ^{n}:\alpha _{i}\in [0,1],\sum _{i=1}^{n}\alpha _{i}=1\}$ और $\Sigma _{i}\in R^{D\times D},\,\mu _{i}\in R^{D}$ i के सहप्रसरण और माध्य के अनुरूप^वें घटक। रे और लिंडसे^[4]जिस मामले में विचार करें $n-1<D$ मिश्रण के मोड और रिज एलिवेशन फ़ंक्शन पर एक-से-एक पत्राचार दिखा रहा है $h(\alpha )=q(x^{*}(\alpha )$ इस प्रकार कोई हल करके मोड की पहचान कर सकता है ${\frac {dh(\alpha )}{d\alpha }}=0$ इसके संबंध में $\alpha$ और मूल्य का निर्धारण $x^{*}(\alpha )$ .

ग्राफिकल टूल्स का उपयोग करते हुए, घटकों की संख्या के साथ मिश्रण की संभावित बहु-रूपता $n\in \{2,3\}$ प्रदर्शित किया जाता है; विशेष रूप से यह दिखाया गया है कि मोड की संख्या अधिक हो सकती है $n$ और यह कि मोड घटक साधनों के साथ मेल नहीं खा सकते हैं। दो घटकों के लिए वे पहले मिश्रण वजन के संबंध में उपरोक्त अंतर को हल करने के बजाय विश्लेषण के लिए एक ग्राफिकल टूल विकसित करते हैं $w_{1}$ (जो दूसरे मिश्रण वजन को भी निर्धारित करता है $w_{2}=1-w_{1}$ ) और समाधानों को एक फलन के रूप में व्यक्त करना $\Pi (\alpha ),\,\alpha \in [0,1]$ ताकि दिए गए मान के लिए मोड की संख्या और स्थान $w_{1}$ लाइन पर ग्राफ के चौराहों की संख्या से मेल खाती है $\Pi (\alpha )=w_{1}$ . यह बदले में ग्राफ के दोलनों की संख्या से संबंधित हो सकता है और इसलिए के समाधान के लिए ${\frac {d\Pi (\alpha )}{d\alpha }}=0$ के साथ दो घटक मिश्रण के मामले के लिए एक स्पष्ट समाधान के लिए अग्रणी $\Sigma _{1}=\Sigma _{2}=\Sigma$ (कभी-कभी समलिंगी मिश्रण कहा जाता है) द्वारा दिया गया

1-\alpha (1-\alpha )d_{M}(\mu _{1},\mu _{2},\Sigma )^{2}

कहाँ $d_{M}(\mu _{1},\mu _{2},\Sigma )={\sqrt {(\mu _{2}-\mu _{1})^{T}\Sigma ^{-1}(\mu _{2}-\mu _{1})}}$ के बीच की महालनोबिस दूरी है $\mu _{1}$ और $\mu _{2}$ .

चूंकि उपरोक्त द्विघात है, इसलिए यह इस प्रकार है कि इस उदाहरण में आयाम या भार के बावजूद अधिकतम दो मोड हैं।

सामान्य के साथ सामान्य मिश्रण के लिए $n>2$ और $D>1$ , संभावित मोड की अधिकतम संख्या के लिए एक निचली सीमा, और{{snd}सशर्त रूप से इस धारणा पर कि अधिकतम संख्या परिमित है – एक ऊपरी सीमा ज्ञात है। उन संयोजनों के लिए $n$ और $D$ जिसके लिए अधिकतम संख्या ज्ञात है, यह निचली सीमा से मेल खाता है।^[8]

उदाहरण

दो सामान्य वितरण

सरल उदाहरण दो सामान्य वितरणों के मिश्रण द्वारा दिए जा सकते हैं। (अधिक विवरण के लिए मल्टीमॉडल वितरण # दो सामान्य वितरणों का मिश्रण देखें।)

एक ही मानक विचलन और अलग-अलग साधनों (समरूपता) के साथ दो सामान्य वितरणों के बराबर (50/50) मिश्रण को देखते हुए, समग्र वितरण एकल सामान्य वितरण के सापेक्ष कम कर्टोसिस प्रदर्शित करेगा - उप-जनसंख्या के साधन कंधों पर पड़ते हैं समग्र वितरण। यदि पर्याप्त रूप से अलग किया जाता है, अर्थात् दो बार (सामान्य) मानक विचलन द्वारा, इसलिए $\left|\mu _{1}-\mu _{2}\right|>2\sigma ,$ ये एक बिमोडल वितरण बनाते हैं, अन्यथा इसका केवल एक विस्तृत शिखर होता है।^[9] समग्र जनसंख्या की भिन्नता भी दो उप-जनसंख्याओं (विभिन्न माध्यमों से फैलने के कारण) की भिन्नता से अधिक होगी, और इस प्रकार निश्चित भिन्नता के साथ एक सामान्य वितरण के सापेक्ष अधिक फैलाव प्रदर्शित करती है। $\sigma ,$ हालांकि यह समग्र आबादी के भिन्नता के बराबर भिन्नता के साथ सामान्य वितरण के सापेक्ष अतिप्रसारित नहीं होगा।

वैकल्पिक रूप से, एक ही माध्य और विभिन्न मानक विचलन के साथ दो उप-जनसंख्या दी गई है, समग्र जनसंख्या एकल वितरण की तुलना में एक तेज चोटी और भारी पूंछ (और इसी तरह उथले कंधे) के साथ उच्च कर्टोसिस प्रदर्शित करेगी।

द्विभाजित वितरण दिखाते हुए, एक-भिन्न मिश्रण वितरण
बहुभिन्नरूपी मिश्रण वितरण, चार मोड दिखा रहा है

एक सामान्य और एक कॉची वितरण

निम्नलिखित उदाहरण हम्पेल से लिया गया है,^[10] जो जॉन टुकी को श्रेय देता है।

द्वारा परिभाषित मिश्रण वितरण पर विचार करें

F (x) = (1 - 10 -10) (standard normal) + 10 -10 (standard Cauchy)

.

i.i.d का मतलब से अवलोकन $F (x)$ सामान्य रूप से बड़े नमूनों को छोड़कर सामान्य रूप से व्यवहार करता है, हालांकि इसका मतलब है $F (x)$ मौजूद ही नहीं है।

अनुप्रयोग

मिश्रण घनत्व सरल घनत्व (मिश्रण घटकों) के संदर्भ में अभिव्यक्त जटिल घनत्व हैं, और दोनों का उपयोग किया जाता है क्योंकि वे कुछ डेटा सेटों के लिए एक अच्छा मॉडल प्रदान करते हैं (जहां डेटा के विभिन्न उपसमुच्चय अलग-अलग विशेषताओं को प्रदर्शित करते हैं और अलग-अलग मॉडल किए जा सकते हैं), और क्योंकि वे अधिक गणितीय रूप से ट्रैक्टेबल हो सकते हैं, क्योंकि समग्र मिश्रण घनत्व की तुलना में व्यक्तिगत मिश्रण घटकों का अधिक आसानी से अध्ययन किया जा सकता है।

उप-जनसंख्या के साथ एक सांख्यिकीय आबादी को मॉडल करने के लिए मिश्रण घनत्व का उपयोग किया जा सकता है, जहां मिश्रण घटक उप-जनसंख्या पर घनत्व होते हैं, और वजन समग्र जनसंख्या में प्रत्येक उप-जनसंख्या का अनुपात होता है।

मिश्रण घनत्व का उपयोग प्रयोगात्मक त्रुटि या संदूषण के मॉडल के लिए भी किया जा सकता है - एक मानता है कि अधिकांश नमूने वांछित घटना को मापते हैं, कुछ नमूने एक अलग, गलत वितरण से।

पैरामीट्रिक आँकड़े जो कोई त्रुटि नहीं मानते हैं, अक्सर ऐसे मिश्रण घनत्वों पर विफल होते हैं - उदाहरण के लिए, सामान्य मान लेने वाले आँकड़े अक्सर कुछ बाहरी कारकों के कारण की उपस्थिति में विनाशकारी रूप से विफल होते हैं - और इसके बजाय कोई मजबूत आँकड़ों का उपयोग करता है।

अलग-अलग अध्ययनों के मेटा-विश्लेषण में, विषमता का अध्ययन परिणामों के वितरण को मिश्रण वितरण का कारण बनता है, और अनुमानित त्रुटि के सापेक्ष परिणामों के अतिप्रसार की ओर जाता है। उदाहरण के लिए, एक सांख्यिकीय सर्वेक्षण में, त्रुटि का मार्जिन (नमूना आकार द्वारा निर्धारित) नमूनाकरण त्रुटि की भविष्यवाणी करता है और इसलिए बार-बार सर्वेक्षणों पर परिणामों का फैलाव होता है। अध्ययन की विषमता (अध्ययनों में अलग-अलग नमूनाकरण पूर्वाग्रह हैं) की उपस्थिति त्रुटि के मार्जिन के सापेक्ष फैलाव को बढ़ाती है।

यह भी देखें

यौगिक वितरण
दूषित सामान्य वितरण
उत्तल संयोजन
अपेक्षा-अधिकतमकरण एल्गोरिथम | अपेक्षा-अधिकतमकरण (EM) एल्गोरिथम
भ्रमित न हों: संभाव्यता वितरण के संकल्पों की सूची
उत्पाद वितरण