बहुपद वितरण

संभाव्यता सिद्धांत में, बहुपद वितरण द्विपद वितरण का एक सामान्यीकरण है। उदाहरण के लिए, यह k-पक्षीय पासे को n बार घुमाने पर प्रत्येक पक्ष की गिनती की संभावना को मॉडल करता है। एन सांख्यिकीय स्वतंत्रता परीक्षणों के लिए, जिनमें से प्रत्येक के श्रेणियों में से किसी एक के लिए सफलता की ओर ले जाता है, प्रत्येक श्रेणी में एक निश्चित सफलता की संभावना होती है, बहुपद वितरण संख्याओं के किसी विशेष संयोजन की संभावना देता है विभिन्न श्रेणियों के लिए सफलताएँ।

जब k 2 है और n 1 है, तो बहुपद वितरण बर्नौली वितरण है। जब k 2 है और n 1 से बड़ा है, तो यह द्विपद वितरण है। जब k 2 से बड़ा है और n 1 है, तो यह श्रेणीबद्ध वितरण है। बहु-नौली शब्द का उपयोग कभी-कभी इस चार-तरफा रिश्ते पर जोर देने के लिए श्रेणीबद्ध वितरण के लिए किया जाता है (इसलिए एन उपसर्ग निर्धारित करता है, और के प्रत्यय निर्धारित करता है)।

बर्नौली वितरण एकल बर्नौली परीक्षण के परिणाम को मॉडल करता है। दूसरे शब्दों में, यह मॉडल करता है कि क्या एक (संभवतः उचित सिक्का) सिक्के को एक बार उछालने पर या तो सफलता मिलेगी (चित प्राप्त करना) या असफलता (पूंछ प्राप्त करना)। द्विपद वितरण इसे एक ही सिक्के के एन स्वतंत्र फ्लिप (बर्नौली परीक्षण) करने से प्राप्त अंकों की संख्या के आधार पर सामान्यीकृत करता है। बहुपद वितरण एन प्रयोगों के परिणाम को मॉडल करता है, जहां प्रत्येक परीक्षण के नतीजे में एक श्रेणीबद्ध वितरण होता है, जैसे कि के-पक्षीय पासे को एन बार रोल करना।

मान लीजिए k एक निश्चित परिमित संख्या है। गणितीय रूप से, हमारे पास k संभावित परस्पर अनन्य परिणाम हैं, संबंधित संभावनाओं p के साथ1, ..., पीk, और n स्वतंत्र परीक्षण। चूँकि k परिणाम परस्पर अनन्य हैं और एक अवश्य घटित होता है, इसलिए हमारे पास p हैi≥ 0 के लिए i = 1,...,k और $$\sum_{i=1}^k p_i = 1$$. फिर यदि यादृच्छिक चर Xi इंगित करें कि n परीक्षणों में परिणाम संख्या i कितनी बार देखी गई है, वेक्टर X = (X1, ..., एक्सk) पैरामीटर n और 'p' के साथ एक बहुपद वितरण का अनुसरण करता है, जहां 'p' = (p1, ..., पीk). जबकि परीक्षण स्वतंत्र हैं, उनके परिणाम X हैंi निर्भर हैं क्योंकि उन्हें n में जोड़ा जाना चाहिए।

प्रायिकता द्रव्यमान फलन
मान लीजिए कि कोई एक बैग से k अलग-अलग रंगों की n गेंदें निकालने का प्रयोग करता है, और प्रत्येक ड्रॉ के बाद निकाली गई गेंदों को बदल देता है। एक ही रंग की गेंदें समतुल्य हैं। उस चर को X के रूप में निरूपित करें जो रंग i (i = 1, ..., k) की निकाली गई गेंदों की संख्या हैi, और पी के रूप में निरूपित करेंi संभावना है कि दिया गया निष्कर्षण i रंग में होगा। इस बहुपद वितरण का संभाव्यता द्रव्यमान फलन है:


 * $$ \begin{align}

f(x_1,\ldots,x_k;n,p_1,\ldots,p_k) & {} = \Pr(X_1 = x_1 \text{ and } \dots \text{ and } X_k = x_k) \\ & {} = \begin{cases} { \displaystyle {n! \over x_1!\cdots x_k!}p_1^{x_1}\times\cdots\times p_k^{x_k}}, \quad & \text{when } \sum_{i=1}^k x_i=n \\ \\ 0 & \text{otherwise,} \end{cases} \end{align} $$ गैर-ऋणात्मक पूर्णांक x के लिए1, ..., एक्सk.

संभाव्यता द्रव्यमान फ़ंक्शन को गामा फ़ंक्शन का उपयोग करके इस प्रकार व्यक्त किया जा सकता है:


 * $$f(x_1,\dots, x_{k}; p_1,\ldots, p_k) = \frac{\Gamma(\sum_i x_i + 1)}{\prod_i \Gamma(x_i+1)} \prod_{i=1}^k p_i^{x_i}.$$

यह रूप डिरिचलेट वितरण से इसकी समानता दर्शाता है, जो इसका संयुग्म पूर्व है।

उदाहरण
मान लीजिए कि एक बड़े देश के लिए तीन-तरफ़ा चुनाव में, उम्मीदवार A को 20% वोट मिले, उम्मीदवार B को 30% वोट मिले, और उम्मीदवार C को 50% वोट मिले। यदि छह मतदाताओं को यादृच्छिक रूप से चुना जाता है, तो इसकी क्या संभावना है कि नमूने में उम्मीदवार A के लिए बिल्कुल एक समर्थक, उम्मीदवार B के लिए दो समर्थक और उम्मीदवार C के लिए तीन समर्थक होंगे?

ध्यान दें: चूंकि हम यह मान रहे हैं कि मतदान करने वाली आबादी बड़ी है, इसलिए नमूने के लिए मतदाता का चयन होने के बाद संभावनाओं को अपरिवर्तित मानना ​​उचित और स्वीकार्य है। तकनीकी रूप से कहें तो यह प्रतिस्थापन के बिना नमूनाकरण है, इसलिए सही वितरण हाइपरज्यामितीय वितरण#मल्टीवेरिएट हाइपरज्यामितीय वितरण है, लेकिन एक निश्चित नमूना आकार की तुलना में जनसंख्या बड़ी होने पर वितरण परिवर्तित हो जाते हैं.


 * $$ \Pr(A=1,B=2,C=3) = \frac{6!}{1! 2! 3!}(0.2^1) (0.3^2) (0.5^3) = 0.135 $$

अपेक्षित मूल्य और विचरण
n परीक्षणों में जो परिणाम i देखा गया उसकी अपेक्षित मान संख्या है


 * $$\operatorname{E}(X_i) = n p_i.\,$$

सहप्रसरण मैट्रिक्स इस प्रकार है। प्रत्येक विकर्ण प्रविष्टि एक द्विपद रूप से वितरित यादृच्छिक चर का विचरण है, और इसलिए है


 * $$\operatorname{Var}(X_i)=np_i(1-p_i).\,$$

ऑफ-विकर्ण प्रविष्टियाँ सहप्रसरण हैं:


 * $$\operatorname{Cov}(X_i,X_j)=-np_i p_j\,$$

i, j के लिए अलग।

सभी सहप्रसरण नकारात्मक हैं क्योंकि निश्चित n के लिए, बहुपद वेक्टर के एक घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।

जब इन अभिव्यक्तियों को i, j तत्व के साथ एक मैट्रिक्स में संयोजित किया जाता है $$\operatorname{cov} (X_i,X_j),$$ परिणाम ak × k है सकारात्मक-निश्चित मैट्रिक्स#नकारात्मक-निश्चित, अर्धनिश्चित और अनिश्चित आव्यूह|रैंक k का सकारात्मक-अर्धनिश्चित सहप्रसरण मैट्रिक्स - 1. विशेष मामले में जहां k = n और जहां pi सभी समान हैं, सहप्रसरण मैट्रिक्स केन्द्रित मैट्रिक्स है।

संगत सहसंबंध मैट्रिक्स#सहसंबंध मैट्रिक्स की प्रविष्टियाँ हैं


 * $$\rho(X_i,X_i) = 1.$$
 * $$\rho(X_i,X_j) = \frac{\operatorname{Cov}(X_i,X_j)}{\sqrt{\operatorname{Var}(X_i)\operatorname{Var}(X_j)}} = \frac{-p_i p_j}{\sqrt{p_i(1-p_i) p_j(1-p_j)}} = -\sqrt{\frac{p_i  p_j}{(1-p_i)(1-p_j)}}.$$

ध्यान दें कि नमूना आकार इस अभिव्यक्ति से बाहर हो जाता है।

प्रत्येक k घटक में पैरामीटर n और p के साथ अलग से एक द्विपद वितरण होता हैi, सबस्क्रिप्ट के उचित मान के लिए i.

बहुपद वितरण का समर्थन (गणित) समुच्चय है


 * $$\{(n_1,\dots,n_k)\in \mathbb{N}^k \mid n_1+\cdots+n_k=n\}.\,$$

इसके तत्वों की संख्या है


 * $${n+k-1 \choose k-1}.$$

मैट्रिक्स संकेतन
मैट्रिक्स संकेतन में,
 * $$\operatorname{E}(\mathbf{X}) = n \mathbf{p},\,$$

और
 * $$\operatorname{Var}(\mathbf{X}) = n \lbrace \operatorname{diag}(\mathbf{p}) - \mathbf{p} \mathbf{p}^{\rm T} \rbrace ,\,$$

साथ $p^{T}$ = स्तंभ वेक्टर का पंक्ति वेक्टर स्थानान्तरण $p$.

सामान्यीकृत पास्कल त्रिकोण के स्लाइस के रूप में
जैसे कोई द्विपद वितरण की व्याख्या पास्कल के त्रिकोण के (सामान्यीकृत) एक-आयामी (1D) स्लाइस के रूप में कर सकता है, वैसे ही कोई बहुपद वितरण की व्याख्या पास्कल के पिरामिड के 2D (त्रिकोणीय) स्लाइस, या 3D/4D/+ (पिरामिड-) के रूप में कर सकता है। पास्कल के त्रिकोण के उच्च-आयामी एनालॉग्स के आकार के) टुकड़े। इससे वितरण की सीमा (सांख्यिकी) की व्याख्या का पता चलता है: मनमाने आयाम में विच्छेदित समबाहु पिरामिड - यानी। ग्रिड के साथ एक संकेतन

बहुपद गुणांक के रूप में
इसी प्रकार, जैसे कोई द्विपद वितरण की व्याख्या बहुपद गुणांक के रूप में कर सकता है $$(p + q)^n$$ जब विस्तारित किया जाता है, तो कोई बहुपद वितरण की व्याख्या गुणांक के रूप में कर सकता है $$(p_1 + p_2 + p_3 + \cdots + p_k)^n$$ जब विस्तारित किया जाता है, तो यह ध्यान में रखते हुए कि केवल गुणांकों का योग 1 होना चाहिए।

संबंधित वितरण
प्राकृतिक भाषा प्रसंस्करण जैसे कुछ क्षेत्रों में, श्रेणीबद्ध और बहुपद वितरण पर्यायवाची हैं और जब श्रेणीबद्ध वितरण वास्तव में होता है तो बहुपद वितरण की बात करना आम बात है। यह इस तथ्य से उपजा है कि किसी श्रेणीबद्ध वितरण के परिणाम को एक पूर्णांक के बजाय 1-के-के वेक्टर (एक वेक्टर जिसमें एक तत्व 1 और अन्य सभी तत्वों में 0 होता है) के रूप में व्यक्त करना सुविधाजनक होता है। श्रेणी $$1 \dots K$$; इस रूप में, एक श्रेणीबद्ध वितरण एक एकल परीक्षण पर बहुपद वितरण के बराबर है।


 * जब k = 2, बहुपद वितरण द्विपद वितरण होता है।
 * श्रेणीबद्ध वितरण, प्रत्येक परीक्षण का वितरण; k = 2 के लिए, यह बर्नौली वितरण है।
 * डिरिचलेट वितरण बायेसियन सांख्यिकी में बहुपद से पहले का संयुग्म है।
 * डिरिचलेट-बहुपद वितरण।
 * बीटा-द्विपद वितरण।
 * नकारात्मक बहुपद वितरण
 * हार्डी-वेनबर्ग सिद्धांत (यह संभावनाओं के साथ एक त्रिपद वितरण है $$(\theta^2, 2 \theta (1-\theta), (1-\theta)^2) $$)

बहुपद वितरण के लिए समतुल्यता परीक्षण
तुल्यता परीक्षण का लक्ष्य सैद्धांतिक बहुपद वितरण और प्रेक्षित गणना आवृत्तियों के बीच समझौता स्थापित करना है। सैद्धांतिक वितरण पूरी तरह से निर्दिष्ट बहुपद वितरण या बहुपद वितरण का एक पैरामीट्रिक परिवार हो सकता है।

होने देना $$q$$ एक सैद्धांतिक बहुपद वितरण को निरूपित करें और जाने दें $$p$$ एक सच्चा अंतर्निहित वितरण बनें। वितरण $$p$$ और $$q$$ यदि समतुल्य माना जाता है $$d(p,q)<\varepsilon$$ एक दूरी के लिए $$d$$ और एक सहिष्णुता पैरामीटर $$\varepsilon>0$$. तुल्यता परीक्षण समस्या है $$H_0=\{d(p,q)\geq\varepsilon\}$$ बनाम $$H_1=\{d(p,q)<\varepsilon\}$$. वास्तविक अंतर्निहित वितरण $$p$$ अज्ञात है। इसके बजाय, गिनती की आवृत्तियाँ $$p_n$$ मनाया जाता है, जहां $$n$$ एक नमूना आकार है. एक तुल्यता परीक्षण का उपयोग करता है $$p_n$$ अस्वीकार करना $$H_0$$. अगर $$H_0$$ तब बीच की समानता को अस्वीकार किया जा सकता है $$p$$ और $$q$$ किसी दिए गए महत्व स्तर पर दिखाया गया है। यूक्लिडियन दूरी के लिए समतुल्यता परीक्षण वेलेक (2010) की पाठ्य पुस्तक में पाया जा सकता है। कुल भिन्नता दूरी के लिए तुल्यता परीक्षण ओस्ट्रोव्स्की (2017) में विकसित किया गया है। विशिष्ट संचयी दूरी के लिए सटीक तुल्यता परीक्षण फ्रे (2009) में प्रस्तावित है। वास्तविक अंतर्निहित वितरण के बीच की दूरी $$p$$ और बहुपद वितरण का एक परिवार $$\mathcal{M}$$ द्वारा परिभाषित किया गया है $$d(p, \mathcal{M})=\min_{h\in\mathcal{M}}d(p,h) $$. फिर तुल्यता परीक्षण समस्या दी गई है $$H_0=\{d(p,\mathcal{M})\geq \varepsilon\}$$ और $$H_1=\{d(p,\mathcal{M})< \varepsilon\}$$. दूरी $$d(p,\mathcal{M})$$ आमतौर पर संख्यात्मक अनुकूलन का उपयोग करके गणना की जाती है। इस मामले के परीक्षण हाल ही में ओस्ट्रोव्स्की (2018) में विकसित किए गए हैं।

यादृच्छिक भिन्न पीढ़ी
सबसे पहले, मापदंडों को पुन: व्यवस्थित करें $$p_1, \ldots, p_k$$ इस तरह कि उन्हें अवरोही क्रम में क्रमबद्ध किया जाता है (यह केवल गणना में तेजी लाने के लिए है और सख्ती से आवश्यक नहीं है)। अब, प्रत्येक परीक्षण के लिए, एक समान (0, 1) वितरण से एक सहायक चर X बनाएं। परिणामी परिणाम घटक है


 * $$j = \min \left\{ j' \in \{1,\dots,k\} : \left(\sum_{i=1}^{j'} p_i\right) - X \geq 0 \right\}.$$

{एक्सj = 1, एक्सk = 0 k ≠ j } के लिए बहुपद वितरण से एक अवलोकन है $$p_1, \ldots, p_k$$ और n = 1. इस प्रयोग के स्वतंत्र दोहराव का योग एक बहुपद वितरण से एक अवलोकन है जिसमें n ऐसे दोहराव की संख्या के बराबर है।

स्रोत


श्रेणी:अलग-अलग वितरण श्रेणी:बहुभिन्नरूपी असतत वितरण श्रेणी:कारकीय और द्विपद विषय श्रेणी:घातांकीय पारिवारिक वितरण