बहुपद वितरण

संभाव्यता सिद्धांत में, बहुपद वितरण द्विपद वितरण का सामान्यीकरण है। उदाहरण के लिए, यह k-पक्षीय पासे को n बार घुमाने पर प्रत्येक पक्ष की गिनती की संभावना को मॉडल करता है। n सांख्यिकीय स्वतंत्रता परीक्षणों के लिए, जिनमें से प्रत्येक k श्रेणियों में से किसी एक के लिए सफलता की ओर ले जाता है, प्रत्येक श्रेणी में निश्चित सफलता की संभावना होती है, बहुपद वितरण विभिन्न श्रेणियों के लिए सफलताओं की संख्या के किसी विशेष संयोजन की संभावना देता है।।

जब k 2 है एवं n 1 है, तो बहुपद वितरण बर्नौली वितरण है। जब k 2 है एवं n 1 से बड़ा है, तो यह द्विपद वितरण है। जब k 2 से बड़ा है एवं n 1 है, तो यह श्रेणीबद्ध वितरण है। "मल्टीनौली" शब्द का उपयोग कभी-कभी इस चार-तरफा रिश्ते पर जोर देने के लिए श्रेणीबद्ध वितरण के लिए किया जाता है (इसलिए n उपसर्ग निर्धारित करता है, एवं k प्रत्यय निर्धारित करता है)।

बर्नौली वितरण एकल बर्नौली परीक्षण के परिणाम को मॉडल करता है। दूसरे शब्दों में, यह मॉडल करता है कि क्या (संभवतः उचित सिक्का) सिक्के को उछालने पर या तो सफलता मिलेगी (चित प्राप्त करना) या असफलता (पूंछ प्राप्त करना) मिलेगी। द्विपद वितरण इसे एक ही सिक्के के n स्वतंत्र फ्लिप (बर्नौली परीक्षण) करने से प्राप्त अंकों की संख्या के आधार पर सामान्यीकृत करता है। बहुपद वितरण n प्रयोगों के परिणाम को मॉडल करता है, जहां प्रत्येक परीक्षण के परिणाम में श्रेणीबद्ध वितरण होता है, जैसे कि k-पक्षीय पासे को n बार रोल करना होता है।

मान लीजिए k निश्चित परिमित संख्या है। गणितीय रूप से, हमारे पास k संभावित परस्पर अनन्य परिणाम हैं, संबंधित संभावनाओं p के p1, ..., pk, एवं n स्वतंत्र परीक्षण हैं। चूँकि k परिणाम परस्पर अनन्य हैं एवं अवश्य घटित होता है, इसलिए हमारे पास pi ≥ 0 के लिए i = 1,...,k एवं $$\sum_{i=1}^k p_i = 1$$ होता है। फिर यदि यादृच्छिक चर Xi इंगित करें कि n परीक्षणों में परिणाम संख्या i कितनी बार देखी गई है, वेक्टर X = (X1, ..., Xk) पैरामीटर n एवं 'p' के साथ बहुपद वितरण का अनुसरण करता है, जहां 'p' = (p1, ..., pk) होता है जबकि परीक्षण स्वतंत्र हैं, उनके परिणाम Xi पर निर्भर हैं, क्योंकि उन्हें n में जोड़ा जाना चाहिए।

प्रायिकता द्रव्यमान फलन
मान लीजिए कि कोई बैग से k भिन्न-भिन्न रंगों की n गेंदें निकालने का प्रयोग करता है, एवं प्रत्येक ड्रॉ के पश्चात निकाली गई गेंदों को परिवर्तित कर देता है। समान रंग की गेंदें समतुल्य हैं। उस चर को X के रूप में निरूपित करें जो रंग i (i = 1, ..., k) की निकाली गई गेंदों की संख्या Xi है, एवं pi के रूप में निरूपित करें, संभावना है कि दिया गया निष्कर्षण रंग i में होगा। इस बहुपद वितरण का संभाव्यता द्रव्यमान फलन है:


 * $$ \begin{align}

f(x_1,\ldots,x_k;n,p_1,\ldots,p_k) & {} = \Pr(X_1 = x_1 \text{ and } \dots \text{ and } X_k = x_k) \\ & {} = \begin{cases} { \displaystyle {n! \over x_1!\cdots x_k!}p_1^{x_1}\times\cdots\times p_k^{x_k}}, \quad & \text{when } \sum_{i=1}^k x_i=n \\ \\ 0 & \text{otherwise,} \end{cases} \end{align} $$ अन्य-ऋणात्मक पूर्णांक x1 के लिए ...xk

संभाव्यता द्रव्यमान फ़ंक्शन को गामा फ़ंक्शन का उपयोग करके इस प्रकार व्यक्त किया जा सकता है:


 * $$f(x_1,\dots, x_{k}; p_1,\ldots, p_k) = \frac{\Gamma(\sum_i x_i + 1)}{\prod_i \Gamma(x_i+1)} \prod_{i=1}^k p_i^{x_i}$$

यह रूप डिरिचलेट वितरण से इसकी समानता दर्शाता है, जो इसका संयुग्म पूर्व है।

उदाहरण
मान लीजिए कि बड़े देश के लिए तीन-तरफ़ा चुनाव में, उम्मीदवार A को 20% वोट मिले, उम्मीदवार B को 30% वोट मिले, एवं उम्मीदवार C को 50% वोट मिले। यदि छह मतदाताओं को यादृच्छिक रूप से चुना जाता है, तो इसकी क्या संभावना है कि नमूने में उम्मीदवार A के लिए बिल्कुल एक समर्थक, उम्मीदवार B के लिए दो समर्थक एवं उम्मीदवार C के लिए तीन समर्थक होंगे?

ध्यान दें: चूंकि हम यह मान रहे हैं कि मतदान करने वाली आपश्चाती बड़ी है, इसलिए नमूने के लिए मतदाता का चयन होने के पश्चात संभावनाओं को अपरिवर्तित मानना ​​उचित एवं स्वीकार्य है। तकनीकी रूप से कहें तो यह प्रतिस्थापन के बिना प्रतिरूपकरण है, इसलिए सही वितरण हाइपरज्यामितीय वितरण#मल्टीवेरिएट हाइपरज्यामितीय वितरण है, लेकिन एक निश्चित प्रतिरूप आकार की तुलना में जनसंख्या बड़ी होने पर वितरण परिवर्तित हो जाते हैं.


 * $$ \Pr(A=1,B=2,C=3) = \frac{6!}{1! 2! 3!}(0.2^1) (0.3^2) (0.5^3) = 0.135 $$

अपेक्षित मूल्य एवं विचरण
n परीक्षणों में जो परिणाम i देखा गया उसकी अपेक्षित मान संख्या है


 * $$\operatorname{E}(X_i) = n p_i.\,$$

सहप्रसरण मैट्रिक्स इस प्रकार है। प्रत्येक विकर्ण प्रविष्टि एक द्विपद रूप से वितरित यादृच्छिक चर का विचरण है, एवं इसलिए है


 * $$\operatorname{Var}(X_i)=np_i(1-p_i).\,$$

ऑफ-विकर्ण प्रविष्टियाँ सहप्रसरण हैं:


 * $$\operatorname{Cov}(X_i,X_j)=-np_i p_j\,$$

i, j के लिए अलग।

सभी सहप्रसरण नकारात्मक हैं क्योंकि निश्चित n के लिए, बहुपद वेक्टर के एक घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।

जब इन अभिव्यक्तियों को i, j तत्व के साथ एक मैट्रिक्स में संयोजित किया जाता है $$\operatorname{cov} (X_i,X_j),$$ परिणाम ak × k है सकारात्मक-निश्चित मैट्रिक्स#नकारात्मक-निश्चित, अर्धनिश्चित एवं अनिश्चित आव्यूह|रैंक k का सकारात्मक-अर्धनिश्चित सहप्रसरण मैट्रिक्स - 1. विशेष विषय में जहां k = n एवं जहां pi सभी समान हैं, सहप्रसरण मैट्रिक्स केन्द्रित मैट्रिक्स है।

संगत सहसंबंध मैट्रिक्स#सहसंबंध मैट्रिक्स की प्रविष्टियाँ हैं


 * $$\rho(X_i,X_i) = 1.$$
 * $$\rho(X_i,X_j) = \frac{\operatorname{Cov}(X_i,X_j)}{\sqrt{\operatorname{Var}(X_i)\operatorname{Var}(X_j)}} = \frac{-p_i p_j}{\sqrt{p_i(1-p_i) p_j(1-p_j)}} = -\sqrt{\frac{p_i  p_j}{(1-p_i)(1-p_j)}}.$$

ध्यान दें कि प्रतिरूप आकार इस अभिव्यक्ति से बाहर हो जाता है।

प्रत्येक k घटक में पैरामीटर n एवं p के साथ अलग से एक द्विपद वितरण होता हैi, सबस्क्रिप्ट के उचित मान के लिए i.

बहुपद वितरण का समर्थन (गणित) समुच्चय है


 * $$\{(n_1,\dots,n_k)\in \mathbb{N}^k \mid n_1+\cdots+n_k=n\}.\,$$

इसके तत्वों की संख्या है


 * $${n+k-1 \choose k-1}.$$

मैट्रिक्स संकेतन
मैट्रिक्स संकेतन में,
 * $$\operatorname{E}(\mathbf{X}) = n \mathbf{p},\,$$

एवं
 * $$\operatorname{Var}(\mathbf{X}) = n \lbrace \operatorname{diag}(\mathbf{p}) - \mathbf{p} \mathbf{p}^{\rm T} \rbrace ,\,$$

साथ $p^{T}$ = स्तंभ वेक्टर का पंक्ति वेक्टर स्थानान्तरण $p$.

सामान्यीकृत पास्कल त्रिकोण के स्लाइस के रूप में
जैसे कोई द्विपद वितरण की व्याख्या पास्कल के त्रिकोण के (सामान्यीकृत) एक-आयामी (1D) स्लाइस के रूप में कर सकता है, वैसे ही कोई बहुपद वितरण की व्याख्या पास्कल के पिरामिड के 2D (त्रिकोणीय) स्लाइस, या 3D/4D/+ (पिरामिड-) के रूप में कर सकता है। पास्कल के त्रिकोण के उच्च-आयामी एनालॉग्स के आकार के) टुकड़े। इससे वितरण की सीमा (सांख्यिकी) की व्याख्या का पता चलता है, मनमाने आयाम में विच्छेदित समबाहु पिरामिड - यानी। ग्रिड के साथ संकेतन

बहुपद गुणांक के रूप में
इसी प्रकार, जैसे कोई द्विपद वितरण की व्याख्या बहुपद गुणांक के रूप में कर सकता है $$(p + q)^n$$ जब विस्तारित किया जाता है, तो कोई बहुपद वितरण की व्याख्या गुणांक के रूप में कर सकता है $$(p_1 + p_2 + p_3 + \cdots + p_k)^n$$ जब विस्तारित किया जाता है, तो यह ध्यान में रखते हुए कि केवल गुणांकों का योग 1 होना चाहिए।

संबंधित वितरण
प्राकृतिक भाषा प्रसंस्करण जैसे कुछ क्षेत्रों में, श्रेणीबद्ध एवं बहुपद वितरण पर्यायवाची हैं एवं जब श्रेणीबद्ध वितरण वास्तव में होता है तो बहुपद वितरण की बात करना आम बात है। यह इस तथ्य से उपजा है कि किसी श्रेणीबद्ध वितरण के परिणाम को एक पूर्णांक के अतिरिक्त 1-के-के वेक्टर (वेक्टर जिसमें तत्व 1 एवं अन्य सभी तत्वों में 0 होता है) के रूप में व्यक्त करना सुविधाजनक होता है। श्रेणी $$1 \dots K$$; इस रूप में, एक श्रेणीबद्ध वितरण एकल परीक्षण पर बहुपद वितरण के बराबर है।


 * जब k = 2, बहुपद वितरण द्विपद वितरण होता है।
 * श्रेणीबद्ध वितरण, प्रत्येक परीक्षण का वितरण; k = 2 के लिए, यह बर्नौली वितरण है।
 * डिरिचलेट वितरण बायेसियन सांख्यिकी में बहुपद से पूर्व का संयुग्म है।
 * डिरिचलेट-बहुपद वितरण।
 * बीटा-द्विपद वितरण।
 * नकारात्मक बहुपद वितरण
 * हार्डी-वेनबर्ग सिद्धांत (यह संभावनाओं के साथ त्रिपद वितरण है $$(\theta^2, 2 \theta (1-\theta), (1-\theta)^2) $$) है।

बहुपद वितरण के लिए समतुल्यता परीक्षण
तुल्यता परीक्षण का लक्ष्य सैद्धांतिक बहुपद वितरण एवं प्रेक्षित गणना आवृत्तियों के मध्य समझौता स्थापित करना है। सैद्धांतिक वितरण पूर्ण प्रकार से निर्दिष्ट बहुपद वितरण या बहुपद वितरण का पैरामीट्रिक परिवार हो सकता है।

होने देना $$q$$ सैद्धांतिक बहुपद वितरण को निरूपित करें एवं जाने दें $$p$$ सच्चा अंतर्निहित वितरण बनें। वितरण  $$p$$ एवं $$q$$ यदि समतुल्य माना जाता है $$d(p,q)<\varepsilon$$ दूरी के लिए $$d$$ एवं सहिष्णुता पैरामीटर $$\varepsilon>0$$ है। तुल्यता परीक्षण समस्या है $$H_0=\{d(p,q)\geq\varepsilon\}$$ बनाम  $$H_1=\{d(p,q)<\varepsilon\}$$है, वास्तविक अंतर्निहित वितरण $$p$$ अज्ञात है। इसके अतिरिक्त, गिनती की आवृत्तियाँ  $$p_n$$मनाया जाता है, जहां $$n$$  प्रतिरूप आकार है, तुल्यता परीक्षण  $$p_n$$का उपयोग करता है  अस्वीकार करना $$H_0$$. यदि $$H_0$$ तब मध्य की समानता को अस्वीकार किया जा सकता है, $$p$$ एवं $$q$$ किसी दिए गए महत्व स्तर पर दिखाया गया है। यूक्लिडियन दूरी के लिए समतुल्यता परीक्षण वेलेक (2010) की पाठ्य पुस्तक में पाया जा सकता है। कुल भिन्नता दूरी के लिए तुल्यता परीक्षण ओस्ट्रोव्स्की (2017) में विकसित किया गया है। विशिष्ट संचयी दूरी के लिए सटीक तुल्यता परीक्षण फ्रे (2009) में प्रस्तावित है। वास्तविक अंतर्निहित वितरण के मध्य की दूरी $$p$$ एवं बहुपद वितरण का परिवार $$\mathcal{M}$$ द्वारा $$d(p, \mathcal{M})=\min_{h\in\mathcal{M}}d(p,h) $$परिभाषित किया गया है फिर तुल्यता परीक्षण $$H_0=\{d(p,\mathcal{M})\geq \varepsilon\}$$ एवं $$H_1=\{d(p,\mathcal{M})< \varepsilon\}$$ समस्या दी गई है। दूरी $$d(p,\mathcal{M})$$ सामान्यतः संख्यात्मक अनुकूलन का उपयोग करके गणना की जाती है। इस विषय के परीक्षण वर्तमान में ओस्ट्रोव्स्की (2018) में विकसित किए गए हैं।

यादृच्छिक भिन्न पीढ़ी
सबसे पूर्व, मापदंडों को पुन: व्यवस्थित $$p_1, \ldots, p_k$$करें, इस प्रकार कि उन्हें अवरोही क्रम में क्रमबद्ध किया जाता है (यह केवल गणना में तीव्रता लाने के लिए है एवं सख्ती से आवश्यक नहीं है)। अब, प्रत्येक परीक्षण के लिए, समान (0, 1) वितरण से सहायक चर X बनाएं। परिणामी परिणाम घटक है


 * $$j = \min \left\{ j' \in \{1,\dots,k\} : \left(\sum_{i=1}^{j'} p_i\right) - X \geq 0 \right\}$$ है,

{xj = 1, xk = 0 k ≠ j } के लिए बहुपद वितरण से अवलोकन $$p_1, \ldots, p_k$$, एवं n = 1 है। इस प्रयोग के स्वतंत्र दोहराव का योग बहुपद वितरण से अवलोकन है जिसमें n ऐसे दोहराव की संख्या के समान है।

स्रोत


श्रेणी:भिन्न-भिन्न वितरण श्रेणी:बहुभिन्नरूपी असतत वितरण श्रेणी:कारकीय एवं द्विपद विषय श्रेणी:घातांकीय पारिवारिक वितरण