बहुपद वितरण

संभाव्यता सिद्धांत में, बहुपद वितरण द्विपद वितरण का सामान्यीकरण है। उदाहरण के लिए, यह k-पक्षीय पासे को n बार घुमाने पर प्रत्येक पक्ष की गिनती की संभावना को मॉडल करता है। n सांख्यिकीय स्वतंत्रता परीक्षणों के लिए, जिनमें से प्रत्येक k श्रेणियों में से किसी के लिए सफलता की ओर ले जाता है, प्रत्येक श्रेणी में निश्चित सफलता की संभावना होती है, बहुपद वितरण विभिन्न श्रेणियों के लिए सफलताओं की संख्या के किसी विशेष संयोजन की संभावना देता है।

जब k 2 है एवं n 1 है, तो बहुपद वितरण बर्नौली वितरण है। जब k 2 है एवं n 1 से बड़ा है, तो यह द्विपद वितरण है। जब k 2 से बड़ा है एवं n 1 है, तो यह श्रेणीबद्ध वितरण है। "मल्टीनौली" शब्द का उपयोग कभी-कभी इस चार प्रकार के सम्बन्ध पर बल देने के लिए श्रेणीबद्ध वितरण के लिए किया जाता है (इसलिए n उपसर्ग निर्धारित करता है, एवं k प्रत्यय निर्धारित करता है)।

बर्नौली वितरण एकल बर्नौली परीक्षण के परिणाम को मॉडल करता है। दूसरे शब्दों में, यह मॉडल करता है, कि क्या (संभवतः पक्षपातपूर्ण) सिक्के को उछालने पर या तो सफलता प्राप्त होगी या विफलता प्राप्त होगी। द्विपद वितरण इसे एक ही सिक्के के n स्वतंत्र फ्लिप (बर्नौली परीक्षण) करने से प्राप्त शीर्षों की संख्या के आधार पर सामान्यीकृत करता है। बहुपद वितरण n प्रयोगों के परिणाम को मॉडल करता है, जहां प्रत्येक परीक्षण के परिणाम में श्रेणीबद्ध वितरण होता है, जैसे कि k पक्षीय पासे को n बार रोल करना होता है।

मान लीजिए k निश्चित परिमित संख्या है। गणितीय रूप से, हमारे पास k संभावित परस्पर अनन्य परिणाम हैं, संबंधित संभावनाओं p के p1, ..., pk, एवं n स्वतंत्र परीक्षण हैं। चूँकि k परिणाम परस्पर अनन्य हैं एवं अवश्य घटित होता है, इसलिए हमारे पास pi ≥ 0 के लिए i = 1,...,k एवं $$\sum_{i=1}^k p_i = 1$$ होता है। तत्पश्चात यदि यादृच्छिक चर Xi प्रदर्शित करते हैं कि n परीक्षणों में परिणाम संख्या i कितनी बार देखी गई है, सदिश X = (X1, ..., Xk) पैरामीटर n एवं 'p' के साथ बहुपद वितरण का अनुसरण करता है, जहां 'p' = (p1, ..., pk) होता है जबकि परीक्षण स्वतंत्र हैं, उनके परिणाम Xi पर निर्भर हैं, क्योंकि उन्हें n में जोड़ा जाता है।

प्रायिकता द्रव्यमान फलन
मान लीजिए कि कोई बैग से k भिन्न-भिन्न रंगों की n गेंदें निकालने का प्रयोग करता है, एवं प्रत्येक ड्रॉ के पश्चात निकाली गई गेंदों को परिवर्तित कर देता है। समान रंग की गेंदें समतुल्य हैं। उस चर को X के रूप में निरूपित करें जो रंग i (i = 1, ..., k) की निकाली गई गेंदों की संख्या Xi है, एवं pi के रूप में निरूपित करें, संभावना है कि दिया गया निष्कर्षण रंग i में होगा। इस बहुपद वितरण का संभाव्यता द्रव्यमान फलन है:


 * $$ \begin{align}

f(x_1,\ldots,x_k;n,p_1,\ldots,p_k) & {} = \Pr(X_1 = x_1 \text{ and } \dots \text{ and } X_k = x_k) \\ & {} = \begin{cases} { \displaystyle {n! \over x_1!\cdots x_k!}p_1^{x_1}\times\cdots\times p_k^{x_k}}, \quad & \text{when } \sum_{i=1}^k x_i=n \\ \\ 0 & \text{otherwise,} \end{cases} \end{align} $$ अन्य-ऋणात्मक पूर्णांक x1, ..., xk के लिए संभाव्यता द्रव्यमान फलन को गामा फलन का उपयोग करके इस प्रकार व्यक्त किया जा सकता है:


 * $$f(x_1,\dots, x_{k}; p_1,\ldots, p_k) = \frac{\Gamma(\sum_i x_i + 1)}{\prod_i \Gamma(x_i+1)} \prod_{i=1}^k p_i^{x_i}$$

यह रूप डिरिचलेट वितरण से इसकी समानता दर्शाता है, जो इसका संयुग्म पूर्व है।

उदाहरण
मान लीजिए कि बड़े देश के लिए तीन-पथ चयन में, प्रत्याशी A को 20% वोट मिले, प्रत्याशी B को 30% वोट मिले, एवं प्रत्याशी C को 50% वोट मिले। यदि छह मतदाताओं का यादृच्छिक रूप से चयन होता है, तो इसकी क्या संभावना है कि प्रतिरूप में प्रत्याशी A के लिए एक समर्थक, प्रत्याशी B के लिए दो समर्थक एवं प्रत्याशी C के लिए तीन समर्थक होंगे।

ध्यान दें: चूंकि हम यह मान रहे हैं कि मतदान करने वाली जनसँख्या बड़ी है, इसलिए प्रतिरूप के लिए मतदाता का चयन होने के पश्चात संभावनाओं को अपरिवर्तित मानना ​​उचित एवं स्वीकार्य है। प्रौद्योगिकी रूप से कहें तो यह प्रतिस्थापन के बिना प्रतिरूपकरण है, इसलिए उचित वितरण बहुभिन्नरूपी हाइपरज्यामितीय वितरण है, परन्तु निश्चित प्रतिरूप आकार की अपेक्षा में जनसंख्या बड़ी होने पर वितरण परिवर्तित हो जाते हैं तो


 * $$ \Pr(A=1,B=2,C=3) = \frac{6!}{1! 2! 3!}(0.2^1) (0.3^2) (0.5^3) = 0.135 $$ होता है।

अपेक्षित मूल्य एवं विचरण
n परीक्षणों में जो परिणाम i देखा गया उसकी अपेक्षित मान संख्या


 * $$\operatorname{E}(X_i) = n p_i\,$$

सहप्रसरण आव्यूह इस प्रकार है। प्रत्येक विकर्ण प्रविष्टि द्विपद रूप से वितरित यादृच्छिक चर का विचरण है, एवं इसलिए है


 * $$\operatorname{Var}(X_i)=np_i(1-p_i)\,$$होता है।

ऑफ-विकर्ण प्रविष्टियाँ सहप्रसरण हैं:


 * $$\operatorname{Cov}(X_i,X_j)=-np_i p_j\,$$

i, j के लिए भिन्न है।

सभी सहप्रसरण ऋणात्मक हैं क्योंकि निश्चित n के लिए, बहुपद सदिश के घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।

जब इन अभिव्यक्तियों को i, j तत्व के साथ आव्यूह में संयोजित किया जाता है, $$\operatorname{cov} (X_i,X_j),$$ परिणाम ak × k रैंक k-1 का धनात्मक-अर्धनिश्चित सहप्रसरण आव्यूह है। विशेष विषय में जहां k = n एवं जहां pi सभी समान हैं, सहप्रसरण आव्यूह केन्द्रित आव्यूह है।

संगत सहसंबंध आव्यूह की प्रविष्टियाँ


 * $$\rho(X_i,X_i) = 1,$$
 * $$\rho(X_i,X_j) = \frac{\operatorname{Cov}(X_i,X_j)}{\sqrt{\operatorname{Var}(X_i)\operatorname{Var}(X_j)}} = \frac{-p_i p_j}{\sqrt{p_i(1-p_i) p_j(1-p_j)}} = -\sqrt{\frac{p_i  p_j}{(1-p_i)(1-p_j)}}$$ हैं।

ध्यान दें कि प्रतिरूप आकार इस अभिव्यक्ति से बाहर हो जाता है।

सबस्क्रिप्ट के उचित i मान के लिए, प्रत्येक k घटक में पैरामीटर n एवं pi के साथ भिन्न से द्विपद वितरण होता है।

बहुपद वितरण का समर्थन (गणित) समुच्चय


 * $$\{(n_1,\dots,n_k)\in \mathbb{N}^k \mid n_1+\cdots+n_k=n\}\,$$ है।

इसके तत्वों की संख्या


 * $${n+k-1 \choose k-1}$$ है।

आव्यूह संकेतन
आव्यूह संकेतन में,
 * $$\operatorname{E}(\mathbf{X}) = n \mathbf{p},\,$$

एवं
 * $$\operatorname{Var}(\mathbf{X}) = n \lbrace \operatorname{diag}(\mathbf{p}) - \mathbf{p} \mathbf{p}^{\rm T} \rbrace ,\,$$

$p^{T}$ के साथ समान स्तंभ सदिश $p$ का पंक्ति सदिश स्थानान्तरण है।

सामान्यीकृत पास्कल त्रिकोण के स्लाइस के रूप में
जैसे कोई द्विपद वितरण की व्याख्या पास्कल के त्रिकोण के (सामान्यीकृत) एक-आयामी (1D) स्लाइस के रूप में कर सकता है, वैसे ही कोई बहुपद वितरण की व्याख्या पास्कल के पिरामिड के 2D (त्रिकोणीय) स्लाइस, या 3D/4D/+ (पिरामिड) के रूप में कर सकता है। इससे वितरण की सीमा (सांख्यिकी) की व्याख्या को ज्ञात कर सकता है, आयाम में विच्छेदित समबाहु पिरामिड है, अर्थात ग्रिड के साथ संकेतन है।

बहुपद गुणांक के रूप में
इसी प्रकार, जैसे कोई द्विपद वितरण की व्याख्या $$(p + q)^n$$के बहुपद गुणांक के रूप में कर सकता है, जब विस्तारित किया जाता है, तो कोई बहुपद वितरण की व्याख्या $$(p_1 + p_2 + p_3 + \cdots + p_k)^n$$ के गुणांक के रूप में कर सकता है विस्तारित होने पर, तो यह ध्यान में रखते हुए कि केवल गुणांकों का योग 1 होना चाहिए।

संबंधित वितरण
प्राकृतिक भाषा प्रसंस्करण जैसे कुछ क्षेत्रों में, श्रेणीबद्ध एवं बहुपद वितरण पर्यायवाची हैं एवं जब श्रेणीबद्ध वितरण वास्तव में होता है तो बहुपद वितरण का विचार करना सामान्य है। यह इस तथ्य से उपजा है कि किसी श्रेणीबद्ध वितरण के परिणाम को पूर्णांक के अतिरिक्त 1-ऑफ-k सदिश (सदिश जिसमें तत्व 1 एवं अन्य सभी तत्वों में 0 होता है) के रूप में व्यक्त करना सुविधाजनक होता है। श्रेणी $$1 \dots K$$; इस रूप में, श्रेणीबद्ध वितरण एकल परीक्षण पर बहुपद वितरण के समान है।


 * जब k = 2, बहुपद वितरण द्विपद वितरण होता है।
 * श्रेणीबद्ध वितरण, प्रत्येक परीक्षण का वितरण; k = 2 के लिए, यह बर्नौली वितरण है।
 * डिरिचलेट वितरण बायेसियन सांख्यिकी में बहुपद से पूर्व का संयुग्म है।
 * डिरिचलेट-बहुपद वितरण
 * बीटा-द्विपद वितरण
 * ऋणात्मक बहुपद वितरण
 * हार्डी-वेनबर्ग सिद्धांत, यह संभावनाओं के साथ त्रिपद वितरण $$(\theta^2, 2 \theta (1-\theta), (1-\theta)^2) $$है।

बहुपद वितरण के लिए समतुल्यता परीक्षण
तुल्यता परीक्षण का लक्ष्य सैद्धांतिक बहुपद वितरण एवं प्रेक्षित गणना आवृत्तियों के मध्य निराकरण स्थापित करना है। सैद्धांतिक वितरण पूर्ण प्रकार से निर्दिष्ट बहुपद वितरण या बहुपद वितरण का पैरामीट्रिक सदस्य हो सकता है।

$$q$$ सैद्धांतिक बहुपद वितरण को निरूपित करें एवं $$p$$ अंतर्निहित वितरण बनें। वितरण  $$p$$ एवं $$q$$ यदि समतुल्य माना जाता है तो $$d(p,q)<\varepsilon$$ दूरी के लिए $$d$$ एवं सहिष्णुता पैरामीटर $$\varepsilon>0$$ है। तुल्यता परीक्षण समस्या $$H_0=\{d(p,q)\geq\varepsilon\}$$ विपरीत  $$H_1=\{d(p,q)<\varepsilon\}$$ है, वास्तविक अंतर्निहित वितरण $$p$$ अज्ञात है। इसके अतिरिक्त, गिनती की आवृत्तियाँ को  $$p_n$$मनाया जाता है, जहां $$n$$  प्रतिरूप आकार है, तुल्यता परीक्षण  $$p_n$$का उपयोग $$H_0$$ को अस्वीकार करने के लिए होता है। यदि $$H_0$$ तब मध्य की समानता को अस्वीकार किया जा सकता है, $$p$$ एवं $$q$$ किसी दिए गए महत्व स्तर पर प्रदर्शित किया गया है। यूक्लिडियन दूरी के लिए समतुल्यता परीक्षण वेलेक (2010) की पाठ्य पुस्तक में पाया जा सकता है। कुल भिन्नता दूरी के लिए तुल्यता परीक्षण ओस्ट्रोव्स्की (2017) में विकसित किया गया है। विशिष्ट संचयी दूरी के लिए त्रुटिहीन तुल्यता परीक्षण फ्रे (2009) में प्रस्तावित है। वास्तविक अंतर्निहित वितरण के मध्य की दूरी $$p$$ एवं बहुपद वितरण का सदस्य $$\mathcal{M}$$ द्वारा $$d(p, \mathcal{M})=\min_{h\in\mathcal{M}}d(p,h)  $$ परिभाषित किया गया है फिर तुल्यता परीक्षण $$H_0=\{d(p,\mathcal{M})\geq \varepsilon\}$$ एवं $$H_1=\{d(p,\mathcal{M})< \varepsilon\}$$ समस्या दी गई है। दूरी $$d(p,\mathcal{M})$$ की सामान्यतः संख्यात्मक अनुकूलन का उपयोग करके गणना की जाती है। इस विषय के परीक्षण वर्तमान में ओस्ट्रोव्स्की (2018) में विकसित किए गए हैं।

यादृच्छिक भिन्न पीढ़ी
सबसे पूर्व, पैरामीटर $$p_1, \ldots, p_k$$ को पुन: व्यवस्थित करें, इस प्रकार कि उन्हें अवरोही क्रम में क्रमबद्ध किया जाता है (यह केवल गणना में तीव्रता लाने के लिए है)। अब, प्रत्येक परीक्षण के लिए, समान (0, 1) वितरण से सहायक चर X बनाएं। परिणामी परिणाम घटक


 * $$j = \min \left\{ j' \in \{1,\dots,k\} : \left(\sum_{i=1}^{j'} p_i\right) - X \geq 0 \right\}$$ है,

{xj = 1, xk = 0 k ≠ j } के लिए बहुपद वितरण से अवलोकन $$p_1, \ldots, p_k$$, एवं n = 1 है। इस प्रयोग के स्वतंत्र दोहराव का योग बहुपद वितरण से अवलोकन है जिसमें n ऐसे दोहराव की संख्या के समान है।