बीटा-द्विपद वितरण

संभाव्यता सिद्धांत और आंकड़ों में, बीटा-द्विपद वितरण गैर-नकारात्मक पूर्णांकों के परिमित समर्थन (गणित) पर असतत संभाव्यता वितरण का एक परिवार है, जब बर्नौली परीक्षणों की निश्चित या ज्ञात संख्या में से प्रत्येक में सफलता की संभावना या तो अज्ञात होती है। या यादृच्छिक। बीटा-द्विपद वितरण द्विपद वितरण है जिसमें प्रत्येक 'एन परीक्षण में सफलता की संभावना तय नहीं है लेकिन बीटा वितरण से यादृच्छिक रूप से तैयार की जाती है। द्विपद प्रकार वितरित आंकड़े में अतिफैलाव को पकड़ने के लिए बायेसियन सांख्यिकी, अनुभवजन्य बेयस विधियों और चिरसम्मत आंकड़ों में इसका उपयोग प्रायः किया जाता है।

बीटा-द्विपद डिरिचलेट-बहुपद वितरण का एक-आयामी संस्करण है क्योंकि द्विपद और बीटा वितरण क्रमशः बहुराष्ट्रीय वितरण और डिरिचलेट वितरण के एकतरफा संस्करण हैं। विशेष घटना जहां α और β पूर्णांक हैं, उन्हें नकारात्मक हाइपरज्यामितीय वितरण के रूप में भी जाना जाता है।

यौगिक वितरण के रूप में
द्विपद वितरण से पहले बीटा वितरण एक संयुग्म है। यह तथ्य एक विश्लेषणात्मक रूप से ट्रैक्टेबल कंपाउंड डिस्ट्रीब्यूशन की ओर जाता है जहां कोई सोच सकता है $$ p $$ बीटा वितरण से यादृच्छिक रूप से निकाले जाने के रूप में द्विपद वितरण में पैरामीटर।

मान लीजिए कि हमें हेड्स की संख्या का अनुमान लगाने में दिलचस्पी है, $$x$$ में $$n$$ भविष्य के परीक्षण। इसके द्वारा दिया गया है



\begin{align} f(x\mid n,\alpha,\beta) & = \int_0^1 \mathrm{Bin}(x|n,p)\mathrm{Beta}(p\mid \alpha, \beta) \, dp \\[6pt] & = {n\choose x}\frac{1}{\mathrm{B}(\alpha,\beta)} \int_0^1 p^{x+\alpha-1}(1-p)^{n-x+\beta-1} \, dp \\[6pt] & = {n\choose x}\frac{\mathrm{B}(x+\alpha,n-x+\beta)} {\mathrm{B}(\alpha,\beta)}. \end{align} $$ बीटा फलन के गुणों का उपयोग करके इसे वैकल्पिक रूप से लिखा जा सकता है

f(x\mid n,\alpha,\beta) = \frac{\Gamma(n+1)}{\Gamma(x+1)\Gamma(n-x+1)} \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha+\beta)} \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}.

$$

कलश मॉडल के रूप में बीटा-द्विपद
बीटा-द्विपद वितरण को α और β के सकारात्मक पूर्णांक मानों के लिए कलश मॉडल के माध्यम से भी प्रेरित किया जा सकता है, जिसे पोल्या कलश मॉडल के रूप में जाना जाता है। विशेष रूप से, α लाल गेंदों और β काली गेंदों वाले कलश की कल्पना करें, जहां यादृच्छिक ड्रॉ बनाए जाते हैं। यदि एक लाल गेंद देखी जाती है, तो दो लाल गेंदों को कलश में वापस कर दिया जाता है। इसी तरह, यदि एक काली गेंद निकाली जाती है, तो दो काली गेंदें कलश में वापस आ जाती हैं। यदि इसे n बार दोहराया जाता है, तो x लाल गेंदों को देखने की संभावना पैरामीटर n, α और β के साथ बीटा-द्विपद वितरण का अनुसरण करती है।

यदि यादृच्छिक ड्रॉ सरल प्रतिस्थापन के साथ होते हैं (प्रेक्षित गेंद के ऊपर और ऊपर कोई गेंद कलश में नहीं जोड़ी जाती है), तो वितरण एक द्विपद वितरण का अनुसरण करता है और यदि यादृच्छिक ड्रॉ प्रतिस्थापन के बिना किए जाते हैं, तो वितरण एक हाइपरज्यामितीय वितरण का अनुसरण करता है।

क्षण और गुण
पहले तीन कच्चे क्षण (गणित) हैं

\begin{align} \mu_1 & =\frac{n\alpha}{\alpha+\beta} \\[8pt] \mu_2 & =\frac{n\alpha[n(1+\alpha)+\beta]}{(\alpha+\beta)(1+\alpha+\beta)}\\[8pt] \mu_3 & =\frac{n\alpha[n^{2}(1+\alpha)(2+\alpha)+3n(1+\alpha)\beta+\beta(\beta-\alpha)]}{(\alpha+\beta)(1+\alpha+\beta)(2+\alpha+\beta)} \end{align} $$ और कर्टोसिस है

\beta_2 = \frac{(\alpha + \beta)^2 (1+\alpha+\beta)}{n \alpha \beta( \alpha + \beta + 2)(\alpha + \beta + 3)(\alpha + \beta + n) } \left[ (\alpha + \beta)(\alpha + \beta - 1 + 6n) + 3 \alpha\beta(n - 2) + 6n^2 -\frac{3\alpha\beta n(6-n)}{\alpha + \beta} - \frac{18\alpha\beta n^{2}}{(\alpha+\beta)^2} \right]. $$ दे $$p=\frac{\alpha}{\alpha+\beta} \!$$ हम सुझाव देते हैं कि माध्य को इस प्रकार लिखा जा सकता है

\mu = \frac{n\alpha}{\alpha+\beta}=np \!$$ और भिन्नता के रूप में



\sigma^2 = \frac{n\alpha\beta(\alpha+\beta+n)}{(\alpha+\beta)^2(\alpha+\beta+1)} = np(1-p) \frac{\alpha + \beta + n}{\alpha + \beta + 1} = np(1-p)[1+(n-1)\rho] \!$$ जहाँ $$\rho= \tfrac{1}{\alpha+\beta+1}\!$$. पैरामीटर $$\rho \; \!$$ इंट्रा क्लास या इंट्रा क्लस्टर सहसंबंध के रूप में जाना जाता है। यह सकारात्मक सहसंबंध है जो अति फैलाव को जन्म देता है। ध्यान दें कि कब $$n=1$$, बीटा और द्विपद भिन्नता के बीच अंतर करने के लिए कोई जानकारी उपलब्ध नहीं है, और दो मॉडलों में समान भिन्नताएं हैं।

फैक्टोरियल मोमेंट्स
$r$-बीटा-द्विपद यादृच्छिक चर का वाँ तथ्यात्मक क्षण $X$ है


 * $$\operatorname{E}\bigl[(X)_r\bigr] = \frac{n!}{(n-r)!}\frac{B(\alpha+r,\beta)}{B(\alpha,\beta)} =

(n)_r \frac{B(\alpha+r,\beta)}{B(\alpha,\beta)} $$.

आघूर्ण की विधि
क्षणों की विधि (सांख्यिकी) अनुमान बीटा-द्विपद के पहले और दूसरे क्षणों को ध्यान में रखते हुए और उन्हें नमूना क्षणों के बराबर सेट करके प्राप्त किया जा सकता है $$m_1$$ और $$m_2$$. हम देखतें है



\begin{align} \widehat{\alpha} & =\frac{nm_1-m_2}{n(\frac{m_2}{m_1}-m_1-1)+m_1} \\[5pt] \widehat{\beta} & =\frac{(n-m_1)(n-\frac{m_2}{m_1})}{n(\frac{m_2}{m_1}-m_1 - 1)+m_1}. \end{align} $$ ये अनुमान गैर-संवेदनात्मक रूप से नकारात्मक हो सकते हैं जो इस बात का प्रमाण है कि द्विपद वितरण के सापेक्ष आंकड़े या तो अविच्छिन्न या अल्पप्रकीर्णित है। इस मामले में, द्विपद वितरण और अतिज्यामितीय वितरण क्रमशः वैकल्पिक उम्मीदवार हैं।

अधिकतम संभावना अनुमान
जबकि क्लोज-फॉर्म अधिकतम संभावना अव्यावहारिक है, यह देखते हुए कि पीडीएफ में सामान्य कार्य (गामा फ़ंक्शन और/या बीटा फ़ंक्शन) होते हैं, उन्हें प्रत्यक्ष संख्यात्मक अनुकूलन के माध्यम से आसानी से पाया जा सकता है। अनुभवजन्य आंकड़े से अधिकतम संभावना अनुमान बहुराष्ट्रीय पोल्या वितरण को फिट करने के लिए सामान्य तरीकों का उपयोग करके गणना की जा सकती है, जिसके लिए विधियाँ (मिन्का 2003) में वर्णित हैं।

आर (प्रोग्रामिंग लैंग्वेज) पैकेज वीजीएएम फ़ंक्शन वीजीएलएम के माध्यम से, अधिकतम संभावना के माध्यम से, बीटा-द्विपद वितरण के अनुसार वितरित प्रतिक्रियाओं के साथ सामान्यीकृत रैखिक मॉडल प्रकार के मॉडल की फिटिंग की सुविधा प्रदान करता है। इस बात की कोई आवश्यकता नहीं है कि संपूर्ण प्रेक्षणों के दौरान n स्थिर रहता है।

उदाहरण
निम्नलिखित आंकड़े 19वीं सदी के सैक्सोनी में अस्पताल के रिकॉर्ड से लिए गए 6115 परिवारों में परिवार के आकार 13 के पहले 12 बच्चों में पुरुष बच्चों की संख्या देता है (लिंडसे से सोकल और रोल्फ़, पृ. 59)। 13वें बच्चे को अनदेखा किया जाता है ताकि वांछित लिंग प्राप्त होने पर परिवारों के गैर-यादृच्छिक रूप से रुकने के प्रभाव को कम किया जा सके। पहले दो नमूना क्षण हैं

\begin{align} m_1 & = 6.23\\ m_2 & = 42.31 \\ n & = 12 \end{align} $$ और इसलिए क्षणों का अनुमान लगाने की विधि है



\begin{align} \widehat{\alpha} & = 34.1350\\ \widehat{\beta} & = 31.6085. \end{align} $$ अधिकतम संभावना अनुमान संख्यात्मक रूप से पाया जा सकता है

\begin{align} \widehat\alpha_\mathrm{mle} & = 34.09558\\ \widehat\beta_\mathrm{mle} & = 31.5715 \end{align} $$ और अधिकतम लॉग संभावना है



\log \mathcal{L} = -12492.9 $$ जिससे हम एआईसी सूचना कसौटी पाते हैं



\mathit{AIC}=24989.74. $$ प्रतिस्पर्धी द्विपद मॉडल के लिए एआईसी = 25070.34 है और इस प्रकार हम देखते हैं कि बीटा-द्विपद मॉडल आंकड़े के लिए बेहतर फिट प्रदान करता है यानी अति फैलाव के लिए सबूत है। ट्राइवर्स-विलार्ड परिकल्पना स्तनपायी संतानों के बीच लिंग-प्रवणता में विविधता के लिए एक सैद्धांतिक औचित्य को दर्शाती है।

बेहतर फिट विशेष रूप से पूंछों के बीच स्पष्ट है

बायेसियन सांख्यिकी में बीटा-द्विपद
बर्नौली सफलता की संभावना के बायेसियन अनुमान में बीटा-द्विपद वितरण एक प्रमुख भूमिका निभाता है $$p$$ जिसका अनुमान हम आंकड़ों के आधार पर लगाना चाहते हैं। होने देना $$\mathbf{X}=\{X_1, X_2, \cdots X_{n_1}\} $$ स्वतंत्र और समान रूप से वितरित बर्नौली यादृच्छिक चर का एक नमूना (आँकड़े) बनें $$X_i \sim \text{Bernoulli}(p)$$. मान लीजिए, हमारा ज्ञान $$p$$ - बायेसियन फैशन में - अनिश्चित है और पूर्व वितरण द्वारा तैयार किया गया है $$p \sim \text{Beta}(\alpha,\beta)$$. अगर $$Y_1=\sum_{i=1}^{n_1} X_i$$ फिर संयुक्त वितरण के माध्यम से

Y_1 \sim \text{BetaBin}(n_1, \alpha,\beta) $$.

अवलोकन करने के बाद $$Y_1$$ हम ध्यान दें कि के लिए पश्च वितरण $$p$$

\begin{align} f(p|\mathbf{X},\alpha,\beta) & \propto \left(\prod_{i=1}^{n_1} p^{x_i}(1-p)^{1-x_i} \right)p^{\alpha-1}(1-p)^{\beta-1}\\ & = Cp^{\sum x_i +\alpha-1}(1-p)^{n_1 -\sum x_i +\beta-1} \\ & = Cp^{y_1 +\alpha-1}(1-p)^{n_1-y_1 +\beta-1} \end{align} $$ जहाँ $$C$$ एक सामान्यीकरण स्थिरांक है। हम पश्च वितरण को एक के रूप में पहचानते हैं $$\mathrm{Beta}(y_1+\alpha,n_1-y_1+\beta)$$.

इस प्रकार, फिर से कंपाउंडिंग के माध्यम से, हम पाते हैं कि आकार के भविष्य के नमूने के योग का पश्चगामी वितरण $$n_2$$ का $$\mathrm{Bernoulli}(p)$$ यादृच्छिक चर है



Y_2 \sim \mathrm{BetaBin}(n_2, y_1+\alpha, n_1-y_1+\beta) $$.

बीटा द्विपद-वितरित यादृच्छिक चर उत्पन्न करना
एक बीटा-द्विपद यादृच्छिक चर बनाने के लिए $$X \sim \mathrm{BetaBin}(n, \alpha,\beta)$$ बस एक ड्रा करें $$p \sim \mathrm{Beta}(\alpha,\beta) $$ और फिर ड्रा करें $$X \sim \mathrm{B}(n,p)$$.

संबंधित वितरण

 * $$\mathrm{BetaBin}(1, \alpha, \beta) \sim \mathrm{Bernoulli}(p)\,$$ जहाँ $$p=\frac{\alpha}{\alpha+\beta}\,$$.
 * $$\mathrm{BetaBin}(n, 1, 1) \sim U(0,n)\,$$ जहाँ $$U(a,b)\,$$ समान वितरण (असतत) है।
 * $$ \lim_{s \rightarrow \infty} \mathrm{BetaBin}(n, ps, (1-p)s) \sim \mathrm{B}(n,p)\,$$ जहाँ $$p=\frac{\alpha}{\alpha+\beta}\,$$ और $$s=\alpha+\beta\,$$ और $$\mathrm{B}(n,p)\,$$ द्विपद वितरण है।
 * $$\lim_{n \rightarrow \infty} \mathrm{BetaBin}(n, \alpha, n\frac{(1-p)}{p}) \sim \mathrm{NB}(\alpha,p)\,$$ जहाँ $$\mathrm{NB}(\alpha,p)\,$$ नकारात्मक द्विपद वितरण है।

यह भी देखें

 * डिरिचलेट-बहुराष्ट्रीय वितरण

संदर्भ

 * मिंका, थॉमस पी. (2003). डिरिचलेट वितरण का अनुमान लगाना। माइक्रोसॉफ्ट तकनीकी रिपोर्ट।

बाहरी संबंध
 * बायोमेट्रिक पहचान उपकरण के प्रदर्शन का आकलन करने के लिए बीटा-द्विपद वितरण का उपयोग करना
 * फास्टफिट में डेटा के लिए बीटा-द्विपद वितरण (द्वि-आयामी पोल्या वितरण के रूप में) को फ़िट करने के लिए मैटलैब कोड होता है।.
 * इंटरएक्टिव ग्राफिक: यूनीवेरिएट डिस्ट्रीब्यूशन रिलेशनशिप
 * वीजीएएम आर पैकेज में बीटा-द्विपद कार्य
 * सांडिया नेशनल लैब्स कॉग्निटिव फाउंड्री जावा लाइब्रेरी में बीटा-द्विपद वितरण