डिरिचलेट-बहुपद वितरण

संभाव्यता सिद्धांत और आंकड़ों में, डिरिचलेट-मल्टीनोमियल वितरण गैर-नकारात्मक पूर्णांकों के एक सीमित समर्थन पर असतत बहुभिन्नरूपी संभाव्यता वितरण का एक परिवार है। इसे डिरिचलेट यौगिक संभाव्यता वितरण (DCM) या मल्टीवेरिएट प्रायिकता वितरण (जॉर्ज पोलिया के बाद) भी कहा जाता है। यह एक मिश्रित संभाव्यता वितरण है, जहां पैरामीटर वेक्टर के साथ डिरिचलेट वितरण से एक संभाव्यता वेक्टर पी निकाला जाता है $$\boldsymbol{\alpha}$$, और संभाव्यता वेक्टर पी और परीक्षणों की संख्या एन के साथ एक बहुपद वितरण से लिया गया एक अवलोकन। डिरिचलेट पैरामीटर वेक्टर स्थिति के बारे में पूर्व धारणा को पकड़ता है और इसे छद्मगणना के रूप में देखा जा सकता है: वास्तविक डेटा एकत्र होने से पहले होने वाले प्रत्येक परिणाम का अवलोकन। कंपाउंडिंग पोल्या कलश मॉडल|पोल्या कलश योजना से मेल खाती है। यह बायेसियन सांख्यिकी, यंत्र अधिगम, अनुभवजन्य बेयस विधियों और शास्त्रीय सांख्यिकी में एक अतिविस्तारित बहुपद वितरण के रूप में अक्सर सामने आता है। जब n = 1 होता है तो यह एक विशेष मामले के रूप में श्रेणीबद्ध वितरण को कम कर देता है। यह बड़े α के लिए मनमाने ढंग से बहुपद वितरण का भी अनुमान लगाता है। डिरिचलेट-मल्टीनोमियल बीटा-द्विपद वितरण का एक बहुभिन्नरूपी विस्तार है, क्योंकि बहुपद और डिरिचलेट वितरण क्रमशः द्विपद वितरण और बीटा वितरण के बहुभिन्नरूपी संस्करण हैं।

डिरिचलेट-मल्टीनोमियल एक यौगिक वितरण के रूप में
डिरिचलेट वितरण बहुपद वितरण का संयुग्मित वितरण है। यह तथ्य एक विश्लेषणात्मक रूप से सुव्यवस्थित यौगिक वितरण की ओर ले जाता है। श्रेणी गणना के यादृच्छिक वेक्टर के लिए $$\mathbf{x}=(x_1,\dots,x_K)$$, एक बहुपद वितरण के अनुसार वितरित, सीमांत वितरण पी के लिए वितरण पर एकीकृत करके प्राप्त किया जाता है जिसे डिरिचलेट वितरण के बाद एक यादृच्छिक वेक्टर के रूप में माना जा सकता है:
 * $$\Pr(\mathbf{x}\mid n,\boldsymbol{\alpha})=\int_{\mathbf{p}}\mathrm{Mult}(\mathbf{x}\mid n,\mathbf{p})\mathrm{Dir}(\mathbf{p}\mid\boldsymbol{\alpha})\textrm{d}\mathbf{p}$$

जिसके परिणामस्वरूप निम्नलिखित स्पष्ट सूत्र प्राप्त होता है:


 * $$\Pr(\mathbf{x}\mid n, \boldsymbol{\alpha})=\frac{\Gamma\left(\alpha_0\right)\Gamma\left(n+1\right)}

{\Gamma\left(n+\alpha_0\right)}\prod_{k=1}^K\frac{\Gamma(x_{k}+\alpha_{k})}{\Gamma(\alpha_{k})\Gamma\left(x_{k}+1\right)}$$ कहाँ $$\alpha_0$$ योग के रूप में परिभाषित किया गया है $$\alpha_0 = \sum \alpha_k$$. इसी यौगिक वितरण का दूसरा रूप, जिसे बीटा फ़ंक्शन, बी के संदर्भ में अधिक संक्षिप्त रूप से लिखा गया है, इस प्रकार है:

$$\Pr(\mathbf{x}\mid n,\boldsymbol{\alpha})=\frac{n B\left(\alpha_0,n\right)} {\prod_{k:x_k>0} x_k B\left(\alpha_k,x_k \right)}. $$ बाद वाला फॉर्म इस तथ्य पर जोर देता है कि गणना में शून्य गिनती श्रेणियों को नजरअंदाज किया जा सकता है - एक उपयोगी तथ्य जब श्रेणियों की संख्या बहुत बड़ी है और विरल मैट्रिक्स (उदाहरण के लिए दस्तावेजों में शब्द गिनती)।

ध्यान दें कि पीडीएफ बीटा-द्विपद वितरण है जब $$K=2$$. यह भी दिखाया जा सकता है कि यह बहुपद वितरण के रूप में दृष्टिकोण करता है $$\alpha_{0}$$ अनंत तक पहुंचता है। पैरामीटर $$\alpha_{0}$$ बहुपद के सापेक्ष अति फैलाव या विस्फोट की डिग्री को नियंत्रित करता है। निरूपित करने के लिए वैकल्पिक विकल्प $$\alpha_{0}$$ साहित्य में पाए जाने वाले एस और ए हैं।

डिरिचलेट-मल्टीनोमियल एक कलश मॉडल के रूप में
डिरिचलेट-मल्टीनोमियल वितरण को वेक्टर α के सकारात्मक पूर्णांक मानों के लिए एक कलश मॉडल के माध्यम से भी प्रेरित किया जा सकता है, जिसे पॉली कलश मॉडल के रूप में जाना जाता है। विशेष रूप से, एक कलश की कल्पना करें जिसमें K रंग क्रमांकन वाली गेंदें हों $$\alpha_{i}$$ Ith रंग के लिए, जहां यादृच्छिक ड्रॉ बनाए जाते हैं। जब एक गेंद को यादृच्छिक रूप से निकाला जाता है और उसका अवलोकन किया जाता है, तो एक ही रंग की दो गेंदें कलश में वापस आ जाती हैं। यदि यह n बार किया जाता है, तो यादृच्छिक वेक्टर के अवलोकन की संभावना $$x$$ रंग गणना पैरामीटर n और α के साथ एक डिरिचलेट-मल्टीनोमियल है। यदि यादृच्छिक ड्रॉ सरल प्रतिस्थापन के साथ होते हैं (अवलोकित गेंद के ऊपर और ऊपर कोई भी गेंद कलश में नहीं जोड़ी जाती है), तो वितरण एक बहुपद वितरण का अनुसरण करता है और यदि यादृच्छिक ड्रॉ प्रतिस्थापन के बिना किया जाता है, तो वितरण एक बहुभिन्नरूपी हाइपरज्यामितीय वितरण का अनुसरण करता है।

क्षण
एक बार फिर चलो $$\alpha_0 = \sum \alpha_k$$ और जाने $$p_i =\frac{\alpha_i}{\sum \alpha_k}=\frac{\alpha_i}{\alpha_0}$$, तो n परीक्षणों पर देखे गए परिणाम की अपेक्षित मान संख्या है


 * $$\operatorname{E}(X_i) = n p_i=n\frac{\alpha_i}{\alpha_0}.\,$$

सहप्रसरण मैट्रिक्स इस प्रकार है। प्रत्येक विकर्ण प्रविष्टि बीटा-द्विपदीय रूप से वितरित यादृच्छिक चर का विचरण है, और इसलिए है


 * $$\operatorname{var}(X_i)=np_i(1-p_i)\left(\frac{n+\sum \alpha_k}{1+\sum \alpha_k}\right)=n\frac{\alpha_i}{\alpha_0}\left(1-\frac{\alpha_i}{\alpha_0}\right)\left(\frac{n+\alpha_0}{1+\alpha_0}\right).\,$$

ऑफ-विकर्ण प्रविष्टियाँ सहप्रसरण हैं:


 * $$\operatorname{cov}(X_i,X_j)=-np_i p_j\left(\frac{n+\sum \alpha_k}{1+\sum \alpha_k}\right)=-n\frac{\alpha_i\alpha_j}{\alpha_0^2}\left(\frac{n+\alpha_0}{1+\alpha_0}\right)\,$$

i, j के लिए अलग।

सभी सहप्रसरण नकारात्मक हैं क्योंकि निश्चित n के लिए, डिरिचलेट-मल्टीनोमियल वेक्टर के एक घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।

यह एक K × K सकारात्मक-निश्चित मैट्रिक्स#नकारात्मक-निश्चित, अर्धनिश्चित और अनिश्चित आव्यूह|रैंक (रैखिक बीजगणित) K - 1 का सकारात्मक-अर्धनिश्चित मैट्रिक्स है।

संगत सहसंबंध मैट्रिक्स#सहसंबंध मैट्रिक्स की प्रविष्टियाँ हैं


 * $$\rho(X_i,X_i) = 1.$$
 * $$\rho(X_i,X_j) = \frac{\operatorname{cov}(X_i,X_j)}{\sqrt{\operatorname{var}(X_i)\operatorname{var}(X_j)}} = \frac{-p_i p_j(\frac{n+\alpha_0}{1+\alpha_0})}{\sqrt{p_i(1-p_i)(\frac{n+\alpha_0}{1+\alpha_0}) p_j(1-p_j)(\frac{n+\alpha_0}{1+\alpha_0})}} =  -\sqrt{\frac{\alpha_i  \alpha_j}{(\alpha_0-\alpha_i)(\alpha_0-\alpha_j)}}.$$

नमूना आकार इस अभिव्यक्ति से बाहर हो जाता है।

प्रत्येक k घटक में अलग-अलग बीटा-द्विपद वितरण होता है।

डिरिचलेट-मल्टीनोमियल वितरण का समर्थन (गणित) सेट है


 * $$\{(n_1,\dots,n_k)\in \mathbb{N}^{k}| n_1+\cdots+n_k=n\}.\,$$

इसके तत्वों की संख्या है


 * $${n+k-1 \choose k-1}.$$

मैट्रिक्स संकेतन
मैट्रिक्स संकेतन में,
 * $$\operatorname{E}(\mathbf{X}) = n \mathbf{p},\,$$

और
 * $$\operatorname{var}(\mathbf{X}) = n \lbrace \operatorname{diag}(\mathbf{p}) - \mathbf{p}\mathbf{p}^{\rm T} \rbrace \left( \frac{n+\alpha_0}{1+ \alpha_0} \right) ,\,$$

साथ $p^{T}$ = स्तंभ वेक्टर का पंक्ति वेक्टर स्थानान्तरण $p$. दे


 * $$\alpha_0 = \frac{1-\rho^2}{\rho^2}\,$$, हम वैकल्पिक रूप से लिख सकते हैं


 * $$\operatorname{var}(\mathbf{X}) = n \lbrace \operatorname{diag}(\mathbf{p}) - \mathbf{p}\mathbf{p}^{\rm T} \rbrace (1+\rho^2(n-1)) ,\,$$

पैरामीटर $$ \rho \!$$ इसे इंट्रा क्लास या इंट्रा क्लस्टर सहसंबंध के रूप में जाना जाता है। यह सकारात्मक सहसंबंध है जो बहुपद वितरण के सापेक्ष अतिफैलाव को जन्म देता है।

एकत्रीकरण
अगर


 * $$X = (X_1, \ldots, X_K)\sim\operatorname{DM}(\alpha_1,\cdots,\alpha_K)$$

फिर, यदि सबस्क्रिप्ट i और j वाले यादृच्छिक चर को वेक्टर से हटा दिया जाता है और उनके योग से प्रतिस्थापित कर दिया जाता है,


 * $$X' = (X_1, \ldots, X_i + X_j, \ldots, X_K)\sim\operatorname{DM} \left(\alpha_1,\cdots,\alpha_i+\alpha_j,\cdots,\alpha_K \right).$$

इस एकत्रीकरण संपत्ति का उपयोग सीमांत वितरण प्राप्त करने के लिए किया जा सकता है $$X_i$$.

संभावना फ़ंक्शन
वैचारिक रूप से, हम K श्रेणियों के साथ एक श्रेणीबद्ध वितरण से N स्वतंत्र ड्रॉ बना रहे हैं। आइए हम स्वतंत्र ड्रा को यादृच्छिक श्रेणीगत चर के रूप में प्रस्तुत करें $$z_n$$ के लिए $$n = 1 \dots N$$. आइए हम किसी विशेष श्रेणी को कितनी बार निरूपित करें $$k$$ (के लिए) देखा गया है $$k = 1 \dots K$$) सभी श्रेणीगत चरों के बीच $$n_k$$, और $$\sum_k n_k = N$$. फिर, इस समस्या पर हमारे दो अलग-अलग विचार हैं: पहला मामला यादृच्छिक चर का एक सेट है जो प्रत्येक व्यक्तिगत परिणाम को निर्दिष्ट करता है, जबकि बाद वाला एक चर है जो प्रत्येक के श्रेणियों के परिणामों की संख्या निर्दिष्ट करता है। अंतर महत्वपूर्ण है, क्योंकि दोनों मामलों में संगत रूप से अलग-अलग संभाव्यता वितरण हैं।
 * 1) का एक सेट $$N$$ श्रेणीगत चर $$z_1,\dots,z_N$$.
 * 2) एक एकल वेक्टर-मूल्यवान चर $$\mathbf{x}=(n_1,\dots,n_K)$$, एक बहुपद वितरण के अनुसार वितरित।

श्रेणीबद्ध वितरण का पैरामीटर है $$\mathbf{p} = (p_1,p_2,\dots,p_K),$$ कहाँ $$p_k$$ मूल्य निकालने की संभावना है $$k$$;  $$\mathbf{p}$$ इसी प्रकार बहुपद वितरण का पैरामीटर भी है $$P(\mathbf{x}|\mathbf{p})$$. निर्दिष्ट करने के बजाय $$\mathbf{p}$$ सीधे तौर पर, हम इसे एक संयुग्मित पूर्व वितरण देते हैं, और इसलिए इसे पैरामीटर वेक्टर के साथ डिरिचलेट वितरण से लिया जाता है $$\boldsymbol\alpha=(\alpha_1,\alpha_2,\ldots,\alpha_K)$$.

एकीकृत करके $$\mathbf{p}$$, हम एक मिश्रित वितरण प्राप्त करते हैं। हालाँकि, वितरण का स्वरूप इस पर निर्भर करता है कि हम कौन सा दृष्टिकोण अपनाते हैं।

संयुक्त वितरण
श्रेणीबद्ध चर के लिए $$\mathbb{Z}=z_1,\dots,z_N$$सीमांत वितरण संयुक्त वितरण को एकीकृत करके प्राप्त किया जाता है $$\mathbf{p}$$:


 * $$\Pr(\mathbb{Z}\mid\boldsymbol{\alpha})=\int_{\mathbf{p}}\Pr(\mathbb{Z}\mid \mathbf{p})\Pr(\mathbf{p}\mid\boldsymbol{\alpha})\textrm{d}\mathbf{p}$$

जिसके परिणामस्वरूप निम्नलिखित स्पष्ट सूत्र प्राप्त होता है:


 * $$\Pr(\mathbb{Z}\mid\boldsymbol{\alpha})=\frac{\Gamma\left(A\right)}

{\Gamma\left(N+A\right)}\prod_{k=1}^K\frac{\Gamma(n_{k}+\alpha_{k})}{\Gamma(\alpha_{k})}$$ कहाँ $$\Gamma$$ गामा फ़ंक्शन है, के साथ


 * $$A=\sum_k \alpha_k\text{ and }N=\sum_k n_k\text{, and where }n_k=\text{number of }z_n\text{'s with the value }k.$$

प्रत्येक श्रेणी के भीतर गिनती पर संभावना के बजाय श्रेणीबद्ध चर के अनुक्रम की संभावना के बारे में सूत्र होने के कारण बहुपद गुणांक की अनुपस्थिति पर ध्यान दें।

यद्यपि चर $$z_1,\dots,z_N$$ उपरोक्त सूत्र में स्पष्ट रूप से प्रकट नहीं होते हैं, वे इसके माध्यम से प्रवेश करते हैं $$n_k$$ मूल्य.

सशर्त वितरण
एक अन्य उपयोगी सूत्र, विशेष रूप से गिब्स नमूने के संदर्भ में, पूछता है कि किसी दिए गए चर का सशर्त घनत्व क्या है $$z_n$$ अन्य सभी चर (जिन्हें हम निरूपित करेंगे) पर आधारित है $$\mathbb{Z}^{(-n)}$$). इसका स्वरूप अत्यंत सरल है:


 * $$\Pr(z_n=k\mid\mathbb{Z}^{(-n)},\boldsymbol{\alpha}) \propto n_k^{(-n)} + \alpha_k$$

कहाँ $$n_k^{(-n)}$$ श्रेणी की गिनती की संख्या निर्दिष्ट करता है $$k$$ के अलावा सभी वेरिएबल्स में देखा जाता है $$z_n$$.

यह दिखाना उपयोगी हो सकता है कि इस सूत्र को कैसे प्राप्त किया जाए। सामान्य तौर पर, सशर्त वितरण संबंधित संयुक्त वितरण के समानुपाती होते हैं, इसलिए हम सभी के संयुक्त वितरण के लिए उपरोक्त सूत्र से शुरुआत करते हैं। $$z_1,\dots,z_N$$ मान और फिर विशेष पर निर्भर न होने वाले किसी भी कारक को हटा दें $$z_n$$ प्रश्न में। ऐसा करने के लिए, हम संकेतन का उपयोग करते हैं $$n_k^{(-n)}$$ ऊपर परिभाषित, और



n_j= \begin{cases} n_j^{(-n)}, & \text{if }j\not=k \\ n_j^{(-n)}+1, & \text{if }j=k \end{cases} $$ हम भी इस तथ्य का उपयोग करते हैं
 * $$\Gamma(n+1) = n\Gamma(n)$$

तब:



\begin{align} & \Pr(z_n=k\mid\mathbb{Z}^{(-n)},\boldsymbol{\alpha})\\ \propto\ & \Pr(z_n=k,\mathbb{Z}^{(-n)}\mid\boldsymbol{\alpha}) \\ =\ &\ \frac{\Gamma\left(A\right)}{\Gamma\left(N+A\right)}\prod_{j=1}^K\frac{\Gamma(n_{j}+\alpha_{j})}{\Gamma(\alpha_{j})} \\ \propto\ & \prod_{j=1}^K\Gamma(n_{j}+\alpha_{j}) \\ =\ & \Gamma(n_{k}+\alpha_{k})\prod_{j\not=k}\Gamma(n_{j}+\alpha_{j}) \\ =\ & \Gamma(n_k^{(-n)}+1+\alpha_{k})\prod_{j\not=k}\Gamma(n_j^{(-n)}+\alpha_{j}) \\ =\ & (n_k^{(-n)}+\alpha_{k}) \Gamma(n_k^{(-n)}+\alpha_{k})\prod_{j\not=k}\Gamma(n_j^{(-n)}+\alpha_{j}) \\ =\ & (n_k^{(-n)}+\alpha_{k}) \prod_{j}\Gamma(n_j^{(-n)}+\alpha_{j}) \\ \propto\ & n_k^{(-n)}+\alpha_{k}\\ \end{align} $$ सामान्य तौर पर, सशर्त वितरण के लिए समीकरण प्राप्त करते समय सामान्यीकरण स्थिरांक के बारे में चिंता करना आवश्यक नहीं है। सामान्यीकरण स्थिरांक को वितरण से नमूने के लिए एल्गोरिदम के भाग के रूप में निर्धारित किया जाएगा (श्रेणीबद्ध वितरण#नमूनाकरण देखें)। हालाँकि, जब सशर्त वितरण ऊपर सरल रूप में लिखा जाता है, तो यह पता चलता है कि सामान्यीकरण स्थिरांक एक सरल रूप धारण करता है:


 * $$\sum_k \left( n_k^{(-n)} + \alpha_k \right) = A + \sum_k n_k^{(-n)} = A + N - 1$$

इस तरह


 * $$\Pr(z_n=k\mid\mathbb{Z}^{(-n)},\boldsymbol{\alpha}) = \frac{n_k^{(-n)} + \alpha_k}{A + N - 1}$$

यह फ़ॉर्मूला चीनी रेस्तरां प्रक्रिया से निकटता से संबंधित है, जो सीमा को इस रूप में लेने से उत्पन्न होता है $$K \to \infty$$.

बायेसियन नेटवर्क में
एक बड़े बायेसियन नेटवर्क में, जिसमें श्रेणीबद्ध (या तथाकथित बहुपद) वितरण एक बड़े नेटवर्क के हिस्से के रूप में डिरिचलेट वितरण पुजारियों के साथ होते हैं, सभी डिरिचलेट पूर्वज को ढहाया जा सकता है, बशर्ते कि उन पर निर्भर एकमात्र नोड श्रेणीबद्ध वितरण हों। पतन प्रत्येक डिरिचलेट-वितरण नोड के लिए दूसरों से अलग होता है, और किसी भी अन्य नोड की परवाह किए बिना होता है जो श्रेणीबद्ध वितरण पर निर्भर हो सकता है। यह इस बात की परवाह किए बिना भी होता है कि क्या श्रेणीबद्ध वितरण डिरिचलेट पुजारियों के अतिरिक्त नोड्स पर निर्भर करते हैं (हालांकि ऐसे मामले में, उन अन्य नोड्स को अतिरिक्त कंडीशनिंग कारकों के रूप में रहना चाहिए)। अनिवार्य रूप से, किसी दिए गए डिरिचलेट-वितरण नोड के आधार पर सभी श्रेणीबद्ध वितरण उपरोक्त सूत्र द्वारा परिभाषित एकल डिरिचलेट-मल्टीनोमियल संयुक्त वितरण में जुड़ जाते हैं। इस तरह से परिभाषित संयुक्त वितरण एकीकृत-आउट डिरिचेट पूर्व नोड्स के माता-पिता पर निर्भर करेगा, साथ ही डिरिचलेट पूर्व नोड्स के अलावा श्रेणीबद्ध नोड्स के किसी भी माता-पिता पर निर्भर करेगा।

निम्नलिखित अनुभागों में, हम आमतौर पर बायेसियन नेटवर्क में पाए जाने वाले विभिन्न कॉन्फ़िगरेशन पर चर्चा करते हैं। हम ऊपर से संभाव्यता घनत्व दोहराते हैं, और इसे प्रतीक का उपयोग करके परिभाषित करते हैं $$\operatorname{DirMult}(\mathbb{Z}\mid\boldsymbol{\alpha})$$:


 * $$\Pr(\mathbb{Z}\mid\boldsymbol{\alpha})=\operatorname{DirMult}(\mathbb{Z}\mid\boldsymbol{\alpha})=\frac{\Gamma\left(\sum_k \alpha_k\right)}

{\Gamma\left(\sum_k n_k+\alpha_k\right)}\prod_{k=1}^K\frac{\Gamma(n_{k}+\alpha_{k})}{\Gamma(\alpha_{k})}$$

एक ही हाइपरप्रायर के साथ एकाधिक डिरिचलेट पुजारी
कल्पना कीजिए कि हमारे पास इस प्रकार एक पदानुक्रमित मॉडल है:



\begin{array}{lcl} \boldsymbol\alpha &\sim& \text{some distribution} \\ \boldsymbol\theta_{d=1 \dots M} &\sim& \operatorname{Dirichlet}_K(\boldsymbol\alpha) \\ z_{d=1 \dots M,n=1 \dots N_d} &\sim& \operatorname{Categorical}_K(\boldsymbol\theta_d) \end{array} $$ इस तरह के मामलों में, हमारे पास कई डिरिचेट पूर्वज हैं, जिनमें से प्रत्येक कुछ संख्या में श्रेणीबद्ध अवलोकन उत्पन्न करता है (संभवतः प्रत्येक पूर्व के लिए एक अलग संख्या)। तथ्य यह है कि वे सभी एक ही हाइपरप्रायर पर निर्भर हैं, भले ही यह ऊपर जैसा यादृच्छिक चर हो, इससे कोई फर्क नहीं पड़ता। डिरिचलेट पूर्व को एकीकृत करने का प्रभाव उस पूर्व से जुड़े श्रेणीबद्ध चर को जोड़ता है, जिसका संयुक्त वितरण बस डिरिचलेट पूर्व के किसी भी कंडीशनिंग कारकों को प्राप्त करता है। तथ्य यह है कि कई पूर्वज हाइपरप्रियर साझा कर सकते हैं, इससे कोई फर्क नहीं पड़ता:


 * $$\Pr(\mathbb{Z}\mid\boldsymbol\alpha) = \prod_d \operatorname{DirMult}(\mathbb{Z}_d\mid\boldsymbol\alpha)$$

कहाँ $$\mathbb{Z}_d$$ यह केवल पूर्व d पर निर्भर श्रेणीगत चरों का संग्रह है।

तदनुसार, सशर्त संभाव्यता वितरण निम्नानुसार लिखा जा सकता है:


 * $$\Pr(z_{dn}=k\mid\mathbb{Z}^{(-dn)},\boldsymbol\alpha)\ \propto\ n_{k,d}^{(-n)} + \alpha_k$$

कहाँ $$n_{k,d}^{(-n)}$$ विशेष रूप से सेट के बीच चर की संख्या का मतलब है $$\mathbb{Z}_d$$, को छोड़कर $$z_{dn}$$ स्वयं, जिसका मूल्य है $$k$$.

केवल k मान वाले वेरिएबल्स को गिनना आवश्यक है जो समान पूर्व होने के कारण प्रश्न में वेरिएबल से एक साथ बंधे हैं। हम k मान वाले किसी अन्य वेरिएबल को भी गिनना नहीं चाहते हैं।

एक ही हाइपरप्रियर वाले एकाधिक डिरिचलेट पादरी, आश्रित बच्चों के साथ
अब थोड़ा अधिक जटिल पदानुक्रमित मॉडल की कल्पना इस प्रकार करें:



\begin{array}{lcl} \boldsymbol\alpha &\sim& \text{some distribution} \\ \boldsymbol\theta_{d=1 \dots M} &\sim& \operatorname{Dirichlet}_K(\boldsymbol\alpha) \\ z_{d=1 \dots M,n=1 \dots N_d} &\sim& \operatorname{Categorical}_K(\boldsymbol\theta_d) \\ \boldsymbol\phi &\sim& \text{some other distribution} \\ w_{d=1 \dots M,n=1 \dots N_d} &\sim& \operatorname{F}(w_{dn}\mid z_{dn},\boldsymbol\phi) \end{array} $$ यह मॉडल ऊपर जैसा ही है, लेकिन इसके अलावा, प्रत्येक श्रेणीगत चर पर एक चाइल्ड वेरिएबल निर्भर होता है। यह मिश्रण मॉडल की खासियत है.

फिर से, संयुक्त वितरण में, केवल उसी पूर्व पर निर्भर श्रेणीबद्ध चर एक एकल डिरिचलेट-मल्टीनोमियल में जुड़े हुए हैं:


 * $$\Pr(\mathbb{Z},\mathbb{W}\mid\boldsymbol\alpha,\boldsymbol\phi) = \prod_d \operatorname{DirMult}(\mathbb{Z}_d\mid\boldsymbol\alpha) \prod_{d=1}^{M} \prod_{n=1}^{N_d} \operatorname{F}(w_{dn}\mid z_{dn},\boldsymbol\phi)$$

केवल उनके माता-पिता और पूर्वजों पर निर्भर श्रेणीगत चरों का सशर्त वितरण सरल मामले में उपरोक्त के समान रूप होगा। हालाँकि, गिब्स नमूने में किसी दिए गए नोड के सशर्त वितरण को निर्धारित करना आवश्यक है $$z_{dn}$$ केवल पर निर्भर नहीं $$\mathbb{Z}^{(-dn)}$$ और पूर्वज जैसे $$\alpha$$ लेकिन अन्य सभी मापदंडों पर।

सशर्त वितरण के लिए सरलीकृत अभिव्यक्ति ऊपर संयुक्त संभाव्यता के लिए अभिव्यक्ति को फिर से लिखकर और निरंतर कारकों को हटाकर प्राप्त की गई है। इसलिए, वही सरलीकरण एक बड़े संयुक्त संभाव्यता अभिव्यक्ति में लागू होगा जैसे कि इस मॉडल में, डिरिचलेट-मल्टीनोमियल घनत्व और श्रेणीबद्ध चर के मूल्यों पर निर्भर कई अन्य यादृच्छिक चर के कारकों से बना है।

इससे निम्नलिखित परिणाम मिलते हैं:


 * $$\Pr(z_{dn}=k\mid\mathbb{Z}^{(-dn)},\mathbb{W},\boldsymbol\alpha,\boldsymbol\phi)\ \propto\ (n_{k,d}^{(-n)} + \alpha_k) \operatorname{F}(w_{dn}\mid z_{dn},\boldsymbol\phi)$$

यहाँ की संभाव्यता घनत्व $$\operatorname{F}$$ प्रत्यक्ष रूप से प्रकट होता है. छद्म-यादृच्छिक संख्या नमूनाकरण करने के लिए $$z_{dn}$$, हम सभी K संभावनाओं के लिए असामान्य संभावनाओं की गणना करेंगे $$z_{dn}$$ उपरोक्त सूत्र का उपयोग करके, फिर उन्हें सामान्य करें और श्रेणीबद्ध वितरण आलेख में वर्णित एल्गोरिदम का उपयोग करके सामान्य रूप से आगे बढ़ें।

सही ढंग से कहें तो, सशर्त वितरण में दिखाई देने वाला अतिरिक्त कारक मॉडल विनिर्देश से नहीं बल्कि सीधे संयुक्त वितरण से प्राप्त होता है। यह अंतर उन मॉडलों पर विचार करते समय महत्वपूर्ण है जहां डिरिचलेट-पूर्व माता-पिता के साथ दिए गए नोड में कई आश्रित बच्चे हैं, खासकर जब वे बच्चे एक-दूसरे पर निर्भर होते हैं (उदाहरण के लिए यदि वे एक माता-पिता को साझा करते हैं जो अलग हो गए हैं)। इस पर नीचे अधिक चर्चा की गई है।

पूर्व सदस्यता बदलने के साथ एकाधिक डिरिचलेट पुजारी
अब कल्पना करें कि हमारे पास इस प्रकार एक पदानुक्रमित मॉडल है:



\begin{array}{lcl} \boldsymbol\theta &\sim& \text{some distribution} \\ z_{n=1 \dots N} &\sim& \operatorname{Categorical}_K(\boldsymbol\theta) \\ \boldsymbol\alpha &\sim& \text{some distribution} \\ \boldsymbol\phi_{k=1 \dots K} &\sim& \operatorname{Dirichlet}_V(\boldsymbol\alpha) \\ w_{n=1 \dots N} &\sim& \operatorname{Categorical}_V(\boldsymbol\phi_{z_{n}}) \\ \end{array} $$ यहां हमारे पास एक पेचीदा स्थिति है जहां हमारे पास पहले की तरह कई डिरिचलेट पूर्व और आश्रित श्रेणीगत चर का एक सेट है, लेकिन पहले के विपरीत, पूर्व और आश्रित चर के बीच संबंध तय नहीं है। इसके बजाय, उपयोग से पहले का चुनाव किसी अन्य यादृच्छिक श्रेणीबद्ध चर पर निर्भर है। ऐसा होता है, उदाहरण के लिए, विषय मॉडल में, और वास्तव में उपरोक्त चर के नाम अव्यक्त डिरिचलेट आवंटन के अनुरूप होते हैं। इस मामले में, सेट $$\mathbb{W}$$ शब्दों का एक समूह है, जिनमें से प्रत्येक शब्द किसी एक से लिया गया है $$K$$ संभावित विषय, जहां प्रत्येक विषय की शब्दावली से पहले एक डिरिचलेट है $$V$$ संभावित शब्द, विषय में विभिन्न शब्दों की आवृत्ति निर्दिष्ट करते हुए। हालाँकि, किसी दिए गए शब्द की विषय सदस्यता निश्चित नहीं है; बल्कि, यह अव्यक्त चरों के एक सेट से निर्धारित होता है $$\mathbb{Z}$$. प्रति शब्द एक अव्यक्त चर है, ए $$K$$ -आयामी श्रेणीबद्ध चर उस विषय को निर्दिष्ट करता है जिससे शब्द संबंधित है।

इस मामले में, किसी दिए गए पूर्व पर निर्भर सभी चर एक समूह में एक साथ बंधे हुए हैं (यानी सहसंबद्ध), पहले की तरह - विशेष रूप से, किसी दिए गए विषय से संबंधित सभी शब्द जुड़े हुए हैं। हालाँकि, इस मामले में, समूह की सदस्यता बदल जाती है, जिसमें शब्द किसी दिए गए विषय पर तय नहीं होते हैं, बल्कि विषय शब्द से जुड़े एक अव्यक्त चर के मूल्य पर निर्भर करता है। हालाँकि, डिरिचलेट-मल्टीनोमियल घनत्व की परिभाषा वास्तव में किसी समूह में श्रेणीबद्ध चर की संख्या (यानी किसी दिए गए विषय से उत्पन्न दस्तावेज़ में शब्दों की संख्या) पर निर्भर नहीं करती है, बल्कि केवल इस बात पर निर्भर करती है कि इसमें कितने चर हैं समूह का एक दिया हुआ मान होता है (अर्थात किसी दिए गए विषय से उत्पन्न सभी शब्द टोकन के बीच, उनमें से कितने दिए गए शब्द हैं)। इसलिए, हम अभी भी संयुक्त वितरण के लिए एक स्पष्ट सूत्र लिख सकते हैं:


 * $$\Pr(\mathbb{W}\mid\boldsymbol\alpha,\mathbb{Z}) = \prod_{k=1}^K \operatorname{DirMult}(\mathbb{W}_k\mid\mathbb{Z},\boldsymbol\alpha) = \prod_{k=1}^K \left[\frac{\Gamma\left(\sum_v \alpha_v\right)}

{\Gamma\left(\sum_v n_v^{k}+\alpha_v\right)}\prod_{v=1}^V\frac{\Gamma(n_v^{k}+\alpha_{v})}{\Gamma(\alpha_{v})} \right]$$ यहां हम संकेतन का उपयोग करते हैं $$n_v^{k}$$ उन शब्द टोकनों की संख्या को दर्शाने के लिए जिनका मान शब्द प्रतीक v है और जो विषय k से संबंधित हैं।

सशर्त वितरण का रूप अभी भी वही है:


 * $$\Pr(w_n=v\mid\mathbb{W}^{(-n)},\mathbb{Z},\boldsymbol\alpha)\ \propto\ n_v^{k,(-n)} + \alpha_v$$

यहां फिर से, किसी दिए गए विषय से संबंधित शब्दों के लिए केवल श्रेणीबद्ध चर जुड़े हुए हैं (भले ही यह लिंकिंग अव्यक्त चर के असाइनमेंट पर निर्भर करेगी), और इसलिए शब्द गणना केवल किसी दिए गए विषय से उत्पन्न शब्दों से अधिक होनी चाहिए। इसलिए प्रतीक $$n_v^{k,(-n)}$$, जो कि शब्द प्रतीक v वाले शब्द टोकन की गिनती है, लेकिन विषय k द्वारा उत्पन्न लोगों में से 'केवल' है, और उस शब्द को छोड़कर जिसके वितरण का वर्णन किया जा रहा है।

(जिस कारण से शब्द को बाहर करना आवश्यक है, और यह बिल्कुल भी समझ में क्यों आता है, वह यह है कि गिब्स नमूना संदर्भ में, हम सभी पिछले चर के माध्यम से चलने और नमूना लेने के बाद, प्रत्येक यादृच्छिक चर के मूल्यों को बार-बार पुन: नमूना करते हैं। इसलिए वेरिएबल का पहले से ही एक मान होगा, और हमें इस मौजूदा मान को उन विभिन्न गणनाओं से बाहर करने की आवश्यकता है जिनका हम उपयोग करते हैं।)

एक संयुक्त उदाहरण: एलडीए विषय मॉडल
अब हम दिखाते हैं कि उपरोक्त कुछ परिदृश्यों को कैसे संयोजित किया जाए ताकि यह प्रदर्शित किया जा सके कि गिब्स वास्तविक दुनिया के मॉडल, विशेष रूप से एक स्मूथ लेटेंट डिरिचलेट आवंटन (एलडीए) विषय मॉडल का नमूना कैसे ले सकते हैं।

मॉडल इस प्रकार है:



\begin{array}{lcl} \boldsymbol\alpha &\sim& \text{A Dirichlet hyperprior, either a constant or a random variable} \\ \boldsymbol\beta &\sim& \text{A Dirichlet hyperprior, either a constant or a random variable} \\ \boldsymbol\theta_{d=1 \dots M} &\sim& \operatorname{Dirichlet}_K(\boldsymbol\alpha) \\ \boldsymbol\phi_{k=1 \dots K} &\sim& \operatorname{Dirichlet}_V(\boldsymbol\beta) \\ z_{d=1 \dots M,n=1 \dots N_d} &\sim& \operatorname{Categorical}_K(\boldsymbol\theta_d) \\ w_{d=1 \dots M,n=1 \dots N_d} &\sim& \operatorname{Categorical}_V(\boldsymbol\phi_{z_{dn}}) \\ \end{array} $$ अनिवार्य रूप से हम पिछले तीन परिदृश्यों को जोड़ते हैं: हमारे पास श्रेणीबद्ध चर हैं जो हाइपरप्रायर साझा करने वाले कई पुजारियों पर निर्भर हैं; हमारे पास आश्रित बच्चों के साथ श्रेणीगत चर हैं (अव्यक्त चर विषय पहचान); और हमारे पास हाइपरप्रायर साझा करने वाले कई पुजारियों में सदस्यता बदलने के साथ श्रेणीबद्ध चर हैं। मानक एलडीए मॉडल में, शब्दों का पूरी तरह से अवलोकन किया जाता है, और इसलिए हमें उन्हें दोबारा नमूना लेने की आवश्यकता नहीं होती है। (हालांकि, गिब्स नमूनाकरण समान रूप से संभव होगा यदि केवल कुछ या कोई भी शब्द नहीं देखा गया हो। ऐसे मामले में, हम कुछ उचित तरीके से शब्दों पर वितरण शुरू करना चाहेंगे - उदाहरण के लिए कुछ प्रक्रिया के आउटपुट से जो वाक्य उत्पन्न करता है, जैसे कि एक मशीनी अनुवाद मॉडल - परिणामी पश्च वितरण अव्यक्त चर वितरण के लिए कोई अर्थ निकालने के लिए।)

उपरोक्त सूत्रों का उपयोग करके, हम सशर्त संभावनाओं को सीधे लिख सकते हैं:



\begin{array}{lcl} \Pr(w_{dn}=v\mid\mathbb{W}^{(-dn)},\mathbb{Z},\boldsymbol\beta)\ &\propto\ & \#\mathbb{W}_v^{k,(-dn)} + \beta_v \\ \Pr(z_{dn}=k\mid\mathbb{Z}^{(-dn)},w_{dn}=v,\mathbb{W}^{(-dn)},\boldsymbol\alpha)\ &\propto\ &(\#\mathbb{Z}_k^{d,(-dn)} + \alpha_k) \Pr(w_{dn}=v\mid\mathbb{W}^{(-dn)},\mathbb{Z},\boldsymbol\beta) \\ \end{array} $$ यहां हमने शब्दों की संख्या और विषयों की संख्या को स्पष्ट रूप से अलग करने के लिए गिनती को अधिक स्पष्ट रूप से परिभाषित किया है:



\begin{array}{lcl} \#\mathbb{W}_v^{k,(-dn)} &=& \text{number of words having value }v\text{ among topic }k\text{ excluding }w_{dn} \\ \#\mathbb{Z}_k^{d,(-dn)} &=& \text{number of topics having value }k\text{ among document }d\text{ excluding }z_{dn} \\ \end{array} $$ आश्रित बच्चों के साथ श्रेणीबद्ध चर के साथ उपरोक्त परिदृश्य में, उन आश्रित बच्चों की सशर्त संभावना माता-पिता की सशर्त संभावना की परिभाषा में दिखाई देती है। इस मामले में, प्रत्येक अव्यक्त चर में केवल एक ही आश्रित उपसर्ग शब्द होता है, इसलिए ऐसा केवल एक ही शब्द प्रकट होता है। (यदि एकाधिक आश्रित बच्चे हों, तो सभी को माता-पिता की सशर्त संभाव्यता में उपस्थित होना होगा, भले ही अलग-अलग माता-पिता और समान बच्चों के बीच ओवरलैप हो, यानी इस बात की परवाह किए बिना कि किसी दिए गए माता-पिता के आश्रित बच्चों के अन्य माता-पिता भी हैं या नहीं। ऐसा मामला जहां एक बच्चे के कई माता-पिता हों, उस बच्चे की सशर्त संभाव्यता उसके प्रत्येक माता-पिता की सशर्त संभाव्यता परिभाषा में दिखाई देती है।)

उपरोक्त परिभाषा केवल शब्दों की असामान्यीकृत सशर्त संभाव्यता को निर्दिष्ट करती है, जबकि विषय सशर्त संभाव्यता के लिए वास्तविक (यानी सामान्यीकृत) संभाव्यता की आवश्यकता होती है। इसलिए हमें सभी शब्द प्रतीकों को जोड़कर सामान्य बनाना होगा:



\begin{array}{rcl} \Pr(z_{dn}=k\mid\mathbb{Z}^{(-dn)},w_{dn}=v,\mathbb{W}^{(-dn)},\boldsymbol\alpha)\ &\propto\ &\bigl(\#\mathbb{Z}_k^{d,(-dn)} + \alpha_k\bigr) \dfrac{\#\mathbb{W}_v^{k,(-dn)} + \beta_v}{\sum_{v'=1}^{V} (\#\mathbb{W}_{v'}^{k,(-dn)} + \beta_{v'})} \\ && \\ &=& \bigl(\#\mathbb{Z}_k^{d,(-dn)} + \alpha_k\bigr) \dfrac{\#\mathbb{W}_v^{k,(-dn)} + \beta_v}{\#\mathbb{W}^{k} + B - 1} \end{array} $$ कहाँ



\begin{array}{lcl} \#\mathbb{W}^{k} &=& \text{number of words generated by topic }k \\ B &=& \sum_{v=1}^{V} \beta_v \\ \end{array} $$ यह एक और बिंदु को विस्तार से बताने लायक भी है, जो सशर्त संभाव्यता में उपरोक्त दूसरे कारक से संबंधित है। याद रखें कि सामान्य रूप से सशर्त वितरण संयुक्त वितरण से प्राप्त होता है, और सशर्त के डोमेन (ऊर्ध्वाधर पट्टी के बाईं ओर का भाग) पर निर्भर नहीं होने वाले शब्दों को हटाकर इसे सरल बनाया जाता है। जब एक नोड $$z$$ आश्रित बच्चे हैं, तो एक या अधिक कारक होंगे $$\operatorname{F}(\dots\mid z)$$ संयुक्त वितरण में जो निर्भर हैं $$z$$. आमतौर पर प्रत्येक आश्रित नोड के लिए एक कारक होता है, और इसमें गणितीय परिभाषा में दिखाई देने वाले वितरण के समान घनत्व कार्य होता है। हालाँकि, यदि एक आश्रित नोड में एक अन्य अभिभावक (एक सह-अभिभावक) भी है, और वह सह-अभिभावक समाप्त हो गया है, तो नोड उस सह-अभिभावक को साझा करने वाले अन्य सभी नोड्स पर निर्भर हो जाएगा, और इसके लिए कई शर्तों के स्थान पर ऐसे प्रत्येक नोड, संयुक्त वितरण में केवल एक संयुक्त पद होगा। हमारे यहाँ बिल्कुल वैसी ही स्थिति है। चाहे $$z_{dn}$$ केवल एक बच्चा है $$w_{dn}$$, उस बच्चे के पास एक डिरिचलेट सह-अभिभावक है जिसे हमने अलग कर दिया है, जो नोड्स के पूरे सेट पर एक डिरिचलेट-मल्टीनोमियल उत्पन्न करता है $$\mathbb{W}^{k}$$.

इस मामले में ऐसा होता है कि यह मुद्दा बड़ी समस्याओं का कारण नहीं बनता है, ठीक बीच में एक-से-एक संबंध के कारण $$z_{dn}$$ और $$w_{dn}$$. हम संयुक्त वितरण को इस प्रकार पुनः लिख सकते हैं:



\begin{array}{lcl} p(\mathbb{W}^{k}\mid z_{dn}) &=& p(w_{dn}\mid\mathbb{W}^{k,(-dn)},z_{dn})\,p(\mathbb{W}^{k,(-dn)}\mid z_{dn}) \\ &=& p(w_{dn}\mid\mathbb{W}^{k,(-dn)},z_{dn})\,p(\mathbb{W}^{k,(-dn)}) \\ &\sim& p(w_{dn}\mid\mathbb{W}^{k,(-dn)},z_{dn}) \end{array} $$ सेट में कहां $$\mathbb{W}^{k,(-dn)}$$ (अर्थात नोड्स का सेट $$\mathbb{W}^{k}$$ के सिवा $$w_{dn}$$ ), किसी भी नोड में नहीं है $$z_{dn}$$ माता-पिता के रूप में. इसलिए इसे एक कंडीशनिंग कारक (पंक्ति 2) के रूप में समाप्त किया जा सकता है, जिसका अर्थ है कि पूरे कारक को सशर्त वितरण (पंक्ति 3) से समाप्त किया जा सकता है।

दूसरा उदाहरण: नाइव बेयस दस्तावेज़ क्लस्टरिंग
यहां एक और मॉडल है, जिसमें मुद्दों का एक अलग सेट है। यह दस्तावेज़ क्लस्टरिंग के लिए एक अप्रकाशित नाइव बेयस मॉडल का कार्यान्वयन है। अर्थात्, हम पाठ्य सामग्री के आधार पर कई श्रेणियों (उदाहरण के लिए स्पैम (इलेक्ट्रॉनिक) या गैर-स्पैम, या वैज्ञानिक जर्नल लेख, वित्त के बारे में समाचार पत्र लेख, राजनीति के बारे में समाचार पत्र लेख, प्रेम पत्र) में वर्गीकरण का दस्तावेजीकरण करना चाहेंगे। हालाँकि, हम पहले से ही किसी दस्तावेज़ की सही श्रेणी नहीं जानते हैं; इसके बजाय, हम आपसी समानता के आधार पर उन्हें क्लस्टर करने का दस्तावेजीकरण करना चाहते हैं। (उदाहरण के लिए, वैज्ञानिक लेखों का एक सेट शब्द प्रयोग में एक-दूसरे के समान होगा लेकिन प्रेम पत्रों के सेट से बहुत अलग होगा।) यह एक प्रकार की बिना पर्यवेक्षित शिक्षा है। (उसी तकनीक का उपयोग अर्ध-पर्यवेक्षित शिक्षण करने के लिए किया जा सकता है, यानी जहां हम दस्तावेज़ों के कुछ अंश की सही श्रेणी जानते हैं और शेष दस्तावेज़ों को क्लस्टर करने में सहायता के लिए इस ज्ञान का उपयोग करना चाहेंगे।)

मॉडल इस प्रकार है:



\begin{array}{lcl} \boldsymbol\alpha &\sim& \text{A Dirichlet hyperprior, either a constant or a random variable} \\ \boldsymbol\beta &\sim& \text{A Dirichlet hyperprior, either a constant or a random variable} \\ \boldsymbol\theta_{d=1 \dots M} &\sim& \operatorname{Dirichlet}_K(\boldsymbol\alpha) \\ \boldsymbol\phi_{k=1 \dots K} &\sim& \operatorname{Dirichlet}_V(\boldsymbol\beta) \\ z_{d=1 \dots M} &\sim& \operatorname{Categorical}_K(\boldsymbol\theta_d) \\ w_{d=1 \dots M,n=1 \dots N_d} &\sim& \operatorname{Categorical}_V(\boldsymbol\phi_{z_{d}}) \\ \end{array} $$ कई मायनों में, यह मॉडल ऊपर वर्णित अव्यक्त डिरिचलेट आवंटन विषय मॉडल के समान है, लेकिन यह प्रति शब्द एक विषय के बजाय प्रति दस्तावेज़ एक विषय मानता है, जिसमें दस्तावेज़ में विषयों का मिश्रण होता है। इसे उपरोक्त मॉडल में स्पष्ट रूप से देखा जा सकता है, जो एलडीए मॉडल के समान है, सिवाय इसके कि प्रति दस्तावेज़ एक शब्द के बजाय केवल एक अव्यक्त चर है। एक बार फिर, हम मानते हैं कि हम डिरिचलेट के सभी पूर्ववर्तियों को ध्वस्त कर रहे हैं।

किसी दिए गए शब्द के लिए सशर्त संभाव्यता एलडीए मामले के लगभग समान है। एक बार फिर, उसी डिरिचलेट पूर्व द्वारा उत्पन्न सभी शब्द अन्योन्याश्रित हैं। इस मामले में, इसका मतलब है कि दिए गए लेबल वाले सभी दस्तावेज़ों के शब्द - फिर से, यह लेबल असाइनमेंट के आधार पर भिन्न हो सकता है, लेकिन हमें केवल कुल गिनती की परवाह है। इस तरह:



\begin{array}{lcl} \Pr(w_{dn}=v\mid\mathbb{W}^{(-dn)},\mathbb{Z},\boldsymbol\beta)\ &\propto\ & \#\mathbb{W}_v^{k,(-dn)} + \beta_v \\ \end{array} $$ कहाँ



\begin{array}{lcl} \#\mathbb{W}_v^{k,(-dn)} &=& \text{number of words having value }v\text{ among documents with label }k\text{ excluding }w_{dn} \\ \end{array} $$ हालाँकि, लेबल असाइनमेंट के लिए अव्यक्त चर के सशर्त वितरण में एक महत्वपूर्ण अंतर है, जो यह है कि किसी दिए गए लेबल चर में केवल एक के बजाय कई बच्चों के नोड होते हैं - विशेष रूप से, लेबल के दस्तावेज़ में सभी शब्दों के लिए नोड्स। यह कारक के बारे में उपरोक्त चर्चा से निकटता से संबंधित है $$\operatorname{F}(\dots\mid z_d)$$ जो संयुक्त वितरण से उत्पन्न होता है। इस मामले में, संयुक्त वितरण को सभी दस्तावेजों में सभी शब्दों पर ले जाने की आवश्यकता है जिसमें मूल्य के बराबर लेबल असाइनमेंट शामिल है $$z_d$$, और इसमें डिरिचलेट-मल्टीनोमियल वितरण का मान है। इसके अलावा, हम इस संयुक्त वितरण को एक शब्द पर सशर्त वितरण तक सीमित नहीं कर सकते। इसके बजाय, हम इसे केवल प्रश्न में लेबल के लिए दस्तावेज़ में शब्दों पर एक छोटे से संयुक्त सशर्त वितरण तक कम कर सकते हैं, और इसलिए हम उपरोक्त ट्रिक का उपयोग करके इसे सरल नहीं बना सकते हैं जो अपेक्षित गणना और पूर्व का एक सरल योग प्राप्त करता है। यद्यपि वास्तव में इसे ऐसे व्यक्तिगत योगों के उत्पाद के रूप में फिर से लिखना संभव है, कारकों की संख्या बहुत बड़ी है, और डिरिचलेट-मल्टीनोमियल वितरण संभावना की सीधे गणना करने की तुलना में स्पष्ट रूप से अधिक कुशल नहीं है।

संबंधित वितरण
डिरिचलेट-मल्टीनोमियल वितरण के एक-आयामी संस्करण को बीटा-द्विपद वितरण के रूप में जाना जाता है।

डिरिचलेट-मल्टीनोमियल वितरण का संबंध नकारात्मक द्विपद वितरण के साथ है, जो पॉइसन वितरण के साथ बहुपद वितरण के संबंध के अनुरूप है।

उपयोग
डिरिचलेट-मल्टीनोमियल वितरण का उपयोग स्वचालित दस्तावेज़ वर्गीकरण और क्लस्टरिंग, आनुवंशिकी, अर्थव्यवस्था, मुकाबला मॉडलिंग और मात्रात्मक विपणन में किया जाता है।

यह भी देखें

 * बीटा-द्विपद वितरण
 * चीनी रेस्तरां प्रक्रिया
 * डिरिचलेट प्रक्रिया
 * सामान्यीकृत डिरिचलेट वितरण
 * क्रिचेव्स्की-ट्रोफिमोव अनुमानक
 * डिरिचलेट नकारात्मक बहुपद वितरण

स्रोत

 * एल्कन, सी. (2006) डिरिचलेट कंपाउंड मल्टीनोमियल डिस्ट्रीब्यूशन के एक घातीय-पारिवारिक सन्निकटन के साथ क्लस्टरिंग दस्तावेज़। आईसीएमएल, 289-296।
 * जॉनसन, एन.एल., कोट्ज़, एस. और बालाकृष्णन, एन. (1997) डिस्क्रीट मल्टीवेरिएट डिस्ट्रीब्यूशन (वॉल्यूम 165)। न्यूयॉर्क: विली.
 * क्वाम, पी. और डे, डी. (2001) युद्ध मॉडलिंग में बहुभिन्नरूपी पोलिया वितरण। नौसेना अनुसंधान रसद, 48, 1-17।
 * मैडसेन, आर.ई., कौचक, डी. और एल्कन, सी. (2005) डिरिचलेट डिस्ट्रीब्यूशन का उपयोग करके मॉडलिंग वर्ड बर्स्टनेस। आईसीएमएल, 545-552।
 * मिंका, टी. (2003) एक डिरिचलेट वितरण का अनुमान लगाना। तकनीकी रिपोर्ट माइक्रोसॉफ्ट रिसर्च। डेटा में वितरण को फ़िट करने के लिए मैटलैब कोड शामिल है।
 * मोसिमन, जे. ई. (1962) मिश्रित बहुपद वितरण, बहुभिन्नरूपी β-वितरण, और अनुपातों के बीच सहसंबंध। बायोमेट्रिक, 49(1-2), 65-82।
 * वैगनर, यू. और टॉड्स, ए. (1986) ब्रांड चॉइस और खरीद घटना का एक बहुभिन्नरूपी पोलिया मॉडल। विपणन विज्ञान, 5(3), 219-244।

श्रेणी:बहुभिन्नरूपी असतत वितरण श्रेणी:अलग-अलग वितरण श्रेणी:यौगिक संभाव्यता वितरण