श्रेणीबद्ध वितरण

संभाव्यता सिद्धांत और सांख्यिकी में, एक श्रेणीबद्ध वितरण (जिसे सामान्यीकृत बर्नौली वितरण भी कहा जाता है, मल्टीनौली वितरण ) एक असतत संभाव्यता वितरण है जो एक यादृच्छिक चर के संभावित परिणामों का वर्णन करता है जो K संभावित श्रेणियों में से एक पर ले सकता है, जिसमें प्रत्येक श्रेणी की संभावना अलग-अलग निर्दिष्ट होती है। इन परिणामों का कोई अंतर्निहित अंतर्निहित क्रम नहीं है, लेकिन वितरण का वर्णन करने में सुविधा के लिए संख्यात्मक लेबल अक्सर संलग्न होते हैं, (उदाहरण के लिए 1 से के)। K- आयामी श्रेणीबद्ध वितरण K-way घटना पर सबसे सामान्य वितरण है; आकार-के नमूना स्थान पर कोई अन्य असतत वितरण एक विशेष मामला है। प्रत्येक संभावित परिणाम की संभावनाओं को निर्दिष्ट करने वाले पैरामीटर केवल इस तथ्य से विवश हैं कि प्रत्येक को 0 से 1 की सीमा में होना चाहिए, और सभी का योग 1 होना चाहिए।

श्रेणीबद्ध वितरण एक श्रेणीगत चर यादृच्छिक चर के लिए बर्नौली वितरण का सामान्यीकरण है, अर्थात एक असतत चर के लिए दो से अधिक संभावित परिणामों के साथ, जैसे पासा का रोल। दूसरी ओर, श्रेणीबद्ध वितरण बहुराष्ट्रीय वितरण का एक विशेष मामला है, जिसमें यह कई आरेखणों के बजाय एकल आरेखण के संभावित परिणामों की संभावना देता है।

शब्दावली
कभी-कभी, श्रेणीबद्ध वितरण को असतत वितरण कहा जाता है। हालांकि, यह उचित रूप से वितरण के एक विशेष परिवार को नहीं बल्कि असतत वितरण को संदर्भित करता है।

कुछ क्षेत्रों में, जैसे कि यंत्र अधिगम  और प्राकृतिक भाषा प्रसंस्करण, श्रेणीबद्ध और बहुराष्ट्रीय वितरण परस्पर जुड़े हुए हैं, और एक बहुराष्ट्रीय वितरण की बात करना आम है जब एक श्रेणीबद्ध वितरण अधिक सटीक होगा। यह अभेद्य उपयोग इस तथ्य से उपजा है कि कभी-कभी 1-के-के वेक्टर के रूप में एक श्रेणीबद्ध वितरण के परिणाम को व्यक्त करना सुविधाजनक होता है (एक वेक्टर जिसमें एक तत्व होता है जिसमें 1 होता है और अन्य सभी तत्व 0 होते हैं) एक पूर्णांक के बजाय 1 से K की सीमा में; इस रूप में, एक स्पष्ट वितरण एकल अवलोकन के लिए एक बहुराष्ट्रीय वितरण के बराबर है (नीचे देखें)।

हालाँकि, श्रेणीबद्ध और बहुराष्ट्रीय वितरणों को मिलाने से समस्याएँ हो सकती हैं। उदाहरण के लिए, एक डिरिचलेट-बहुराष्ट्रीय वितरण में, जो आमतौर पर प्राकृतिक भाषा प्रसंस्करण मॉडल (हालांकि आमतौर पर इस नाम के साथ नहीं) में उत्पन्न होता है, गिब्स नमूने के ढहने के परिणामस्वरूप जहां डिरिचलेट वितरण एक पदानुक्रमित बायेसियन मॉडल से ढह जाता है, यह बहुत महत्वपूर्ण है श्रेणीबद्ध को बहुपद से अलग करें। एक ही डिरिचलेट-बहुराष्ट्रीय वितरण के साथ एक ही चर के संयुक्त वितरण के दो अलग-अलग रूप हैं, जो इस बात पर निर्भर करता है कि क्या यह एक वितरण के रूप में वर्णित है जिसका डोमेन अलग-अलग श्रेणीबद्ध नोड्स या प्रत्येक विशेष श्रेणी में नोड्स की बहुराष्ट्रीय-शैली की गणना से अधिक है (समान) Bernoulli वितरण के एक सेट के बीच भेद | Bernoulli- वितरित नोड्स और एक एकल द्विपद वितरण | द्विपद-वितरित नोड)। दोनों रूपों में बहुत समान दिखने वाले प्रायिकता द्रव्यमान कार्य (पीएमएफ) हैं, जो दोनों एक श्रेणी में बहुराष्ट्रीय-शैली के नोड्स की संख्या का संदर्भ देते हैं। हालांकि, बहुराष्ट्रीय शैली के पीएमएफ में एक अतिरिक्त कारक है, एक बहुराष्ट्रीय गुणांक, जो श्रेणीबद्ध शैली के पीएमएफ में 1 के बराबर है। दोनों को भ्रमित करने से सेटिंग्स में आसानी से गलत परिणाम हो सकते हैं जहां ब्याज के वितरण के संबंध में यह अतिरिक्त कारक स्थिर नहीं है। गिब्स नमूनाकरण में उपयोग की जाने वाली पूर्ण सशर्तताओं और भिन्नता विधियों में इष्टतम वितरण में कारक अक्सर स्थिर होता है।

वितरण तैयार करना
एक स्पष्ट वितरण एक असतत संभाव्यता वितरण है जिसका नमूना स्थान k व्यक्तिगत रूप से पहचाने गए आइटमों का सेट है। यह एक श्रेणीबद्ध चर यादृच्छिक चर के लिए बर्नौली वितरण का सामान्यीकरण है।

वितरण के एक सूत्रीकरण में, नमूना स्थान को पूर्णांकों का एक परिमित अनुक्रम माना जाता है। लेबल के रूप में प्रयुक्त सटीक पूर्णांक महत्वहीन हैं; वे {0, 1, ..., k − 1} या {1, 2, ..., k} या मूल्यों का कोई अन्य स्वैच्छिक सेट हो सकते हैं। निम्नलिखित विवरणों में, हम सुविधा के लिए {1, 2, ..., k} का उपयोग करते हैं, हालांकि यह बर्नौली वितरण के सम्मेलन से असहमत है, जो {0, 1} का उपयोग करता है। इस स्थिति में, संभाव्यता द्रव्यमान फलन f है:

f(x=i\mid \boldsymbol{p} ) = p_i , $$ कहाँ $$\boldsymbol{p} = (p_1,\ldots,p_k)$$, $$p_i$$ तत्व i और देखने की संभावना का प्रतिनिधित्व करता है $$\textstyle{\sum_{i=1}^k p_i = 1}$$.

आइवरसन ब्रैकेट का उपयोग करते हुए एक अन्य सूत्रीकरण जो अधिक जटिल दिखाई देता है लेकिन गणितीय जोड़तोड़ की सुविधा देता है:

f(x\mid \boldsymbol{p} ) = \prod_{i=1}^k p_i^{[x=i]} , $$ कहाँ $$[x=i]$$ यदि 1 का मूल्यांकन करता है $$x=i$$, 0 अन्यथा। इस फॉर्मूलेशन के विभिन्न फायदे हैं, उदाहरण के लिए:
 * स्वतंत्र समान रूप से वितरित श्रेणीबद्ध चर के एक सेट की संभावना समारोह को लिखना आसान है।
 * यह श्रेणीबद्ध वितरण को संबंधित बहुराष्ट्रीय वितरण से जोड़ता है।
 * यह दिखाता है कि डिरिचलेट वितरण श्रेणीबद्ध वितरण से पहले का संयुग्म क्यों है, और मापदंडों के पश्च वितरण की गणना करने की अनुमति देता है।

फिर भी एक और सूत्रीकरण बहुपद वितरण के एक विशेष मामले के रूप में श्रेणीबद्ध वितरण का इलाज करके श्रेणीबद्ध और बहुराष्ट्रीय वितरण के बीच संबंध को स्पष्ट करता है जिसमें बहुराष्ट्रीय वितरण का पैरामीटर n (नमूना वस्तुओं की संख्या) 1 पर तय किया गया है। इस सूत्रीकरण में, नमूना स्थान को 1-ऑफ़-के एन्कोडेड का सेट माना जा सकता है आयाम 'k के यादृच्छिक वैक्टर x का गुण है कि वास्तव में एक तत्व का मान 1 है और अन्य का मान 0 है। मान 1 वाला विशेष तत्व इंगित करता है कि किस श्रेणी को चुना गया है। इस सूत्रीकरण में प्रायिकता द्रव्यमान फलन f'' है:

f( \mathbf{x}\mid \boldsymbol{p} ) = \prod_{i=1}^k p_i^{x_i} , $$ कहाँ $$p_i$$ तत्व i और देखने की संभावना का प्रतिनिधित्व करता है $$\textstyle{\sum_i p_i = 1}$$. यह क्रिस्टोफर बिशप द्वारा अपनाया गया सूत्रीकरण है।

गुण
* वितरण पूरी तरह से प्रत्येक संख्या i से जुड़ी संभावनाओं द्वारा दिया गया है: $$p_i = P(X = i)$$, i = 1,...,k, कहा पे $$\textstyle{\sum_i p_i = 1}$$. संभावनाओं के संभावित सेट मानक सिंप्लेक्स | मानक में बिल्कुल वही हैं $$(k-1)$$-आयामी सिंप्लेक्स; के = 2 के लिए यह बर्नौली वितरण की 1-सिम्प्लेक्स होने की संभावित संभावनाओं को कम कर देता है, $$p_1+p_2=1, 0 \leq p_1,p_2 \leq 1 .$$
 * बंटन बहुभिन्नरूपी बरनौली बंटन का एक विशेष मामला है जिसमें k 0-1 चरों में से एक का मान एक होता है।
 * $$\operatorname{E} \left[ \mathbf{x} \right] = \boldsymbol{p}$$
 * होने देना $$\boldsymbol{X}$$ एक श्रेणीबद्ध वितरण से प्राप्ति हो। तत्वों से बना यादृच्छिक वेक्टर Y को परिभाषित करें:
 * $$Y_i=I(\boldsymbol{X}=i),$$
 * जहां मैं सूचक समारोह है। फिर Y का एक वितरण है जो पैरामीटर के साथ बहुराष्ट्रीय वितरण का एक विशेष मामला है $$n=1$$. कुल मिलाकर $$n$$ पैरामीटर के साथ एक श्रेणीबद्ध वितरण से निर्मित ऐसे यादृच्छिक चर Y स्वतंत्र और समान रूप से वितरित किए गए $$\boldsymbol{p}$$ मापदंडों के साथ बहुपद वितरण है $$n$$ और $$\boldsymbol{p} .$$


 * एक श्रेणीबद्ध वितरण का संयुग्म पूर्व वितरण एक डिरिचलेट वितरण है। अधिक चर्चा के लिए पहले संयुग्म का उपयोग करते हुए #बायेसियन अनुमान देखें।
 * n स्वतंत्र प्रेक्षणों से पर्याप्त आँकड़ा प्रत्येक श्रेणी में प्रेक्षणों की गणना (या, समतुल्य, अनुपात) का समूह है, जहाँ परीक्षणों की कुल संख्या (=n) नियत है।
 * Iverson ब्रैकेट फ़ंक्शन के समतुल्य i मान वाले अवलोकन का संकेतक फ़ंक्शन $$[x=i]$$ या क्रोनकर डेल्टा फ़ंक्शन $$\delta_{xi},$$ पैरामीटर के साथ बर्नौली वितरण है $$p_i .$$

संयुग्म पूर्व
का उपयोग करते हुए बायेसियन अनुमान बायेसियन आंकड़ों में, डिरिचलेट वितरण श्रेणीबद्ध वितरण (और बहुराष्ट्रीय वितरण) का संयुग्मित पूर्व वितरण है। इसका मतलब यह है कि अज्ञात पैरामीटर वेक्टर पी के साथ एक श्रेणीबद्ध वितरण वाले डेटा बिंदु वाले मॉडल में, और (मानक बायेसियन शैली में) हम इस पैरामीटर को एक यादृच्छिक चर के रूप में मानते हैं और इसे डिरिचलेट वितरण का उपयोग करके परिभाषित एक पूर्व वितरण देते हैं, फिर प्रेक्षित डेटा से प्राप्त ज्ञान को शामिल करने के बाद पैरामीटर का पश्च वितरण भी एक डिरिचलेट है। सहज रूप से, ऐसे मामले में, डेटा बिंदु को देखने से पहले पैरामीटर के बारे में जो ज्ञात है, उससे शुरू करके, डेटा बिंदु के आधार पर ज्ञान को अद्यतन किया जा सकता है, पुराने रूप में उसी रूप का एक नया वितरण प्रदान करता है। जैसे, गणितीय कठिनाइयों में भागे बिना, एक समय में एक नई टिप्पणियों को शामिल करके एक पैरामीटर के ज्ञान को क्रमिक रूप से अद्यतन किया जा सकता है।

औपचारिक रूप से, इसे निम्नानुसार व्यक्त किया जा सकता है। एक मॉडल दिया
 * $$\begin{array}{lclcl}

\boldsymbol\alpha &=& (\alpha_1, \ldots, \alpha_K) &=& \text{concentration hyperparameter} \\ \mathbf{p}\mid\boldsymbol\alpha &=& (p_1, \ldots, p_K) &\sim& \operatorname{Dir}(K, \boldsymbol\alpha) \\ \mathbb{X}\mid\mathbf{p} &=& (x_1, \ldots, x_N) &\sim& \operatorname{Cat}(K,\mathbf{p}) \end{array} $$ तो निम्नलिखित धारण करता है: : $$\begin{array}{lclcl} \mathbf{c} &=& (c_1, \ldots, c_K) &=& \text{number of occurrences of category }i, \text{ so that } c_i = \sum_{j=1}^N [x_j=i] \\ \mathbf{p} \mid \mathbb{X},\boldsymbol\alpha &\sim& \operatorname{Dir}(K,\mathbf{c}+\boldsymbol\alpha) &=& \operatorname{Dir}(K,c_1+\alpha_1,\ldots,c_K+\alpha_K) \end{array} $$ इस संबंध का उपयोग बायेसियन सांख्यिकी में N नमूनों के संग्रह को देखते हुए श्रेणीबद्ध वितरण के अंतर्निहित पैरामीटर p का अनुमान लगाने के लिए किया जाता है। सहज रूप से, हम hyperprior वेक्टर α को छद्मगणना ्स के रूप में देख सकते हैं, अर्थात प्रत्येक श्रेणी में उन टिप्पणियों की संख्या का प्रतिनिधित्व करते हैं जिन्हें हमने पहले ही देखा है। फिर हम पश्च वितरण को प्राप्त करने के लिए बस सभी नए अवलोकनों (वेक्टर c) के लिए गणना में जोड़ते हैं।

आगे का अंतर्ज्ञान पश्च वितरण के अपेक्षित मूल्य से आता है (डिरिचलेट वितरण पर लेख देखें):


 * $$ \operatorname{E}[p_i \mid \mathbb{X},\boldsymbol\alpha] = \frac{c_i+\alpha_i}{N+\sum_k\alpha_k}$$

यह कहता है कि पश्च वितरण द्वारा उत्पन्न विभिन्न असतत वितरणों में से एक श्रेणी I को देखने की अपेक्षित संभावना डेटा में वास्तव में देखी गई उस श्रेणी की घटनाओं के अनुपात के बराबर है, जिसमें पूर्व वितरण में छद्म गणनाएं भी शामिल हैं। यह बहुत सहज ज्ञान देता है: यदि, उदाहरण के लिए, तीन संभावित श्रेणियां हैं, और श्रेणी 1 को देखे गए डेटा में 40% समय देखा जाता है, तो कोई औसतन श्रेणी 1 को 40% समय में देखने की अपेक्षा करेगा। पश्च वितरण भी।

(यह अंतर्ज्ञान पूर्व वितरण के प्रभाव की अनदेखी कर रहा है। इसके अलावा, पश्च वितरण वितरण पर एक वितरण है। सामान्य रूप से पश्च वितरण प्रश्न में पैरामीटर का वर्णन करता है, और इस मामले में पैरामीटर स्वयं एक असतत संभाव्यता वितरण है, अर्थात वास्तविक श्रेणीबद्ध वितरण जो डेटा उत्पन्न करता है। उदाहरण के लिए, यदि 40:5:55 के अनुपात में 3 श्रेणियां देखे गए डेटा में हैं, तो पूर्व वितरण के प्रभाव को अनदेखा करते हुए, सही पैरामीटर - यानी सही, अंतर्निहित वितरण जिसने हमारे देखे गए डेटा को उत्पन्न किया – (0.40,0.05,0.55) का औसत मूल्य होने की उम्मीद की जाएगी, जो वास्तव में वही है जो पीछे से पता चलता है। हालांकि, सही वितरण वास्तव में (0.35,0.07,0.58) या (0.42,0.04,0.54) या हो सकता है आस-पास की विभिन्न अन्य संभावनाएं। यहां शामिल अनिश्चितता की मात्रा पश्च के विचरण द्वारा निर्दिष्ट की जाती है, जिसे अवलोकनों की कुल संख्या द्वारा नियंत्रित किया जाता है - जितना अधिक डेटा देखा जाता है, सही पैरामीटर के बारे में अनिश्चितता उतनी ही कम होती है।)

(तकनीकी रूप से, पूर्व पैरामीटर $$\alpha_i$$ वास्तव में प्रतिनिधित्व के रूप में देखा जाना चाहिए $$\alpha_i-1$$ श्रेणी के पूर्व अवलोकन $$i$$. फिर, अद्यतन पश्च पैरामीटर $$c_i+\alpha_i$$ का प्रतिनिधित्व करता है $$c_i+\alpha_i-1$$ पश्च अवलोकन। यह इस तथ्य को दर्शाता है कि डिरिचलेट वितरण के साथ $$\boldsymbol\alpha = (1,1,\ldots)$$ एक पूरी तरह से सपाट आकार है - अनिवार्य रूप से, पी के संभावित मूल्यों के संकेतन पर एक समान वितरण (निरंतर)। तार्किक रूप से, इस प्रकार का एक सपाट वितरण कुल अज्ञानता का प्रतिनिधित्व करता है, जो कि किसी भी प्रकार की टिप्पणियों के अनुरूप नहीं है। हालाँकि, यदि हम ध्यान न दें तो पश्च का गणितीय अद्यतन ठीक काम करता है $$\cdots-1$$ टर्म और केवल α वेक्टर के बारे में सोचें जो सीधे स्यूडोकाउंट्स के सेट का प्रतिनिधित्व करता है। इसके अलावा, ऐसा करने से व्याख्या करने की समस्या से बचा जा सकता है $$\alpha_i$$ 1 से कम मान।)

एमएपी अनुमान
उपरोक्त मॉडल में पैरामीटर p का अधिकतम पश्च अनुमान | : $$ \operatorname{arg\,max}\limits_{\mathbf{p}} p(\mathbf{p} \mid \mathbb{X}) = \frac{\alpha_i + c_i - 1}{\sum_i (\alpha_i + c_i - 1)}, \qquad \forall i \; \alpha_i + c_i > 1 $$ कई व्यावहारिक अनुप्रयोगों में, स्थिति की गारंटी देने का एकमात्र तरीका है कि $$\forall i \; \alpha_i + c_i > 1$$ लगाना है $$\alpha_i > 1$$ सभी के लिए मैं

मामूली संभावना
उपरोक्त मॉडल में, टिप्पणियों की सीमांत संभावना (अर्थात पूर्व पैरामीटर सीमांत वितरण के साथ टिप्पणियों का संयुक्त वितरण) एक डिरिचलेट-बहुराष्ट्रीय वितरण है: : $$ \begin{align} p(\mathbb{X}\mid\boldsymbol{\alpha}) &= \int_{\mathbf{p}}p(\mathbb{X}\mid \mathbf{p})p(\mathbf{p}\mid\boldsymbol{\alpha})\textrm{d}\mathbf{p} \\ &= \frac{\Gamma\left(\sum_k \alpha_k\right)} {\Gamma\left(N+\sum_k \alpha_k\right)}\prod_{k=1}^K\frac{\Gamma(c_{k}+\alpha_{k})}{\Gamma(\alpha_{k})} \end{align} $$ यह वितरण पदानुक्रमित बायेसियन मॉडल में एक महत्वपूर्ण भूमिका निभाता है, क्योंकि गिब्स नमूनाकरण  या वेरिएबल बेयस जैसे तरीकों का उपयोग करते हुए ऐसे मॉडल पर सांख्यिकीय अनुमान लगाते समय, डिरिचलेट पूर्व वितरण अक्सर हाशिए पर आ जाते हैं। अधिक विवरण के लिए डिरिचलेट-बहुराष्ट्रीय बंटन देखें।

पश्च भविष्य कहनेवाला वितरण
उपरोक्त मॉडल में एक नए अवलोकन का पश्च भविष्यवाणिय वितरण वह वितरण है जो एक नया अवलोकन है $$\tilde{x}$$ सेट दिया जाएगा $$\mathbb{X}$$ एन श्रेणीबद्ध टिप्पणियों की। जैसा कि डिरिचलेट-बहुराष्ट्रीय वितरण लेख में दिखाया गया है, इसका एक बहुत ही सरल रूप है: : $$ \begin{align} p(\tilde{x}=i\mid\mathbb{X},\boldsymbol{\alpha}) &= \int_{\mathbf{p}}p(\tilde{x}=i\mid\mathbf{p})\,p(\mathbf{p}\mid\mathbb{X},\boldsymbol{\alpha})\,\textrm{d}\mathbf{p} \\ &=\, \frac{c_i + \alpha_i}{N+\sum_k \alpha_k} \\ &=\, \mathbb{E}[p_i \mid \mathbb{X},\boldsymbol\alpha] \\ &\propto\, c_i + \alpha_i. \\ \end{align} $$ इस सूत्र और पिछले वाले के बीच विभिन्न संबंध हैं:
 * किसी विशेष श्रेणी को देखने की पिछली अनुमानित संभावना उस श्रेणी में पिछली टिप्पणियों के सापेक्ष अनुपात के समान है (पूर्व की छद्म टिप्पणियों सहित)। यह तार्किक समझ में आता है - सहज रूप से, हम उस श्रेणी के पहले से देखे गए आवृत्ति के अनुसार एक विशेष श्रेणी को देखने की अपेक्षा करेंगे।
 * पोस्टीरियर प्रेडिक्टिव प्रायिकता पोस्टीरियर डिस्ट्रीब्यूशन के अपेक्षित मूल्य के समान है। यह नीचे और अधिक समझाया गया है।
 * परिणामस्वरूप, इस सूत्र को किसी श्रेणी को देखने की पश्चगामी संभावना के रूप में व्यक्त किया जा सकता है, जो उस श्रेणी की कुल देखी गई संख्या के समानुपाती होती है, या किसी श्रेणी की अपेक्षित गणना श्रेणी की कुल देखी गई संख्या के समान होती है।, जहां पूर्व की छद्म टिप्पणियों को शामिल करने के लिए प्रेक्षित गणना की जाती है।

पश्चगामी भविष्यवाणिय संभाव्यता और 'पी' के पश्च वितरण के अपेक्षित मूल्य के बीच समानता का कारण उपरोक्त सूत्र की पुन: जांच से स्पष्ट है। जैसा कि पोस्टीरियर प्रेडिक्टिव डिस्ट्रीब्यूशन आर्टिकल में बताया गया है, पोस्टीरियर प्रेडिक्टिव प्रोबेबिलिटी के फॉर्मूले में पोस्टीरियर डिस्ट्रीब्यूशन के संबंध में अपेक्षित मान का रूप है:

\begin{align} p(\tilde{x}=i\mid\mathbb{X},\boldsymbol{\alpha}) &= \int_{\mathbf{p}}p(\tilde{x}=i\mid\mathbf{p})\,p(\mathbf{p}\mid\mathbb{X},\boldsymbol{\alpha})\,\textrm{d}\mathbf{p} \\ &=\, \operatorname{E}_{\mathbf{p}\mid\mathbb{X},\boldsymbol{\alpha}} \left[p(\tilde{x}=i\mid\mathbf{p})\right] \\ &=\, \operatorname{E}_{\mathbf{p}\mid\mathbb{X},\boldsymbol{\alpha}} \left[p_i\right] \\ &=\, \operatorname{E}[p_i \mid \mathbb{X},\boldsymbol\alpha]. \end{align} $$ उपरोक्त महत्वपूर्ण रेखा तीसरी है। दूसरा अपेक्षित मूल्य की परिभाषा से सीधे अनुसरण करता है। तीसरी पंक्ति विशेष रूप से श्रेणीबद्ध वितरण के लिए है, और इस तथ्य से अनुसरण करती है कि, श्रेणीबद्ध वितरण में विशेष रूप से, किसी विशेष मान i को देखने का अपेक्षित मान सीधे संबद्ध पैरामीटर p द्वारा निर्दिष्ट किया जाता हैi. चौथी पंक्ति केवल एक अलग संकेतन में तीसरे का पुनर्लेखन है, जो मापदंडों के पश्च वितरण के संबंध में की गई अपेक्षा के लिए आगे के संकेतन का उपयोग करता है।

डेटा बिंदुओं को एक-एक करके देखें और हर बार डेटा बिंदु का अवलोकन करने और पोस्टीरियर को अपडेट करने से पहले उनकी अनुमानित संभावना पर विचार करें। किसी दिए गए डेटा बिंदु के लिए, उस बिंदु की किसी श्रेणी को मानने की संभावना उस श्रेणी में पहले से मौजूद डेटा बिंदुओं की संख्या पर निर्भर करती है। इस परिदृश्य में, यदि किसी श्रेणी में घटना की उच्च आवृत्ति होती है, तो उस श्रेणी में नए डेटा बिंदुओं के शामिल होने की संभावना अधिक होती है - उसी श्रेणी को और समृद्ध करते हुए। इस प्रकार के परिदृश्य को अक्सर अधिमान्य लगाव (या अमीर अमीर हो जाता है) मॉडल कहा जाता है। यह कई वास्तविक दुनिया की प्रक्रियाओं को मॉडल करता है, और ऐसे मामलों में पहले कुछ डेटा बिंदुओं द्वारा किए गए विकल्पों का बाकी डेटा बिंदुओं पर बहुत अधिक प्रभाव पड़ता है।

पश्च सशर्त वितरण
गिब्स नमूनाकरण में, आम तौर पर बहु-चर बेयस नेटवर्क में सशर्त वितरण से आकर्षित करने की आवश्यकता होती है जहां प्रत्येक चर अन्य सभी पर सशर्त होता है। उन नेटवर्कों में जिनमें डिरिचलेट डिस्ट्रीब्यूशन प्रिअर्स (उदाहरण मिश्रण मॉडल और मिश्रण घटकों सहित मॉडल) के साथ श्रेणीबद्ध चर शामिल हैं, डिरिचलेट वितरण अक्सर नेटवर्क के ढह जाते हैं (सीमांत वितरण), जो किसी दिए गए पूर्व पर निर्भर विभिन्न श्रेणीबद्ध नोड्स के बीच निर्भरता का परिचय देता है ( विशेष रूप से, उनका संयुक्त वितरण एक डिरिचलेट-बहुराष्ट्रीय वितरण है)। ऐसा करने के कारणों में से एक यह है कि इस तरह के मामले में, एक श्रेणीबद्ध नोड का वितरण दूसरों को दिया गया है, शेष नोड्स का सटीक पश्च भविष्यवाणिय वितरण है।

यानी नोड्स के एक सेट के लिए $$\mathbb{X}$$, यदि विचाराधीन नोड के रूप में दर्शाया गया है $$x_n$$ और शेष के रूप में $$\mathbb{X}^{(-n)}$$, तब

\begin{align} p(x_n=i\mid\mathbb{X}^{(-n)},\boldsymbol{\alpha}) &=\, \frac{c_i^{(-n)} + \alpha_i}{N-1+\sum_i \alpha_i} &\propto\, c_i^{(-n)} + \alpha_i \end{align} $$ कहाँ $$c_i^{(-n)}$$ नोड n के अलावा अन्य नोड्स के बीच श्रेणी I वाले नोड्स की संख्या है।

नमूनाकरण
कई छद्म-यादृच्छिक संख्या नमूनाकरण # परिमित असतत वितरण हैं, लेकिन एक श्रेणीबद्ध वितरण से नमूना लेने का सबसे आम तरीका एक प्रकार का उलटा परिवर्तन नमूनाकरण का उपयोग करता है:

मान लें कि एक वितरण अज्ञात सामान्यीकरण स्थिरांक के साथ, कुछ अभिव्यक्ति के समानुपाती के रूप में व्यक्त किया गया है। कोई भी नमूना लेने से पहले, कुछ मान निम्नानुसार तैयार किए जाते हैं:
 * 1) प्रत्येक श्रेणी के लिए वितरण के असामान्य मान की गणना करें।
 * 2) उनका योग करें और प्रत्येक मान को इस राशि से विभाजित करें, ताकि उन्हें सामान्य किया जा सके।
 * 3) श्रेणियों पर किसी प्रकार का आदेश दें (उदाहरण के लिए एक सूचकांक जो 1 से k तक चलता है, जहां k श्रेणियों की संख्या है)।
 * 4) प्रत्येक मान को पिछले सभी मानों के योग के साथ बदलकर मानों को एक संचयी वितरण फ़ंक्शन (CDF) में बदलें। यह समय ओ (के) में किया जा सकता है। पहली श्रेणी के लिए परिणामी मान 0 होगा।

फिर, हर बार एक मूल्य का नमूना लेना आवश्यक है:
 * 1) 0 और 1 के बीच एक समान वितरण (निरंतर) संख्या चुनें।
 * 2) CDF में सबसे बड़ी संख्या का पता लगाएँ जिसका मान अभी चुनी गई संख्या से कम या उसके बराबर है। यह बाइनरी खोज द्वारा समय ओ (लॉग (के)) में किया जा सकता है।
 * 3) इस सीडीएफ मूल्य के अनुरूप श्रेणी लौटाएं।

यदि एक ही श्रेणीबद्ध वितरण से कई मूल्यों को निकालना आवश्यक है, तो निम्न दृष्टिकोण अधिक कुशल है। यह O(n) समय में n नमूने लेता है (यह मानते हुए कि O(1) सन्निकटन का उपयोग द्विपद वितरण से मान निकालने के लिए किया जाता है ).

 function draw_categorical(n) // जहाँ n श्रेणीबद्ध वितरण से निकाले जाने वाले नमूनों की संख्या है आर = 1 एस = 0 i के लिए 1 से k // जहाँ k श्रेणियों की संख्या है v = एक द्विपद (n, p[i] / r) वितरण से ड्रा // जहां p[i] श्रेणी i की संभावना है जे के लिए 1 से वी के लिए z[s++] = i // जहां z एक सरणी है जिसमें परिणाम संग्रहीत होते हैं एन = एन - वी आर = आर - पी [मैं] जेड में तत्वों को शफल (यादृच्छिक रूप से पुन: व्यवस्थित करें)। वापसी जेड 

गंबेल वितरण के माध्यम से नमूनाकरण
मशीन लर्निंग में श्रेणीबद्ध वितरण को पैरामीट्रिज करना विशिष्ट है, $$p_1,\ldots,p_k$$ में एक अप्रतिबंधित प्रतिनिधित्व के माध्यम से $$\mathbb{R}^k$$, जिनके घटक निम्न द्वारा दिए गए हैं:

\gamma_i = \log p_i + \alpha $$ कहाँ $$\alpha$$ कोई वास्तविक स्थिरांक है। इस प्रतिनिधित्व को देखते हुए, $$p_1,\ldots,p_k$$ सॉफ्टमैक्स फ़ंक्शन का उपयोग करके पुनर्प्राप्त किया जा सकता है, जिसे बाद में ऊपर वर्णित तकनीकों का उपयोग करके नमूना किया जा सकता है। हालाँकि एक अधिक प्रत्यक्ष नमूनाकरण विधि है जो Gumbel वितरण से नमूनों का उपयोग करती है। होने देना $$g_1,\ldots,g_k$$ मानक गंबेल वितरण से के स्वतंत्र ड्रॉ, फिर

c = \operatorname{arg\,max}\limits_i \left( \gamma_i + g_i \right) $$ वांछित श्रेणीबद्ध वितरण से एक नमूना होगा। (अगर $$u_i$$ मानक वर्दी वितरण (निरंतर) से एक नमूना है, तो $$g_i=-\log(-\log u_i)$$ मानक Gumbel वितरण से एक नमूना है।)

यह भी देखें

 * श्रेणीगत चर

संबंधित वितरण

 * डिरिचलेट वितरण
 * बहुपद वितरण
 * बर्नौली वितरण
 * डिरिचलेट-बहुराष्ट्रीय वितरण