पश्च पूर्वानुमानित वितरण

बायेसियन आँकड़ों में, पश्च पूर्वानुमानित  वितरण देखे गए मानों  पर नियमानुसार संभावित न देखे गए मानों  का वितरण है।

N आई.आई.डी. का एक समुच्चय दिया गया अवलोकन $$\mathbf{X} = \{x_1, \dots, x_N\}$$ एक नया मान एक वितरण से निकाला जाएगा जो एक पैरामीटर $$\theta \in \Theta$$ पर निर्भर करता है, जहां $$\Theta$$ पैरामीटर स्पेस है.
 * $$p(\tilde{x}|\theta)$$

$$\theta$$ के लिए एक सर्वोत्तम अनुमान $$\hat{\theta}$$ जोड़ना आकर्षक लग सकता है, किंतु यह $$\theta$$ के बारे में अनिश्चितता को अनदेखा कर देता है, और क्योंकि अनिश्चितता के स्रोत को अनदेखा कर दिया जाता है, इसलिए पूर्वानुमानित वितरण बहुत संकीर्ण होता है । दूसरे विधि से कहें तो, यदि उनके पश्च वितरण द्वारा दिए गए मापदंडों में अनिश्चितता को ध्यान में रखा जाए, तो $$\tilde{x}$$ के वेरिएबल म मानों  की भविष्यवाणियों की संभावना कम होगी।

एक पश्च पूर्वानुमानित वितरण $$\theta$$ के बारे में अनिश्चितता का कारण बनता है। संभावित $$\theta$$ मानों का पश्च वितरण $$\mathbf{X}$$ पर निर्भर करता है।:

$$ p(\theta|\mathbf{X}) $$

और दिए गए $$\tilde{x}$$ के $$\mathbf{X}$$ के पश्च पूर्वानुमानित वितरण की गणना $$\mathbf{X}$$ दिए गए $$\theta$$ के पश्च वितरण की तुलना में दिए गए $$\theta$$ के $$\tilde{x}$$ के वितरण को मर्जीनिलाइज्द पर रखकर की जाती है।
 * $$p(\tilde{x}|\mathbf{X}) = \int_{\Theta} p(\tilde{x}|\theta) \, p(\theta|\mathbf{X}) \operatorname{d}\!\theta                                                     $$

क्योंकि यह $$\theta$$ के बारे में अनिश्चितता का कारण बनता है, पश्च पूर्वानुमानित वितरण समान्यत: एक पूर्वानुमानित वितरण से अधिक व्यापक होगा जो $$\theta$$ के लिए एकल सर्वोत्तम अनुमान में प्लग करता है।

पूर्व बनाम पश्च पूर्वानुमानित वितरण
बायेसियन संदर्भ में, पूर्व पूर्वानुमानित वितरण, अपने पूर्व वितरण पर मर्जीनिलाइज्द पर रखे गए डेटा बिंदु का वितरण है। अर्थात्, यदि $$\tilde{x} \sim F(\tilde{x}|\theta)$$ और $$\theta \sim G(\theta|\alpha)$$ तो पूर्व पूर्वानुमानित वितरण संगत वितरण $$H(\tilde{x}|\alpha)$$ है, जहाँ
 * $$p_H(\tilde{x}|\alpha) = \int_{\theta} p_F(\tilde{x}|\theta) \, p_G(\theta|\alpha) \operatorname{d}\!\theta$$

यह पश्चवर्ती पूर्वानुमानित वितरण के समान है, इसके अतिरिक्त कि सीमांतीकरण (या समतुल्य, अपेक्षा) को पश्च वितरण के अतिरिक्त पूर्व वितरण के संबंध में लिया जाता है।

इसके अतिरिक्त यदि पूर्व वितरण $$G(\theta|\alpha)$$ एक संयुग्मित पूर्व है, तो पश्च पूर्वानुमानित वितरण पूर्व पूर्वानुमानित वितरण के समान वितरण वर्ग से संबंधित होगा। यह देखना आसान है. यदि पूर्व वितरण $$G(\theta|\alpha)$$ संयुग्मी है, तो
 * $$p(\theta|\mathbf{X},\alpha) = p_G(\theta|\alpha'),$$

अथार्त पिछला वितरण भी $$G(\theta|\alpha),$$ से संबंधित है, किंतु मूल पैरामीटर $$\alpha .$$ के अतिरिक्त बस एक अलग पैरामीटर $$\alpha'$$' के साथ। तब,

\begin{align} p(\tilde{x}|\mathbf{X},\alpha) & = \int_{\theta} p_F(\tilde{x}|\theta) \, p(\theta|\mathbf{X},\alpha) \operatorname{d}\!\theta \\ & = \int_{\theta} p_F(\tilde{x}|\theta) \, p_G(\theta|\alpha') \operatorname{d}\!\theta \\ & = p_H(\tilde{x}|\alpha') \end{align} $$ इसलिए, पश्च पूर्वानुमानित वितरण पूर्व पूर्वानुमानित वितरण के समान वितरण एच का अनुसरण करता है, किंतु पूर्व वाले के लिए प्रतिस्थापित हाइपरपैरामीटर के पश्च मानों के साथ अनुसरण करता है ।

पूर्व पूर्वानुमानित वितरण एक मिश्रित वितरण के रूप में होता है, और वास्तव में इसका उपयोग अधिकांशतः एक मिश्रित वितरण को परिभाषित करने के लिए किया जाता है, क्योंकि किसी भी सम्मिश्र कारकों की कमी होती है जैसे कि डेटा पर निर्भरता $$\mathbf{X}$$ और संयुग्मता का उद्देश्य उदाहरण के लिए, छात्र के T-वितरण को ज्ञात माध्य μ किंतु अज्ञात विवेरिएबल ण σx2 के साथ एक सामान्य वितरण के पूर्व पूर्वानुमानित वितरण के रूप में परिभाषित किया जा सकता है, हाइपरपैरामीटर ν और σ2 के साथ σx2 पर रखे गए संयुग्मित पूर्व स्केल-व्युत्क्रम-ची-वर्ग वितरण के साथ यह परिणामी यौगिक वितरण $$t(x|\mu,\nu,\sigma^2)$$ वास्तव में एक गैर-मानकीकृत छात्र का t-वितरण है, और इस वितरण के दो सबसे सामान्य मापदंडों में से एक का अनुसरण करता है। फिर, संबंधित पश्च पूर्वानुमानित  वितरण फिर से छात्र का T होगा, अद्यतन हाइपरपैरामीटर $$\nu', {\sigma^2}'$$ के साथ जो पश्च वितरण में दिखाई देते हैं, वे सीधे पश्च पूर्वानुमानित वितरण में भी दिखाई देते हैं।।

कुछ स्थिति में उपयुक्त यौगिक वितरण को उस पैरामीटर से भिन्न पैरामीटरीकरण का उपयोग करके परिभाषित किया जाता है जो वर्तमान समस्या में पूर्वानुमानित वितरण के लिए सबसे स्वाभाविक होगा। अधिकांशतः इसका परिणाम यह होता है क्योंकि मिश्रित वितरण को परिभाषित करने के लिए उपयोग किया गया पूर्व वितरण वर्तमान समस्या में उपयोग किए गए वितरण से भिन्न होता है। उदाहरण के लिए, जैसा कि ऊपर बताया गया है, छात्र के T-वितरण को विवेरिएबल ण पर रखे गए स्केल-व्युत्क्रम-ची-वर्ग वितरण के संदर्भ में परिभाषित किया गया था। चूँकि  इस स्थिति में संयुग्म पूर्व के रूप में व्युत्क्रम गामा वितरण का उपयोग करना अधिक सामान्य है। पैरामीटरीकरण को छोड़कर दोनों वास्तव में समतुल्य हैं; इसलिए, छात्र के T-वितरण का उपयोग अभी भी पूर्वानुमानित वितरण के लिए किया जा सकता है, किंतु  हाइपरपैरामीटर को प्लग इन करने से पहले पुन: पैरामीटराइज़ किया जाना चाहिए।

घातांकीय वर्गों में
अधिकांश किंतु सभी नहीं वितरण के सामान्य वर्ग घातीय वर्ग हैं। घातीय वर्गों में बड़ी संख्या में उपयोगी गुण होते हैं। इनमें से एक यह है कि सभी सदस्यों में संयुग्मित पूर्व वितरण होते हैं - जबकि बहुत कम अन्य वितरणों में संयुग्मित पूर्व होते हैं।

घातांकीय वर्गों में पूर्व पूर्वानुमानित वितरण
अन्य उपयोगी संपत्ति यह है कि इसके संयुग्मित पूर्व वितरण पर सीमांत वितरण पर रखे गए एक घातांकीय पारिवारिक वितरण के पूर्व पूर्वानुमानित वितरण के अनुरूप यौगिक वितरण की संभाव्यता घनत्व फलन को विश्लेषणात्मक रूप से निर्धारित किया जा सकता है। मान लें कि $$F(x|\boldsymbol{\theta})$$ पैरामीटर $$\boldsymbol{\theta}$$ के साथ घातीय वर्ग का सदस्य है जो प्राकृतिक पैरामीटर $$\boldsymbol{\eta} = \boldsymbol{\eta}(\boldsymbol{\theta})$$ के अनुसार पैरामीट्रिज्ड है, और इसे इस प्रकार वितरित किया गया है


 * $$p_F(x|\boldsymbol{\eta}) = h(x)g(\boldsymbol{\eta})e^{\boldsymbol{\eta}^{\rm T}\mathbf{T}(x)}$$

जबकि $$G(\boldsymbol{\eta}|\boldsymbol{\chi},\nu)$$ पूर्व उपयुक्त संयुग्म है, के रूप में वितरित किया गया


 * $$p_G(\boldsymbol{\eta}|\boldsymbol{\chi},\nu) = f(\boldsymbol{\chi},\nu)g(\boldsymbol{\eta})^\nu e^{\boldsymbol{\eta}^{\rm T}\boldsymbol{\chi}}$$

फिर पूर्व पूर्वानुमानित वितरण $$H$$ (कंपाउंडिंग का परिणाम $$F$$ साथ $$G$$) है



\begin{align} p_H(x|\boldsymbol{\chi},\nu) &= {\displaystyle \int\limits_\boldsymbol{\eta} p_F(x|\boldsymbol{\eta}) p_G(\boldsymbol{\eta}|\boldsymbol{\chi},\nu) \,\operatorname{d}\boldsymbol{\eta}} \\ &= {\displaystyle \int\limits_\boldsymbol{\eta} h(x)g(\boldsymbol{\eta})e^{\boldsymbol{\eta}^{\rm T}\mathbf{T}(x)} f(\boldsymbol{\chi},\nu)g(\boldsymbol{\eta})^\nu e^{\boldsymbol{\eta}^{\rm T}\boldsymbol{\chi}} \,\operatorname{d}\boldsymbol{\eta}} \\ &= {\displaystyle h(x) f(\boldsymbol{\chi},\nu) \int\limits_\boldsymbol{\eta} g(\boldsymbol{\eta})^{\nu+1} e^{\boldsymbol{\eta}^{\rm T}(\boldsymbol{\chi} + \mathbf{T}(x))} \,\operatorname{d}\boldsymbol{\eta}} \\ &= h(x) \dfrac{f(\boldsymbol{\chi},\nu)}{f(\boldsymbol{\chi} + \mathbf{T}(x), \nu+1)} \end{align} $$

अंतिम पंक्ति पिछली पंक्ति का अनुसरण करती है, यह पहचान कर कि इंटीग्रल के अंदर का फलन सामान्यीकृत फलन $$f(\dots)\,$$ को छोड़कर,$$G(\boldsymbol{\eta}| \boldsymbol{\chi} + \mathbf{T}(x), \nu+1)$$ के रूप में वितरित एक यादृच्छिक वेरिएबल  का घनत्व फलन है। इसलिए एकीकरण का परिणाम सामान्यीकरण कार्य का व्युत्क्रम होगा।

उपरोक्त परिणाम $$\boldsymbol{\theta}$$ के पैरामीट्रिज़ेशन की पसंद से स्वतंत्र है, क्योंकि $$\boldsymbol{\theta}$$ $$\boldsymbol{\eta}$$ और $$g(\dots)\,$$ में से कोई भी दिखाई नहीं देता है। $$g(\dots)\,$$, पैरामीटर का एक फलन है और इसलिए पैरामीट्रिजेशन की पसंद के आधार पर अलग-अलग रूप धारण करेगा।) $$F$$ और $$G$$ के मानक विकल्पों के लिए, प्राकृतिक मापदंडों के संदर्भ में फिर से लिखने के अतिरीक्त सामान्य मापदंडों के साथ सीधे काम करना अधिकांशतः आसान होता है।

इंटीग्रल के ट्रैक्टेबल होने का कारण यह है कि इसमें पूर्व वितरण और संभावना के उत्पाद द्वारा परिभाषित घनत्व के सामान्यीकरण स्थिरांक की गणना करना सम्मिलित है। जब दोनों संयुग्मित होते हैं, तो उत्पाद एक पश्च वितरण होता है, और धारणा से, इस वितरण का सामान्यीकरण स्थिरांक ज्ञात होता है। जैसा कि ऊपर दिखाया गया है, यौगिक वितरण का घनत्व फलन एक विशेष रूप का अनुसरण करता है, जिसमें फलन $$h(x)$$ का उत्पाद सम्मिलित होता है जो $$F$$ के लिए घनत्व फलन का भाग बनता है, सामान्यीकरण के दो रूपों के भागफल के साथ "स्थिर" $$G$$, एक पूर्व वितरण से और दूसरा पश्च वितरण से प्राप्त हुआ है। बीटा-द्विपद वितरण इस बात का एक अच्छा उदाहरण है कि यह प्रक्रिया कैसे काम करती है।

ऐसे वितरणों की विश्लेषणात्मक सुगमता के बावजूद, वे स्वयं सामान्यतः घातीय वर्ग के सदस्य नहीं होते हैं। उदाहरण के लिए, तीन-पैरामीटर छात्र का T वितरण, बीटा-द्विपद वितरण और डिरिचलेट-मल्टीनोमियल वितरण सभी घातीय-पारिवारिक वितरण (क्रमशः सामान्य वितरण, द्विपद वितरण और बहुपद वितरण) के पूर्वानुमानित वितरण हैं, किंतु कोई भी घातांक का सदस्य नहीं है वर्ग । इसे $$\boldsymbol{\chi} + \mathbf{T}(x)$$ पर कार्यात्मक निर्भरता की उपस्थिति के कारण ऊपर देखा जा सकता है। एक घातीय-पारिवारिक वितरण में, संपूर्ण घनत्व फलन को तीन प्रकार के गुणक कारकों में अलग करना संभव होना चाहिए: (1) केवल वेरिएबल  वाले कारक, (2) केवल पैरामीटर वाले कारक, और (3) ऐसे कारक जिनका लघुगणक वेरिएबल  के बीच कारक होता है और पैरामीटर. $$\boldsymbol{\chi} + \mathbf{T}(x){\chi}$$ की उपस्थिति इसे असंभव बनाती है जब तक कि "सामान्यीकरण" फलन $$f(\dots)\,$$, या तो संबंधित तर्क को पूरी तरह से अनदेखा नहीं करता है या केवल अभिव्यक्ति के प्रतिपादक में इसका उपयोग करता है।

घातांकीय वर्ग ों में पश्च पूर्वानुमानित वितरण
जब एक संयुग्मित पूर्व का उपयोग किया जा रहा है, तो पश्च पूर्वानुमानित वितरण पूर्व पूर्वानुमानित वितरण के समान वर्ग से संबंधित होता है, और पूर्व पूर्वानुमानित वितरण के सूत्र में पैरामीटर के पश्च वितरण के लिए अद्यतन हाइपरपैरामीटर को प्लग करके निर्धारित किया जाता है।. घातीय-पारिवारिक वितरण के लिए पश्च अद्यतन समीकरणों के सामान्य रूप का उपयोग करते हुए (घातांकीय वर्ग या बायेसियन अनुमान देखें: संयुग्म वितरण), हम पश्च पूर्वानुमानित वितरण के लिए एक स्पष्ट सूत्र लिख सकते हैं:



\begin{array}{lcl} p(\tilde{x}|\mathbf{X},\boldsymbol{\chi},\nu) &=& p_H\left(\tilde{x}|\boldsymbol{\chi} + \mathbf{T}( \mathbf{X}), \nu+N\right) \end{array} $$ जहाँ


 * $$\mathbf{T}(\mathbf{X}) = \sum_{i=1}^N \mathbf{T}(x_i)$$

इससे पता चलता है कि अवलोकनों की एक श्रृंखला का पिछला पूर्वानुमानित वितरण, ऐसे स्थिति में जहां अवलोकन उचित संयुग्मित पूर्व के साथ एक घातीय वर्ग  का पालन करते हैं, ऊपर निर्दिष्ट पैरामीटर के साथ, यौगिक वितरण के समान ही संभाव्यता घनत्व होता है।

अवलोकन स्वयं केवल रूप में $$\mathbf{T}(\mathbf{X}) = \sum_{i=1}^N \mathbf{T}(x_i) .$$ ही प्रविष्ट होते हैं

इसे प्रेक्षणों का पर्याप्त डेटा कहा जाता है, क्योंकि यह हमें वह सब कुछ बताता है जो हमें प्रेक्षणों के बारे में जानने की आवश्यकता है जिससे  उनके आधार पर पश्च या पश्च पूर्वानुमानित वितरण की गणना की जा सकता है (या, उस स्थिति  के लिए, संभावना फलन के आधार पर कुछ और भी) अवलोकन, जैसे कि सीमांत संभावना)।

संयुक्त पूर्वानुमानित वितरण, सीमांत संभावना
एक साझा पैरामीटर पर पूर्व वितरण के साथ स्वतंत्र समान रूप से वितरित प्रतिरूपों की एक निश्चित संख्या पर संयुक्त वितरण को संयोजित करने के परिणाम पर विचार करना भी संभव है। बायेसियन सेटिंग  में, यह विभिन्न संदर्भों में सामने आता है: अनेक नए अवलोकनों के पूर्व या पश्च पूर्वानुमान वितरण की गणना करना, और देखे गए डेटा की सीमांत संभावना की गणना करना (बेयस नियम में हर)। जब प्रतिरूपों  का वितरण घातीय वर्ग से होता है और पूर्व वितरण संयुग्मित होता है, तो परिणामी यौगिक वितरण सुव्यवस्थित होगा और उपरोक्त अभिव्यक्ति के समान रूप का पालन करेगा। वास्तव में, यह दिखाना आसान है कि $$N$$ अवलोकनों के लिए एक समुच्चय  $$\mathbf{X} = \{x_1, \dots, x_N\}$$ का संयुक्त यौगिक वितरण है


 * $$p_H(\mathbf{X}|\boldsymbol{\chi},\nu) = \left( \prod_{i=1}^N h(x_i) \right) \dfrac{f(\boldsymbol{\chi},\nu)}{f\left(\boldsymbol{\chi} + \mathbf{T}(\mathbf{X}), \nu+N \right)}$$

यह परिणाम और एकल यौगिक वितरण के लिए उपरोक्त परिणाम सदिश-मान वाले अवलोकन पर वितरण के स्थिति में तुच्छ रूप से विस्तारित होता है, जैसे कि बहुभिन्नरूपी गाऊसी वितरण होता है।

गिब्स सैंपलिंग से संबंध
संक्षिप्त हुए गिब्स सैंपलर में एक नोड को संक्षिप्त यौगिक वितरण के समान है। परिणामस्वरूप, जब स्वतंत्र समान रूप से वितरित (i.i.d.) नोड्स का एक समुच्चय  सभी एक ही पूर्व नोड पर निर्भर करता है, और वह नोड संक्षिप्त जाता है, तो एक नोड की परिणामी नियमित संभावना दूसरों के साथ-साथ संक्षिप्तहुए आउट के माता-पिता को भी देती है। नोड (किंतु किसी अन्य नोड पर कंडीशनिंग नहीं, उदाहरण के लिए कोई चाइल्ड नोड) सभी शेष आईआईडी के पश्च पूर्वानुमानित वितरण के समान है। नोड्स (या अधिक सही रूप से, पूर्व में आई.आई.डी. नोड्स, चूंकि संक्षिप्त से नोड्स के बीच निर्भरता का परिचय होता है)। अर्थात्, नोड के सभी माता-पिता को सीधे सभी बच्चों से जोड़कर, और प्रत्येक बच्चे से जुड़े पूर्व नियमित संभाव्यता वितरण को उसके आधार पर वातानुकूलित बच्चे के लिए संबंधित पश्च पूर्वानुमानित वितरण के साथ प्रतिस्थापित करके एक नोड से संक्षिप्त को प्रयुक्त करना सामान्यतः संभव है। माता-पिता और अन्य पूर्व आई.आई.डी. नोड्स जो हटाए गए नोड के बच्चे भी थे। उदाहरण के लिए, अधिक विशिष्ट चर्चा के लिए और कुछ मुश्किल उद्देश्य के बारे में कुछ सावधानियों के लिए, डिरिचलेट-मल्टीनोमियल वितरण लेख देखें।

यह भी देखें

 * विश्वसनीयता सिद्धांत
 * यौगिक संभाव्यता वितरण
 * पूर्वानुमान
 * सीमांत संभाव्यता