पश्च पूर्वानुमानित वितरण

बायेसियन आँकड़ों में, पश्च भविष्य कहनेवाला वितरण देखे गए मूल्यों पर सशर्त संभावित न देखे गए मूल्यों का वितरण है। एन स्वतंत्र समान रूप से वितरित | आई.आई.डी. का एक सेट दिया गया है। टिप्पणियों $$\mathbf{X} = \{x_1, \dots, x_N\}$$, एक नया मान $$\tilde{x}$$ एक वितरण से निकाला जाएगा जो एक पैरामीटर पर निर्भर करता है $$\theta \in \Theta$$, कहाँ $$\Theta$$ पैरामीटर स्थान है.


 * $$p(\tilde{x}|\theta)$$

किसी एक सर्वोत्तम अनुमान को शामिल करना आकर्षक लग सकता है $$\hat{\theta}$$ के लिए $$\theta$$, लेकिन यह इसके बारे में अनिश्चितता को नजरअंदाज करता है $$\theta$$, और क्योंकि अनिश्चितता के स्रोत को नजरअंदाज कर दिया गया है, पूर्वानुमानित वितरण बहुत संकीर्ण होगा। दूसरे शब्दों में कहें तो, चरम मूल्यों की भविष्यवाणियाँ $$\tilde{x}$$ यदि उनके पश्च वितरण द्वारा दिए गए मापदंडों में अनिश्चितता को ध्यान में रखा जाए तो इसकी संभावना कम होगी।

एक पश्च भविष्य कहनेवाला वितरण के बारे में अनिश्चितता का कारण बनता है $$\theta$$. संभव का पश्च वितरण $$\theta$$ मूल्यों पर निर्भर करता है $$\mathbf{X}$$:

p(\theta|\mathbf{X}) $$ और पश्च भविष्य कहनेवाला वितरण $$\tilde{x}$$ दिया गया $$\mathbf{X}$$ सीमांत वितरण द्वारा वितरण की गणना की जाती है $$\tilde{x}$$ दिया गया $$\theta$$ के पश्च वितरण पर $$\theta$$ दिया गया $$\mathbf{X}$$:


 * $$p(\tilde{x}|\mathbf{X}) = \int_{\Theta} p(\tilde{x}|\theta) \, p(\theta|\mathbf{X}) \operatorname{d}\!\theta$$

क्योंकि यह अनिश्चितता का कारण बनता है $$\theta$$, पश्च भविष्य कहनेवाला वितरण आम तौर पर एक पूर्वानुमानित वितरण से अधिक व्यापक होगा जो एक सर्वोत्तम अनुमान में प्लग करता है $$\theta$$.

पूर्व बनाम पश्च भविष्य कहनेवाला वितरण
बायेसियन संदर्भ में, पूर्व पूर्वानुमानित वितरण, अपने पूर्व वितरण पर हाशिए पर रखे गए डेटा बिंदु का वितरण है। अर्थात यदि $$\tilde{x} \sim F(\tilde{x}|\theta)$$ और $$\theta \sim G(\theta|\alpha)$$, तो पूर्व पूर्वानुमानित वितरण संगत वितरण है $$H(\tilde{x}|\alpha)$$, कहाँ


 * $$p_H(\tilde{x}|\alpha) = \int_{\theta} p_F(\tilde{x}|\theta) \, p_G(\theta|\alpha) \operatorname{d}\!\theta$$

यह पश्चवर्ती पूर्वानुमानित वितरण के समान है, सिवाय इसके कि सीमांतीकरण (या समतुल्य, अपेक्षा) को पश्च वितरण के बजाय पूर्व वितरण के संबंध में लिया जाता है।

इसके अलावा, यदि पूर्व वितरण $$G(\theta|\alpha)$$ पूर्व संयुग्मी है, तो पश्च भविष्य कहनेवाला वितरण पूर्व पूर्वानुमानित वितरण के समान वितरण परिवार से संबंधित होगा। यह देखना आसान है. यदि पूर्व वितरण $$G(\theta|\alpha)$$ तो, संयुग्मी है


 * $$p(\theta|\mathbf{X},\alpha) = p_G(\theta|\alpha'),$$

यानी पश्च वितरण का भी संबंध है $$G(\theta|\alpha),$$ लेकिन बस एक अलग पैरामीटर के साथ $$\alpha'$$ मूल पैरामीटर के बजाय $$\alpha .$$ तब,



\begin{align} p(\tilde{x}|\mathbf{X},\alpha) & = \int_{\theta} p_F(\tilde{x}|\theta) \, p(\theta|\mathbf{X},\alpha) \operatorname{d}\!\theta \\ & = \int_{\theta} p_F(\tilde{x}|\theta) \, p_G(\theta|\alpha') \operatorname{d}\!\theta \\ & = p_H(\tilde{x}|\alpha') \end{align} $$ इसलिए, पश्च भविष्य कहनेवाला वितरण पूर्व पूर्वानुमानित वितरण के समान वितरण एच का अनुसरण करता है, लेकिन पूर्व वाले के लिए प्रतिस्थापित हाइपरपैरामीटर के पश्च मानों के साथ।

पूर्व पूर्वानुमानित वितरण एक मिश्रित वितरण के रूप में होता है, और वास्तव में डेटा पर निर्भरता जैसे किसी भी जटिल कारक की कमी के कारण अक्सर एक मिश्रित वितरण को परिभाषित करने के लिए उपयोग किया जाता है। $$\mathbf{X}$$ और दाम्पत्य का मुद्दा. उदाहरण के लिए, छात्र के टी-वितरण को ज्ञात माध्य μ लेकिन अज्ञात विचरण σ के साथ सामान्य वितरण के पूर्व पूर्वानुमानित वितरण के रूप में परिभाषित किया जा सकता है।x2, एक संयुग्मित पूर्व स्केल-व्युत्क्रम-ची-वर्ग वितरण के साथ σ पर रखा गयाx2, हाइपरपैरामीटर ν और σ के साथ2. परिणामी यौगिक वितरण $$t(x|\mu,\nu,\sigma^2)$$ वास्तव में एक गैर-मानकीकृत छात्र का टी-वितरण है, और इस वितरण के दो सबसे सामान्य मापदंडों में से एक का पालन करता है। फिर, अद्यतन हाइपरपैरामीटर के साथ संबंधित पश्च भविष्य कहनेवाला वितरण फिर से छात्र का टी होगा $$\nu', {\sigma^2}'$$ जो पश्च वितरण में दिखाई देते हैं, वे सीधे पश्च भविष्य कहनेवाला वितरण में भी दिखाई देते हैं।

कुछ मामलों में उपयुक्त यौगिक वितरण को उस पैरामीटर से भिन्न पैरामीटरीकरण का उपयोग करके परिभाषित किया जाता है जो वर्तमान समस्या में पूर्वानुमानित वितरण के लिए सबसे स्वाभाविक होगा। अक्सर इसका परिणाम यह होता है क्योंकि मिश्रित वितरण को परिभाषित करने के लिए उपयोग किया गया पूर्व वितरण वर्तमान समस्या में उपयोग किए गए वितरण से भिन्न होता है। उदाहरण के लिए, जैसा कि ऊपर बताया गया है, छात्र के टी-वितरण को विचरण पर रखे गए स्केल-व्युत्क्रम-ची-वर्ग वितरण के संदर्भ में परिभाषित किया गया था। हालाँकि, इस स्थिति में संयुग्म पूर्व के रूप में व्युत्क्रम गामा वितरण का उपयोग करना अधिक आम है। पैरामीटरीकरण को छोड़कर दोनों वास्तव में समतुल्य हैं; इसलिए, छात्र के टी-वितरण का उपयोग अभी भी पूर्वानुमानित वितरण के लिए किया जा सकता है, लेकिन हाइपरपैरामीटर को प्लग इन करने से पहले पुन: पैरामीटराइज़ किया जाना चाहिए।

घातांकीय परिवारों में
अधिकांश, लेकिन सभी नहीं, वितरण के सामान्य परिवार घातीय परिवार हैं। घातीय परिवारों में बड़ी संख्या में उपयोगी गुण होते हैं। इनमें से एक यह है कि सभी सदस्यों में संयुग्मित पूर्व वितरण होते हैं - जबकि बहुत कम अन्य वितरणों में संयुग्मित पूर्व होते हैं।

घातांकीय परिवारों में पूर्व पूर्वानुमानित वितरण
एक अन्य उपयोगी संपत्ति यह है कि एक घातीय पारिवारिक वितरण के पूर्व पूर्वानुमानित वितरण के अनुरूप यौगिक वितरण की संभाव्यता घनत्व फ़ंक्शन, इसके संयुग्मित पूर्व वितरण पर सीमांत वितरण को विश्लेषणात्मक रूप से निर्धारित किया जा सकता है। ये मान लीजिए $$F(x|\boldsymbol{\theta})$$ पैरामीटर वाले घातीय परिवार का सदस्य है $$\boldsymbol{\theta}$$ जो कि प्राकृतिक पैरामीटर के अनुसार पैरामीट्रिज्ड है $$\boldsymbol{\eta} = \boldsymbol{\eta}(\boldsymbol{\theta})$$, और के रूप में वितरित किया जाता है


 * $$p_F(x|\boldsymbol{\eta}) = h(x)g(\boldsymbol{\eta})e^{\boldsymbol{\eta}^{\rm T}\mathbf{T}(x)}$$

जबकि $$G(\boldsymbol{\eta}|\boldsymbol{\chi},\nu)$$ पूर्व उपयुक्त संयुग्म है, के रूप में वितरित किया गया


 * $$p_G(\boldsymbol{\eta}|\boldsymbol{\chi},\nu) = f(\boldsymbol{\chi},\nu)g(\boldsymbol{\eta})^\nu e^{\boldsymbol{\eta}^{\rm T}\boldsymbol{\chi}}$$

फिर पूर्व पूर्वानुमानित वितरण $$H$$ (कंपाउंडिंग का परिणाम $$F$$ साथ $$G$$) है



\begin{align} p_H(x|\boldsymbol{\chi},\nu) &= {\displaystyle \int\limits_\boldsymbol{\eta} p_F(x|\boldsymbol{\eta}) p_G(\boldsymbol{\eta}|\boldsymbol{\chi},\nu) \,\operatorname{d}\boldsymbol{\eta}} \\ &= {\displaystyle \int\limits_\boldsymbol{\eta} h(x)g(\boldsymbol{\eta})e^{\boldsymbol{\eta}^{\rm T}\mathbf{T}(x)} f(\boldsymbol{\chi},\nu)g(\boldsymbol{\eta})^\nu e^{\boldsymbol{\eta}^{\rm T}\boldsymbol{\chi}} \,\operatorname{d}\boldsymbol{\eta}} \\ &= {\displaystyle h(x) f(\boldsymbol{\chi},\nu) \int\limits_\boldsymbol{\eta} g(\boldsymbol{\eta})^{\nu+1} e^{\boldsymbol{\eta}^{\rm T}(\boldsymbol{\chi} + \mathbf{T}(x))} \,\operatorname{d}\boldsymbol{\eta}} \\ &= h(x) \dfrac{f(\boldsymbol{\chi},\nu)}{f(\boldsymbol{\chi} + \mathbf{T}(x), \nu+1)} \end{align} $$ अंतिम पंक्ति पिछले एक से अनुसरण करती है, यह पहचान कर कि इंटीग्रल के अंदर का फ़ंक्शन एक यादृच्छिक चर का घनत्व फ़ंक्शन है जिसे वितरित किया गया है $$G(\boldsymbol{\eta}| \boldsymbol{\chi} + \mathbf{T}(x), \nu+1)$$, सामान्यीकरण स्थिरांक फ़ंक्शन को छोड़कर $$f(\dots)\,$$. इसलिए एकीकरण का परिणाम सामान्यीकरण कार्य का व्युत्क्रम होगा।

उपरोक्त परिणाम पैरामीट्रिजेशन की पसंद से स्वतंत्र है $$\boldsymbol{\theta}$$, किसी के रूप में नहीं $$\boldsymbol{\theta}$$, $$\boldsymbol{\eta}$$ और $$g(\dots)\,$$ दिखाई पड़ना। ($$g(\dots)\,$$ पैरामीटर का एक फ़ंक्शन है और इसलिए यह पैरामीट्रिज़ेशन की पसंद के आधार पर अलग-अलग रूप धारण करेगा।) के मानक विकल्पों के लिए $$F$$ और $$G$$, प्राकृतिक मापदंडों के संदर्भ में फिर से लिखने के बजाय सामान्य मापदंडों के साथ सीधे काम करना अक्सर आसान होता है।

इंटीग्रल के ट्रैक्टेबल होने का कारण यह है कि इसमें पूर्व वितरण और संभावना के उत्पाद द्वारा परिभाषित घनत्व के सामान्यीकरण स्थिरांक की गणना करना शामिल है। जब दोनों पहले संयुग्मित होते हैं, तो उत्पाद एक पश्च वितरण होता है, और धारणा से, इस वितरण का सामान्यीकरण स्थिरांक ज्ञात होता है। जैसा कि ऊपर दिखाया गया है, यौगिक वितरण का घनत्व फ़ंक्शन एक विशेष रूप का अनुसरण करता है, जिसमें फ़ंक्शन का उत्पाद शामिल होता है $$h(x)$$ यह घनत्व फ़ंक्शन का हिस्सा बनता है $$F$$, सामान्यीकरण स्थिरांक के दो रूपों के भागफल के साथ $$G$$, एक पूर्व वितरण से प्राप्त हुआ और दूसरा पश्च वितरण से। बीटा-[[द्विपद वितरण]] इस बात का एक अच्छा उदाहरण है कि यह प्रक्रिया कैसे काम करती है।

ऐसे वितरणों की विश्लेषणात्मक सुगमता के बावजूद, वे स्वयं आमतौर पर घातीय परिवार के सदस्य नहीं होते हैं। उदाहरण के लिए, तीन-पैरामीटर छात्र का टी वितरण, बीटा-द्विपद वितरण और डिरिचलेट-बहुपद वितरण सभी घातीय-पारिवारिक वितरण (क्रमशः सामान्य वितरण, द्विपद वितरण और बहुपद वितरण) के पूर्वानुमानित वितरण हैं, लेकिन कोई भी घातांक का सदस्य नहीं है परिवार। कार्यात्मक निर्भरता की उपस्थिति के कारण इसे ऊपर देखा जा सकता है $$\boldsymbol{\chi} + \mathbf{T}(x)$$. एक घातीय-पारिवारिक वितरण में, संपूर्ण घनत्व फ़ंक्शन को तीन प्रकार के गुणक कारकों में अलग करना संभव होना चाहिए: (1) केवल चर वाले कारक, (2) केवल पैरामीटर वाले कारक, और (3) ऐसे कारक जिनका लघुगणक चर के बीच कारक होता है और पैरामीटर. की उपस्थिति $$\boldsymbol{\chi} + \mathbf{T}(x){\chi}$$ सामान्यीकरण कार्य होने तक यह असंभव हो जाता है $$f(\dots)\,$$या तो संबंधित तर्क को पूरी तरह से अनदेखा कर देता है या केवल अभिव्यक्ति के प्रतिपादक में इसका उपयोग करता है।

घातांकीय परिवारों में पश्च पूर्वानुमानित वितरण
जब एक संयुग्मित पूर्व का उपयोग किया जा रहा है, तो पश्च भविष्य कहनेवाला वितरण पूर्व पूर्वानुमानित वितरण के समान परिवार से संबंधित होता है, और पूर्व पूर्वानुमानित वितरण के सूत्र में पैरामीटर के पश्च वितरण के लिए अद्यतन हाइपरपैरामीटर को प्लग करके निर्धारित किया जाता है।. घातीय-पारिवारिक वितरण के लिए पश्च अद्यतन समीकरणों के सामान्य रूप का उपयोग करते हुए (घातांकीय परिवार#बायेसियन अनुमान देखें: संयुग्म वितरण), हम पश्च भविष्य कहनेवाला वितरण के लिए एक स्पष्ट सूत्र लिख सकते हैं:



\begin{array}{lcl} p(\tilde{x}|\mathbf{X},\boldsymbol{\chi},\nu) &=& p_H\left(\tilde{x}|\boldsymbol{\chi} + \mathbf{T}( \mathbf{X}), \nu+N\right) \end{array} $$ कहाँ


 * $$\mathbf{T}(\mathbf{X}) = \sum_{i=1}^N \mathbf{T}(x_i)$$

इससे पता चलता है कि अवलोकनों की एक श्रृंखला का पिछला पूर्वानुमानित वितरण, ऐसे मामले में जहां अवलोकन उचित संयुग्मित पूर्व के साथ एक घातीय परिवार का पालन करते हैं, ऊपर निर्दिष्ट पैरामीटर के साथ, यौगिक वितरण के समान ही संभाव्यता घनत्व होता है। अवलोकन स्वयं केवल रूप में ही प्रविष्ट होते हैं $$\mathbf{T}(\mathbf{X}) = \sum_{i=1}^N \mathbf{T}(x_i) .$$ इसे प्रेक्षणों का पर्याप्त आँकड़ा कहा जाता है, क्योंकि यह हमें वह सब कुछ बताता है जो हमें प्रेक्षणों के बारे में जानने की आवश्यकता है ताकि उनके आधार पर पश्च या पश्च भविष्य कहनेवाला वितरण की गणना की जा सके (या, उस मामले के लिए, संभावना फ़ंक्शन के आधार पर कुछ और भी) अवलोकन, जैसे कि सीमांत संभावना)।

संयुक्त पूर्वानुमानित वितरण, सीमांत संभावना
एक साझा पैरामीटर पर पूर्व वितरण के साथ स्वतंत्र समान रूप से वितरित नमूनों की एक निश्चित संख्या पर संयुक्त वितरण को संयोजित करने के परिणाम पर विचार करना भी संभव है। बायेसियन सेटिंग में, यह विभिन्न संदर्भों में सामने आता है: कई नए अवलोकनों के पूर्व या पश्च पूर्वानुमान वितरण की गणना करना, और देखे गए डेटा की सीमांत संभावना की गणना करना (बेयस कानून में हर)। जब नमूनों का वितरण घातीय परिवार से होता है और पूर्व वितरण संयुग्मित होता है, तो परिणामी यौगिक वितरण सुव्यवस्थित होगा और उपरोक्त अभिव्यक्ति के समान रूप का पालन करेगा। वास्तव में, यह दिखाना आसान है कि किसी सेट का संयुक्त यौगिक वितरण $$\mathbf{X} = \{x_1, \dots, x_N\}$$ के लिए $$N$$ अवलोकन है


 * $$p_H(\mathbf{X}|\boldsymbol{\chi},\nu) = \left( \prod_{i=1}^N h(x_i) \right) \dfrac{f(\boldsymbol{\chi},\nu)}{f\left(\boldsymbol{\chi} + \mathbf{T}(\mathbf{X}), \nu+N \right)}$$

यह परिणाम और एकल यौगिक वितरण के लिए उपरोक्त परिणाम वेक्टर-मूल्य वाले अवलोकन पर वितरण के मामले में तुच्छ रूप से विस्तारित होता है, जैसे कि बहुभिन्नरूपी गाऊसी वितरण।

गिब्स सैंपलिंग से संबंध
ढहे हुए गिब्स सैंपलर में एक नोड को ढहाना यौगिक वितरण के बराबर है। परिणामस्वरूप, जब स्वतंत्र समान रूप से वितरित (i.i.d.) नोड्स का एक सेट सभी एक ही पूर्व नोड पर निर्भर करता है, और वह नोड ढह जाता है, तो एक नोड की परिणामी सशर्त संभावना दूसरों के साथ-साथ ढहे हुए आउट के माता-पिता को भी देती है। नोड (लेकिन किसी अन्य नोड पर कंडीशनिंग नहीं, उदाहरण के लिए कोई चाइल्ड नोड) सभी शेष आईआईडी के पश्च पूर्वानुमानित वितरण के समान है। नोड्स (या अधिक सही ढंग से, पूर्व में आई.आई.डी. नोड्स, चूंकि ढहने से नोड्स के बीच निर्भरता का परिचय होता है)। अर्थात्, नोड के सभी माता-पिता को सीधे सभी बच्चों से जोड़कर, और प्रत्येक बच्चे से जुड़े पूर्व सशर्त संभाव्यता वितरण को उसके आधार पर वातानुकूलित बच्चे के लिए संबंधित पश्च भविष्य कहनेवाला वितरण के साथ प्रतिस्थापित करके एक नोड से ढहने को लागू करना आम तौर पर संभव है। माता-पिता और अन्य पूर्व आई.आई.डी. नोड्स जो हटाए गए नोड के बच्चे भी थे। उदाहरण के लिए, अधिक विशिष्ट चर्चा के लिए और कुछ पेचीदा मुद्दों के बारे में कुछ सावधानियों के लिए, डिरिचलेट-मल्टीनोमियल वितरण लेख देखें।

यह भी देखें

 * विश्वसनीयता सिद्धांत
 * यौगिक संभाव्यता वितरण
 * पूर्वानुमान
 * सीमांत संभाव्यता