बायेसियन रैखिक प्रतिगमन

बायेसियन रैखिक प्रतिगमन एक प्रकार का सशर्त मॉडलिंग है जिसमें एक चर का माध्य अन्य चर के रैखिक फ़ंक्शन द्वारा वर्णित किया जाता है, जिसका लक्ष्य प्रतिगमन गुणांक की पिछली संभावना प्राप्त करना है (साथ ही संभाव्यता वितरण का वर्णन करने वाले अन्य पैरामीटर भी प्राप्त करना है) regressand) और अंततः :wikt:regressand (अक्सर लेबल किया गया) की नमूना से बाहर भविष्यवाणी की अनुमति देता है $$y$$) सशर्त अपेक्षा प्रतिगामी मूल्यों का अवलोकन करती है (आमतौर पर)। $$X$$). इस मॉडल का सबसे सरल और सबसे व्यापक रूप से उपयोग किया जाने वाला संस्करण सामान्य रैखिक मॉडल है, जिसमें $$y$$ दिया गया $$X$$ सामान्य वितरण वितरित किया जाता है। इस मॉडल में, और मापदंडों के लिए पूर्व संभाव्यता की एक विशेष पसंद के तहत - तथाकथित संयुग्मित पूर्व - पश्च भाग को विश्लेषणात्मक रूप से पाया जा सकता है। अधिक मनमाने ढंग से चुने गए पूर्ववर्तियों के साथ, आमतौर पर पीछे वाले का अनुमान लगाना पड़ता है।

मॉडल सेटअप
एक मानक रैखिक प्रतिगमन समस्या पर विचार करें, जिसमें के लिए $$i = 1, \ldots, n$$ हम सशर्त संभाव्यता वितरण का माध्य निर्दिष्ट करते हैं $$y_i$$ एक दिया गया $$k \times 1$$ भविष्यवक्ता वेक्टर $$\mathbf{x}_i$$: $$y_{i} = \mathbf{x}_i^\mathsf{T} \boldsymbol\beta + \varepsilon_i,$$ कहाँ $$\boldsymbol\beta$$ एक है $$k \times 1$$ वेक्टर, और $$\varepsilon_i$$ क्या आई.आई.डी. सामान्य रूप से वितरित यादृच्छिक चर: $$\varepsilon_{i} \sim N(0, \sigma^2).$$ यह निम्नलिखित संभावना फ़ंक्शन से मेल खाता है:

$$\rho(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma^{2}) \propto (\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2} (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right).$$ सामान्य न्यूनतम वर्ग समाधान का उपयोग मूर-पेनरोज़ स्यूडोइनवर्स का उपयोग करके गुणांक वेक्टर का अनुमान लगाने के लिए किया जाता है: $$ \hat{\boldsymbol\beta} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{y}$$ कहाँ $$\mathbf{X}$$ है $$n \times k$$ डिज़ाइन मैट्रिक्स, जिसकी प्रत्येक पंक्ति एक भविष्यवक्ता वेक्टर है $$\mathbf{x}_i^\mathsf{T}$$; और $$\mathbf{y}$$ स्तंभ है $$n$$-वेक्टर $$[y_1 \; \cdots \; y_n]^\mathsf{T}$$.

यह एक बारंबारवादी दृष्टिकोण है, और यह मानता है कि कुछ सार्थक कहने के लिए पर्याप्त माप हैं $$\boldsymbol\beta$$. बायेसियन अनुमान दृष्टिकोण में, डेटा को पूर्व संभाव्यता वितरण के रूप में अतिरिक्त जानकारी के साथ पूरक किया जाता है। मापदंडों के बारे में पिछली संभावना प्राप्त करने के लिए बेयस प्रमेय के अनुसार मापदंडों के बारे में पूर्व धारणा को डेटा की संभावना फ़ंक्शन के साथ जोड़ा जाता है। $$\boldsymbol\beta$$ और $$\sigma$$. डोमेन और प्राथमिकता के आधार पर उपलब्ध जानकारी के आधार पर पूर्व अलग-अलग कार्यात्मक रूप ले सकता है।

चूंकि डेटा में दोनों शामिल हैं $$\mathbf{y}$$ और $$\mathbf{X}$$के वितरण पर ही फोकस है $$\mathbf{y}$$ सशर्त $$\mathbf{X}$$ औचित्य की आवश्यकता है. वास्तव में, पूर्ण बायेसियन विश्लेषण के लिए एक संयुक्त संभावना की आवश्यकता होगी $$\rho(\mathbf{y},\mathbf{X}\mid\boldsymbol\beta,\sigma^{2},\gamma)$$ एक पूर्व के साथ $$\rho(\beta,\sigma^{2},\gamma)$$, कहाँ $$\gamma$$ के वितरण के मापदंडों का प्रतीक है $$\mathbf{X}$$. केवल (कमजोर) बहिर्जातता की धारणा के तहत ही संयुक्त संभावना को शामिल किया जा सकता है $$\rho(\mathbf{y}\mid\boldsymbol\mathbf{X},\beta,\sigma^{2})\rho(\mathbf{X}\mid\gamma)$$. बाद वाले हिस्से को आमतौर पर असंयुक्त पैरामीटर सेट की धारणा के तहत नजरअंदाज कर दिया जाता है। इससे भी अधिक, क्लासिक धारणाओं के तहत $$\mathbf{X}$$ चुने हुए माने जाते हैं (उदाहरण के लिए, एक डिज़ाइन किए गए प्रयोग में) और इसलिए मापदंडों के बिना एक ज्ञात संभावना होती है।

संयुग्मित पूर्व वितरण
मनमाने पूर्व वितरण के लिए, पश्च वितरण के लिए कोई विश्लेषणात्मक समाधान नहीं हो सकता है। इस खंड में, हम एक तथाकथित संयुग्म पूर्व पर विचार करेंगे जिसके लिए पश्च वितरण विश्लेषणात्मक रूप से प्राप्त किया जा सकता है।

पहले से $$\rho(\boldsymbol\beta,\sigma^{2})$$ इस संभावना फ़ंक्शन से पहले संयुग्मित है यदि इसके संबंध में समान कार्यात्मक रूप है $$\boldsymbol\beta$$ और $$\sigma$$. चूँकि लॉग-संभावना द्विघात है $$\boldsymbol\beta$$, लॉग-संभावना को फिर से लिखा जाता है ताकि संभावना सामान्य हो जाए $$(\boldsymbol\beta-\hat{\boldsymbol\beta})$$. लिखना

$$\begin{align} (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta) &= [(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\mathbf{X} \hat{\boldsymbol\beta} - \mathbf{X} \boldsymbol\beta)]^\mathsf{T} [(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\mathbf{X} \hat{\boldsymbol\beta} - \mathbf{X} \boldsymbol\beta)] \\ &= (\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X})(\boldsymbol\beta - \hat{\boldsymbol\beta}) + \underbrace{2(\mathbf{X} \hat{\boldsymbol\beta} - \mathbf{X} \boldsymbol\beta)^\mathsf{T} (\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})}_{= \ 0}\\ &= (\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X})(\boldsymbol\beta - \hat{\boldsymbol\beta})\,. \end{align}$$ संभावना को अब इस रूप में पुनः लिखा गया है $$\rho(\mathbf{y}|\mathbf{X},\boldsymbol\beta,\sigma^{2}) \propto (\sigma^2)^{-\frac{v}{2}} \exp\left(-\frac{vs^{2}}{2{\sigma}^{2}}\right)(\sigma^2)^{-\frac{n-v}{2}} \exp\left(-\frac{1}{2{\sigma}^{2}}(\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X})(\boldsymbol\beta - \hat{\boldsymbol\beta})\right),$$ कहाँ $$vs^2 =(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) \quad \text{ and } \quad v = n-k,$$ कहाँ $$k$$ प्रतिगमन गुणांकों की संख्या है.

यह पूर्व के लिए एक फॉर्म सुझाता है: $$\rho(\boldsymbol\beta,\sigma^2) = \rho(\sigma^2)\rho(\boldsymbol\beta\mid\sigma^2),$$ कहाँ $$\rho(\sigma^2)$$ एक व्युत्क्रम-गामा वितरण है $$ \rho(\sigma^2) \propto (\sigma^2)^{-\frac{v_0}{2}-1} \exp\left(-\frac{v_0 s_0^2}{2\sigma^2}\right).$$ व्युत्क्रम-गामा वितरण लेख में प्रस्तुत संकेतन में, यह एक का घनत्व है $$ \text{Inv-Gamma}( a_0, b_0)$$ के साथ वितरण $$a_0=\tfrac{v_0}{2}$$ और $$b_0=\tfrac{1}{2} v_0s_0^2 $$ साथ $$v_0$$ और $$s_0^2$$ के पूर्व मूल्यों के रूप में $$v$$ और $$s^{2}$$, क्रमश। समान रूप से, इसे स्केल्ड व्युत्क्रम ची-वर्ग वितरण के रूप में भी वर्णित किया जा सकता है, $$\text{Scale-inv-}\chi^2(v_0, s_0^2).$$ आगे सशर्त पूर्व घनत्व $$\rho(\boldsymbol\beta|\sigma^{2})$$ एक सामान्य वितरण है,

$$ \rho(\boldsymbol\beta\mid\sigma^2) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T} \mathbf{\Lambda}_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right).$$ सामान्य वितरण के अंकन में, सशर्त पूर्व वितरण है $$ \mathcal{N}\left(\boldsymbol\mu_0, \sigma^2 \boldsymbol\Lambda_0^{-1}\right).$$

पश्च वितरण
पूर्व अब निर्दिष्ट के साथ, पश्च वितरण को इस प्रकार व्यक्त किया जा सकता है

$$ \begin{align} \rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) &\propto \rho(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma^2)\rho(\boldsymbol\beta\mid\sigma^2)\rho(\sigma^2) \\ & \propto (\sigma^2)^{-n/2} \exp\left(-\frac{1}{2{\sigma}^2}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right) (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta -\boldsymbol\mu_0)^\mathsf{T} \boldsymbol\Lambda_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right) (\sigma^2)^{-(a_0+1)} \exp\left(-\frac{b_0}{\sigma^2}\right) \end{align}$$ कुछ पुनर्व्यवस्था के साथ, पश्च को फिर से लिखा जा सकता है ताकि पश्च का मतलब हो $$\boldsymbol\mu_n$$ पैरामीटर वेक्टर का $$\boldsymbol\beta$$ न्यूनतम वर्ग अनुमानक के रूप में व्यक्त किया जा सकता है $$\hat{\boldsymbol\beta}$$ और पूर्व माध्य $$\boldsymbol\mu_0$$, पूर्व परिशुद्धता मैट्रिक्स द्वारा इंगित पूर्व की ताकत के साथ $$\boldsymbol\Lambda_0$$

$$\boldsymbol\mu_n = (\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X}\hat{\boldsymbol\beta}+\boldsymbol\Lambda_0\boldsymbol\mu_0) .$$ उसे उचित ठहराने के लिए $$\boldsymbol\mu_n$$ वास्तव में पिछला माध्य है, घातांक में द्विघात शब्दों को द्विघात रूप (सांख्यिकी) के रूप में फिर से व्यवस्थित किया जा सकता है $$\boldsymbol\beta - \boldsymbol\mu_n$$.

$$ (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta) + (\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T}\boldsymbol\Lambda_0(\boldsymbol\beta - \boldsymbol\mu_0) =(\boldsymbol\beta-\boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)(\boldsymbol\beta-\boldsymbol\mu_n)+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0 .$$ अब पश्च भाग को व्युत्क्रम-गामा वितरण के समय सामान्य वितरण के रूप में व्यक्त किया जा सकता है:

$$\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2{\sigma}^{2}}(\boldsymbol\beta - \boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\mathbf{\Lambda}_0)(\boldsymbol\beta - \boldsymbol\mu_n)\right) (\sigma^2)^{-\frac{n+2a_0}{2}-1} \exp\left(-\frac{2 b_0+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0 \boldsymbol\mu_0}{2\sigma^2}\right) .$$ इसलिए, पश्च वितरण को निम्नानुसार पैरामीट्रिज्ड किया जा सकता है। $$\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto \rho(\boldsymbol\beta \mid \sigma^2,\mathbf{y},\mathbf{X}) \rho(\sigma^2\mid\mathbf{y},\mathbf{X}), $$ जहां दो कारक के घनत्व के अनुरूप हैं $$ \mathcal{N}\left( \boldsymbol\mu_n, \sigma^2\boldsymbol\Lambda_n^{-1} \right)\,$$ और $$ \text{Inv-Gamma}\left(a_n,b_n \right) $$ वितरण, इनके द्वारा दिए गए मापदंडों के साथ

$$\boldsymbol\Lambda_n=(\mathbf{X}^\mathsf{T}\mathbf{X}+\mathbf{\Lambda}_0), \quad \boldsymbol\mu_n = (\boldsymbol\Lambda_n)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X} \hat{\boldsymbol\beta} + \boldsymbol\Lambda_0 \boldsymbol\mu_0) ,$$ $$a_n= a_0 + \frac{n}{2}, \qquad b_n=b_0+\frac{1}{2}(\mathbf{y}^\mathsf{T} \mathbf{y} + \boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0-\boldsymbol\mu_n^\mathsf{T} \boldsymbol\Lambda_n \boldsymbol\mu_n) .$$ जो बायेसियन अनुमान को पूर्व में निहित जानकारी और नमूने में निहित जानकारी के बीच एक समझौता दर्शाता है।

मॉडल साक्ष्य
मॉडल साक्ष्य $$p(\mathbf{y}\mid m)$$ मॉडल दिए गए डेटा की संभावना है $$m$$. इसे सीमांत संभावना और पूर्व पूर्वानुमानित घनत्व के रूप में भी जाना जाता है। यहां, मॉडल को संभावना फ़ंक्शन द्वारा परिभाषित किया गया है $$p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)$$ और मापदंडों पर पूर्व वितरण, यानी। $$p(\boldsymbol\beta,\sigma)$$. मॉडल साक्ष्य एक ही संख्या में कैप्चर करता है कि ऐसा मॉडल टिप्पणियों को कितनी अच्छी तरह समझाता है। इस खंड में प्रस्तुत बायेसियन रैखिक प्रतिगमन मॉडल के मॉडल साक्ष्य का उपयोग बायेसियन मॉडल तुलना द्वारा प्रतिस्पर्धी रैखिक मॉडल की तुलना करने के लिए किया जा सकता है। ये मॉडल भविष्यवक्ता चर की संख्या और मूल्यों के साथ-साथ मॉडल मापदंडों पर उनके पूर्ववर्तियों में भिन्न हो सकते हैं। मॉडल साक्ष्य द्वारा मॉडल जटिलता को पहले से ही ध्यान में रखा गया है, क्योंकि यह एकीकृत करके मापदंडों को हाशिए पर रख देता है $$p(\mathbf{y},\boldsymbol\beta,\sigma\mid\mathbf{X})$$ के सभी संभावित मूल्यों पर $$\boldsymbol\beta$$ और $$\sigma$$. $$p(\mathbf{y}|m)=\int p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)\, p(\boldsymbol\beta,\sigma)\, d\boldsymbol\beta\, d\sigma$$ इस अभिन्न की गणना विश्लेषणात्मक रूप से की जा सकती है और समाधान निम्नलिखित समीकरण में दिया गया है। $$p(\mathbf{y}\mid m)=\frac{1}{(2\pi)^{n/2}}\sqrt{\frac{\det(\boldsymbol\Lambda_0)}{\det(\boldsymbol\Lambda_n)}} \cdot \frac{b_0^{a_0}}{b_n^{a_n}} \cdot \frac{\Gamma(a_n)}{\Gamma(a_0)}$$ यहाँ $$\Gamma$$ गामा फ़ंक्शन को दर्शाता है। क्योंकि हमने पहले एक संयुग्म चुना है, सीमांत संभावना की गणना मनमाने मूल्यों के लिए निम्नलिखित समानता का मूल्यांकन करके आसानी से की जा सकती है $$\boldsymbol\beta$$ और $$\sigma$$. $$p(\mathbf{y}\mid m)=\frac{p(\boldsymbol\beta,\sigma|m)\, p(\mathbf{y} \mid \mathbf{X}, \boldsymbol\beta,\sigma,m)}{p(\boldsymbol\beta, \sigma \mid \mathbf{y},\mathbf{X},m)}$$ ध्यान दें कि यह समीकरण बेयस प्रमेय की पुनर्व्यवस्था के अलावा और कुछ नहीं है। पूर्व, संभावना और पश्च के लिए सूत्र सम्मिलित करने और परिणामी अभिव्यक्ति को सरल बनाने से ऊपर दी गई विश्लेषणात्मक अभिव्यक्ति प्राप्त होती है।

अन्य मामले
सामान्य तौर पर, विश्लेषणात्मक रूप से पश्च वितरण प्राप्त करना असंभव या अव्यावहारिक हो सकता है। हालाँकि, मोंटे कार्लो नमूनाकरण  जैसी अनुमानित बायेसियन गणना विधि द्वारा पश्च भाग का अनुमान लगाना संभव है या वैरिएबल बेयस।

विशेष मामला $$\boldsymbol\mu_0=0, \mathbf{\Lambda}_0 = c\mathbf{I}$$ रिज प्रतिगमन  कहा जाता है।

एक समान विश्लेषण बहुभिन्नरूपी प्रतिगमन के सामान्य मामले के लिए किया जा सकता है और इसका एक हिस्सा सहप्रसरण मैट्रिक्स के बायेसियन अनुमान के लिए प्रदान करता है: बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन देखें।

यह भी देखें

 * बेयस रैखिक आँकड़े
 * सीमित न्यूनतम वर्ग
 * न्यूनतम वर्गों को नियमित किया गया
 * तिखोनोव नियमितीकरण
 * स्पाइक और स्लैब चर चयन
 * कर्नेल नियमितीकरण की बायेसियन व्याख्या

बाहरी संबंध

 * Bayesian estimation of linear models (R programming wikibook). Bayesian linear regression as implemented in R.