बायेसियन रैखिक प्रतिगमन

बायेसियन रैखिक प्रतिगमन एक प्रकार का विभेदक मॉडल है जिसमें चर का माध्य अन्य चर के रैखिक फलन द्वारा वर्णित किया जाता है, जिसका लक्ष्य प्रतिगमन गुणांक (साथ ही प्रतिगमन के वितरण का वर्णन करने वाले अन्य मापदण्ड) की पश्‍चीय संभाव्यता प्राप्त करना है।) और अंततः रिग्रेसैंड (अधिकांशतः $$y$$ लेबल किया गया) की आउट-ऑफ़-सैंपल पूर्वानुमान की अनुमति देता है। प्रतिगामी मान का अवलोकन करती है (सामान्यतः$$X$$)। इस मॉडल का सबसे सरल और सबसे व्यापक रूप से उपयोग किया जाने वाला संस्करण सामान्य रैखिक मॉडल है, जिसमें $$y$$ दिया गया $$X$$ गाऊसी वितरित किया जाता है। इस मॉडल में, और मापदंडों के लिए पूर्ववर्ती संभाव्यता की विशेष पसंद के अनुसार - तथाकथित संयुग्मित पूर्ववर्ती - पश्च भाग को विश्लेषणात्मक रूप से पाया जा सकता है। अधिक अक्रमतः चुने गए पूर्ववर्तियों के साथ, सामान्यतः पश्च भाग का अनुमान लगाना पड़ता है।

मॉडल सेटअप
मानक रैखिक प्रतिगमन समस्या पर विचार करें, जिसमें $$i = 1, \ldots, n$$ के लिए हम सशर्त संभाव्यता वितरण का माध्य निर्दिष्ट $$y_i$$ करते हैं दिया गया $$k \times 1$$ पूर्वानुमान सदिश $$\mathbf{x}_i$$: $$y_{i} = \mathbf{x}_i^\mathsf{T} \boldsymbol\beta + \varepsilon_i,$$ जहाँ $$\boldsymbol\beta$$ एक $$k \times 1$$ सदिश है, और $$\varepsilon_i$$ स्वतंत्र और समान रूप से सामान्य वितरित यादृच्छिक चर: $$\varepsilon_{i} \sim N(0, \sigma^2).$$ यह निम्नलिखित संभाव्यता फलन से मेल खाता है:

$$\rho(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma^{2}) \propto (\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2} (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right).$$ सामान्य न्यूनतम वर्ग समाधान का उपयोग मूर-पेनरोज़ छद्म व्युत्क्रम का उपयोग करके गुणांक सदिश का अनुमान लगाने के लिए किया जाता है: $$ \hat{\boldsymbol\beta} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{y}$$ जहाँ $$\mathbf{X}$$, $$n \times k$$ अभिकल्प आव्यूह है, जिसकी प्रत्येक पंक्ति पूर्वानुमान सदिश $$\mathbf{x}_i^\mathsf{T}$$है; और $$\mathbf{y}$$ $$n$$-सदिश $$[y_1 \; \cdots \; y_n]^\mathsf{T}$$स्तंभ है,

यह बारंबारवादी दृष्टिकोण है, और यह मानता है कि कुछ सार्थक कहने के लिए $$\boldsymbol\beta$$ पर्याप्त माप हैं, बायेसियन अनुमान दृष्टिकोण में, आँकड़े को पूर्ववर्ती संभाव्यता वितरण के रूप में अतिरिक्त जानकारी के साथ पूरक किया जाता है। मापदंडों के बारे में पश्‍चीय संभाव्यता प्राप्त करने के लिए बेयस प्रमेय के अनुसार मापदंडों $$\boldsymbol\beta$$ और $$\sigma$$ के बारे में पूर्ववर्ती धारणा को आँकड़े की संभाव्यता फलन के साथ जोड़ा जाता है। प्रांत और प्राथमिकता के आधार पर उपलब्ध जानकारी के आधार पर पूर्ववर्ती अलग-अलग कार्यात्मक रूप ले सकता है।

चूंकि आँकड़े में $$\mathbf{y}$$ और $$\mathbf{X}$$ दोनों सम्मिलित हैं केवल $$\mathbf{X}$$ पर सशर्त $$\mathbf{y}$$ के वितरण पर ध्यान केंद्रित करने के लिए औचित्य की आवश्यकता है। वास्तव में, "पूर्ण" बायेसियन विश्लेषण के लिए संयुक्त संभाव्यता $$\rho(\mathbf{y},\mathbf{X}\mid\boldsymbol\beta,\sigma^{2},\gamma)$$ पूर्ववर्ती के साथ $$\rho(\beta,\sigma^{2},\gamma)$$ की आवश्यकता होगी, जहाँ $$\gamma$$ के वितरण के मापदंडों $$\mathbf{X}$$ का प्रतीक है, केवल (अदृढ़) बहिर्जातता की धारणा के अनुसार ही संयुक्त संभाव्यता को $$\rho(\mathbf{y}\mid\boldsymbol\mathbf{X},\beta,\sigma^{2})\rho(\mathbf{X}\mid\gamma)$$ में सम्मिलित किया जा सकता है। बाद वाले हिस्से को सामान्यतः असंयुक्त मापदण्ड उत्पन्न की धारणा के अनुसार नजरअंदाज कर दिया जाता है। इससे भी अधिक, उत्कृष्ट धारणाओं के अनुसार $$\mathbf{X}$$ चुने हुए माने जाते हैं (उदाहरण के लिए, डिज़ाइन किए गए प्रयोग में) और इसलिए मापदंडों के बिना ज्ञात संभाव्यता होती है।

संयुग्मित पूर्ववर्ती वितरण
यादृच्छिक पूर्ववर्ती वितरण के लिए, पश्च वितरण के लिए कोई विश्लेषणात्मक समाधान नहीं हो सकता है। इस खंड में, हम तथाकथित संयुग्म पूर्ववर्ती पर विचार करेंगे जिसके लिए पश्च वितरण विश्लेषणात्मक रूप से प्राप्त किया जा सकता है।

पहले से $$\rho(\boldsymbol\beta,\sigma^{2})$$ इस संभाव्यता फलन से पहले संयुग्मित है यदि इसके संबंध में $$\boldsymbol\beta$$ और $$\sigma$$समान कार्यात्मक रूप है, चूँकि लॉग-संभाव्यता द्विघात है $$\boldsymbol\beta$$, लॉग-संभाव्यता को फिर से लिखा जाता है जिससे कि संभाव्यता $$(\boldsymbol\beta-\hat{\boldsymbol\beta})$$ सामान्य हो जाए,

$$\begin{align} (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta) &= [(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\mathbf{X} \hat{\boldsymbol\beta} - \mathbf{X} \boldsymbol\beta)]^\mathsf{T} [(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\mathbf{X} \hat{\boldsymbol\beta} - \mathbf{X} \boldsymbol\beta)] \\ &= (\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X})(\boldsymbol\beta - \hat{\boldsymbol\beta}) + \underbrace{2(\mathbf{X} \hat{\boldsymbol\beta} - \mathbf{X} \boldsymbol\beta)^\mathsf{T} (\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})}_{= \ 0}\\ &= (\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) + (\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X})(\boldsymbol\beta - \hat{\boldsymbol\beta})\,. \end{align}$$ संभाव्यता को अब इस रूप में पुनः लिखा गया है $$\rho(\mathbf{y}|\mathbf{X},\boldsymbol\beta,\sigma^{2}) \propto (\sigma^2)^{-\frac{v}{2}} \exp\left(-\frac{vs^{2}}{2{\sigma}^{2}}\right)(\sigma^2)^{-\frac{n-v}{2}} \exp\left(-\frac{1}{2{\sigma}^{2}}(\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X})(\boldsymbol\beta - \hat{\boldsymbol\beta})\right),$$ जहाँ $$vs^2 =(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta})^\mathsf{T}(\mathbf{y}- \mathbf{X} \hat{\boldsymbol\beta}) \quad \text{ and } \quad v = n-k,$$ जहाँ $$k$$ प्रतिगमन गुणांकों की संख्या है.

यह पूर्ववर्ती के लिए विधि सुझाता है: $$\rho(\boldsymbol\beta,\sigma^2) = \rho(\sigma^2)\rho(\boldsymbol\beta\mid\sigma^2),$$ जहाँ $$\rho(\sigma^2)$$ व्युत्क्रम-गामा वितरण है $$ \rho(\sigma^2) \propto (\sigma^2)^{-\frac{v_0}{2}-1} \exp\left(-\frac{v_0 s_0^2}{2\sigma^2}\right).$$ व्युत्क्रम-गामा वितरण लेख में प्रस्तुत संकेतन में, यह $$ \text{Inv-Gamma}( a_0, b_0)$$ का घनत्व है  $$a_0=\tfrac{v_0}{2}$$ और $$b_0=\tfrac{1}{2} v_0s_0^2 $$ के साथ वितरण $$v_0$$ और $$s_0^2$$ के साथ पूर्ववर्ती मान के रूप में $$v$$ और $$s^{2}$$, क्रमश समान रूप से, इसे स्केल्ड व्युत्क्रम ची-वर्ग वितरण के रूप में भी वर्णित किया जा सकता है, $$\text{Scale-inv-}\chi^2(v_0, s_0^2).$$

आगे सशर्त पूर्ववर्ती घनत्व $$\rho(\boldsymbol\beta|\sigma^{2})$$ सामान्य वितरण है,

$$ \rho(\boldsymbol\beta\mid\sigma^2) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T} \mathbf{\Lambda}_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right).$$ सामान्य वितरण के अंकन में, सशर्त पूर्ववर्ती वितरण $$ \mathcal{N}\left(\boldsymbol\mu_0, \sigma^2 \boldsymbol\Lambda_0^{-1}\right).$$है।

पश्च वितरण
पूर्ववर्ती अब निर्दिष्ट के साथ, पश्च वितरण को इस प्रकार व्यक्त किया जा सकता है

$$ \begin{align} \rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) &\propto \rho(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma^2)\rho(\boldsymbol\beta\mid\sigma^2)\rho(\sigma^2) \\ & \propto (\sigma^2)^{-n/2} \exp\left(-\frac{1}{2{\sigma}^2}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right) (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta -\boldsymbol\mu_0)^\mathsf{T} \boldsymbol\Lambda_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right) (\sigma^2)^{-(a_0+1)} \exp\left(-\frac{b_0}{\sigma^2}\right) \end{align}$$ कुछ पुनर्व्यवस्था के साथ, पश्च को फिर से लिखा जा सकता है जिससे कि पश्च माध्य $$\boldsymbol\mu_n$$ मापदण्ड सदिश का $$\boldsymbol\beta$$ न्यूनतम वर्ग अनुमानक $$\hat{\boldsymbol\beta}$$ और पूर्ववर्ती माध्य $$\boldsymbol\mu_0$$ के रूप में व्यक्त किया जा सकता है, पूर्ववर्ती परिशुद्धता आव्यूह $$\boldsymbol\Lambda_0$$ द्वारा इंगित पूर्ववर्ती की ताकत के साथ

$$\boldsymbol\mu_n = (\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X}\hat{\boldsymbol\beta}+\boldsymbol\Lambda_0\boldsymbol\mu_0) .$$ उसे उचित ठहराने के लिए $$\boldsymbol\mu_n$$ वास्तव में पश्च माध्य है, घातांक में $$\boldsymbol\beta - \boldsymbol\mu_n$$द्विघात शब्दों को द्विघात रूप (सांख्यिकी) के रूप में फिर से व्यवस्थित किया जा सकता है.

$$ (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta) + (\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T}\boldsymbol\Lambda_0(\boldsymbol\beta - \boldsymbol\mu_0) =(\boldsymbol\beta-\boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)(\boldsymbol\beta-\boldsymbol\mu_n)+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0 .$$ अब पश्च भाग को व्युत्क्रम-गामा वितरण के समय सामान्य वितरण के रूप में व्यक्त किया जा सकता है:

$$\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2{\sigma}^{2}}(\boldsymbol\beta - \boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\mathbf{\Lambda}_0)(\boldsymbol\beta - \boldsymbol\mu_n)\right) (\sigma^2)^{-\frac{n+2a_0}{2}-1} \exp\left(-\frac{2 b_0+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0 \boldsymbol\mu_0}{2\sigma^2}\right) .$$ इसलिए, पश्च वितरण को निम्नानुसार प्राचलीकरण किया जा सकता है। $$\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto \rho(\boldsymbol\beta \mid \sigma^2,\mathbf{y},\mathbf{X}) \rho(\sigma^2\mid\mathbf{y},\mathbf{X}), $$ जहां दो कारक के घनत्व $$ \mathcal{N}\left( \boldsymbol\mu_n, \sigma^2\boldsymbol\Lambda_n^{-1} \right)\,$$ और $$ \text{Inv-Gamma}\left(a_n,b_n \right) $$ वितरण के अनुरूप हैं, इनके द्वारा दिए गए मापदंडों के साथ

$$\boldsymbol\Lambda_n=(\mathbf{X}^\mathsf{T}\mathbf{X}+\mathbf{\Lambda}_0), \quad \boldsymbol\mu_n = (\boldsymbol\Lambda_n)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X} \hat{\boldsymbol\beta} + \boldsymbol\Lambda_0 \boldsymbol\mu_0) ,$$ $$a_n= a_0 + \frac{n}{2}, \qquad b_n=b_0+\frac{1}{2}(\mathbf{y}^\mathsf{T} \mathbf{y} + \boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0-\boldsymbol\mu_n^\mathsf{T} \boldsymbol\Lambda_n \boldsymbol\mu_n) .$$ जो बायेसियन अनुमान को पूर्ववर्ती में निहित जानकारी और नमूने में निहित जानकारी के बीच समझौता दर्शाता है।

मॉडल साक्ष्य
मॉडल साक्ष्य $$p(\mathbf{y}\mid m)$$ मॉडल $$m$$ दिए गए आँकड़े की संभाव्यता है, इसे सीमांत संभाव्यता और पूर्ववर्ती पूर्वानुमानित घनत्व के रूप में भी जाना जाता है। यहां, मॉडल को संभाव्यता फलन $$p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)$$ द्वारा परिभाषित किया गया है और मापदंडों पर पूर्ववर्ती वितरण, अर्थात $$p(\boldsymbol\beta,\sigma)$$है। मॉडल साक्ष्य एक ही संख्या में अधिकृत करता है कि ऐसा मॉडल टिप्पणियों को कितनी अच्छी तरह समझाता है। इस खंड में प्रस्तुत बायेसियन रैखिक प्रतिगमन मॉडल के मॉडल साक्ष्य का उपयोग बायेसियन मॉडल तुलना द्वारा प्रतिस्पर्धी रैखिक मॉडल की तुलना करने के लिए किया जा सकता है। ये मॉडल पूर्वानुमान चर की संख्या और मान के साथ-साथ मॉडल मापदंडों पर उनके पूर्ववर्तियों में भिन्न हो सकते हैं। मॉडल साक्ष्य द्वारा मॉडल सम्मिश्रता को पहले से ही ध्यान में रखा गया है, क्योंकि यह $$\boldsymbol\beta$$ और $$\sigma$$ के सभी संभावित मान पर $$p(\mathbf{y},\boldsymbol\beta,\sigma\mid\mathbf{X})$$ को एकीकृत करके मापदंडों को उपांतित पर रख देता है। $$p(\mathbf{y}|m)=\int p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)\, p(\boldsymbol\beta,\sigma)\, d\boldsymbol\beta\, d\sigma$$ इस अभिन्न की गणना विश्लेषणात्मक रूप से की जा सकती है और समाधान निम्नलिखित समीकरण में दिया गया है। $$p(\mathbf{y}\mid m)=\frac{1}{(2\pi)^{n/2}}\sqrt{\frac{\det(\boldsymbol\Lambda_0)}{\det(\boldsymbol\Lambda_n)}} \cdot \frac{b_0^{a_0}}{b_n^{a_n}} \cdot \frac{\Gamma(a_n)}{\Gamma(a_0)}$$ यहाँ $$\Gamma$$ गामा फलन को दर्शाता है। क्योंकि हमने पहले संयुग्म चुना है, सीमांत संभाव्यता की गणना यादृच्छिक मान $$\boldsymbol\beta$$ और $$\sigma$$ के लिए निम्नलिखित समानता का मूल्यांकन करके आसानी से की जा सकती है, $$p(\mathbf{y}\mid m)=\frac{p(\boldsymbol\beta,\sigma|m)\, p(\mathbf{y} \mid \mathbf{X}, \boldsymbol\beta,\sigma,m)}{p(\boldsymbol\beta, \sigma \mid \mathbf{y},\mathbf{X},m)}$$ ध्यान दें कि यह समीकरण बेयस प्रमेय की पुनर्व्यवस्था के अलावा और कुछ नहीं है। पूर्ववर्ती, संभाव्यता और पश्च के लिए सूत्र सम्मिलित करने और परिणामी अभिव्यक्ति को सरल बनाने से ऊपर दी गई विश्लेषणात्मक अभिव्यक्ति प्राप्त होती है।

अन्य मामले
सामान्य तौर पर, विश्लेषणात्मक रूप से पश्च वितरण प्राप्त करना असंभव या अव्यावहारिक हो सकता है। हालाँकि, मोंटे कार्लो नमूनाकरण या वैरिएबल बेयस जैसी अनुमानित बायेसियन गणना विधि द्वारा पश्च भाग का अनुमान लगाना संभव है।

विशेष मामला $$\boldsymbol\mu_0=0, \mathbf{\Lambda}_0 = c\mathbf{I}$$ रिज प्रतिगमन कहा जाता है।

एक समान विश्लेषण बहुभिन्नरूपी प्रतिगमन के सामान्य मामले के लिए किया जा सकता है और इसका एक हिस्सा सहप्रसरण आव्यूह के बायेसियन अनुमान के लिए प्रदान करता है: बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन देखें।

यह भी देखें

 * बेयस रैखिक आँकड़े
 * सीमित न्यूनतम वर्ग
 * न्यूनतम वर्गों को नियमित किया गया
 * तिखोनोव नियमितीकरण
 * स्पाइक और स्लैब चर चयन
 * कर्नेल नियमितीकरण की बायेसियन व्याख्या

बाहरी संबंध

 * Bayesian estimation of linear models (R programming wikibook). Bayesian linear regression as implemented in R.