बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन

आंकड़ों में, बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन एक है बहुभिन्नरूपी रैखिक प्रतिगमन के लिए बायेसियन अनुमान दृष्टिकोण, यानी रैखिक प्रतिगमन जहां अनुमानित परिणाम एकल अदिश यादृच्छिक चर के बजाय सहसंबद्ध यादृच्छिक चर का एक वेक्टर है। इस दृष्टिकोण का अधिक सामान्य उपचार एमएमएसई अनुमानक लेख में पाया जा सकता है।

विवरण
एक प्रतिगमन समस्या पर विचार करें जहां अनुमानित किया जाने वाला आश्रित चर एक वास्तविक-मूल्यवान अदिश राशि नहीं है, बल्कि सहसंबद्ध वास्तविक संख्याओं का एक एम-लंबाई वेक्टर है। जैसा कि मानक प्रतिगमन सेटअप में होता है, n अवलोकन होते हैं, जहां प्रत्येक अवलोकन i में k−1 व्याख्यात्मक चर होते हैं, जिन्हें एक वेक्टर में समूहीकृत किया जाता है $$\mathbf{x}_i$$ लंबाई k की (जहां अवरोधन गुणांक की अनुमति देने के लिए 1 के मान के साथ एक डमी वैरिएबल (सांख्यिकी) जोड़ा गया है)। इसे प्रत्येक अवलोकन के लिए एम संबंधित प्रतिगमन समस्याओं के एक सेट के रूप में देखा जा सकता है: $$\begin{align} y_{i,1} &= \mathbf{x}_i^\mathsf{T}\boldsymbol\beta_{1} + \epsilon_{i,1} \\ &\;\;\vdots \\ y_{i,m} &= \mathbf{x}_i^\mathsf{T}\boldsymbol\beta_{m} + \epsilon_{i,m} \end{align}$$ जहां त्रुटियों का सेट $$\{ \epsilon_{i,1}, \ldots, \epsilon_{i,m}\}$$ सभी सहसंबद्ध हैं. समान रूप से, इसे एकल प्रतिगमन समस्या के रूप में देखा जा सकता है जहां परिणाम एक पंक्ति वेक्टर है $$\mathbf{y}_i^\mathsf{T}$$ और प्रतिगमन गुणांक वैक्टर एक दूसरे के बगल में रखे गए हैं, इस प्रकार: $$\mathbf{y}_i^\mathsf{T} = \mathbf{x}_i^\mathsf{T}\mathbf{B} + \boldsymbol\epsilon_{i}^\mathsf{T}.$$ गुणांक मैट्रिक्स बी एक है $$k \times m$$ मैट्रिक्स जहां गुणांक वैक्टर $$\boldsymbol\beta_1,\ldots,\boldsymbol\beta_m$$ प्रत्येक प्रतिगमन समस्या के लिए क्षैतिज रूप से स्टैक किया गया है: $$\mathbf{B} = \begin{bmatrix} \begin{pmatrix} \\ \boldsymbol\beta_1 \\ \\ \end{pmatrix} \cdots \begin{pmatrix} \\ \boldsymbol\beta_m \\ \\ \end{pmatrix} \end{bmatrix} = \begin{bmatrix} \begin{pmatrix} \beta_{1,1} \\ \vdots \\ \beta_{k,1} \end{pmatrix} \cdots \begin{pmatrix} \beta_{1,m} \\ \vdots \\ \beta_{k,m} \end{pmatrix} \end{bmatrix} .$$ शोर वेक्टर $$\boldsymbol\epsilon_{i}$$ प्रत्येक अवलोकन के लिए i संयुक्त रूप से सामान्य है, ताकि किसी दिए गए अवलोकन के परिणाम सहसंबद्ध हों: $$\boldsymbol\epsilon_i \sim N(0, \boldsymbol\Sigma_{\epsilon}).$$ हम संपूर्ण प्रतिगमन समस्या को मैट्रिक्स रूप में इस प्रकार लिख सकते हैं: $$\mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{E},$$ जहां Y और E हैं $$n \times m$$ matrices. डिज़ाइन मैट्रिक्स X एक है $$n \times k$$ मानक रैखिक प्रतिगमन सेटअप के अनुसार, ऊर्ध्वाधर रूप से स्टैक्ड टिप्पणियों के साथ मैट्रिक्स: $$ \mathbf{X} = \begin{bmatrix} \mathbf{x}^\mathsf{T}_1 \\ \mathbf{x}^\mathsf{T}_2 \\ \vdots \\ \mathbf{x}^\mathsf{T}_n \end{bmatrix} = \begin{bmatrix} x_{1,1} & \cdots & x_{1,k} \\ x_{2,1} & \cdots & x_{2,k} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,k} \end{bmatrix}. $$ शास्त्रीय, बारंबारतावादी रैखिक न्यूनतम वर्ग (गणित) समाधान केवल प्रतिगमन गुणांक के मैट्रिक्स का अनुमान लगाना है $$\hat{\mathbf{B}}$$ मूर-पेनरोज़ छद्म व्युत्क्रम का उपयोग करना|मूर-पेनरोज़ छद्म व्युत्क्रम: $$ \hat{\mathbf{B}} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{Y}.$$ बायेसियन समाधान प्राप्त करने के लिए, हमें सशर्त संभावना निर्दिष्ट करने की आवश्यकता है और फिर उपयुक्त संयुग्म पूर्व को ढूंढना होगा। बायेसियन रैखिक प्रतिगमन के अविभाज्य मामले के साथ, हम पाएंगे कि हम एक प्राकृतिक सशर्त संयुग्म पूर्व निर्दिष्ट कर सकते हैं (जो पैमाने पर निर्भर है)।

आइए हम अपनी सशर्त संभावना को इस प्रकार लिखें $$\rho(\mathbf{E}|\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-n/2} \exp\left(-\tfrac{1}{2} \operatorname{tr}\left(\mathbf{E}^\mathsf{T} \mathbf{E} \boldsymbol\Sigma_{\epsilon}^{-1}\right) \right) ,$$ त्रुटि लिख रहा हूँ $$\mathbf{E}$$ के अनुसार $$\mathbf{Y},\mathbf{X},$$ और $$\mathbf{B}$$ पैदावार $$\rho(\mathbf{Y}|\mathbf{X},\mathbf{B},\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-n/2} \exp(-\tfrac{1}{2} \operatorname{tr}((\mathbf{Y}-\mathbf{X} \mathbf{B})^\mathsf{T} (\mathbf{Y}-\mathbf{X} \mathbf{B}) \boldsymbol\Sigma_{\epsilon}^{-1} ) ) ,$$ हम एक प्राकृतिक संयुग्म पूर्व-संयुक्त घनत्व की तलाश करते हैं $$\rho(\mathbf{B},\Sigma_{\epsilon})$$ जो संभावना के समान कार्यात्मक रूप का है। चूंकि संभावना द्विघात है $$\mathbf{B}$$, हम संभावना को फिर से लिखते हैं इसलिए यह सामान्य है $$(\mathbf{B}-\hat{\mathbf{B}})$$ (शास्त्रीय नमूना अनुमान से विचलन)।

बायेसियन रैखिक प्रतिगमन के समान तकनीक का उपयोग करते हुए, हम योग-वर्ग तकनीक के मैट्रिक्स-रूप का उपयोग करके घातीय शब्द को विघटित करते हैं। यहां, हालांकि, हमें मैट्रिक्स डिफरेंशियल कैलकुलस (क्रोनकर उत्पाद और वैश्वीकरण (गणित) परिवर्तन) का भी उपयोग करने की आवश्यकता होगी।

सबसे पहले, आइए हम संभाव्यता के लिए नई अभिव्यक्ति प्राप्त करने के लिए वर्गों का योग लागू करें: $$\rho(\mathbf{Y}|\mathbf{X},\mathbf{B},\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-(n-k)/2} \exp(-\operatorname{tr}(\tfrac{1}{2}\mathbf{S}^\mathsf{T} \mathbf{S} \boldsymbol\Sigma_{\epsilon}^{-1})) ,$$ $$\mathbf{S} = \mathbf{Y} - \mathbf{X}\hat{\mathbf{B}}$$ हम पूर्ववर्तियों के लिए एक सशर्त प्रपत्र विकसित करना चाहेंगे: $$\rho(\mathbf{B},\boldsymbol\Sigma_{\epsilon}) = \rho(\boldsymbol\Sigma_{\epsilon})\rho(\mathbf{B}|\boldsymbol\Sigma_{\epsilon}),$$ कहाँ $$\rho(\boldsymbol\Sigma_{\epsilon})$$ एक व्युत्क्रम-विशार्ट वितरण है और $$\rho(\mathbf{B}|\boldsymbol\Sigma_{\epsilon})$$ मैट्रिक्स में सामान्य वितरण का कुछ रूप है $$\mathbf{B}$$. यह वैश्वीकरण (गणित) परिवर्तन का उपयोग करके पूरा किया जाता है, जो मैट्रिक्स के एक फ़ंक्शन से संभावना को परिवर्तित करता है $$\mathbf{B}, \hat{\mathbf{B}}$$ वैक्टर के एक फ़ंक्शन के लिए $$\boldsymbol\beta = \operatorname{vec}(\mathbf{B}), \hat{\boldsymbol\beta} = \operatorname{vec}(\hat{\mathbf{B}})$$.
 * \boldsymbol\Sigma_{\epsilon}|^{-k/2} \exp(-\tfrac{1}{2} \operatorname{tr}((\mathbf{B}-\hat{\mathbf{B}})^\mathsf{T} \mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B}-\hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} ) )

लिखना $$\operatorname{tr}((\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T}\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_\epsilon^{-1}) = \operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T} \operatorname{vec}(\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} )$$ होने देना $$ \operatorname{vec}(\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} ) = (\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}}), $$ कहाँ $$\mathbf{A} \otimes \mathbf{B}$$ मैट्रिक्स ए और बी के क्रोनकर उत्पाद को दर्शाता है, बाहरी उत्पाद का एक सामान्यीकरण जो गुणा करता है $$m \times n$$ ए द्वारा मैट्रिक्स $$p \times q$$ एक उत्पन्न करने के लिए मैट्रिक्स $$mp \times nq$$ मैट्रिक्स, जिसमें दो मैट्रिक्स के तत्वों के उत्पादों का प्रत्येक संयोजन शामिल होता है।

तब $$\begin{align} &\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T} (\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}}) \\ &= (\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )(\boldsymbol\beta-\hat{\boldsymbol\beta}) \end{align}$$ जिससे ऐसी संभावना बनेगी जो सामान्य है $$(\boldsymbol\beta - \hat{\boldsymbol\beta})$$.

अधिक सुव्यवस्थित रूप में संभावना के साथ, अब हम एक प्राकृतिक (सशर्त) संयुग्म पूर्व पा सकते हैं।

संयुग्मित पूर्व वितरण
वेक्टरकृत चर का उपयोग करने से पहले प्राकृतिक संयुग्म $$\boldsymbol\beta$$ इस रूप का है: $$\rho(\boldsymbol\beta, \boldsymbol\Sigma_{\epsilon}) = \rho(\boldsymbol\Sigma_{\epsilon})\rho(\boldsymbol\beta|\boldsymbol\Sigma_{\epsilon}),$$ कहाँ $$ \rho(\boldsymbol\Sigma_{\epsilon}) \sim \mathcal{W}^{-1}(\mathbf V_0,\boldsymbol\nu_0)$$ और $$ \rho(\boldsymbol\beta|\boldsymbol\Sigma_{\epsilon}) \sim N(\boldsymbol\beta_0, \boldsymbol\Sigma_{\epsilon} \otimes \boldsymbol\Lambda_0^{-1}).$$

पश्च वितरण
उपरोक्त पूर्व और संभावना का उपयोग करते हुए, पश्च वितरण को इस प्रकार व्यक्त किया जा सकता है: $$\begin{align} \rho(\boldsymbol\beta,\boldsymbol\Sigma_{\epsilon}|\mathbf{Y},\mathbf{X}) \propto{}& |\boldsymbol\Sigma_{\epsilon}|^{-(\boldsymbol\nu_0 + m + 1)/2}\exp{(-\tfrac{1}{2}\operatorname{tr}(\mathbf V_0 \boldsymbol\Sigma_{\epsilon}^{-1}))} \\ &\times|\boldsymbol\Sigma_{\epsilon}|^{-k/2}\exp{(-\tfrac{1}{2} \operatorname{tr}((\mathbf{B}-\mathbf B_0)^\mathsf{T}\boldsymbol\Lambda_0(\mathbf{B}-\mathbf B_0)\boldsymbol\Sigma_{\epsilon}^{-1}))} \\ &\times|\boldsymbol\Sigma_{\epsilon}|^{-n/2}\exp{(-\tfrac{1}{2}\operatorname{tr}((\mathbf{Y}-\mathbf{XB})^\mathsf{T}(\mathbf{Y}-\mathbf{XB})\boldsymbol\Sigma_{\epsilon}^{-1}))}, \end{align}$$ कहाँ $$\operatorname{vec}(\mathbf B_0) = \boldsymbol\beta_0$$. शामिल शर्तें $$\mathbf{B}$$ (के साथ) समूहीकृत किया जा सकता है $$\boldsymbol\Lambda_0 = \mathbf{U}^\mathsf{T}\mathbf{U}$$) का उपयोग करना: $$\begin{align} & \left(\mathbf{B} - \mathbf B_0\right)^\mathsf{T} \boldsymbol\Lambda_0 \left(\mathbf{B} - \mathbf B_0\right) + \left(\mathbf{Y} - \mathbf{XB}\right)^\mathsf{T} \left(\mathbf{Y} - \mathbf{XB}\right) \\ ={}& \left(\begin{bmatrix}\mathbf Y \\ \mathbf U \mathbf B_0\end{bmatrix} - \begin{bmatrix}\mathbf{X}\\ \mathbf{U}\end{bmatrix}\mathbf{B}\right)^\mathsf{T} \left(\begin{bmatrix}\mathbf{Y}\\ \mathbf U \mathbf B_0\end{bmatrix}-\begin{bmatrix}\mathbf{X}\\ \mathbf{U}\end{bmatrix}\mathbf{B}\right) \\ ={}& \left(\begin{bmatrix}\mathbf Y \\ \mathbf U \mathbf B_0\end{bmatrix} - \begin{bmatrix}\mathbf{X}\\ \mathbf{U}\end{bmatrix}\mathbf B_n\right)^\mathsf{T}\left(\begin{bmatrix}\mathbf{Y}\\ \mathbf U \mathbf B_0\end{bmatrix}-\begin{bmatrix}\mathbf{X}\\ \mathbf{U}\end{bmatrix}\mathbf B_n\right) + \left(\mathbf B - \mathbf B_n\right)^\mathsf{T} \left(\mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0\right) \left(\mathbf{B}-\mathbf B_n\right) \\ ={}& \left(\mathbf{Y} - \mathbf X \mathbf B_n \right)^\mathsf{T} \left(\mathbf{Y} - \mathbf X \mathbf B_n\right) + \left(\mathbf B_0 - \mathbf B_n\right)^\mathsf{T} \boldsymbol\Lambda_0 \left(\mathbf B_0 - \mathbf B_n\right) + \left(\mathbf{B} - \mathbf B_n\right)^\mathsf{T} \left(\mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0\right)\left(\mathbf B - \mathbf B_n\right), \end{align}$$ साथ $$\mathbf B_n = \left(\mathbf{X}^\mathsf{T}\mathbf{X} + \boldsymbol\Lambda_0\right)^{-1}\left(\mathbf{X}^\mathsf{T} \mathbf{X} \hat{\mathbf{B}} + \boldsymbol\Lambda_0\mathbf B_0\right) = \left(\mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0\right)^{-1}\left(\mathbf{X}^\mathsf{T} \mathbf{Y} + \boldsymbol\Lambda_0 \mathbf B_0\right).$$ यह अब हमें पश्च भाग को अधिक उपयोगी रूप में लिखने की अनुमति देता है: $$\begin{align} \rho(\boldsymbol\beta,\boldsymbol\Sigma_{\epsilon}|\mathbf{Y},\mathbf{X}) \propto{}&|\boldsymbol\Sigma_{\epsilon}|^{-(\boldsymbol\nu_0 + m + n + 1)/2}\exp{(-\tfrac{1}{2}\operatorname{tr}((\mathbf V_0 + (\mathbf{Y}-\mathbf{XB_n})^\mathsf{T} (\mathbf{Y}-\mathbf{XB_n}) + (\mathbf B_n-\mathbf B_0)^\mathsf{T}\boldsymbol\Lambda_0(\mathbf B_n-\mathbf B_0))\boldsymbol\Sigma_{\epsilon}^{-1}))} \\ &\times|\boldsymbol\Sigma_{\epsilon}|^{-k/2}\exp{(-\tfrac{1}{2}\operatorname{tr}((\mathbf{B}-\mathbf B_n)^\mathsf{T} (\mathbf{X}^T\mathbf{X} + \boldsymbol\Lambda_0) (\mathbf{B}-\mathbf B_n)\boldsymbol\Sigma_{\epsilon}^{-1}))}. \end{align}$$ यह मैट्रिक्स सामान्य वितरण के समय व्युत्क्रम-विशार्ट वितरण का रूप लेता है: $$\rho(\boldsymbol\Sigma_{\epsilon}|\mathbf{Y},\mathbf{X}) \sim \mathcal{W}^{-1}(\mathbf V_n,\boldsymbol\nu_n)$$ और $$ \rho(\mathbf{B}|\mathbf{Y},\mathbf{X},\boldsymbol\Sigma_{\epsilon}) \sim \mathcal{MN}_{k,m}(\mathbf B_n, \boldsymbol\Lambda_n^{-1}, \boldsymbol\Sigma_{\epsilon}).$$ इस पश्च भाग के पैरामीटर इस प्रकार दिए गए हैं: $$\mathbf V_n = \mathbf V_0 + (\mathbf{Y}-\mathbf{XB_n})^\mathsf{T}(\mathbf{Y}-\mathbf{XB_n}) + (\mathbf B_n - \mathbf B_0)^\mathsf{T}\boldsymbol\Lambda_0(\mathbf B_n-\mathbf B_0)$$ $$\boldsymbol\nu_n = \boldsymbol\nu_0 + n$$ $$\mathbf B_n = (\mathbf{X}^\mathsf{T}\mathbf{X} + \boldsymbol\Lambda_0)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{Y} + \boldsymbol\Lambda_0\mathbf B_0)$$ $$\boldsymbol\Lambda_n = \mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0$$

यह भी देखें

 * बायेसियन रैखिक प्रतिगमन
 * मैट्रिक्स सामान्य वितरण