प्रक्षेपण आव्यूह

सांख्यिकी में, प्रक्षेपण मैट्रिक्स $$(\mathbf{P})$$, कभी-कभी इसे प्रभाव मैट्रिक्स भी कहा जाता है या टोपी मैट्रिक्स $$(\mathbf{H})$$, प्रतिक्रिया चर (आश्रित चर मान) के वेक्टर को फिट किए गए मान (या अनुमानित मान) के वेक्टर में मैप करता है। यह प्रत्येक फिट मूल्य पर प्रत्येक प्रतिक्रिया मूल्य के प्रभाव फ़ंक्शन (सांख्यिकी) का वर्णन करता है। प्रक्षेपण मैट्रिक्स के विकर्ण तत्व उत्तोलन (सांख्यिकी) हैं, जो उसी अवलोकन के लिए फिट किए गए मूल्य पर प्रत्येक प्रतिक्रिया मूल्य के प्रभाव का वर्णन करते हैं।

परिभाषा
यदि रिस्पांस वेरिएबल के वेक्टर को निरूपित किया जाता है $$\mathbf{y}$$ और द्वारा फिट किए गए मानों का वेक्टर $$\mathbf{\hat{y}}$$,
 * $$\mathbf{\hat{y}} = \mathbf{P} \mathbf{y}.$$

जैसा $$\mathbf{\hat{y}}$$ आमतौर पर इसका उच्चारण y-hat, प्रक्षेपण मैट्रिक्स होता है $$\mathbf{P}$$ इसे हैट मैट्रिक्स भी कहा जाता है क्योंकि यह सिकमफ़्लक्स लगाता है $$\mathbf{y}$$.

ith पंक्ति और jth कॉलम में तत्व $$\mathbf{P}$$ जेवें प्रतिक्रिया मान और आईटीवें फिट मूल्य के बीच सहप्रसरण के बराबर है, जिसे पूर्व के विचरण से विभाजित किया जाता है:
 * $$p_{ij} = \frac{\operatorname{Cov}\left[ \hat{y}_i, y_j \right]}{\operatorname{Var}\left[y_j \right]}$$

अवशेषों के लिए आवेदन
आँकड़ों में त्रुटियों और अवशेषों के वेक्टर का सूत्र $$\mathbf{r}$$ प्रक्षेपण मैट्रिक्स का उपयोग करके भी संक्षिप्त रूप से व्यक्त किया जा सकता है:
 * $$\mathbf{r} = \mathbf{y} - \mathbf{\hat{y}} = \mathbf{y} - \mathbf{P} \mathbf{y} = \left( \mathbf{I} - \mathbf{P} \right) \mathbf{y}.$$

कहाँ $$\mathbf{I}$$ पहचान मैट्रिक्स है. गणित का सवाल $$\mathbf{M} \equiv \mathbf{I} - \mathbf{P}$$ इसे कभी-कभी अवशिष्ट निर्माता मैट्रिक्स या विनाशक मैट्रिक्स के रूप में जाना जाता है।

अवशेषों का सहप्रसरण मैट्रिक्स $$\mathbf{r}$$, त्रुटि प्रसार द्वारा, बराबर होता है
 * $$\mathbf{\Sigma}_\mathbf{r} = \left( \mathbf{I} - \mathbf{P} \right)^\textsf{T} \mathbf{\Sigma} \left( \mathbf{I}-\mathbf{P} \right)$$,

कहाँ $$\mathbf{\Sigma}$$ is the covariance matrix of the error vector (and by extension, the response vector as well). For the case of linear models with independent and identically distributed errors in which $$\mathbf{\Sigma} = \sigma^{2} \mathbf{I}$$, यह कम हो जाता है: :$$\mathbf{\Sigma}_\mathbf{r} = \left( \mathbf{I} - \mathbf{P} \right) \sigma^{2}$$.

अंतर्ज्ञान
चित्र से यह स्पष्ट है कि वेक्टर से निकटतम बिंदु $$\mathbf{b}$$ के कॉलम स्थान पर $$\mathbf{A}$$, है $$\mathbf{Ax}$$, और यह वह जगह है जहां हम कॉलम स्पेस के लिए ओर्थोगोनल रेखा खींच सकते हैं $$\mathbf{A}$$. वेक्टर जो मैट्रिक्स के कॉलम स्पेस के लिए ऑर्थोगोनल है, मैट्रिक्स ट्रांसपोज़ के शून्य स्थान में है, इसलिए
 * $$\mathbf{A}^\textsf{T}(\mathbf{b}-\mathbf{Ax}) = 0$$

वहां से, कोई पुनर्व्यवस्थित करता है, इसलिए
 * $$\begin{align}

&& \mathbf{A}^\textsf{T}\mathbf{b} &- \mathbf{A}^\textsf{T}\mathbf{Ax} = 0 \\ \Rightarrow && \mathbf{A}^\textsf{T}\mathbf{b} &= \mathbf{A}^\textsf{T}\mathbf{Ax} \\ \Rightarrow && \mathbf{x} &= \left(\mathbf{A}^\textsf{T}\mathbf{A}\right)^{-1}\mathbf{A}^\textsf{T}\mathbf{b} \end{align}$$ इसलिए, जब से $$\mathbf{x}$$ के कॉलम स्पेस पर है $$\mathbf{A}$$, प्रक्षेपण मैट्रिक्स, जो मानचित्रण करता है $$\mathbf{b}$$ पर $$\mathbf{x}$$ बस है $$\mathbf{A}$$, या $$\mathbf{A}\left(\mathbf{A}^\textsf{T}\mathbf{A}\right)^{-1}\mathbf{A}^\textsf{T}$$

रेखीय मॉडल
मान लीजिए कि हम रैखिक न्यूनतम वर्गों का उपयोग करके रैखिक मॉडल का अनुमान लगाना चाहते हैं। मॉडल को इस प्रकार लिखा जा सकता है
 * $$\mathbf{y} = \mathbf{X} \boldsymbol\beta + \boldsymbol\varepsilon,$$

कहाँ $$\mathbf{X}$$ व्याख्यात्मक चर (डिजाइन मैट्रिक्स) का मैट्रिक्स है, β अनुमान लगाए जाने वाले अज्ञात मापदंडों का वेक्टर है, और ε त्रुटि वेक्टर है।

कई प्रकार के मॉडल और तकनीकें इस फॉर्मूलेशन के अधीन हैं। कुछ उदाहरण रैखिक न्यूनतम वर्ग (गणित), स्प्लिन को चौरसाई करना, प्रतिगमन विभाजन, स्थानीय रिग्रेशन, स्थानीय प्रतिगमन और रैखिक फ़िल्टरिंग हैं।

सामान्य न्यूनतम वर्ग
जब प्रत्येक अवलोकन के लिए वजन समान होते हैं और आंकड़ों में त्रुटियां और अवशेष असंबंधित होते हैं, तो अनुमानित पैरामीटर होते हैं


 * $$\hat{\boldsymbol\beta} = \left( \mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{y},$$

तो फिट किए गए मान हैं


 * $$\hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol \beta} = \mathbf{X} \left( \mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{y}.$$

इसलिए, प्रोजेक्शन मैट्रिक्स (और हैट मैट्रिक्स) द्वारा दिया गया है


 * $$\mathbf{P} \equiv \mathbf{X} \left(\mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T}.$$

भारित और सामान्यीकृत न्यूनतम वर्ग
उपरोक्त को उन मामलों के लिए सामान्यीकृत किया जा सकता है जहां वजन समान नहीं हैं और/या त्रुटियां सहसंबद्ध हैं। मान लीजिए कि त्रुटियों का सहप्रसरण मैट्रिक्स Σ है। तब से



\hat{\mathbf\beta}_{\text{GLS}}= \left( \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1}\mathbf{y} $$.

टोपी मैट्रिक्स इस प्रकार है



\mathbf{H} = \mathbf{X}\left( \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1} $$ और फिर से ऐसा देखने को मिल सकता है $$H^2 = H\cdot H = H$$, हालाँकि अब यह सममित नहीं रह गया है।

गुण
प्रक्षेपण मैट्रिक्स में कई उपयोगी बीजगणितीय गुण हैं। रैखिक बीजगणित की भाषा में, प्रक्षेपण मैट्रिक्स डिज़ाइन मैट्रिक्स के स्तंभ स्थान पर ऑर्थोगोनल प्रक्षेपण है $$\mathbf{X}$$. (ध्यान दें कि $$\left( \mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T}$$ मूर-पेनरोज़ स्यूडोइनवर्स#पूर्ण रैंक है।) इस सेटिंग में प्रक्षेपण मैट्रिक्स के कुछ तथ्य निम्नानुसार संक्षेप में प्रस्तुत किए गए हैं: * $$\mathbf{u} = (\mathbf{I} - \mathbf{P})\mathbf{y},$$ और $$\mathbf{u} = \mathbf{y} - \mathbf{P} \mathbf{y} \perp \mathbf{X}.$$ रैखिक मॉडल के अनुरूप प्रक्षेपण मैट्रिक्स सममित मैट्रिक्स और निष्क्रिय मैट्रिक्स है, अर्थात, $$\mathbf{P}^2 = \mathbf{P}$$. हालांकि, यह मामला हमेशा नहीं होता है; स्थानीय प्रतिगमन में | स्थानीय रूप से भारित स्कैटरप्लॉट स्मूथिंग (LOESS), उदाहरण के लिए, हैट मैट्रिक्स सामान्य रूप से न तो सममित है और न ही निष्क्रिय है।
 * $$\mathbf{P}$$ सममित है, और ऐसा ही है $$\mathbf{M} \equiv \mathbf{I} - \mathbf{P}$$.
 * $$\mathbf{P}$$ निष्क्रिय है: $$\mathbf{P}^2 = \mathbf{P}$$, और ऐसे ही $$\mathbf{M}$$.
 * अगर $$\mathbf{X}$$ n × r मैट्रिक्स के साथ $$\operatorname{rank}(\mathbf{X}) = r$$, तब $$\operatorname{rank}(\mathbf{P}) = r$$
 * के eigenvalues $$\mathbf{P}$$ आर वाले से मिलकर बनता है और n − r शून्य, जबकि eigenvalues $$\mathbf{M}$$ से बना हुआ n − r और आर शून्य.
 * $$\mathbf{X}$$ के अंतर्गत अपरिवर्तनीय है $$\mathbf{P}$$ : $$\mathbf{P X} = \mathbf{X},$$ इस तरह $$\left( \mathbf{I} - \mathbf{P} \right) \mathbf{X} = \mathbf{0}$$.
 * $$\left( \mathbf{I} - \mathbf{P} \right) \mathbf{P} = \mathbf{P} \left( \mathbf{I} - \mathbf{P} \right) = \mathbf{0}.$$
 * $$\mathbf{P}$$ कुछ उप-स्थानों के लिए अद्वितीय है।

रैखिक मॉडल के लिए, प्रक्षेपण मैट्रिक्स का ट्रेस (रैखिक बीजगणित) रैंक (रैखिक बीजगणित) के बराबर है $$\mathbf{X}$$, जो रैखिक मॉडल के स्वतंत्र मापदंडों की संख्या है। LOESS जैसे अन्य मॉडलों के लिए जो अभी भी अवलोकनों में रैखिक हैं $$\mathbf{y}$$, प्रक्षेपण मैट्रिक्स का उपयोग मॉडल की स्वतंत्रता की डिग्री (सांख्यिकी)#प्रभावी स्वतंत्रता की डिग्री को परिभाषित करने के लिए किया जा सकता है।

प्रतिगमन विश्लेषण में प्रक्षेपण मैट्रिक्स के व्यावहारिक अनुप्रयोगों में लीवरेज (सांख्यिकी) और कुक की दूरी शामिल है, जो प्रभावशाली अवलोकनों की पहचान करने से संबंधित हैं, यानी अवलोकन जो प्रतिगमन के परिणामों पर बड़ा प्रभाव डालते हैं।

ब्लॉकवार सूत्र
मान लीजिए डिज़ाइन मैट्रिक्स $$X$$ स्तंभों द्वारा विघटित किया जा सकता है $$X = \begin{bmatrix} A & B \end{bmatrix}$$. टोपी या प्रक्षेपण ऑपरेटर को इस प्रकार परिभाषित करें $$P\{X\} = X \left(X^\textsf{T} X \right)^{-1} X^\textsf{T}$$. इसी प्रकार, अवशिष्ट ऑपरेटर को इस प्रकार परिभाषित करें $$M\{X\} = I - P\{X\}$$.

फिर प्रक्षेपण मैट्रिक्स को निम्नानुसार विघटित किया जा सकता है:
 * $$ P\{X\} = P\{A\} + P\{M\{A\} B\}, $$

कहाँ, उदा., $$P\{A\} = A \left(A^\textsf{T} A \right)^{-1} A^\textsf{T}$$ और $$M\{A\} = I - P\{A\}$$.

इस तरह के अपघटन के कई अनुप्रयोग हैं। शास्त्रीय अनुप्रयोग में $$A$$ सभी का स्तंभ है, जो किसी को प्रतिगमन में अवरोधन शब्द जोड़ने के प्रभावों का विश्लेषण करने की अनुमति देता है। अन्य उपयोग निश्चित प्रभाव मॉडल में है, जहां $$A$$ निश्चित प्रभाव शर्तों के लिए डमी चर का बड़ा विरल मैट्रिक्स है। हैट मैट्रिक्स की गणना करने के लिए कोई इस विभाजन का उपयोग कर सकता है $$X $$ स्पष्ट रूप से मैट्रिक्स बनाए बिना $$X$$, जो कंप्यूटर मेमोरी में फिट होने के लिए बहुत बड़ा हो सकता है।

यह भी देखें

 * प्रक्षेपण (रैखिक बीजगणित)
 * विद्यार्थीकृत अवशेष
 * स्वतंत्रता की डिग्री (सांख्यिकी)#स्वतंत्रता की प्रभावी डिग्री
 * माध्य और अनुमानित प्रतिक्रिया