प्रक्षेपण आव्यूह

आधारभूत सांख्यिकी में, प्रक्षेपण आव्यूह $$(\mathbf{P})$$, कभी-कभी प्रभाव आव्यूह या हैट आव्यूह $$(\mathbf{H})$$ विभिन्न प्रयोजनों में उपयोग की जाती है। यह प्रतिक्रिया चर (आश्रित चर मान) के सदिश को फिट किए गए मान (या अनुमानित मान) के सदिश में मानचित्र करता है। यह प्रत्येक फिट मूल्य पर प्रत्येक प्रतिक्रिया मूल्य के प्रभाव फलन (सांख्यिकी) का वर्णन करता है। प्रक्षेपण आव्यूह के विकर्ण तत्व उत्तबलन (सांख्यिकी) हैं, जो उसी अवलोकन के लिए फिट किए गए मूल्य पर प्रत्येक प्रतिक्रिया मूल्य के प्रभाव का वर्णन करते हैं।

परिभाषा
यदि प्रतिक्रिया मूल्यों का सदिश द्वारा निरूपित किया जाता है $$\mathbf{y}$$ और पूर्वानुमानित मूल्यों का सदिश $$\mathbf{\hat{y}}$$ है, तब
 * $$\mathbf{\hat{y}} = \mathbf{P} \mathbf{y}.$$

जैसा कि $$\mathbf{\hat{y}}$$ को सामान्यतः "वाई-हैट" के रूप में उच्चारित किया जाता है, प्रक्षेपण आव्यूह $$\mathbf{P}$$ भी "हैट आव्यूह" के नाम से जानी जाती है, क्योंकि यह $$\mathbf{y}$$ पर "हैट" लगाती है।

$$\mathbf{P}$$ के ith वर्ग और jth स्तंभ में तत्व जो इस समान अवलोकन के लिए पूर्वानुमानित मूल्यों और उत्तर में वह पूर्वानुमानित मूल्यों के बीच सहप्रसरण है, उसे खण्ड व्युत्क्रमण कहा जाता है:
 * $$p_{ij} = \frac{\operatorname{Cov}\left[ \hat{y}_i, y_j \right]}{\operatorname{Var}\left[y_j \right]}$$

अवशेषों के लिए आवेदन
आँकड़ों में त्रुटियों और अवशेषों के सदिश का सूत्र $$\mathbf{r}$$ प्रक्षेपण आव्यूह का उपयोग करके भी संक्षिप्त रूप से व्यक्त किया जा सकता है:
 * $$\mathbf{r} = \mathbf{y} - \mathbf{\hat{y}} = \mathbf{y} - \mathbf{P} \mathbf{y} = \left( \mathbf{I} - \mathbf{P} \right) \mathbf{y}.$$

यहाँ $$\mathbf{I}$$ आईडेंटिटी आव्यूह है। आव्यूह $$\mathbf{M} \equiv \mathbf{I} - \mathbf{P}$$ इसे कभी-कभी अवशिष्ट निर्माता आव्यूह या विनाशक आव्यूह के रूप में जाना जाता है।

अवशेषों का सहप्रसरण आव्यूह $$\mathbf{r}$$ के लिए, त्रुटि प्रसार द्वारा, निम्नलिखित होता है:
 * $$\mathbf{\Sigma}_\mathbf{r} = \left( \mathbf{I} - \mathbf{P} \right)^\textsf{T} \mathbf{\Sigma} \left( \mathbf{I}-\mathbf{P} \right)$$,

यहाँ $$\mathbf{\Sigma}$$ त्रुटि सदिश के सहप्रसरण आव्यूह है (और विस्तार से प्रतिक्रिया सदिश का भी)। स्वतंत्र और समान रूप से वितरित त्रुटियों वाले रैखिक मॉडल के स्थितियों में $$\mathbf{\Sigma} = \sigma^{2} \mathbf{I}$$, इसे यह घटाया जा सकता है:

$$\mathbf{\Sigma}_\mathbf{r} = \left( \mathbf{I} - \mathbf{P} \right) \sigma^{2}$$.

अंतर्ज्ञान
चित्र से यह स्पष्ट है कि सदिश $$\mathbf{b}$$ के लिए $$\mathbf{A}$$ के स्तंभ स्थान का सबसे निकटतम बिंदु $$\mathbf{Ax}$$ है, और यह बिंदु है जहां हम $$\mathbf{A}$$ के स्तंभ स्थान के लिए लाइन लंबकोण खींच सकते हैं। आव्यूह के स्तंभ स्थान के लिए लंबकोण खींचा गया सदिश उस आव्यूह के प्रतिरोध स्थान में होता है, इसलिए
 * $$\mathbf{A}^\textsf{T}(\mathbf{b}-\mathbf{Ax}) = 0$$

होता है। इसके पश्चात्, हम इसे पुनर्व्यवस्थित करते हैं, इससे
 * $$\begin{align}

&& \mathbf{A}^\textsf{T}\mathbf{b} &- \mathbf{A}^\textsf{T}\mathbf{Ax} = 0 \\ \Rightarrow && \mathbf{A}^\textsf{T}\mathbf{b} &= \mathbf{A}^\textsf{T}\mathbf{Ax} \\ \Rightarrow && \mathbf{x} &= \left(\mathbf{A}^\textsf{T}\mathbf{A}\right)^{-1}\mathbf{A}^\textsf{T}\mathbf{b} \end{align}$$ इसलिए, जब से $$\mathbf{x}$$ के कॉलम स्पेस $$\mathbf{A}$$ पर है, प्रक्षेपण आव्यूह, जो मानचित्रण करता है $$\mathbf{b}$$ को $$\mathbf{x}$$ के स्तंभ स्थान पर मान निर्धारित करता है, बस $$\mathbf{A}$$ है, या $$\mathbf{A}\left(\mathbf{A}^\textsf{T}\mathbf{A}\right)^{-1}\mathbf{A}^\textsf{T}$$होता है।

रेखीय मॉडल
मान लीजिए कि हम रैखिक न्यूनतम वर्गों का उपयोग करके रैखिक मॉडल का अनुमान लगाना चाहते हैं। मॉडल को निम्नलिखित रूप में लिखा जा सकता है:
 * $$\mathbf{y} = \mathbf{X} \boldsymbol\beta + \boldsymbol\varepsilon,$$

जहाँ $$\mathbf{X}$$ व्याख्यात्मक चर (डिजाइन आव्यूह) का आव्यूह है, β अज्ञात पैरामीटर का सदिश है जिसे अनुमानित किया जाना है, और ε त्रुटि सदिश है।

इस प्रपत्रणा के अधीन अनेक प्रकार के मॉडल और विधि हो सकते हैं। कुछ उदाहरण रैखिक न्यूनतम वर्ग (गणित), स्प्लिन को चौरसाई करना, प्रतिगमन विभाजन, स्थानीय रिग्रेशन, स्थानीय प्रतिगमन और रैखिक फिल्टर हैं।

सामान्य न्यूनतम वर्ग
जब प्रत्येक अवलोकन के लिए वजन समान होते हैं और त्रुटियां असंबद्ध होती हैं, तब अनुमानित पैरामीटर दिए गए होते हैं:


 * $$\hat{\boldsymbol\beta} = \left( \mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{y},$$

इसलिए फिटेड मान होते हैं:


 * $$\hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol \beta} = \mathbf{X} \left( \mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{y}.$$

इसलिए, प्रक्षेपण आव्यूह (और हैट आव्यूह) निम्नलिखित द्वारा दी जाती है:


 * $$\mathbf{P} \equiv \mathbf{X} \left(\mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T}.$$

भारित और सामान्यीकृत न्यूनतम वर्ग
उपरोक्त को उन स्थितियों के लिए सामान्यीकृत किया जा सकता है जहां वजन समान नहीं हैं और/या त्रुटियां सहसंबद्ध हैं। मान लीजिए कि त्रुटियों का सहप्रसरण आव्यूह Σ है। तब क्योंकि



\hat{\mathbf\beta}_{\text{GLS}}= \left( \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1}\mathbf{y} $$.

है, इसलिए प्रक्षेपण आव्यूह इस प्रकार होती है:



\mathbf{H} = \mathbf{X}\left( \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T} \mathbf{\Sigma}^{-1} $$ और फिर यह देखा जा सकता है कि $$H^2 = H\cdot H = H$$, चूंकि अब यह सममित नहीं रह गया है।

गुण
प्रक्षेपण आव्यूह में अनेक उपयोगी बीजगणितीय गुणधर्म हैं। रैखिक बीजगणित की भाषा में, प्रक्षेपण आव्यूह डिज़ाइन आव्यूह $$\mathbf{X}$$ के स्तंभ स्थान पर ऑर्थोगोनल प्रक्षेपण है। (ध्यान दें कि $$\left( \mathbf{X}^\textsf{T} \mathbf{X} \right)^{-1} \mathbf{X}^\textsf{T}$$ डीडूर्वारा यह पसुचित जोरदार आव्यूह है।) इस संस्करण में प्रोजेक्शन आव्यूह के कुछ तथ्य संक्षेप में निम्नलिखित हैं: * $$\mathbf{u} = (\mathbf{I} - \mathbf{P})\mathbf{y},$$ और $$\mathbf{u} = \mathbf{y} - \mathbf{P} \mathbf{y} \perp \mathbf{X}.$$ रैखिक मॉडल के अनुरूप प्रक्षेपण आव्यूह सममित आव्यूह और निष्क्रिय आव्यूह होती है, अर्थात, $$\mathbf{P}^2 = \mathbf{P}$$ कहा जाता है। चूंकि, यह स्थितियों सदैव नहीं होता है; उदाहरण के लिए, स्थानीय वज्रछाया प्लॉट स्मूदिंग (LOESS) में, सामान्य रूप से न तब प्रोजेक्शन आव्यूह संवेगीय होती है और न ही आईडेम्पोटेंट होती है।
 * $$\mathbf{P}$$ सममित है, और ऐसा ही है $$\mathbf{M} \equiv \mathbf{I} - \mathbf{P}$$।
 * $$\mathbf{P}$$ निष्क्रिय है: $$\mathbf{P}^2 = \mathbf{P}$$, और ऐसे ही $$\mathbf{M}$$।
 * यदि $$\mathbf{X}$$ n × r आव्यूह है, जिसमें $$\operatorname{rank}(\mathbf{X}) = r$$, तब $$\operatorname{rank}(\mathbf{P}) = r$$ होता है।
 * $$\mathbf{P}$$ के इजनवैल्यूज एकाधिकता में r और n − r शून्य, होते हैं, जबकि $$\mathbf{M}$$ के इजनवैल्यूज में n − r शून्य होते हैं।
 * $$\mathbf{X}$$ के अंतर्गत $$\mathbf{P}$$ अपरिवर्तनीय है: $$\mathbf{P X} = \mathbf{X},$$ इसलिए $$\left( \mathbf{I} - \mathbf{P} \right) \mathbf{X} = \mathbf{0}$$।
 * $$\left( \mathbf{I} - \mathbf{P} \right) \mathbf{P} = \mathbf{P} \left( \mathbf{I} - \mathbf{P} \right) = \mathbf{0}.$$
 * $$\mathbf{P}$$ कुछ विशेष स्थानों के लिए अद्वितीय होती है।

रैखिक मॉडल के लिए, प्रक्षेपण आव्यूह का ट्रेस (रैखिक बीजगणित) रैंक (रैखिक बीजगणित) के सामान्तर है $$\mathbf{X}$$, जो रैखिक मॉडल के स्वतंत्र मापदंडों की संख्या है। LOESS जैसे अन्य मॉडलों के लिए जो अभी भी $$\mathbf{y}$$ अवलोकनों में रैखिक हैं, प्रक्षेपण आव्यूह का प्रयोग मॉडल की प्रभावशीलता के परिभाषित करने के लिए किया जा सकता है।

प्रतिगमन विश्लेषण में प्रक्षेपण आव्यूह के व्यावहारिक अनुप्रयोगों में लीवरेज (सांख्यिकी) और कुक की दूरी सम्मिलित है, जो प्रभावशाली अवलोकन की पहचान करने से संबंधित हैं, अर्थात अवलोकन जो प्रतिगमन के परिणामों पर बड़ा प्रभाव डालते हैं।

ब्लॉकवार सूत्र
मान लीजिए डिज़ाइन आव्यूह $$X$$ को स्तंभों के रूप में इस प्रकार विभाजित किया जा सकता है: $$X = \begin{bmatrix} A & B \end{bmatrix}$$ हैट या प्रक्षेपण ऑपरेटर को इस प्रकार निर्धारित किया जा सकता है:$$P\{X\} = X \left(X^\textsf{T} X \right)^{-1} X^\textsf{T}$$उसी प्रकार, रेजिड्यूअल ऑपरेटर को इस प्रकार निर्धारित किया जा सकता है: $$M\{X\} = I - P\{X\}$$.

तब प्रक्षेपण आव्यूह इस प्रकार विभाजित की जा सकती है:
 * $$ P\{X\} = P\{A\} + P\{M\{A\} B\}, $$

जहाँ, जैसे कि, $$P\{A\} = A \left(A^\textsf{T} A \right)^{-1} A^\textsf{T}$$ और $$M\{A\} = I - P\{A\}$$.

इस प्रकार के अपघटन के अनेक अनुप्रयोग हैं। शास्त्रीय अनुप्रयोग में $$A$$ सभी का स्तंभ होता है, जिससे विश्लेषण करने की अनुमति मिलती है कि प्रशासनिक शब्द को प्रतिस्थापित शब्द में जोड़ने के प्रभावों का विश्लेषण किया जा सकता है। अन्य उपयोग निश्चित प्रभाव मॉडल में होता है, जहां $$A$$ निश्चित प्रभाव शर्तबं के लिए डमी चर का बड़ा विरल आव्यूह होता है। इस पार्टिशन का उपयोग करके आप संगठित कर सकते हैं बिना $$X $$ के प्रोजेक्शन आव्यूह को गणना किये, जो संभवतः कंप्यूटर मेमोरी में फिट नहीं हो सकती है।

यह भी देखें

 * प्रक्षेपण (रैखिक बीजगणित)
 * विद्यार्थीकृत अवशेष
 * स्वतंत्रता की डिग्री (सांख्यिकी)#स्वतंत्रता की प्रभावी डिग्री
 * माध्य और अनुमानित प्रतिक्रिया