प्रमुख घटक प्रतिगमन

आंकड़ों में, प्रमुख घटक प्रतिगमन (पीसीआर) एक प्रतिगमन विश्लेषण तकनीक है जो प्रमुख घटक विश्लेषण (पीसीए) पर आधारित है। विशेषतः, पीसीआर का उपयोग रैखिक प्रतिगमन में अज्ञात रैखिक प्रतिगमन का अनुमान लगाने के लिए किया जाता है।

पीसीआर में, व्याख्यात्मक चर पर निर्भर चर को सीधे वापस लाने के अतिरिक्त, व्याख्यात्मक चर के प्रमुख घटक विश्लेषण का उपयोग आश्रित और स्वतंत्र चर के रूप में किया जाता है। सामान्यतः प्रतिगमन के लिए सभी प्रमुख घटकों के केवल एक उपसमूह का उपयोग किया जाता है, जिससे पीसीआर एक प्रकार की नियमितीकरण प्रक्रिया तथा एक प्रकार का संकोचन अनुमानक भी बन जाता है।

प्रायः, मुख्य संघटनाओं में से अधिक प्रसारण वाले संघटन (जो कि स्पष्ट कर्ण-मान के संचय-सह-संबंध आव्यूह के उदाहरण चर मान के उच्चतम समष्टियों के संबंध में स्वतः व्याख्यात्मक-सदिशों पर आधारित होते हैं) को प्रतिगामी के रूप में चुना जाता है। यद्यपि, परिणाम के अनुमान के उद्देश्य से, कम भिन्नता वाले प्रमुख घटक भी महत्वपूर्ण हो सकते हैं।

पीसीआर का एक प्रमुख उपयोग बहुसंरेखता समस्या पर नियंत्रण पाने में निहित है जो तब उत्पन्न होती है जब दो या अधिक व्याख्यात्मक चर संरेख होने के निकट होते हैं। पीसीआर प्रतिगमन चरण में कुछ कम-विचरण वाले प्रमुख घटकों को छोड़कर ऐसी स्थितियों से उपयुक्त रूप से निपटा जा सकता है। इसके अतिरिक्त, सामान्यतः सभी प्रमुख घटकों के केवल एक उपसमुच्चय पर पीछे हटने से, पीसीआर अंतर्निहित प्रारूप की विशेषता वाले मापदंडों की प्रभावी संख्या को अत्यधिक कम करके आयामीता में कमी ला सकता है। यह उच्च-आयामी सांख्यिकी वाले समायोजनो में विशेष रूप से उपयोगी हो सकतें है। इसके अतिरिक्त, प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के उचित चयन के माध्यम से, पीसीआर कल्पित प्रारूप के आधार पर परिणाम की कुशल अनुमान लगाया जा सकता है।

सिद्धांत
पीसीआर विधि को सामान्यतः तीन प्रमुख चरणों में विभाजित किया जा सकता है:


 * 1. प्रमुख घटकों को प्राप्त करने के लिए व्याख्यात्मक चर के लिए देखे गए डेटा आव्यूह पर प्रमुख घटकों का विश्लेषण करें, और पुनः आगे के उपयोग के लिए प्राप्त प्रमुख घटकों के कुछ उचित मानदंडों के आधार पर एक उपसमूह का चयन करें।


 * 2. अब चयनित प्रमुख घटकों पर परिणामों के देखे गए सदिश को सहसंयोजक के रूप में पुनः प्राप्त करें, अनुमानित प्रतिगमन गुणांक (चयनित प्रमुख घटकों की संख्या के बराबर आयाम के साथ) का एक सदिश प्राप्त करने के लिए साधारण न्यूनतम वर्ग प्रतिगमन तथा रैखिक प्रतिगमन का उपयोग करें।


 * 3. $$ \;\; $$ अब परिवर्तन आव्यूह इस सदिश को वास्तविक सहसंयोजकों के मापदंड पर वापस लाता है, अंतिम पीसीआर अनुमानक (सहसंयोजकों की कुल संख्या के बराबर आयाम के साथ) प्राप्त करने के लिए चयनित प्रमुख घटक विश्लेषण (चयनित प्रमुख घटकों के अनुरूप ईजेनसदिश) का उपयोग करके मूल प्रारूप की विशेषता बताने वाले प्रतिगमन गुणांकों का अनुमान लगाता है।

विधि का विवरण
डेटा प्रतिनिधित्व: संज्ञायित परिणामों के सदिश को $$ \mathbf{Y}{n \times 1} = \left(y_1,\ldots,y_n\right)^T $$ से दर्शाया जाता है और संबंधित संघटकों के प्रतिनिधित डेटा मात्रिका को $$ \mathbf{X}{n \times p} = \left(\mathbf{x}_1,\ldots,\mathbf{x}_n\right)^T $$ से दर्शाया जाता है, यहाँ पर, $$ n $$ और $$ p $$ प्रामाणिकता में देखे गए प्रारूप के आकार और संख्या हैं, जिनमें, $$ n \geq p $$। $$ \mathbf{X} $$ के प्रत्येक पंक्ति का प्रतिनिधित प्रकार $$ p $$ आयामी संघटक के लिए एक अवलोकन प्रदान करता है और $$ \mathbf{Y} $$ का संबंधित प्रविष्टि संबंधित निरूपित परिणाम को दर्शाती है।

डेटा पूर्वसंस्करण: मान लीजिए कि $$ \mathbf{Y} $$ और $$ \mathbf{X} $$ के प्रत्येक $$ p $$ स्तंभों को पहले से ही केंद्रबद्ध किया गया है, जिससे सभी में शून्य नमूनी औसत हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम $$ \mathbf{X} $$ के स्तंभों के लिए) क्योंकि पीसीआर में $$ \mathbf{X} $$ पर पीसीए का उपयोग होता है और पीसीए डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।

मूल प्रारूप: केंद्रीयन के बाद, $$ \mathbf{Y} $$ पर $$ \mathbf{X} $$ के लिए मानक गौस-मार्कोव रैखिक प्रतिस्थापन मॉडल निम्न रूप में दर्शाया जा सकता है: $$ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, ;$$ जहां $$ \boldsymbol{\beta} \in \mathbb{R}^p $$ निर्ज्ञात मापदंड सदिश का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और $$ \boldsymbol{\varepsilon} $$ संख्यात्मक त्रुटियों का सदिश है जिसके लिए $$ \operatorname{E}\left(\boldsymbol{\varepsilon}\right) = \mathbf{0} ; $$ और $$ ; \operatorname{Var}\left(\boldsymbol{\varepsilon}\right) = \sigma^2I_{n \times n} $$ है, जहां कुछ अज्ञात विचलन मापदंड $$ \sigma^2 > 0 ;; $$ है।

उद्देश्य: मुख्य उद्देश्य डेटा पर आधारित मापदंड $$ \boldsymbol\beta $$ के लिए एक कुशल अनुमापक $$ \widehat{\boldsymbol\beta} $$ प्राप्त करना है। इसके लिए सामान्यतः प्रयुक्त दृष्टिकोण ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन होता है जो, $$ \mathbf{X} $$ को पूर्ण स्तंभ श्रेणी मानते हुए, बिना उचितवादी अनुमापक उत्पन्न करता है: $$ \widehat{\boldsymbol\beta}_\mathrm{ols} = (\mathbf{X}^{T}\mathbf{X})^{-1} \mathbf{X}^{T}\mathbf{Y} $$ जो $$ \boldsymbol{\beta} $$ का धौलेय अनुमापक है। पीसीआर एक और तकनीक है जो $$ \boldsymbol{\beta} $$ के अनुमापन करने के लिए उपयोग की जा सकती है।

पीसीए चरण: पीसीआर केंद्रीयत डेटा मात्रिका $$ \mathbf{X} $$ पर पीसीए का अभ्यास करके प्रारंभ होता है। इसके लिए, $$ \mathbf{X} = U \Delta V^{T} $$ से देखाया जाता है, यहाँ $$ \Delta_{p \times p} = \operatorname{diag}\left[\delta_1,\ldots,\delta_p\right] $$ है जहां $$ \delta_1 \geq \cdots \geq \delta_p \geq 0 $$ डेटा के गैर-नकारात्मक अद्वितीय मान को दर्शाते हैं, जबकि $$ U_{n \times p} = [\mathbf{u}_1,\ldots,\mathbf{u}p] $$ और $$ V{p \times p} = [\mathbf{v}_1,\ldots,\mathbf{v}_p] $$ की सदिश समुच्चय हैं जो उचितवादी सदिश को दर्शाते हैं और $$ \mathbf{X} $$ के अद्वितीय मानों के दाईं और बाईं अद्वितीय मान सदिशो को दर्शाते हैं।

मुख्य संघटनाएं: $$ V \Lambda V^T $$ द्वारा $$ \mathbf{X}^T \mathbf{X} $$ के मान संघटना को प्रदर्शित किया जाता है, जहां $$ \Lambda_{p \times p} = \operatorname{diag}\left[\lambda_1,\ldots,\lambda_p\right] = \operatorname{diag}\left[\delta_1^2,\ldots,\delta_p^2\right] = \Delta^2 $$ होता है जहां $$ \lambda_1 \geq \cdots \geq \lambda_p \geq 0 $$ गैर-नकारात्मक इगेनमूल्यांकन (जिन्हें मुख्य मान भी कहा जाता है) को दर्शाते हैं, जबकि $$ V $$ की स्तंभें संबंधित अद्वितीय समुच्चय को दर्शाती हैं। तब, $$ \mathbf{X}\mathbf{v}_j $$ और $$ \mathbf{v}_j $$ प्रत्येक में $$ j^\text{th} $$ अधिकतम मुख्य संघटना और $$ j^\text{th} $$ मुख्य संघटना दिशा (या पीसीए लोडिंग) को दर्शाते हैं जो संबंधित अधिकतम मुख्य मान $$ \lambda_j $$ के लिए होते हैं, जहा $$ j \in {1,\ldots,p}$$ द्वारा प्रदर्शित होता है।

प्राप्तित संबंधित रूपांतरण: किसी भी $$ k \in {1,\ldots,p}$$ के लिए, यहां $$ V_{k} $$ उपस्थित हो, जो एकाधिकार स्तंभों के साथ पूर्ण स्तंभ की पहली $$ k $$ स्तंभों से मिलकर बने $$ p \times k $$ मात्रिका होती है। $$ W_k = \mathbf{X}V_{k} $$ $$ = [\mathbf{X}\mathbf{v}_1,\ldots,\mathbf{X}\mathbf{v}_k] $$ उपस्थित करती है, जो पहले $$ k $$ मुख्य संघटनाओं को अपने स्तंभों के रूप में रखने वाली $$ n \times k $$ मात्रिका होती है। $$ W $$ मूल्यों को उपयोग करके डेटा मात्रिका के रूप में देखा जा सकता है, रूपांतरित संबंधित डेटा $$ \mathbf{x}_i^k = V_k^T \mathbf{x}_i \in \mathbb{R}^{k} $$ का उपयोग करके करने के बजाय मूल बहुभिन्नरूपी संबंधित $$ \mathbf{x}_i \in \mathbb{R}^p ;; \forall ;; 1 \leq i \leq n $$ का उपयोग करने से प्राप्त होती है।

पीसीआर अनुमापक: $$ \widehat{\gamma}k = (W_k^T W_k)^{-1} W_k^T \mathbf{Y} \in \mathbb{R}^k $$ को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के सदिश को दर्शाता है, जो प्रतिक्रिया संकेतक $$ \mathbf{Y} $$ के ऊपर सामान्यत: कम्पता चौरस रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका $$ W{k} $$ पर। तो, किसी भी $$ k \in {1,\ldots,p}$$ के लिए, प्रथम $$ k $$ मुख्य संघटनाओं का उपयोग करके $$ \boldsymbol{\beta} $$ का अंतिम पीसीआर अनुमापक निम्न रूप में दिया जाता है: $$ \widehat{\boldsymbol{\beta}}_k = V_k \widehat{\gamma}_k \in \mathbb{R}^p $$।

दो बुनियादी गुण
पीसीआर अनुमानक प्राप्त करने के लिए फिटिंग प्रक्रिया में व्युत्पन्न डेटा मैट्रिक्स पर प्रतिक्रिया सदिश को पुनः प्राप्त करना शामिल है $$ W_{k} $$ जिसमें किसी के लिए ऑर्थोनॉर्मलिटी कॉलम हैं $$ k \in \{1,\ldots,p\}$$ चूँकि प्रमुख घटक एक-दूसरे से लम्बवत हैं। इस प्रकार प्रतिगमन चरण में, संयुक्त रूप से एक रेखीय प्रतिगमन निष्पादित करना $$ k $$ सहसंयोजक के रूप में चयनित प्रमुख घटकों को क्रियान्वित करने के बराबर है $$ k $$ प्रत्येक पर अलग-अलग स्वतंत्र रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन)। $$ k $$ सहसंयोजक के रूप में चयनित प्रमुख घटक।

जब सभी प्रमुख घटकों को प्रतिगमन के लिए चुना जाता है $$ k = p $$, तो पीसीआर अनुमानक सामान्य न्यूनतम वर्ग अनुमानक के बराबर है। इस प्रकार, $$ \widehat{\boldsymbol{\beta}}_{p} = \widehat{\boldsymbol{\beta}}_\mathrm{ols} $$. इसका अंदाजा इस बात से आसानी से लगाया जा सकता है $$ W_{p} = \mathbf{X}V_{p} = \mathbf{X}V $$ और उसका अवलोकन भी कर रहे हैं $$ V $$ एक ऑर्थोगोनल मैट्रिक्स है.

विचरण में कमी
किसी के लिए $$ k \in \{1,\ldots,p\} $$, का विचरण $$ \widehat{\boldsymbol{\beta}}_{k}$$ द्वारा दिया गया है


 * $$ \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \sigma^2 \; V_k (W_k^T W_k)^{-1} V_k^T = \sigma^2 \; V_k \; \operatorname{diag}\left(\lambda_1^{-1},\ldots,\lambda_k^{-1}\right) V_k^{T} = \sigma^2 \sideset{}{}\sum_{j = 1}^k \frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.$$

विशेष रूप से:


 * $$ \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{p}) = \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \sigma^2 \sideset{}{}\sum_{j = 1}^{p}\frac{\mathbf{v}_j\mathbf{v}_j^{T}}{\lambda_j}.$$

इसलिए सभी के लिए $$ k \in \{1,\ldots, p-1\} $$ अपने पास:


 * $$ \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{k}) = \sigma^2 \sideset{}{}\sum_{j = k+1}^p\frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.$$

इस प्रकार, सभी के लिए $$ k \in \{1,\ldots, p\} $$ अपने पास:


 * $$ \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 $$ कहाँ $$ A \succeq 0 $$ इंगित करता है कि एक वर्ग सममित मैट्रिक्स $$ A $$ सकारात्मक-निश्चित मैट्रिक्स है|गैर-नकारात्मक निश्चित। नतीजतन, पीसीआर अनुमानक के किसी भी दिए गए रैखिक रूप में सामान्य न्यूनतम वर्ग अनुमानक के समान रैखिक रूप की तुलना में कम भिन्नता होती है।

बहुसंरेखता को संबोधित करना
बहुसंरेखता के तहत, दो या दो से अधिक सहसंयोजक अत्यधिक सहसंबंध और निर्भरता वाले होते हैं, ताकि एक को सटीकता की गैर-तुच्छ डिग्री के साथ दूसरों से रैखिक रूप से भविष्यवाणी की जा सके। नतीजतन, डेटा मैट्रिक्स के कॉलम $$ \mathbf{X} $$ इन सहसंयोजकों के अवलोकनों के अनुरूप रैखिक स्वतंत्रता बनने की प्रवृत्ति होती है और इसलिए, $$ \mathbf{X} $$ अपनी पूर्ण स्तंभ रैंक संरचना खोकर रैंक (रैखिक बीजगणित) बन जाता है। अधिक मात्रात्मक रूप से, एक या अधिक छोटे eigenvalues $$ \mathbf{X}^{T}\mathbf{X} $$ बहुत करीब आ जाना या बिल्कुल बराबर हो जाना $$ 0 $$ ऐसी परिस्थितियों में. उपरोक्त विचरण अभिव्यक्तियाँ दर्शाती हैं कि इन छोटे eigenvalues ​​​​में न्यूनतम वर्ग अनुमानक के विचरण पर अधिकतम विचरण मुद्रास्फीति कारक होता है, जिससे जब वे करीब होते हैं तो अनुमानक मुद्रास्फीति कारक में महत्वपूर्ण रूप से परिवर्तन होता है। $$ 0$$. इन छोटे eigenvalues ​​​​के अनुरूप प्रमुख घटकों को छोड़कर प्राप्त पीसीआर अनुमानक का उपयोग करके इस मुद्दे को प्रभावी ढंग से संबोधित किया जा सकता है।

आयाम में कमी
पीसीआर का उपयोग आयाम में कमी करने के लिए भी किया जा सकता है। इसे देखने के लिए आइए $$L_k$$ किसी को निरूपित करें $$ p \times k $$ किसी के लिए भी ऑर्थोनॉर्मल कॉलम वाला मैट्रिक्स $$ k \in \{1,\ldots,p\}.$$ मान लीजिए कि अब हम प्रत्येक सहसंयोजक प्रेक्षण का अनुमान लगाना चाहते हैं $$ \mathbf{x}_i $$ रैंक के माध्यम से (रैखिक बीजगणित) $$ k $$ रैखिक परिवर्तन $$ L_k \mathbf{z}_i $$ कुछ के लिए $$ \mathbf{z}_i \in \mathbb{R}^{k} (1 \leq i \leq n) $$.

तो फिर वो दिखाया जा सकता है


 * $$ \sum_{i=1}^{n} \left \|\mathbf{x}_i - L_{k}\mathbf{z}_i \right \|^2 $$ पर न्यूनतम किया गया है $$L_k = V_k,$$ पहले के साथ मैट्रिक्स $$k$$ स्तंभों के रूप में प्रमुख घटक दिशाएँ, और $$\mathbf{z}_i = \mathbf{x}_{i}^{k} = V_{k}^{T}\mathbf{x}_i,$$ इसी $$k$$ आयामी व्युत्पन्न सहसंयोजक। इस प्रकार $$k$$ आयामी प्रमुख घटक रैंक का सर्वोत्तम रैखिक सन्निकटन प्रदान करते हैं $$ k $$ प्रेक्षित डेटा मैट्रिक्स के लिए $$ \mathbf{X} $$.

आँकड़ों में संबंधित त्रुटियाँ और अवशेष इस प्रकार दिए गए हैं:


 * $$ \sum_{i=1}^{n} \left \|\mathbf{x}_i - V_{k}\mathbf{x}_{i}^{k} \right \|^2 = \begin{cases} \sum_{j = k+1}^{n} \lambda_j & 1 \leqslant k < p \\ 0 & k = p \end{cases} $$

इस प्रकार किसी भी संभावित आयाम में कमी को चुनकर प्राप्त किया जा सकता है $$ k $$, उपयोग किए जाने वाले प्रमुख घटकों की संख्या, के eigenvalues ​​​​के संचयी योग पर उचित थ्रेशोल्डिंग के माध्यम से $$ \mathbf{X}^{T}\mathbf{X}$$. चूँकि छोटे eigenvalues ​​​​संचयी योग में महत्वपूर्ण योगदान नहीं देते हैं, इसलिए जब तक वांछित सीमा सीमा पार नहीं हो जाती, तब तक संबंधित प्रमुख घटकों को हटाया जाना जारी रखा जा सकता है। समान मानदंड का उपयोग बहुसंरेखता मुद्दे को संबोधित करने के लिए भी किया जा सकता है, जिसके तहत छोटे eigenvalues ​​​​के अनुरूप प्रमुख घटकों को तब तक नजरअंदाज किया जा सकता है जब तक कि सीमा सीमा बनाए रखी जाती है।

नियमितीकरण प्रभाव
चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसमुच्चय का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण (गणित) प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए $$ 1 \leqslant k < p$$, पीसीआर अनुमानक $$ \widehat{\boldsymbol{\beta}}_k $$ निम्नलिखित विवश अनुकूलन समस्या के नियमित समाधान को दर्शाता है:


 * $$\min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \left \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_* \right \|^2 \quad \text{ subject to } \quad \boldsymbol{\beta}_* \perp \{\mathbf{v}_{k+1}, \ldots, \mathbf{v}_p\}.$$

बाधा को समान रूप से इस प्रकार लिखा जा सकता है:


 * $$ V_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0},$$ कहाँ:


 * $$ V_{(p-k)} = \left[\mathbf{v}_{k+1},\ldots,\mathbf{v}_p\right]_{p\times (p-k)}. $$

इस प्रकार, जब प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक उचित उपसमूह चुना जाता है, तो प्राप्त पीसीआर अनुमानक नियमितीकरण (गणित) के एक कठिन रूप पर आधारित होता है जो परिणामी समाधान को चयनित प्रमुख घटक दिशाओं के कॉलम स्थान तक सीमित कर देता है, और परिणामस्वरूप इसे बहिष्कृत दिशाओं के लिए लंबनता तक सीमित कर दिया जाता है।

नियमित अनुमानकों के एक वर्ग के बीच पीसीआर की इष्टतमता
जैसा कि ऊपर परिभाषित है, विवश न्यूनतमकरण समस्या को देखते हुए, इसके निम्नलिखित सामान्यीकृत संस्करण पर विचार करें:


 * $$ \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2 \quad \text{ subject to } \quad L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0} $$

कहाँ, $$ L_{(p-k)} $$ क्रम के किसी भी पूर्ण स्तंभ रैंक मैट्रिक्स को दर्शाता है $$ p \times (p-k)$$ साथ $$ 1 \leqslant k < p$$.

होने देना $$ \widehat{\boldsymbol{\beta}}_L $$ संगत समाधान को निरूपित करें। इस प्रकार


 * $$ \widehat{\boldsymbol{\beta}}_L = \arg \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2 \quad \text{ subject to } \quad   L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0}.$$

फिर प्रतिबंध मैट्रिक्स का इष्टतम विकल्प $$L_{(p-k)}$$ जिसके लिए संबंधित अनुमानक $$\widehat{\boldsymbol{\beta}}_{L}$$ न्यूनतम पूर्वानुमान त्रुटि प्राप्त होती है:
 * $$ L^{*}_{(p-k)} = V_{(p-k)} \Lambda_{(p-k)}^{1/2},$$ कहाँ


 * $$ \Lambda_{(p-k)}^{1/2} = \operatorname{diag} \left(\lambda_{k+1}^{1/2},\ldots,\lambda_p^{1/2}\right).$$

बिल्कुल स्पष्ट रूप से, परिणामी इष्टतम अनुमानक $$ \widehat{\boldsymbol{\beta}}_{L^{*}} $$ फिर बस पीसीआर अनुमानक द्वारा दिया जाता है $$ \widehat{\boldsymbol{\beta}}_{k} $$ पहले पर आधारित $$ k $$ मूल घटक।

दक्षता
चूँकि सामान्य न्यूनतम वर्ग अनुमानक एक अनुमानक का पूर्वाग्रह है $$ \boldsymbol{\beta} $$, अपने पास


 * $$ \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_\mathrm{ols}),$$ जहां, एमएसई माध्य वर्ग त्रुटि दर्शाता है। अब, यदि कुछ के लिए $$ k \in \{1,\ldots,p\} $$, हमारे पास अतिरिक्त है: $$ V_{(p-k)}^T\boldsymbol{\beta} = \mathbf{0} $$, फिर संगत $$ \widehat{\boldsymbol{\beta}}_k $$ के लिए एक अनुमानक का पूर्वाग्रह भी है $$\boldsymbol{\beta} $$ और इसलिए


 * $$ \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_k).$$

वह हम पहले ही देख चुके हैं


 * $$\forall j \in \{ 1, \ldots, p\}: \quad \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_j) \succeq 0,$$ जिसका तात्पर्य यह है:


 * $$ \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_k) \succeq 0 $$ उस विशेष के लिए $$k$$. इस प्रकार उस मामले में, संगत $$\widehat{\boldsymbol{\beta}}_{k}$$ का अधिक कुशल आकलनकर्ता होगा $$\boldsymbol{\beta}$$ की तुलना में $$\widehat{\boldsymbol{\beta}}_\mathrm{ols}$$, प्रदर्शन मानदंड के रूप में माध्य वर्ग त्रुटि का उपयोग करने पर आधारित। इसके अतिरिक्त, किसी भी दिए गए संगत का रैखिक रूप $$\widehat{\boldsymbol{\beta}}_{k}$$ समान रैखिक रूप की तुलना में कम माध्य वर्ग त्रुटि भी होगी $$ \widehat{\boldsymbol{\beta}}_\mathrm{ols} $$.

अब मान लीजिए कि किसी दिए गए के लिए $$ k \in \{1,\ldots,p\}, V_{(p-k)}^{\boldsymbol{\beta}} \neq \mathbf{0} $$. फिर संगत $$ \widehat{\boldsymbol{\beta}}_k $$ के लिए एक अनुमानक का पूर्वाग्रह है $$ \boldsymbol{\beta} $$. यद्यपि, जब से


 * $$ \forall k \in \{ 1, \ldots, p\}: \quad  \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k)  \succeq 0,$$

ऐसा अब भी संभव है $$ \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 $$, विशेष रूप से यदि $$ k $$ ऐसा है कि बहिष्कृत प्रमुख घटक छोटे स्वदेशी मानों के अनुरूप होते हैं, जिसके परिणामस्वरूप अनुमानक का पूर्वाग्रह कम होता है।

एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए $$ \boldsymbol{\beta}$$, पार्क (1981) प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें $$ j^{th} $$ प्रमुख घटक यदि और केवल यदि $$\lambda_j < (p\sigma^2)/ \boldsymbol{\beta}^T \boldsymbol{\beta}.$$ इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात मॉडल मापदंडों के अनुमान की आवश्यकता होती है $$ \sigma^2 $$ और $$ \boldsymbol{\beta} $$. सामान्य तौर पर, उनका अनुमान मूल पूर्ण मॉडल से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित समुच्चय प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है। के eigenvalues ​​​​के संचयी योग पर आधारित मानदंडों के विपरीत $$ \mathbf{X}^T\mathbf{X} $$, जो संभवतः बहुसंरेखता समस्या को संबोधित करने और आयाम में कमी करने के लिए अधिक उपयुक्त है, उपरोक्त मानदंड वास्तव में प्रिंसिपल के चयन की प्रक्रिया में परिणाम के साथ-साथ सहसंयोजक दोनों को शामिल करके पीसीआर अनुमानक की भविष्यवाणी और अनुमान दक्षता में सुधार करने का प्रयास करता है। प्रतिगमन चरण में उपयोग किए जाने वाले घटक। समान लक्ष्यों वाले वैकल्पिक दृष्टिकोणों में क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन या मैलोज़ सीपी|मैलोज़ सी के आधार पर प्रमुख घटकों का चयन शामिल है।pमानदंड। प्रायः, प्रमुख घटकों का चयन परिणाम के साथ उनके सहसंबंध और निर्भरता की डिग्री के आधार पर भी किया जाता है।

पीसीआर का सिकुड़न प्रभाव
सामान्य तौर पर, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च विचरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है $$ \mathbf{X}^T\mathbf{X} $$) मॉडल में सहसंयोजक के रूप में और शेष कम विचरण घटकों को त्याग देता है (निचले eigenvalues ​​​​के अनुरूप) $$ \mathbf{X}^T\mathbf{X} $$). इस प्रकार यह कम विचरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल मॉडल में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, रिज प्रतिगमन  अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (गणित) (या ट्यूनिंग मापदंड) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993) निष्कर्ष निकालें कि भविष्यवाणी के उद्देश्य से, रिज अनुमानक, अपने सहज संकोचन प्रभाव के कारण, असतत संकोचन प्रभाव वाले पीसीआर अनुमानक की तुलना में शायद एक बेहतर विकल्प है।

इसके अतिरिक्त, प्रमुख घटक एकवचन मूल्य अपघटन|ईजेन-अपघटन से प्राप्त होते हैं $$ \mathbf{X} $$ इसमें केवल व्याख्यात्मक चर के लिए अवलोकन शामिल हैं। इसलिए, सहसंयोजक के रूप में इन प्रमुख घटकों का उपयोग करने से प्राप्त परिणामी पीसीआर अनुमानक को परिणाम के लिए संतोषजनक पूर्वानुमानित प्रदर्शन की आवश्यकता नहीं है। कुछ हद तक समान अनुमानक जो अपने निर्माण के माध्यम से इस मुद्दे को संबोधित करने का प्रयास करता है वह आंशिक न्यूनतम वर्ग (पीएलएस) अनुमानक है। पीसीआर के समान, पीएलएस भी निम्न आयामों के व्युत्पन्न सहसंयोजकों का उपयोग करता है। यद्यपि, पीसीआर के विपरीत, पीएलएस के लिए व्युत्पन्न सहसंयोजक परिणाम और सहसंयोजक दोनों के उपयोग के आधार पर प्राप्त किए जाते हैं। जबकि पीसीआर सहसंयोजक स्थान में उच्च विचरण दिशाओं की तलाश करता है, पीएलएस सहसंयोजक स्थान में उन दिशाओं की तलाश करता है जो परिणाम की भविष्यवाणी के लिए सबसे उपयोगी हैं।

2006 में क्लासिकल पीसीआर का एक संस्करण प्रस्तावित किया गया जिसे पर्यवेक्षित पीसीआर के नाम से जाना जाता है। पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक समुच्चय निष्पादित करके प्रारंभ होता है $$ p $$ रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है $$ p $$ सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए $$ m \in \{1,\ldots, p\}$$, पहला $$ m $$ सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है $$ n \times m $$ चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा मैट्रिक्स। प्रयुक्त सहसंयोजकों की संख्या: $$ m \in \{1,\ldots, p\}$$ और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: $$ k \in \{1,\ldots, m\}$$ सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा चुना जाता है।

कर्नेल समुच्चयिंग्स का सामान्यीकरण
ऊपर वर्णित शास्त्रीय पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम की भविष्यवाणी के लिए एक रैखिक प्रतिगमन पर विचार करती है। यद्यपि, इसे आसानी से कर्नेल विधियों की समुच्चयिंग में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में रैखिकता की आवश्यकता नहीं होती है, बल्कि इसके बजाय यह किसी भी मनमानी (संभवतः रैखिकता | गैर-रैखिक), सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट स्थान से संबंधित हो सकता है। कार्य सकारात्मक-निश्चित कर्नेल। रैखिक प्रतिगमन इस समुच्चयिंग का एक विशेष मामला बन जाता है जब सकारात्मक-निश्चित कर्नेल को कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन के रूप में चुना जाता है।

सामान्य तौर पर, कर्नेल विधियों की समुच्चयिंग के तहत, सहसंयोजकों का सदिश एक आयाम (सदिश स्पेस) में पहला मानचित्र (गणित) होता है | उच्च-आयामी (संभावित आयाम (सदिश स्पेस) | अनंत-आयामी) सुविधा स्थान  जो सकारात्मक-निश्चित द्वारा विशेषता है कर्नेल चुना गया. इस प्रकार प्राप्त मानचित्र (गणित) को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता (रैखिकता या रैखिकता | गैर-रैखिक हो सकती है) से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक रैखिक संयोजन माना जाता है। इस प्रकार, कर्नेल विधियों की समुच्चयिंग में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल समुच्चय के बजाय, भविष्यवक्ताओं को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश स्थान) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके डेटा परिवर्तन द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।

यद्यपि, कर्नेल चाल वास्तव में हमें कर्नेल विधियों की स्पष्ट रूप से गणना किए बिना फीचर स्पेस में काम करने में सक्षम बनाती है। यह पता चलता है कि देखे गए सहसंयोजक वैक्टरों के लिए फीचर मानचित्रों के बीच जोड़ीदार आंतरिक उत्पादों की गणना करना ही पर्याप्त है और ये आंतरिक उत्पाद केवल सहसंयोजक वैक्टरों के संबंधित जोड़े पर मूल्यांकन किए गए सकारात्मक-निश्चित कर्नेल के मूल्यों द्वारा दिए गए हैं। इस प्रकार प्राप्त जोड़ीवार आंतरिक उत्पादों को एक के रूप में दर्शाया जा सकता है $$ n \times n $$ सममित गैर-नकारात्मक निश्चित मैट्रिक्स को कर्नेल पीसीए के रूप में भी जाना जाता है।

कर्नेल मशीन समुच्चयिंग में पीसीआर को अब फीचर स्पेस के संबंध में पहले कर्नेल पीसीए, इस कर्नेल पीसीए (के, मान लीजिए) द्वारा कार्यान्वित किया जा सकता है और फिर कर्नेल पीसीए (के, मान लीजिए) पर कर्नेल पीसीए का प्रदर्शन किया जा सकता है, जिससे एक मैट्रिक्स का ईगेंडेकंपोजिशन किया जा सकता है। का ' प्राप्त होता है। कर्नेल पीसीआर तब (सामान्यतः) प्राप्त किए गए सभी आइजनसदिशों के एक सबसमुच्चय का चयन करके आगे बढ़ता है और फिर इन चयनित eigenvectors पर परिणाम सदिश का एक रैखिक प्रतिगमन करता है। प्रतिगमन के लिए उपयोग किए जाने वाले ईजेनसदिश सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके चुने जाते हैं। अनुमानित प्रतिगमन गुणांक (चयनित ईजेनसदिशों की संख्या के समान आयाम वाले) के साथ-साथ संबंधित चयनित ईजेनसदिशों का उपयोग भविष्य के अवलोकन के परिणाम की भविष्यवाणी करने के लिए किया जाता है। यंत्र अधिगम  में इस तकनीक को स्पेक्ट्रल रिग्रेशन के रूप में भी जाना जाता है।

स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक अलग संकोचन प्रभाव होता है, जो कि मुख्य घटकों पर शास्त्रीय पीसीआर के अलग संकोचन प्रभाव के समान है, जैसा कि पहले चर्चा की गई थी। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर मैप संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल मशीन समुच्चयिंग के तहत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल मैट्रिक्स के मैट्रिक्स के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य दोहरे फॉर्मूलेशन पर विचार करके इस समस्या के आसपास काम करता है। रैखिक प्रतिगमन मॉडल के तहत (जो कर्नेल फ़ंक्शन को रैखिक कर्नेल के रूप में चुनने से मेल खाता है), यह संबंधित के वर्णक्रमीय अपघटन पर विचार करने के बराबर है $$ n \times n $$ कर्नेल मैट्रिक्स $$ \mathbf{X}\mathbf{X}^T $$ और फिर eigenvectors के एक चयनित उपसमूह पर परिणाम सदिश को पुनः प्राप्त करना $$ \mathbf{X}\mathbf{X}^T $$ तो प्राप्त हुआ. यह आसानी से दिखाया जा सकता है कि यह संबंधित प्रमुख घटकों (जो इस मामले में परिमित-आयामी हैं) पर परिणाम सदिश को पुनः प्राप्त करने के समान है, जैसा कि शास्त्रीय पीसीआर के संदर्भ में परिभाषित किया गया है। इस प्रकार, रैखिक कर्नेल के लिए, दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित शास्त्रीय पीसीआर के बिल्कुल बराबर है। यद्यपि, मनमाने ढंग से (और संभवतः गैर-रैखिक) कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर मैप की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस मामले में शास्त्रीय पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, लेकिन दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर अभी भी वैध और कम्प्यूटेशनल रूप से स्केलेबल बना हुआ है।

यह भी देखें

 * प्रमुख कंपोनेंट विश्लेषण
 * आंशिक न्यूनतम वर्ग प्रतिगमन
 * कटक प्रतिगमन
 * विहित सहसंबंध
 * प्रतिगमन की मांग करना
 * वर्गों का कुल योग