प्रमुख घटक प्रतिगमन: Difference between revisions

Revision as of 22:07, 11 July 2023

आंकड़ों में, प्रमुख घटक प्रतिगमन (पीसीआर) एक प्रतिगमन विश्लेषण तकनीक है जो प्रमुख घटक विश्लेषण (पीसीए) पर आधारित है। विशेषतः, पीसीआर का उपयोग रैखिक प्रतिगमन में अज्ञात रैखिक प्रतिगमन का अनुमान लगाने के लिए किया जाता है।

पीसीआर में, व्याख्यात्मक चर पर निर्भर चर को सीधे वापस लाने के अतिरिक्त, व्याख्यात्मक चर के प्रमुख घटक विश्लेषण का उपयोग आश्रित और स्वतंत्र चर के रूप में किया जाता है। सामान्यतः प्रतिगमन के लिए सभी प्रमुख घटकों के केवल एक उपसमूह का उपयोग किया जाता है, जिससे पीसीआर एक प्रकार की नियमितीकरण प्रक्रिया तथा एक प्रकार का संकोचन अनुमानक भी बन जाता है।

प्रायः, मुख्य संघटनाओं में से अधिक प्रसारण वाले संघटन (जो कि स्पष्ट कर्ण-मान के संचय-सह-संबंध आव्यूह के उदाहरण चर मान के उच्चतम समष्टियों के संबंध में स्वतः व्याख्यात्मक-सदिशों पर आधारित होते हैं) को प्रतिगामी के रूप में चुना जाता है। यद्यपि, परिणाम के अनुमान के उद्देश्य से, कम भिन्नता वाले प्रमुख घटक भी महत्वपूर्ण हो सकते हैं।^[1]

पीसीआर का एक प्रमुख उपयोग बहुसंरेखता समस्या पर नियंत्रण पाने में निहित है जो तब उत्पन्न होती है जब दो या अधिक व्याख्यात्मक चर संरेख होने के निकट होते हैं।^[2] पीसीआर प्रतिगमन चरण में कुछ कम-विचरण वाले प्रमुख घटकों को छोड़कर ऐसी स्थितियों से उपयुक्त रूप से निपटा जा सकता है। इसके अतिरिक्त, सामान्यतः सभी प्रमुख घटकों के केवल एक उपसमुच्चय पर पीछे हटने से, पीसीआर अंतर्निहित प्रारूप की विशेषता वाले मापदंडों की प्रभावी संख्या को अत्यधिक कम करके आयामीता में कमी ला सकता है। यह उच्च-आयामी सांख्यिकी वाले समायोजनो में विशेष रूप से उपयोगी हो सकतें है। इसके अतिरिक्त, प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के उचित चयन के माध्यम से, पीसीआर कल्पित प्रारूप के आधार पर परिणाम की कुशल अनुमान लगाया जा सकता है।

सिद्धांत

पीसीआर विधि को सामान्यतः तीन प्रमुख चरणों में विभाजित किया जा सकता है:

1. प्रमुख घटकों को प्राप्त करने के लिए व्याख्यात्मक चर के लिए देखे गए डेटा आव्यूह पर प्रमुख घटकों का विश्लेषण करें, और पुनः आगे के उपयोग के लिए प्राप्त प्रमुख घटकों के कुछ उचित मानदंडों के आधार पर एक उपसमूह का चयन करें।

2. अब चयनित प्रमुख घटकों पर परिणामों के देखे गए सदिश को सहसंयोजक के रूप में पुनः प्राप्त करें, अनुमानित प्रतिगमन गुणांक (चयनित प्रमुख घटकों की संख्या के बराबर आयाम के साथ) का एक सदिश प्राप्त करने के लिए साधारण न्यूनतम वर्ग प्रतिगमन तथा रैखिक प्रतिगमन का उपयोग करें।

3.

\;\;

अब परिवर्तन आव्यूह इस सदिश को वास्तविक सहसंयोजकों के मापदंड पर वापस लाता है, अंतिम पीसीआर अनुमानक (सहसंयोजकों की कुल संख्या के बराबर आयाम के साथ) प्राप्त करने के लिए चयनित प्रमुख घटक विश्लेषण (चयनित प्रमुख घटकों के अनुरूप ईजेनसदिश) का उपयोग करके मूल प्रारूप की विशेषता बताने वाले प्रतिगमन गुणांकों का अनुमान लगाता है।

विधि का विवरण

डेटा प्रतिनिधित्व: संज्ञायित परिणामों के सदिश को $\mathbf {Y} {n\times 1}=\left(y_{1},\ldots ,y_{n}\right)^{T}$ से दर्शाया जाता है और संबंधित संघटकों के प्रतिनिधित डेटा मात्रिका को $\mathbf {X} {n\times p}=\left(\mathbf {x} _{1},\ldots ,\mathbf {x} _{n}\right)^{T}$ से दर्शाया जाता है, यहाँ पर, $n$ और $p$ प्रामाणिकता में देखे गए प्रारूप के आकार और संख्या हैं, जिनमें, $n\geq p$ । $\mathbf {X}$ के प्रत्येक पंक्ति का प्रतिनिधित प्रकार $p$ आयामी संघटक के लिए एक अवलोकन प्रदान करता है और $\mathbf {Y}$ का संबंधित प्रविष्टि संबंधित निरूपित परिणाम को दर्शाती है।

डेटा पूर्वसंस्करण: मान लीजिए कि $\mathbf {Y}$ और $\mathbf {X}$ के प्रत्येक $p$ स्तंभों को पहले से ही केंद्रबद्ध किया गया है, जिससे सभी में शून्य नमूनी औसत हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम $\mathbf {X}$ के स्तंभों के लिए) क्योंकि पीसीआर में $\mathbf {X}$ पर पीसीए का उपयोग होता है और पीसीए डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।

मूल प्रारूप: केंद्रीयन के बाद, $\mathbf {Y}$ पर $\mathbf {X}$ के लिए मानक गौस-मार्कोव रैखिक प्रतिस्थापन मॉडल निम्न रूप में दर्शाया जा सकता है: $\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},;$ जहां ${\boldsymbol {\beta }}\in \mathbb {R} ^{p}$ निर्ज्ञात मापदंड सदिश का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और ${\boldsymbol {\varepsilon }}$ संख्यात्मक त्रुटियों का सदिश है जिसके लिए $\operatorname {E} \left({\boldsymbol {\varepsilon }}\right)=\mathbf {0} ;$ और $;\operatorname {Var} \left({\boldsymbol {\varepsilon }}\right)=\sigma ^{2}I_{n\times n}$ है, जहां कुछ अज्ञात विचलन मापदंड $\sigma ^{2}>0;;$ है।

उद्देश्य: मुख्य उद्देश्य डेटा पर आधारित मापदंड ${\boldsymbol {\beta }}$ के लिए एक कुशल अनुमापक ${\widehat {\boldsymbol {\beta }}}$ प्राप्त करना है। इसके लिए सामान्यतः प्रयुक्त दृष्टिकोण ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन होता है जो, $\mathbf {X}$ को पूर्ण स्तंभ श्रेणी मानते हुए, बिना उचितवादी अनुमापक उत्पन्न करता है: ${\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }=(\mathbf {X} ^{T}\mathbf {X} )^{-1}\mathbf {X} ^{T}\mathbf {Y}$ जो ${\boldsymbol {\beta }}$ का धौलेय अनुमापक है। पीसीआर एक और तकनीक है जो ${\boldsymbol {\beta }}$ के अनुमापन करने के लिए उपयोग की जा सकती है।

पीसीए चरण: पीसीआर केंद्रीयत डेटा मात्रिका $\mathbf {X}$ पर पीसीए का अभ्यास करके प्रारंभ होता है। इसके लिए, $\mathbf {X} =U\Delta V^{T}$ से देखाया जाता है, यहाँ $\Delta _{p\times p}=\operatorname {diag} \left[\delta _{1},\ldots ,\delta _{p}\right]$ है जहां $\delta _{1}\geq \cdots \geq \delta _{p}\geq 0$ डेटा के गैर-नकारात्मक अद्वितीय मान को दर्शाते हैं, जबकि $U_{n\times p}=[\mathbf {u} _{1},\ldots ,\mathbf {u} p]$ और $V{p\times p}=[\mathbf {v} _{1},\ldots ,\mathbf {v} _{p}]$ की सदिश समुच्चय हैं जो उचितवादी सदिश को दर्शाते हैं और $\mathbf {X}$ के अद्वितीय मानों के दाईं और बाईं अद्वितीय मान सदिशो को दर्शाते हैं।

मुख्य संघटनाएं: $V\Lambda V^{T}$ द्वारा $\mathbf {X} ^{T}\mathbf {X}$ के मान संघटना को प्रदर्शित किया जाता है, जहां $\Lambda _{p\times p}=\operatorname {diag} \left[\lambda _{1},\ldots ,\lambda _{p}\right]=\operatorname {diag} \left[\delta _{1}^{2},\ldots ,\delta _{p}^{2}\right]=\Delta ^{2}$ होता है जहां $\lambda _{1}\geq \cdots \geq \lambda _{p}\geq 0$ गैर-नकारात्मक इगेनमूल्यांकन (जिन्हें मुख्य मान भी कहा जाता है) को दर्शाते हैं, जबकि $V$ की स्तंभें संबंधित अद्वितीय समुच्चय को दर्शाती हैं। तब, $\mathbf {X} \mathbf {v} _{j}$ और $\mathbf {v} _{j}$ प्रत्येक में $j^{\text{th}}$ अधिकतम मुख्य संघटना और $j^{\text{th}}$ मुख्य संघटना दिशा (या पीसीए लोडिंग) को दर्शाते हैं जो संबंधित अधिकतम मुख्य मान $\lambda _{j}$ के लिए होते हैं, जहा $j\in {1,\ldots ,p}$ द्वारा प्रदर्शित होता है।

प्राप्तित संबंधित रूपांतरण: किसी भी $k\in {1,\ldots ,p}$ के लिए, यहां $V_{k}$ उपस्थित हो, जो एकाधिकार स्तंभों के साथ पूर्ण स्तंभ की पहली $k$ स्तंभों से मिलकर बने $p\times k$ मात्रिका होती है। $W_{k}=\mathbf {X} V_{k}$ $=[\mathbf {X} \mathbf {v} _{1},\ldots ,\mathbf {X} \mathbf {v} _{k}]$ उपस्थित करती है, जो पहले $k$ मुख्य संघटनाओं को अपने स्तंभों के रूप में रखने वाली $n\times k$ मात्रिका होती है। $W$ मूल्यों को उपयोग करके डेटा मात्रिका के रूप में देखा जा सकता है, रूपांतरित संबंधित डेटा $\mathbf {x} _{i}^{k}=V_{k}^{T}\mathbf {x} _{i}\in \mathbb {R} ^{k}$ का उपयोग करके करने के बजाय मूल बहुभिन्नरूपी संबंधित $\mathbf {x} _{i}\in \mathbb {R} ^{p};;\forall ;;1\leq i\leq n$ का उपयोग करने से प्राप्त होती है।

पीसीआर अनुमापक: ${\widehat {\gamma }}k=(W_{k}^{T}W_{k})^{-1}W_{k}^{T}\mathbf {Y} \in \mathbb {R} ^{k}$ को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के सदिश को दर्शाता है, जो प्रतिक्रिया संकेतक $\mathbf {Y}$ के ऊपर सामान्यत: कम्पता चौरस रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका $W{k}$ पर। तो, किसी भी $k\in {1,\ldots ,p}$ के लिए, प्रथम $k$ मुख्य संघटनाओं का उपयोग करके ${\boldsymbol {\beta }}$ का अंतिम पीसीआर अनुमापक निम्न रूप में दिया जाता है: ${\widehat {\boldsymbol {\beta }}}_{k}=V_{k}{\widehat {\gamma }}_{k}\in \mathbb {R} ^{p}$ ।

पीसीआर अनुमानक की मौलिक विशेषताएं और अनुप्रयोग

दो बुनियादी गुण

पीसीआर अनुमानक प्राप्त करने के लिए फिटिंग प्रक्रिया में व्युत्पन्न डेटा मैट्रिक्स पर प्रतिक्रिया सदिश को पुनः प्राप्त करना शामिल है $W_{k}$ जिसमें किसी के लिए ऑर्थोनॉर्मलिटी कॉलम हैं $k\in \{1,\ldots ,p\}$ चूँकि प्रमुख घटक एक-दूसरे से लम्बवत हैं। इस प्रकार प्रतिगमन चरण में, संयुक्त रूप से एक रेखीय प्रतिगमन निष्पादित करना $k$ सहसंयोजक के रूप में चयनित प्रमुख घटकों को क्रियान्वित करने के बराबर है $k$ प्रत्येक पर अलग-अलग स्वतंत्र रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन)। $k$ सहसंयोजक के रूप में चयनित प्रमुख घटक।

जब सभी प्रमुख घटकों को प्रतिगमन के लिए चुना जाता है $k=p$ , तो पीसीआर अनुमानक सामान्य न्यूनतम वर्ग अनुमानक के बराबर है। इस प्रकार, ${\widehat {\boldsymbol {\beta }}}_{p}={\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }$ . इसका अंदाजा इस बात से आसानी से लगाया जा सकता है $W_{p}=\mathbf {X} V_{p}=\mathbf {X} V$ और उसका अवलोकन भी कर रहे हैं $V$ एक ऑर्थोगोनल मैट्रिक्स है.

विचरण में कमी

किसी के लिए $k\in \{1,\ldots ,p\}$ , का विचरण ${\widehat {\boldsymbol {\beta }}}_{k}$ द्वारा दिया गया है

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\sigma ^{2}\;V_{k}(W_{k}^{T}W_{k})^{-1}V_{k}^{T}=\sigma ^{2}\;V_{k}\;\operatorname {diag} \left(\lambda _{1}^{-1},\ldots ,\lambda _{k}^{-1}\right)V_{k}^{T}=\sigma ^{2}\sideset {}{}\sum _{j=1}^{k}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.

विशेष रूप से:

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{p})=\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })=\sigma ^{2}\sideset {}{}\sum _{j=1}^{p}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.

इसलिए सभी के लिए $k\in \{1,\ldots ,p-1\}$ अपने पास:

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\sigma ^{2}\sideset {}{}\sum _{j=k+1}^{p}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.

इस प्रकार, सभी के लिए $k\in \{1,\ldots ,p\}$ अपने पास:

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0

कहाँ

A\succeq 0

इंगित करता है कि एक वर्ग सममित मैट्रिक्स

A

सकारात्मक-निश्चित मैट्रिक्स है|गैर-नकारात्मक निश्चित। नतीजतन, पीसीआर अनुमानक के किसी भी दिए गए रैखिक रूप में सामान्य न्यूनतम वर्ग अनुमानक के समान रैखिक रूप की तुलना में कम भिन्नता होती है।

बहुसंरेखता को संबोधित करना

बहुसंरेखता के तहत, दो या दो से अधिक सहसंयोजक अत्यधिक सहसंबंध और निर्भरता वाले होते हैं, ताकि एक को सटीकता की गैर-तुच्छ डिग्री के साथ दूसरों से रैखिक रूप से भविष्यवाणी की जा सके। नतीजतन, डेटा मैट्रिक्स के कॉलम $\mathbf {X}$ इन सहसंयोजकों के अवलोकनों के अनुरूप रैखिक स्वतंत्रता बनने की प्रवृत्ति होती है और इसलिए, $\mathbf {X}$ अपनी पूर्ण स्तंभ रैंक संरचना खोकर रैंक (रैखिक बीजगणित) बन जाता है। अधिक मात्रात्मक रूप से, एक या अधिक छोटे eigenvalues $\mathbf {X} ^{T}\mathbf {X}$ बहुत करीब आ जाना या बिल्कुल बराबर हो जाना $0$ ऐसी परिस्थितियों में. उपरोक्त विचरण अभिव्यक्तियाँ दर्शाती हैं कि इन छोटे eigenvalues में न्यूनतम वर्ग अनुमानक के विचरण पर अधिकतम विचरण मुद्रास्फीति कारक होता है, जिससे जब वे करीब होते हैं तो अनुमानक मुद्रास्फीति कारक में महत्वपूर्ण रूप से परिवर्तन होता है। $0$ . इन छोटे eigenvalues के अनुरूप प्रमुख घटकों को छोड़कर प्राप्त पीसीआर अनुमानक का उपयोग करके इस मुद्दे को प्रभावी ढंग से संबोधित किया जा सकता है।

आयाम में कमी

पीसीआर का उपयोग आयाम में कमी करने के लिए भी किया जा सकता है। इसे देखने के लिए आइए $L_{k}$ किसी को निरूपित करें $p\times k$ किसी के लिए भी ऑर्थोनॉर्मल कॉलम वाला मैट्रिक्स $k\in \{1,\ldots ,p\}.$ मान लीजिए कि अब हम प्रत्येक सहसंयोजक प्रेक्षण का अनुमान लगाना चाहते हैं $\mathbf {x} _{i}$ रैंक के माध्यम से (रैखिक बीजगणित) $k$ रैखिक परिवर्तन $L_{k}\mathbf {z} _{i}$ कुछ के लिए $\mathbf {z} _{i}\in \mathbb {R} ^{k}(1\leq i\leq n)$ .

तो फिर वो दिखाया जा सकता है

\sum _{i=1}^{n}\left\|\mathbf {x} _{i}-L_{k}\mathbf {z} _{i}\right\|^{2}

पर न्यूनतम किया गया है

L_{k}=V_{k},

पहले के साथ मैट्रिक्स

k

स्तंभों के रूप में प्रमुख घटक दिशाएँ, और

\mathbf {z} _{i}=\mathbf {x} _{i}^{k}=V_{k}^{T}\mathbf {x} _{i},

इसी

k

आयामी व्युत्पन्न सहसंयोजक। इस प्रकार

k

आयामी प्रमुख घटक रैंक का सर्वोत्तम रैखिक सन्निकटन प्रदान करते हैं

k

प्रेक्षित डेटा मैट्रिक्स के लिए

\mathbf {X}

.

आँकड़ों में संबंधित त्रुटियाँ और अवशेष इस प्रकार दिए गए हैं:

\sum _{i=1}^{n}\left\|\mathbf {x} _{i}-V_{k}\mathbf {x} _{i}^{k}\right\|^{2}={\begin{cases}\sum _{j=k+1}^{n}\lambda _{j}&1\leqslant k<p\\0&k=p\end{cases}}

इस प्रकार किसी भी संभावित आयाम में कमी को चुनकर प्राप्त किया जा सकता है $k$ , उपयोग किए जाने वाले प्रमुख घटकों की संख्या, के eigenvalues के संचयी योग पर उचित थ्रेशोल्डिंग के माध्यम से $\mathbf {X} ^{T}\mathbf {X}$ . चूँकि छोटे eigenvalues संचयी योग में महत्वपूर्ण योगदान नहीं देते हैं, इसलिए जब तक वांछित सीमा सीमा पार नहीं हो जाती, तब तक संबंधित प्रमुख घटकों को हटाया जाना जारी रखा जा सकता है। समान मानदंड का उपयोग बहुसंरेखता मुद्दे को संबोधित करने के लिए भी किया जा सकता है, जिसके तहत छोटे eigenvalues के अनुरूप प्रमुख घटकों को तब तक नजरअंदाज किया जा सकता है जब तक कि सीमा सीमा बनाए रखी जाती है।

नियमितीकरण प्रभाव

चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसमुच्चय का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण (गणित) प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए $1\leqslant k<p$ , पीसीआर अनुमानक ${\widehat {\boldsymbol {\beta }}}_{k}$ निम्नलिखित विवश अनुकूलन समस्या के नियमित समाधान को दर्शाता है:

\min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\left\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\right\|^{2}\quad {\text{ subject to }}\quad {\boldsymbol {\beta }}_{*}\perp \{\mathbf {v} _{k+1},\ldots ,\mathbf {v} _{p}\}.

बाधा को समान रूप से इस प्रकार लिखा जा सकता है:

V_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0} ,

कहाँ:

V_{(p-k)}=\left[\mathbf {v} _{k+1},\ldots ,\mathbf {v} _{p}\right]_{p\times (p-k)}.

इस प्रकार, जब प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक उचित उपसमूह चुना जाता है, तो प्राप्त पीसीआर अनुमानक नियमितीकरण (गणित) के एक कठिन रूप पर आधारित होता है जो परिणामी समाधान को चयनित प्रमुख घटक दिशाओं के कॉलम स्थान तक सीमित कर देता है, और परिणामस्वरूप इसे बहिष्कृत दिशाओं के लिए लंबनता तक सीमित कर दिया जाता है।

नियमित अनुमानकों के एक वर्ग के बीच पीसीआर की इष्टतमता

जैसा कि ऊपर परिभाषित है, विवश न्यूनतमकरण समस्या को देखते हुए, इसके निम्नलिखित सामान्यीकृत संस्करण पर विचार करें:

\min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\|^{2}\quad {\text{ subject to }}\quad L_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0}

कहाँ, $L_{(p-k)}$ क्रम के किसी भी पूर्ण स्तंभ रैंक मैट्रिक्स को दर्शाता है $p\times (p-k)$ साथ $1\leqslant k<p$ .

होने देना ${\widehat {\boldsymbol {\beta }}}_{L}$ संगत समाधान को निरूपित करें। इस प्रकार

{\widehat {\boldsymbol {\beta }}}_{L}=\arg \min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\|^{2}\quad {\text{ subject to }}\quad L_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0} .

फिर प्रतिबंध मैट्रिक्स का इष्टतम विकल्प $L_{(p-k)}$ जिसके लिए संबंधित अनुमानक ${\widehat {\boldsymbol {\beta }}}_{L}$ न्यूनतम पूर्वानुमान त्रुटि प्राप्त होती है:^[3]

L_{(p-k)}^{*}=V_{(p-k)}\Lambda _{(p-k)}^{1/2},

कहाँ

\Lambda _{(p-k)}^{1/2}=\operatorname {diag} \left(\lambda _{k+1}^{1/2},\ldots ,\lambda _{p}^{1/2}\right).

बिल्कुल स्पष्ट रूप से, परिणामी इष्टतम अनुमानक ${\widehat {\boldsymbol {\beta }}}_{L^{*}}$ फिर बस पीसीआर अनुमानक द्वारा दिया जाता है ${\widehat {\boldsymbol {\beta }}}_{k}$ पहले पर आधारित $k$ मूल घटक।

दक्षता

चूँकि सामान्य न्यूनतम वर्ग अनुमानक एक अनुमानक का पूर्वाग्रह है ${\boldsymbol {\beta }}$ , अपने पास

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })=\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }),

जहां, एमएसई माध्य वर्ग त्रुटि दर्शाता है। अब, यदि कुछ के लिए

k\in \{1,\ldots ,p\}

, हमारे पास अतिरिक्त है:

V_{(p-k)}^{T}{\boldsymbol {\beta }}=\mathbf {0}

, फिर संगत

{\widehat {\boldsymbol {\beta }}}_{k}

के लिए एक अनुमानक का पूर्वाग्रह भी है

{\boldsymbol {\beta }}

और इसलिए

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k}).

वह हम पहले ही देख चुके हैं

\forall j\in \{1,\ldots ,p\}:\quad \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{j})\succeq 0,

जिसका तात्पर्य यह है:

\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0

उस विशेष के लिए

k

. इस प्रकार उस मामले में, संगत

{\widehat {\boldsymbol {\beta }}}_{k}

का अधिक कुशल आकलनकर्ता होगा

{\boldsymbol {\beta }}

की तुलना में

{\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }

, प्रदर्शन मानदंड के रूप में माध्य वर्ग त्रुटि का उपयोग करने पर आधारित। इसके अतिरिक्त, किसी भी दिए गए संगत का रैखिक रूप

{\widehat {\boldsymbol {\beta }}}_{k}

समान रैखिक रूप की तुलना में कम माध्य वर्ग त्रुटि भी होगी

{\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }

.

अब मान लीजिए कि किसी दिए गए के लिए $k\in \{1,\ldots ,p\},V_{(p-k)}^{\boldsymbol {\beta }}\neq \mathbf {0}$ . फिर संगत ${\widehat {\boldsymbol {\beta }}}_{k}$ के लिए एक अनुमानक का पूर्वाग्रह है ${\boldsymbol {\beta }}$ . यद्यपि, जब से

\forall k\in \{1,\ldots ,p\}:\quad \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0,

ऐसा अब भी संभव है $\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0$ , विशेष रूप से यदि $k$ ऐसा है कि बहिष्कृत प्रमुख घटक छोटे स्वदेशी मानों के अनुरूप होते हैं, जिसके परिणामस्वरूप अनुमानक का पूर्वाग्रह कम होता है।

एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए ${\boldsymbol {\beta }}$ , पार्क (1981) ^[3]प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें $j^{th}$ प्रमुख घटक यदि और केवल यदि $\lambda _{j}<(p\sigma ^{2})/{\boldsymbol {\beta }}^{T}{\boldsymbol {\beta }}.$ इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात मॉडल मापदंडों के अनुमान की आवश्यकता होती है $\sigma ^{2}$ और ${\boldsymbol {\beta }}$ . सामान्य तौर पर, उनका अनुमान मूल पूर्ण मॉडल से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित समुच्चय प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है।^[3] के eigenvalues के संचयी योग पर आधारित मानदंडों के विपरीत $\mathbf {X} ^{T}\mathbf {X}$ , जो संभवतः बहुसंरेखता समस्या को संबोधित करने और आयाम में कमी करने के लिए अधिक उपयुक्त है, उपरोक्त मानदंड वास्तव में प्रिंसिपल के चयन की प्रक्रिया में परिणाम के साथ-साथ सहसंयोजक दोनों को शामिल करके पीसीआर अनुमानक की भविष्यवाणी और अनुमान दक्षता में सुधार करने का प्रयास करता है। प्रतिगमन चरण में उपयोग किए जाने वाले घटक। समान लक्ष्यों वाले वैकल्पिक दृष्टिकोणों में क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन या मैलोज़ सीपी|मैलोज़ सी के आधार पर प्रमुख घटकों का चयन शामिल है।_pमानदंड। प्रायः, प्रमुख घटकों का चयन परिणाम के साथ उनके सहसंबंध और निर्भरता की डिग्री के आधार पर भी किया जाता है।

पीसीआर का सिकुड़न प्रभाव

सामान्य तौर पर, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च विचरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है $\mathbf {X} ^{T}\mathbf {X}$ ) मॉडल में सहसंयोजक के रूप में और शेष कम विचरण घटकों को त्याग देता है (निचले eigenvalues के अनुरूप) $\mathbf {X} ^{T}\mathbf {X}$ ). इस प्रकार यह कम विचरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल मॉडल में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, रिज प्रतिगमन अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (गणित) (या ट्यूनिंग मापदंड) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993)^[4] निष्कर्ष निकालें कि भविष्यवाणी के उद्देश्य से, रिज अनुमानक, अपने सहज संकोचन प्रभाव के कारण, असतत संकोचन प्रभाव वाले पीसीआर अनुमानक की तुलना में शायद एक बेहतर विकल्प है।

इसके अतिरिक्त, प्रमुख घटक एकवचन मूल्य अपघटन|ईजेन-अपघटन से प्राप्त होते हैं $\mathbf {X}$ इसमें केवल व्याख्यात्मक चर के लिए अवलोकन शामिल हैं। इसलिए, सहसंयोजक के रूप में इन प्रमुख घटकों का उपयोग करने से प्राप्त परिणामी पीसीआर अनुमानक को परिणाम के लिए संतोषजनक पूर्वानुमानित प्रदर्शन की आवश्यकता नहीं है। कुछ हद तक समान अनुमानक जो अपने निर्माण के माध्यम से इस मुद्दे को संबोधित करने का प्रयास करता है वह आंशिक न्यूनतम वर्ग (पीएलएस) अनुमानक है। पीसीआर के समान, पीएलएस भी निम्न आयामों के व्युत्पन्न सहसंयोजकों का उपयोग करता है। यद्यपि, पीसीआर के विपरीत, पीएलएस के लिए व्युत्पन्न सहसंयोजक परिणाम और सहसंयोजक दोनों के उपयोग के आधार पर प्राप्त किए जाते हैं। जबकि पीसीआर सहसंयोजक स्थान में उच्च विचरण दिशाओं की तलाश करता है, पीएलएस सहसंयोजक स्थान में उन दिशाओं की तलाश करता है जो परिणाम की भविष्यवाणी के लिए सबसे उपयोगी हैं।

2006 में क्लासिकल पीसीआर का एक संस्करण प्रस्तावित किया गया जिसे पर्यवेक्षित पीसीआर के नाम से जाना जाता है।^[5] पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक समुच्चय निष्पादित करके प्रारंभ होता है $p$ रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है $p$ सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए $m\in \{1,\ldots ,p\}$ , पहला $m$ सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है $n\times m$ चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा मैट्रिक्स। प्रयुक्त सहसंयोजकों की संख्या: $m\in \{1,\ldots ,p\}$ और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: $k\in \{1,\ldots ,m\}$ सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा चुना जाता है।

कर्नेल समुच्चयिंग्स का सामान्यीकरण

ऊपर वर्णित शास्त्रीय पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम की भविष्यवाणी के लिए एक रैखिक प्रतिगमन पर विचार करती है। यद्यपि, इसे आसानी से कर्नेल विधियों की समुच्चयिंग में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में रैखिकता की आवश्यकता नहीं होती है, बल्कि इसके बजाय यह किसी भी मनमानी (संभवतः रैखिकता | गैर-रैखिक), सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट स्थान से संबंधित हो सकता है। कार्य सकारात्मक-निश्चित कर्नेल। रैखिक प्रतिगमन इस समुच्चयिंग का एक विशेष मामला बन जाता है जब सकारात्मक-निश्चित कर्नेल को कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन के रूप में चुना जाता है।

सामान्य तौर पर, कर्नेल विधियों की समुच्चयिंग के तहत, सहसंयोजकों का सदिश एक आयाम (सदिश स्पेस) में पहला मानचित्र (गणित) होता है | उच्च-आयामी (संभावित आयाम (सदिश स्पेस) | अनंत-आयामी) सुविधा स्थान जो सकारात्मक-निश्चित द्वारा विशेषता है कर्नेल चुना गया. इस प्रकार प्राप्त मानचित्र (गणित) को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता (रैखिकता या रैखिकता | गैर-रैखिक हो सकती है) से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक रैखिक संयोजन माना जाता है। इस प्रकार, कर्नेल विधियों की समुच्चयिंग में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल समुच्चय के बजाय, भविष्यवक्ताओं को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश स्थान) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके डेटा परिवर्तन द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।

यद्यपि, कर्नेल चाल वास्तव में हमें कर्नेल विधियों की स्पष्ट रूप से गणना किए बिना फीचर स्पेस में काम करने में सक्षम बनाती है। यह पता चलता है कि देखे गए सहसंयोजक वैक्टरों के लिए फीचर मानचित्रों के बीच जोड़ीदार आंतरिक उत्पादों की गणना करना ही पर्याप्त है और ये आंतरिक उत्पाद केवल सहसंयोजक वैक्टरों के संबंधित जोड़े पर मूल्यांकन किए गए सकारात्मक-निश्चित कर्नेल के मूल्यों द्वारा दिए गए हैं। इस प्रकार प्राप्त जोड़ीवार आंतरिक उत्पादों को एक के रूप में दर्शाया जा सकता है $n\times n$ सममित गैर-नकारात्मक निश्चित मैट्रिक्स को कर्नेल पीसीए के रूप में भी जाना जाता है।

कर्नेल मशीन समुच्चयिंग में पीसीआर को अब फीचर स्पेस के संबंध में पहले कर्नेल पीसीए, इस कर्नेल पीसीए (के, मान लीजिए) द्वारा कार्यान्वित किया जा सकता है और फिर कर्नेल पीसीए (के, मान लीजिए) पर कर्नेल पीसीए का प्रदर्शन किया जा सकता है, जिससे एक मैट्रिक्स का ईगेंडेकंपोजिशन किया जा सकता है। का ' प्राप्त होता है। कर्नेल पीसीआर तब (सामान्यतः) प्राप्त किए गए सभी आइजनसदिशों के एक सबसमुच्चय का चयन करके आगे बढ़ता है और फिर इन चयनित eigenvectors पर परिणाम सदिश का एक रैखिक प्रतिगमन करता है। प्रतिगमन के लिए उपयोग किए जाने वाले ईजेनसदिश सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके चुने जाते हैं। अनुमानित प्रतिगमन गुणांक (चयनित ईजेनसदिशों की संख्या के समान आयाम वाले) के साथ-साथ संबंधित चयनित ईजेनसदिशों का उपयोग भविष्य के अवलोकन के परिणाम की भविष्यवाणी करने के लिए किया जाता है। यंत्र अधिगम में इस तकनीक को स्पेक्ट्रल रिग्रेशन के रूप में भी जाना जाता है।

स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक अलग संकोचन प्रभाव होता है, जो कि मुख्य घटकों पर शास्त्रीय पीसीआर के अलग संकोचन प्रभाव के समान है, जैसा कि पहले चर्चा की गई थी। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर मैप संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल मशीन समुच्चयिंग के तहत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल मैट्रिक्स के मैट्रिक्स के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य दोहरे फॉर्मूलेशन पर विचार करके इस समस्या के आसपास काम करता है। रैखिक प्रतिगमन मॉडल के तहत (जो कर्नेल फ़ंक्शन को रैखिक कर्नेल के रूप में चुनने से मेल खाता है), यह संबंधित के वर्णक्रमीय अपघटन पर विचार करने के बराबर है $n\times n$ कर्नेल मैट्रिक्स $\mathbf {X} \mathbf {X} ^{T}$ और फिर eigenvectors के एक चयनित उपसमूह पर परिणाम सदिश को पुनः प्राप्त करना $\mathbf {X} \mathbf {X} ^{T}$ तो प्राप्त हुआ. यह आसानी से दिखाया जा सकता है कि यह संबंधित प्रमुख घटकों (जो इस मामले में परिमित-आयामी हैं) पर परिणाम सदिश को पुनः प्राप्त करने के समान है, जैसा कि शास्त्रीय पीसीआर के संदर्भ में परिभाषित किया गया है। इस प्रकार, रैखिक कर्नेल के लिए, दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित शास्त्रीय पीसीआर के बिल्कुल बराबर है। यद्यपि, मनमाने ढंग से (और संभवतः गैर-रैखिक) कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर मैप की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस मामले में शास्त्रीय पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, लेकिन दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर अभी भी वैध और कम्प्यूटेशनल रूप से स्केलेबल बना हुआ है।

यह भी देखें

प्रमुख कंपोनेंट विश्लेषण
आंशिक न्यूनतम वर्ग प्रतिगमन
कटक प्रतिगमन
विहित सहसंबंध
प्रतिगमन की मांग करना
वर्गों का कुल योग

संदर्भ

↑ Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.
↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9
↑ ^3.0 ^3.1 ^3.2 Sung H. Park (1981). "प्रतिक्रियाओं का अनुमान लगाने के लिए प्रतिगमन पैरामीटर्स पर संरेखता और इष्टतम प्रतिबंध". Technometrics. 23 (3): 289–295. doi:10.2307/1267793.
↑ Lldiko E. Frank & Jerome H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tools". Technometrics. 35 (2): 109–135. doi:10.1080/00401706.1993.10485033.
↑ Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani (2006). "Prediction by Supervised Principal Components". Journal of the American Statistical Association. 101 (473): 119–137. CiteSeerX 10.1.1.516.2313. doi:10.1198/016214505000000628.

अग्रिम पठन

Amemiya, Takeshi (1985). Advanced Econometrics. Harvard University Press. pp. 57–60. ISBN 978-0-674-00560-0.
Theil, Henri (1971). Principles of Econometrics. Wiley. pp. 46–55. ISBN 978-0-471-85845-4.

[1] Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.

[2] Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9

[Park_(1981)-3] 3.0 ^3.1 ^3.2 Sung H. Park (1981). "प्रतिक्रियाओं का अनुमान लगाने के लिए प्रतिगमन पैरामीटर्स पर संरेखता और इष्टतम प्रतिबंध". Technometrics. 23 (3): 289–295. doi:10.2307/1267793.

[Frank_and_Friedman_(1993)-4] Lldiko E. Frank & Jerome H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tools". Technometrics. 35 (2): 109–135. doi:10.1080/00401706.1993.10485033.

[Bair_et_al._(2006)-5] Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani (2006). "Prediction by Supervised Principal Components". Journal of the American Statistical Association. 101 (473): 119–137. CiteSeerX 10.1.1.516.2313. doi:10.1198/016214505000000628.

[1]

[2]

[3]

[4]

[5]

@@ Line 34: / Line 34: @@
 '''डेटा प्रतिनिधित्व:''' संज्ञायित परिणामों के सदिश को <math> \mathbf{Y}{n \times 1} = \left(y_1,\ldots,y_n\right)^T </math> से दर्शाया जाता है और संबंधित संघटकों के प्रतिनिधित [[डेटा मात्रिका (बहुपक्षीय सांख्यिकी)|डेटा मात्रिका]] को <math> \mathbf{X}{n \times p} = \left(\mathbf{x}_1,\ldots,\mathbf{x}_n\right)^T </math> से दर्शाया जाता है, यहाँ पर, <math> n </math> और <math> p </math> प्रामाणिकता में देखे गए [[नमूना (सांख्यिकी)|प्रारूप]] के आकार और संख्या हैं, जिनमें, <math> n \geq p </math>। <math> \mathbf{X} </math> के प्रत्येक पंक्ति का प्रतिनिधित प्रकार <math> p </math> [[आयाम (विभूति अवकाश)|आयामी]] संघटक के लिए एक अवलोकन प्रदान करता है और <math> \mathbf{Y} </math> का संबंधित प्रविष्टि संबंधित निरूपित परिणाम को दर्शाती है।
-'''डेटा पूर्वसंस्करण:''' मान लीजिए कि <math> \mathbf{Y} </math> और <math> \mathbf{X} </math> के प्रत्येक <math> p </math> स्तंभों को पहले से ही [[केंद्रबद्ध मात्रिका|केंद्रबद्ध]] किया गया है, जिससे सभी में शून्य [[नमूना औसत और प्रारूप सहसंयोजन|नमूनी औसत]] हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम <math> \mathbf{X} </math> के स्तंभों के लिए) क्योंकि PCR में <math> \mathbf{X} </math> पर PCA का उपयोग होता है और [[मुख्य संघटना विश्लेषण|PCA]] डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।
+'''डेटा पूर्वसंस्करण:''' मान लीजिए कि <math> \mathbf{Y} </math> और <math> \mathbf{X} </math> के प्रत्येक <math> p </math> स्तंभों को पहले से ही [[केंद्रबद्ध मात्रिका|केंद्रबद्ध]] किया गया है, जिससे सभी में शून्य [[नमूना औसत और प्रारूप सहसंयोजन|नमूनी औसत]] हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम <math> \mathbf{X} </math> के स्तंभों के लिए) क्योंकि पीसीआर में <math> \mathbf{X} </math> पर पीसीए का उपयोग होता है और [[मुख्य संघटना विश्लेषण|पीसीए]] डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।
-'''मूल प्रारूप:''' केंद्रीयन के बाद, <math> \mathbf{Y} </math> पर <math> \mathbf{X} </math> के लिए मानक [[गौस-मार्कोव सिद्धांत|गौस-मार्कोव]] [[रैखिक प्रतिस्थापन]] मॉडल निम्न रूप में दर्शाया जा सकता है: <math> \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, ;</math> जहां <math> \boldsymbol{\beta} \in \mathbb{R}^p </math> निर्ज्ञात पैरामीटर वेक्टर का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और <math> \boldsymbol{\varepsilon} </math> संख्यात्मक त्रुटियों का वेक्टर है जिसके लिए <math> \operatorname{E}\left(\boldsymbol{\varepsilon}\right) = \mathbf{0} ; </math> और <math> ; \operatorname{Var}\left(\boldsymbol{\varepsilon}\right) = \sigma^2I_{n \times n} </math> है, जहां कुछ अज्ञात [[विचलन]] मापदंड <math> \sigma^2 > 0 ;; </math> है।
-'''उद्देश्य:''' मुख्य उद्देश्य डेटा पर आधारित पैरामीटर <math> \boldsymbol\beta </math> के लिए एक कुशल [[अनुमापक]] <math> \widehat{\boldsymbol\beta} </math> प्राप्त करना है। इसके लिए एक आमतौर पर प्रयुक्त दृष्टिकोण होता है ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन जो, <math> \mathbf{X} </math> को [[श्रेणी (लिनियर बहुलक)|पूर्ण स्तंभ श्रेणी]] मानते हुए, [[प्रतिस्थापन का द्रव्यमान|बिना उचितवादी अनुमापक]] देता है: <math> \widehat{\boldsymbol\beta}_\mathrm{ols} = (\mathbf{X}^{T}\mathbf{X})^{-1} \mathbf{X}^{T}\mathbf{Y} </math> जो <math> \boldsymbol{\beta} </math> का [[अनुमापक का धौलेयता|धौलेय अनुमापक]] है। PCR एक और तकनीक है जो <math> \boldsymbol{\beta} </math> का अनुमापन करने के लिए उपयोग की जा सकती है।
+'''मूल प्रारूप:''' केंद्रीयन के बाद, <math> \mathbf{Y} </math> पर <math> \mathbf{X} </math> के लिए मानक [[गौस-मार्कोव सिद्धांत|गौस-मार्कोव]] [[रैखिक प्रतिस्थापन]] मॉडल निम्न रूप में दर्शाया जा सकता है: <math> \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, ;</math> जहां <math> \boldsymbol{\beta} \in \mathbb{R}^p </math> निर्ज्ञात मापदंड सदिश का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और <math> \boldsymbol{\varepsilon} </math> संख्यात्मक त्रुटियों का सदिश है जिसके लिए <math> \operatorname{E}\left(\boldsymbol{\varepsilon}\right) = \mathbf{0} ; </math> और <math> ; \operatorname{Var}\left(\boldsymbol{\varepsilon}\right) = \sigma^2I_{n \times n} </math> है, जहां कुछ अज्ञात [[विचलन]] मापदंड <math> \sigma^2 > 0 ;; </math> है।
-'''PCA चरण:''' PCR केंद्रीयत डेटा मात्रिका <math> \mathbf{X} </math> पर PCA का अभ्यास करके प्रारंभ होता है। इसके लिए, <math> \mathbf{X} = U \Delta V^{T} </math> से देखाया जाता है, यहाँ <math> \Delta_{p \times p} = \operatorname{diag}\left[\delta_1,\ldots,\delta_p\right] </math> है जहां <math> \delta_1 \geq \cdots \geq \delta_p \geq 0 </math> डेटा के गैर-नकारात्मक [[अद्वितीय मान वित्तंत्र|अद्वितीय मान]] को दर्शाते हैं, जबकि <math> U_{n \times p} = [\mathbf{u}_1,\ldots,\mathbf{u}p] </math> और <math> V{p \times p} = [\mathbf{v}_1,\ldots,\mathbf{v}_p] </math> की [[सदिशता|सदिश सेट]] हैं जो उचितवादी वेक्टर को दर्शाते हैं और <math> \mathbf{X} </math> के [[अद्वितीय मान वित्तंत्र|अद्वितीय मानों]] के [[अद्वितीय मान वित्तंत्र|दाईं और बाईं अद्वितीय मान सदिशो]] को दर्शाते हैं।
+'''उद्देश्य:''' मुख्य उद्देश्य डेटा पर आधारित मापदंड <math> \boldsymbol\beta </math> के लिए एक कुशल [[अनुमापक]] <math> \widehat{\boldsymbol\beta} </math> प्राप्त करना है। इसके लिए सामान्यतः प्रयुक्त दृष्टिकोण ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन होता है जो, <math> \mathbf{X} </math> को [[श्रेणी (लिनियर बहुलक)|पूर्ण स्तंभ श्रेणी]] मानते हुए, [[प्रतिस्थापन का द्रव्यमान|बिना उचितवादी अनुमापक]] उत्पन्न करता है: <math> \widehat{\boldsymbol\beta}_\mathrm{ols} = (\mathbf{X}^{T}\mathbf{X})^{-1} \mathbf{X}^{T}\mathbf{Y} </math> जो <math> \boldsymbol{\beta} </math> का [[अनुमापक का धौलेयता|धौलेय अनुमापक]] है। पीसीआर एक और तकनीक है जो <math> \boldsymbol{\beta} </math> के अनुमापन करने के लिए उपयोग की जा सकती है।
+'''पीसीए चरण:''' पीसीआर केंद्रीयत डेटा मात्रिका <math> \mathbf{X} </math> पर पीसीए का अभ्यास करके प्रारंभ होता है। इसके लिए, <math> \mathbf{X} = U \Delta V^{T} </math> से देखाया जाता है, यहाँ <math> \Delta_{p \times p} = \operatorname{diag}\left[\delta_1,\ldots,\delta_p\right] </math> है जहां <math> \delta_1 \geq \cdots \geq \delta_p \geq 0 </math> डेटा के गैर-नकारात्मक [[अद्वितीय मान वित्तंत्र|अद्वितीय मान]] को दर्शाते हैं, जबकि <math> U_{n \times p} = [\mathbf{u}_1,\ldots,\mathbf{u}p] </math> और <math> V{p \times p} = [\mathbf{v}_1,\ldots,\mathbf{v}_p] </math> की [[सदिशता|सदिश समुच्चय]] हैं जो उचितवादी सदिश को दर्शाते हैं और <math> \mathbf{X} </math> के [[अद्वितीय मान वित्तंत्र|अद्वितीय मानों]] के [[अद्वितीय मान वित्तंत्र|दाईं और बाईं अद्वितीय मान सदिशो]] को दर्शाते हैं।
-'''मुख्य संघटनाएं:''' <math> V \Lambda V^T </math> द्वारा <math> \mathbf{X}^T \mathbf{X} </math> के [[मान संघटना|मान संघटना]] को प्रदर्शित किया जाता है, जहां <math> \Lambda_{p \times p} = \operatorname{diag}\left[\lambda_1,\ldots,\lambda_p\right] = \operatorname{diag}\left[\delta_1^2,\ldots,\delta_p^2\right] = \Delta^2 </math> होता है जहां <math> \lambda_1 \geq \cdots \geq \lambda_p \geq 0 </math> गैर-नकारात्मक इगेनमूल्यांकन (जिन्हें [[मुख्य संघटना विश्लेषण|मुख्य मान]] भी कहा जाता है) को दर्शाते हैं, जबकि <math> V </math> की स्तंभें संबंधित अद्वितीय सेट को दर्शाती हैं। तब, <math> \mathbf{X}\mathbf{v}_j </math> और <math> \mathbf{v}_j </math> प्रत्येक में <math> j^\text{वां} </math> अधिकतम [[मुख्य संघटना विश्लेषण|मुख्य संघटना]] और <math> j^\text{वां} </math> मुख्य संघटना दिशा (या [[मुख्य संघटना विश्लेषण|PCA लोडिंग]]) को दर्शाते हैं जो संबंधित अधिकतम [[मुख्य संघटना विश्लेषण|मुख्य मान]] <math> \lambda_j </math> के लिए होते हैं, जहा <math> j \in {1,\ldots,p}</math> द्वारा प्रदर्शित होता है।
+'''मुख्य संघटनाएं:''' <math> V \Lambda V^T </math> द्वारा <math> \mathbf{X}^T \mathbf{X} </math> के [[मान संघटना|मान संघटना]] को प्रदर्शित किया जाता है, जहां <math> \Lambda_{p \times p} = \operatorname{diag}\left[\lambda_1,\ldots,\lambda_p\right] = \operatorname{diag}\left[\delta_1^2,\ldots,\delta_p^2\right] = \Delta^2 </math> होता है जहां <math> \lambda_1 \geq \cdots \geq \lambda_p \geq 0 </math> गैर-नकारात्मक इगेनमूल्यांकन (जिन्हें [[मुख्य संघटना विश्लेषण|मुख्य मान]] भी कहा जाता है) को दर्शाते हैं, जबकि <math> V </math> की स्तंभें संबंधित अद्वितीय समुच्चय को दर्शाती हैं। तब, <math> \mathbf{X}\mathbf{v}_j </math> और <math> \mathbf{v}_j </math> प्रत्येक में <math> j^\text{th} </math> अधिकतम [[मुख्य संघटना विश्लेषण|मुख्य संघटना]] और <math> j^\text{th} </math> मुख्य संघटना दिशा (या [[मुख्य संघटना विश्लेषण|पीसीए लोडिंग]]) को दर्शाते हैं जो संबंधित अधिकतम [[मुख्य संघटना विश्लेषण|मुख्य मान]] <math> \lambda_j </math> के लिए होते हैं, जहा <math> j \in {1,\ldots,p}</math> द्वारा प्रदर्शित होता है।
 '''प्राप्तित संबंधित रूपांतरण:''' किसी भी <math> k \in {1,\ldots,p}</math> के लिए, यहां <math> V_{k} </math> उपस्थित हो, जो एकाधिकार स्तंभों के साथ पूर्ण स्तंभ की पहली <math> k </math> स्तंभों से मिलकर बने <math> p \times k </math> मात्रिका होती है। <math> W_k = \mathbf{X}V_{k} </math> <math> = [\mathbf{X}\mathbf{v}_1,\ldots,\mathbf{X}\mathbf{v}_k] </math> उपस्थित करती है, जो पहले <math> k </math> मुख्य संघटनाओं को अपने स्तंभों के रूप में रखने वाली <math> n \times k </math> मात्रिका होती है। <math> W </math> मूल्यों को उपयोग करके डेटा मात्रिका के रूप में देखा जा सकता है, [[रूपांतरण मात्रिका|रूपांतरित]] संबंधित डेटा <math> \mathbf{x}_i^k = V_k^T \mathbf{x}_i \in \mathbb{R}^{k} </math> का उपयोग करके करने के बजाय मूल बहुभिन्नरूपी संबंधित <math> \mathbf{x}_i \in \mathbb{R}^p ;; \forall ;; 1 \leq i \leq n </math> का उपयोग करने से प्राप्त होती है।
-'''PCR अनुमापक:''' <math> \widehat{\gamma}k = (W_k^T W_k)^{-1} W_k^T \mathbf{Y} \in \mathbb{R}^k </math> को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के वेक्टर को दर्शाता है, जो प्रतिक्रिया संकेतक <math> \mathbf{Y} </math> के ऊपर [[सामान्यत: कम्पता चौरस]] रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका <math> W{k} </math> पर। तो, किसी भी <math> k \in {1,\ldots,p}</math> के लिए, प्रथम <math> k </math> मुख्य संघटनाओं का उपयोग करके <math> \boldsymbol{\beta} </math> का अंतिम PCR अनुमापक निम्न रूप में दिया जाता है: <math> \widehat{\boldsymbol{\beta}}_k = V_k \widehat{\gamma}_k \in \mathbb{R}^p </math>।
+'''पीसीआर अनुमापक:''' <math> \widehat{\gamma}k = (W_k^T W_k)^{-1} W_k^T \mathbf{Y} \in \mathbb{R}^k </math> को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के सदिश को दर्शाता है, जो प्रतिक्रिया संकेतक <math> \mathbf{Y} </math> के ऊपर [[सामान्यत: कम्पता चौरस]] रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका <math> W{k} </math> पर। तो, किसी भी <math> k \in {1,\ldots,p}</math> के लिए, प्रथम <math> k </math> मुख्य संघटनाओं का उपयोग करके <math> \boldsymbol{\beta} </math> का अंतिम पीसीआर अनुमापक निम्न रूप में दिया जाता है: <math> \widehat{\boldsymbol{\beta}}_k = V_k \widehat{\gamma}_k \in \mathbb{R}^p </math>।
 [[Category:Created On 07/07/2023|Principal Component Regression]]
@@ Line 101: / Line 103: @@
 ===नियमितीकरण प्रभाव===
-चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसेट का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण (गणित) प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए <math> 1 \leqslant k < p</math>, पीसीआर अनुमानक <math> \widehat{\boldsymbol{\beta}}_k </math> निम्नलिखित [[विवश अनुकूलन]] समस्या के नियमित समाधान को दर्शाता है:
+चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसमुच्चय का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण (गणित) प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए <math> 1 \leqslant k < p</math>, पीसीआर अनुमानक <math> \widehat{\boldsymbol{\beta}}_k </math> निम्नलिखित [[विवश अनुकूलन]] समस्या के नियमित समाधान को दर्शाता है:
 : <math>\min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \left \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_* \right \|^2 \quad \text{ subject to } \quad  \boldsymbol{\beta}_* \perp \{\mathbf{v}_{k+1}, \ldots, \mathbf{v}_p\}.</math>
@@ Line 145: / Line 147: @@
 ऐसा अब भी संभव है <math> \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math>, विशेष रूप से यदि <math> k </math> ऐसा है कि बहिष्कृत प्रमुख घटक छोटे स्वदेशी मानों के अनुरूप होते हैं, जिसके परिणामस्वरूप अनुमानक का पूर्वाग्रह कम होता है।
-एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए <math> \boldsymbol{\beta}</math>, पार्क (1981) <ref name="Park (1981)"/>प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें <math> j^{th} </math> प्रमुख घटक यदि और केवल यदि <math>\lambda_j < (p\sigma^2)/ \boldsymbol{\beta}^T \boldsymbol{\beta}.</math> इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात मॉडल मापदंडों के अनुमान की आवश्यकता होती है <math> \sigma^2 </math> और <math> \boldsymbol{\beta} </math>. सामान्य तौर पर, उनका अनुमान मूल पूर्ण मॉडल से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित सेट प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है।<ref name="Park (1981)" />
+एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए <math> \boldsymbol{\beta}</math>, पार्क (1981) <ref name="Park (1981)"/>प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें <math> j^{th} </math> प्रमुख घटक यदि और केवल यदि <math>\lambda_j < (p\sigma^2)/ \boldsymbol{\beta}^T \boldsymbol{\beta}.</math> इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात मॉडल मापदंडों के अनुमान की आवश्यकता होती है <math> \sigma^2 </math> और <math> \boldsymbol{\beta} </math>. सामान्य तौर पर, उनका अनुमान मूल पूर्ण मॉडल से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित समुच्चय प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है।<ref name="Park (1981)" />
 के eigenvalues के संचयी योग पर आधारित मानदंडों के विपरीत <math> \mathbf{X}^T\mathbf{X} </math>, जो संभवतः बहुसंरेखता समस्या को संबोधित करने और आयाम में कमी करने के लिए अधिक उपयुक्त है, उपरोक्त मानदंड वास्तव में प्रिंसिपल के चयन की प्रक्रिया में परिणाम के साथ-साथ सहसंयोजक दोनों को शामिल करके पीसीआर अनुमानक की भविष्यवाणी और अनुमान दक्षता में सुधार करने का प्रयास करता है। प्रतिगमन चरण में उपयोग किए जाने वाले घटक। समान लक्ष्यों वाले वैकल्पिक दृष्टिकोणों में क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन या मैलोज़ सीपी|मैलोज़ सी के आधार पर प्रमुख घटकों का चयन शामिल है।<sub>p</sub>मानदंड। प्रायः, प्रमुख घटकों का चयन परिणाम के साथ उनके सहसंबंध और निर्भरता की डिग्री के आधार पर भी किया जाता है।
 ===पीसीआर का सिकुड़न प्रभाव===
-सामान्य तौर पर, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च विचरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है <math> \mathbf{X}^T\mathbf{X} </math>) मॉडल में सहसंयोजक के रूप में और शेष कम विचरण घटकों को त्याग देता है (निचले eigenvalues के अनुरूप) <math> \mathbf{X}^T\mathbf{X} </math>). इस प्रकार यह कम विचरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल मॉडल में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, [[ रिज प्रतिगमन ]] अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (गणित) (या ट्यूनिंग पैरामीटर) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993)<ref name="Frank and Friedman (1993)">{{Cite journal
+सामान्य तौर पर, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च विचरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है <math> \mathbf{X}^T\mathbf{X} </math>) मॉडल में सहसंयोजक के रूप में और शेष कम विचरण घटकों को त्याग देता है (निचले eigenvalues के अनुरूप) <math> \mathbf{X}^T\mathbf{X} </math>). इस प्रकार यह कम विचरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल मॉडल में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, [[ रिज प्रतिगमन ]] अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (गणित) (या ट्यूनिंग मापदंड) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993)<ref name="Frank and Friedman (1993)">{{Cite journal
   |author1=Lldiko E. Frank  |author2=Jerome H. Friedman
    |name-list-style=amp | title = A Statistical View of Some Chemometrics Regression Tools
@@ Line 171: / Line 173: @@
   | pages = 119–137
   | doi = 10.1198/016214505000000628
-  |citeseerx=10.1.1.516.2313 }}</ref> पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक सेट निष्पादित करके प्रारंभ होता है <math> p </math> रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है <math> p </math> सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए <math> m \in \{1,\ldots, p\}</math>, पहला <math> m </math> सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है <math> n \times m </math> चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा मैट्रिक्स। प्रयुक्त सहसंयोजकों की संख्या: <math> m \in \{1,\ldots, p\}</math> और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: <math> k \in \{1,\ldots, m\}</math> सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा चुना जाता है।
+  |citeseerx=10.1.1.516.2313 }}</ref> पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक समुच्चय निष्पादित करके प्रारंभ होता है <math> p </math> रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है <math> p </math> सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए <math> m \in \{1,\ldots, p\}</math>, पहला <math> m </math> सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है <math> n \times m </math> चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा मैट्रिक्स। प्रयुक्त सहसंयोजकों की संख्या: <math> m \in \{1,\ldots, p\}</math> और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: <math> k \in \{1,\ldots, m\}</math> सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा चुना जाता है।
-==कर्नेल सेटिंग्स का सामान्यीकरण==
+==कर्नेल समुच्चयिंग्स का सामान्यीकरण==
-ऊपर वर्णित शास्त्रीय पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम की भविष्यवाणी के लिए एक रैखिक प्रतिगमन पर विचार करती है। यद्यपि, इसे आसानी से कर्नेल विधियों की सेटिंग में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में [[रैखिकता]] की आवश्यकता नहीं होती है, बल्कि इसके बजाय यह किसी भी मनमानी (संभवतः रैखिकता | गैर-रैखिक), सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट स्थान से संबंधित हो सकता है। कार्य [[सकारात्मक-निश्चित कर्नेल]]। रैखिक प्रतिगमन इस सेटिंग का एक विशेष मामला बन जाता है जब सकारात्मक-निश्चित कर्नेल को [[कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन]] के रूप में चुना जाता है।
+ऊपर वर्णित शास्त्रीय पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम की भविष्यवाणी के लिए एक रैखिक प्रतिगमन पर विचार करती है। यद्यपि, इसे आसानी से कर्नेल विधियों की समुच्चयिंग में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में [[रैखिकता]] की आवश्यकता नहीं होती है, बल्कि इसके बजाय यह किसी भी मनमानी (संभवतः रैखिकता | गैर-रैखिक), सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट स्थान से संबंधित हो सकता है। कार्य [[सकारात्मक-निश्चित कर्नेल]]। रैखिक प्रतिगमन इस समुच्चयिंग का एक विशेष मामला बन जाता है जब सकारात्मक-निश्चित कर्नेल को [[कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन]] के रूप में चुना जाता है।
-सामान्य तौर पर, कर्नेल विधियों की सेटिंग के तहत, सहसंयोजकों का सदिश एक आयाम (सदिश स्पेस) में पहला [[मानचित्र (गणित)]] होता है | उच्च-आयामी (संभावित आयाम (सदिश स्पेस) | अनंत-आयामी) [[ सुविधा स्थान ]] जो सकारात्मक-निश्चित द्वारा विशेषता है कर्नेल चुना गया. इस प्रकार प्राप्त मानचित्र (गणित) को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता (रैखिकता या रैखिकता | गैर-रैखिक हो सकती है) से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक [[रैखिक संयोजन]] माना जाता है। इस प्रकार, कर्नेल विधियों की सेटिंग में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल सेट के बजाय, भविष्यवक्ताओं को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश स्थान) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके [[डेटा परिवर्तन]] द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।
+सामान्य तौर पर, कर्नेल विधियों की समुच्चयिंग के तहत, सहसंयोजकों का सदिश एक आयाम (सदिश स्पेस) में पहला [[मानचित्र (गणित)]] होता है | उच्च-आयामी (संभावित आयाम (सदिश स्पेस) | अनंत-आयामी) [[ सुविधा स्थान ]] जो सकारात्मक-निश्चित द्वारा विशेषता है कर्नेल चुना गया. इस प्रकार प्राप्त मानचित्र (गणित) को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता (रैखिकता या रैखिकता | गैर-रैखिक हो सकती है) से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक [[रैखिक संयोजन]] माना जाता है। इस प्रकार, कर्नेल विधियों की समुच्चयिंग में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल समुच्चय के बजाय, भविष्यवक्ताओं को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश स्थान) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके [[डेटा परिवर्तन]] द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।
 यद्यपि, [[कर्नेल चाल]] वास्तव में हमें कर्नेल विधियों की स्पष्ट रूप से गणना किए बिना फीचर स्पेस में काम करने में सक्षम बनाती है। यह पता चलता है कि देखे गए सहसंयोजक वैक्टरों के लिए फीचर मानचित्रों के बीच जोड़ीदार आंतरिक उत्पादों की गणना करना ही पर्याप्त है और ये आंतरिक उत्पाद केवल सहसंयोजक वैक्टरों के संबंधित जोड़े पर मूल्यांकन किए गए सकारात्मक-निश्चित कर्नेल के मूल्यों द्वारा दिए गए हैं। इस प्रकार प्राप्त जोड़ीवार आंतरिक उत्पादों को एक के रूप में दर्शाया जा सकता है <math> n \times n </math> सममित गैर-नकारात्मक निश्चित मैट्रिक्स को [[कर्नेल पीसीए]] के रूप में भी जाना जाता है।
-[[कर्नेल मशीन]] सेटिंग में पीसीआर को अब फीचर स्पेस के संबंध में पहले कर्नेल पीसीए, इस कर्नेल पीसीए (के, मान लीजिए) द्वारा कार्यान्वित किया जा सकता है और फिर कर्नेल पीसीए (के, मान लीजिए) पर कर्नेल पीसीए का प्रदर्शन किया जा सकता है, जिससे एक मैट्रिक्स का ईगेंडेकंपोजिशन किया जा सकता है। का ' प्राप्त होता है। कर्नेल पीसीआर तब (सामान्यतः) प्राप्त किए गए सभी आइजनसदिशों के एक सबसेट का चयन करके आगे बढ़ता है और फिर इन चयनित [[eigenvectors]] पर परिणाम सदिश का एक रैखिक प्रतिगमन करता है। प्रतिगमन के लिए उपयोग किए जाने वाले ईजेनसदिश सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके चुने जाते हैं। अनुमानित प्रतिगमन गुणांक (चयनित ईजेनसदिशों की संख्या के समान आयाम वाले) के साथ-साथ संबंधित चयनित ईजेनसदिशों का उपयोग भविष्य के अवलोकन के परिणाम की भविष्यवाणी करने के लिए किया जाता है। [[ यंत्र अधिगम ]] में इस तकनीक को स्पेक्ट्रल रिग्रेशन के रूप में भी जाना जाता है।
+[[कर्नेल मशीन]] समुच्चयिंग में पीसीआर को अब फीचर स्पेस के संबंध में पहले कर्नेल पीसीए, इस कर्नेल पीसीए (के, मान लीजिए) द्वारा कार्यान्वित किया जा सकता है और फिर कर्नेल पीसीए (के, मान लीजिए) पर कर्नेल पीसीए का प्रदर्शन किया जा सकता है, जिससे एक मैट्रिक्स का ईगेंडेकंपोजिशन किया जा सकता है। का ' प्राप्त होता है। कर्नेल पीसीआर तब (सामान्यतः) प्राप्त किए गए सभी आइजनसदिशों के एक सबसमुच्चय का चयन करके आगे बढ़ता है और फिर इन चयनित [[eigenvectors]] पर परिणाम सदिश का एक रैखिक प्रतिगमन करता है। प्रतिगमन के लिए उपयोग किए जाने वाले ईजेनसदिश सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके चुने जाते हैं। अनुमानित प्रतिगमन गुणांक (चयनित ईजेनसदिशों की संख्या के समान आयाम वाले) के साथ-साथ संबंधित चयनित ईजेनसदिशों का उपयोग भविष्य के अवलोकन के परिणाम की भविष्यवाणी करने के लिए किया जाता है। [[ यंत्र अधिगम ]] में इस तकनीक को स्पेक्ट्रल रिग्रेशन के रूप में भी जाना जाता है।
-स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक अलग संकोचन प्रभाव होता है, जो कि मुख्य घटकों पर शास्त्रीय पीसीआर के अलग संकोचन प्रभाव के समान है, जैसा कि पहले चर्चा की गई थी। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर मैप संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल मशीन सेटिंग के तहत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल मैट्रिक्स के मैट्रिक्स के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य दोहरे फॉर्मूलेशन पर विचार करके इस समस्या के आसपास काम करता है। रैखिक प्रतिगमन मॉडल के तहत (जो कर्नेल फ़ंक्शन को रैखिक कर्नेल के रूप में चुनने से मेल खाता है), यह संबंधित के वर्णक्रमीय अपघटन पर विचार करने के बराबर है <math> n \times n </math> कर्नेल मैट्रिक्स <math> \mathbf{X}\mathbf{X}^T </math> और फिर eigenvectors के एक चयनित उपसमूह पर परिणाम सदिश को पुनः प्राप्त करना <math> \mathbf{X}\mathbf{X}^T </math> तो प्राप्त हुआ. यह आसानी से दिखाया जा सकता है कि यह संबंधित प्रमुख घटकों (जो इस मामले में परिमित-आयामी हैं) पर परिणाम सदिश को पुनः प्राप्त करने के समान है, जैसा कि शास्त्रीय पीसीआर के संदर्भ में परिभाषित किया गया है। इस प्रकार, रैखिक कर्नेल के लिए, दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित शास्त्रीय पीसीआर के बिल्कुल बराबर है। यद्यपि, मनमाने ढंग से (और संभवतः गैर-रैखिक) कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर मैप की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस मामले में शास्त्रीय पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, लेकिन दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर अभी भी वैध और कम्प्यूटेशनल रूप से स्केलेबल बना हुआ है।
+स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक अलग संकोचन प्रभाव होता है, जो कि मुख्य घटकों पर शास्त्रीय पीसीआर के अलग संकोचन प्रभाव के समान है, जैसा कि पहले चर्चा की गई थी। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर मैप संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल मशीन समुच्चयिंग के तहत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल मैट्रिक्स के मैट्रिक्स के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य दोहरे फॉर्मूलेशन पर विचार करके इस समस्या के आसपास काम करता है। रैखिक प्रतिगमन मॉडल के तहत (जो कर्नेल फ़ंक्शन को रैखिक कर्नेल के रूप में चुनने से मेल खाता है), यह संबंधित के वर्णक्रमीय अपघटन पर विचार करने के बराबर है <math> n \times n </math> कर्नेल मैट्रिक्स <math> \mathbf{X}\mathbf{X}^T </math> और फिर eigenvectors के एक चयनित उपसमूह पर परिणाम सदिश को पुनः प्राप्त करना <math> \mathbf{X}\mathbf{X}^T </math> तो प्राप्त हुआ. यह आसानी से दिखाया जा सकता है कि यह संबंधित प्रमुख घटकों (जो इस मामले में परिमित-आयामी हैं) पर परिणाम सदिश को पुनः प्राप्त करने के समान है, जैसा कि शास्त्रीय पीसीआर के संदर्भ में परिभाषित किया गया है। इस प्रकार, रैखिक कर्नेल के लिए, दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित शास्त्रीय पीसीआर के बिल्कुल बराबर है। यद्यपि, मनमाने ढंग से (और संभवतः गैर-रैखिक) कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर मैप की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस मामले में शास्त्रीय पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, लेकिन दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर अभी भी वैध और कम्प्यूटेशनल रूप से स्केलेबल बना हुआ है।
 ==यह भी देखें==

Anonymous

Search

प्रमुख घटक प्रतिगमन: Difference between revisions

Namespaces

More

Page actions

Revision as of 22:07, 11 July 2023

Contents

सिद्धांत

विधि का विवरण