प्रमुख घटक विश्लेषण

प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) बड़े डेटासेट का विश्लेषण करने के लिए एक लोकप्रिय तकनीक है जिसमें प्रति अवलोकन उच्च संख्या में आयाम/फीचर होते हैं, जानकारी की अधिकतम मात्रा को संरक्षित करते हुए डेटा की व्याख्या को बढ़ाते हैं, और बहुआयामी डेटा के विज़ुअलाइज़ेशन को सक्षम करते हैं। औपचारिक रूप से, पीसीए डेटासेट के आयाम को कम करने के लिए एक सांख्यिकीय तकनीक है। यह डेटा को रैखिक रूप से एक नई समन्वय प्रणाली में परिवर्तित करके पूरा किया जाता है, जहां (अधिकांश) डेटा में भिन्नता को प्रारंभिक डेटा की तुलना में कम आयामों के साथ वर्णित किया जा सकता है। डेटा को दो आयामों में प्लॉट करने के लिए और बारीकी से संबंधित डेटा बिंदुओं के समूहों की दृष्टि से पहचान करने के लिए कई अध्ययन पहले दो प्रमुख घटकों का उपयोग करते हैं। प्रिंसिपल कंपोनेंट एनालिसिस के कई क्षेत्रों में अनुप्रयोग हैं जैसे जनसंख्या आनुवंशिकी, माइक्रोबायोम अध्ययन और वायुमंडलीय विज्ञान। वास्तविक समन्वय स्थान में बिंदुओं के संग्रह के प्रमुख घटक अनुक्रम हैं $$p$$ यूनिट वैक्टर, जहां $$i$$-वें सदिश एक रेखा की दिशा है जो डेटा को सबसे पहले फ़िट करती है जबकि पहले से ओर्थोगोनल होती है $$i-1$$ वैक्टर। यहां, एक सर्वोत्तम-फिटिंग लाइन को उस रेखा के रूप में परिभाषित किया गया है जो एक बिंदु से एक रेखा तक औसत वर्ग लंबवत दूरी दूरी को कम करता है। ये दिशाएँ एक अलौकिक आधार का गठन करती हैं जिसमें डेटा के विभिन्न व्यक्तिगत आयाम रैखिक सहसंबंध होते हैं। प्रमुख घटक विश्लेषण प्रमुख घटकों की गणना करने और डेटा के आधार पर परिवर्तन करने के लिए उनका उपयोग करने की प्रक्रिया है, कभी-कभी केवल पहले कुछ प्रमुख घटकों का उपयोग करके और बाकी की अनदेखी करते हुए।

डेटा विश्लेषण में, एक सेट का पहला प्रमुख घटक $$p$$ चर, जिसे संयुक्त रूप से सामान्य रूप से वितरित माना जाता है, मूल चर के एक रैखिक संयोजन के रूप में गठित व्युत्पन्न चर है जो सबसे अधिक विचरण की व्याख्या करता है। दूसरा प्रमुख घटक पहले घटक के प्रभाव को हटा दिए जाने के बाद जो बचा है उसमें सबसे अधिक भिन्नता की व्याख्या करता है, और हम इसके माध्यम से आगे बढ़ सकते हैं  $$p$$ पुनरावृत्तियाँ जब तक कि सभी विचरण की व्याख्या नहीं की जाती। पीसीए का सबसे अधिक उपयोग तब किया जाता है जब कई चर एक दूसरे के साथ अत्यधिक सहसंबद्ध होते हैं और उनकी संख्या को एक स्वतंत्र सेट में कम करना वांछनीय होता है।

पीसीए का उपयोग खोजपूर्ण डेटा विश्लेषण और भविष्य कहनेवाला मॉडलिंग करने के लिए किया जाता है। यह आमतौर पर प्रत्येक डेटा बिंदु को केवल पहले कुछ प्रमुख घटकों पर प्रक्षेपित करके आयामीता में कमी के लिए उपयोग किया जाता है ताकि जितना संभव हो उतना डेटा भिन्नता को संरक्षित करते हुए निम्न-आयामी डेटा प्राप्त किया जा सके। पहले प्रमुख घटक को समान रूप से एक दिशा के रूप में परिभाषित किया जा सकता है जो अनुमानित डेटा के विचरण को अधिकतम करता है। $$i$$वें>-वें प्रमुख घटक को पहले के लिए एक दिशा ऑर्थोगोनल के रूप में लिया जा सकता है $$i-1$$ प्रमुख घटक जो अनुमानित डेटा के विचरण को अधिकतम करते हैं।

किसी भी उद्देश्य के लिए, यह दिखाया जा सकता है कि प्रमुख घटक डेटा के सहप्रसरण मैट्रिक्स के eigenvectors हैं। इस प्रकार, प्रमुख घटकों की गणना अक्सर डेटा सहप्रसरण मैट्रिक्स के आइजेनडीकम्पोज़िशन या डेटा मैट्रिक्स के एकवचन मूल्य अपघटन द्वारा की जाती है। पीसीए सच्चे ईजेनवेक्टर-आधारित बहुभिन्नरूपी विश्लेषणों में सबसे सरल है और कारक विश्लेषण से निकटता से संबंधित है। कारक विश्लेषण में आमतौर पर अंतर्निहित संरचना के बारे में अधिक डोमेन विशिष्ट मान्यताओं को शामिल किया जाता है और थोड़ा अलग मैट्रिक्स के ईजेनवेक्टरों को हल करता है। पीसीए भी विहित सहसंबंध | विहित सहसंबंध विश्लेषण (सीसीए) से संबंधित है। CCA समन्वय प्रणालियों को परिभाषित करता है जो दो डेटासेट के बीच क्रॉस सहप्रसरण का बेहतर वर्णन करता है जबकि PCA एक नए ऑर्थोगोनल समन्वय प्रणाली को परिभाषित करता है जो एकल डेटासेट में भिन्नता का बेहतर वर्णन करता है।  मजबूत आंकड़े और एलपी स्पेस | मानक पीसीए के एल1-मानक-आधारित संस्करण भी प्रस्तावित किए गए हैं।

इतिहास
पीसीए का आविष्कार 1901 में कार्ल पियर्सन ने किया था। यांत्रिकी में प्रमुख अक्ष प्रमेय के अनुरूप; इसे बाद में स्वतंत्र रूप से विकसित किया गया और 1930 के दशक में हेरोल्ड होटलिंग द्वारा इसका नाम दिया गया। अनुप्रयोग के क्षेत्र के आधार पर, इसे असतत करहुनेन-लोएव प्रमेय भी नाम दिया गया है। संकेत आगे बढ़ाना  में करहुनेन-लोएव रूपांतरण (केएलटी), बहुभिन्नरूपी गुणवत्ता नियंत्रण में हेरोल्ड होटलिंग रूपांतरण, मैकेनिकल इंजीनियरिंग में उचित ऑर्थोगोनल अपघटन (पीओडी), एकवचन मूल्य X का अपघटन (SVD) (20वीं शताब्दी की अंतिम तिमाही में आविष्कार किया गया ), एक्स का Eigedecomposition (ईवीडी)।रेखीय बीजगणित में TX, कारक विश्लेषण (PCA और कारक विश्लेषण के बीच अंतर की चर्चा के लिए Jolliffe's प्रिंसिपल कंपोनेंट एनालिसिस का अध्याय 7 देखें), एकार्ट-यंग प्रमेय (हरमन, 1960), या अनुभवजन्य ऑर्थोगोनल फ़ंक्शंस (ईओएफ) मौसम विज्ञान में (लॉरेंज, 1956), अनुभवजन्य ईजेनफंक्शन अपघटन (सिरोविच, 1987), क्वासिहार्मोनिक मोड (ब्रूक्स एट अल।, 1988), वर्णक्रमीय प्रमेय शोर में और कंपन, और संरचनात्मक गतिकी में मोड आकार।

अंतर्ज्ञान
पीसीए को डेटा के लिए एक पी-आयामी दीर्घवृत्त के रूप में फिट करने के बारे में सोचा जा सकता है, जहां दीर्घवृत्त का प्रत्येक अक्ष एक प्रमुख घटक का प्रतिनिधित्व करता है। यदि दीर्घवृत्ताभ का कुछ अक्ष छोटा है, तो उस अक्ष के साथ विचरण भी छोटा होता है।

दीर्घवृत्ताभ के अक्षों को खोजने के लिए, हमें सबसे पहले डेटासेट में प्रत्येक चर के मानों को 0 पर केंद्रित करना चाहिए और उनमें से प्रत्येक मान से चर के देखे गए मानों का माध्य घटाना चाहिए। प्रत्येक चर के लिए मूल देखे गए मानों के बजाय इन परिवर्तित मानों का उपयोग किया जाता है। फिर, हम डेटा के सहप्रसरण मैट्रिक्स की गणना करते हैं और इस सहसंयोजक मैट्रिक्स के eigenvalues ​​​​और संबंधित eigenvectors की गणना करते हैं। फिर हमें प्रत्येक ऑर्थोगोनल ईजेनवेक्टर को यूनिट वैक्टर में बदलने के लिए सामान्यीकरण (सांख्यिकी) करना होगा। एक बार यह हो जाने के बाद, प्रत्येक परस्पर-ऑर्थोगोनल यूनिट ईजेनवेक्टर को डेटा में फिट किए गए दीर्घवृत्त के अक्ष के रूप में व्याख्या किया जा सकता है। आधार का यह चुनाव सहप्रसरण मैट्रिक्स को एक विकर्ण रूप में बदल देगा, जिसमें विकर्ण तत्व प्रत्येक अक्ष के विचरण का प्रतिनिधित्व करते हैं। प्रत्येक ईजेनवेक्टर द्वारा दर्शाए गए प्रसरण के अनुपात की गणना उस ईजेनवेक्टर के अनुरूप ईजेनवेल्यू को सभी आइगेनवैल्यू के योग से विभाजित करके की जा सकती है।

पीसीए के निष्कर्षों को समझाने के लिए बिप्लॉट्स और मिट्टी - रोढ़ी वाला भूखंड ्स (व्याख्या विचरण की डिग्री) का उपयोग किया जाता है।

विवरण
पीसीए को एक ऑर्थोगोनल परिवर्तन रैखिक परिवर्तन के रूप में परिभाषित किया गया है जो डेटा को एक नई समन्वय प्रणाली में बदल देता है जैसे कि डेटा के कुछ स्केलर प्रक्षेपण द्वारा सबसे बड़ा भिन्नता पहले समन्वय (जिसे पहला मुख्य घटक कहा जाता है) पर झूठ बोलना आता है, पर दूसरा सबसे बड़ा भिन्नता दूसरा समन्वय, और इसी तरह।

एक पर विचार करें $$n \times p$$ डेटा मैट्रिक्स (गणित), X, स्तंभ-वार शून्य अनुभवजन्य माध्य के साथ (प्रत्येक स्तंभ का नमूना माध्य शून्य पर स्थानांतरित कर दिया गया है), जहां प्रत्येक  n  पंक्तियाँ प्रयोग की एक अलग पुनरावृत्ति का प्रतिनिधित्व करती हैं, और प्रत्येक p कॉलम एक विशेष प्रकार की सुविधा देता है (कहते हैं, किसी विशेष सेंसर से परिणाम)।

गणितीय रूप से, परिवर्तन को आकार के एक सेट द्वारा परिभाषित किया जाता है $$l$$ वजन या गुणांक के पी-आयामी वैक्टर $$\mathbf{w}_{(k)} = (w_1, \dots, w_p)_{(k)} $$ वह प्रत्येक पंक्ति वेक्टर को मैप करता है $$\mathbf{x}_{(i)}$$ प्रमुख घटक स्कोर के एक नए सदिश के लिए X का $$\mathbf{t}_{(i)} = (t_1, \dots, t_l)_{(i)}$$, द्वारा दिए गए


 * $${t_{k}}_{(i)} = \mathbf{x}_{(i)} \cdot \mathbf{w}_{(k)} \qquad \mathrm{for} \qquad i = 1,\dots,n \qquad k = 1,\dots,l $$

इस तरह से कि व्यक्तिगत चर $$t_1, \dots, t_l$$ डेटा सेट पर विचार किए गए टी के क्रमिक रूप से X से अधिकतम संभव विचरण प्राप्त होता है, प्रत्येक गुणांक वेक्टर w के साथ एक इकाई वेक्टर होने के लिए विवश होता है (जहाँ $$l$$ आमतौर पर सख्ती से कम होने के लिए चुना जाता है $$p$$ आयामीता को कम करने के लिए)।

पहला घटक
प्रसरण को अधिकतम करने के लिए, पहला भार सदिश w(1) इस प्रकार संतुष्ट करना पड़ता है
 * $$\mathbf{w}_{(1)}

= \arg\max_{\Vert \mathbf{w} \Vert = 1} \,\left\{ \sum_i (t_1)^2_{(i)} \right\} = \arg\max_{\Vert \mathbf{w} \Vert = 1} \,\left\{ \sum_i \left(\mathbf{x}_{(i)} \cdot \mathbf{w} \right)^2 \right\}$$ समान रूप से इसे मैट्रिक्स रूप में लिखने पर प्राप्त होता है
 * $$\mathbf{w}_{(1)}

= \arg\max_{\left\| \mathbf{w} \right\| = 1} \left\{ \left\| \mathbf{Xw} \right\|^2 \right\} = \arg\max_{\left\| \mathbf{w} \right\| = 1} \left\{ \mathbf{w}^\mathsf{T} \mathbf{X}^\mathsf{T} \mathbf{X w} \right\}$$ डब्ल्यू के बाद से(1) इकाई वेक्टर के रूप में परिभाषित किया गया है, यह समकक्ष भी संतुष्ट करता है
 * $$\mathbf{w}_{(1)} = \arg\max \left\{ \frac{\mathbf{w}^\mathsf{T} \mathbf{X}^\mathsf{T} \mathbf{X w}}{\mathbf{w}^\mathsf{T} \mathbf{w}} \right\}$$

अधिकतम की जाने वाली मात्रा को रेले भागफल के रूप में पहचाना जा सकता है। एक सकारात्मक अर्ध निश्चित मैट्रिक्स जैसे एक्स के लिए एक मानक परिणामTX यह है कि भागफल का अधिकतम संभव मान मैट्रिक्स का सबसे बड़ा eigenvalue है, जो तब होता है जब w संबंधित eigenvector होता है।

डब्ल्यू के साथ(1) मिला, डेटा वेक्टर x का पहला प्रमुख घटक(i) फिर स्कोर टी के रूप में दिया जा सकता है1(i) = एक्स(i) ⋅ में(1) रूपांतरित निर्देशांक में, या मूल चर में संबंधित वेक्टर के रूप में, {x(i) ⋅ में(1)} में(1).

आगे के घटक
k-वें घटक को 'X' से पहले k − 1 प्रमुख घटकों को घटाकर प्राप्त किया जा सकता है:


 * $$\mathbf{\hat{X}}_k = \mathbf{X} - \sum_{s = 1}^{k - 1} \mathbf{X} \mathbf{w}_{(s)} \mathbf{w}_{(s)}^{\mathsf{T}} $$

और फिर वेट वेक्टर का पता लगाना जो इस नए डेटा मैट्रिक्स से अधिकतम भिन्नता निकालता है
 * $$\mathbf{w}_{(k)}

= \mathop{\operatorname{arg\,max}}_{\left\| \mathbf{w} \right\| = 1} \left\{ \left\| \mathbf{\hat{X}}_{k} \mathbf{w} \right\|^2 \right\} = \arg\max \left\{ \tfrac{\mathbf{w}^\mathsf{T} \mathbf{\hat{X}}_{k}^\mathsf{T} \mathbf{\hat{X}}_{k} \mathbf{w}}{\mathbf{w}^T \mathbf{w}} \right\}$$ यह पता चला है कि यह एक्स के शेष eigenvectors देता हैTX, कोष्ठकों में मात्रा के लिए उनके संबंधित eigenvalues ​​​​द्वारा दिए गए अधिकतम मानों के साथ। इस प्रकार वजन वैक्टर X के आइजनवेक्टर हैंटीएक्स।

डेटा सदिश x का k-वाँ प्रमुख घटक(i) इसलिए स्कोर टी के रूप में दिया जा सकता हैk(i) = एक्स(i) ⋅ में(k) रूपांतरित निर्देशांक में, या मूल चर के स्थान में संबंधित वेक्टर के रूप में, {x(i) ⋅ में(k)} में(k), जहां डब्ल्यू(k) 'X' का kवां आइजनवेक्टर हैटीएक्स।

इसलिए X का पूर्ण प्रमुख घटक अपघटन इस प्रकार दिया जा सकता है
 * $$\mathbf{T} = \mathbf{X} \mathbf{W}$$

जहां W वजन का p-by-p मैट्रिक्स है, जिसके कॉलम X के ईजेनवेक्टर हैंटीएक्स। डब्ल्यू के स्थानान्तरण को कभी-कभी श्वेत परिवर्तन कहा जाता है। डब्ल्यू के कॉलम को इसी ईजेनवेल्यूज के वर्गमूल से गुणा किया जाता है, यानी, ईजेनवेक्टरों को वेरिएंस द्वारा बढ़ाया जाता है, जिन्हें पीसीए या फैक्टर एनालिसिस में 'लोडिंग' कहा जाता है।

सहप्रसरण
एक्सTX को ही डेटासेट X के अनुभवजन्य नमूना सहप्रसरण मैट्रिक्स के समानुपाती के रूप में पहचाना जा सकता है टी.

डेटासेट पर दो अलग-अलग प्रमुख घटकों के बीच नमूना सहप्रसरण Q द्वारा दिया गया है:


 * $$\begin{align}

Q(\mathrm{PC}_{(j)}, \mathrm{PC}_{(k)}) & \propto (\mathbf{X}\mathbf{w}_{(j)})^\mathsf{T} (\mathbf{X}\mathbf{w}_{(k)}) \\ & = \mathbf{w}_{(j)}^\mathsf{T} \mathbf{X}^\mathsf{T} \mathbf{X} \mathbf{w}_{(k)} \\ & = \mathbf{w}_{(j)}^\mathsf{T} \lambda_{(k)} \mathbf{w}_{(k)} \\ & = \lambda_{(k)} \mathbf{w}_{(j)}^\mathsf{T} \mathbf{w}_{(k)} \end{align}$$ जहाँ w का eigenvalue गुण है(k) लाइन 2 से लाइन 3 पर जाने के लिए इस्तेमाल किया गया है। हालांकि eigenvectors w(j) और डब्ल्यू(k) एक सममित मैट्रिक्स के eigenvalues ​​​​के अनुरूप ओर्थोगोनल हैं (यदि eigenvalues ​​अलग हैं), या ऑर्थोगोनलाइज़ किया जा सकता है (यदि वैक्टर एक समान दोहराया मान साझा करते हैं)। इसलिए अंतिम पंक्ति में गुणनफल शून्य है; डेटासेट पर विभिन्न प्रमुख घटकों के बीच कोई नमूना सहप्रसरण नहीं है।

प्रमुख घटकों के परिवर्तन को चिह्नित करने का एक और तरीका है, इसलिए समन्वय के परिवर्तन के रूप में जो अनुभवजन्य नमूना सहप्रसरण मैट्रिक्स को विकर्ण करता है।

मैट्रिक्स रूप में, मूल चर के लिए अनुभवजन्य सहप्रसरण मैट्रिक्स लिखा जा सकता है
 * $$\mathbf{Q} \propto \mathbf{X}^\mathsf{T} \mathbf{X} = \mathbf{W} \mathbf{\Lambda} \mathbf{W}^\mathsf{T}$$

प्रमुख घटकों के बीच अनुभवजन्य सहप्रसरण मैट्रिक्स बन जाता है
 * $$\mathbf{W}^\mathsf{T} \mathbf{Q} \mathbf{W}

\propto \mathbf{W}^\mathsf{T} \mathbf{W} \, \mathbf{\Lambda} \, \mathbf{W}^\mathsf{T} \mathbf{W} = \mathbf{\Lambda} $$ जहां Λ eigenvalues ​​λ का विकर्ण मैट्रिक्स है(k) एक्स काटीएक्स। "एल"(k) प्रत्येक घटक k, यानी λ से जुड़े डेटासेट पर वर्गों के योग के बराबर है(k) = एसi tk 2(i) = एसi (एक्स(i) ⋅ में(k)) 2।

आयाम में कमी
परिवर्तन T = X W एक डेटा वेक्टर x को मैप करता है(i) p वेरिएबल्स के एक मूल स्थान से p वेरिएबल्स के एक नए स्थान पर जो डेटासेट पर असंबद्ध हैं। हालांकि, सभी प्रमुख घटकों को रखने की जरूरत नहीं है। केवल पहले एल आइजेनवेक्टरों का उपयोग करके उत्पादित केवल पहले एल प्रमुख घटकों को बनाए रखना, छोटा परिवर्तन देता है


 * $$\mathbf{T}_L = \mathbf{X} \mathbf{W}_L$$

जहां मैट्रिक्स टीL अब n पंक्तियाँ हैं लेकिन केवल L कॉलम हैं। दूसरे शब्दों में, पीसीए एक रेखीय परिवर्तन सीखता है $$ t = W_L^\mathsf{T} x, x \in \mathbb{R}^p, t \in \mathbb{R}^L,$$ जहां के कॉलम $p × L$ आव्यूह $$W_L$$ एल सुविधाओं (प्रतिनिधित्व टी के घटक) के लिए एक ऑर्थोगोनल आधार बनाते हैं जो अलंकृत हैं। निर्माण द्वारा, केवल एल कॉलम के साथ सभी रूपांतरित डेटा मैट्रिसेस में, यह स्कोर मैट्रिक्स मूल डेटा में भिन्नता को अधिकतम करता है जिसे संरक्षित किया गया है, जबकि कुल चुकता पुनर्निर्माण त्रुटि को कम करता है। $$\|\mathbf{T}\mathbf{W}^T - \mathbf{T}_L\mathbf{W}^T_L\|_2^2$$ या $$\|\mathbf{X} - \mathbf{X}_L\|_2^2$$.

इस तरह की आयामी कमी उच्च-आयामी डेटासेट को देखने और संसाधित करने के लिए एक बहुत ही उपयोगी कदम हो सकता है, जबकि अभी भी डेटासेट में जितना संभव हो उतना भिन्नता बनाए रखना। उदाहरण के लिए, एल = 2 का चयन करना और केवल पहले दो प्रमुख घटकों को रखना उच्च-आयामी डेटासेट के माध्यम से द्वि-आयामी विमान को ढूंढता है जिसमें डेटा सबसे अधिक फैला हुआ है, इसलिए यदि डेटा में क्लस्टर विश्लेषण शामिल है तो ये भी सबसे अधिक फैले हुए हो सकते हैं, और इसलिए द्वि-आयामी आरेख में प्लॉट किए जाने के लिए सबसे अधिक दिखाई देता है; जबकि यदि डेटा के माध्यम से दो दिशाओं (या दो मूल चर) को यादृच्छिक रूप से चुना जाता है, तो क्लस्टर एक दूसरे से बहुत कम फैल सकते हैं, और वास्तव में एक दूसरे को काफी हद तक ओवरले करने की संभावना हो सकती है, जिससे वे अप्रभेद्य हो सकते हैं।

इसी तरह, प्रतिगमन विश्लेषण में, व्याख्यात्मक चर की संख्या जितनी अधिक होगी, मॉडल को ओवरफिट करने की संभावना उतनी ही अधिक होगी, जो अन्य डेटासेट के सामान्यीकरण में विफल होने वाले निष्कर्ष का उत्पादन करेगा। एक दृष्टिकोण, विशेष रूप से जब विभिन्न संभावित व्याख्यात्मक चर के बीच मजबूत सहसंबंध होते हैं, तो उन्हें कुछ प्रमुख घटकों में कम करना और फिर उनके विरुद्ध प्रतिगमन चलाना है, एक विधि जिसे प्रमुख घटक प्रतिगमन कहा जाता है।

जब किसी डेटासेट में वेरिएबल्स शोरगुल वाले हों, तो डायमेंशनलिटी रिडक्शन भी उपयुक्त हो सकता है। यदि डेटासेट के प्रत्येक कॉलम में स्वतंत्र समान रूप से वितरित गॉसियन शोर होता है, तो 'टी' के कॉलम में समान रूप से वितरित गॉसियन शोर भी शामिल होगा (ऐसा वितरण मैट्रिक्स 'डब्ल्यू' के प्रभाव के तहत अपरिवर्तनीय है, जिसे इस रूप में सोचा जा सकता है समन्वय अक्षों का एक उच्च-आयामी घुमाव)। हालांकि, समान शोर भिन्नता की तुलना में पहले कुछ मुख्य घटकों में केंद्रित कुल भिन्नता के साथ, शोर का आनुपातिक प्रभाव कम होता है- पहले कुछ घटक उच्च सिग्नल-टू-शोर अनुपात प्राप्त करते हैं। इस प्रकार पीसीए के पास पहले कुछ प्रमुख घटकों में सिग्नल को अधिक केंद्रित करने का प्रभाव हो सकता है, जो उपयोगी रूप से आयामीता में कमी द्वारा कब्जा कर लिया जा सकता है; जबकि बाद के प्रमुख घटकों पर शोर हावी हो सकता है, और इसलिए बिना किसी बड़े नुकसान के निपटारा किया जा सकता है। यदि डेटासेट बहुत बड़ा नहीं है, तो बूटस्ट्रैपिंग (सांख्यिकी)#पैरामेट्रिक बूटस्ट्रैप का उपयोग करके प्रमुख घटकों के महत्व का परीक्षण किया जा सकता है, यह निर्धारित करने में सहायता के रूप में कि कितने प्रमुख घटकों को बनाए रखना है।

एकवचन मूल्य अपघटन
प्रमुख घटकों के परिवर्तन को एक अन्य मैट्रिक्स गुणनखंडन के साथ भी जोड़ा जा सकता है, एक्स का एकवचन मूल्य अपघटन (एसवीडी),
 * $$\mathbf{X} = \mathbf{U}\mathbf{\Sigma}\mathbf{W}^T$$

यहाँ Σ एक n-by-p धनात्मक संख्याओं का विकर्ण मैट्रिक्स σ है(k), X के विलक्षण मान कहलाते हैं; U एक n-by-n मैट्रिक्स है, जिसके कॉलम लंबाई n के ऑर्थोगोनल यूनिट वैक्टर हैं जिन्हें X का बायां एकवचन वैक्टर कहा जाता है; और W एक p-by-p मैट्रिक्स है जिसके कॉलम लंबाई p के ऑर्थोगोनल यूनिट वैक्टर हैं और X के सही एकवचन वैक्टर कहलाते हैं।

इस गुणनखंड के संदर्भ में, मैट्रिक्स XTX लिखा जा सकता है
 * $$\begin{align}

\mathbf{X}^T\mathbf{X} & = \mathbf{W}\mathbf{\Sigma}^\mathsf{T} \mathbf{U}^\mathsf{T} \mathbf{U}\mathbf{\Sigma}\mathbf{W}^\mathsf{T} \\ & = \mathbf{W}\mathbf{\Sigma}^\mathsf{T} \mathbf{\Sigma} \mathbf{W}^\mathsf{T} \\ & = \mathbf{W}\mathbf{\hat{\Sigma}}^2 \mathbf{W}^\mathsf{T} \end{align}$$ कहाँ $$ \mathbf{\hat{\Sigma}} $$एक्स के एकवचन मूल्यों के साथ वर्ग विकर्ण मैट्रिक्स है और संतुष्ट करने वाले अतिरिक्त शून्य काट दिया गया है $$ \mathbf{\hat{\Sigma}^2}=\mathbf{\Sigma}^\mathsf{T} \mathbf{\Sigma} $$. X के ईजेनवेक्टर गुणनखंडन के साथ तुलनाTX यह स्थापित करता है कि X का सही एकवचन सदिश W, X के ईजेनवेक्टर के समतुल्य हैTX, जबकि एकवचन मान σ(k) का $$ \mathbf$$eigenvalues ​​λ के वर्गमूल के बराबर हैं(k) एक्स काटीएक्स।

एकवचन मूल्य अपघटन का उपयोग करके स्कोर मैट्रिक्स टी लिखा जा सकता है
 * $$\begin{align}

\mathbf{T} & = \mathbf{X} \mathbf{W} \\ & = \mathbf{U}\mathbf{\Sigma}\mathbf{W}^\mathsf{T} \mathbf{W} \\ & = \mathbf{U}\mathbf{\Sigma} \end{align}$$ इसलिए T का प्रत्येक स्तंभ X के बाएँ एकवचन सदिशों में से एक द्वारा संबंधित एकवचन मान से गुणा किया जाता है। यह रूप T का ध्रुवीय अपघटन भी है।

मैट्रिक्स एक्स बनाने के बिना एक्स के एसवीडी की गणना करने के लिए कुशल एल्गोरिदम मौजूद हैंTX, इसलिए SVD की गणना करना अब डेटा मैट्रिक्स से प्रमुख घटक विश्लेषण की गणना करने का मानक तरीका है, जब तक कि केवल कुछ ही घटकों की आवश्यकता न हो।

आइजन-अपघटन के साथ, एक छोटा $n × L$ स्कोर मैट्रिक्स टीL केवल पहले L सबसे बड़े एकवचन मान और उनके एकवचन सदिशों पर विचार करके प्राप्त किया जा सकता है:
 * $$\mathbf{T}_L = \mathbf{U}_L\mathbf{\Sigma}_L = \mathbf{X} \mathbf{W}_L $$

इस तरह से एक काटे गए एकवचन मूल्य अपघटन का उपयोग करके एक मैट्रिक्स एम या टी का कटाव एक छोटा सा मैट्रिक्स उत्पन्न करता है जो मूल मैट्रिक्स के रैंक (रैखिक बीजगणित) एल का निकटतम संभव मैट्रिक्स है, के बीच के अंतर के अर्थ में दो में सबसे छोटा संभव फ्रोबेनियस मानदंड है, एक परिणाम जिसे एकार्ट-यंग प्रमेय [1936] के रूप में जाना जाता है।

आगे के विचार
एकवचन मान (Σ में) मैट्रिक्स X के eigenvalues ​​​​के वर्गमूल हैंटीएक्स। प्रत्येक eigenvalue विचरण के हिस्से के लिए आनुपातिक है (उनके बहुआयामी माध्य से बिंदुओं की चुकता दूरी के योग का अधिक सही ढंग से) जो प्रत्येक eigenvector के साथ जुड़ा हुआ है। सभी eigenvalues ​​​​का योग उनके बहुआयामी माध्य से बिंदुओं की वर्ग दूरी के योग के बराबर है। पीसीए अनिवार्य रूप से प्रमुख घटकों के साथ संरेखित करने के लिए उनके माध्य के चारों ओर बिंदुओं के सेट को घुमाता है। यह पहले कुछ आयामों में जितना संभव हो उतना भिन्नता (ऑर्थोगोनल परिवर्तन का उपयोग करके) ले जाता है। इसलिए, शेष आयामों में मान छोटे होते हैं और सूचना के न्यूनतम नुकसान के साथ गिराए जा सकते हैं (सिद्धांत घटक विश्लेषण # पीसीए और सूचना सिद्धांत देखें)। पीसीए का उपयोग अक्सर इस तरह से आयाम में कमी के लिए किया जाता है। पीसीए को उप-स्थान रखने के लिए इष्टतम ऑर्थोगोनल परिवर्तन होने का गौरव प्राप्त है जिसमें सबसे बड़ा भिन्नता है (जैसा कि ऊपर परिभाषित किया गया है)। हालाँकि, यह लाभ अधिक कम्प्यूटेशनल आवश्यकताओं की कीमत पर आता है, उदाहरण के लिए, और जब लागू हो, असतत कोसाइन परिवर्तन के लिए, और विशेष रूप से DCT-II के लिए जिसे केवल DCT के रूप में जाना जाता है। पीसीए की तुलना में अरैखिक आयामीता में कमी तकनीक की कम्प्यूटेशनल रूप से अधिक मांग होती है।

पीसीए चर के स्केलिंग के प्रति संवेदनशील है। यदि हमारे पास केवल दो चर हैं और उनके पास एक ही नमूना भिन्नता है और पूरी तरह से सहसंबंधित हैं, तो पीसीए 45 डिग्री से घूर्णन करेगा और मुख्य घटक के संबंध में दो चर के लिए वजन (वे घूर्णन के कोसाइन हैं) बराबर हो। लेकिन अगर हम पहले चर के सभी मानों को 100 से गुणा करते हैं, तो पहला प्रमुख घटक लगभग उसी चर के समान होगा, दूसरे चर से एक छोटे से योगदान के साथ, जबकि दूसरा घटक दूसरे मूल चर के साथ लगभग संरेखित होगा। इसका मतलब यह है कि जब भी अलग-अलग चरों की अलग-अलग इकाइयाँ (जैसे तापमान और द्रव्यमान) होती हैं, तो पीसीए विश्लेषण का कुछ हद तक मनमाना तरीका होता है। (उदाहरण के लिए सेल्सियस के बजाय फ़ारेनहाइट का उपयोग करने पर अलग-अलग परिणाम प्राप्त होंगे।) पियर्सन का मूल पेपर ऑन लाइन्स एंड प्लेन ऑफ़ क्लोजेस्ट फ़िट टू सिस्टम्स ऑफ़ पॉइंट्स इन स्पेस - इन स्पेस का तात्पर्य भौतिक यूक्लिडियन स्पेस से है जहाँ ऐसी चिंताएँ उत्पन्न नहीं होती हैं। पीसीए को कम मनमाना बनाने का एक तरीका यह है कि डेटा को मानकीकृत करके, इकाई विचरण के रूप में स्केल किए गए चर का उपयोग किया जाए और इसलिए पीसीए के आधार के रूप में ऑटोकोवरिएंस मैट्रिक्स के बजाय ऑटोकोरिलेशन मैट्रिक्स का उपयोग किया जाए। हालाँकि, यह सिग्नल स्पेस के सभी आयामों में इकाई विचरण के उतार-चढ़ाव को संकुचित (या विस्तारित) करता है।

शास्त्रीय पीसीए प्रदर्शन करने के लिए मीन घटाव (उर्फ मीन सेंटरिंग) आवश्यक है ताकि यह सुनिश्चित किया जा सके कि पहला प्रमुख घटक अधिकतम विचरण की दिशा का वर्णन करता है। यदि औसत घटाव नहीं किया जाता है, तो पहला प्रमुख घटक इसके बजाय डेटा के माध्य से अधिक या कम हो सकता है। एक आधार खोजने के लिए शून्य का मतलब आवश्यक है जो डेटा के अनुमान के न्यूनतम औसत वर्ग त्रुटि को कम करता है। सहसंबंध मैट्रिक्स पर एक प्रमुख घटक विश्लेषण करते समय माध्य-केंद्रित अनावश्यक है, क्योंकि सहसंबंधों की गणना के बाद डेटा पहले से ही केंद्रित है। सहसंबंध दो मानक स्कोर (जेड-स्कोर) या सांख्यिकीय क्षणों के क्रॉस-उत्पाद से प्राप्त होते हैं (इसलिए नाम: पियर्सन प्रोडक्ट-मोमेंट सहसंबंध)। इसके अलावा क्रॉम्रे एंड फोस्टर-जॉनसन (1998) का लेख मॉडरेट रिग्रेशन में मीन-सेंटरिंग: मच अडो अबाउट नथिंग पर देखें। चूँकि सहप्रसरण मैट्रिक्स # सहसंबंध मैट्रिक्स से संबंध (मानक स्कोर # गणना | Z- या मानक-स्कोर) 'X' के सहसंबंध मैट्रिक्स पर आधारित एक PCA 'Z' के सहप्रसरण मैट्रिक्स पर आधारित PCA के लिए समानता (गणित) है।, 'X' का मानकीकृत संस्करण।

पीसीए पैटर्न पहचान में एक लोकप्रिय प्राथमिक तकनीक है। हालाँकि, यह वर्ग पृथक्करण के लिए अनुकूलित नहीं है। हालांकि, इसका उपयोग मुख्य घटक स्थान में प्रत्येक वर्ग के लिए द्रव्यमान के केंद्र की गणना करके और दो या दो से अधिक वर्गों के द्रव्यमान के केंद्र के बीच यूक्लिडियन दूरी की रिपोर्ट करके दो या दो से अधिक वर्गों के बीच की दूरी को मापने के लिए किया गया है। रैखिक विभेदक विश्लेषण एक विकल्प है जो वर्ग पृथक्करण के लिए अनुकूलित है।

गुण
पीसीए के कुछ गुणों में शामिल हैं:


 * Property 1: किसी भी पूर्णांक q के लिए, 1 ≤ q ≤ p, ओर्थोगोनल रैखिक परिवर्तन पर विचार करें
 * $$y =\mathbf{B'}x$$
 * कहाँ $$y$$ एक क्यू-तत्व वेक्टर है और $$\mathbf{B'}$$ एक (q × p) मैट्रिक्स है, और चलो $$\mathbf_y = \mathbf{B'}\mathbf{\Sigma}\mathbf{B}$$ के लिए विचरण-सहप्रसरण मैट्रिक्स बनें $$y$$. फिर का निशान $$\mathbf{\Sigma}_y$$, निरूपित $$\operatorname{tr} (\mathbf{\Sigma}_y)$$, लेने से अधिकतम होता है $$\mathbf{B} = \mathbf{A}_q$$, कहाँ $$\mathbf{A}_q$$ के पहले क्यू कॉलम के होते हैं $$\mathbf{A}$$ $$(\mathbf{B'}$$ का स्थानान्तरण है $$\mathbf{B})$$.


 * Property 2: ओर्थोनॉर्मल परिवर्तन पर फिर से विचार करें
 * $$y = \mathbf{B'}x$$
 * साथ $$x, \mathbf{B}, \mathbf{A}$$ और $$\mathbf{\Sigma}_y$$ पहले की तरह परिभाषित। तब $$\operatorname{tr}(\mathbf{\Sigma}_y)$$ लेने से कम किया जाता है $$\mathbf{B} = \mathbf{A}_q^*,$$ कहाँ $$\mathbf{A}_q^*$$ के अंतिम क्यू कॉलम से मिलकर बनता है $$\mathbf{A}$$.

इस संपत्ति का सांख्यिकीय निहितार्थ यह है कि पिछले कुछ पीसी महत्वपूर्ण पीसी को हटाने के बाद केवल असंरचित बचे हुए ओवर नहीं हैं। क्योंकि इन अंतिम पीसी में जितना संभव हो उतना छोटा प्रसरण होता है, इसलिए ये अपने आप में उपयोगी होते हैं। वे के तत्वों के बीच बिना सोचे-समझे निकट-स्थिर रैखिक संबंधों का पता लगाने में मदद कर सकते हैं $x$, और वे प्रतिगमन विश्लेषण में भी उपयोगी हो सकते हैं, चर के सबसेट का चयन करने में $x$, और आउटलाइयर डिटेक्शन में।


 * Property 3: (का वर्णक्रमीय अपघटन $Σ$)
 * $$\mathbf = \lambda_1\alpha_1\alpha_1' + \cdots + \lambda_p\alpha_p\alpha_p'$$

इसके उपयोग को देखने से पहले, हम पहले विकर्ण तत्वों को देखते हैं,
 * $$\operatorname{Var}(x_j) = \sum_{k=1}^P \lambda_k\alpha_{kj}^2$$

फिर, शायद परिणाम का मुख्य सांख्यिकीय निहितार्थ यह है कि न केवल हम सभी तत्वों के संयुक्त भिन्नताओं को विघटित कर सकते हैं $x$ प्रत्येक पीसी के कारण घटते योगदान में, लेकिन हम संपूर्ण सहसंयोजक मैट्रिक्स को योगदान में विघटित भी कर सकते हैं $$\lambda_k\alpha_k\alpha_k'$$ प्रत्येक पीसी से। हालांकि सख्ती से कम नहीं हो रहा है, के तत्व $$\lambda_k\alpha_k\alpha_k'$$ के रूप में छोटा हो जाएगा $$k$$ बढ़ता है, जैसे $$\lambda_k\alpha_k\alpha_k'$$ बढ़ने के लिए गैर-बढ़ रहा है $$k$$, जबकि के तत्व $$\alpha_k$$ सामान्यीकरण बाधाओं के कारण समान आकार के रहने की प्रवृत्ति रखते हैं: $$\alpha_{k}'\alpha_{k}=1, k=1, \dots, p$$.

सीमाएं
जैसा कि ऊपर उल्लेख किया गया है, पीसीए के परिणाम चर के स्केलिंग पर निर्भर करते हैं। प्रत्येक विशेषता को उसके मानक विचलन द्वारा स्केल करके इसे ठीक किया जा सकता है, ताकि एक इकाई विचरण के साथ आयामहीन सुविधाओं के साथ समाप्त हो जाए। ऊपर वर्णित पीसीए की प्रयोज्यता कुछ निश्चित (मौन) मान्यताओं द्वारा सीमित है इसकी व्युत्पत्ति में बनाया गया। विशेष रूप से, पीसीए सुविधाओं के बीच रैखिक सहसंबंधों को पकड़ सकता है लेकिन जब इस धारणा का उल्लंघन होता है तो विफल हो जाता है (संदर्भ में चित्र 6ए देखें)। कुछ मामलों में, समन्वय परिवर्तन रैखिकता धारणा को पुनर्स्थापित कर सकते हैं और पीसीए को तब लागू किया जा सकता है (कर्नेल प्रमुख घटक विश्लेषण देखें)।

पीसीए के लिए सहप्रसरण मैट्रिक्स के निर्माण से पहले एक और सीमा औसत हटाने की प्रक्रिया है। खगोल विज्ञान जैसे क्षेत्रों में, सभी संकेत गैर-नकारात्मक होते हैं, और माध्य-हटाने की प्रक्रिया कुछ खगोलीय जोखिमों के माध्य को शून्य होने के लिए बाध्य करेगी, जिसके परिणामस्वरूप अभौतिक नकारात्मक प्रवाह पैदा होता है, और संकेतों की सही परिमाण को पुनर्प्राप्त करने के लिए आगे की मॉडलिंग की जानी चाहिए। एक वैकल्पिक पद्धति के रूप में, गैर-नकारात्मक मैट्रिक्स गुणनखंडन केवल मेट्रिसेस में गैर-नकारात्मक तत्वों पर ध्यान केंद्रित करता है, जो खगोलभौतिकीय प्रेक्षणों के लिए अच्छी तरह से अनुकूल है।  अधिक देखें #गैर-नकारात्मक मैट्रिक्स गुणनखंड|पीसीए और गैर-ऋणात्मक मैट्रिक्स गुणनखंडन के बीच संबंध।

यदि एल्गोरिथम को लागू करने से पहले डेटा को मानकीकृत नहीं किया गया है तो पीसीए नुकसान में है। पीसीए मूल डेटा को उस डेटा में बदल देता है जो उस डेटा के प्रमुख घटकों के लिए प्रासंगिक होता है, जिसका अर्थ है कि नए डेटा चर की उसी तरह से व्याख्या नहीं की जा सकती है जैसे मूल थे। वे मूल चरों की रैखिक व्याख्याएँ हैं। इसके अलावा, अगर पीसीए ठीक से नहीं किया जाता है, तो सूचना के नुकसान की उच्च संभावना होती है। पीसीए एक रैखिक मॉडल पर निर्भर करता है। यदि किसी डेटासेट के अंदर एक पैटर्न छिपा हुआ है जो कि अरैखिक है, तो पीसीए वास्तव में विश्लेषण को प्रगति की पूर्ण विपरीत दिशा में ले जा सकता है। कैनसस स्टेट यूनिवर्सिटी के शोधकर्ताओं ने पाया कि उनके प्रयोगों में नमूना त्रुटि ने पीसीए परिणामों के पूर्वाग्रह को प्रभावित किया। यदि विषयों या ब्लॉकों की संख्या 30 से कम है, और/या शोधकर्ता पीसी में पहले से परे रुचि रखते हैं, तो पीसीए आयोजित करने से पहले सीरियल सहसंबंध के लिए पहले सही करना बेहतर हो सकता है। कैनसस स्टेट के शोधकर्ताओं ने यह भी पाया कि यदि डेटा की स्वतःसंबंध संरचना को सही ढंग से नियंत्रित नहीं किया जाता है तो पीसीए गंभीर रूप से पक्षपाती हो सकता है।

पीसीए और सूचना सिद्धांत
आयामीता में कमी के परिणामस्वरूप सामान्य रूप से सूचना का नुकसान होता है। पीसीए-आधारित डायमेंशनलिटी रिडक्शन कुछ सिग्नल और शोर मॉडल के तहत उस सूचना हानि को कम करता है।

इस धारणा के तहत


 * $$\mathbf{x}=\mathbf{s}+\mathbf{n},$$

वह है, वह डेटा वेक्टर $$\mathbf{x}$$ वांछित सूचना-वाहक संकेत का योग है $$\mathbf{s}$$ और एक शोर संकेत $$\mathbf{n}$$ कोई दिखा सकता है कि सूचना-सैद्धांतिक दृष्टिकोण से पीसीए आयामीता में कमी के लिए इष्टतम हो सकता है।

विशेष रूप से, लिंस्कर ने दिखाया कि अगर $$\mathbf{s}$$ गाऊसी है और $$\mathbf{n}$$ पहचान मैट्रिक्स के आनुपातिक मैट्रिक्स के साथ गॉसियन शोर है, पीसीए आपसी जानकारी को अधिकतम करता है $$I(\mathbf{y};\mathbf{s})$$ वांछित जानकारी के बीच $$\mathbf{s}$$ और आयामीता-कम उत्पादन $$\mathbf{y}=\mathbf{W}_L^T\mathbf{x}$$. यदि शोर अभी भी गाऊसी है और पहचान मैट्रिक्स के समानुपाती सहप्रसरण मैट्रिक्स है (अर्थात, वेक्टर के घटक $$\mathbf{n}$$ iid हैं), लेकिन सूचना देने वाला संकेत $$\mathbf{s}$$ गैर-गाऊसी है (जो एक सामान्य परिदृश्य है), पीसीए कम से कम सूचना हानि पर एक ऊपरी सीमा को कम करता है, जिसे इस रूप में परिभाषित किया गया है
 * $$I(\mathbf{x};\mathbf{s}) - I(\mathbf{y};\mathbf{s}).$$

शोर होने पर पीसीए की इष्टतमता भी संरक्षित है $$\mathbf{n}$$ सूचना देने वाले संकेत की तुलना में iid और कम से कम अधिक गाऊसी (कुल्बैक-लीब्लर विचलन के संदर्भ में) है $$\mathbf{s}$$. सामान्य तौर पर, भले ही उपरोक्त सिग्नल मॉडल धारण करता है, जैसे ही शोर होता है, पीसीए अपनी सूचना-सैद्धांतिक इष्टतमता खो देता है। $$\mathbf{n}$$ आश्रित हो जाता है।

सहप्रसरण विधि का उपयोग करके पीसीए की गणना करना
सहप्रसरण विधि का उपयोग करते हुए पीसीए का विस्तृत विवरण निम्नलिखित है (यह भी देखें यहां) सहसंबंध विधि के विपरीत। लक्ष्य आयाम p के दिए गए डेटा सेट X को छोटे आयाम L के वैकल्पिक डेटा सेट Y में बदलना है। समतुल्य रूप से, हम मैट्रिक्स Y को खोजने की कोशिश कर रहे हैं, जहां Y करहुनेन-लोएव प्रमेय है | मैट्रिक्स एक्स का करहुनेन-लोव ट्रांसफ़ॉर्म (केएलटी):


 * $$ \mathbf{Y} = \mathbb{KLT} \{ \mathbf{X} \} $$


 * डेटा सेट व्यवस्थित करें

मान लीजिए कि आपके पास p चरों के प्रेक्षणों के एक सेट से युक्त डेटा है, और आप डेटा को कम करना चाहते हैं ताकि प्रत्येक प्रेक्षण को केवल L चर, L <p के साथ वर्णित किया जा सके। आगे मान लीजिए कि डेटा को एन डेटा वैक्टर के सेट के रूप में व्यवस्थित किया जाता है $$\mathbf{x}_1 \ldots \mathbf{x}_n$$ प्रत्येक के साथ $$\mathbf{x}_i $$ पी वेरिएबल्स के एकल समूहीकृत अवलोकन का प्रतिनिधित्व करना।
 * लिखना $$\mathbf{x}_1 \ldots \mathbf{x}_n$$ पंक्ति वैक्टर के रूप में, प्रत्येक पी तत्वों के साथ।
 * पंक्ति सदिशों को आयाम n × p के एकल आव्यूह 'X' में रखें।

औसत घटाव एक प्रमुख घटक आधार खोजने की दिशा में समाधान का एक अभिन्न अंग है जो डेटा का अनुमान लगाने की औसत वर्ग त्रुटि को कम करता है। इसलिए हम निम्नानुसार डेटा को केंद्रित करके आगे बढ़ते हैं: कुछ अनुप्रयोगों में, प्रत्येक चर (बी का कॉलम) को 1 के बराबर भिन्नता के लिए स्केल किया जा सकता है (जेड-स्कोर देखें)। यह कदम परिकलित प्रमुख घटकों को प्रभावित करता है, लेकिन उन्हें विभिन्न चरों को मापने के लिए उपयोग की जाने वाली इकाइयों से स्वतंत्र बनाता है।
 * अनुभवजन्य माध्य की गणना करें
 * प्रत्येक कॉलम j = 1, ..., p के साथ अनुभवजन्य माध्य खोजें।
 * परिकलित माध्य मानों को आयाम p × 1 के अनुभवजन्य माध्य सदिश 'u' में रखें।
 * $$u_j = \frac{1}{n} \sum_{i=1}^n X_{ij} $$
 * माध्य से विचलन की गणना करें
 * अनुभवजन्य माध्य वेक्टर घटाएं $$ \mathbf{u}^{T} $$ डेटा मैट्रिक्स X की प्रत्येक पंक्ति से।
 * माध्य-घटाए गए डेटा को n × p मैट्रिक्स B में संग्रहीत करें।
 * $$\mathbf{B} = \mathbf{X} - \mathbf{h}\mathbf{u}^T $$
 * जहाँ h एक है $n × 1$ सभी 1 का कॉलम वेक्टर:
 * $$h_i = 1 \, \qquad \qquad \text{for } i = 1, \ldots, n $$


 * सहप्रसरण मैट्रिक्स का पता लगाएं
 * मैट्रिक्स 'बी' से पी × पी अनुभवजन्य सहप्रसरण मैट्रिक्स 'सी' खोजें: $$\mathbf{C} = { 1 \over {n-1} } \mathbf{B}^{*} \mathbf{B}$$ कहाँ $$ *$$ संयुग्मी स्थानांतरण संकारक है। यदि बी में पूरी तरह से वास्तविक संख्याएं होती हैं, जो कि कई अनुप्रयोगों में होती है, तो संयुग्म स्थानान्तरण नियमित स्थानान्तरण के समान होता है।
 * प्रयोग करने के पीछे तर्क n − 1}सहप्रसरण की गणना करने के लिए n के बजाय } बेसेल का सुधार है।


 * सहप्रसरण मैट्रिक्स के eigenvectors और eigenvalues ​​​​का पता लगाएं
 * eigenvectors के मैट्रिक्स 'V' की गणना करें जो सहसंयोजक मैट्रिक्स 'C' को विकर्ण करता है: $$\mathbf{V}^{-1} \mathbf{C} \mathbf{V} = \mathbf{D} $$ जहाँ D, C के eigenvalues ​​​​का विकर्ण मैट्रिक्स है। इस चरण में आमतौर पर एक मैट्रिक्स के Eigedecomposition के लिए कंप्यूटर-आधारित एल्गोरिथ्म का उपयोग शामिल होगा। ये एल्गोरिदम अधिकांश मैट्रिक्स बीजगणित प्रणालियों के उप-घटकों के रूप में आसानी से उपलब्ध हैं, जैसे एसएएस (सॉफ्टवेयर), आर (प्रोग्रामिंग भाषा), MATLAB, गणित, SciPy, IDL (प्रोग्रामिंग लैंग्वेज) (इंटरएक्टिव डेटा भाषा), या GNU ऑक्टेव और साथ ही OpenCV।
 * मैट्रिक्स डी एक p × p विकर्ण मैट्रिक्स का रूप ले लेगा, जहाँ $$D_{k\ell} = \lambda_k \qquad \text{for } k = \ell$$ सहप्रसरण मैट्रिक्स 'C' का jवां eigenvalue है, और $$D_{k\ell} = 0 \qquad \text{for } k \ne \ell.$$
 * मैट्रिक्स V, आयाम p × p का भी, p कॉलम वैक्टर, प्रत्येक लंबाई p, जो सहप्रसरण मैट्रिक्स के p eigenvectors का प्रतिनिधित्व करता है सी।
 * eigenvalues ​​​​और eigenvectors को क्रमबद्ध और युग्मित किया जाता है। Jth eigenvalue jth eigenvector से मेल खाता है।
 * मैट्रिक्स वी 'राइट' ईजेनवेक्टर के मैट्रिक्स को दर्शाता है ('लेफ्ट' ईजेनवेक्टर के विपरीत)। सामान्य तौर पर, दाएं eigenvectors के मैट्रिक्स को बाएं eigenvectors के मैट्रिक्स का नहीं होना चाहिए।


 * ईजेनवेक्टरों और ईजेनवैल्यू को पुनर्व्यवस्थित करें
 * eigenvector मैट्रिक्स V और eigenvalue मैट्रिक्स D के कॉलम को  घटते  ​​eigenvalue के क्रम में क्रमबद्ध करें।
 * प्रत्येक मैट्रिक्स में स्तंभों के बीच सही जोड़ियों को बनाए रखना सुनिश्चित करें।


 * प्रत्येक ईजेनवेक्टर के लिए संचयी ऊर्जा सामग्री की गणना करें
 * eigenvalues ​​​​स्रोत डेटा की ऊर्जा के वितरण का प्रतिनिधित्व करते हैं प्रत्येक eigenvectors के बीच, जहाँ eigenvectors डेटा के लिए एक आधार (रैखिक बीजगणित) बनाते हैं। जेवें ईजेनवेक्टर के लिए संचयी ऊर्जा सामग्री जी 1 से जे तक सभी ईजेनवैल्यू में ऊर्जा सामग्री का योग है:
 * $$g_j = \sum_{k=1}^j D_{kk} \qquad \text{for } j = 1,\dots,p $$

यानी का पहला कॉलम $$\mathbf{T}$$ पहले प्रमुख घटक पर डेटा बिंदुओं का प्रक्षेपण है, दूसरा स्तंभ दूसरे प्रमुख घटक पर प्रक्षेपण है, आदि।
 * आधार वैक्टर के रूप में ईजेनवेक्टरों के एक सबसेट का चयन करें
 * 'वी' के पहले एल कॉलम को पी × एल मैट्रिक्स 'डब्ल्यू' के रूप में सहेजें: $$ W_{kl} = V_{k\ell} \qquad \text{for } k = 1,\dots,p \qquad \ell = 1,\dots,L $$ कहाँ $$1 \leq L \leq p.$$
 * 'L के लिए उपयुक्त मान चुनने में गाइड के रूप में वेक्टर g का उपयोग करें। लक्ष्य प्रतिशत के आधार पर g के यथोचित उच्च मूल्य को प्राप्त करते हुए जितना संभव हो सके L के मान को चुनना है। उदाहरण के लिए, आप L चुनना चाह सकते हैं ताकि संचयी ऊर्जा g'' एक निश्चित सीमा से ऊपर हो, जैसे 90 प्रतिशत। इस मामले में, 'एल' का सबसे छोटा मान चुनें जैसे कि $$ \frac{g_L}{g_p} \ge 0.9 $$
 * डेटा को नए आधार पर प्रोजेक्ट करें
 * अनुमानित डेटा बिंदु मैट्रिक्स की पंक्तियाँ हैं $$ \mathbf{T} = \mathbf{B} \cdot \mathbf{W}$$

सहप्रसरण विधि का उपयोग करके पीसीए की व्युत्पत्ति
एक्स को कॉलम वेक्टर के रूप में व्यक्त एक 'डी'-आयामी यादृच्छिक वेक्टर होना चाहिए। व्यापकता के नुकसान के बिना, मान लें कि X का शून्य माध्य है।

हम खोजना चाहते हैं $$(\ast)$$ a $d × d$ ऑर्थोनॉर्मल आधार पी ताकि पीएक्स में एक विकर्ण सहप्रसरण मैट्रिक्स हो (अर्थात, पीएक्स एक यादृच्छिक वेक्टर है जिसके सभी अलग-अलग घटक जोड़ीदार असंबद्ध हैं)।

एक त्वरित गणना मानते हुए $$P$$ एकात्मक उपज थे:


 * $$\begin{align}

\operatorname{cov}(PX) &= \operatorname{E}[PX~(PX)^{*}]\\ &= \operatorname{E}[PX~X^{*}P^{*}]\\ &= P\operatorname{E}[XX^{*}]P^{*}\\ &= P\operatorname{cov}(X)P^{-1}\\ \end{align}$$ इस तरह $$(\ast)$$ रखती है अगर और केवल अगर $$\operatorname{cov}(X)$$ द्वारा विकर्णीय थे $$P$$.

यह बहुत रचनात्मक है, क्योंकि cov(X) एक गैर-नकारात्मक निश्चित मैट्रिक्स होने की गारंटी है और इस प्रकार कुछ एकात्मक मैट्रिक्स द्वारा विकर्ण होने की गारंटी है।

सहप्रसरण-मुक्त संगणना
व्यावहारिक कार्यान्वयन में, विशेष रूप से उच्च आयामी डेटा (बड़े $p$), भोली सहप्रसरण विधि का उपयोग शायद ही कभी किया जाता है क्योंकि सहप्रसरण मैट्रिक्स को स्पष्ट रूप से निर्धारित करने की उच्च कम्प्यूटेशनल और मेमोरी लागत के कारण यह कुशल नहीं है। सहप्रसरण-मुक्त दृष्टिकोण से बचा जाता है $np^{2}$ स्पष्ट रूप से सहप्रसरण मैट्रिक्स की गणना और भंडारण के संचालन $X^{T}X$, इसके बजाय मैट्रिक्स-मुक्त विधियों में से एक का उपयोग करना, उदाहरण के लिए, उत्पाद का मूल्यांकन करने वाले फ़ंक्शन के आधार पर $X^{T}(X r)$ की कीमत पर $2np$ संचालन।

पुनरावृत्ति संगणना
पहले प्रमुख घटक की कुशलता से गणना करने का एक तरीका डेटा मैट्रिक्स के लिए निम्नलिखित छद्म कोड में दिखाया गया है $X$ शून्य माध्य के साथ, इसके सहप्रसरण मैट्रिक्स की गणना किए बिना।

$r$ = लंबाई का एक यादृच्छिक वेक्टर $p$ आर = आर / मानदंड (आर) करना $c$ बार: $s = 0$ (लंबाई का एक सदिश $p$) for each row x in X            s = s + (x ⋅ r) x       λ = rTs // λ is the eigenvalue λ ⋅ r − s      r = s / norm(s) exit if error < tolerance वापस करना λ, r

यह शक्ति पुनरावृत्ति एल्गोरिथ्म केवल वेक्टर की गणना करता है $X^{T}(X r)$, सामान्य करता है, और परिणाम को वापस अंदर रखता है $r$. eigenvalue द्वारा अनुमानित है $r^{T} (X^{T}X) r$, जो इकाई सदिश पर रेले भागफल है $r$ सहप्रसरण मैट्रिक्स के लिए $X^{T}X$. यदि सबसे बड़ा एकवचन मान अगले सबसे बड़े एक सदिश से अच्छी तरह से अलग है $r$ के पहले प्रमुख घटक के करीब हो जाता है $X$ पुनरावृत्तियों की संख्या के भीतर $c$, जो के सापेक्ष छोटा है $p$, कुल लागत पर $2cnp$. अधिक उन्नत मैट्रिक्स-मुक्त विधियों, जैसे लैंक्ज़ोस एल्गोरिथम या स्थानीय रूप से इष्टतम ब्लॉक प्रीकंडीशन्ड कंजुगेट ग्रेडिएंट (LOBPCG) विधि का उपयोग करके प्रति पुनरावृत्ति की छोटी लागत का त्याग किए बिना शक्ति पुनरावृत्ति अभिसरण को त्वरित किया जा सकता है।

बाद के प्रमुख घटकों की गणना एक-एक करके अपस्फीति के माध्यम से या एक साथ एक ब्लॉक के रूप में की जा सकती है। पूर्व दृष्टिकोण में, पहले से ही गणना किए गए अनुमानित प्रमुख घटकों में अशुद्धियाँ बाद में गणना किए गए प्रमुख घटकों की सटीकता को जोड़ कर प्रभावित करती हैं, इस प्रकार हर नई संगणना के साथ त्रुटि बढ़ जाती है। ब्लॉक पावर पद्धति में बाद वाला दृष्टिकोण एकल-वैक्टर की जगह लेता है $r$ और $s$ ब्लॉक-वैक्टर, मैट्रिसेस के साथ $R$ और $S$. का हर स्तंभ $R$ प्रमुख प्रमुख घटकों में से एक का अनुमान लगाता है, जबकि सभी कॉलम एक साथ पुनरावृत्त होते हैं। मुख्य गणना उत्पाद का मूल्यांकन है $X^{T}(X R)$. कार्यान्वित, उदाहरण के लिए, LOBPCG में, कुशल अवरोधन त्रुटियों के संचय को समाप्त करता है, उच्च-स्तरीय BLAS मैट्रिक्स-मैट्रिक्स उत्पाद कार्यों का उपयोग करने की अनुमति देता है, और आमतौर पर एकल-वेक्टर एक-एक-एक तकनीक की तुलना में तेजी से अभिसरण की ओर जाता है।

NIPALS विधि
गैर-रैखिक पुनरावृत्त आंशिक न्यूनतम वर्ग (NIPALS) एक प्रमुख घटक या आंशिक कम वर्ग विश्लेषण में पहले कुछ घटकों की गणना के लिए घटाव द्वारा मैट्रिक्स अपस्फीति के साथ शास्त्रीय शक्ति पुनरावृत्ति का एक प्रकार है। बहुत उच्च-आयामी डेटासेट के लिए, जैसे कि *ओमिक्स विज्ञान (उदाहरण के लिए, जीनोमिक्स, चयापचय) में उत्पन्न डेटासेट के लिए आमतौर पर केवल पहले कुछ पीसी की गणना करना आवश्यक होता है। गैर-रैखिक पुनरावृत्त आंशिक न्यूनतम वर्ग (NIPALS) एल्गोरिथ्म प्रमुख स्कोर और लोडिंग 'टी' के पुनरावृत्त अनुमानों को अद्यतन करता है।1 और आर1T शक्ति पुनरावृत्ति द्वारा प्रत्येक पुनरावृत्ति पर X द्वारा बाईं ओर और दाईं ओर गुणा किया जाता है, अर्थात, सहसंयोजक मैट्रिक्स की गणना से बचा जाता है, ठीक उसी तरह जैसे बिजली पुनरावृत्तियों के मैट्रिक्स-मुक्त कार्यान्वयन में $X^{T}X$, उत्पाद का मूल्यांकन करने वाले फ़ंक्शन के आधार पर $X^{T}(X r) = ((X r)^{T}X)^{T}$.

घटाव द्वारा मैट्रिक्स अपस्फीति बाहरी उत्पाद, टी घटाकर किया जाता है1r1T X से अवस्फीत अवशिष्ट मैट्रिक्स को छोड़ते हुए बाद के प्रमुख पीसी की गणना करने के लिए उपयोग किया जाता है। बड़े डेटा मेट्रिसेस, या मेट्रिसेस के लिए, जिनमें कॉलम कोलीनियरिटी का उच्च स्तर होता है, NIPALS पीसी की ऑर्थोगोनलिटी के नुकसान से ग्रस्त होता है, क्योंकि प्रत्येक पुनरावृत्ति और मैट्रिक्स अपस्फीति में घटाव द्वारा संचित मशीन सटीक राउंड-ऑफ त्रुटियां होती हैं। ऑर्थोगोनलिटी के इस नुकसान को खत्म करने के लिए प्रत्येक पुनरावृत्ति चरण पर स्कोर और लोडिंग दोनों के लिए एक ग्राम-श्मिट री-ऑर्थोगोनलाइज़ेशन एल्गोरिदम लागू किया जाता है। एकल-वेक्टर गुणन पर NIPALS निर्भरता उच्च-स्तरीय BLAS का लाभ नहीं उठा सकती है और परिणामस्वरूप क्लस्टर अग्रणी विलक्षण मूल्यों के लिए धीमी गति से अभिसरण होता है - इन दोनों कमियों को अधिक परिष्कृत मैट्रिक्स-मुक्त ब्लॉक सॉल्वर में हल किया जाता है, जैसे कि स्थानीय रूप से इष्टतम ब्लॉक प्रीकंडिशनेड कंजुगेट ग्रेडिएंट ( एलओबीपीसीजी) विधि।

ऑनलाइन/अनुक्रमिक अनुमान
एक ऑनलाइन या स्ट्रीमिंग स्थिति में एक बैच में संग्रहीत होने के बजाय टुकड़े-टुकड़े डेटा आने के साथ, पीसीए प्रोजेक्शन का अनुमान लगाना उपयोगी होता है जिसे क्रमिक रूप से अपडेट किया जा सकता है। यह कुशलता से किया जा सकता है, लेकिन इसके लिए अलग-अलग एल्गोरिदम की आवश्यकता होती है।

पीसीए और गुणात्मक चर
पीसीए में, यह सामान्य है कि हम गुणात्मक चर को पूरक तत्वों के रूप में पेश करना चाहते हैं। उदाहरण के लिए, पौधों पर कई मात्रात्मक चरों को मापा गया है। इन पौधों के लिए, कुछ गुणात्मक चर उपलब्ध हैं, उदाहरण के लिए, वह प्रजाति जिससे पौधे संबंधित हैं। ये डेटा मात्रात्मक चर के लिए पीसीए के अधीन थे। परिणामों का विश्लेषण करते समय, प्रमुख घटकों को गुणात्मक चर प्रजातियों से जोड़ना स्वाभाविक है। इसके लिए निम्न परिणाम प्राप्त होते हैं।
 * विभिन्न प्रजातियों की पहचान, तथ्यात्मक विमानों पर, उदाहरण के लिए, विभिन्न रंगों का उपयोग करना।
 * प्रतिनिधित्व, एक ही प्रजाति से संबंधित पौधों के गुरुत्वाकर्षण के केंद्रों के तथ्यात्मक विमानों पर।
 * गुरुत्वाकर्षण के प्रत्येक केंद्र और प्रत्येक अक्ष के लिए, गुरुत्व केंद्र और उत्पत्ति के बीच के अंतर के महत्व का न्याय करने के लिए पी-मान।

इन परिणामों को गुणात्मक चर को पूरक तत्व के रूप में प्रस्तुत करना कहा जाता है। यह प्रक्रिया Husson, Lê & Pages 2009 और Pages 2013 में विस्तृत है। कुछ सॉफ्टवेयर इस विकल्प को स्वचालित तरीके से पेश करते हैं। यह SPAD का मामला है, जो ऐतिहासिक रूप से, लुडोविक लेबार्ट के काम के बाद, इस विकल्प और R पैकेज को प्रस्तावित करने वाले पहले व्यक्ति थे फैक्टोमाइनर।

बुद्धि
कारक विश्लेषण का सबसे पहला प्रयोग मानव बुद्धि के घटकों का पता लगाने और मापने में था। यह माना जाता था कि बुद्धि में विभिन्न असंबद्ध घटक होते हैं जैसे कि स्थानिक बुद्धि, मौखिक बुद्धि, आगमन, कटौती आदि और इन पर अंक विभिन्न परीक्षणों के परिणामों से कारक विश्लेषण द्वारा जोड़े जा सकते हैं, जिससे एक एकल सूचकांक दिया जा सके जिसे खुफिया भागफल (IQ) के रूप में जाना जाता है। ). अग्रणी सांख्यिकीय मनोवैज्ञानिक चार्ल्स स्पीयरमैन ने वास्तव में 1904 में अपने बुद्धि के दो-कारक सिद्धांत | बुद्धि के दो-कारक सिद्धांत के लिए कारक विश्लेषण विकसित किया, जिसमें साइकोमेट्रिक्स के विज्ञान के लिए एक औपचारिक तकनीक शामिल थी। 1924 में लुई लियोन थर्स्टन ने मानसिक आयु की धारणा को विकसित करते हुए बुद्धि के 56 कारकों की तलाश की। मानक IQ परीक्षण आज इसी प्रारंभिक कार्य पर आधारित हैं।

आवासीय भेदभाव
1949 में, शेवकी और विलियम्स ने फैक्टोरियल इकोलॉजी का सिद्धांत पेश किया, जो 1950 से 1970 के दशक तक आवासीय भेदभाव के अध्ययन पर हावी था। एक शहर में आस-पड़ोस पहचानने योग्य थे या विभिन्न विशेषताओं द्वारा एक दूसरे से अलग किए जा सकते थे जिन्हें कारक विश्लेषण द्वारा घटाकर तीन किया जा सकता था। इन्हें 'सामाजिक पद' (व्यावसायिक स्थिति का एक सूचकांक), 'परिवारवाद' या परिवार का आकार, और 'जातीयता' के रूप में जाना जाता था; क्लस्टर विश्लेषण को तीन प्रमुख कारक चर के मूल्यों के अनुसार शहर को क्लस्टर या परिसर में विभाजित करने के लिए लागू किया जा सकता है। शहरी भूगोल में फैक्टोरियल इकोलॉजी के आसपास एक व्यापक साहित्य विकसित हुआ, लेकिन 1980 के बाद पद्धतिगत रूप से आदिम होने और उत्तर आधुनिक भौगोलिक प्रतिमानों में कम जगह होने के कारण यह दृष्टिकोण फैशन से बाहर हो गया।

कारक विश्लेषण की समस्याओं में से एक हमेशा विभिन्न कृत्रिम कारकों के लिए ठोस नाम खोजना रहा है। 2000 में, फ्लड ने फैक्टोरियल इकोलॉजी दृष्टिकोण को पुनर्जीवित किया, यह दिखाने के लिए कि प्रमुख घटक विश्लेषण ने कारक रोटेशन का सहारा लिए बिना वास्तव में सीधे सार्थक उत्तर दिए। प्रमुख घटक वास्तव में शहरों में लोगों को एक साथ या अलग करने वाले 'बलों' के दोहरे चर या छाया मूल्य थे। पहला घटक 'पहुंच' था, यात्रा की मांग और अंतरिक्ष की मांग के बीच क्लासिक व्यापार-बंद, जिसके आसपास शास्त्रीय शहरी अर्थशास्त्र आधारित है। अगले दो घटक 'नुकसान' थे, जो समान स्थिति के लोगों को अलग पड़ोस (नियोजन द्वारा मध्यस्थता) में रखता है, और जातीयता, जहां समान जातीय पृष्ठभूमि के लोग सह-पता लगाने की कोशिश करते हैं। उसी समय के बारे में, ऑस्ट्रेलियाई सांख्यिकी ब्यूरो ने प्रमुख चर के सेट के पहले प्रमुख घटक को लेते हुए लाभ और हानि के अलग-अलग सूचकांकों को परिभाषित किया, जिन्हें महत्वपूर्ण माना गया था। ये SEIFA इंडेक्स नियमित रूप से विभिन्न न्यायालयों के लिए प्रकाशित होते हैं, और स्थानिक विश्लेषण में अक्सर उपयोग किए जाते हैं।

विकास सूचकांक
पीसीए इंडेक्स के विकास के लिए उपलब्ध एकमात्र औपचारिक तरीका रहा है, जो अन्यथा एक हिट-या-मिस तदर्थ उपक्रम है।

नगर विकास सूचकांक पीसीए द्वारा 1996 में 254 वैश्विक शहरों के सर्वेक्षण में शहर के परिणामों के लगभग 200 संकेतकों से विकसित किया गया था। पहला प्रमुख घटक पुनरावृत्त प्रतिगमन के अधीन था, मूल चर को तब तक जोड़ा गया जब तक कि इसकी लगभग 90% भिन्नता का हिसाब नहीं लगाया गया। इंडेक्स ने अंततः लगभग 15 संकेतकों का उपयोग किया लेकिन कई और चरों का एक अच्छा भविष्यवक्ता था। इसका तुलनात्मक मूल्य प्रत्येक शहर की स्थिति के एक व्यक्तिपरक मूल्यांकन के साथ बहुत अच्छी तरह से मेल खाता है। बुनियादी ढांचे की वस्तुओं पर गुणांक अंतर्निहित सेवाएं प्रदान करने की औसत लागत के लगभग आनुपातिक थे, यह सुझाव देते हुए कि सूचकांक वास्तव में शहर में प्रभावी भौतिक और सामाजिक निवेश का एक उपाय था।

संयुक्त राष्ट्र विकास कार्यक्रम से देश-स्तरीय मानव विकास सूचकांक (एचडीआई), जो 1990 से प्रकाशित हुआ है और विकास अध्ययनों में बहुत व्यापक रूप से उपयोग किया जाता है, समान संकेतकों पर बहुत समान गुणांक हैं, यह दृढ़ता से सुझाव देते हैं कि यह मूल रूप से पीसीए का उपयोग करके बनाया गया था।

जनसंख्या आनुवंशिकी
1978 में लुइगी लुका कवेली-स्फोर्ज़ा | कैवली-स्फोर्ज़ा और अन्य ने क्षेत्रों में मानव जीन आवृत्तियों में भिन्नता पर डेटा को सारांशित करने के लिए प्रमुख घटक विश्लेषण (पीसीए) के उपयोग का बीड़ा उठाया। घटकों ने विशिष्ट पैटर्न दिखाए, जिनमें ग्रेडियेंट और साइनसॉइडल तरंगें शामिल हैं। उन्होंने विशिष्ट प्राचीन प्रवासन घटनाओं के परिणामस्वरूप इन प्रतिमानों की व्याख्या की।

तब से, पीसीए एक प्रदर्शन तंत्र के रूप में पीसीए का उपयोग करने वाले हजारों कागजों के साथ जनसंख्या आनुवंशिकी में सर्वव्यापी रहा है। निकटता के अनुसार आनुवंशिकी काफी हद तक भिन्न होती है, इसलिए पहले दो प्रमुख घटक वास्तव में स्थानिक वितरण दिखाते हैं और इसका उपयोग विभिन्न जनसंख्या समूहों के सापेक्ष भौगोलिक स्थान को मैप करने के लिए किया जा सकता है, जिससे ऐसे व्यक्तियों को दिखाया जा सकता है जो अपने मूल स्थानों से भटक गए हैं। जेनेटिक्स में पीसीए तकनीकी रूप से विवादास्पद रहा है, जिसमें तकनीक असतत गैर-सामान्य चर और अक्सर बाइनरी एलील मार्करों पर की गई है। पीसीए में मानक त्रुटि के किसी भी उपाय की कमी भी अधिक सुसंगत उपयोग के लिए एक बाधा है। अगस्त 2022 में, आणविक जीवविज्ञानी ईरान जोड़ा गया ने 12 पीसीए अनुप्रयोगों का विश्लेषण करते हुए वैज्ञानिक रिपोर्ट में एक सैद्धांतिक पेपर प्रकाशित किया। उन्होंने निष्कर्ष निकाला कि विधि में हेरफेर करना आसान था, जो, उनके विचार में, 'गलत, विरोधाभासी और बेतुका' परिणाम उत्पन्न करता था। विशेष रूप से, उन्होंने तर्क दिया, जनसंख्या आनुवंशिकी में प्राप्त परिणाम चेरी-पिकिंग और सर्कुलर तर्क द्वारा विशेषता थे।

बाजार अनुसंधान और दृष्टिकोण के सूचकांक
बाजार अनुसंधान पीसीए का व्यापक उपयोगकर्ता रहा है। इसका उपयोग उत्पादों के लिए ग्राहकों की संतुष्टि या ग्राहक वफादारी स्कोर विकसित करने के लिए किया जाता है, और क्लस्टरिंग के साथ, बाजार खंडों को विकसित करने के लिए विज्ञापन अभियानों के साथ लक्षित किया जा सकता है, ठीक उसी तरह जैसे फैक्टोरियल इकोलॉजी समान विशेषताओं वाले भौगोलिक क्षेत्रों का पता लगाएगी। पीसीए तेजी से बड़ी मात्रा में डेटा को छोटे, आसानी से पचने वाले चर में बदल देता है जिसे अधिक तेजी से और आसानी से विश्लेषण किया जा सकता है। किसी भी उपभोक्ता प्रश्नावली में, उपभोक्ता के दृष्टिकोण को जानने के लिए डिज़ाइन किए गए प्रश्नों की श्रृंखला होती है, और प्रमुख घटक इन दृष्टिकोणों के अंतर्निहित अव्यक्त चर की तलाश करते हैं। उदाहरण के लिए, 2013 में ऑक्सफोर्ड इंटरनेट सर्वेक्षण ने 2000 लोगों से उनके दृष्टिकोण और विश्वासों के बारे में पूछा, और इन विश्लेषकों से चार प्रमुख घटक आयाम निकाले, जिन्हें उन्होंने 'एस्केप', 'सोशल नेटवर्किंग', 'दक्षता' और 'समस्या पैदा करने' के रूप में पहचाना।. 2008 में जो फ्लड (नीति विश्लेषक) के एक अन्य उदाहरण ने ऑस्ट्रेलिया में 2697 परिवारों के एक राष्ट्रीय सर्वेक्षण में 28 दृष्टिकोण प्रश्नों से आवास के प्रति एक व्यवहारिक सूचकांक निकाला। पहला प्रमुख घटक संपत्ति और घर के स्वामित्व के प्रति एक सामान्य दृष्टिकोण का प्रतिनिधित्व करता है। अनुक्रमणिका, या इसके सन्निहित अभिवृत्ति प्रश्न, कार्यकाल पसंद के एक सामान्य रेखीय मॉडल में डाले जा सकते हैं। आय, वैवाहिक स्थिति या घरेलू प्रकार के बजाय अब तक निजी किराये का सबसे मजबूत निर्धारक रवैया सूचकांक था।

मात्रात्मक वित्त
मात्रात्मक वित्त में, प्रमुख घटक विश्लेषण सीधे ब्याज दर डेरिवेटिव पोर्टफोलियो के जोखिम प्रबंधन पर लागू किया जा सकता है। ट्रेडिंग मल्टीपल स्वैप (वित्त) जो आम तौर पर 30-500 अन्य बाजार उद्धृत योग्य स्वैप उपकरणों का एक कार्य है, को आमतौर पर 3 या 4 प्रमुख घटकों तक कम करने की मांग की जाती है, जो मैक्रो आधार पर ब्याज दरों के मार्ग का प्रतिनिधित्व करते हैं। फैक्टर लोडिंग (या मल्टीप्लायर) के रूप में प्रतिनिधित्व किए जाने वाले जोखिमों को परिवर्तित करना व्यक्तिगत 30–500 बकेट के जोखिमों को सामूहिक रूप से देखने के लिए उपलब्ध से परे आकलन और समझ प्रदान करता है।

पीसीए को भंडार  पर भी इसी तरह से लागू किया गया है, जोखिम वापसी अनुपात और जोखिम-प्रतिफल स्पेक्ट्रम दोनों के लिए। एक आवेदन पोर्टफोलियो जोखिम को कम करना है, जहां परिसंपत्ति आवंटन अंतर्निहित शेयरों के बजाय प्रमुख पोर्टफोलियो पर लागू होता है। दूसरा, पोर्टफोलियो रिटर्न को बढ़ाने के लिए प्रमुख घटकों का उपयोग स्टॉक चयन मानदंड के साथ ऊपर की क्षमता के साथ करना है।

तंत्रिका विज्ञान
प्रमुख घटक विश्लेषण के एक प्रकार का उपयोग तंत्रिका विज्ञान में उत्तेजना के विशिष्ट गुणों की पहचान करने के लिए किया जाता है जो एक न्यूरॉन की क्रिया क्षमता उत्पन्न करने की संभावना को बढ़ाता है। इस तकनीक को स्पाइक-ट्रिगर सहप्रसरण|स्पाइक-ट्रिगर सहप्रसरण विश्लेषण के रूप में जाना जाता है। एक विशिष्ट अनुप्रयोग में एक प्रयोगकर्ता एक सफेद शोर प्रक्रिया को एक उत्तेजना के रूप में प्रस्तुत करता है (आमतौर पर या तो एक परीक्षण विषय के लिए एक संवेदी इनपुट के रूप में, या एक विद्युत प्रवाह के रूप में सीधे न्यूरॉन में इंजेक्ट किया जाता है) और एक्शन पोटेंशिअल या स्पाइक्स की एक ट्रेन रिकॉर्ड करता है, जो उत्पादित होता है। परिणामस्वरूप न्यूरॉन। संभवतः, उत्तेजना की कुछ विशेषताएं न्यूरॉन को स्पाइक करने की अधिक संभावना बनाती हैं। इन सुविधाओं को निकालने के लिए, प्रयोगकर्ता स्पाइक-ट्रिगर किए गए कलाकारों की टुकड़ी के सहप्रसरण मैट्रिक्स की गणना करता है, सभी उत्तेजनाओं का सेट (आमतौर पर 100 एमएस के क्रम में एक परिमित समय खिड़की पर परिभाषित और विघटित) जो तुरंत एक स्पाइक से पहले होता है। स्पाइक-ट्रिगर सहप्रसरण मैट्रिक्स और पूर्व उत्तेजना पहनावा के सहप्रसरण मैट्रिक्स के बीच अंतर के ईजेनवेक्टर और ईगेनवेल्यूज़ (सभी उत्तेजनाओं का सेट, समान लंबाई समय विंडो पर परिभाषित) फिर उत्तेजनाओं के वेक्टर स्थान में दिशाओं का संकेत देते हैं जिसके साथ स्पाइक-ट्रिगर पहनावा का विचरण पूर्व प्रोत्साहन पहनावा से सबसे अलग था। विशेष रूप से, सबसे बड़े सकारात्मक eigenvalues ​​​​वाले eigenvectors उन दिशाओं के अनुरूप होते हैं जिनके साथ स्पाइक-ट्रिगर पहनावा के विचरण ने पूर्व के विचरण की तुलना में सबसे बड़ा सकारात्मक परिवर्तन दिखाया। चूँकि ये वे दिशाएँ थीं जिनमें अलग-अलग उत्तेजनाओं ने एक स्पाइक का नेतृत्व किया, वे अक्सर प्रासंगिक उत्तेजना सुविधाओं के बाद की मांग के अच्छे अनुमान हैं।

तंत्रिका विज्ञान में, पीसीए का उपयोग न्यूरॉन की पहचान को उसकी क्रिया क्षमता के आकार से पहचानने के लिए भी किया जाता है। स्पाइक छँटाई एक महत्वपूर्ण प्रक्रिया है क्योंकि इलेक्ट्रोफिजियोलॉजी#बाह्यकोशिकीय रिकॉर्डिंग रिकॉर्डिंग तकनीकें अक्सर एक से अधिक न्यूरॉन से संकेत लेती हैं। स्पाइक छँटाई में, पहले पीसीए का उपयोग एक्शन पोटेंशियल वेवफॉर्म के स्थान की गतिशीलता को कम करने के लिए किया जाता है, और फिर व्यक्तिगत न्यूरॉन्स के साथ विशिष्ट एक्शन पोटेंशिअल को जोड़ने के लिए क्लस्टर विश्लेषण किया जाता है।

पीसीए एक आयाम कमी तकनीक के रूप में विशेष रूप से बड़े न्यूरोनल पहनावा की समन्वित गतिविधियों का पता लगाने के लिए अनुकूल है। यह मस्तिष्क में चरण संक्रमण के दौरान सामूहिक चर, यानी आदेश पैरामीटर  निर्धारित करने में उपयोग किया गया है।

पत्राचार विश्लेषण
पत्राचार विश्लेषण (सीए) जीन-पॉल बेंजेक्री द्वारा विकसित किया गया था और वैचारिक रूप से पीसीए के समान है, लेकिन डेटा को मापता है (जो गैर-नकारात्मक होना चाहिए) ताकि पंक्तियों और स्तंभों को समान रूप से व्यवहार किया जा सके। यह परंपरागत रूप से आकस्मिक तालिकाओं पर लागू होता है। CA इस तालिका से जुड़े ची-स्क्वायर आँकड़ों को ऑर्थोगोनल कारकों में विघटित करता है। क्योंकि CA एक वर्णनात्मक तकनीक है, इसे उन तालिकाओं पर लागू किया जा सकता है जिनके लिए ची-स्क्वेर्ड आँकड़ा उपयुक्त है या नहीं। सीए के कई प्रकार उपलब्ध हैं जिनमें डिट्रेंडेड पत्राचार विश्लेषण और कैनोनिकल पत्राचार विश्लेषण शामिल हैं। एक विशेष विस्तार एकाधिक पत्राचार विश्लेषण है, जिसे श्रेणीबद्ध डेटा के लिए प्रमुख घटक विश्लेषण के समकक्ष के रूप में देखा जा सकता है।

कारक विश्लेषण
प्रिंसिपल कंपोनेंट एनालिसिस वेरिएबल्स बनाता है जो मूल वेरिएबल्स के रैखिक संयोजन हैं। नए वेरिएबल्स में यह संपत्ति है कि वेरिएबल्स सभी ऑर्थोगोनल हैं। पीसीए परिवर्तन क्लस्टरिंग से पहले प्री-प्रोसेसिंग चरण के रूप में सहायक हो सकता है। पीसीए एक भिन्नता-केंद्रित दृष्टिकोण है जो कुल परिवर्तनीय भिन्नता को पुन: उत्पन्न करने की मांग करता है, जिसमें घटक चर के सामान्य और अद्वितीय भिन्नता दोनों को दर्शाते हैं। पीसीए को आम तौर पर डेटा में कमी के प्रयोजनों के लिए पसंद किया जाता है (अर्थात, चर स्थान को इष्टतम कारक स्थान में अनुवाद करना) लेकिन तब नहीं जब लक्ष्य अव्यक्त निर्माण या कारकों का पता लगाना हो।

कारक विश्लेषण प्रमुख घटक विश्लेषण के समान है, उस कारक विश्लेषण में चर के रैखिक संयोजन भी शामिल हैं। पीसीए से अलग, कारक विश्लेषण एक सहसंबंध-केंद्रित दृष्टिकोण है जो चर के बीच अंतर-सहसंबंधों को पुन: उत्पन्न करने की मांग करता है, जिसमें कारक चर के सामान्य भिन्नता का प्रतिनिधित्व करते हैं, अद्वितीय भिन्नता को छोड़कर। सहसंबंध मैट्रिक्स के संदर्भ में, यह ऑफ-डायगोनल शर्तों (यानी, साझा सह-विचरण) को समझाने पर ध्यान केंद्रित करने के अनुरूप है, जबकि पीसीए विकर्ण पर बैठने वाली शर्तों को समझाने पर ध्यान केंद्रित करता है। हालांकि, एक साइड परिणाम के रूप में, ऑन-डायगोनल शर्तों को पुन: पेश करने की कोशिश करते समय, पीसीए भी ऑफ-डायगोनल सहसंबंधों को अपेक्षाकृत अच्छी तरह से फिट करने की कोशिश करता है। पीसीए और कारक विश्लेषण द्वारा दिए गए परिणाम ज्यादातर स्थितियों में बहुत समान होते हैं, लेकिन हमेशा ऐसा नहीं होता है, और कुछ समस्याएं ऐसी होती हैं जहां परिणाम महत्वपूर्ण रूप से भिन्न होते हैं। कारक विश्लेषण का आमतौर पर उपयोग तब किया जाता है जब अनुसंधान उद्देश्य डेटा संरचना (अर्थात, अव्यक्त निर्माण या कारक) या कारण मॉडलिंग का पता लगा रहा हो। यदि कारक मॉडल गलत तरीके से तैयार किया गया है या मान्यताओं को पूरा नहीं किया गया है, तो कारक विश्लेषण गलत परिणाम देगा।

$K$-मतलब क्लस्टरिंग
यह दावा किया गया है कि के-मतलब क्लस्टरिंग का आराम समाधान$k$-मतलब क्लस्टरिंग, क्लस्टर संकेतक द्वारा निर्दिष्ट, प्रमुख घटकों द्वारा दिया जाता है, और मुख्य दिशाओं द्वारा फैला हुआ पीसीए सबस्पेस क्लस्टर सेंट्रोइड सबस्पेस के समान है। हालाँकि, वह पीसीए की एक उपयोगी छूट है $k$-मतलब क्लस्टरिंग एक नया परिणाम नहीं था, और इस कथन के प्रतिउदाहरणों को उजागर करना सीधा है कि क्लस्टर सेंट्रोइड उप-स्थान प्रमुख दिशाओं द्वारा फैला हुआ है।

गैर-नकारात्मक मैट्रिक्स गुणन
फ़ाइल: आंशिक अवशिष्ट भिन्नता तुलना, पीसीए और एनएमएफ.pdf|thumb|500px|पीसीए और एनएमएफ के लिए आंशिक अवशिष्ट भिन्नता (FRV) भूखंड; पीसीए के लिए, सैद्धांतिक मूल्य अवशिष्ट eigenvalues ​​​​से योगदान है। इसकी तुलना में, पीसीए के लिए एफआरवी घटता एक सपाट पठार तक पहुंचता है जहां कोई संकेत प्रभावी ढंग से नहीं पकड़ा जाता है; जबकि NMF FRV घटता लगातार गिर रहा है, जो संकेत पकड़ने की बेहतर क्षमता का संकेत देता है। NMF के लिए FRV घटता भी PCA की तुलना में उच्च स्तर पर परिवर्तित होता है, जो NMF की कम-ओवरफिटिंग संपत्ति को दर्शाता है। गैर-नकारात्मक मैट्रिक्स कारककरण (एनएमएफ) एक आयाम कमी विधि है जहां मैट्रिक्स में केवल गैर-नकारात्मक तत्वों का उपयोग किया जाता है, जो कि खगोल विज्ञान में एक आशाजनक तरीका है, इस अर्थ में कि ज्योतिषीय संकेत गैर-नकारात्मक हैं। पीसीए घटक एक दूसरे के लिए ओर्थोगोनल हैं, जबकि एनएमएफ घटक सभी गैर-नकारात्मक हैं और इसलिए गैर-ऑर्थोगोनल आधार बनाते हैं।

पीसीए में, प्रत्येक घटक के योगदान को उसके संबंधित ईजेनवेल्यू के परिमाण के आधार पर रैंक किया जाता है, जो कि अनुभवजन्य डेटा का विश्लेषण करने में भिन्नात्मक अवशिष्ट विचरण (FRV) के बराबर है। NMF के लिए, इसके घटकों को केवल अनुभवजन्य FRV वक्रों के आधार पर रैंक किया गया है। अवशिष्ट भिन्नात्मक eigenvalue भूखंड, अर्थात, $$ 1-\sum_{i=1}^k \lambda_i\Big/\sum_{j=1}^n \lambda_j$$ घटक संख्या के एक समारोह के रूप में $$k$$ कुल दिया $$n$$ घटक, पीसीए के लिए एक सपाट पठार है, जहां अर्ध-स्थैतिक शोर को दूर करने के लिए कोई डेटा कैप्चर नहीं किया जाता है, फिर ओवर-फिटिंग के संकेत के रूप में घटता जल्दी से गिर जाता है और यादृच्छिक शोर को पकड़ लेता है। NMF के लिए FRV घटता लगातार घट रहा है जब NMF घटकों का निर्माण किया जाता है तो गैर-नकारात्मक मैट्रिक्स गुणन#अनुक्रमिक NMF, अर्ध-स्थैतिक शोर के निरंतर कैप्चरिंग का संकेत; फिर पीसीए की तुलना में उच्च स्तर पर अभिसरण करें, NMF की कम ओवरफिटिंग संपत्ति का संकेत।

सहसंबंधों की प्रतीकात्मकता
मुख्य घटकों की व्याख्या करना अक्सर मुश्किल होता है जब डेटा में विभिन्न उत्पत्ति के कई चर शामिल होते हैं, या जब कुछ चर गुणात्मक होते हैं। यह पीसीए उपयोगकर्ता को कई चरों के नाजुक उन्मूलन की ओर ले जाता है। यदि टिप्पणियों या चर का अक्षों की दिशा पर अत्यधिक प्रभाव पड़ता है, तो उन्हें हटा दिया जाना चाहिए और फिर पूरक तत्वों के रूप में प्रक्षेपित किया जाना चाहिए। इसके अलावा, फैक्टोरियल प्लेन के केंद्र के करीब बिंदुओं के बीच की निकटता की व्याख्या करने से बचना आवश्यक है।

इसके विपरीत, सहसंबंधों की प्रतिमा, जो कुल्हाड़ियों की एक प्रणाली पर प्रक्षेपण नहीं है, में ये कमियां नहीं हैं। इसलिए हम सभी चर रख सकते हैं।

आरेख का सिद्धांत एक ठोस रेखा (सकारात्मक सहसंबंध) या बिंदीदार रेखा (नकारात्मक सहसंबंध) द्वारा सहसंबंध मैट्रिक्स के उल्लेखनीय सहसंबंधों को रेखांकित करना है।

एक मजबूत सहसंबंध उल्लेखनीय नहीं है यदि यह प्रत्यक्ष नहीं है, लेकिन तीसरे चर के प्रभाव के कारण होता है। इसके विपरीत, कमजोर सहसंबंध उल्लेखनीय हो सकते हैं। उदाहरण के लिए, यदि एक चर Y कई स्वतंत्र चरों पर निर्भर करता है, तो उनमें से प्रत्येक के साथ Y का सहसंबंध कमजोर और फिर भी उल्लेखनीय है।

विरल पीसीए
पीसीए का एक विशेष नुकसान यह है कि प्रमुख घटक आमतौर पर सभी इनपुट चरों के रैखिक संयोजन होते हैं। विरल पीसीए केवल कुछ इनपुट चर वाले रैखिक संयोजनों को ढूंढकर इस नुकसान को दूर करता है। यह इनपुट वेरिएबल्स पर स्पार्सिटी बाधा जोड़कर डेटा की डायमेंशनलिटी को कम करने के लिए प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) की क्लासिक पद्धति का विस्तार करता है। सहित कई दृष्टिकोण प्रस्तावित किए गए हैं स्पार्स पीसीए के पद्धतिगत और सैद्धांतिक विकास के साथ-साथ वैज्ञानिक अध्ययनों में इसके अनुप्रयोगों की हाल ही में एक सर्वेक्षण पत्र में समीक्षा की गई थी।
 * एक प्रतिगमन ढांचा,
 * एक उत्तल छूट / अर्ध-परिमित प्रोग्रामिंग ढांचा,
 * एक सामान्यीकृत शक्ति विधि ढांचा
 * एक वैकल्पिक अधिकतमकरण ढांचा
 * शाखा-और-बाध्य तकनीकों का उपयोग करके आगे-पीछे लालची खोज और सटीक तरीके,
 * बायेसियन फॉर्मूलेशन फ्रेमवर्क।

नॉनलाइनियर पीसीए
गैर-रैखिक आयामीता में कमी के अधिकांश आधुनिक तरीके पीसीए या के-साधनों में अपनी सैद्धांतिक और एल्गोरिथम जड़ें पाते हैं। पियर्सन का मूल विचार एक सीधी रेखा (या समतल) लेना था जो डेटा बिंदुओं के एक सेट के लिए सबसे उपयुक्त होगा। ट्रेवर हैस्टी ने प्रिंसिपल वक्र ्स को प्रस्तावित करके इस अवधारणा पर विस्तार किया पीसीए की ज्यामितीय व्याख्या के लिए प्राकृतिक विस्तार के रूप में, जो स्पष्ट रूप से प्रोजेक्शन (गणित) के बाद डेटा सन्निकटन के लिए कई गुना निर्माण करता है, जैसा कि अंजीर में दिखाया गया है। इलास्टिक मैप एल्गोरिथम प्रमुख जियोडेसिक विश्लेषण विश्लेषण भी देखें। एक अन्य लोकप्रिय सामान्यीकरण कर्नेल पीसीए है, जो एक सकारात्मक निश्चित कर्नेल से जुड़े प्रजनन कर्नेल हिल्बर्ट स्पेस में किए गए पीसीए से मेल खाता है।

बहुरेखीय उप-स्थान सीखना में,  पीसीए को  बहुरेखीय प्रमुख घटक विश्लेषण  (एमपीसीए) के लिए सामान्यीकृत किया गया है जो सीधे टेंसर प्रस्तुतियों से सुविधाओं को निकालता है। MPCA को टेंसर के प्रत्येक मोड में पुनरावृत्त रूप से PCA करके हल किया जाता है। एमपीसीए को चेहरे की पहचान, चाल की पहचान आदि के लिए लागू किया गया है। एमपीसीए को आगे असंबद्ध एमपीसीए, गैर-नकारात्मक एमपीसीए और मजबूत एमपीसीए तक बढ़ाया गया है।

टकर अपघटन, PARAFAC, बहु-कारक विश्लेषण, सह-जड़ता विश्लेषण, STATIS और DISTATIS जैसे मॉडलों के साथ N-way प्रमुख घटक विश्लेषण किया जा सकता है।

मजबूत पीसीए
जबकि पीसीए गणितीय रूप से इष्टतम विधि (चुकता त्रुटि को कम करने के रूप में) पाता है, यह अभी भी डेटा में ग़ैर के प्रति संवेदनशील है जो बड़ी त्रुटियां उत्पन्न करता है, कुछ ऐसा जो विधि पहले स्थान से बचने की कोशिश करती है। इसलिए पीसीए की गणना करने से पहले आउटलेयर को हटाना आम बात है। हालाँकि, कुछ संदर्भों में, आउटलेयर को पहचानना मुश्किल हो सकता है। उदाहरण के लिए, डेटा खनन एल्गोरिदम जैसे सहसंबंध क्लस्टरिंग में, क्लस्टर और आउटलेयर को पॉइंट्स का असाइनमेंट पहले से ज्ञात नहीं है। पीसीए का हाल ही में प्रस्तावित सामान्यीकरण भारित पीसीए के आधार पर डेटा ऑब्जेक्ट्स को उनकी अनुमानित प्रासंगिकता के आधार पर अलग-अलग भार देकर मजबूती बढ़ जाती है।

एल1-नॉर्म फॉर्मूलेशन (L1-मानक प्रमुख घटक विश्लेषण | एल1-पीसीए) के आधार पर पीसीए के बाहरी-प्रतिरोधी वेरिएंट भी प्रस्तावित किए गए हैं।

मजबूत प्रमुख घटक विश्लेषण (RPCA) निम्न-श्रेणी और विरल मैट्रिसेस में अपघटन के माध्यम से PCA का एक संशोधन है जो व्यापक रूप से दूषित टिप्पणियों के संबंध में अच्छी तरह से काम करता है।

स्वतंत्र घटक विश्लेषण
स्वतंत्र घटक विश्लेषण (आईसीए) को प्रमुख घटक विश्लेषण के समान समस्याओं के लिए निर्देशित किया जाता है, लेकिन क्रमिक अनुमानों के बजाय योगात्मक रूप से वियोज्य घटकों को ढूंढता है।

नेटवर्क घटक विश्लेषण
एक मैट्रिक्स दिया $$E$$, यह इसे दो मैट्रिसेस में विघटित करने की कोशिश करता है $$E=AP $$. पीसीए और आईसीए जैसी तकनीकों से एक महत्वपूर्ण अंतर यह है कि कुछ प्रविष्टियां $$A$$ 0. यहाँ विवश हैं $$P$$ नियामक परत कहा जाता है। जबकि सामान्य तौर पर इस तरह के अपघटन के कई समाधान हो सकते हैं, वे साबित करते हैं कि यदि निम्नलिखित शर्तें पूरी होती हैं: तब अपघटन एक अदिश द्वारा गुणन तक अद्वितीय होता है।
 * 1) $$A$$ पूर्ण स्तंभ रैंक है
 * 2) का प्रत्येक स्तंभ $$A$$ कम से कम होना चाहिए $$L-1$$ शून्य कहाँ $$L$$ के स्तंभों की संख्या है $$A$$ (या वैकल्पिक रूप से पंक्तियों की संख्या $$P$$). इस मानदंड के लिए औचित्य यह है कि यदि एक नोड को विनियामक परत से हटा दिया जाता है, साथ ही इससे जुड़े सभी आउटपुट नोड्स के साथ, परिणाम अभी भी पूर्ण स्तंभ रैंक के साथ एक कनेक्टिविटी मैट्रिक्स द्वारा विशेषता होना चाहिए।
 * 3) $$P$$ पूरी पंक्ति रैंक होनी चाहिए।

प्रमुख घटकों का विभेदक विश्लेषण
प्रिंसिपल कंपोनेंट्स (DAPC) का डिस्क्रिमिनेंट एनालिसिस एक बहुभिन्नरूपी तरीका है जिसका इस्तेमाल आनुवंशिक रूप से संबंधित व्यक्तियों के समूहों की पहचान करने और उनका वर्णन करने के लिए किया जाता है। आनुवंशिक भिन्नता को दो घटकों में विभाजित किया गया है: समूहों के बीच और समूहों के भीतर भिन्नता, और यह पूर्व को अधिकतम करती है। रेखीय विभेदक युग्मविकल्पी के रेखीय संयोजन होते हैं जो गुच्छों को सर्वोत्तम रूप से अलग करते हैं। एलील्स जो इस भेदभाव में सबसे अधिक योगदान करते हैं, इसलिए वे हैं जो समूहों में सबसे अधिक स्पष्ट रूप से भिन्न हैं। डीएपीसी द्वारा पहचाने गए समूहों में एलील्स का योगदान समूहों के बीच आनुवंशिक विचलन को चलाने वाले जीनोम के क्षेत्रों की पहचान करने की अनुमति दे सकता है। DAPC में, डेटा को पहले एक प्रमुख घटक विश्लेषण (PCA) का उपयोग करके रूपांतरित किया जाता है और बाद में विभेदक विश्लेषण (DA) का उपयोग करके समूहों की पहचान की जाती है।

Adegenet पैकेज का उपयोग करके R पर एक DAPC प्राप्त किया जा सकता है। (अधिक जानकारी: adegenet वेब पर)

दिशात्मक घटक विश्लेषण
दिशात्मक घटक विश्लेषण (DCA) बहुभिन्नरूपी डेटासेट के विश्लेषण के लिए वायुमंडलीय विज्ञान में उपयोग की जाने वाली एक विधि है। पीसीए की तरह, यह आयाम में कमी, बेहतर विज़ुअलाइज़ेशन और बड़े डेटा-सेट की बेहतर व्याख्या करने की अनुमति देता है। पीसीए की तरह, यह इनपुट डेटासेट से प्राप्त सहप्रसरण मैट्रिक्स पर आधारित है। पीसीए और डीसीए के बीच अंतर यह है कि डीसीए को वेक्टर दिशा के इनपुट की अतिरिक्त आवश्यकता होती है, जिसे प्रभाव कहा जाता है। जबकि पीसीए स्पष्ट विचरण को अधिकतम करता है, डीसीए प्रभाव को देखते हुए संभाव्यता घनत्व को अधिकतम करता है। DCA के लिए प्रेरणा एक बहुभिन्नरूपी डेटासेट के घटकों को खोजना है जो संभावित (संभाव्यता घनत्व का उपयोग करके मापा गया) और महत्वपूर्ण (प्रभाव का उपयोग करके मापा गया) दोनों हैं। DCA का उपयोग मौसम पूर्वानुमान समूहों में सबसे संभावित और सबसे गंभीर हीट-वेव पैटर्न खोजने के लिए किया गया है , और जलवायु परिवर्तन के कारण वर्षा में सबसे संभावित और सबसे प्रभावशाली परिवर्तन .

सॉफ्टवेयर/स्रोत कोड

 * ALGLIB - एक C++ और C# लाइब्रेरी जो PCA को लागू करती है और PCA को छोटा करती है
 * एनालिटिका (सॉफ्टवेयर) - बिल्ट-इन EigenDecomp फ़ंक्शन प्रमुख घटकों की गणना करता है।
 * ईएलकेआई - प्रक्षेपण के लिए पीसीए शामिल है, जिसमें पीसीए के मजबूत वेरिएंट, साथ ही पीसीए-आधारित क्लस्टर विश्लेषण शामिल हैं।
 * ग्रेटल - प्रमुख घटक विश्लेषण या तो के माध्यम से किया जा सकता है  कमांड या के माध्यम से   समारोह।
 * जूलिया भाषा - के साथ पीसीए का समर्थन करता है  MultivariateStats पैकेज में कार्य करता है
 * KNIME - विश्लेषण के लिए एक जावा आधारित नोडल व्यवस्था सॉफ्टवेयर, इसमें पीसीए, पीसीए कंप्यूट, पीसीए अप्लाई, पीसीए इनवर्स नामक नोड्स इसे आसानी से बनाते हैं।
 * मेपल (सॉफ्टवेयर) - पीसीए कमांड का उपयोग डेटा के एक सेट पर प्रमुख घटक विश्लेषण करने के लिए किया जाता है।
 * मेथेमेटिका - सहप्रसरण और सहसंबंध विधियों दोनों का उपयोग करके प्रिंसिपलकंपोनेंट्स कमांड के साथ प्रिंसिपल कंपोनेंट एनालिसिस लागू करता है।
 * MathPHP - पीसीए के समर्थन के साथ पीएचपी गणित पुस्तकालय।
 * MATLAB - एसवीडी फ़ंक्शन मूल प्रणाली का हिस्सा है। सांख्यिकी टूलबॉक्स में, कार्य  और   (R2012b) प्रमुख घटक देते हैं, जबकि कार्य   निम्न-रैंक पीसीए सन्निकटन के लिए अवशिष्ट और पुनर्निर्मित मैट्रिक्स देता है।
 * Matplotlib – Python (प्रोग्रामिंग लैंग्वेज) लाइब्रेरी में .mlab मॉड्यूल में एक PCA पैकेज है।
 * mypack - सी ++ में प्रमुख घटक विश्लेषण का कार्यान्वयन प्रदान करता है।
 * mrmath - डेल्फी (सॉफ्टवेयर) और फ़्री पास्कल  के लिए एक उच्च प्रदर्शन गणित पुस्तकालय पीसीए कर सकता है; मजबूत वेरिएंट सहित।
 * एनएजी न्यूमेरिकल लाइब्रेरी - प्रधान घटक विश्लेषण के माध्यम से कार्यान्वित किया जाता है  दिनचर्या (पुस्तकालय के दोनों फोरट्रान संस्करणों में उपलब्ध)।
 * NMath - .NET फ्रेमवर्क के लिए PCA युक्त मालिकाना संख्यात्मक पुस्तकालय।
 * जीएनयू ऑक्टेव - मुफ्त सॉफ्टवेयर कम्प्यूटेशनल वातावरण ज्यादातर MATLAB, फ़ंक्शन के साथ संगत है  प्रमुख घटक देता है।
 * ओपनसीवी
 * Oracle डाटाबेस 12c - के माध्यम से लागू किया गया  सेटिंग मान निर्दिष्ट करके
 * ऑरेंज (सॉफ्टवेयर) - अपने दृश्य प्रोग्रामिंग वातावरण में पीसीए को एकीकृत करता है। पीसीए एक स्क्री प्लॉट (व्याख्या विचरण की डिग्री) प्रदर्शित करता है जहां उपयोगकर्ता प्रमुख घटकों की संख्या को अंतःक्रियात्मक रूप से चुन सकता है।
 * उत्पत्ति (डेटा विश्लेषण सॉफ्टवेयर) - इसके प्रो संस्करण में पीसीए शामिल है।
 * क्लोकोर - पीसीए का उपयोग करके त्वरित प्रतिक्रिया के साथ बहुभिन्नरूपी डेटा का विश्लेषण करने के लिए वाणिज्यिक सॉफ्टवेयर।
 * आर (प्रोग्रामिंग भाषा) - मुफ्त सॉफ्टवेयर सांख्यिकीय पैकेज, कार्य  और   प्रमुख घटक विश्लेषण के लिए इस्तेमाल किया जा सकता है;   एकवचन मूल्य अपघटन का उपयोग करता है जो आम तौर पर बेहतर संख्यात्मक सटीकता देता है। आर में पीसीए को लागू करने वाले कुछ पैकेजों में शामिल हैं, लेकिन इन तक सीमित नहीं हैं: ,  ,  ,  , और.
 * एसएएस (सॉफ्टवेयर) - मालिकाना सॉफ्टवेयर; उदाहरण के लिए देखें
 * scikit-सीखें - मशीन लर्निंग के लिए पायथन लाइब्रेरी जिसमें अपघटन मॉड्यूल में पीसीए, प्रोबेबिलिस्टिक पीसीए, कर्नेल पीसीए, स्पार्स पीसीए और अन्य तकनीकें शामिल हैं।
 * साइलैब - फ्री और ओपन-सोर्स, क्रॉस-प्लेटफॉर्म न्यूमेरिकल कम्प्यूटेशनल पैकेज, फंक्शन  प्रमुख घटक विश्लेषण, फ़ंक्शन की गणना करता है   मानकीकृत चरों के साथ प्रमुख घटक विश्लेषण की गणना करता है।
 * एसपीएसएस - पीसीए, कारक विश्लेषण और संबंधित क्लस्टर विश्लेषण के लिए सामाजिक वैज्ञानिकों द्वारा आमतौर पर इस्तेमाल किया जाने वाला मालिकाना सॉफ्टवेयर।
 * वीका (मशीन लर्निंग) - मशीन लर्निंग के लिए जावा लाइब्रेरी जिसमें प्रमुख घटकों की गणना के लिए मॉड्यूल होते हैं।

यह भी देखें

 * पत्राचार विश्लेषण (आकस्मिक तालिकाओं के लिए)
 * एकाधिक पत्राचार विश्लेषण (गुणात्मक चर के लिए)
 * मिश्रित डेटा का कारक विश्लेषण (मात्रात्मक और गुणात्मक चर के लिए)
 * कैननिकल सहसंबंध
 * CUR मैट्रिक्स सन्निकटन (निम्न-रैंक SVD सन्निकटन की जगह ले सकता है)
 * Detrended पत्राचार विश्लेषण
 * दिशात्मक घटक विश्लेषण
 * गतिशील मोड अपघटन
 * खुद का चेहरा
 * अपेक्षा-अधिकतमकरण एल्गोरिथम
 * v: अन्वेषी कारक विश्लेषण (विकिविश्वविद्यालय)
 * क्रमगुणित कोड
 * कार्यात्मक प्रमुख घटक विश्लेषण
 * ज्यामितीय डेटा विश्लेषण
 * स्वतंत्र घटक विश्लेषण
 * कर्नेल पीसीए
 * एल1-मानक प्रमुख घटक विश्लेषण
 * निम्न-श्रेणी सन्निकटन
 * मैट्रिक्स अपघटन
 * गैर-नकारात्मक मैट्रिक्स गुणनखंड
 * गैर रेखीय आयामीता में कमी
 * ओजा का शासन
 * बिंदु वितरण मॉडल (पीसीए मॉर्फोमेट्री और कंप्यूटर विजन पर लागू होता है)
 * बी: सांख्यिकी/बहुभिन्नरूपी डेटा विश्लेषण/प्रमुख घटक विश्लेषण (विकिपुस्तक)
 * प्रधान घटक प्रतिगमन
 * एकवचन स्पेक्ट्रम विश्लेषण
 * विलक्षण मान अपघटन
 * विरल पीसीए
 * रूपांतरण कोडिंग
 * कम से कम वर्ग भारित

अग्रिम पठन

 * Jackson, J.E. (1991). A User's Guide to Principal Components (Wiley).
 * Husson François, Lê Sébastien & Pagès Jérôme (2009). Exploratory Multivariate Analysis by Example Using R. Chapman & Hall/CRC The R Series, London. 224p. ISBN 978-2-7535-0938-2
 * Pagès Jérôme (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC The R Series London 272 p
 * Husson François, Lê Sébastien & Pagès Jérôme (2009). Exploratory Multivariate Analysis by Example Using R. Chapman & Hall/CRC The R Series, London. 224p. ISBN 978-2-7535-0938-2
 * Pagès Jérôme (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC The R Series London 272 p

बाहरी संबंध

 * A Tutorial on Principal Component Analysis
 * (a video of less than 100 seconds.)
 * See also the list of Software implementations
 * (a video of less than 100 seconds.)
 * See also the list of Software implementations
 * See also the list of Software implementations