कैननिकल सहसंबंध

आँकड़ों में, कैनोनिकल-सहसंबंध विश्लेषण (सीसीए), जिसे कैनोनिकल वेरिएट्स विश्लेषण भी कहा जाता है, क्रॉस-कॉवर्सियन आव्यूह से जानकारी का अनुमान लगाने का एक विधि है। यदि हमारे पास यादृच्छिक चर के दो सदिश X = (X1, ..., Xn) और Y = (Y1, ..., Ym)हैं, और चर के बीच सहसंबंध हैं, तो विहित-सहसंबंध विश्लेषण के रैखिक संयोजनों का पता लगाएगा X और Y जिनका आपस में अधिकतम संबंध है। टी. आर. कन्नप ने नोट किया है कि "व्यावहारिक रूप से महत्व के सामान्यतः सामने आने वाले सभी पैरामीट्रिक परीक्षणों को विहित-सहसंबंध विश्लेषण के विशेष स्थितियों के रूप में माना जा सकता है जो चर के दो सेटों के बीच संबंधों की जांच करने की सामान्य प्रक्रिया है।" इस पद्धति को पहली बार 1936 में हेरोल्ड होटलिंग द्वारा प्रस्तुत किया गया था चूँकि फ्लैटों के बीच के कोणों के संदर्भ में गणितीय अवधारणा जॉर्डन द्वारा 1875 में प्रकाशित की गई थी।

परिभाषा
दो स्तम्भ सदिश $$X = (x_1, \dots, x_n)^T$$ और $$Y = (y_1, \dots, y_m)^T$$ परिमित दूसरे पलों के साथ यादृच्छिक चर कोई भी क्रॉस-सहप्रसरण $$\Sigma _{XY} = \operatorname{cov}(X, Y) $$ परिभाषित कर सकता है जो $$ n \times m$$ आव्यूह है जिसकी $$(i, j)$$प्रविष्टि सहप्रसरण $$\operatorname{cov}(x_i, y_j)$$ है। व्यवहार में, हम $$X$$ और $$Y$$(अर्थात डेटा मैट्रिसेस की एक जोड़ी से) से सैंपल किए गए डेटा के आधार पर सहप्रसरणआव्यूह का अनुमान लगाएंगे।

कैननिकल-सहसंबंध विश्लेषण सदिश $$a$$ ($$a \in\mathbb R^n$$और $$b$$ $$b \in\mathbb R^m$$ ^{m}}) की खोज करता है, जैसे कि यादृच्छिक चर $$a^T X$$और $$b^T Y$$ सहसंबंध को अधिकतम करें $$\rho = \operatorname{corr}(a^T X, b^T Y)$$ (स्केलर) यादृच्छिक चर $$U = a^T X$$ और $$V = b^T Y$$ विहित चरों की पहली जोड़ी हैं। फिर एक समान सहसंबंध विषय को अधिकतम करने वाले सदिश की खोज करता है जो कि विहित चर की पहली जोड़ी के साथ असंबद्ध होना है; यह विहित चरों की दूसरी जोड़ी देता है। इस प्रक्रिया को $$\min\{m,n\}$$ बार तक जारी रखा जा सकता है।


 * $$(a',b') = \underset{a,b}\operatorname{argmax} \operatorname{corr}(a^T X, b^T Y)$$

व्युत्पत्ति
चलो $$\Sigma _{XY}$$ किसी भी जोड़ी (वेक्टर-आकार) यादृच्छिक चर $$X$$ और $$Y$$ के लिए क्रॉस-सहप्रसरण आव्यूह बनें अधिकतम करने के लिए लक्ष्य कार्य है



\rho = \frac{a^T \Sigma _{XY} b}{\sqrt{a^T \Sigma _{XX} a} \sqrt{b^T \Sigma _{YY} b}}. $$ पहला कदम आधार के परिवर्तन को परिभाषित करना और परिभाषित करना है



c = \Sigma _{XX} ^{1/2} a, $$

d = \Sigma _{YY} ^{1/2} b. $$ और इस प्रकार हमारे पास है



\rho = \frac{c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} d}{\sqrt{c^Tc} \sqrt{d^Td}}. $$ कॉची-श्वार्ज असमानता द्वारा हमारे पास है



\left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \right)  (d)  \leq \left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \Sigma _{YY} ^{-1/2} \Sigma _{YX} \Sigma _{XX} ^{-1/2} c \right)^{1/2} \left(d^T d \right)^{1/2}, $$

\rho \leq \frac{\left(c^T \Sigma _{XX}^{-1/2} \Sigma _{XY} \Sigma _{YY}^{-1} \Sigma _{YX} \Sigma_{XX}^{-1/2} c \right)^{1/2}}{\left(c^T c \right)^{1/2}}. $$ यदि सदिश $$d$$ और $$\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}$$ समरेख हैं, तो समानता है। इसके अलावा, अधिकतम सहसंबंध प्राप्त होता है यदि $$c$$ आव्यूह के लिए अधिकतम ईजेनवेल्यू वाला ईजेनवेक्टर है $$\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}$$ (देखें रेले भागफल)। घटते हुए परिमाण के ईजेनवेक्टर ​​का उपयोग करके बाद के जोड़े पाए जाते हैं। ऑर्थोगोनलिटी की आश्वासन सहसंबंध मैट्रिसेस की समरूपता द्वारा दी जाती है।

इस संगणना को देखने का एक अन्य तरीका यह है कि $$c$$ और $$d$$, X और Y के सहसंबंध आव्यूह के बाएँ और दाएँ एकवचन सदिश हैं जो उच्चतम एकवचन मान के अनुरूप हैं।

समाधान
समाधान इसलिए है: पारस्परिक रूप से, वहाँ भी है: निर्देशांक के परिवर्तन को उलटने पर, हमारे पास वह है
 * $$c$$ का आइजनवेक्टर $$\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}$$ है
 * $$d$$ के लिए आनुपातिक $$\Sigma _{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c$$ है
 * $$d$$ का आइजनवेक्टर $$\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1/2}$$ है
 * $$c$$ के लिए आनुपातिक $$\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2} d$$ है
 * $$a$$ का आइजनवेक्टर $$\Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX}$$, है
 * $$b$$ के लिए आनुपातिक $$\Sigma_{YY}^{-1} \Sigma_{YX} a;$$ है
 * $$b$$ का आइजनवेक्टर $$\Sigma _{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY},$$ है
 * $$a$$ के लिए आनुपातिक $$\Sigma_{XX}^{-1} \Sigma_{XY} b$$. है

विहित चर द्वारा परिभाषित किया गया है:


 * $$U = c^T \Sigma_{XX}^{-1/2} X = a^T X$$
 * $$V = d^T \Sigma_{YY}^{-1/2} Y = b^T Y$$

कार्यान्वयन
सीसीए की गणना सहसंबंध आव्यूह पर एकवचन मान अपघटन का उपयोग करके की जा सकती है। यह एक कार्य के रूप में उपलब्ध है एक सहसंबंध आव्यूह पर एकवचन मान अपघटन का उपयोग कर सीसीए गणना फ्लैटों के बीच के कोणों के कोज्या से संबंधित है। कोसाइन कार्य छोटे कोणों के लिए खराब स्थिति में है जिससे परिमित परिशुद्धता (कंप्यूटर विज्ञान) कंप्यूटर अंकगणित में अत्यधिक सहसंबद्ध प्रिंसिपल सदिश की बहुत गलत गणना होती है। कोण_बीच_फ्लैट या गणना के लिए वैकल्पिक एल्गोरिदम में उपलब्ध हैं
 * मैटलैब कैननकॉर के रूप में (एम भी जीएनयू ऑक्टेव में)
 * सीसीए और शाकाहारी।सहित मानक कार्य cancor और कई अन्य पैकेजों के रूप में R विहित सहसंबंध विश्लेषण में सांख्यिकीय परिकल्पना परीक्षण के लिए CCP
 * SAS भाषा के रूप में proc cancorr
 * पुस्तकालय में पायथन (प्रोग्रामिंग भाषा) क्रॉस अपघटन के रूप में स्किकिट-लर्न और कैनकॉर के रूप में स्टैट्समॉडल्स में।
 * एसपीएसएस मैक्रो कैनकोर के रूप में मुख्य सॉफ्टवेयर के साथ भेज दिया गया
 * जूलिया (प्रोग्रामिंग भाषा) MultivariateStats.jl पैकेज में *


 * साइपी के रूप में रैखिक-बीजगणित कार्य उपस्थान_कोण
 * मैटलैब फाइल एक्सचेंज कार्य उप-स्थानa के रूप में

परिकल्पना परीक्षण
प्रत्येक पंक्ति को निम्नलिखित विधि से महत्व के लिए परखा जा सकता है। चूँकि सहसंबंधों को क्रमबद्ध किया गया है यह कहना कि पंक्ति $$i$$ शून्य है का अर्थ है कि आगे के सभी सहसंबंध भी शून्य हैं। यदि हमारे पास नमूने में $$\widehat{\rho}_i$$ स्वतंत्र अवलोकन हैं और $$\widehat{\rho}_i$$, $$i = 1,\dots, \min\{m,n\}$$ के लिए अनुमानित सहसंबंध है। $$i$$वीं पंक्ति के लिए परीक्षण आँकड़ा है:


 * $$\chi^2 = - \left( p - 1 - \frac{1}{2}(m + n + 1)\right) \ln \prod_{j = i}^{\min\{m,n\}} (1 - \widehat{\rho}_j^2),$$

जो बड़े $$p$$ के लिए स्वतंत्रता की$$(m - i + 1)(n - i + 1)$$डिग्री के साथ ची-वर्ग के रूप में असम्बद्ध रूप से वितरित किया जाता है। चूँकि $$ \min\{m,n\}$$ से $$p$$ तक के सभी सहसंबंध तार्किक रूप से शून्य हैं (और उस तरह से भी अनुमान लगाया गया है) इस बिंदु के बाद की नियमो के लिए गुणनफल अप्रासंगिक है। ध्यान दें कि छोटे नमूना आकार सीमा में $$p < n + m$$ तब हमें आश्वासन दी जाती है कि शीर्ष $$m + n - p$$ सहसंबंध समान रूप से 1 होंगे और इसलिए परीक्षण अर्थहीन है।

व्यावहारिक उपयोग
प्रायोगिक संदर्भ में विहित सहसंबंध के लिए एक विशिष्ट उपयोग चर के दो सेट लेना है और देखना है कि दो सेटों में क्या सामान्य है। उदाहरण के लिए मनोवैज्ञानिक परीक्षण में दो सुस्थापित बहुआयामी व्यक्तित्व परीक्षण जैसे कि मिनेसोटा मल्टीफेसिक पर्सनैलिटी इन्वेंटरी (एमएमपीआई-2) और मनोविक्षुब्धता एक्सट्रोवर्शन ओपननेस व्यक्तित्व सूची ले सकता है। यह देखकर कि एमएमपीआई-2 कारक एनईओ कारकों से कैसे संबंधित हैं कोई व्यक्ति इस बात की जानकारी प्राप्त कर सकता है कि परीक्षणों के बीच कौन से आयाम सामान्य थे और कितना अंतर साझा किया गया था। उदाहरण के लिए कोई यह पा सकता है कि बहिर्मुखता और अंतर्मुखता या विक्षिप्तता आयाम दो परीक्षणों के बीच पर्याप्त मात्रा में साझा भिन्नता के लिए उत्तरदाई है।

कोई मॉडल समीकरण बनाने के लिए विहित-सहसंबंध विश्लेषण का भी उपयोग कर सकता है जो चर के दो सेटों से संबंधित है उदाहरण के लिए प्रदर्शन उपायों का एक सेट और व्याख्यात्मक चर का एक सेट या आउटपुट का एक सेट और इनपुट का सेट इस तरह के मॉडल पर प्रतिबंध प्रतिबंध लगाया जा सकता है जिससे यह सुनिश्चित हो सके कि यह सैद्धांतिक आवश्यकताओं या सहज रूप से स्पष्ट स्थितियों को दर्शाता है। इस प्रकार के मॉडल को अधिकतम सहसंबंध मॉडल के रूप में जाना जाता है।

कैनोनिकल सहसंबंध के परिणामों का विज़ुअलाइज़ेशन सामान्यतः महत्वपूर्ण सहसंबंध दिखाने वाले कैनोनिकल प्रकार के जोड़े के लिए चर के दो सेटों के गुणांक के बार प्लॉट के माध्यम से होता है। कुछ लेखकों का सुझाव है कि उन्हें हेलीओग्राफ के रूप में प्लॉट करके सबसे अच्छी तरह से देखा जाता है एक गोलाकार प्रारूप जिसमें किरण जैसी बार होती है जिसमें प्रत्येक आधा चर के दो सेटों का प्रतिनिधित्व करता है।

उदाहरण
चलो $$X = x_1$$ शून्य अपेक्षित मान अर्थात $$\operatorname{E}(X)=0$$ के साथ।


 * 1) यदि $$Y = X$$, अर्थात। $$X$$ और $$Y$$ पूरी तरह से सहसंबद्ध हैं, तो, उदाहरण के लिए, $$a=1$$ और $$b=1$$, जिससे पहली (और केवल इस उदाहरण में) विहित चरों की जोड़ी $$U = X$$ और $$V = Y =X$$.है
 * 2) यदि $$Y = -X$$, अर्थात। $$X$$ और $$Y$$ पूरी तरह से परस्पर विरोधी हैं, तो उदाहरण के लिए, $$a=1$$ और $$b=-1$$, जिससे पहली (और केवल इस उदाहरण में) विहित चरों की जोड़ी $$U = X$$ और $$V = -Y =X$$ है

हम देखते हैं कि दोनों स्थितियों में $$U =V$$ जो दर्शाता है कि विहित-सहसंबंध विश्लेषण सहसंबद्ध और प्रतिसहसंबद्ध चरों को समान रूप से व्यवहार करता है।

प्रमुख कोणों से संबंध
यह मानते हुए कि $$X = (x_1, \dots, x_n)^T$$ और $$Y = (y_1, \dots, y_m)^T$$ के शून्य अपेक्षित मान हैं, अर्थात, $$\operatorname{E}(X)=\operatorname{E}(Y)=0$$, उनके सहप्रसरण आव्यूह $$\Sigma _{XX} =\operatorname{Cov}(X,X) = \operatorname{E}[X X^T]$$और $$\Sigma _{YY} =\operatorname{Cov}(Y,Y) = \operatorname{E}[Y Y^T]$$ तदनुसार $$X$$ और $$Y$$ की प्रविष्टियों के लिए एक आंतरिक उत्पाद में ग्राम आव्यूह के रूप में देखा जा सकता है। इस व्याख्या में यादृच्छिक चर $$X$$ की प्रविष्टि $$x_i$$ और $$Y$$ की $$y_j$$ को सहप्रसरण $$\operatorname{cov}(x_i, y_j)$$ द्वारा दिए गए एक आंतरिक उत्पाद के साथ सदिश स्थान के तत्वों के रूप में माना जाता है। कोवैरियंस #रिलेशनशिप टू इनर प्रोडक्ट्स देखें।

कैनोनिकल चर $$U$$ और $$V$$ की परिभाषा तब इस आंतरिक उत्पाद के संबंध में $$X$$ और $$Y$$की प्रविष्टियों द्वारा फैले उप-स्थानों की जोड़ी के लिए प्रमुख सदिश की परिभाषा के समान है। विहित सहसंबंध $$\operatorname{corr}(U,V)$$ प्रमुख कोणों के कोज्या के समान है।

श्वेतकरण और संभाव्य विहित सहसंबंध विश्लेषण
सीसीए को एक विशेष श्वेत परिवर्तन र्मेशन के रूप में भी देखा जा सकता है जहाँ यादृच्छिक सदिश $$X$$ और $$Y$$ एक साथ इस तरह से रूपांतरित होते हैं कि श्वेत किए गए सदिश $$X^{CCA}$$ और $$Y^{CCA}$$के बीच क्रॉस-सहसंबंध विकर्ण है। फिर विहित सहसंबंधों की व्याख्या $$X^{CCA}$$ और $$Y^{CCA}$$ को जोड़ने वाले प्रतिगमन गुणांक के रूप में की जाती है और यह ऋणात्मक भी हो सकता है। सीसीए का प्रतिगमन दृश्य साझा और गैर-साझा परिवर्तनशीलता का प्रतिनिधित्व करने वाले असंबद्ध छिपे हुए चर के साथ सीसीए के लिए एक अव्यक्त चर संभाव्य जनरेटिव मॉडल के निर्माण का एक विधि भी प्रदान करता है।

यह भी देखें

 * सामान्यीकृत विहित सहसंबंध
 * आरवी गुणांक
 * फ्लैटों के बीच का कोण
 * प्रमुख कंपोनेंट विश्लेषण
 * रैखिक विभेदक विश्लेषण
 * नियमित विहित सहसंबंध विश्लेषण
 * विलक्षण मान अपघटन
 * आंशिक न्यूनतम वर्ग प्रतिगमन

बाहरी संबंध

 * Discriminant Correlation Analysis (DCA) (MATLAB)
 * A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Also provides a FORTRAN program)- in Journal of Quantitative Economics 7(2), 2009, pp. 173–199
 * Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in Journal of Applied Economic Sciences 4(1), 2009, pp. 115–124
 * Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in Journal of Applied Economic Sciences 4(1), 2009, pp. 115–124