कैननिकल सहसंबंध

आँकड़ों में, कैनोनिकल-सहसंबंध विश्लेषण (CCA), जिसे कैनोनिकल वेरिएट्स एनालिसिस भी कहा जाता है, क्रॉस-सहप्रसरण मैट्रिक्स | क्रॉस-कॉन्वर्सियन मैट्रिसेस से जानकारी का अनुमान लगाने का एक तरीका है। यदि हमारे पास दो सदिश X = (X1, ..., एक्सn) और वाई = (वाई1, ..., औरm) यादृच्छिक चर के हैं, और चर के बीच सहसंबंध हैं, तो विहित-सहसंबंध विश्लेषण एक्स और वाई के रैखिक संयोजनों को खोजेगा जो एक दूसरे के साथ अधिकतम सहसंबंध रखते हैं। टी. आर. कन्नप ने नोट किया कि महत्व के सामान्य रूप से सामने आने वाले सभी पैरामीट्रिक आंकड़ों को विहित-सहसंबंध विश्लेषण के विशेष मामलों के रूप में माना जा सकता है, जो चर के दो सेटों के बीच संबंधों की जांच करने की सामान्य प्रक्रिया है। 1936 में हेरोल्ड होटलिंग द्वारा पहली बार इस पद्धति की शुरुआत की गई थी। हालांकि फ्लैटों के बीच के कोणों के संदर्भ में गणितीय अवधारणा जॉर्डन द्वारा 1875 में प्रकाशित की गई थी।

परिभाषा
दो कॉलम वैक्टर दिए गए हैं $$X = (x_1, \dots, x_n)^T$$ और $$Y = (y_1, \dots, y_m)^T$$ विक्ट के साथ रैंडम वेरिएबल्स की संख्या: परिमित दूसरे क्षण, कोई क्रॉस सहप्रसरण को परिभाषित कर सकता है $$\Sigma _{XY} = \operatorname{cov}(X, Y) $$ होना के लिए $$ n \times m$$ मैट्रिक्स (गणित) जिसका $$(i, j)$$ प्रवेश सहप्रसरण है $$\operatorname{cov}(x_i, y_j)$$. व्यवहार में, हम नमूने के डेटा के आधार पर सहप्रसरण मैट्रिक्स का अनुमान लगाएंगे $$X$$ और $$Y$$ (यानी डेटा मैट्रिसेस की एक जोड़ी से)।

कैननिकल-सहसंबंध विश्लेषण सदिशों की तलाश करता है $$a$$ ($$a \in\mathbb R^n$$) और $$b$$ ($$b \in\mathbb R^m$$) जैसे कि यादृच्छिक चर $$a^T X$$ और $$b^T Y$$ सहसंबंध को अधिकतम करें $$\rho = \operatorname{corr}(a^T X, b^T Y)$$. (अदिश) यादृच्छिक चर $$U = a^T X$$ और $$V = b^T Y$$ कैनोनिकल वेरिएबल्स की पहली जोड़ी हैं। फिर एक समान सहसंबंध विषय को अधिकतम करने वाले वैक्टर की तलाश करता है जो कि विहित चर की पहली जोड़ी के साथ असंबद्ध होना है; यह कैनोनिकल वेरिएबल्स की दूसरी जोड़ी देता है। तक यह प्रक्रिया जारी रखी जा सकती है $$\min\{m,n\}$$ बार।


 * $$(a',b') = \underset{a,b}\operatorname{argmax} \operatorname{corr}(a^T X, b^T Y)$$

व्युत्पत्ति
होने देना $$\Sigma _{XY}$$ (वेक्टर-आकार) यादृच्छिक चर की किसी भी जोड़ी के लिए क्रॉस-सहप्रसरण मैट्रिक्स बनें $$X$$ और $$Y$$. अधिकतम करने के लिए लक्ष्य कार्य है



\rho = \frac{a^T \Sigma _{XY} b}{\sqrt{a^T \Sigma _{XX} a} \sqrt{b^T \Sigma _{YY} b}}. $$ पहला कदम आधार के परिवर्तन को परिभाषित करना और परिभाषित करना है



c = \Sigma _{XX} ^{1/2} a, $$

d = \Sigma _{YY} ^{1/2} b. $$ और इस प्रकार हमारे पास है



\rho = \frac{c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} d}{\sqrt{c^Tc} \sqrt{d^Td}}. $$ कॉची-श्वार्ज असमानता द्वारा, हमारे पास है



\left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \right)  (d)  \leq \left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \Sigma _{YY} ^{-1/2} \Sigma _{YX} \Sigma _{XX} ^{-1/2} c \right)^{1/2} \left(d^T d \right)^{1/2}, $$

\rho \leq \frac{\left(c^T \Sigma _{XX}^{-1/2} \Sigma _{XY} \Sigma _{YY}^{-1} \Sigma _{YX} \Sigma_{XX}^{-1/2} c \right)^{1/2}}{\left(c^T c \right)^{1/2}}. $$ वैक्टर अगर समानता है $$d$$ और $$\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c$$ संरेख हैं। इसके अलावा, यदि अधिकतम सहसंबंध प्राप्त किया जाता है $$c$$ मैट्रिक्स के लिए अधिकतम eigenvalue वाला eigenvector है $$\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}$$ (देखें रेले भागफल)। घटते हुए परिमाण के eigenvalues ​​​​का उपयोग करके बाद के जोड़े पाए जाते हैं। ऑर्थोगोनलिटी की गारंटी सहसंबंध मैट्रिसेस की समरूपता द्वारा दी जाती है।

इस संगणना को देखने का दूसरा तरीका यह है $$c$$ और $$d$$ एक्स और वाई के सहसंबंध मैट्रिक्स के बाएं और दाएं एकवचन मूल्य अपघटन हैं जो उच्चतम एकवचन मूल्य के अनुरूप हैं।

समाधान
समाधान इसलिए है: पारस्परिक रूप से, वहाँ भी है: निर्देशांक के परिवर्तन को उलटने पर, हमारे पास वह है
 * $$c$$ का आइजनवेक्टर है $$\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}$$
 * $$d$$ के लिए आनुपातिक है $$\Sigma _{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c$$
 * $$d$$ का आइजनवेक्टर है $$\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1/2}$$
 * $$c$$ के लिए आनुपातिक है $$\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2} d$$
 * $$a$$ का आइजनवेक्टर है $$\Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX}$$,
 * $$b$$ के लिए आनुपातिक है $$\Sigma_{YY}^{-1} \Sigma_{YX} a;$$
 * $$b$$ का आइजनवेक्टर है $$\Sigma _{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY},$$
 * $$a$$ के लिए आनुपातिक है $$\Sigma_{XX}^{-1} \Sigma_{XY} b$$.

विहित चर द्वारा परिभाषित किया गया है:


 * $$U = c^T \Sigma_{XX}^{-1/2} X = a^T X$$
 * $$V = d^T \Sigma_{YY}^{-1/2} Y = b^T Y$$

कार्यान्वयन
सीसीए की गणना सहसंबंध मैट्रिक्स पर एकवचन मूल्य अपघटन का उपयोग करके की जा सकती है। यह एक समारोह के रूप में उपलब्ध है MultivariateStats.jl पैकेज में *जूलिया (प्रोग्रामिंग भाषा)।
 * MATLAB canoncorr के रूप में (एम भी जीएनयू ऑक्टेव में)
 * आर (प्रोग्रामिंग भाषा) मानक फ़ंक्शन के रूप में cancor और कई अन्य पैकेज, जिनमें [https:/ /cran.r-project.org/web/packages/CCA/index.html CCA] और शाकाहारी। CCP प्रामाणिक सहसंबंध विश्लेषण में सांख्यिकीय परिकल्पना परीक्षण के लिए।
 * SAS भाषा के रूप में proc cancorr
 * पुस्तकालय में पायथन (प्रोग्रामिंग भाषा), स्किकिट-लर्न, ].org/stable/modules/cross_decomposition.html क्रॉस अपघटन] के रूप में और राज्य मॉडल  में,  के रूप में /जेनरेट/स्टैट्समॉडल्स.मल्टीवेरिएट.कैनकोर.कैनकोर कैनकोर]।
 * एसपीएसएस मैक्रो कैनकोर के रूप में मुख्य सॉफ्टवेयर के साथ भेज दिया गया

एक सहसंबंध मैट्रिक्स पर एकवचन मूल्य अपघटन का उपयोग कर सीसीए गणना फ्लैटों के बीच के कोणों के कोज्या  से संबंधित है। कोसाइन फ़ंक्शन छोटे कोणों के लिए खराब स्थिति में है, जिससे परिमित परिशुद्धता (कंप्यूटर विज्ञान) कंप्यूटर अंकगणित में अत्यधिक सहसंबद्ध प्रिंसिपल वैक्टर की बहुत गलत गणना होती है। Angles_between_flats#गणना के लिए, वैकल्पिक एल्गोरिदम में उपलब्ध हैं


 * SciPy as रैखिक-बीजगणित फ़ंक्शन subspace_angles
 * MATLAB FileExchange function subspacea के रूप में

परिकल्पना परीक्षण
प्रत्येक पंक्ति को निम्नलिखित विधि से महत्व के लिए परखा जा सकता है। चूँकि सहसंबंधों को यह कहते हुए क्रमबद्ध किया जाता है कि row $$i$$ शून्य होने का तात्पर्य है कि आगे के सभी सहसंबंध भी शून्य हैं। अगर हमारे पास है $$p$$ एक नमूने में स्वतंत्र अवलोकन और $$\widehat{\rho}_i$$ के लिए अनुमानित सहसंबंध है $$i = 1,\dots, \min\{m,n\}$$. के लिए $$i$$वीं पंक्ति, परीक्षण आँकड़ा है:


 * $$\chi^2 = - \left( p - 1 - \frac{1}{2}(m + n + 1)\right) \ln \prod_{j = i}^{\min\{m,n\}} (1 - \widehat{\rho}_j^2),$$

जो असम्बद्ध रूप से ची-वर्ग वितरण|ची-वर्ग के साथ वितरित किया जाता है $$(m - i + 1)(n - i + 1)$$ बड़े पैमाने पर स्वतंत्रता (सांख्यिकी) की डिग्री $$p$$. चूंकि सभी सहसंबंध $$ \min\{m,n\}$$ को $$p$$ तार्किक रूप से शून्य हैं (और उस तरह से भी अनुमान लगाया गया है) इस बिंदु के बाद की शर्तों के लिए उत्पाद अप्रासंगिक है।

ध्यान दें कि छोटे नमूने के आकार की सीमा में $$p < n + m$$ तब हमें गारंटी दी जाती है कि top $$m + n - p$$ सहसंबंध समान रूप से 1 होंगे और इसलिए परीक्षण अर्थहीन है।

व्यावहारिक उपयोग
प्रायोगिक संदर्भ में विहित सहसंबंध के लिए एक विशिष्ट उपयोग चर के दो सेट लेना है और देखना है कि दो सेटों में क्या सामान्य है। उदाहरण के लिए, मनोवैज्ञानिक परीक्षण में, दो सुस्थापित बहुआयामी व्यक्तित्व परीक्षण जैसे कि मिनेसोटा मल्टीफेसिक पर्सनैलिटी इन्वेंटरी (MMPI-2) और मनोविक्षुब्धता एक्सट्रोवर्शन ओपननेस पर्सनैलिटी इन्वेंटरी ले सकता है। यह देखकर कि एमएमपीआई-2 कारक एनईओ कारकों से कैसे संबंधित हैं, कोई व्यक्ति इस बात की जानकारी प्राप्त कर सकता है कि परीक्षणों के बीच कौन से आयाम सामान्य थे और कितना अंतर साझा किया गया था। उदाहरण के लिए, कोई यह पा सकता है कि बहिर्मुखता और अंतर्मुखता या विक्षिप्तता आयाम दो परीक्षणों के बीच पर्याप्त मात्रा में साझा भिन्नता के लिए जिम्मेदार है।

कोई मॉडल समीकरण बनाने के लिए विहित-सहसंबंध विश्लेषण का भी उपयोग कर सकता है जो चर के दो सेटों से संबंधित है, उदाहरण के लिए प्रदर्शन उपायों का एक सेट और व्याख्यात्मक चर का एक सेट, या आउटपुट का एक सेट और इनपुट का सेट। इस तरह के मॉडल पर प्रतिबंध प्रतिबंध लगाया जा सकता है ताकि यह सुनिश्चित हो सके कि यह सैद्धांतिक आवश्यकताओं या सहज रूप से स्पष्ट स्थितियों को दर्शाता है। इस प्रकार के मॉडल को अधिकतम सहसंबंध मॉडल के रूप में जाना जाता है। कैनोनिकल सहसंबंध के परिणामों का विज़ुअलाइज़ेशन आमतौर पर महत्वपूर्ण सहसंबंध दिखाने वाले कैनोनिकल वेरिएंट के जोड़े के लिए चर के दो सेटों के गुणांक के बार प्लॉट के माध्यम से होता है। कुछ लेखकों का सुझाव है कि उन्हें हेलीओग्राफ के रूप में प्लॉट करके सबसे अच्छी तरह से देखा जाता है, एक गोलाकार प्रारूप जिसमें किरण जैसी बार होती है, जिसमें प्रत्येक आधा चर के दो सेटों का प्रतिनिधित्व करता है।

उदाहरण
होने देना $$X = x_1$$ शून्य अपेक्षित मान के साथ, अर्थात, $$\operatorname{E}(X)=0$$.


 * 1) अगर $$Y = X$$, अर्थात।, $$X$$ और $$Y$$ पूरी तरह से सहसंबद्ध हैं, तो, उदाहरण के लिए, $$a=1$$ और $$b=1$$, ताकि पहली (और केवल इस उदाहरण में) विहित चरों की जोड़ी है $$U = X$$ और $$V = Y =X$$.
 * 2) अगर $$Y = -X$$, अर्थात।, $$X$$ और $$Y$$ पूरी तरह से परस्पर विरोधी हैं, तो, उदाहरण के लिए, $$a=1$$ और $$b=-1$$, ताकि पहली (और केवल इस उदाहरण में) विहित चरों की जोड़ी है $$U = X$$ और $$V = -Y =X$$.

हम देखते हैं कि दोनों मामलों में $$U =V$$, जो दर्शाता है कि विहित-सहसंबंध विश्लेषण सहसंबद्ध और प्रतिसहसंबद्ध चरों को समान रूप से व्यवहार करता है।

प्रमुख कोणों से संबंध
ये मानते हुए $$X = (x_1, \dots, x_n)^T$$ और $$Y = (y_1, \dots, y_m)^T$$ शून्य अपेक्षित मान हैं, अर्थात, $$\operatorname{E}(X)=\operatorname{E}(Y)=0$$, उनके सहप्रसरण मेट्रिसेस $$\Sigma _{XX} =\operatorname{Cov}(X,X) = \operatorname{E}[X X^T]$$ और $$\Sigma _{YY} =\operatorname{Cov}(Y,Y) = \operatorname{E}[Y Y^T]$$ की प्रविष्टियों के लिए एक आंतरिक उत्पाद में ग्राम मैट्रिक्स के रूप में देखा जा सकता है $$X$$ और $$Y$$, तदनुसार। इस व्याख्या में, यादृच्छिक चर, प्रविष्टियाँ $$x_i$$ का  $$X$$ और $$y_j$$ का $$Y$$ कोवैरियंस द्वारा दिए गए आंतरिक उत्पाद के साथ वेक्टर स्पेस के तत्वों के रूप में माना जाता है $$\operatorname{cov}(x_i, y_j)$$; कोवैरियंस#रिलेशनशिप टू इनर प्रोडक्ट्स देखें।

विहित चर की परिभाषा $$U$$ और $$V$$ तब की प्रविष्टियों द्वारा फैलाए गए उपस्थानों की जोड़ी के लिए प्रमुख कोणों की परिभाषा के बराबर है $$X$$ और $$Y$$ इस आंतरिक उत्पाद के संबंध में। विहित सहसंबंध $$\operatorname{corr}(U,V)$$ प्रमुख कोणों के कोसाइन के बराबर है।

श्वेतकरण और संभाव्य विहित सहसंबंध विश्लेषण
CCA को एक विशेष श्वेत परिवर्तन के रूप में भी देखा जा सकता है जहाँ यादृच्छिक वैक्टर $$X$$ और $$Y$$ एक साथ इस तरह से रूपांतरित होते हैं कि श्वेत सदिशों के बीच क्रॉस-सहसंबंध $$X^{CCA}$$ और $$Y^{CCA}$$ विकर्ण है। फिर विहित सहसंबंधों की व्याख्या प्रतिगमन गुणांक जोड़ने के रूप में की जाती है $$X^{CCA}$$ और $$Y^{CCA}$$ और नकारात्मक भी हो सकता है। CCA का प्रतिगमन दृश्य साझा और गैर-साझा परिवर्तनशीलता का प्रतिनिधित्व करने वाले असंबद्ध छिपे हुए चर के साथ CCA के लिए एक अव्यक्त चर संभाव्य जनरेटिव मॉडल के निर्माण का एक तरीका भी प्रदान करता है।

यह भी देखें

 * सामान्यीकृत विहित सहसंबंध
 * आरवी गुणांक
 * फ्लैटों के बीच का कोण
 * प्रमुख कंपोनेंट विश्लेषण
 * रैखिक विभेदक विश्लेषण
 * नियमित विहित सहसंबंध विश्लेषण
 * विलक्षण मान अपघटन
 * आंशिक न्यूनतम वर्ग प्रतिगमन

बाहरी संबंध

 * Discriminant Correlation Analysis (DCA) (MATLAB)
 * A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Also provides a FORTRAN program)- in Journal of Quantitative Economics 7(2), 2009, pp. 173–199
 * Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in Journal of Applied Economic Sciences 4(1), 2009, pp. 115–124
 * Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in Journal of Applied Economic Sciences 4(1), 2009, pp. 115–124