पियर्सन सहसंबंध गुणांक

आँकड़ों में, पियर्सन सहसंबंध गुणांक (PCC, उच्चारित ) - पियर्सन के आर के रूप में भी जाना जाता है, पियर्सन उत्पाद-आघूर्ण सहसंबंध गुणांक (पीपीएमसीसी), द्विभाजित सहसंबंध, या बोलचाल की भाषा में केवल सहसंबंध गुणांक के रूप में - डेटा के दो सेटों के बीच रैखिक सहसंबंध और निर्भरता का एक उपाय है। यह दो चरों के सहप्रसरण और उनके मानक विचलनों के गुणनफल के बीच का अनुपात है; इस प्रकार, यह अनिवार्य रूप से सहप्रसरण का एक सामान्यीकृत माप है, जैसे कि परिणाम में हमेशा -1 और 1 के बीच का मान होता है। जैसा कि स्वयं सहप्रसरण के साथ होता है, माप केवल चरों के एक रैखिक सहसंबंध को प्रतिबिंबित कर सकता है, और कई अन्य प्रकार के संबंधों को अनदेखा कर सकता है या सहसंबंध। एक साधारण उदाहरण के रूप में, एक हाई स्कूल के किशोरों के नमूने की उम्र और ऊंचाई की अपेक्षा करेगा कि पियर्सन सहसंबंध गुणांक 0 से काफी अधिक है, लेकिन 1 से कम (1 के रूप में एक अवास्तविक रूप से पूर्ण सहसंबंध का प्रतिनिधित्व करेगा)।



नामकरण और इतिहास
यह 1880 के दशक में फ्रांसिस गैल्टन द्वारा पेश किए गए एक संबंधित विचार से कार्ल पियर्सन द्वारा विकसित किया गया था, और जिसके लिए गणितीय सूत्र 1844 में अगस्टे ब्रावाइस द्वारा व्युत्पन्न और प्रकाशित किया गया था।   इस प्रकार गुणांक का नामकरण स्टिग्लर के नियम का एक उदाहरण है।

परिभाषा
पियर्सन का सहसंबंध गुणांक उनके मानक विचलन के उत्पाद द्वारा विभाजित दो चर का सहप्रसरण है। परिभाषा के रूप में एक उत्पाद क्षण शामिल होता है, अर्थात, माध्य-समायोजित यादृच्छिक चर के उत्पाद का माध्य (मूल के बारे में पहला क्षण (गणित)); इसलिए नाम में संशोधक उत्पाद-क्षण।

आबादी के लिए
पियर्सन का सहसंबंध गुणांक, जब एक सांख्यिकीय जनसंख्या पर लागू किया जाता है, आमतौर पर ग्रीक अक्षर ρ (rho) द्वारा दर्शाया जाता है और इसे जनसंख्या सहसंबंध गुणांक या जनसंख्या पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। यादृच्छिक चर की एक जोड़ी को देखते हुए $$(X,Y)$$, ρ के लिए सूत्र है

$$ \rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}$$ कहाँ
 * $$ \operatorname{cov} $$ सहप्रसरण है
 * $$ \sigma_X $$ का मानक विचलन है $$ X $$
 * $$ \sigma_Y $$ का मानक विचलन है $$ Y $$.

के लिए सूत्र $$\rho$$ माध्य और अपेक्षा के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\operatorname{cov}(X,Y) = \operatorname\mathbb{E}[(X-\mu_X)(Y-\mu_Y)],$$

के लिए सूत्र $$\rho$$ रूप में भी लिखा जा सकता है

$$ \rho_{X,Y} = \frac{\operatorname\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}$$ कहाँ
 * $$ \sigma_Y $$ और $$ \sigma_X $$ ऊपर के रूप में परिभाषित किया गया है
 * $$ \mu_X $$ का माध्यम है $$ X $$
 * $$ \mu_Y $$ का माध्यम है $$ Y $$
 * $$ \operatorname\mathbb{E} $$ अपेक्षित मूल्य है।

के लिए सूत्र $$\rho$$ अकेंद्रित क्षणों के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\begin{align}

\mu_X ={} &\operatorname\mathbb{E}[\,X\,] \\ \mu_Y ={} &\operatorname\mathbb{E}[\,Y\,] \\ \sigma_X^2 ={} &\operatorname\mathbb{E}\left[\,\left(X - \operatorname\mathbb{E}[X]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,]\right)^2 \\ \sigma_Y^2 ={} &\operatorname\mathbb{E}\left[\,\left(Y - \operatorname\mathbb{E}[Y]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\,\operatorname\mathbb{E}[\,Y\,]\right)^2 \\ &\operatorname\mathbb{E}[\,\left(X - \mu_X\right)\left(Y - \mu_Y\right)\,] = \operatorname\mathbb{E}[\,\left(X - \operatorname\mathbb{E}[\,X\,]\right)\left(Y - \operatorname\mathbb{E}[\,Y\,]\right)\,] = \operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,] \,, \end{align}$$ के लिए सूत्र $$\rho$$ रूप में भी लिखा जा सकता है $$\rho_{X,Y} = \frac{\operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,]}{\sqrt{\operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,] \right)^2} ~ \sqrt{\operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\operatorname\mathbb{E}[\,Y\,] \right)^2}}.$$ पियर्सन का सहसंबंध गुणांक तब भी मौजूद नहीं होता है $$ \sigma_X $$ या $$ \sigma_Y $$ शून्य, अनंत या अपरिभाषित हैं।

एक नमूने के लिए
पियर्सन का सहसंबंध गुणांक, जब एक नमूने (सांख्यिकी) पर लागू किया जाता है, आमतौर पर द्वारा दर्शाया जाता है $$r_{xy}$$ और इसे नमूना सहसंबंध गुणांक या नमूना पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। का सूत्र प्राप्त कर सकते हैं $$r_{xy}$$ उपरोक्त सूत्र में एक नमूने के आधार पर सहप्रसरण और भिन्नता के अनुमानों को प्रतिस्थापित करके। युग्मित डेटा दिया गया $$\left\{ (x_1,y_1),\ldots,(x_n,y_n) \right\}$$ को मिलाकर $$n$$ जोड़े, $$r_{xy}$$ परिभाषित किया जाता है

$$r_{xy} =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}}$$ कहाँ
 * $$n$$ नमूना आकार है
 * $$x_i, y_i$$ i के साथ अनुक्रमित व्यक्तिगत नमूना बिंदु हैं
 * $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ (नमूना मतलब); और इसी के लिए $$\bar{y}$$.

पुनर्व्यवस्थित करने से हमें यह सूत्र मिलता है $$r_{xy}$$:


 * $$r_{xy} = \frac{n\sum x_i y_i - \sum x_i\sum y_i}

{\sqrt{n\sum x_i^2-\left(\sum x_i\right)^2}~\sqrt{n\sum y_i^2-\left(\sum y_i\right)^2}}.$$ कहाँ $$n, x_i, y_i$$ ऊपर के रूप में परिभाषित किया गया है।

यह सूत्र नमूना सहसंबंधों की गणना के लिए एक सुविधाजनक एकल-पास एल्गोरिथ्म का सुझाव देता है, हालांकि शामिल संख्याओं के आधार पर, यह कभी-कभी संख्यात्मक स्थिरता हो सकती है।

पुनर्व्यवस्थित करने से हमें यह मिलता है के लिए सूत्र $$r_{xy}$$:


 * $$r_{xy} = \frac{\sum_i x_i y_i-n\bar{x}\bar{y}}

{\sqrt{\sum_i x_i^2-n\bar{x}^2}~\sqrt{\sum_i y_i^2-n\bar{y}^2}}.$$ कहाँ $$n, x_i, y_i, \bar{x}, \bar{y}$$ ऊपर के रूप में परिभाषित किया गया है।

एक समतुल्य अभिव्यक्ति के लिए सूत्र देता है $$r_{xy}$$ निम्नानुसार मानक स्कोर के उत्पादों के माध्यम के रूप में:


 * $$r_{xy} = \frac{1}{n-1} \sum ^n _{i=1} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)$$

कहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ ऊपर के रूप में परिभाषित किया गया है, और $$s_x, s_y$$ नीचे परिभाषित किया गया है
 * $\left( \frac{x_i - \bar{x}}{s_x} \right)$ मानक स्कोर है (और समान रूप से के मानक स्कोर के लिए $$y$$).

के लिए वैकल्पिक सूत्र $$r_{xy}$$ भी उपलब्ध हैं। उदाहरण के लिए, कोई निम्न सूत्र का उपयोग कर सकता है $$r_{xy}$$:


 * $$r_{xy} =\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}$$

कहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ ऊपर के रूप में परिभाषित किया गया है और:
 * $s_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$ (नमूना मानक विचलन); और इसी के लिए $$s_y$$.

व्यावहारिक मुद्दे
भारी शोर की स्थिति के तहत, यादृच्छिक चर के दो सेटों के बीच सहसंबंध गुणांक को निकालना गैर-तुच्छ है, विशेष रूप से जहां कैनोनिकल सहसंबंध विश्लेषण भारी शोर योगदान के कारण सहसंबंध मूल्यों को कम करता है। दृष्टिकोण का एक सामान्यीकरण अन्यत्र दिया गया है। लापता डेटा के मामले में, गैरेन ने अधिकतम संभावना अनुमानक निकाला। कुछ वितरण (उदाहरण के लिए, सामान्य वितरण के अलावा स्थिर वितरण) में परिभाषित भिन्नता नहीं होती है।

गणितीय गुण
नमूना और आबादी दोनों के मान पियर्सन सहसंबंध गुणांक −1 और 1 के बीच या बीच में हैं। द्विभाजित वितरण पूरी तरह से एक रेखा पर समर्थित है (जनसंख्या सहसंबंध के मामले में)। पियर्सन सहसंबंध गुणांक सममित है: corr(X,Y) = corr(Y,X).

पियर्सन सहसंबंध गुणांक की एक प्रमुख गणितीय संपत्ति यह है कि यह दो चरों में स्थान और पैमाने में अलग-अलग परिवर्तनों के तहत अपरिवर्तनीय अनुमानक है। अर्थात्, हम X को रूपांतरित कर सकते हैं $a + bX$ और वाई को रूपांतरित करें $c + dY$, जहां a, b, c और d स्थिरांक हैं $b, d > 0$, सहसंबंध गुणांक को बदले बिना। (यह जनसंख्या और नमूना पियर्सन सहसंबंध गुणांक दोनों के लिए है।) अधिक सामान्य रैखिक परिवर्तन सहसंबंध को बदलते हैं: देखें इसके एक आवेदन के लिए।

व्याख्या
सहसंबंध गुणांक -1 से 1 तक होता है। ठीक 1 का एक निरपेक्ष मान दर्शाता है कि एक रैखिक समीकरण X और Y के बीच संबंध का पूरी तरह से वर्णन करता है, जिसमें सभी डेटा बिंदु एक रेखा (गणित) पर होते हैं। सहसंबंध चिह्न प्रतिगमन ढलान द्वारा निर्धारित किया जाता है: +1 के मान का अर्थ है कि सभी डेटा बिंदु एक रेखा पर स्थित हैं जिसके लिए Y बढ़ता है क्योंकि X बढ़ता है, और इसके विपरीत -1 के लिए। 0 के मान का तात्पर्य है कि चरों के बीच कोई रैखिक निर्भरता नहीं है। आम तौर पर अधिक, $(X_{i} − \overline{X})(Y_{i} − \overline{Y})$ धनात्मक है यदि और केवल यदि Xi और वाईi उनके संबंधित साधनों के एक ही तरफ झूठ बोलते हैं। इस प्रकार सहसंबंध गुणांक धनात्मक होता है यदि Xi और वाईi साथ-साथ अपने-अपने साधनों से अधिक या एक साथ कम होने की प्रवृत्ति रखते हैं। सहसंबंध गुणांक ऋणात्मक (सहसंबंध विरोधी) है यदि Xi और वाईi अपने-अपने साधनों के विपरीत दिशा में झूठ बोलने की प्रवृत्ति रखते हैं। इसके अलावा, या तो प्रवृत्ति जितनी मजबूत होती है, सहसंबंध गुणांक का निरपेक्ष मान उतना ही बड़ा होता है।

रोजर्स और नाइसवेंडर सहसंबंध या इसके सरल कार्यों की व्याख्या करने के तेरह तरीकों को सूचीबद्ध किया गया है:
 * कच्चे स्कोर और साधनों का कार्य
 * मानकीकृत सहप्रसरण
 * प्रतिगमन रेखा का मानकीकृत ढलान
 * दो प्रतिगमन ढलानों का ज्यामितीय माध्य
 * दो भिन्नताओं के अनुपात का वर्गमूल
 * मानकीकृत चरों का माध्य क्रॉस-उत्पाद
 * दो मानकीकृत प्रतिगमन लाइनों के बीच कोण का कार्य
 * दो चर वैक्टर के बीच कोण का कार्य
 * मानकीकृत अंकों के बीच अंतर का पुन: स्केल किया गया विचरण
 * बैलून नियम से अनुमानित
 * सम-सांद्रता के द्विभाजित दीर्घवृत्त से संबंधित
 * डिज़ाइन किए गए प्रयोगों से परीक्षण आँकड़ों का कार्य
 * दो का अनुपात मतलब

ज्यामितीय व्याख्या
अकेंद्रित डेटा के लिए, सहसंबंध गुणांक और कोण φ के बीच दो प्रतिगमन रेखाओं के बीच एक संबंध होता है, y = gX(x) और x = gY(y), क्रमशः y पर x और x पर y को पुनः प्राप्त करके प्राप्त किया। (यहाँ, φ को लाइनों के प्रतिच्छेदन बिंदु के चारों ओर बने पहले चतुर्थांश के भीतर वामावर्त मापा जाता है $y = g_{X}(x)$, या चौथे से दूसरे चतुर्थांश तक वामावर्त यदि r < 0.) कोई दिखा सकता है कि यदि मानक विचलन समान हैं, तब r = sec φ − tan φ, जहाँ sec और tan त्रिकोणमितीय फलन हैं।

केंद्रित डेटा के लिए (यानी, डेटा जो उनके संबंधित चर के नमूना माध्यम से स्थानांतरित कर दिया गया है ताकि प्रत्येक चर के लिए औसत शून्य हो), सहसंबंध गुणांक को कोण θ के कोज्या  के रूप में भी देखा जा सकता है। एन-डायमेंशनल स्पेस में वेक्टर (ज्यामिति) (प्रत्येक चर के एन अवलोकनों के लिए) किसी डेटासेट के लिए अकेंद्रित (गैर-पियर्सन-अनुपालन) और केंद्रित सहसंबंध गुणांक दोनों निर्धारित किए जा सकते हैं। एक उदाहरण के रूप में, मान लीजिए कि पाँच देशों में क्रमशः 1, 2, 3, 5 और 8 बिलियन डॉलर के सकल राष्ट्रीय उत्पाद पाए जाते हैं। मान लीजिए इन्हीं पांच देशों में (इसी क्रम में) 11%, 12%, 13%, 15% और 18% गरीबी पाई जाती है। फिर एक्स और वाई को उपरोक्त डेटा वाले 5-तत्व वैक्टर का आदेश दें: x = (1, 2, 3, 5, 8) और y = (0.11, 0.12, 0.13, 0.15, 0.18).

दो सदिशों (डॉट उत्पाद देखें) के बीच कोण θ खोजने की सामान्य प्रक्रिया के अनुसार, अकेंद्रित सहसंबंध गुणांक है


 * $$ \cos \theta = \frac { \mathbf{x} \cdot \mathbf{y} } { \left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {2.93} { \sqrt{103} \sqrt{0.0983} } = 0.920814711. $$

यह अकेंद्रित सहसंबंध गुणांक कोसाइन समानता के समान है। उपरोक्त डेटा को जानबूझकर पूरी तरह से सहसंबद्ध होने के लिए चुना गया था: $x = g_{Y}(y)$. पियर्सन सहसंबंध गुणांक इसलिए बिल्कुल एक होना चाहिए। डेटा को केंद्रित करना (x द्वारा स्थानांतरित करना $r > 0$ और वाई द्वारा $y = 0.10 + 0.01 x$) उपज $ℰ(x) = 3.8$ और $ℰ(y) = 0.138$, किस से


 * $$ \cos \theta = \frac{\mathbf{x} \cdot \mathbf{y}} {\left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {0.308}{\sqrt{30.8}\sqrt{0.00308}} = 1 = \rho_{xy}, $$

आशा के अनुसार।

एक सहसंबंध के आकार की व्याख्या
कई लेखकों ने सहसंबंध गुणांक की व्याख्या के लिए दिशा-निर्देश दिए हैं। हालाँकि, ऐसे सभी मानदंड एक तरह से मनमाने हैं। सहसंबंध गुणांक की व्याख्या संदर्भ और उद्देश्यों पर निर्भर करती है। 0.8 का सहसंबंध बहुत कम हो सकता है यदि कोई उच्च गुणवत्ता वाले उपकरणों का उपयोग करके भौतिक कानून की पुष्टि कर रहा है, लेकिन सामाजिक विज्ञानों में इसे बहुत अधिक माना जा सकता है, जहां जटिल कारकों से अधिक योगदान हो सकता है।

निष्कर्ष
पियर्सन के सहसंबंध गुणांक पर आधारित सांख्यिकीय निष्कर्ष अक्सर निम्नलिखित दो उद्देश्यों में से एक पर केंद्रित होता है: हम नीचे इनमें से एक या दोनों लक्ष्यों को प्राप्त करने के तरीकों पर चर्चा करते हैं।
 * एक उद्देश्य शून्य परिकल्पना का परीक्षण करना है कि सही सहसंबंध गुणांक ρ 0 के बराबर है, जो नमूना सहसंबंध गुणांक r के मान पर आधारित है।
 * दूसरा उद्देश्य एक विश्वास अंतराल प्राप्त करना है, जिसमें बार-बार नमूने लेने पर, ρ होने की एक दी गई संभावना है।

एक क्रमचय परीक्षण
का उपयोग करना क्रमचय परीक्षण परिकल्पना परीक्षण करने और विश्वास अंतराल के निर्माण के लिए एक सीधा दृष्टिकोण प्रदान करते हैं। पियर्सन के सहसंबंध गुणांक के लिए एक क्रमचय परीक्षण में निम्नलिखित दो चरण शामिल हैं: क्रमचय परीक्षण करने के लिए, चरणों (1) और (2) को बड़ी संख्या में दोहराएं। क्रमचय परीक्षण के लिए p-मान, चरण (2) में उत्पन्न r मानों का अनुपात है जो मूल डेटा से परिकलित पियर्सन सहसंबंध गुणांक से बड़ा है। यहां बड़े का मतलब या तो यह हो सकता है कि मूल्य परिमाण में बड़ा है, या हस्ताक्षरित मूल्य में बड़ा है, यह इस बात पर निर्भर करता है कि दो-पूंछ वाला परीक्षण | दो-तरफा या दो-पूंछ वाला परीक्षण | एक-तरफा परीक्षण वांछित है।
 * 1) मूल युग्मित डेटा का उपयोग करना (xi, औरi), एक नया डेटा सेट बनाने के लिए बेतरतीब ढंग से जोड़े को फिर से परिभाषित करें (xi, औरi&prime;), जहां i' समुच्चय {1,...,n} का क्रमचय है। क्रमचय i' को यादृच्छिक रूप से चुना जाता है, सभी n पर समान संभावनाएँ रखी जाती हैं! संभावित क्रमपरिवर्तन। यह सेट {1, ..., n} से प्रतिस्थापन के बिना i' को यादृच्छिक रूप से खींचने के बराबर है। बूटस्ट्रैपिंग (सांख्यिकी) में, एक निकट से संबंधित दृष्टिकोण, i और i' समान हैं और {1, ..., n} से प्रतिस्थापन के साथ तैयार किए गए हैं;
 * 2) यादृच्छिक डेटा से एक सहसंबंध गुणांक r का निर्माण करें।

बूटस्ट्रैप का उपयोग
बूटस्ट्रैपिंग (सांख्यिकी) का उपयोग पियर्सन के सहसंबंध गुणांक के लिए विश्वास अंतराल बनाने के लिए किया जा सकता है। गैर-पैरामीट्रिक बूटस्ट्रैप में, n जोड़े (xi, औरi) n जोड़े के देखे गए सेट से प्रतिस्थापन के साथ फिर से तैयार किया जाता है, और सहसंबंध गुणांक r की गणना पुन: नमूना डेटा के आधार पर की जाती है। इस प्रक्रिया को बड़ी संख्या में बार-बार दोहराया जाता है, और पुनरुत्पादित r मानों के अनुभवजन्य वितरण का उपयोग आँकड़ों के नमूनाकरण वितरण को अनुमानित करने के लिए किया जाता है। ρ के लिए 95% कॉन्फिडेंस इंटरवल को रीसैंपल किए गए r मानों के 2.5वें से 97.5वें प्रतिशतता  तक फैले अंतराल के रूप में परिभाषित किया जा सकता है।

मानक त्रुटि
अगर $$x$$ और $$y$$ यादृच्छिक चर हैं, अशक्त मामले में सहसंबंध से जुड़ी एक मानक त्रुटि है


 * $$\sigma_r = \sqrt{\frac{1-r^2}{n-2}}$$

कहाँ $$r$$ सहसंबंध है (मान लिया गया है कि आर≈0) और $$n$$ नमूना आकार।

विद्यार्थी के टी-वितरण का प्रयोग करके परीक्षण
एक असंबद्ध द्विभाजित सामान्य वितरण से जोड़े के लिए, छात्र के पियर्सन के सहसंबंध गुणांक का नमूना वितरण छात्र के टी-वितरण का अनुसरण करता है। स्वतंत्रता की डिग्री के साथ छात्र का टी-वितरण n − 2। विशेष रूप से, यदि अंतर्निहित चर में द्विभाजित सामान्य वितरण है, तो चर


 * $$t = \frac{r}{\sigma_r} = r\sqrt{\frac{n-2}{1 - r^2}}$$

एक छात्र का टी-वितरण शून्य स्थिति (शून्य सहसंबंध) में है। यदि नमूना आकार काफी बड़ा है तो गैर-सामान्य देखे गए मानों के मामले में यह लगभग रहता है। r के महत्वपूर्ण मानों को निर्धारित करने के लिए प्रतिलोम फलन की आवश्यकता होती है:


 * $$r = \frac{t}{\sqrt{n - 2 + t^2}}.$$

वैकल्पिक रूप से, बड़े नमूने, स्पर्शोन्मुख दृष्टिकोण का उपयोग किया जा सकता है।

एक और शुरुआती पेपर छोटे नमूना आकारों के लिए ρ के सामान्य मूल्यों के लिए ग्राफ और टेबल प्रदान करता है, और कम्प्यूटेशनल दृष्टिकोण पर चर्चा करता है।

ऐसे मामले में जहां अंतर्निहित चर सामान्य नहीं हैं, पियर्सन के सहसंबंध गुणांक का नमूना वितरण छात्र के टी-वितरण का अनुसरण करता है, लेकिन स्वतंत्रता की डिग्री कम हो जाती है।

सटीक वितरण का प्रयोग
द्विभाजित सामान्य वितरण का अनुसरण करने वाले डेटा के लिए, सामान्य द्विचर के नमूना सहसंबंध गुणांक r के लिए सटीक घनत्व फ़ंक्शन f(r) है
 * $$f(r) = \frac{(n - 2)\, \mathrm{\Gamma}(n - 1) \left(1 - \rho^2\right)^{\frac{n - 1}{2}} \left(1 - r^2\right)^{\frac{n - 4}{2}}}{\sqrt{2\pi}\, \operatorname{\Gamma}\mathord\left(n - \tfrac{1}{2}\right) (1 - \rho r)^{n - \frac{3}{2}}} {}_{2}\mathrm{F}_{1}\mathord\left(\tfrac{1}{2}, \tfrac{1}{2}; \tfrac{1}{2}(2n - 1); \tfrac{1}{2}(\rho r + 1)\right)$$

कहाँ $$\Gamma$$ गामा समारोह है और $${}_{2}\mathrm{F}_{1}(a,b;c;z)$$ हाइपरज्यामितीय कार्य है।

विशेष मामले में जब $$\rho = 0$$ (शून्य जनसंख्या सहसंबंध), सटीक घनत्व फ़ंक्शन f(r) के रूप में लिखा जा सकता है


 * $$f(r) = \frac{\left(1 - r^2\right)^{\frac{n - 4}{2}}}{\Beta\left(\tfrac{1}{2}, \tfrac{1}{2}(n - 2)\right)},$$

कहाँ $$\Beta$$ बीटा समारोह है, जो छात्र के टी-वितरण के घनत्व को लिखने का एक तरीका है, जैसा ऊपर बताया गया है।

सटीक कॉन्फ़िडेंस डिस्ट्रीब्यूशन का उपयोग करना
कॉन्फिडेंस इंटरवल और टेस्ट की गणना विश्वास वितरण  से की जा सकती है। ρ के लिए एक सटीक आत्मविश्वास घनत्व है

$$ \pi(\rho \mid r) = \frac{\nu(\nu - 1)\Gamma(\nu - 1)} {\sqrt{2\pi}\Gamma\left(\nu + \frac{1}{2}\right)} \left(1 - r^2\right)^{\frac{\nu - 1}{2}} \cdot \left(1 - \rho^2\right)^{\frac{\nu - 2}{2}} \cdot \left(1 - r \rho\right)^{\frac{1 - 2\nu}{2}} \operatorname{F}\left(\tfrac{3}{2}, -\tfrac{1}{2}; \nu + \tfrac{1}{2}; \tfrac{1 + r \rho}{2}\right) $$ कहाँ $$\operatorname{F}$$ गॉसियन हाइपरज्यामितीय फ़ंक्शन है और $$\nu = n - 1 > 1$$.

फिशर परिवर्तन का उपयोग
व्यवहार में, विश्वास अंतराल और ρ से संबंधित परिकल्पना परीक्षण आमतौर पर फिशर परिवर्तन का उपयोग करके किया जाता है, $$F$$:


 * $$F(r) \equiv \tfrac{1}{2} \, \ln \left(\frac{1 + r}{1 - r}\right) = \operatorname{artanh}(r)$$

एफ (आर) लगभग एक सामान्य वितरण का अनुसरण करता है


 * $$\text{mean} = F(\rho) = \operatorname{artanh}(\rho)$$    और मानक त्रुटि $$=\text{SE} = \frac{1}{\sqrt{n - 3}},$$

जहाँ n नमूना आकार है। बड़े नमूना आकार के लिए सन्निकटन त्रुटि सबसे कम है $$n$$ और छोटा $$r$$ और $$\rho_0$$ और अन्यथा बढ़ता है।

सन्निकटन का उपयोग करते हुए, एक मानक स्कोर | जेड-स्कोर है


 * $$z = \frac{x - \text{mean}}{\text{SE}} = [F(r) - F(\rho_0)]\sqrt{n - 3}$$

शून्य परिकल्पना के तहत कि $$\rho = \rho_0$$, यह मानते हुए कि नमूना जोड़े स्वतंत्र और समान रूप से वितरित हैं और द्विभाजित सामान्य वितरण का पालन करते हैं। इस प्रकार एक सामान्य प्रायिकता तालिका से एक अनुमानित पी-मान प्राप्त किया जा सकता है। उदाहरण के लिए, यदि z = 2.2 मनाया जाता है और एक दो-तरफा पी-मान शून्य परिकल्पना का परीक्षण करने के लिए वांछित है $$\rho = 0$$, पी-वैल्यू है 2&thinsp;Φ(−2.2) = 0.028, जहां Φ मानक सामान्य संचयी बंटन फलन है।

ρ के लिए एक विश्वास्यता अंतराल प्राप्त करने के लिए, हम पहले F( के लिए एक विश्वास्यता अंतराल की गणना करते हैं।$$\rho$$):


 * $$100(1 - \alpha)\%\text{CI}: \operatorname{artanh}(\rho) \in [\operatorname{artanh}(r) \pm z_{\alpha/2}\text{SE}]$$

व्युत्क्रम फिशर परिवर्तन अंतराल को सहसंबंध पैमाने पर वापस लाता है।


 * $$100(1 - \alpha)\%\text{CI}: \rho \in [\tanh(\operatorname{artanh}(r) - z_{\alpha/2}\text{SE}), \tanh(\operatorname{artanh}(r) + z_{\alpha/2}\text{SE})]$$

उदाहरण के लिए, मान लें कि हम r = 0.7 को n = 50 के नमूने के आकार के साथ देखते हैं, और हम ρ के लिए 95% विश्वास अंतराल प्राप्त करना चाहते हैं। रूपांतरित मान arctanh(r) = 0.8673 है, इसलिए रूपांतरित पैमाने पर विश्वास अंतराल 0.8673 ± 1.96/$\sqrt{47}$, या (0.5814, 1.1532)। कोरिलेशन स्केल यील्ड में वापस बदलने पर (0.5237, 0.8188) मिलता है।

कम से कम वर्गों में प्रतिगमन विश्लेषण
नमूना सहसंबंध गुणांक के वर्ग को आम तौर पर r निरूपित किया जाता है2 और दृढ़ संकल्प के गुणांक का एक विशेष मामला है। इस मामले में, यह वाई में भिन्नता के अंश का अनुमान लगाता है जिसे एक्स द्वारा सरल रैखिक प्रतिगमन में समझाया गया है। इसलिए यदि हमारे पास देखे गए डेटासेट हैं $$Y_1, \dots, Y_n$$ और फिट डेटासेट $$\hat Y_1, \dots , \hat Y_n$$ फिर एक प्रारंभिक बिंदु के रूप में Y में कुल भिन्नताi उनके औसत मूल्य को निम्नानुसार विघटित किया जा सकता है


 * $$\sum_i (Y_i - \bar{Y})^2 = \sum_i (Y_i-\hat{Y}_i)^2 + \sum_i (\hat{Y}_i-\bar{Y})^2,$$

जहां $$\hat{Y}_i$$ प्रतिगमन विश्लेषण से फिट किए गए मान हैं। इसे देने के लिए पुनर्व्यवस्थित किया जा सकता है


 * $$1 = \frac{\sum_i (Y_i-\hat{Y}_i)^2}{\sum_i (Y_i - \bar{Y})^2} + \frac{\sum_i (\hat{Y}_i-\bar{Y})^2}{\sum_i (Y_i - \bar{Y})^2}.$$

उपरोक्त दो सारांश Y में भिन्नता का अंश है जिसे X (दाएं) द्वारा समझाया गया है और जो X (बाएं) द्वारा अस्पष्टीकृत है।

अगला, हम कम से कम वर्ग प्रतिगमन मॉडल की एक संपत्ति लागू करते हैं, जो नमूना सहप्रसरण के बीच है $$\hat{Y}_i$$ और $$Y_i-\hat{Y}_i$$ शून्य है। इस प्रकार, प्रतिगमन में देखे गए और सज्जित प्रतिक्रिया मूल्यों के बीच नमूना सहसंबंध गुणांक लिखा जा सकता है (गणना अपेक्षा के अधीन है, गॉसियन सांख्यिकी मानती है)



\begin{align} r(Y,\hat{Y}) &= \frac{\sum_i(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{\sum_i(Y_i-\hat{Y}_i+\hat{Y}_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i [(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) +(\hat{Y}_i-\bar{Y})^2 ]}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i (\hat{Y}_i-\bar{Y})^2 }{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}. \end{align} $$ इस प्रकार


 * $$r(Y,\hat{Y})^2 = \frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}$$

कहाँ $$r(Y,\hat{Y})^2$$ X के एक रैखिक कार्य द्वारा समझाया गया Y में विचरण का अनुपात है।

उपरोक्त व्युत्पत्ति में, तथ्य यह है कि
 * $$\sum_i (Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) = 0$$

यह देख कर सिद्ध किया जा सकता है कि वर्गों के अवशिष्ट योग का आंशिक अवकलज ($x = (−2.8, −1.8, −0.8, 1.2, 4.2)$) β से अधिक0 और β1 कम से कम वर्ग मॉडल में 0 के बराबर हैं, जहां
 * $$\text{RSS} = \sum_i (Y_i - \hat{Y}_i)^2$$.

अंत में, समीकरण के रूप में लिखा जा सकता है


 * $$r(Y,\hat{Y})^2 = \frac{\text{SS}_\text{reg}}{\text{SS}_\text{tot}}$$

कहाँ प्रतीक $$\text{SS}_\text{reg}$$ वर्गों का प्रतिगमन योग कहा जाता है, जिसे वर्गों का समझाया योग भी कहा जाता है, और $$\text{SS}_\text{tot}$$ वर्गों का कुल योग है (डेटा के प्रसरण के समानुपाती)।
 * $$\text{SS}_\text{reg} = \sum_i (\hat{Y}_i-\bar{Y})^2$$
 * $$\text{SS}_\text{tot} = \sum_i (Y_i-\bar{Y})^2$$.

अस्तित्व
जनसंख्या पियर्सन सहसंबंध गुणांक क्षण (गणित) के संदर्भ में परिभाषित किया गया है, और इसलिए किसी भी द्विभाजित संभाव्यता वितरण के लिए मौजूद है जिसके लिए सांख्यिकीय जनसंख्या सहप्रसरण परिभाषित किया गया है और सीमांत वितरण जनसंख्या प्रसरण परिभाषित हैं और गैर-शून्य हैं। कुछ संभाव्यता बंटन, जैसे कौशी बंटन, में अपरिभाषित प्रसरण है और इसलिए ρ परिभाषित नहीं है यदि X या Y ऐसे बंटन का अनुसरण करता है। कुछ व्यावहारिक अनुप्रयोगों में, जैसे कि भारी-पूंछ वाले वितरण का पालन करने के संदेह वाले डेटा को शामिल करना, यह एक महत्वपूर्ण विचार है। हालाँकि, सहसंबंध गुणांक का अस्तित्व आमतौर पर चिंता का विषय नहीं है; उदाहरण के लिए, यदि वितरण की सीमा परिबद्ध है, तो ρ हमेशा परिभाषित होता है।

नमूना आकार

 * यदि नमूना आकार मध्यम या बड़ा है और जनसंख्या सामान्य है, तो द्विचर सामान्य वितरण के मामले में, नमूना सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का अधिकतम संभावना अनुमान है, और एक अनुमानक का स्पर्शोन्मुख वितरण पूर्वाग्रह है और दक्षता (सांख्यिकी), जिसका मोटे तौर पर अर्थ है कि नमूना सहसंबंध गुणांक की तुलना में अधिक सटीक अनुमान बनाना असंभव है।
 * यदि नमूना आकार बड़ा है और जनसंख्या सामान्य नहीं है, तो नमूना सहसंबंध गुणांक लगभग निष्पक्ष रहता है, लेकिन कुशल नहीं हो सकता है।
 * यदि नमूना आकार बड़ा है, तो नमूना सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का एक सुसंगत अनुमानक है, जब तक कि नमूना साधन, प्रसरण, और सहप्रसरण संगत हैं (जो बड़ी संख्या के कानून को लागू किए जाने पर गारंटीकृत है)।
 * यदि नमूना आकार छोटा है, तो नमूना सहसंबंध गुणांक आर ρ का निष्पक्ष अनुमान नहीं है। इसके बजाय समायोजित सहसंबंध गुणांक का उपयोग किया जाना चाहिए: परिभाषा के लिए इस आलेख में कहीं और देखें।
 * असंतुलित द्विबीजपत्री चर डेटा के लिए सहसंबंध भिन्न हो सकते हैं जब नमूना में विचरण त्रुटि हो।

मजबूती
आमतौर पर उपयोग किए जाने वाले अनेक आँकड़ों की तरह, प्रतिदर्श आँकड़ा r सुदृढ़ आँकड़ा नहीं है, इसलिए यदि ग़ैर मौजूद हैं तो इसका मान भ्रामक हो सकता है। विशेष रूप से, पीएमसीसी न तो वितरण की दृष्टि से मजबूत है, और न ही बाहरी प्रतिरोधी (देखना). एक्स और वाई के बीच स्कैटर प्लॉट  का निरीक्षण आम तौर पर ऐसी स्थिति प्रकट करेगा जहां मजबूती की कमी एक मुद्दा हो सकती है, और ऐसे मामलों में एसोसिएशन के एक मजबूत उपाय का उपयोग करने की सलाह दी जा सकती है। हालांकि ध्यान दें कि हालांकि एसोसिएशन के सबसे मजबूत अनुमानक किसी तरह से सांख्यिकीय निर्भरता को मापते हैं, वे आम तौर पर पियर्सन सहसंबंध गुणांक के समान पैमाने पर व्याख्या करने योग्य नहीं होते हैं।

पियर्सन के सहसंबंध गुणांक के लिए सांख्यिकीय निष्कर्ष डेटा वितरण के प्रति संवेदनशील है। यदि डेटा लगभग सामान्य रूप से वितरित किया जाता है, लेकिन फ़िशर परिवर्तन पर आधारित सटीक परीक्षण और स्पर्शोन्मुख परीक्षण लागू किए जा सकते हैं, लेकिन अन्यथा भ्रामक हो सकते हैं। कुछ स्थितियों में, बूटस्ट्रैपिंग (सांख्यिकी) को कॉन्फिडेंस इंटरवल बनाने के लिए लागू किया जा सकता है, और परिकल्पना परीक्षण करने के लिए रीसैंपलिंग (सांख्यिकी) लागू किया जा सकता है। ये गैर-पैरामीट्रिक आँकड़े|गैर-पैरामीट्रिक दृष्टिकोण कुछ स्थितियों में अधिक सार्थक परिणाम दे सकते हैं जहाँ द्विभाजित सामान्यता धारण नहीं करती है। हालांकि इन दृष्टिकोणों के मानक संस्करण डेटा के विनिमेय यादृच्छिक चर पर भरोसा करते हैं, जिसका अर्थ है कि विश्लेषण किए जा रहे डेटा जोड़े का कोई क्रम या समूहीकरण नहीं है जो सहसंबंध अनुमान के व्यवहार को प्रभावित कर सकता है।

एक स्तरीकृत विश्लेषण या तो द्विभाजित सामान्यता की कमी को समायोजित करने का एक तरीका है, या दूसरे के लिए नियंत्रण करते समय एक कारक से उत्पन्न सहसंबंध को अलग करना है। यदि W क्लस्टर सदस्यता या किसी अन्य कारक का प्रतिनिधित्व करता है जिसे नियंत्रित करना वांछनीय है, तो हम W के मान के आधार पर डेटा को स्तरीकृत कर सकते हैं, फिर प्रत्येक स्तर के भीतर एक सहसंबंध गुणांक की गणना कर सकते हैं। डब्ल्यू के लिए नियंत्रण करते समय समग्र सहसंबंध का अनुमान लगाने के लिए स्ट्रैटम-स्तर के अनुमानों को जोड़ा जा सकता है।

वेरिएंट
सहसंबंध गुणांक की विविधताओं की गणना विभिन्न उद्देश्यों के लिए की जा सकती है। यहां कुछ उदाहरण दिए गए हैं।

समायोजित सहसंबंध गुणांक
नमूना सहसंबंध गुणांक $r$ का निष्पक्ष अनुमान नहीं है $ρ$. डेटा के लिए जो द्विभाजित सामान्य वितरण का अनुसरण करता है, अपेक्षा $y = (−0.028, −0.018, −0.008, 0.012, 0.042)$ नमूना सहसंबंध गुणांक के लिए r}एक सामान्य द्विचर का } है
 * $$\operatorname\mathbb{E}\left[r\right] = \rho - \frac{\rho \left(1 - \rho^2\right)}{2n} + \cdots, \quad$$ इसलिए $r$ का एक पक्षपाती अनुमानक है $$\rho.$$

अद्वितीय न्यूनतम भिन्नता निष्पक्ष अनुमानक $RSS$ द्वारा दिया गया है

कहाँ:
 * $$r, n$$ ऊपर के रूप में परिभाषित किया गया है,
 * $$\mathbf{_2 F_1}(a, b; c; z)$$ हाइपरज्यामितीय कार्य है।

एक लगभग निष्पक्ष अनुमानक $E[r]$ प्राप्त किया जा सकता है काट-छाँट करके $r_{adj}$ और इस संक्षिप्त समीकरण को हल करना:

एक अनुमानित समाधान से समीकरण ($$) है

कहाँ में ($$)
 * $$r, n$$ ऊपर के रूप में परिभाषित किया गया है,
 * $r_{adj}$ एक उपइष्टतम अनुमानक है,
 * $E[r]$ को अधिकतम लॉग (एफ (आर)) द्वारा भी प्राप्त किया जा सकता है,
 * $r_{adj}$ के बड़े मानों के लिए न्यूनतम विचरण है $$,
 * $r_{adj}$ आदेश का पूर्वाग्रह है $r_{adj}$.

एक और प्रस्तावित समायोजित सहसंबंध गुणांक है


 * $$r_\text{adj}=\sqrt{1-\frac{(1-r^2)(n-1)}{(n-2)}}.$$

$r_{adj}$ के बड़े मूल्यों के लिए$$.

भारित सहसंबंध गुणांक
मान लीजिए कि सहसंबद्ध होने वाली टिप्पणियों में अलग-अलग डिग्री के महत्व होते हैं जिन्हें वजन वेक्टर w के साथ व्यक्त किया जा सकता है। वेक्टर x और y के बीच वजन वेक्टर w (सभी लंबाई n) के साथ सहसंबंध की गणना करने के लिए,
 * भारित माध्य: $$\operatorname{m}(x; w) = \frac{\sum_i w_i x_i}{\sum_i w_i}.$$
 * भारित सहप्रसरण $$\operatorname{cov}(x,y;w) = \frac{\sum_i w_i \cdot (x_i - \operatorname{m}(x; w)) (y_i - \operatorname{m}(y; w))}{\sum_i w_i }.$$
 * भारित सहसंबंध $$\operatorname{corr}(x,y;w) = \frac{\operatorname{cov}(x,y;w)}{\sqrt{\operatorname{cov}(x,x;w) \operatorname{cov}(y,y;w)}}.$$

चिंतनशील सहसंबंध गुणांक
चिंतनशील सहसंबंध पियर्सन के सहसंबंध का एक प्रकार है जिसमें डेटा उनके औसत मूल्यों के आसपास केंद्रित नहीं होते हैं। जनसंख्या चिंतनशील सहसंबंध है


 * $$\operatorname{corr}_r(X,Y) = \frac{\operatorname\mathbb{E}[\,X\,Y\,]}{\sqrt{\operatorname\mathbb{E}[\,X^2\,]\cdot \operatorname\mathbb{E}[\,Y^2\,]}}.$$

चिंतनशील सहसंबंध सममित है, लेकिन यह अनुवाद के तहत अपरिवर्तनीय नहीं है:


 * $$\operatorname{corr}_r(X, Y) = \operatorname{corr}_r(Y, X) = \operatorname{corr}_r(X, bY) \neq \operatorname{corr}_r(X, a + b Y), \quad a \neq 0, b > 0.$$

नमूना चिंतनशील सहसंबंध कोसाइन समानता के बराबर है:


 * $$rr_{xy} = \frac{\sum x_i y_i}{\sqrt{(\sum x_i^2)(\sum y_i^2)}}.$$

नमूना चिंतनशील सहसंबंध का भारित संस्करण है


 * $$rr_{xy, w} = \frac{\sum w_i x_i y_i}{\sqrt{(\sum w_i x_i^2)(\sum w_i y_i^2)}}.$$

स्केल्ड सहसंबंध गुणांक
स्केल्ड सहसंबंध पियर्सन के सहसंबंध का एक रूप है जिसमें समय श्रृंखला में तेजी से घटकों के बीच सहसंबंधों को प्रकट करने के लिए डेटा की सीमा जानबूझकर और नियंत्रित तरीके से प्रतिबंधित है। स्केल्ड सहसंबंध को डेटा के छोटे खंडों में औसत सहसंबंध के रूप में परिभाषित किया गया है।

होने देना $$K$$ सिग्नल की कुल लंबाई में फिट होने वाले सेगमेंट की संख्या हो $$T$$ किसी दिए गए पैमाने के लिए $$s$$:


 * $$K = \operatorname{round}\left(\frac{T}{s}\right).$$

पूरे संकेतों में स्केल किया गया सहसंबंध $$\bar{r}_s$$ फिर के रूप में गणना की जाती है


 * $$\bar{r}_s = \frac{1}{K} \sum\limits_{k=1}^K r_k,$$

कहाँ $$r_k$$ खंड के लिए पियर्सन का सहसंबंध गुणांक है $$k$$.

पैरामीटर चुनकर $$s$$, मूल्यों की सीमा कम हो जाती है और लंबे समय के पैमाने पर सहसंबंधों को फ़िल्टर कर दिया जाता है, केवल कम समय के पैमाने पर सहसंबंधों का पता चलता है। इस प्रकार, धीमे घटकों के योगदान को हटा दिया जाता है और तेज़ घटकों के योगदान को बरकरार रखा जाता है।

पियर्सन की दूरी
पियर्सन की दूरी के रूप में ज्ञात दो चर X और Y के लिए एक दूरी मीट्रिक को उनके सहसंबंध गुणांक से परिभाषित किया जा सकता है
 * $$d_{X,Y}=1-\rho_{X,Y}.$$

यह मानते हुए कि पियर्सन सहसंबंध गुणांक [−1, +1] के बीच आता है, पियर्सन की दूरी [0, 2] में है। अज्ञात लाभ और ऑफसेट के साथ संचार और भंडारण के लिए क्लस्टर विश्लेषण और डेटा पहचान में पियरसन दूरी का उपयोग किया गया है। इस तरह से परिभाषित पियर्सन दूरी नकारात्मक सहसंबंधों को 1 से अधिक की दूरी प्रदान करती है। वास्तव में, मजबूत सकारात्मक सहसंबंध और नकारात्मक सहसंबंध दोनों अर्थपूर्ण हैं, इसलिए निकटतम पड़ोसी एल्गोरिदम के लिए पियर्सन दूरी का उपयोग करते समय सावधानी बरतनी चाहिए क्योंकि इस तरह के एल्गोरिदम में केवल सकारात्मक सहसंबंध वाले पड़ोसियों को शामिल किया जाएगा और नकारात्मक सहसंबंध वाले पड़ोसियों को बाहर रखा जाएगा। वैकल्पिक रूप से, एक पूर्ण मूल्यवान दूरी, $$d_{X,Y}=1-|\rho_{X,Y}|$$, लागू किया जा सकता है, जो सकारात्मक और नकारात्मक दोनों सहसंबंधों को ध्यान में रखेगा। सकारात्मक और नकारात्मक संघ की जानकारी बाद में अलग-अलग निकाली जा सकती है।

परिपत्र सहसंबंध गुणांक
चरों के लिए X = {x1,...,एक्सn} और वाई = {वाई1,...,औरn} जो यूनिट सर्कल पर परिभाषित हैं $$, पियर्सन के गुणांक के एक परिपत्र अनुरूप को परिभाषित करना संभव है। यह एक्स और वाई में डेटा बिंदुओं को एक उन लोगों के  फ़ंक्शन के साथ परिवर्तित करके किया जाता है जैसे कि सहसंबंध गुणांक इस प्रकार दिया जाता है:


 * $$r_\text{circular} = \frac{\sum ^n _{i=1}\sin(x_i - \bar{x}) \sin(y_i - \bar{y})}{\sqrt{\sum^n_{i=1} \sin(x_i - \bar{x})^2} \sqrt{\sum ^n_{i=1} \sin(y_i - \bar{y})^2}}$$

कहाँ $$\bar{x}$$ और $$\bar{y}$$ X और Y की वृत्ताकार मात्राओं का माध्य हैं। यह माप मौसम विज्ञान जैसे क्षेत्रों में उपयोगी हो सकता है जहां डेटा की कोणीय दिशा महत्वपूर्ण है।

आंशिक सहसंबंध
यदि जनसंख्या या डेटा-सेट को दो से अधिक चरों की विशेषता है, तो एक आंशिक सहसंबंध गुणांक उन चरों की एक जोड़ी के बीच निर्भरता की ताकत को मापता है, जिस तरह से वे दोनों एक चयनित उपसमुच्चय में भिन्नता के जवाब में बदलते हैं। अन्य चरों का।

एन यादृच्छिक चर का अलंकरण
डेटा परिवर्तन का उपयोग करके यादृच्छिक चर की मनमानी संख्या के सभी जोड़े के बीच सहसंबंधों को हटाना हमेशा संभव होता है, भले ही चर के बीच संबंध गैर-रैखिक हो। कॉक्स एंड हिंकले द्वारा जनसंख्या वितरण के लिए इस परिणाम की प्रस्तुति दी गई है। नमूना सहसंबंधों को शून्य तक कम करने के लिए एक संबंधित परिणाम मौजूद है। मान लीजिए n यादृच्छिक चर का एक सदिश m बार देखा जाता है। एक्स को एक मैट्रिक्स होने दें $$X_{i,j}$$ प्रेक्षण i का jवाँ चर है। होने देना $$Z_{m,m}$$ प्रत्येक तत्व 1 के साथ एक m बटा m वर्ग मैट्रिक्स हो। फिर D डेटा रूपांतरित होता है इसलिए प्रत्येक यादृच्छिक चर का शून्य माध्य होता है, और T डेटा रूपांतरित होता है इसलिए सभी चरों का शून्य माध्य होता है और अन्य सभी चरों के साथ शून्य सहसंबंध होता है - नमूना सहसंबंध मैट्रिक्स T का पहचान मैट्रिक्स होगा। इकाई विचरण प्राप्त करने के लिए इसे आगे मानक विचलन से विभाजित करना होगा। रूपांतरित चर असंबद्ध होंगे, भले ही वे सांख्यिकीय स्वतंत्रता न हों।


 * $$D = X -\frac{1}{m} Z_{m,m} X$$
 * $$T = D (D^{\mathsf{T}} D)^{-\frac{1}{2}},$$

जहां का एक प्रतिपादक $n$ मैट्रिक्स के व्युत्क्रम के [[मैट्रिक्स उलटा]] का प्रतिनिधित्व करता है। T का सहसंबंध मैट्रिक्स पहचान मैट्रिक्स होगा। यदि एक नया डेटा अवलोकन x n तत्वों का एक पंक्ति वेक्टर है, तो रूपांतरित वैक्टर d और t प्राप्त करने के लिए x पर समान परिवर्तन लागू किया जा सकता है:


 * $$d = x - \frac{1}{m} Z_{1,m} X,$$
 * $$t = d (D^{\mathsf{T}} D)^{-\frac{1}{2}}.$$

यह अलंकरण बहुभिन्नरूपी डेटा के लिए प्रमुख घटक विश्लेषण से संबंधित है।

सॉफ्टवेयर कार्यान्वयन

 * आर (प्रोग्रामिंग भाषा) के आंकड़े बेस-पैकेज के साथ सहसंबंध गुणांक लागू करता है , या (P मान के साथ भी) के साथ  ]।
 * के माध्यम से [[SciPy] Python (प्रोग्रामिंग लैंग्वेज) लाइब्रेरी ]।
 * पंडास (सॉफ्टवेयर) पायथन पुस्तकालय पियर्सन सहसंबंध गुणांक गणना को विधि के लिए डिफ़ॉल्ट विकल्प के रूप में लागू करता है
 * वोल्फ्राम मैथेमेटिका के माध्यम से ] फ़ंक्शन, या (P मान के साथ) ।
 * के माध्यम से बूस्ट [[C++] लाइब्रेरी ] समारोह।
 * एक्सेल में इन-बिल्ट पियर्सन के सहसंबंध गुणांक की गणना के लिए कार्य करता है।

यह भी देखें

 * Anscombe की चौकड़ी
 * एसोसिएशन (सांख्यिकी)
 * Colligation का गुणांक
 * यूल का क्यू
 * यूल की वाई
 * समरूपता सहसंबंध गुणांक
 * सहसंबंध और निर्भरता
 * सहसंबंध अनुपात
 * विस्मृति
 * दूरी सहसंबंध
 * अधिकतम सूचना गुणांक
 * एकाधिक सहसंबंध
 * सामान्य रूप से वितरित और असंबद्ध का अर्थ स्वतंत्र नहीं है
 * विषम अनुपात
 * आंशिक सहसंबंध
 * पॉलीकोरिक सहसंबंध
 * चतुर्थांश गणना अनुपात
 * आरवी गुणांक
 * स्पीयरमैन का रैंक सहसंबंध गुणांक

बाहरी संबंध

 * – A free web interface and R package for the statistical comparison of two dependent or independent correlations with overlapping or non-overlapping variables.
 * – an interactive Flash simulation on the correlation of two normally distributed variables.
 * – large table.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.