पियर्सन सहसंबंध गुणांक

आँकड़ों में, पियर्सन सहसंबंध गुणांक (पीसीसी, उच्चारित ) - जिसे पियर्सन के r के रूप में भी जाना जाता है, पियर्सन गुणन आघूर्ण सहसंबंध गुणांक (पीपीएमसीसी), द्विभाजित सहसंबंध, या बोलचाल की भाषा में केवल सहसंबंध गुणांक के रूप में - डेटा के दो समुच्चय के मध्य रैखिक सहसंबंध और निर्भरता का एक उपाय है। यह दो चरों के सहप्रसरण और उनके मानक विचलनों के गुणनफल के मध्य का अनुपात है; इस प्रकार, यह अनिवार्य रूप से सहप्रसरण का एक सामान्यीकृत माप है, जैसे कि परिणाम में हमेशा -1 और 1 के मध्य का मान होता है। सहप्रसरण के साथ ही, माप केवल चरों के एक रैखिक सहसंबंध को प्रतिबिंबित कर सकता है, और कई अन्य प्रकार के संबंधों या सहसंबंधों की उपेक्षा करता है। एक साधारण उदाहरण के रूप में, एक हाई स्कूल के किशोरों के प्रतिरूप की उम्र और ऊंचाई की अपेक्षा करेगा कि पियर्सन सहसंबंध गुणांक 0 से काफी अधिक है, लेकिन 1 से कम (1 के रूप में एक अवास्तविक रूप से पूर्ण सहसंबंध का प्रतिनिधित्व करेगा)।



नामकरण और इतिहास
यह 1880 के दशक में फ्रांसिस गैल्टन द्वारा प्रस्तावित किए गए एक संबंधित विचार से कार्ल पियर्सन द्वारा विकसित किया गया था, और जिसके लिए गणितीय सूत्र 1844 में अगस्टे ब्रावाइस द्वारा व्युत्पन्न और प्रकाशित किया गया था।   इस प्रकार गुणांक का नामकरण स्टिग्लर के नियम का एक उदाहरण है।

परिभाषा
पियर्सन का सहसंबंध गुणांक उनके मानक विचलन के उत्पाद द्वारा विभाजित दो चर का सहप्रसरण है। परिभाषा के रूप में एक  गुणन आघूर्ण  सम्मलित है, अर्थात, माध्य-समायोजित यादृच्छिक चर के उत्पाद का माध्य (मूल के बारे में पहला क्षण); इसलिए नाम में संशोधक गुणन आघूर्ण सम्मलित है।

जनसंख्या के लिए
पियर्सन का सहसंबंध गुणांक, जब जनसंख्या पर उपयोजित किया जाता है, सामान्यतः ग्रीक अक्षर ρ (rho) द्वारा दर्शाया जाता है और इसे जनसंख्या सहसंबंध गुणांक या जनसंख्या पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। यादृच्छिक चर $$(X,Y)$$ की एक जोड़ी को देखते हुए, ρ के लिए सूत्र है।

$$ \rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}$$ जहाँ
 * $$ \operatorname{cov} $$ सहप्रसरण है
 * $$ \sigma_X $$, $$ X $$ का मानक विचलन है
 * $$ \sigma_Y $$, $$ Y $$ का मानक विचलन है।

$$\rho$$ के सूत्र को माध्य और अपेक्षा के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\operatorname{cov}(X,Y) = \operatorname\mathbb{E}[(X-\mu_X)(Y-\mu_Y)],$$

$$\rho$$ का सूत्र इस प्रकार भी लिखा जा सकता है

$$ \rho_{X,Y} = \frac{\operatorname\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}$$ जहाँ
 * $$ \sigma_Y $$ और $$ \sigma_X $$ को ऊपर के रूप में परिभाषित किया गया है
 * $$ \mu_X $$, $$ X $$ का माध्य है
 * $$ \mu_Y $$, $$ Y $$ का माध्य है
 * $$ \operatorname\mathbb{E} $$ प्रत्याशी है।

$$\rho$$ के सूत्र को अकेंद्रित क्षणों के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\begin{align}

\mu_X ={} &\operatorname\mathbb{E}[\,X\,] \\ \mu_Y ={} &\operatorname\mathbb{E}[\,Y\,] \\ \sigma_X^2 ={} &\operatorname\mathbb{E}\left[\,\left(X - \operatorname\mathbb{E}[X]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,]\right)^2 \\ \sigma_Y^2 ={} &\operatorname\mathbb{E}\left[\,\left(Y - \operatorname\mathbb{E}[Y]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\,\operatorname\mathbb{E}[\,Y\,]\right)^2 \\ &\operatorname\mathbb{E}[\,\left(X - \mu_X\right)\left(Y - \mu_Y\right)\,] = \operatorname\mathbb{E}[\,\left(X - \operatorname\mathbb{E}[\,X\,]\right)\left(Y - \operatorname\mathbb{E}[\,Y\,]\right)\,] = \operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,] \,, \end{align}$$ $$\rho$$ के सूत्र को इस रूप में भी लिखा जा सकता है $$\rho_{X,Y} = \frac{\operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,]}{\sqrt{\operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,] \right)^2} ~ \sqrt{\operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\operatorname\mathbb{E}[\,Y\,] \right)^2}}.$$ पियर्सन का सहसंबंध गुणांक प्रस्तुत नहीं होता है जब $$ \sigma_X $$ या $$ \sigma_Y $$ शून्य, अनंत या अपरिभाषित होते हैं।

एक प्रतिरूप के लिए
पियर्सन का सहसंबंध गुणांक, जब एक प्रतिरूप (सांख्यिकी) पर उपयोजित किया जाता है, सामान्यतः $$r_{xy}$$ द्वारा दर्शाया जाता है और इसे प्रतिदर्श सहसंबंध गुणांक या प्रतिदर्श पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। उपरोक्त सूत्र में एक प्रतिरूप के आधार पर सहप्रसरण और प्रसरण के अनुमानों को प्रतिस्थापित करके $$r_{xy}$$ के लिए एक सूत्र प्राप्त कर सकते हैं। दिए गए युग्मित डेटा $$\left\{ (x_1,y_1),\ldots,(x_n,y_n) \right\}$$में $$n$$ जोड़े सम्मिलित हैं, $$r_{xy}$$ को इस रूप में परिभाषित किया गया है

$$r_{xy} =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}}$$ जहाँ
 * $$n$$ प्रतिदर्श आकार है
 * $$x_i, y_i$$ i के साथ अनुक्रमित व्यक्तिगत प्रतिदर्श बिंदु हैं
 * $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ (प्रतिदर्श माध्य); और इसी तरह $$\bar{y}$$ के लिए।

पुनर्व्यवस्थित करने से हमें $$r_{xy}$$ के लिए यह सूत्र मिलता है:


 * $$r_{xy} = \frac{n\sum x_i y_i - \sum x_i\sum y_i}

{\sqrt{n\sum x_i^2-\left(\sum x_i\right)^2}~\sqrt{n\sum y_i^2-\left(\sum y_i\right)^2}}.$$ जहाँ $$n, x_i, y_i$$ को ऊपर के रूप में परिभाषित किया गया है।

यह सूत्र प्रतिदर्श सहसंबंधों की गणना के लिए एक सुविधाजनक एकल पारण एल्गोरिथ्म का सुझाव देता है, हालांकि सम्मलित संख्याओं के आधार पर, यह कभी-कभी संख्यात्मक रूप से अस्थिर हो सकता है।

पुनर्व्यवस्थित करने से हमें $$r_{xy}$$ के लिए यह सूत्र मिलता है :


 * $$r_{xy} = \frac{\sum_i x_i y_i-n\bar{x}\bar{y}}

{\sqrt{\sum_i x_i^2-n\bar{x}^2}~\sqrt{\sum_i y_i^2-n\bar{y}^2}}.$$ जहाँ $$n, x_i, y_i, \bar{x}, \bar{y}$$ को ऊपर के रूप में परिभाषित किया गया है।

एक समतुल्य अभिव्यक्ति $$r_{xy}$$ के लिए मानक अंकों के गुणनफल के माध्य के रूप में निम्न सूत्र देता है:


 * $$r_{xy} = \frac{1}{n-1} \sum ^n _{i=1} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)$$

जहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ को ऊपर के रूप में परिभाषित किया गया है, और $$s_x, s_y$$ को नीचे परिभाषित किया गया है
 * $\left( \frac{x_i - \bar{x}}{s_x} \right)$ मानक प्राप्तांक है (और समान रूप से $$y$$ के मानक प्राप्तांक के लिए)।

$$r_{xy}$$ के लिए वैकल्पिक सूत्र भी उपलब्ध हैं। उदाहरण के लिए, कोई $$r_{xy}$$ के लिए निम्न सूत्र का उपयोग कर सकता है:


 * $$r_{xy} =\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}$$

जहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ उपरोक्त के रूप में परिभाषित किया गया है और:
 * $s_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$ (प्रतिदर्श मानक विचलन); और समान रूप से $$s_y$$के लिए।

व्यावहारिक परिणाम
अधिक संकेत की स्थिति के अंतर्गत, यादृच्छिक चर के दो समुच्चय के मध्य सहसंबंध गुणांक को निकालना गैर-तुच्छ है, विशेष रूप से जहां कैनोनिकल सहसंबंध विश्लेषण अधिक संकेत योगदान के कारण सहसंबंध मूल्यों को कम करता है। दृष्टिकोण का एक सामान्यीकरण अन्यत्र दिया गया है।

विलुप्त डेटा के प्रकरण में, गैरेन ने अधिकतम संभावना अनुमानक निकाला है।

कुछ वितरण (उदाहरण के लिए, सामान्य वितरण के अलावा स्थिर वितरण) में परिभाषित भिन्नता नहीं होती है।

गणितीय गुण
प्रतिदर्श और जनसंख्या दोनों के मान पियर्सन सहसंबंध गुणांक −1 और 1 के मध्य या उसके मध्य हैं। +1 या −1 के समान सहसंबंध एक रेखा (प्रतिदर्श सहसंबंध के प्रकरण में) पर स्थित डेटा बिंदुओं के अनुरूप होते हैं, या एक रेखा पर पूरी तरह से समर्थित द्विभाजित वितरण (जनसंख्या सहसंबंध के प्रकरण में) के अनुरूप होते हैं। पियर्सन सहसंबंध गुणांक सममित है: corr(X,Y) = corr(Y,X)।

पियर्सन सहसंबंध गुणांक की एक प्रमुख गणितीय गुण यह है कि यह दो चरों में स्थान और मापक में अलग-अलग परिवर्तनों के अंतर्गत अपरिवर्तनीय है। अर्थात्, हम X को $a + bX$ में बदल सकते हैं और Y को $c + dY$ में रूपांतरित कर सकते हैं, जहां a, b, c और d, $b, d > 0$ के साथ स्थिरांक हैं, सहसंबंध गुणांक को बदले बिना स्थिरांक हैं। (यह जनसंख्या और प्रतिदर्श पियर्सन सहसंबंध गुणांक दोनों के लिए है।) अधिक सामान्य रैखिक परिवर्तन सहसंबंध को बदलते हैं: अनुप्रयोग के लिए n यादृच्छिक चर का अलंकरण देखें।

व्याख्या
सहसंबंध गुणांक -1 से 1 तक होता है। यथार्थत: 1 के निरपेक्ष मान का तात्पर्य है कि एक रैखिक समीकरण X और Y के मध्य संबंध का पूरी तरह से वर्णन करता है, जिसमें सभी डेटा बिंदु एक रेखा (गणित) पर होते हैं। सहसंबंध चिह्न प्रतिगमन समतल द्वारा निर्धारित किया जाता है: +1 के मान का अर्थ है कि सभी डेटा बिंदु एक रेखा पर स्थित हैं जिसके लिए Y बढ़ता है क्योंकि X बढ़ता है, और इसके विपरीत -1 के लिए है। 0 के मान का तात्पर्य है कि चरों के मध्य कोई रैखिक निर्भरता नहीं है।

सामान्यतः अधिक, $(X_{i} − \overline{X})(Y_{i} − \overline{Y})$ धनात्मक है यदि और केवल यदि Xi और Yi अपने संबंधित साधनों के एक ही तरफ झूठ बोलते हैं। इस प्रकार सहसंबंध गुणांक धनात्मक होता है यदि Xi और Yi एक साथ अपने संबंधित साधनों से अधिक या एक साथ कम होते हैं। सहसंबंध गुणांक ऋणात्मक (सहसंबंध विरोधी) होता है यदि Xi और Yi अपने संबंधित साधनों के विपरीत पक्ष में झूठ बोलते हैं। इसके अलावा, या तो प्रवृत्ति जितनी मजबूत होती है, सहसंबंध गुणांक का निरपेक्ष मान उतना ही बड़ा होता है।

रोजर्स और नाइसवेंडर ने सहसंबंध या इसके सरल कार्यों की व्याख्या करने के तेरह प्रकारो को सूचीबद्ध किया:
 * मूल प्राप्‍तांक और साधनों का फलन
 * मानकीकृत सहप्रसरण
 * प्रतिगमन रेखा का मानकीकृत ढलान
 * दो प्रतिगमन ढलानों का ज्यामितीय माध्य
 * दो भिन्नताओं के अनुपात का वर्गमूल
 * मानकीकृत चरों का माध्य अन्योन्य गुणन
 * दो मानकीकृत प्रतिगमन रेखाओं के मध्य कोण का फलन
 * दो चर सदिशों के मध्य कोण का फलन
 * मानकीकृत अंकों के मध्य अंतर का पुन: स्केल किया गया विचरण
 * बैलून नियम से अनुमानित
 * सम-सांद्रता के द्विभाजित दीर्घवृत्त से संबंधित
 * उस विषय में किए गए प्रयोगों से परीक्षण आँकड़ों का फलन
 * दो का अनुपात माध्यम

ज्यामितीय व्याख्या
अकेंद्रित डेटा के लिए, सहसंबंध गुणांक और कोण φ के मध्य दो प्रतिगमन रेखाओं, y = gX(x) और x = gY(y) के मध्य एक संबंध है, जो क्रमशः y पर x और x पर y को प्रतिगमन करके प्राप्त किया जाता है। (यहाँ, φ को लाइनों के प्रतिच्छेदन बिंदु के चारों ओर बनने वाले पहले चतुर्थांश के अंतर्गत वामावर्त मापा जाता है यदि $y = g_{X}(x)$, या चौथे से दूसरे चतुर्थांश तक विपरीत दिशा में मापा जाता है यदि r < 0 है) कोई यह दिखा सकता है कि यदि मानक विचलन समान हैं, तब r = sec φ − tan φ, जहाँ sec और tan त्रिकोणमितीय फलन हैं।

केंद्रित डेटा के लिए (अर्थात, डेटा जो उनके संबंधित चर के प्रतिदर्श माध्यम से स्थानांतरित कर दिया गया है ताकि प्रत्येक चर के लिए औसत शून्य हो), सहसंबंध गुणांक को N-डायमेंशनल समष्टि में दो देखे गए सदिश के मध्य कोण θ के कोज्या के रूप में भी देखा जा सकता है (प्रत्येक चर के N अवलोकनों के लिए)

किसी डेटासमुच्चय के लिए अकेंद्रित (गैर-पियर्सन-अनुपालन) और केंद्रित सहसंबंध गुणांक दोनों निर्धारित किए जा सकते हैं। एक उदाहरण के रूप में, मान लीजिए कि पाँच देशों में क्रमशः 1, 2, 3, 5 और 8 बिलियन डॉलर के सकल राष्ट्रीय उत्पाद पाए जाते हैं। मान लीजिए इन्हीं पांच देशों में (इसी क्रम में) 11%, 12%, 13%, 15% और 18% गरीबी पाई जाती है। फिर x और y को उपरोक्त डेटा वाले 5-तत्व सदिश का आदेश दें: x = (1, 2, 3, 5, 8) और y = (0.11, 0.12, 0.13, 0.15, 0.18)।

दो सदिशों (बिंदु गुणनफल देखें) के मध्य कोण θ निर्धारण की सामान्य प्रक्रिया के अनुसार, अकेंद्रित सहसंबंध गुणांक है।


 * $$ \cos \theta = \frac { \mathbf{x} \cdot \mathbf{y} } { \left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {2.93} { \sqrt{103} \sqrt{0.0983} } = 0.920814711. $$

यह अकेंद्रित सहसंबंध गुणांक कोज्या समानता के समान है। उपरोक्त डेटा को ध्यानपूर्वक पूरी तरह से सहसंबद्ध होने के लिए चयन किया गया था: $x = g_{Y}(y)$। पियर्सन सहसंबंध गुणांक इसलिए यथार्थत: एक होना चाहिए। डेटा को केंद्रित करना (x को $r > 0$ और y को $y = 0.10 + 0.01 x$ से स्थानांतरित करने पर $ℰ(x) = 3.8$ और $ℰ(y) = 0.138$ प्राप्त होता है, जिससे


 * $$ \cos \theta = \frac{\mathbf{x} \cdot \mathbf{y}} {\left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {0.308}{\sqrt{30.8}\sqrt{0.00308}} = 1 = \rho_{xy}, $$

अपेक्षा के अनुरूप।

सहसंबंध के आकार की व्याख्या
कई लेखकों ने सहसंबंध गुणांक की व्याख्या के लिए दिशा-निर्देश दिए हैं। हालाँकि, ऐसे सभी मानदंड एक तरह से स्वेच्छाचारी हैं। सहसंबंध गुणांक की व्याख्या संदर्भ और उद्देश्यों पर निर्भर करती है। 0.8 का सहसंबंध बहुत कम हो सकता है यदि कोई उच्च गुणवत्ता वाले उपकरणों का उपयोग करके भौतिक कानून की पुष्टि कर रहा है, लेकिन सामाजिक विज्ञानों में इसे बहुत अधिक माना जा सकता है, जहां जटिल कारकों से अधिक योगदान हो सकता है।

अनुमान
पियर्सन के सहसंबंध गुणांक पर आधारित सांख्यिकीय निष्कर्ष प्रायः निम्नलिखित दो लक्ष्यों में से एक पर केंद्रित होता है: हम नीचे इनमें से एक या दोनों लक्ष्यों को प्राप्त करने के पद्धति पर विचार करते हैं।
 * एक उद्देश्य शून्य परिकल्पना का परीक्षण करना है कि सही सहसंबंध गुणांक ρ 0 के समान है, जो प्रतिदर्श सहसंबंध गुणांक r के मान पर आधारित है।
 * दूसरा उद्देश्य एक विश्वास अंतराल प्राप्त करना है, जिसमें बार-बार प्रतिरूप लेने पर ρ होने की संभावना है।

क्रमपरिवर्तन परीक्षण का उपयोग करना
क्रमचय परीक्षण परिकल्पना परीक्षण करने और विश्वास अंतराल के निर्माण के लिए एक सीधा दृष्टिकोण प्रदान करते हैं। पियर्सन के सहसंबंध गुणांक के लिए एक क्रमचय परीक्षण में निम्नलिखित दो चरण सम्मलित हैं: क्रमचय परीक्षण करने के लिए, चरण (1) और (2) को बड़ी संख्या में दोहराएं। क्रमचय परीक्षण के लिए p-मान चरण (2) में उत्पन्न r मानों का अनुपात है जो पियर्सन सहसंबंध गुणांक से बड़ा है जिसकी गणना मूल डेटा से की गई थी। यहां  बृहत्तर  का अर्थ या तो यह हो सकता है कि मूल्य परिमाण में बड़ा है, या हस्ताक्षरित मूल्य में बड़ा है, यह इस बात पर निर्भर करता है कि दो तरफा या एक तरफा परीक्षण वांछित है या नहीं है।
 * 1) मूल युग्मित डेटा (xi, yi) का उपयोग करके, एक नया डेटा समुच्चय (xi, yi) बनाने के लिए जोड़े को यादृच्छिक रूप से फिर से परिभाषित करें, जहां i' समुच्चय {1,...,n} का क्रमचय है। क्रमचय i' को यादृच्छिक रूप से चयन किया गया है, जिसमें सभी n! संभावित क्रमपरिवर्तनों पर समान संभावनाएँ रखी गई हैं। यह समुच्चय {1, ..., n} से प्रतिस्थापन के बिना i' को यादृच्छिक रूप से रेखाचित्र के समान है। बूटस्ट्रैपिंग (सांख्यिकी) में, एक निकट से संबंधित दृष्टिकोण, i और i' समान हैं और {1, ..., n} से प्रतिस्थापन के साथ विकृत किए गए हैं;
 * 2) यादृच्छिक डेटा से एक सहसंबंध गुणांक r का निर्माण करें।

बूटस्ट्रैप का उपयोग
पियर्सन के सहसंबंध गुणांक के लिए विश्वास्यता अंतराल बनाने के लिए बूटस्ट्रैपिंग (सांख्यिकी) का उपयोग किया जा सकता है। अप्राचल बूटस्ट्रैप में, n जोड़े (xi, yi) को n जोड़े के देखे गए समुच्चय से  प्रतिस्थापन के साथ  पुनः प्रतिचयन किया जाता है, और सहसंबंध गुणांक r की गणना पुन: प्रतिदर्श डेटा के आधार पर की जाती है। इस प्रक्रिया को बड़ी संख्या में बार-बार दोहराया जाता है, और पुनरुत्पादित r मानों के अनुभवजन्य वितरण का उपयोग आँकड़ों के प्रतिदर्शकरण वितरण को अनुमानित करने के लिए किया जाता है। ρ के लिए 95% विश्वास्यता अंतराल को पुनः प्रतिचयन किए गए r मानों के 2.5वें से 97.5वें प्रतिशतता तक विस्तरित अंतराल के रूप में परिभाषित किया जा सकता है।

मानक त्रुटि
अगर $$x$$ और $$y$$ यादृच्छिक चर हैं, अशक्त प्रकरण में सहसंबंध से जुड़ी एक मानक त्रुटि है


 * $$\sigma_r = \sqrt{\frac{1-r^2}{n-2}}$$

जहाँ $$r$$ सहसंबंध है (मान लिया गया है कि r≈0) और $$n$$ प्रतिदर्श आकार है।

विद्यार्थी के t-वितरण का प्रयोग करके परीक्षण
एक असंबद्ध द्विभाजित सामान्य वितरण से जोड़े के लिए, छात्रकृत पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण स्वतंत्रता की डिग्री n − 2 के साथ विद्यार्थी के t-वितरण का अनुसरण करता है। विशेष रूप से, यदि अंतर्निहित चर में द्विभाजित सामान्य वितरण है, तो चर


 * $$t = \frac{r}{\sigma_r} = r\sqrt{\frac{n-2}{1 - r^2}}$$

शून्य कारक (शून्य सहसंबंध) में एक विद्यार्थी का t-वितरण है। यदि प्रतिदर्श आकार अधिक बड़ा है तो अपसामान्य देखे गए मानों के प्रकरण में यह लगभग रहता है। r के महत्वपूर्ण मानों को निर्धारित करने के लिए प्रतिलोम फलन की आवश्यकता होती है:


 * $$r = \frac{t}{\sqrt{n - 2 + t^2}}.$$

वैकल्पिक रूप से, बड़े प्रतिरूप, स्पर्शोन्मुख दृष्टिकोण का उपयोग किया जा सकता है।

एक और प्रारंभिक दस्तावेज़ छोटे प्रतिदर्श आकारों के लिए ρ के सामान्य मूल्यों के लिए आलेख और सूची प्रदान करता है, और संगणनात्मक दृष्टिकोण पर वर्णन करता है।

ऐसे प्रकरण में जहां अंतर्निहित चर सामान्य नहीं हैं, पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण छात्र के t-वितरण का अनुसरण करता है, लेकिन स्वतंत्रता की डिग्री कम हो जाती है।

यथार्थ वितरण का प्रयोग
द्विभाजित सामान्य वितरण का अनुसरण करने वाले डेटा के लिए, सामान्य द्विचर के प्रतिदर्श सहसंबंध गुणांक r के लिए यथार्थ घनत्व फलन f(r) है
 * $$f(r) = \frac{(n - 2)\, \mathrm{\Gamma}(n - 1) \left(1 - \rho^2\right)^{\frac{n - 1}{2}} \left(1 - r^2\right)^{\frac{n - 4}{2}}}{\sqrt{2\pi}\, \operatorname{\Gamma}\mathord\left(n - \tfrac{1}{2}\right) (1 - \rho r)^{n - \frac{3}{2}}} {}_{2}\mathrm{F}_{1}\mathord\left(\tfrac{1}{2}, \tfrac{1}{2}; \tfrac{1}{2}(2n - 1); \tfrac{1}{2}(\rho r + 1)\right)$$

कहाँ $$\Gamma$$ गामा फलन है और $${}_{2}\mathrm{F}_{1}(a,b;c;z)$$ गौसीय अतिज्यामितीय फलन है।

विशेष प्रकरण में जब $$\rho = 0$$ (शून्य जनसंख्या सहसंबंध), यथार्थ घनत्व फलन f(r) के रूप में लिखा जा सकता है


 * $$f(r) = \frac{\left(1 - r^2\right)^{\frac{n - 4}{2}}}{\Beta\left(\tfrac{1}{2}, \tfrac{1}{2}(n - 2)\right)},$$

कहाँ $$\Beta$$ बीटा फलन है, जो ऊपर बताए अनुसार विद्यार्थी के t-वितरण के घनत्व को लिखने का एक प्रकार है।

यथार्थ विश्वास्यता वितरण का उपयोग करना
विश्वास्यता वितरण और परीक्षण की गणना विश्वास वितरण से की जा सकती है। ρ के लिए एक यथार्थ आत्मविश्वास घनत्व है

$$ \pi(\rho \mid r) = \frac{\nu(\nu - 1)\Gamma(\nu - 1)} {\sqrt{2\pi}\Gamma\left(\nu + \frac{1}{2}\right)} \left(1 - r^2\right)^{\frac{\nu - 1}{2}} \cdot \left(1 - \rho^2\right)^{\frac{\nu - 2}{2}} \cdot \left(1 - r \rho\right)^{\frac{1 - 2\nu}{2}} \operatorname{F}\left(\tfrac{3}{2}, -\tfrac{1}{2}; \nu + \tfrac{1}{2}; \tfrac{1 + r \rho}{2}\right) $$ जहाँ $$\operatorname{F}$$ गॉसियन अतिज्यामितीय फलन है और $$\nu = n - 1 > 1$$ है।

फिशर परिवर्तन का उपयोग
व्यवहार में, विश्वास अंतराल और ρ से संबंधित परिकल्पना परीक्षण सामान्यतः फिशर परिवर्तन, $$F$$ का उपयोग करके किया जाता है:


 * $$F(r) \equiv \tfrac{1}{2} \, \ln \left(\frac{1 + r}{1 - r}\right) = \operatorname{artanh}(r)$$

F(r) लगभग एक सामान्य वितरण का अनुसरण करता है


 * $$\text{mean} = F(\rho) = \operatorname{artanh}(\rho)$$   और मानक त्रुटि $$=\text{SE} = \frac{1}{\sqrt{n - 3}},$$

जहाँ n प्रतिदर्श आकार है। बृहत्प्रतिदर्श आकार $$n$$ और छोटे $$r$$ और $$\rho_0$$ के लिए सन्निकटन त्रुटि सबसे कम है और अन्यथा बढ़ जाती है।

सन्निकटन का उपयोग करते हुए, एक z-प्राप्तांक है


 * $$z = \frac{x - \text{mean}}{\text{SE}} = [F(r) - F(\rho_0)]\sqrt{n - 3}$$

शून्य परिकल्पना के अंतर्गत $$\rho = \rho_0$$, यह मानते हुए कि प्रतिदर्श जोड़े स्वतंत्र और समान रूप से वितरित हैं और द्विभाजित सामान्य वितरण का अनुसरण करते हैं। इस प्रकार एक सामान्य प्रायिकता सूची से एक अनुमानित p-मान प्राप्त किया जा सकता है। उदाहरण के लिए, यदि z = 2.2 देखा जाता है और शून्य परिकल्पना का परीक्षण करने के लिए उभय पक्षीय p-मान वांछित है कि $$\rho = 0$$, p-मान 2&thinsp;Φ(−2.2) = 0.028 है, जहां Φ मानक सामान्य संचयी बंटन फलन है।

ρ के लिए एक विश्वास्यता अंतराल प्राप्त करने के लिए, हम पहले F($$\rho$$) के लिए एक विश्वास्यता अंतराल की गणना करते हैं:


 * $$100(1 - \alpha)\%\text{CI}: \operatorname{artanh}(\rho) \in [\operatorname{artanh}(r) \pm z_{\alpha/2}\text{SE}]$$

व्युत्क्रम फिशर परिवर्तन अंतराल को सहसंबंध पैमाने पर वापस लाता है।


 * $$100(1 - \alpha)\%\text{CI}: \rho \in [\tanh(\operatorname{artanh}(r) - z_{\alpha/2}\text{SE}), \tanh(\operatorname{artanh}(r) + z_{\alpha/2}\text{SE})]$$

उदाहरण के लिए, मान लीजिए कि हम r = 0.7 को n = 50 के प्रतिरूप के आकार के साथ देखते हैं, और हम ρ के लिए 95% विश्वास अंतराल प्राप्त करना चाहते हैं। रूपांतरित मान arctanh(r) = 0.8673 है, इसलिए रूपांतरित पैमाने पर विश्वास अंतराल 0.8673 ± 1.96/$\sqrt{47}$, या (0.5814, 1.1532) है। सहसंबंध पैमाने की यील्ड में वापस परिवर्तित करना (0.5237, 0.8188) है।

कम से कम वर्गों में प्रतिगमन विश्लेषण
प्रतिदर्श सहसंबंध गुणांक के वर्ग को सामान्यतः r2 निरूपित किया जाता है और निर्धारण के गुणांक का एक विशेष प्रकरण है। इस प्रकरण में, यह Y में भिन्नता के अंश का अनुमान लगाता है जिसे X द्वारा सरल रैखिक प्रतिगमन में समझाया गया है। इसलिए यदि हमारे पास देखे गए डेटासमुच्चय $$Y_1, \dots, Y_n$$ और उपयुक्त किए गए डेटासमुच्चय $$\hat Y_1, \dots , \hat Y_n$$ हैं, तो प्रारंभिक बिंदु के रूप में उनके औसत मूल्य के आसपास Yi में कुल भिन्नता को निम्नानुसार विघटित किया जा सकता है


 * $$\sum_i (Y_i - \bar{Y})^2 = \sum_i (Y_i-\hat{Y}_i)^2 + \sum_i (\hat{Y}_i-\bar{Y})^2,$$

जहां $$\hat{Y}_i$$ प्रतिगमन विश्लेषण से उपयुक्त किए गए मान हैं। इसे देने के लिए पुनर्व्यवस्थित किया जा सकता है


 * $$1 = \frac{\sum_i (Y_i-\hat{Y}_i)^2}{\sum_i (Y_i - \bar{Y})^2} + \frac{\sum_i (\hat{Y}_i-\bar{Y})^2}{\sum_i (Y_i - \bar{Y})^2}.$$

उपरोक्त दो सारांश Y में भिन्नता का अंश है जिसे X (दाएं) द्वारा समझाया गया है और जो X (बाएं) द्वारा अस्पष्टीकृत है।

इसके बाद, हम कम से कम वर्ग प्रतिगमन प्रतिरूप का एक गुण उपयोजित करते हैं, जो $$\hat{Y}_i$$ और $$Y_i-\hat{Y}_i$$ के मध्य प्रतिदर्श सहप्रसरण शून्य है। इस प्रकार, प्रतिगमन में देखे गए और सज्जित प्रतिक्रिया मूल्यों के मध्य प्रतिदर्श सहसंबंध गुणांक लिखा जा सकता है (गणना अपेक्षा के अधीन है, गॉसियन सांख्यिकी मानती है)



\begin{align} r(Y,\hat{Y}) &= \frac{\sum_i(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{\sum_i(Y_i-\hat{Y}_i+\hat{Y}_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i [(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) +(\hat{Y}_i-\bar{Y})^2 ]}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i (\hat{Y}_i-\bar{Y})^2 }{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}. \end{align} $$ इस प्रकार


 * $$r(Y,\hat{Y})^2 = \frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}$$

जहाँ $$r(Y,\hat{Y})^2$$ Y में प्रसरण का अनुपात है, जिसे X के रैखिक फलन द्वारा समझाया गया है।

उपरोक्त व्युत्पत्ति में, तथ्य यह है कि
 * $$\sum_i (Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) = 0$$

यह देख कर सिद्ध किया जा सकता है कि β0 और β1 से अधिक वर्गों के अवशिष्ट योग ($x = (−2.8, −1.8, −0.8, 1.2, 4.2)$) का आंशिक अवकलज सबसे कम से कम वर्ग प्रतिरूप में 0 के समान हैं, जहां
 * $$\text{RSS} = \sum_i (Y_i - \hat{Y}_i)^2$$.

अंत में, समीकरण के रूप में लिखा जा सकता है


 * $$r(Y,\hat{Y})^2 = \frac{\text{SS}_\text{reg}}{\text{SS}_\text{tot}}$$

जहां प्रतीक $$\text{SS}_\text{reg}$$ को वर्गों का प्रतिगमन योग कहा जाता है, जिसे वर्गों का समझाया योग भी कहा जाता है, और $$\text{SS}_\text{tot}$$ वर्गों का कुल योग है (डेटा के प्रसरण के अनुपात में)।
 * $$\text{SS}_\text{reg} = \sum_i (\hat{Y}_i-\bar{Y})^2$$
 * $$\text{SS}_\text{tot} = \sum_i (Y_i-\bar{Y})^2$$.

अस्तित्व
जनसंख्या पियर्सन सहसंबंध गुणांक क्षण (गणित) के संदर्भ में परिभाषित किया गया है, और इसलिए किसी भी द्विभाजित संभाव्यता वितरण के लिए मौजूद है जिसके लिए सांख्यिकीय जनसंख्या सहप्रसरण परिभाषित किया गया है और सीमांत वितरण जनसंख्या प्रसरण परिभाषित हैं और गैर-शून्य हैं। कुछ संभाव्यता बंटन, जैसे कौशी बंटन, में अपरिभाषित प्रसरण है और इसलिए ρ परिभाषित नहीं है यदि X या Y ऐसे बंटन का अनुसरण करता है। कुछ व्यावहारिक अनुप्रयोगों में, जैसे कि भारी-पूंछ वाले वितरण का पालन करने के संदेह वाले डेटा को सम्मलित करना, यह एक महत्वपूर्ण विचार है। हालाँकि, सहसंबंध गुणांक का अस्तित्व सामान्यतः चिंता का विषय नहीं है; उदाहरण के लिए, यदि वितरण की सीमा परिबद्ध है, तो ρ हमेशा परिभाषित होता है।

प्रतिदर्श आकार

 * यदि प्रतिदर्श आकार मध्यम या बड़ा है और जनसंख्या सामान्य है, तो द्विचर सामान्य वितरण के प्रकरण में, प्रतिदर्श सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का अधिकतम संभावना अनुमान है, और एक अनुमानक का स्पर्शोन्मुख वितरण पूर्वाग्रह है और दक्षता (सांख्यिकी), जिसका मोटे तौर पर अर्थ है कि प्रतिदर्श सहसंबंध गुणांक की तुलना में अधिक यथार्थ अनुमान बनाना असंभव है।
 * यदि प्रतिदर्श आकार बड़ा है और जनसंख्या सामान्य नहीं है, तो प्रतिदर्श सहसंबंध गुणांक लगभग निष्पक्ष रहता है, लेकिन कुशल नहीं हो सकता है।
 * यदि प्रतिदर्श आकार बड़ा है, तो प्रतिदर्श सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का एक सुसंगत अनुमानक है, जब तक कि प्रतिदर्श साधन, प्रसरण, और सहप्रसरण संगत हैं (जो बड़ी संख्या के कानून को उपयोजित किए जाने पर गारंटीकृत है)।
 * यदि प्रतिदर्श आकार छोटा है, तो प्रतिदर्श सहसंबंध गुणांक आर ρ का निष्पक्ष अनुमान नहीं है। इसके बजाय समायोजित सहसंबंध गुणांक का उपयोग किया जाना चाहिए: परिभाषा के लिए इस आलेख में कहीं और देखें।
 * असंतुलित द्विबीजपत्री चर डेटा के लिए सहसंबंध भिन्न हो सकते हैं जब प्रतिदर्श में विचरण त्रुटि हो।

मजबूती
सामान्यतः उपयोग किए जाने वाले अनेक आँकड़ों की तरह, प्रतिदर्श आँकड़ा r सुदृढ़ आँकड़ा नहीं है, इसलिए यदि ग़ैर मौजूद हैं तो इसका मान भ्रामक हो सकता है। विशेष रूप से, पीएमसीसी न तो वितरण की दृष्टि से मजबूत है, और न ही बाहरी प्रतिरोधी (देखना). एक्स और वाई के मध्य स्कैटर प्लॉट  का निरीक्षण सामान्यतः ऐसी स्थिति प्रकट करेगा जहां मजबूती की कमी एक मुद्दा हो सकती है, और ऐसे मामलों में एसोसिएशन के एक मजबूत उपाय का उपयोग करने की सलाह दी जा सकती है। हालांकि ध्यान दें कि हालांकि एसोसिएशन के सबसे मजबूत अनुमानक किसी तरह से सांख्यिकीय निर्भरता को मापते हैं, वे सामान्यतः पियर्सन सहसंबंध गुणांक के समान पैमाने पर व्याख्या करने योग्य नहीं होते हैं।

पियर्सन के सहसंबंध गुणांक के लिए सांख्यिकीय निष्कर्ष डेटा वितरण के प्रति संवेदनशील है। यदि डेटा लगभग सामान्य रूप से वितरित किया जाता है, लेकिन फ़िशर परिवर्तन पर आधारित यथार्थ परीक्षण और स्पर्शोन्मुख परीक्षण उपयोजित किए जा सकते हैं, लेकिन अन्यथा भ्रामक हो सकते हैं। कुछ स्थितियों में, बूटस्ट्रैपिंग (सांख्यिकी) को विश्वास्यता वितरण बनाने के लिए उपयोजित किया जा सकता है, और परिकल्पना परीक्षण करने के लिए रीसैंपलिंग (सांख्यिकी) उपयोजित किया जा सकता है। ये गैर-पैरामीट्रिक आँकड़े|गैर-पैरामीट्रिक दृष्टिकोण कुछ स्थितियों में अधिक सार्थक परिणाम दे सकते हैं जहाँ द्विभाजित सामान्यता धारण नहीं करती है। हालांकि इन दृष्टिकोणों के मानक संस्करण डेटा के विनिमेय यादृच्छिक चर पर भरोसा करते हैं, जिसका अर्थ है कि विश्लेषण किए जा रहे डेटा जोड़े का कोई क्रम या समूहीकरण नहीं है जो सहसंबंध अनुमान के व्यवहार को प्रभावित कर सकता है।

एक स्तरीकृत विश्लेषण या तो द्विभाजित सामान्यता की कमी को समायोजित करने का एक तरीका है, या दूसरे के लिए नियंत्रण करते समय एक कारक से उत्पन्न सहसंबंध को अलग करना है। यदि W क्लस्टर सदस्यता या किसी अन्य कारक का प्रतिनिधित्व करता है जिसे नियंत्रित करना वांछनीय है, तो हम W के मान के आधार पर डेटा को स्तरीकृत कर सकते हैं, फिर प्रत्येक स्तर के अंतर्गत एक सहसंबंध गुणांक की गणना कर सकते हैं। डब्ल्यू के लिए नियंत्रण करते समय समग्र सहसंबंध का अनुमान लगाने के लिए स्ट्रैटम-स्तर के अनुमानों को जोड़ा जा सकता है।

वेरिएंट
सहसंबंध गुणांक की विविधताओं की गणना विभिन्न उद्देश्यों के लिए की जा सकती है। यहां कुछ उदाहरण दिए गए हैं।

समायोजित सहसंबंध गुणांक
प्रतिदर्श सहसंबंध गुणांक $r$ का निष्पक्ष अनुमान नहीं है $ρ$. डेटा के लिए जो द्विभाजित सामान्य वितरण का अनुसरण करता है, अपेक्षा $y = (−0.028, −0.018, −0.008, 0.012, 0.042)$ प्रतिदर्श सहसंबंध गुणांक के लिए r}एक सामान्य द्विचर का } है
 * $$\operatorname\mathbb{E}\left[r\right] = \rho - \frac{\rho \left(1 - \rho^2\right)}{2n} + \cdots, \quad$$ इसलिए $r$ का एक पक्षपाती अनुमानक है $$\rho.$$

अद्वितीय न्यूनतम भिन्नता निष्पक्ष अनुमानक $RSS$ द्वारा दिया गया है

कहाँ:
 * $$r, n$$ ऊपर के रूप में परिभाषित किया गया है,
 * $$\mathbf{_2 F_1}(a, b; c; z)$$ अतिज्यामितीय कार्य है।

एक लगभग निष्पक्ष अनुमानक $E[r]$ प्राप्त किया जा सकता है काट-छाँट करके $r_{adj}$ और इस संक्षिप्त समीकरण को हल करना:

एक अनुमानित समाधान से समीकरण ($$) है

कहाँ में ($$)
 * $$r, n$$ ऊपर के रूप में परिभाषित किया गया है,
 * $r_{adj}$ एक उपइष्टतम अनुमानक है,
 * $E[r]$ को अधिकतम लॉग (एफ (आर)) द्वारा भी प्राप्त किया जा सकता है,
 * $r_{adj}$ के बड़े मानों के लिए न्यूनतम विचरण है $$,
 * $r_{adj}$ आदेश का पूर्वाग्रह है $r_{adj}$.

एक और प्रस्तावित समायोजित सहसंबंध गुणांक है


 * $$r_\text{adj}=\sqrt{1-\frac{(1-r^2)(n-1)}{(n-2)}}.$$

$r_{adj}$ के बड़े मूल्यों के लिए$$.

भारित सहसंबंध गुणांक
मान लीजिए कि सहसंबद्ध होने वाली टिप्पणियों में अलग-अलग डिग्री के महत्व होते हैं जिन्हें वजन वेक्टर w के साथ व्यक्त किया जा सकता है। वेक्टर x और y के मध्य वजन वेक्टर w (सभी लंबाई n) के साथ सहसंबंध की गणना करने के लिए,
 * भारित माध्य: $$\operatorname{m}(x; w) = \frac{\sum_i w_i x_i}{\sum_i w_i}.$$
 * भारित सहप्रसरण $$\operatorname{cov}(x,y;w) = \frac{\sum_i w_i \cdot (x_i - \operatorname{m}(x; w)) (y_i - \operatorname{m}(y; w))}{\sum_i w_i }.$$
 * भारित सहसंबंध $$\operatorname{corr}(x,y;w) = \frac{\operatorname{cov}(x,y;w)}{\sqrt{\operatorname{cov}(x,x;w) \operatorname{cov}(y,y;w)}}.$$

चिंतनशील सहसंबंध गुणांक
चिंतनशील सहसंबंध पियर्सन के सहसंबंध का एक प्रकार है जिसमें डेटा उनके औसत मूल्यों के आसपास केंद्रित नहीं होते हैं। जनसंख्या चिंतनशील सहसंबंध है


 * $$\operatorname{corr}_r(X,Y) = \frac{\operatorname\mathbb{E}[\,X\,Y\,]}{\sqrt{\operatorname\mathbb{E}[\,X^2\,]\cdot \operatorname\mathbb{E}[\,Y^2\,]}}.$$

चिंतनशील सहसंबंध सममित है, लेकिन यह अनुवाद के अंतर्गत अपरिवर्तनीय नहीं है:


 * $$\operatorname{corr}_r(X, Y) = \operatorname{corr}_r(Y, X) = \operatorname{corr}_r(X, bY) \neq \operatorname{corr}_r(X, a + b Y), \quad a \neq 0, b > 0.$$

प्रतिदर्श चिंतनशील सहसंबंध कोज्या समानता के समान है:


 * $$rr_{xy} = \frac{\sum x_i y_i}{\sqrt{(\sum x_i^2)(\sum y_i^2)}}.$$

प्रतिदर्श चिंतनशील सहसंबंध का भारित संस्करण है


 * $$rr_{xy, w} = \frac{\sum w_i x_i y_i}{\sqrt{(\sum w_i x_i^2)(\sum w_i y_i^2)}}.$$

स्केल्ड सहसंबंध गुणांक
स्केल्ड सहसंबंध पियर्सन के सहसंबंध का एक रूप है जिसमें समय श्रृंखला में तेजी से घटकों के मध्य सहसंबंधों को प्रकट करने के लिए डेटा की सीमा जानबूझकर और नियंत्रित तरीके से प्रतिबंधित है। स्केल्ड सहसंबंध को डेटा के छोटे खंडों में औसत सहसंबंध के रूप में परिभाषित किया गया है।

होने देना $$K$$ सिग्नल की कुल लंबाई में फिट होने वाले सेगमेंट की संख्या हो $$T$$ किसी दिए गए पैमाने के लिए $$s$$:


 * $$K = \operatorname{round}\left(\frac{T}{s}\right).$$

पूरे संकेतों में स्केल किया गया सहसंबंध $$\bar{r}_s$$ फिर के रूप में गणना की जाती है


 * $$\bar{r}_s = \frac{1}{K} \sum\limits_{k=1}^K r_k,$$

कहाँ $$r_k$$ खंड के लिए पियर्सन का सहसंबंध गुणांक है $$k$$.

पैरामीटर चुनकर $$s$$, मूल्यों की सीमा कम हो जाती है और लंबे समय के पैमाने पर सहसंबंधों को फ़िल्टर कर दिया जाता है, केवल कम समय के पैमाने पर सहसंबंधों का पता चलता है। इस प्रकार, धीमे घटकों के योगदान को हटा दिया जाता है और तेज़ घटकों के योगदान को बरकरार रखा जाता है।

पियर्सन की दूरी
पियर्सन की दूरी के रूप में ज्ञात दो चर X और Y के लिए एक दूरी मीट्रिक को उनके सहसंबंध गुणांक से परिभाषित किया जा सकता है
 * $$d_{X,Y}=1-\rho_{X,Y}.$$

यह मानते हुए कि पियर्सन सहसंबंध गुणांक [−1, +1] के मध्य आता है, पियर्सन की दूरी [0, 2] में है। अज्ञात लाभ और ऑफसमुच्चय के साथ संचार और भंडारण के लिए क्लस्टर विश्लेषण और डेटा पहचान में पियरसन दूरी का उपयोग किया गया है। इस तरह से परिभाषित पियर्सन दूरी नकारात्मक सहसंबंधों को 1 से अधिक की दूरी प्रदान करती है। वास्तव में, मजबूत सकारात्मक सहसंबंध और नकारात्मक सहसंबंध दोनों अर्थपूर्ण हैं, इसलिए निकटतम पड़ोसी एल्गोरिदम के लिए पियर्सन दूरी का उपयोग करते समय सावधानी बरतनी चाहिए क्योंकि इस तरह के एल्गोरिदम में केवल सकारात्मक सहसंबंध वाले पड़ोसियों को सम्मलित किया जाएगा और नकारात्मक सहसंबंध वाले पड़ोसियों को बाहर रखा जाएगा। वैकल्पिक रूप से, एक पूर्ण मूल्यवान दूरी, $$d_{X,Y}=1-|\rho_{X,Y}|$$, उपयोजित किया जा सकता है, जो सकारात्मक और नकारात्मक दोनों सहसंबंधों को ध्यान में रखेगा। सकारात्मक और नकारात्मक संघ की जानकारी बाद में अलग-अलग निकाली जा सकती है।

परिपत्र सहसंबंध गुणांक
चरों के लिए X = {x1,...,एक्सn} और वाई = {वाई1,...,औरn} जो यूनिट सर्कल पर परिभाषित हैं $$, पियर्सन के गुणांक के एक परिपत्र अनुरूप को परिभाषित करना संभव है। यह एक्स और वाई में डेटा बिंदुओं को एक उन लोगों के  फलन के साथ परिवर्तित करके किया जाता है जैसे कि सहसंबंध गुणांक इस प्रकार दिया जाता है:


 * $$r_\text{circular} = \frac{\sum ^n _{i=1}\sin(x_i - \bar{x}) \sin(y_i - \bar{y})}{\sqrt{\sum^n_{i=1} \sin(x_i - \bar{x})^2} \sqrt{\sum ^n_{i=1} \sin(y_i - \bar{y})^2}}$$

कहाँ $$\bar{x}$$ और $$\bar{y}$$ X और Y की वृत्ताकार मात्राओं का माध्य हैं। यह माप मौसम विज्ञान जैसे क्षेत्रों में उपयोगी हो सकता है जहां डेटा की कोणीय दिशा महत्वपूर्ण है।

आंशिक सहसंबंध
यदि जनसंख्या या डेटा-समुच्चय को दो से अधिक चरों की विशेषता है, तो एक आंशिक सहसंबंध गुणांक उन चरों की एक जोड़ी के मध्य निर्भरता की ताकत को मापता है, जिस तरह से वे दोनों एक चयनित उपसमुच्चय में भिन्नता के जवाब में बदलते हैं। अन्य चरों का।

एन यादृच्छिक चर का अलंकरण
डेटा परिवर्तन का उपयोग करके यादृच्छिक चर की मनमानी संख्या के सभी जोड़े के मध्य सहसंबंधों को हटाना हमेशा संभव होता है, भले ही चर के मध्य संबंध गैर-रैखिक हो। कॉक्स एंड हिंकले द्वारा जनसंख्या वितरण के लिए इस परिणाम की प्रस्तुति दी गई है। प्रतिदर्श सहसंबंधों को शून्य तक कम करने के लिए एक संबंधित परिणाम मौजूद है। मान लीजिए n यादृच्छिक चर का एक सदिश m बार देखा जाता है। एक्स को एक मैट्रिक्स होने दें $$X_{i,j}$$ प्रेक्षण i का jवाँ चर है। होने देना $$Z_{m,m}$$ प्रत्येक तत्व 1 के साथ एक m बटा m वर्ग मैट्रिक्स हो। फिर D डेटा रूपांतरित होता है इसलिए प्रत्येक यादृच्छिक चर का शून्य माध्य होता है, और T डेटा रूपांतरित होता है इसलिए सभी चरों का शून्य माध्य होता है और अन्य सभी चरों के साथ शून्य सहसंबंध होता है - प्रतिदर्श सहसंबंध मैट्रिक्स T का पहचान मैट्रिक्स होगा। इकाई विचरण प्राप्त करने के लिए इसे आगे मानक विचलन से विभाजित करना होगा। रूपांतरित चर असंबद्ध होंगे, भले ही वे सांख्यिकीय स्वतंत्रता न हों।


 * $$D = X -\frac{1}{m} Z_{m,m} X$$
 * $$T = D (D^{\mathsf{T}} D)^{-\frac{1}{2}},$$

जहां का एक प्रतिपादक $n$ मैट्रिक्स के व्युत्क्रम के [[मैट्रिक्स उलटा]] का प्रतिनिधित्व करता है। T का सहसंबंध मैट्रिक्स पहचान मैट्रिक्स होगा। यदि एक नया डेटा अवलोकन x n तत्वों का एक पंक्ति वेक्टर है, तो रूपांतरित सदिश d और t प्राप्त करने के लिए x पर समान परिवर्तन उपयोजित किया जा सकता है:


 * $$d = x - \frac{1}{m} Z_{1,m} X,$$
 * $$t = d (D^{\mathsf{T}} D)^{-\frac{1}{2}}.$$

यह अलंकरण बहुभिन्नरूपी डेटा के लिए प्रमुख घटक विश्लेषण से संबंधित है।

सॉफ्टवेयर कार्यान्वयन

 * आर (प्रोग्रामिंग भाषा) के आंकड़े बेस-पैकेज के साथ सहसंबंध गुणांक उपयोजित करता है , या (P मान के साथ भी) के साथ  ]।
 * के माध्यम से [[SciPy] Python (प्रोग्रामिंग लैंग्वेज) लाइब्रेरी ]।
 * पंडास (सॉफ्टवेयर) पायथन पुस्तकालय पियर्सन सहसंबंध गुणांक गणना को विधि के लिए डिफ़ॉल्ट विकल्प के रूप में उपयोजित करता है
 * वोल्फ्राम मैथेमेटिका के माध्यम से ] फलन, या (P मान के साथ) ।
 * के माध्यम से बूस्ट [[C++] लाइब्रेरी ] फलन।
 * एक्सेल में इन-बिल्ट पियर्सन के सहसंबंध गुणांक की गणना के लिए कार्य करता है।

यह भी देखें

 * Anscombe की चौकड़ी
 * एसोसिएशन (सांख्यिकी)
 * Colligation का गुणांक
 * यूल का क्यू
 * यूल की वाई
 * समरूपता सहसंबंध गुणांक
 * सहसंबंध और निर्भरता
 * सहसंबंध अनुपात
 * विस्मृति
 * दूरी सहसंबंध
 * अधिकतम सूचना गुणांक
 * एकाधिक सहसंबंध
 * सामान्य रूप से वितरित और असंबद्ध का अर्थ स्वतंत्र नहीं है
 * विषम अनुपात
 * आंशिक सहसंबंध
 * पॉलीकोरिक सहसंबंध
 * चतुर्थांश गणना अनुपात
 * आरवी गुणांक
 * स्पीयरमैन का रैंक सहसंबंध गुणांक

बाहरी संबंध

 * – A free web interface and R package for the statistical comparison of two dependent or independent correlations with overlapping or non-overlapping variables.
 * – an interactive Flash simulation on the correlation of two normally distributed variables.
 * – large table.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.