पियर्सन सहसंबंध गुणांक

आँकड़ों में, पियर्सन सहसंबंध गुणांक (पीसीसी, उच्चारित ) - जिसे पियर्सन के r के रूप में भी जाना जाता है, पियर्सन गुणन आघूर्ण सहसंबंध गुणांक (पीपीएमसीसी), द्विभाजित सहसंबंध, या बोलचाल की भाषा में केवल सहसंबंध गुणांक के रूप में - डेटा के दो समुच्चय के मध्य रैखिक सहसंबंध और निर्भरता का एक उपाय है। यह दो चरों के सहप्रसरण और उनके मानक विचलनों के गुणनफल के मध्य का अनुपात है; इस प्रकार, यह अनिवार्य रूप से सहप्रसरण का एक सामान्यीकृत माप है, जैसे कि परिणाम में हमेशा -1 और 1 के मध्य का मान होता है। सहप्रसरण के साथ ही, माप केवल चरों के एक रैखिक सहसंबंध को प्रतिबिंबित कर सकता है, और कई अन्य प्रकार के संबंधों या सहसंबंधों की उपेक्षा करता है। एक साधारण उदाहरण के रूप में, एक हाई स्कूल के किशोरों के प्रतिरूप की उम्र और ऊंचाई की अपेक्षा करेगा कि पियर्सन सहसंबंध गुणांक 0 से काफी अधिक है, लेकिन 1 से कम (1 के रूप में एक अवास्तविक रूप से पूर्ण सहसंबंध का प्रतिनिधित्व करेगा)।



नामकरण और इतिहास
यह 1880 के दशक में फ्रांसिस गैल्टन द्वारा प्रस्तावित किए गए एक संबंधित विचार से कार्ल पियर्सन द्वारा विकसित किया गया था, और जिसके लिए गणितीय सूत्र 1844 में अगस्टे ब्रावाइस द्वारा व्युत्पन्न और प्रकाशित किया गया था।   इस प्रकार गुणांक का नामकरण स्टिग्लर के नियम का एक उदाहरण है।

परिभाषा
पियर्सन का सहसंबंध गुणांक उनके मानक विचलन के उत्पाद द्वारा विभाजित दो चर का सहप्रसरण है। परिभाषा के रूप में एक  गुणन आघूर्ण  सम्मलित है, अर्थात, माध्य-समायोजित यादृच्छिक चर के उत्पाद का माध्य (मूल के बारे में पहला क्षण); इसलिए नाम में संशोधक गुणन आघूर्ण सम्मलित है।

जनसंख्या के लिए
पियर्सन का सहसंबंध गुणांक, जब जनसंख्या पर उपयोजित किया जाता है, सामान्यतः ग्रीक अक्षर ρ (rho) द्वारा दर्शाया जाता है और इसे जनसंख्या सहसंबंध गुणांक या जनसंख्या पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। यादृच्छिक चर $$(X,Y)$$ की एक जोड़ी को देखते हुए, ρ के लिए सूत्र है।

$$ \rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}$$ जहाँ
 * $$ \operatorname{cov} $$ सहप्रसरण है
 * $$ \sigma_X $$, $$ X $$ का मानक विचलन है
 * $$ \sigma_Y $$, $$ Y $$ का मानक विचलन है।

$$\rho$$ के सूत्र को माध्य और अपेक्षा के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\operatorname{cov}(X,Y) = \operatorname\mathbb{E}[(X-\mu_X)(Y-\mu_Y)],$$

$$\rho$$ का सूत्र इस प्रकार भी लिखा जा सकता है

$$ \rho_{X,Y} = \frac{\operatorname\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}$$ जहाँ
 * $$ \sigma_Y $$ और $$ \sigma_X $$ को ऊपर के रूप में परिभाषित किया गया है
 * $$ \mu_X $$, $$ X $$ का माध्य है
 * $$ \mu_Y $$, $$ Y $$ का माध्य है
 * $$ \operatorname\mathbb{E} $$ प्रत्याशी है।

$$\rho$$ के सूत्र को अकेंद्रित क्षणों के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\begin{align}

\mu_X ={} &\operatorname\mathbb{E}[\,X\,] \\ \mu_Y ={} &\operatorname\mathbb{E}[\,Y\,] \\ \sigma_X^2 ={} &\operatorname\mathbb{E}\left[\,\left(X - \operatorname\mathbb{E}[X]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,]\right)^2 \\ \sigma_Y^2 ={} &\operatorname\mathbb{E}\left[\,\left(Y - \operatorname\mathbb{E}[Y]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\,\operatorname\mathbb{E}[\,Y\,]\right)^2 \\ &\operatorname\mathbb{E}[\,\left(X - \mu_X\right)\left(Y - \mu_Y\right)\,] = \operatorname\mathbb{E}[\,\left(X - \operatorname\mathbb{E}[\,X\,]\right)\left(Y - \operatorname\mathbb{E}[\,Y\,]\right)\,] = \operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,] \,, \end{align}$$ $$\rho$$ के सूत्र को इस रूप में भी लिखा जा सकता है $$\rho_{X,Y} = \frac{\operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,]}{\sqrt{\operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,] \right)^2} ~ \sqrt{\operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\operatorname\mathbb{E}[\,Y\,] \right)^2}}.$$ पियर्सन का सहसंबंध गुणांक प्रस्तुत नहीं होता है जब $$ \sigma_X $$ या $$ \sigma_Y $$ शून्य, अनंत या अपरिभाषित होते हैं।

एक प्रतिरूप के लिए
पियर्सन का सहसंबंध गुणांक, जब एक प्रतिरूप (सांख्यिकी) पर उपयोजित किया जाता है, सामान्यतः $$r_{xy}$$ द्वारा दर्शाया जाता है और इसे प्रतिदर्श सहसंबंध गुणांक या प्रतिदर्श पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। उपरोक्त सूत्र में एक प्रतिरूप के आधार पर सहप्रसरण और प्रसरण के अनुमानों को प्रतिस्थापित करके $$r_{xy}$$ के लिए एक सूत्र प्राप्त कर सकते हैं। दिए गए युग्मित डेटा $$\left\{ (x_1,y_1),\ldots,(x_n,y_n) \right\}$$में $$n$$ जोड़े सम्मिलित हैं, $$r_{xy}$$ को इस रूप में परिभाषित किया गया है

$$r_{xy} =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}}$$ जहाँ
 * $$n$$ प्रतिदर्श आकार है
 * $$x_i, y_i$$ i के साथ अनुक्रमित व्यक्तिगत प्रतिदर्श बिंदु हैं
 * $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ (प्रतिदर्श माध्य); और इसी तरह $$\bar{y}$$ के लिए।

पुनर्व्यवस्थित करने से हमें $$r_{xy}$$ के लिए यह सूत्र मिलता है:


 * $$r_{xy} = \frac{n\sum x_i y_i - \sum x_i\sum y_i}

{\sqrt{n\sum x_i^2-\left(\sum x_i\right)^2}~\sqrt{n\sum y_i^2-\left(\sum y_i\right)^2}}.$$ जहाँ $$n, x_i, y_i$$ को ऊपर के रूप में परिभाषित किया गया है।

यह सूत्र प्रतिदर्श सहसंबंधों की गणना के लिए एक सुविधाजनक एकल पारण एल्गोरिथ्म का सुझाव देता है, हालांकि सम्मलित संख्याओं के आधार पर, यह कभी-कभी संख्यात्मक रूप से अस्थिर हो सकता है।

पुनर्व्यवस्थित करने से हमें $$r_{xy}$$ के लिए यह सूत्र मिलता है :


 * $$r_{xy} = \frac{\sum_i x_i y_i-n\bar{x}\bar{y}}

{\sqrt{\sum_i x_i^2-n\bar{x}^2}~\sqrt{\sum_i y_i^2-n\bar{y}^2}}.$$ जहाँ $$n, x_i, y_i, \bar{x}, \bar{y}$$ को ऊपर के रूप में परिभाषित किया गया है।

एक समतुल्य अभिव्यक्ति $$r_{xy}$$ के लिए मानक अंकों के गुणनफल के माध्य के रूप में निम्न सूत्र देता है:


 * $$r_{xy} = \frac{1}{n-1} \sum ^n _{i=1} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)$$

जहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ को ऊपर के रूप में परिभाषित किया गया है, और $$s_x, s_y$$ को नीचे परिभाषित किया गया है
 * $\left( \frac{x_i - \bar{x}}{s_x} \right)$ मानक प्राप्तांक है (और समान रूप से $$y$$ के मानक प्राप्तांक के लिए)।

$$r_{xy}$$ के लिए वैकल्पिक सूत्र भी उपलब्ध हैं। उदाहरण के लिए, कोई $$r_{xy}$$ के लिए निम्न सूत्र का उपयोग कर सकता है:


 * $$r_{xy} =\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}$$

जहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ उपरोक्त के रूप में परिभाषित किया गया है और:
 * $s_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$ (प्रतिदर्श मानक विचलन); और समान रूप से $$s_y$$के लिए।

व्यावहारिक परिणाम
अधिक संकेत की स्थिति के अंतर्गत, यादृच्छिक चर के दो समुच्चय के मध्य सहसंबंध गुणांक को निकालना गैर-तुच्छ है, विशेष रूप से जहां कैनोनिकल सहसंबंध विश्लेषण अधिक संकेत योगदान के कारण सहसंबंध मूल्यों को कम करता है। दृष्टिकोण का एक सामान्यीकरण अन्यत्र दिया गया है।

विलुप्त डेटा के प्रकरण में, गैरेन ने अधिकतम संभावना अनुमानक निकाला है।

कुछ वितरण (उदाहरण के लिए, सामान्य वितरण के अलावा स्थिर वितरण) में परिभाषित भिन्नता नहीं होती है।

गणितीय गुण
प्रतिदर्श और जनसंख्या दोनों के मान पियर्सन सहसंबंध गुणांक −1 और 1 के मध्य या उसके मध्य हैं। +1 या −1 के समान सहसंबंध एक रेखा (प्रतिदर्श सहसंबंध के प्रकरण में) पर स्थित डेटा बिंदुओं के अनुरूप होते हैं, या एक रेखा पर पूरी तरह से समर्थित द्विभाजित वितरण (जनसंख्या सहसंबंध के प्रकरण में) के अनुरूप होते हैं। पियर्सन सहसंबंध गुणांक सममित है: corr(X,Y) = corr(Y,X)।

पियर्सन सहसंबंध गुणांक की एक प्रमुख गणितीय गुण यह है कि यह दो चरों में स्थान और मापक में अलग-अलग परिवर्तनों के अंतर्गत अपरिवर्तनीय है। अर्थात्, हम X को $a + bX$ में बदल सकते हैं और Y को $c + dY$ में रूपांतरित कर सकते हैं, जहां a, b, c और d, $b, d > 0$ के साथ स्थिरांक हैं, सहसंबंध गुणांक को बदले बिना स्थिरांक हैं। (यह जनसंख्या और प्रतिदर्श पियर्सन सहसंबंध गुणांक दोनों के लिए है।) अधिक सामान्य रैखिक परिवर्तन सहसंबंध को बदलते हैं: अनुप्रयोग के लिए n यादृच्छिक चर का अलंकरण देखें।

व्याख्या
सहसंबंध गुणांक -1 से 1 तक होता है। यथार्थत: 1 के निरपेक्ष मान का तात्पर्य है कि एक रैखिक समीकरण X और Y के मध्य संबंध का पूरी तरह से वर्णन करता है, जिसमें सभी डेटा बिंदु एक रेखा (गणित) पर होते हैं। सहसंबंध चिह्न प्रतिगमन समतल द्वारा निर्धारित किया जाता है: +1 के मान का अर्थ है कि सभी डेटा बिंदु एक रेखा पर स्थित हैं जिसके लिए Y बढ़ता है क्योंकि X बढ़ता है, और इसके विपरीत -1 के लिए है। 0 के मान का तात्पर्य है कि चरों के मध्य कोई रैखिक निर्भरता नहीं है।

सामान्यतः अधिक, $(X_{i} − \overline{X})(Y_{i} − \overline{Y})$ धनात्मक है यदि और केवल यदि Xi और Yi अपने संबंधित साधनों के एक ही तरफ झूठ बोलते हैं। इस प्रकार सहसंबंध गुणांक धनात्मक होता है यदि Xi और Yi एक साथ अपने संबंधित साधनों से अधिक या एक साथ कम होते हैं। सहसंबंध गुणांक ऋणात्मक (सहसंबंध विरोधी) होता है यदि Xi और Yi अपने संबंधित साधनों के विपरीत पक्ष में झूठ बोलते हैं। इसके अलावा, या तो प्रवृत्ति जितनी मजबूत होती है, सहसंबंध गुणांक का निरपेक्ष मान उतना ही बड़ा होता है।

रोजर्स और नाइसवेंडर ने सहसंबंध या इसके सरल कार्यों की व्याख्या करने के तेरह प्रकारो को सूचीबद्ध किया:
 * मूल प्राप्‍तांक और साधनों का फलन
 * मानकीकृत सहप्रसरण
 * प्रतिगमन रेखा का मानकीकृत ढलान
 * दो प्रतिगमन ढलानों का ज्यामितीय माध्य
 * दो भिन्नताओं के अनुपात का वर्गमूल
 * मानकीकृत चरों का माध्य अन्योन्य गुणन
 * दो मानकीकृत प्रतिगमन रेखाओं के मध्य कोण का फलन
 * दो चर सदिशों के मध्य कोण का फलन
 * मानकीकृत अंकों के मध्य अंतर का पुन: स्केल किया गया विचरण
 * बैलून नियम से अनुमानित
 * सम-सांद्रता के द्विभाजित दीर्घवृत्त से संबंधित
 * उस विषय में किए गए प्रयोगों से परीक्षण आँकड़ों का फलन
 * दो का अनुपात माध्यम

ज्यामितीय व्याख्या
अकेंद्रित डेटा के लिए, सहसंबंध गुणांक और कोण φ के मध्य दो प्रतिगमन रेखाओं, y = gX(x) और x = gY(y) के मध्य एक संबंध है, जो क्रमशः y पर x और x पर y को प्रतिगमन करके प्राप्त किया जाता है। (यहाँ, φ को लाइनों के प्रतिच्छेदन बिंदु के चारों ओर बनने वाले पहले चतुर्थांश के अंतर्गत वामावर्त मापा जाता है यदि $y = g_{X}(x)$, या चौथे से दूसरे चतुर्थांश तक विपरीत दिशा में मापा जाता है यदि r < 0 है) कोई यह दिखा सकता है कि यदि मानक विचलन समान हैं, तब r = sec φ − tan φ, जहाँ sec और tan त्रिकोणमितीय फलन हैं।

केंद्रित डेटा के लिए (अर्थात, डेटा जो उनके संबंधित चर के प्रतिदर्श माध्यम से स्थानांतरित कर दिया गया है ताकि प्रत्येक चर के लिए औसत शून्य हो), सहसंबंध गुणांक को N-डायमेंशनल समष्टि में दो देखे गए सदिश के मध्य कोण θ के कोज्या के रूप में भी देखा जा सकता है (प्रत्येक चर के N अवलोकनों के लिए)

किसी डेटासमुच्चय के लिए अकेंद्रित (गैर-पियर्सन-अनुपालन) और केंद्रित सहसंबंध गुणांक दोनों निर्धारित किए जा सकते हैं। एक उदाहरण के रूप में, मान लीजिए कि पाँच देशों में क्रमशः 1, 2, 3, 5 और 8 बिलियन डॉलर के सकल राष्ट्रीय उत्पाद पाए जाते हैं। मान लीजिए इन्हीं पांच देशों में (इसी क्रम में) 11%, 12%, 13%, 15% और 18% गरीबी पाई जाती है। फिर x और y को उपरोक्त डेटा वाले 5-तत्व सदिश का आदेश दें: x = (1, 2, 3, 5, 8) और y = (0.11, 0.12, 0.13, 0.15, 0.18)।

दो सदिशों (बिंदु गुणनफल देखें) के मध्य कोण θ निर्धारण की सामान्य प्रक्रिया के अनुसार, अकेंद्रित सहसंबंध गुणांक है।


 * $$ \cos \theta = \frac { \mathbf{x} \cdot \mathbf{y} } { \left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {2.93} { \sqrt{103} \sqrt{0.0983} } = 0.920814711. $$

यह अकेंद्रित सहसंबंध गुणांक कोज्या समानता के समान है। उपरोक्त डेटा को ध्यानपूर्वक पूरी तरह से सहसंबद्ध होने के लिए चयन किया गया था: $x = g_{Y}(y)$। पियर्सन सहसंबंध गुणांक इसलिए यथार्थत: एक होना चाहिए। डेटा को केंद्रित करना (x को $r > 0$ और y को $y = 0.10 + 0.01 x$ से स्थानांतरित करने पर $ℰ(x) = 3.8$ और $ℰ(y) = 0.138$ प्राप्त होता है, जिससे


 * $$ \cos \theta = \frac{\mathbf{x} \cdot \mathbf{y}} {\left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {0.308}{\sqrt{30.8}\sqrt{0.00308}} = 1 = \rho_{xy}, $$

अपेक्षा के अनुरूप।

सहसंबंध के आकार की व्याख्या
कई लेखकों ने सहसंबंध गुणांक की व्याख्या के लिए दिशा-निर्देश दिए हैं। हालाँकि, ऐसे सभी मानदंड एक तरह से स्वेच्छाचारी हैं। सहसंबंध गुणांक की व्याख्या संदर्भ और उद्देश्यों पर निर्भर करती है। 0.8 का सहसंबंध बहुत कम हो सकता है यदि कोई उच्च गुणवत्ता वाले उपकरणों का उपयोग करके भौतिक कानून की पुष्टि कर रहा है, लेकिन सामाजिक विज्ञानों में इसे बहुत अधिक माना जा सकता है, जहां जटिल कारकों से अधिक योगदान हो सकता है।

अनुमान
पियर्सन के सहसंबंध गुणांक पर आधारित सांख्यिकीय निष्कर्ष प्रायः निम्नलिखित दो लक्ष्यों में से एक पर केंद्रित होता है: हम नीचे इनमें से एक या दोनों लक्ष्यों को प्राप्त करने के पद्धति पर विचार करते हैं।
 * एक उद्देश्य शून्य परिकल्पना का परीक्षण करना है कि सही सहसंबंध गुणांक ρ 0 के समान है, जो प्रतिदर्श सहसंबंध गुणांक r के मान पर आधारित है।
 * दूसरा उद्देश्य एक विश्वास अंतराल प्राप्त करना है, जिसमें बार-बार प्रतिरूप लेने पर ρ होने की संभावना है।

क्रमपरिवर्तन परीक्षण का उपयोग करना
क्रमचय परीक्षण परिकल्पना परीक्षण करने और विश्वास अंतराल के निर्माण के लिए एक सीधा दृष्टिकोण प्रदान करते हैं। पियर्सन के सहसंबंध गुणांक के लिए एक क्रमचय परीक्षण में निम्नलिखित दो चरण सम्मलित हैं: क्रमचय परीक्षण करने के लिए, चरण (1) और (2) को बड़ी संख्या में दोहराएं। क्रमचय परीक्षण के लिए p-मान चरण (2) में उत्पन्न r मानों का अनुपात है जो पियर्सन सहसंबंध गुणांक से बड़ा है जिसकी गणना मूल डेटा से की गई थी। यहां  बृहत्तर  का अर्थ या तो यह हो सकता है कि मूल्य परिमाण में बड़ा है, या हस्ताक्षरित मूल्य में बड़ा है, यह इस बात पर निर्भर करता है कि दो तरफा या एक तरफा परीक्षण वांछित है या नहीं है।
 * 1) मूल युग्मित डेटा (xi, yi) का उपयोग करके, एक नया डेटा समुच्चय (xi, yi) बनाने के लिए जोड़े को यादृच्छिक रूप से फिर से परिभाषित करें, जहां i' समुच्चय {1,...,n} का क्रमचय है। क्रमचय i' को यादृच्छिक रूप से चयन किया गया है, जिसमें सभी n! संभावित क्रमपरिवर्तनों पर समान संभावनाएँ रखी गई हैं। यह समुच्चय {1, ..., n} से प्रतिस्थापन के बिना i' को यादृच्छिक रूप से रेखाचित्र के समान है। बूटस्ट्रैपिंग (सांख्यिकी) में, एक निकट से संबंधित दृष्टिकोण, i और i' समान हैं और {1, ..., n} से प्रतिस्थापन के साथ विकृत किए गए हैं;
 * 2) यादृच्छिक डेटा से एक सहसंबंध गुणांक r का निर्माण करें।

बूटस्ट्रैप का उपयोग
पियर्सन के सहसंबंध गुणांक के लिए विश्वास्यता अंतराल बनाने के लिए बूटस्ट्रैपिंग (सांख्यिकी) का उपयोग किया जा सकता है। अप्राचल बूटस्ट्रैप में, n जोड़े (xi, yi) को n जोड़े के देखे गए समुच्चय से  प्रतिस्थापन के साथ  पुनः प्रतिचयन किया जाता है, और सहसंबंध गुणांक r की गणना पुन: प्रतिदर्श डेटा के आधार पर की जाती है। इस प्रक्रिया को बड़ी संख्या में बार-बार दोहराया जाता है, और पुनरुत्पादित r मानों के अनुभवजन्य वितरण का उपयोग आँकड़ों के प्रतिदर्शकरण वितरण को अनुमानित करने के लिए किया जाता है। ρ के लिए 95% विश्वास्यता अंतराल को पुनः प्रतिचयन किए गए r मानों के 2.5वें से 97.5वें प्रतिशतता तक विस्तरित अंतराल के रूप में परिभाषित किया जा सकता है।

मानक त्रुटि
अगर $$x$$ और $$y$$ यादृच्छिक चर हैं, अशक्त प्रकरण में सहसंबंध से जुड़ी एक मानक त्रुटि है


 * $$\sigma_r = \sqrt{\frac{1-r^2}{n-2}}$$

जहाँ $$r$$ सहसंबंध है (मान लिया गया है कि r≈0) और $$n$$ प्रतिदर्श आकार है।

विद्यार्थी के t-वितरण का प्रयोग करके परीक्षण
एक असंबद्ध द्विभाजित सामान्य वितरण से जोड़े के लिए, छात्रकृत पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण स्वतंत्रता की डिग्री n − 2 के साथ विद्यार्थी के t-वितरण का अनुसरण करता है। विशेष रूप से, यदि अंतर्निहित चर में द्विभाजित सामान्य वितरण है, तो चर


 * $$t = \frac{r}{\sigma_r} = r\sqrt{\frac{n-2}{1 - r^2}}$$

शून्य कारक (शून्य सहसंबंध) में एक विद्यार्थी का t-वितरण है। यदि प्रतिदर्श आकार अधिक बड़ा है तो अपसामान्य देखे गए मानों के प्रकरण में यह लगभग रहता है। r के महत्वपूर्ण मानों को निर्धारित करने के लिए प्रतिलोम फलन की आवश्यकता होती है:


 * $$r = \frac{t}{\sqrt{n - 2 + t^2}}.$$

वैकल्पिक रूप से, बड़े प्रतिरूप, स्पर्शोन्मुख दृष्टिकोण का उपयोग किया जा सकता है।

एक और प्रारंभिक दस्तावेज़ छोटे प्रतिदर्श आकारों के लिए ρ के सामान्य मूल्यों के लिए आलेख और सूची प्रदान करता है, और संगणनात्मक दृष्टिकोण पर वर्णन करता है।

ऐसे प्रकरण में जहां अंतर्निहित चर सामान्य नहीं हैं, पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण छात्र के t-वितरण का अनुसरण करता है, लेकिन स्वतंत्रता की डिग्री कम हो जाती है।

यथार्थ वितरण का प्रयोग
द्विभाजित सामान्य वितरण का अनुसरण करने वाले डेटा के लिए, सामान्य द्विचर के प्रतिदर्श सहसंबंध गुणांक r के लिए यथार्थ घनत्व फलन f(r) है
 * $$f(r) = \frac{(n - 2)\, \mathrm{\Gamma}(n - 1) \left(1 - \rho^2\right)^{\frac{n - 1}{2}} \left(1 - r^2\right)^{\frac{n - 4}{2}}}{\sqrt{2\pi}\, \operatorname{\Gamma}\mathord\left(n - \tfrac{1}{2}\right) (1 - \rho r)^{n - \frac{3}{2}}} {}_{2}\mathrm{F}_{1}\mathord\left(\tfrac{1}{2}, \tfrac{1}{2}; \tfrac{1}{2}(2n - 1); \tfrac{1}{2}(\rho r + 1)\right)$$

कहाँ $$\Gamma$$ गामा फलन है और $${}_{2}\mathrm{F}_{1}(a,b;c;z)$$ गौसीय अतिज्यामितीय फलन है।

विशेष प्रकरण में जब $$\rho = 0$$ (शून्य जनसंख्या सहसंबंध), यथार्थ घनत्व फलन f(r) के रूप में लिखा जा सकता है


 * $$f(r) = \frac{\left(1 - r^2\right)^{\frac{n - 4}{2}}}{\Beta\left(\tfrac{1}{2}, \tfrac{1}{2}(n - 2)\right)},$$

कहाँ $$\Beta$$ बीटा फलन है, जो ऊपर बताए अनुसार विद्यार्थी के t-वितरण के घनत्व को लिखने का एक प्रकार है।

यथार्थ विश्वास्यता वितरण का उपयोग करना
विश्वास्यता वितरण और परीक्षण की गणना विश्वास वितरण से की जा सकती है। ρ के लिए एक यथार्थ आत्मविश्वास घनत्व है

$$ \pi(\rho \mid r) = \frac{\nu(\nu - 1)\Gamma(\nu - 1)} {\sqrt{2\pi}\Gamma\left(\nu + \frac{1}{2}\right)} \left(1 - r^2\right)^{\frac{\nu - 1}{2}} \cdot \left(1 - \rho^2\right)^{\frac{\nu - 2}{2}} \cdot \left(1 - r \rho\right)^{\frac{1 - 2\nu}{2}} \operatorname{F}\left(\tfrac{3}{2}, -\tfrac{1}{2}; \nu + \tfrac{1}{2}; \tfrac{1 + r \rho}{2}\right) $$ जहाँ $$\operatorname{F}$$ गॉसियन अतिज्यामितीय फलन है और $$\nu = n - 1 > 1$$ है।

फिशर परिवर्तन का उपयोग
व्यवहार में, विश्वास अंतराल और ρ से संबंधित परिकल्पना परीक्षण सामान्यतः फिशर परिवर्तन, $$F$$ का उपयोग करके किया जाता है:


 * $$F(r) \equiv \tfrac{1}{2} \, \ln \left(\frac{1 + r}{1 - r}\right) = \operatorname{artanh}(r)$$

F(r) लगभग एक सामान्य वितरण का अनुसरण करता है


 * $$\text{mean} = F(\rho) = \operatorname{artanh}(\rho)$$   और मानक त्रुटि $$=\text{SE} = \frac{1}{\sqrt{n - 3}},$$

जहाँ n प्रतिदर्श आकार है। बृहत्प्रतिदर्श आकार $$n$$ और छोटे $$r$$ और $$\rho_0$$ के लिए सन्निकटन त्रुटि सबसे कम है और अन्यथा बढ़ जाती है।

सन्निकटन का उपयोग करते हुए, एक z-प्राप्तांक है


 * $$z = \frac{x - \text{mean}}{\text{SE}} = [F(r) - F(\rho_0)]\sqrt{n - 3}$$

शून्य परिकल्पना के अंतर्गत $$\rho = \rho_0$$, यह मानते हुए कि प्रतिदर्श जोड़े स्वतंत्र और समान रूप से वितरित हैं और द्विभाजित सामान्य वितरण का अनुसरण करते हैं। इस प्रकार एक सामान्य प्रायिकता सूची से एक अनुमानित p-मान प्राप्त किया जा सकता है। उदाहरण के लिए, यदि z = 2.2 देखा जाता है और शून्य परिकल्पना का परीक्षण करने के लिए उभय पक्षीय p-मान वांछित है कि $$\rho = 0$$, p-मान 2&thinsp;Φ(−2.2) = 0.028 है, जहां Φ मानक सामान्य संचयी वितरण फलन है।

ρ के लिए एक विश्वास्यता अंतराल प्राप्त करने के लिए, हम पहले F($$\rho$$) के लिए एक विश्वास्यता अंतराल की गणना करते हैं:


 * $$100(1 - \alpha)\%\text{CI}: \operatorname{artanh}(\rho) \in [\operatorname{artanh}(r) \pm z_{\alpha/2}\text{SE}]$$

व्युत्क्रम फिशर परिवर्तन अंतराल को सहसंबंध पैमाने पर वापस लाता है।


 * $$100(1 - \alpha)\%\text{CI}: \rho \in [\tanh(\operatorname{artanh}(r) - z_{\alpha/2}\text{SE}), \tanh(\operatorname{artanh}(r) + z_{\alpha/2}\text{SE})]$$

उदाहरण के लिए, मान लीजिए कि हम r = 0.7 को n = 50 के प्रतिरूप के आकार के साथ देखते हैं, और हम ρ के लिए 95% विश्वास अंतराल प्राप्त करना चाहते हैं। रूपांतरित मान arctanh(r) = 0.8673 है, इसलिए रूपांतरित पैमाने पर विश्वास अंतराल 0.8673 ± 1.96/$\sqrt{47}$, या (0.5814, 1.1532) है। सहसंबंध पैमाने की यील्ड में वापस परिवर्तित करना (0.5237, 0.8188) है।

कम से कम वर्गों में प्रतिगमन विश्लेषण
प्रतिदर्श सहसंबंध गुणांक के वर्ग को सामान्यतः r2 निरूपित किया जाता है और निर्धारण के गुणांक का एक विशेष प्रकरण है। इस प्रकरण में, यह Y में भिन्नता के अंश का अनुमान लगाता है जिसे X द्वारा सरल रैखिक प्रतिगमन में समझाया गया है। इसलिए यदि हमारे पास देखे गए डेटासमुच्चय $$Y_1, \dots, Y_n$$ और उपयुक्त किए गए डेटासमुच्चय $$\hat Y_1, \dots , \hat Y_n$$ हैं, तो प्रारंभिक बिंदु के रूप में उनके औसत मूल्य के आसपास Yi में कुल भिन्नता को निम्नानुसार विघटित किया जा सकता है


 * $$\sum_i (Y_i - \bar{Y})^2 = \sum_i (Y_i-\hat{Y}_i)^2 + \sum_i (\hat{Y}_i-\bar{Y})^2,$$

जहां $$\hat{Y}_i$$ प्रतिगमन विश्लेषण से उपयुक्त किए गए मान हैं। इसे देने के लिए पुनर्व्यवस्थित किया जा सकता है


 * $$1 = \frac{\sum_i (Y_i-\hat{Y}_i)^2}{\sum_i (Y_i - \bar{Y})^2} + \frac{\sum_i (\hat{Y}_i-\bar{Y})^2}{\sum_i (Y_i - \bar{Y})^2}.$$

उपरोक्त दो सारांश Y में भिन्नता का अंश है जिसे X (दाएं) द्वारा समझाया गया है और जो X (बाएं) द्वारा अस्पष्टीकृत है।

इसके बाद, हम कम से कम वर्ग प्रतिगमन प्रतिरूप का एक गुण उपयोजित करते हैं, जो $$\hat{Y}_i$$ और $$Y_i-\hat{Y}_i$$ के मध्य प्रतिदर्श सहप्रसरण शून्य है। इस प्रकार, प्रतिगमन में देखे गए और सज्जित प्रतिक्रिया मूल्यों के मध्य प्रतिदर्श सहसंबंध गुणांक लिखा जा सकता है (गणना अपेक्षा के अधीन है, गॉसियन सांख्यिकी मानती है)



\begin{align} r(Y,\hat{Y}) &= \frac{\sum_i(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{\sum_i(Y_i-\hat{Y}_i+\hat{Y}_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i [(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) +(\hat{Y}_i-\bar{Y})^2 ]}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i (\hat{Y}_i-\bar{Y})^2 }{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}. \end{align} $$ इस प्रकार


 * $$r(Y,\hat{Y})^2 = \frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}$$

जहाँ $$r(Y,\hat{Y})^2$$ Y में प्रसरण का अनुपात है, जिसे X के रैखिक फलन द्वारा समझाया गया है।

उपरोक्त व्युत्पत्ति में, तथ्य यह है कि
 * $$\sum_i (Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) = 0$$

यह देख कर सिद्ध किया जा सकता है कि β0 और β1 से अधिक वर्गों के अवशिष्ट योग ($x = (−2.8, −1.8, −0.8, 1.2, 4.2)$) का आंशिक अवकलज सबसे कम से कम वर्ग प्रतिरूप में 0 के समान हैं, जहां
 * $$\text{RSS} = \sum_i (Y_i - \hat{Y}_i)^2$$.

अंत में, समीकरण के रूप में लिखा जा सकता है


 * $$r(Y,\hat{Y})^2 = \frac{\text{SS}_\text{reg}}{\text{SS}_\text{tot}}$$

जहां प्रतीक $$\text{SS}_\text{reg}$$ को वर्गों का प्रतिगमन योग कहा जाता है, जिसे वर्गों का समझाया योग भी कहा जाता है, और $$\text{SS}_\text{tot}$$ वर्गों का कुल योग है (डेटा के प्रसरण के अनुपात में)।
 * $$\text{SS}_\text{reg} = \sum_i (\hat{Y}_i-\bar{Y})^2$$
 * $$\text{SS}_\text{tot} = \sum_i (Y_i-\bar{Y})^2$$.

अस्तित्व
जनसंख्या पियर्सन सहसंबंध गुणांक को क्षणों के संदर्भ में परिभाषित किया गया है, और इसलिए किसी भी द्विभाजित संभाव्यता वितरण के लिए उपस्तिथ है जिसके लिए सांख्यिकीय जनसंख्या सहप्रसरण परिभाषित किया गया है और सीमांत जनसंख्या प्रसरण परिभाषित और शून्येतर हैं। कुछ संभाव्यता वितरण, जैसे कौशी वितरण में अपरिभाषित प्रसरण है और इसलिए ρ परिभाषित नहीं है यदि X या Y ऐसे वितरण का अनुसरण करता है। कुछ व्यावहारिक अनुप्रयोगों में, जैसे कि भारी-पुच्छल वाले वितरण का अनुसरण करने के संदेह वाले डेटा को सम्मलित करना, यह एक महत्वपूर्ण विचार है। हालाँकि, सहसंबंध गुणांक का अस्तित्व सामान्यतः चिंता का विषय नहीं है; उदाहरण के लिए, यदि वितरण की सीमा परिबद्ध है, तो ρ हमेशा परिभाषित होता है।

प्रतिदर्श आकार

 * यदि प्रतिदर्श आकार मध्यम या बड़ा है और जनसंख्या सामान्य है, तो द्विचर सामान्य वितरण के प्रकरण में, प्रतिदर्श सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का अधिकतम संभावना अनुमान है, और विषम रूप से निष्पक्ष और सक्षम है, जिसका स्थूलतः अर्थ है कि प्रतिदर्श सहसंबंध गुणांक की तुलना में अधिक यथार्थ अनुमान बनाना असंभव है।
 * यदि प्रतिदर्श आकार बड़ा है और जनसंख्या सामान्य नहीं है, तो प्रतिदर्श सहसंबंध गुणांक लगभग निष्पक्ष रहता है, लेकिन कुशल नहीं हो सकता है।
 * यदि प्रतिदर्श आकार बड़ा है, तो प्रतिदर्श सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का एक सुसंगत अनुमानक है, जब तक कि प्रतिदर्श साधन, प्रसरण, और सहप्रसरण सुसंगत हैं (जो बड़ी संख्या के विधि को उपयोजित किए जाने पर गारंटीकृत है)।
 * यदि प्रतिदर्श आकार छोटा है, तो प्रतिदर्श सहसंबंध गुणांक r ρ का निष्पक्ष अनुमान नहीं है। इसके बदले समायोजित सहसंबंध गुणांक का उपयोग किया जाना चाहिए: परिभाषा के लिए इस आलेख में कहीं और देखें।
 * प्रतिदर्श में विचरण त्रुटि होने पर असंतुलित द्विबीजपत्री चर डेटा के लिए सहसंबंध भिन्न हो सकते हैं।

पृष्टता
सामान्यतः उपयोग किए जाने वाले अनेक आँकड़ों की तरह, प्रतिदर्श आँकड़ा r पृष्टता नहीं है, इसलिए यदि पुरांतःशायी उपस्तिथ हैं तो इसका मान भ्रामक हो सकता है। विशेष रूप से, पीएमसीसी न तो वितरण की दृष्टि से पृष्टता है, और न ही बाहरी प्रतिरोधी है (देखना )। X और Y के मध्य स्कैटर प्लॉट का निरीक्षण सामान्यतः ऐसी स्थिति प्रकट करेगा जहां पृष्टता की कमी एक परिणाम हो सकता है, और ऐसे प्रकरणों में संयोजन के एक पुष्ट उपाय का उपयोग करने की सलाह दी जा सकती है। हालांकि ध्यान दें कि हालांकि संयोजन के सबसे पुष्ट अनुमानक किसी तरह से सांख्यिकीय निर्भरता को मापते हैं, वे सामान्यतः पियर्सन सहसंबंध गुणांक के समान पैमाने पर व्याख्या करने योग्य नहीं होते हैं।

पियर्सन के सहसंबंध गुणांक के लिए सांख्यिकीय निष्कर्ष डेटा वितरण के प्रति संवेदनशील है। यदि डेटा लगभग सामान्य रूप से वितरित किया जाता है, लेकिन फ़िशर परिवर्तन पर आधारित यथार्थ परीक्षण और स्पर्शोन्मुख परीक्षण उपयोजित किए जा सकते हैं, लेकिन अन्यथा भ्रामक हो सकते हैं। कुछ स्थितियों में, बूटस्ट्रैपिंग (सांख्यिकी) को विश्वास्यता वितरण बनाने के लिए उपयोजित किया जा सकता है, और परिकल्पना परीक्षण करने के लिए क्रमचय परीक्षण उपयोजित किए जा सकते हैं। ये अप्राचल दृष्टिकोण कुछ स्थितियों में अधिक सार्थक परिणाम दे सकते हैं जहाँ द्विभाजित सामान्यता नहीं होती है। हालांकि इन दृष्टिकोणों के मानक संस्करण डेटा की विनिमेयता पर निर्भर करते हैं, जिसका अर्थ है कि विश्लेषण किए जा रहे डेटा जोड़े का कोई क्रम या समूहीकरण नहीं है जो सहसंबंध अनुमान के व्यवहार को प्रभावित कर सकता है।

एक स्तरीकृत विश्लेषण या तो द्विभाजित सामान्यता की कमी को समायोजित करने का एक प्रकार है, या दूसरे के लिए नियंत्रण करते समय एक कारक से उत्पन्न सहसंबंध को अलग करना है। यदि W समूह सदस्यता या किसी अन्य कारक का प्रतिनिधित्व करता है जिसे नियंत्रित करना वांछनीय है, तो हम W के मान के आधार पर डेटा को स्तरीकृत कर सकते हैं, फिर प्रत्येक स्तर के अंतर्गत एक सहसंबंध गुणांक की गणना कर सकते हैं। W के लिए नियंत्रण करते समय समग्र सहसंबंध का अनुमान लगाने के लिए स्ट्रैटम-स्तर के अनुमानों को जोड़ा जा सकता है।

परिवर्तन
सहसंबंध गुणांक की विविधताओं की गणना विभिन्न उद्देश्यों के लिए की जा सकती है। यहां कुछ उदाहरण दिए गए हैं।

समायोजित सहसंबंध गुणांक
प्रतिदर्श सहसंबंध गुणांक $r$ $ρ$ का निष्पक्ष अनुमान नहीं है। द्विभाजित सामान्य वितरण के बाद आने वाले डेटा के लिए, एक सामान्य द्विचर के प्रतिदर्श सहसंबंध गुणांक r के लिए अपेक्षा $y = (−0.028, −0.018, −0.008, 0.012, 0.042)$ हैं।
 * $$\operatorname\mathbb{E}\left[r\right] = \rho - \frac{\rho \left(1 - \rho^2\right)}{2n} + \cdots, \quad$$ इसलिए $r$ $$\rho$$ का एक पक्षपाती अनुमानक है।

अद्वितीय न्यूनतम भिन्नता निष्पक्ष अनुमानक $RSS$ द्वारा दिया गया है

जहाँ:
 * $$r, n$$ को ऊपर के रूप में परिभाषित किया गया है,
 * $$\mathbf{_2 F_1}(a, b; c; z)$$ गाऊसी अतिज्यामितीय फलन है।

एक लगभग निष्पक्ष अनुमानक $E[r]$ को $r_{adj}$ को छोटा करके और इस संक्षिप्त समीकरण को हल करके प्राप्त किया जा सकता है:

समीकरण ($$) का एक अनुमानित समाधान है

जहाँ ($$) में
 * $$r, n$$ को ऊपर के रूप में परिभाषित किया गया है,
 * $r_{adj}$ एक उपइष्टतम अनुमानक है,
 * log(f(r)) को अधिकतम करके $E[r]$ भी प्राप्त किया जा सकता है,
 * $$ के बड़े मानों के लिए $r_{adj}$ का न्यूनतम विचरण है,
 * $r_{adj}$ का बायस अनुक्रम $r_{adj}$ है।

एक अन्य प्रस्तावित समायोजित सहसंबंध गुणांक है


 * $$r_\text{adj}=\sqrt{1-\frac{(1-r^2)(n-1)}{(n-2)}}.$$

$r_{adj}$ $$ के बड़े मूल्यों के लिए।

भारित सहसंबंध गुणांक
मान लीजिए कि सहसंबद्ध होने वाली कथन में अलग-अलग डिग्री के महत्व होते हैं जिन्हें महत्व सदिश w के साथ व्यक्त किया जा सकता है। सदिश x और y के मध्य महत्व सदिश w (सभी लंबाई n) के साथ सहसंबंध की गणना करने के लिए,
 * भारित माध्य: $$\operatorname{m}(x; w) = \frac{\sum_i w_i x_i}{\sum_i w_i}.$$
 * भारित सहप्रसरण $$\operatorname{cov}(x,y;w) = \frac{\sum_i w_i \cdot (x_i - \operatorname{m}(x; w)) (y_i - \operatorname{m}(y; w))}{\sum_i w_i }.$$
 * भारित सहसंबंध $$\operatorname{corr}(x,y;w) = \frac{\operatorname{cov}(x,y;w)}{\sqrt{\operatorname{cov}(x,x;w) \operatorname{cov}(y,y;w)}}.$$

परावर्तक सहसंबंध गुणांक
परावर्तक सहसंबंध पियर्सन के सहसंबंध का एक प्रकार है जिसमें डेटा उनके औसत मूल्यों के आसपास केंद्रित नहीं होते हैं। जनसंख्या परावर्तक सहसंबंध है


 * $$\operatorname{corr}_r(X,Y) = \frac{\operatorname\mathbb{E}[\,X\,Y\,]}{\sqrt{\operatorname\mathbb{E}[\,X^2\,]\cdot \operatorname\mathbb{E}[\,Y^2\,]}}.$$

परावर्तक सहसंबंध सममित है, लेकिन यह अनुवाद के अंतर्गत अपरिवर्तनीय नहीं है:


 * $$\operatorname{corr}_r(X, Y) = \operatorname{corr}_r(Y, X) = \operatorname{corr}_r(X, bY) \neq \operatorname{corr}_r(X, a + b Y), \quad a \neq 0, b > 0.$$

प्रतिदर्श परावर्तक सहसंबंध कोज्या समानता के समान है:


 * $$rr_{xy} = \frac{\sum x_i y_i}{\sqrt{(\sum x_i^2)(\sum y_i^2)}}.$$

प्रतिदर्श परावर्तक सहसंबंध का भारित संस्करण है


 * $$rr_{xy, w} = \frac{\sum w_i x_i y_i}{\sqrt{(\sum w_i x_i^2)(\sum w_i y_i^2)}}.$$

स्केल्ड सहसंबंध गुणांक
स्केल्ड सहसंबंध पियर्सन के सहसंबंध का एक रूप है जिसमें समय श्रृंखला में तेजी से घटकों के मध्य सहसंबंधों को प्रकट करने के लिए डेटा की सीमा अभिप्राय और नियंत्रित प्रकार से प्रतिबंधित है। स्केल्ड सहसंबंध को डेटा के छोटे खंडों में औसत सहसंबंध के रूप में परिभाषित किया गया है।

$$K$$ को उन खंडों की संख्या होने दें जो किसी दिए गए पैमाने $$s$$ के लिए सिग्नल $$T$$ की कुल लंबाई में उपयुक्त हो सकते हैं:


 * $$K = \operatorname{round}\left(\frac{T}{s}\right).$$

पूरे सिग्नल $$\bar{r}_s$$ में स्केल किए गए सहसंबंध की गणना तब की जाती है


 * $$\bar{r}_s = \frac{1}{K} \sum\limits_{k=1}^K r_k,$$

जहाँ $$r_k$$ खंड $$k$$ के लिए पियर्सन का सहसंबंध गुणांक है।

पैरामीटर $$s$$ का चयन करके, मूल्यों की सीमा कम हो जाती है और लंबे समय के पैमाने पर सहसंबंधों को फ़िल्टर कर दिया जाता है, केवल कम समय के पैमाने पर सहसंबंधों का पता चलता है। इस प्रकार, मंदघटक के योगदान को हटा दिया जाता है और तीव्र घटक के योगदान को प्रतिधारित रखा जाता है।

पियर्सन की दूरी
पियर्सन की दूरी के रूप में ज्ञात दो चर X और Y के लिए एक दूरी मीट्रिक को उनके सहसंबंध गुणांक से परिभाषित किया जा सकता है
 * $$d_{X,Y}=1-\rho_{X,Y}.$$

यह मानते हुए कि पियर्सन सहसंबंध गुणांक [−1, +1] के मध्य आता है, पियर्सन की दूरी [0, 2] में है। अज्ञात लाभ और अंतरण के साथ संचार और भंडारण के लिए गुच्छ विश्लेषण और डेटा पहचान में पियरसन दूरी का उपयोग किया गया है।

इस तरह परिभाषित पियर्सन दूरी नकारात्मक सहसंबंधों को 1 से अधिक की दूरी प्रदान करती है। वास्तव में, मजबूत सकारात्मक सहसंबंध और नकारात्मक सहसंबंध दोनों अर्थपूर्ण हैं, इसलिए निकटतम पड़ोसी एल्गोरिदम के लिए पियर्सन दूरी का उपयोग करते समय सावधानी बरतनी चाहिए क्योंकि इस तरह के एल्गोरिदम में केवल सकारात्मक सहसंबंध वाले पड़ोसियों को सम्मलित किया जाएगा और नकारात्मक सहसंबंध वाले पड़ोसियों को बाहर रखा जाएगा। वैकल्पिक रूप से, एक पूर्ण मूल्यवान दूरी, $$d_{X,Y}=1-|\rho_{X,Y}|$$, उपयोजित किया जा सकता है, जो सकारात्मक और नकारात्मक दोनों सहसंबंधों को ध्यान में रखेगा। सकारात्मक और नकारात्मक संघ की जानकारी बाद में अलग-अलग निकाली जा सकती है।

परिपत्र सहसंबंध गुणांक
चरों के लिए X = {x1,...,एक्सn} और वाई = {वाई1,...,औरn} जो यूनिट सर्कल पर परिभाषित हैं $$, पियर्सन के गुणांक के एक परिपत्र अनुरूप को परिभाषित करना संभव है। यह एक्स और वाई में डेटा बिंदुओं को एक उन लोगों के  फलन के साथ परिवर्तित करके किया जाता है जैसे कि सहसंबंध गुणांक इस प्रकार दिया जाता है:


 * $$r_\text{circular} = \frac{\sum ^n _{i=1}\sin(x_i - \bar{x}) \sin(y_i - \bar{y})}{\sqrt{\sum^n_{i=1} \sin(x_i - \bar{x})^2} \sqrt{\sum ^n_{i=1} \sin(y_i - \bar{y})^2}}$$

कहाँ $$\bar{x}$$ और $$\bar{y}$$ X और Y की वृत्ताकार मात्राओं का माध्य हैं। यह माप मौसम विज्ञान जैसे क्षेत्रों में उपयोगी हो सकता है जहां डेटा की कोणीय दिशा महत्वपूर्ण है।

आंशिक सहसंबंध
यदि जनसंख्या या डेटा-समुच्चय को दो से अधिक चरों की विशेषता है, तो एक आंशिक सहसंबंध गुणांक उन चरों की एक जोड़ी के मध्य निर्भरता की ताकत को मापता है, जिस तरह से वे दोनों एक चयनित उपसमुच्चय में भिन्नता के जवाब में बदलते हैं। अन्य चरों का।

एन यादृच्छिक चर का अलंकरण
डेटा परिवर्तन का उपयोग करके यादृच्छिक चर की मनमानी संख्या के सभी जोड़े के मध्य सहसंबंधों को हटाना हमेशा संभव होता है, भले ही चर के मध्य संबंध गैर-रैखिक हो। कॉक्स एंड हिंकले द्वारा जनसंख्या वितरण के लिए इस परिणाम की प्रस्तुति दी गई है। प्रतिदर्श सहसंबंधों को शून्य तक कम करने के लिए एक संबंधित परिणाम उपस्तिथ है। मान लीजिए n यादृच्छिक चर का एक सदिश m बार देखा जाता है। एक्स को एक मैट्रिक्स होने दें $$X_{i,j}$$ प्रेक्षण i का jवाँ चर है। होने देना $$Z_{m,m}$$ प्रत्येक तत्व 1 के साथ एक m बटा m वर्ग मैट्रिक्स हो। फिर D डेटा रूपांतरित होता है इसलिए प्रत्येक यादृच्छिक चर का शून्य माध्य होता है, और T डेटा रूपांतरित होता है इसलिए सभी चरों का शून्य माध्य होता है और अन्य सभी चरों के साथ शून्य सहसंबंध होता है - प्रतिदर्श सहसंबंध मैट्रिक्स T का पहचान मैट्रिक्स होगा। इकाई विचरण प्राप्त करने के लिए इसे आगे मानक विचलन से विभाजित करना होगा। रूपांतरित चर असंबद्ध होंगे, भले ही वे सांख्यिकीय स्वतंत्रता न हों।


 * $$D = X -\frac{1}{m} Z_{m,m} X$$
 * $$T = D (D^{\mathsf{T}} D)^{-\frac{1}{2}},$$

जहां का एक प्रतिपादक $n$ मैट्रिक्स के व्युत्क्रम के [[मैट्रिक्स उलटा]] का प्रतिनिधित्व करता है। T का सहसंबंध मैट्रिक्स पहचान मैट्रिक्स होगा। यदि एक नया डेटा अवलोकन x n तत्वों का एक पंक्ति सदिश है, तो रूपांतरित सदिश d और t प्राप्त करने के लिए x पर समान परिवर्तन उपयोजित किया जा सकता है:


 * $$d = x - \frac{1}{m} Z_{1,m} X,$$
 * $$t = d (D^{\mathsf{T}} D)^{-\frac{1}{2}}.$$

यह अलंकरण बहुभिन्नरूपी डेटा के लिए प्रमुख घटक विश्लेषण से संबंधित है।

सॉफ्टवेयर कार्यान्वयन

 * आर (प्रोग्रामिंग भाषा) के आंकड़े बेस-पैकेज के साथ सहसंबंध गुणांक उपयोजित करता है , या (P मान के साथ भी) के साथ  ]।
 * के माध्यम से [[SciPy] Python (प्रोग्रामिंग लैंग्वेज) लाइब्रेरी ]।
 * पंडास (सॉफ्टवेयर) पायथन पुस्तकालय पियर्सन सहसंबंध गुणांक गणना को विधि के लिए डिफ़ॉल्ट विकल्प के रूप में उपयोजित करता है
 * वोल्फ्राम मैथेमेटिका के माध्यम से ] फलन, या (P मान के साथ) ।
 * के माध्यम से बूस्ट [[C++] लाइब्रेरी ] फलन।
 * एक्सेल में इन-बिल्ट पियर्सन के सहसंबंध गुणांक की गणना के लिए कार्य करता है।

यह भी देखें

 * Anscombe की चौकड़ी
 * संयोजन (सांख्यिकी)
 * Colligation का गुणांक
 * यूल का क्यू
 * यूल की वाई
 * समरूपता सहसंबंध गुणांक
 * सहसंबंध और निर्भरता
 * सहसंबंध अनुपात
 * विस्मृति
 * दूरी सहसंबंध
 * अधिकतम सूचना गुणांक
 * एकाधिक सहसंबंध
 * सामान्य रूप से वितरित और असंबद्ध का अर्थ स्वतंत्र नहीं है
 * विषम अनुपात
 * आंशिक सहसंबंध
 * पॉलीकोरिक सहसंबंध
 * चतुर्थांश गणना अनुपात
 * आरवी गुणांक
 * स्पीयरमैन का रैंक सहसंबंध गुणांक

बाहरी संबंध

 * – A free web interface and R package for the statistical comparison of two dependent or independent correlations with overlapping or non-overlapping variables.
 * – an interactive Flash simulation on the correlation of two normally distributed variables.
 * – large table.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.