पियर्सन सहसंबंध गुणांक

आँकड़ों में, पियर्सन सहसंबंध गुणांक (पीसीसी, उच्चारित ) - जिसे पियर्सन के r के रूप में भी जाना जाता है, पियर्सन गुणन आघूर्ण सहसंबंध गुणांक (पीपीएमसीसी), द्विभाजित सहसंबंध, या बोलचाल की भाषा में केवल सहसंबंध गुणांक के रूप में - डेटा के दो समुच्चय के मध्य रैखिक सहसंबंध और निर्भरता का एक उपाय है। यह दो चरों के सहप्रसरण और उनके मानक विचलनों के गुणनफल के मध्य का अनुपात है; इस प्रकार, यह अनिवार्य रूप से सहप्रसरण का एक सामान्यीकृत माप है, जैसे कि परिणाम में हमेशा -1 और 1 के मध्य का मान होता है। सहप्रसरण के साथ ही, माप केवल चरों के एक रैखिक सहसंबंध को प्रतिबिंबित कर सकता है, और कई अन्य प्रकार के संबंधों या सहसंबंधों की उपेक्षा करता है। एक साधारण उदाहरण के रूप में, एक हाई स्कूल के किशोरों के प्रतिरूप की उम्र और ऊंचाई की अपेक्षा करेगा कि पियर्सन सहसंबंध गुणांक 0 से काफी अधिक है, लेकिन 1 से कम (1 के रूप में एक अवास्तविक रूप से पूर्ण सहसंबंध का प्रतिनिधित्व करेगा)।



नामकरण और इतिहास
यह 1880 के दशक में फ्रांसिस गैल्टन द्वारा प्रस्तावित किए गए एक संबंधित विचार से कार्ल पियर्सन द्वारा विकसित किया गया था, और जिसके लिए गणितीय सूत्र 1844 में अगस्टे ब्रावाइस द्वारा व्युत्पन्न और प्रकाशित किया गया था।   इस प्रकार गुणांक का नामकरण स्टिग्लर के नियम का एक उदाहरण है।

परिभाषा
पियर्सन का सहसंबंध गुणांक उनके मानक विचलन के उत्पाद द्वारा विभाजित दो चर का सहप्रसरण है। परिभाषा के रूप में एक  गुणन आघूर्ण  सम्मलित है, अर्थात, माध्य-समायोजित यादृच्छिक चर के उत्पाद का माध्य (मूल के बारे में पहला क्षण); इसलिए नाम में संशोधक गुणन आघूर्ण सम्मलित है।

जनसंख्या के लिए
पियर्सन का सहसंबंध गुणांक, जब जनसंख्या पर उपयोजित किया जाता है, सामान्यतः ग्रीक अक्षर ρ (rho) द्वारा दर्शाया जाता है और इसे जनसंख्या सहसंबंध गुणांक या जनसंख्या पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। यादृच्छिक चर $$(X,Y)$$ की एक जोड़ी को देखते हुए, ρ के लिए सूत्र है।

$$ \rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}$$ जहाँ
 * $$ \operatorname{cov} $$ सहप्रसरण है
 * $$ \sigma_X $$, $$ X $$ का मानक विचलन है
 * $$ \sigma_Y $$, $$ Y $$ का मानक विचलन है।

$$\rho$$ के सूत्र को माध्य और अपेक्षा के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\operatorname{cov}(X,Y) = \operatorname\mathbb{E}[(X-\mu_X)(Y-\mu_Y)],$$

$$\rho$$ का सूत्र इस प्रकार भी लिखा जा सकता है

$$ \rho_{X,Y} = \frac{\operatorname\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}$$ जहाँ
 * $$ \sigma_Y $$ और $$ \sigma_X $$ को ऊपर के रूप में परिभाषित किया गया है
 * $$ \mu_X $$, $$ X $$ का माध्य है
 * $$ \mu_Y $$, $$ Y $$ का माध्य है
 * $$ \operatorname\mathbb{E} $$ प्रत्याशी है।

$$\rho$$ के सूत्र को अकेंद्रित क्षणों के संदर्भ में व्यक्त किया जा सकता है। तब से


 * $$\begin{align}

\mu_X ={} &\operatorname\mathbb{E}[\,X\,] \\ \mu_Y ={} &\operatorname\mathbb{E}[\,Y\,] \\ \sigma_X^2 ={} &\operatorname\mathbb{E}\left[\,\left(X - \operatorname\mathbb{E}[X]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,]\right)^2 \\ \sigma_Y^2 ={} &\operatorname\mathbb{E}\left[\,\left(Y - \operatorname\mathbb{E}[Y]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\,\operatorname\mathbb{E}[\,Y\,]\right)^2 \\ &\operatorname\mathbb{E}[\,\left(X - \mu_X\right)\left(Y - \mu_Y\right)\,] = \operatorname\mathbb{E}[\,\left(X - \operatorname\mathbb{E}[\,X\,]\right)\left(Y - \operatorname\mathbb{E}[\,Y\,]\right)\,] = \operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,] \,, \end{align}$$ $$\rho$$ के सूत्र को इस रूप में भी लिखा जा सकता है $$\rho_{X,Y} = \frac{\operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,]}{\sqrt{\operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,] \right)^2} ~ \sqrt{\operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\operatorname\mathbb{E}[\,Y\,] \right)^2}}.$$ पियर्सन का सहसंबंध गुणांक प्रस्तुत नहीं होता है जब $$ \sigma_X $$ या $$ \sigma_Y $$ शून्य, अनंत या अपरिभाषित होते हैं।

एक प्रतिरूप के लिए
पियर्सन का सहसंबंध गुणांक, जब एक प्रतिरूप (सांख्यिकी) पर उपयोजित किया जाता है, सामान्यतः $$r_{xy}$$ द्वारा दर्शाया जाता है और इसे प्रतिदर्श सहसंबंध गुणांक या प्रतिदर्श पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। उपरोक्त सूत्र में एक प्रतिरूप के आधार पर सहप्रसरण और प्रसरण के अनुमानों को प्रतिस्थापित करके $$r_{xy}$$ के लिए एक सूत्र प्राप्त कर सकते हैं। दिए गए युग्मित डेटा $$\left\{ (x_1,y_1),\ldots,(x_n,y_n) \right\}$$में $$n$$ जोड़े सम्मिलित हैं, $$r_{xy}$$ को इस रूप में परिभाषित किया गया है

$$r_{xy} =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}}$$ जहाँ
 * $$n$$ प्रतिदर्श आकार है
 * $$x_i, y_i$$ i के साथ अनुक्रमित व्यक्तिगत प्रतिदर्श बिंदु हैं
 * $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ (प्रतिदर्श माध्य); और इसी तरह $$\bar{y}$$ के लिए।

पुनर्व्यवस्थित करने से हमें $$r_{xy}$$ के लिए यह सूत्र मिलता है:


 * $$r_{xy} = \frac{n\sum x_i y_i - \sum x_i\sum y_i}

{\sqrt{n\sum x_i^2-\left(\sum x_i\right)^2}~\sqrt{n\sum y_i^2-\left(\sum y_i\right)^2}}.$$ जहाँ $$n, x_i, y_i$$ को ऊपर के रूप में परिभाषित किया गया है।

यह सूत्र प्रतिदर्श सहसंबंधों की गणना के लिए एक सुविधाजनक एकल पारण एल्गोरिथ्म का सुझाव देता है, हालांकि सम्मलित संख्याओं के आधार पर, यह कभी-कभी संख्यात्मक रूप से अस्थिर हो सकता है।

पुनर्व्यवस्थित करने से हमें $$r_{xy}$$ के लिए यह सूत्र मिलता है :


 * $$r_{xy} = \frac{\sum_i x_i y_i-n\bar{x}\bar{y}}

{\sqrt{\sum_i x_i^2-n\bar{x}^2}~\sqrt{\sum_i y_i^2-n\bar{y}^2}}.$$ जहाँ $$n, x_i, y_i, \bar{x}, \bar{y}$$ को ऊपर के रूप में परिभाषित किया गया है।

एक समतुल्य अभिव्यक्ति $$r_{xy}$$ के लिए मानक अंकों के गुणनफल के माध्य के रूप में निम्न सूत्र देता है:


 * $$r_{xy} = \frac{1}{n-1} \sum ^n _{i=1} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)$$

जहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ को ऊपर के रूप में परिभाषित किया गया है, और $$s_x, s_y$$ को नीचे परिभाषित किया गया है
 * $\left( \frac{x_i - \bar{x}}{s_x} \right)$ मानक प्राप्तांक है (और समान रूप से $$y$$ के मानक प्राप्तांक के लिए)।

$$r_{xy}$$ के लिए वैकल्पिक सूत्र भी उपलब्ध हैं। उदाहरण के लिए, कोई $$r_{xy}$$ के लिए निम्न सूत्र का उपयोग कर सकता है:


 * $$r_{xy} =\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}$$

जहाँ
 * $$n, x_i, y_i, \bar{x}, \bar{y}$$ उपरोक्त के रूप में परिभाषित किया गया है और:
 * $s_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$ (प्रतिदर्श मानक विचलन); और समान रूप से $$s_y$$के लिए।

व्यावहारिक परिणाम
अधिक संकेत की स्थिति के अंतर्गत, यादृच्छिक चर के दो समुच्चय के मध्य सहसंबंध गुणांक को निकालना गैर-तुच्छ है, विशेष रूप से जहां कैनोनिकल सहसंबंध विश्लेषण अधिक संकेत योगदान के कारण सहसंबंध मूल्यों को कम करता है। दृष्टिकोण का एक सामान्यीकरण अन्यत्र दिया गया है।

विलुप्त डेटा के प्रकरण में, गैरेन ने अधिकतम संभावना अनुमानक निकाला है।

कुछ वितरण (उदाहरण के लिए, सामान्य वितरण के अलावा स्थिर वितरण) में परिभाषित भिन्नता नहीं होती है।

गणितीय गुण
प्रतिदर्श और जनसंख्या दोनों के मान पियर्सन सहसंबंध गुणांक −1 और 1 के मध्य या उसके मध्य हैं। +1 या −1 के समान सहसंबंध एक रेखा (प्रतिदर्श सहसंबंध के प्रकरण में) पर स्थित डेटा बिंदुओं के अनुरूप होते हैं, या एक रेखा पर पूरी तरह से समर्थित द्विभाजित वितरण (जनसंख्या सहसंबंध के प्रकरण में) के अनुरूप होते हैं। पियर्सन सहसंबंध गुणांक सममित है: corr(X,Y) = corr(Y,X)।

पियर्सन सहसंबंध गुणांक की एक प्रमुख गणितीय गुण यह है कि यह दो चरों में स्थान और मापक में अलग-अलग परिवर्तनों के अंतर्गत अपरिवर्तनीय है। अर्थात्, हम X को $a + bX$ में बदल सकते हैं और Y को $c + dY$ में रूपांतरित कर सकते हैं, जहां a, b, c और d, $b, d > 0$ के साथ स्थिरांक हैं, सहसंबंध गुणांक को बदले बिना स्थिरांक हैं। (यह जनसंख्या और प्रतिदर्श पियर्सन सहसंबंध गुणांक दोनों के लिए है।) अधिक सामान्य रैखिक परिवर्तन सहसंबंध को बदलते हैं: अनुप्रयोग के लिए n यादृच्छिक चर का अलंकरण देखें।

व्याख्या
सहसंबंध गुणांक -1 से 1 तक होता है। यथार्थत: 1 के निरपेक्ष मान का तात्पर्य है कि एक रैखिक समीकरण X और Y के मध्य संबंध का पूरी तरह से वर्णन करता है, जिसमें सभी डेटा बिंदु एक रेखा (गणित) पर होते हैं। सहसंबंध चिह्न प्रतिगमन समतल द्वारा निर्धारित किया जाता है: +1 के मान का अर्थ है कि सभी डेटा बिंदु एक रेखा पर स्थित हैं जिसके लिए Y बढ़ता है क्योंकि X बढ़ता है, और इसके विपरीत -1 के लिए है। 0 के मान का तात्पर्य है कि चरों के मध्य कोई रैखिक निर्भरता नहीं है।

सामान्यतः अधिक, $(X_{i} − \overline{X})(Y_{i} − \overline{Y})$ धनात्मक है यदि और केवल यदि Xi और Yi अपने संबंधित साधनों के एक ही तरफ झूठ बोलते हैं। इस प्रकार सहसंबंध गुणांक धनात्मक होता है यदि Xi और Yi एक साथ अपने संबंधित साधनों से अधिक या एक साथ कम होते हैं। सहसंबंध गुणांक ऋणात्मक (सहसंबंध विरोधी) होता है यदि Xi और Yi अपने संबंधित साधनों के विपरीत पक्ष में झूठ बोलते हैं। इसके अलावा, या तो प्रवृत्ति जितनी मजबूत होती है, सहसंबंध गुणांक का निरपेक्ष मान उतना ही बड़ा होता है।

रोजर्स और नाइसवेंडर ने सहसंबंध या इसके सरल कार्यों की व्याख्या करने के तेरह प्रकारो को सूचीबद्ध किया:
 * मूल प्राप्‍तांक और साधनों का फलन
 * मानकीकृत सहप्रसरण
 * प्रतिगमन रेखा का मानकीकृत ढलान
 * दो प्रतिगमन ढलानों का ज्यामितीय माध्य
 * दो भिन्नताओं के अनुपात का वर्गमूल
 * मानकीकृत चरों का माध्य अन्योन्य गुणन
 * दो मानकीकृत प्रतिगमन रेखाओं के मध्य कोण का फलन
 * दो चर सदिशों के मध्य कोण का फलन
 * मानकीकृत अंकों के मध्य अंतर का पुन: स्केल किया गया विचरण
 * बैलून नियम से अनुमानित
 * सम-सांद्रता के द्विभाजित दीर्घवृत्त से संबंधित
 * उस विषय में किए गए प्रयोगों से परीक्षण आँकड़ों का फलन
 * दो का अनुपात माध्यम

ज्यामितीय व्याख्या
अकेंद्रित डेटा के लिए, सहसंबंध गुणांक और कोण φ के मध्य दो प्रतिगमन रेखाओं के मध्य एक संबंध होता है, y = gX(x) और x = gY(y), क्रमशः y पर x और x पर y को पुनः प्राप्त करके प्राप्त किया। (यहाँ, φ को लाइनों के प्रतिच्छेदन बिंदु के चारों ओर बने पहले चतुर्थांश के भीतर वामावर्त मापा जाता है $y = g_{X}(x)$, या चौथे से दूसरे चतुर्थांश तक वामावर्त यदि r < 0.) कोई दिखा सकता है कि यदि मानक विचलन समान हैं, तब r = sec φ − tan φ, जहाँ sec और tan त्रिकोणमितीय फलन हैं।

केंद्रित डेटा के लिए (यानी, डेटा जो उनके संबंधित चर के प्रतिदर्श माध्यम से स्थानांतरित कर दिया गया है ताकि प्रत्येक चर के लिए औसत शून्य हो), सहसंबंध गुणांक को कोण θ के कोज्या  के रूप में भी देखा जा सकता है। एन-डायमेंशनल स्पेस में वेक्टर (ज्यामिति) (प्रत्येक चर के एन अवलोकनों के लिए) किसी डेटासेट के लिए अकेंद्रित (गैर-पियर्सन-अनुपालन) और केंद्रित सहसंबंध गुणांक दोनों निर्धारित किए जा सकते हैं। एक उदाहरण के रूप में, मान लीजिए कि पाँच देशों में क्रमशः 1, 2, 3, 5 और 8 बिलियन डॉलर के सकल राष्ट्रीय उत्पाद पाए जाते हैं। मान लीजिए इन्हीं पांच देशों में (इसी क्रम में) 11%, 12%, 13%, 15% और 18% गरीबी पाई जाती है। फिर एक्स और वाई को उपरोक्त डेटा वाले 5-तत्व वैक्टर का आदेश दें: x = (1, 2, 3, 5, 8) और y = (0.11, 0.12, 0.13, 0.15, 0.18).

दो सदिशों (डॉट उत्पाद देखें) के मध्य कोण θ खोजने की सामान्य प्रक्रिया के अनुसार, अकेंद्रित सहसंबंध गुणांक है


 * $$ \cos \theta = \frac { \mathbf{x} \cdot \mathbf{y} } { \left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {2.93} { \sqrt{103} \sqrt{0.0983} } = 0.920814711. $$

यह अकेंद्रित सहसंबंध गुणांक कोसाइन समानता के समान है। उपरोक्त डेटा को जानबूझकर पूरी तरह से सहसंबद्ध होने के लिए चुना गया था: $x = g_{Y}(y)$. पियर्सन सहसंबंध गुणांक इसलिए बिल्कुल एक होना चाहिए। डेटा को केंद्रित करना (x द्वारा स्थानांतरित करना $r > 0$ और वाई द्वारा $y = 0.10 + 0.01 x$) उपज $ℰ(x) = 3.8$ और $ℰ(y) = 0.138$, किस से


 * $$ \cos \theta = \frac{\mathbf{x} \cdot \mathbf{y}} {\left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {0.308}{\sqrt{30.8}\sqrt{0.00308}} = 1 = \rho_{xy}, $$

आशा के अनुसार।

एक सहसंबंध के आकार की व्याख्या
कई लेखकों ने सहसंबंध गुणांक की व्याख्या के लिए दिशा-निर्देश दिए हैं। हालाँकि, ऐसे सभी मानदंड एक तरह से मनमाने हैं। सहसंबंध गुणांक की व्याख्या संदर्भ और उद्देश्यों पर निर्भर करती है। 0.8 का सहसंबंध बहुत कम हो सकता है यदि कोई उच्च गुणवत्ता वाले उपकरणों का उपयोग करके भौतिक कानून की पुष्टि कर रहा है, लेकिन सामाजिक विज्ञानों में इसे बहुत अधिक माना जा सकता है, जहां जटिल कारकों से अधिक योगदान हो सकता है।

निष्कर्ष
पियर्सन के सहसंबंध गुणांक पर आधारित सांख्यिकीय निष्कर्ष अक्सर निम्नलिखित दो उद्देश्यों में से एक पर केंद्रित होता है: हम नीचे इनमें से एक या दोनों लक्ष्यों को प्राप्त करने के तरीकों पर चर्चा करते हैं।
 * एक उद्देश्य शून्य परिकल्पना का परीक्षण करना है कि सही सहसंबंध गुणांक ρ 0 के बराबर है, जो प्रतिदर्श सहसंबंध गुणांक r के मान पर आधारित है।
 * दूसरा उद्देश्य एक विश्वास अंतराल प्राप्त करना है, जिसमें बार-बार प्रतिरूप लेने पर, ρ होने की एक दी गई संभावना है।

एक क्रमचय परीक्षण
का उपयोग करना क्रमचय परीक्षण परिकल्पना परीक्षण करने और विश्वास अंतराल के निर्माण के लिए एक सीधा दृष्टिकोण प्रदान करते हैं। पियर्सन के सहसंबंध गुणांक के लिए एक क्रमचय परीक्षण में निम्नलिखित दो चरण सम्मलित हैं: क्रमचय परीक्षण करने के लिए, चरणों (1) और (2) को बड़ी संख्या में दोहराएं। क्रमचय परीक्षण के लिए p-मान, चरण (2) में उत्पन्न r मानों का अनुपात है जो मूल डेटा से परिकलित पियर्सन सहसंबंध गुणांक से बड़ा है। यहां बड़े का मतलब या तो यह हो सकता है कि मूल्य परिमाण में बड़ा है, या हस्ताक्षरित मूल्य में बड़ा है, यह इस बात पर निर्भर करता है कि दो-पूंछ वाला परीक्षण | दो-तरफा या दो-पूंछ वाला परीक्षण | एक-तरफा परीक्षण वांछित है।
 * 1) मूल युग्मित डेटा का उपयोग करना (xi, औरi), एक नया डेटा सेट बनाने के लिए बेतरतीब ढंग से जोड़े को फिर से परिभाषित करें (xi, औरi&prime;), जहां i' समुच्चय {1,...,n} का क्रमचय है। क्रमचय i' को यादृच्छिक रूप से चुना जाता है, सभी n पर समान संभावनाएँ रखी जाती हैं! संभावित क्रमपरिवर्तन। यह सेट {1, ..., n} से प्रतिस्थापन के बिना i' को यादृच्छिक रूप से खींचने के बराबर है। बूटस्ट्रैपिंग (सांख्यिकी) में, एक निकट से संबंधित दृष्टिकोण, i और i' समान हैं और {1, ..., n} से प्रतिस्थापन के साथ तैयार किए गए हैं;
 * 2) यादृच्छिक डेटा से एक सहसंबंध गुणांक r का निर्माण करें।

बूटस्ट्रैप का उपयोग
बूटस्ट्रैपिंग (सांख्यिकी) का उपयोग पियर्सन के सहसंबंध गुणांक के लिए विश्वास अंतराल बनाने के लिए किया जा सकता है। गैर-पैरामीट्रिक बूटस्ट्रैप में, n जोड़े (xi, औरi) n जोड़े के देखे गए सेट से प्रतिस्थापन के साथ फिर से तैयार किया जाता है, और सहसंबंध गुणांक r की गणना पुन: प्रतिदर्श डेटा के आधार पर की जाती है। इस प्रक्रिया को बड़ी संख्या में बार-बार दोहराया जाता है, और पुनरुत्पादित r मानों के अनुभवजन्य वितरण का उपयोग आँकड़ों के प्रतिदर्शकरण वितरण को अनुमानित करने के लिए किया जाता है। ρ के लिए 95% कॉन्फिडेंस इंटरवल को रीसैंपल किए गए r मानों के 2.5वें से 97.5वें प्रतिशतता  तक फैले अंतराल के रूप में परिभाषित किया जा सकता है।

मानक त्रुटि
अगर $$x$$ और $$y$$ यादृच्छिक चर हैं, अशक्त प्रकरण में सहसंबंध से जुड़ी एक मानक त्रुटि है


 * $$\sigma_r = \sqrt{\frac{1-r^2}{n-2}}$$

कहाँ $$r$$ सहसंबंध है (मान लिया गया है कि आर≈0) और $$n$$ प्रतिदर्श आकार।

विद्यार्थी के टी-वितरण का प्रयोग करके परीक्षण
एक असंबद्ध द्विभाजित सामान्य वितरण से जोड़े के लिए, छात्र के पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण छात्र के टी-वितरण का अनुसरण करता है। स्वतंत्रता की डिग्री के साथ छात्र का टी-वितरण n − 2। विशेष रूप से, यदि अंतर्निहित चर में द्विभाजित सामान्य वितरण है, तो चर


 * $$t = \frac{r}{\sigma_r} = r\sqrt{\frac{n-2}{1 - r^2}}$$

एक छात्र का टी-वितरण शून्य स्थिति (शून्य सहसंबंध) में है। यदि प्रतिदर्श आकार काफी बड़ा है तो गैर-सामान्य देखे गए मानों के प्रकरण में यह लगभग रहता है। r के महत्वपूर्ण मानों को निर्धारित करने के लिए प्रतिलोम फलन की आवश्यकता होती है:


 * $$r = \frac{t}{\sqrt{n - 2 + t^2}}.$$

वैकल्पिक रूप से, बड़े प्रतिरूप, स्पर्शोन्मुख दृष्टिकोण का उपयोग किया जा सकता है।

एक और शुरुआती पेपर छोटे प्रतिदर्श आकारों के लिए ρ के सामान्य मूल्यों के लिए ग्राफ और टेबल प्रदान करता है, और कम्प्यूटेशनल दृष्टिकोण पर चर्चा करता है।

ऐसे प्रकरण में जहां अंतर्निहित चर सामान्य नहीं हैं, पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण छात्र के टी-वितरण का अनुसरण करता है, लेकिन स्वतंत्रता की डिग्री कम हो जाती है।

सटीक वितरण का प्रयोग
द्विभाजित सामान्य वितरण का अनुसरण करने वाले डेटा के लिए, सामान्य द्विचर के प्रतिदर्श सहसंबंध गुणांक r के लिए सटीक घनत्व फ़ंक्शन f(r) है
 * $$f(r) = \frac{(n - 2)\, \mathrm{\Gamma}(n - 1) \left(1 - \rho^2\right)^{\frac{n - 1}{2}} \left(1 - r^2\right)^{\frac{n - 4}{2}}}{\sqrt{2\pi}\, \operatorname{\Gamma}\mathord\left(n - \tfrac{1}{2}\right) (1 - \rho r)^{n - \frac{3}{2}}} {}_{2}\mathrm{F}_{1}\mathord\left(\tfrac{1}{2}, \tfrac{1}{2}; \tfrac{1}{2}(2n - 1); \tfrac{1}{2}(\rho r + 1)\right)$$

कहाँ $$\Gamma$$ गामा समारोह है और $${}_{2}\mathrm{F}_{1}(a,b;c;z)$$ हाइपरज्यामितीय कार्य है।

विशेष प्रकरण में जब $$\rho = 0$$ (शून्य जनसंख्या सहसंबंध), सटीक घनत्व फ़ंक्शन f(r) के रूप में लिखा जा सकता है


 * $$f(r) = \frac{\left(1 - r^2\right)^{\frac{n - 4}{2}}}{\Beta\left(\tfrac{1}{2}, \tfrac{1}{2}(n - 2)\right)},$$

कहाँ $$\Beta$$ बीटा समारोह है, जो छात्र के टी-वितरण के घनत्व को लिखने का एक तरीका है, जैसा ऊपर बताया गया है।

सटीक कॉन्फ़िडेंस डिस्ट्रीब्यूशन का उपयोग करना
कॉन्फिडेंस इंटरवल और टेस्ट की गणना विश्वास वितरण  से की जा सकती है। ρ के लिए एक सटीक आत्मविश्वास घनत्व है

$$ \pi(\rho \mid r) = \frac{\nu(\nu - 1)\Gamma(\nu - 1)} {\sqrt{2\pi}\Gamma\left(\nu + \frac{1}{2}\right)} \left(1 - r^2\right)^{\frac{\nu - 1}{2}} \cdot \left(1 - \rho^2\right)^{\frac{\nu - 2}{2}} \cdot \left(1 - r \rho\right)^{\frac{1 - 2\nu}{2}} \operatorname{F}\left(\tfrac{3}{2}, -\tfrac{1}{2}; \nu + \tfrac{1}{2}; \tfrac{1 + r \rho}{2}\right) $$ कहाँ $$\operatorname{F}$$ गॉसियन हाइपरज्यामितीय फ़ंक्शन है और $$\nu = n - 1 > 1$$.

फिशर परिवर्तन का उपयोग
व्यवहार में, विश्वास अंतराल और ρ से संबंधित परिकल्पना परीक्षण सामान्यतः फिशर परिवर्तन का उपयोग करके किया जाता है, $$F$$:


 * $$F(r) \equiv \tfrac{1}{2} \, \ln \left(\frac{1 + r}{1 - r}\right) = \operatorname{artanh}(r)$$

एफ (आर) लगभग एक सामान्य वितरण का अनुसरण करता है


 * $$\text{mean} = F(\rho) = \operatorname{artanh}(\rho)$$    और मानक त्रुटि $$=\text{SE} = \frac{1}{\sqrt{n - 3}},$$

जहाँ n प्रतिदर्श आकार है। बड़े प्रतिदर्श आकार के लिए सन्निकटन त्रुटि सबसे कम है $$n$$ और छोटा $$r$$ और $$\rho_0$$ और अन्यथा बढ़ता है।

सन्निकटन का उपयोग करते हुए, एक मानक प्राप्तांक | जेड-प्राप्तांक है


 * $$z = \frac{x - \text{mean}}{\text{SE}} = [F(r) - F(\rho_0)]\sqrt{n - 3}$$

शून्य परिकल्पना के अंतर्गत कि $$\rho = \rho_0$$, यह मानते हुए कि प्रतिदर्श जोड़े स्वतंत्र और समान रूप से वितरित हैं और द्विभाजित सामान्य वितरण का पालन करते हैं। इस प्रकार एक सामान्य प्रायिकता तालिका से एक अनुमानित पी-मान प्राप्त किया जा सकता है। उदाहरण के लिए, यदि z = 2.2 मनाया जाता है और एक दो-तरफा पी-मान शून्य परिकल्पना का परीक्षण करने के लिए वांछित है $$\rho = 0$$, पी-वैल्यू है 2&thinsp;Φ(−2.2) = 0.028, जहां Φ मानक सामान्य संचयी बंटन फलन है।

ρ के लिए एक विश्वास्यता अंतराल प्राप्त करने के लिए, हम पहले F( के लिए एक विश्वास्यता अंतराल की गणना करते हैं।$$\rho$$):


 * $$100(1 - \alpha)\%\text{CI}: \operatorname{artanh}(\rho) \in [\operatorname{artanh}(r) \pm z_{\alpha/2}\text{SE}]$$

व्युत्क्रम फिशर परिवर्तन अंतराल को सहसंबंध पैमाने पर वापस लाता है।


 * $$100(1 - \alpha)\%\text{CI}: \rho \in [\tanh(\operatorname{artanh}(r) - z_{\alpha/2}\text{SE}), \tanh(\operatorname{artanh}(r) + z_{\alpha/2}\text{SE})]$$

उदाहरण के लिए, मान लें कि हम r = 0.7 को n = 50 के प्रतिरूप के आकार के साथ देखते हैं, और हम ρ के लिए 95% विश्वास अंतराल प्राप्त करना चाहते हैं। रूपांतरित मान arctanh(r) = 0.8673 है, इसलिए रूपांतरित पैमाने पर विश्वास अंतराल 0.8673 ± 1.96/$\sqrt{47}$, या (0.5814, 1.1532)। कोरिलेशन स्केल यील्ड में वापस बदलने पर (0.5237, 0.8188) मिलता है।

कम से कम वर्गों में प्रतिगमन विश्लेषण
प्रतिदर्श सहसंबंध गुणांक के वर्ग को सामान्यतः r निरूपित किया जाता है2 और दृढ़ संकल्प के गुणांक का एक विशेष मामला है। इस प्रकरण में, यह वाई में भिन्नता के अंश का अनुमान लगाता है जिसे एक्स द्वारा सरल रैखिक प्रतिगमन में समझाया गया है। इसलिए यदि हमारे पास देखे गए डेटासेट हैं $$Y_1, \dots, Y_n$$ और फिट डेटासेट $$\hat Y_1, \dots , \hat Y_n$$ फिर एक प्रारंभिक बिंदु के रूप में Y में कुल भिन्नताi उनके औसत मूल्य को निम्नानुसार विघटित किया जा सकता है


 * $$\sum_i (Y_i - \bar{Y})^2 = \sum_i (Y_i-\hat{Y}_i)^2 + \sum_i (\hat{Y}_i-\bar{Y})^2,$$

जहां $$\hat{Y}_i$$ प्रतिगमन विश्लेषण से फिट किए गए मान हैं। इसे देने के लिए पुनर्व्यवस्थित किया जा सकता है


 * $$1 = \frac{\sum_i (Y_i-\hat{Y}_i)^2}{\sum_i (Y_i - \bar{Y})^2} + \frac{\sum_i (\hat{Y}_i-\bar{Y})^2}{\sum_i (Y_i - \bar{Y})^2}.$$

उपरोक्त दो सारांश Y में भिन्नता का अंश है जिसे X (दाएं) द्वारा समझाया गया है और जो X (बाएं) द्वारा अस्पष्टीकृत है।

अगला, हम कम से कम वर्ग प्रतिगमन मॉडल की एक संपत्ति उपयोजित करते हैं, जो प्रतिदर्श सहप्रसरण के मध्य है $$\hat{Y}_i$$ और $$Y_i-\hat{Y}_i$$ शून्य है। इस प्रकार, प्रतिगमन में देखे गए और सज्जित प्रतिक्रिया मूल्यों के मध्य प्रतिदर्श सहसंबंध गुणांक लिखा जा सकता है (गणना अपेक्षा के अधीन है, गॉसियन सांख्यिकी मानती है)



\begin{align} r(Y,\hat{Y}) &= \frac{\sum_i(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{\sum_i(Y_i-\hat{Y}_i+\hat{Y}_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i [(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) +(\hat{Y}_i-\bar{Y})^2 ]}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \frac{ \sum_i (\hat{Y}_i-\bar{Y})^2 }{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\[6pt] &= \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}. \end{align} $$ इस प्रकार


 * $$r(Y,\hat{Y})^2 = \frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}$$

कहाँ $$r(Y,\hat{Y})^2$$ X के एक रैखिक कार्य द्वारा समझाया गया Y में विचरण का अनुपात है।

उपरोक्त व्युत्पत्ति में, तथ्य यह है कि
 * $$\sum_i (Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) = 0$$

यह देख कर सिद्ध किया जा सकता है कि वर्गों के अवशिष्ट योग का आंशिक अवकलज ($x = (−2.8, −1.8, −0.8, 1.2, 4.2)$) β से अधिक0 और β1 कम से कम वर्ग मॉडल में 0 के बराबर हैं, जहां
 * $$\text{RSS} = \sum_i (Y_i - \hat{Y}_i)^2$$.

अंत में, समीकरण के रूप में लिखा जा सकता है


 * $$r(Y,\hat{Y})^2 = \frac{\text{SS}_\text{reg}}{\text{SS}_\text{tot}}$$

कहाँ प्रतीक $$\text{SS}_\text{reg}$$ वर्गों का प्रतिगमन योग कहा जाता है, जिसे वर्गों का समझाया योग भी कहा जाता है, और $$\text{SS}_\text{tot}$$ वर्गों का कुल योग है (डेटा के प्रसरण के समानुपाती)।
 * $$\text{SS}_\text{reg} = \sum_i (\hat{Y}_i-\bar{Y})^2$$
 * $$\text{SS}_\text{tot} = \sum_i (Y_i-\bar{Y})^2$$.

अस्तित्व
जनसंख्या पियर्सन सहसंबंध गुणांक क्षण (गणित) के संदर्भ में परिभाषित किया गया है, और इसलिए किसी भी द्विभाजित संभाव्यता वितरण के लिए मौजूद है जिसके लिए सांख्यिकीय जनसंख्या सहप्रसरण परिभाषित किया गया है और सीमांत वितरण जनसंख्या प्रसरण परिभाषित हैं और गैर-शून्य हैं। कुछ संभाव्यता बंटन, जैसे कौशी बंटन, में अपरिभाषित प्रसरण है और इसलिए ρ परिभाषित नहीं है यदि X या Y ऐसे बंटन का अनुसरण करता है। कुछ व्यावहारिक अनुप्रयोगों में, जैसे कि भारी-पूंछ वाले वितरण का पालन करने के संदेह वाले डेटा को सम्मलित करना, यह एक महत्वपूर्ण विचार है। हालाँकि, सहसंबंध गुणांक का अस्तित्व सामान्यतः चिंता का विषय नहीं है; उदाहरण के लिए, यदि वितरण की सीमा परिबद्ध है, तो ρ हमेशा परिभाषित होता है।

प्रतिदर्श आकार

 * यदि प्रतिदर्श आकार मध्यम या बड़ा है और जनसंख्या सामान्य है, तो द्विचर सामान्य वितरण के प्रकरण में, प्रतिदर्श सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का अधिकतम संभावना अनुमान है, और एक अनुमानक का स्पर्शोन्मुख वितरण पूर्वाग्रह है और दक्षता (सांख्यिकी), जिसका मोटे तौर पर अर्थ है कि प्रतिदर्श सहसंबंध गुणांक की तुलना में अधिक सटीक अनुमान बनाना असंभव है।
 * यदि प्रतिदर्श आकार बड़ा है और जनसंख्या सामान्य नहीं है, तो प्रतिदर्श सहसंबंध गुणांक लगभग निष्पक्ष रहता है, लेकिन कुशल नहीं हो सकता है।
 * यदि प्रतिदर्श आकार बड़ा है, तो प्रतिदर्श सहसंबंध गुणांक जनसंख्या सहसंबंध गुणांक का एक सुसंगत अनुमानक है, जब तक कि प्रतिदर्श साधन, प्रसरण, और सहप्रसरण संगत हैं (जो बड़ी संख्या के कानून को उपयोजित किए जाने पर गारंटीकृत है)।
 * यदि प्रतिदर्श आकार छोटा है, तो प्रतिदर्श सहसंबंध गुणांक आर ρ का निष्पक्ष अनुमान नहीं है। इसके बजाय समायोजित सहसंबंध गुणांक का उपयोग किया जाना चाहिए: परिभाषा के लिए इस आलेख में कहीं और देखें।
 * असंतुलित द्विबीजपत्री चर डेटा के लिए सहसंबंध भिन्न हो सकते हैं जब प्रतिदर्श में विचरण त्रुटि हो।

मजबूती
सामान्यतः उपयोग किए जाने वाले अनेक आँकड़ों की तरह, प्रतिदर्श आँकड़ा r सुदृढ़ आँकड़ा नहीं है, इसलिए यदि ग़ैर मौजूद हैं तो इसका मान भ्रामक हो सकता है। विशेष रूप से, पीएमसीसी न तो वितरण की दृष्टि से मजबूत है, और न ही बाहरी प्रतिरोधी (देखना). एक्स और वाई के मध्य स्कैटर प्लॉट  का निरीक्षण सामान्यतः ऐसी स्थिति प्रकट करेगा जहां मजबूती की कमी एक मुद्दा हो सकती है, और ऐसे मामलों में एसोसिएशन के एक मजबूत उपाय का उपयोग करने की सलाह दी जा सकती है। हालांकि ध्यान दें कि हालांकि एसोसिएशन के सबसे मजबूत अनुमानक किसी तरह से सांख्यिकीय निर्भरता को मापते हैं, वे सामान्यतः पियर्सन सहसंबंध गुणांक के समान पैमाने पर व्याख्या करने योग्य नहीं होते हैं।

पियर्सन के सहसंबंध गुणांक के लिए सांख्यिकीय निष्कर्ष डेटा वितरण के प्रति संवेदनशील है। यदि डेटा लगभग सामान्य रूप से वितरित किया जाता है, लेकिन फ़िशर परिवर्तन पर आधारित सटीक परीक्षण और स्पर्शोन्मुख परीक्षण उपयोजित किए जा सकते हैं, लेकिन अन्यथा भ्रामक हो सकते हैं। कुछ स्थितियों में, बूटस्ट्रैपिंग (सांख्यिकी) को कॉन्फिडेंस इंटरवल बनाने के लिए उपयोजित किया जा सकता है, और परिकल्पना परीक्षण करने के लिए रीसैंपलिंग (सांख्यिकी) उपयोजित किया जा सकता है। ये गैर-पैरामीट्रिक आँकड़े|गैर-पैरामीट्रिक दृष्टिकोण कुछ स्थितियों में अधिक सार्थक परिणाम दे सकते हैं जहाँ द्विभाजित सामान्यता धारण नहीं करती है। हालांकि इन दृष्टिकोणों के मानक संस्करण डेटा के विनिमेय यादृच्छिक चर पर भरोसा करते हैं, जिसका अर्थ है कि विश्लेषण किए जा रहे डेटा जोड़े का कोई क्रम या समूहीकरण नहीं है जो सहसंबंध अनुमान के व्यवहार को प्रभावित कर सकता है।

एक स्तरीकृत विश्लेषण या तो द्विभाजित सामान्यता की कमी को समायोजित करने का एक तरीका है, या दूसरे के लिए नियंत्रण करते समय एक कारक से उत्पन्न सहसंबंध को अलग करना है। यदि W क्लस्टर सदस्यता या किसी अन्य कारक का प्रतिनिधित्व करता है जिसे नियंत्रित करना वांछनीय है, तो हम W के मान के आधार पर डेटा को स्तरीकृत कर सकते हैं, फिर प्रत्येक स्तर के भीतर एक सहसंबंध गुणांक की गणना कर सकते हैं। डब्ल्यू के लिए नियंत्रण करते समय समग्र सहसंबंध का अनुमान लगाने के लिए स्ट्रैटम-स्तर के अनुमानों को जोड़ा जा सकता है।

वेरिएंट
सहसंबंध गुणांक की विविधताओं की गणना विभिन्न उद्देश्यों के लिए की जा सकती है। यहां कुछ उदाहरण दिए गए हैं।

समायोजित सहसंबंध गुणांक
प्रतिदर्श सहसंबंध गुणांक $r$ का निष्पक्ष अनुमान नहीं है $ρ$. डेटा के लिए जो द्विभाजित सामान्य वितरण का अनुसरण करता है, अपेक्षा $y = (−0.028, −0.018, −0.008, 0.012, 0.042)$ प्रतिदर्श सहसंबंध गुणांक के लिए r}एक सामान्य द्विचर का } है
 * $$\operatorname\mathbb{E}\left[r\right] = \rho - \frac{\rho \left(1 - \rho^2\right)}{2n} + \cdots, \quad$$ इसलिए $r$ का एक पक्षपाती अनुमानक है $$\rho.$$

अद्वितीय न्यूनतम भिन्नता निष्पक्ष अनुमानक $RSS$ द्वारा दिया गया है

कहाँ:
 * $$r, n$$ ऊपर के रूप में परिभाषित किया गया है,
 * $$\mathbf{_2 F_1}(a, b; c; z)$$ हाइपरज्यामितीय कार्य है।

एक लगभग निष्पक्ष अनुमानक $E[r]$ प्राप्त किया जा सकता है काट-छाँट करके $r_{adj}$ और इस संक्षिप्त समीकरण को हल करना:

एक अनुमानित समाधान से समीकरण ($$) है

कहाँ में ($$)
 * $$r, n$$ ऊपर के रूप में परिभाषित किया गया है,
 * $r_{adj}$ एक उपइष्टतम अनुमानक है,
 * $E[r]$ को अधिकतम लॉग (एफ (आर)) द्वारा भी प्राप्त किया जा सकता है,
 * $r_{adj}$ के बड़े मानों के लिए न्यूनतम विचरण है $$,
 * $r_{adj}$ आदेश का पूर्वाग्रह है $r_{adj}$.

एक और प्रस्तावित समायोजित सहसंबंध गुणांक है


 * $$r_\text{adj}=\sqrt{1-\frac{(1-r^2)(n-1)}{(n-2)}}.$$

$r_{adj}$ के बड़े मूल्यों के लिए$$.

भारित सहसंबंध गुणांक
मान लीजिए कि सहसंबद्ध होने वाली टिप्पणियों में अलग-अलग डिग्री के महत्व होते हैं जिन्हें वजन वेक्टर w के साथ व्यक्त किया जा सकता है। वेक्टर x और y के मध्य वजन वेक्टर w (सभी लंबाई n) के साथ सहसंबंध की गणना करने के लिए,
 * भारित माध्य: $$\operatorname{m}(x; w) = \frac{\sum_i w_i x_i}{\sum_i w_i}.$$
 * भारित सहप्रसरण $$\operatorname{cov}(x,y;w) = \frac{\sum_i w_i \cdot (x_i - \operatorname{m}(x; w)) (y_i - \operatorname{m}(y; w))}{\sum_i w_i }.$$
 * भारित सहसंबंध $$\operatorname{corr}(x,y;w) = \frac{\operatorname{cov}(x,y;w)}{\sqrt{\operatorname{cov}(x,x;w) \operatorname{cov}(y,y;w)}}.$$

चिंतनशील सहसंबंध गुणांक
चिंतनशील सहसंबंध पियर्सन के सहसंबंध का एक प्रकार है जिसमें डेटा उनके औसत मूल्यों के आसपास केंद्रित नहीं होते हैं। जनसंख्या चिंतनशील सहसंबंध है


 * $$\operatorname{corr}_r(X,Y) = \frac{\operatorname\mathbb{E}[\,X\,Y\,]}{\sqrt{\operatorname\mathbb{E}[\,X^2\,]\cdot \operatorname\mathbb{E}[\,Y^2\,]}}.$$

चिंतनशील सहसंबंध सममित है, लेकिन यह अनुवाद के अंतर्गत अपरिवर्तनीय नहीं है:


 * $$\operatorname{corr}_r(X, Y) = \operatorname{corr}_r(Y, X) = \operatorname{corr}_r(X, bY) \neq \operatorname{corr}_r(X, a + b Y), \quad a \neq 0, b > 0.$$

प्रतिदर्श चिंतनशील सहसंबंध कोसाइन समानता के बराबर है:


 * $$rr_{xy} = \frac{\sum x_i y_i}{\sqrt{(\sum x_i^2)(\sum y_i^2)}}.$$

प्रतिदर्श चिंतनशील सहसंबंध का भारित संस्करण है


 * $$rr_{xy, w} = \frac{\sum w_i x_i y_i}{\sqrt{(\sum w_i x_i^2)(\sum w_i y_i^2)}}.$$

स्केल्ड सहसंबंध गुणांक
स्केल्ड सहसंबंध पियर्सन के सहसंबंध का एक रूप है जिसमें समय श्रृंखला में तेजी से घटकों के मध्य सहसंबंधों को प्रकट करने के लिए डेटा की सीमा जानबूझकर और नियंत्रित तरीके से प्रतिबंधित है। स्केल्ड सहसंबंध को डेटा के छोटे खंडों में औसत सहसंबंध के रूप में परिभाषित किया गया है।

होने देना $$K$$ सिग्नल की कुल लंबाई में फिट होने वाले सेगमेंट की संख्या हो $$T$$ किसी दिए गए पैमाने के लिए $$s$$:


 * $$K = \operatorname{round}\left(\frac{T}{s}\right).$$

पूरे संकेतों में स्केल किया गया सहसंबंध $$\bar{r}_s$$ फिर के रूप में गणना की जाती है


 * $$\bar{r}_s = \frac{1}{K} \sum\limits_{k=1}^K r_k,$$

कहाँ $$r_k$$ खंड के लिए पियर्सन का सहसंबंध गुणांक है $$k$$.

पैरामीटर चुनकर $$s$$, मूल्यों की सीमा कम हो जाती है और लंबे समय के पैमाने पर सहसंबंधों को फ़िल्टर कर दिया जाता है, केवल कम समय के पैमाने पर सहसंबंधों का पता चलता है। इस प्रकार, धीमे घटकों के योगदान को हटा दिया जाता है और तेज़ घटकों के योगदान को बरकरार रखा जाता है।

पियर्सन की दूरी
पियर्सन की दूरी के रूप में ज्ञात दो चर X और Y के लिए एक दूरी मीट्रिक को उनके सहसंबंध गुणांक से परिभाषित किया जा सकता है
 * $$d_{X,Y}=1-\rho_{X,Y}.$$

यह मानते हुए कि पियर्सन सहसंबंध गुणांक [−1, +1] के मध्य आता है, पियर्सन की दूरी [0, 2] में है। अज्ञात लाभ और ऑफसेट के साथ संचार और भंडारण के लिए क्लस्टर विश्लेषण और डेटा पहचान में पियरसन दूरी का उपयोग किया गया है। इस तरह से परिभाषित पियर्सन दूरी नकारात्मक सहसंबंधों को 1 से अधिक की दूरी प्रदान करती है। वास्तव में, मजबूत सकारात्मक सहसंबंध और नकारात्मक सहसंबंध दोनों अर्थपूर्ण हैं, इसलिए निकटतम पड़ोसी एल्गोरिदम के लिए पियर्सन दूरी का उपयोग करते समय सावधानी बरतनी चाहिए क्योंकि इस तरह के एल्गोरिदम में केवल सकारात्मक सहसंबंध वाले पड़ोसियों को सम्मलित किया जाएगा और नकारात्मक सहसंबंध वाले पड़ोसियों को बाहर रखा जाएगा। वैकल्पिक रूप से, एक पूर्ण मूल्यवान दूरी, $$d_{X,Y}=1-|\rho_{X,Y}|$$, उपयोजित किया जा सकता है, जो सकारात्मक और नकारात्मक दोनों सहसंबंधों को ध्यान में रखेगा। सकारात्मक और नकारात्मक संघ की जानकारी बाद में अलग-अलग निकाली जा सकती है।

परिपत्र सहसंबंध गुणांक
चरों के लिए X = {x1,...,एक्सn} और वाई = {वाई1,...,औरn} जो यूनिट सर्कल पर परिभाषित हैं $$, पियर्सन के गुणांक के एक परिपत्र अनुरूप को परिभाषित करना संभव है। यह एक्स और वाई में डेटा बिंदुओं को एक उन लोगों के  फ़ंक्शन के साथ परिवर्तित करके किया जाता है जैसे कि सहसंबंध गुणांक इस प्रकार दिया जाता है:


 * $$r_\text{circular} = \frac{\sum ^n _{i=1}\sin(x_i - \bar{x}) \sin(y_i - \bar{y})}{\sqrt{\sum^n_{i=1} \sin(x_i - \bar{x})^2} \sqrt{\sum ^n_{i=1} \sin(y_i - \bar{y})^2}}$$

कहाँ $$\bar{x}$$ और $$\bar{y}$$ X और Y की वृत्ताकार मात्राओं का माध्य हैं। यह माप मौसम विज्ञान जैसे क्षेत्रों में उपयोगी हो सकता है जहां डेटा की कोणीय दिशा महत्वपूर्ण है।

आंशिक सहसंबंध
यदि जनसंख्या या डेटा-सेट को दो से अधिक चरों की विशेषता है, तो एक आंशिक सहसंबंध गुणांक उन चरों की एक जोड़ी के मध्य निर्भरता की ताकत को मापता है, जिस तरह से वे दोनों एक चयनित उपसमुच्चय में भिन्नता के जवाब में बदलते हैं। अन्य चरों का।

एन यादृच्छिक चर का अलंकरण
डेटा परिवर्तन का उपयोग करके यादृच्छिक चर की मनमानी संख्या के सभी जोड़े के मध्य सहसंबंधों को हटाना हमेशा संभव होता है, भले ही चर के मध्य संबंध गैर-रैखिक हो। कॉक्स एंड हिंकले द्वारा जनसंख्या वितरण के लिए इस परिणाम की प्रस्तुति दी गई है। प्रतिदर्श सहसंबंधों को शून्य तक कम करने के लिए एक संबंधित परिणाम मौजूद है। मान लीजिए n यादृच्छिक चर का एक सदिश m बार देखा जाता है। एक्स को एक मैट्रिक्स होने दें $$X_{i,j}$$ प्रेक्षण i का jवाँ चर है। होने देना $$Z_{m,m}$$ प्रत्येक तत्व 1 के साथ एक m बटा m वर्ग मैट्रिक्स हो। फिर D डेटा रूपांतरित होता है इसलिए प्रत्येक यादृच्छिक चर का शून्य माध्य होता है, और T डेटा रूपांतरित होता है इसलिए सभी चरों का शून्य माध्य होता है और अन्य सभी चरों के साथ शून्य सहसंबंध होता है - प्रतिदर्श सहसंबंध मैट्रिक्स T का पहचान मैट्रिक्स होगा। इकाई विचरण प्राप्त करने के लिए इसे आगे मानक विचलन से विभाजित करना होगा। रूपांतरित चर असंबद्ध होंगे, भले ही वे सांख्यिकीय स्वतंत्रता न हों।


 * $$D = X -\frac{1}{m} Z_{m,m} X$$
 * $$T = D (D^{\mathsf{T}} D)^{-\frac{1}{2}},$$

जहां का एक प्रतिपादक $n$ मैट्रिक्स के व्युत्क्रम के [[मैट्रिक्स उलटा]] का प्रतिनिधित्व करता है। T का सहसंबंध मैट्रिक्स पहचान मैट्रिक्स होगा। यदि एक नया डेटा अवलोकन x n तत्वों का एक पंक्ति वेक्टर है, तो रूपांतरित वैक्टर d और t प्राप्त करने के लिए x पर समान परिवर्तन उपयोजित किया जा सकता है:


 * $$d = x - \frac{1}{m} Z_{1,m} X,$$
 * $$t = d (D^{\mathsf{T}} D)^{-\frac{1}{2}}.$$

यह अलंकरण बहुभिन्नरूपी डेटा के लिए प्रमुख घटक विश्लेषण से संबंधित है।

सॉफ्टवेयर कार्यान्वयन

 * आर (प्रोग्रामिंग भाषा) के आंकड़े बेस-पैकेज के साथ सहसंबंध गुणांक उपयोजित करता है , या (P मान के साथ भी) के साथ  ]।
 * के माध्यम से [[SciPy] Python (प्रोग्रामिंग लैंग्वेज) लाइब्रेरी ]।
 * पंडास (सॉफ्टवेयर) पायथन पुस्तकालय पियर्सन सहसंबंध गुणांक गणना को विधि के लिए डिफ़ॉल्ट विकल्प के रूप में उपयोजित करता है
 * वोल्फ्राम मैथेमेटिका के माध्यम से ] फ़ंक्शन, या (P मान के साथ) ।
 * के माध्यम से बूस्ट [[C++] लाइब्रेरी ] समारोह।
 * एक्सेल में इन-बिल्ट पियर्सन के सहसंबंध गुणांक की गणना के लिए कार्य करता है।

यह भी देखें

 * Anscombe की चौकड़ी
 * एसोसिएशन (सांख्यिकी)
 * Colligation का गुणांक
 * यूल का क्यू
 * यूल की वाई
 * समरूपता सहसंबंध गुणांक
 * सहसंबंध और निर्भरता
 * सहसंबंध अनुपात
 * विस्मृति
 * दूरी सहसंबंध
 * अधिकतम सूचना गुणांक
 * एकाधिक सहसंबंध
 * सामान्य रूप से वितरित और असंबद्ध का अर्थ स्वतंत्र नहीं है
 * विषम अनुपात
 * आंशिक सहसंबंध
 * पॉलीकोरिक सहसंबंध
 * चतुर्थांश गणना अनुपात
 * आरवी गुणांक
 * स्पीयरमैन का रैंक सहसंबंध गुणांक

बाहरी संबंध

 * – A free web interface and R package for the statistical comparison of two dependent or independent correlations with overlapping or non-overlapping variables.
 * – an interactive Flash simulation on the correlation of two normally distributed variables.
 * – large table.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.
 * – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.