रैंड इंडेक्स

रैंड इंडेक्स या स्थैतिकी में रैंड माप (विलियम एम. रैंड के नाम पर), और विशेष रूप से आँकड़े गुच्छन में, दो आँकड़े गुच्छन के बीच समानता का एक उपाय है। रैंड इंडेक्स का एक रूप परिभाषित किया जा सकता है जो तत्वों का संयोग समूहन के लिए समायोजित किया जाता है, यह समायोजित रैंड इंडेक्स है। गणितीय दृष्टिकोण से, रैंड इंडेक्स सटीकता से संबंधित है, लेकिन तब भी लागू होता है जब श्रेणी वर्गीकरण का उपयोग नहीं किया जाता है।

परिभाषा
$$n$$ तत्वों के एक सम्मुच्चय को देखते हुए $$S = \{o_1, \ldots, o_n\}$$ और तुलना करने के लिए $$S$$ के दो विभाजन, $$X = \{X_1, \ldots, X_r\}$$ उपसम्मुच्चय में S का एक विभाजन, और Y = \$$Y = \{Y_1, \ldots, Y_s\}$$, s उपसमुच्चयों में S का विभाजन, निम्नलिखित को परिभाषित करें: रैंड सूचकांक, $$R$$, है:
 * $$a$$, $$S$$ में तत्वों के जोड़े की संख्या जो $$X$$ में एक ही उपसमुच्चय में और $$Y$$ में एक ही उपसमुच्चय में हैं
 * $$b$$, $$S$$ में तत्वों के जोड़े की संख्या जो $$X$$ में अलग-अलग उपसमुच्चय में और $$Y$$ में अलग-अलग उपसमुच्चय में हैं
 * $$c$$, $$S$$ में तत्वों के जोड़े की संख्या जो $$X$$ में एक ही उपसमुच्चय में और $$Y$$ में विभिन्न उपसमुच्चय में हैं
 * $$d$$, $$S$$ में तत्वों के जोड़े की संख्या जो $$X$$ में विभिन्न उपसमुच्चय में हैं और $$Y$$ में एक ही उपसमुच्चय में हैं
 * $$ R = \frac{a+b}{a+b+c+d} = \frac{a+b}$$

सहज रूप से, $$a + b$$ के बीच समझौतों की संख्या $$X$$ और $$Y$$ के रूप में माना जा सकता है और $$c + d$$ के बीच असहमति की संख्या के रूप में $$X$$ और $$Y$$ है

चूंकि भाजक जोड़े की कुल संख्या है, रैंड इंडेक्स कुल जोड़े पर समझौतों की घटना की आवृत्ति का प्रतिनिधित्व करता है, या संभावना है कि $$X$$ और $$Y$$ यादृच्छिक रूप से चुने गए जोड़े पर सहमत होंगे.

$$ {n \choose 2 }$$ की गणना $$ n(n-1)/2$$ के रूप में की जाती है।

इसी तरह, रैंड इंडेक्स को कलन विधि द्वारा किए गए सही निर्णयों के प्रतिशत के माप के रूप में भी देखा जा सकता है। इसकी गणना निम्न सूत्र का उपयोग करके की जा सकती है:

RI = \frac {TP + TN} {TP + FP + FN + TN} $$
 * जहाँ $$TP$$ वास्तविक सकारात्मक की संख्या है, $$TN$$ वास्तविक नकारात्मक की संख्या है, $$FP$$ मिथ्या नकारात्मक की संख्या है, और $$FN$$ मिथ्या नकारात्मक की संख्या है।

गुण
रैंड इंडेक्स में 0 और 1 के बीच का मान होता है, जिसमें 0 यह दर्शाता है कि दो आँकड़े गुच्छन किसी भी जोड़ी के बिंदुओं पर सहमत नहीं हैं और 1 यह दर्शाता है कि आँकड़े गुच्छन बिल्कुल समान हैं।

गणितीय शब्दों में, a, b, c, d को निम्नानुसार परिभाषित किया गया है:

कुछ $$1 \leq i,j \leq n, i \neq j, 1 \leq k, k_{1}, k_{2} \leq r, k_{1} \neq k_{2}, 1 \leq l, l_{1},l_{2} \leq s, l_{1} \neq l_{2}$$ के लिए है।
 * $$a = |S^{*}|$$, जहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i}, o_{j} \in X_{k}, o_{i}, o_{j} \in Y_{l}\}$$
 * $$b = |S^{*}|$$, जहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i} \in X_{k_{1}}, o_{j} \in X_{k_{2}}, o_{i} \in Y_{l_{1}}, o_{j} \in Y_{l_{2}}\}$$
 * $$c = |S^{*}|$$, जहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i}, o_{j} \in X_{k}, o_{i} \in Y_{l_{1}}, o_{j} \in Y_{l_{2}}\}$$
 * $$d = |S^{*}|$$, जहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i} \in X_{k_{1}}, o_{j} \in X_{k_{2}}, o_{i}, o_{j} \in Y_{l}\}$$

वर्गीकरण सटीकता के साथ संबंध
रैंड इंडेक्स को तत्वों के जोड़े पर युग्मक वर्गीकरण सटीकता के वर्णक्रम $$S$$ के माध्यम से भी देखा जा सकता है। $$o_{i}$$ और $$o_{j}$$ दो वर्ग वर्गीकृत हैं और $$X$$ और $$Y$$ में एक ही उपसमुच्चय में हैं और $$o_{i}$$ और $$o_{j}$$ $$X$$ और $$Y$$ में विभिन्न उपसमुच्चयों में हैं।

उस समायोजन में, $$a$$ एक ही उपसमुच्चय (वास्तविक सकारात्मक) से संबंधित सही ढंग से वर्गीकृत किए गए जोड़े की संख्या है, और $$b$$ अलग-अलग उपसमुच्चय (वास्तविक नकारात्मक) से संबंधित सही ढंग से वर्गीकृत किए गए जोड़े की संख्या है।

समायोजित रैंड इंडेक्स
समायोजित रैंड इंडेक्स रैंड इंडेक्स का संयोग-संशोधित संस्करण है। मौके के लिए इस तरह का सुधार यादृच्छिक प्रतिरूप द्वारा निर्दिष्ट गुच्छन के बीच सभी जोड़ी-वार तुलनाओं की अपेक्षित समानता का उपयोग करके आधार रेखा स्थापित करता है। परंपरागत रूप से, रैंड इंडेक्स को गुच्छन के लिए क्रमचय प्रतिरूप का उपयोग करके ठीक किया गया था (गुच्छन के भीतर गुच्छन की संख्या और आकार निश्चित हैं, और सभी यादृच्छिक गुच्छन निश्चित समूहों के बीच तत्वों को समवकुलन करके उत्पन्न होते हैं)। हालाँकि, क्रमचय प्रतिरूप के परिसर का प्रायः उल्लंघन किया जाता है; कई गुच्छन परिदृश्यों में, या तो गुच्छन की संख्या या उन गुच्छन के आकार वितरण में भारी अंतर होता है। उदाहरण के लिए, विचार करें कि K- साधन व्यवसायी द्वारा समूहों की संख्या तय की जाती है, लेकिन उन समूहों के आकार आंकड़ों से अनुमानित होते हैं। यादृच्छिक गुच्छन के विभिन्न प्रतिरूपों के लिए समायोजित रैंड इंडेक्स खाते की विविधताएं।

हालांकि रैंड इंडेक्स केवल 0 और +1 के बीच एक मान उत्पन्न कर सकता है, यदि इंडेक्स अपेक्षित इंडेक्स से कम है तो समायोजित रैंड इंडेक्स नकारात्मक मान प्राप्त कर सकता है।

आकस्मिक इंडेक्स
n तत्वों का एक समुच्चय S दिया है, और इन तत्वों के दो समूह या विभाजन (जैसे गुच्छन), अर्थात् $$X = \{ X_1, X_2, \ldots, X_r \}$$ और $$Y = \{ Y_1, Y_2, \ldots , Y_s \}$$, के बीच अतिछादित $X$ और $Y$ आकस्मिक इंडेक्स $$\left[n_{ij}\right]$$ में सारांशित किया जा सकता है जहां प्रत्येक प्रविष्टि $$n_{ij}$$ $$X_i$$और $$Y_j$$ के बीच सामान्य वस्तुओं की संख्या को दर्शाती है: $$n_{ij}=|X_i \cap Y_j|$$
 * $$\begin{array}{c|cccc|c}

{{} \atop X}\!\diagdown\!^Y & Y_1& Y_2& \cdots& Y_s& \text{sums} \\ \hline X_1& n_{11}& n_{12}& \cdots& n_{1s}& a_1 \\ X_2& n_{21}& n_{22}& \cdots& n_{2s}& a_2 \\ \vdots& \vdots& \vdots& \ddots& \vdots& \vdots \\ X_r& n_{r1}& n_{r2}& \cdots& n_{rs}& a_r \\ \hline \text{sums}& b_1& b_2& \cdots& b_s& \end{array}$$

परिभाषा
क्रमपरिवर्तन प्रतिरूप का उपयोग कर मूल समायोजित रैंड इंडेक्स है
 * $$ARI = \frac{ \left. \sum_{ij} \binom{n_{ij}}{2} - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}\right] \right/ \binom{n}{2} }{ \left. \frac{1}{2} \left[\sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2}\right] - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}\right] \right/ \binom{n}{2} }$$

जहाँ $$n_{ij}, a_i, b_j$$ आकस्मिक इंडेक्स से मान हैं।

यह भी देखें

 * सरल मिलान गुणांक

बाहरी संबंध

 * C++ implementation with MATLAB mex files