रैंड इंडेक्स

रैंड इंडेक्स या आँकड़ों में रैंड माप (विलियम एम. रैंड के नाम पर), और विशेष रूप से डेटा क्लस्टरिंग में, दो डेटा क्लस्टरिंग के बीच समानता का एक उपाय है। रैंड इंडेक्स का एक रूप परिभाषित किया जा सकता है जो तत्वों के मौका समूह के लिए समायोजित किया जाता है, यह समायोजित रैंड इंडेक्स है। गणितीय दृष्टिकोण से, रैंड इंडेक्स सटीकता और सटीकता से संबंधित है # बाइनरी वर्गीकरण में, लेकिन तब भी लागू होता है जब क्लास लेबल का उपयोग नहीं किया जाता है।

परिभाषा
का एक सेट (गणित) दिया गया है $$n$$ तत्व (गणित) $$S = \{o_1, \ldots, o_n\}$$ और एक सेट के दो विभाजन $$S$$ तुलना करने के लिए, $$X = \{X_1, \ldots, X_r\}$$, S का r सबसेट में विभाजन, और $$Y = \{Y_1, \ldots, Y_s\}$$, S का s उपसमुच्चय में विभाजन, निम्नलिखित को परिभाषित करें: रैंड सूचकांक, $$R$$, है:
 * $$a$$, तत्वों के जोड़े की संख्या $$S$$ जो एक ही उपसमुच्चय में हैं $$X$$ और उसी उपसमुच्चय में $$Y$$
 * $$b$$, तत्वों के जोड़े की संख्या $$S$$ जो अलग-अलग उपसमुच्चय में हैं $$X$$ और विभिन्न उपसमुच्चय में $$Y$$
 * $$c$$, तत्वों के जोड़े की संख्या $$S$$ जो एक ही उपसमुच्चय में हैं $$X$$ और विभिन्न उपसमुच्चय में $$Y$$
 * $$d$$, तत्वों के जोड़े की संख्या $$S$$ जो अलग-अलग उपसमुच्चय में हैं $$X$$ और उसी उपसमुच्चय में $$Y$$
 * $$ R = \frac{a+b}{a+b+c+d} = \frac{a+b}$$

सहज रूप से, $$a + b$$ के बीच समझौतों की संख्या के रूप में माना जा सकता है $$X$$ और $$Y$$ और $$c + d$$ के बीच असहमति की संख्या के रूप में $$X$$ और $$Y$$.

चूंकि भाजक जोड़े की कुल संख्या है, रैंड इंडेक्स घटना की आवृत्ति का प्रतिनिधित्व करता है कुल जोड़े पर समझौतों की, या संभावना है कि $$X$$ और $$Y$$ बेतरतीब ढंग से चुनी गई जोड़ी पर सहमत होंगे।

$$ {n \choose 2 }$$ के रूप में गणना की जाती है $$ n(n-1)/2$$.

इसी तरह, रैंड इंडेक्स को एल्गोरिथम द्वारा किए गए सही निर्णयों के प्रतिशत के माप के रूप में भी देखा जा सकता है। इसकी गणना निम्न सूत्र का उपयोग करके की जा सकती है:

RI = \frac {TP + TN} {TP + FP + FN + TN} $$
 * कहाँ $$TP$$ वास्तविक सकारात्मक की संख्या है, $$TN$$ सच्चे नकारात्मक की संख्या है, $$FP$$ झूठी सकारात्मक की संख्या है, और $$FN$$ झूठे नकारात्मक की संख्या है।

गुण
रैंड इंडेक्स में 0 और 1 के बीच का मान होता है, जिसमें 0 यह दर्शाता है कि दो डेटा क्लस्टरिंग किसी भी जोड़ी के बिंदुओं पर सहमत नहीं हैं और 1 यह दर्शाता है कि डेटा क्लस्टरिंग बिल्कुल समान हैं।

गणितीय शब्दों में, ए, बी, सी, डी को निम्नानुसार परिभाषित किया गया है:

कुछ के लिए $$1 \leq i,j \leq n, i \neq j, 1 \leq k, k_{1}, k_{2} \leq r, k_{1} \neq k_{2}, 1 \leq l, l_{1},l_{2} \leq s, l_{1} \neq l_{2}$$
 * $$a = |S^{*}|$$, कहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i}, o_{j} \in X_{k}, o_{i}, o_{j} \in Y_{l}\}$$
 * $$b = |S^{*}|$$, कहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i} \in X_{k_{1}}, o_{j} \in X_{k_{2}}, o_{i} \in Y_{l_{1}}, o_{j} \in Y_{l_{2}}\}$$
 * $$c = |S^{*}|$$, कहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i}, o_{j} \in X_{k}, o_{i} \in Y_{l_{1}}, o_{j} \in Y_{l_{2}}\}$$
 * $$d = |S^{*}|$$, कहाँ $$S^{*} = \{ (o_{i}, o_{j}) \mid o_{i} \in X_{k_{1}}, o_{j} \in X_{k_{2}}, o_{i}, o_{j} \in Y_{l}\}$$

वर्गीकरण सटीकता के साथ संबंध
रैंड इंडेक्स को तत्वों के जोड़े पर बाइनरी वर्गीकरण सटीकता के प्रिज्म के माध्यम से भी देखा जा सकता है $$S$$. दो वर्ग लेबल हैं$$o_{i}$$ और $$o_{j}$$ में एक ही उपसमुच्चय में हैं $$X$$ और $$Y$$और$$o_{i}$$ और $$o_{j}$$ में विभिन्न उपसमुच्चयों में हैं $$X$$ और $$Y$$.

उस सेटिंग में, $$a$$ एक ही उपसमुच्चय (सही सकारात्मक) से संबंधित सही ढंग से लेबल किए गए जोड़े की संख्या है, और $$b$$ विभिन्न उपसमुच्चयों (सच्चे नकारात्मक) से संबंधित सही ढंग से लेबल किए गए जोड़े की संख्या है।

समायोजित रैंड इंडेक्स
समायोजित रैंड इंडेक्स रैंड इंडेक्स का सही-के-मौका संस्करण है। मौके के लिए इस तरह का सुधार यादृच्छिक मॉडल द्वारा निर्दिष्ट क्लस्टरिंग के बीच सभी जोड़ी-वार तुलनाओं की अपेक्षित समानता का उपयोग करके आधार रेखा स्थापित करता है। परंपरागत रूप से, रैंड इंडेक्स को क्लस्टरिंग के लिए क्रमचय मॉडल का उपयोग करके ठीक किया गया था (क्लस्टरिंग के भीतर क्लस्टर्स की संख्या और आकार निश्चित हैं, और सभी यादृच्छिक क्लस्टरिंग निश्चित समूहों के बीच तत्वों को फेरबदल करके उत्पन्न होते हैं)। हालाँकि, क्रमचय मॉडल के परिसर का अक्सर उल्लंघन किया जाता है; कई क्लस्टरिंग परिदृश्यों में, या तो क्लस्टर्स की संख्या या उन क्लस्टर्स के आकार वितरण में भारी अंतर होता है। उदाहरण के लिए, विचार करें कि K- साधन क्लस्टरिंग में | K- साधन व्यवसायी द्वारा समूहों की संख्या तय की जाती है, लेकिन उन समूहों के आकार डेटा से अनुमानित होते हैं। यादृच्छिक क्लस्टरिंग के विभिन्न मॉडलों के लिए समायोजित रैंड इंडेक्स खाते की विविधताएं। हालांकि रैंड इंडेक्स केवल 0 और +1 के बीच एक मान उत्पन्न कर सकता है, यदि इंडेक्स अपेक्षित इंडेक्स से कम है तो समायोजित रैंड इंडेक्स नकारात्मक मान प्राप्त कर सकता है।

आकस्मिक तालिका
एक सेट दिया $S$ का $n$ तत्व, और इन तत्वों के दो समूह या विभाजन (जैसे क्लस्टरिंग), अर्थात् $$X = \{ X_1, X_2, \ldots, X_r \}$$ और $$Y = \{ Y_1, Y_2, \ldots , Y_s \}$$, के बीच ओवरलैप $X$ और $Y$ आकस्मिक तालिका में सारांशित किया जा सकता है $$\left[n_{ij}\right]$$ जहां प्रत्येक प्रविष्टि $$n_{ij}$$ के बीच आम में वस्तुओं की संख्या को दर्शाता है $$X_i$$ और $$Y_j$$ : $$n_{ij}=|X_i \cap Y_j|$$.
 * $$\begin{array}{c|cccc|c}

{{} \atop X}\!\diagdown\!^Y & Y_1& Y_2& \cdots& Y_s& \text{sums} \\ \hline X_1& n_{11}& n_{12}& \cdots& n_{1s}& a_1 \\ X_2& n_{21}& n_{22}& \cdots& n_{2s}& a_2 \\ \vdots& \vdots& \vdots& \ddots& \vdots& \vdots \\ X_r& n_{r1}& n_{r2}& \cdots& n_{rs}& a_r \\ \hline \text{sums}& b_1& b_2& \cdots& b_s& \end{array}$$

परिभाषा
क्रमपरिवर्तन मॉडल का उपयोग कर मूल समायोजित रैंड इंडेक्स है
 * $$ARI = \frac{ \left. \sum_{ij} \binom{n_{ij}}{2} - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}\right] \right/ \binom{n}{2} }{ \left. \frac{1}{2} \left[\sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2}\right] - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}\right] \right/ \binom{n}{2} }$$

कहाँ $$n_{ij}, a_i, b_j$$ आकस्मिक तालिका से मान हैं।

यह भी देखें

 * सरल मिलान गुणांक

बाहरी संबंध

 * C++ implementation with MATLAB mex files