डन सूचकांक

डन इंडेक्स (डीआई) (1974 में जे. सी. डन द्वारा प्रस्तुत) क्लस्टरिंग एल्गोरिथ्म के मूल्यांकन के लिए एक मीट्रिक है। यह डेविस-बोल्डिन इंडेक्स या सिल्हूट (क्लस्टरिंग) सहित वैधता सूचकांकों के एक समूह का हिस्सा है, इसमें यह एक आंतरिक मूल्यांकन योजना है, जहां परिणाम क्लस्टर किए गए डेटा पर ही आधारित होता है। ऐसे अन्य सभी सूचकांकों की तरह, इसका उद्देश्य उन समूहों के सेट की पहचान करना है जो कॉम्पैक्ट हैं, क्लस्टर के सदस्यों के बीच एक छोटा सा अंतर है, और अच्छी तरह से अलग हैं, जहां विभिन्न समूहों के साधन आंतरिक क्लस्टर की तुलना में पर्याप्त रूप से दूर हैं। विचरण. क्लस्टर के दिए गए असाइनमेंट के लिए, एक उच्च डन इंडेक्स बेहतर क्लस्टरिंग को इंगित करता है। इसका उपयोग करने की कमियों में से एक कम्प्यूटेशनल लागत है क्योंकि क्लस्टर की संख्या और डेटा की आयामीता बढ़ जाती है।

प्रारंभिक
क्लस्टर के आकार या व्यास को परिभाषित करने के कई तरीके हैं। यह क्लस्टर के अंदर सबसे दूर के दो बिंदुओं के बीच की दूरी हो सकती है, यह क्लस्टर के अंदर डेटा बिंदुओं के बीच सभी जोड़ीदार दूरियों का माध्य हो सकता है, या यह क्लस्टर सेंट्रोइड से प्रत्येक डेटा बिंदु की दूरी भी हो सकती है। इनमें से प्रत्येक सूत्रीकरण गणितीय रूप से नीचे दिखाया गया है:

चलो सीi वैक्टरों का एक समूह बनें। मान लीजिए कि x और y एक ही क्लस्टर C को निर्दिष्ट कोई दो n आयामी फ़ीचर वैक्टर हैंi.


 * $$ \Delta_i =  \underset{x, y \in C_i}{\text{max}} d(x,y) $$ , जो अधिकतम दूरी की गणना करता है (डन द्वारा प्रस्तावित संस्करण)।


 * $$ \Delta_i =  \dfrac{2}{|C_i| (|C_i| - 1)} \underset{x, y \in C_i, x \neq y}{\sum} d(x,y) $$ , जो सभी जोड़ियों के बीच की औसत दूरी की गणना करता है।


 * $$ \Delta_i =  \dfrac{\underset{x \in C_i}{\sum} d(x,\mu)}{|C_i|}, \mu =   \dfrac{\underset{x \in C_i}{\sum} x}{|C_i|}  $$ , माध्य से सभी बिंदुओं की दूरी की गणना करता है।

इसे इंटरक्लस्टर दूरी के बारे में भी कहा जा सकता है, जहां निकटतम दो डेटा बिंदुओं (डन द्वारा प्रयुक्त), प्रत्येक क्लस्टर में एक, या सबसे दूर दो, या सेंट्रोइड्स के बीच की दूरी आदि का उपयोग करके समान फॉर्मूलेशन बनाए जा सकते हैं। सूचकांक की परिभाषा में ऐसा कोई भी सूत्रीकरण शामिल है, और इस प्रकार गठित सूचकांकों के परिवार को डन-लाइक इंडेक्स कहा जाता है। होने देना $$ \delta(C_i,C_j) $$ क्लस्टर सी के बीच यह इंटरक्लस्टर दूरी मीट्रिक होi और सीj.

परिभाषा
उपरोक्त नोटेशन के साथ, यदि एम क्लस्टर हैं, तो सेट के लिए डन इंडेक्स को इस प्रकार परिभाषित किया गया है:


 * $$ \mathit{DI}_m = \frac{ \underset{ 1 \leqslant i < j \leqslant m}{\text{min}} \left.\delta(C_i,C_j)\right.}{ \underset{ 1 \leqslant k \leqslant m}{\text{max}} \left.\Delta_k\right.} $$.

स्पष्टीकरण
इस तरह परिभाषित होने के कारण, DI, सेट में क्लस्टर की संख्या, m पर निर्भर करता है। यदि समूहों की संख्या पहले से ज्ञात नहीं है, तो वह मी जिसके लिए डीआई उच्चतम है, उसे समूहों की संख्या के रूप में चुना जा सकता है। जब d(x,y) की परिभाषा की बात आती है तो कुछ लचीलापन भी होता है, जहां क्लस्टरिंग समस्या की ज्यामिति के आधार पर किसी भी प्रसिद्ध मीट्रिक का उपयोग किया जा सकता है, जैसे मैनहट्टन दूरी या यूक्लिडियन दूरी। इस सूत्रीकरण में एक अजीब समस्या है, इसमें यदि समूहों में से एक के साथ बुरा व्यवहार किया जाता है, जहां अन्य को कसकर पैक किया जाता है, क्योंकि हर में एक औसत शब्द के बजाय 'अधिकतम' शब्द होता है, तो समूहों के उस सेट के लिए डन इंडेक्स होगा अस्वाभाविक रूप से कम. इस प्रकार यह सबसे खराब स्थिति का संकेतक है, और इसे ध्यान में रखा जाना चाहिए। MATLAB, R (प्रोग्रामिंग भाषा) और Apache Mahout जैसी कुछ वेक्टर आधारित प्रोग्रामिंग भाषाओं में डन इंडेक्स का कार्यान्वयन तैयार है।