हॉपकिंस सांख्यिकी

हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा सेट की क्लस्टर प्रवृत्ति को मापने का एक तरीका है। यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक सांख्यिकीय परिकल्पना परीक्षण के रूप में कार्य करता है जहां शून्य परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है। 0 के करीब का मान यह दर्शाता है कि डेटा अत्यधिक क्लस्टर्ड है और समान रूप से वितरित डेटा का परिणाम 0,5 के करीब होगा।

प्रारंभिक
हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है। :होने देना $$X$$ का सेट हो $$n$$ डेटा अंक।
 * एक यादृच्छिक नमूना उत्पन्न करें $$\overset{\sim}{X}$$ का $$m \ll n$$ प्रतिस्थापन के बिना डेटा बिंदुओं का नमूना लिया गया $$X$$.
 * एक सेट तैयार करें $$Y$$ का $$m$$ समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदु।
 * दो दूरी माप परिभाषित करें,
 * $$u_i,$$ की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)। $$y_i \in Y$$ में अपने निकटतम पड़ोसी के लिए $$X$$, और
 * $$w_i,$$ की न्यूनतम दूरी $$\overset{\sim}{x}_i \in \overset{\sim}{X}\subseteq X$$ अपने निकटतम पड़ोसी को $$x_j \in X,\, \overset{\sim}{x_i}\ne x_j.$$

परिभाषा
उपरोक्त नोटेशन के साथ, यदि डेटा है $$d$$ आयामी, तो हॉपकिंस आँकड़ा इस प्रकार परिभाषित किया गया है:

$$ H=\frac{\sum_{i=1}^m{u_i^d}}{\sum_{i=1}^m{u_i^d}+\sum_{i=1}^m{w_i^d}} \, $$ शून्य परिकल्पनाओं के तहत, इस आँकड़े में बीटा(एम,एम) वितरण है।

बाहरी संबंध

 * http://www.sthda.com/english/wiki/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning