हॉपकिंस सांख्यिकी

हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा समुच्चय की क्लस्टर प्रवृत्ति को मापने का एक तरीका है। यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक सांख्यिकीय परिकल्पना परीक्षण के रूप में कार्य करता है जहां अशक्त परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है। 0 के निकट का मान इंगित करता है कि डेटा अत्यधिक क्लस्टर किया गया है और समान रूप से वितरित डेटा का परिणाम 0,5 के निकट होगा।

प्रारंभिक
हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।


 * मान लीजिए $$X$$ $$n$$ डेटा बिंदुओं का समुच्चय है।
 * $$\overset{\sim}{X}$$ से प्रतिस्थापन के बिना $$m \ll n$$ नमूना किए गए डेटा बिंदुओं का एक यादृच्छिक नमूना $$X$$ उत्पन्न करें।
 * $$m$$ समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदुओं का एक समुच्चय Y उत्पन्न करें।
 * दूरी के दो माप परिभाषित करें,
 * $$u_i,$$ की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)। $$y_i \in Y$$ में अपने निकटटतम नेइबोरिंग के लिए $$X$$, और
 * $$w_i,$$ की न्यूनतम दूरी $$\overset{\sim}{x}_i \in \overset{\sim}{X}\subseteq X$$ अपने निकटटतम नेइबोरिंग को $$x_j \in X,\, \overset{\sim}{x_i}\ne x_j.$$
 * $$u_i,$$ की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)। $$y_i \in Y$$ में अपने निकटटतम नेइबोरिंग के लिए $$X$$, और
 * $$w_i,$$ की न्यूनतम दूरी $$\overset{\sim}{x}_i \in \overset{\sim}{X}\subseteq X$$ अपने निकटटतम नेइबोरिंग को $$x_j \in X,\, \overset{\sim}{x_i}\ne x_j.$$

परिभाषा
उपरोक्त नोटेशन के साथ, यदि डेटा है $$d$$ आयामी, तो हॉपकिंस आँकड़ा इस प्रकार परिभाषित किया गया है:

$$ H=\frac{\sum_{i=1}^m{u_i^d}}{\sum_{i=1}^m{u_i^d}+\sum_{i=1}^m{w_i^d}} \, $$ शून्य परिकल्पनाओं के तहत, इस आँकड़े में बीटा(m,m) वितरण है।

बाहरी संबंध

 * http://www.sthda.com/english/wiki/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning