हॉपकिंस सांख्यिकी

हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा समुच्चय की क्लस्टर प्रवृत्ति को मापने का एक तरीका है।^[1] यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक सांख्यिकीय परिकल्पना परीक्षण के रूप में कार्य करता है जहां अशक्त परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है।^[2] 0 के निकट का मान इंगित करता है कि डेटा अत्यधिक क्लस्टर किया गया है और समान रूप से वितरित डेटा का परिणाम 0,5 के निकट होगा।^[3]

प्रारंभिक

हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।^[2]

मान लीजिए

X

n

डेटा बिंदुओं का समुच्चय है।

{\overset {\sim }{X}}

से प्रतिस्थापन के बिना

m\ll n

नमूना किए गए डेटा बिंदुओं का एक यादृच्छिक नमूना

X

उत्पन्न करें।

m

समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदुओं का एक समुच्चय Y उत्पन्न करें।

दूरी के दो माप परिभाषित करें,

u_{i},

की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)।

y_{i}\in Y

में अपने निकटटतम नेइबोरिंग के लिए

X

, और

w_{i},

की न्यूनतम दूरी

{\overset {\sim }{x}}_{i}\in {\overset {\sim }{X}}\subseteq X

अपने निकटटतम नेइबोरिंग को

x_{j}\in X,\,{\overset {\sim }{x_{i}}}\neq x_{j}.

परिभाषा

उपरोक्त नोटेशन के साथ, यदि डेटा है $d$ आयामी, तो हॉपकिंस आँकड़ा इस प्रकार परिभाषित किया गया है:^[4]

$H={\frac {\sum _{i=1}^{m}{u_{i}^{d}}}{\sum _{i=1}^{m}{u_{i}^{d}}+\sum _{i=1}^{m}{w_{i}^{d}}}}\,$ शून्य परिकल्पनाओं के तहत, इस आँकड़े में बीटा(m,m) वितरण है।

नोट्स और संदर्भ

↑ Hopkins, Brian; Skellam, John Gordon (1954). "A new method for determining the type of distribution of plant individuals". Annals of Botany. Annals Botany Co. 18 (2): 213–227. doi:10.1093/oxfordjournals.aob.a083391.
↑ ^2.0 ^2.1 Banerjee, A. (2004). "Validating clusters using the Hopkins statistic". IEEE International Conference on Fuzzy Systems. 1: 149–153. doi:10.1109/FUZZY.2004.1375706. ISBN 0-7803-8353-2. S2CID 36701919.
↑ Aggarwal, Charu C. (2015). डेटा खनन (in English). Cham: Springer International Publishing. p. 158. doi:10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1. S2CID 13595565.
↑ Cross, G.R.; Jain, A.K. (1982). "क्लस्टरिंग प्रवृत्ति का मापन". Theory and Application of Digital Control: 315-320. doi:10.1016/B978-0-08-027618-2.50054-1.

बाहरी संबंध

http://www.sthda.com/english/wiki/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning

[1] Hopkins, Brian; Skellam, John Gordon (1954). "A new method for determining the type of distribution of plant individuals". Annals of Botany. Annals Botany Co. 18 (2): 213–227. doi:10.1093/oxfordjournals.aob.a083391.

[banerjee04-2] 2.0 ^2.1 Banerjee, A. (2004). "Validating clusters using the Hopkins statistic". IEEE International Conference on Fuzzy Systems. 1: 149–153. doi:10.1109/FUZZY.2004.1375706. ISBN 0-7803-8353-2. S2CID 36701919.

[3] Aggarwal, Charu C. (2015). डेटा खनन (in English). Cham: Springer International Publishing. p. 158. doi:10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1. S2CID 13595565.

[4] Cross, G.R.; Jain, A.K. (1982). "क्लस्टरिंग प्रवृत्ति का मापन". Theory and Application of Digital Control: 315-320. doi:10.1016/B978-0-08-027618-2.50054-1.

[1]

[2]

[3]

[4]

Anonymous

Search

हॉपकिंस सांख्यिकी

Namespaces

More

Page actions

Contents

प्रारंभिक

परिभाषा

नोट्स और संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

हॉपकिंस सांख्यिकी

प्रारंभिक

परिभाषा

नोट्स और संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories