K-माध्यम क्लस्टरिंग

From Vigyanwiki
Revision as of 17:32, 28 March 2023 by alpha>Artiverma

K-अर्थात समूह संचालन परिमाणीकरण की विधि है, जो मूल रूप से संकेत आगे बढ़ाना से है, जिसका उद्देश्य उपसमुच्चय N अवलोकनों को K समूहों में विभाजित करना है जिसमें प्रत्येक अवलोकन समूह (सांख्यिकी) से संबंधित हैI निकटतम माध्य (समूह केंद्र या समूह केन्द्रक) के साथ, समूह के प्रोटोटाइप के रूप में कार्य करता है। इसका परिणाम वोरोनोई कोशिकाओं में डेटा स्थान के विभाजन में होता है। k-अर्थात समूहिंग अंदर-समूह भिन्नता (यूक्लिडियन दूरियों को चुकता) को अल्प करता है, किन्तु नियमित यूक्लिडियन दूरियों को नहीं, जो कि अधिक कठिन वेबर समस्या होगी I माध्य चुकता त्रुटियों का अनुकूलन करता है, जबकि केवल ज्यामितीय माध्य यूक्लिडियन दूरी को अल्प करता है। उदाहरण के लिए, K-मीडियन समूहिंग k-मेडियंस एवं k-मेडोइड्स k-मेडॉयड्स का उपयोग करके उत्तम यूक्लिडियन समाधान संशोधित किये जा सकते हैं।

समस्या कम्प्यूटेशनल रूप से कठिन है (एनपी-कठोरता) चूंकि, कुशल अनुमानी एल्गोरिदम स्थानीय इष्टतम में परिवर्तित हो जाते हैं। ये सामान्यतः 'K-साधन' एवं 'गाऊसी मिश्रण प्रारूपो' दोनों द्वारा नियोजित पुनरावृत्त शोधन दृष्टिकोण के माध्यम से गॉसियन वितरण के मिश्रण प्रारूप के लिए अपेक्षा-अधिकतमकरण एल्गोरिथ्म के समान हैं। वे दोनों डेटा को प्रारूप करने के लिए समूह केंद्रों का उपयोग करते हैं; चूंकि, k - का अर्थ है समूहिंग तुलनीय स्थानिक सीमा के समूहों का शोध करने के लिए किया जाता है, जबकि गॉसियन मिश्रण प्रारूप समूह्स को अलग-अलग आकार देने की अनुमति देता है।

अनियंत्रित k-अर्थात एल्गोरिदम का k-निकटतम परस्पर से ढीला संबंध है, k-निकटतम परस्पर वर्गीकारक, के लिए लोकप्रिय पर्यवेक्षित यंत्र अधिगम प्रविधि है जिसे अक्सर के के साथ भ्रमित किया जाता है- अर्थात नाम के कारण। K द्वारा प्राप्त समूह केंद्रों में 1-निकटतम परस्पर क्लासिफायरियर को लागू करने का अर्थात मौजूदा समूह में नए डेटा को वर्गीकृत करना है। इसे निकटतम सेंट्रोइड क्लासिफायरियर या रोक्चियो एल्गोरिथम के रूप में जाना जाता है।

विवरण

टिप्पणियों के उपसमुच्चय को देखते हुए (x1, x2, ..., xn), जहां प्रत्येक अवलोकन डी-आयामी वास्तविक वेक्टर है, k-अर्थात समूहिंग का उद्देश्य nअवलोकनों को k (≤ n) समुच्चय 's' = {s में विभाजित करना है1, s2, ..., sk} जिससे वर्गों के अंदर-समूह योग (WCSS) (अर्थात विचरण) को अल्प किया जा सके। औपचारिक रूप से इस उद्देश्य का शोध करना हैI

जहां μiमें बिंदुओं का माध्य (जिसे केन्द्रक भी कहा जाता है) है , अर्थात। <डिव वर्ग = केंद्र> का आकार है , एवं सामान्य मानदंड (गणित) है|एल

2 </सुप> मानक । यह एक ही समूह में बिंदुओं के जोड़ीदार वर्ग विचलन को अल्प करने के बराबर है:
समरूपता को सर्वसमिका से निकाला जा सकता है . चूंकि कुल भिन्नता स्थिर है, यह विभिन्न समूहों (वर्गों के बीच-समूह योग, बीसीएसएस) में बिंदुओं के बीच वर्ग विचलन के योग को अधिकतम करने के बराबर है।[1] यह नियतात्मक संबंध प्रायिकता सिद्धांत में कुल विचरण के नियम से भी संबंधित है।

इतिहास

के-मीन्स शब्द का पहली बार इस्तेमाल जेम्स मैकक्वीन ने 1967 में किया था।[2] हालांकि यह विचार 1956 में ह्यूगो स्टीनहॉस के पास वापस चला गया।[3] मानक एल्गोरिथम पहली बार 1957 में बेल लैब्स के स्टुअर्ट लॉयड द्वारा पल्स कोड मॉडुलेशन के लिए एक तकनीक के रूप में प्रस्तावित किया गया था, हालांकि इसे 1982 तक एक जर्नल लेख के रूप में प्रकाशित नहीं किया गया था।[4] 1965 में, एडवर्ड डब्ल्यू फोर्गी ने अनिवार्य रूप से एक ही विधि प्रकाशित की, यही कारण है कि इसे कभी-कभी लॉयड-फोर्गी एल्गोरिथम कहा जाता है।[5]


एल्गोरिदम

मानक एल्गोरिदम (बेवकूफ के-साधन)

के-साधनों का अभिसरण
सबसे आम एल्गोरिथ्म पुनरावृत्त शोधन तकनीक का उपयोग करता है। इसकी सर्वव्यापकता के कारण, इसे अक्सर k-means एल्गोरिथम कहा जाता है; इसे विशेष रूप से कंप्यूटर विज्ञान समुदाय में लॉयड्स एल्गोरिथम के रूप में भी जाना जाता है। इसे कभी-कभी भोली के-साधन के रूप में भी जाना जाता है, क्योंकि बहुत तेज़ विकल्प मौजूद हैं।[6]

k के प्रारंभिक सेट को देखते हुए m का अर्थ है1(1)</सुप>, ..., मk(1) (नीचे देखें), एल्गोरिथ्म दो चरणों के बीच बारी-बारी से आगे बढ़ता है:[7]

असाइनमेंट चरण: प्रत्येक अवलोकन को क्लस्टर को निकटतम माध्य के साथ असाइन करें: कम से कम वर्ग यूक्लिडियन दूरी के साथ।[8] (गणितीय रूप से, इसका अर्थ है साधनों द्वारा उत्पन्न वोरोनोई आरेख के अनुसार अवलोकनों को विभाजित करना।)
जहां प्रत्येक ठीक एक को सौंपा गया है , भले ही यह उनमें से दो या अधिक को सौंपा जा सकता है।
अपडेट चरण: प्रत्येक क्लस्टर को असाइन किए गए अवलोकनों के लिए पुनर्गणना का मतलब (केन्द्रक)।

एल्गोरिथम अभिसरण तब होता है जब असाइनमेंट अब नहीं बदलते हैं। इष्टतम खोजने के लिए एल्गोरिदम की गारंटी नहीं है।[9] एल्गोरिथम को अक्सर दूरी के आधार पर निकटतम क्लस्टर में ऑब्जेक्ट असाइन करने के रूप में प्रस्तुत किया जाता है। (स्क्वायर) यूक्लिडियन दूरी के अलावा किसी भिन्न दूरी फ़ंक्शन का उपयोग करने से एल्गोरिथम को अभिसरण से रोका जा सकता है। के-मीन्स के विभिन्न संशोधन जैसे गोलाकार के-मीन्स और के-मेडोइड्स | के-मेडोइड्स को अन्य दूरी उपायों का उपयोग करने की अनुमति देने के लिए प्रस्तावित किया गया है।

आरंभीकरण के तरीके

आमतौर पर इस्तेमाल की जाने वाली इनिशियलाइज़ेशन विधियाँ फोर्जी और रैंडम पार्टीशन हैं।[10] Forgy विधि यादृच्छिक रूप से डेटासेट से k अवलोकन चुनती है और प्रारंभिक साधनों के रूप में इनका उपयोग करती है। रैंडम पार्टिशन विधि पहले बेतरतीब ढंग से प्रत्येक अवलोकन के लिए एक क्लस्टर प्रदान करती है और फिर अद्यतन चरण पर आगे बढ़ती है, इस प्रकार प्रारंभिक माध्य की गणना क्लस्टर के यादृच्छिक रूप से असाइन किए गए बिंदुओं के केन्द्रक के रूप में की जाती है। फोर्जी विधि प्रारंभिक साधनों को फैलाने की प्रवृत्ति रखती है, जबकि रैंडम विभाजन उन सभी को डेटा सेट के केंद्र के करीब रखता है। हैमरली एट अल। के अनुसार,[10]यादृच्छिक विभाजन विधि आम तौर पर एल्गोरिदम जैसे के-हार्मोनिक साधनों और फ़ज़ी के-साधनों के लिए बेहतर होती है। अपेक्षा अधिकतमकरण और मानक के-साधन एल्गोरिदम के लिए, प्रारंभिकरण की फोर्जी विधि बेहतर है। सेलेबी एट अल द्वारा एक व्यापक अध्ययन।[11] हालाँकि, पाया गया कि फोर्जी, रैंडम पार्टीशन और मैक्सिमिन जैसे लोकप्रिय इनिशियलाइज़ेशन तरीके अक्सर खराब प्रदर्शन करते हैं, जबकि ब्रैडली और फ़य्यद का दृष्टिकोण[12] सर्वश्रेष्ठ समूह में लगातार प्रदर्शन करता है और K-means++|k-means++ आमतौर पर अच्छा प्रदर्शन करता है।

एल्गोरिथ्म वैश्विक इष्टतम के अभिसरण की गारंटी नहीं देता है। परिणाम प्रारंभिक समूहों पर निर्भर हो सकता है। जैसा कि एल्गोरिथ्म आमतौर पर तेज़ होता है, इसे अलग-अलग शुरुआती स्थितियों के साथ कई बार चलाना आम बात है। हालांकि, सबसे खराब स्थिति का प्रदर्शन धीमा हो सकता है: विशेष रूप से निश्चित बिंदु सेट, दो आयामों में भी, घातीय समय में अभिसरण करते हैं, अर्थात 2Ω(n).[13] ये बिंदु सेट व्यवहार में उत्पन्न नहीं होते हैं: यह इस तथ्य से पुष्ट होता है कि के-मीन्स का स्मूथेड विश्लेषण चलने का समय बहुपद है। <रेफरी नाम = आर्थर, डेविड; मंथे, बी.; रोगलिन, एच. 20092 >Arthur, David; Manthey, B.; Roeglin, H. (2009). "के-साधन में बहुपद चिकनी जटिलता है". Proceedings of the 50th Symposium on Foundations of Computer Science (FOCS). arXiv:0904.1113.</ref>

असाइनमेंट स्टेप को एक्सपेक्टेशन स्टेप कहा जाता है, जबकि अपडेट स्टेप एक मैक्सिमाइज़ेशन स्टेप है, जो इस एल्गोरिथम को सामान्यीकृत एक्सपेक्टेशन-मैक्सिमाइज़ेशन एल्गोरिथम का एक वेरिएंट बनाता है।

जटिलता

डी आयामों में अवलोकन के लिए के-साधन क्लस्टरिंग समस्या का इष्टतम समाधान ढूँढना है:

  • दो समूहों के लिए भी सामान्य यूक्लिडियन अंतरिक्ष (डी आयामों में) में एनपी कठिन ,[14][15]
  • एनपी-हार्ड सामान्य संख्या में क्लस्टर के लिए विमान में भी,[16]
  • यदि k और d (आयाम) निश्चित हैं, तो समस्या को समय पर ठीक से हल किया जा सकता है , जहां n क्लस्टर होने वाली संस्थाओं की संख्या है।[17]

इस प्रकार, ऊपर दिए गए लॉयड के एल्गोरिथम जैसे विभिन्न अनुमानी एल्गोरिदम का आमतौर पर उपयोग किया जाता है।

लॉयड्स एल्गोरिथम (और अधिकांश वेरिएंट) का रनिंग टाइम है ,[9][18] कहाँ:

  • n डी-डायमेंशनल वैक्टर की संख्या है (क्लस्टर किया जाना है)
  • कश्मीर समूहों की संख्या
  • मैं अभिसरण तक आवश्यक पुनरावृत्तियों की संख्या।

क्लस्टरिंग संरचना वाले डेटा पर, अभिसरण तक पुनरावृत्तियों की संख्या अक्सर छोटी होती है, और परिणाम केवल पहले दर्जन पुनरावृत्तियों के बाद थोड़ा सुधार करते हैं। इसलिए लॉयड के एल्गोरिथ्म को व्यवहार में अक्सर रैखिक जटिलता वाला माना जाता है, हालांकि अभिसरण तक किए जाने पर यह वर्स्ट-केस जटिलता सुपरपोलिनोमियल में होता है।[19]

  • सबसे खराब स्थिति में, लॉयड के एल्गोरिथ्म की जरूरत है पुनरावृत्तियों, ताकि लॉयड के एल्गोरिथम की सबसे खराब स्थिति समय जटिलता#सुपरपोलिनोमियल समय हो।[19]* लॉयड के के-मीन्स एल्गोरिदम में बहुपद स्मूथ रनिंग टाइम है। यह दिखाया गया है कि <रेफरी नाम = आर्थर, डेविड; मंथे, बी.; Roeglin, H. 20092 /> n बिंदुओं के मनमाने सेट के लिए , यदि प्रत्येक बिंदु माध्य के साथ एक सामान्य वितरण द्वारा स्वतंत्र रूप से परेशान है 0 और विचरण , फिर अपेक्षित चलने का समय k-मतलब एल्गोरिद्म बाउंडेड है , जो एक बहुपद है n, k, d और .
  • साधारण मामलों के लिए बेहतर सीमाएँ सिद्ध होती हैं। उदाहरण के लिए, यह दिखाया गया है कि k- साधन एल्गोरिथम का चलने का समय सीमाबद्ध है के लिए n एक पूर्णांक जाली में अंक .[20]

लॉयड्स एल्गोरिद्म इस समस्या के लिए मानक दृष्टिकोण है। हालाँकि, यह प्रत्येक k क्लस्टर केंद्रों और n डेटा बिंदुओं के बीच की दूरी की गणना करने में बहुत अधिक समय व्यतीत करता है। चूंकि अंक आमतौर पर कुछ पुनरावृत्तियों के बाद समान समूहों में रहते हैं, इसलिए यह अधिकांश कार्य अनावश्यक है, जिससे भोले-भाले कार्यान्वयन बहुत अक्षम हो जाते हैं। लॉयड के एल्गोरिदम को गति देने और सीमा बनाने के लिए कुछ कार्यान्वयन कैशिंग और त्रिकोण असमानता का उपयोग करते हैं।[9][21][22][23][24]


रूपांतर

  • Jenks प्राकृतिक टूटता अनुकूलन: के-मीन्स यूनीवेट डेटा पर लागू होता है
  • के-मेडियंस क्लस्टरिंग | के-मेडियंस क्लस्टरिंग औसत के बजाय प्रत्येक आयाम में औसत का उपयोग करता है, और इस तरह कम करता है मानदंड (टैक्सीकैब ज्यामिति)।
  • के-मेडोइड्स | के-मेडोइड्स (यह भी: मेडोइड्स के आसपास विभाजन, पीएएम) माध्य के बजाय मेडॉइड का उपयोग करता है, और इस तरह मनमाना दूरी कार्यों के लिए दूरी का योग कम करता है।
  • फ़ज़ी क्लस्टरिंग # फ़ज़ी सी-मीन्स क्लस्टरिंग। फ़ज़ी सी-मीन्स क्लस्टरिंग के-मीन्स का एक सॉफ्ट वर्जन है, जहाँ प्रत्येक डेटा पॉइंट में प्रत्येक क्लस्टर से संबंधित फ़ज़ी डिग्री होती है।
  • मिश्रण मॉडल # गॉसियन मिश्रण मॉडल मॉडल उम्मीद-अधिकतमकरण एल्गोरिदम (ईएम एल्गोरिदम) के साथ प्रशिक्षित नियतात्मक असाइनमेंट के बजाय समूहों के लिए संभाव्य असाइनमेंट बनाए रखता है, और साधनों के बजाय बहुभिन्नरूपी गॉसियन वितरण करता है।
  • K-means++|k-means++ प्रारंभिक केंद्रों को इस तरह से चुनता है जो WCSS उद्देश्य पर एक सिद्ध ऊपरी सीमा देता है।
  • फ़िल्टरिंग एल्गोरिथ्म प्रत्येक k- साधन चरण को गति देने के लिए kd- ट्री का उपयोग करता है।[25]
  • कुछ विधियाँ त्रिभुज असमानता का उपयोग करके प्रत्येक k- साधन चरण को गति देने का प्रयास करती हैं।[21][22][23][26][24]* समूहों के बीच बिंदुओं की अदला-बदली करके स्थानीय ऑप्टिमा से बचें।[9]* गोलाकार k- साधन क्लस्टरिंग एल्गोरिथ्म शाब्दिक डेटा के लिए उपयुक्त है।[27]
  • पदानुक्रमित संस्करण जैसे द्विभाजित k- साधन,[28] एक्स-मतलब क्लस्टरिंग[29] और जी-मतलब क्लस्टरिंग[30] पदानुक्रमित क्लस्टरिंग # विभाजक क्लस्टरिंग, और डेटासेट में क्लस्टर की इष्टतम संख्या को स्वचालित रूप से निर्धारित करने का प्रयास भी कर सकता है।
  • क्लस्टर विश्लेषण # आंतरिक मूल्यांकन उपाय जैसे सिल्हूट (क्लस्टरिंग) डेटा सेट में क्लस्टर की संख्या निर्धारित करने में सहायक हो सकते हैं।
  • Minkowski भारित k-means स्वचालित रूप से क्लस्टर विशिष्ट फीचर वेट की गणना करता है, सहज विचार का समर्थन करता है कि एक फीचर में अलग-अलग सुविधाओं पर प्रासंगिकता की अलग-अलग डिग्री हो सकती है।[31] इन भारों का उपयोग किसी दिए गए डेटा सेट को फिर से स्केल करने के लिए भी किया जा सकता है, जिससे क्लस्टर की अपेक्षित संख्या में क्लस्टर वैधता सूचकांक को अनुकूलित करने की संभावना बढ़ जाती है।[32]
  • मिनी-बैच k- साधन: k- साधन डेटा सेट के लिए मिनी बैच नमूने का उपयोग करके भिन्नता जो मेमोरी में फिट नहीं होती है।[33]
  • ओत्सु की विधि

हार्टिगन-वोंग विधि

हार्टिगन और वोंग की विधि[9]के-मीन्स एल्गोरिदम की विविधता प्रदान करता है जो विभिन्न समाधान अद्यतनों के साथ न्यूनतम योग-स्क्वायर समस्या के स्थानीय न्यूनतम की ओर बढ़ता है। विधि एक स्थानीय खोज (अनुकूलन) है जो एक नमूने को एक अलग क्लस्टर में स्थानांतरित करने का प्रयास करती है जब तक कि यह प्रक्रिया उद्देश्य समारोह में सुधार करती है। जब उद्देश्य में सुधार के साथ किसी भिन्न क्लस्टर में कोई नमूना स्थानांतरित नहीं किया जा सकता है, तो विधि बंद हो जाती है (स्थानीय न्यूनतम में)। शास्त्रीय के-साधन के समान ही, दृष्टिकोण एक अनुमानी बना हुआ है क्योंकि यह आवश्यक रूप से गारंटी नहीं देता है कि अंतिम समाधान विश्व स्तर पर इष्टतम है।

होने देना की व्यक्तिगत लागत हो द्वारा परिभाषित , साथ क्लस्टर का केंद्र।

असाइनमेंट स्टेप: हार्टिगन और वोंग की विधि बिंदुओं को यादृच्छिक समूहों में विभाजित करके शुरू होती है .

अद्यतन चरण: अगला यह निर्धारित करता है और जिसके लिए निम्नलिखित कार्य अधिकतम तक पहुँचता है

के लिए जो इस अधिकतम तक पहुँचे, क्लस्टर से चलता है क्लस्टर को .

टर्मिनेशन: एल्गोरिथम एक बार टर्मिनेट होता है सभी के लिए शून्य से कम है .

विभिन्न चाल स्वीकृति रणनीतियों का उपयोग किया जा सकता है। पहले-सुधार की रणनीति में, किसी भी सुधार के स्थानांतरण को लागू किया जा सकता है, जबकि सर्वोत्तम-सुधार की रणनीति में, सभी संभव स्थानांतरणों का पुनरावृत्त रूप से परीक्षण किया जाता है और प्रत्येक पुनरावृत्ति पर केवल सर्वश्रेष्ठ को लागू किया जाता है। पूर्व दृष्टिकोण गति का समर्थन करता है, चाहे बाद वाला दृष्टिकोण आम तौर पर अतिरिक्त कम्प्यूटेशनल समय की कीमत पर समाधान की गुणवत्ता का पक्ष लेता है। कार्यक्रम एक स्थानांतरण के परिणाम की गणना करने के लिए उपयोग किया जाता है, समानता का उपयोग करके भी कुशलतापूर्वक मूल्यांकन किया जा सकता है[34]


वैश्विक अनुकूलन और मेटाह्यूरिस्टिक्स

शास्त्रीय k- साधन एल्गोरिथ्म एवं इसकी विविधताओं को
के रूप में परिभाषित न्यूनतम-योग-स्क्वायर क्लस्टरिंग समस्या के केवल स्थानीय मिनीमा में परिवर्तित करने के लिए जाना जाता है।
कई अध्ययनों ने एल्गोरिथम के अभिसरण व्यवहार में सुधार करने एवं वैश्विक इष्टतम (या अल्प से अल्प, उत्तम गुणवत्ता के स्थानीय न्यूनतम) प्राप्त करने की संभावना को अधिकतम करने का प्रयास किया है। पिछले अनुभागों में चर्चा की गई आरंभीकरण एवं पुनः आरंभ करने की तकनीकें उत्तम समाधान खोजने के लिए एक विकल्प हैं। हाल ही में, शाखा एवं बंधन एवं अर्ध निश्चित प्रोग्रामिंग पर आधारित वैश्विक अनुकूलन एल्गोरिदम ने 4,177 संस्थाओं एवं 20,531 सुविधाओं के साथ डेटासमुच्चय के लिए सिद्ध रूप से इष्टतम समाधान तैयार किए हैं।[35] जैसा कि अपेक्षित था, उपजात अनुकूलन समस्या की एनपी-कठोरता के कारण, के-साधनों के लिए इष्टतम एल्गोरिदम का अल्प्प्यूटेशनल समय इस आकार से तेजी से बढ़ता है। अन्य अनुमानों की गुणवत्ता का मूल्यांकन करने के लिए, छोटे एवं मध्यम पैमाने के लिए इष्टतम समाधान अभी भी बेंचमार्क टूल के रूप में मूल्यवान हैं। एक नियंत्रित अल्प्प्यूटेशनल समय के अंदर उच्च-गुणवत्ता वाले स्थानीय मिनिमा को खोजने के लिए, किन्तु इष्टतमता की गारंटी के बिना, अन्य कार्यों ने मेटाह्यूरिस्टिक्स एवं अन्य वैश्विक अनुकूलन तकनीकों का पता लगाया है, उदाहरण के लिए, वृद्धिशील दृष्टिकोण एवं उत्तल अनुकूलन के आधार पर,[36] यादृच्छिक अदला-बदली[37] (यानी, पुनरावृत्त स्थानीय खोज), परिवर्तनशील पड़ोस खोज[38] एवं आनुवंशिक एल्गोरिदम[39][40] यह वास्तव में ज्ञात है कि न्यूनतम सम-स्क्वायर समूहिंग समस्या का उत्तम स्थानीय मिनिमा खोजने से उच्च आयाम वाले फ़ीचर स्पेस में समूह संरचनाओं को पुनर्प्राप्त करने में विफलता एवं सफलता के बीच अंतर हो सकता है।[40]


चर्चा

के-साधन अभिसरण का स्थानीय न्यूनतम का एक विशिष्ट उदाहरण। इस उदाहरण में, k- साधन क्लस्टरिंग (सही आंकड़ा) का परिणाम डेटा सेट की स्पष्ट क्लस्टर संरचना के विपरीत है। छोटे वृत्त डेटा बिंदु हैं, चार किरण तारे केन्द्रक (साधन) हैं। प्रारंभिक विन्यास बाईं आकृति पर है। एल्गोरिथम आंकड़ों पर प्रस्तुत पांच पुनरावृत्तियों के बाद, बाएं से दाएं की ओर अभिसरण करता है। उदाहरण Mirkes Java एप्लेट के साथ तैयार किया गया था।[41]
के-मीन्स आइरिस फूल डेटा सेट के लिए क्लस्टरिंग परिणाम और सूचकांक-संरचनाओं द्वारा समर्थित केडीडी-अनुप्रयोगों के विकास के लिए पर्यावरण का उपयोग करके वास्तविक प्रजातियों की कल्पना की गई। क्लस्टर साधनों को बड़े, अर्ध-पारदर्शी प्रतीकों का उपयोग करके चिह्नित किया जाता है।
k-मतलब क्लस्टरिंग बनाम कृत्रिम डेटासेट (माउस) पर ईएम क्लस्टरिंग समान आकार के समूहों का उत्पादन करने के लिए के-साधन की प्रवृत्ति यहां खराब परिणामों की ओर ले जाती है, जबकि ईएम डेटा सेट में मौजूद विभिन्न त्रिज्या वाले गॉसियन वितरण से लाभान्वित होता है।
के-मीन्स की तीन प्रमुख विशेषताएं जो इसे कुशल बनाती हैं, अक्सर इसकी सबसे बड़ी अल्पियां मानी जाती हैं:
  • यूक्लिडियन दूरी का उपयोग मीट्रिक (गणित) के रूप में किया जाता है और विचरण का उपयोग क्लस्टर स्कैटर के माप के रूप में किया जाता है।
  • क्लस्टर k की संख्या एक इनपुट पैरामीटर है: k का अनुचित विकल्प खराब परिणाम दे सकता है। इसीलिए, k-means करते समय, डेटा सेट में क्लस्टर्स की संख्या निर्धारित करने के लिए डायग्नोस्टिक चेक चलाना महत्वपूर्ण है।
  • एक स्थानीय न्यूनतम के अभिसरण से विपरीत (गलत) परिणाम उत्पन्न हो सकते हैं (चित्र में उदाहरण देखें)।

K- साधन की एक प्रमुख सीमा इसका क्लस्टर मॉडल है। अवधारणा गोलाकार समूहों पर आधारित है जो वियोज्य हैं ताकि माध्य क्लस्टर केंद्र की ओर अभिसरण हो। क्लस्टर समान आकार के होने की उम्मीद है, ताकि निकटतम क्लस्टर केंद्र को असाइनमेंट सही असाइनमेंट हो। उदाहरण के लिए जब k- साधन को मान के साथ लागू किया जाता है प्रसिद्ध आइरिस फूल डेटा सेट पर, परिणाम अक्सर डेटा सेट में निहित तीन आइरिस (पौधे) प्रजातियों को अलग करने में विफल रहता है। साथ , दो दृश्य समूहों (दो प्रजातियों वाला एक) की खोज की जाएगी, जबकि साथ में दो समूहों में से एक को दो समान भागों में विभाजित किया जाएगा। वास्तव में, डेटा सेट में 3 वर्ग होने के बावजूद, इस डेटा सेट के लिए अधिक उपयुक्त है। किसी भी अन्य क्लस्टरिंग एल्गोरिदम के साथ, के-साधन परिणाम यह मानते हैं कि डेटा कुछ मानदंडों को पूरा करता है। यह कुछ डेटा सेट पर अच्छा काम करता है और दूसरों पर विफल रहता है।

के-साधनों का नतीजा क्लस्टर साधनों के वोरोनोई आरेख के रूप में देखा जा सकता है। चूंकि डेटा क्लस्टर माध्यमों के बीच आधे रास्ते में विभाजित होता है, इससे उप-इष्टतम विभाजन हो सकता है जैसा कि माउस उदाहरण में देखा जा सकता है। अपेक्षा-अधिकतमकरण एल्गोरिथ्म (तर्कसंगत रूप से k-साधनों का एक सामान्यीकरण) द्वारा उपयोग किए जाने वाले गॉसियन मॉडल प्रसरण और सहप्रसरण दोनों होने के कारण अधिक लचीले होते हैं। इस प्रकार EM परिणाम चर आकार के समूहों को k-साधनों के साथ-साथ सहसंबद्ध समूहों (इस उदाहरण में नहीं) से बेहतर समायोजित करने में सक्षम है। प्रतिपक्ष में, EM को बड़ी संख्या में मुक्त मापदंडों के अनुकूलन की आवश्यकता होती है और लुप्त हो रहे समूहों या बुरी तरह से वातानुकूलित सहप्रसरण मैट्रिक्स के कारण कुछ पद्धतिगत मुद्दों को प्रस्तुत करता है। K- साधन गैर-पैरामीट्रिक बायेसियन अनुमान से निकटता से संबंधित है।[42]


अनुप्रयोग

k-means क्लस्टरिंग अपेक्षाकृत बड़े डेटा सेट पर लागू करना आसान है, खासकर जब ह्यूरिस्टिक्स जैसे कि लॉयड्स एल्गोरिथम का उपयोग करते हैं। इसे कई अन्य डोमेन के बीच बाजार विभाजन, कंप्यूटर दृष्टि और खगोल विज्ञान में सफलतापूर्वक उपयोग किया गया है। यह अक्सर अन्य एल्गोरिदम के लिए प्रीप्रोसेसिंग चरण के रूप में उपयोग किया जाता है, उदाहरण के लिए प्रारंभिक कॉन्फ़िगरेशन खोजने के लिए।

वेक्टर परिमाणीकरण

दो-चैनल (चित्रण उद्देश्यों के लिए - केवल लाल और हरे रंग के चैनल) रंगीन छवि
के-मीन्स का उपयोग करके वोरोनोई कोशिकाओं में ऊपर की छवि में मौजूद रंगों का वेक्टर परिमाणीकरण
के-साधन सिग्नल प्रोसेसिंग से उत्पन्न होता है, एवं अभी भी इस डोमेन में उपयोग पाता है। उदाहरण के लिए, कंप्यूटर चित्रलेख में, रंग परिमाणीकरण एक छवि के पैलेट (कंप्यूटिंग) को रंगों की एक निश्चित संख्या में अल्प करने का कार्य है। इस कार्य के लिए के-मीन्स एल्गोरिदम का आसानी से उपयोग किया जा सकता है एवं प्रतिस्पर्धी परिणाम उत्पन्न करता है। इस दृष्टिकोण के लिए उपयोग का मामला छवि विभाजन है। सदिश परिमाणीकरण के अन्य उपयोगों में नमूनाकरण (सांख्यिकी) | गैर-यादृच्छिक नमूनाकरण शामिल है, क्योंकि k-साधन का उपयोग आगे के विश्लेषण के लिए एक बड़े डेटा समुच्चय से k भिन्न किन्तु प्रोटोटाइपिक वस्तुओं को चुनने के लिए आसानी से किया जा सकता है।

क्लस्टर विश्लेषण

समूह विश्लेषण में, k- साधन एल्गोरिथ्म का उपयोग इनपुट डेटा समुच्चय को k विभाजन (समूह) में विभाजित करने के लिए किया जा सकता है।

हालांकि, शुद्ध के-साधन एल्गोरिदम बहुत लचीला नहीं है, और जैसा कि सीमित उपयोग का है (सिवाय इसके कि जब ऊपर के रूप में वेक्टर क्वांटिज़ेशन वास्तव में वांछित उपयोग मामला है)। विशेष रूप से, पैरामीटर k को चुनना कठिन माना जाता है (जैसा कि ऊपर चर्चा की गई है) जब बाहरी बाधाओं द्वारा नहीं दिया जाता है। एक और सीमा यह है कि इसका उपयोग मनमाने दूरी के कार्यों या गैर-संख्यात्मक डेटा के साथ नहीं किया जा सकता है। इन उपयोग मामलों के लिए, कई अन्य एल्गोरिदम श्रेष्ठ हैं।

फीचर लर्निंग

k-means क्लस्टरिंग का उपयोग फीचर लर्निंग (या शब्दकोश सीखना ) स्टेप के रूप में किया गया है, या तो (सेमी-पर्यवेक्षित अध्ययन |सेमी-) सुपरवाइज्ड लर्निंग या अनियंत्रित शिक्षा [43] मूल दृष्टिकोण सबसे पहले इनपुट प्रशिक्षण डेटा (जिसे लेबल करने की आवश्यकता नहीं है) का उपयोग करके k- साधन क्लस्टरिंग प्रतिनिधित्व को प्रशिक्षित करना है। फिर, किसी भी इनपुट डेटम को नए फीचर स्पेस में प्रोजेक्ट करने के लिए, एक एन्कोडिंग फ़ंक्शन, जैसे कि सेंट्रोइड स्थानों के साथ डेटम का थ्रेशोल्ड मैट्रिक्स-उत्पाद, डेटम से प्रत्येक सेंट्रोइड तक की दूरी की गणना करता है, या बस निकटतम के लिए एक संकेतक फ़ंक्शन केन्द्रक,[43][44] या दूरी का कुछ सहज परिवर्तन।[45] वैकल्पिक रूप से, रेडियल आधार फ़ंक्शन के माध्यम से नमूना-क्लस्टर दूरी को बदलने से रेडियल आधार समारोह नेटवर्क की छिपी हुई परत प्राप्त होती है।[46] प्राकृतिक भाषा प्रसंस्करण (विशेष रूप से नामित इकाई पहचान के लिए) में अर्ध-पर्यवेक्षित सीखने के लिए के-साधनों के इस उपयोग को सरल, रैखिक वर्गीकरण के साथ सफलतापूर्वक जोड़ा गया है।[47] और कंप्यूटर दृष्टि में। ऑब्जेक्ट रिकग्निशन टास्क पर, autoencoder और प्रतिबंधित बोल्ट्जमैन मशीनों जैसे अधिक परिष्कृत फीचर लर्निंग दृष्टिकोण के साथ तुलनात्मक प्रदर्शन प्रदर्शित करने के लिए पाया गया।[45]हालांकि, समान प्रदर्शन के लिए इसे आम तौर पर अधिक डेटा की आवश्यकता होती है, क्योंकि प्रत्येक डेटा बिंदु केवल एक सुविधा में योगदान देता है।[43]


अन्य एल्गोरिदम से संबंध

गॉसियन मिश्रण मॉडल

के-मीन्स क्लस्टरिंग के लिए धीमी मानक एल्गोरिथ्म, और इसके संबद्ध अपेक्षा-अधिकतमकरण एल्गोरिथ्म | अपेक्षा-अधिकतमकरण एल्गोरिथ्म, गॉसियन मिश्रण मॉडल का एक विशेष मामला है, विशेष रूप से, सीमित मामला जब सभी सहप्रसरणों को विकर्ण, समान और अपरिमेय होने के लिए तय किया जाता है छोटा अंतर।[48]: 850  छोटे प्रसरणों के बजाय, कठिन गॉसियन मिश्रण मॉडलिंग के एक विशेष मामले में k-साधन क्लस्टरिंग की एक और तुल्यता दिखाने के लिए एक कठिन क्लस्टर असाइनमेंट का भी उपयोग किया जा सकता है।[49]: 354, 11.4.2.5  इसका मतलब यह नहीं है कि के-साधनों की गणना करने के लिए गॉसियन मिश्रण मॉडलिंग का उपयोग करना कुशल है, लेकिन सिर्फ एक सैद्धांतिक संबंध है, और गॉसियन मिश्रण मॉडलिंग को के-साधनों के सामान्यीकरण के रूप में व्याख्या किया जा सकता है; इसके विपरीत, कठिन डेटा पर गॉसियन मिश्रण मॉडलिंग के लिए शुरुआती बिंदुओं को खोजने के लिए k- साधन क्लस्टरिंग का उपयोग करने का सुझाव दिया गया है।[48]: 849 

के-एसवीडी

K- साधन एल्गोरिथ्म का एक अन्य सामान्यीकरण k-SVD एल्गोरिथ्म है, जो कोडबुक वैक्टर के विरल रैखिक संयोजन के रूप में डेटा बिंदुओं का अनुमान लगाता है। के-साधन 1 के वजन के साथ एकल कोडबुक वेक्टर का उपयोग करने के विशेष मामले से मेल खाता है।[50]


प्रधान घटक विश्लेषण

का सुकून भरा उपाय k-मतलब क्लस्टरिंग, क्लस्टर संकेतकों द्वारा निर्दिष्ट, प्रमुख घटक विश्लेषण (पीसीए) द्वारा दिया जाता है।[51][52] अंतर्ज्ञान यह है कि k- साधन गोलाकार आकार (गेंद की तरह) समूहों का वर्णन करते हैं। यदि डेटा में 2 क्लस्टर हैं, तो दो सेंट्रोइड्स को जोड़ने वाली रेखा सबसे अच्छी 1-आयामी प्रक्षेपण दिशा है, जो कि पहली पीसीए दिशा भी है। द्रव्यमान के केंद्र में रेखा को काटना समूहों को अलग करता है (यह असतत क्लस्टर संकेतक की निरंतर छूट है)। यदि डेटा में तीन क्लस्टर हैं, तो तीन क्लस्टर सेंट्रोइड्स द्वारा फैला हुआ 2-आयामी विमान सबसे अच्छा 2-डी प्रोजेक्शन है। यह विमान पहले दो पीसीए आयामों द्वारा भी परिभाषित किया गया है। अच्छी तरह से अलग किए गए समूहों को गेंद के आकार के समूहों द्वारा प्रभावी ढंग से तैयार किया जाता है और इस प्रकार के-साधनों द्वारा खोजा जाता है। गैर-गेंद के आकार के गुच्छों को पास होने पर अलग करना कठिन होता है। उदाहरण के लिए, अंतरिक्ष में आपस में गुंथे हुए दो आधे-चंद्रमा के आकार के गुच्छे पीसीए उप-स्थान पर प्रक्षेपित होने पर अच्छी तरह से अलग नहीं होते हैं। के-मीन्स से इस डेटा पर अच्छा प्रदर्शन करने की उम्मीद नहीं की जानी चाहिए।[53] इस कथन के प्रति उदाहरण प्रस्तुत करना सीधा है कि क्लस्टर केन्द्रक उप-स्थान मुख्य दिशाओं द्वारा फैला हुआ है।[54]


मीन शिफ्ट क्लस्टरिंग

बेसिक मीन शिफ्ट क्लस्टरिंग एल्गोरिदम इनपुट डेटा सेट के समान आकार के डेटा बिंदुओं का एक सेट बनाए रखता है। प्रारंभ में, इस सेट को इनपुट सेट से कॉपी किया जाता है। फिर इस सेट को पुनरावृत्त रूप से सेट में उन बिंदुओं के माध्यम से बदल दिया जाता है जो उस बिंदु की दी गई दूरी के भीतर हैं। इसके विपरीत, k-means इस अपडेटेड सेट को k पॉइंट्स तक सीमित करता है जो आमतौर पर इनपुट डेटा सेट में पॉइंट्स की संख्या से बहुत कम होता है, और इस सेट में प्रत्येक पॉइंट को इनपुट सेट में सभी पॉइंट्स के माध्यम से बदल देता है जो उस बिंदु के करीब हैं। किसी अन्य की तुलना में (उदाहरण के लिए प्रत्येक अद्यतन बिंदु के वोरोनोई विभाजन के भीतर)। एक मीन शिफ्ट एल्गोरिदम जो कि के-मीन्स के समान है, संभावना माध्य शिफ्ट कहा जाता है, इनपुट सेट में सभी बिंदुओं के माध्यम से प्रतिस्थापन के दौर से गुजरने वाले बिंदुओं के सेट को बदल देता है जो बदलते सेट की दी गई दूरी के भीतर हैं।[55] के-साधनों पर औसत बदलाव के फायदों में से एक यह है कि समूहों की संख्या पूर्व-निर्दिष्ट नहीं है, क्योंकि औसत बदलाव केवल कुछ समूहों को खोजने की संभावना है यदि केवल एक छोटी संख्या मौजूद है। हालांकि, औसत बदलाव के-साधनों की तुलना में बहुत धीमा हो सकता है, और फिर भी बैंडविड्थ पैरामीटर के चयन की आवश्यकता होती है। मीन शिफ्ट में सॉफ्ट वेरिएंट हैं।

स्वतंत्र घटक विश्लेषण

स्पार्सिटी मान्यताओं के तहत और जब इनपुट डेटा को सफेदी परिवर्तन के साथ प्री-प्रोसेस किया जाता है, तो k-means रैखिक स्वतंत्र घटक विश्लेषण (ICA) कार्य का समाधान तैयार करता है। यह #फीचर लर्निंग के लिए के-मीन्स के सफल अनुप्रयोग की व्याख्या करने में सहायता करता है।[56]


द्विपक्षीय फ़िल्टरिंग

के-साधन स्पष्ट रूप से मानता है कि इनपुट डेटा सेट का क्रम कोई फर्क नहीं पड़ता। द्विपक्षीय फिल्टर के-मीन्स और औसत पारी के समान है, जिसमें यह डेटा पॉइंट्स का एक सेट बनाए रखता है जो कि माध्यमों द्वारा प्रतिस्थापित किया जाता है। हालाँकि, द्विपक्षीय फ़िल्टर (कर्नेल भारित) की गणना को प्रतिबंधित करता है, केवल उन बिंदुओं को शामिल करने के लिए जो इनपुट डेटा के क्रम में करीब हैं।[55]यह इसे इमेज डिनोइजिंग जैसी समस्याओं पर लागू करता है, जहां छवि में पिक्सेल की स्थानिक व्यवस्था महत्वपूर्ण महत्व की है।

समान समस्याएं

क्लस्टर फ़ंक्शंस को कम करने वाली चुकता त्रुटि के सेट में K-medoids | k-मेडोइड्स एल्गोरिथ्म भी शामिल है, एक दृष्टिकोण जो प्रत्येक क्लस्टर के केंद्र बिंदु को वास्तविक बिंदुओं में से एक होने के लिए मजबूर करता है, अर्थात, यह सेंट्रोइड्स के स्थान पर मेडोइड्स का उपयोग करता है।

सॉफ्टवेयर कार्यान्वयन

एल्गोरिथम के विभिन्न कार्यान्वयन प्रदर्शन अंतर प्रदर्शित करते हैं, परीक्षण डेटा सेट पर सबसे तेज़ 10 सेकंड में समाप्त होता है, सबसे धीमा 25,988 सेकंड (~ 7 घंटे) लेता है।[1]अंतर को कार्यान्वयन गुणवत्ता, भाषा और संकलक अंतर, विभिन्न समाप्ति मानदंड और सटीक स्तर, और त्वरण के लिए अनुक्रमणिका के उपयोग के लिए जिम्मेदार ठहराया जा सकता है।

मुफ़्त सॉफ़्टवेयर/ओपन सोर्स

नि: शुल्क और ओपन-सोर्स सॉफ़्टवेयर के तहत निम्नलिखित कार्यान्वयन उपलब्ध हैं। सार्वजनिक रूप से उपलब्ध स्रोत कोड के साथ मुफ़्त/ओपन सोर्स सॉफ़्टवेयर लाइसेंस।

  • Accord.NET में k-means, k-means++ और k-modes के लिए C# कार्यान्वयन शामिल हैं।
  • ALGLIB में k-means और k-means++ के लिए समानांतर C++ और C# कार्यान्वयन शामिल हैं।
  • एंड्रॉइड (ऑपरेटिंग सिस्टम) # ओपन-सोर्स समुदाय में के-साधनों के लिए जावा कार्यान्वयन शामिल है।
  • क्राइमस्टैट दो स्थानिक के-मीन्स एल्गोरिदम को लागू करता है, जिनमें से एक उपयोगकर्ता को शुरुआती स्थानों को परिभाषित करने की अनुमति देता है।
  • ईएलकेआई में के-मीन्स (लॉयड और मैकक्वीन पुनरावृत्ति के साथ-साथ विभिन्न इनिशियलाइज़ेशन जैसे कि के-मीन्स ++ इनिशियलाइज़ेशन) और विभिन्न अधिक उन्नत क्लस्टरिंग एल्गोरिदम शामिल हैं।
  • मुस्कान में के-मीन्स और कई अन्य एल्गोरिदम और परिणाम विज़ुअलाइज़ेशन (जावा, कोटलिन और स्कैला के लिए) शामिल हैं।
  • जूलिया भाषा में जूलियास्टैट्स क्लस्टरिंग पैकेज में के-साधन कार्यान्वयन शामिल है।
  • KNIME में k-means और k-medoids के लिए नोड होते हैं।
  • Apache Mahout में MapReduce आधारित k-means शामिल है।
  • mypack में के-साधनों का सी ++ कार्यान्वयन शामिल है।
  • जीएनयू ऑक्टेव में के-मीन्स शामिल हैं।
  • OpenCV में k- साधन कार्यान्वयन शामिल है।
  • ऑरेंज (सॉफ्टवेयर) में के-मीन्स क्लस्टरिंग के लिए एक घटक शामिल है जिसमें के और क्लस्टर सिल्हूट स्कोरिंग का स्वत: चयन होता है।
  • PSPP में k- साधन शामिल हैं, QUICK CLUSTER कमांड डेटासेट पर k- साधन क्लस्टरिंग करता है।
  • R (प्रोग्रामिंग लैंग्वेज) में तीन k-मीन वेरिएशन होते हैं।
  • SciPy और scikit-learn में कई k- साधन कार्यान्वयन शामिल हैं।
  • Apache Spark MLlib एक वितरित k- साधन एल्गोरिथम लागू करता है।
  • टॉर्च (मशीन लर्निंग) में एक अन-अप पैकेज होता है जो k- साधन क्लस्टरिंग प्रदान करता है।
  • वीका (मशीन लर्निंग) में के-मीन्स और एक्स-मीन्स शामिल हैं।

मालिकाना

निम्नलिखित कार्यान्वयन मालिकाना सॉफ्टवेयर लाइसेंस शर्तों के तहत उपलब्ध हैं, और सार्वजनिक रूप से उपलब्ध स्रोत कोड नहीं हो सकते हैं।

यह भी देखें

संदर्भ

  1. 1.0 1.1 Kriegel, Hans-Peter; Schubert, Erich; Zimek, Arthur (2016). "The (black) art of runtime evaluation: Are we comparing algorithms or implementations?". Knowledge and Information Systems. 52 (2): 341–378. doi:10.1007/s10115-016-1004-2. ISSN 0219-1377. S2CID 40772241.
  2. MacQueen, J. B. (1967). बहुभिन्नरूपी टिप्पणियों के वर्गीकरण और विश्लेषण के लिए कुछ तरीके. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Vol. 1. University of California Press. pp. 281–297. MR 0214227. Zbl 0214.46201. Retrieved 2009-04-07.
  3. Steinhaus, Hugo (1957). "Sur la division des corps matériels en parties". Bull. Acad. Polon. Sci. (in français). 4 (12): 801–804. MR 0090073. Zbl 0079.16403.
  4. Lloyd, Stuart P. (1957). "पीसीएम में कम से कम वर्ग परिमाणीकरण". Bell Telephone Laboratories Paper. Published in journal much later: Lloyd, Stuart P. (1982). "Least squares quantization in PCM" (PDF). IEEE Transactions on Information Theory. 28 (2): 129–137. CiteSeerX 10.1.1.131.1338. doi:10.1109/TIT.1982.1056489. S2CID 10833328. Retrieved 2009-04-15.
  5. Forgy, Edward W. (1965). "Cluster analysis of multivariate data: efficiency versus interpretability of classifications". Biometrics. 21 (3): 768–769. JSTOR 2528559.
  6. Pelleg, Dan; Moore, Andrew (1999). "ज्यामितीय तर्क के साथ सटीक के-मतलब एल्गोरिदम को तेज करना". Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD '99 (in English). San Diego, California, United States: ACM Press: 277–281. doi:10.1145/312129.312248. ISBN 9781581131437. S2CID 13907420.
  7. MacKay, David (2003). "Chapter 20. An Example Inference Task: Clustering" (PDF). सूचना सिद्धांत, अनुमान और लर्निंग एल्गोरिदम. Cambridge University Press. pp. 284–292. ISBN 978-0-521-64298-9. MR 2012999.
  8. Since the square root is a monotone function, this also is the minimum Euclidean distance assignment.
  9. 9.0 9.1 9.2 9.3 9.4 Hartigan, J. A.; Wong, M. A. (1979). "Algorithm AS 136: A k-Means Clustering Algorithm". Journal of the Royal Statistical Society, Series C. 28 (1): 100–108. JSTOR 2346830.
  10. 10.0 10.1 Hamerly, Greg; Elkan, Charles (2002). "K के विकल्प - का अर्थ एल्गोरिथम है जो बेहतर क्लस्टरिंग ढूंढता है" (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM).
  11. Celebi, M. E.; Kingravi, H. A.; Vela, P. A. (2013). "के-मीन्स क्लस्टरिंग एल्गोरिथम के लिए कुशल आरंभीकरण विधियों का तुलनात्मक अध्ययन". Expert Systems with Applications. 40 (1): 200–210. arXiv:1209.1960. doi:10.1016/j.eswa.2012.07.021. S2CID 6954668.
  12. Bradley, Paul S.; Fayyad, Usama M. (1998). "के के लिए आरंभिक बिंदुओं को परिष्कृत करना - मतलब क्लस्टरिंग". Proceedings of the Fifteenth International Conference on Machine Learning.
  13. Vattani, A. (2011). "के-साधनों को विमान में भी घातीय रूप से कई पुनरावृत्तियों की आवश्यकता होती है" (PDF). Discrete and Computational Geometry. 45 (4): 596–616. doi:10.1007/s00454-011-9340-1. S2CID 42683406.
  14. Aloise, D.; Deshpande, A.; Hansen, P.; Popat, P. (2009). "यूक्लिडियन योग-ऑफ-स्क्वायर क्लस्टरिंग की एनपी-कठोरता". Machine Learning. 75 (2): 245–249. doi:10.1007/s10994-009-5103-0.
  15. Dasgupta, S.; Freund, Y. (July 2009). "वेक्टर परिमाणीकरण के लिए रैंडम प्रोजेक्शन ट्री". IEEE Transactions on Information Theory. 55 (7): 3229–42. arXiv:0805.1390. doi:10.1109/TIT.2009.2021326. S2CID 666114.
  16. Mahajan, Meena; Nimbhorkar, Prajakta; Varadarajan, Kasturi (2009). प्लानर के-मीन्स प्रॉब्लम एनपी-हार्ड है. Lecture Notes in Computer Science. Vol. 5431. pp. 274–285. doi:10.1007/978-3-642-00202-1_24. ISBN 978-3-642-00201-4.
  17. Inaba, M.; Katoh, N.; Imai, H. (1994). भारित वोरोनोई आरेखों के अनुप्रयोग और विचरण-आधारित 'के'-क्लस्टरिंग के लिए यादृच्छिककरण. Proceedings of 10th ACM Symposium on Computational Geometry. pp. 332–9. doi:10.1145/177424.178042.
  18. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). सूचना पुनर्प्राप्ति का परिचय. Cambridge University Press. ISBN 978-0521865715. OCLC 190786122.
  19. 19.0 19.1 Arthur, David; Vassilvitskii, Sergei (2006-01-01). How Slow is the k-means Method?. pp. 144–153. doi:10.1145/1137856.1137880. ISBN 978-1595933409. S2CID 3084311. {{cite book}}: |journal= ignored (help)
  20. Bhowmick, Abhishek (2009). "के के लिए लॉयड के एल्गोरिथम का एक सैद्धांतिक विश्लेषण - क्लस्टरिंग का मतलब है" (PDF). Archived from the original (PDF) on 2015-12-08. See also here.
  21. 21.0 21.1 Phillips, Steven J. (2002). "Acceleration of K-Means and Related Clustering Algorithms". In Mount, David M.; Stein, Clifford (eds.). 'के' का त्वरण - साधन और संबंधित क्लस्टरिंग एल्गोरिदम. Lecture Notes in Computer Science. Vol. 2409. Springer. pp. 166–177. doi:10.1007/3-540-45643-0_13. ISBN 978-3-540-43977-6.
  22. 22.0 22.1 Elkan, Charles (2003). "k को गति देने के लिए त्रिभुज असमानता का उपयोग करना-का अर्थ है" (PDF). Proceedings of the Twentieth International Conference on Machine Learning (ICML).
  23. 23.0 23.1 Hamerly, Greg (2010). "Making k-means even faster". Proceedings of the 2010 SIAM International Conference on Data Mining. pp. 130–140. doi:10.1137/1.9781611972801.12. ISBN 978-0-89871-703-7.
  24. 24.0 24.1 Hamerly, Greg; Drake, Jonathan (2015). के के लिए लॉयड के एल्गोरिद्म को गति देना - मतलब क्लस्टरिंग. pp. 41–78. doi:10.1007/978-3-319-09259-1_2. ISBN 978-3-319-09258-4. {{cite book}}: |journal= ignored (help)
  25. Kanungo, Tapas; Mount, David M.; Netanyahu, Nathan S.; Piatko, Christine D.; Silverman, Ruth; Wu, Angela Y. (2002). "An efficient k-means clustering algorithm: Analysis and implementation" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 24 (7): 881–892. doi:10.1109/TPAMI.2002.1017616. Retrieved 2009-04-24.
  26. Drake, Jonathan (2012). "Accelerated k-मतलब अनुकूली दूरी सीमा के साथ" (PDF). The 5th NIPS Workshop on Optimization for Machine Learning, OPT2012.
  27. Dhillon, I. S.; Modha, D. M. (2001). "क्लस्टरिंग का उपयोग करते हुए बड़े विरल पाठ डेटा के लिए संकल्पना अपघटन". Machine Learning. 42 (1): 143–175. doi:10.1023/a:1007612920971.
  28. Steinbach, M.; Karypis, G.; Kumar, V. (2000). ""दस्तावेज़ क्लस्टरिंग तकनीकों की तुलना"। में". KDD Workshop on Text Mining. 400 (1): 525–526.
  29. Pelleg, D.; & Moore, A. W. (2000, June). "X-means: Extending k-means with Efficient Estimation of the Number of Clusters". In ICML, Vol. 1
  30. Hamerly, Greg; Elkan, Charles (2004). "k को k-mean में सीखना" (PDF). Advances in Neural Information Processing Systems. 16: 281.
  31. Amorim, R. C.; Mirkin, B. (2012). "मिन्कोव्स्की मेट्रिक, फीचर वेटिंग और 'के' में विषम क्लस्टर आरंभीकरण - मतलब क्लस्टरिंग". Pattern Recognition. 45 (3): 1061–1075. doi:10.1016/j.patcog.2011.08.012.
  32. Amorim, R. C.; Hennig, C. (2015). "फीचर रीस्केलिंग कारकों का उपयोग करके शोर सुविधाओं के साथ डेटा सेट में क्लस्टर की संख्या को पुनर्प्राप्त करना". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039. S2CID 315803.
  33. Sculley, David (2010). "वेब-स्केल k-मतलब क्लस्टरिंग". Proceedings of the 19th international conference on World Wide Web. ACM. pp. 1177–1178. Retrieved 2016-12-21.
  34. Telgarsky, Matus. "Hartigan's Method: k-means Clustering without Voronoi" (PDF).
  35. Piccialli, Veronica; Sudoso, Antonio M.; Wiegele, Angelika (2022-03-28). "SOS-SDP: An Exact Solver for Minimum Sum-of-Squares Clustering". INFORMS Journal on Computing (in English). 34 (4): 2144–2162. arXiv:2104.11542. doi:10.1287/ijoc.2022.1166. ISSN 1091-9856. S2CID 233388043.
  36. Bagirov, A. M.; Taheri, S.; Ugon, J. (2016). "न्यूनतम सम-स्क्वायर क्लस्टरिंग समस्याओं के लिए गैर-चिकनी डीसी प्रोग्रामिंग दृष्टिकोण". Pattern Recognition. 53: 12–24. Bibcode:2016PatRe..53...12B. doi:10.1016/j.patcog.2015.11.011.
  37. Fränti, Pasi (2018). "यादृच्छिक स्वैप क्लस्टरिंग की दक्षता". Journal of Big Data. 5 (1): 1–21. doi:10.1186/s40537-018-0122-y.
  38. Hansen, P.; Mladenovic, N. (2001). "J-Means: A new local search heuristic for minimum sum of squares clustering". Pattern Recognition. 34 (2): 405–413. Bibcode:2001PatRe..34..405H. doi:10.1016/S0031-3203(99)00216-2.
  39. Krishna, K.; Murty, M. N. (1999). "जेनेटिक के-मतलब एल्गोरिथम". IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics. 29 (3): 433–439. doi:10.1109/3477.764879. PMID 18252317.
  40. 40.0 40.1 Gribel, Daniel; Vidal, Thibaut (2019). "HG-means: A scalable hybrid metaheuristic for minimum sum-of-squares clustering". Pattern Recognition. 88: 569–583. arXiv:1804.09813. doi:10.1016/j.patcog.2018.12.022. S2CID 13746584.
  41. Mirkes, E. M. "के-मीन्स और के-मेडोइड्स एप्लेट". Retrieved 2 January 2016.
  42. Kulis, Brian; Jordan, Michael I. (2012-06-26). Revisiting k-means: new algorithms via Bayesian nonparametrics (PDF). pp. 1131–1138. ISBN 9781450312851. {{cite book}}: |journal= ignored (help)
  43. 43.0 43.1 43.2 Coates, Adam; Ng, Andrew Y. (2012). "Learning feature representations with k-means" (PDF). In Montavon, G.; Orr, G. B.; Müller, K.-R. (eds.). Neural Networks: Tricks of the Trade. Springer.
  44. Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). मुख्य बिंदुओं के बैग के साथ दृश्य वर्गीकरण (PDF). ECCV Workshop on Statistical Learning in Computer Vision.
  45. 45.0 45.1 Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). अनसुनी फीचर लर्निंग में सिंगल-लेयर नेटवर्क का विश्लेषण (PDF). International Conference on Artificial Intelligence and Statistics (AISTATS). Archived from the original (PDF) on 2013-05-10.
  46. Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "रेडियल-बेस-फंक्शन नेटवर्क के लिए सीखने के तीन चरण". Neural Networks. 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312. doi:10.1016/s0893-6080(01)00027-2. PMID 11411631.
  47. Lin, Dekang; Wu, Xiaoyun (2009). भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग (PDF). Annual Meeting of the ACL and IJCNLP. pp. 1030–1038.
  48. 48.0 48.1 Press, W. H.; Teukolsky, S. A.; Vetterling, W. T.; Flannery, B. P. (2007). "Section 16.1. Gaussian Mixture Models and k-Means Clustering". Numerical Recipes: The Art of Scientific Computing (3rd ed.). New York (NY): Cambridge University Press. ISBN 978-0-521-88068-8.
  49. Kevin P. Murphy (2012). Machine learning : a probabilistic perspective. Cambridge, Mass.: MIT Press. ISBN 978-0-262-30524-2. OCLC 810414751.
  50. Aharon, Michal; Elad, Michael; Bruckstein, Alfred (2006). "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation" (PDF). IEEE Transactions on Signal Processing. 54 (11): 4311. Bibcode:2006ITSP...54.4311A. doi:10.1109/TSP.2006.881199. S2CID 7477309.
  51. Zha, Hongyuan; Ding, Chris; Gu, Ming; He, Xiaofeng; Simon, Horst D. (December 2001). "के के लिए स्पेक्ट्रल विश्राम - क्लस्टरिंग का मतलब है" (PDF). Neural Information Processing Systems Vol.14 (NIPS 2001): 1057–1064.
  52. Ding, Chris; He, Xiaofeng (July 2004). "K- साधन प्रमुख घटक विश्लेषण के माध्यम से क्लस्टरिंग" (PDF). Proceedings of International Conference on Machine Learning (ICML 2004): 225–232.
  53. Drineas, Petros; Frieze, Alan M.; Kannan, Ravi; Vempala, Santosh; Vinay, Vishwanathan (2004). "एकवचन मूल्य अपघटन के माध्यम से बड़े रेखांकन को क्लस्टर करना" (PDF). Machine Learning. 56 (1–3): 9–33. doi:10.1023/b:mach.0000033113.59016.96. S2CID 5892850. Retrieved 2012-08-02.
  54. Cohen, Michael B.; Elder, Sam; Musco, Cameron; Musco, Christopher; Persu, Madalina (2014). "के के लिए आयाम में कमी - मतलब क्लस्टरिंग और निम्न रैंक सन्निकटन (परिशिष्ट बी)". arXiv:1410.6801 [cs.DS].
  55. 55.0 55.1 Little, Max A.; Jones, Nick S. (2011). "Generalized Methods and Solvers for Piecewise Constant Signals: Part I" (PDF). Proceedings of the Royal Society A. 467 (2135): 3088–3114. Bibcode:2011RSPSA.467.3088L. doi:10.1098/rspa.2010.0671. PMC 3191861. PMID 22003312.
  56. Vinnikov, Alon; Shalev-Shwartz, Shai (2014). "के-मीन्स आईसीए फिल्टर को रिकवर करता है जब स्वतंत्र घटक विरल होते हैं" (PDF). Proceedings of the International Conference on Machine Learning (ICML 2014).