सर्वसम्मति क्लस्टरिंग

सर्वसम्मति क्लस्टरिंग कई क्लस्टरिंग एल्गोरिथ्म से परिणामों को एकत्र करने (संभावित रूप से परस्पर विरोधी) की एक विधि है। इसे क्लस्टर एन्सेम्बल भी कहा जाता है या क्लस्टरिंग (या विभाजन) का एकत्रीकरण, यह उस स्थिति को संदर्भित करता है जिसमें एक विशेष डेटासेट के लिए कई अलग-अलग (इनपुट) क्लस्टरिंग प्राप्त किए गए हैं और यह एक एकल (सर्वसम्मति) क्लस्टरिंग ढूंढना वांछित है जो कुछ में बेहतर फिट है मौजूदा क्लस्टरिंग की तुलना में अधिक समझदारी। इस प्रकार सर्वसम्मति क्लस्टरिंग विभिन्न स्रोतों से या एक ही एल्गोरिदम के विभिन्न रनों से आने वाले एक ही डेटा सेट के बारे में क्लस्टरिंग जानकारी को समेटने की समस्या है। जब अनुकूलन समस्या के रूप में डाला जाता है, तो सर्वसम्मति क्लस्टरिंग को मध्य विभाजन के रूप में जाना जाता है, और इसे एनपी-पूर्ण दिखाया गया है, तब भी जब इनपुट क्लस्टरिंग की संख्या तीन हो। बिना पर्यवेक्षित शिक्षण के लिए सर्वसम्मति क्लस्टरिंग पर्यवेक्षित शिक्षण में सामूहिक शिक्षण के समान है।

मौजूदा क्लस्टरिंग तकनीकों के साथ मुद्दे

 * वर्तमान क्लस्टरिंग तकनीकें सभी आवश्यकताओं को पर्याप्त रूप से संबोधित नहीं करती हैं।
 * समय की जटिलता के कारण बड़ी संख्या में आयामों और बड़ी संख्या में डेटा आइटम से निपटना समस्याग्रस्त हो सकता है;
 * विधि की प्रभावशीलता दूरी की परिभाषा पर निर्भर करती है (दूरी-आधारित क्लस्टरिंग के लिए)
 * यदि कोई स्पष्ट दूरी माप मौजूद नहीं है, तो हमें इसे परिभाषित करना होगा, जो हमेशा आसान नहीं होता है, खासकर बहुआयामी स्थानों में।
 * क्लस्टरिंग एल्गोरिदम का परिणाम (जो, कई मामलों में, स्वयं मनमाना हो सकता है) की व्याख्या अलग-अलग तरीकों से की जा सकती है।

सर्वसम्मति क्लस्टरिंग का उपयोग करने का औचित्य
सभी मौजूदा क्लस्टरिंग तकनीकों में संभावित कमियाँ हैं। इससे परिणामों की व्याख्या करना कठिन हो सकता है, विशेषकर तब जब समूहों की संख्या के बारे में कोई जानकारी न हो। क्लस्टरिंग विधियां प्रारंभिक क्लस्टरिंग सेटिंग्स के प्रति भी बहुत संवेदनशील होती हैं, जिसके कारण गैर-महत्वपूर्ण डेटा को गैर-दोहरावीय तरीकों में प्रवर्धित किया जा सकता है। क्लस्टर विश्लेषण में एक अत्यंत महत्वपूर्ण मुद्दा क्लस्टरिंग परिणामों का सत्यापन है, यानी क्लस्टरिंग तकनीक (क्लस्टर संख्या और क्लस्टर असाइनमेंट) द्वारा प्रदान किए गए क्लस्टर के महत्व के बारे में विश्वास कैसे हासिल किया जाए। बाहरी वस्तुनिष्ठ मानदंड (पर्यवेक्षित विश्लेषण में ज्ञात वर्ग लेबल के समतुल्य) के अभाव में, यह सत्यापन कुछ हद तक मायावी हो जाता है। पुनरावृत्त वंश क्लस्टरिंग विधियां, जैसे कि स्व-संगठित मानचित्र और k-मतलब क्लस्टरिंग, एकतरफा परिभाषित क्लस्टर और क्लस्टर सीमाओं को प्रदान करके पदानुक्रमित क्लस्टरिंग की कुछ कमियों को दूर करती हैं। सर्वसम्मति क्लस्टरिंग एक ऐसी विधि प्रदान करती है जो डेटा में क्लस्टर की संख्या निर्धारित करने और खोजे गए क्लस्टर की स्थिरता का आकलन करने के लिए क्लस्टरिंग एल्गोरिदम के कई रनों में सर्वसम्मति का प्रतिनिधित्व करती है। विधि का उपयोग यादृच्छिक पुनरारंभ (जैसे के-मीन्स, मॉडल-आधारित बायेसियन क्लस्टरिंग, एसओएम इत्यादि) के साथ क्लस्टरिंग एल्गोरिदम के कई रनों पर आम सहमति का प्रतिनिधित्व करने के लिए भी किया जा सकता है, ताकि प्रारंभिक स्थितियों के प्रति इसकी संवेदनशीलता को ध्यान में रखा जा सके।. यह क्लस्टर संख्या, सदस्यता और सीमाओं का निरीक्षण करने के लिए विज़ुअलाइज़ेशन टूल के लिए डेटा प्रदान कर सकता है। हालाँकि, उनमें पदानुक्रमित क्लस्टरिंग डेंड्रोग्राम की सहज और दृश्य अपील का अभाव है, और समूहों की संख्या को प्राथमिकता से चुना जाना चाहिए।

मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिदम
मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिथ्म सबसे लोकप्रिय सर्वसम्मति क्लस्टरिंग एल्गोरिदम में से एक है और इसका उपयोग क्लस्टर की संख्या निर्धारित करने के लिए किया जाता है, $$K$$. का एक डेटासेट दिया गया है $$N$$ क्लस्टर में बिंदुओं की कुल संख्या, यह एल्गोरिदम प्रत्येक के लिए डेटा को पुन: नमूनाकरण और क्लस्टरिंग द्वारा काम करता है $$K$$ और ए $$N \times N$$ सर्वसम्मति मैट्रिक्स की गणना की जाती है, जहां प्रत्येक तत्व एक साथ क्लस्टर किए गए दो नमूनों के समय के अंश का प्रतिनिधित्व करता है। एक पूरी तरह से स्थिर मैट्रिक्स में पूरी तरह से शून्य और एक शामिल होंगे, जो सभी नमूना जोड़े को सभी पुन: नमूनाकरण पुनरावृत्तियों पर हमेशा एक साथ क्लस्टर करते हैं या एक साथ नहीं दर्शाते हैं। सर्वसम्मति मैट्रिक्स की सापेक्ष स्थिरता का उपयोग इष्टतम का अनुमान लगाने के लिए किया जा सकता है $$K$$.

अधिक विशेष रूप से, क्लस्टर के लिए बिंदुओं का एक सेट दिया गया है, $$D=\{e_1,e_2,...e_N\}$$, होने देना $$D^1,D^2,...,D^H$$ की सूची हो $$H$$ मूल डेटासेट के अव्यवस्थित (पुन:नमूनाबद्ध) डेटासेट $$D$$, और जाने $$M^h$$ निरूपित करें $$N \times N$$ डेटासेट में क्लस्टरिंग एल्गोरिदम लागू करने से उत्पन्न कनेक्टिविटी मैट्रिक्स $$D^h$$. की प्रविष्टियाँ $$M^h$$ निम्नानुसार परिभाषित हैं:

$$M^h(i,j)= \begin{cases} 1, & \text{if}\text{ points i and j belong to the same cluster} \\ 0, & \text{otherwise} \end{cases}$$ होने देना $$I^h$$ हो $$N \times N$$ पहचानकर्ता मैट्रिक्स जहां $$(i,j)$$-वीं प्रविष्टि 1 के बराबर है यदि अंक $$i$$ और $$j$$ एक ही परेशान डेटासेट में हैं $$D^h$$, और 0 अन्यथा। सूचक मैट्रिक्स का उपयोग यह ट्रैक करने के लिए किया जाता है कि सामान्यीकरण चरण के लिए प्रत्येक पुन: नमूनाकरण पुनरावृत्ति के दौरान कौन से नमूने चुने गए थे। सर्वसम्मति मैट्रिक्स $$C$$ सभी विकृत डेटासेटों के सभी कनेक्टिविटी मैट्रिक्स के सामान्यीकृत योग के रूप में परिभाषित किया गया है और प्रत्येक के लिए एक अलग गणना की जाती है $$K$$.

$$C(i,j)=\left ( \frac{\textstyle \sum_{h=1}^H M^h(i,j) \displaystyle}{\sum_{h=1}^H I^h(i,j)} \right )$$ वह प्रवेश है $$(i,j)$$ सर्वसम्मति मैट्रिक्स में अंकों की संख्या होती है $$i$$ और $$j$$ एक साथ समूहित किए गए को एक साथ चुने जाने की कुल संख्या से विभाजित किया गया। मैट्रिक्स सममित है और प्रत्येक तत्व को सीमा के भीतर परिभाषित किया गया है $$[0,1]$$. प्रत्येक के लिए एक सर्वसम्मति मैट्रिक्स की गणना की जाती है $$K$$ परीक्षण किया जाना है, और प्रत्येक मैट्रिक्स की स्थिरता, अर्थात मैट्रिक्स सही स्थिरता के मैट्रिक्स (केवल शून्य और एक) की ओर कितनी दूर है, का उपयोग इष्टतम निर्धारित करने के लिए किया जाता है $$K$$. की स्थिरता को मापने का एक तरीका $$K$$वें सर्वसम्मति मैट्रिक्स अपने सीडीएफ वक्र की जांच कर रहा है (नीचे देखें)।

मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिदम की अति-व्याख्या क्षमता
मोंटी सर्वसम्मति क्लस्टरिंग समूहों की पहचान करने के लिए एक शक्तिशाली उपकरण हो सकता है, लेकिन इसे सावधानी के साथ लागू करने की आवश्यकता है जैसा कि सेनबाबाओग्लू एट अल द्वारा दिखाया गया है। यह दिखाया गया है कि मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिदम एक यूनिमॉडल वितरण से खींचे गए अशक्त डेटासेट के मौका विभाजन की स्पष्ट स्थिरता का दावा करने में सक्षम है, और इस प्रकार एक वास्तविक अध्ययन में क्लस्टर स्थिरता की अधिक व्याख्या करने की क्षमता है। यदि समूहों को अच्छी तरह से अलग नहीं किया गया है, तो आम सहमति क्लस्टरिंग किसी को स्पष्ट संरचना का निष्कर्ष निकालने के लिए प्रेरित कर सकती है जब कोई नहीं है, या सूक्ष्म होने पर क्लस्टर स्थिरता की घोषणा कर सकता है। पूरे क्लस्टर अनुसंधान में झूठे सकारात्मक समूहों की पहचान करना एक आम समस्या है, और इसे सिगक्लस्ट जैसी विधियों द्वारा संबोधित किया गया है और GAP-सांख्यिकी। हालाँकि, ये विधियाँ शून्य मॉडल के लिए कुछ मान्यताओं पर निर्भर करती हैं जो हमेशा उपयुक्त नहीं हो सकती हैं।

सेनबाबाओग्लू एट अल निर्णय लेने के लिए मूल डेल्टा K मीट्रिक का प्रदर्शन किया $$K$$ मोंटी एल्गोरिदम में खराब प्रदर्शन किया गया, और उनके सीडीएफ वक्रों का उपयोग करके सर्वसम्मति मैट्रिक्स की स्थिरता को मापने के लिए एक नया बेहतर मीट्रिक प्रस्तावित किया गया। सर्वसम्मति मैट्रिक्स के सीडीएफ वक्र में, निचला बायां भाग नमूना जोड़े का प्रतिनिधित्व करता है जो शायद ही कभी एक साथ क्लस्टर होते हैं, ऊपरी दायां भाग उन लोगों का प्रतिनिधित्व करता है जो लगभग हमेशा एक साथ क्लस्टर होते हैं, जबकि मध्य खंड अलग-अलग क्लस्टरिंग रन में अस्पष्ट असाइनमेंट वाले लोगों का प्रतिनिधित्व करता है। अस्पष्ट क्लस्टरिंग (पीएसी) स्कोर माप का अनुपात इस मध्य खंड की मात्रा निर्धारित करता है; और इसे अंतराल (यू) में आने वाले सर्वसम्मति सूचकांकों के साथ नमूना जोड़े के अंश के रूप में परिभाषित किया गया है1, में2) ∈ [0, 1] जहां आप1 0 और u के करीब एक मान है2 1 के करीब का मान है (उदाहरण के लिए u1=0.1 और यू2=0.9). पीएसी का कम मूल्य एक सपाट मध्य खंड को इंगित करता है, और क्रमबद्ध क्लस्टरिंग रन में असंगत असाइनमेंट की कम दर को इंगित करता है। इसलिए कोई भी क्लस्टरों की इष्टतम संख्या का अनुमान लगा सकता है $$K$$ सबसे कम पीएसी वाला मूल्य।

संबंधित कार्य
रेफरी> संदर्भ>अलेक्जेंडर टॉपची, अनिल के. जैन, विलियम पंच। क्लस्टरिंग एन्सेम्बल्स: सर्वसम्मति और कमजोर विभाजन के मॉडल। डेटा माइनिंग पर आईईईई अंतर्राष्ट्रीय सम्मेलन, आईसीडीएम 03 और डेटा माइनिंग पर एसआईएएम अंतर्राष्ट्रीय सम्मेलन, एसडीएम 04
 * 1) क्लस्टरिंग पहनावा (स्ट्रेहल और घोष): उन्होंने समस्या के लिए विभिन्न फॉर्मूलेशन पर विचार किया, जिनमें से अधिकांश समस्या को हाइपर-ग्राफ़ विभाजन समस्या में बदल देते हैं। अपने एक फॉर्मूलेशन में उन्होंने सहसंबंध क्लस्टरिंग समस्या के समान ग्राफ़ पर विचार किया। उन्होंने जो समाधान प्रस्तावित किया है वह ग्राफ़ के सर्वोत्तम के-विभाजन की गणना करना है, जो दूर स्थित दो नोड्स के विलय के लिए दंड को ध्यान में नहीं रखता है। #क्लस्टरिंग एकत्रीकरण (फ़र्न और ब्रोडली): उन्होंने क्लस्टरिंग एकत्रीकरण विचार को यादृच्छिक अनुमानों द्वारा प्राप्त नरम क्लस्टरिंग के संग्रह पर लागू किया। उन्होंने एक समूहीकृत एल्गोरिदम का उपयोग किया और असमान नोड्स को विलय करने के लिए दंडित नहीं किया।
 * 2) फ़्रेड और जैन: उन्होंने k-मीन्स एल्गोरिथम के एकाधिक रन को संयोजित करने के लिए एकल लिंकेज एल्गोरिथम का उपयोग करने का प्रस्ताव रखा।
 * 3) डाना क्रिस्टोफ़ोर और डैन सिमोविसी: उन्होंने क्लस्टरिंग एकत्रीकरण और श्रेणीबद्ध चर के क्लस्टरिंग के बीच संबंध देखा। उन्होंने सूचना सैद्धांतिक दूरी के उपायों का प्रस्ताव दिया, और उन्होंने सर्वोत्तम एकत्रीकरण समाधान खोजने के लिए आनुवंशिक एल्गोरिदम का प्रस्ताव दिया।
 * 1) टॉपची और अन्य: उन्होंने क्लस्टरिंग एकत्रीकरण को अधिकतम संभावना अनुमान समस्या के रूप में परिभाषित किया, और उन्होंने सर्वसम्मति क्लस्टरिंग खोजने के लिए एक ईएम एल्गोरिदम प्रस्तावित किया।

कठिन पहनावा क्लस्टरिंग
स्ट्रेहल और घोष का यह दृष्टिकोण इन विभाजनों को निर्धारित करने वाली सुविधाओं या एल्गोरिदम तक पहुंच के बिना वस्तुओं के एक सेट के कई विभाजनों को एक एकल समेकित क्लस्टरिंग में संयोजित करने की समस्या का परिचय देता है। वे उच्च गुणवत्ता वाले सर्वसम्मति कार्यों को प्राप्त करने के लिए इस समस्या को हल करने की दिशा में तीन दृष्टिकोणों पर चर्चा करते हैं। उनकी तकनीकों की कम्प्यूटेशनल लागत कम है और इससे नीचे चर्चा की गई प्रत्येक तकनीक का मूल्यांकन करना और उद्देश्य फ़ंक्शन के विरुद्ध परिणामों की तुलना करके सर्वोत्तम समाधान पर पहुंचना संभव हो जाता है।

कुशल सर्वसम्मति कार्य

 * 1) क्लस्टर-आधारित समानता विभाजन एल्गोरिदम (सीएसपीए): सीएसपीए में दो डेटा-बिंदुओं के बीच समानता को उस समूह के घटक क्लस्टरिंग की संख्या के सीधे आनुपातिक के रूप में परिभाषित किया गया है जिसमें वे एक साथ क्लस्टर किए गए हैं। अंतर्ज्ञान यह है कि दो डेटा-बिंदु जितने अधिक समान होंगे, उतनी ही अधिक संभावना होगी कि घटक क्लस्टरिंग उन्हें एक ही क्लस्टर में रखेगी। सीएसपीए सबसे सरल अनुमान है, लेकिन इसकी कम्प्यूटेशनल और भंडारण जटिलता दोनों एन में द्विघात हैं। SC3 CSPA प्रकार के एल्गोरिदम का एक उदाहरण है। निम्नलिखित दो विधियाँ कम्प्यूटेशनल रूप से कम महंगी हैं:
 * 2) हाइपर-ग्राफ विभाजन एल्गोरिदम (एचजीपीए): एचजीपीए एल्गोरिदम पिछली पद्धति की तुलना में सर्वसम्मति क्लस्टरिंग को खोजने के लिए एक बहुत अलग दृष्टिकोण अपनाता है। क्लस्टर एन्सेम्बल समस्या को न्यूनतम संख्या में हाइपरएज को काटकर हाइपरग्राफ को विभाजित करने के रूप में तैयार किया गया है। वे hMETIS का उपयोग करते हैं जो एक हाइपरग्राफ विभाजन पैकेज सिस्टम है।
 * 3) मेटा-क्लस्टरिंग एल्गोरिदम (एमसीएलए): मेटा-क्लस्टरिंग एल्गोरिदम (एमसीएलए) क्लस्टरिंग क्लस्टर पर आधारित है। सबसे पहले, यह क्लस्टर पत्राचार समस्या को हल करने का प्रयास करता है और फिर डेटा-बिंदुओं को अंतिम सर्वसम्मति क्लस्टर में रखने के लिए वोटिंग का उपयोग करता है। क्लस्टर पत्राचार समस्या को समूह के अलग-अलग समूहों में पहचाने गए समूहों को समूहीकृत करके हल किया जाता है। क्लस्टरिंग METIS और स्पेक्ट्रल क्लस्टरिंग का उपयोग करके की जाती है।

नरम क्लस्टरिंग पहनावा
पुनेरा और घोष ने हार्ड क्लस्टरिंग पहनावे के विचार को सॉफ्ट क्लस्टरिंग परिदृश्य तक बढ़ाया। नरम संयोजन में प्रत्येक उदाहरण को घटक क्लस्टरिंग एल्गोरिदम से प्राप्त आर पोस्टीरियर सदस्यता संभाव्यता वितरण के संयोजन द्वारा दर्शाया जाता है। हम कुल्बैक-लीब्लर डाइवर्जेंस | कुल्बैक-लीब्लर (केएल) डाइवर्जेंस का उपयोग करके दो उदाहरणों के बीच दूरी माप को परिभाषित कर सकते हैं, जो दो संभाव्यता वितरणों के बीच की दूरी की गणना करता है।
 * 1) sCSPA: समानता मैट्रिक्स की गणना करके CSPA का विस्तार करता है। प्रत्येक वस्तु को आयामी स्थान में एक बिंदु के रूप में देखा जाता है, प्रत्येक आयाम एक क्लस्टर से संबंधित होने की संभावना के अनुरूप होता है। यह तकनीक पहले वस्तुओं को एक लेबल-स्पेस में बदल देती है और फिर वस्तुओं का प्रतिनिधित्व करने वाले वैक्टरों के बीच डॉट उत्पाद को उनकी समानता के रूप में व्याख्या करती है।
 * 2) sMCLA: सॉफ्ट क्लस्टरिंग को इनपुट के रूप में स्वीकार करके MCLA का विस्तार करता है। एसएमसीएलए की कार्यप्रणाली को निम्नलिखित चरणों में विभाजित किया जा सकता है:
 * 3) * क्लस्टरों का सॉफ्ट मेटा-ग्राफ़ बनाएं
 * 4) * क्लस्टरों को मेटा-क्लस्टरों में समूहित करें
 * 5) * वेटिंग का उपयोग करके मेटा-क्लस्टर को संक्षिप्त करें
 * 6) * वस्तुओं के लिए प्रतिस्पर्धा करें
 * 7) sHBGF: समूहों और उदाहरणों को नोड्स के रूप में एक द्विदलीय ग्राफ के रूप में दर्शाता है, और उदाहरणों और जिन समूहों से वे संबंधित हैं, उनके बीच किनारों को दर्शाता है। इस दृष्टिकोण को नरम संयोजनों पर विचार करने के लिए तुच्छ रूप से अनुकूलित किया जा सकता है क्योंकि ग्राफ़ विभाजन एल्गोरिथ्म METIS विभाजित होने वाले ग्राफ़ के किनारों पर भार स्वीकार करता है। sHBGF में, ग्राफ़ में n+t शीर्ष हैं, जहां t अंतर्निहित समूहों की कुल संख्या है।
 * 8) 'बायेसियन सर्वसम्मति क्लस्टरिंग (बीसीसी)': नरम सर्वसम्मति क्लस्टरिंग के लिए पूरी तरह से बायेसियन संभाव्यता मॉडल को परिभाषित करता है जिसमें विभिन्न इनपुट डेटा या विभिन्न संभाव्यता मॉडल द्वारा परिभाषित एकाधिक स्रोत क्लस्टरिंग को आम सहमति क्लस्टरिंग के लिए शिथिल रूप से पालन करने के लिए माना जाता है। अलग-अलग क्लस्टरिंग और सर्वसम्मति क्लस्टरिंग के लिए पूर्ण पश्च भाग का अनुमान गिब्स नमूनाकरण  के माध्यम से एक साथ लगाया जाता है।
 * 9) एनसेंबल क्लस्टरिंग फ़ज़िफिकेशन मीन्स (ईसीएफ-मीन्स): ईसीएफ-मीन्स एक क्लस्टरिंग एल्गोरिदम है, जो चुने हुए एल्गोरिदम ( k-साधन ) के विभिन्न रन द्वारा प्राप्त किए गए अलग-अलग क्लस्टरिंग परिणामों को एक ही अंतिम क्लस्टरिंग कॉन्फ़िगरेशन में जोड़ता है।

संदर्भ

 * Aristides Gionis, Heikki Mannila, Panayiotis Tsaparas. Clustering Aggregation. 21st International Conference on Data Engineering (ICDE 2005)
 * Hongjun Wang, Hanhuai Shan, Arindam Banerjee. Bayesian Cluster Ensembles, SIAM International Conference on Data Mining, SDM 09