सिंगल-लिंकेज क्लस्टरिंग

आंकड़ों में, एकल-लिंकेज क्लस्टरिंग पदानुक्रमित क्लस्टरिंग के कई तरीकों में से एक है। यह बॉटम-अप फैशन (एग्लोमेरेटिव क्लस्टरिंग) में समूहों को समूहीकृत करने पर आधारित है, प्रत्येक चरण में दो समूहों का संयोजन होता है जिसमें तत्वों की निकटतम जोड़ी होती है जो अभी तक एक दूसरे के समान क्लस्टर से संबंधित नहीं हैं।

यह विधि लंबे पतले समूहों का निर्माण करती है जिसमें एक ही क्लस्टर के आस-पास के तत्वों की दूरी कम होती है, लेकिन क्लस्टर के विपरीत छोर पर स्थित तत्व अन्य समूहों के दो तत्वों की तुलना में एक दूसरे से बहुत दूर हो सकते हैं। डेटा के कुछ वर्गों के लिए, इससे उन वर्गों को परिभाषित करने में कठिनाई हो सकती है जो डेटा को उपयोगी रूप से उप-विभाजित कर सकते हैं। हालाँकि, यह आकाशगंगा समूहों का विश्लेषण करने के लिए खगोल विज्ञान में लोकप्रिय है, जिसमें अक्सर पदार्थ की लंबी श्रृंखला शामिल हो सकती है; इस एप्लिकेशन में, इसे फ्रेंड्स-ऑफ-फ्रेंड्स एल्गोरिदम के रूप में भी जाना जाता है।

समूहीकृत क्लस्टरिंग विधियों का अवलोकन
समूहीकृत क्लस्टरिंग प्रक्रिया की शुरुआत में, प्रत्येक तत्व अपने स्वयं के क्लस्टर में होता है। तब समूहों को क्रमिक रूप से बड़े समूहों में संयोजित किया जाता है, जब तक कि सभी तत्व एक ही क्लस्टर में न हो जाएं। प्रत्येक चरण में, न्यूनतम दूरी से अलग किए गए दो समूहों को संयोजित किया जाता है। दो समूहों के बीच की दूरी निर्धारित करने के लिए उपयोग किया जाने वाला फ़ंक्शन, जिसे लिंकेज फ़ंक्शन के रूप में जाना जाता है, एग्लोमेरेटिव क्लस्टरिंग विधियों को अलग करता है।

सिंगल-लिंकेज क्लस्टरिंग में, दो समूहों के बीच की दूरी तत्वों की एक जोड़ी द्वारा निर्धारित की जाती है: वे दो तत्व (प्रत्येक क्लस्टर में एक) जो एक दूसरे के सबसे करीब हैं। इनमें से जोड़ीवार सबसे छोटी दूरी जो किसी भी चरण पर बनी रहती है, उन दो समूहों का कारण बनती है जिनके तत्व शामिल होते हैं। इस विधि को निकटतम पड़ोसी क्लस्टरिंग के रूप में भी जाना जाता है। क्लस्टरिंग के परिणाम को डेंड्रोग्राम के रूप में देखा जा सकता है, जो उस अनुक्रम को दिखाता है जिसमें क्लस्टर विलय किए गए थे और वह दूरी जिस पर प्रत्येक विलय हुआ था। गणितीय रूप से, लिंकेज फ़ंक्शन - क्लस्टर एक्स और वाई के बीच की दूरी डी (एक्स, वाई) - अभिव्यक्ति द्वारा वर्णित है
 * $$D(X,Y)=\min_{x\in X, y\in Y} d(x,y),$$

जहां X और Y तत्वों के दो समूह हैं जिन्हें क्लस्टर माना जाता है, और d(x,y) दो तत्वों x और y के बीच की दूरी को दर्शाता है।

अनुभवहीन एल्गोरिथ्म
निम्नलिखित एल्गोरिदम एक पदानुक्रमित क्लस्टरिंग योजना है जो निकटता मैट्रिक्स में पंक्तियों और स्तंभों को मिटा देती है क्योंकि पुराने क्लस्टर नए में विलय हो जाते हैं। $$N \times N$$ h> निकटता मैट्रिक्स $$D$$ सभी दूरियाँ सम्मिलित हैं $$d(i,j)$$. क्लस्टरिंग को अनुक्रम संख्याएँ निर्दिष्ट की गई हैं $$0,1, \ldots, n-1$$ और $$L(k)$$ का स्तर है $$k$$-वें क्लस्टरिंग. अनुक्रम संख्या m वाले क्लस्टर को (m) और समूहों के बीच निकटता को दर्शाया गया है $$(r)$$ और $$(s)$$ निरूपित किया जाता है $$d[(r),(s)]$$.

एकल लिंकेज एल्गोरिथ्म निम्नलिखित चरणों से बना है:


 * 1) लेवल वाले असंयुक्त क्लस्टरिंग से शुरुआत करें  $$L(0) = 0$$ और क्रम संख्या $$m=0$$.
 * 2) वर्तमान क्लस्टरिंग में क्लस्टर की सबसे समान जोड़ी ढूंढें, जोड़ी कहें $$(r), (s)$$, के अनुसार $$d[(r),(s)] = \min d[(i),(j)]$$जहां वर्तमान क्लस्टरिंग में क्लस्टर के सभी जोड़े पर न्यूनतम है।
 * 3) अनुक्रम संख्या बढ़ाएँ: $$m = m + 1$$. समूहों को मर्ज करें $$(r)$$ और $$(s)$$ अगली क्लस्टरिंग बनाने के लिए एक क्लस्टर में $$m$$. इस क्लस्टरिंग का स्तर इस पर सेट करें $$L(m) = d[(r),(s)]$$
 * 4) निकटता मैट्रिक्स अद्यतन करें, $$D$$, क्लस्टर से संबंधित पंक्तियों और स्तंभों को हटाकर $$(r)$$ और $$(s)$$ और नवगठित क्लस्टर के अनुरूप एक पंक्ति और स्तंभ जोड़ना। नए क्लस्टर के बीच निकटता को दर्शाया गया है $$(r,s)$$ और एक पुराना क्लस्टर $$(k)$$ परिभाषित किया जाता है $$d[(r,s),(k)] = \min \{d[(k),(r)], d[(k),(s)] \}$$.
 * 5) यदि सभी ऑब्जेक्ट एक क्लस्टर में हैं, तो रुकें। अन्यथा, चरण 2 पर जाएँ.

कार्यशील उदाहरण
यह कामकाजी उदाहरण मॉडल्स_ऑफ_डीएनए_इवोल्यूशन#जेसी69_मॉडल_(जुकेस_एंड_कैंटर_1969) आनुवंशिक दूरी मैट्रिक्स पर आधारित है, जो पांच बैक्टीरिया के 5एस राइबोसोमल आरएनए अनुक्रम संरेखण से गणना की गई है: बेसिलस सुबटिलिस  ($$a$$), बैसिलस स्टीयरोथर्मोफिलस ($$b$$), वीसेल्ला विरिडेसेंस ($$c$$),  अकोलेप्लाज्मा  मोडिकम ($$d$$), और माइक्रोकॉकस ल्यूटस ($$e$$).

पहला कदम
आइए मान लें कि हमारे पास पाँच तत्व हैं $$(a,b,c,d,e)$$ और निम्नलिखित मैट्रिक्स $$D_1$$ उनके बीच जोड़ीवार दूरियाँ:
 * पहला क्लस्टरिंग

इस उदाहरण में, $$D_1 (a,b)=17$$ का न्यूनतम मान है $$D_1$$, इसलिए हम तत्वों को क्लस्टर करते हैं $a$ और $b$.

होने देना $u$ जिस नोड को निरूपित करें $a$ और $b$ अब जुड़े हुए हैं. सेटिंग $$\delta(a,u)=\delta(b,u)=D_1(a,b)/2$$ यह सुनिश्चित करता है कि तत्व $a$ और $b$ से समान दूरी पर हैं $u$. यह अल्ट्रामेट्रीसिटी परिकल्पना की अपेक्षा से मेल खाता है। शाखाएँ जुड़ रही हैं $a$ और $b$ को $u$ फिर लंबाई है $$\delta(a,u)=\delta(b,u)=17/2=8.5$$ (#डेंड्रोग्राम1)
 * पहले शाखा की लंबाई का अनुमान

फिर हम प्रारंभिक निकटता मैट्रिक्स को अद्यतन करने के लिए आगे बढ़ते हैं $$D_1$$ एक नए निकटता मैट्रिक्स में $$D_2$$ (नीचे देखें), क्लस्टरिंग के कारण आकार में एक पंक्ति और एक कॉलम कम हो गया $a$ साथ $b$. में बोल्ड मान $$D_2$$ पहले क्लस्टर के प्रत्येक तत्व के बीच न्यूनतम दूरी को बनाए रखते हुए गणना की गई नई दूरियों के अनुरूप $$(a,b)$$ और शेष प्रत्येक तत्व:
 * 'पहला दूरी मैट्रिक्स अद्यतन'


 * $$\begin{array}{lllllll}

D_2((a,b),c)&=&\min(D_1(a,c),D_1(b,c))&=&\min(21,30)&=&21 \\ D_2((a,b),d)&=&\min(D_1(a,d),D_1(b,d))&=&\min(31,34)&=&31 \\ D_2((a,b),e)&=&\min(D_1(a,e),D_1(b,e))&=&\min(23,21)&=&21 \end{array}$$ में इटैलिकाइज़्ड मान $$D_2$$ मैट्रिक्स अद्यतन से प्रभावित नहीं होते क्योंकि वे पहले क्लस्टर में शामिल नहीं होने वाले तत्वों के बीच की दूरी के अनुरूप होते हैं।

दूसरा चरण
अब हम नई दूरी मैट्रिक्स से शुरू करते हुए, पिछली तीन कार्रवाइयों को दोहराते हैं $$D_2$$ :
 * दूसरा क्लस्टरिंग

यहाँ, $$D_2 ((a,b),c)=21$$ और $$D_2 ((a,b),e)=21$$ के निम्नतम मान हैं $$D_2$$, इसलिए हम क्लस्टर में शामिल होते हैं $$(a,b)$$ तत्व के साथ $c$ और तत्व के साथ $e$.

होने देना $v$ जिस नोड को निरूपित करें $$(a,b)$$, $c$ और $e$ अब जुड़े हुए हैं. अल्ट्रामेट्रिकिटी बाधा के कारण, शाखाएँ जुड़ती हैं $a$ या $b$ को $v$, और $c$ को $v$, और भी $e$ को $v$ बराबर हैं और उनकी कुल लंबाई निम्नलिखित है:
 * दूसरी शाखा की लंबाई का अनुमान
 * $$\delta(a,v)=\delta(b,v)=\delta(c,v)=\delta(e,v)=21/2=10.5$$

हम लुप्त शाखा की लंबाई निकालते हैं:
 * $$\delta(u,v)=\delta(c,v)-\delta(a,u)=\delta(c,v)-\delta(b,u)=10.5-8.5=2$$ (#डेंड्रोग्राम1)

फिर हम अद्यतन करने के लिए आगे बढ़ते हैं $$D_2$$ एक नई दूरी मैट्रिक्स में मैट्रिक्स $$D_3$$ (नीचे देखें), क्लस्टरिंग के कारण आकार में दो पंक्तियों और दो स्तंभों की कमी हो गई $$(a,b)$$ साथ $c$ और साथ $e$ :
 * 'दूसरी दूरी मैट्रिक्स अद्यतन'


 * $$D_3(((a,b),c,e),d)=\min(D_2((a,b),d),D_2(c,d),D_2(e,d))=\min(31,28,43)=28$$

अंतिम चरण
अंतिम $$D_3$$ मैट्रिक्स है:

इसलिए हम समूहों में शामिल होते हैं $$((a,b),c,e)$$ और $$d$$.

होने देना $$r$$ (रूट) नोड को निरूपित करें $$((a,b),c,e)$$ और $$d$$ अब जुड़े हुए हैं. शाखाएँ जुड़ रही हैं $$((a,b),c,e)$$ और $$d$$ को $$r$$ फिर लंबाई है:

$$\delta(((a,b),c,e),r)=\delta(d,r)=28/2=14$$ हम शेष शाखा की लंबाई निकालते हैं:

$$\delta(v,r)=\delta(a,r)-\delta(a,v)=\delta(b,r)-\delta(b,v)=\delta(c,r)-\delta(c,v)=\delta(e,r)-\delta(e,v)=14-10.5=3.5$$

सिंगल-लिंकेज डेंड्रोग्राम
डेंड्रोग्राम अब पूरा हो गया है। यह अल्ट्रामेट्रिक है क्योंकि सभी युक्तियाँ ($$a$$, $$b$$, $$c$$, $$e$$, और $$d$$) से समान दूरी पर हैं $$r$$ :

$$\delta(a,r)=\delta(b,r)=\delta(c,r)=\delta(e,r)=\delta(d,r)=14$$ इसलिए डेंड्रोग्राम को जड़ दिया जाता है $$r$$, इसका सबसे गहरा नोड।

अन्य संबंध
एकल लिंकेज क्लस्टरिंग के लिए सरल एल्गोरिदम अनिवार्य रूप से न्यूनतम फैले हुए पेड़ों के लिए क्रुस्कल के एल्गोरिदम के समान है। हालाँकि, एकल लिंकेज क्लस्टरिंग में, क्लस्टर बनने का क्रम महत्वपूर्ण है, जबकि न्यूनतम फैले पेड़ों के लिए जो मायने रखता है वह बिंदुओं के जोड़े का सेट है जो एल्गोरिदम द्वारा चुनी गई दूरी बनाते हैं।

वैकल्पिक लिंकेज योजनाओं में पूर्ण लिंकेज क्लस्टरिंग, औसत लिंकेज क्लस्टरिंग (यूपीजीएमए और डब्ल्यूपीजीएमए), और वार्ड की विधि शामिल है। एग्लोमेरेटिव क्लस्टरिंग के लिए सरल एल्गोरिदम में, एल्गोरिदम में अंतर-क्लस्टर दूरी की गणना करने के लिए एक अलग सूत्र का उपयोग करके एक अलग लिंकेज योजना को कार्यान्वित किया जा सकता है। जिस सूत्र को समायोजित किया जाना चाहिए उसे उपरोक्त एल्गोरिदम विवरण में बोल्ड टेक्स्ट का उपयोग करके हाइलाइट किया गया है। हालाँकि, नीचे वर्णित जैसे अधिक कुशल एल्गोरिदम सभी लिंकेज योजनाओं को एक ही तरह से सामान्यीकृत नहीं करते हैं।

तेज़ एल्गोरिदम
सिंगल-लिंकेज क्लस्टरिंग के लिए सरल एल्गोरिदम को समझना आसान है लेकिन समय की जटिलता के साथ धीमा है $$O(n^3)$$. 1973 में, आर. सिबसन ने समय जटिलता के साथ एक एल्गोरिदम प्रस्तावित किया $$O(n^2)$$ और स्थान की जटिलता $$O(n)$$ (दोनों इष्टतम) को SLINK के रूप में जाना जाता है। स्लिंक एल्गोरिथ्म एक सेट पर क्लस्टरिंग का प्रतिनिधित्व करता है $$n$$ दो कार्यों द्वारा क्रमांकित आइटम। ये दोनों फ़ंक्शन सबसे छोटे क्लस्टर को ढूंढकर निर्धारित किए जाते हैं $$C$$ जिसमें दोनों आइटम शामिल हैं$$i$$ और कम से कम एक बड़ी संख्या वाली वस्तु। पहला कार्य, $$\pi$$, मानचित्र आइटम$$i$$ क्लस्टर में सबसे बड़ी संख्या वाले आइटम के लिए $$C$$. दूसरा कार्य, $$\lambda$$, मानचित्र आइटम$$i$$ क्लस्टर के निर्माण से जुड़ी दूरी तक $$C$$. इन फ़ंक्शंस को दो सरणियों में संग्रहीत करना जो प्रत्येक आइटम नंबर को उसके फ़ंक्शन मान पर मैप करते हैं, स्थान लेते हैं $$O(n)$$, और यह जानकारी स्वयं क्लस्टरिंग को निर्धारित करने के लिए पर्याप्त है। जैसा कि सिबसन दिखाता है, जब वस्तुओं के सेट में एक नया आइटम जोड़ा जाता है, तो संवर्धित सेट के लिए नए सिंगल-लिंकेज क्लस्टरिंग का प्रतिनिधित्व करने वाले अद्यतन फ़ंक्शन, उसी तरह प्रस्तुत किए जाते हैं, जो समय में पुराने क्लस्टरिंग से बनाए जा सकते हैं $$O(n)$$. SLINK एल्गोरिथ्म फिर आइटमों पर एक-एक करके लूप करता है, और उन्हें क्लस्टरिंग के प्रतिनिधित्व में जोड़ता है। एक वैकल्पिक एल्गोरिदम, जो समान इष्टतम समय और स्थान सीमा में चल रहा है, न्यूनतम फैले हुए पेड़ों के लिए अनुभवहीन एल्गोरिदम और क्रुस्कल के एल्गोरिदम के बीच समानता पर आधारित है। क्रुस्कल के एल्गोरिदम का उपयोग करने के बजाय, कोई बाइनरी ढेर के बिना भिन्नता में प्राइम के एल्गोरिदम का उपयोग कर सकता है जिसमें समय लगता है $$O(n^2)$$ और स्थान $$O(n)$$ दिए गए आइटम और दूरियों का न्यूनतम फैले हुए पेड़ (लेकिन क्लस्टरिंग नहीं) का निर्माण करना। फिर, क्रुस्कल के एल्गोरिदम को न्यूनतम फैले हुए पेड़ के किनारों द्वारा गठित विरल ग्राफ़ पर लागू करने से अतिरिक्त समय में क्लस्टरिंग उत्पन्न होती है $$O(n\log n)$$ और स्थान $$O(n)$$.

यह भी देखें

 * क्लस्टर विश्लेषण
 * पूर्ण-लिंकेज क्लस्टरिंग
 * पदानुक्रमित क्लस्टरिंग
 * आणविक घड़ी
 * पड़ोसी-जुड़ना
 * यूपीजीएमए
 * डब्ल्यूपीजीएमए

बाहरी संबंध

 * Linkages used in Matlab