सिंगल-लिंकेज क्लस्टरिंग

आंकड़ों में, एकल-संयोजन गुच्छन पदानुक्रमित गुच्छन के कई तरीकों में से एक है। यह ऊर्ध्‍वगामी विधान (संपिंडित गुच्छन) में समूहों को समूहीकृत करने पर आधारित है, प्रत्येक चरण में दो समूहों का संयोजन होता है जिसमें तत्वों की निकटतम जोड़ी होती है जो अभी तक एक दूसरे के समान गुच्छ से संबंधित नहीं हैं।

यह विधि लंबे पतले समूहों का निर्माण करती है जिसमें एक ही गुच्छ के आस-पास के तत्वों की दूरी कम होती है, लेकिन गुच्छ के विपरीत छोर पर स्थित तत्व अन्य समूहों के दो तत्वों की तुलना में एक दूसरे से बहुत दूर हो सकते हैं। डेटा के कुछ वर्गों के लिए, इससे उन वर्गों को परिभाषित करने में कठिनाई हो सकती है जो डेटा को उपयोगी रूप से उप-विभाजित कर सकते हैं। हालाँकि, यह आकाशगंगा समूह का विश्लेषण करने के लिए खगोल विज्ञान में लोकप्रिय है, जिसमें प्रायः पदार्थ की लंबी श्रृंखला सामान्यतः हो सकती है; इस एप्लिकेशन में, इसे फ्रेंड्स-ऑफ-फ्रेंड्स कलन विधि के रूप में भी जाना जाता है।

समूहीकृत गुच्छन विधियों का अवलोकन
समूहीकृत गुच्छन प्रक्रिया के प्रारम्भ में, प्रत्येक तत्व अपने स्वयं के गुच्छ में होता है। तब समूहों को क्रमिक रूप से बड़े समूहों में संयोजित किया जाता है, जब तक कि सभी तत्व एक ही गुच्छ में न हो जाएं। प्रत्येक चरण में, न्यूनतम दूरी से अलग किए गए दो समूहों को संयोजित किया जाता है। दो समूहों के बीच की दूरी निर्धारित करने के लिए उपयोग किया जाने वाला फलन, जिसे संयोजन फलन के रूप में जाना जाता है, संपिंडित गुच्छन विधियों को अलग करता है।

एकल-संयोजन गुच्छन में, दो समूहों के बीच की दूरी तत्वों की एक जोड़ी द्वारा निर्धारित की जाती है: वे दो तत्व (प्रत्येक गुच्छ में एक) जो एक दूसरे के सबसे करीब हैं। इनमें से जोड़ीवार सबसे छोटी दूरी जो किसी भी चरण पर बनी रहती है, उन दो समूहों का कारण बनती है जिनके तत्व सामान्यतः होते हैं। इस विधि को निकटतम प्रतिवैस गुच्छन के रूप में भी जाना जाता है। गुच्छन के परिणाम को द्रुमारेख के रूप में देखा जा सकता है, जो उस अनुक्रम को दिखाता है जिसमें गुच्छ विलय किए गए थे और वह दूरी जिस पर प्रत्येक विलय हुआ था।

गणितीय रूप से, संयोजन फलन - गुच्छ X और Y के बीच की दूरी D (X, Y) - अभिव्यक्ति द्वारा वर्णित है
 * $$D(X,Y)=\min_{x\in X, y\in Y} d(x,y),$$

जहां X और Y तत्वों के दो समूह हैं जिन्हें गुच्छ माना जाता है, और d(x,y) दो तत्वों x और y के बीच की दूरी को दर्शाता है।

अनुभवहीन कलन विधि
निम्नलिखित कलन विधि एक पदानुक्रमित गुच्छन योजना है जो निकटता आव्यूह में पंक्तियों और स्तंभों को मिटा देती है क्योंकि पुराने गुच्छ नए में विलय हो जाते हैं। $$N \times N$$ h> निकटता आव्यूह $$D$$ में सभी दूरियाँ $$d(i,j)$$ सम्मिलित हैं। गुच्छन को अनुक्रम संख्याएं $$0,1, \ldots, n-1$$ दी गई हैं और $$L(k)$$ $$k$$वी गुच्छन का स्तर है। अनुक्रम संख्या $$d[(r),(s)]$$ वाले एक गुच्छ को (m) से दर्शाया जाता है और गुच्छ $$(r)$$ तथा $$(s)$$ के बीच की निकटता को दर्शाया जाता है।

एकल संयोजन कलन विधि निम्नलिखित गुच्छन से बना है:


 * 1) स्तर $$L(0) = 0$$ और क्रम संख्या $$m=0$$ वाले असंयुक्त गुच्छन से प्रारम्भ करें
 * 2) वर्तमान गुच्छन में समूहों की सबसे समान जोड़ी ढूंढें, मान लें कि जोड़ी {डिस्प्लेस्टाइल $$(r), (s)$$, मिनट के अनुसार $$d[(r),(s)] = \min d[(i),(j)]$$ जहां वर्तमान गुच्छन में गुच्छ के सभी जोड़े पर न्यूनतम है।
 * 3) अनुक्रम संख्या $$m = m + 1$$ बढ़ाएँ: अगली गुच्छन $$m$$ बनाने के लिए गुच्छ $$(r)$$ और $$(s)$$ को एक गुच्छ में मिलाएं। इस गुच्छन $$L(m) = d[(r),(s)]$$ का स्तर इस पर सम्मुच्चय करें।
 * 4) निकटता आव्यूह अद्यतन करें, $$D$$, गुच्छ से संबंधित पंक्तियों और स्तंभों $$(r)$$ और $$(s)$$ को हटाकर और नवगठित गुच्छ के अनुरूप एक पंक्ति और स्तंभ जोड़ें। नए गुच्छ $$(r,s)$$ के बीच निकटता को दर्शाया गया है और एक पुराना गुच्छ$$d[(r,s),(k)] = \min \{d[(k),(r)], d[(k),(s)] \}$$ $$(k)$$ परिभाषित किया जाता है।
 * 5) यदि सभी उद्देश्य एक गुच्छ में हैं, तो रुकें। अन्यथा, चरण 2 पर जाएँ।

कार्यशील उदाहरण
यह कामकाजी उदाहरण पांच जीवाणुओं के 5एस राइबोसोमल आरएनए अनुक्रम संरेखण से गणना की गई जेसी69 आनुवंशिक दूरी आव्यूह पर आधारित है: बैसिलस सबटिलिस (a), बैसिलस स्टीयरोथर्मोफिलस (b), लैक्टोबैसिलस विरिडेसेंस (c), एचोलेप्लाज्मा मॉडिकम (d), और माइक्रोकॉकस ल्यूटस (e)।

पहला कदम
आइए मान लें कि हमारे पास पाँच तत्व $$(a,b,c,d,e)$$ हैं और निम्नलिखित आव्यूह $$D_1$$ उनके बीच जोड़ीवार दूरियाँ:
 * पहला गुच्छन

इस उदाहरण में, $$D_1 (a,b)=17$$ का न्यूनतम मान $$D_1$$है, इसलिए हम $a$ और $b$ तत्वों को गुच्छ करते हैं।

आइए आप उस नोड $u$ को निरूपित करें जिससे $a$ और $b$ अब जुड़े हुए हैं। संमुच्चयन $$\delta(a,u)=\delta(b,u)=D_1(a,b)/2$$ यह सुनिश्चित करता है कि तत्व $a$ और $b$ से समान दूरी $u$ पर हैं। यह अल्ट्रामेट्रीसिटी परिकल्पना की अपेक्षा से मेल खाता है। a और b को u से जोड़ने वाली शाखाओं की लंबाई $$\delta(a,u)=\delta(b,u)=17/2=8.5$$ होती है।
 * पहले शाखा की लंबाई का अनुमान

फिर हम प्रारंभिक निकटता आव्यूह $$D_1$$ को एक नए निकटता आव्यूह $$D_2$$ (नीचे देखें) में नवीनीकरण करने के लिए आगे बढ़ते हैं, जिसका आकार b के साथ a की गुच्छन के कारण एक पंक्ति और एक स्तम्भ से कम हो गया है।
 * पहला दूरी आव्यूह अद्यतन

$$D_2$$ में स्पष्ट मान नई दूरियों के अनुरूप हैं, जिनकी गणना पहले गुच्छन $$(a,b)$$ के प्रत्येक तत्व और शेष तत्वों में से प्रत्येक के बीच न्यूनतम दूरी को बनाए रखकर की जाती है।:


 * $$\begin{array}{lllllll}

D_2((a,b),c)&=&\min(D_1(a,c),D_1(b,c))&=&\min(21,30)&=&21 \\ D_2((a,b),d)&=&\min(D_1(a,d),D_1(b,d))&=&\min(31,34)&=&31 \\ D_2((a,b),e)&=&\min(D_1(a,e),D_1(b,e))&=&\min(23,21)&=&21 \end{array}$$ में तिर्थकित मान $$D_2$$ आव्यूह अद्यतन से प्रभावित नहीं होते क्योंकि वे पहले गुच्छ में सामान्यतः नहीं होने वाले तत्वों के बीच की दूरी के अनुरूप होते हैं।

दूसरा चरण
अब हम नई दूरी आव्यूह $$D_2$$ से प्रारम्भ करते हुए, पिछली तीन कार्रवाइयों को दोहराते हैं :
 * दूसरा गुच्छन

यहाँ, $$D_2 ((a,b),c)=21$$ और $$D_2 ((a,b),e)=21$$ के निम्नतम मान $$D_2$$ हैं, इसलिए हम गुच्छ $$(a,b)$$को तत्व c के साथ और तत्व e के साथ जोड़ते हैं।

मान लीजिए $v$ उस नोड को दर्शाता है जिससे $$(a,b)$$, c और e अब जुड़े हुए हैं। अल्ट्रामेट्रिकिटी बाधा के कारण, a या b से v, और c से v, और e से v को जोड़ने वाली शाखाएँ समान हैं और उनकी कुल लंबाई निम्नलिखित है::
 * दूसरी शाखा की लंबाई का अनुमान
 * $$\delta(a,v)=\delta(b,v)=\delta(c,v)=\delta(e,v)=21/2=10.5$$

हम लुप्त शाखा की लंबाई निकालते हैं:
 * $$\delta(u,v)=\delta(c,v)-\delta(a,u)=\delta(c,v)-\delta(b,u)=10.5-8.5=2$$

फिर हम $$D_2$$ आव्यूह को एक नई दूरी आव्यूह $$D_3$$ (नीचे देखें) में अपडेट करने के लिए आगे बढ़ते हैं, जिसका आकार c के साथ $$(a,b)$$ और e के साथ गुच्छन के कारण दो पंक्तियों और दो कॉलमों से कम हो गया है:
 * 'दूसरी दूरी आव्यूह अद्यतन'


 * $$D_3(((a,b),c,e),d)=\min(D_2((a,b),d),D_2(c,d),D_2(e,d))=\min(31,28,43)=28$$

अंतिम चरण
अंतिम $$D_3$$ आव्यूह है:

तो हम गुच्छ $$((a,b),c,e)$$ और $$d$$ से जुड़ते हैं।

मान लीजिए कि $$r$$ (रूट) नोड को दर्शाता है, जिससे $$((a,b),c,e)$$ और $$d$$ अब जुड़े हुए हैं।

$$((a,b),c,e)$$ और $$d$$ से $$r$$ को जोड़ने वाली शाखाओं की लंबाई होती है:

$$\delta(((a,b),c,e),r)=\delta(d,r)=28/2=14$$

हम शेष शाखा की लंबाई निकालते हैं:

$$\delta(v,r)=\delta(a,r)-\delta(a,v)=\delta(b,r)-\delta(b,v)=\delta(c,r)-\delta(c,v)=\delta(e,r)-\delta(e,v)=14-10.5=3.5$$

एकल-संयोजन द्रुमारेख
द्रुमारेख अब पूरा हो गया है। यह अल्ट्रामेट्रिक है क्योंकि सभी युक्तियाँ ($$a$$, $$b$$, $$c$$, $$e$$, और $$d$$) से समान दूरी $$r$$ पर हैं:

$$\delta(a,r)=\delta(b,r)=\delta(c,r)=\delta(e,r)=\delta(d,r)=14$$

इसलिए द्रुमारेख को इसके सबसे गहरे नोड $$r$$ द्वारा क्रम किया जाता है।।

अन्य संबंध
एकल संयोजन गुच्छन के लिए सरल कलन विधि अनिवार्य रूप से न्यूनतम विस्तरित ट्री के लिए क्रुस्कल के कलन विधि के समान है। हालाँकि, एकल संयोजन गुच्छन में, गुच्छ बनने का क्रम महत्वपूर्ण है, जबकि न्यूनतम विस्तरित ट्री के लिए जो मायने रखता है वह बिंदुओं के जोड़े का सम्मुच्चय है जो कलन विधि द्वारा चुनी गई दूरी बनाते हैं।

वैकल्पिक संयोजन योजनाओं में पूर्ण संयोजन गुच्छन, औसत संयोजन गुच्छन (यूपीजीएमए और डब्ल्यूपीजीएमए), और वार्ड की विधि सामान्यतः है। संपिंडित गुच्छन के लिए सरल कलन विधि में, कलन विधि में अंतर-गुच्छ दूरी की गणना करने के लिए एक अलग सूत्र का उपयोग करके एक अलग संयोजन योजना को कार्यान्वित किया जा सकता है। जिस सूत्र को समायोजित किया जाना चाहिए उसे उपरोक्त कलन विधि विवरण में स्पष्ट टेक्स्ट का उपयोग करके चिन्हांकित किया गया है। हालाँकि, नीचे वर्णित जैसे अधिक कुशल कलन विधि सभी संयोजन योजनाओं को एक ही तरह से सामान्यीकृत नहीं करते हैं।

तीव्र कलन विधि
एकल-संयोजन गुच्छन के लिए सरल कलन विधि को समझना आसान है लेकिन समय की जटिलता के साथ $$O(n^3)$$ धीमा है। 1973 में, आर. सिबसन ने समय जटिलता के साथ एक कलन विधि $$O(n^2)$$ प्रस्तावित किया और स्थान की जटिलता $$O(n)$$ (दोनों इष्टतम) को स्लिंक के रूप में जाना जाता है। स्लिंक एल्गोरिथम दो फलन द्वारा n क्रमांकित अंश के सम्मुच्चय पर गुच्छन का प्रतिनिधित्व करता है। ये दोनों फ़ंक्शन सबसे छोटे गुच्छ $$C$$ को ढूंढकर निर्धारित किए जाते हैं जिसमें अंश $$i$$ और कम से कम एक बड़ी संख्या वाला अंश दोनों सम्मिलित हैं।

पहला फ़ंक्शन, $$\pi$$ अंश $$i$$ को गुच्छ C में सबसे बड़ी संख्या वाले अंश पर मानचित्र करता है। दूसरा कार्य, $$\lambda$$, अंश i को गुच्छ C के निर्माण से जुड़ी दूरी पर मानचित्र करता है। इन फलन को दो सरणियों में संग्रहीत करना जो प्रत्येक अंश अंक को उसके फलन मान पर मानचित्र करते हैं और स्थान $$O(n)$$ लेते हैं, और यह जानकारी स्वयं गुच्छन को निर्धारित करने के लिए पर्याप्त है। जैसा कि सिबसन दिखाता है, जब वस्तुओं के सम्मुच्चय में एक नया अंश जोड़ा जाता है, तो संवर्धित सम्मुच्चय के लिए नए एकल-संयोजन गुच्छन का प्रतिनिधित्व करने वाले अद्यतन फलन, उसी तरह प्रस्तुत किए जाते हैं, जो समय में पुराने गुच्छन $$O(n)$$ से बनाए जा सकते हैं। स्लिंक कलन विधि फिर अंशों पर एक-एक करके पाशन करता है, और उन्हें गुच्छन के प्रतिनिधित्व में जोड़ता है। एक वैकल्पिक कलन विधि, जो समान इष्टतम समय और स्थान सीमा में चल रहा है, न्यूनतम विस्तरित ट्री के लिए अनुभवहीन कलन विधि और क्रुस्कल के कलन विधि के बीच समानता पर आधारित है। क्रुस्कल के कलन विधि का उपयोग करने के स्थान पर, कोई युग्मक ढेर के बिना भिन्नता में अभाज्य के कलन विधि का उपयोग कर सकता है जिसमें समय $$O(n^2)$$ लगता है और स्थान $$O(n)$$ दिए गए अंश और दूरियों का न्यूनतम विस्तरित ट्री (लेकिन गुच्छन नहीं) का निर्माण करता है। फिर, क्रुस्कल के कलन विधि को न्यूनतम विस्तरित ट्री के किनारों द्वारा गठित विरल आरेख पर लागू करने से अतिरिक्त समय $$O(n\log n)$$ और स्थान $$O(n)$$ में गुच्छन उत्पन्न होती है।

यह भी देखें

 * गुच्छ विश्लेषण
 * पूर्ण-संयोजन गुच्छन
 * पदानुक्रमित गुच्छन
 * आणविक घड़ी
 * प्रतिवैस-जुड़ना
 * यूपीजीएमए
 * डब्ल्यूपीजीएमए

बाहरी संबंध

 * Linkages used in Matlab