पूर्ण-लिंकेज क्लस्टरिंग

पूर्ण-सहलग्न गुच्छन संपिंडित पदानुक्रमित गुच्छन के कई तरीकों में से एक है। प्रक्रिया के प्रारंभ में, प्रत्येक अवयव अपने स्वयं के गुच्छ में होता है। तब गुच्छों को क्रमिक रूप से बड़े गुच्छों में संयोजित किया जाता है जब तक कि सभी अवयव एक ही गुच्छ में न हो जाएं। इस विधि को सुदूर प्रतिवेशी गुच्छन के रूप में भी जाना जाता है। गुच्छन के परिणाम को डेंड्रोग्राम के रूप में देखा जा सकता है, जो गुच्छ फ्यूजन के अनुक्रम और प्रत्येक फ्यूजन की दूरी को दर्शाता है।

गुच्छन प्रक्रिया
प्रत्येक चरण में, न्यूनतम दूरी से अलग किए गए दो समूहों को संयोजित किया जाता है। 'सबसे छोटी दूरी' की परिभाषा ही विभिन्न समूहीकृत गुच्छन विधियों के बीच अंतर करती है। पूर्ण-सहलग्न गुच्छन में, दो समूहों के बीच के लिंक में सभी तत्व जोड़े होते हैं, और समूहों के बीच की दूरी उन दो तत्वों (प्रत्येक क्लस्टर में एक) के बीच की दूरी के बराबर होती है जो एक दूसरे से सबसे दूर होते हैं। इनमें से सबसे छोटा लिंक जो किसी भी चरण पर बना रहता है, उन दो समूहों के संलयन का कारण बनता है जिनके तत्व शामिल होते हैं।

गणितीय रूप से, संपूर्ण सहलग्न फ़ंक्शन - दूरी $$D(X,Y)$$ समूहों के बीच $$X$$ और $$Y$$ - निम्नलिखित अभिव्यक्ति द्वारा वर्णित है: $$D(X,Y)= \max_{x\in X, y\in Y} d(x,y)$$ कहाँ
 * $$d(x,y)$$ तत्वों के बीच की दूरी है $$x \in X$$ और $$y \in Y$$ ;
 * $$X$$ और $$Y$$ तत्वों (क्लस्टर) के दो सेट हैं।

अनुभवहीन योजना
निम्नलिखित एल्गोरिदम एक पदानुक्रमित गुच्छन योजना है जो निकटता मैट्रिक्स में पंक्तियों और स्तंभों को मिटा देती है क्योंकि पुराने क्लस्टर नए में विलय हो जाते हैं। $$N \times N$$ h> निकटता मैट्रिक्स D में सभी दूरियाँ d(i,j) शामिल हैं। गुच्छन को अनुक्रम संख्या 0,1,......, (n − 1) सौंपी गई है और L(k) kth गुच्छन का स्तर है। अनुक्रम संख्या m वाले क्लस्टर को (m) दर्शाया गया है और क्लस्टर (r) और (s) के बीच निकटता को d[(r),(s)] दर्शाया गया है।

संपूर्ण सहलग्न गुच्छन एल्गोरिदम में निम्नलिखित चरण शामिल हैं:


 * 1) लेवल वाले असंयुक्त गुच्छन से शुरुआत करें  $$L(0) = 0$$ और क्रम संख्या $$m=0$$.
 * 2) वर्तमान गुच्छन में क्लस्टर की सबसे समान जोड़ी ढूंढें, जोड़ी कहें $$(r), (s)$$, के अनुसार $$d[(r),(s)] = \min d[(i),(j)]$$जहां वर्तमान गुच्छन में क्लस्टर के सभी जोड़े पर न्यूनतम है।
 * 3) अनुक्रम संख्या बढ़ाएँ: $$m = m + 1$$. समूहों को मर्ज करें $$(r)$$ और $$(s)$$ अगली गुच्छन बनाने के लिए एक क्लस्टर में $$m$$. इस गुच्छन का स्तर इस पर सेट करें $$L(m) = d[(r),(s)]$$
 * 4) निकटता मैट्रिक्स अद्यतन करें, $$D$$, क्लस्टर से संबंधित पंक्तियों और स्तंभों को हटाकर $$(r)$$ और $$(s)$$ और नवगठित क्लस्टर के अनुरूप एक पंक्ति और स्तंभ जोड़ना। नए क्लस्टर के बीच निकटता को दर्शाया गया है $$(r,s)$$, और एक पुराना क्लस्टर $$(k)$$ परिभाषित किया जाता है $$d[(r,s),(k)] = \max \{d[(k),(r)], d[(k),(s)] \}$$.
 * 5) यदि सभी ऑब्जेक्ट एक क्लस्टर में हैं, तो रुकें। अन्यथा, चरण 2 पर जाएँ.

सर्वोत्कृष्ट रूप से कुशल योजना
ऊपर बताए गए एल्गोरिदम को समझना आसान है लेकिन जटिलता है $$O(n^3)$$. मई 1976 में, डी. डिफ़ेज़ ने केवल जटिलता का एक इष्टतम कुशल एल्गोरिदम प्रस्तावित किया $$O(n^2)$$ CLINK के नाम से जाना जाता है (प्रकाशित 1977) सिंगल-सहलग्न गुच्छन के लिए समान एल्गोरिदम SLINK से प्रेरित।

कार्यशील उदाहरण
कामकाजी उदाहरण मॉडल्स_ऑफ_डीएनए_इवोल्यूशन#जेसी69_मॉडल_(जुकेस_एंड_कैंटर_1969) आनुवंशिक दूरी मैट्रिक्स पर आधारित है, जो पांच बैक्टीरिया के 5एस राइबोसोमल आरएनए अनुक्रम संरेखण से गणना की गई है: बेसिलस सुबटिलिस  ($$a$$), बैसिलस स्टीयरोथर्मोफिलस ($$b$$), वीसेल्ला विरिडेसेंस ($$c$$),  अकोलेप्लाज्मा  मोडिकम ($$d$$), और माइक्रोकॉकस ल्यूटस ($$e$$).

पहला कदम
आइए मान लें कि हमारे पास पाँच तत्व हैं $$(a,b,c,d,e)$$ और निम्नलिखित मैट्रिक्स $$D_1$$ उनके बीच जोड़ीवार दूरियाँ:
 * पहला गुच्छन

इस उदाहरण में, $$D_1 (a,b)=17$$ का सबसे छोटा मान है $$D_1$$, इसलिए हम तत्वों को जोड़ते हैं $$a$$ और $$b$$.

होने देना $$u$$ जिस नोड को निरूपित करें $$a$$ और $$b$$ अब जुड़े हुए हैं. सेटिंग $$\delta(a,u)=\delta(b,u)=D_1(a,b)/2$$ यह सुनिश्चित करता है कि तत्व $$a$$ और $$b$$ से समान दूरी पर हैं $$u$$. यह अल्ट्रामेट्रीसिटी परिकल्पना की अपेक्षा से मेल खाता है। शाखाएँ जुड़ रही हैं $$a$$ और $$b$$ को $$u$$ फिर लंबाई है $$\delta(a,u)=\delta(b,u)=17/2=8.5$$ (#डेंड्रोग्राम1)
 * पहले शाखा की लंबाई का अनुमान

फिर हम प्रारंभिक निकटता मैट्रिक्स को अद्यतन करने के लिए आगे बढ़ते हैं $$D_1$$ एक नए निकटता मैट्रिक्स में $$D_2$$ (नीचे देखें), गुच्छन के कारण आकार में एक पंक्ति और एक कॉलम कम हो गया $$a$$ साथ $$b$$. में बोल्ड मान $$D_2$$ पहले क्लस्टर के प्रत्येक तत्व के बीच अधिकतम दूरी को बनाए रखते हुए गणना की गई नई दूरियों के अनुरूप $$(a,b)$$ और शेष प्रत्येक तत्व:
 * 'पहला दूरी मैट्रिक्स अद्यतन'

$$D_2((a,b),c)=max(D_1(a,c),D_1(b,c))=max(21,30)=30$$

$$D_2((a,b),d)=max(D_1(a,d),D_1(b,d))=max(31,34)=34$$

$$D_2((a,b),e)=max(D_1(a,e),D_1(b,e))=max(23,21)=23$$ में इटैलिकाइज़्ड मान $$D_2$$ मैट्रिक्स अद्यतन से प्रभावित नहीं होते क्योंकि वे पहले क्लस्टर में शामिल नहीं होने वाले तत्वों के बीच की दूरी के अनुरूप होते हैं।

दूसरा चरण
अब हम नई दूरी मैट्रिक्स से शुरू करते हुए पिछले तीन चरणों को दोहराते हैं $$D_2$$ :
 * दूसरा गुच्छन

यहाँ, $$D_2 ((a,b),e)=23$$ का न्यूनतम मान है $$D_2$$, इसलिए हम क्लस्टर में शामिल होते हैं $$(a,b)$$ तत्व के साथ $$e$$.

होने देना $$v$$ जिस नोड को निरूपित करें $$(a,b)$$ और $$e$$ अब जुड़े हुए हैं. अल्ट्रामेट्रिकिटी बाधा के कारण, शाखाएँ जुड़ती हैं $$a$$ या $$b$$ को $$v$$, और $$e$$ को $$v$$, बराबर हैं और उनकी कुल लंबाई निम्नलिखित है: $$\delta(a,v)=\delta(b,v)=\delta(e,v)=23/2=11.5$$ हम लुप्त शाखा की लंबाई निकालते हैं: $$\delta(u,v)=\delta(e,v)-\delta(a,u)=\delta(e,v)-\delta(b,u)=11.5-8.5=3$$ (#डेंड्रोग्राम1)
 * दूसरी शाखा की लंबाई का अनुमान

फिर हम अद्यतन करने के लिए आगे बढ़ते हैं $$D_2$$ एक नई दूरी मैट्रिक्स में मैट्रिक्स $$D_3$$ (नीचे देखें), गुच्छन के कारण आकार में एक पंक्ति और एक कॉलम कम हो गया $$(a,b)$$ साथ $$e$$ :
 * 'दूसरी दूरी मैट्रिक्स अद्यतन'

$$D_3(((a,b),e),c)=max(D_2((a,b),c),D_2(e,c))=max(30,39)=39$$

$$D_3(((a,b),e),d)=max(D_2((a,b),d),D_2(e,d))=max(34,43)=43$$

तीसरा चरण
हम अद्यतन दूरी मैट्रिक्स से शुरू करते हुए, पिछले तीन चरणों को फिर से दोहराते हैं $$D_3$$.
 * तीसरा गुच्छन

यहाँ, $$D_3 (c,d)=28$$ का सबसे छोटा मान है $$D_3$$, इसलिए हम तत्वों को जोड़ते हैं $$c$$ और $$d$$.

होने देना $$w$$ जिस नोड को निरूपित करें $$c$$ और $$d$$ अब जुड़े हुए हैं. शाखाएँ जुड़ रही हैं $$c$$ और $$d$$ को $$w$$ फिर लंबाई है $$\delta(c,w)=\delta(d,w)=28/2=14$$ (#डेंड्रोग्राम1)
 * तीसरी शाखा की लंबाई का अनुमान

अद्यतन करने के लिए एक ही प्रविष्टि है: $$D_4((c,d),((a,b),e))=max(D_3(c,((a,b),e)), D_3(d,((a,b),e)))=max(39, 43)=43$$
 * 'तीसरी दूरी मैट्रिक्स अद्यतन'

अंतिम चरण
अंतिम $$D_4$$ मैट्रिक्स है:

इसलिए हम समूहों में शामिल होते हैं $$((a,b),e)$$ और $$(c,d)$$.

होने देना $$r$$ (रूट) नोड को निरूपित करें $$((a,b),e)$$ और $$(c,d)$$ अब जुड़े हुए हैं. शाखाएँ जुड़ रही हैं $$((a,b),e)$$ और $$(c,d)$$ को $$r$$ फिर लंबाई है:

$$\delta(((a,b),e),r)=\delta((c,d),r)=43/2=21.5$$ हम शेष दो शाखाओं की लंबाई निकालते हैं:

$$\delta(v,r)=\delta(((a,b),e),r)-\delta(e,v)=21.5-11.5=10$$

$$\delta(w,r)=\delta((c,d),r)-\delta(c,w)=21.5-14=7.5$$

पूर्ण-सहलग्न डेंड्रोग्राम
डेंड्रोग्राम अब पूरा हो गया है। यह अल्ट्रामेट्रिक है क्योंकि सभी युक्तियाँ ($$a$$ को $$e$$) से समान दूरी पर हैं $$r$$ :

$$\delta(a,r)=\delta(b,r)=\delta(e,r)=\delta(c,r)=\delta(d,r)=21.5$$ इसलिए डेंड्रोग्राम को जड़ दिया जाता है $$r$$, इसका सबसे गहरा नोड।

अन्य संबंधों के साथ तुलना
वैकल्पिक सहलग्न योजनाओं में एकल सहलग्न गुच्छन और यूपीजीएमए गुच्छन शामिल हैं - सरल एल्गोरिदम में एक अलग सहलग्न लागू करना निकटता मैट्रिक्स की प्रारंभिक गणना और उपरोक्त एल्गोरिदम के चरण 4 में अंतर-क्लस्टर दूरी की गणना करने के लिए एक अलग सूत्र का उपयोग करने का मामला है।. हालाँकि, मनमाने ढंग से सहलग्न के लिए एक इष्टतम कुशल एल्गोरिदम उपलब्ध नहीं है। जिस सूत्र को समायोजित किया जाना चाहिए उसे बोल्ड टेक्स्ट का उपयोग करके हाइलाइट किया गया है।

पूर्ण सहलग्न गुच्छन वैकल्पिक सिंगल सहलग्न गुच्छन विधि की कमी से बचाती है - तथाकथित चेनिंग घटना, जहां सिंगल सहलग्न गुच्छन के माध्यम से बने क्लस्टर को एकल तत्वों के एक-दूसरे के करीब होने के कारण एक साथ मजबूर किया जा सकता है, भले ही प्रत्येक में कई तत्व हों क्लस्टर एक दूसरे से बहुत दूर हो सकते हैं। पूर्ण सहलग्न से लगभग समान व्यास के कॉम्पैक्ट क्लस्टर मिलते हैं।

यह भी देखें

 * क्लस्टर विश्लेषण
 * पदानुक्रमित गुच्छन
 * आणविक घड़ी
 * पड़ोसी-जुड़ना
 * सिंगल-सहलग्न गुच्छन
 * यूपीजीएमए
 * डब्ल्यूपीजीएमए