कैनोपी क्लस्टरिंग एल्गोरिदम

कैनोपी क्लस्टरिंग एल्गोरिदम 2000 में एंड्रयू मैक्कलम, कमल निगम और लाइल अनगर द्वारा पेश किया गया एक अप्रशिक्षित प्री-डेटा क्लस्टरिंग एल्गोरिदम है। इसे अक्सर K-मतलब एल्गोरिदम या पदानुक्रमित क्लस्टरिंग एल्गोरिथम के लिए प्रीप्रोसेसिंग चरण के रूप में उपयोग किया जाता है। इसका उद्देश्य बड़े डेटा सेट पर कंप्यूटर क्लस्टर संचालन को तेज़ करना है, जहां डेटा सेट के आकार के कारण सीधे किसी अन्य एल्गोरिदम का उपयोग करना अव्यावहारिक हो सकता है।

विवरण
एल्गोरिथ्म दो थ्रेसहोल्ड का उपयोग करते हुए निम्नानुसार आगे बढ़ता है $$T_1$$ (ढीली दूरी) और $$T_2$$ (तंग दूरी), कहाँ $$T_1 > T_2$$.
 * 1) क्लस्टर किए जाने वाले डेटा बिंदुओं के सेट से शुरुआत करें।
 * 2) सेट से एक बिंदु हटाएं, इस बिंदु वाले एक नए 'कैनोपी' की शुरुआत करें।
 * 3) सेट में बचे प्रत्येक बिंदु के लिए, इसे नए कैनोपी को निर्दिष्ट करें यदि कैनोपी के पहले बिंदु से इसकी दूरी ढीली दूरी से कम है $$T_1$$.
 * 4) यदि बिंदु की दूरी अतिरिक्त रूप से तंग दूरी से कम है $$T_2$$, इसे मूल सेट से हटा दें।
 * 5) चरण 2 से तब तक दोहराएं जब तक कि क्लस्टर में सेट में कोई और डेटा बिंदु न रह जाए।
 * 6) अपेक्षाकृत सस्ते में क्लस्टर किए गए इन कैनोपियों को अधिक महंगे लेकिन सटीक एल्गोरिदम का उपयोग करके उप-क्लस्टर किया जा सकता है।

एक महत्वपूर्ण नोट यह है कि व्यक्तिगत डेटा बिंदु कई कैनोपी का हिस्सा हो सकते हैं। अतिरिक्त गति-अप के रूप में, 3 के लिए एक अनुमानित और तेज़ दूरी मीट्रिक का उपयोग किया जा सकता है, जहां चरण 4 के लिए अधिक सटीक और धीमी दूरी मीट्रिक का उपयोग किया जा सकता है।

प्रयोज्यता
चूँकि एल्गोरिथ्म दूरी कार्यों का उपयोग करता है और दूरी सीमा के विनिर्देशन की आवश्यकता होती है, उच्च-आयामी डेटा के लिए इसकी प्रयोज्यता आयामीता के अभिशाप द्वारा सीमित है। केवल जब एक सस्ता और अनुमानित - निम्न-आयामी - दूरी फ़ंक्शन उपलब्ध होता है, तो उत्पादित कैनोपी के-साधनों द्वारा उत्पादित समूहों को संरक्षित करेगी।

इसके लाभों में शामिल हैं:
 * प्रत्येक चरण में तुलना किए जाने वाले प्रशिक्षण डेटा के उदाहरणों की संख्या कम हो गई है।
 * कुछ सबूत हैं कि परिणामी समूहों में सुधार हुआ है।