कैनोपी क्लस्टरिंग एल्गोरिदम

कैनोपी क्लस्टरिंग एल्गोरिथम 2000 में एंड्रयू मैक्कलम, कमल निगम और लाइल उनगर द्वारा प्रस्तुत किया गया एक अप्रशिक्षित प्री-क्लस्टरिंग एल्गोरिथम है। इसका उपयोग प्रायः K-मीन्स एल्गोरिदम या पदानुक्रमित क्लस्टरिंगग एल्गोरिदम के लिए प्रीप्रोसेसिंग चरण के रूप में किया जाता है। इसका उद्देश्य बड़े डेटा सेट पर कंप्यूटर क्लस्टर संचालन को गति देना है, जहां डेटा सेट के आकार के कारण सीधे किसी अन्य एल्गोरिदम का उपयोग करना अव्यावहारिक हो सकता है।

विवरण
एल्गोरिथ्म दो थ्रेसहोल्ड $$T_1$$ (लूस स्पेसिंग ) और $$T_2$$ (टाइट स्पेसिंग) का उपयोग करते हुए निम्नानुसार आगे बढ़ता है, जहां $$T_1 > T_2$$


 * 1) क्लस्टर किए जाने वाले डेटा बिंदुओं के सेट से आरंभ करें।
 * 2) सेट से एक बिंदु हटाएं, इस बिंदु वाले एक नए 'कैनोपी' आरंभ करें।
 * 3) सेट में बचे प्रत्येक बिंदु के लिए, इसे नए कैनोपी को निर्दिष्ट करें यदि कैनोपी के पहले बिंदु से इसकी स्पेसिंग लूस स्पेसिंग से कम है $$T_1$$.
 * 4) यदि बिंदु की स्पेसिंग अतिरिक्त रूप से टाइट स्पेसिंग से कम है $$T_2$$, इसे मूल सेट से हटा दें।
 * 5) चरण 2 से तब तक दोहराएं जब तक कि क्लस्टर में सेट में कोई और डेटा बिंदु न रह जाए।
 * 6) अपेक्षाकृत सस्ते में क्लस्टर किए गए इन कैनोपियों को अधिक बहुमूल्य लेकिन सटीक एल्गोरिदम का उपयोग करके उप-क्लस्टर किया जा सकता है।

एक महत्वपूर्ण नोट यह है कि व्यक्तिगत डेटा बिंदु कई कैनोपी का हिस्सा हो सकते हैं। अतिरिक्त गति-अप के रूप में, 3 के लिए एक अनुमानित और तेज़ स्पेसिंग मीट्रिक का उपयोग किया जा सकता है, जहां चरण 4 के लिए अधिक सटीक और धीमी स्पेसिंग मीट्रिक का उपयोग किया जा सकता है।

प्रयोज्यता
चूँकि एल्गोरिथ्म स्पेसिंग कार्यों का उपयोग करता है और स्पेसिंग सीमा के विनिर्देशन की आवश्यकता होती है, उच्च-आयामी डेटा के लिए इसकी प्रयोज्यता आयामीता के अभिशाप द्वारा सीमित है। केवल जब एक सस्ता और अनुमानित - निम्न-आयामी - स्पेसिंग फ़ंक्शन उपलब्ध होता है, तो उत्पादित कैनोपी के-साधनों द्वारा उत्पादित समूहों को संरक्षित करेगी।

इसके लाभों में सम्मिलित हैं:
 * प्रत्येक चरण में तुलना किए जाने वाले प्रशिक्षण डेटा के उदाहरणों की संख्या कम हो गई है।
 * कुछ साक्ष्य हैं कि परिणामी समूहों में सुधार हुआ है।