वैचारिक क्लस्टरिंग

वैचारिक क्लस्टरिंग अप्रशिक्षित वर्गीकरण के लिए यंत्र अधिगम प्रतिमान है जिसे 1980 में रिस्ज़र्ड एस. माइकल्स्की द्वारा परिभाषित किया गया है (फिशर 1987, माइकल्स्की 1980) और मुख्य रूप से 1980 के दशक के समय विकसित किया गया था। प्रत्येक उत्पन्न वर्ग के लिए अवधारणा विवरण तैयार करके इसे सामान्य क्लस्टर विश्लेषण से भिन्न किया जाता है। तथा अधिकांश वैचारिक क्लस्टरिंग विधियां पदानुक्रमित श्रेणी संरचनाएं उत्पन्न करने में सक्षम हैं; जहाँ पदानुक्रम पर अधिक जानकारी के लिए वर्गीकरण देखें। वैचारिक क्लस्टरिंग औपचारिक अवधारणा विश्लेषण, निर्णय ट्री सीखने और मिश्रण मॉडल सीखने से निकटता से संबंधित है।

वैचारिक क्लस्टरिंग बनाम डेटा क्लस्टरिंग
वैचारिक क्लस्टरिंग स्पष्ट रूप से डेटा क्लस्टरिंग से निकटता से संबंधित है; चूँकि, वैचारिक क्लस्टरिंग में यह न केवल डेटा की अंतर्निहित संरचना है जो क्लस्टर गठन को संचालित करती है, किंतु विशिष्टता और विवरण भाषा भी है जो सीखने वाले के लिए उपलब्ध है। इस प्रकार, यदि प्रचलित अवधारणा विवरण भाषा उस विशेष नियमितता का वर्णन करने में असमर्थ है, तब डेटा में सांख्यिकीय रूप से शक्तिशाली समूहीकरण शिक्षार्थी द्वारा निकालने में विफल हो सकता है। अधिकांश कार्यान्वयनों में, विवरण भाषा फीचर तार्किक संयोजन तक सीमित है, चूंकि कोबवेब में (उदाहरण देखें: मूलभूत वैचारिक क्लस्टरिंग एल्गोरिदम, कोबवेब नीचे), फीचर भाषा संभाव्य है।

प्रकाशित एल्गोरिदम की सूची
वैचारिक क्लस्टरिंग के लिए उचित संख्या में एल्गोरिदम प्रस्तावित किए गए हैं। कुछ उदाहरण नीचे दिये गये हैं:


 * क्लस्टर/2 (माइकल्स्की और स्टेप 1983)
 * कोबवेब (क्लस्टरिंग) (फिशर 1987)
 * साइरस (कोलोडनर 1983)
 * गैलोइस (कारपिनेटो और रोमानो 1993),
 * जीसीएफ (तलावेरा और बेज़ार 2001)
 * आईएनसी (हडज़िकाडिक और यूं 1989)
 * पुनरावृत्त (बिस्वास, वेनबर्ग और फिशर 1998),
 * भूलभुलैया (थॉम्पसन और लैंगली 1989)
 * सबड्यू (जोनीर, कुक और होल्डर 2001)।
 * यूनिमेम (लेबोविट्ज़ 1987)
 * विट (हैनसन और बाउर 1989),

वैचारिक क्लस्टरिंग की अधिक सामान्य चर्चाएँ और समीक्षाएँ निम्नलिखित प्रकाशनों में पाई जा सकती हैं:


 * माइकल्स्की (1980)
 * गेनारी, लैंगली, और फिशर (1989)
 * फिशर एंड पज़ानी (1991)
 * फिशर एंड लैंगली (1986)
 * स्टेप और माइकल्स्की (1986)

उदाहरण: मूलभूत वैचारिक क्लस्टरिंग एल्गोरिथ्म
यह खंड वैचारिक क्लस्टरिंग एल्गोरिदम कोबवेब की मूल बातों पर चर्चा करता है। विभिन्न अनुमानों और श्रेणी अच्छाई या श्रेणी मूल्यांकन मानदंडों का उपयोग करने वाले अनेक अन्य एल्गोरिदम हैं, किन्तु कोबवेब सबसे प्रसिद्ध में से है। पाठक को अन्य तरीकों के लिए या संदर्भों का संदर्भ दिया जाता है।

ज्ञान प्रतिनिधित्व
कोबवेब डेटा संरचना पदानुक्रम (ट्री) है जिसमें प्रत्येक नोड दी गई अवधारणा का प्रतिनिधित्व करता है। प्रत्येक अवधारणा वस्तुओं के समूह (वास्तव में, मल्टीसेट या बैग) का प्रतिनिधित्व करती है, प्रत्येक वस्तु को बाइनरी-मूल्यवान संपत्ति सूची के रूप में दर्शाया जाता है। प्रत्येक ट्री नोड (अर्थात, अवधारणा) से जुड़ा डेटा उस अवधारणा में वस्तुओं के लिए पूर्णांक संपत्ति की गणना करना है। उदाहरण के लिए, (चित्र देखें), मान ली जिए की अवधारणा $$C_1$$ में निम्नलिखित चार वस्तुएं सम्मिलित हैं (दोहराई जाने वाली वस्तुओं की अनुमति है)। उदाहरण के लिए, ये तीन गुण हो सकते हैं, फिर इस अवधारणा नोड पर जो संग्रहीत किया जाता है वह संपत्ति गणना   है, यह दर्शाता है कि अवधारणा में 1 वस्तु पुरुष है, 3 वस्तुओं के पंख हैं, और 3 वस्तुएँ नोक्टरनल हैं। अवधारणा विवरण नोड पर गुणों की श्रेणी-नियमबद्ध संभाव्यता (संभावना) है। इस प्रकार, यह देखते हुए कि वस्तु श्रेणी (अवधारणा) $$C_1$$ का सदस्य है ,तथा उसके पुरुष होने की संभावना $$1/4 = 0.25$$ है।. इइसी तरह, वस्तु के पंख होने की संभावना और वस्तु के नोक्टरनल या दोनों होने की संभावना $$ 3/4 = 0.75$$ है। इसलिए अवधारणा विवरण को केवल  के रूप में दिया जा सकता है, जो $$C_1$$-नियमबद्ध सुविधा संभावना मेल खाता है, अर्थात, $$p(x|C_1) = (0.25, 0.75, 0.75)$$ होता है|

दाईं ओर का चित्र पाँच अवधारणाओं वाला अवधारणा ट्री दिखाता है। $$C_0$$ मूल अवधारणा है, जिसमें डेटा समूह में सभी दस ऑब्जेक्ट सम्मिलित हैं। अवधारणायें $$C_1$$ और $$C_2$$, $$C_0$$के बच्चे हैं पहले में चार वस्तुएँ हैं, और पश्चात् में छह वस्तुएँ हैं। अवधारणा $$C_2$$ अवधारणाओं $$C_3$$, $$C_4$$, और $$C_5$$, का जनक भी है जिसमें क्रमशः तीन, दो और वस्तु सम्मिलित  है। ध्यान दें कि प्रत्येक मूल नोड (सापेक्ष अधीनस्थ अवधारणा) में उसके चाइल्ड नोड्स (सापेक्ष अधीनस्थ अवधारणा) में निहित सभी वस्तुएं सम्मिलित हैं। फिशर (1987) के कोबवेब के विवरण में, वह इंगित करता है कि नोड्स पर केवल कुल विशेषता गणना (नियमबद्ध संभावनाएं नहीं, और ऑब्जेक्ट सूचियां नहीं) संग्रहीत की जाती हैं। किसी भी संभावना की गणना आवश्यकतानुसार विशेषता गणना से की जाती है।

कोबवेब भाषा
कोबवेब की विवरण भाषा केवल ढीले अर्थों में भाषा है, क्योंकि पूर्णतः संभाव्य होने के कारण यह किसी भी अवधारणा का वर्णन करने में सक्षम है। चूँकि, यदि संभाव्यता सीमाओं पर बाधाएँ रखी जाती हैं जो अवधारणाएँ प्रतिनिधित्व कर सकती हैं, तब शक्तिशाली भाषा प्राप्त होती है। उदाहरण के लिए, हम केवल उन अवधारणाओं की अनुमति दे सकते हैं जिनमें कम से कम संभावना 0.5 से $$\alpha$$ अधिक तथा भिन्न हो. इस रुकावट के अनुसार $$\alpha=0.3$$ के साथ, शिक्षार्थी द्वारा अवधारणा जैसे का निर्माण नहीं किया जा सका; चूँकि अवधारणा जैसे   पहुंच योग्य होगी इसी लिए इन अवधारणाओ का उपयोग किया जाता है क्योंकि कम से कम संभावना 0.5 से $$\alpha$$ अधिक भिन्न होती है. इस प्रकार, इस तरह की रुकावटों के अनुसार, हम पारंपरिक अवधारणा की भाषा की तरह कुछ प्राप्त करते हैं। सीमित स्तिथियों में जहां $$\alpha=0.5$$ प्रत्येक विशेषता के लिए, और इस प्रकार अवधारणा में प्रत्येक संभावना 0 या 1 होनी चाहिए | इस परिणाम संयोजन पर आधारित फीचर भाषा है; अर्थात्, प्रत्येक अवधारणा जिसे प्रस्तुत किया जा सकता है, उसे विशेषताओं (और उनके निषेध) के संयोजन के रूप में वर्णित किया जा सकता है, और जिन अवधारणाओं को इस तरह से वर्णित नहीं किया जा सकता है, उन्हें प्रस्तुत नहीं किया जा सकता है।

मूल्यांकन मानदंड
फिशर (1987) के कोबवेब के विवरण में, पदानुक्रम की गुणवत्ता का मूल्यांकन करने के लिए वह जिस माप का उपयोग करता है वह ग्लुक और कॉर्टर (1985) श्रेणी उपयोगिता (सीयू) माप है, जिसे वह अपने पेपर में फिर से प्राप्त करता है। माप की प्रेरणा निर्णय ट्री सीखने के लिए क्विनलान द्वारा प्रारंभ की गई सूचना लाभ माप के समान है। यह पहले दिखाया गया है कि फीचर-आधारित वर्गीकरण के लिए सीयू फीचर वेरिएबल और क्लास वेरिएबल (ग्लक एंड कॉर्टर, 1985; कॉर्टर एंड ग्लक, 1992) के बीच पारस्परिक जानकारी के समान है, और चूंकि यह माप बहुत उत्तम ज्ञात है, हम यहां श्रेणी की अच्छाई के माप के रूप में पारस्परिक जानकारी के साथ आगे बढ़ते हैं।

हम जो मूल्यांकन करना चाहते हैं वह वस्तुओं को विशेष श्रेणीबद्ध वर्गीकरण संरचना में समूहीकृत करने की समग्र उपयोगिता है। तथा संभावित वर्गीकरण संरचनाओं के समूह को देखते हुए, हमें यह निर्धारित करने की आवश्यकता है कि क्या कोई दूसरे से उत्तम है।

संदर्भ




























बाहरी संबंध

 * Bibliography of conceptual clustering
 * Working python implementation of कोबवेब