क्लस्टर-वेटेड मॉडलिंग

डेटा खनन में, क्लस्टर-वेटेड मॉडलिंग (सीडब्ल्यूएम) मॉडल (क्लस्टर) के एक सेट का उपयोग करके घनत्व अनुमान के आधार पर इनपुट (आश्रित और स्वतंत्र चर) से आउटपुट (आश्रित और स्वतंत्र चर) की गैर-रेखीय भविष्यवाणी के लिए एक एल्गोरिदम-आधारित दृष्टिकोण है। इनमें से प्रत्येक इनपुट स्पेस के उप-क्षेत्र में काल्पनिक रूप से उपयुक्त हैं। समग्र दृष्टिकोण संयुक्त रूप से इनपुट-आउटपुट स्पेस में काम करता है और एक प्रारंभिक संस्करण नील गेर्शेनफेल्ड द्वारा प्रस्तावित किया गया था।

मॉडल का मूल रूप
इनपुट-आउटपुट समस्या के क्लस्टर-भारित मॉडलिंग की प्रक्रिया को निम्नानुसार रेखांकित किया जा सकता है। इनपुट वेरिएबल x से आउटपुट वेरिएबल y के लिए अनुमानित मान बनाने के लिए, मॉडलिंग और अंशांकन प्रक्रिया एक संयुक्त संभाव्यता वितरण, पी (वाई, एक्स) पर आती है। यहां चर एक-चर, बहुभिन्नरूपी या समय-श्रृंखला हो सकते हैं। सुविधा के लिए, किसी भी मॉडल पैरामीटर को यहां नोटेशन में इंगित नहीं किया गया है और इनके कई अलग-अलग उपचार संभव हैं, जिसमें अंशांकन में एक कदम के रूप में उन्हें निश्चित मानों पर सेट करना या बायेसियन विश्लेषण का उपयोग करके उनका इलाज करना शामिल है। आवश्यक पूर्वानुमानित मान सशर्त संभाव्यता वितरण p(y|x) का निर्माण करके प्राप्त किए जाते हैं, जिससे सशर्त अपेक्षित मूल्य का उपयोग करके भविष्यवाणी प्राप्त की जा सकती है, सशर्त भिन्नता अनिश्चितता का संकेत प्रदान करती है।

मॉडलिंग का महत्वपूर्ण चरण यह है कि p(y|x) को मिश्रण मॉडल के रूप में निम्नलिखित रूप माना जाता है:
 * $$p(y,x)=\sum_1^n w_jp_j(y,x), $$

जहां n समूहों की संख्या है और {wj} वे वज़न हैं जिनका योग एक होता है। कार्य पीj(y,x) संयुक्त संभाव्यता घनत्व फ़ंक्शन हैं जो प्रत्येक n क्लस्टर से संबंधित हैं। इन कार्यों को एक सशर्त और सीमांत वितरण में अपघटन का उपयोग करके तैयार किया गया है:
 * $$p_j(y,x)=p_j(y|x)p_j(x), $$

कहाँ:
 * पीj(y|x) x दिए गए y की भविष्यवाणी करने के लिए एक मॉडल है, और यह देखते हुए कि इनपुट-आउटपुट जोड़ी को x के मान के आधार पर क्लस्टर j के साथ जोड़ा जाना चाहिए। यह मॉडल सरलतम मामलों में एक प्रतिगमन विश्लेषण हो सकता है।


 * पीj(x) औपचारिक रूप से x के मानों के लिए एक घनत्व है, यह देखते हुए कि इनपुट-आउटपुट जोड़ी को क्लस्टर j के साथ जोड़ा जाना चाहिए। समूहों के बीच इन कार्यों के सापेक्ष आकार यह निर्धारित करते हैं कि x का कोई विशेष मान किसी दिए गए क्लस्टर-केंद्र से जुड़ा है या नहीं। यह घनत्व क्लस्टर-केंद्र का प्रतिनिधित्व करने वाले पैरामीटर पर केंद्रित एक गाऊसी फ़ंक्शन हो सकता है।

प्रतिगमन विश्लेषण के समान ही, समग्र मॉडलिंग रणनीति के हिस्से के रूप में प्रारंभिक डेटा परिवर्तनों पर विचार करना महत्वपूर्ण होगा यदि मॉडल के मुख्य घटक क्लस्टर-वार स्थिति घनत्व के लिए सरल प्रतिगमन मॉडल और सामान्य वितरण हैं क्लस्टर-भार घनत्व पीj(एक्स)।

सामान्य संस्करण
मूल सीडब्लूएम एल्गोरिदम प्रत्येक इनपुट क्लस्टर के लिए एक एकल आउटपुट क्लस्टर देता है। हालाँकि, CWM को कई क्लस्टरों तक बढ़ाया जा सकता है जो अभी भी एक ही इनपुट क्लस्टर से जुड़े हुए हैं। सीडब्लूएम में प्रत्येक क्लस्टर गॉसियन इनपुट क्षेत्र में स्थानीयकृत है, और इसमें अपना स्वयं का प्रशिक्षित स्थानीय मॉडल शामिल है। इसे एक बहुमुखी अनुमान एल्गोरिदम के रूप में मान्यता प्राप्त है जो सरलता, व्यापकता और लचीलापन प्रदान करता है; यहां तक ​​कि जब फीडफॉरवर्ड स्तरित नेटवर्क को प्राथमिकता दी जा सकती है, तब भी इसे कभी-कभी प्रशिक्षण समस्या की प्रकृति पर दूसरी राय के रूप में उपयोग किया जाता है।

गेर्शेनफेल्ड द्वारा प्रस्तावित मूल रूप दो नवाचारों का वर्णन करता है: सीडब्लूएम का उपयोग प्रिंटर अनुप्रयोगों में मीडिया को वर्गीकृत करने के लिए किया जा सकता है, जिसमें आउटपुट उत्पन्न करने के लिए कम से कम दो पैरामीटर का उपयोग किया जाता है जिसमें इनपुट पैरामीटर पर संयुक्त निर्भरता होती है।
 * सीडब्ल्यूएम को डेटा की निरंतर स्ट्रीम के साथ काम करने में सक्षम बनाना
 * सीडब्लूएम पैरामीटर समायोजन प्रक्रिया में आने वाली स्थानीय मिनिमा की समस्या का समाधान