फजी क्लस्टरिंग

अस्पष्ट क्लस्टरिंग (जिसे मृदु क्लस्टरिंग या मृदु k-मीन्स भी कहा जाता है) क्लस्टरिंग का एक रूप है जिसमें प्रत्येक डेटा बिंदु एक से अधिक क्लस्टर से संबंधित हो सकता है।

क्लस्टरिंग या क्लस्टर विश्लेषण में क्लस्टर को डेटा बिंदु निर्दिष्ट करना सम्मिलित है ताकि एक ही क्लस्टर में वस्तु यथासंभव समान हों, जबकि विभिन्न क्लस्टर से संबंधित वस्तु यथासंभव भिन्न हों। समानता उपायों के माध्यम से समूहों की पहचान की जाती है। इन समानता उपायों में दूरी, संबद्धता और तीव्रता सम्मिलित हैं। डेटा या अनुप्रयोग के आधार पर विभिन्न समानता उपाय चुने जा सकते हैं।

ठोस क्लस्टरिंग से तुलना
गैर-अस्पष्ट क्लस्टरिंग (जिसे ठोस क्लस्टरिंग के रूप में भी जाना जाता है) में, डेटा को अलग-अलग क्लस्टर में विभाजित किया जाता है, जहां प्रत्येक डेटा बिंदु केवल एक क्लस्टर से संबंधित हो सकता है। अस्पष्ट क्लस्टरिंग में, डेटा बिंदु संभावित रूप से एकाधिक क्लस्टर से संबंधित हो सकते हैं। उदाहरण के लिए, सेब लाल या हरा (कठोर क्लस्टरिंग) हो सकता है, लेकिन सेब लाल और हरा (अस्पष्ट क्लस्टरिंग) भी हो सकता है। यहां, सेब कुछ हद तक लाल और कुछ हद तक हरा भी हो सकता है। सेब हरे [हरा = 1] और लाल नहीं [लाल = 0] के स्थान पर, सेब हरे [हरा = 0.5] और लाल [लाल = 0.5] से संबंधित हो सकता है। ये मान 0 और 1 के बीच सामान्यीकृत होते हैं हालाँकि, वे संभावनाओं का प्रतिनिधित्व नहीं करते हैं, इसलिए दोनों मानों को 1 तक जोड़ने की आवश्यकता नहीं है।

सदस्यता
प्रत्येक डेटा बिंदु (टैग) को सदस्यता ग्रेड निर्दिष्ट किए गए हैं। ये सदस्यता ग्रेड उस डिग्री को दर्शाते हैं जिस तक डेटा बिंदु प्रत्येक क्लस्टर से संबंधित हैं। इस प्रकार, क्लस्टर के किनारे पर स्थित बिंदु, कम सदस्यता ग्रेड के साथ, क्लस्टर के केंद्र में बिंदुओं की तुलना में निम्न डिग्री क्लस्टर में हो सकते हैं।

अस्पष्ट सी (C)-मीन्स क्लस्टरिंग
सबसे व्यापक रूप से उपयोग की जाने वाली अस्पष्ट क्लस्टरिंग एल्गोरिदम में से एक अस्पष्ट सी-मीन्स क्लस्टरिंग (एफसीएम) एल्गोरिदम है।

इतिहास
अस्पष्ट सी-मीन्स (एफसीएम) क्लस्टरिंग को जे.सी. डन द्वारा 1973 में विकसित किया गया था, और 1981 में जे.सी. बेजडेक द्वारा इसमें सुधार किया गया था।

सामान्य विवरण
अस्पष्ट सी-मीन्स एल्गोरिथम, के-मीन्स एल्गोरिथम के बहुत समान है-
 * अनेक क्लस्टर चुनें।
 * क्लस्टर में रहने के लिए प्रत्येक डेटा बिंदु पर यादृच्छिक रूप से गुणांक निर्दिष्ट करें।
 * तब तक दोहराएँ जब तक एल्गोरिथ्म अभिसरण न हो जाए (अर्थात, दो पुनरावृत्तियों के बीच गुणांक का परिवर्तन दी गई संवेदनशीलता सीमा $$\varepsilon$$ से अधिक नहीं है)-
 * प्रत्येक क्लस्टर के लिए केन्द्रक की गणना करें (नीचे दिखाया गया है)।
 * प्रत्येक डेटा बिंदु के लिए, क्लस्टर में होने के गुणांक की गणना करें।

केन्द्रक
किसी भी बिंदु x में गुणांकों का समुच्चय होता है जो kth क्लस्टर wk(x) में होने की डिग्री देता है। अस्पष्ट सी-मीन्स के साथ, क्लस्टर का केन्द्रक सभी बिंदुओं का माध्य होता है, जिसे क्लस्टर से संबंधित उनकी डिग्री के आधार पर, या, गणितीय रूप से भारित किया जाता है,

$$ c_k = {{\sum_x {w_k(x)} ^ {m} x} \over {\sum_x {w_k(x)} ^ {m}}},$$

जहां m हाइपर-पैरामीटर है जो नियंत्रित करता है कि क्लस्टर कितना अस्पष्ट होगा। यह जितना अधिक होगा, अंत में क्लस्टर उतना ही अधिक अस्पष्ट होगा।

एल्गोरिथम
एफसीएम (FCM) एल्गोरिदम कुछ दिए गए मानदंडों के संबंध में $$n$$ तत्वों $$X = \{ \mathbf{x}_1,. . ., \mathbf{x}_n \}$$ के सीमित संग्रह को c अस्पष्ट क्लस्टर के संग्रह में विभाजित करने का प्रयास करता है।

डेटा के सीमित सेट को देखते हुए, एल्गोरिदम $$c$$ क्लस्टर केंद्रों $$C = \{ \mathbf{c}_1,. . ., \mathbf{c}_c \}$$ और विभाजन मैट्रिक्स $$W = w_{i,j} \in[0, 1],\; i = 1,. . ., n,\; j = 1,. . ., c$$ की सूची देता है जहां प्रत्येक तत्व, $$w_{ij}$$, डिग्री को बताता है कि कौन सा तत्व, $$\mathbf{x}_i$$, क्लस्टर $$\mathbf{c}_j$$ से संबंधित है।

एफसीएम का उद्देश्य वस्तुनिष्ठ कार्य को न्यूनतम करना है-


 * $$J(W,C) = \sum_{i=1}^{n} \sum_{j=1}^{c} w_{ij}^m \left\|\mathbf{x}_i - \mathbf{c}_j \right\|^2$$,

जहाँ-


 * $$w_{ij} = \frac{1}{\sum_{k=1}^{c} \left(\frac{\left\|\mathbf{x}_i - \mathbf{c}_j \right\|}{\left\|\mathbf{x}_i - \mathbf{c}_k \right\|}\right)^{\frac{2}{m-1}}}$$.

के (K)-मीन्स क्लस्टरिंग से तुलना
के-मीन्स क्लस्टरिंग भी ऊपर दिखाए गए उद्देश्य फ़ंक्शन को कम करने का प्रयास करती है, सिवाय इसके कि के-मीन्स में, सदस्यता मान या तो शून्य या एक होते हैं, और बीच में मान नहीं ले सकते हैं, अर्थात $$ w_{ij} \in \{0,1\} $$। अस्पष्ट सी-मीन्स में, अस्पष्टता की डिग्री को $$ m \in (1, \infty )$$ द्वारा पैरामीट्रिज़ किया जाता है, जहाँ बड़े $$ m $$ के परिणामस्वरूप अस्पष्ट क्लस्टर बनते हैं। सीमा $$ m \rightarrow 1$$ में, सदस्यताएँ, $$ w_{ij}$$, 0 या 1 में परिवर्तित हो जाती हैं, और अस्पष्ट सी-मीन्स उद्देश्य के-मीन्स के साथ मेल खाता है। प्रयोग या डोमेन ज्ञान के अभाव में, $$ m $$ को प्रायः 2 पर सेट किया जाता है। एल्गोरिदम अंतः-क्लस्टर विचरण को भी कम करता है, लेकिन इसमें 'के'-मीन्स जैसी ही समस्याएं हैं न्यूनतम स्थानीय न्यूनतम है, और परिणाम वज़न के प्रारंभिक चयन पर निर्भर करते हैं।

कार्यान्वयन
इस एल्गोरिथम के कई कार्यान्वयन हैं जो सार्वजनिक रूप से उपलब्ध हैं।

संबंधित एल्गोरिदम
क्लस्टरों की संख्या के लिए स्वचालित रूप से निर्धारित अस्पष्ट सी-मीन्स (एफसीएम) पहचान सटीकता को बढ़ा सकता है। अपेक्षा-अधिकतमकरण एल्गोरिदम के साथ गॉसियन के मिश्रण का उपयोग करना अधिक सांख्यिकीय रूप से औपचारिक विधि है जिसमें इनमें से कुछ विचार सम्मिलित हैं- कक्षाओं में आंशिक सदस्यता।

उदाहरण
इस सिद्धांत को बेहतर ढंग से समझने के लिए, x अक्ष पर एक-आयामी डेटा का उत्कृष्ट उदाहरण नीचे दिया गया है। इस डेटा सेट को परंपरागत रूप से दो समूहों में समूहीकृत किया जा सकता है। x-अक्ष पर सीमा का चयन करके, डेटा को दो समूहों में विभाजित किया जाता है। परिणामी समूहों को 'A' और 'B' लेबल किया गया है, जैसा कि निम्नलिखित चित्र में देखा गया है। इसलिए डेटा सेट से संबंधित प्रत्येक बिंदु का सदस्यता गुणांक 1 या 0 होगा। प्रत्येक संगत डेटा बिंदु का यह सदस्यता गुणांक y-अक्ष के समावेशन द्वारा दर्शाया गया है। अस्पष्ट क्लस्टरिंग में, प्रत्येक डेटा बिंदु में एकाधिक क्लस्टर की सदस्यता हो सकती है। सदस्यता गुणांकों की परिभाषा को दृढ़ता से 1 या 0 से शिथिल करके, ये मान 1 से 0 तक किसी भी मान तक हो सकते हैं। निम्नलिखित चित्र पिछले क्लस्टरिंग से डेटा सेट दिखाती है, लेकिन अब अस्पष्ट सी-मीन्स क्लस्टरिंग लागू की गई है। सबसे पहले, दो समूहों को परिभाषित करने वाला नया सीमा मान उत्पन्न किया जा सकता है। इसके बाद, प्रत्येक डेटा बिंदु के लिए नए सदस्यता गुणांक क्लस्टर केन्द्रक के साथ-साथ प्रत्येक क्लस्टर केन्द्रक से दूरी के आधार पर उत्पन्न होते हैं।

जैसा कि कोई देख सकता है, मध्य डेटा बिंदु क्लस्टर A और क्लस्टर B से संबंधित है। 0.3 का मान क्लस्टर A के लिए इस डेटा बिंदु का सदस्यता गुणांक है।

अनुप्रयोग
सतह विज्ञान, जीव विज्ञान, चिकित्सा, मनोविज्ञान, अर्थशास्त्र और कई अन्य विषयों में क्लस्टरिंग समस्याओं का अनुप्रयोग होता है।

जैव सूचना विज्ञान
जैव सूचना विज्ञान के क्षेत्र में, क्लस्टरिंग का उपयोग कई अनुप्रयोगों के लिए किया जाता है। एक उपयोग आरएनए (RNA)-अनुक्रमण डेटा या अन्य प्रौद्योगिकियों से जीन अभिव्यक्ति डेटा का विश्लेषण करने के लिए पैटर्न पहचान तकनीक के रूप में है। इस स्थिति में, समान अभिव्यक्ति पैटर्न वाले जीनों को एक ही क्लस्टर में समूहीकृत किया जाता है, और अलग-अलग क्लस्टर अभिव्यक्ति के अलग-अलग, अच्छी तरह से अलग किए गए पैटर्न प्रदर्शित करते हैं। क्लस्टरिंग का उपयोग जीन कार्य और नियमन में अंतर्दृष्टि प्रदान कर सकता है। क्योंकि अस्पष्ट क्लस्टरिंग जीन को एक से अधिक क्लस्टर से संबंधित होने की अनुमति देती है, यह उन जीनों की पहचान की अनुमति देती है जो सशर्त रूप से सह-विनियमित या सह-व्यक्त होते हैं। उदाहरण के लिए, एक जीन पर एक से अधिक प्रतिलेखन कारकों द्वारा कार्य किया जा सकता है, और एक जीन प्रोटीन को एन्कोड कर सकता है जिसमें एक से अधिक कार्य होते हैं। इस प्रकार, अस्पष्ट क्लस्टरिंग ठोस क्लस्टरिंग की तुलना में अधिक उपयुक्त है।

चित्र विश्लेषण
अस्पष्ट सी-मीन्स किसी चित्र में ऑब्जेक्ट्स को क्लस्टर करने में चित्र प्रसंस्करण के लिए एक बहुत ही महत्वपूर्ण उपकरण रहा है। 1970 के दशक में, गणितज्ञों ने ध्वनि के तहत क्लस्टरिंग की सटीकता में सुधार करने के लिए एफसीएम एल्गोरिदम में स्थानिक शब्द पेश किया था। इसके अलावा, एफसीएम एल्गोरिदम का उपयोग हू और ज़र्निक मोमेंट्स जैसी चित्र-आधारित सुविधाओं का उपयोग करके विभिन्न गतिविधियों के बीच अंतर करने के लिए किया गया है। वैकल्पिक रूप से, अस्पष्ट लॉजिक मॉडल को अस्पष्ट सेट पर वर्णित किया जा सकता है जो एचएसएल (HSL) रंग स्थान एचएसएल और एचएसवी (HSV) के तीन घटकों पर परिभाषित किया गया है सदस्यता कार्यों का उद्देश्य रंगों की पहचान के मानवीय अंतर्ज्ञान का पालन करते हुए रंगों का वर्णन करना है।

मार्केटिंग
मार्केटिंग में, ग्राहकों को उनकी ज़रूरतों, ब्रांड विकल्पों, साइको-ग्राफ़िक प्रोफ़ाइल या अन्य मार्केटिंग संबंधी विभाजनों के आधार पर अस्पष्ट समूहों में समूहीकृत किया जा सकता है।

चित्र प्रसंस्करण उदाहरण
के-मीन्स क्लस्टरिंग एल्गोरिदम का उपयोग करके चित्र विभाजन का उपयोग पैटर्न पहचान, ऑब्जेक्ट पहचान और मेडिकल प्रतिबिंबन के लिए लंबे समय से किया जाता है। हालाँकि, वास्तविक दुनिया की सीमाओं जैसे कि ध्वनि, छाया और कैमरों में भिन्नता के कारण, पारंपरिक ठोस क्लस्टरिंग प्रायः चित्र प्रसंस्करण कार्यों को विश्वसनीय रूप से करने में असमर्थ होती है जैसा कि ऊपर बताया गया है। इन कार्यों के प्रदर्शन में अस्पष्ट क्लस्टरिंग को अधिक लागू एल्गोरिदम के रूप में प्रस्तावित किया गया है। ग्रे स्केल चित्र दिया गया है जो मैटलैब में अस्पष्ट क्लस्टरिंग से गुज़रा है। मूल चित्र क्लस्टर चित्र के पास में दिखाई देती है। प्रत्येक पिक्सेल की सदस्यता की पहचान करने के लिए तीन अलग-अलग समूहों का दृश्य प्रतिनिधित्व देने के लिए रंगों का उपयोग किया जाता है। नीचे, एक चार्ट दिया गया है जो उनके संगत तीव्रता मानों के अस्पष्ट सदस्यता गुणांक को परिभाषित करता है।

उस अनुप्रयोग के आधार पर जिसके लिए अस्पष्ट क्लस्टरिंग गुणांक का उपयोग किया जाना है, विभिन्न प्री-प्रोसेसिंग तकनीकों को आरजीबी (RGB) चित्रों पर लागू किया जा सकता है। आरजीबी से एचसीएल (HCL) रूपांतरण सामान्य बात है।

यह भी देखें

 * एफएलएएमई (FLAME) क्लस्टरिंग
 * क्लस्टर विश्लेषण
 * अपेक्षा-अधिकतमकरण एल्गोरिथ्म (एक समान, लेकिन अधिक सांख्यिकीय रूप से औपचारिक विधि)