फजी क्लस्टरिंग

फ़ज़ी क्लस्टरिंग (जिसे सॉफ्ट क्लस्टरिंग या सॉफ्ट के-मीन्स भी कहा जाता है) क्लस्टरिंग का एक रूप है जिसमें प्रत्येक डेटा बिंदु एक से अधिक क्लस्टर से संबंधित हो सकता है।

[[क्लस्टर विश्लेषण]] या क्लस्टर विश्लेषण में क्लस्टर को डेटा पॉइंट निर्दिष्ट करना शामिल है ताकि एक ही क्लस्टर में आइटम यथासंभव समान हों, जबकि विभिन्न क्लस्टर से संबंधित आइटम यथासंभव भिन्न हों। समानता उपायों के माध्यम से समूहों की पहचान की जाती है। इन समानता उपायों में दूरी, कनेक्टिविटी और तीव्रता शामिल हैं। डेटा या एप्लिकेशन के आधार पर विभिन्न समानता उपाय चुने जा सकते हैं।

हार्ड क्लस्टरिंग से तुलना
गैर-फ़ज़ी क्लस्टरिंग (हार्ड क्लस्टरिंग के रूप में भी जाना जाता है) में, डेटा को अलग-अलग क्लस्टर में विभाजित किया जाता है, जहां प्रत्येक डेटा बिंदु केवल एक क्लस्टर से संबंधित हो सकता है। फ़ज़ी क्लस्टरिंग में, डेटा बिंदु संभावित रूप से एकाधिक क्लस्टर से संबंधित हो सकते हैं। उदाहरण के लिए, एक सेब लाल या हरा (हार्ड क्लस्टरिंग) हो सकता है, लेकिन एक सेब लाल और हरा (फजी क्लस्टरिंग) भी हो सकता है। यहां, सेब कुछ हद तक लाल भी हो सकता है और कुछ हद तक हरा भी। सेब हरे [हरा = 1] और लाल नहीं [लाल = 0] के बजाय, सेब हरे [हरा = 0.5] और लाल [लाल = 0.5] का हो सकता है। ये मान 0 और 1 के बीच सामान्यीकृत होते हैं; हालाँकि, वे संभावनाओं का प्रतिनिधित्व नहीं करते हैं, इसलिए दोनों मानों को 1 तक जोड़ने की आवश्यकता नहीं है।

सदस्यता
प्रत्येक डेटा बिंदु (टैग) को सदस्यता ग्रेड दिए गए हैं। ये सदस्यता ग्रेड उस डिग्री को दर्शाते हैं जिस तक डेटा बिंदु प्रत्येक क्लस्टर से संबंधित हैं। इस प्रकार, क्लस्टर के किनारे पर स्थित बिंदु, कम सदस्यता ग्रेड के साथ, क्लस्टर के केंद्र में बिंदुओं की तुलना में कुछ हद तक क्लस्टर में हो सकते हैं।

फ़ज़ी सी-मतलब क्लस्टरिंग
सबसे व्यापक रूप से उपयोग किए जाने वाले फ़ज़ी क्लस्टरिंग एल्गोरिदम में से एक फ़ज़ी सी-मीन्स क्लस्टरिंग (एफसीएम) एल्गोरिदम है।

इतिहास
फ़ज़ी सी-मीन्स (एफसीएम) क्लस्टरिंग को जे.सी. डन द्वारा 1973 में विकसित किया गया था, और 1981 में जे.सी. बेजडेक द्वारा इसमें सुधार किया गया।

सामान्य विवरण
फ़ज़ी सी-मीन्स एल्गोरिथम K-मीन्स क्लस्टरिंग|k-मीन्स एल्गोरिथम के बहुत समान है:
 * डेटा सेट में क्लस्टर की संख्या निर्धारित करना।
 * क्लस्टर में रहने के लिए प्रत्येक डेटा बिंदु पर यादृच्छिक रूप से गुणांक निर्दिष्ट करें।
 * तब तक दोहराएं जब तक कि एल्गोरिदम अभिसरण न हो जाए (अर्थात, दो पुनरावृत्तियों के बीच गुणांक का परिवर्तन इससे अधिक नहीं है)। $$\varepsilon$$, दी गई संवेदनशीलता सीमा) :
 * प्रत्येक क्लस्टर के लिए केन्द्रक की गणना करें (नीचे दिखाया गया है)।
 * प्रत्येक डेटा बिंदु के लिए, क्लस्टर में होने के उसके गुणांक की गणना करें।

केन्द्रक
किसी भी बिंदु x में गुणांकों का एक सेट होता है जो kth क्लस्टर w में होने की डिग्री देता हैk(एक्स)। फ़ज़ी सी-मीन्स के साथ, क्लस्टर का केन्द्रक सभी बिंदुओं का माध्य होता है, जो क्लस्टर से संबंधित उनकी डिग्री के आधार पर भारित होता है, या, गणितीय रूप से,

$$ c_k = {{\sum_x {w_k(x)} ^ {m} x} \over {\sum_x {w_k(x)} ^ {m}}},$$ जहां m हाइपर-पैरामीटर है जो नियंत्रित करता है कि क्लस्टर कितना अस्पष्ट होगा। यह जितना अधिक होगा, अंत में क्लस्टर उतना ही धुंधला होगा।

एल्गोरिथम
एफसीएम एल्गोरिदम एक सीमित संग्रह को विभाजित करने का प्रयास करता है $$n$$ तत्वों $$X = \{ \mathbf{x}_1,. . ., \mathbf{x}_n \}$$ किसी दिए गए मानदंड के संबंध में सी फ़ज़ी क्लस्टर के संग्रह में।

डेटा के एक सीमित सेट को देखते हुए, एल्गोरिदम एक सूची लौटाता है $$c$$ क्लस्टर केंद्र  $$C = \{ \mathbf{c}_1,. . ., \mathbf{c}_c \}$$ और एक विभाजन मैट्रिक्स

$$W = w_{i,j} \in[0, 1],\; i = 1,. . ., n,\; j = 1,. . ., c$$, जहां प्रत्येक तत्व, $$w_{ij}$$ , बताता है किस तत्व की डिग्री, $$\mathbf{x}_i$$, क्लस्टर से संबंधित है $$\mathbf{c}_j$$.

एफसीएम का लक्ष्य एक वस्तुनिष्ठ कार्य को न्यूनतम करना है:


 * $$J(W,C) = \sum_{i=1}^{n} \sum_{j=1}^{c} w_{ij}^m \left\|\mathbf{x}_i - \mathbf{c}_j \right\|^2$$,

कहाँ:


 * $$w_{ij} = \frac{1}{\sum_{k=1}^{c} \left(\frac{\left\|\mathbf{x}_i - \mathbf{c}_j \right\|}{\left\|\mathbf{x}_i - \mathbf{c}_k \right\|}\right)^{\frac{2}{m-1}}}$$.

K-मतलब क्लस्टरिंग से तुलना
के-मीन्स क्लस्टरिंग भी ऊपर दिखाए गए उद्देश्य फ़ंक्शन को कम करने का प्रयास करती है, सिवाय इसके कि के-मीन्स में, सदस्यता मान या तो शून्य या एक हैं, और बीच में मान नहीं ले सकते हैं, यानी। $$ w_{ij} \in \{0,1\} $$. फ़ज़ी सी-मीन्स में, फ़ज़ीनेस की डिग्री को पैरामीट्रिज़ किया जाता है $$ m \in (1, \infty )$$, जहां एक बड़ा $$ m $$ परिणाम स्वरूप धुंधले गुच्छे बनते हैं। सीमा में $$ m \rightarrow 1$$, सदस्यताएँ, $$ w_{ij}$$, 0 या 1 पर एकत्रित होता है, और फ़ज़ी सी-मीन्स उद्देश्य K-मीन्स के साथ मेल खाता है। प्रयोग या डोमेन ज्ञान के अभाव में, $$ m $$ आमतौर पर 2 पर सेट किया जाता है। एल्गोरिदम इंट्रा-क्लस्टर विचरण को भी कम करता है, लेकिन इसमें 'k'-मीन्स जैसी ही समस्याएं हैं; न्यूनतम एक स्थानीय न्यूनतम है, और परिणाम वज़न की प्रारंभिक पसंद पर निर्भर करते हैं।

कार्यान्वयन
इस एल्गोरिथम के कई कार्यान्वयन हैं जो सार्वजनिक रूप से उपलब्ध हैं।

संबंधित एल्गोरिदम
क्लस्टरों की संख्या के लिए स्वचालित रूप से निर्धारित फ़ज़ी सी-मीन्स (एफसीएम) पहचान सटीकता को बढ़ा सकता है। अपेक्षा-अधिकतमकरण एल्गोरिदम के साथ गॉसियन के मिश्रण का उपयोग करना एक अधिक सांख्यिकीय रूप से औपचारिक विधि है जिसमें इनमें से कुछ विचार शामिल हैं: कक्षाओं में आंशिक सदस्यता।

उदाहरण
इस सिद्धांत को बेहतर ढंग से समझने के लिए, एक्स अक्ष पर मोनो-आयामी डेटा का एक उत्कृष्ट उदाहरण नीचे दिया गया है। इस डेटा सेट को पारंपरिक रूप से दो समूहों में बांटा जा सकता है। एक्स-अक्ष पर एक सीमा का चयन करके, डेटा को दो समूहों में अलग किया जाता है। परिणामी समूहों को 'ए' और 'बी' लेबल किया गया है, जैसा कि निम्नलिखित छवि में देखा गया है। इसलिए डेटा सेट से संबंधित प्रत्येक बिंदु का सदस्यता गुणांक 1 या 0 होगा। प्रत्येक संबंधित डेटा बिंदु का यह सदस्यता गुणांक y-अक्ष के समावेशन द्वारा दर्शाया गया है। फ़ज़ी क्लस्टरिंग में, प्रत्येक डेटा बिंदु में कई क्लस्टर की सदस्यता हो सकती है। सदस्यता गुणांक की परिभाषा को कड़ाई से 1 या 0 से शिथिल करके, ये मान 1 से 0 तक किसी भी मान तक हो सकते हैं। निम्न छवि पिछले क्लस्टरिंग से डेटा सेट दिखाती है, लेकिन अब फ़ज़ी सी-मीन्स क्लस्टरिंग लागू की जाती है। सबसे पहले, दो समूहों को परिभाषित करने वाला एक नया थ्रेशोल्ड मान उत्पन्न किया जा सकता है। इसके बाद, प्रत्येक डेटा बिंदु के लिए नए सदस्यता गुणांक क्लस्टर सेंट्रोइड के साथ-साथ प्रत्येक क्लस्टर सेंट्रोइड से दूरी के आधार पर उत्पन्न होते हैं।

जैसा कि कोई देख सकता है, मध्य डेटा बिंदु क्लस्टर ए और क्लस्टर बी से संबंधित है। 0.3 का मान क्लस्टर ए के लिए इस डेटा बिंदु की सदस्यता गुणांक है।

अनुप्रयोग
क्लस्टरिंग समस्याओं का सतही विज्ञान, जीव विज्ञान, चिकित्सा, मनोविज्ञान, अर्थशास्त्र और कई अन्य विषयों में अनुप्रयोग होता है।

जैव सूचना विज्ञान
जैव सूचना विज्ञान के क्षेत्र में, क्लस्टरिंग का उपयोग कई अनुप्रयोगों के लिए किया जाता है। एक उपयोग आरएनए-अनुक्रमण डेटा या अन्य प्रौद्योगिकियों से जीन अभिव्यक्ति डेटा का विश्लेषण करने के लिए एक पैटर्न पहचान तकनीक के रूप में है। इस मामले में, समान अभिव्यक्ति पैटर्न वाले जीन को एक ही क्लस्टर में समूहीकृत किया जाता है, और विभिन्न क्लस्टर अभिव्यक्ति के अलग-अलग, अच्छी तरह से अलग किए गए पैटर्न प्रदर्शित करते हैं। क्लस्टरिंग का उपयोग जीन फ़ंक्शन और विनियमन में अंतर्दृष्टि प्रदान कर सकता है। चूँकि फ़ज़ी क्लस्टरिंग जीन को एक से अधिक क्लस्टर से संबंधित होने की अनुमति देती है, यह उन जीनों की पहचान की अनुमति देती है जो सशर्त रूप से सह-विनियमित या सह-व्यक्त होते हैं। उदाहरण के लिए, एक जीन पर एक से अधिक प्रतिलेखन कारक कार्य कर सकते हैं, और एक जीन एक प्रोटीन को एनकोड कर सकता है जिसमें एक से अधिक कार्य होते हैं। इस प्रकार, हार्ड क्लस्टरिंग की तुलना में फ़ज़ी क्लस्टरिंग अधिक उपयुक्त है।

छवि विश्लेषण
किसी छवि में वस्तुओं को क्लस्टर करने में छवि प्रसंस्करण के लिए फ़ज़ी सी-मीन्स एक बहुत ही महत्वपूर्ण उपकरण रहा है। 1970 के दशक में, गणितज्ञों ने शोर के तहत क्लस्टरिंग की सटीकता में सुधार करने के लिए एफसीएम एल्गोरिदम में स्थानिक शब्द पेश किया। इसके अलावा, एफसीएम एल्गोरिदम का उपयोग हू और ज़र्निक मोमेंट्स जैसी छवि-आधारित सुविधाओं का उपयोग करके विभिन्न गतिविधियों के बीच अंतर करने के लिए किया गया है। वैकल्पिक रूप से, एक फजी लॉजिक मॉडल को फजी सेट पर वर्णित किया जा सकता है जो एचएसएल कलर स्पेस एचएसएल और एचएसवी के तीन घटकों पर परिभाषित होते हैं; सदस्यता कार्यों का उद्देश्य रंगों की पहचान के मानवीय अंतर्ज्ञान का पालन करते हुए रंगों का वर्णन करना है।

मार्केटिंग
मार्केटिंग में, ग्राहकों को उनकी ज़रूरतों, ब्रांड विकल्पों, साइको-ग्राफ़िक प्रोफ़ाइल या अन्य मार्केटिंग संबंधी विभाजनों के आधार पर अस्पष्ट समूहों में समूहीकृत किया जा सकता है।

छवि प्रसंस्करण उदाहरण
k-मतलब क्लस्टरिंग एल्गोरिदम का उपयोग करके छवि विभाजन का उपयोग लंबे समय से पैटर्न पहचान, ऑब्जेक्ट डिटेक्शन और मेडिकल इमेजिंग के लिए किया जाता है। हालाँकि, शोर, छाया और कैमरों में भिन्नता जैसी वास्तविक दुनिया की सीमाओं के कारण, पारंपरिक हार्ड क्लस्टरिंग अक्सर छवि प्रसंस्करण कार्यों को विश्वसनीय रूप से करने में असमर्थ होती है जैसा कि ऊपर बताया गया है। इन कार्यों के प्रदर्शन में फ़ज़ी क्लस्टरिंग को अधिक लागू एल्गोरिदम के रूप में प्रस्तावित किया गया है। ग्रे स्केल छवि दी गई है जो मैटलैब में अस्पष्ट क्लस्टरिंग से गुज़री है। मूल छवि एक क्लस्टर छवि के बगल में दिखाई देती है। रंगों का उपयोग प्रत्येक पिक्सेल की सदस्यता की पहचान करने के लिए उपयोग किए जाने वाले तीन अलग-अलग समूहों का दृश्य प्रतिनिधित्व देने के लिए किया जाता है। नीचे, एक चार्ट दिया गया है जो उनके संबंधित तीव्रता मूल्यों के अस्पष्ट सदस्यता गुणांक को परिभाषित करता है।

उस एप्लिकेशन के आधार पर जिसके लिए फ़ज़ी क्लस्टरिंग गुणांक का उपयोग किया जाना है, आरजीबी रंग स्थान  छवियों पर विभिन्न प्री-प्रोसेसिंग तकनीकों को लागू किया जा सकता है। आरजीबी से एचसीएल कलर स्पेस रूपांतरण आम बात है।

यह भी देखें

 * लौ क्लस्टरिंग
 * क्लस्टर विश्लेषण
 * अपेक्षा-अधिकतमकरण एल्गोरिदम (एक समान, लेकिन अधिक सांख्यिकीय रूप से औपचारिक विधि)