उच्च-आयामी डेटा को क्लस्टर करना

उच्च-आयामी डेटा को क्लस्टर करना कुछ दर्जन से लेकर कई हजारों आयामों वाले डेटा का क्लस्टर विश्लेषण है। डेटा के ऐसे उच्च-आयामी स्थान अक्सर चिकित्सा जैसे क्षेत्रों में सामने आते हैं, जहां डीएनए माइक्रोएरे तकनीक एक साथ कई माप उत्पन्न कर सकती है, और पाठ दस्तावेजों की क्लस्टरिंग, जहां, यदि शब्द-आवृत्ति वेक्टर का उपयोग किया जाता है, तो आयामों की संख्या हीप्स के नियम के बराबर होती है।

समस्याएँ
उच्च-आयामी डेटा में क्लस्टरिंग के लिए चार समस्याओं को दूर करने की आवश्यकता है:
 * एकाधिक आयामों के बारे में सोचना कठिन है, कल्पना करना असंभव है, और, प्रत्येक आयाम के साथ संभावित मूल्यों की संख्या में तेजी से वृद्धि के कारण, सभी उप-स्थानों की पूरी गणना बढ़ती आयामीता के साथ कठिन हो जाती है। इस समस्या को आयामीता के अभिशाप के रूप में जाना जाता है।
 * जैसे-जैसे आयामों की संख्या बढ़ती है, दूरी की अवधारणा कम सटीक होती जाती है, क्योंकि किसी दिए गए डेटासेट में किन्हीं दो बिंदुओं के बीच की दूरी अभिसरण होती है। विशेष रूप से निकटतम और सबसे दूर बिंदु का भेदभाव निरर्थक हो जाता है:
 * $$\lim_{d \to \infty} \frac{dist_\max - dist_\min}{dist_\min} = 0$$


 * क्लस्टर का उद्देश्य उन वस्तुओं को समूहित करना है जो संबंधित हैं, उनकी विशेषता के मूल्यों के अवलोकन के आधार पर। हालाँकि, बड़ी संख्या में विशेषताओं को देखते हुए कुछ विशेषताएँ आमतौर पर किसी दिए गए क्लस्टर के लिए सार्थक नहीं होंगी। उदाहरण के लिए, नवजात शिशु की जांच में नमूनों का एक समूह उन नवजात शिशुओं की पहचान कर सकता है जिनके रक्त मूल्य समान हैं, जिससे किसी बीमारी के लिए कुछ रक्त मूल्यों की प्रासंगिकता के बारे में जानकारी मिल सकती है। लेकिन अलग-अलग बीमारियों के लिए, अलग-अलग रक्त मान एक समूह बना सकते हैं, और अन्य मान असंबंधित हो सकते हैं। इसे स्थानीय सुविधा प्रासंगिकता समस्या के रूप में जाना जाता है: अलग-अलग उप-स्थानों में अलग-अलग क्लस्टर पाए जा सकते हैं, इसलिए विशेषताओं का वैश्विक फ़िल्टरिंग पर्याप्त नहीं है।
 * बड़ी संख्या में विशेषताओं को देखते हुए, यह संभव है कि कुछ विशेषताएँ सहसंबद्ध हों। इसलिए, क्लस्टर मनमाने ढंग से उन्मुख एफ़िन उप-स्थानों में मौजूद हो सकते हैं।

हाल के शोध से संकेत मिलता है कि भेदभाव की समस्या तभी उत्पन्न होती है जब अप्रासंगिक आयामों की संख्या अधिक होती है, और साझा-निकटतम-पड़ोसी दृष्टिकोण परिणामों में सुधार कर सकते हैं।

दृष्टिकोण
अक्ष-समानांतर या मनमाने ढंग से उन्मुख एफ़िन उप-स्थानों में क्लस्टरिंग के प्रति दृष्टिकोण इस बात में भिन्न होते हैं कि वे समग्र लक्ष्य की व्याख्या कैसे करते हैं, जो उच्च आयामीता वाले डेटा में क्लस्टर ढूंढ रहा है। एक समग्र रूप से भिन्न दृष्टिकोण डेटा मैट्रिक्स में नमूना  के आधार पर समूहों को ढूंढना है, जिसे अक्सर बाइक्लस्टरिंग कहा जाता है, जो जैव सूचना विज्ञान में अक्सर उपयोग की जाने वाली तकनीक है।

सबस्पेस क्लस्टरिंग
निकटवर्ती छवि केवल दो-आयामी स्थान दिखाती है जहां कई समूहों की पहचान की जा सकती है। एक-आयामी उप-स्थानों में, क्लस्टर $$c_a$$ (उपस्थान में $$\{x\}$$) और $$c_b$$, $$c_c$$, $$c_d$$ (उपस्थान में $$\{y\}$$) पाया जा सकता है। $$c_c$$ इसे द्वि-आयामी (उप-)स्थान में क्लस्टर नहीं माना जा सकता, क्योंकि यह बहुत कम वितरित है $$x$$ एक्सिस। दो आयामों में, दो क्लस्टर $$c_{ab}$$ और $$c_{ad}$$ पहचाना जा सकता है.

सबस्पेस क्लस्टरिंग की समस्या इस तथ्य से दी गई है कि वहाँ हैं $$2^d$$ किसी स्थान के विभिन्न उपस्थानों के साथ $$d$$ आयाम. यदि उप-स्थान अक्ष-समानांतर नहीं हैं, तो अनंत संख्या में उप-स्थान संभव हैं। इसलिए, सबस्पेस क्लस्टरिंग एल्गोरिदम निम्न परिणाम उत्पन्न करने के जोखिम पर, कम्प्यूटेशनल रूप से व्यवहार्य बने रहने के लिए कुछ प्रकार के अनुमान का उपयोग करते हैं। उदाहरण के लिए, डाउनवर्ड-क्लोजर प्रॉपर्टी (सीएफ. एसोसिएशन नियम सीखना) का उपयोग केवल निचले-आयामी उप-स्थानों को मिलाकर उच्च-आयामी उप-स्थान बनाने के लिए किया जा सकता है, क्योंकि किसी भी उप-स्थान टी में एक क्लस्टर होता है, जिसके परिणामस्वरूप उस क्लस्टर को शामिल करने के लिए एक पूर्ण स्थान एस भी होगा (यानी एस ⊆ टी), अधिकांश पारंपरिक एल्गोरिदम जैसे कि CLIQUE द्वारा अपनाया गया दृष्टिकोण, सबक्लू. प्रत्येक आयाम के लिए प्रासंगिकता की विभिन्न डिग्री का उपयोग करके एक उप-स्थान को परिभाषित करना भी संभव है, आईएमडब्ल्यूके-मीन्स द्वारा अपनाया गया एक दृष्टिकोण, ईबीके-मोड और सीबीके-मोड।

प्रोजेक्टेड क्लस्टरिंग
अनुमानित क्लस्टरिंग प्रत्येक बिंदु को एक अद्वितीय क्लस्टर को निर्दिष्ट करने का प्रयास करती है, लेकिन क्लस्टर विभिन्न उप-स्थानों में मौजूद हो सकते हैं। सामान्य दृष्टिकोण नियमित क्लस्टर विश्लेषण के साथ एक विशेष दूरी फ़ंक्शन का उपयोग करना है।

उदाहरण के लिए, PreDeCon एल्गोरिदम जांचता है कि कौन सी विशेषताएँ प्रत्येक बिंदु के लिए क्लस्टरिंग का समर्थन करती हैं, और दूरी फ़ंक्शन को समायोजित करती हैं जैसे कि कम विचरण वाले आयाम दूरी फ़ंक्शन में प्रवर्धित होते हैं। उपरोक्त चित्र में, क्लस्टर $$c_c$$ एक दूरी फ़ंक्शन के साथ DBSCAN का उपयोग करते हुए पाया जा सकता है जो इस पर कम जोर देता है $$x$$-अक्ष और इस प्रकार कम अंतर को बढ़ा देता है $$y$$-अक्ष बिंदुओं को एक क्लस्टर में समूहित करने के लिए पर्याप्त रूप से पर्याप्त है।

PROCLUS k-medoid क्लस्टरिंग के साथ एक समान दृष्टिकोण का उपयोग करता है। प्रारंभिक मेडोइड्स का अनुमान लगाया जाता है, और प्रत्येक मेडॉइड के लिए कम विचरण वाले गुणों द्वारा फैला हुआ उप-स्थान निर्धारित किया जाता है। दूरी निर्धारित करने में केवल उस मेडॉइड के उपस्थान पर विचार करते हुए, निकटतम मेडॉइड को अंक दिए जाते हैं। इसके बाद एल्गोरिथम नियमित मेडोइड्स के आसपास विभाजन  एल्गोरिथम के रूप में आगे बढ़ता है।

यदि दूरी फ़ंक्शन का वजन अलग-अलग होता है, लेकिन कभी भी 0 के साथ नहीं होता है (और इसलिए अप्रासंगिक विशेषताओं को कभी नहीं छोड़ता है), एल्गोरिदम को सॉफ्ट-प्रोजेक्टेड क्लस्टरिंग एल्गोरिदम कहा जाता है।

प्रक्षेपण-आधारित क्लस्टरिंग
प्रक्षेपण-आधारित क्लस्टरिंग दो-आयामी अंतरिक्ष में उच्च-आयामी डेटा के गैर-रेखीय प्रक्षेपण पर आधारित है। विशिष्ट प्रक्षेपण-विधियाँ जैसे टी-वितरित स्टोकेस्टिक पड़ोसी एम्बेडिंग (टी-एसएनई), या पड़ोसी पुनर्प्राप्ति विज़ुअलाइज़र (NerV) डेटा को स्पष्ट रूप से दो आयामों में प्रोजेक्ट करने के लिए उपयोग किया जाता है, जिसमें दो से अधिक आयाम के उप-स्थानों की उपेक्षा की जाती है और उच्च-आयामी डेटा में केवल प्रासंगिक पड़ोस को संरक्षित किया जाता है। अगले चरण में, डेलाउने त्रिभुज अनुमानित बिंदुओं के बीच की गणना की जाती है, और दो अनुमानित बिंदुओं के बीच प्रत्येक शीर्ष को संबंधित उच्च-आयामी डेटा बिंदुओं के बीच उच्च-आयामी दूरी के साथ भारित किया जाता है। इसके बाद दिज्क्स्ट्रा के एल्गोरिदम का उपयोग करके प्रत्येक जोड़ी बिंदुओं के बीच सबसे छोटे पथ की गणना की जाती है। क्लस्टरिंग प्रक्रिया में सबसे छोटे रास्तों का उपयोग किया जाता है, जिसमें उच्च-आयामी डेटा में संरचना प्रकार के आधार पर दो विकल्प शामिल होते हैं। यह बूलियन विकल्प उच्च-आयामी संरचनाओं के स्थलाकृतिक मानचित्र को देखकर तय किया जा सकता है। 34 तुलनीय क्लस्टरिंग विधियों की बेंचमार्किंग में, प्रक्षेपण-आधारित क्लस्टरिंग एकमात्र एल्गोरिदम था जो हमेशा डेटासेट की उच्च-आयामी दूरी या घनत्व-आधारित संरचना को खोजने में सक्षम था। प्रोजेक्शन-आधारित क्लस्टरिंग सीआरएएन पर ओपन-सोर्स आर पैकेज प्रोजेक्शनबेस्डक्लस्टरिंग में पहुंच योग्य है।

हाइब्रिड दृष्टिकोण
सभी एल्गोरिदम या तो प्रत्येक बिंदु के लिए एक अद्वितीय क्लस्टर असाइनमेंट या सभी उप-स्थानों में सभी क्लस्टर खोजने का प्रयास नहीं करते हैं; कई लोग बीच में एक परिणाम के लिए तैयार हो जाते हैं, जहां संभवतः अतिव्यापी, लेकिन जरूरी नहीं कि संपूर्ण समूहों के समूह पाए जाते हैं। एक उदाहरण FIRES है, जो अपने मूल दृष्टिकोण से एक सबस्पेस क्लस्टरिंग एल्गोरिदम है, लेकिन सभी सबस्पेस क्लस्टरों को विश्वसनीय रूप से उत्पन्न करने के लिए एक हेयुरिस्टिक बहुत आक्रामक का उपयोग करता है। एक अन्य हाइब्रिड दृष्टिकोण मानव-में-एल्गोरिदमिक-लूप को शामिल करना है: मानव डोमेन विशेषज्ञता नमूनों के अनुमानी चयन के माध्यम से एक घातीय खोज स्थान को कम करने में मदद कर सकती है। यह स्वास्थ्य क्षेत्र में फायदेमंद हो सकता है, उदाहरण के लिए, चिकित्सा डॉक्टरों को रोगी की स्थितियों के उच्च-आयामी विवरण और कुछ उपचारों की सफलता पर माप का सामना करना पड़ता है। ऐसे डेटा में एक महत्वपूर्ण प्रश्न आयामों के संयोजन के साथ-साथ रोगी की स्थितियों और चिकित्सा परिणामों की तुलना और सहसंबंध बनाना है। आयामों की संख्या अक्सर बहुत बड़ी होती है, परिणामस्वरूप विशेषज्ञ विश्लेषण के लिए अधिक उपयुक्त होने के लिए उन्हें कम संख्या में प्रासंगिक आयामों में मैप करने की आवश्यकता होती है। ऐसा इसलिए है क्योंकि अप्रासंगिक, अनावश्यक और परस्पर विरोधी आयाम संपूर्ण विश्लेषणात्मक प्रक्रिया की प्रभावशीलता और दक्षता को नकारात्मक रूप से प्रभावित कर सकते हैं।

सहसंबंध क्लस्टरिंग
सहसंबंध क्लस्टरिंग|सहसंबंध क्लस्टरिंग (डेटा माइनिंग) में एक अन्य प्रकार के उप-स्थान पर विचार किया जाता है।

सॉफ़्टवेयर

 * ELKI में विभिन्न उप-स्थान और सहसंबंध क्लस्टरिंग एल्गोरिदम शामिल हैं
 * एफसीपीएस में पचास से अधिक क्लस्टरिंग एल्गोरिदम शामिल हैं