उच्च-आयामी डेटा को क्लस्टर करना

उच्च-आयामी आंकड़ों को स्तवक करना कुछ दर्जन से लेकर कई हजारों आयामों वाले आंकड़ों का स्तवक विश्लेषण है। आंकड़ों के ऐसे उच्च-आयामी स्थान प्रायः चिकित्सा जैसे क्षेत्रों में सामने आते हैं, जहां डीएनए माइक्रोएरे तकनीक एक साथ अधिक माप उत्पन्न कर सकती है, और अवतरण प्रपत्र को स्तवक जहां, यदि शब्द-आवृत्ति सदिश का उपयोग किया जाता है, तो आयामों की संख्या हीप्स के नियम के समान होती है।

समस्याएँ
उच्च-आयामी आंकड़ों में स्तवक के लिए चार समस्याओं को दूर करने की आवश्यकता है:
 * एकाधिक आयामों के बारे में सोचना कठिन है, कल्पना करना असंभव है, और, प्रत्येक आयाम के साथ संभावित मूल्यों की संख्या में तीव्रता से वृद्धि के कारण, सभी उप-स्थानों की पूरी गणना बढ़ती आयामीता के साथ कठिन हो जाती है। इस समस्या को आयामीता के अभिशाप के रूप में जाना जाता है।
 * जैसे-जैसे आयामों की संख्या बढ़ती है, दूरी की अवधारणा कम सटीक होती जाती है, क्योंकि किसी दिए गए आंकड़े समुच्चय में किन्हीं दो बिंदुओं के बीच की दूरी अभिसरण होती है। विशेष रूप से निकटतम और अत्यधिक दूर बिंदु का भेदभाव निरर्थक हो जाता है:
 * $$\lim_{d \to \infty} \frac{dist_\max - dist_\min}{dist_\min} = 0$$


 * एक स्तवक का उद्देश्य संबंधित वस्तुओं को उनकी विशेषता के मूल्यों के अवलोकन के आधार पर समूहीकृत करना है। हालाँकि, बड़ी संख्या में विशेषताओं को देखते हुए कुछ विशेषताएँ सामान्यतः किसी दिए गए स्तवक के लिए सार्थक नहीं होंगी। उदाहरण के लिए, नवजात शिशु की जांच में प्रतिरूप का एक समूह उन नवजात शिशुओं की पहचान कर सकता है जिनके रक्त मूल्य समान हैं, जिससे किसी बीमारी के लिए कुछ रक्त मूल्यों की प्रासंगिकता के बारे में जानकारी प्राप्त हो सकती है। लेकिन भिन्न-भिन्न बीमारियों के लिए, भिन्न-भिन्न रक्त मान एक समूह बना सकते हैं, और अन्य मान असंबंधित हो सकते हैं। इसे स्थानीय सुविधा प्रासंगिकता समस्या के रूप में जाना जाता है: भिन्न-भिन्न उप-स्थानों में भिन्न-भिन्न स्तवक पाए जा सकते हैं, इसलिए विशेषताओं का वैश्विक निस्पंदन पर्याप्त नहीं है।
 * बड़ी संख्या में विशेषताओं को देखते हुए, यह संभव है कि कुछ विशेषताएँ सहसंबद्ध हों। इसलिए, स्तवक स्वेच्छाचारी रूप से उन्मुख सजातीय उपसमष्‍टि में उपस्थित हो सकते हैं।

हाल के शोध से संकेत मिलता है कि भेदभाव की समस्या तभी उत्पन्न होती है जब अप्रासंगिक आयामों की संख्या अधिक होती है, और साझा-निकटतम-समीप दृष्टिकोण परिणामों में सुधार कर सकते हैं।

दृष्टिकोण
अक्ष-समानांतर या स्वेच्छाचारी रूप से उन्मुख सजातीय उपसमष्‍टि में स्तवक के प्रति दृष्टिकोण इस बात में भिन्न होते हैं कि वे समग्र लक्ष्य की व्याख्या कैसे करते हैं, जो उच्च आयामीता वाले आंकड़ों में स्तवक ढूंढ रहा है। आंकड़े आव्यूह में प्रतिरूप के आधार पर समूहों को ढूंढना एक समग्र रूप से भिन्न दृष्टिकोण है, जिसे प्रायः बाइस्तवक कहा जाता है, जो जैव सूचना विज्ञान में प्रायः उपयोग की जाने वाली तकनीक है।

उपसमष्‍टि स्तवक
निकटवर्ती छवि केवल द्वि-आयामी स्थान दिखाती है जहां कई समूहों की पहचान की जा सकती है। एक-आयामी उप-स्थानों में, स्तवक $$c_a$$ (उपस्थान में $$\{x\}$$) और $$c_b$$, $$c_c$$, $$c_d$$ (उपस्थान में $$\{y\}$$) पाया जा सकता है। $$c_c$$ इसे द्वि-आयामी (उप-स्थान) में स्तवक नहीं माना जा सकता, क्योंकि यह $$x$$ एक्सिस से बहुत कम वितरित है। दो आयामों में, दो स्तवक $$c_{ab}$$ और $$c_{ad}$$ पहचाना जा सकता है। उप-स्थान क्लस्टरिंग की समस्या इस तथ्य से दी गई है कि d आयामों वाले किसी स्थान के $$2^d$$ विभिन्न उप-स्थान हैं। यदि उप-स्थान अक्ष-समानांतर नहीं हैं, तो अनंत संख्या में उप-स्थान संभव हैं। इसलिए, उपसमष्‍टि स्तवक कलन विधि निम्न परिणाम उत्पन्न करने के जोखिम पर,संगणनात्मक रूप से व्यवहार्य बने रहने के लिए कुछ प्रकार के अनुमान का उपयोग करते हैं। उदाहरण के लिए, अधोगामी -संवरण विशेषता (सीएफ. संघ नियम सीखना) का उपयोग केवल निचले-आयामी उप-स्थानों को मिलाकर उच्च-आयामी उप-स्थान बनाने के लिए किया जा सकता है, क्योंकि किसी भी उप-स्थान टी में एक स्तवक होता है, जिसके परिणामस्वरूप उस स्तवक को सम्मिलित करने के लिए एक पूर्ण स्थान एस भी होगा (यानी एस ⊆ टी), अधिकांश पारंपरिक कलन विधि जैसे कि क्लिक, सबक्लू द्वारा अपनाया गया दृष्टिकोण।   प्रत्येक आयाम के लिए प्रासंगिकता की विभिन्न उपाधि का उपयोग करके एक उप-स्थान को परिभाषित करना भी संभव है,आईएमडब्ल्यूके-मीन्स, ईबीके-मोड्स और सीबीके-मोड्स द्वारा अपनाया गया एक दृष्टिकोण।

प्रस्तावित स्तवक
अनुमानित स्तवक प्रत्येक बिंदु को एक अद्वितीय स्तवक को निर्दिष्ट करने का प्रयास करती है, लेकिन स्तवक विभिन्न उप-स्थानों में उपस्थित हो सकते हैं। सामान्य दृष्टिकोण नियमित स्तवक विश्लेषण के साथ एक विशेष कार्य दूरी का उपयोग करना है।

उदाहरण के लिए, प्रीडेकॉन कलन विधि जांचता है कि कौन सी विशेषताएँ प्रत्येक बिंदु के लिए स्तवक का समर्थन करती हैं, और कार्य दूरी को समायोजित करती हैं जैसे कि कम विचरण वाले आयाम कार्य दूरी में प्रवर्धित होते हैं। उपरोक्त चित्र में, क्लस्टर $$c_c$$को एक दूरी फ़ंक्शन के साथ डीबीएससीएएन का उपयोग करते हुए पाया जा सकता है जो x-अक्ष पर कम जोर देता है और इस प्रकार y-अक्ष में कम अंतर को इतना बढ़ा देता है कि बिंदुओं को एक क्लस्टर में समूहित किया जा सके।

प्रोक्लस के-मेडोइड स्तवक के साथ एक समान दृष्टिकोण का उपयोग करता है। प्रारंभिक मेडोइड्स का अनुमान लगाया जाता है, और प्रत्येक मेडॉइड के लिए कम विचरण वाले गुणों द्वारा फैला हुआ उप-स्थान निर्धारित किया जाता है। दूरी निर्धारित करने में केवल उस मेडॉइड के उपस्थान पर विचार करते हुए, निकटतम मेडॉइड को अंक दिए जाते हैं। इसके बाद कलन विधि नियमित मेडोइड्स के आसपास विभाजन कलन विधि के रूप में आगे बढ़ता है।

यदि कार्य दूरी का वजन भिन्न-भिन्न होता है, लेकिन कभी भी 0 के साथ नहीं होता है (और इसलिए अप्रासंगिक विशेषताओं को कभी नहीं छोड़ता है), तो कलन विधि को मृदु-प्रस्तावित स्तवक कलन विधि कहा जाता है।

प्रक्षेपण-आधारित स्तवक
प्रक्षेपण-आधारित स्तवक द्वि-आयामी अंतरिक्ष में उच्च-आयामी आंकड़ों के गैर-रेखीय प्रक्षेपण पर आधारित है। विशिष्ट प्रक्षेपण-विधियाँ जैसे टी-वितरित प्रसंभाव्य निकटस्थ अंतःस्थापन (टी-एसएनई), या निकटस्थ पुनर्प्राप्ति दृश्यदर्शी (NerV) आंकड़ों को स्पष्ट रूप से दो आयामों में प्रस्तावित करने के लिए उपयोग किया जाता है, जिसमें दो से अधिक आयाम के उप-स्थानों की उपेक्षा की जाती है और उच्च-आयामी आंकड़ों में केवल प्रासंगिक निकटस्थ को संरक्षित किया जाता है। आगामी चरण में, डेलाउने त्रिभुज अनुमानित बिंदुओं के बीच की गणना की जाती है, और दो अनुमानित बिंदुओं के बीच प्रत्येक शीर्ष को संबंधित उच्च-आयामी आंकड़े बिंदुओं के बीच उच्च-आयामी दूरी के साथ भारित किया जाता है। इसके बाद दिज्क्स्ट्रा के कलन विधि का उपयोग करके प्रत्येक जोड़ी बिंदुओं के बीच सबसे छोटे पथ की गणना की जाती है। स्तवक प्रक्रिया में सबसे छोटे पथ का उपयोग किया जाता है, जिसमें उच्च-आयामी आंकड़ों में संरचना प्रकार के आधार पर दो विकल्प सम्मिलित होते हैं। यह बूलियन विकल्प उच्च-आयामी संरचनाओं के स्थलाकृतिक मानचित्र को देखकर तय किया जा सकता है। 34 तुलनीय स्तवक विधियों की बेंचमार्किंग में, प्रक्षेपण-आधारित स्तवक एकमात्र कलन विधि था जो हमेशा आंकड़े समुच्चय की उच्च-आयामी दूरी या घनत्व-आधारित संरचना को खोजने में सक्षम था। प्रक्षेप-आधारित स्तवक सीआरएएन पर खुला स्रोत आर संपुष्टि प्रक्षेप-आधारित स्तवक में पहुंच योग्य है।

संकर दृष्टिकोण
सभी कलन विधि या तो प्रत्येक बिंदु के लिए एक अद्वितीय स्तवक नियुक्ति या सभी उप-स्थानों में सभी स्तवक खोजने का प्रयास नहीं करते हैं; कई लोग बीच में एक परिणाम के लिए तैयार हो जाते हैं, जहां संभवतः अतिव्यापी, लेकिन जरूरी नहीं कि संपूर्ण समूहों के समूह पाए जाते हैं। एक उदाहरण एफआईआरईएस है, जो अपने मूल दृष्टिकोण से एक उपसमष्‍टि स्तवक कलन विधि है, लेकिन सभी उपसमष्‍टि स्तवकों को विश्वसनीय रूप से उत्पन्न करने के लिए एक अत्यधिक स्वानुभविक आक्रामक का उपयोग करता है। एक अन्य संकर दृष्टिकोण मानव-में-कलन विधिक-लूप को सम्मिलित करना है: मानव कार्यक्षेत्र विशेषज्ञता प्रतिरूप के अनुमानी चयन के माध्यम से एक घातीय खोज स्थान को कम करने में मदद कर सकती है। यह स्वास्थ्य क्षेत्र में फायदेमंद हो सकता है, उदाहरण के लिए, चिकित्सा डॉक्टरों को रोगी की स्थितियों के उच्च-आयामी विवरण और कुछ उपचारों की सफलता पर माप का सामना करना पड़ता है। ऐसे आंकड़ों में एक महत्वपूर्ण प्रश्न आयामों के संयोजन के साथ-साथ रोगी की स्थितियों और चिकित्सा परिणामों की तुलना और सहसंबंध बनाना है। आयामों की संख्या प्रायः बहुत बड़ी होती है, परिणामस्वरूप विशेषज्ञ विश्लेषण के लिए अधिक उपयुक्त होने के लिए उन्हें कम संख्या में प्रासंगिक आयामों में छायाचित्र करने की आवश्यकता होती है। ऐसा इसलिए है क्योंकि अप्रासंगिक, अनावश्यक और परस्पर विरोधी आयाम संपूर्ण विश्लेषणात्मक प्रक्रिया की प्रभावशीलता और दक्षता को नकारात्मक रूप से प्रभावित कर सकते हैं।

सहसंबंध स्तवक
सहसंबंध स्तवक (खनन आंकड़े) में एक अन्य प्रकार के उप-स्थान पर विचार किया जाता है।

सॉफ़्टवेयर

 * ईएलकेआई में विभिन्न उप-स्थान और सहसंबंध स्तवक कलन विधि सम्मिलित हैं
 * एफसीपीएस में पचास से अधिक स्तवक कलन विधि सम्मिलित हैं