आयामीता में कमी

आयामीता में कमी या आयाम में कमी, एक उच्च-आयामी समष्टि से निम्न-आयामी समष्टि में आंकड़ा का परिवर्तन है ताकि निम्न-आयामी प्रतिनिधित्व मूल आंकड़ा के कुछ सार्थक गुणों को बनाए रखे, आदर्श रूप से इसके आंतरिक आयाम के निकट उच्च-आयामी समष्टि में कार्य करना कई कारणों से अवांछनीय हो सकता है आयामीता के कुछ कारणों के परिणामस्वरूप आंकड़ा प्रायः विरल होते हैं और आंकड़ा का विश्लेषण सामान्यतः कम्प्यूटेशनल रूप से जटिल (नियंत्रित करने या वर्णन में कठिन) होता है। आयाम में कमी उन क्षेत्रों में सामान्य है जो बड़ी संख्या में अवलोकन और बड़ी संख्या में चर, जैसे संकेत प्रसंस्करण, ध्वनि स्वीकृति, तंत्रिका सूचना विज्ञान और जैव सूचना विज्ञान से संबद्ध होते हैं।

इन तरीकों को सामान्यतः रैखिक और गैर-रैखिक दृष्टिकोणों में विभाजित किया जाता है। दृष्टिकोण को सुविधा चयन और सुविधा निष्कर्षण में भी विभाजित किया जा सकता है। ध्वनि में कमी, आंकड़ा मानस प्रत्यक्षीकरण, समूह विश्लेषण या अन्य विश्लेषणों को सुविधाजनक बनाने के लिए एक मध्यवर्ती फेज़ के रूप में आयाम में कमी का उपयोग किया जा सकता है।

आकृति चयन
आकृति चयन दृष्टिकोण इनपुट चर (जिन्हें आकृति या विशेषताएँ भी कहा जाता है) का एक उप समुच्चय खोजने का प्रयास करते हैं। जिसमे तीन योजनाए होती हैं:


 * आकृति योजना - जैसे सूचना लाभ।
 * आवृत योजना - जैसे शुद्धता द्वारा निर्देशित खोज।
 * अंतः स्थापित योजना - पूर्वानुमान त्रुटियों के आधार पर मॉडल का निर्माण करते समय चयनित सुविधाएँ जोड़ी या हटा दी जाती हैं।

आंकड़ा विश्लेषण जैसे प्रतिगमन विश्लेषण या सांख्यिकीय वर्गीकरण मूल समष्टि की तुलना में कम समष्टि में अधिक शुद्ध रूप से प्रयुक्त किया जा सकता है।

आकृति प्रक्षेपण
आकृति प्रक्षेपण (जिसे आकृति निष्कर्षण भी कहा जाता है) आंकड़ा को उच्च-आयामी समष्टि से कम आयामों वाले समष्टि में परिवर्तित कर देता है। प्रमुख घटक विश्लेषण (पीसीए) के रूप में आंकड़ा परिवर्तन रैखिक हो सकता है लेकिन कई गैर-रैखिक आयामी कमी तकनीकें भी सम्मिलित हैं। बहुआयामी आंकड़ा के लिए, प्रदिश प्रतिनिधित्व का उपयोग बहु-रैखिक उप समष्टि अधिगम के माध्यम से आयामीता की कमी में किया जा सकता है।



प्रमुख घटक विश्लेषण (पीसीए)
आयामीता में कमी के लिए मुख्य रेखीय तकनीक, प्रमुख घटक विश्लेषण, निम्न-आयामी समष्टि के लिए आंकड़ा का एक रेखीय मानचित्रण इस प्रकार से करता है कि निम्न-आयामी प्रतिनिधित्व में आंकड़ा का विचरण अधिकतम हो जाता है। सामान्यतः आंकड़ा का सहप्रसरण (और कभी-कभी सहसंबंध और निर्भरता) आव्यूह (गणित) आव्यूह का निर्माण किया जाता है और इस आव्यूह पर आइगेन सदिशों की गणना की जाती है। सबसे बड़े आइगेन मान ​​​​(प्रमुख घटक) के अनुरूप आइगेन सदिश का उपयोग अब मूल आंकड़ा के भिन्नता के एक बड़े अंश के पुनर्निर्माण के लिए किया जा सकता है। इसके अतिरिक्त, पहले कुछ आइगेन सदिश को प्रायः प्रणाली के बड़े पैमाने के भौतिक व्यवहार के संदर्भ में व्याख्या किया जा सकता है, क्योंकि वे प्रायः कम-आयामी प्रणाली में प्रणाली की ऊर्जा के विशाल बहुमत का योगदान करते हैं फिर भी, यह स्थित दर स्थित आधार पर सिद्ध होना चाहिए क्योंकि सभी प्रणालियाँ इस व्यवहार को प्रदर्शित नहीं करती हैं। मूल समष्टि (अंकों की संख्या के आयाम के साथ) को घटा दिया गया है आंकड़ा हानि के साथ, लेकिन संभावना है कि सबसे महत्वपूर्ण विचरण को बनाए रखना और कुछ आइगेन सदिशों द्वारा विस्तृत किया गया समष्टि है।

गैर-ऋणात्मक आव्यूह गुणनखंडन (एनएमएफ)
एनएमएफ दो गैर-ऋणात्मक आव्यूह के उत्पाद के लिए एक गैर-ऋणात्मक आव्यूह को विघटित करता है जो उन क्षेत्रों में एक आशाजनक उपकरण रहा है जहां केवल गैर-ऋणात्मक संकेत सम्मिलित हैं, जैसे कि खगोल विज्ञान,  एनएमएफली और सेउंग द्वारा गुणक नए नियम के बाद से अच्छी तरह से जाना जाता है जिसे निरंतर विकसित किया गया है अनिश्चितताओं का समावेश, गुप्त आंकड़ा और समानांतर संगणना का विचार, अनुक्रमिक निर्माण जो आगे बढ़ता है एनएमएफ की स्थिरता और रैखिकता के साथ-साथ डिजिटल छवि प्रसंस्करण में गुप्त आंकड़ा को संभालने सहित अन्य अपडेट निर्माण के समय एक स्थिर घटक आधार और एक रेखीय मॉडलिंग प्रक्रिया के साथ, अनुक्रमिक एनएमएफ खगोल विज्ञान में परिस्थिति-तारकीय संरचनाओं की प्रत्यक्ष छवि में प्रवाह को संरक्षित करने में सक्षम होते है कर्तोतक का पता लगाने के तरीकों में से एक के रूप में, विशेष रूप से प्रत्यक्ष के लिए परिस्थितिजन्य चक्र की छवि पीसीए की तुलना में, एनएमएफ आव्यूह के माध्य को नहीं हटाता है जो गैर-भौतिक गैर-ऋणात्मक प्रवाह की ओर जाता है इसलिए एनएमएफ पीसीए की तुलना में अधिक जानकारी संरक्षित करने में सक्षम है जैसा कि रेन एट अल द्वारा प्रदर्शित किया गया है।

कर्नेल पीसीए
प्रमुख घटक विश्लेषण को कर्नेल गति के माध्यम से गैर रैखिक तरीके से नियोजित किया जा सकता है। परिणामी तकनीक गैर रैखिक मानचित्र बनाने में सक्षम है जो आंकड़ा में भिन्नता को अधिकतम करती है और परिणामी तकनीक को कर्नेल प्रमुख घटक विश्लेषण कहा जाता है।

आरेख आधारित कर्नेल पीसीए
अन्य प्रमुख गैर-रैखिक तकनीकों में कई गुना सीखने की तकनीकें सम्मिलित हैं जैसे कि आइसोमैप, स्थानीय रूप से रैखिक अतः स्थापन (एलएलई), हेसियन एलएलई, लाप्लासियन छवि मानचित्रण और स्पर्शरेखा अंतरिक्ष विश्लेषण पर आधारित तरीके, ये तकनीक लागत फलन का उपयोग करके एक निम्न-आयामी आंकड़ा प्रतिनिधित्व का निर्माण करती हैं जो आंकड़ा के समष्टि गुणों को बनाए रखता है और कर्नेल पीसीए के लिए आरेख-आधारित कर्नेल को परिभाषित करने के रूप में देखा जा सकता है।

अभी हाल ही में, तकनीकों का प्रस्ताव किया गया है कि एक निश्चित कर्नेल को परिभाषित करने के अतिरिक्त अर्ध-निश्चित प्रसंस्करण का उपयोग करके कर्नेल को सीखने का प्रयास करें। ऐसी तकनीक का सबसे प्रमुख उदाहरण अधिकतम भिन्नता प्रकट करना (एमवीयू) है एमवीयू का केंद्रीय विचार निकटतम मान (आंतरिक उत्पाद समष्टि में) के बीच सभी योग दूरी को परिशुद्ध रूप से संरक्षित करना है जबकि उन बिंदुओं के बीच की दूरी को अधिकतम करना जो निकटतम मान नहीं हैं।

निकट के संरक्षण के लिए एक वैकल्पिक दृष्टिकोण एक लागत फलन के न्यूनीकरण के माध्यम से है जो इनपुट और आउटपुट रिक्त समष्टि में दूरी के बीच अंतर को मापता है। ऐसी तकनीकों के महत्वपूर्ण उदाहरणों में सम्मिलित हैं सामान्यतः बहुआयामी अदिश जो पीसीए के समान है आइसोमैप, जो आंकड़ा समष्टि में अल्पान्तर दूरियों का उपयोग करता है प्रसार मानचित्र, जो आंकड़ा समष्टि में प्रसार दूरी का उपयोग करते हैं टी-वितरित, टी-एसएनई जो बिंदुओं के योग पर वितरण के बीच विचलन को कम करता है और वक्रीय घटक विश्लेषण का उपयोग करते है।

गैर-रैखिक आयामीता में कमी के लिए एक अलग दृष्टिकोण स्वतः कूटलेखन के उपयोग के माध्यम से है विशेष प्रकार के फीडफॉरवर्ड न्यूरल नेटवर्क के साथ एक बोतल-गर्दन छिपी हुई परत, गहरे कूटलेखन का प्रशिक्षण सामान्यतः एक परत-वार पूर्व-प्रशिक्षण (उदाहरण के लिए, प्रतिबंधित बोल्ट्जमैन मशीन के समूह का उपयोग करके) का उपयोग करके किया जाता है जिसके बाद पश्च प्रसारण पर आधारित एक अपेक्षाकृत ट्यूनिंग चरण होता है।

रैखिक विभेदक विश्लेषण (एलडीए)
रैखिक विभेदक विश्लेषण (एलडीए) फिशर के रैखिक विभेदक का एक सामान्यीकरण है, जो सांख्यिकी, पैटर्न पहचान और यंत्र शिक्षण में प्रयोग की जाने वाली एक विधि है, जो दो या दो से अधिक वर्गों की वस्तुओं या घटनाओं को चिह्नित या वियोजित करती है।

सामान्यीकृत विभेदक विश्लेषण (जीडीए)
जीडीए कर्नेल फलन संक्रियक का उपयोग करके गैर-रेखीय विभेदक विश्लेषण से संबंधित है। अंतर्निहित सिद्धांत समर्थन सदिश यंत्र (एसवीएम) के निकट है, जहां तक ​​जीडीए पद्धति इनपुट सदिश को उच्च-आयामी आकृति समष्टि में मानचित्र प्रदान करती है। एलडीए के समान, जीडीए का उद्देश्य निम्न-आयामी अंतरिक्ष में सुविधाओं के लिए प्रक्षेपण को कक्षा के भीतर के प्रसार के बीच के अनुपात को अधिकतम करके खोजना है।

स्वतः कूटलेखन
स्वतः कूटलेखन का उपयोग गैर-रैखिक आयाम मे कमी फलन और कोडिंग को एक व्युत्क्रम फलन के साथ कोडिंग से मूल प्रतिनिधित्व तक सीखने के लिए किया जा सकता है।

टी-एसएनई
टी-वितरित प्रसंभाव्य समीप अंतः स्थापन (टी-एसएनई) एक गैर रेखीय आयामीता में कमी तकनीक है जो उच्च-आयामी आंकड़ा समुच्चय के मानस दर्शन के लिए उपयोगी है। गुच्छन कलन विधि या बाहरी पहचान जैसे विश्लेषण में उपयोग के लिए इसकी अनुशंसा नहीं की जाती है क्योंकि यह आवश्यक रूप से घनत्व या दूरी को अपेक्षाकृत अच्छी तरह से संरक्षित नहीं करता है।

यूपी
यूनिफार्म बहुआयामी सन्निकटन और प्रक्षेपण (यूएमएपी) एक गैर रेखीय आयामीता में कमी तकनीक है। दृष्टिगत रूप से, यह टी-एसएनई के समान है लेकिन यह मानना है कि आंकड़ा समान रूप से स्थानीय रूप से संबद्ध रीमैनियन बहुआयामी मान पर वितरित किया जाता है और यह कि रीमैनियन आव्यूह समष्टि मे स्थिर या लगभग स्थानीय रूप से स्थिर होते है।

आयाम में कमी
उच्च-आयामी आंकड़ा समुच्चय के लिए (अर्थात 10 से अधिक आयामों की संख्या के साथ), आयाम मे कमी सामान्यतः आयाम के पूर्व के प्रभावों से बचने के लिए के-निकटतम कलनविधि (के-एनएन) प्रयुक्त करने से पहले की जाती है।

प्रमुख घटक विश्लेषण (पीसीए), रैखिक विवेचक विश्लेषण (एलडीए), विहित सहसंबंध विश्लेषण (सीसीए) या गैर-ऋणात्मक आव्यूह एकीकरण (एनएमएफ) तकनीकों का उपयोग करके सुविधा निष्कर्षण और आयाम में कमी को एक चरण में सम्बद्ध किया जा सकता है। कम-आयाम वाले समष्टि में सुविधा (यंत्र अधिगम) पर (के-एनएन) द्वारा गुच्छन कलन विधि का उपयोग करके यंत्र शिक्षण में इस प्रक्रिया को निम्न-आयामी अंतः स्थापन भी कहा जाता है।

बहुत उच्च-आयामी आंकड़ा समुच्चय के लिए (उदाहरण के लिए लाइव वीडियो प्रवाह, डीएनए आंकड़ा या उच्च-आयामी समय श्रृंखला पर समानता खोज करते समय) संवेदनशील हैशिंग, यादृच्छिक प्रक्षेपण का उपयोग करके एक तीव्र अनुमानित केएनएन खोज चला रहा है, रेखाचित्र या बहुत बड़े आंकड़ा मूल उपकरण पेटी पर अंतर्राष्ट्रीय सम्मेलन से अन्य उच्च-आयामी समानता खोज तकनीकें एकमात्र व्यवहार्य विकल्प हो सकती हैं।

अनुप्रयोग
आयामी कमी तकनीक जो कभी-कभी तंत्रिका विज्ञान में प्रयोग की जाती है वह अधिकतम सूचनात्मक आयाम है, जो किसी आंकड़ा समुच्चय का निम्न-आयामी प्रतिनिधित्व है जैसे कि मूल आंकड़ा के विषय में जितनी संभव हो सकती है उतनी पारस्परिक जानकारी संरक्षित होती है।

यह भी देखें

 * सीयूआर आव्यूह सन्निकटन
 * आंकड़ा परिवर्तन (सांख्यिकी)
 * हाइपरपैरामीटर अनुकूलन
 * निर्णय सूचना लाभ
 * जॉनसन-लिंडनस्ट्रॉस लेम्मा
 * अव्यक्त शब्दार्थ विश्लेषण
 * स्थानीय स्पर्शरेखा अंतरिक्ष संरेखण
 * स्थानीयता-संवेदनशील हैशिंग
 * मिनहाश
 * बहुकारक आयामीता में कमी
 * निकटतम आव्यूह खोज
 * गैर रेखीय आयामीता में कमी
 * यादृच्छिक प्रक्षेपण
 * प्रतिचित्रण मानचित्र
 * शब्दार्थगत चित्रण (सांख्यिकी)
 * अर्ध निश्चित अंतः स्थापन
 * विलक्षण मान अपघटन
 * पर्याप्त आयाम में कमी
 * सामयिक आंकड़ा विश्लेषण
 * भारित सहसंबंध नेटवर्क विश्लेषण

बाहरी संबंध

 * JMLR Special Issue on Variable and Feature Selection
 * ELastic MAPs
 * Locally Linear Embedding
 * Visual Comparison of various dimensionality reduction methods
 * A Global Geometric Framework for Nonlinear Dimensionality Reduction