बहुआयामी स्केलिंग

बहुआयामी स्केलिंग (एमडीएस) एक डेटासेट के अलग-अलग मामलों की समानता माप के स्तर की कल्पना करने का एक साधन है। एमडीएस का उपयोग जोड़ीदार 'दूरियों' के बारे में जानकारी के एक सेट के बीच अनुवाद करने के लिए किया जाता है $ n $ वस्तुओं या व्यक्तियों के विन्यास में $ n $  अंक एक सार कार्टेशियन समन्वय प्रणाली में मैप किए गए।

अधिक तकनीकी रूप से, एमडीएस सूचना विज़ुअलाइज़ेशन में उपयोग की जाने वाली संबंधित ऑर्डिनेशन (सांख्यिकी) तकनीकों के एक सेट को संदर्भित करता है, विशेष रूप से एक दूरी मैट्रिक्स में निहित जानकारी को प्रदर्शित करने के लिए। यह गैर-रैखिक आयामी कमी का एक रूप है।

एक सेट में वस्तुओं की प्रत्येक जोड़ी के बीच की दूरी के साथ एक दूरी मैट्रिक्स, और आयामों की एक चुनी हुई संख्या, एन, एक एमडीएस कलन विधि प्रत्येक वस्तु को एन-आयामी स्थान (एक निम्न-आयामी प्रतिनिधित्व) में रखता है, जैसे कि वस्तु के बीच की दूरी यथासंभव संरक्षित हैं। N = 1, 2 और 3 के लिए, परिणामी बिंदुओं को तितर बितर भूखंडों पर देखा जा सकता है। रेफरी नाम = बोर्ग>

एमडीएस में मुख्य सैद्धांतिक योगदान मैकगिल विश्वविद्यालय के जेम्स ओ रामसे द्वारा किया गया था, जिन्हें कार्यात्मक डेटा विश्लेषण के संस्थापक के रूप में भी माना जाता है।

प्रकार
एमडीएस एल्गोरिदम इनपुट मैट्रिक्स के अर्थ के आधार पर वर्गीकरण (सामान्य) में आते हैं:

शास्त्रीय बहुआयामी स्केलिंग
इसे प्रिंसिपल कोऑर्डिनेट्स एनालिसिस (PCoA), टॉरगर्सन स्केलिंग या टॉरगर्सन-गॉवर स्केलिंग के रूप में भी जाना जाता है। यह एक इनपुट मैट्रिक्स लेता है जो वस्तुओं के जोड़े के बीच असमानता देता है और एक समन्वय मैट्रिक्स को आउटपुट करता है जिसका कॉन्फ़िगरेशन तनाव नामक हानि फ़ंक्शन को कम करता है, जो द्वारा दिया गया है $$\text{Strain}_D(x_1,x_2,...,x_N)=\Biggl(\frac{ \sum_{i,j} \bigl( b_{ij} - x_i^T x_j \bigr)^2}{\sum_{i,j}b_{ij}^2} \Biggr)^{1/2},$$ कहाँ $$x_{i}$$ एन-डायमेंशनल स्पेस में वैक्टर को निरूपित करें, $$x_i^T x_j $$ के बीच स्केलर उत्पाद को दर्शाता है $$x_{i}$$ और $$x_{j}$$, और $$b_{ij}$$ मैट्रिक्स के तत्व हैं $$B$$ निम्नलिखित एल्गोरिथम के चरण 2 पर परिभाषित किया गया है, जिसकी गणना दूरियों से की जाती है।


 * शास्त्रीय एमडीएस एल्गोरिथम के चरण:
 * शास्त्रीय एमडीएस इस तथ्य का उपयोग करता है कि समन्वय मैट्रिक्स $$X$$ एक मैट्रिक्स के Eigedecomposition से प्राप्त किया जा सकता है $B=XX'$ . और मैट्रिक्स $B$ निकटता मैट्रिक्स से गणना की जा सकती है $D$  डबल सेंटरिंग का उपयोग करके।
 * चुकता निकटता मैट्रिक्स सेट करें $D^{(2)}=[d_{ij}^2]$
 * डबल सेंटरिंग लागू करें: $B=-\frac{1}{2}CD^{(2)}C$ केंद्रित मैट्रिक्स का उपयोग करना $C=I-\frac{1}{n}J_n$, कहाँ $n$  वस्तुओं की संख्या है, $I$  है $n \times n$  पहचान मैट्रिक्स, और $J_{n}$  एक $n\times n$  सभी का मैट्रिक्स।
 * निश्चित करो $m$ सबसे बड़ा आइगेनवैल्यू और ईजेनवेक्टर $\lambda_1,\lambda_2,...,\lambda_m$  और संबंधित आइगेनवैल्यू और ईजेनवेक्टर $e_1,e_2,...,e_m$  का $B$  (कहाँ $m$  आउटपुट के लिए वांछित आयामों की संख्या है)।
 * अब, $X=E_m\Lambda_m^{1/2}$, कहाँ $E_m$  का मैट्रिक्स है $m$  ईजेनवेक्टर और $\Lambda_m$  का विकर्ण मैट्रिक्स है $m$  के आइगेनवैल्यू $B$.
 * शास्त्रीय एमडीएस यूक्लिडियन दूरी की दूरी मानता है। तो यह प्रत्यक्ष असमानता रेटिंग के लिए लागू नहीं है।

मीट्रिक बहुआयामी स्केलिंग (एमएमडीएस)
यह शास्त्रीय एमडीएस का एक सुपरसेट है जो विभिन्न प्रकार के हानि कार्यों और वजन के साथ ज्ञात दूरी के इनपुट मैट्रिसेस के लिए अनुकूलन प्रक्रिया को सामान्यीकृत करता है। इस संदर्भ में एक उपयोगी नुकसान समारोह को तनाव कहा जाता है, जिसे अक्सर तनाव प्रमुखकरण नामक प्रक्रिया का उपयोग करके कम किया जाता है। मीट्रिक एमडीएस "तनाव" नामक लागत फ़ंक्शन को कम करता है जो कि वर्गों का एक अवशिष्ट योग है: $$\text{Stress}_D(x_1,x_2,...,x_N)=\sqrt{\sum_{i\ne j=1,...,N}\bigl(d_{ij}-\|x_i-x_j\|\bigr)^2}.$$ मीट्रिक स्केलिंग उपयोगकर्ता-नियंत्रित एक्सपोनेंट के साथ पावर ट्रांसफ़ॉर्मेशन का उपयोग करता है $p$ : $d_{ij}^p$ और $-d_{ij}^{2p}$  दूरी के लिए। शास्त्रीय स्केलिंग में $p=1.$  गैर-मीट्रिक स्केलिंग को आइसोटोनिक प्रतिगमन के उपयोग से परिभाषित किया जाता है ताकि गैर-पैरामीट्रिक रूप से असमानताओं के परिवर्तन का अनुमान लगाया जा सके।

गैर-मीट्रिक बहुआयामी स्केलिंग (NMDS)
मीट्रिक एमडीएस के विपरीत, गैर-मीट्रिक एमडीएस आइटम-आइटम मैट्रिक्स में असमानताओं और वस्तुओं के बीच यूक्लिडियन दूरी और निम्न-आयामी अंतरिक्ष में प्रत्येक आइटम के स्थान के बीच एक गैर पैरामीट्रिक मोनोटोनिक संबंध पाता है। संबंध आमतौर पर आइसोटोनिक प्रतिगमन का उपयोग करके पाया जाता है: चलो $x$ निकटता के वेक्टर को निरूपित करें, $f(x)$  का एक मोनोटोनिक परिवर्तन $x$, और $d$  बिंदु दूरी; फिर निर्देशांक खोजने होंगे, जो तथाकथित तनाव को कम करें,
 * $$\text{Stress}=\sqrt{\frac{\sum\bigl(f(x)-d\bigr)^2}{\sum d^2}}.$$

इस लागत फलन के कुछ रूप मौजूद हैं। एमडीएस समाधान प्राप्त करने के लिए एमडीएस कार्यक्रम स्वचालित रूप से तनाव को कम करते हैं।

एक गैर-मीट्रिक एमडीएस एल्गोरिथम का मूल एक दोहरा अनुकूलन प्रक्रिया है। सबसे पहले समीपताओं का इष्टतम मोनोटोनिक परिवर्तन पाया जाना है। दूसरे, एक विन्यास के बिंदुओं को बेहतर ढंग से व्यवस्थित किया जाना चाहिए, ताकि उनकी दूरियां स्केल की गई निकटता से यथासंभव निकटता से मेल खा सकें। एक गैर-मीट्रिक एमडीएस एल्गोरिथम में बुनियादी कदम हैं:
 * बिंदुओं का एक यादृच्छिक विन्यास खोजें, उदा। जी। एक सामान्य वितरण से नमूनाकरण द्वारा।
 * बिंदुओं के बीच की दूरी d की गणना करें।
 * इष्टतम स्केल किए गए डेटा को प्राप्त करने के लिए निकटता के इष्टतम मोनोटोनिक परिवर्तन का पता लगाएं $f(x)$.
 * बिंदुओं का एक नया विन्यास खोजकर इष्टतम रूप से मापे गए डेटा और दूरियों के बीच तनाव को कम करें।
 * तनाव की तुलना किसी कसौटी से करें। यदि तनाव काफी छोटा है तो एल्गोरिथम से बाहर निकलें अन्यथा 2 पर लौटें।

लुई गुटमैन का सबसे छोटा अंतरिक्ष विश्लेषण (एसएसए) एक गैर-मीट्रिक एमडीएस प्रक्रिया का एक उदाहरण है।

सामान्यीकृत बहुआयामी स्केलिंग (जीएमडी)
मीट्रिक बहुआयामी स्केलिंग का एक विस्तार, जिसमें लक्ष्य स्थान एक मनमाना चिकनी गैर-यूक्लिडियन स्थान है। ऐसे मामलों में जहां असमानताएं एक सतह पर दूरियां हैं और लक्ष्य स्थान दूसरी सतह है, जीएमडीएस एक सतह की दूसरी सतह में न्यूनतम-विरूपण एम्बेडिंग खोजने की अनुमति देता है।

विवरण
विश्लेषण किए जाने वाले डेटा का एक संग्रह है $$M$$ ऑब्जेक्ट्स (रंग, चेहरे, स्टॉक, ...) जिस पर एक दूरी समारोह परिभाषित किया गया है,


 * $$d_{i,j} :=$$ बीच की दूरी $$i$$-वें और $$j$$-वीं वस्तुएं।

ये दूरियाँ असमानता मैट्रिक्स की प्रविष्टियाँ हैं


 * $$ D :=

\begin{pmatrix} d_{1,1} & d_{1,2} & \cdots & d_{1,M} \\ d_{2,1} & d_{2,2} & \cdots & d_{2,M} \\ \vdots & \vdots & & \vdots \\ d_{M,1} & d_{M,2} & \cdots & d_{M,M} \end{pmatrix}. $$ एमडीएस का लक्ष्य दिया गया है $$D$$, ढूँढ़ने के लिए $$M$$ वैक्टर $$x_1,\ldots,x_M \in \mathbb{R}^N$$ ऐसा है कि


 * $$\|x_i - x_j\| \approx d_{i,j}$$ सभी के लिए $$i,j\in {1,\dots,M}$$,

कहाँ $$\|\cdot\|$$ एक आदर्श (गणित) है। शास्त्रीय एमडीएस में, यह मानदंड यूक्लिडियन दूरी है, लेकिन, व्यापक अर्थों में, यह एक मीट्रिक (गणित) या मनमाने ढंग से दूरी का कार्य हो सकता है। दूसरे शब्दों में, एमडीएस से मैपिंग खोजने का प्रयास करता है $$M$$ वस्तुओं में $$\mathbb{R}^N$$ ताकि दूरियां बनी रहें। यदि आयाम $$N$$ 2 या 3 चुना जाता है, तो हम सदिशों को आलेखित कर सकते हैं $$x_i$$ के बीच समानता का एक दृश्य प्राप्त करने के लिए $$M$$ वस्तुओं। ध्यान दें कि वैक्टर $$x_i$$ अद्वितीय नहीं हैं: यूक्लिडियन दूरी के साथ, उन्हें मनमाने ढंग से अनुवादित, घुमाया और प्रतिबिंबित किया जा सकता है, क्योंकि ये परिवर्तन जोड़ीदार दूरियों को नहीं बदलते हैं $$\|x_i - x_j\|$$.

(नोट: प्रतीक $$\mathbb{R}$$ वास्तविक संख्याओं के समुच्चय और अंकन को इंगित करता है $$\mathbb{R}^N$$ के कार्टेशियन उत्पाद को संदर्भित करता है $$N$$ की प्रतियां $$\mathbb{R}$$, जो एक है $$N$$वास्तविक संख्याओं के क्षेत्र में आयामी सदिश स्थान।)

वैक्टर का निर्धारण करने के लिए विभिन्न दृष्टिकोण हैं $$x_i$$. आम तौर पर, एमडीएस को अनुकूलन (गणित) के रूप में तैयार किया जाता है, जहां $$(x_1,\ldots,x_M)$$ उदाहरण के लिए, कुछ लागत फ़ंक्शन के न्यूनतमकर्ता के रूप में पाया जाता है,


 * $$ \underset{x_1,\ldots,x_M}{\mathrm{argmin}} \sum_{i<j} ( \|x_i - x_j\| - d_{i,j} )^2. \, $$

एक समाधान तब संख्यात्मक अनुकूलन तकनीकों द्वारा पाया जा सकता है। कुछ विशेष रूप से चुने गए लागत कार्यों के लिए, मैट्रिक्स के मैट्रिक्स Eigedecomposition के संदर्भ में मिनिमाइज़र को विश्लेषणात्मक रूप से कहा जा सकता है।

प्रक्रिया
MDS अनुसंधान करने के कई चरण हैं:
 * 1) समस्या का निरूपण - आप किन चरों की तुलना करना चाहते हैं? आप कितने चरों की तुलना करना चाहते हैं? अध्ययन किस उद्देश्य के लिए किया जाना है?
 * 2) इनपुट डेटा प्राप्त करना - उदाहरण के लिए, :- उत्तरदाताओं से प्रश्नों की एक श्रृंखला पूछी जाती है। प्रत्येक उत्पाद जोड़ी के लिए, उन्हें समानता को रेट करने के लिए कहा जाता है (आमतौर पर 7-पॉइंट  लाइकेर्ट स्केल  पर बहुत समान से बहुत भिन्न)। उदाहरण के लिए पहला प्रश्न कोक/पेप्सी के लिए हो सकता है, अगला प्रश्न कोक/हायर्स रूटबीयर के लिए, अगला प्रश्न पेप्सी/डॉ. पेपर के लिए, अगला प्रश्न डॉ. पेपर/हायर्स रूटबीयर आदि के लिए हो सकता है। प्रश्नों की संख्या प्रश्नों की संख्या का फलन है। ब्रांड और के रूप में गणना की जा सकती है $$Q = N (N - 1) / 2$$ जहाँ Q प्रश्नों की संख्या है और N ब्रांडों की संख्या है। इस दृष्टिकोण को "धारणा डेटा: प्रत्यक्ष दृष्टिकोण" के रूप में जाना जाता है। दो अन्य दृष्टिकोण हैं। "धारणा डेटा: व्युत्पन्न दृष्टिकोण" है जिसमें उत्पादों को सिमेंटिक अंतर स्केल पर रेट किए गए गुणों में विघटित किया जाता है। दूसरा "वरीयता डेटा दृष्टिकोण" है जिसमें उत्तरदाताओं से समानता के बजाय उनकी वरीयता पूछी जाती है।
 * 3) 'एमडीएस सांख्यिकीय कार्यक्रम चलाना' - प्रक्रिया को चलाने के लिए सॉफ्टवेयर कई सांख्यिकीय सॉफ्टवेयर पैकेजों में उपलब्ध है। अक्सर मेट्रिक एमडीएस (जो अंतराल या अनुपात स्तर डेटा से संबंधित होता है) और नॉनमेट्रिक एमडीएस के बीच एक विकल्प होता है (जो क्रमिक डेटा से संबंधित है)।
 * 4) आयामों की संख्या तय करें - शोधकर्ता को यह तय करना होगा कि वे कितने आयामों को कंप्यूटर बनाना चाहते हैं। एमडीएस समाधान की व्याख्या अक्सर महत्वपूर्ण होती है, और निम्न आयामी समाधान आमतौर पर व्याख्या और कल्पना करना आसान होगा। हालाँकि, आयाम चयन भी अंडरफिटिंग और ओवरफिटिंग को संतुलित करने का एक मुद्दा है। असमानता डेटा के महत्वपूर्ण आयामों को छोड़कर निम्न आयामी समाधान कम हो सकते हैं। असमानता माप में शोर के लिए उच्च आयामी समाधान अधिक हो सकते हैं। Akaike सूचना मानदंड, बायेसियन सूचना मानदंड, बेयस कारक, या क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन जैसे मॉडल चयन उपकरण इस प्रकार उस आयाम का चयन करने के लिए उपयोगी हो सकते हैं जो अंडरफिटिंग और ओवरफिटिंग को संतुलित करता है।
 * 5) परिणामों की मैपिंग और आयामों को परिभाषित करना - सांख्यिकीय कार्यक्रम (या संबंधित मॉड्यूल) परिणामों को मैप करेगा। नक्शा प्रत्येक उत्पाद को प्लॉट करेगा (आमतौर पर द्वि-आयामी अंतरिक्ष में)। उत्पादों की एक दूसरे से निकटता यह दर्शाती है कि वे कितने समान हैं या उन्हें कितना पसंद किया जाता है, यह इस बात पर निर्भर करता है कि किस दृष्टिकोण का उपयोग किया गया था। एम्बेडिंग के आयाम वास्तव में सिस्टम व्यवहार के आयामों के अनुरूप कैसे हैं, हालांकि, यह स्पष्ट नहीं है। यहां, पत्राचार के बारे में एक व्यक्तिपरक निर्णय किया जा सकता है (अवधारणात्मक मानचित्रण देखें)।
 * 6) विश्वसनीयता और वैधता के लिए परिणामों का परीक्षण करें - यह निर्धारित करने के लिए आर चुकता की गणना करें कि स्केल किए गए डेटा के किस अनुपात का MDS प्रक्रिया द्वारा हिसाब लगाया जा सकता है। 0.6 का एक आर-वर्ग न्यूनतम स्वीकार्य स्तर माना जाता है।  0.8 का एक आर-वर्ग मीट्रिक स्केलिंग के लिए अच्छा माना जाता है और .9 गैर-मीट्रिक स्केलिंग के लिए अच्छा माना जाता है। अन्य संभावित परीक्षण क्रुस्कल का तनाव, विभाजित डेटा परीक्षण, डेटा स्थिरता परीक्षण (यानी, एक ब्रांड को समाप्त करना), और परीक्षण-पुनः परीक्षण विश्वसनीयता हैं।
 * 7) परिणामों की व्यापक रूप से रिपोर्ट करें - मैपिंग के साथ, कम से कम दूरी माप (जैसे, सोरेनसन इंडेक्स, जैकार्ड इंडेक्स) और विश्वसनीयता (जैसे, तनाव मूल्य) दी जानी चाहिए। एल्गोरिदम (उदाहरण के लिए, क्रुस्कल, माथेर) देने की भी सलाह दी जाती है, जिसे अक्सर उपयोग किए जाने वाले प्रोग्राम द्वारा परिभाषित किया जाता है (कभी-कभी एल्गोरिथम रिपोर्ट की जगह), यदि आपने एक स्टार्ट कॉन्फ़िगरेशन दिया है या एक यादृच्छिक विकल्प है, तो रनों की संख्या, आयाम का मूल्यांकनमोंटे कार्लो विधि पद्धति के परिणाम, पुनरावृत्तियों की संख्या, स्थिरता का मूल्यांकन और प्रत्येक अक्ष (आर-स्क्वायर) का आनुपातिक विचरण।

कार्यान्वयन

 * ELKI में दो MDS कार्यान्वयन शामिल हैं।
 * MATLAB में दो MDS कार्यान्वयन शामिल हैं (क्रमशः शास्त्रीय (cmdscale) और गैर-शास्त्रीय (mdscale) MDS के लिए)।
 * R (प्रोग्रामिंग भाषा) कई MDS कार्यान्वयन प्रदान करता है, उदा. आधार cmdscale फ़ंक्शन, पैकेज smacof (एमएमडीएस और एनएमडीएस), और शाकाहारी (भारित एमडीएस)।
 * स्किकिट-लर्न में फंक्शन होता है ].org/stable/modules/generated/sklearn.manifold.MDS.html sklearn.manifold.MDS]।

यह भी देखें

 * डेटा क्लस्टरिंग
 * कारक विश्लेषण
 * विभेदक विश्लेषण
 * आयामीता में कमी
 * दूरी ज्यामिति
 * केली-मेंजर निर्धारक
 * संपो की मैपिंग
 * सहसंबंधों की प्रतीकात्मकता