निकटवर्ती घटकों का विश्लेषण

पड़ोस घटकों का विश्लेषण सांख्यिकीय वर्गीकरण के लिए एक पर्यवेक्षित सीखने की विधि है जो डेटा पर दिए गए मीट्रिक (गणित) के अनुसार अलग-अलग वर्गों में बहुभिन्नरूपी सांख्यिकी डेटा को विभाजित करता है। कार्यात्मक रूप से, यह K-निकटतम पड़ोसियों एल्गोरिथ्म के समान उद्देश्यों को पूरा करता है, और स्टोकेस्टिक निकटतम पड़ोसियों नामक संबंधित अवधारणा का प्रत्यक्ष उपयोग करता है।

परिभाषा
पड़ोस के घटकों के विश्लेषण का उद्देश्य इनपुट डेटा के रैखिक परिवर्तन को ढूंढकर दूरी मीट्रिक सीखना है ताकि औसत लीव-वन-आउट (एलओओ) वर्गीकरण प्रदर्शन परिवर्तित स्थान में अधिकतम हो। एल्गोरिथम की मुख्य अंतर्दृष्टि एक मैट्रिक्स है $$A$$ परिवर्तन के अनुरूप एक भिन्न उद्देश्य फ़ंक्शन को परिभाषित करके पाया जा सकता है $$A$$, इसके बाद कॉन्जुगेट ग्रेडिएंट विधि जैसे पुनरावृत्त सॉल्वर का उपयोग किया जाता है। इस एल्गोरिथम का एक लाभ यह है कि इसमें कक्षाओं की संख्या होती है $$k$$ के एक फलन के रूप में निर्धारित किया जा सकता है $$A$$, एक अदिश स्थिरांक तक। इसलिए, एल्गोरिदम का यह उपयोग मॉडल चयन के मुद्दे को संबोधित करता है।

स्पष्टीकरण
परिभाषित करने के लिए $$A$$, हम परिवर्तित स्थान में वर्गीकरण सटीकता का वर्णन करने वाले एक उद्देश्य फ़ंक्शन को परिभाषित करते हैं और निर्धारित करने का प्रयास करते हैं $$A^*$$ ताकि यह उद्देश्य कार्य अधिकतम हो सके।

$$A^* = \mbox{argmax}_A f(A)$$

लीव-वन-आउट (एलओओ) वर्गीकरण
किसी एकल डेटा बिंदु के वर्ग लेबल की सर्वसम्मति से भविष्यवाणी करने पर विचार करें $$k$$- दी गई दूरी मीट्रिक के साथ निकटतम पड़ोसी। इसे लीव-वन-आउट वर्गीकरण के रूप में जाना जाता है। हालाँकि, निकटतम-पड़ोसियों का समूह $$C_i$$ सभी बिंदुओं को एक रेखीय परिवर्तन से गुजारने के बाद काफी भिन्न हो सकता है। विशेष रूप से, किसी बिंदु के लिए पड़ोसियों का सेट तत्वों में सहज परिवर्तन के जवाब में अलग-अलग बदलावों से गुजर सकता है $$A$$, जिसका अर्थ है कि कोई भी वस्तुनिष्ठ कार्य $$f(\cdot)$$ किसी बिंदु के पड़ोसियों के आधार पर टुकड़ावार-स्थिर होगा, और इसलिए भिन्न नहीं होगा।

समाधान
हम स्टोकेस्टिक ग्रेडिएंट डिसेंट से प्रेरित दृष्टिकोण का उपयोग करके इस कठिनाई को हल कर सकते हैं। पर विचार करने के बजाय $$k$$-एलओओ-वर्गीकरण में प्रत्येक परिवर्तित बिंदु पर निकटतम पड़ोसी, हम संपूर्ण रूपांतरित डेटा सेट को स्टोकेस्टिक निकटतम पड़ोसियों के रूप में मानेंगे। हम किसी दिए गए LOO-वर्गीकरण बिंदु और रूपांतरित स्थान में एक दूसरे बिंदु के बीच वर्गित यूक्लिडियन दूरी के सॉफ्टमैक्स सक्रियण फ़ंक्शन का उपयोग करके इन्हें परिभाषित करते हैं:

$$p_{ij} = \begin{cases} \frac{e^{-||Ax_i - Ax_j||^2}}{\sum_{k \neq i} e^{-||Ax_i - Ax_k||^2}}, & \mbox{if} j \ne i \\ 0, & \mbox{if} j = i \end{cases} $$ डेटा बिंदु को सही ढंग से वर्गीकृत करने की संभावना $$i$$ इसके प्रत्येक पड़ोसी के बिंदुओं को एक ही वर्ग में वर्गीकृत करने की संभावना है $$C_i$$:

$$p_i = \sum_{j \in C_i} p_{ij} \quad $$ कहाँ $$p_{ij}$$ पड़ोसी को वर्गीकृत करने की संभावना है $$j$$ बिंदु का $$i$$.

LOO वर्गीकरण का उपयोग करके उद्देश्य फ़ंक्शन को परिभाषित करें, इस बार संपूर्ण डेटा सेट को स्टोकेस्टिक निकटतम पड़ोसियों के रूप में उपयोग करें:

$$f(A) = \sum_i \sum_{j \in C_i} p_{ij} = \sum_i p_i$$ ध्यान दें कि स्टोकेस्टिक निकटतम पड़ोसियों के तहत, एक बिंदु के लिए सर्वसम्मति वर्ग $$i$$ अपने पड़ोसियों पर वितरण से खींचे गए नमूनों की अनंत संख्या की सीमा में एक बिंदु के वर्ग का अपेक्षित मूल्य है $$j \in C_i$$ अर्थात: $$P(Class(X_i) = Class(X_j)) = p_{ij}$$. इस प्रकार अनुमानित वर्ग प्रत्येक दूसरे बिंदु के वर्गों का एक संयोजन है, प्रत्येक के लिए सॉफ्टमैक्स फ़ंक्शन द्वारा भारित होता है $$j \in C_j$$ कहाँ $$C_j$$ अब संपूर्ण परिवर्तित डेटा सेट है।

वस्तुनिष्ठ फलन का यह विकल्प बेहतर है क्योंकि यह इसके संबंध में भिन्न है $$A$$ (निरूपित करें $$x_{ij} = x_i - x_j$$):

$$ \frac{\partial f}{\partial A} = - 2A \sum_i \sum_{j \in C_i} p_{ij} \left ( x_{ij} x_{ij}^T - \sum_k p_{ik} x_{ik} x_{ik}^T \right ) $$

$$ = 2A \sum_i \left ( p_i\sum_k p_{ik}x_{ik}x_{ik}^T - \sum_{j \in C_i} p_{ij}x_{ij}x_{ij}^T \right ) $$ के लिए एक ढाल प्राप्त करना $$A$$ इसका मतलब है कि इसे कॉन्जुगेट ग्रेडिएंट विधि जैसे पुनरावृत्त सॉल्वर के साथ पाया जा सकता है। ध्यान दें कि व्यवहार में, रुचि के बिंदु से दूर के बिंदुओं के तेजी से घटते योगदान के कारण ग्रेडिएंट के अधिकांश आंतरिक शब्द महत्वहीन योगदान का मूल्यांकन करते हैं। इसका मतलब यह है कि ग्रेडिएंट के आंतरिक योग को छोटा किया जा सकता है, जिसके परिणामस्वरूप बड़े डेटा सेट के लिए भी उचित गणना समय प्राप्त होता है।

वैकल्पिक सूत्रीकरण
अधिकतम $$f(\cdot)$$ को कम करने के बराबर है $$L_1$$-अनुमानित वर्ग वितरण और वास्तविक वर्ग वितरण के बीच की दूरी (यानी: जहां $$p_i$$ प्रेरक $$A$$ सभी 1 के बराबर हैं)। एक प्राकृतिक विकल्प केएल-डाइवर्जेंस है, जो निम्नलिखित उद्देश्य फ़ंक्शन और ग्रेडिएंट को प्रेरित करता है: (गोल्डबर्गर 2005)

$$ g(A) = \sum_i \log \left ( \sum_{j \in C_i} p_{ij} \right ) = \sum_i \log (p_i) $$

$$ \frac{\partial g}{\partial A} = 2A \sum_i \left ( \sum_k p_{ik} x_{ik} x_{ik}^T - \frac{\sum_{j \in C_i} p_{ij} x_{ij} x_{ij}^T }{\sum_{j \in C_i} p_{ij}} \right ) $$ व्यवहार में, का अनुकूलन $$A$$ इस फ़ंक्शन का उपयोग करने से मूल के समान प्रदर्शन परिणाम मिलते हैं।

इतिहास और पृष्ठभूमि
पड़ोस के घटकों का विश्लेषण 2004 में टोरंटो विश्वविद्यालय के कंप्यूटर विज्ञान विभाग में जैकब गोल्डबर्गर, सैम रोविस, रुस्लान सलाखुदिनोव और ज्योफ हिंटन द्वारा विकसित किया गया था।

यह भी देखें

 * वर्णक्रमीय क्लस्टरिंग
 * बड़ा अंतर निकटतम पड़ोसी

संदर्भ

 * J. Goldberger, G. Hinton, S. Roweis, R. Salakhutdinov. (2005) Neighbourhood Components Analysis. Advances in Neural Information Processing Systems. 17, 513–520, 2005.

सॉफ्टवेयर

 * mlpack में C++ कार्यान्वयन शामिल है
 * nca (C++)
 * स्किकिट-लर्न का NeighborhoodComponentsAnalyss कार्यान्वयन (पायथन (प्रोग्रामिंग भाषा))

श्रेणी:सांख्यिकीय वर्गीकरण