पर्याप्त आयाम में कमी

आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए एक प्रतिमान है जो पर्याप्त आंकड़ों की अवधारणा के साथ आयाम में कमी के विचारों को जोड़ता है।

आयाम में कमी लंबे समय से प्रतिगमन विश्लेषण का प्राथमिक लक्ष्य रहा है। एक प्रतिक्रिया चर y और एक p-आयामी भविष्यवक्ता वेक्टर को देखते हुए $$\textbf{x}$$, प्रतिगमन विश्लेषण का उद्देश्य वितरण का अध्ययन करना है $$y\mid\textbf{x}$$, का सशर्त वितरण $$y$$ दिया गया $$\textbf{x}$$. आयाम में कमी एक कार्य है $$R(\textbf{x})$$ वह मानचित्र $$\textbf{x}$$ के एक सबसेट के लिए $$\mathbb{R}^k$$, k < p, जिससे का आयाम (वेक्टर स्थान) कम हो जाता है $$\textbf{x}$$. उदाहरण के लिए, $$R(\textbf{x})$$ के एक या अधिक रैखिक संयोजन हो सकते हैं $$\textbf{x}$$.

एक आयाम में कमी $$R(\textbf{x})$$ का वितरण पर्याप्त कहा जाता है $$y\mid R(\textbf{x})$$ के समान है $$y\mid\textbf{x}$$. दूसरे शब्दों में, के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी नहीं खोई है $$\textbf{x}$$ यदि कमी पर्याप्त है।

ग्राफिकल प्रेरणा
प्रतिगमन सेटिंग में, वितरण को संक्षेप में प्रस्तुत करना अक्सर उपयोगी होता है $$y\mid\textbf{x}$$ रेखांकन। उदाहरण के लिए, कोई स्कैटर प्लॉट पर विचार कर सकता है $$y$$ बनाम एक या अधिक भविष्यवक्ताओं। एक स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है, एक पर्याप्त सारांश प्लॉट कहलाता है।

कब $$\textbf{x}$$ उच्च-आयामी है, खासकर जब $$p\geq 3$$, डेटा को कम किए बिना पर्याप्तता सारांश भूखंडों का निर्माण और नेत्रहीन व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को एक कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। हालाँकि, यदि पर्याप्त आयाम कमी मौजूद है $$R(\textbf{x})$$ छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट $$y$$ बनाम $$R(\textbf{x})$$ निर्माण किया जा सकता है और सापेक्ष आसानी से व्याख्या की जा सकती है।

इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल अंतर्ज्ञान की अनुमति देता है $$y\mid\textbf{x}$$, जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता।

अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है जिसमें रैखिक संयोजन शामिल होते हैं $$\textbf{x}$$. इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।

डायमेंशन रिडक्शन सबस्पेस
कल्पना करना $$R(\textbf{x}) = A^T\textbf{x}$$ एक पर्याप्त आयाम कमी है, जहां $$A$$ एक है $$p\times k$$ मैट्रिक्स (गणित) रैंक के साथ (रैखिक बीजगणित) $$k\leq p$$. फिर प्रतिगमन जानकारी के लिए $$y\mid\textbf{x}$$ के वितरण का अध्ययन करके ज्ञात किया जा सकता है $$y\mid A^T\textbf{x}$$, और की साजिश $$y$$ बनाम $$A^T\textbf{x}$$ एक पर्याप्त सारांश प्लॉट है।

व्यापकता के नुकसान के बिना, केवल सदिश अंतरिक्ष रैखिक के स्तंभों द्वारा फैला हुआ है $$A$$ विचार करने की आवश्यकता है। होने देना $$\eta$$ के स्तंभ स्थान के लिए एक आधार (रैखिक बीजगणित) बनें $$A$$, और अंतरिक्ष को फैला दें $$\eta$$ द्वारा निरूपित किया जाए $$\mathcal{S}(\eta)$$. यह एक पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है


 * $$F_{y\mid x} = F_{y\mid\eta^Tx},$$

कहाँ $$F$$ उपयुक्त संचयी वितरण समारोह को दर्शाता है। इस संपत्ति को व्यक्त करने का एक और तरीका है


 * $$y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},$$

या $$y$$ की सशर्त स्वतंत्रता है $$\textbf{x}$$, दिया गया $$\eta^T\textbf{x}$$. फिर उपक्षेत्र $$\mathcal{S}(\eta)$$ एक डायमेंशन रिडक्शन सबस्पेस (DRS) के रूप में परिभाषित किया गया है।

संरचनात्मक आयाम
प्रतिगमन के लिए $$y\mid\textbf{x}$$, संरचनात्मक आयाम, $$d$$, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या है $$\textbf{x}$$ के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है $$y\mid\textbf{x}$$. दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मानचित्र है $$\textbf{x}$$ के एक सबसेट के लिए $$\mathbb{R}^d$$. संबंधित डीआरएस डी-डायमेंशनल होगा।

न्यूनतम आयाम कमी उप-स्थान
एक उपस्थान $$\mathcal{S}$$ के लिए न्यूनतम DRS कहा जाता है $$y\mid\textbf{x}$$ यदि यह एक DRS है और इसका आयाम अन्य सभी DRS से कम या बराबर है $$y\mid\textbf{x}$$. एक न्यूनतम डीआरएस $$\mathcal{S}$$ आवश्यक रूप से अद्वितीय नहीं है, लेकिन इसका आयाम संरचनात्मक आयाम के बराबर है $$d$$ का $$y\mid\textbf{x}$$, परिभाषा से।

अगर $$\mathcal{S}$$ आधार है $$\eta$$ और एक न्यूनतम DRS है, तो y बनाम का प्लॉट है $$\eta^T\textbf{x}$$ एक न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (d + 1)-आयामी है।

केंद्रीय उपस्थान
यदि एक उपक्षेत्र $$\mathcal{S}$$ के लिए डीआरएस है $$y\mid\textbf{x}$$, और अगर $$\mathcal{S}\subset\mathcal{S}_{drs}$$ अन्य सभी ड्रेस के लिए $$\mathcal{S}_{drs}$$, तो यह एक केंद्रीय आयाम कमी उप-स्थान है, या बस एक केंद्रीय उप-स्थान है, और इसे इसके द्वारा दर्शाया गया है $$\mathcal{S}_{y\mid x}$$. दूसरे शब्दों में, के लिए एक केंद्रीय उप-स्थान $$y\mid\textbf{x}$$ मौजूद है अगर और केवल अगर चौराहा $\bigcap\mathcal{S}_{drs}$ सभी डायमेंशन रिडक्शन सबस्पेस भी एक डायमेंशन रिडक्शन सबस्पेस है, और वह चौराहा केंद्रीय सबस्पेस है $$\mathcal{S}_{y\mid x}$$.

केंद्रीय उपक्षेत्र $$\mathcal{S}_{y\mid x}$$ चौराहे के कारण जरूरी नहीं है $\bigcap\mathcal{S}_{drs}$ जरूरी नहीं कि डीआरएस हो। हालांकि, यदि $$\mathcal{S}_{y\mid x}$$ मौजूद है, तो यह अद्वितीय न्यूनतम आयाम कमी उप-स्थान भी है।

केंद्रीय उपस्थान
का अस्तित्व जबकि केंद्रीय उप-स्थान का अस्तित्व $$\mathcal{S}_{y\mid x}$$ प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके तहत इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:


 * होने देना $$\mathcal{S}_1$$ और $$\mathcal{S}_2$$ के लिए आयाम कमी उप-स्थान बनें $$y\mid\textbf{x}$$. अगर $$\textbf{x}$$ संभाव्यता घनत्व समारोह है $$f(a) > 0$$ सभी के लिए $$a\in\Omega_x$$ और $$f(a) = 0$$ हर जगह, कहाँ $$\Omega_x$$ उत्तल सेट है, फिर चौराहा $$\mathcal{S}_1\cap\mathcal{S}_2$$ एक आयाम कमी उप-स्थान भी है।

यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उप-स्थान $$\mathcal{S}_{y\mid x}$$ ऐसे के लिए मौजूद है $$\textbf{x}$$.

आयाम कम करने के तरीके
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई मौजूदा तरीके हैं। उदाहरण के लिए, कटा हुआ उलटा प्रतिगमन (SIR) और कटा हुआ औसत विचरण अनुमान (SAVE) 1990 के दशक में पेश किया गया था और व्यापक रूप से उपयोग किया जाना जारी है। हालांकि एसआईआर मूल रूप से एक प्रभावी आयाम को कम करने वाले उप-स्थान का अनुमान लगाने के लिए डिज़ाइन किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उप-स्थान का अनुमान लगाता है, जो आम तौर पर अलग है।

आयाम में कमी के लिए और अधिक हाल के तरीकों में संभावना कार्य-आधारित पर्याप्त आयाम में कमी शामिल है, व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उप-स्थान का अनुमान लगाना, केंद्रीय समाधान स्थान का आकलन, चित्रमय प्रतिगमन, लिफाफा मॉडल, और प्रमुख समर्थन वेक्टर मशीन। इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।

प्रधान घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के तरीके पर्याप्तता सिद्धांत पर आधारित नहीं हैं।

उदाहरण: रैखिक प्रतिगमन
प्रतिगमन मॉडल पर विचार करें


 * $$y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.$$

ध्यान दें कि का वितरण $$y\mid\textbf{x}$$ के वितरण के समान है $$y\mid\beta^T\textbf{x}$$. इसलिए, की अवधि $$\beta$$ एक आयाम कमी उप-स्थान है। भी, $$\beta^T\textbf{x}$$ 1-आयामी है (जब तक $$\beta=\textbf{0}$$), तो इस प्रतिगमन का संरचनात्मक आयाम है $$d=1$$.

सामान्य न्यूनतम वर्ग अनुमान $$\hat{\beta}$$ का $$\beta$$ संगत अनुमानक है, और इसलिए की अवधि $$\hat{\beta}$$ का एक सतत अनुमानक है $$\mathcal{S}_{y\mid x}$$. का कथानक $$y$$ बनाम $$\hat{\beta}^T\textbf{x}$$ इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।

यह भी देखें

 * आयाम में कमी
 * कटा हुआ उलटा प्रतिगमन
 * प्रमुख कंपोनेंट विश्लेषण
 * रैखिक विभेदक विश्लेषण
 * परिमाणिकता का अभिशाप
 * बहुरेखीय उप-अंतरिक्ष अधिगम

संदर्भ

 * Cook, R.D. (1998) Regression Graphics: Ideas for Studying Regressions through Graphics, Wiley Series in Probability and Statistics. Regression Graphics.
 * Cook, R.D. and Adragni, K.P. (2009) "Sufficient Dimension Reduction and Prediction in Regression", Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906), 4385–4405. Full-text
 * Cook, R.D. and Weisberg, S. (1991) "Sliced Inverse Regression for Dimension Reduction: Comment", Journal of the American Statistical Association, 86(414), 328–332. Jstor
 * Li, K-C. (1991) "Sliced Inverse Regression for Dimension Reduction", Journal of the American Statistical Association, 86(414), 316–327. Jstor

बाहरी संबंध

 * Sufficient Dimension Reduction