पर्याप्त आयाम में कमी

आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ आयाम में कमी के विचारों को जोड़ता है।

आयाम में कमी लंबे समय से प्रतिगमन विश्लेषण का प्राथमिक लक्ष्य रहा है। प्रतिक्रिया चर y और p-आयामी पूर्वानुमान सदिश $$\textbf{x}$$ को देखते हुए, प्रतिगमन विश्लेषण का उद्देश्य $$y\mid\textbf{x}$$ वितरण का अध्ययन करना है। $$y$$ का सशर्त वितरण $$\textbf{x}$$ दिया गया। आयाम में कमी फलन $$R(\textbf{x})$$ है। जो $$\textbf{x}$$ कों उपसमुच्चय $$\mathbb{R}^k$$, k < p से मैप करता है। जिससे का आयाम (सदिश स्पेस) कम हो जाता है। $$\textbf{x}$$ का आयाम उदाहरण के लिए,$$\textbf{x}$$ $$R(\textbf{x})$$ के एक या अधिक रैखिक संयोजन हो सकते हैं।

आयाम में कमी $$R(\textbf{x})$$ का वितरण पर्याप्त कहा जाता है। यदि $$y\mid R(\textbf{x})$$ का वितरण $$\textbf{x}$$ $$y\mid\textbf{x}$$ के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में,$$\textbf{x}$$ के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है।

ग्राफिकल प्रेरणा
प्रतिगमन सेटिंग में,$$y\mid\textbf{x}$$ के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई $$y$$ बनाम एक या अधिक पूर्वानुमानो स्कैटर प्लॉट पर विचार कर सकता है। स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। पर्याप्त सारांश प्लॉट कहलाता है।

जब $$\textbf{x}$$ उच्च-आयामी है। जब $$p\geq 3$$, डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है $$R(\textbf{x})$$ छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट $$y$$ बनाम $$R(\textbf{x})$$ निर्माण किया जा सकता है और सापेक्ष सरलता से व्याख्या की जा सकती है।

इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल $$y\mid\textbf{x}$$ अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है।

अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है। जिसमें रैखिक संयोजन $$\textbf{x}$$ सम्मिलित होते हैं। इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।

आयाम में कमी उपसमुच्चय
मान लीजिए कि $$R(\textbf{x}) = A^T\textbf{x}$$ पर्याप्त आयाम कमी है। जहां A $$A$$ रैंक के साथ $$p\times k$$ आव्यूह (गणित) है। $$k\leq p$$ फिर $$y\mid\textbf{x}$$ के लिए रिग्रेशन जानकारी का अनुमान $$y\mid A^T\textbf{x}$$ के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। $$y\mid A^T\textbf{x}$$ पर्याप्त सारांश प्लॉट है।

सामान्यता की हानि के बिना, केवल सदिश स्पेस रैखिक $$A$$ के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना $$\eta$$ के स्तंभ स्पेस के लिए आधार (रैखिक बीजगणित) बनें $$A$$, और स्पेस $$\eta$$ को फैला दें और $$\mathcal{S}(\eta)$$ द्वारा निरूपित किया जाता है। यह पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है।


 * $$F_{y\mid x} = F_{y\mid\eta^Tx},$$

जहाँ $$F$$ उपयुक्त संचयी वितरण फलन को दर्शाता है। इस प्रोपर्टी को व्यक्त करने का एक और विधि है।


 * $$y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},$$

या y सशर्त रूप से $$y$$ दिए गए $$\eta^T\textbf{x}$$ से स्वतंत्र है। फिर उपसमुच्चय $$\mathcal{S}(\eta)$$ को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।

संरचनात्मक आयाम
प्रतिगमन के लिए $$y\mid\textbf{x}$$, संरचनात्मक आयाम, $$d$$, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या $$\textbf{x}$$ है। $$y\mid\textbf{x}$$ के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप $$\textbf{x}$$ है। $$\mathbb{R}^d$$ के उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।

न्यूनतम आयाम कमी उपसमुच्चय
उपसमुच्चय $$\mathcal{S}$$ के लिए न्यूनतम डीआरएस $$y\mid\textbf{x}$$ कहा जाता है। यदि यह डीआरएस है और इसका आयाम अन्य सभी डीआरएस $$y\mid\textbf{x}$$ से कम या समान है। न्यूनतम डीआरएस $$\mathcal{S}$$ आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम $$d$$ का $$y\mid\textbf{x}$$, के समान है।

यदि $$\mathcal{S}$$ आधार $$\eta$$ है और न्यूनतम डीआरएस है, तो y बनाम $$\eta^T\textbf{x}$$ का प्लॉट न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (d + 1)-आयामी है।

केंद्रीय उपसमुच्चय
यदि उपसमुच्चय $$\mathcal{S}$$ $$y\mid\textbf{x}$$ के लिए डीआरएस है, और यदि $$\mathcal{S}\subset\mathcal{S}_{drs}$$ अन्य सभी डीआरएस के लिए $$\mathcal{S}_{drs}$$, तो यह केंद्रीय आयाम कमी उपसमुच्चय है, या बस केंद्रीय उपसमुच्चय है, और इसे $$\mathcal{S}_{y\mid x}$$ दूसरे शब्दों में, $$y\mid\textbf{x}$$ के लिए केंद्रीय उपसमुच्चय उपस्थित है। यदि और केवल यदि प्रतिच्छेदन $\bigcap\mathcal{S}_{drs}$ सभी आयाम में कमी उपसमुच्चय भी आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय $$\mathcal{S}_{y\mid x}$$ है।

केंद्रीय उपसमुच्चय $$\mathcal{S}_{y\mid x}$$ अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन $\bigcap\mathcal{S}_{drs}$ आवश्यक रूप से डीआरएस नहीं है। चूँकि, यदि $$\mathcal{S}_{y\mid x}$$ उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।

केंद्रीय उपसमुच्चय का अस्तित्व
जबकि केंद्रीय उपसमुच्चय का अस्तित्व $$\mathcal{S}_{y\mid x}$$ प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:


 * माना $$\mathcal{S}_1$$ और $$\mathcal{S}_2$$ के लिए आयाम कमी उपसमुच्चय $$y\mid\textbf{x}$$ है। यदि $$\textbf{x}$$ संभाव्यता घनत्व $$f(a) > 0$$ फलन है सभी के $$a\in\Omega_x$$ और $$f(a) = 0$$ लिए है। जहाँ $$\Omega_x$$ उत्तल समुच्चय है, फिर प्रतिच्छेदन $$\mathcal{S}_1\cap\mathcal{S}_2$$ आयाम कमी उपसमुच्चय भी है।

यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय $$\mathcal{S}_{y\mid x}$$ ऐसे $$\textbf{x}$$ के लिए उपस्थित है।

आयाम कम करने के विधि
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, कटा हुआ व्युत्क्रम प्रतिगमन (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है। चूँकि एसआईआर मूल रूप से प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है।

आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है। व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना, केंद्रीय समाधान स्पेस का आकलन, चित्रमय प्रतिगमन, लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।

सिद्धांत घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के विधि पर्याप्त सिद्धांत पर आधारित नहीं हैं।

उदाहरण: रैखिक प्रतिगमन
प्रतिगमन मॉडल पर विचार करें


 * $$y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.$$

ध्यान दें कि $$y\mid\textbf{x}$$ का वितरण $$y\mid\beta^T\textbf{x}$$ के वितरण के समान है। इसलिए,$$\beta$$ की अवधि आयाम कमी उपसमुच्चय है। साथ ही, $$\beta^T\textbf{x}$$ 1-आयामी है (जब तक $$\beta=\textbf{0}$$), तो इस प्रतिगमन का संरचनात्मक आयाम $$d=1$$ है।

सामान्य न्यूनतम वर्ग अनुमान $$\hat{\beta}$$ का $$\beta$$ संगत अनुमानक है, और इसलिए $$\hat{\beta}$$ की अवधि $$\mathcal{S}_{y\mid x}$$ का सतत अनुमानक है। $$y$$ का कथानक बनाम $$\hat{\beta}^T\textbf{x}$$ इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।

यह भी देखें

 * आयाम में कमी
 * कटा हुआ व्युत्क्रम प्रतिगमन
 * प्रमुख कंपोनेंट विश्लेषण
 * रैखिक विभेदक विश्लेषण
 * परिमाणिकता का अपशब्द
 * बहुरेखीय उप-स्पेस अधिगम

संदर्भ

 * Cook, R.D. (1998) Regression Graphics: Ideas for Studying Regressions through Graphics, Wiley Series in Probability and Statistics. Regression Graphics.
 * Cook, R.D. and Adragni, K.P. (2009) "Sufficient Dimension Reduction and Prediction in Regression", Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906), 4385–4405. Full-text
 * Cook, R.D. and Weisberg, S. (1991) "Sliced Inverse Regression for Dimension Reduction: Comment", Journal of the American Statistical Association, 86(414), 328–332. Jstor
 * Li, K-C. (1991) "Sliced Inverse Regression for Dimension Reduction", Journal of the American Statistical Association, 86(414), 316–327. Jstor

बाहरी संबंध

 * Sufficient Dimension Reduction