प्रतिगमन क्षीणन

प्रतिगमन क्षीणन पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, स्वतंत्र चर में त्रुटियों के कारण रैखिक प्रतिगमन प्रतिगमन स्लोप का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की पूर्वाग्रह (सांख्यिकी) है।

परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त शून्य के समीप पहुंचना चाहिए। यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।

स्लोप सुधार
प्रतिगमन स्लोप और अन्य प्रतिगमन गुणांक को निम्नानुसार अलग किया जा सकता है।

एक निश्चित x चर का स्थिति
यह स्थिति कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है। इसे सामान्य रूप से कुल न्यूनतम वर्ग और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है।

यादृच्छिक रूप से वितरित x चर का स्थिति
वह स्थिति जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।

कुछ मान्यताओं (सामान्यतः सामान्य वितरण मान्यताओं) के तहत वास्तविक स्लोप और अपेक्षित अनुमानित स्लोप के बीच एक ज्ञात अनुपात होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप को ठीक करते हैं। शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो। वेन फुलर (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।

ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है। रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं। कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।

सामान्यतः, संरचनात्मक मॉडल के विधियों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।

एकाधिक एक्स चर
परिवर्तनशीलता (संभवतः सहसंबद्ध) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है। अन्य गैर-रैखिक मॉडल, जैसे उत्तरजीविता विश्लेषण के लिए आनुपातिक खतरों के मॉडल, परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।

सहसंबंध सुधार
चार्ल्स स्पीयरमैन ने 1904 में प्रतिगमन क्षीणन पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की, यानी, माप त्रुटि के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक को मुक्त करना है।

मापन और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है। सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में पियर्सन सहसंबंध गुणांक का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का गणना कि जाती है।

सूत्रीकरण
मान लीजिए $$\beta$$ और $$\theta$$ किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मान हैं। ये मान इस धारणा के आधार पर परिवर्तनशील हैं कि वे जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। मान लीजिए कि $$\hat{\beta}$$ और $$\hat{\theta}$$, $$\beta$$ और $$\theta$$ के अनुमान हैं जो सीधे रूप से त्रुटि के साथ अवलोकन द्वारा या राश मॉडल जैसे माप मॉडल के अनुप्रयोग से प्राप्त किए गए हैं। चलो भी



\hat{\beta} = \beta + \epsilon_{\beta}, \quad\quad \hat{\theta} = \theta + \epsilon_\theta, $$ जहाँ $$\epsilon_{\beta}$$ और $$\epsilon_\theta$$ अनुमान $$\hat{\beta}$$ और $$\hat{\theta}$$. से जुड़ी माप त्रुटियां हैं।

अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है



\operatorname{corr}(\hat{\beta},\hat{\theta})= \frac{\operatorname{cov}(\hat{\beta},\hat{\theta})}{\sqrt{\operatorname{var}[\hat{\beta}]\operatorname{var}[\hat{\theta}}]} $$

=\frac{\operatorname{cov}(\beta+\epsilon_{\beta}, \theta+\epsilon_\theta)}{\sqrt{\operatorname{var}[\beta+\epsilon_{\beta}]\operatorname{var}[\theta+\epsilon_\theta]}}, $$ जो, यह मानते हुए कि त्रुटियां एक दूसरे के साथ और सही विशेषता मानों के साथ असंबद्ध हैं, देता है



\operatorname{corr}(\hat{\beta},\hat{\theta})= \frac{\operatorname{cov}(\beta,\theta)}{\sqrt{(\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta])(\operatorname{var}[\theta]+\operatorname{var}[\epsilon_\theta])}} $$

=\frac{\operatorname{cov}(\beta,\theta)}{\sqrt{(\operatorname{var}[\beta]\operatorname{var}[\theta])}}.\frac{\sqrt{\operatorname{var}[\beta]\operatorname{var}[\theta]}}{\sqrt{(\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta])(\operatorname{var}[\theta]+\operatorname{var}[\epsilon_\theta])}} $$

=\rho \sqrt{R_\beta R_\theta}, $$

जहां $$R_\beta$$ $$\beta$$ के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, $$R_\beta$$ एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है:



R_\beta=\frac{\operatorname{var}[\beta]}{\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta]}=\frac{\operatorname{var}[\hat{\beta}]-\operatorname{var}[\epsilon_\beta]}{\operatorname{var}[\hat{\beta}]}, $$ जहां व्यक्ति अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों $$\epsilon_\beta$$ के विचरण का अनुमान देती है। मानक त्रुटियाँ आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (रैश मॉडल अनुमान देखें)।

पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है



\rho = \frac{\mbox{corr}(\hat{\beta},\hat{\theta})}{\sqrt{R_\beta R_\theta}}. $$ अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। मौलिक परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।

दो यादृच्छिक चर $$X^\prime$$ और $$Y^\prime$$ को मापे गए सहसंबंध $$r_{xy}$$ के साथ $$X$$और $$Y$$के रूप में मापा गया है और प्रत्येक चर, $$r_{xx}$$ और $$r_{yy}$$ के लिए एक ज्ञात विश्वसनीयता दी गई है, $$X^\prime$$ के बीच अनुमानित सहसंबंध है और $$Y^\prime$$ क्षीणन के लिए सही किया गया है
 * $$r_{x'y'} = \frac{r_{xy}}{\sqrt{r_{xx}r_{yy}}}$$.

कितनी अच्छी तरह चर मापा जाता है एक्स और y के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और y' को सही विश्वसनीयता के साथ माप सकता है।

इस प्रकार यदि $$X$$और $$Y$$को स्वतंत्र त्रुटियों के साथ अंतर्निहित चर $$X'$$ और $$Y'$$ का अपूर्ण माप माना जाता है, तो $$r_{x'y'}$$ $$X'$$ और $$Y'$$ के बीच सही सहसंबंध का अनुमान लगाता है।

क्या सुधार आवश्यक है?
प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; पूर्वानुमानित मॉडलिंग अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप पर देखा गया रक्तचाप हो सकता है। यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप x पर y की प्रतिगमन रेखा से कम होता है।

क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है।

ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप की आवश्यकता है, न कि w पर y की है यह महामारी विज्ञान में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े नैदानिक ​​परीक्षण ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप से लगाया जाना चाहिए।

एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक ​​​​अभ्यास में सामान्य से अधिक स्पष्टता के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक ​​परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक ​​​​अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।

चेतावनी
इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के स्थिति में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के रूपरेखा ) को मानते हुए।

यह चर्चा की गई है कि प्रतिगमन क्षीणन पड़ने के लिए एक खराब निष्पादित सुधार विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक हानि पहुंचा सकता है।

अग्रिम पठन
प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था। जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।

यह भी देखें

 * एरर-इन-वैरिएबल मॉडल
 * परिमाणीकरण (सिग्नल प्रोसेसिंग) - व्याख्यात्मक या स्वतंत्र चर में त्रुटि का एक सामान्य स्रोत