प्रतिगमन क्षीणन

प्रतिगमन कमजोर पड़ने, जिसे प्रतिगमन क्षीणन के रूप में भी जाना जाता है, स्वतंत्र चर में त्रुटियों के कारण रैखिक प्रतिगमन प्रतिगमन ढलान का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की पूर्वाग्रह (सांख्यिकी) है।

एक परिणामी चर y के संबंध के लिए एक पूर्वसूचक चर x के संबंध के लिए एक सीधी रेखा पर विचार करें, और रेखा के ढलान का अनुमान लगाएं। 'वाई' चर में सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या यादृच्छिक शोर अनुमानित ढलान में अनिश्चितता का कारण बनता है, लेकिन पूर्वाग्रह नहीं (आंकड़े): औसतन, प्रक्रिया सही ढलान की गणना करती है। हालांकि, 'x' चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक शोर अनुमानित ढलान (साथ ही अशुद्धि) में पूर्वाग्रह का कारण बनता है। x माप में जितना अधिक विचरण होगा, अनुमानित ढलान को वास्तविक मान के बजाय शून्य के करीब पहुंचना चाहिए। यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में शोर एक पूर्वाग्रह को प्रेरित करता है, लेकिन परिणाम चर y में शोर नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की भविष्यवाणी करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की भविष्यवाणी करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।

ढलान सुधार
प्रतिगमन ढलान और अन्य प्रतिगमन गुणांकों को निम्नानुसार अलग किया जा सकता है।

एक निश्चित x चर
का मामला वह मामला जो x निश्चित है, लेकिन शोर से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है। इसे कुल कम से कम वर्गों का उपयोग करके ठीक किया जा सकता है और एरर-इन-वैरिएबल मॉडल सामान्य रूप से।

यादृच्छिक रूप से वितरित x चर
का मामला मामला है कि एक्स चर यादृच्छिक रूप से उत्पन्न होता है जिसे संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से नमूने के रूप में भर्ती किया जाता है, और उनकी विशेषताओं जैसे कि रक्तचाप को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।

कुछ मान्यताओं (आमतौर पर, सामान्य वितरण मान्यताओं) के तहत वास्तविक ढलान और अपेक्षित अनुमानित ढलान के बीच एक ज्ञात अनुपात होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई तरीकों की समीक्षा करते हैं और इसलिए अनुमानित ढलान को ठीक करते हैं। शब्द प्रतिगमन कमजोर पड़ने का अनुपात, हालांकि सभी लेखकों द्वारा समान तरीके से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार लागू होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य तरीकों के लिए संदर्भित करता है, एक्स चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, ताकि कोई पूर्वाग्रह उत्पन्न न हो। वेन फुलर (1987) प्रतिगमन कमजोर पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है। ह्यूजेस (1993) से पता चलता है कि प्रतिगमन कमजोर पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग लागू होता है। रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग लागू होती हैं। कैरोल एट अल। (1995) अरैखिक मॉडलों में प्रतिगमन कमजोर पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम मामले के रूप में प्रतिगमन कमजोर पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी शामिल किए जा सकते हैं। सामान्य तौर पर, संरचनात्मक मॉडल के तरीकों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।

एकाधिक एक्स चर
परिवर्तनशीलता (संभवतः सहसंबद्ध) के अधीन कई पूर्वसूचक चर के मामले का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।  अन्य गैर-रैखिक मॉडल, जैसे उत्तरजीविता विश्लेषण के लिए आनुपातिक खतरों के मॉडल, परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।

सहसंबंध सुधार
चार्ल्स स्पीयरमैन ने 1904 में प्रतिगमन कमजोर पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की, यानी, माप त्रुटि के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक से छुटकारा पाने के लिए। मापन और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है। सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में पियर्सन सहसंबंध गुणांक का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का हिसाब लगाया जाता है।

सूत्रीकरण
होने देना $$\beta$$ और $$\theta$$ किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मूल्य हों। ये मूल्य इस धारणा के आधार पर चर हैं कि वे सांख्यिकीय जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। होने देना $$\hat{\beta}$$ और $$\hat{\theta}$$ का अनुमान हो $$\beta$$ और $$\theta$$ या तो प्रत्यक्ष रूप से अवलोकन-के-त्रुटि से या माप मॉडल के अनुप्रयोग से, जैसे  रैपिड मॉडल  से व्युत्पन्न। इसके अलावा, चलो



\hat{\beta} = \beta + \epsilon_{\beta}, \quad\quad \hat{\theta} = \theta + \epsilon_\theta, $$ कहाँ $$\epsilon_{\beta}$$ और $$\epsilon_\theta$$ अनुमानों से जुड़ी माप त्रुटियाँ हैं $$\hat{\beta}$$ और $$\hat{\theta}$$.

अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है



\operatorname{corr}(\hat{\beta},\hat{\theta})= \frac{\operatorname{cov}(\hat{\beta},\hat{\theta})}{\sqrt{\operatorname{var}[\hat{\beta}]\operatorname{var}[\hat{\theta}}]} $$

=\frac{\operatorname{cov}(\beta+\epsilon_{\beta}, \theta+\epsilon_\theta)}{\sqrt{\operatorname{var}[\beta+\epsilon_{\beta}]\operatorname{var}[\theta+\epsilon_\theta]}}, $$ जो, यह मानते हुए कि त्रुटियां एक दूसरे के साथ और सही विशेषता मानों के साथ असंबद्ध हैं, देता है



\operatorname{corr}(\hat{\beta},\hat{\theta})= \frac{\operatorname{cov}(\beta,\theta)}{\sqrt{(\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta])(\operatorname{var}[\theta]+\operatorname{var}[\epsilon_\theta])}} $$

=\frac{\operatorname{cov}(\beta,\theta)}{\sqrt{(\operatorname{var}[\beta]\operatorname{var}[\theta])}}.\frac{\sqrt{\operatorname{var}[\beta]\operatorname{var}[\theta]}}{\sqrt{(\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta])(\operatorname{var}[\theta]+\operatorname{var}[\epsilon_\theta])}} $$

=\rho \sqrt{R_\beta R_\theta}, $$ कहाँ $$R_\beta$$ के अनुमानों के समुच्चय का पृथक्करण सूचकांक है $$\beta$$, जो क्रोनबैक के अल्फ़ा के अनुरूप है; यानी शास्त्रीय परीक्षण सिद्धांत के संदर्भ में, $$R_\beta$$ विश्वसनीयता गुणांक के समान है। विशेष रूप से, पृथक्करण सूचकांक निम्नानुसार दिया गया है:



R_\beta=\frac{\operatorname{var}[\beta]}{\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta]}=\frac{\operatorname{var}[\hat{\beta}]-\operatorname{var}[\epsilon_\beta]}{\operatorname{var}[\hat{\beta}]}, $$ जहां व्यक्ति के अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों के विचरण का अनुमान देती है, $$\epsilon_\beta$$. मानक त्रुटियां आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (राश मॉडल अनुमान देखें)।

पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है



\rho = \frac{\mbox{corr}(\hat{\beta},\hat{\theta})}{\sqrt{R_\beta R_\theta}}. $$ अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। शास्त्रीय परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।

दो यादृच्छिक चर दिए गए हैं $$X^\prime$$ और $$Y^\prime$$ के रूप में मापा गया $$X$$ और $$Y$$ मापा सहसंबंध के साथ $$r_{xy}$$ और एक ज्ञात विश्वसनीयता (सांख्यिकी) # प्रत्येक चर के लिए शास्त्रीय परीक्षण सिद्धांत, $$r_{xx}$$ और $$r_{yy}$$, के बीच अनुमानित सहसंबंध $$X^\prime$$ और $$Y^\prime$$ क्षीणन के लिए ठीक किया गया है
 * $$r_{x'y'} = \frac{r_{xy}}{\sqrt{r_{xx}r_{yy}}}$$.

कितनी अच्छी तरह चर मापा जाता है एक्स और वाई के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और वाई' को सही विश्वसनीयता के साथ माप सकता है।

इस प्रकार यदि $$X$$ और $$Y$$ अंतर्निहित चरों के अपूर्ण माप के रूप में लिया जाता है $$X'$$ और $$Y'$$ स्वतंत्र त्रुटियों के साथ, फिर $$r_{x'y'}$$ के बीच सही संबंध का अनुमान लगाता है $$X'$$ और $$Y'$$.

क्या सुधार आवश्यक है?
प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; भविष्य कहनेवाला मॉडलिंग अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। y को परिणाम चर होने दें, x सही भविष्यवक्ता चर हो, और w x का अनुमानित अवलोकन हो। उदाहरण के लिए, फ़्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक रोगी का सच्चा, दीर्घकालिक रक्तचाप हो सकता है, और w क्लिनिक में एक विशेष दौरे पर देखा गया रक्तचाप हो सकता है। यदि हम y और x के बीच संबंध में रुचि रखते हैं, लेकिन y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन कमजोर पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का ढलान x पर y की प्रतिगमन रेखा से कम होता है।

क्या यह मायने रखता है? भविष्यवाणी मॉडलिंग में, नहीं। मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में, यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष भविष्यवाणियां देता है।

ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की भविष्यवाणी है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की ढलान की आवश्यकता है, y पर w की नहीं। यह महामारी विज्ञान में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, शायद एक बड़े नैदानिक ​​परीक्षण ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; फिर y पर संभावित प्रभाव, नए उपचार के तहत, x पर y के प्रतिगमन में ढलान से अनुमान लगाया जाना चाहिए।

एक अन्य परिस्थिति भविष्य कहनेवाला मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, लेकिन (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक ​​​​अभ्यास में सामान्य से अधिक सटीकता के साथ मापा गया रक्तचाप शामिल है। इसका एक विशिष्ट उदाहरण नैदानिक ​​परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक ​​​​अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप आमतौर पर एक माप होता है।

चेतावनी
इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के मामले में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के ढांचे) को मानते हुए।

यह चर्चा की गई है कि प्रतिगमन कमजोर पड़ने के लिए एक खराब निष्पादित सुधार, विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक नुकसान पहुंचा सकता है।

अग्रिम पठन
Regression dilution was first mentioned, under the name attenuation, by Spearman (1904). Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).

यह भी देखें

 * एरर-इन-वैरिएबल मॉडल
 * परिमाणीकरण (सिग्नल प्रोसेसिंग) - व्याख्यात्मक या स्वतंत्र चर में त्रुटि का एक सामान्य स्रोत