अरेखीय प्रतिगमन

आंकड़ों में, नॉनलाइनियर रिग्रेशन, रिग्रेशन विश्लेषण का एक रूप है जिसमें अवलोकन संबंधी डेटा को एक फ़ंक्शन द्वारा मॉडल किया जाता है जो मॉडल मापदंडों का एक नॉनलाइनियर संयोजन है और एक या अधिक स्वतंत्र चर पर निर्भर करता है। डेटा को क्रमिक सन्निकटन की विधि द्वारा फिट किया जाता है।

सामान्य
अरेखीय प्रतिगमन में, प्रपत्र का एक सांख्यिकीय मॉडल,


 * $$ \mathbf{y} \sim f(\mathbf{x}, \boldsymbol\beta)$$

स्वतंत्र चरों के एक वेक्टर से संबंधित है, $$\mathbf{x}$$, और इससे जुड़े अवलोकित आश्रित चर, $$\mathbf{y}$$. कार्यक्रम $$f$$ पैरामीटर्स के वेक्टर के घटकों में अरेखीय है $$\beta$$, लेकिन अन्यथा मनमाना। उदाहरण के लिए, एंजाइम कैनेटीक्स के लिए माइकलिस-मेंटेन मॉडल में दो पैरामीटर और एक स्वतंत्र चर है, जो इससे संबंधित है $$f$$ द्वारा:


 * $$ f(x,\boldsymbol\beta)= \frac{\beta_1 x}{\beta_2 + x} $$

यह फ़ंक्शन अरैखिक है क्योंकि इसे दोनों के रैखिक संयोजन के रूप में व्यक्त नहीं किया जा सकता है$$\beta$$एस।

स्वतंत्र चर में व्यवस्थित त्रुटि मौजूद हो सकती है लेकिन इसका उपचार प्रतिगमन विश्लेषण के दायरे से बाहर है। यदि स्वतंत्र चर त्रुटि-मुक्त नहीं हैं, तो यह एक त्रुटि-में-चर मॉडल है, जो इस दायरे से बाहर भी है।

गैर-रेखीय कार्यों के अन्य उदाहरणों में घातांकीय कार्य, लघुगणकीय वृद्धि, त्रिकोणमितीय कार्य, घातांक, गाऊसी फ़ंक्शन और कॉची वितरण शामिल हैं। कुछ फ़ंक्शन, जैसे कि घातीय या लघुगणकीय फ़ंक्शन, को रूपांतरित किया जा सकता है ताकि वे रैखिक हों। इस प्रकार परिवर्तित होने पर, मानक रैखिक प्रतिगमन किया जा सकता है लेकिन इसे सावधानी के साथ लागू किया जाना चाहिए। अधिक विवरण के लिए नीचे #Transformation|Linearization§Transformation देखें।

सामान्य तौर पर, सर्वोत्तम-फिटिंग मापदंडों के लिए कोई बंद-रूप अभिव्यक्ति नहीं होती है, जैसा कि रैखिक प्रतिगमन में होता है। आमतौर पर संख्यात्मक अनुकूलन (गणित) एल्गोरिदम सर्वोत्तम-फिटिंग पैरामीटर निर्धारित करने के लिए लागू किए जाते हैं। फिर से रैखिक प्रतिगमन के विपरीत, अनुकूलित किए जाने वाले फ़ंक्शन के कई स्थानीय अधिकतम हो सकते हैं और यहां तक ​​कि वैश्विक न्यूनतम भी एक अनुमानक अनुमान का पूर्वाग्रह उत्पन्न कर सकता है। व्यवहार में, वर्गों के योग के वैश्विक न्यूनतम को खोजने का प्रयास करने के लिए, अनुकूलन एल्गोरिथ्म के साथ मिलकर, मापदंडों के अनुमानित मूल्य का उपयोग किया जाता है।

अरेखीय डेटा मॉडलिंग से संबंधित विवरण के लिए न्यूनतम वर्ग और अरेखीय न्यूनतम वर्ग देखें।

प्रतिगमन आँकड़े
इस प्रक्रिया में अंतर्निहित धारणा यह है कि मॉडल को एक रैखिक फ़ंक्शन, अर्थात् प्रथम-क्रम टेलर श्रृंखला द्वारा अनुमानित किया जा सकता है:


 * $$ f(x_i,\boldsymbol\beta) \approx f(x_i,0) + \sum_j J_{ij} \beta_j $$

कहाँ $$J_{ij} = \frac{\partial f(x_i,\boldsymbol\beta)}{\partial \beta_j}$$. इससे यह निष्कर्ष निकलता है कि न्यूनतम वर्ग अनुमानक द्वारा दिये गये हैं


 * $$\hat{\boldsymbol{\beta}} \approx \mathbf { (J^TJ)^{-1}J^Ty},$$

इकाई मैट्रिक्स के आनुपातिक सहप्रसरण मैट्रिक्स के साथ सामान्यीकृत न्यूनतम वर्गों की तुलना करें। अरेखीय प्रतिगमन आँकड़ों की गणना और उपयोग रैखिक प्रतिगमन आँकड़ों की तरह किया जाता है, लेकिन सूत्रों में X के स्थान पर J का उपयोग किया जाता है।

जब समारोह $$f(x_i,\boldsymbol\beta)$$ स्वयं विश्लेषणात्मक रूप से ज्ञात नहीं है, लेकिन रेखीय प्रतिगमन की आवश्यकता है $$n+1$$, या अधिक, ज्ञात मान (जहाँ $$n$$ अनुमानकों की संख्या है), सबसे अच्छा अनुमानक सीधे रैखिक टेम्पलेट फ़िट से प्राप्त किया जाता है $$ \hat{\boldsymbol\beta} = ((\mathbf{Y\tilde{M}})^\mathsf{T} \boldsymbol\Omega^{-1} \mathbf{Y\tilde{M}})^{-1}(\mathbf{Y\tilde{M}})^\mathsf{T}\boldsymbol\Omega^{-1}(\mathbf{d}-\mathbf{Y\bar{m})}$$ (Linear_least_squares#Alternative_formulations भी देखें)।

रैखिक सन्निकटन आंकड़ों में पूर्वाग्रह (सांख्यिकी) का परिचय देता है। इसलिए, गैर-रेखीय मॉडल से प्राप्त आँकड़ों की व्याख्या करने में सामान्य से अधिक सावधानी की आवश्यकता होती है।

साधारण और भारित न्यूनतम वर्ग
सबसे उपयुक्त वक्र अक्सर वह माना जाता है जो आँकड़ों में वर्ग त्रुटियों और अवशेषों के योग को कम करता है। यह सामान्य न्यूनतम वर्ग (ओएलएस) दृष्टिकोण है। हालाँकि, ऐसे मामलों में जहां आश्रित चर में निरंतर भिन्नता नहीं होती है, भारित वर्ग अवशेषों का योग कम किया जा सकता है; भारित न्यूनतम वर्ग देखें. प्रत्येक भार आदर्श रूप से अवलोकन के विचरण के व्युत्क्रम के बराबर होना चाहिए, लेकिन पुनरावृत्त रूप से भारित न्यूनतम वर्ग एल्गोरिथ्म में, प्रत्येक पुनरावृत्ति पर भार की पुनर्गणना की जा सकती है।

परिवर्तन
मॉडल फॉर्मूलेशन के उपयुक्त परिवर्तन द्वारा कुछ गैर-रेखीय प्रतिगमन समस्याओं को एक रैखिक डोमेन में ले जाया जा सकता है।

उदाहरण के लिए, अरेखीय प्रतिगमन समस्या पर विचार करें


 * $$ y = a e^{b x}U \,\!$$

पैरामीटर ए और बी के साथ और गुणक त्रुटि पद यू के साथ। यदि हम दोनों पक्षों का लघुगणक लेते हैं, तो यह बन जाता है


 * $$ \ln{(y)} = \ln{(a)} + b x + u, \,\!$$

जहां u = ln(U), x पर ln(y) के रैखिक प्रतिगमन द्वारा अज्ञात मापदंडों के अनुमान का सुझाव देता है, एक गणना जिसमें पुनरावृत्त अनुकूलन की आवश्यकता नहीं होती है। हालाँकि, अरेखीय परिवर्तन के उपयोग में सावधानी की आवश्यकता होती है। डेटा मानों का प्रभाव बदल जाएगा, साथ ही मॉडल की त्रुटि संरचना और किसी भी अनुमानित परिणाम की व्याख्या भी बदल जाएगी। ये वांछित प्रभाव नहीं हो सकते हैं. दूसरी ओर, त्रुटि का सबसे बड़ा स्रोत क्या है, इस पर निर्भर करते हुए, एक गैर-रेखीय परिवर्तन गाऊसी फैशन में त्रुटियों को वितरित कर सकता है, इसलिए एक गैर-रेखीय परिवर्तन करने का विकल्प मॉडलिंग विचारों द्वारा सूचित किया जाना चाहिए।

माइकलिस-मेंटेन कैनेटीक्स के लिए, रैखिक लाइनवीवर-बर्क प्लॉट


 * $$ \frac{1}{v} = \frac{1}{V_\max} + \frac{K_m}{V_{\max}[S]}$$

1/[S] के विरुद्ध 1/v का बहुत अधिक उपयोग किया गया है। हालाँकि, चूंकि यह डेटा त्रुटि के प्रति बहुत संवेदनशील है और डेटा को स्वतंत्र चर, [एस] की एक विशेष श्रेणी में फिट करने के प्रति दृढ़ता से पक्षपाती है, इसलिए इसके उपयोग को दृढ़ता से हतोत्साहित किया जाता है।

घातीय परिवार से संबंधित त्रुटि वितरण के लिए, सामान्यीकृत रैखिक मॉडल ढांचे के तहत मापदंडों को बदलने के लिए एक लिंक फ़ंक्शन का उपयोग किया जा सकता है।

विभाजन


स्वतंत्र चर (मान लीजिए X) को वर्गों या खंडों में विभाजित किया जा सकता है और प्रति खंड रैखिक प्रतिगमन किया जा सकता है। विश्वास अंतराल के साथ खंडित प्रतिगमन का परिणाम यह हो सकता है कि आश्रित चर (जैसे Y) विभिन्न खंडों में अलग-अलग व्यवहार करता है। आंकड़े से पता चलता है कि मिट्टी की लवणता (एक्स) शुरू में सरसों की फसल की उपज (वाई) पर कोई प्रभाव नहीं डालती है, जब तक कि एक महत्वपूर्ण या सीमा मूल्य (ब्रेकपॉइंट) नहीं हो जाता, जिसके बाद उपज नकारात्मक रूप से प्रभावित होती है।

यह भी देखें

 * अरैखिक न्यूनतम वर्ग
 * वक्र फिटिंग
 * सामान्यीकृत रैखिक मॉडल
 * स्थानीय प्रतिगमन
 * प्रतिक्रिया मॉडलिंग पद्धति
 * आनुवंशिक प्रोग्रामिंग
 * मल्टी एक्सप्रेशन प्रोग्रामिंग
 * रैखिक_न्यूनतम_वर्ग#वैकल्पिक_सूत्रीकरण