प्रतिगमन विश्लेषण

सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) मिलती है, जो एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की विधि अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए (रैखिक प्रतिगमन देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।

प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।

सबसे पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।

दूसरा, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से यह उचित ठहराना चाहिए कि मौजूदा रिश्तों में एक नए संदर्भ के लिए भविष्य कहनेवाला शक्ति क्यों है या दो चर के बीच संबंध में एक कारण व्याख्या क्यों है। उत्तरार्द्ध में विशेष रूप से महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की उम्मीद करते हैं।

इतिहास
प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में, और गॉस ने 1809 में प्रकाशित किया था। लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया, जिसमें गॉस-मार्कोव प्रमेय का एक संस्करण भी शामिल था।

"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है। गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था,  लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन ने एक अधिक सामान्य सांख्यिकीय संदर्भ में विस्तारित किया था।  यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। 1922 और 1925 के अपने कार्यों में आर.ए. फिशर द्वारा इस धारणा को कमजोर किया गया था। फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।

1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।

हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है।

प्रतिगमन मॉडल
शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,
 * अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर $$\beta$$ के रूप में दर्शाया जाता है।
 * स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर $$X_i$$ के रूप में दर्शाए जाते हैं (जहां $$i$$ डेटा की एक पंक्ति को दर्शाता है)।
 * आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश $$Y_i$$ का उपयोग करके दर्शाए जाते है।
 * त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश $$e_i$$ का उपयोग करके दर्शाए जाते हैं।

अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।

अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि $$Y_i$$ का एक कार्य है $$X_i$$ तथा $$ \beta$$, जिसमें $$e_i$$ एक योगात्मक त्रुटि शब्द का प्रतिनिधित्व करता है जो $$Y_i$$ या यादृच्छिक सांख्यिकीय शोर के गैर-मॉडल निर्धारकों के लिए खड़ा हो सकता है,


 * $$Y_i = f (X_i, \beta) + e_i$$

शोधकर्ताओं का लक्ष्य फ़ंक्शन $$f(X_i, \beta)$$ का अनुमान लगाना है जो डेटा के सबसे करीब से फिट बैठता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप $$f$$ निर्दिष्ट किया जाता है। कभी -कभी इस फ़ंक्शन $$Y_i$$ तथा $$X_i$$ के बीच संबंध के बारे में जानकारी पर आधारित होता है जो डेटा पर निर्भर नहीं करता है। यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो $$f$$ के लिए स्थिति के अनुरूप ढलने  या सुविधाजनक रूप चुना जाता है। उदाहरण के लिए, एक साधारण यूनीवेरिएट रिग्रेशन प्रस्तावित कर सकता है $$f(X_i, \beta) = \beta_0 + \beta_1 X_i$$यह सुझाव देते हुए कि शोधकर्ता का मानना ​​है $$Y_i = \beta_0 + \beta_1 X_i + e_i$$ सांख्यिकीय प्रक्रिया के लिए एक उचित अनुमान के रूप में डेटा उत्पन्न कर रहा है।

एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों $$\beta $$ का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, न्यूनतम वर्ग (इसके सबसे सामान्य प्रकार, साधारण कम से कम वर्ग सहित) का मान पाता है $$\beta $$ यह चुकता त्रुटियों के योग को कम करता है $$\sum_i (Y_i - f(X_i, \beta))^2$$। एक दिया गया प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी $$\beta$$, आमतौर पर निरूपित $$\hat{\beta}$$ डेटा उत्पन्न करने वाले सच्चे (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए।इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकते हैं $$\hat{Y_i} = f(X_i,\hat{\beta})$$ भविष्यवाणी के लिए या डेटा को समझाने में मॉडल की सटीकता का आकलन करने के लिए।क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है $$\hat{\beta}$$ या अनुमानित मूल्य $$\hat{Y_i}$$ संदर्भ और उनके लक्ष्यों पर निर्भर करेगा। जैसा कि साधारण कम से कम वर्गों में वर्णित है, न्यूनतम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन $$f(X_i, \hat{\beta})$$ सशर्त अपेक्षा का अनुमान लगाता है $$E(Y_i|X_i)$$। हालांकि, वैकल्पिक वेरिएंट (जैसे,न्यूनतम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं $$f(X_i,\beta)$$।

यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए। उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है $$N$$ एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: $$(Y_i, X_{1i}, X_{2i})$$।आगे मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: $$Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + e_i$$। यदि शोधकर्ता के पास केवल पहुंच है $$N=2$$ डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे। $$(\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2)$$ यह डेटा को समान रूप से अच्छी तरह से समझाता है, किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है $$\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}$$जिनमें से सभी का नेतृत्व करते हैं $$\sum_i \hat{e}_i^2 = \sum_i (\hat{Y}_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}))^2 = 0$$ और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं। यह समझने के लिए कि अपरिमित रूप से अनेक विकल्प क्यों हैं, ध्यान दें कि की प्रणाली $$N=2$$ समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम निर्धारित करता है। वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो $$N=2$$ फिक्स्ड पॉइंट्स से गुजरते हैं।

अधिक आम तौर पर, न्यूनतम वर्गों के मॉडल का अनुमान लगाने के लिए $$k$$ अलग पैरामीटर पर, और एक अलग $$N > k$$ अलग डेटा बिंदु होना चाहिए। यदि $$N > k$$ तो आम तौर पर ऐसे मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेंगे। मात्रा $$k-N$$ प्रतिगमन विश्लेषण में अक्सर प्रकट होता है, और इसे मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है। इसके अलावा, कम से कम वर्ग मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर $$(X_{1i}, X_{2i}, ..., X_{ki})$$ रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए। जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है,जैसा कि साधारण न्यूनतम वर्गों में चर्चा की गई है, यह शर्त सुनिश्चित करती है कि यह $$X^{T}X$$ एक उल्टे मैट्रिक्स है और  एक उलटा मैट्रिक्स है और इसलिए यह एक अनूठा मौजूद समाधान है, $$\hat{\beta}$$।

अंतर्निहित धारणाएँ
अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है। वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं। इन धारणाओं में अक्सर शामिल होते हैं:


 * नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
 * स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
 * मॉडल से विचलन का अपेक्षित मान शून्य है, सहसंयोजकों पर सशर्त, $$E(e_i | X_i) = 0$$
 * अवशिष्टों का प्रसरण $$e_i$$ अवलोकन (समरूपता) में निरंतर है।
 * अवशिष्ट $$e_i$$ एक दूसरे से असंबंधित हैं। गणितीय रूप से, त्रुटियों का प्रसरण-सहप्रसरण मैट्रिक्स विकर्ण है

कम से कम वर्ग अनुमानक के लिए वांछनीय गुण रखने के लिए कुछ हद तक स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्कोव मान्यताओं का अर्थ है कि पैरामीटर अनुमान निष्पक्ष, सुसंगत और रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल होंगे। व्यवसायी ने वास्तविक दुनिया की सेटिंग में इनमें से कुछ या सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय मान्यताओं के सटीक रूप से धारण करने की संभावना नहीं है। उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल से उचित अनुमान लगा सकते हैं स्वतंत्र चर को त्रुटियों से माप सकते है। विषमलैंगिकता-संगत मानक त्रुटियां के विचरण की अनुमति देती है $$e_i$$ के मूल्यों को बदलने के लिए $$X_i$$। सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के साथ क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या न्यूए-वेस्ट मानक त्रुटियों का उपयोग करके नियंत्रित किया जा सकता है। जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप हों, तो मॉडल का चुनाव कैसे करें? $$e_i$$ भौगोलिक इकाइयों के महत्वपूर्ण परिणाम हो सकते हैं। अर्थमिति का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग में उचित वास्तविक दुनिया के निष्कर्ष निकालने की अनुमति देता है, जहां शास्त्रीय धारणाएं बिल्कुल सही नहीं होती हैं।

रैखिक प्रतिगमन
रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, $$ y_i $$ मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)। उदाहरण के लिए, मॉडलिंग $$ n $$ डेटा बिंदुओं के लिए सरल रेखीय प्रतिगमन में एक स्वतंत्र चर होता है: $$ x_i $$, और दो पैरामीटर, $$\beta_0$$ तथा $$\beta_1$$:


 * सीधी रेखा: $$y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n.\!$$

बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या स्वतंत्र चर के कार्य होते हैं।

पिछले प्रतिगमन में $$x_i^2$$ में एक पद जोड़ने पर यह मिलता है:


 * अनुवृत्त (parabola): $$y_i=\beta_0 +\beta_1 x_i +\beta_2 x_i^2+\varepsilon_i,\ i=1,\dots,n.\!$$

यह अभी भी रैखिक प्रतिगमन है, हालांकि दायीं ओर का व्यंजक स्वतंत्र चर $$x_i$$ में द्विघात है, यह पैरामीटर $$\beta_0$$, $$\beta_1$$ तथा $$\beta_2$$ में रैखिक है।

दोनों ही मामलों में, $$\varepsilon_i$$ एक त्रुटि शब्द है और सबस्क्रिप्ट $$i$$ एक विशेष अवलोकन को अनुक्रमित करता है।

सीधी रेखा के मामले पर ध्यान देते है, जनसंख्या से एक यादृच्छिक नमूने को देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं,


 * $$ \widehat{y}_i = \widehat{\beta}_0 + \widehat{\beta}_1 x_i. $$

अवशिष्ट, $$ e_i = y_i - \widehat{y}_i $$, मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, $$ \widehat{y}_i$$, और सही मान आश्रित चर का, $$y_i$$है। आकलन की एक विधि साधारण न्यूनतम वर्ग है। यह विधि पैरामीटर अनुमान प्राप्त करती है जो चुकता अवशिष्टों के योग को कम करती है,


 * $$SSR=\sum_{i=1}^n e_i^2. \, $$

इस फ़ंक्शन के न्यूनीकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक उत्पन्न करने के लिए हल किया जाता है, $$\widehat{\beta}_0, \widehat{\beta}_1$$।

सरल प्रतिगमन के मामले में, न्यूनतम वर्ग अनुमान के सूत्र हैं


 * $$\widehat{\beta}_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$$
 * $$\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}$$

जहां पे $$\bar{x}$$ मानों और $$x$$ का माध्य (औसत) है $$\bar{y}$$ का मतलब है $$y$$ मानों का माध्य है।

इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में निरंतर भिन्नता है, उस भिन्नता का अनुमान इस प्रकार दिया जाता है,


 * $$ \hat{\sigma}^2_\varepsilon = \frac{SSR}{n-2}.\,$$

इसे प्रतिगमन का माध्य वर्ग त्रुटि (MSE) कहा जाता है। हर वह नमूना आकार है जो समान डेटा से अनुमानित मॉडल पैरामीटर की संख्या से घटाया जाता है,$$(n-p)$$ के लिये $$p$$ रेग्रेसर्स (regressors) या $$(n-p-1)$$ अगर अवरोधन का इस्तेमाल किया जाता है। इस मामले में, $$p=1$$ तो हर है $$n-2$$।

पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं,


 * $$\hat\sigma_{\beta_1}=\hat\sigma_{\varepsilon} \sqrt{\frac{1}{\sum(x_i-\bar x)^2}}$$
 * $$\hat\sigma_{\beta_0}=\hat\sigma_\varepsilon \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum(x_i-\bar x)^2}}=\hat\sigma_{\beta_1} \sqrt{\frac{\sum x_i^2}{n}}. $$

आगे की धारणा के तहत कि जनसंख्या त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है।

सामान्य रैखिक मॉडल
अधिक सामान्य एकाधिक प्रतिगमन मॉडल में $$p$$ स्वतंत्र चर हैं,
 * $$ y_i = \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \varepsilon_i, \, $$

जहांपे $$x_{ij}$$ है $$i$$ अवलोकन पर $$j$$-th स्वतंत्र चर हैं। यदि पहला स्वतंत्र चर सभी 1 लेता है $$i$$, $$x_{i1} = 1$$, फिर $$\beta_1$$ को प्रतीपगमन अवरोधन कहा जाता है।

न्यूनतम वर्ग पैरामीटर अनुमान $$p$$ सामान्य समीकरणों से प्राप्त किए जाते हैं। अवशिष्ट के रूप में लिखा जा सकता है,


 * $$\varepsilon_i=y_i - \hat\beta_1 x_{i1} - \cdots - \hat\beta_p x_{ip}.$$

सामान्य समीकरण हैं


 * $$\sum_{i=1}^n \sum_{k=1}^p x_{ij}x_{ik}\hat \beta_k=\sum_{i=1}^n x_{ij}y_i,\ j=1,\dots,p.\,$$

मैट्रिक्स संकेतन में, सामान्य समीकरणों को लिखा जाता है


 * $$\mathbf{(X^\top X )\hat{\boldsymbol{\beta}}= {}X^\top Y},\,$$

जहां $$ij$$ का तत्व $$\mathbf X$$ है $$x_{ij}$$, $$i$$ स्तंभ वेक्टर का तत्व $$Y$$ है $$y_i$$, और यह $$j$$ का तत्व $$\hat \boldsymbol \beta$$ है $$\hat \beta_j$$।इस प्रकार $$\mathbf X$$ है $$n \times p$$, $$Y$$ है $$n \times 1$$, तथा $$\hat \boldsymbol \beta$$ है $$p \times 1$$।समाधान है


 * $$\mathbf{\hat{\boldsymbol{\beta}}= (X^\top X )^{-1}X^\top Y}.\,$$

निदान
एक बार प्रतिगमन मॉडल का निर्माण हो जाने के बाद, मॉडल के फिट होने की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांचों में आर-स्क्वेर्ड, अवशेषों के पैटर्न का विश्लेषण और परिकल्पना परीक्षण शामिल हैं। सांख्यिकीय महत्व को समग्र फिट के एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण किए जा सकते हैं।

इन नैदानिक ​​परीक्षणों की व्याख्या मॉडल की मान्यताओं पर बहुत अधिक निर्भर करती है। हालांकि अवशेषों की जांच का उपयोग किसी मॉडल को अमान्य करने के लिए किया जा सकता है, टी-टेस्ट या एफ-टेस्ट के परिणामों की व्याख्या करना कभी-कभी अधिक कठिन होता है यदि मॉडल की मान्यताओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द का सामान्य वितरण नहीं है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण का पालन नहीं करेंगे और अनुमान को जटिल करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह लागू किया जा सकता है कि परिकल्पना परीक्षण स्पर्शोन्मुख सन्निकटन का उपयोग करके आगे बढ़ सकता है।

सीमित आश्रित चर
सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या वे चर हैं जो केवल एक निश्चित सीमा में गिरने के लिए विवश हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।

प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना  जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है।

अरेखीय प्रतिगमन
जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है।

अंतर्वेशन (interpolation) और बहिर्वेशन (extrapolation)
प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन (interpolation) के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को बहिर्वेशन (extrapolation) के रूप में जाना जाता है। बहिर्वेशन (extrapolation) करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है। आगे बहिर्वेशन (extrapolation) डेटा के बाहर चला जाता है, मॉडल के लिए मान्यताओं और नमूना डेटा या वास्तविक मान के बीच अंतर के कारण विफल होने के लिए अधिक जगह होती है।

आम तौर पर यह सलाह दी जाती है कि बहिर्वेशन (extrapolation) करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मान के साथ होना चाहिए जो अनिश्चितता का प्रतिनिधित्व करता है। इस तरह के अंतराल में तेजी से विस्तार होता है क्योंकि स्वतंत्र चर के मान देखे गए डेटा द्वारा आवृत की गई सीमा से बाहर चले गए हैं।

ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन (extrapolation) करना नासमझी हो सकती है।

हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन (extrapolation) विशेष रूप से प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही धारणाओं पर निर्भर है। यहां सर्वोत्तम अभ्यास सलाह  यह है कि एक रैखिक-इन-चर और रैखिक-इन-पैरामीटर संबंध को केवल अभिकलन सुविधा के लिए नहीं चुना जाना चाहिए, बल्कि यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए। यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मान की एक निश्चित सीमा से बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल के चयन में किया जा सकता है - भले ही देखे गए डेटासेट में विशेष रूप से ऐसी सीमाओं के पास कोई मान न हो। जब बहिर्वेशन (extrapolation) पर विचार किया जाता है तो प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस कदम के निहितार्थ बहुत अच्छे हो सकते हैं। कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन "यथार्थवादी" है(या जो ज्ञात है उसके अनुरूप)।

शक्ति और नमूना आकार की गणना
मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई और सहमत तरीके नहीं हैं। गुड और हार्डिन द्वारा अनुमानित एक विधि $$N=m^n$$ है, जहां $$N$$ नमूना आकार है, $$n$$ स्वतंत्र चर की संख्या है और $$m$$ वांछित सटीकता तक पहुंचने के लिए आवश्यक अवलोकनों की संख्या है यदि मॉडल में केवल एक स्वतंत्र है। उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बना रहा है जिसमें 1000 रोगी ($$N$$) होते हैं। यदि शोधकर्ता यह निर्णय लेता है कि एक सीधी रेखा ($$m$$),  को ठीक-ठीक परिभाषित करने के लिए पाँच प्रेक्षणों की आवश्यकता है, तो मॉडल द्वारा समर्थित स्वतंत्र चरों की अधिकतम संख्या 4 है, क्योंकि


 * $$\frac{\log 1000}{\log5}=4.29. $$

अन्य तरीके
यद्यपि एक प्रतिगमन मॉडल के मापदंडों का अनुमान आमतौर पर न्यूनतम वर्गों की विधि का उपयोग करके लगाया जाता है, अन्य विधियों का उपयोग किया गया है जिनमें शामिल हैं:
 * बायेसियन तरीके, उदाहरण बायेसियन रैखिक प्रतिगमन।
 * प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त समझा जाता है।
 * न्यूनतम निरपेक्ष विचलन, जो बाहरी लोगों की उपस्थिति में अधिक मजबूत होता है, जिससे मात्रात्मक प्रतिगमन होता है।
 * गैर-पैरामीट्रिक प्रतिगमन के लिए बड़ी संख्या में अवलोकन की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।
 * परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी।
 * डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।

सॉफ्टवेयर
सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन औरन्यूनतम वर्गों का उपयोग करके कई प्रतिगमन कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं। अलग-अलग सॉफ़्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि अलग-अलग पैकेजों में अलग-अलग तरीके से लागू की जा सकती है। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशिष्ट प्रतिगमन सॉफ्टवेयर विकसित किया गया है।

यह भी देखें

 * Anscombe की चौकड़ी
 * वक्र फिटिंग
 * अनुमान सिद्धांत
 * पूर्वानुमान
 * विचरण का अंश अस्पष्टीकृत
 * समारोह सन्निकटन
 * सामान्यीकृत रैखिक मॉडल
 * क्रिगिंग (एक रैखिक कम से कम वर्ग अनुमान एल्गोरिथ्म)
 * स्थानीय प्रतिगमन
 * परिवर्तनीय क्षेत्रीय इकाई समस्या
 * बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन
 * बहुभिन्नरूपी सामान्य वितरण
 * पियर्सन उत्पाद-पल सहसंबंध गुणांक
 * अर्ध-विमान
 * भविष्यवाणी अंतराल
 * प्रतिगमन सत्यापन
 * मजबूत प्रतिगमन
 * खंडित प्रतिगमन
 * संकेत का प्रक्रमण
 * स्टेपवाइज रिग्रेशन
 * टैक्सी ज्यामिति
 * प्रवृत्ति अनुमान

अग्रिम पठन

 * William H. Kruskal and Judith M. Tanur, ed. (1978), "Linear Hypotheses," International Encyclopedia of Statistics. Free Press, v. 1,
 * Evan J. Williams, "I. Regression," pp. 523–41.
 * Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.


 * Lindley, D.V. (1987). "Regression and correlation analysis," New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
 * Birkes, David and Dodge, Y., Alternative Methods of Regression. ISBN 0-471-56881-3
 * Chatfield, C. (1993) "Calculating Interval Forecasts," Journal of Business and Economic Statistics, 11. pp. 121–135.
 * Fox, J. (1997). Applied Regression Analysis, Linear Models and Related Methods. Sage
 * Hardle, W., Applied Nonparametric Regression (1990), ISBN 0-521-42950-1
 * A. Sen, M. Srivastava, Regression Analysis &mdash; Theory, Methods, and Applications, Springer-Verlag, Berlin, 2011 (4th printing).
 * T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Vieweg+Teubner, ISBN 978-3-8348-1022-9.
 * Stulp, Freek, and Olivier Sigaud. Many Regression Algorithms, One Unified Model: A Review. Neural Networks, vol. 69, Sept. 2015, pp. 60–79. https://doi.org/10.1016/j.neunet.2015.05.005.
 * Malakooti, B. (2013). Operations and Production Systems with Multiple Objectives. John Wiley & Sons.
 * Stulp, Freek, and Olivier Sigaud. Many Regression Algorithms, One Unified Model: A Review. Neural Networks, vol. 69, Sept. 2015, pp. 60–79. https://doi.org/10.1016/j.neunet.2015.05.005.
 * Malakooti, B. (2013). Operations and Production Systems with Multiple Objectives. John Wiley & Sons.

बाहरी संबंध

 * Earliest Uses: Regression – basic history and references
 * What is multiple regression used for? – Multiple regression
 * Regression of Weakly Correlated Data – how linear regression mistakes can appear when Y-range is much smaller than X-range
 * Regression of Weakly Correlated Data – how linear regression mistakes can appear when Y-range is much smaller than X-range

]