साधारण न्यूनतम वर्ग

आंकड़ों में, साधारण न्यूनतम वर्ग (ओएलएस) एक रैखिक प्रतिगमन मॉडल में अज्ञात सांख्यिकीय पैरामीटर को चुनने के लिए एक प्रकार की रैखिक न्यूनतम वर्ग विधि है (व्याख्यात्मक चर के एक सेट के रैखिक फ़ंक्शन के निश्चित स्तर-एक प्रभाव के साथ) के सिद्धांत द्वारा न्यूनतम वर्ग: इनपुट डाटासेट  में देखे गए आश्रित चर (देखे जा रहे चर के मान) और स्वतंत्र चर के (रैखिक) फ़ंक्शन के आउटपुट के बीच अंतर के वर्गों के योग को कम करना।

ज्यामितीय रूप से, इसे सेट में प्रत्येक डेटा बिंदु और प्रतिगमन सतह पर संबंधित बिंदु के बीच, आश्रित चर के अक्ष के समानांतर, वर्ग दूरी के योग के रूप में देखा जाता है - अंतर जितना छोटा होगा, मॉडल डेटा में उतना ही बेहतर फिट होगा. परिणामी सांख्यिकीय अनुमान को एक सरल सूत्र द्वारा व्यक्त किया जा सकता है, विशेष रूप से एक साधारण रैखिक प्रतिगमन के मामले में, जिसमें प्रतिगमन समीकरण के दाईं ओर एक एकल प्रतिगामी होता है।

ओएलएस अनुमानक स्तर-एक निश्चित प्रभावों के लिए सुसंगत अनुमानक है जब रजिस्ट्रार बहिर्जात होते हैं और सही कॉलिनियरिटी (रैंक स्थिति) बनाते हैं, जब रजिस्ट्रार के पास परिमित चौथा क्षण होता है तो अवशेषों के विचरण अनुमान के लिए सुसंगत होता है और - गॉस-मार्कोव प्रमेय द्वारा - सबसे अच्छा रैखिक निष्पक्ष अनुमानक जब सांख्यिकीय त्रुटियां समरूप और स्वत: सहसंबंध होती हैं। इन शर्तों के तहत, ओएलएस की विधि यूएमवीयू|न्यूनतम-विचरण माध्य-निष्पक्ष अनुमान प्रदान करती है जब त्रुटियों में सीमित भिन्नता होती है। अतिरिक्त धारणा के तहत कि त्रुटियां शून्य माध्य के साथ सामान्य वितरण हैं, ओएलएस अधिकतम संभावना अनुमानक है जो किसी भी गैर-रेखीय निष्पक्ष अनुमानक से बेहतर प्रदर्शन करता है।

रेखीय मॉडल
मान लीजिए कि डेटा में शामिल हैं $$n$$ सांख्यिकीय इकाई $$\left\{\mathbf{x}_i, y_i\right\}_{i=1}^n$$. प्रत्येक अवलोकन $$i$$ एक अदिश प्रतिक्रिया शामिल है $$y_i$$ और एक कॉलम वेक्टर $$\mathbf{x}_i$$ का $$p$$ पैरामीटर (प्रतिगामी), यानी, $$\mathbf{x}_i=\left[x_{i1}, x_{i2}, \dots, x_{ip}\right]^\mathsf{T}$$. एक रेखीय प्रतिगमन मॉडल में, प्रतिक्रिया चर, $$y_i$$, प्रतिगामी का एक रैखिक कार्य है:


 * $$y_i = \beta_1\ x_{i1} + \beta_2\ x_{i2} + \cdots + \beta_p\ x_{ip} + \varepsilon_i,$$

या पंक्ति और स्तंभ सदिश रूप में,
 * $$ y_i = \mathbf{x}_i^\mathsf{T} \boldsymbol{\beta} + \varepsilon_i, \, $$

कहाँ $$\mathbf{x}_i$$, जैसा कि पहले प्रस्तुत किया गया था, का एक कॉलम वेक्टर है $$i$$-सभी व्याख्यात्मक चर का अवलोकन; $$\boldsymbol{\beta}$$ एक है $$p \times 1$$ अज्ञात मापदंडों का वेक्टर; और अदिश $$\varepsilon_i$$ के न देखे गए यादृच्छिक चर (आंकड़ों में त्रुटियां और अवशेष) का प्रतिनिधित्व करता है $$i$$-वां अवलोकन. $$\varepsilon_i$$ प्रतिक्रियाओं पर पड़ने वाले प्रभावों का लेखा-जोखा रखता है $$y_i$$ व्याख्यात्मक चर के अलावा अन्य स्रोतों से $$\mathbf{x}_i$$. इस मॉडल को मैट्रिक्स नोटेशन में भी लिखा जा सकता है
 * $$ \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}, \, $$

कहाँ $$\mathbf{y}$$ और $$\boldsymbol{\varepsilon}$$ हैं $$n \times 1$$ प्रतिक्रिया चर के वैक्टर और की त्रुटियां $$ n $$ अवलोकन, और $$\mathbf{X}$$ एक $$n \times p$$ रजिस्टरर्स का मैट्रिक्स, जिसे कभी-कभी डिज़ाइन मैट्रिक्स भी कहा जाता है, जिसकी पंक्ति $$i$$ है $$\mathbf{x}_i^\mathsf{T}$$ और इसमें शामिल है $$i$$-सभी व्याख्यात्मक चरों पर अवलोकन।

आमतौर पर, प्रतिगामी के सेट में एक स्थिर पद शामिल होता है $$\mathbf{X}$$, कहो, ले कर $$x_{i1}=1$$ सभी के लिए $$i=1, \dots, n$$. गुणांक $$\beta_1$$ इस प्रतिगामी के अनुरूप को अवरोधन कहा जाता है। अवरोधन के बिना, फिट की गई रेखा मूल बिंदु को पार करने के लिए बाध्य होती है $$x_i = \vec{0}$$.

प्रतिगामी को स्वतंत्र होने की आवश्यकता नहीं है: प्रतिगामी के बीच कोई भी वांछित संबंध हो सकता है (जब तक कि यह एक रैखिक संबंध नहीं है)। उदाहरण के लिए, हमें संदेह हो सकता है कि प्रतिक्रिया मान और उसके वर्ग दोनों पर रैखिक रूप से निर्भर करती है; ऐसी स्थिति में हम एक प्रतिगामी को शामिल करेंगे जिसका मान दूसरे प्रतिगामी का वर्ग मात्र है। उस स्थिति में, मॉडल दूसरे प्रतिगामी में द्विघात होगा, लेकिन फिर भी इसे एक रैखिक मॉडल माना जाता है क्योंकि मॉडल अभी भी मापदंडों में रैखिक है ($$\boldsymbol{\beta}$$).

मैट्रिक्स/वेक्टर फॉर्मूलेशन
एक अतिनिर्धारित प्रणाली पर विचार करें


 * $$\sum_{j=1}^{p} x_{ij} \beta_j = y_i,\ (i=1, 2, \dots, n),$$

का $$ n $$ में रैखिक समीकरण $$p$$ अज्ञात गुणांक, $$ \beta_1, \beta_2, \dots, \beta_p  $$, साथ $$ n > p $$. इसे मैट्रिक्स (गणित) रूप में इस प्रकार लिखा जा सकता है


 * $$\mathbf{X} \boldsymbol{\beta} = \mathbf {y},$$

कहाँ


 * $$\mathbf{X} = \begin{bmatrix}

X_{11} & X_{12} & \cdots & X_{1p} \\ X_{21} & X_{22} & \cdots & X_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ X_{n1} & X_{n2} & \cdots & X_{np} \end{bmatrix} ,\qquad \boldsymbol \beta = \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_p \end{bmatrix} ,\qquad \mathbf y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}. $$ (ध्यान दें: ऊपर दिए गए रैखिक मॉडल के लिए, सभी तत्व नहीं $$ \mathbf{X} $$ डेटा बिंदुओं पर जानकारी शामिल है। पहला कॉलम लोगों से भरा हुआ है, $$X_{i1} = 1$$. केवल अन्य कॉलम में वास्तविक डेटा होता है। तो ये रहा $$p$$ प्रतिगामी और एक की संख्या के बराबर है)।

ऐसी प्रणाली का आमतौर पर कोई सटीक समाधान नहीं होता है, इसलिए लक्ष्य इसके बजाय गुणांक ढूंढना है $$\boldsymbol{\beta}$$ द्विघात रूप (सांख्यिकी) गणितीय अनुकूलन समस्या को हल करने के अर्थ में, जो समीकरणों के लिए सबसे उपयुक्त है


 * $$\hat{\boldsymbol{\beta}} = \underset{\boldsymbol{\beta}}{\operatorname{arg\,min}}\,S(\boldsymbol{\beta}), $$

जहां उद्देश्य कार्य करता है $$ S $$ द्वारा दिया गया है


 * $$S(\boldsymbol{\beta}) = \sum_{i=1}^n \left| y_i - \sum_{j=1}^p X_{ij}\beta_j\right|^2 = \left\|\mathbf y - \mathbf{X} \boldsymbol \beta \right\|^2.$$

इस मानदंड को चुनने का औचित्य नीचे #Properties में दिया गया है। इस न्यूनीकरण समस्या का एक अनूठा समाधान है, बशर्ते कि $$p$$ मैट्रिक्स के कॉलम $$ \mathbf{X} $$ तथाकथित सामान्य समीकरणों को हल करके दिए गए रैखिक रूप से स्वतंत्र हैं:


 * $$\left( \mathbf{X}^{\mathsf T} \mathbf{X} \right)\hat{\boldsymbol{\beta}} = \mathbf{X}^{\mathsf T} \mathbf y\ .$$

गणित का सवाल $$\mathbf{X}^{\mathsf T} \mathbf{X}$$ सामान्य मैट्रिक्स या ग्राम मैट्रिक्स और मैट्रिक्स के रूप में जाना जाता है $$\mathbf{X}^{\mathsf T} \mathbf y$$ प्रतिगामी और प्रतिगामी द्वारा आघूर्ण मैट्रिक्स के रूप में जाना जाता है। आखिरकार, $$\hat{\boldsymbol{\beta}}$$ न्यूनतम-वर्ग हाइपरप्लेन का गुणांक वेक्टर है, जिसे इस प्रकार व्यक्त किया जाता है


 * $$\hat{\boldsymbol{\beta}} = \left( \mathbf{X}^{\mathsf T} \mathbf{X} \right)^{-1} \mathbf{X}^{\mathsf T} \mathbf y.$$

या


 * $$\hat{\boldsymbol{\beta}} = \boldsymbol{\beta} + \left(\mathbf{X}^\mathsf{T} \mathbf{X}\right)^{-1}\mathbf {X}^\mathsf{T} \boldsymbol{\varepsilon}.$$

अनुमान
मान लीजिए b पैरामीटर वेक्टर β के लिए एक उम्मीदवार मान है। मात्रा $y_{i} − x_{i}^{T}b$, जिसे आई-वें अवलोकन के आंकड़ों में त्रुटियां और अवशेष कहा जाता है, डेटा बिंदु के बीच ऊर्ध्वाधर दूरी को मापता है $(x_{i}, y_{i})$ और हाइपरप्लेन $y = x^{T}b$, और इस प्रकार वास्तविक डेटा और मॉडल के बीच फिट की डिग्री का आकलन करता है। वर्ग अवशेषों का योग (एसएसआर) (वर्गों का त्रुटि योग (ईएसएस) या वर्गों का अवशिष्ट योग (आरएसएस) भी कहा जाता है) समग्र मॉडल फिट का एक माप है:

S(b) = \sum_{i=1}^n (y_i - x_i ^\mathrm{T} b)^2 = (y-Xb)^\mathrm{T}(y-Xb), $$ जहां टी मैट्रिक्स खिसकाना  को दर्शाता है, और एक्स की पंक्तियाँ, आश्रित चर के एक विशेष मूल्य से जुड़े सभी स्वतंत्र चर के मूल्यों को दर्शाती हैं, एक्स हैंi = एक्सiटी. b का मान जो इस योग को न्यूनतम करता है उसे 'β के लिए OLS अनुमानक' कहा जाता है। फ़ंक्शन S(b) सकारात्मक-निश्चित हेस्सियन मैट्रिक्स के साथ b में द्विघात है, और इसलिए इस फ़ंक्शन में एक अद्वितीय वैश्विक न्यूनतम है $$b =\hat\beta$$, जिसे स्पष्ट सूत्र द्वारा दिया जा सकता है: सामान्य न्यूनतम वर्ग से जुड़े प्रमाण # .CE.B2 के लिए न्यूनतम वर्ग अनुमानक



\hat\beta = \operatorname{argmin}_{b\in\mathbb{R}^p} S(b) = (X^\mathrm{T}X)^{-1}X^\mathrm{T}y\. $$ उत्पाद N=XTX एक ग्राम मैट्रिक्स है और इसका व्युत्क्रम, Q=N है-1, β का सहकारक मैट्रिक्स है,  इसके #Covariance मैट्रिक्स, सी से निकटता से संबंधित हैβ. मैट्रिक्स (एक्सटीएक्स)–1एक्सटी=क्यू एक्सटी को एक्स का मूर-पेनरोज़ छद्म व्युत्क्रम मैट्रिक्स कहा जाता है। यह सूत्रीकरण इस बिंदु पर प्रकाश डालता है कि अनुमान तब लगाया जा सकता है, और केवल तभी, जब व्याख्यात्मक चर के बीच कोई पूर्ण बहुसंरेखता न हो (जिसके कारण ग्राम मैट्रिक्स खराब हो जाएगा) कोई व्युत्क्रम नहीं है)।

β का अनुमान लगाने के बाद, प्रतिगमन से फिट किए गए मान (या अनुमानित मान) होंगे

\hat{y} = X\hat\beta = Py, $$ जहां पी = एक्स(एक्सटीX)−1XT एक अन्य मैट्रिक्स, जो पी से निकटता से संबंधित है, विनाशक मैट्रिक्स है $M = I_{n} − P$; यह वी के लिए अंतरिक्ष ऑर्थोगोनल पर एक प्रक्षेपण मैट्रिक्स है। दोनों मैट्रिक्स पी और एम सममित मैट्रिक्स और निष्क्रिय मैट्रिक्स हैं (जिसका अर्थ है कि $P^{2} = P$ और $M^{2} = M$), और पहचान के माध्यम से डेटा मैट्रिक्स एक्स से संबंधित हैं $PX = X$ और $MX = 0$. मैट्रिक्स एम प्रतिगमन से अवशेष बनाता है:

\hat\varepsilon = y - \hat y = y - X\hat\beta = My = M(X\beta+\varepsilon) = (MX)\beta + M\varepsilon = M\varepsilon. $$

इन अवशेषों का उपयोग करके हम σ के मूल्य का अनुमान लगा सकते हैं2 घटे हुए ची-वर्ग आँकड़े का उपयोग करना:

s^2 = \frac{\hat\varepsilon ^\mathrm{T} \hat\varepsilon}{n-p} = \frac{(My)^\mathrm{T} My}{n-p} = \frac{y^\mathrm{T} M^\mathrm{T}My}{n-p}= \frac{y ^\mathrm{T} My}{n-p} = \frac{S(\hat\beta)}{n-p},\qquad \hat\sigma^2 = \frac{n-p}{n}\;s^2 $$ हर, n−p, स्वतंत्रता की डिग्री (सांख्यिकी) है। पहली मात्रा, एस2, σ के लिए OLS अनुमान है2, जबकि दूसरा,, σ के लिए एमएलई अनुमान है2. बड़े नमूनों में दोनों अनुमानक काफी समान हैं; पहला अनुमानक हमेशा अनुमानक पूर्वाग्रह वाला होता है, जबकि दूसरा अनुमानक पक्षपाती होता है लेकिन इसमें छोटी माध्य वर्ग त्रुटि होती है। व्यवहार में एस2का उपयोग अधिक बार किया जाता है, क्योंकि यह परिकल्पना परीक्षण के लिए अधिक सुविधाजनक है। एस का वर्गमूल2 को प्रतिगमन मानक त्रुटि कहा जाता है, प्रतिगमन की मानक त्रुटि, या समीकरण की मानक त्रुटि.

ओएलएस प्रतिगमन की अच्छाई का आकलन यह तुलना करके करना आम है कि नमूने में प्रारंभिक भिन्नता को एक्स पर पुनः प्राप्त करके कितना कम किया जा सकता है। निर्धारण का गुणांक आर2 को आश्रित चर y के कुल विचरण के स्पष्ट विचरण के अनुपात के रूप में परिभाषित किया गया है, ऐसे मामलों में जहां वर्गों का प्रतिगमन योग अवशेषों के वर्गों के योग के बराबर होता है:

R^2 = \frac{\sum(\hat y_i-\overline{y})^2}{\sum(y_i-\overline{y})^2} = \frac{y ^\mathrm{T} P ^\mathrm{T} LPy}{y ^\mathrm{T} Ly} = 1 - \frac{y ^\mathrm{T} My}{y ^\mathrm{T} Ly} = 1 - \frac{\rm RSS}{\rm TSS} $$ जहां टीएसएस आश्रित चर के लिए वर्गों का कुल योग है, $L=I_n-\frac{1}{n}J_n$, और $J_n$ इकाईयों का एक n×n मैट्रिक्स है। ($$L$$ एक केन्द्रित मैट्रिक्स है जो स्थिरांक पर प्रतिगमन के बराबर है; यह बस एक चर से माध्य घटा देता है।) आर के लिए2 सार्थक होने के लिए, प्रतिगमनकर्ताओं पर डेटा के मैट्रिक्स एक्स में स्थिरांक का प्रतिनिधित्व करने के लिए लोगों का एक कॉलम वेक्टर होना चाहिए जिसका गुणांक प्रतिगमन अवरोधन है। उस मामले में, आर2हमेशा 0 और 1 के बीच की एक संख्या होगी, 1 के करीब मान एक अच्छी डिग्री के फिट का संकेत देगा।

आश्रित चर के एक फलन के रूप में स्वतंत्र चर की भविष्यवाणी में भिन्नता लेख बहुपद न्यूनतम वर्ग में दी गई है।

सरल रैखिक प्रतिगमन मॉडल
यदि डेटा मैट्रिक्स X में केवल दो चर हैं, एक स्थिरांक और एक अदिश प्रतिगामी xi, तो इसे सरल प्रतिगमन मॉडल कहा जाता है. इस मामले को अक्सर शुरुआती सांख्यिकी कक्षाओं में माना जाता है, क्योंकि यह मैन्युअल गणना के लिए भी उपयुक्त बहुत सरल सूत्र प्रदान करता है। पैरामीटर्स को आमतौर पर इस प्रकार दर्शाया जाता है $(α, β)$:

y_i = \alpha + \beta x_i + \varepsilon_i. $$ इस मामले में न्यूनतम वर्ग अनुमान सरल सूत्रों द्वारा दिए गए हैं
 * $$\begin{align}

\widehat\beta &= \frac{\sum_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})} }{ \sum_{i=1}^n{(x_i-\bar{x})^2}} \\[2pt] \widehat\alpha &= \bar{y} - \widehat\beta\,\bar{x}\ , \end{align}$$

वैकल्पिक व्युत्पत्तियाँ
पिछले अनुभाग में न्यूनतम वर्ग अनुमानक $$\hat\beta$$ एक ऐसे मूल्य के रूप में प्राप्त किया गया था जो मॉडल के वर्ग अवशेषों के योग को न्यूनतम करता है। हालाँकि अन्य दृष्टिकोणों से समान अनुमानक प्राप्त करना भी संभव है। सभी मामलों में ओएलएस अनुमानक का सूत्र समान रहता है: $^ β = (X^{T}X)^{−1}X^{T}y$; एकमात्र अंतर यह है कि हम इस परिणाम की व्याख्या कैसे करते हैं।

प्रक्षेपण


गणितज्ञों के लिए, ओएलएस रैखिक समीकरणों की एक अतिनिर्धारित प्रणाली का एक अनुमानित समाधान है $Xβ ≈ y$, जहां β अज्ञात है। यह मानते हुए कि सिस्टम को सटीक रूप से हल नहीं किया जा सकता है (समीकरणों की संख्या n अज्ञात p की संख्या से बहुत बड़ी है), हम एक ऐसे समाधान की तलाश कर रहे हैं जो दाएं और बाएं पक्षों के बीच सबसे छोटी विसंगति प्रदान कर सके। दूसरे शब्दों में, हम उस समाधान की तलाश में हैं जो संतुष्ट करता हो

\hat\beta = {\rm arg}\min_\beta\,\lVert \mathbf{y} - \mathbf{X}\boldsymbol\beta \rVert, $$ कहाँ $\|·\|$ मानक नॉर्म (गणित)#यूक्लिडियन नॉर्म|एल हैएन-आयामी यूक्लिडियन स्थान 'आर' में 2मानदंडn. अनुमानित मात्रा Xβ प्रतिगामी सदिशों का एक निश्चित रैखिक संयोजन मात्र है। इस प्रकार, अवशिष्ट वेक्टर $y − Xβ$ की लंबाई सबसे छोटी होगी जब y, X के स्तंभों द्वारा रैखिक उप-स्थान रैखिक विस्तार पर प्रक्षेपण (रैखिक बीजगणित) होगा। OLS अनुमानक \hat\beta इस मामले में वेक्टर अपघटन के गुणांक के रूप में व्याख्या की जा सकती है $^ y = Py$ एक्स के आधार पर।

दूसरे शब्दों में, न्यूनतम स्तर पर ग्रेडिएंट समीकरणों को इस प्रकार लिखा जा सकता है:


 * $$(\mathbf y - \mathbf{X} \hat{\boldsymbol{\beta}})^{\top} \mathbf{X}=0.$$

इन समीकरणों की एक ज्यामितीय व्याख्या यह है कि अवशेषों का वेक्टर, $$\mathbf y - X \hat{\boldsymbol{\beta}}$$ डॉट उत्पाद के बाद से, एक्स के स्तंभ स्थान के लिए ऑर्थोगोनल है $$(\mathbf y- \mathbf{X}\hat{\boldsymbol{\beta}})\cdot \mathbf{X} \mathbf v$$ किसी भी अनुरूप वेक्टर, 'v' के लिए शून्य के बराबर है। इस का मतलब है कि $$\mathbf y - \mathbf{X} \boldsymbol{\hat \beta}$$ सभी संभावित वैक्टरों में सबसे छोटा है $$\mathbf{y}- \mathbf{X} \boldsymbol \beta$$, अर्थात्, अवशेषों का विचरण न्यूनतम संभव है। इसे दाहिनी ओर चित्रित किया गया है।

परिचय $$\hat{\boldsymbol{\gamma}}$$ और एक मैट्रिक्स K इस धारणा के साथ कि एक मैट्रिक्स $$[\mathbf{X} \ \mathbf{K}]$$ गैर-एकवचन है और Kटी एक्स = 0 (सीएफ. रैखिक प्रक्षेपण#ऑर्थोगोनल प्रक्षेपण), अवशिष्ट वेक्टर को निम्नलिखित समीकरण को संतुष्ट करना चाहिए:
 * $$\hat{\mathbf{r}} := \mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{K} \hat.$$

रैखिक न्यूनतम वर्गों का समीकरण और समाधान इस प्रकार वर्णित है:
 * $$\begin{align}

\mathbf{y} &= \begin{bmatrix}\mathbf{X} & \mathbf{K}\end{bmatrix} \begin{bmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\boldsymbol{\gamma}} \end{bmatrix}, \\ {}\Rightarrow \begin{bmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\boldsymbol{\gamma}} \end{bmatrix} &= \begin{bmatrix}\mathbf{X} & \mathbf{K}\end{bmatrix}^{-1} \mathbf{y} = \begin{bmatrix} \left(\mathbf{X}^{\top} \mathbf{X}\right)^{-1} \mathbf{X}^{\top} \\ \left(\mathbf{K}^{\top} \mathbf{K}\right)^{-1} \mathbf{K}^\top \end{bmatrix} \mathbf{y}. \end{align}$$ इसे देखने का दूसरा तरीका यह है कि प्रतिगमन रेखा को डेटासेट में किन्हीं दो बिंदुओं के संयोजन से गुजरने वाली रेखाओं का भारित औसत माना जाए। यद्यपि गणना का यह तरीका कम्प्यूटेशनल रूप से अधिक महंगा है, यह ओएलएस पर बेहतर अंतर्ज्ञान प्रदान करता है।

अधिकतम संभावना
ओएलएस अनुमानक त्रुटि शर्तों के लिए सामान्यता धारणा के तहत अधिकतम संभावना अनुमानक (एमएलई) के समान है। सामान्य न्यूनतम वर्ग से जुड़े प्रमाण#अधिकतम संभावना दृष्टिकोण इस सामान्यता धारणा का ऐतिहासिक महत्व है, क्योंकि इसने उडनी यूल और कार्ल पियर्सन द्वारा रैखिक प्रतिगमन विश्लेषण में प्रारंभिक कार्य के लिए आधार प्रदान किया। एमएलई के गुणों से, हम यह अनुमान लगा सकते हैं कि यदि सामान्यता धारणा संतुष्ट है तो ओएलएस अनुमानक स्पर्शोन्मुख रूप से कुशल है (विचरण के लिए बाध्य क्रैमर-राव प्राप्त करने के अर्थ में)।

क्षणों की सामान्यीकृत विधि
आईआईडी मामले में ओएलएस अनुमानक को क्षण स्थितियों से उत्पन्न होने वाले क्षण अनुमानक की एक सामान्यीकृत विधि के रूप में भी देखा जा सकता है

\mathrm{E}\big[\, x_i\left(y_i - x_i ^\mathsf{T} \beta\right) \,\big] = 0. $$ ये क्षणिक स्थितियाँ बताती हैं कि प्रतिगामी को त्रुटियों से असंबंधित होना चाहिए। चूंकि एक्सiएक पी-वेक्टर है, क्षण स्थितियों की संख्या पैरामीटर वेक्टर β के आयाम के बराबर है, और इस प्रकार सिस्टम की सटीक पहचान की जाती है। यह तथाकथित शास्त्रीय जीएमएम मामला है, जब अनुमानक वेटिंग मैट्रिक्स की पसंद पर निर्भर नहीं होता है।

ध्यान दें कि मूल सख्त बहिर्जातता धारणा $E[ε_{i}&thinsp;|&thinsp;x_{i}] = 0$ ऊपर बताए गए क्षण की तुलना में कहीं अधिक समृद्ध क्षण स्थितियों का तात्पर्य है। विशेष रूप से, इस धारणा का तात्पर्य यह है कि किसी भी वेक्टर-फ़ंक्शन के लिए $ƒ$, क्षणिक स्थिति $E[ƒ(x_{i})·ε_{i}] = 0$ रोक लेंगे। हालाँकि यह गॉस-मार्कोव प्रमेय का उपयोग करके दिखाया जा सकता है कि फ़ंक्शन का इष्टतम विकल्प $ƒ$लेना है $ƒ(x) = x$, जिसका परिणाम ऊपर पोस्ट किए गए क्षणिक समीकरण में होता है।

धारणाएँ
ओएलएस तकनीक को लागू करने के लिए कई अलग-अलग ढांचे हैं जिनमें रैखिक प्रतिगमन मॉडल डाला जा सकता है। इनमें से प्रत्येक सेटिंग समान सूत्र और समान परिणाम उत्पन्न करती है। एकमात्र अंतर व्याख्या और धारणाओं का है जिन्हें सार्थक परिणाम देने की विधि के लिए लागू करना पड़ता है। लागू ढाँचे का चुनाव अधिकतर हाथ में मौजूद डेटा की प्रकृति और किए जाने वाले अनुमान कार्य पर निर्भर करता है।

व्याख्या में अंतर की पंक्तियों में से एक यह है कि क्या प्रतिगामी को यादृच्छिक चर के रूप में माना जाए, या पूर्वनिर्धारित स्थिरांक के रूप में। पहले मामले में (यादृच्छिक डिज़ाइन) रजिस्ट्रार xiयादृच्छिक हैं और y के साथ नमूना लिया गया हैi' कुछ सांख्यिकीय आबादी से, जैसा कि एक अवलोकन अध्ययन में होता है। यह दृष्टिकोण अनुमानकर्ताओं के स्पर्शोन्मुख सिद्धांत (सांख्यिकी) के अधिक प्राकृतिक अध्ययन की अनुमति देता है। अन्य व्याख्या (निश्चित डिजाइन) में, प्रतिगामी एक्स को प्रयोगों के डिजाइन द्वारा निर्धारित ज्ञात स्थिरांक के रूप में माना जाता है, और वाई को एक प्रयोग के रूप में एक्स'' के मूल्यों पर सशर्त रूप से नमूना किया जाता है।. व्यावहारिक उद्देश्यों के लिए, यह अंतर अक्सर महत्वहीन होता है, क्योंकि एक्स पर कंडीशनिंग करते समय अनुमान और अनुमान लगाया जाता है। इस आलेख में बताए गए सभी परिणाम यादृच्छिक डिज़ाइन ढांचे के भीतर हैं।

शास्त्रीय रैखिक प्रतिगमन मॉडल
शास्त्रीय मॉडल परिमित नमूना अनुमान और अनुमान पर केंद्रित है, जिसका अर्थ है कि अवलोकनों की संख्या n निश्चित है। यह अन्य दृष्टिकोणों के विपरीत है, जो ओएलएस के स्पर्शोन्मुख सिद्धांत (सांख्यिकी) का अध्ययन करते हैं, और जिसमें अवलोकनों की संख्या को अनंत तक बढ़ने की अनुमति दी जाती है।


 * 'सही विशिष्टता'. रैखिक कार्यात्मक रूप को वास्तविक डेटा-जनरेटिंग प्रक्रिया के रूप से मेल खाना चाहिए।
 * 'सख्त बहिर्जातता'। प्रतिगमन में त्रुटियों की सशर्त अपेक्षा शून्य होनी चाहिए: $$\operatorname{E}[\,\varepsilon\mid X\,] = 0.$$ बहिर्जातता धारणा का तात्कालिक परिणाम यह है कि त्रुटियों का माध्य शून्य है: $E[ε] = 0$ (कुल अपेक्षा के नियम के लिए), और यह कि प्रतिगामी त्रुटियों से असंबंधित हैं: $E[X^{T}ε] = 0$. ओएलएस सिद्धांत के लिए बहिर्जातता धारणा महत्वपूर्ण है। यदि यह कायम रहता है तो प्रतिगामी चर को बहिर्जात कहा जाता है। यदि ऐसा नहीं होता है, तो वे प्रतिगामी जो त्रुटि शब्द के साथ सहसंबद्ध होते हैं, एंडोजेनिटी (अर्थमिति) कहलाते हैं। और ओएलएस अनुमानक पक्षपाती हो जाता है। ऐसे मामले में वाद्य चर का उपयोग अनुमान लगाने के लिए किया जा सकता है।
 * कोई रैखिक निर्भरता नहीं. X में सभी प्रतिगामी रैखिक रूप से स्वतंत्र होने चाहिए। गणितीय रूप से, इसका मतलब है कि मैट्रिक्स X में लगभग निश्चित रूप से पूर्ण स्तंभ रैंक होना चाहिए: $$\Pr\!\big[\,\operatorname{rank}(X) = p\,\big] = 1.$$ आमतौर पर, यह भी माना जाता है कि प्रतिगामी के पास कम से कम दूसरे क्षण तक सीमित क्षण होते हैं। फिर मैट्रिक्स $Q_{xx} = E[X^{T}X&thinsp;/&thinsp;n]$ परिमित और सकारात्मक अर्ध-निश्चित है। जब इस धारणा का उल्लंघन किया जाता है तो प्रतिगामी को रैखिक रूप से निर्भर या बहुसंरेखता कहा जाता है। ऐसे मामले में प्रतिगमन गुणांक β का मूल्य सीखा नहीं जा सकता है, हालांकि समान रैखिक रूप से निर्भर उप-स्थान में स्थित प्रतिगमनकर्ताओं के नए मूल्यों के लिए y मानों की भविष्यवाणी अभी भी संभव है।
 * 'गोलाकार त्रुटियाँ': $$\operatorname{Var}[\,\varepsilon \mid X\,] = \sigma^2 I_n,$$ कहाँ $I_{n}$ आयाम n, और σ में पहचान मैट्रिक्स है2एक पैरामीटर है जो प्रत्येक अवलोकन के विचरण को निर्धारित करता है। यह σ2को मॉडल में एक उपद्रव पैरामीटर माना जाता है, हालांकि आमतौर पर इसका अनुमान भी लगाया जाता है। यदि इस धारणा का उल्लंघन किया जाता है तो ओएलएस अनुमान अभी भी वैध हैं, लेकिन अब प्रभावी नहीं हैं। इस धारणा को दो भागों में विभाजित करने की प्रथा है:
 * समलैंगिकता: $E[&thinsp;ε_{i}^{2}&thinsp;|&thinsp;X&thinsp;] = σ^{2}$, जिसका अर्थ है कि त्रुटि पद का प्रसरण σ समान है2प्रत्येक अवलोकन में। जब इस आवश्यकता का उल्लंघन किया जाता है तो इसे विषमलैंगिकता कहा जाता है, ऐसे मामले में एक अधिक कुशल अनुमानक कम से कम वर्गों का भार उठाएगा। यदि त्रुटियों में अनंत भिन्नता है तो ओएलएस अनुमानों में भी अनंत भिन्नता होगी (हालांकि बड़ी संख्या के कानून के अनुसार वे तब तक सही मूल्यों की ओर अग्रसर होंगे जब तक त्रुटियों का शून्य माध्य हो)। इस मामले में, मजबूत प्रतिगमन तकनीकों की सिफारिश की जाती है।
 * कोई स्वत: सहसंबंध नहीं: त्रुटियाँ टिप्पणियों के बीच सहसंबंध हैं: $E[&thinsp;ε_{i}ε_{j}&thinsp;|&thinsp;X&thinsp;] = 0$ के लिए $i ≠ j$. समय श्रृंखला डेटा, पैनल डेटा, क्लस्टर नमूने, पदानुक्रमित डेटा, दोहराया माप डेटा, अनुदैर्ध्य डेटा और निर्भरता वाले अन्य डेटा के संदर्भ में इस धारणा का उल्लंघन किया जा सकता है। ऐसे मामलों में सामान्यीकृत न्यूनतम वर्ग ओएलएस की तुलना में बेहतर विकल्प प्रदान करता है। स्वसहसंबंध के लिए एक अन्य अभिव्यक्ति क्रमिक सहसंबंध है।
 * 'सामान्यता'. कभी-कभी यह अतिरिक्त रूप से मान लिया जाता है कि त्रुटियों में प्रतिगामी पर सशर्त बहुभिन्नरूपी सामान्य वितरण होता है: $$\varepsilon \mid X\sim \mathcal{N}(0, \sigma^2I_n).$$ओएलएस पद्धति की वैधता के लिए इस धारणा की आवश्यकता नहीं है, हालांकि ऐसा होने पर कुछ अतिरिक्त परिमित-नमूना गुण स्थापित किए जा सकते हैं (विशेषकर परिकल्पना परीक्षण के क्षेत्र में)। इसके अलावा जब त्रुटियां सामान्य होती हैं, तो ओएलएस अनुमानक अधिकतम संभावना अनुमानक (एमएलई) के बराबर होता है, और इसलिए यह सभी नियमित अनुमानकों की कक्षा में स्पर्शोन्मुख रूप से कुशल होता है। महत्वपूर्ण बात यह है कि सामान्यता की धारणा केवल त्रुटि शर्तों पर लागू होती है; एक लोकप्रिय ग़लतफ़हमी के विपरीत, प्रतिक्रिया (आश्रित) चर को सामान्य रूप से वितरित करने की आवश्यकता नहीं है।

स्वतंत्र और समान रूप से वितरित (आईआईडी)
कुछ अनुप्रयोगों में, विशेष रूप से क्रॉस-अनुभागीय डेटा के साथ, एक अतिरिक्त धारणा लगाई जाती है - कि सभी अवलोकन स्वतंत्र और समान रूप से वितरित हैं। इसका मतलब यह है कि सभी अवलोकन एक यादृच्छिक नमूने से लिए गए हैं जो पहले सूचीबद्ध सभी मान्यताओं को सरल और व्याख्या करने में आसान बनाता है। साथ ही यह ढाँचा किसी को स्पर्शोन्मुख परिणाम (नमूना आकार के रूप में) बताने की अनुमति देता है $n&thinsp;→&thinsp;∞$), जिन्हें डेटा निर्माण प्रक्रिया से नए स्वतंत्र अवलोकन प्राप्त करने की सैद्धांतिक संभावना के रूप में समझा जाता है। इस मामले में मान्यताओं की सूची है:
 * आईआईडी अवलोकन: (''xi, औरi) से स्वतंत्र यादृच्छिक चर है, और (x) के समान ही संभाव्यता वितरण हैj, औरj) सभी के लिए i ≠ j;
 * कोई पूर्ण बहुसंरेखता नहीं: $Q_{xx} = E[&thinsp;x_{i}&thinsp;x_{i}^{T}&thinsp;]$ एक सकारात्मक-निश्चित मैट्रिक्स है;
 * बाह्यता: $E[&thinsp;ε_{i}&thinsp;|&thinsp;x_{i}&thinsp;] = 0;$
 * समरूपता: $Var[&thinsp;ε_{i}&thinsp;|&thinsp;x_{i}&thinsp;] = σ^{2}$.

समय श्रृंखला मॉडल

 * स्टोकेस्टिक प्रक्रिया {xi, औरi} स्थिर प्रक्रिया और एर्गोडिक प्रक्रिया है; यदि {xi, औरi} गैर-स्थिर है, ओएलएस परिणाम अक्सर नकली होते हैं जब तक कि {xi, औरi} सह-एकीकरण|सह-एकीकरण है।
 * प्रतिगामी पूर्वनिर्धारित हैं: ई[एक्सiεi] = 0 सभी के लिए i = 1, ..., n;
 * पी × पी मैट्रिक्स $Q_{xx} = E[&thinsp;x_{i}&thinsp;x_{i}^{T}&thinsp;]$ पूर्ण रैंक का है, और इसलिए सकारात्मक-निश्चित मैट्रिक्स|सकारात्मक-निश्चित;
 * {एक्सiεi} एक मार्टिंगेल अंतर अनुक्रम है, जिसमें दूसरे क्षणों का एक सीमित मैट्रिक्स होता है $Q_{xxε²} = E[&thinsp;ε_{i}^{2}x_{i}&thinsp;x_{i}^{T}&thinsp;]$.

परिमित नमूना गुण
सबसे पहले, सख्त बहिर्जातता धारणा के तहत ओएलएस अनुमानक और एस2एक अनुमानक के पूर्वाग्रह हैं, जिसका अर्थ है कि उनके अपेक्षित मूल्य मापदंडों के वास्तविक मूल्यों के साथ मेल खाते हैं: सामान्य न्यूनतम वर्ग वाले प्रमाण#.CE.B2.CC.82 की निष्पक्षता

\operatorname{E}[\, \hat\beta \mid X \,] = \beta, \quad \operatorname{E}[\,s^2 \mid X\,] = \sigma^2. $$ यदि सख्त बहिर्जातता कायम नहीं रहती है (जैसा कि कई समय श्रृंखला मॉडल के मामले में होता है, जहां बहिर्जातता केवल पिछले झटकों के संबंध में मानी जाती है, लेकिन भविष्य के झटकों के संबंध में नहीं), तो ये अनुमानकर्ता परिमित नमूनों में पक्षपाती होंगे।

विचरण-सहप्रसरण मैट्रिक्स (या बस सहप्रसरण मैट्रिक्स)। के बराबर है

\operatorname{Var}[\, \hat\beta \mid X \,] = \sigma^2\left(X ^\mathsf{T} X\right)^{-1} = \sigma^2 Q. $$ विशेष रूप से, प्रत्येक गुणांक की मानक त्रुटि इस मैट्रिक्स के j-वें विकर्ण तत्व के वर्गमूल के बराबर है। इस मानक त्रुटि का अनुमान अज्ञात मात्रा σ को प्रतिस्थापित करके प्राप्त किया जाता है2इसके अनुमान के साथ एस2. इस प्रकार,

\widehat{\operatorname{s.\!e.}}(\hat{\beta}_j) = \sqrt{s^2 \left(X ^\mathsf{T} X\right)^{-1}_{jj}} $$ यह भी आसानी से दिखाया जा सकता है कि अनुमानक मॉडल के अवशेषों से असंबद्ध है: : $$ \operatorname{Cov}[\, \hat\beta,\hat\varepsilon \mid X\,] = 0. $$ गॉस-मार्कोव प्रमेय में कहा गया है कि गोलाकार त्रुटियों की धारणा के तहत (अर्थात, त्रुटियां असंबद्ध और समरूप होनी चाहिए) अनुमानक रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल है। इसे सर्वोत्तम रैखिक निष्पक्ष अनुमानक (नीला) कहा जाता है। दक्षता को ऐसे समझा जाना चाहिए जैसे कि हमें कोई अन्य अनुमानक मिल जाए  जो तब y में रैखिक और निष्पक्ष होगा : $$ \operatorname{Var}[\, \tilde\beta \mid X \,] - \operatorname{Var}[\, \hat\beta \mid X \,] \geq 0 $$ इस अर्थ में कि यह एक गैर-नकारात्मक-निश्चित मैट्रिक्स है। यह प्रमेय केवल रैखिक निष्पक्ष अनुमानकों के वर्ग में इष्टतमता स्थापित करता है, जो काफी प्रतिबंधात्मक है। त्रुटि शर्तों ε के वितरण के आधार पर, अन्य, गैर-रेखीय अनुमानक ओएलएस की तुलना में बेहतर परिणाम प्रदान कर सकते हैं।

सामान्यता मानना ​​
अब तक सूचीबद्ध सभी संपत्तियाँ त्रुटि शर्तों के अंतर्निहित वितरण की परवाह किए बिना मान्य हैं। हालाँकि, यदि आप यह मानने को तैयार हैं कि सामान्यता की धारणा कायम है (अर्थात, वह है $ε ~ N(0, σ^{2}I_{n})$), तो ओएलएस अनुमानकों की अतिरिक्त संपत्तियां बताई जा सकती हैं।

अनुमानक सामान्य रूप से माध्य और भिन्नता के साथ वितरित किया जाता है, जैसा कि पहले दिया गया है:

\hat\beta\ \sim\ \mathcal{N}\big(\beta,\ \sigma^2(X ^\mathrm{T} X)^{-1}\big). $$ यह अनुमानक मॉडल के लिए बाध्य क्रैमर-राव तक पहुंचता है, और इस प्रकार सभी निष्पक्ष अनुमानकों की श्रेणी में इष्टतम है। ध्यान दें कि गॉस-मार्कोव प्रमेय के विपरीत, यह परिणाम रैखिक और गैर-रेखीय अनुमानकों दोनों के बीच इष्टतमता स्थापित करता है, लेकिन केवल सामान्य रूप से वितरित त्रुटि शर्तों के मामले में।

अनुमानक एस2ची-वर्ग वितरण के समानुपाती होगा:

s^2\ \sim\ \frac{\sigma^2}{n-p} \cdot \chi^2_{n-p} $$ इस अनुमानक का विचरण बराबर है $2σ^{4}/(n&thinsp;−&thinsp;p)$, जो क्रैमर-राव सीमा को प्राप्त नहीं करता है $2σ^{4}/n$. हालाँकि यह दिखाया गया कि σ का कोई निष्पक्ष अनुमानक नहीं है2 अनुमानक की तुलना में छोटे विचरण के साथ2. यदि हम पक्षपाती अनुमानकों को अनुमति देने के इच्छुक हैं, और अनुमानकों के वर्ग पर विचार करते हैं जो मॉडल के वर्ग अवशेषों (एसएसआर) के योग के लिए आनुपातिक हैं, तो इस वर्ग में सबसे अच्छा (माध्य वर्ग त्रुटि के अर्थ में) अनुमानक होगा $~ σ^{2} = SSR&thinsp;/&thinsp;(n&thinsp;−&thinsp;p&thinsp;+&thinsp;2)$, जो केवल एक प्रतिगामी होने की स्थिति में क्रैमर-राव बाउंड को भी हरा देता है (p = 1). इसके अलावा, आकलनकर्ता और एस2स्वतंत्र यादृच्छिक चर हैं, वह तथ्य जो प्रतिगमन के लिए टी- और एफ-परीक्षणों का निर्माण करते समय उपयोगी होता है।

प्रभावशाली टिप्पणियाँ
जैसा कि पहले उल्लेख किया गया था, अनुमानक $$\hat\beta$$ y में रैखिक है, जिसका अर्थ है कि यह आश्रित चर y के रैखिक संयोजन का प्रतिनिधित्व करता हैi. इस रैखिक संयोजन में भार प्रतिगामी X के कार्य हैं, और आम तौर पर असमान होते हैं। उच्च भार वाले अवलोकनों को 'प्रभावशाली' कहा जाता है क्योंकि उनका अनुमानकर्ता के मूल्य पर अधिक स्पष्ट प्रभाव पड़ता है।

यह विश्लेषण करने के लिए कि कौन से अवलोकन प्रभावशाली हैं, हम एक विशिष्ट जे-वें अवलोकन को हटाते हैं और विचार करते हैं कि अनुमानित मात्राएँ कितनी बदलने वाली हैं (जैकनाइफ़ विधि के समान)। यह दिखाया जा सकता है कि β के लिए ओएलएस अनुमानक में परिवर्तन बराबर होगा

\hat\beta^{(j)} - \hat\beta = - \frac{1}{1-h_j} (X ^\mathrm{T} X)^{-1}x_j ^\mathrm{T} \hat\varepsilon_j\,, $$ कहाँ $h_{j} = x_{j}^{T}&thinsp;(X^{T}X)^{−1}x_{j}$ हैट मैट्रिक्स P, और x का j-वां विकर्ण तत्व हैjजे-वें अवलोकन के अनुरूप प्रतिगामी का वेक्टर है। इसी प्रकार, डेटासेट से उस अवलोकन को हटाने के परिणामस्वरूप जे-वें अवलोकन के लिए अनुमानित मूल्य में परिवर्तन बराबर होगा : $$ \hat{y}_j^{(j)} - \hat{y}_j = x_j ^\mathrm{T} \hat\beta^{(j)} - x_j ^T \hat\beta = - \frac{h_j}{1-h_j}\,\hat\varepsilon_j $$ हैट मैट्रिक्स के गुणों से, $0 ≤ h_{j} ≤ 1$, और उनका योग p तक है, ताकि औसतन $h_{j} ≈ p/n$. ये मात्राएँ एचj'लीवरेज' कहलाते हैं, और उच्च एच वाले अवलोकनj'लीवरेज पॉइंट' कहलाते हैं। आम तौर पर उच्च उत्तोलन वाले अवलोकनों की अधिक सावधानी से जांच की जानी चाहिए, यदि वे गलत हैं, या बाहरी हैं, या किसी अन्य तरीके से बाकी डेटासेट से असामान्य हैं।

विभाजित प्रतिगमन
कभी-कभी प्रतिगमन में चर और संबंधित मापदंडों को तार्किक रूप से दो समूहों में विभाजित किया जा सकता है, ताकि प्रतिगमन आकार ले सके

y = X_1\beta_1 + X_2\beta_2 + \varepsilon, $$ जहां एक्स1 और एक्स2 आयाम n×p हैं1, n×p2, और β1, बी2 पी हैं1×1 और पी2×1 वैक्टर, के साथ $p_{1} + p_{2} = p$.

फ्रिस्क-वॉ-लोवेल प्रमेय बताता है कि इस प्रतिगमन में अवशेष और ओएलएस अनुमान  संख्यात्मक रूप से अवशेषों और β के लिए ओएलएस अनुमान के समान होगा2 निम्नलिखित प्रतिगमन में:

M_1y = M_1X_2\beta_2 + \eta\,, $$ जहां एम1 प्रतिगामी X के लिए विनाशक मैट्रिक्स है1.

प्रमेय का उपयोग कई सैद्धांतिक परिणामों को स्थापित करने के लिए किया जा सकता है। उदाहरण के लिए, एक स्थिरांक और एक अन्य प्रतिगामी के साथ एक प्रतिगमन होना आश्रित चर और प्रतिगामी से साधनों को घटाने और फिर डी-मीन चर के लिए प्रतिगमन चलाने के बराबर है लेकिन स्थिर पद के बिना।

विवश अनुमान
मान लीजिए कि यह ज्ञात है कि प्रतिगमन में गुणांक रैखिक समीकरणों की एक प्रणाली को संतुष्ट करते हैं

A\colon\quad Q ^T \beta = c, \, $$ जहां Q पूर्ण रैंक का एक p×q मैट्रिक्स है, और c ज्ञात स्थिरांक का एक q×1 वेक्टर है, जहां q&thinsp;<&thinsp;p. इस मामले में न्यूनतम वर्ग अनुमान, बाधा ए के अधीन मॉडल के वर्ग अवशेषों के योग को न्यूनतम करने के बराबर है। 'बाधित न्यूनतम वर्ग (सीएलएस)' अनुमानक एक स्पष्ट सूत्र द्वारा दिया जा सकता है:

\hat\beta^c = \hat\beta - (X ^T X)^{-1}Q\Big(Q ^T (X ^T X)^{-1}Q\Big)^{-1}(Q ^T \hat\beta - c). $$ विवश अनुमानक के लिए यह अभिव्यक्ति मैट्रिक्स X तक वैध हैTX व्युत्क्रमणीय है। इस लेख की शुरुआत से ही यह मान लिया गया था कि यह मैट्रिक्स पूर्ण रैंक का है, और यह नोट किया गया था कि जब रैंक की स्थिति विफल हो जाती है, तो β की पहचान नहीं की जा सकेगी। हालाँकि ऐसा हो सकता है कि प्रतिबंध ए जोड़ने से β पहचाने जाने योग्य हो जाता है, ऐसी स्थिति में कोई अनुमानक के लिए सूत्र ढूंढना चाहेगा। अनुमानक बराबर है

\hat\beta^c = R(R ^T X ^T XR)^{-1}R ^T X ^T y + \Big(I_p - R(R ^T X ^T XR)^{-1}R ^T X ^T X\Big)Q(Q ^T Q)^{-1}c, $$ जहां R एक p×(p − q) मैट्रिक्स है जैसे कि मैट्रिक्स [Q R] गैर-एकवचन है, और RTQ = 0. ऐसा मैट्रिक्स हमेशा पाया जा सकता है, हालाँकि आम तौर पर यह अद्वितीय नहीं होता है। एक्स के मामले में दूसरा सूत्र पहले के साथ मेल खाता हैTX व्युत्क्रमणीय है।

बड़े नमूना गुण
न्यूनतम वर्ग अनुमानक रैखिक प्रतिगमन मॉडल पैरामीटर β के बिंदु अनुमान हैं। हालाँकि, आम तौर पर हम यह भी जानना चाहते हैं कि वे अनुमान मापदंडों के वास्तविक मूल्यों के कितने करीब हो सकते हैं। दूसरे शब्दों में, हम अंतराल अनुमान बनाना चाहते हैं।

चूँकि हमने त्रुटि पद ε के वितरण के बारे में कोई धारणा नहीं बनाई हैi, अनुमानकर्ताओं के वितरण का अनुमान लगाना असंभव है $$\hat\beta$$ और $$\hat\sigma^2$$. फिर भी, हम उनके स्पर्शोन्मुख गुणों को प्राप्त करने के लिए केंद्रीय सीमा प्रमेय को लागू कर सकते हैं क्योंकि नमूना आकार n अनंत तक जाता है। जबकि नमूना आकार आवश्यक रूप से सीमित है, यह मानने की प्रथा है कि n इतना बड़ा है कि OLS अनुमानक का वास्तविक वितरण इसकी स्पर्शोन्मुख सीमा के करीब है।

हम दिखा सकते हैं कि मॉडल मान्यताओं के तहत, β के लिए न्यूनतम वर्ग अनुमानक सुसंगत अनुमानक है (अर्थात् $$\hat\beta$$ यादृच्छिक चरों का अभिसरण#β की संभाव्यता में अभिसरण) और स्पर्शोन्मुख रूप से सामान्य:.CE.B2.CC.82 के सामान्य न्यूनतम वर्ग#संगति और स्पर्शोन्मुख सामान्यता वाले प्रमाण
 * $$(\hat\beta - \beta)\ \xrightarrow{d}\ \mathcal{N}\big(0,\;\sigma^2Q_{xx}^{-1}\big),$$

कहाँ $$Q_{xx} = X ^T X.$$

अंतराल
इस स्पर्शोन्मुख वितरण का उपयोग करते हुए, वेक्टर के जे-वें घटक के लिए लगभग दो-तरफा आत्मविश्वास अंतराल $$\hat{\beta}$$ के रूप में बनाया जा सकता है
 * $$\beta_j \in \bigg[\

\hat\beta_j \pm q^{\mathcal{N}(0, 1)}_{1 - \frac{\alpha}{2}}\!\sqrt{\hat{\sigma}^2 \left[Q_{xx}^{-1}\right]_{jj}}\ \bigg] $$ पर $1 − α$ आत्मविश्वास स्तर, जहां q मानक सामान्य वितरण के मात्रात्मक कार्य को दर्शाता है, और [·]jj मैट्रिक्स का j-वां विकर्ण तत्व है।

इसी प्रकार, σ के लिए न्यूनतम वर्ग अनुमानक2 भी सुसंगत और स्पर्शोन्मुख रूप से सामान्य है (बशर्ते कि ε का चौथा क्षणiमौजूद है) सीमित वितरण के साथ
 * $$(\hat{\sigma}^2 - \sigma^2)\ \xrightarrow{d}\ \mathcal{N} \left(0,\;\operatorname{E}\left[\varepsilon_i^4\right] - \sigma^4\right). $$

इन स्पर्शोन्मुख वितरणों का उपयोग भविष्यवाणी, परिकल्पनाओं का परीक्षण, अन्य अनुमानकों के निर्माण आदि के लिए किया जा सकता है। उदाहरण के तौर पर भविष्यवाणी की समस्या पर विचार करें। कल्पना करना $$x_0$$ प्रतिगामी के वितरण के क्षेत्र में कुछ बिंदु है, और कोई जानना चाहता है कि उस बिंदु पर प्रतिक्रिया चर क्या रहा होगा। माध्य प्रतिक्रिया मात्रा है $$y_0 = x_0^\mathrm{T} \beta$$, जबकि अनुमानित प्रतिक्रिया है $$\hat{y}_0 = x_0^\mathrm{T} \hat\beta$$. स्पष्ट रूप से अनुमानित प्रतिक्रिया एक यादृच्छिक चर है, इसका वितरण उससे प्राप्त किया जा सकता है $$\hat{\beta}$$:
 * $$\left(\hat{y}_0 - y_0\right)\ \xrightarrow{d}\ \mathcal{N}\left(0,\;\sigma^2 x_0^\mathrm{T} Q_{xx}^{-1} x_0\right),$$

जो माध्य प्रतिक्रिया के लिए विश्वास अंतराल बनाने की अनुमति देता है $$y_0$$ निर्माण किया जाना है:
 * $$y_0 \in \left[\ x_0^\mathrm{T} \hat{\beta} \pm q^{\mathcal{N}(0, 1)}_{1 - \frac{\alpha}{2}}\!\sqrt{\hat\sigma^2 x_0^\mathrm{T} Q_{xx}^{-1} x_0}\ \right]$$ पर $1 − α$ आत्मविश्वास स्तर।

परिकल्पना परीक्षण
दो परिकल्पना परीक्षण विशेष रूप से व्यापक रूप से उपयोग किए जाते हैं। सबसे पहले, कोई यह जानना चाहता है कि क्या अनुमानित प्रतिगमन समीकरण केवल यह अनुमान लगाने से बेहतर है कि प्रतिक्रिया चर के सभी मान उसके नमूना माध्य के बराबर हैं (यदि नहीं, तो कहा जाता है कि इसमें कोई व्याख्यात्मक शक्ति नहीं है)। अनुमानित प्रतिगमन के किसी भी व्याख्यात्मक मूल्य की शून्य परिकल्पना का परीक्षण एफ-परीक्षण का उपयोग करके किया जाता है। यदि गणना की गई एफ-वैल्यू पूर्व-चयनित महत्व के स्तर के लिए अपने महत्वपूर्ण मूल्य से अधिक होने के लिए पर्याप्त बड़ी पाई जाती है, तो शून्य परिकल्पना खारिज कर दी जाती है और वैकल्पिक परिकल्पना, कि प्रतिगमन में व्याख्यात्मक शक्ति होती है, स्वीकार की जाती है। अन्यथा, बिना किसी व्याख्यात्मक शक्ति वाली शून्य परिकल्पना स्वीकार की जाती है।

दूसरा, रुचि के प्रत्येक व्याख्यात्मक चर के लिए, कोई यह जानना चाहता है कि क्या इसका अनुमानित गुणांक शून्य से काफी भिन्न है - अर्थात, क्या इस विशेष व्याख्यात्मक चर में वास्तव में प्रतिक्रिया चर की भविष्यवाणी करने में व्याख्यात्मक शक्ति है। यहां शून्य परिकल्पना यह है कि वास्तविक गुणांक शून्य है। इस परिकल्पना का परीक्षण गुणांक के टी-सांख्यिकी की गणना करके, गुणांक अनुमान के मानक त्रुटि के अनुपात के रूप में किया जाता है। यदि टी-सांख्यिकी पूर्व निर्धारित मान से बड़ी है, तो शून्य परिकल्पना खारिज कर दी जाती है और चर में व्याख्यात्मक शक्ति पाई जाती है, जिसका गुणांक शून्य से काफी भिन्न होता है। अन्यथा, वास्तविक गुणांक के शून्य मान की शून्य परिकल्पना स्वीकार की जाती है।

इसके अलावा, चाउ परीक्षण का उपयोग यह जांचने के लिए किया जाता है कि क्या दो उप-नमूनों में समान अंतर्निहित वास्तविक गुणांक मान हैं। प्रत्येक उपसमुच्चय और संयुक्त डेटा सेट पर प्रतिगमन के वर्ग अवशेषों के योग की तुलना एफ-सांख्यिकी की गणना करके की जाती है; यदि यह एक महत्वपूर्ण मूल्य से अधिक है, तो दो उपसमुच्चय के बीच कोई अंतर नहीं होने की शून्य परिकल्पना खारिज कर दी जाती है; अन्यथा, यह स्वीकार किया जाता है.

वास्तविक डेटा के साथ उदाहरण
निम्नलिखित डेटा सेट 30-39 आयु वर्ग की अमेरिकी महिलाओं के लिए औसत ऊंचाई और वजन देता है (स्रोत: द वर्ल्ड अल्मनैक एंड बुक ऑफ फैक्ट्स, 1975)।


 * {|class="wikitable" style="text-align:right;"

! style="text-align:left;" | Height (m) ! style="text-align:left;" | Weight (kg) ! style="text-align:left;" | Height (m) ! style="text-align:left;" | Weight (kg) ! style="text-align:left;" | Height (m) ! style="text-align:left;" | Weight (kg) जब केवल एक आश्रित चर का मॉडलिंग किया जा रहा है, तो एक स्कैटर प्लॉट  आश्रित चर और प्रतिगामी के बीच संबंध के रूप और ताकत का सुझाव देगा। यह आउटलेर्स, विषमलैंगिकता और डेटा के अन्य पहलुओं को भी प्रकट कर सकता है जो एक फिटेड रिग्रेशन मॉडल की व्याख्या को जटिल बना सकता है। स्कैटरप्लॉट से पता चलता है कि संबंध मजबूत है और इसे द्विघात फलन के रूप में अनुमानित किया जा सकता है। ओएलएस रिग्रेसर को पेश करके गैर-रेखीय संबंधों को संभाल सकता है HEIGHT2. प्रतिगमन मॉडल तब एक बहुरेखीय मॉडल बन जाता है:
 * 1.47 || 1.50 || 1.52 || 1.55 || 1.57
 * rowspan="6" | OLS example weight vs height scatterplot.svg of the data, the relationship is slightly curved but close to linear]]
 * 52.21 || 53.12 || 54.48 || 55.84 || 57.20
 * 1.60 || 1.63 || 1.65 || 1.68 || 1.70
 * 58.57 || 59.93 || 61.29 || 63.11 || 64.47
 * 1.73 || 1.75 || 1.78 || 1.80 || 1.83
 * 66.28 || 68.10 || 69.92 || 72.19 || 74.46
 * }


 * $$w_i = \beta_1 + \beta_2 h_i + \beta_3 h_i^2 + \varepsilon_i.$$

सांख्यिकीय पैकेजों की सबसे लोकप्रिय सूची का आउटपुट इस जैसा दिखेगा:
 * {|style="border:1px solid #aaa; padding:2pt 10pt;"

! style="padding-left:0.5em; text-align:left;" | Parameter ! style="padding-left:0.5em;" | Value ! style="padding-left:0.5em;" | Std error ! style="padding-left:0.5em;" | t-statistic ! style="padding-left:0.5em;" | p-value इस तालिका में:
 * Method            || colspan="4" | Least squares
 * Dependent variable || colspan="4" | WEIGHT
 * Observations      || colspan="4" | 15
 * colspan="5" |
 * - style="text-align:right;"
 * Observations      || colspan="4" | 15
 * colspan="5" |
 * - style="text-align:right;"
 * - style="text-align:right;"
 * colspan="5" |
 * - style="text-align:right;"
 * style="text-align:left;" | $$\beta_1$$
 * 128.8128 || 16.3083 || 7.8986 || 0.0000
 * - style="text-align:right;"
 * style="text-align:left;" | $$\beta_2$$
 * –143.1620 || 19.8332 || –7.2183 || 0.0000
 * - style="text-align:right;"
 * style="text-align:left;" | $$\beta_3$$
 * 61.9603 || 6.0084 || 10.3122 || 0.0000
 * colspan="5" |
 * R2   || style="text-align:right;" | 0.9989
 * colspan="2" | S.E. of regression                 || style="text-align:right;" | 0.2516
 * Adjusted R2                           || style="text-align:right;" | 0.9987
 * colspan="2" | Model sum-of-sq.                   || style="text-align:right;" | 692.61
 * Log-likelihood                                   || style="text-align:right;" | 1.0890
 * colspan="2" | Residual sum-of-sq.                || style="text-align:right;" | 0.7595
 * Durbin–Watson stat.  || style="text-align:right;" | 2.1013
 * colspan="2" | Total sum-of-sq.                   || style="text-align:right;" | 693.37
 * Akaike criterion || style="text-align:right;" | 0.2548
 * colspan="2" | F-statistic                        || style="text-align:right;" | 5471.2
 * Schwarz criterion                            || style="text-align:right;" | 0.3964
 * colspan="2" | p-value (F-stat)                   || style="text-align:right;" | 0.0000
 * }
 * colspan="2" | Total sum-of-sq.                   || style="text-align:right;" | 693.37
 * Akaike criterion || style="text-align:right;" | 0.2548
 * colspan="2" | F-statistic                        || style="text-align:right;" | 5471.2
 * Schwarz criterion                            || style="text-align:right;" | 0.3964
 * colspan="2" | p-value (F-stat)                   || style="text-align:right;" | 0.0000
 * }
 * colspan="2" | p-value (F-stat)                   || style="text-align:right;" | 0.0000
 * }
 * मान कॉलम पैरामीटर β का न्यूनतम वर्ग अनुमान देता हैj* एसटीडी त्रुटि कॉलम प्रत्येक गुणांक अनुमान की मानक त्रुटि (सांख्यिकी) दिखाता है: $$\hat\sigma_j = \left(\hat{\sigma}^2\left[Q_{xx}^{-1}\right]_{jj}\right)^\frac{1}{2}$$
 * टी-स्टेटिस्टिक और पी-वैल्यू कॉलम परीक्षण कर रहे हैं कि क्या कोई गुणांक शून्य के बराबर हो सकता है। टी-सांख्यिकी की गणना बस इस प्रकार की जाती है $$t=\hat\beta_j/\hat\sigma_j$$. यदि त्रुटियाँ ε सामान्य वितरण का अनुसरण करती हैं, तो t छात्र-टी वितरण का अनुसरण करता है। कमजोर परिस्थितियों में, टी स्पर्शोन्मुख रूप से सामान्य है। टी के बड़े मान दर्शाते हैं कि शून्य परिकल्पना को अस्वीकार किया जा सकता है और संबंधित गुणांक शून्य नहीं है। दूसरा कॉलम, पी-वैल्यू|पी-वैल्यू, परिकल्पना परीक्षण के परिणामों को सांख्यिकीय महत्व के रूप में व्यक्त करता है। परंपरागत रूप से, 0.05 से छोटे पी-मान को इस बात के प्रमाण के रूप में लिया जाता है कि जनसंख्या गुणांक गैर-शून्य है।
 * आर-वर्ग निर्धारण का गुणांक है जो प्रतिगमन की अच्छाई को दर्शाता है। यदि फिट सही है तो यह आँकड़ा एक के बराबर होगा, और जब रजिस्ट्रार एक्स के पास कोई व्याख्यात्मक शक्ति नहीं होगी तो यह शून्य के बराबर होगा। यह जनसंख्या आर-वर्ग का एक पक्षपातपूर्ण अनुमान है, और यदि अतिरिक्त रजिस्ट्रार जोड़े जाते हैं, तो भी उनमें कभी कमी नहीं होगी, भले ही वे अप्रासंगिक हों।
 * एडजस्टेड आर-स्क्वायर थोड़ा संशोधित संस्करण है $$R^2$$, प्रतिगमनकर्ताओं की अधिक संख्या के लिए दंडित करने के लिए डिज़ाइन किया गया है जो प्रतिगमन की व्याख्यात्मक शक्ति में नहीं जुड़ते हैं। यह आँकड़ा हमेशा से छोटा होता है $$R^2$$, नए रजिस्ट्रार जुड़ने पर घट सकता है, और यहां तक ​​कि खराब फिटिंग वाले मॉडल के लिए नकारात्मक भी हो सकता है:
 * $$\overline{R}^2 = 1 - \frac{n - 1}{n - p}(1 - R^2)$$


 * लॉग-संभावना की गणना इस धारणा के तहत की जाती है कि त्रुटियां सामान्य वितरण का पालन करती हैं। हालाँकि यह धारणा बहुत उचित नहीं है, फिर भी यह आँकड़ा एलआर परीक्षण आयोजित करने में अपना उपयोग पा सकता है।
 * डर्बिन-वाटसन आँकड़ा परीक्षण करता है कि क्या अवशेषों के बीच क्रमिक सहसंबंध का कोई सबूत है। सामान्य नियम के अनुसार, 2 से छोटा मान सकारात्मक सहसंबंध का प्रमाण होगा।
 * मॉडल चयन के लिए अकाइक सूचना मानदंड और श्वार्ज़ मानदंड दोनों का उपयोग किया जाता है। आम तौर पर दो वैकल्पिक मॉडलों की तुलना करते समय, इनमें से किसी एक मानदंड का छोटा मान एक बेहतर मॉडल का संकेत देगा। * प्रतिगमन की मानक त्रुटि σ का अनुमान है, त्रुटि पद की मानक त्रुटि।
 * वर्गों का कुल योग, वर्गों का मॉडल योग, और वर्गों का अवशिष्ट योग हमें बताता है कि नमूने में प्रारंभिक भिन्नता को प्रतिगमन द्वारा कितना समझाया गया था।
 * एफ-सांख्यिकी इस परिकल्पना का परीक्षण करने का प्रयास करती है कि सभी गुणांक (अवरोधन को छोड़कर) शून्य के बराबर हैं। इस आँकड़े में शून्य परिकल्पना और सामान्यता धारणा के तहत F(p-1,n-p) वितरण है, और इसका पी-मूल्य संभावना को इंगित करता है कि परिकल्पना वास्तव में सच है। ध्यान दें कि जब त्रुटियां सामान्य नहीं होती हैं तो यह आँकड़ा अमान्य हो जाता है, और अन्य परीक्षण जैसे वाल्ड परीक्षण या संभावना अनुपात परीक्षण का उपयोग किया जाना चाहिए।

सामान्य न्यूनतम वर्ग विश्लेषण में अक्सर मॉडल के कल्पित रूप से डेटा के विचलन का पता लगाने के लिए डिज़ाइन किए गए डायग्नोस्टिक प्लॉट का उपयोग शामिल होता है। ये कुछ सामान्य निदान प्लॉट हैं:
 * मॉडल में व्याख्यात्मक चर के विरुद्ध अवशेष। इन चरों के बीच एक गैर-रैखिक संबंध बताता है कि सशर्त माध्य फ़ंक्शन की रैखिकता कायम नहीं रह सकती है। व्याख्यात्मक चर के विभिन्न स्तरों के लिए अवशेषों में परिवर्तनशीलता के विभिन्न स्तर संभावित विषमलैंगिकता का सुझाव देते हैं।
 * व्याख्यात्मक चर के विरुद्ध अवशेष मॉडल में नहीं हैं। इन चरों के अवशेषों का कोई भी संबंध मॉडल में शामिल करने के लिए इन चरों पर विचार करने का सुझाव देगा।
 * फिट मूल्यों के विरुद्ध अवशेष, $$\hat{y}$$.
 * पूर्ववर्ती अवशिष्ट के विरुद्ध अवशिष्ट। यह कथानक अवशेषों में क्रमिक सहसंबंधों की पहचान कर सकता है।

प्रतिगमन मॉडल का उपयोग करके सांख्यिकीय अनुमान लगाते समय एक महत्वपूर्ण विचार यह है कि डेटा का नमूना कैसे लिया गया था। इस उदाहरण में, डेटा व्यक्तिगत महिलाओं पर माप के बजाय औसत हैं। मॉडल का फिट बहुत अच्छा है, लेकिन इसका मतलब यह नहीं है कि किसी महिला के वजन का अनुमान केवल उसकी ऊंचाई के आधार पर उच्च सटीकता के साथ लगाया जा सकता है।

गोलीकरण के प्रति संवेदनशीलता
यह उदाहरण यह भी दर्शाता है कि इन गणनाओं द्वारा निर्धारित गुणांक इस बात के प्रति संवेदनशील हैं कि डेटा कैसे तैयार किया जाता है। ऊंचाई को मूल रूप से निकटतम इंच तक गोल किया गया था और अब इसे निकटतम सेंटीमीटर में परिवर्तित और गोल किया गया है। चूँकि रूपांतरण कारक एक इंच से 2.54 सेमी है, इसलिए यह सटीक रूपांतरण नहीं है। मूल इंच को राउंड (x/0.0254) द्वारा पुनर्प्राप्त किया जा सकता है और फिर बिना राउंडिंग के मीट्रिक में परिवर्तित किया जा सकता है। यदि ऐसा किया जाता है तो परिणाम बन जाते हैं:

5' 6 (1.6764 मीटर) महिला के वजन की भविष्यवाणी करने के लिए इनमें से किसी भी समीकरण का उपयोग करने से समान मान मिलते हैं: गोलाई के साथ 62.94 किलो बनाम बिना गोलाई के 62.98 किलो। इस प्रकार डेटा में प्रतीत होने वाला छोटा सा बदलाव गुणांकों पर वास्तविक प्रभाव डालता है लेकिन समीकरण के परिणामों पर एक छोटा सा प्रभाव डालता है।

हालांकि यह डेटा रेंज के बीच में अहानिकर लग सकता है, यह चरम सीमा पर या ऐसे मामले में महत्वपूर्ण हो सकता है जहां फिट किए गए मॉडल का उपयोग डेटा रेंज (एक्सट्रपलेशन) के बाहर प्रोजेक्ट करने के लिए किया जाता है।

यह एक सामान्य त्रुटि को उजागर करता है: यह उदाहरण ओएलएस का दुरुपयोग है जिसके लिए स्वाभाविक रूप से आवश्यक है कि स्वतंत्र चर (इस मामले में ऊंचाई) में त्रुटियां शून्य या कम से कम नगण्य हों। निकटतम इंच की प्रारंभिक गोलाई और कोई भी वास्तविक माप त्रुटि एक सीमित और गैर-नगण्य त्रुटि का गठन करती है। परिणामस्वरूप, फिट किए गए पैरामीटर वह सर्वोत्तम अनुमान नहीं हैं जो उन्हें माना जाता है। हालांकि अनुमान में त्रुटि पूरी तरह से नकली नहीं है, लेकिन यह x और y त्रुटियों के सापेक्ष आकार पर निर्भर करेगी।

समस्या कथन
हम ध्रुवीय आधार निर्देशांक में दो पिंड कक्षाओं के समीकरण का पता लगाने के लिए न्यूनतम वर्ग तंत्र का उपयोग कर सकते हैं। आमतौर पर इस्तेमाल किया जाने वाला समीकरण है $$r(\theta) = \frac{p}{1-e\cos(\theta)}$$ कहाँ $$r(\theta)$$ यह त्रिज्या है कि वस्तु किसी एक पिंड से कितनी दूर है। समीकरण में पैरामीटर $$p$$ और $$e$$ कक्षा का पथ निर्धारित करने के लिए उपयोग किया जाता है। हमने निम्नलिखित डेटा को मापा है। हमें न्यूनतम वर्ग सन्निकटन ज्ञात करना होगा $$e$$ और $$p$$ दिए गए डेटा के लिए.

समाधान
सबसे पहले हमें e और p को रैखिक रूप में निरूपित करने की आवश्यकता है। इसलिए हम समीकरण को फिर से लिखने जा रहे हैं $$r(\theta)$$ जैसा $$\frac{1}{r(\theta)} = \frac{1}{p} - \frac{e}{p}\cos(\theta)$$. अब हम अपने अवलोकन डेटा को इस प्रकार दर्शाने के लिए इस फॉर्म का उपयोग कर सकते हैं:

$$A^{T}A \binom{x}{y} = A^{T}b $$ कहाँ $$x$$ है $$\frac{1}{p}$$ और $$y$$ है $$\frac{e}{p}$$ और $$A$$ के गुणांक वाले पहले कॉलम द्वारा निर्मित किया गया है $$\frac{1}{p}$$ और दूसरा कॉलम का गुणांक है $$\frac{e}{p}$$ और $$b$$ संबंधित के लिए मान है $$\frac{1}{r(\theta)}$$ इसलिए  $$A = \begin{bmatrix} 1 & -0.731354\\1 & -0.707107\\1 & -0.615661\\1&\ 0.052336\\1& 0.309017\\1&0.438371 \end{bmatrix}$$ और $$b = \begin{bmatrix}  0.21220\\ 0.21958\\  0.24741\\   0.45071\\   0.52883\\   0.56820\end{bmatrix}.$$ हल करने पर हमें मिलता है $$\binom{x}{y} = \binom{0.43478}{0.30435}$$ इसलिए$$p=\frac{1}{x} = 2.3000$$ और $$e=p\cdot y = 0.70001$$

यह भी देखें

 * न्यूनतम माध्य वर्ग त्रुटि
 * फामा-मैकबेथ प्रतिगमन
 * अरैखिक न्यूनतम वर्ग
 * रैखिक न्यूनतम वर्गों के लिए संख्यात्मक विधियाँ
 * नॉनलाइनियर सिस्टम पहचान