न्यूनतम वर्ग विधि

अवशेषों (सांख्यिकी) के वर्गों के योग को कम करके अतिनिर्धारित प्रणालियों (समीकरणों के सेट जिनमें अज्ञात से अधिक समीकरण हैं) के समाधान का अनुमान लगाने के लिए कम से कम वर्गों की विधि प्रतिगमन विश्लेषण में एक मानक दृष्टिकोण है। प्रत्येक व्यक्तिगत समीकरण के परिणामों में बनाए गए एक देखे गए मूल्य और एक मॉडल द्वारा प्रदान किए गए फिट किए गए मूल्य के बीच का अंतर)।

सबसे महत्वपूर्ण अनुप्रयोग वक्र फिटिंग में है। जब समस्या में स्वतंत्र चर ('x'' चर) में पर्याप्त अनिश्चितता होती है, तो सरल प्रतिगमन और कम से कम वर्ग विधियों में समस्याएँ होती हैं; ऐसे मामलों में, कम से कम वर्गों के लिए त्रुटि-इन-वेरिएबल मॉडल को फिट करने के लिए आवश्यक पद्धति पर विचार किया जा सकता है।

कम से कम वर्ग की समस्याएं दो श्रेणियों में आती हैं: रैखिक या सामान्य न्यूनतम वर्ग और अरैखिक न्यूनतम वर्ग, यह इस बात पर निर्भर करता है कि अवशिष्ट सभी अज्ञात में रैखिक हैं या नहीं। सांख्यिकीय प्रतिगमन विश्लेषण में रैखिक कम से कम वर्ग समस्या होती है; इसका एक बंद-रूप समाधान है। गैर-रैखिक समस्या आमतौर पर पुनरावृत्त शोधन द्वारा हल की जाती है; प्रत्येक पुनरावृत्ति पर प्रणाली को एक रेखीय द्वारा अनुमानित किया जाता है, और इस प्रकार मूल गणना दोनों मामलों में समान होती है।

बहुपद कम से कम वर्ग स्वतंत्र चर के एक समारोह के रूप में आश्रित चर की भविष्यवाणी में भिन्नता और फिट वक्र से विचलन का वर्णन करता है।

जब अवलोकन एक घातीय परिवार से पहचान के साथ आते हैं क्योंकि इसके प्राकृतिक पर्याप्त आंकड़े और हल्के-स्थितियां संतुष्ट होती हैं (उदाहरण के लिए सामान्य, घातीय, पॉइसन और द्विपद वितरण के लिए), मानकीकृत न्यूनतम-वर्ग अनुमान और अधिकतम संभावना | अधिकतम-संभावना अनुमान समान होते हैं। कम से कम वर्गों की विधि को क्षण (सांख्यिकी) अनुमानक की विधि के रूप में भी प्राप्त किया जा सकता है।

निम्नलिखित चर्चा ज्यादातर रैखिक कार्यों के संदर्भ में प्रस्तुत की जाती है लेकिन कार्यों के अधिक सामान्य परिवारों के लिए कम से कम वर्गों का उपयोग वैध और व्यावहारिक है। साथ ही, संभाव्यता (फिशर जानकारी के माध्यम से) के लिए स्थानीय द्विघात सन्निकटन को पुनरावृत्त रूप से लागू करके, सामान्यीकृत रैखिक मॉडल को फिट करने के लिए न्यूनतम-वर्ग विधि का उपयोग किया जा सकता है।

सबसे कम-वर्ग विधि आधिकारिक तौर पर एड्रियन मैरी लीजेंड्रे (1805) द्वारा खोजी और प्रकाशित की गई थी, हालांकि इसे आमतौर पर कार्ल फ्रेडरिक गॉस (1795) को भी सह-श्रेय दिया जाता है जिन्होंने विधि में महत्वपूर्ण सैद्धांतिक प्रगति में योगदान दिया और हो सकता है कि उन्होंने पहले अपने काम में इसका इस्तेमाल किया हो।

संस्थापक
कम से कम वर्गों की विधि खगोल विज्ञान और भूगणित के क्षेत्रों से विकसित हुई, क्योंकि वैज्ञानिकों और गणितज्ञों ने खोज के युग के दौरान पृथ्वी के महासागरों को नेविगेट करने की चुनौतियों का समाधान प्रदान करने की मांग की थी। आकाशीय पिंडों के व्यवहार का सटीक विवरण जहाजों को खुले समुद्र में जाने के लिए सक्षम करने की कुंजी थी, जहां नाविक अब नेविगेशन के लिए भूमि के दर्शन पर भरोसा नहीं कर सकते थे।

यह पद्धति अठारहवीं शताब्दी के दौरान हुई कई प्रगतियों की परिणति थी:
 * विभिन्न अवलोकनों का संयोजन वास्तविक मूल्य का सर्वोत्तम अनुमान है; त्रुटियों में वृद्धि के बजाय एकत्रीकरण के साथ कमी आती है, शायद पहली बार 1722 में रोजर कोट्स द्वारा व्यक्त की गई थी।
 * एक ही अवलोकन को सटीक रूप से देखने और दर्ज करने के लिए अपनी पूरी कोशिश करने के विपरीत समान परिस्थितियों में लिए गए विभिन्न अवलोकनों का संयोजन। दृष्टिकोण को औसत की विधि के रूप में जाना जाता था। 1750 में चंद्रमा के लिब्रेशन का अध्ययन करते समय टोबियास मेयर द्वारा इस दृष्टिकोण का विशेष रूप से उपयोग किया गया था, और 1788 में बृहस्पति और शनि की गति में अंतर को समझाने में पियरे-साइमन लाप्लास द्वारा अपने काम में।
 * विभिन्न अवलोकनों के संयोजन के तहत लिया गया स्थितियाँ। विधि को न्यूनतम निरपेक्ष विचलन की विधि के रूप में जाना जाने लगा। यह 1757 में पृथ्वी के आकार पर अपने काम रोजर जोसेफ बोस्कोविच द्वारा और 1799 में इसी समस्या के लिए पियरे-साइमन लाप्लास द्वारा विशेष रूप से प्रदर्शित किया गया था।
 * एक मानदंड का विकास जिसका मूल्यांकन यह निर्धारित करने के लिए किया जा सकता है कि न्यूनतम त्रुटि वाला समाधान कब प्राप्त किया गया है। लाप्लास ने त्रुटियों के लिए संभाव्यता घनत्व के गणितीय रूप को निर्दिष्ट करने का प्रयास किया और अनुमान की एक विधि को परिभाषित किया जो अनुमान की त्रुटि को कम करता है। इस उद्देश्य के लिए, लाप्लास ने एक सममित दो तरफा घातीय वितरण का उपयोग किया जिसे अब हम त्रुटि वितरण को मॉडल करने के लिए लाप्लास वितरण कहते हैं, और अनुमान की त्रुटि के रूप में पूर्ण विचलन के योग का उपयोग किया। उन्होंने महसूस किया कि ये सबसे सरल अनुमान हैं जो वे बना सकते हैं, और उन्होंने सर्वश्रेष्ठ अनुमान के रूप में अंकगणितीय माध्य प्राप्त करने की आशा की थी। इसके बजाय, उनका अनुमानक पश्च माध्यिका था।

विधि
1805 में एड्रियन-मैरी लीजेंड्रे द्वारा कम से कम वर्गों की विधि का पहला स्पष्ट और संक्षिप्त विवरण प्रकाशित किया गया था। तकनीक को डेटा के रैखिक समीकरणों को फिट करने के लिए एक बीजगणितीय प्रक्रिया के रूप में वर्णित किया गया है और लीजेंड्रे पृथ्वी के आकार के लिए लाप्लास के समान डेटा का विश्लेषण करके नई विधि का प्रदर्शन करता है। लीजेंड्रे के प्रकाशन के दस वर्षों के भीतर, फ्रांस, इटली और प्रशिया में खगोल विज्ञान और भूगणित में एक मानक उपकरण के रूप में कम से कम वर्गों की विधि को अपनाया गया था, जो एक वैज्ञानिक तकनीक की असाधारण तेजी से स्वीकृति का गठन करता है। 1809 में कार्ल फ्रेडरिक गॉस ने आकाशीय पिंडों की कक्षाओं की गणना करने की अपनी पद्धति प्रकाशित की। उस काम में उन्होंने दावा किया कि 1795 के बाद से उनके पास कम से कम वर्गों की विधि है। यह स्वाभाविक रूप से लीजेंड्रे के साथ एक प्राथमिकता विवाद का कारण बना। हालांकि, गॉस के श्रेय के लिए, वह लेजेंड्रे से आगे निकल गया और कम से कम वर्गों की विधि को प्रायिकता के सिद्धांतों और सामान्य वितरण से जोड़ने में सफल रहा। वह लाप्लास के कार्यक्रम को पूरा करने में कामयाब रहे थे, अज्ञात मापदंडों की एक सीमित संख्या के आधार पर, प्रेक्षणों के लिए संभाव्यता घनत्व के गणितीय रूप को निर्दिष्ट करने के लिए, और अनुमान की एक विधि को परिभाषित करते हैं जो अनुमान की त्रुटि को कम करता है। गॉस ने दिखाया कि संभाव्यता घनत्व और अनुमान की विधि दोनों को बदलकर अंकगणित माध्य वास्तव में स्थान पैरामीटर का सबसे अच्छा अनुमान है। इसके बाद उन्होंने यह पूछकर समस्या को बदल दिया कि घनत्व किस प्रकार का होना चाहिए और स्थान पैरामीटर के अनुमान के रूप में अंकगणितीय माध्य प्राप्त करने के लिए किस विधि का उपयोग किया जाना चाहिए। इस प्रयास में उन्होंने सामान्य वितरण का आविष्कार किया।

गॉस की विधि की ताकत का एक प्रारंभिक प्रदर्शन तब हुआ जब इसका उपयोग नए खोजे गए क्षुद्रग्रह सेरेस (बौने ग्रह) के भविष्य के स्थान की भविष्यवाणी करने के लिए किया गया था। 1 जनवरी 1801 को, इतालवी खगोलशास्त्री जोसेफ पियाज़ी ने सेरेस की खोज की और सूर्य की चकाचौंध में खो जाने से पहले 40 दिनों तक इसके पथ को ट्रैक करने में सक्षम रहे। इन आंकड़ों के आधार पर, खगोलविदों ने ग्रहों की गति के केप्लर के नियमों को हल किए बिना सूर्य के पीछे से उभरने के बाद सेरेस का स्थान निर्धारित करना चाहा। केपलर के ग्रहों की गति के जटिल अरैखिक समीकरण। हंगरी के खगोलशास्त्री फ्रांज जेवियर वॉन ज़ैच को सेरेस को स्थानांतरित करने की अनुमति देने वाली एकमात्र भविष्यवाणियाँ 24 वर्षीय गॉस द्वारा कम से कम वर्ग विश्लेषण का उपयोग करके की गई थीं।

1810 में, गॉस के काम को पढ़ने के बाद, लाप्लास ने, केंद्रीय सीमा प्रमेय को साबित करने के बाद, इसका उपयोग कम से कम वर्गों की विधि और सामान्य वितरण के लिए एक बड़ा नमूना औचित्य देने के लिए किया। 1822 में, गॉस यह बताने में सक्षम था कि प्रतिगमन विश्लेषण के लिए न्यूनतम-वर्ग दृष्टिकोण इस अर्थ में इष्टतम है कि एक रैखिक मॉडल में जहां त्रुटियों का माध्य शून्य है, असंबद्ध हैं, और समान प्रसरण हैं, सबसे अच्छा रैखिक निष्पक्ष अनुमानक गुणांक सबसे कम-वर्ग अनुमानक है। इस परिणाम को गॉस-मार्कोव प्रमेय के रूप में जाना जाता है।

कम से कम वर्गों के विश्लेषण का विचार भी 1808 में अमेरिकी रॉबर्ट एड्रेन द्वारा स्वतंत्र रूप से तैयार किया गया था। अगली दो शताब्दियों में त्रुटियों के सिद्धांत और आंकड़ों में श्रमिकों ने कम से कम वर्गों को लागू करने के कई अलग-अलग तरीके खोजे।

समस्या कथन
उद्देश्य में डेटा सेट को सर्वोत्तम रूप से फिट करने के लिए मॉडल फ़ंक्शन के पैरामीटर समायोजित करना शामिल है। एक साधारण डेटा सेट में n अंक होते हैं (डेटा जोड़े) $$(x_i,y_i)\!$$, मैं = 1, …, एन, जहां $$x_i\!$$ एक स्वतंत्र चर है और $$y_i\!$$ एक आश्रित चर है जिसका मूल्य अवलोकन द्वारा पाया जाता है। मॉडल फ़ंक्शन का रूप है $$f(x, \boldsymbol \beta)$$, जहां एम समायोज्य पैरामीटर वेक्टर में आयोजित किए जाते हैं $$\boldsymbol \beta$$. लक्ष्य उस मॉडल के लिए पैरामीटर मान खोजना है जो डेटा के लिए सबसे उपयुक्त है। एक डेटा बिंदु के लिए एक मॉडल का फिट इसकी त्रुटियों और आँकड़ों में अवशिष्टों द्वारा मापा जाता है, जो आश्रित चर के देखे गए मूल्य और मॉडल द्वारा अनुमानित मूल्य के बीच अंतर के रूप में परिभाषित किया गया है:
 * $$r_i = y_i - f(x_i, \boldsymbol \beta).$$Linear Residual Plot Graph.pngकम से कम वर्ग विधि वर्ग अवशिष्टों के योग को कम करके इष्टतम पैरामीटर मान ढूंढती है, $$S$$:


 * $$S=\sum_{i=1}^{n}r_i^2.$$

सरलतम मामले में $$f(x_i, \boldsymbol \beta)= \beta$$ और सबसे कम-वर्ग विधि का परिणाम इनपुट डेटा का अंकगणितीय माध्य है।

दो आयामों में एक मॉडल का उदाहरण सीधी रेखा है। Y-अवरोधन को इस रूप में नकारना $$\beta_0$$ और ढलान के रूप में $$\beta_1$$, मॉडल फ़ंक्शन द्वारा दिया गया है $$f(x,\boldsymbol \beta)=\beta_0+\beta_1 x$$. इस मॉडल के पूरी तरह से विकसित उदाहरण के लिए रैखिक कम से कम वर्ग #उदाहरण देखें।

एक डेटा बिंदु में एक से अधिक स्वतंत्र चर शामिल हो सकते हैं। उदाहरण के लिए, ऊंचाई माप के एक सेट के लिए एक विमान को फ़िट करते समय, विमान दो स्वतंत्र चर, x और z का एक कार्य है, कहते हैं। सबसे सामान्य मामले में प्रत्येक डेटा बिंदु पर एक या अधिक स्वतंत्र चर और एक या अधिक आश्रित चर हो सकते हैं।

दाईं ओर एक अवशिष्ट भूखंड है जो यादृच्छिक उतार-चढ़ाव को दर्शाता है $$r_i=0$$, यह दर्शाता है कि एक रेखीय मॉडल$$(Y_i = \alpha + \beta x_i + U_i)$$ उचित है। $$U_i$$ एक स्वतंत्र, यादृच्छिक चर है। यदि अवशिष्ट बिंदुओं में किसी प्रकार का आकार होता है और बेतरतीब ढंग से उतार-चढ़ाव नहीं होता है, तो एक रैखिक मॉडल उपयुक्त नहीं होगा। उदाहरण के लिए, यदि अवशिष्ट भूखंड में एक परवलयिक आकार था, जैसा कि दाईं ओर देखा गया है, एक परवलयिक मॉडल$$(Y_i = \alpha + \beta x_i + \gamma x_i^2 + U_i)$$ डेटा के लिए उपयुक्त होगा। एक परवलयिक मॉडल के अवशेषों की गणना के माध्यम से की जा सकती है $$r_i=y_i-\hat{\alpha}-\hat{\beta} x_i-\widehat{\gamma} x_i^2$$.

सीमाएं
यह प्रतिगमन सूत्रीकरण निर्भर चर में केवल अवलोकन संबंधी त्रुटियों पर विचार करता है (लेकिन वैकल्पिक कुल न्यूनतम वर्ग प्रतिगमन दोनों चर में त्रुटियों के लिए जिम्मेदार हो सकता है)। अलग-अलग प्रभावों के साथ दो अलग-अलग संदर्भ हैं:


 * भविष्यवाणी के लिए प्रतिगमन। यहां एक समान स्थिति में आवेदन के लिए भविष्यवाणी नियम प्रदान करने के लिए एक मॉडल फिट किया गया है जिसमें फिटिंग के लिए उपयोग किया जाने वाला डेटा लागू होता है। यहां ऐसे भविष्य के आवेदन से संबंधित आश्रित चर उसी प्रकार की अवलोकन त्रुटि के अधीन होंगे, जो फिटिंग के लिए उपयोग किए गए डेटा में हैं। इसलिए इस तरह के डेटा के लिए कम से कम वर्ग भविष्यवाणी नियम का उपयोग करना तार्किक रूप से सुसंगत है।
 * एक सच्चे रिश्ते को ढालने के लिए प्रतिगमन। मानक प्रतिगमन विश्लेषण में जो कम से कम वर्गों द्वारा फिट करने की ओर जाता है, एक अंतर्निहित धारणा है कि स्वतंत्र चर में त्रुटियां शून्य या सख्ती से नियंत्रित होती हैं ताकि नगण्य हो। जब स्वतंत्र चर में त्रुटियां गैर-नगण्य होती हैं, तो चर-में-त्रुटियां मॉडल का उपयोग किया जा सकता है; इस तरह के तरीकों से पैरामीटर अनुमान, परिकल्पना परीक्षण और विश्वास अंतराल हो सकते हैं जो स्वतंत्र चर में अवलोकन त्रुटियों की उपस्थिति को ध्यान में रखते हैं। एक वैकल्पिक तरीका यह है कि किसी मॉडल को कम से कम वर्गों में फ़िट किया जाए; इसे मॉडल-फिटिंग में उपयोग के लिए एक वस्तुनिष्ठ फ़ंक्शन तैयार करने में त्रुटि के विभिन्न स्रोतों के प्रभावों को संतुलित करने के लिए एक व्यावहारिक दृष्टिकोण के रूप में देखा जा सकता है।

कम से कम वर्गों की समस्या का समाधान
ढाल को शून्य पर सेट करके वर्गों के योग का मैक्सिमा और मिनिमा पाया जाता है। चूँकि मॉडल में m पैरामीटर हैं, m ग्रेडिएंट समीकरण हैं: $$\frac{\partial S}{\partial \beta_j}=2\sum_i r_i\frac{\partial r_i}{\partial \beta_j} = 0,\ j=1,\ldots,m,$$ और तबसे $$r_i=y_i-f(x_i,\boldsymbol \beta)$$, ग्रेडिएंट समीकरण बन जाते हैं $$-2\sum_i r_i\frac{\partial f(x_i,\boldsymbol \beta)}{\partial \beta_j}=0,\ j=1,\ldots,m.$$ ग्रेडिएंट समीकरण सभी न्यूनतम वर्ग समस्याओं पर लागू होते हैं। प्रत्येक विशेष समस्या के लिए मॉडल और उसके आंशिक डेरिवेटिव के लिए विशेष अभिव्यक्ति की आवश्यकता होती है।

सबसे कम रैखिक वर्ग
एक प्रतिगमन मॉडल एक रेखीय मॉडल होता है जब मॉडल में पैरामीटरों का एक रेखीय संयोजन शामिल होता है, अर्थात, $$ f(x, \boldsymbol \beta) = \sum_{j = 1}^m \beta_j \phi_j(x),$$ जहां समारोह $$\phi_j$$ का एक कार्य है $$ x $$.

दे $$ X_{ij}= \phi_j(x_{i})$$ और आव्यूहों में स्वतंत्र और आश्रित चरों को रखना $$ X$$ तथा $$ Y$$, क्रमशः, हम निम्नतम वर्गों की गणना निम्न प्रकार से कर सकते हैं। ध्यान दें कि $$ D$$ सभी डेटा का सेट है।

$$ L(D, \boldsymbol{\beta})= \left\|Y - X\boldsymbol{\beta} \right\|^2 = (Y - X\boldsymbol{\beta})^\mathsf{T} (Y - X\boldsymbol{\beta}) = Y^\mathsf{T}Y- Y^\mathsf{T}X\boldsymbol{\beta}- \boldsymbol{\beta}^\mathsf{T}X^\mathsf{T}Y+\boldsymbol{\beta}^\mathsf{T}X^\mathsf{T}X\boldsymbol{\beta}$$ हानि का ढाल है: $$\frac{\partial L(D, \boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = \frac{\partial \left(Y^\mathsf{T}Y- Y^\mathsf{T}X\boldsymbol{\beta}- \boldsymbol{\beta}^\mathsf{T}X^\mathsf{T}Y+\boldsymbol{\beta}^\mathsf{T}X^\mathsf{T}X\boldsymbol{\beta}\right)}{\partial \boldsymbol{\beta}} = -2X^\mathsf{T}Y + 2X^\mathsf{T}X\boldsymbol{\beta}$$ नुकसान की ग्रेडिएंट को शून्य पर सेट करना और इसके लिए हल करना $$\boldsymbol{\beta}$$ हम पाते हैं: $$-2X^\mathsf{T}Y + 2X^\mathsf{T}X\boldsymbol{\beta} = 0 \Rightarrow X^\mathsf{T}Y = X^\mathsf{T}X\boldsymbol{\beta}$$ $$\boldsymbol{\hat{\beta}} = \left(X^\mathsf{T}X\right)^{-1} X^\mathsf{T}Y$$

गैर रेखीय कम से कम वर्ग
कुछ मामलों में, गैर-रैखिक कम से कम वर्गों की समस्या का एक बंद-रूप समाधान है - लेकिन सामान्य तौर पर ऐसा नहीं है। कोई बंद-रूप समाधान नहीं होने की स्थिति में, संख्यात्मक एल्गोरिदम का उपयोग मापदंडों के मान को खोजने के लिए किया जाता है $$\beta$$ जो लक्ष्य को कम करता है। अधिकांश एल्गोरिदम में मापदंडों के लिए प्रारंभिक मान चुनना शामिल है। फिर, मापदंडों को पुनरावृत्त रूप से परिष्कृत किया जाता है, अर्थात, क्रमिक सन्निकटन द्वारा मान प्राप्त किए जाते हैं: $${\beta_j}^{k+1} = {\beta_j}^k+\Delta \beta_j,$$ जहां एक सुपरस्क्रिप्ट k एक पुनरावृति संख्या है, और वृद्धि का वेक्टर है $$\Delta \beta_j$$ शिफ्ट वेक्टर कहा जाता है। कुछ सामान्य रूप से उपयोग किए जाने वाले एल्गोरिदम में, प्रत्येक पुनरावृत्ति पर मॉडल को लगभग प्रथम-क्रम टेलर श्रृंखला विस्तार के सन्निकटन द्वारा रेखीयकृत किया जा सकता है। $$ \boldsymbol \beta^k$$: $$\begin{align} f(x_i,\boldsymbol \beta) &= f^k(x_i,\boldsymbol \beta) +\sum_j \frac{\partial f(x_i,\boldsymbol \beta)}{\partial \beta_j} \left(\beta_j-{\beta_j}^k \right) \\ &= f^k(x_i,\boldsymbol \beta) +\sum_j J_{ij} \,\Delta\beta_j. \end{align}$$ जेकोबियन मैट्रिक्स और निर्धारक जे स्थिरांक, स्वतंत्र चर  और  मापदंडों का एक कार्य है, इसलिए यह एक पुनरावृत्ति से अगले में बदलता है। अवशेष द्वारा दिया जाता है $$r_i = y_i - f^k(x_i, \boldsymbol \beta)- \sum_{k=1}^{m} J_{ik}\,\Delta\beta_k = \Delta y_i- \sum_{j=1}^{m} J_{ij}\,\Delta\beta_j.$$ के वर्गों के योग को कम करने के लिए $$r_i$$, ग्रेडिएंट समीकरण को शून्य पर सेट किया गया है और इसके लिए हल किया गया है $$ \Delta \beta_j$$: $$-2\sum_{i=1}^n J_{ij} \left( \Delta y_i-\sum_{k=1}^m J_{ik} \, \Delta \beta_k \right) = 0,$$ जो, पुनर्व्यवस्था पर, m एक साथ रैखिक समीकरण बन जाते हैं, 'सामान्य समीकरण': $$\sum_{i=1}^{n}\sum_{k=1}^m J_{ij} J_{ik} \, \Delta \beta_k=\sum_{i=1}^n J_{ij} \, \Delta y_i \qquad (j=1,\ldots,m).$$ सामान्य समीकरणों को मैट्रिक्स संकेतन के रूप में लिखा जाता है $$\left(\mathbf{J}^\mathsf{T} \mathbf{J}\right) \Delta \boldsymbol \beta = \mathbf{J}^\mathsf{T}\Delta \mathbf{y}.$$

ये गॉस-न्यूटन एल्गोरिथम के परिभाषित समीकरण हैं।

रैखिक और गैर-रेखीय कम से कम वर्गों के बीच अंतर
इन अंतरों पर विचार किया जाना चाहिए जब भी एक गैर-रेखीय कम से कम वर्गों की समस्या का समाधान खोजा जा रहा हो।
 * एलएलएसक्यू (रैखिक न्यूनतम वर्ग) में मॉडल फ़ंक्शन, एफ फॉर्म के पैरामीटर का एक रैखिक संयोजन है $$f = X_{i1}\beta_1 + X_{i2}\beta_2 +\cdots$$ मॉडल एक सीधी रेखा, एक परवलय या कार्यों के किसी अन्य रैखिक संयोजन का प्रतिनिधित्व कर सकता है। NLLSQ (नॉनलाइनियर लीस्ट स्क्वेयर) में पैरामीटर फ़ंक्शन के रूप में दिखाई देते हैं, जैसे कि $$\beta^2, e^{\beta x}$$ इत्यादि। यदि डेरिवेटिव $$\partial f / \partial \beta_j$$ या तो स्थिर हैं या केवल स्वतंत्र चर के मूल्यों पर निर्भर करते हैं, मॉडल पैरामीटर में रैखिक है। अन्यथा मॉडल अरैखिक है।
 * एनएलएलएसक्यू समस्या का समाधान खोजने के लिए पैरामीटर के लिए प्रारंभिक मानों की आवश्यकता है; LLSQ को उनकी आवश्यकता नहीं है।
 * एनएलएलएसक्यू के लिए समाधान एल्गोरिदम में अक्सर आवश्यकता होती है कि जेकोबियन की गणना एलएलएसक्यू के समान की जा सकती है। आंशिक डेरिवेटिव के लिए विश्लेषणात्मक अभिव्यक्ति जटिल हो सकती है। यदि विश्लेषणात्मक अभिव्यक्तियों को प्राप्त करना असंभव है तो या तो आंशिक डेरिवेटिव की गणना संख्यात्मक सन्निकटन द्वारा की जानी चाहिए या जैकोबियन का अनुमान लगाया जाना चाहिए, अक्सर परिमित अंतर के माध्यम से।
 * गैर-अभिसरण (एल्गोरिथ्म की न्यूनतम खोजने में विफलता) NLLSQ में एक सामान्य घटना है।
 * LLSQ विश्व स्तर पर अवतल है इसलिए गैर-अभिसरण कोई समस्या नहीं है।
 * NLLSQ को हल करना आमतौर पर एक पुनरावृत्त प्रक्रिया है जिसे एक अभिसरण मानदंड पूरा होने पर समाप्त करना पड़ता है। एलएलएसक्यू समाधानों की गणना प्रत्यक्ष तरीकों का उपयोग करके की जा सकती है, हालांकि बड़ी संख्या में पैरामीटर वाली समस्याओं को आम तौर पर पुनरावृत्त तरीकों से हल किया जाता है, जैसे कि गॉस-सीडेल विधि।
 * LLSQ में समाधान अद्वितीय है, लेकिन NLLSQ में वर्गों के योग में कई न्यूनतम हो सकते हैं।
 * इस शर्त के तहत कि त्रुटियां पूर्वसूचक चर के साथ असंबंधित हैं, LLSQ निष्पक्ष अनुमान देता है, लेकिन उस स्थिति में भी NLLSQ अनुमान आम तौर पर पक्षपाती होते हैं।

उदाहरण
भौतिकी से लिए गए एक सरल उदाहरण पर विचार करें। एक स्प्रिंग को हुक के नियम का पालन करना चाहिए जो बताता है कि स्प्रिंग का विस्तार $y$ उस पर लगाए गए बल F के समानुपाती होता है।


 * $$y = f(F,k)=kF\!$$

मॉडल का गठन करता है, जहां एफ स्वतंत्र चर है। बल स्थिरांक, k का अनुमान लगाने के लिए, हम डेटा के एक सेट का उत्पादन करने के लिए विभिन्न बलों के साथ n मापों की एक श्रृंखला आयोजित करते हैं, $$(F_i, y_i),\ i=1,\dots,n\!$$, कहां क्योंiएक मापा वसंत विस्तार है। प्रत्येक प्रयोगात्मक अवलोकन में कुछ त्रुटि होगी, $$\varepsilon$$, और इसलिए हम अपनी टिप्पणियों के लिए एक अनुभवजन्य मॉडल निर्दिष्ट कर सकते हैं,


 * $$ y_i = kF_i + \varepsilon_i. \, $$

अज्ञात पैरामीटर k का अनुमान लगाने के लिए हम कई विधियों का उपयोग कर सकते हैं। चूँकि हमारे डेटा में m चरों में n समीकरणों में एक अज्ञात और n समीकरणों के साथ एक अतिनिर्धारित प्रणाली शामिल है, हम कम से कम वर्गों का उपयोग करके k का अनुमान लगाते हैं। न्यूनतम किए जाने वाले वर्गों का योग है


 * $$ S = \sum_{i=1}^n (y_i - kF_i)^2. $$

बल स्थिरांक, k, का न्यूनतम वर्ग अनुमान निम्न द्वारा दिया जाता है


 * $$\hat k=\frac{\sum_i F_i y_i}{\sum_i F_i^2}.$$

हम मानते हैं कि बल लगाने से वसंत का विस्तार होता है। कम से कम वर्ग फिटिंग द्वारा स्थिर बल प्राप्त करने के बाद, हम हुक के नियम से विस्तार की भविष्यवाणी करते हैं।

अनिश्चितता मात्रा का ठहराव
इकाई भार के साथ कम से कम वर्गों की गणना में, या रेखीय प्रतिगमन में, jth पैरामीटर पर विचरण, लक्षित $$\operatorname{var}(\hat{\beta}_j)$$, आमतौर पर अनुमान लगाया जाता है


 * $$\operatorname{var}(\hat{\beta}_j)= \sigma^2\left(\left[X^\mathsf{T}X\right]^{-1}\right)_{jj} \approx \hat{\sigma}^2 C_{jj},$$
 * $$\hat{\sigma}^2 \approx \frac S {n-m} $$
 * $$C=\left(X^\mathsf{T}X\right)^{-1},$$

जहां सही त्रुटि विचरण σ है2 को एक अनुमान से बदल दिया गया है, घटा हुआ ची-स्क्वायर आँकड़ा, जो वर्गों के अवशिष्ट योग (उद्देश्य फलन) के न्यूनतम मूल्य पर आधारित है, S. हर, n − m, स्वतंत्रता की डिग्री (सांख्यिकी) है ); स्वतंत्रता की डिग्री (सांख्यिकी) देखें # सामान्यीकरण के लिए स्वतंत्रता की प्रभावी डिग्री। सी सटीक मैट्रिक्स है (यानी, व्युत्क्रम सहप्रसरण मैट्रिक्स)।

सांख्यिकीय परीक्षण
यदि प्राचलों का संभाव्यता बंटन ज्ञात है या एक स्पर्शोन्मुख सन्निकटन किया जाता है, तो विश्वास सीमाएँ पाई जा सकती हैं। इसी तरह, अवशिष्टों पर सांख्यिकीय परीक्षण किए जा सकते हैं यदि अवशिष्टों का संभाव्यता वितरण ज्ञात या ग्रहण किया गया हो। हम आश्रित चरों के किसी भी रैखिक संयोजन के प्रायिकता वितरण को प्राप्त कर सकते हैं यदि प्रायोगिक त्रुटियों का संभाव्यता वितरण ज्ञात या कल्पित है। यह मानते हुए अनुमान लगाना आसान है कि त्रुटियाँ एक सामान्य वितरण का अनुसरण करती हैं, फलस्वरूप इसका अर्थ यह है कि पैरामीटर अनुमान और अवशिष्ट भी सामान्य रूप से स्वतंत्र चर के मूल्यों पर सशर्त वितरित किए जाएंगे।

सांख्यिकीय रूप से परिणामों का परीक्षण करने के लिए प्रायोगिक त्रुटियों की प्रकृति के बारे में अनुमान लगाना आवश्यक है। एक आम धारणा यह है कि त्रुटियां सामान्य वितरण से संबंधित हैं। केंद्रीय सीमा प्रमेय इस विचार का समर्थन करता है कि यह कई मामलों में एक अच्छा सन्निकटन है।


 * गॉस-मार्कोव प्रमेय। एक रेखीय मॉडल में जिसमें त्रुटियों में स्वतंत्र चर पर शून्य सशर्त मान अपेक्षित है, असंबद्ध हैं और समान भिन्नताएं हैं, टिप्पणियों के किसी भी रैखिक संयोजन का सबसे अच्छा रैखिक निष्पक्ष अनुमानक, इसका सबसे कम-वर्ग अनुमानक है। सर्वोत्तम का अर्थ है कि प्राचलों के न्यूनतम वर्ग आकलनकर्ताओं का न्यूनतम प्रसरण है। समान विचरण की धारणा तब मान्य होती है जब सभी त्रुटियाँ समान वितरण से संबंधित हों।
 * यदि त्रुटियां एक सामान्य वितरण से संबंधित हैं, तो कम से कम वर्ग अनुमानक एक रेखीय मॉडल में अधिकतम संभावना अनुमानक भी होते हैं।

हालाँकि, मान लीजिए कि त्रुटियाँ सामान्य रूप से वितरित नहीं हैं। उस मामले में, एक केंद्रीय सीमा प्रमेय का अर्थ अक्सर यह होता है कि पैरामीटर अनुमान लगभग सामान्य रूप से तब तक वितरित किए जाएंगे जब तक कि नमूना यथोचित रूप से बड़ा हो। इस कारण से, यह महत्वपूर्ण संपत्ति दी गई है कि त्रुटि माध्य स्वतंत्र चर से स्वतंत्र है, प्रतिगमन विश्लेषण में त्रुटि शब्द का वितरण एक महत्वपूर्ण मुद्दा नहीं है। विशेष रूप से, यह विशेष रूप से महत्वपूर्ण नहीं है कि त्रुटि शब्द सामान्य वितरण का पालन करता है या नहीं।

कम से कम भारित वर्ग


भारित न्यूनतम वर्ग कहे जाने वाले सामान्यीकृत न्यूनतम वर्गों का एक विशेष मामला तब होता है जब Ω (अवशिष्टों का सहसंबंध मैट्रिक्स) की सभी ऑफ-डायगोनल प्रविष्टियाँ शून्य होती हैं; टिप्पणियों के प्रसरण (सहप्रसरण मैट्रिक्स विकर्ण के साथ) अभी भी असमान (विषमलैंगिकता) हो सकते हैं। सरल शब्दों में, विषमलैंगिकता तब होती है जब का विचरण होता है $$Y_i$$ के मान पर निर्भर करता है $$x_i$$ जो अवशिष्ट प्लॉट को बड़े की ओर फैनिंग आउट प्रभाव पैदा करने का कारण बनता है $$Y_i$$ मूल्य जैसा कि अवशिष्ट प्लॉट में दाईं ओर देखा गया है। दूसरी ओर, समरूपता मान रही है कि का विचरण $$Y_i$$ तथा $$U_i$$ बराबर है।

प्रमुख घटकों से संबंध
बिंदुओं के एक सेट के माध्यम के बारे में पहला प्रमुख घटक विश्लेषण उस रेखा द्वारा दर्शाया जा सकता है जो डेटा बिंदुओं के सबसे निकट पहुंचती है (जैसा कि निकटतम दृष्टिकोण की वर्ग दूरी, यानी रेखा के लंबवत द्वारा मापा जाता है)। इसके विपरीत, रैखिक न्यूनतम वर्ग दूरी को कम करने की कोशिश करता है $$y$$ केवल दिशा। इस प्रकार, हालांकि दोनों एक समान त्रुटि मीट्रिक का उपयोग करते हैं, रैखिक न्यूनतम वर्ग एक ऐसी विधि है जो डेटा के एक आयाम को अधिमानतः व्यवहार करती है, जबकि पीसीए सभी आयामों को समान रूप से मानता है।

सिद्धांत को मापने के संबंध
उल्लेखनीय सांख्यिकीविद् सारा वैन डी गीर ने अनुभवजन्य प्रक्रिया सिद्धांत और वैपनिक-खिरवोनेंकिस आयाम का इस्तेमाल किया, यह साबित करने के लिए कि कम से कम वर्ग अनुमानक को वर्ग-अभिन्न कार्यों के स्थान पर माप (गणित) के रूप में व्याख्या किया जा सकता है।

तिखोनोव नियमितीकरण
कुछ संदर्भों में कम से कम वर्गों के समाधान का एक नियमितीकरण (मशीन लर्निंग) संस्करण बेहतर हो सकता है। Tikhonov नियमितीकरण (या रिज प्रतिगमन) एक बाधा जोड़ता है $$\|\beta\|_2^2$$, L2-मानक|L2पैरामीटर वेक्टर का मानदंड, कम से कम वर्गों के निर्माण के लिए दिए गए मान से अधिक नहीं है, जिससे विवश न्यूनीकरण समस्या होती है। यह अबाधित न्यूनीकरण समस्या के समतुल्य है, जहां उद्देश्य फलन वर्गों का अवशिष्ट योग और दंड अवधि है $$\alpha\|\beta\|_2^2$$ तथा $$\alpha$$ एक ट्यूनिंग पैरामीटर है (यह विवश न्यूनीकरण समस्या का लैग्रेंज गुणक रूप है)। बायेसियन आंकड़ों के संदर्भ में, यह पैरामीटर वेक्टर पर सामान्य रूप से वितरित पूर्व वितरण को शून्य-माध्य रखने के बराबर है।

लासो विधि
कम से कम वर्गों का एक वैकल्पिक नियमितीकरण (मशीन लर्निंग) संस्करण लासो (कम से कम पूर्ण संकोचन और चयन ऑपरेटर) है, जो बाधा का उपयोग करता है $$\|\beta\|_1$$, एल1-मानदंड|एल1पैरामीटर वेक्टर का मानदंड, किसी दिए गए मान से अधिक नहीं है। (ऊपर के रूप में, यह समतुल्य है कम से कम वर्ग जुर्माना के एक अनियंत्रित न्यूनीकरण के साथ $$\alpha\|\beta\|_1$$ जोड़ा गया।) बायेसियन सांख्यिकी संदर्भ में, यह पैरामीटर वेक्टर पर शून्य-माध्य लाप्लास वितरण पूर्व वितरण रखने के बराबर है। अनुकूलन समस्या को द्विघात प्रोग्रामिंग या अधिक सामान्य उत्तल अनुकूलन विधियों के साथ-साथ कम से कम कोण प्रतिगमन एल्गोरिदम जैसे विशिष्ट एल्गोरिदम द्वारा हल किया जा सकता है।

लास्सो और रिज रिग्रेशन के बीच मुख्य अंतर यह है कि रिज रिग्रेशन में, जैसे ही पेनल्टी बढ़ाई जाती है, नॉन-जीरो रहते हुए सभी पैरामीटर कम हो जाते हैं, जबकि लैस्सो में, पेनल्टी बढ़ने से अधिक से अधिक पैरामीटर हो जाएंगे शून्य पर धकेल दिया। यह रिज प्रतिगमन पर लैस्सो का एक फायदा है, क्योंकि शून्य पर ड्राइविंग पैरामीटर प्रतिगमन से सुविधाओं को अचयनित करता है। इस प्रकार, लैस्सो स्वचालित रूप से अधिक प्रासंगिक विशेषताओं का चयन करता है और दूसरों को छोड़ देता है, जबकि रिज प्रतिगमन कभी भी किसी भी विशेषता को पूरी तरह से नहीं छोड़ता है। कुछ फीचर चयन तकनीकों को LASSO के आधार पर विकसित किया गया है जिसमें बोलासो शामिल है जो बूटस्ट्रैप नमूने, और FeLect जो विभिन्न मूल्यों के अनुरूप प्रतिगमन गुणांक का विश्लेषण करता है $$\alpha$$ सभी सुविधाओं को स्कोर करने के लिए। एल1-नियमित फॉर्मूलेशन कुछ संदर्भों में उपयोगी होता है क्योंकि इसकी प्रवृत्ति उन समाधानों को पसंद करने की होती है जहां अधिक पैरामीटर शून्य होते हैं, जो ऐसे समाधान देते हैं जो कम चरों पर निर्भर करते हैं। इस कारण से, लास्सो और इसके प्रकार संपीडित संवेदन के क्षेत्र के लिए मौलिक हैं। इस दृष्टिकोण का एक विस्तार लोचदार शुद्ध नियमितीकरण है।

यह भी देखें

 * कम से कम वर्ग समायोजन
 * न्यूनतम औसत वर्ग त्रुटि
 * गॉस-मार्कोव प्रमेय (नीला)
 * सर्वश्रेष्ठ रैखिक निष्पक्ष भविष्यवाणी (BLUP)
 * गॉस-मार्कोव प्रमेय
 * एल2 मानदंड|एल2 आदर्श
 * कम से कम पूर्ण विचलन
 * कम से कम वर्ग वर्णक्रमीय विश्लेषण
 * माप अनिश्चितता
 * ऑर्थोगोनल प्रोजेक्शन
 * सीखने के लिए समीपस्थ ढाल के तरीके
 * द्विघात हानि समारोह
 * वर्गमूल औसत का वर्ग
 * माध्य से वर्ग विचलन

इस पेज में लापता आंतरिक लिंक की सूची

 * अतिनिर्धारित प्रणाली
 * अवशिष्ट (सांख्यिकी)
 * अधिकतम संभाव्यता
 * सामान्य कम चौकोर
 * बंद रूप समाधान
 * अरेखीय कम से कम वर्ग
 * एरर-इन-वैरिएबल मॉडल
 * फिशर की जानकारी
 * क्षणों की विधि (सांख्यिकी)
 * भूमंडल नापने का शास्र
 * डिस्कवरी की उम्र
 * शनि ग्रह
 * संभावना
 * कम से कम पूर्ण विचलन
 * अंकगणित औसत
 * संभावित गहराई
 * सेरेस (बौना ग्रह)
 * निर्भर चर
 * आँकड़ों में त्रुटियां और अवशेष
 * चुकता अवशेषों का योग
 * रैखिक संयोजन
 * परिमित मतभेद
 * वर्गों का अवशिष्ट योग
 * कम ची-स्क्वायर आँकड़ा
 * सहप्रसरण आव्यूह
 * आत्मविश्वास की सीमा
 * अपेक्षित मूल्य
 * असहसंबद्ध
 * झगड़ा
 * समलैंगिकता
 * प्रमुख कंपोनेंट विश्लेषण
 * उपाय (गणित)
 * तिखोनोव नियमितीकरण
 * बायेसियन सांख्यिकी
 * न्यूनतम कोण प्रतिगमन
 * संकुचित संवेदन

बाहरी संबंध


जीएल: मिनिमोस कैडराडोस लाइनैस रेखीय न्यूनतम वर्ग