कुल न्यूनतम वर्ग

प्रयुक्त सांख्यिकी में, कुल न्यूनतम वर्ग एक प्रकार का चर-त्रुटि प्रतिगमन होता है, एक न्यूनतम वर्ग डेटा नमूना तकनीक आश्रित और स्वतंत्र दोनों चर पर अवलोकन संबंधी त्रुटियों को ध्यान में रखता है। यह डेमिंग प्रतिगमन और ओर्थोगोनल प्रतिगमन का सामान्यीकरण होता है, और इसे रैखिक और गैर-रेखीय दोनों नमूनों पर प्रयुक्त किया जा सकता है।

डेटा का कुल न्यूनतम वर्ग सन्निकटन सामान्यतः फ्रोबेनियस मानदंड में, डेटा आव्यूह के निम्न-वर्ग सन्निकटन के सर्वोत्तम के बराबर होता है।

पृष्ठभूमि
डेटा नमूने की न्यूनतम वर्ग विधि में, उद्देश्य फलन, एस,
 * $$S=\mathbf{r^TWr},$$

जहां r सांख्यिकी में त्रुटियों और अवशेषों का वेक्टर है और W एक आव्यूह है। रैखिक न्यूनतम वर्ग (गणित) में नमूने में ऐसे समीकरण होते है जो पैरामीटर वेक्टर में दिखाई देने वाले मापदंडों में रैखिक होते है $$\boldsymbol\beta$$, इसलिए अवशेष दिए गए है
 * $$\mathbf{r=y-X\boldsymbol\beta}.$$

'y' में m अवलोकन और 'β' में m>n के साथ n पैरामीटर है। 'X' एक m×n आव्यूह है जिसके तत्व या तो स्थिरांक है या स्वतंत्र चर, 'x' के फलन है। आव्यूह W, आदर्श रूप से, विचरण-सहप्रसरण आव्यूह का व्युत्क्रम है $$\mathbf M_y$$ अवलोकनों में से y. स्वतंत्र चर को त्रुटि रहित माना जाता है। प्रवणता समीकरणों को शून्य पर सेट करके पैरामीटर अनुमान प्राप्त किया जाता है, जिसके परिणामस्वरूप सामान्य समीकरण बनते है :

$$\mathbf{X^TWX\boldsymbol\beta=X^T Wy}.$$

सभी चरों में अवलोकन त्रुटियों की अनुमति
मान लेते है x और y दोनों को भिन्नता-सहप्रसरण आव्यूह के साथ त्रुटि के अधीन देखा जाता है $$\mathbf M_x$$ और $$\mathbf M_y$$। इस स्थिति में वस्तुनिष्ठ फलन को इस प्रकार लिखा जा सकता है
 * $$S=\mathbf{r_x^TM_x^{-1}r_x+r_y^TM_y^{-1}r_y},$$

जहाँ $$\mathbf r_x$$ और $$\mathbf r_y$$ क्रमशः x और y में अवशेष है। स्पष्ट रूप से यह अवशेष एक-दूसरे से स्वतंत्र नहीं हो सकते है। नमूना फलन को इस रूप में लिखा जाता है $$\mathbf{f(r_x,r_y,\boldsymbol\beta)}$$, समस्याओं को M स्थिति समीकरणों द्वारा व्यक्त किया जाता है।
 * $$\mathbf{F=\Delta y -\frac{\partial f}{\partial r_x} r_x-\frac{\partial f}{\partial r_y} r_y -X\Delta\boldsymbol\beta=0}.$$

इस प्रकार, M समस्याओं के अधीन उद्देश्य फलन को कम करते है। इसे लैग्रेंज गुणक के उपयोग से हल किया जाता है। तब यह, परिणाम प्राप्त होता है.


 * $$\mathbf{X^TM^{-1}X\Delta \boldsymbol\beta=X^T M^{-1} \Delta y}, $$

या वैकल्पिक रूप से $$\mathbf{X^TM^{-1}X \boldsymbol\beta=X^T M^{-1} y},$$

जहां M स्वतंत्र और आश्रित दोनों चर के सापेक्ष विचरण-सहप्रसरण आव्यूह है।
 * $$\mathbf{M=K_xM_xK_x^T+K_yM_yK_y^T;\ K_x=-\frac{\partial f}{\partial r_x},\ K_y=-\frac{\partial f}{\partial r_y}}.$$

उदाहरण
जब डेटा त्रुटियां असंबद्ध होती है, तो सभी आव्यूह M और W विकर्ण होते है
 * $$f(x_i,\beta)=\alpha + \beta x_i$$

इस स्थिति में
 * $$M_{ii}=\sigma^2_{y,i}+\beta^2 \sigma^2_{x,i}$$

यह दर्शाता है कि किस प्रकार यह बिंदु उपयोग किए जा रहे नमूना द्वारा निर्धारित किया जाता है। पैरामीटर को अंकित करके अभिव्यक्ति को सामान्यीकृत किया जा सकता है $$\beta$$
 * $$M_{ii}=\sigma^2_{y,i}+\left(\frac{dy}{dx}\right)^2_i \sigma^2_{x,i}$$

इस प्रकार की अभिव्यक्ति का उपयोग संतुलन स्थिरांक पैरामीटर त्रुटियों और सहसंबंध के निर्धारण में किया जाता है, जहां x पर एक छोटी त्रुटि y पर एक बड़ी त्रुटि में बदल जाती है।

बीजगणितीय दृष्टिकोण
जैसा कि 1980 में गोलूब और वैन लोन द्वारा प्रस्तुत किया था, कि टीएलएस समस्या का सामान्य रूप से कोई समाधान नहीं होता है। निम्नलिखित उस साधारण स्थिति पर विचार करता है जहां कोई विशेष धारणा बनाए बिना एक अनूठा समाधान उपस्थित होता है।

एकल मूल्य अपघटन (एसवीडी) का उपयोग करके टीएलएस की गणना मानक पुस्तकों में वर्णित है। ईस् तरह से समीकरण हल कर सकते है
 * $$XB \approx Y$$

B के लिए जहां x m-n है और y m-k है। अर्थात, हम B को प्राप्त करते है जो क्रमशः x और y के लिए त्रुटि आव्यूह e और f को कम करता है। वह है,
 * $$\mathrm{argmin}_{B,E,F} \| [E\; F] \|_F, \qquad (X+E) B = Y+F$$

जहाँ $$[E\; F]$$ ई और f के साथ-साथ संवर्धित आव्यूह है $$\|\cdot\|_F$$ फ्रोबेनियस मानदंड एक आव्यूह में सभी प्रविष्टियों के वर्गों के योग का वर्गमूल और आव्यूह की पंक्तियों की लंबाई के वर्गों के योग का वर्गमूल होता है।

इसे इस प्रकार पुनः लिखा जा सकता है
 * $$[(X+E) \; (Y+F)] \begin{bmatrix} B\\ -I_k\end{bmatrix} = 0.$$

जहाँ $$I_k$$ है $$k\times k$$

फिर संख्या प्राप्त होती है $$[E\; F]$$ जिससे वर्गमूल कम हो जाता है $$[X\; Y]$$ परिभाषित करने के लिए $$[U] [\Sigma] [V]^*$$ संवर्धित आव्यूह का एकवचन मूल्य अपघटन होता है $$[X\; Y]$$.
 * $$[X\; Y] = [U_X\; U_Y] \begin{bmatrix}\Sigma_X &0 \\ 0 & \Sigma_Y\end{bmatrix}\begin{bmatrix}V_{XX} & V_{XY} \\ V_{YX} & V_{YY}\end{bmatrix}^* = [U_X\; U_Y] \begin{bmatrix}\Sigma_X &0 \\ 0 & \Sigma_Y\end{bmatrix} \begin{bmatrix} V_{XX}^* & V_{YX}^* \\ V_{XY}^* & V_{YY}^*\end{bmatrix}$$

जहां V को X और Y के अनुरूप संख्याओं में विभाजित किया जाता है।

एकार्ट-यंग प्रमेय का उपयोग करते हुए, त्रुटि के मानदंड को न्यूनतम करने वाला सन्निकटन आव्यूह $$U$$ और $$V$$ अपरिवर्तित रहता है, जबकि सबसे छोटा $$k$$ एकवचन मानों को शून्य से बदल दिया जाता है। अर्थात हम चाहते है
 * $$[(X+E)\; (Y+F)] = [U_X\; U_Y] \begin{bmatrix}\Sigma_X &0 \\ 0 & 0_{k\times k}\end{bmatrix}\begin{bmatrix}V_{XX} & V_{XY} \\ V_{YX} & V_{YY}\end{bmatrix}^*$$

तो रैखिकता से,
 * $$[E\; F] = -[U_X\; U_Y] \begin{bmatrix}0_{n\times n} &0 \\ 0 & \Sigma_Y\end{bmatrix}\begin{bmatrix}V_{XX} & V_{XY} \\ V_{YX} & V_{YY}\end{bmatrix}^*. $$

फिर हम इसे सरल बनाते हुए U और Σ आव्यूह से संख्याओं को हटा सकते है
 * $$[E\; F] = -U_Y\Sigma_Y \begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}^*= -[X\; Y] \begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}\begin{bmatrix}V_{XY}\\ V_{YY}\end{bmatrix}^*.$$

यह E और F प्रदान करते है जिससे कि
 * $$[(X+E) \; (Y+F)] \begin{bmatrix}V_{XY}\\ V_{YY}\end{bmatrix} = 0.$$

अब यदि $$V_{YY}$$ निरर्थक है, जो हमेशा सामान्य नहीं होते है

(ध्यान दें कि टीएलएस का व्यवहार तब होता है जब $$V_{YY}$$ अच्छी तरह से समझ में नहीं आता है), फिर हम दोनों पक्षों को सही से गुणा कर सकते है $$-V_{YY}^{-1}$$
 * $$[(X+E) \; (Y+F)] \begin{bmatrix} -V_{XY} V_{YY}^{-1} \\ -V_{YY} V_{YY}^{-1}\end{bmatrix} = [(X+E) \; (Y+F)] \begin{bmatrix} B\\ -I_k\end{bmatrix} = 0 ,$$

इसलिए
 * $$B=-V_{XY} V_{YY}^{-1}.$$

इसका एक सरल जीएनयू सप्तक कार्यान्वयन है:

समस्या को हल करने की विधि ऊपर वर्णित है, जिसके लिए आव्यूह की आवश्यकता होती है $$V_{YY}$$ इसे तथाकथित मौलिक टीएलएस कलन विधि द्वारा थोड़ा बढ़ाया जा सकता है।

गणना
मौलिक टीएलएस कलन विधि का मानक कार्यान्वयन नेटलिब के माध्यम से उपलब्ध होता है। सभी आधुनिक कार्यान्वयन, उदाहरण के लिए, सामान्य न्यूनतम वर्ग समस्याओं के अनुक्रम को हल करने पर आधारित, आव्यूह का अनुमान लगाते है $$B$$ (संकेतित $$X$$ साहित्य में), जैसा कि सबाइन वान हफेल और वांडेवेले द्वारा प्रस्तुत किया गया है। $$B$$ चूँकि, कई स्थितियों में टीएलएस समाधान नहीं होता है।

अरैखिक नमूना
गैर-रेखीय न्यूनतम वर्गों के लिए पुनरावृत्ति चक्र के लिए सामान्य समीकरणों को इस प्रकार लिखा जा सकता है
 * $$\mathbf{J^TM^{-1}J\Delta \boldsymbol\beta=J^T M^{-1} \Delta y}, $$

जहाँ $$\mathbf{J}$$ जैकोबियन आव्यूह और निर्धारक है।

ज्यामितीय व्याख्या
जब स्वतंत्र चर त्रुटि-मुक्त होता है तो एक अवशिष्ट प्रेक्षित डेटा बिंदु और फिट किए गए वक्र (या सतह) के बीच ऊर्ध्वाधर दूरी का प्रतिनिधित्व करता है। कुल न्यूनतम वर्गों में एक अवशिष्ट डेटा बिंदु और किसी दिशा में मापे गए फिट किए गए वक्र के बीच की दूरी को दर्शाता है। वास्तव में, यदि दोनों चर एक ही इकाइयों में मापे जाते है और दोनों चर पर त्रुटियां समान होती है, तो अवशिष्ट एक बिंदु से एक रेखा तक की दूरी को दर्शाता है, अर्थात, अवशिष्ट वेक्टर वक्र के स्पर्शरेखा के लंबवत होता है। इस कारण से, इस प्रकार के प्रतिगमन को कभी-कभी दो आयामी यूक्लिडियन प्रतिगमन कहा जाता है (स्टीन, 1983) या ओर्थोगोनल प्रतिगमन।

स्केल अपरिवर्तनीय विधियाँ
यदि चरों को समान इकाइयों में नहीं मापा जाता है तो कठिनाई उत्पन्न होती है। पहले डेटा बिंदु और रेखा के बीच की दूरी मापने पर विचार करते है: इस दूरी के लिए माप इकाइयाँ क्या है? यदि हम पाइथागोरस प्रमेय के आधार पर दूरी मापने पर विचार करते है तो यह स्पष्ट होता है कि हम विभिन्न इकाइयों में मापी गई मात्राओं को जोड़ते है, जो अर्थहीन होते है। दूसरे, यदि हम किसी एक चर को दोबारा मापते है, उदाहरण के लिए, किलोग्राम के अतिरिक्त ग्राम में मापते है, तो अलग-अलग परिणाम (एक अलग रेखा) के साथ समाप्त होते है। इन समस्याओं से बचने के लिए कभी-कभी यह उपदेश दिया जाता है कि हम आयामहीन चर में परिवर्तित करते है - इसे सामान्यीकरण या मानकीकरण कहा जा सकता है। चूँकि, ऐसा करने की कई विधियां होती है, जो एक-दूसरे के समकक्ष नहीं होते है। एक दृष्टिकोण ज्ञात (या अनुमानित) माप परिशुद्धता द्वारा सामान्यीकरण करते है, विचरण के विश्लेषण के माध्यम से अज्ञात त्रुटिहीनता प्राप्त की जा सकती है।

संक्षेप में, कुल न्यूनतम वर्गों में इकाइयों-अपरिवर्तनीय की स्थिति नहीं होती है। यह स्केल अपरिवर्तनीयता नहीं होता है। यदि जोड़ के अतिरिक्त गुणा का उपयोग किया जाता है तो विभिन्न इकाइयों में मापे गए अवशेषों (दूरियों) को जोड़ा जाता है। एक रेखा फ़िट करने पर विचार करते है: प्रत्येक डेटा बिंदु के लिए ऊर्ध्वाधर और क्षैतिज अवशेषों का उत्पाद अवशिष्ट रेखाओं और फिट की गई रेखा द्वारा निर्मित त्रिभुज के क्षेत्रफल के दोगुने के बराबर होता है। हम वह रेखा प्राप्त करते है जो इन क्षेत्रों के योग को न्यूनतम करती है। नोबेल पुरस्कार विजेता पॉल सैमुएलसन ने 1942 में सिद्ध किया कि, दो आयामों में, यह एकमात्र रेखा होती है जिसे केवल मानक विचलन के अनुपात और सहसंबंध गुणांक के संदर्भ में व्यक्त किया जा सकता है, जो (1) सही समीकरण में फिट बैठता है, ( 2) स्केल अपरिवर्तनीय प्रदर्शित करता है, और (3) चरों के आदान-प्रदान के अनुसार अपरिवर्तनीय प्रदर्शित करता है। इस समाधान को विभिन्न विषयों में फिर से प्राप्त किया जाता है और इसे मानकीकृत प्रमुख अक्ष (रिकर 1975, वार्टन एट अल., 2006) के रूप में जाना जाता है। कम प्रमुख अक्ष, ज्यामितीय माध्य कार्यात्मक संबंध (ड्रेपर और स्मिथ, 1998), न्यूनतम उत्पाद प्रतिगमन, विकर्ण प्रतिगमन, कार्बनिक सहसंबंध की रेखा, और न्यूनतम क्षेत्र रेखा (टोफालिस, 2002) होते है। टोफलिस (2015) अनेक चरों के समाधानों के लिए इस दृष्टिकोण का उपयोग करते है।

यह भी देखें

 * डेमिंग रिग्रेशन, दो भविष्यवक्ताओं और स्वतंत्र त्रुटियों वाला एक विशेष स्थिति।
 * चर नमूना में त्रुटियाँ
 * गॉस-हेल्मर्ट नमूना
 * रेखीय प्रतिगमन
 * कम से कम वर्गों
 * प्रमुख कंपोनेंट विश्लेषण
 * प्रमुख घटक प्रतिगमन

अन्य

 * आई. ह्नतिनकोवा, एम. प्लेज़िंगर, डी. एम. सिमा, ज़ेड स्ट्रैकोस, और सबाइन वान हफ़ेल|एस। वैन हफ़ेल, AX ≈ B में कुल न्यूनतम वर्ग समस्या। मौलिक कार्यों के संबंध में एक नया वर्गीकरण। सिमैक्स वॉल्यूम. 32 अंक 3 (2011), पृष्ठ 748-770। प्रीप्रिंट के रूप में उपलब्ध है।
 * एम. प्लेसिंगर, द टोटल लीस्ट स्क्वेयर्स प्रॉब्लम एंड रिडक्शन ऑफ डेटा इन एएक्स ≈ बी. डॉक्टोरल थीसिस, टीयू ऑफ लिबरेक एंड इंस्टीट्यूट ऑफ कंप्यूटर साइंस, एएस सीआर प्राग, 2008। 20120724080908/http://www.fp.tul.cz/~plesinger/my_publications/doctoral_thsis/thsis.pdf पीएच.डी. थीसिस
 * सी. सी. पेगे, जेड. स्ट्रैकोस, रैखिक बीजगणितीय प्रणालियों में मुख्य समस्याएं। सियाम जे. आव्यूह गुदा. आवेदन. 27, 2006, पृ. 861-875.
 * सबाइन वान हफ़ेल|एस. वैन हफ़ेल और पी. लेमरलिंग, कुल न्यूनतम वर्ग और चर में त्रुटियाँ नमूने: विश्लेषण, कलन विधि और अनुप्रयोग। डॉर्ड्रेक्ट, नीदरलैंड्स: क्लूवर एकेडमिक पब्लिशर्स, 2002।
 * एस. जो और एस. डब्ल्यू. किम, शोर डेटा आव्यूह के साथ लगातार सामान्यीकृत न्यूनतम माध्य वर्ग फ़िल्टरिंग। आईईईई ट्रांस. सिग्नल प्रोसेस., वॉल्यूम. 53, नहीं. 6, पृ. 2112-2123, जून 2005।
 * आर. डी. डीग्रोट और ई. एम. डाउलिंग, डेटा न्यूनतम वर्ग समस्या और चैनल समीकरण। आईईईई ट्रांस. सिग्नल प्रोसेस., वॉल्यूम. 41, नहीं. 1, पृ. 407-411, जनवरी 1993।
 * सबाइन वान हफ़ेल|एस. वैन हफ़ेल और जे. वंदेवाले, कुल न्यूनतम वर्ग समस्याएं: कम्प्यूटेशनल पहलू और विश्लेषण। सियाम प्रकाशन, फिलाडेल्फिया पीए, 1991।
 * टी. अबत्ज़ोग्लू और जे. मेंडल, प्रोक में कुल न्यूनतम वर्ग बाधित। आईईईई इंट. कॉन्फ़. ध्वनि, भाषण, सिग्नल प्रक्रिया। (आईसीएएसएसपी'87), अप्रैल 1987, खंड। 12, पृ. 1485-1488.
 * पी. डी ग्रोएन एन इंट्रोडक्शन टू टोटल मिनिस्ट स्क्वेर्स, इन न्यू आर्कीफ वूर विस्कुंडे, विएर्डे सीरी, डील 14, 1996, पीपी. 237-253 arxiv. संगठन.
 * जी. एच. गोलूब और सी. एफ. वैन लोन, कुल न्यूनतम वर्ग समस्या का विश्लेषण। संख्या पर सियाम जे. एनल., 17, 1980, पृ. 883-893.
 * एक रेखा का लंबवत प्रतिगमन MathPages पर
 * ए. आर. अमिरी-सिमकूई और एस. जाज़ेरी, जर्नल ऑफ जियोडेटिक साइंस, 2 (2): 113-124, 2012 में मानक न्यूनतम वर्ग सिद्धांत द्वारा तैयार भारित कुल न्यूनतम वर्ग अमीरी/JGS_Amiri_Jazaeri_2012.pdf।

श्रेणी:अनुप्रयुक्त गणित श्रेणी:वक्र फिटिंग श्रेणी:न्यूनतम वर्ग श्रेणी:प्रतिगमन नमूना