कुल न्यूनतम वर्ग

लागू आँकड़ों में, कुल न्यूनतम वर्ग एक प्रकार का चर-में-त्रुटि प्रतिगमन है, एक न्यूनतम वर्ग डेटा मॉडलिंग तकनीक जिसमें आश्रित और स्वतंत्र दोनों चर पर अवलोकन संबंधी त्रुटियों को ध्यान में रखा जाता है। यह मांग प्रतिगमन  और  ओर्थोगोनल प्रतिगमन  का सामान्यीकरण है, और इसे रैखिक और गैर-रेखीय दोनों मॉडलों पर लागू किया जा सकता है।

डेटा का कुल न्यूनतम वर्ग सन्निकटन सामान्यतः फ्रोबेनियस मानदंड में, डेटा मैट्रिक्स के निम्न-रैंक सन्निकटन के सर्वोत्तम के बराबर है।

पृष्ठभूमि
डेटा मॉडलिंग की न्यूनतम वर्ग विधि में, उद्देश्य फ़ंक्शन, एस,
 * $$S=\mathbf{r^TWr},$$

न्यूनतम किया गया है, जहां r आंकड़ों में त्रुटियों और अवशेषों का वेक्टर है और W एक वेटिंग मैट्रिक्स है। रैखिक न्यूनतम वर्ग (गणित) में मॉडल में ऐसे समीकरण होते हैं जो पैरामीटर वेक्टर में दिखाई देने वाले मापदंडों में रैखिक होते हैं $$\boldsymbol\beta$$, इसलिए अवशेष दिए गए हैं
 * $$\mathbf{r=y-X\boldsymbol\beta}.$$

'y' में m अवलोकन और 'β' में m>n के साथ n पैरामीटर हैं। 'X' एक m×n मैट्रिक्स है जिसके तत्व या तो स्थिरांक हैं या स्वतंत्र चर, 'x' के फलन हैं। भार मैट्रिक्स 'डब्ल्यू', आदर्श रूप से, विचरण-सहप्रसरण मैट्रिक्स का व्युत्क्रम है $$\mathbf M_y$$ अवलोकनों में से y. स्वतंत्र चर को त्रुटि रहित माना जाता है। ग्रेडिएंट समीकरणों को शून्य पर सेट करके पैरामीटर अनुमान पाए जाते हैं, जिसके परिणामस्वरूप सामान्य समीकरण बनते हैं :$$\mathbf{X^TWX\boldsymbol\beta=X^T Wy}.$$

सभी चरों में अवलोकन त्रुटियों की अनुमति देना
अब, मान लीजिए कि x और y दोनों को भिन्नता-सहप्रसरण मैट्रिक्स के साथ त्रुटि के अधीन देखा जाता है $$\mathbf M_x$$ और $$\mathbf M_y$$ क्रमश। इस स्थिति में वस्तुनिष्ठ फलन को इस प्रकार लिखा जा सकता है
 * $$S=\mathbf{r_x^TM_x^{-1}r_x+r_y^TM_y^{-1}r_y},$$

कहाँ $$\mathbf r_x$$ और $$\mathbf r_y$$ क्रमशः x और y में अवशेष हैं। स्पष्ट रूप से ये अवशेष एक-दूसरे से स्वतंत्र नहीं हो सकते, लेकिन इन्हें किसी प्रकार के रिश्ते से बाधित होना चाहिए। मॉडल फ़ंक्शन को इस रूप में लिखना $$\mathbf{f(r_x,r_y,\boldsymbol\beta)}$$, बाधाओं को एम स्थिति समीकरणों द्वारा व्यक्त किया जाता है।
 * $$\mathbf{F=\Delta y -\frac{\partial f}{\partial r_x} r_x-\frac{\partial f}{\partial r_y} r_y -X\Delta\boldsymbol\beta=0}.$$

इस प्रकार, समस्या एम बाधाओं के अधीन उद्देश्य फ़ंक्शन को कम करने की है। इसे लैग्रेंज गुणक के उपयोग से हल किया जाता है। कुछ बीजीय जोड़-तोड़ के बाद, परिणाम प्राप्त होता है.


 * $$\mathbf{X^TM^{-1}X\Delta \boldsymbol\beta=X^T M^{-1} \Delta y}, $$

या वैकल्पिक रूप से $$\mathbf{X^TM^{-1}X \boldsymbol\beta=X^T M^{-1} y},$$ जहां एम स्वतंत्र और आश्रित दोनों चर के सापेक्ष विचरण-सहप्रसरण मैट्रिक्स है।
 * $$\mathbf{M=K_xM_xK_x^T+K_yM_yK_y^T;\ K_x=-\frac{\partial f}{\partial r_x},\ K_y=-\frac{\partial f}{\partial r_y}}.$$

उदाहरण
जब डेटा त्रुटियां असंबद्ध होती हैं, तो सभी आव्यूह M और W विकर्ण होते हैं। फिर, सीधी रेखा फिटिंग का उदाहरण लें।
 * $$f(x_i,\beta)=\alpha + \beta x_i$$

इस मामले में
 * $$M_{ii}=\sigma^2_{y,i}+\beta^2 \sigma^2_{x,i}$$

यह दर्शाता है कि किस प्रकार iवें बिंदु पर विचरण स्वतंत्र और आश्रित दोनों चरों के विचरण और डेटा को फिट करने के लिए उपयोग किए जा रहे मॉडल द्वारा निर्धारित किया जाता है। पैरामीटर को नोट करके अभिव्यक्ति को सामान्यीकृत किया जा सकता है $$\beta$$ रेखा का ढलान है.
 * $$M_{ii}=\sigma^2_{y,i}+\left(\frac{dy}{dx}\right)^2_i \sigma^2_{x,i}$$

इस प्रकार की अभिव्यक्ति का उपयोग संतुलन स्थिरांक # पैरामीटर त्रुटियों और सहसंबंध के निर्धारण में किया जाता है, जहां ढलान बड़ा होने पर x पर एक छोटी त्रुटि y पर एक बड़ी त्रुटि में बदल जाती है।

बीजगणितीय दृष्टिकोण
जैसा कि 1980 में गोलूब और वैन लोन द्वारा दिखाया गया था, टीएलएस समस्या का सामान्य रूप से कोई समाधान नहीं है। निम्नलिखित उस साधारण मामले पर विचार करता है जहां कोई विशेष धारणा बनाए बिना एक अनूठा समाधान मौजूद है।

एकल मूल्य अपघटन (एसवीडी) का उपयोग करके टीएलएस की गणना मानक ग्रंथों में वर्णित है। हम समीकरण हल कर सकते हैं
 * $$XB \approx Y$$

बी के लिए जहां एक्स एम-बाय-एन है और वाई एम-बाय-के है। यानी, हम बी को ढूंढना चाहते हैं जो क्रमशः एक्स और वाई के लिए त्रुटि मैट्रिक्स ई और एफ को कम करता है। वह है,
 * $$\mathrm{argmin}_{B,E,F} \| [E\; F] \|_F, \qquad (X+E) B = Y+F$$

कहाँ $$[E\; F]$$ ई और एफ के साथ-साथ संवर्धित मैट्रिक्स है $$\|\cdot\|_F$$ फ्रोबेनियस मानदंड है, एक मैट्रिक्स में सभी प्रविष्टियों के वर्गों के योग का वर्गमूल और इसी तरह मैट्रिक्स की पंक्तियों या स्तंभों की लंबाई के वर्गों के योग का वर्गमूल।

इसे इस प्रकार पुनः लिखा जा सकता है
 * $$[(X+E) \; (Y+F)] \begin{bmatrix} B\\ -I_k\end{bmatrix} = 0.$$

कहाँ $$I_k$$ है $$k\times k$$ शिनाख्त सांचा। फिर लक्ष्य खोजना है $$[E\; F]$$ जिससे रैंक कम हो जाती है $$[X\; Y]$$ के द्वारा. परिभाषित करना $$[U] [\Sigma] [V]^*$$ संवर्धित मैट्रिक्स का एकवचन मूल्य अपघटन होना $$[X\; Y]$$.
 * $$[X\; Y] = [U_X\; U_Y] \begin{bmatrix}\Sigma_X &0 \\ 0 & \Sigma_Y\end{bmatrix}\begin{bmatrix}V_{XX} & V_{XY} \\ V_{YX} & V_{YY}\end{bmatrix}^* = [U_X\; U_Y] \begin{bmatrix}\Sigma_X &0 \\ 0 & \Sigma_Y\end{bmatrix} \begin{bmatrix} V_{XX}^* & V_{YX}^* \\ V_{XY}^* & V_{YY}^*\end{bmatrix}$$

जहां V को X और Y के आकार के अनुरूप ब्लॉकों में विभाजित किया गया है।

एकार्ट-यंग प्रमेय का उपयोग करते हुए, त्रुटि के मानदंड को न्यूनतम करने वाला सन्निकटन ऐसा है कि मैट्रिक्स $$U$$ और $$V$$ अपरिवर्तित हैं, जबकि सबसे छोटे हैं $$k$$ एकवचन मानों को शून्य से बदल दिया जाता है। यानी हम चाहते हैं
 * $$[(X+E)\; (Y+F)] = [U_X\; U_Y] \begin{bmatrix}\Sigma_X &0 \\ 0 & 0_{k\times k}\end{bmatrix}\begin{bmatrix}V_{XX} & V_{XY} \\ V_{YX} & V_{YY}\end{bmatrix}^*$$

तो रैखिकता से,
 * $$[E\; F] = -[U_X\; U_Y] \begin{bmatrix}0_{n\times n} &0 \\ 0 & \Sigma_Y\end{bmatrix}\begin{bmatrix}V_{XX} & V_{XY} \\ V_{YX} & V_{YY}\end{bmatrix}^*. $$

फिर हम इसे सरल बनाते हुए यू और Σ मैट्रिसेस से ब्लॉक हटा सकते हैं
 * $$[E\; F] = -U_Y\Sigma_Y \begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}^*= -[X\; Y] \begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}\begin{bmatrix}V_{XY}\\ V_{YY}\end{bmatrix}^*.$$

यह E और F प्रदान करता है ताकि
 * $$[(X+E) \; (Y+F)] \begin{bmatrix}V_{XY}\\ V_{YY}\end{bmatrix} = 0.$$

अब अगर $$V_{YY}$$ निरर्थक है, जो हमेशा मामला नहीं होता है (ध्यान दें कि टीएलएस का व्यवहार कब होता है $$V_{YY}$$ क्या एकवचन अभी तक अच्छी तरह से समझ में नहीं आया है), फिर हम दोनों पक्षों को सही से गुणा कर सकते हैं $$-V_{YY}^{-1}$$ सही मैट्रिक्स के निचले ब्लॉक को नकारात्मक पहचान में लाने के लिए, देना
 * $$[(X+E) \; (Y+F)] \begin{bmatrix} -V_{XY} V_{YY}^{-1} \\ -V_{YY} V_{YY}^{-1}\end{bmatrix} = [(X+E) \; (Y+F)] \begin{bmatrix} B\\ -I_k\end{bmatrix} = 0 ,$$

इसलिए
 * $$B=-V_{XY} V_{YY}^{-1}.$$

इसका एक सरल जीएनयू ऑक्टेव कार्यान्वयन है:

समस्या को हल करने का तरीका ऊपर वर्णित है, जिसके लिए मैट्रिक्स की आवश्यकता होती है $$V_{YY}$$ यह एकवचन नहीं है, इसे तथाकथित शास्त्रीय टीएलएस एल्गोरिदम द्वारा थोड़ा बढ़ाया जा सकता है।

गणना
शास्त्रीय टीएलएस एल्गोरिदम का मानक कार्यान्वयन नेटलिब के माध्यम से उपलब्ध है, यह भी देखें। सभी आधुनिक कार्यान्वयन, उदाहरण के लिए, सामान्य न्यूनतम वर्ग समस्याओं के अनुक्रम को हल करने पर आधारित, मैट्रिक्स का अनुमान लगाते हैं $$B$$ (संकेतित $$X$$ साहित्य में), जैसा कि सबाइन वान हफेल और वांडेवेले द्वारा प्रस्तुत किया गया है। गौरतलब है कि यह $$B$$ हालाँकि, कई मामलों में टीएलएस समाधान नहीं है।

अरैखिक मॉडल
गैर-रेखीय न्यूनतम वर्गों के लिए | गैर-रेखीय प्रणालियों के समान तर्क से पता चलता है कि पुनरावृत्ति चक्र के लिए सामान्य समीकरणों को इस प्रकार लिखा जा सकता है
 * $$\mathbf{J^TM^{-1}J\Delta \boldsymbol\beta=J^T M^{-1} \Delta y}, $$

कहाँ $$\mathbf{J}$$ जैकोबियन मैट्रिक्स और निर्धारक है।

ज्यामितीय व्याख्या
जब स्वतंत्र चर त्रुटि-मुक्त होता है तो एक अवशिष्ट प्रेक्षित डेटा बिंदु और फिट किए गए वक्र (या सतह) के बीच ऊर्ध्वाधर दूरी का प्रतिनिधित्व करता है। कुल न्यूनतम वर्गों में एक अवशिष्ट डेटा बिंदु और किसी दिशा में मापे गए फिट किए गए वक्र के बीच की दूरी को दर्शाता है। वास्तव में, यदि दोनों चर एक ही इकाइयों में मापे जाते हैं और दोनों चर पर त्रुटियां समान हैं, तो अवशिष्ट एक बिंदु से एक रेखा तक की दूरी को दर्शाता है, अर्थात, अवशिष्ट वेक्टर वक्र के स्पर्शरेखा के लंबवत है। इस कारण से, इस प्रकार के प्रतिगमन को कभी-कभी दो आयामी यूक्लिडियन प्रतिगमन कहा जाता है (स्टीन, 1983) या ओर्थोगोनल प्रतिगमन।

स्केल अपरिवर्तनीय विधियाँ
यदि चरों को समान इकाइयों में नहीं मापा जाता है तो एक गंभीर कठिनाई उत्पन्न होती है। पहले डेटा बिंदु और रेखा के बीच की दूरी मापने पर विचार करें: इस दूरी के लिए माप इकाइयाँ क्या हैं? यदि हम पाइथागोरस प्रमेय के आधार पर दूरी मापने पर विचार करते हैं तो यह स्पष्ट है कि हम विभिन्न इकाइयों में मापी गई मात्राओं को जोड़ देंगे, जो अर्थहीन है। दूसरे, यदि हम किसी एक चर को दोबारा मापते हैं, उदाहरण के लिए, किलोग्राम के बजाय ग्राम में मापते हैं, तो हम अलग-अलग परिणाम (एक अलग रेखा) के साथ समाप्त होंगे। इन समस्याओं से बचने के लिए कभी-कभी यह सुझाव दिया जाता है कि हम आयामहीन चर में परिवर्तित हो जाएं - इसे सामान्यीकरण या मानकीकरण कहा जा सकता है। हालाँकि, ऐसा करने के कई तरीके हैं, और इनसे ऐसे फिट मॉडल बनते हैं जो एक-दूसरे के समकक्ष नहीं होते हैं। एक दृष्टिकोण ज्ञात (या अनुमानित) माप परिशुद्धता द्वारा सामान्यीकरण करना है, जिससे बिंदुओं से रेखा तक महालनोबिस की दूरी कम हो जाती है, अधिकतम संभावना समाधान प्रदान होता है; विचरण के विश्लेषण के माध्यम से अज्ञात सटीकता पाई जा सकती है।

संक्षेप में, कुल न्यूनतम वर्गों में इकाइयों-अपरिवर्तनीय की संपत्ति नहीं होती है - अर्थात। यह स्केल अपरिवर्तनीयता नहीं है। एक सार्थक मॉडल के लिए हमें इस संपत्ति को धारण करने की आवश्यकता है। आगे बढ़ने का एक तरीका यह समझना है कि यदि जोड़ के बजाय गुणा का उपयोग किया जाए तो विभिन्न इकाइयों में मापे गए अवशेषों (दूरियों) को जोड़ा जा सकता है। एक रेखा फ़िट करने पर विचार करें: प्रत्येक डेटा बिंदु के लिए ऊर्ध्वाधर और क्षैतिज अवशेषों का उत्पाद अवशिष्ट रेखाओं और फिट की गई रेखा द्वारा निर्मित त्रिभुज के क्षेत्रफल के दोगुने के बराबर होता है। हम वह रेखा चुनते हैं जो इन क्षेत्रों के योग को न्यूनतम करती है। नोबेल पुरस्कार विजेता पॉल सैमुएलसन ने 1942 में साबित किया कि, दो आयामों में, यह एकमात्र रेखा है जिसे केवल मानक विचलन के अनुपात और सहसंबंध गुणांक के संदर्भ में व्यक्त किया जा सकता है, जो (1) सही समीकरण में फिट बैठता है जब अवलोकन एक सीधी रेखा पर आते हैं, ( 2) स्केल इनवेरिएंस प्रदर्शित करता है, और (3) चरों के आदान-प्रदान के तहत इनवेरिएंस प्रदर्शित करता है। इस समाधान को विभिन्न विषयों में फिर से खोजा गया है और इसे मानकीकृत प्रमुख अक्ष (रिकर 1975, वार्टन एट अल., 2006) के रूप में जाना जाता है। कम प्रमुख अक्ष, ज्यामितीय माध्य कार्यात्मक संबंध (ड्रेपर और स्मिथ, 1998), न्यूनतम उत्पाद प्रतिगमन, विकर्ण प्रतिगमन, कार्बनिक सहसंबंध की रेखा, और न्यूनतम क्षेत्र रेखा (टोफालिस, 2002)। टोफलिस (2015) अनेक चरों से निपटने के लिए इस दृष्टिकोण का विस्तार किया है।

यह भी देखें

 * डेमिंग रिग्रेशन, दो भविष्यवक्ताओं और स्वतंत्र त्रुटियों वाला एक विशेष मामला।
 * चर मॉडल में त्रुटियाँ
 * गॉस-हेल्मर्ट मॉडल
 * रेखीय प्रतिगमन
 * कम से कम वर्गों
 * प्रमुख कंपोनेंट विश्लेषण
 * प्रमुख घटक प्रतिगमन

अन्य

 * आई. ह्नतिनकोवा, एम. प्लेज़िंगर, डी. एम. सिमा, ज़ेड स्ट्रैकोस, और सबाइन वान हफ़ेल|एस। वैन हफ़ेल, AX ≈ B में कुल न्यूनतम वर्ग समस्या। शास्त्रीय कार्यों के संबंध में एक नया वर्गीकरण। सिमैक्स वॉल्यूम. 32 अंक 3 (2011), पृष्ठ 748-770। प्रीप्रिंट के रूप में उपलब्ध है।
 * एम. प्लेसिंगर, द टोटल लीस्ट स्क्वेयर्स प्रॉब्लम एंड रिडक्शन ऑफ डेटा इन एएक्स ≈ बी. डॉक्टोरल थीसिस, टीयू ऑफ लिबरेक एंड इंस्टीट्यूट ऑफ कंप्यूटर साइंस, एएस सीआर प्राग, 2008। 20120724080908/http://www.fp.tul.cz/~plesinger/my_publications/doctoral_thsis/thsis.pdf पीएच.डी. थीसिस
 * सी. सी. पेगे, जेड. स्ट्रैकोस, रैखिक बीजगणितीय प्रणालियों में मुख्य समस्याएं। सियाम जे. मैट्रिक्स गुदा. आवेदन. 27, 2006, पृ. 861-875.
 * सबाइन वान हफ़ेल|एस. वैन हफ़ेल और पी. लेमरलिंग, कुल न्यूनतम वर्ग और चर में त्रुटियाँ मॉडलिंग: विश्लेषण, एल्गोरिदम और अनुप्रयोग। डॉर्ड्रेक्ट, नीदरलैंड्स: क्लूवर एकेडमिक पब्लिशर्स, 2002।
 * एस. जो और एस. डब्ल्यू. किम, शोर डेटा मैट्रिक्स के साथ लगातार सामान्यीकृत न्यूनतम माध्य वर्ग फ़िल्टरिंग। आईईईई ट्रांस. सिग्नल प्रोसेस., वॉल्यूम. 53, नहीं. 6, पृ. 2112-2123, जून 2005।
 * आर. डी. डीग्रोट और ई. एम. डाउलिंग, डेटा न्यूनतम वर्ग समस्या और चैनल समीकरण। आईईईई ट्रांस. सिग्नल प्रोसेस., वॉल्यूम. 41, नहीं. 1, पृ. 407-411, जनवरी 1993।
 * सबाइन वान हफ़ेल|एस. वैन हफ़ेल और जे. वंदेवाले, कुल न्यूनतम वर्ग समस्याएं: कम्प्यूटेशनल पहलू और विश्लेषण। सियाम प्रकाशन, फिलाडेल्फिया पीए, 1991।
 * टी. अबत्ज़ोग्लू और जे. मेंडल, प्रोक में कुल न्यूनतम वर्ग बाधित। आईईईई इंट. कॉन्फ़. ध्वनि, भाषण, सिग्नल प्रक्रिया। (आईसीएएसएसपी'87), अप्रैल 1987, खंड। 12, पृ. 1485-1488.
 * पी. डी ग्रोएन एन इंट्रोडक्शन टू टोटल मिनिस्ट स्क्वेर्स, इन न्यू आर्कीफ वूर विस्कुंडे, विएर्डे सीरी, डील 14, 1996, पीपी. 237-253 arxiv. संगठन.
 * जी. एच. गोलूब और सी. एफ. वैन लोन, कुल न्यूनतम वर्ग समस्या का विश्लेषण। संख्या पर सियाम जे. एनल., 17, 1980, पृ. 883-893.
 * एक रेखा का लंबवत प्रतिगमन MathPages पर
 * ए. आर. अमिरी-सिमकूई और एस. जाज़ेरी, जर्नल ऑफ जियोडेटिक साइंस, 2 (2): 113-124, 2012 में मानक न्यूनतम वर्ग सिद्धांत द्वारा तैयार भारित कुल न्यूनतम वर्ग अमीरी/JGS_Amiri_Jazaeri_2012.pdf।

श्रेणी:अनुप्रयुक्त गणित श्रेणी:वक्र फिटिंग श्रेणी:न्यूनतम वर्ग श्रेणी:प्रतिगमन मॉडल