न्यूनतम पूर्ण विचलन

न्यूनतम निरपेक्ष विचलन विचलन (एलएडी), जिसे कम से कम निरपेक्ष त्रुटियाँ (एलएई), कम से कम निरपेक्ष अवशिष्ट (एलएआर), या कम से कम निरपेक्ष मान (एलएवी) के रूप में भी जाना जाता है, सांख्यिकीय इष्टतमता मानदंड और मैक्सिमा और मिनिमा सांख्यिकीय अनुकूलन (गणित) तकनीक है जो पूर्ण विचलन के योग को न्यूनतम करने पर आधारित है। (पूर्ण अवशिष्टों का योग या पूर्ण त्रुटियों का योग भी) या ऐसे मूल्यों का L1 मानदंड। यह न्यूनतम वर्ग तकनीक के समान है, सिवाय इसके कि यह वर्ग (बीजगणित) मानों के बजाय निरपेक्ष मानों पर आधारित है। यह ऐसे फलन (गणित)को खोजने का प्रयास करता है जो फलनद्वारा उत्पन्न बिंदुओं और संबंधित डेटा बिंदुओं के बीच अवशेषों को कम करके डेटा के सेट का बारीकी से अनुमान लगाता है। यदि त्रुटियों में लाप्लास वितरण होता है तो एलएडी अनुमान अधिकतम संभावना अनुमान के रूप में भी उत्पन्न होता है। इसे 1757 में रोजर जोसेफ बोस्कोविच द्वारा पेश किया गया था।

निरूपण
मान लीजिए कि डेटा सेट में i = 1, 2, ..., n के साथ बिंदु (xi, yi) शामिल हैं। हम ऐसा कोई फलनखोजना चाहते हैं $$f(x_i)\approx y_i.$$

इस लक्ष्य को प्राप्त करने के लिए, हम मानते हैं कि फलनf विशेष रूप का है जिसमें कुछ पैरामीटर हैं जिन्हें निर्धारित करने की आवश्यकता है। उदाहरण के लिए, सबसे सरल रूप रैखिक होगा:: f(x) = bx + c, जहां b और c ऐसे पैरामीटर हैं जिनके मान ज्ञात नहीं हैं लेकिन जिनका हम अनुमान लगाना चाहते हैं। कम सरलता से, मान लें कि f(x) द्विघात है, जिसका अर्थ है कि f(x) = ax2 + bx + c जहां a, b और c अभी तक ज्ञात नहीं हैं। (आमतौर पर, केवल व्याख्याकार x, नहीं हो सकता है, बल्कि कई व्याख्याकार हो सकते हैं, सभी फलन f के तर्क के रूप में दिखाई देते हैं।)

अब हम अज्ञात मापदंडों के अनुमानित मूल्यों की तलाश करते हैं जो अवशेषों के निरपेक्ष मूल्यों के योग को कम करते हैं |


 * $$ S = \sum_{i=1}^n |y_i - f(x_i)|. $$

समाधान
यद्यपि न्यूनतम निरपेक्ष विचलन प्रतिगमन का विचार न्यूनतम वर्ग प्रतिगमन के समान ही सरल है, न्यूनतम निरपेक्ष विचलन रेखा की कुशलता से गणना करना उतना आसान नहीं है। न्यूनतम वर्ग प्रतिगमन के विपरीत, न्यूनतम निरपेक्ष विचलन प्रतिगमन में विश्लेषणात्मक समाधान विधि नहीं होती है। इसलिए, पुनरावृत्त दृष्टिकोण की आवश्यकता है। निम्नलिखित कुछ न्यूनतम निरपेक्ष विचलन समाधान विधियों की गणना है।


 * सिम्प्लेक्स एल्गोरिथ्म विधियाँ (जैसे कि बैरोडेल-रॉबर्ट्स एल्गोरिथम |
 * क्योंकि समस्या रैखिक प्रोग्राम है, कई रैखिक प्रोग्रामिंग तकनीकों (सिंप्लेक्स विधि के साथ-साथ अन्य सहित) में से किसी को भी लागू किया जा सकता है।
 * न्यूनतम वर्गों को पुनरावर्ती रूप से पुनः भारित करें
 * वेसोलोव्स्की की प्रत्यक्ष वंश विधि
 * ली-आर्स का अधिकतम संभावना दृष्टिकोण
 * आयामीता दृष्टिकोण की पुनरावर्ती कमी
 * न्यूनतम त्रुटियों के लिए बिंदु-से-बिंदु रेखाओं के सभी संयोजनों की जाँच करें
 * न्यूनतम त्रुटियों के लिए बिंदु-से-बिंदु रेखाओं के सभी संयोजनों की जाँच करें

न्यूनतम निरपेक्ष विचलन समस्या को हल करने के लिए सिम्प्लेक्स-आधारित विधियाँ "पसंदीदा" तरीका हैं। सिम्पलेक्स विधि रैखिक प्रोग्रामिंग में किसी समस्या को हल करने की विधि है। सबसे लोकप्रिय एल्गोरिथम बैरोडेल-रॉबर्ट्स संशोधित सिम्प्लेक्स एल्गोरिथम है। आईआरएलएस, वेसोलोव्स्की विधि और ली विधि के एल्गोरिदम अन्य विधियों के बीच के परिशिष्ट ए में पाए जा सकते हैं। किन्हीं दो (x,y) डेटा बिंदुओं को पार करने वाली रेखाओं के सभी संयोजनों की जाँच करना न्यूनतम पूर्ण विचलन रेखा को खोजने का और तरीका है। चूँकि यह ज्ञात है कि कम से कम निरपेक्ष विचलन रेखा कम से कम दो डेटा बिंदुओं को पार करती है, यह विधि प्रत्येक पंक्ति के सीएई (डेटा बिंदुओं पर सबसे छोटी निरपेक्ष त्रुटि) की तुलना करके और सबसे छोटी सीएई वाली रेखा का चयन करके रेखा ढूंढेगी। इसके अलावा, यदि कई रेखाओं में समान, सबसे छोटा एसएई है, तो रेखाएं कई समाधानों के क्षेत्र को रेखांकित करती हैं। हालांकि सरल, यह अंतिम विधि डेटा के बड़े सेट के लिए अक्षम है।

रैखिक प्रोग्रामिंग का उपयोग करके समाधान
निम्नलिखित समस्या विनिर्देश पर किसी भी रैखिक प्रोग्रामिंग तकनीक का उपयोग करके समस्या को हल किया जा सकता है। हम चाहते हैं


 * $$ \text{Minimize} \sum_{i=1}^n |y_i - a_0 - a_1x_{i1} - a_2x_{i2} - \cdots - a_kx_{ik}|$$

पैरामीटर्स $$a_0,\ldots, a_k$$ के मानों की पसंद के संबंध में, जहां yi आश्रित चर के ith अवलोकन का मान है, और xij jth वें स्वतंत्र चर के ith अवलोकन का मान है(j = 1,...,k).। हम इस समस्या को कृत्रिम चर ui के रूप में फिर से लिखते हैं

इन बाधाओं का प्रभाव प्रत्येक $$u_i$$ को न्यूनतम होने पर समान $$|y_i - a_0 - a_1x_{i1} - a_2x_{i2} - \cdots - a_kx_{ik}|$$करने के लिए मजबूर करना है, इसलिए उद्देश्य फ़ंक्शन मूल उद्देश्य फ़ंक्शन के समान है। चूँकि समस्या कथन के इस संस्करण में निरपेक्ष मान ऑपरेटर शामिल नहीं है, यह ऐसे प्रारूप में है जिसे किसी भी रैखिक प्रोग्रामिंग पैकेज के साथ हल किया जा सकता है।
 * $$ \text{Minimize} \sum_{i=1}^n u_i$$
 * $$a_0,\ldots, a_k$$ और $$u_1,\ldots, u_n$$ इसके संबंध में
 * विषय के संबंध में
 * $$ u_i \ge y_i - a_0 - a_1x_{i1} - a_2x_{i2} - \cdots - a_kx_{ik} \,\ \,\ \,\ \,\ \,\ \text{for } i=1,\ldots,n$$
 * $$ u_i \ge -[y_i - a_0 - a_1x_{i1} - a_2x_{i2} - \cdots - a_kx_{ik}] \,\ \,\ \text{ for } i=1,\ldots,n.$$
 * $$ u_i \ge -[y_i - a_0 - a_1x_{i1} - a_2x_{i2} - \cdots - a_kx_{ik}] \,\ \,\ \text{ for } i=1,\ldots,n.$$

गुण
न्यूनतम निरपेक्ष विचलन रेखा के अन्य अद्वितीय गुण मौजूद हैं। (x,y) डेटा के सेट के स्तिथियों में, सबसे कम निरपेक्ष विचलन रेखा हमेशा कम से कम दो डेटा बिंदुओं से होकर गुजरेगी, जब तक कि कई समाधान न हों। यदि एकाधिक समाधान मौजूद हैं, तो वैध न्यूनतम निरपेक्ष विचलन समाधानों का क्षेत्र कम से कम दो रेखाओं से घिरा होगा, जिनमें से प्रत्येक कम से कम दो डेटा बिंदुओं से होकर गुजरता है। अधिक आम तौर पर, यदि k प्रतिगामी (स्थिरांक सहित) हैं, तो कम से कम इष्टतम प्रतिगमन सतह k डेटा बिंदुओं से होकर गुजरेगी।

डेटा बिंदुओं पर लाइन की यह "लैचिंग" "अस्थिरता" संपत्ति को समझने में मदद कर सकती है: यदि लाइन हमेशा कम से कम दो बिंदुओं पर चिपकती है, तो डेटा बिंदुओं के बदलते ही लाइन बिंदुओं के विभिन्न सेटों के बीच कूद जाएगी। "लैचिंग" "सुदृढ़ता" संपत्ति को समझने में भी मदद करती है: यदि कोई बाहरी मौजूद है, और कम से कम पूर्ण विचलन रेखा दो डेटा बिंदुओं पर होनी चाहिए, तो बाहरी संभवतः उन दो बिंदुओं में से नहीं होगा क्योंकि वह न्यूनतम नहीं होगा अधिकांश मामलों में पूर्ण विचलन का योग।

एक ज्ञात मामला जिसमें एकाधिक समाधान मौजूद हैं, क्षैतिज रेखा के बारे में सममित बिंदुओं का सेट है, जैसा कि नीचे चित्र ए में दिखाया गया है।



यह समझने के लिए कि चित्र ए में दिखाए गए स्तिथियों में एकाधिक समाधान क्यों हैं, हरे क्षेत्र में गुलाबी रेखा पर विचार करें। इसकी पूर्ण त्रुटियों का योग कुछ मान S है। यदि कोई रेखा को हरे क्षेत्र के भीतर रखते हुए थोड़ा ऊपर की ओर झुकाता है, तो त्रुटियों का योग अभी भी S होगा। यह नहीं बदलेगा क्योंकि प्रत्येक बिंदु से दूरी रेखा के तरफ रेखा बढ़ती है, जबकि रेखा के विपरीत दिशा में प्रत्येक बिंदु की दूरी बिल्कुल उसी मात्रा में कम हो जाती है। इस प्रकार पूर्ण त्रुटियों का योग वही रहता है। इसके अलावा, चूंकि कोई व्यक्ति रेखा को अनंत रूप से छोटे वेतन वृद्धि में झुका सकता है, इससे यह भी पता चलता है कि यदि से अधिक समाधान हैं, तो अनंत रूप से कई समाधान भी हैं।

फायदे और नुकसान
निम्नलिखित तालिका है जिसमें कम से कम निरपेक्ष विचलन की विधि के कुछ गुणों की तुलना कम से कम वर्ग की विधि (गैर-एकवचन समस्याओं के लिए) से की गई है।

* बशर्ते कि डेटा बिंदुओं की संख्या सुविधाओं की संख्या से अधिक या उसके समान हो।

न्यूनतम वर्ग विधि की तुलना में इसकी सुदृढ़ता के कारण, न्यूनतम निरपेक्ष विचलन की विधि कई क्षेत्रों में लागू होती है। कम से कम निरपेक्ष विचलन इस मायने में मजबूत है कि यह डेटा में आउटलेर्स के प्रति प्रतिरोधी है। सामान्य न्यूनतम वर्ग (ओएलएस) के विपरीत, एलएडी सभी अवलोकनों पर समान जोर देता है, जो अवशेषों का वर्ग करके, बड़े अवशेषों को अधिक भार देता है, अर्थात, ऐसे आउटलेर्स जिनमें पूर्वानुमानित मान वास्तविक अवलोकनों से बहुत दूर होते हैं। यह उन अध्ययनों में सहायक हो सकता है जहां आउटलेर्स को अन्य टिप्पणियों की तुलना में अधिक महत्व देने की आवश्यकता नहीं है। यदि आउटलेर्स को अधिक भार देना महत्वपूर्ण है, तो कम से कम वर्गों की विधि बेहतर विकल्प है।

विविधताएं, विस्तार, विशेषज्ञता
यदि अवशिष्टों के निरपेक्ष मानों के योग में कोई निरपेक्ष मान फलन को झुके हुए निरपेक्ष मान फ़ंक्शन में सामान्यीकृत करता है, जिसमें बाईं आधी रेखा पर ढलान$$\tau-1$$ है और दाईं आधी रेखा पर ढलान $$\tau$$ है जहां $$0<\tau<1$$ व्यक्ति को मात्रात्मक प्रतिगमन प्राप्त होता है। $$\tau=1/2$$ का मामला कम से कम निरपेक्ष विचलन द्वारा मानक प्रतिगमन देता है और इसे माध्यिका प्रतिगमन के रूप में भी जाना जाता है।

न्यूनतम पूर्ण विचलन समस्या को कई व्याख्याकारों, बाधाओं और नियमितीकरण (गणित) को शामिल करने के लिए बढ़ाया जा सकता है, उदाहरण के लिए, रैखिक बाधाओं वाला रैखिक मॉडल
 * छोटा करना $$S(\mathbf{\beta}, b) = \sum_i | \mathbf{x}'_i \mathbf{\beta} + b - y_i |$$
 * के अधीन, उदाहरण के लिए, $$\mathbf{x}'_1 \mathbf{\beta} + b - y_1 \leq k$$

जहां $$\mathbf{\beta}$$ अनुमान लगाए जाने वाले गुणांकों का स्तंभ वेक्टर है, b अनुमान लगाया जाने वाला अवरोधन है, xi विभिन्न व्याख्याकारों पर ith अवलोकनों का स्तंभ वेक्टर है, yi आश्रित चर पर ith अवलोकन है, और k है ज्ञात स्थिरांक.

लैस्सो (सांख्यिकी (न्यूनतम पूर्ण संकोचन और चयन ऑपरेटर) के साथ नियमितीकरण (गणित) को एलएडी के साथ भी जोड़ा जा सकता है।

यह भी देखें

 * ज्यामितीय माध्यिका
 * मात्रात्मक प्रतिगमन
 * प्रतिगमन विश्लेषण
 * रेखीय प्रतिगमन मॉडल
 * पूर्ण विचलन
 * औसत पूर्ण विचलन
 * माध्यिका निरपेक्ष विचलन
 * सामान्य कम चौकोर
 * मजबूत प्रतिगमन