भारित न्यूनतम वर्ग

भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है, सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण (विषमलैंगिकता) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी सामान्यीकृत न्यूनतम वर्गों की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण मैट्रिक्स की सभी ऑफ-विकर्ण प्रविष्टियां शून्य होती हैं।

निरूपण
किसी मॉडल का किसी डेटा बिंदु पर फिट होना उसकी त्रुटियों और आँकड़ों में अवशेषों द्वारा मापा जाता है, $$ r_i $$, आश्रित चर के मापा मूल्य के बीच अंतर के रूप में परिभाषित, $$ y_i $$ और मॉडल द्वारा अनुमानित मूल्य, $$f(x_i, \boldsymbol\beta)$$: $$r_i(\boldsymbol\beta) = y_i - f(x_i, \boldsymbol\beta).$$ यदि त्रुटियाँ असंबंधित हैं और उनमें समान भिन्नता है, तो फ़ंक्शन $$S(\boldsymbol\beta) = \sum_i r_i(\boldsymbol\beta)^2,$$ पर न्यूनतम किया गया है $$\boldsymbol\hat\beta$$, ऐसा है कि $$\frac{\partial S}{\partial\beta_j}(\hat\boldsymbol\beta) = 0$$.

गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, $$\hat{\boldsymbol{\beta}}$$ एक सर्वोत्तम रैखिक निष्पक्ष अनुमानक (बेस्ट लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। अलेक्जेंडर ऐटकेन ने दिखाया कि जब वर्गाकार अवशेषों का भारित योग न्यूनतम किया जाता है, $$\hat{\boldsymbol{\beta}}$$ यदि प्रत्येक भार माप के विचरण के व्युत्क्रम के बराबर है तो यह सबसे अच्छा रैखिक निष्पक्ष अनुमानक है $$\begin{align} S &= \sum_{i=1}^n W_{ii}{r_i}^2, & W_{ii} &= \frac{1}{{\sigma_i}^2} \end{align}$$ वर्गों के इस योग के लिए क्रमिक समीकरण हैं $$-2\sum_i W_{ii}\frac{\partial f(x_i, \boldsymbol{\beta})}{\partial\beta_j} r_i = 0,\quad j = 1, \ldots, m$$ जो, एक रैखिक न्यूनतम वर्ग प्रणाली में संशोधित सामान्य समीकरण देते हैं, $$\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.$$

जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार मैट्रिक्स, W=Ω−1, विकर्ण है, इन्हें इस प्रकार लिखा जा सकता है $$\mathbf{\left(X^\textsf{T} WX\right)\hat{\boldsymbol{\beta}} = X^\textsf{T}Wy}.$$ यदि त्रुटियां सहसंबद्ध हैं, तो परिणामी अनुमानक सबसे अच्छा रैखिक निष्पक्ष अनुमानक है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर है।

जब त्रुटियां असंबंधित होती हैं, तो वजन मैट्रिक्स को कारक के रूप में गणना को सरल बनाना सुविधाजनक होता है $$w_{ii} = \sqrt{W_{ii}}$$. फिर सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है: $$\mathbf{\left(X'^\textsf{T}X'\right)\hat{\boldsymbol{\beta}} = X'^\textsf{T}y'}\,$$ जहां हम निम्नलिखित स्केल्ड मैट्रिक्स और वेक्टर को परिभाषित करते हैं: $$\begin{align} \mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\ \mathbf{y'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{y} = \mathbf{y} \oslash \mathbf{\sigma}. \end{align}$$ यह एक प्रकार का श्वेतकरण परिवर्तन है; अंतिम अभिव्यक्ति में प्रवेशवार विभाजन शामिल है।

गैर-रेखीय न्यूनतम वर्ग प्रणालियों के लिए एक समान तर्क से पता चलता है कि सामान्य समीकरणों को निम्नानुसार संशोधित किया जाना चाहिए। $$\mathbf{\left(J^\textsf{T}WJ\right)\, \boldsymbol\Delta\beta = J^\textsf{T}W\, \boldsymbol\Delta y}.\,$$ ध्यान दें कि अनुभवजन्य परीक्षणों के लिए, उपयुक्त डब्ल्यू निश्चित रूप से ज्ञात नहीं है और इसका अनुमान लगाया जाना चाहिए। इसके लिए व्यवहार्य सामान्यीकृत न्यूनतम वर्ग (एफजीएलएस) तकनीकों का उपयोग किया जा सकता है; इस मामले में यह एक विकर्ण सहप्रसरण मैट्रिक्स के लिए विशिष्ट है, इस प्रकार एक व्यवहार्य भारित न्यूनतम वर्ग समाधान प्राप्त होता है।

यदि अवलोकनों की अनिश्चितता बाहरी स्रोतों से ज्ञात नहीं है, तो दिए गए अवलोकनों से वजन का अनुमान लगाया जा सकता है। यह उपयोगी हो सकता है, उदाहरण के लिए, आउटलेर्स की पहचान करने के लिए। डेटा सेट से आउटलेर्स हटा दिए जाने के बाद, वज़न को एक पर रीसेट किया जाना चाहिए।

प्रेरणा
कुछ मामलों में टिप्पणियों को महत्व दिया जा सकता है - उदाहरण के लिए, वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई वर्गों के भारित योग को कम कर सकता है: $$ \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 = \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2. $$ कहाँ डब्ल्यूi > 0 वें अवलोकन का वजन है, और डब्ल्यू ऐसे वजन का विकर्ण मैट्रिक्स है।

आदर्श रूप से, वज़न माप के विचरण के गुणात्मक व्युत्क्रम के बराबर होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन सहसंबद्ध हैं, तो अभिव्यक्ति $S = \sum_k \sum_j r_k W_{kj} r_j\,$ लागू होता है. इस मामले में वजन मैट्रिक्स आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर होना चाहिए)। सामान्य समीकरण तब हैं: $$\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.$$ इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है।

पैरामीटर त्रुटियां और सहसंबंध
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं $$\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. $$ इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण मैट्रिक्स के लिए एक अभिव्यक्ति टिप्पणियों में त्रुटियों से त्रुटि प्रसार द्वारा प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के लिए प्रसरण-सहप्रसरण मैट्रिक्स को एम द्वारा और अनुमानित मापदंडों को एम द्वारा निरूपित किया जाता हैβ. तब $$M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.$$

कब $W = M^{−1}$, इससे यह सरल हो जाता है $$M^\beta = \left(X^\textsf{T} W X\right)^{-1}.$$ जब इकाई भार का उपयोग किया जाता है ($W = I$, पहचान मैट्रिक्स), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और सभी समान हैं: $M = σ^{2}I$, कहाँ $σ^{2}$ एक अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ2का अनुमान कम ची-वर्ग द्वारा लगाया जाता है $$\chi^2_\nu$$: $$\begin{align} M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\ \chi^2_\nu &= S/\nu, \end{align}$$ जहां S भारित #उद्देश्य फ़ंक्शन का न्यूनतम मान है: $$S = r^\textsf{T} W r = \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.$$ हर, $$\nu = n - m$$, स्वतंत्रता की डिग्री (सांख्यिकी) की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के लिए स्वतंत्रता की डिग्री (सांख्यिकी)#प्रभावी स्वतंत्रता की डिग्री देखें।

सभी मामलों में, पैरामीटर अनुमान का विचरण $$\hat\beta_i$$ द्वारा दिया गया है $$M^\beta_{ii}$$ और पैरामीटर अनुमानों के बीच सहप्रसरण $$\hat\beta_i$$ और $$\hat\beta_j$$ द्वारा दिया गया है $$M^\beta_{ij}$$. मानक विचलन विचरण का वर्गमूल है, $$\sigma_i = \sqrt{M^\beta_{ii}}$$, और सहसंबंध गुणांक द्वारा दिया गया है $$\rho_{ij} = M^\beta_{ij}/(\sigma_i \sigma_j)$$. ये त्रुटि अनुमान माप में केवल यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण बड़ी है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर पियर्सन उत्पाद-क्षण सहसंबंध गुणांक होते हैं।

पैरामीटर आत्मविश्वास सीमा
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर केंद्रीय सीमा प्रमेय के लिए आकर्षक माना जाता है - सामान्य वितरण#घटना और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के माध्य के साथ एक सामान्य वितरण से संबंधित है $$\sigma$$. उस धारणा के तहत इसकी अनुमानित मानक त्रुटि के संदर्भ में एकल स्केलर पैरामीटर अनुमान के लिए निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं $$se_{\beta}$$ (सामान्य न्यूनतम वर्ग#बड़े नमूना गुण दिए गए हैं):
 * 68% वह अंतराल $$\hat\beta \pm se_\beta$$ वास्तविक गुणांक मान शामिल है
 * 95% वह अंतराल $$\hat\beta \pm 2se_\beta$$ वास्तविक गुणांक मान शामिल है
 * 99% वह अंतराल $$\hat\beta \pm 2.5se_\beta$$ वास्तविक गुणांक मान शामिल है

यह धारणा अनुचित नहीं है जब n>>m। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर एन - एम डिग्री की स्वतंत्रता (सांख्यिकी) के साथ एक छात्र के टी-वितरण से संबंधित होंगे। जब n ≫ m छात्र का t-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये आत्मविश्वास सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को केवल एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे नमूनाकरण त्रुटि के अधीन हैं। जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के बारे में किसी भी धारणा की परवाह किए बिना, चेबीचेव की असमानता का उपयोग संभावनाओं की ऊपरी सीमा के लिए किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मूल्य क्रमशः 100%, 25% और 11% हैं।

अवशिष्ट मूल्य और सहसंबंध
सांख्यिकी में त्रुटियाँ एवं अवशेष किसके द्वारा किये गये प्रेक्षणों से सम्बन्धित हैं $$\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},$$ जहां H एक निष्क्रिय मैट्रिक्स है जिसे टोपी मैट्रिक्स के रूप में जाना जाता है: $$H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,$$ और I पहचान मैट्रिक्स है। अवशिष्टों का प्रसरण-सहप्रसरण मैट्रिक्स, एम rद्वारा दिया गया है $$M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.$$ इस प्रकार अवशेष सहसंबद्ध होते हैं, भले ही अवलोकन न हों।

कब $$W = M^{-1}$$, $$M^\mathbf{r} = (I - H) M.$$ जब भी मॉडल फ़ंक्शन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के बराबर होता है। अवशेषों के लिए अभिव्यक्ति को बायीं ओर से X से गुणा करें$T$ में$T$: $$X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.$$ उदाहरण के लिए, कहें कि मॉडल का पहला पद एक स्थिरांक है, इसलिए $$X_{i1} = 1$$ सबके लिए मैं उस स्थिति में यह उसका अनुसरण करता है $$\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.$$ इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के बराबर है, आकस्मिक नहीं है, बल्कि मॉडल में स्थिर पद, α की उपस्थिति का परिणाम है।

यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशेषों और अवलोकनों के बीच रैखिक संबंध के कारण, अवशेषों को भी ऐसा ही होना चाहिए, लेकिन चूँकि अवलोकन सभी संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशेष एक छात्र के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक बड़ा प्रतीत होता है तो विद्यार्थीकृत अवशेष किसी बाह्य के लिए सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।

यह भी देखें

 * न्यूनतम वर्गों को पुनरावृत्त रूप से पुनः भारित किया गया
 * विषमलैंगिकता-संगत मानक त्रुटियाँ
 * भारित माध्य