भारित न्यूनतम वर्ग

भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है, सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण (विषमलैंगिकता) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी सामान्यीकृत न्यूनतम वर्गों की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं।

सूत्रीकरण
किसी डेटा बिंदु पर आदर्श की उपयुक्त को उसके अवशिष्ट $$ r_i $$, के माध्यम से  मापा जाता है, जिसे आश्रित चर के मापीय मान,  $$ y_i $$ और आदर्श के माध्यम से  अनुमानित मान ,  $$f(x_i, \boldsymbol\beta)$$: के मध्य  अंतर के रूप में परिभाषित किया गया है। $$r_i(\boldsymbol\beta) = y_i - f(x_i, \boldsymbol\beta).$$ यदि त्रुटियाँ असंबंधित हैं और उनमें समान भिन्नता है, तो फलन $$S(\boldsymbol\beta) = \sum_i r_i(\boldsymbol\beta)^2,$$ $$\boldsymbol\hat\beta$$ पर इस प्रकार न्यूनतम किया जाता है कि $$\frac{\partial S}{\partial\beta_j}(\hat\boldsymbol\beta) = 0$$ है

गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो $$\hat{\boldsymbol{\beta}}$$   सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है।

गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, $$\hat{\boldsymbol{\beta}}$$ एक सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। अलेक्जेंडर ऐटकेन ने दिखाया कि जब वर्ग अवशेषों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है, $$\begin{align} S &= \sum_{i=1}^n W_{ii}{r_i}^2, & W_{ii} &= \frac{1}{{\sigma_i}^2} \end{align}$$ वर्गों के इस योग के रूप मे क्रमिक समीकरण हैं $$-2\sum_i W_{ii}\frac{\partial f(x_i, \boldsymbol{\beta})}{\partial\beta_j} r_i = 0,\quad j = 1, \ldots, m$$ जो, एक रैखिक न्यूनतम वर्ग प्रणाली में संशोधित सामान्य समीकरण देते हैं, $$\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.$$

जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार आव्युह, W=Ω−1, विकर्ण है, इन्हें इस प्रकार लिखा जा सकता है

यदि त्रुटियाँ सहसंबद्ध हैं, तो परिणामी अनुमानक नीला है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर है। $$\mathbf{\left(X^\textsf{T} WX\right)\hat{\boldsymbol{\beta}} = X^\textsf{T}Wy}.$$यदि त्रुटियाँ सहसंबद्ध हैं, तो परिणामी अनुमानक नीला है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के सामान्य है। जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को $$w_{ii} = \sqrt{W_{ii}}$$. के रूप में कारक करने के रूप मे गणना को सहज  बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:$$\mathbf{\left(X'^\textsf{T}X'\right)\hat{\boldsymbol{\beta}} = X'^\textsf{T}y'}\,$$

जहां हम निम्नलिखित चिह्नित आव्युह और सदिश  को परिभाषित करते हैं: $$\begin{align} \mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\ \mathbf{y'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{y} = \mathbf{y} \oslash \mathbf{\sigma}. \end{align}$$ यह एक प्रकार का श्वेतक परिवर्तन है; अंतिम अभिव्यक्ति में प्रविष्टि सतर्कता विभाजन शामिल है।

अ-रेखीय न्यूनतम वर्ग प्रणालियों के रूप मे एक समान तर्क से ज्ञात होता  है कि सामान्य समीकरणों को निम्नानुसार संशोधित किया जाना चाहिए। $$\mathbf{\left(J^\textsf{T}WJ\right)\, \boldsymbol\Delta\beta = J^\textsf{T}W\, \boldsymbol\Delta y}.\,$$ ध्यान दें कि अनुभवजन्य परीक्षणों के रूप मे, उपयुक्त W निश्चित रूप से ज्ञात नहीं है और इसका अनुमान लगाया जाना चाहिए। इसके रूप मे व्यवहार्य सामान्यीकृत न्यूनतम वर्ग (एफजीएलएस) तकनीकों का उपयोग किया जा सकता है, इस मामले में यह एक विकर्ण सहप्रसरण आव्युह के रूप मे  विशिष्ट है, जिससे एक व्यवहार्य भारित न्यूनतम वर्ग समाधान प्राप्त होता है।

यदि अवलोकनों की अनिश्चितता बाह्य स्रोतों से ज्ञात नहीं है तो दिए गए अवलोकनों से भार का अनुमान लगाया जा सकता है। उदाहरण के रूप मे बाह्य प्रभाव की अभिज्ञान करने के रूप मे  यह उपयोगी हो सकता है। डेटा सेट से बाह्य प्रभाव निष्काषित कर  जाने के पश्चात्  भार  को एक पर पुनः स्थापित   किया जाना चाहिए।

प्रेरणा
कुछ मामलों में टिप्पणियों को महत्व दिया जा सकता है - उदाहरण के रूप मे, वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई वर्गों के भारित योग को कम कर सकता है: $$ \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 = \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2. $$ कहाँ डब्ल्यूi > 0 वें अवलोकन का वजन है, और डब्ल्यू ऐसे वजन का विकर्ण आव्युह है।

आदर्श रूप से, वज़न माप के विचरण के गुणात्मक व्युत्क्रम के बराबर होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन सहसंबद्ध हैं, तो अभिव्यक्ति $S = \sum_k \sum_j r_k W_{kj} r_j\,$ लागू होता है. इस मामले में वजन आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के बराबर होना चाहिए)। सामान्य समीकरण तब हैं: $$\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.$$ इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है।

पैरामीटर त्रुटियां और सहसंबंध
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं $$\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. $$ इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण आव्युह के रूप मे एक अभिव्यक्ति टिप्पणियों में त्रुटियों से त्रुटि प्रसार के माध्यम से  प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के रूप मे  प्रसरण-सहप्रसरण आव्युह को एम के माध्यम से  और अनुमानित मापदंडों को एम के माध्यम से  निरूपित किया जाता हैβ. तब $$M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.$$

कब $W = M^{−1}$, इससे यह सहज हो जाता है $$M^\beta = \left(X^\textsf{T} W X\right)^{-1}.$$ जब इकाई भार का उपयोग किया जाता है ($W = I$, अभिज्ञान आव्युह), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और समस्त समान हैं: $M = σ^{2}I$, कहाँ $σ^{2}$ एक अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ2का अनुमान कम ची-वर्ग के माध्यम से लगाया जाता है $$\chi^2_\nu$$: $$\begin{align} M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\ \chi^2_\nu &= S/\nu, \end{align}$$ जहां S भारित #उद्देश्य फलन का न्यूनतम मान है: $$S = r^\textsf{T} W r = \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.$$ हर, $$\nu = n - m$$, स्वतंत्रता की डिग्री (सांख्यिकी) की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के रूप मे स्वतंत्रता की डिग्री (सांख्यिकी)#प्रभावी स्वतंत्रता की डिग्री देखें।

समस्त मामलों में, पैरामीटर अनुमान का विचरण $$\hat\beta_i$$ के माध्यम से दिया गया है $$M^\beta_{ii}$$ और पैरामीटर अनुमानों के मध्य  सहप्रसरण $$\hat\beta_i$$ और $$\hat\beta_j$$ के माध्यम से  दिया गया है $$M^\beta_{ij}$$. मानक विचलन विचरण का वर्गमूल है, $$\sigma_i = \sqrt{M^\beta_{ii}}$$, और सहसंबंध गुणांक के माध्यम से दिया गया है $$\rho_{ij} = M^\beta_{ij}/(\sigma_i \sigma_j)$$. ये त्रुटि अनुमान माप में केवल यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण बड़ी है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर पियर्सन उत्पाद-क्षण सहसंबंध गुणांक होते हैं।

पैरामीटर आत्मविश्वास सीमा
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर केंद्रीय सीमा प्रमेय के रूप मे आकर्षक माना जाता है - सामान्य वितरण#घटना और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के माध्य के साथ एक सामान्य वितरण से संबंधित है $$\sigma$$. उस धारणा के तहत इसकी अनुमानित मानक त्रुटि के संदर्भ में एकल स्केलर पैरामीटर अनुमान के रूप मे निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं $$se_{\beta}$$ (सामान्य न्यूनतम वर्ग#बड़े नमूना गुण दिए गए हैं):
 * 68% वह अंतराल $$\hat\beta \pm se_\beta$$ वास्तविक गुणांक मान शामिल है
 * 95% वह अंतराल $$\hat\beta \pm 2se_\beta$$ वास्तविक गुणांक मान शामिल है
 * 99% वह अंतराल $$\hat\beta \pm 2.5se_\beta$$ वास्तविक गुणांक मान शामिल है

यह धारणा अनुचित नहीं है जब n>>m। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर एन - एम डिग्री की स्वतंत्रता (सांख्यिकी) के साथ एक छात्र के टी-वितरण से संबंधित होंगे। जब n ≫ m छात्र का t-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये आत्मविश्वास सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को केवल एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे नमूनाकरण त्रुटि के अधीन हैं। जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के बारे में किसी भी धारणा की परवाह किए बिना, चेमध्य ेव की असमानता का उपयोग संभावनाओं की ऊपरी सीमा के रूप मे किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान  क्रमशः 100%, 25% और 11% हैं।

अवशिष्ट मान और सहसंबंध
सांख्यिकी में त्रुटियाँ एवं अवशेष किसके के माध्यम से किये गये प्रेक्षणों से सम्बन्धित हैं $$\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},$$ जहां H एक निष्क्रिय आव्युह है जिसे टोपी आव्युह के रूप में जाना जाता है: $$H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,$$ और I अभिज्ञान आव्युह है। अवशिष्टों का प्रसरण-सहप्रसरण आव्युह, एम rके माध्यम से दिया गया है $$M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.$$ इस प्रकार अवशेष सहसंबद्ध होते हैं, भले ही अवलोकन न हों।

कब $$W = M^{-1}$$, $$M^\mathbf{r} = (I - H) M.$$ जब भी आदर्श फलन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के बराबर होता है। अवशेषों के रूप मे  अभिव्यक्ति को बायीं ओर से X से गुणा करें$T$ में$T$: $$X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.$$ उदाहरण के रूप मे, कहें कि आदर्श का पहला पद एक स्थिरांक है, इसलिए $$X_{i1} = 1$$ सबके रूप मे मैं उस स्थिति में यह उसका अनुसरण करता है $$\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.$$ इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के बराबर है, आकस्मिक नहीं है, बल्कि आदर्श में स्थिर पद, α की उपस्थिति का परिणाम है।

यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशेषों और अवलोकनों के मध्य रैखिक संबंध के कारण, अवशेषों को भी ऐसा ही होना चाहिए, लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशेष एक छात्र के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक बड़ा प्रतीत होता है तो विद्यार्थीकृत अवशेष किसी बाह्य के रूप मे  सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।

यह भी देखें

 * न्यूनतम वर्गों को पुनरावृत्त रूप से पुनः भारित किया गया
 * विषमलैंगिकता-संगत मानक त्रुटियाँ
 * भारित माध्य