हेटेरोस्केडेस्टीसिटी -संगत मानक त्रुटियाँ

रेखीय प्रतिगमन और समय श्रृंखला विश्लेषण के संदर्भ में सांख्यिकी और अर्थमिति में विषमलैंगिकता-संगत (एचसी) मानक त्रुटियों का विषय उत्पन्न होता है। इन्हें विषमलैंगिकता-मजबूत मानक त्रुटियां (या केवल मजबूत मानक त्रुटियां), ईकर-ह्यूबर-श्वेत मानक त्रुटियां (ह्यूबर-श्वेत मानक त्रुटियां या श्वेत मानक त्रुटियां भी) के रूप में जाना जाता है। फ्रीडेलम इकर के योगदान को पहचानने के लिए, पीटर जे ह्यूबर, और हलबर्ट व्हाइट। प्रतिगमन और समय-श्रृंखला मॉडलिंग में, मॉडल के मूल रूप इस धारणा का उपयोग करते हैं कि त्रुटियां या गड़बड़ी यूi सभी अवलोकन बिंदुओं में समान भिन्नता है। जब ऐसा नहीं होता है, तो त्रुटियों को विषमलैंगिक कहा जाता है, या विषमलैंगिकता होती है, और यह व्यवहार अवशिष्टों में परिलक्षित होगा एक फिटेड मॉडल से अनुमान लगाया गया है। विषमलैंगिकता-संगत मानक त्रुटियों का उपयोग उस मॉडल की फिटिंग की अनुमति देने के लिए किया जाता है जिसमें विषमलैंगिक अवशेष होते हैं। इस तरह का पहला दृष्टिकोण ह्यूबर (1967) द्वारा प्रस्तावित किया गया था, और क्रॉस-सेक्शनल डेटा,  समय श्रृंखला ़ डेटा और GARCH के बाद से और बेहतर प्रक्रियाओं का उत्पादन किया गया है।

विषमलैंगिकता-संगत मानक त्रुटियाँ जो शास्त्रीय मानक त्रुटियों से भिन्न होती हैं, मॉडल के गलत विवरण का संकेत दे सकती हैं। विषमलैंगिकता-संगत मानक त्रुटियों को प्रतिस्थापित करने से यह गलत विशिष्टता हल नहीं होती है, जिससे गुणांक में पूर्वाग्रह हो सकता है। ज्यादातर स्थितियों में, समस्या को ढूंढना और ठीक करना चाहिए। अन्य प्रकार के मानक त्रुटि समायोजन, जैसे संकुलित मानक त्रुटियाँ या Newey-West estimator, को HC मानक त्रुटियों के विस्तार के रूप में माना जा सकता है।

इतिहास
फ्रिडेलम इकर द्वारा हेटेरोस्केडैस्टिकिटी-सुसंगत मानक त्रुटियां पेश की जाती हैं, और हैल्बर्ट व्हाइट द्वारा अर्थमिति में लोकप्रिय किया गया।

समस्या
स्केलर के लिए रेखीय प्रतिगमन मॉडल पर विचार करें $$y$$.



y = \mathbf{x}^{\top} \boldsymbol{\beta} + \varepsilon, \, $$ कहाँ $$\mathbf{x}$$ व्याख्यात्मक चरों (विशेषताओं) का एक k x 1 स्तंभ सदिश है, $$\boldsymbol{\beta}$$ अनुमानित किए जाने वाले मापदंडों का एक k × 1 कॉलम वेक्टर है, और $$\varepsilon$$ त्रुटियां और अवशेष हैं।

साधारण न्यूनतम वर्ग (OLS) अनुमानक है



\widehat \boldsymbol{\beta}_\mathrm{OLS} = (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}. \, $$ कहाँ $$\mathbf{y}$$ अवलोकनों का एक वेक्टर है $$y_i$$, और $$\mathbf{X}$$ ढेर के मैट्रिक्स को दर्शाता है $$\mathbf{x}_i$$ डेटा में देखे गए मान।

यदि आँकड़ों में त्रुटियाँ और अवशेष समान विचरण करते हैं $$\sigma^2$$ और असंबद्ध हैं, तो सबसे कम-वर्गों का अनुमान $$\boldsymbol{\beta}$$ BLUE (सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक) है, और इसके विचरण का अनुमान लगाया गया है


 * $$\hat{\mathbb{V}}\left[\widehat\boldsymbol\beta_\mathrm{OLS}\right] = s^2 (\mathbf{X}^{\top}\mathbf{X})^{-1}, \quad s^2 = \frac{\sum_i \widehat \varepsilon_i^2}{n-k} $$

कहाँ $$\widehat \varepsilon_i = y_i - \mathbf{x}_i^{\top} \widehat \boldsymbol{\beta}_\mathrm{OLS}$$ प्रतिगमन अवशेष हैं।

जब त्रुटि शर्तों में निरंतर भिन्नता नहीं होती है (यानी, की धारणा $$ \mathbb{E}[\mathbf{u}\mathbf{u}^{\top}] = \sigma^2 \mathbf{I}_n$$ असत्य है), तो OLS अनुमानक अपने वांछित गुणों को खो देता है। विचरण के सूत्र को अब सरल नहीं किया जा सकता है:


 * $$ \mathbb{V}\left[\widehat\boldsymbol\beta_\mathrm{OLS}\right] = \mathbb{V}\big[ (\mathbf{X}^{\top}\mathbf{X})^{-1} \mathbf{X}^{\top}\mathbf{y} \big] = (\mathbf{X}^{\top}\mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{\Sigma} \mathbf{X} (\mathbf{X}^{\top}\mathbf{X})^{-1}$$

कहाँ $$ \mathbf{\Sigma} = \mathbb{V}[\mathbf{u}].$$ जबकि OLS बिंदु अनुमानक निष्पक्ष रहता है, न्यूनतम औसत वर्ग त्रुटि होने के अर्थ में यह सर्वोत्तम नहीं है, और OLS भिन्नता अनुमानक $$\hat{\mathbb{V}} \left[ \widehat \boldsymbol{\beta}_\mathrm{OLS} \right]$$ OLS अनुमानों के प्रसरण का एक सुसंगत अनुमान प्रदान नहीं करता है।

किसी भी गैर-रैखिक मॉडल (उदाहरण के लिए logit  और  probit  मॉडल) के लिए, हालांकि, विषमलैंगिकता के अधिक गंभीर परिणाम हैं: मापदंडों का अधिकतम संभावना अनुमान पक्षपाती (अज्ञात दिशा में) होगा, साथ ही साथ असंगत (जब तक कि संभावना कार्य न हो) विषमलैंगिकता के सटीक रूप को सही ढंग से ध्यान में रखने के लिए संशोधित)।  जैसा कि विलियम ग्रीन (अर्थशास्त्री) द्वारा बताया गया है, "अन्यथा असंगत अनुमानक के लिए केवल एक मजबूत सहप्रसरण मैट्रिक्स की गणना करना इसे मोचन नहीं देता है।"

समाधान
यदि प्रतिगमन त्रुटियां $$\varepsilon_i$$ स्वतंत्र हैं, लेकिन उनके अलग-अलग संस्करण हैं $$\sigma^2_i$$, तब $$\mathbf{\Sigma} = \operatorname{diag}(\sigma_1^2, \ldots, \sigma_n^2)$$ जिसका अंदाजा लगाया जा सकता है $$\widehat\sigma_i^2 = \widehat \varepsilon_i^2$$. यह व्हाइट का (1980) अनुमानक प्रदान करता है, जिसे अक्सर एचसीई (विषमलैंगिकता-सुसंगत अनुमानक) के रूप में संदर्भित किया जाता है:



\begin{align} \hat{\mathbb{V}}_\text{HCE} \big[ \widehat \boldsymbol{\beta}_\text{OLS} \big] &= \frac{1}{n} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^\top \widehat{\varepsilon}_i^2 \bigg) \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \\ &= ( \mathbf{X}^{\top} \mathbf{X} )^{-1} ( \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X} ) ( \mathbf{X}^{\top} \mathbf{X})^{-1}, \end{align} $$ जहां ऊपर के रूप में $$\mathbf{X}$$ ढेर के मैट्रिक्स को दर्शाता है $$\mathbf{x}_i^{\top}$$ डेटा से मान। अनुमानक को क्षणों की सामान्यीकृत विधि (जीएमएम) के संदर्भ में प्राप्त किया जा सकता है।

साथ ही साहित्य में अक्सर चर्चा की जाती है (व्हाइट के पेपर सहित) कॉन्वर्सिस मैट्रिक्स है $$\widehat\mathbf{\Omega}_n$$ की $$\sqrt{n}$$-संगत सीमित वितरण:



\sqrt{n}(\widehat \boldsymbol{\beta}_n - \boldsymbol{\beta}) \, \xrightarrow{d} \, \mathcal{N}(\mathbf{0}, \mathbf{\Omega}), $$ कहाँ



\mathbf{\Omega} = \mathbb{E}[\mathbf{X} \mathbf{X}^{\top}]^{-1} \mathbb{V}[\mathbf{X} \boldsymbol{\varepsilon}]\operatorname \mathbb{E}[\mathbf{X} \mathbf{X}^{\top}]^{-1}, $$ और



\begin{align} \widehat\mathbf{\Omega}_n &= \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \widehat \varepsilon_i^2 \bigg) \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \\ &= n ( \mathbf{X}^{\top} \mathbf{X} )^{-1} ( \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X} ) ( \mathbf{X}^{\top} \mathbf{X})^{-1} \end{align} $$ इस प्रकार,



\widehat \mathbf{\Omega}_n = n \cdot \hat{\mathbb{V}}_\text{HCE}[\widehat \boldsymbol{\beta}_\text{OLS}] $$ और



\widehat \mathbb{V}[\mathbf{X} \boldsymbol{\varepsilon}] = \frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \widehat \varepsilon_i^2 = \frac{1}{n} \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X}. $$ सटीक रूप से कौन सा सहप्रसरण मैट्रिक्स चिंता का विषय है, यह संदर्भ का विषय है।

MacKinnon & White (1985) में वैकल्पिक अनुमानक प्रस्तावित किए गए हैं जो विभिन्न उत्तोलन (सांख्यिकी) के कारण प्रतिगमन अवशिष्टों के असमान प्रसरणों के लिए सही हैं। स्पर्शोन्मुख व्हाइट के अनुमानक के विपरीत, उनके अनुमानक निष्पक्ष होते हैं जब डेटा समरूपतावादी होते हैं।

व्यापक रूप से उपलब्ध चार अलग-अलग विकल्पों में से, जिन्हें अक्सर HC0-HC3 के रूप में दर्शाया जाता है, HC3 विनिर्देश सबसे अच्छा काम करता प्रतीत होता है, HC3 अनुमानक पर निर्भर परीक्षणों में बेहतर शक्ति और लक्षित सांख्यिकीय परिकल्पना परीक्षण # शब्दों की परिभाषा, विशेष रूप से छोटे में नमूने। नमूना जितना बड़ा होगा, विभिन्न आकलनकर्ताओं के बीच का अंतर उतना ही कम होगा। विषमलैंगिकता को स्पष्ट रूप से मॉडलिंग करने का एक विकल्प रीसैंपलिंग (सांख्यिकी) जैसे बूटस्ट्रैपिंग (सांख्यिकी)#वाइल्ड बूटस्ट्रैप का उपयोग कर रहा है। यह देखते हुए कि बूटस्ट्रैप विश्वास अंतराल के लिए बूटस्ट्रैपिंग (सांख्यिकी) # विधियाँ, जो अपनी मानक त्रुटि द्वारा पुनर्नमूना आँकड़ों को मानकीकृत करती है, एक स्पर्शोन्मुख शोधन प्राप्त करती है, विषमलैंगिकता-मजबूत मानक त्रुटियाँ फिर भी उपयोगी हैं।

हेटेरोस्केडैस्टिक त्रुटियों के लिए लेखांकन के बजाय, अधिकांश रेखीय मॉडल को होमोस्केडैस्टिक त्रुटि शर्तों में परिवर्तित किया जा सकता है (जब तक कि निर्माण द्वारा त्रुटि शब्द हेटेरोस्केडैस्टिक न हो, उदाहरण के लिए एक रैखिक संभावना मॉडल में)। ऐसा करने का एक तरीका भारित कम से कम वर्गों का उपयोग करना है, जिसमें बेहतर दक्षता गुण भी शामिल हैं।

यह भी देखें

 * डेल्टा विधि
 * सामान्यीकृत कम से कम वर्ग
 * सामान्यीकृत अनुमान समीकरण
 * भारित न्यूनतम वर्ग, एक वैकल्पिक सूत्रीकरण
 * श्वेत परीक्षण - विषमलैंगिकता मौजूद है या नहीं इसके लिए एक परीक्षण।
 * नेवी-वेस्ट एस्टिमेटर
 * अर्ध-अधिकतम संभावना अनुमान

सॉफ्टवेयर

 * EViews: EViews संस्करण 8 मजबूत कम से कम वर्गों के लिए तीन अलग-अलग तरीकों की पेशकश करता है: एम-अनुमान (ह्यूबर, 1973), एस-अनुमान (रूसीव और योहाई, 1984), और एमएम-अनुमान (योहाई 1987)।
 * जूलिया (प्रोग्रामिंग भाषा): द  पैकेज हेटेरोस्केडैस्टिक मजबूत वैरियंस कोवैरियंस मैट्रिसेस के लिए कई तरीके प्रदान करता है। * MATLAB: देखें   इकोनोमेट्रिक्स टूलबॉक्स में कार्य करता है।
 * पायथन (प्रोग्रामिंग भाषा): Statsmodel पैकेज विभिन्न मजबूत मानक त्रुटि अनुमान प्रदान करता है, देखें statsmodels.regression.linear_model.RegressionResults आगे के विवरण के लिए
 * आर (प्रोग्रामिंग भाषा): द  से आदेश sandwich पैकेट।
 * RATS (सांख्यिकीय पैकेज): robusterrors विकल्प कई प्रतिगमन और अनुकूलन आदेशों में उपलब्ध है (linreg, nlls, वगैरह।)।
 * था:  विकल्प कई छद्म-संभावना आधारित प्रक्रियाओं में लागू होता है।
 * ग्रेटल: विकल्प  कई अनुमान आदेशों के लिए (जैसे  ) क्रॉस-सेक्शनल डेटासेट के संदर्भ में मजबूत मानक त्रुटियां पैदा करता है।

अग्रिम पठन

 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf