हेटेरोस्केडेस्टीसिटी -संगत मानक त्रुटियाँ

रेखीय प्रतिगमन और समय श्रृंखला विश्लेषण के संदर्भ में सांख्यिकी और अर्थमिति में हेटेरोस्केडेस्टीसिटी -संगत (एचसी) मानक त्रुटियों का विषय उत्पन्न होता है। इन्हें हेटेरोस्केडेस्टीसिटी -शक्तिशाली मानक त्रुटियां (या केवल शक्तिशाली मानक त्रुटियां), ईकर-ह्यूबर-श्वेत मानक त्रुटियां (ह्यूबर-श्वेत मानक त्रुटियां या श्वेत मानक त्रुटियां भी) के रूप में जाना जाता है। फ्रीडेलम इकर के योगदान को पहचानने के लिए, पीटर जे ह्यूबर, और हलबर्ट व्हाइट थे।

प्रतिगमन और समय-श्रृंखला मॉडलिंग में, मॉडल के मूल रूप इस धारणा का उपयोग करते हैं कि सभी अवलोकन बिंदुओं में त्रुटियां या अस्तव्यस्तता ui समान भिन्नता है। जब ऐसा नहीं होता है, तो त्रुटियों को विषमलैंगिक कहा जाता है, या हेटेरोस्केडेस्टीसिटी होती है, और यह व्यवहार अवशिष्टों में परिलक्षित होगा  एक फिटेड मॉडल से अनुमान लगाया गया है। हेटेरोस्केडेस्टीसिटी -संगत मानक त्रुटियों का उपयोग उस मॉडल की फिटिंग की अनुमति देने के लिए किया जाता है। जिसमें विषमलैंगिक अवशेष होते हैं। इस तरह का पहला दृष्टिकोण ह्यूबर (1967) द्वारा प्रस्तावित किया गया था, और क्रॉस-सेक्शनल डेटा, समय श्रृंखला डेटा और गर्च के बाद से और उत्तम प्रक्रियाओं का उत्पादन किया गया है।

हेटेरोस्केडेस्टीसिटी -संगत मानक त्रुटियाँ जो मौलिक मानक त्रुटियों से भिन्न होती हैं | मॉडल के गलत विवरण का संकेत दे सकती हैं। हेटेरोस्केडेस्टीसिटी -संगत मानक त्रुटियों को प्रतिस्थापित करने से यह गलत विशिष्टता हल नहीं होती है। जिससे गुणांक में पूर्वाग्रह हो सकता है। अधिकतर स्थितियों में, समस्या को खोजना और सही करना चाहिए। अन्य प्रकार के मानक त्रुटि समायोजन, जैसे संकुलित मानक त्रुटियाँ या नेवी-वेस्ट एस्टिमेटर, को एचसी मानक त्रुटियों के विस्तार के रूप में माना जा सकता है।

इतिहास
फ्रिडेलम इकर द्वारा हेटेरोस्केडैस्टिकिटी-सुसंगत मानक त्रुटियां प्रस्तुत की जाती हैं, और हैल्बर्ट व्हाइट द्वारा अर्थमिति में लोकप्रिय किया गया था।

समस्या
स्केलर $$y$$ के लिए रेखीय प्रतिगमन मॉडल पर विचार करें।



y = \mathbf{x}^{\top} \boldsymbol{\beta} + \varepsilon, \, $$ जहाँ $$\mathbf{x}$$ व्याख्यात्मक चरों (विशेषताओं) का एक k x 1 स्तंभ सदिश है $$\boldsymbol{\beta}$$ अनुमानित किए जाने वाले मापदंडों का एक k × 1 स्तंभ सदिश है और $$\varepsilon$$ त्रुटियां और अवशेष है। सामान्य न्यूनतम वर्ग (ओएलएस) ) अनुमानक है।



\widehat \boldsymbol{\beta}_\mathrm{OLS} = (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}. \, $$ जहाँ $$\mathbf{y}$$ प्रेक्षणों $$y_i$$ का सदिश है, और $$\mathbf{X}$$ डेटा में देखे गए $$\mathbf{x}_i$$ मानों के ढेर के मैट्रिक्स को दर्शाता है।

यदि आँकड़ों में त्रुटियाँ समान भिन्नता $$\sigma^2$$ है और असहसंबद्ध हैं तो $$\boldsymbol{\beta}$$ का न्यूनतम-वर्ग अनुमान ब्लू (सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक) है और इसके भिन्नता का अनुमान लगाया गया है।


 * $$\hat{\mathbb{V}}\left[\widehat\boldsymbol\beta_\mathrm{OLS}\right] = s^2 (\mathbf{X}^{\top}\mathbf{X})^{-1}, \quad s^2 = \frac{\sum_i \widehat \varepsilon_i^2}{n-k} $$

जहाँ $$\widehat \varepsilon_i = y_i - \mathbf{x}_i^{\top} \widehat \boldsymbol{\beta}_\mathrm{OLS}$$ प्रतिगमन अवशेष हैं।

जब त्रुटि नियमो में निरंतर भिन्नता नहीं होती है (अर्थात,$$ \mathbb{E}[\mathbf{u}\mathbf{u}^{\top}] = \sigma^2 \mathbf{I}_n$$ की धारणा असत्य है), तो ओएलएस अनुमानक अपने वांछित गुणों को खो देता है। विचरण के सूत्र को अब सरल नहीं किया जा सकता है।


 * $$ \mathbb{V}\left[\widehat\boldsymbol\beta_\mathrm{OLS}\right] = \mathbb{V}\big[ (\mathbf{X}^{\top}\mathbf{X})^{-1} \mathbf{X}^{\top}\mathbf{y} \big] = (\mathbf{X}^{\top}\mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{\Sigma} \mathbf{X} (\mathbf{X}^{\top}\mathbf{X})^{-1}$$

जहां $$ \mathbf{\Sigma} = \mathbb{V}[\mathbf{u}].$$ जबकि ओएलएस बिंदु अनुमानक निष्पक्ष रहता है, यह न्यूनतम औसत वर्ग त्रुटि और ओएलएस भिन्नता अनुमानक होने के अर्थ में "सर्वश्रेष्ठ" नहीं है। $$\hat{\mathbb{V}} \left[ \widehat \boldsymbol{\beta}_\mathrm{OLS} \right]$$ ओएलएस अनुमानों के विचरण का एक सुसंगत अनुमान प्रदान नहीं करता है।

किसी भी गैर-रैखिक मॉडल (उदाहरण के लिए लॉगिट और प्रोबिट मॉडल) के लिए, चूँकि हेटेरोस्केडेस्टीसिटी के अधिक गंभीर परिणाम होते हैं | मापदंडों का अधिकतम संभावना अनुमान पक्षपाती (अज्ञात दिशा में) होगा, साथ ही असंगत (जब तक कि संभावना कार्य संशोधित न हो) हेटेरोस्केडेस्टीसिटी  के स्पष्ट रूप को सही विधि से ध्यान में रखना)  जैसा कि विलियम ग्रीन (अर्थशास्त्री) द्वारा इंगित किया गया है "अन्यथा असंगत अनुमानक के लिए केवल एक शक्तिशाली सहप्रसरण मैट्रिक्स की गणना करना इसे मोचन नहीं देता है।"

समाधान
यदि प्रतिगमन त्रुटियां $$\varepsilon_i$$ स्वतंत्र हैं, किन्तु उनके अलग-अलग $$\sigma^2_i$$ संस्करण हैं | तब $$\mathbf{\Sigma} = \operatorname{diag}(\sigma_1^2, \ldots, \sigma_n^2)$$ जिसका अनुमान $$\widehat\sigma_i^2 = \widehat \varepsilon_i^2$$ लगाया जा सकता है। यह व्हाइट का (1980) अनुमानक प्रदान करता है, जिसे अधिकांशतः एचसीई (हेटेरोस्केडेस्टीसिटी -सुसंगत अनुमानक) के रूप में संदर्भित किया जाता है।



\begin{align} \hat{\mathbb{V}}_\text{HCE} \big[ \widehat \boldsymbol{\beta}_\text{OLS} \big] &= \frac{1}{n} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^\top \widehat{\varepsilon}_i^2 \bigg) \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \\ &= ( \mathbf{X}^{\top} \mathbf{X} )^{-1} ( \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X} ) ( \mathbf{X}^{\top} \mathbf{X})^{-1}, \end{align} $$ जहां उपरोक्त $$\mathbf{X}$$ डेटा से स्टैक्ड $$\mathbf{x}_i^{\top}$$ मानों के मैट्रिक्स को दर्शाता है। अनुमानक को क्षणों की सामान्यीकृत विधि (जीएमएम) के संदर्भ में प्राप्त किया जा सकता है।

इसके अतिरिक्त साहित्य में अधिकांशतः चर्चा की जाती है (व्हाइट के पेपर सहित) $$\widehat\mathbf{\Omega}_n$$ का सहप्रसरण मैट्रिक्स $$\sqrt{n}$$ संगत सीमित वितरण है।



\sqrt{n}(\widehat \boldsymbol{\beta}_n - \boldsymbol{\beta}) \, \xrightarrow{d} \, \mathcal{N}(\mathbf{0}, \mathbf{\Omega}), $$ जहाँ



\mathbf{\Omega} = \mathbb{E}[\mathbf{X} \mathbf{X}^{\top}]^{-1} \mathbb{V}[\mathbf{X} \boldsymbol{\varepsilon}]\operatorname \mathbb{E}[\mathbf{X} \mathbf{X}^{\top}]^{-1}, $$ और



\begin{align} \widehat\mathbf{\Omega}_n &= \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \widehat \varepsilon_i^2 \bigg) \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \\ &= n ( \mathbf{X}^{\top} \mathbf{X} )^{-1} ( \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X} ) ( \mathbf{X}^{\top} \mathbf{X})^{-1} \end{align} $$ इस प्रकार,



\widehat \mathbf{\Omega}_n = n \cdot \hat{\mathbb{V}}_\text{HCE}[\widehat \boldsymbol{\beta}_\text{OLS}] $$ और



\widehat \mathbb{V}[\mathbf{X} \boldsymbol{\varepsilon}] = \frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \widehat \varepsilon_i^2 = \frac{1}{n} \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X}. $$ स्पष्ट रूप से कौन सा सहप्रसरण मैट्रिक्स चिंता का विषय है, यह संदर्भ का विषय है।

मैकिनॉन एंड व्हाइट (1985) में वैकल्पिक अनुमानक प्रस्तावित किए गए हैं | जो विभिन्न उत्तोलन (सांख्यिकी) के कारण प्रतिगमन अवशिष्टों के असमान प्रसरणों के लिए सही हैं। स्पर्शोन्मुख व्हाइट के अनुमानक के विपरीत, उनके अनुमानक निष्पक्ष होते हैं जब डेटा समरूपतावादी होते हैं।

व्यापक रूप से उपलब्ध चार अलग-अलग विकल्पों में से, जिन्हें अधिकांशतः HC0-HC3 के रूप में दर्शाया जाता है। HC3 विनिर्देश सबसे अच्छा काम करता प्रतीत होता है। अनुमानक HC3 पर निर्भर परीक्षणों में उत्तम शक्ति और लक्षित सांख्यिकीय परिकल्पना परीक्षण शब्दों की परिभाषा, विशेष रूप से छोटे में प्रतिरूप जितना बड़ा होगा, विभिन्न आकलनकर्ताओं के बीच का अंतर उतना ही कम होता है।

हेटेरोस्केडेस्टीसिटी को स्पष्ट रूप से मॉडलिंग करने का एक विकल्प रीसैंपलिंग (सांख्यिकी) जैसे बूटस्ट्रैपिंग (सांख्यिकी) वाइल्ड बूटस्ट्रैप का उपयोग कर रहा है। यह देखते हुए कि बूटस्ट्रैप विश्वास अंतराल के लिए बूटस्ट्रैपिंग (सांख्यिकी) विधियाँ, जो अपनी मानक त्रुटि द्वारा पुनर्नमूना आँकड़ों को मानकीकृत करती है, एक स्पर्शोन्मुख शोधन प्राप्त करती है। हेटेरोस्केडेस्टीसिटी -शक्तिशाली मानक त्रुटियाँ फिर भी उपयोगी हैं।

हेटेरोस्केडैस्टिक त्रुटियों के लिए लेखांकन के अतिरिक्त, अधिकांश रेखीय मॉडल को होमोस्केडैस्टिक त्रुटि नियमो में परिवर्तित किया जा सकता है (जब तक कि निर्माण द्वारा त्रुटि शब्द हेटेरोस्केडैस्टिक न हो, उदाहरण के लिए एक रैखिक संभावना मॉडल में)। ऐसा करने का एक विधि भारित कम से कम वर्गों का उपयोग करना है, जिसमें उत्तम दक्षता गुण भी सम्मिलित हैं।

यह भी देखें

 * डेल्टा विधि
 * सामान्यीकृत कम से कम वर्ग
 * सामान्यीकृत अनुमान समीकरण
 * भारित न्यूनतम वर्ग, एक वैकल्पिक सूत्रीकरण
 * श्वेत परीक्षण - विषमलैंगिकता मौजूद है या नहीं इसके लिए एक परीक्षण।
 * नेवी-वेस्ट एस्टिमेटर
 * अर्ध-अधिकतम संभावना अनुमान

सॉफ्टवेयर

 * ईव्यूज़: ईव्यूज़ संस्करण 8 शक्तिशाली कम से कम वर्गों के लिए तीन अलग-अलग विधियों की प्रस्तुति करता है: एम-अनुमान (ह्यूबर, 1973), एस-अनुमान (रूसीव और योहाई, 1984), और एमएम-अनुमान (योहाई 1987)।
 * जूलिया (प्रोग्रामिंग भाषा): द  पैकेज हेटेरोस्केडैस्टिक शक्तिशाली वैरियंस कोवैरियंस मैट्रिसेस के लिए कई विधि प्रदान करता है। * मैटलैब: देखें   इकोनोमेट्रिक्स टूलबॉक्स में कार्य करता है।
 * पायथन (प्रोग्रामिंग भाषा): स्टैट्समॉडल्स पैकेज विभिन्न शक्तिशाली मानक त्रुटि अनुमान प्रदान करता है, देखें statsmodels.regression.linear_model.RegressionResults आगे के विवरण के लिए
 * आर (प्रोग्रामिंग भाषा): द  से आदेश sandwich पैकेट।
 * रेट्स (सांख्यिकीय पैकेज): robusterrors विकल्प कई प्रतिगमन और अनुकूलन आदेशों में उपलब्ध है (linreg, nlls, वगैरह।)।
 * स्टाटा  विकल्प कई छद्म-संभावना आधारित प्रक्रियाओं में प्रयुक्त होता है।
 * ग्रेटल: विकल्प  कई अनुमान आदेशों के लिए (जैसे  ) क्रॉस-सेक्शनल डेटासेट के संदर्भ में शक्तिशाली मानक त्रुटियां उत्पन्न करता है।

अग्रिम पठन

 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf