हेटेरोस्केडेस्टीसिटी -संगत मानक त्रुटियाँ

रेखीय प्रतिगमन और समय श्रृंखला विश्लेषण के संदर्भ में सांख्यिकी और अर्थमिति में विषमलैंगिकता-संगत (एचसी) मानक त्रुटियों का विषय उत्पन्न होता है। इन्हें विषमलैंगिकता-शक्तिशाली मानक त्रुटियां (या केवल शक्तिशाली मानक त्रुटियां), ईकर-ह्यूबर-श्वेत मानक त्रुटियां (ह्यूबर-श्वेत मानक त्रुटियां या श्वेत मानक त्रुटियां भी) के रूप में जाना जाता है। फ्रीडेलम इकर के योगदान को पहचानने के लिए, पीटर जे ह्यूबर, और हलबर्ट व्हाइट थे।

प्रतिगमन और समय-श्रृंखला मॉडलिंग में, मॉडल के मूल रूप इस धारणा का उपयोग करते हैं कि सभी अवलोकन बिंदुओं में त्रुटियां या अस्तव्यस्तता ui समान भिन्नता है। जब ऐसा नहीं होता है, तो त्रुटियों को विषमलैंगिक कहा जाता है, या विषमलैंगिकता होती है, और यह व्यवहार अवशिष्टों में परिलक्षित होगा एक फिटेड मॉडल से अनुमान लगाया गया है। विषमलैंगिकता-संगत मानक त्रुटियों का उपयोग उस मॉडल की फिटिंग की अनुमति देने के लिए किया जाता है। जिसमें विषमलैंगिक अवशेष होते हैं। इस तरह का पहला दृष्टिकोण ह्यूबर (1967) द्वारा प्रस्तावित किया गया था, और क्रॉस-सेक्शनल डेटा, समय श्रृंखला डेटा और गर्च के बाद से और उत्तम प्रक्रियाओं का उत्पादन किया गया है।

विषमलैंगिकता-संगत मानक त्रुटियाँ जो मौलिक मानक त्रुटियों से भिन्न होती हैं | मॉडल के गलत विवरण का संकेत दे सकती हैं। विषमलैंगिकता-संगत मानक त्रुटियों को प्रतिस्थापित करने से यह गलत विशिष्टता हल नहीं होती है। जिससे गुणांक में पूर्वाग्रह हो सकता है। अधिकतर स्थितियों में, समस्या को खोजना और सही करना चाहिए। अन्य प्रकार के मानक त्रुटि समायोजन, जैसे संकुलित मानक त्रुटियाँ या नेवी-वेस्ट एस्टिमेटर, को एचसी मानक त्रुटियों के विस्तार के रूप में माना जा सकता है।

इतिहास
फ्रिडेलम इकर द्वारा हेटेरोस्केडैस्टिकिटी-सुसंगत मानक त्रुटियां प्रस्तुत की जाती हैं, और हैल्बर्ट व्हाइट द्वारा अर्थमिति में लोकप्रिय किया गया था।

समस्या
स्केलर $$y$$ के लिए रेखीय प्रतिगमन मॉडल पर विचार करें।



y = \mathbf{x}^{\top} \boldsymbol{\beta} + \varepsilon, \, $$ जहाँ $$\mathbf{x}$$ व्याख्यात्मक चरों (विशेषताओं) का एक k x 1 स्तंभ सदिश है $$\boldsymbol{\beta}$$ अनुमानित किए जाने वाले मापदंडों का एक k × 1 स्तंभ सदिश है और $$\varepsilon$$ त्रुटियां और अवशेष है। सामान्य न्यूनतम वर्ग (ओएलएस) ) अनुमानक है।



\widehat \boldsymbol{\beta}_\mathrm{OLS} = (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}. \, $$ जहाँ $$\mathbf{y}$$ प्रेक्षणों $$y_i$$ का सदिश है, और $$\mathbf{X}$$ डेटा में देखे गए $$\mathbf{x}_i$$ मानों के ढेर के मैट्रिक्स को दर्शाता है।

यदि आँकड़ों में त्रुटियाँ समान भिन्नता $$\sigma^2$$ है और असहसंबद्ध हैं तो $$\boldsymbol{\beta}$$ का न्यूनतम-वर्ग अनुमान ब्लू (सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक) है और इसके भिन्नता का अनुमान लगाया गया है।


 * $$\hat{\mathbb{V}}\left[\widehat\boldsymbol\beta_\mathrm{OLS}\right] = s^2 (\mathbf{X}^{\top}\mathbf{X})^{-1}, \quad s^2 = \frac{\sum_i \widehat \varepsilon_i^2}{n-k} $$

जहाँ $$\widehat \varepsilon_i = y_i - \mathbf{x}_i^{\top} \widehat \boldsymbol{\beta}_\mathrm{OLS}$$ प्रतिगमन अवशेष हैं।

जब त्रुटि नियमो में निरंतर भिन्नता नहीं होती है (अर्थात,$$ \mathbb{E}[\mathbf{u}\mathbf{u}^{\top}] = \sigma^2 \mathbf{I}_n$$ की धारणा असत्य है), तो ओएलएस अनुमानक अपने वांछित गुणों को खो देता है। विचरण के सूत्र को अब सरल नहीं किया जा सकता है।


 * $$ \mathbb{V}\left[\widehat\boldsymbol\beta_\mathrm{OLS}\right] = \mathbb{V}\big[ (\mathbf{X}^{\top}\mathbf{X})^{-1} \mathbf{X}^{\top}\mathbf{y} \big] = (\mathbf{X}^{\top}\mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{\Sigma} \mathbf{X} (\mathbf{X}^{\top}\mathbf{X})^{-1}$$

जहां $$ \mathbf{\Sigma} = \mathbb{V}[\mathbf{u}].$$ जबकि ओएलएस बिंदु अनुमानक निष्पक्ष रहता है, यह न्यूनतम औसत वर्ग त्रुटि और ओएलएस भिन्नता अनुमानक होने के अर्थ में "सर्वश्रेष्ठ" नहीं है। $$\hat{\mathbb{V}} \left[ \widehat \boldsymbol{\beta}_\mathrm{OLS} \right]$$ ओएलएस अनुमानों के विचरण का एक सुसंगत अनुमान प्रदान नहीं करता है।

किसी भी गैर-रैखिक मॉडल (उदाहरण के लिए लॉगिट और प्रोबिट मॉडल) के लिए, चूँकि विषमलैंगिकता के अधिक गंभीर परिणाम होते हैं | मापदंडों का अधिकतम संभावना अनुमान पक्षपाती (अज्ञात दिशा में) होगा, साथ ही असंगत (जब तक कि संभावना कार्य संशोधित न हो) विषमलैंगिकता के स्पष्ट रूप को सही विधि से ध्यान में रखना) जैसा कि विलियम ग्रीन (अर्थशास्त्री) द्वारा इंगित किया गया है "अन्यथा असंगत अनुमानक के लिए केवल एक शक्तिशाली सहप्रसरण मैट्रिक्स की गणना करना इसे मोचन नहीं देता है।"

समाधान
यदि प्रतिगमन त्रुटियां $$\varepsilon_i$$ स्वतंत्र हैं, किन्तु उनके अलग-अलग $$\sigma^2_i$$ संस्करण हैं | तब $$\mathbf{\Sigma} = \operatorname{diag}(\sigma_1^2, \ldots, \sigma_n^2)$$ जिसका अनुमान $$\widehat\sigma_i^2 = \widehat \varepsilon_i^2$$ लगाया जा सकता है। यह व्हाइट का (1980) अनुमानक प्रदान करता है, जिसे अधिकांशतः एचसीई (विषमलैंगिकता-सुसंगत अनुमानक) के रूप में संदर्भित किया जाता है।



\begin{align} \hat{\mathbb{V}}_\text{HCE} \big[ \widehat \boldsymbol{\beta}_\text{OLS} \big] &= \frac{1}{n} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^\top \widehat{\varepsilon}_i^2 \bigg) \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \\ &= ( \mathbf{X}^{\top} \mathbf{X} )^{-1} ( \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X} ) ( \mathbf{X}^{\top} \mathbf{X})^{-1}, \end{align} $$ जहां उपरोक्त $$\mathbf{X}$$ डेटा से स्टैक्ड $$\mathbf{x}_i^{\top}$$ मानों के मैट्रिक्स को दर्शाता है। अनुमानक को क्षणों की सामान्यीकृत विधि (जीएमएम) के संदर्भ में प्राप्त किया जा सकता है।

इसके अतिरिक्त साहित्य में अधिकांशतः चर्चा की जाती है (व्हाइट के पेपर सहित) $$\widehat\mathbf{\Omega}_n$$ का सहप्रसरण मैट्रिक्स $$\sqrt{n}$$ संगत सीमित वितरण है।



\sqrt{n}(\widehat \boldsymbol{\beta}_n - \boldsymbol{\beta}) \, \xrightarrow{d} \, \mathcal{N}(\mathbf{0}, \mathbf{\Omega}), $$ जहाँ



\mathbf{\Omega} = \mathbb{E}[\mathbf{X} \mathbf{X}^{\top}]^{-1} \mathbb{V}[\mathbf{X} \boldsymbol{\varepsilon}]\operatorname \mathbb{E}[\mathbf{X} \mathbf{X}^{\top}]^{-1}, $$ और



\begin{align} \widehat\mathbf{\Omega}_n &= \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \widehat \varepsilon_i^2 \bigg) \bigg(\frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \bigg)^{-1} \\ &= n ( \mathbf{X}^{\top} \mathbf{X} )^{-1} ( \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X} ) ( \mathbf{X}^{\top} \mathbf{X})^{-1} \end{align} $$ इस प्रकार,



\widehat \mathbf{\Omega}_n = n \cdot \hat{\mathbb{V}}_\text{HCE}[\widehat \boldsymbol{\beta}_\text{OLS}] $$ और



\widehat \mathbb{V}[\mathbf{X} \boldsymbol{\varepsilon}] = \frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^{\top} \widehat \varepsilon_i^2 = \frac{1}{n} \mathbf{X}^{\top} \operatorname{diag}(\widehat \varepsilon_1^2, \ldots, \widehat \varepsilon_n^2) \mathbf{X}. $$ स्पष्ट रूप से कौन सा सहप्रसरण मैट्रिक्स चिंता का विषय है, यह संदर्भ का विषय है।

मैकिनॉन एंड व्हाइट (1985) में वैकल्पिक अनुमानक प्रस्तावित किए गए हैं | जो विभिन्न उत्तोलन (सांख्यिकी) के कारण प्रतिगमन अवशिष्टों के असमान प्रसरणों के लिए सही हैं। स्पर्शोन्मुख व्हाइट के अनुमानक के विपरीत, उनके अनुमानक निष्पक्ष होते हैं जब डेटा समरूपतावादी होते हैं।

व्यापक रूप से उपलब्ध चार अलग-अलग विकल्पों में से, जिन्हें अधिकांशतः HC0-HC3 के रूप में दर्शाया जाता है। HC3 विनिर्देश सबसे अच्छा काम करता प्रतीत होता है। अनुमानक HC3 पर निर्भर परीक्षणों में उत्तम शक्ति और लक्षित सांख्यिकीय परिकल्पना परीक्षण शब्दों की परिभाषा, विशेष रूप से छोटे में प्रतिरूप जितना बड़ा होगा, विभिन्न आकलनकर्ताओं के बीच का अंतर उतना ही कम होता है।

विषमलैंगिकता को स्पष्ट रूप से मॉडलिंग करने का एक विकल्प रीसैंपलिंग (सांख्यिकी) जैसे बूटस्ट्रैपिंग (सांख्यिकी) वाइल्ड बूटस्ट्रैप का उपयोग कर रहा है। यह देखते हुए कि बूटस्ट्रैप विश्वास अंतराल के लिए बूटस्ट्रैपिंग (सांख्यिकी) विधियाँ, जो अपनी मानक त्रुटि द्वारा पुनर्नमूना आँकड़ों को मानकीकृत करती है, एक स्पर्शोन्मुख शोधन प्राप्त करती है। विषमलैंगिकता-शक्तिशाली मानक त्रुटियाँ फिर भी उपयोगी हैं।

हेटेरोस्केडैस्टिक त्रुटियों के लिए लेखांकन के अतिरिक्त, अधिकांश रेखीय मॉडल को होमोस्केडैस्टिक त्रुटि नियमो में परिवर्तित किया जा सकता है (जब तक कि निर्माण द्वारा त्रुटि शब्द हेटेरोस्केडैस्टिक न हो, उदाहरण के लिए एक रैखिक संभावना मॉडल में)। ऐसा करने का एक विधि भारित कम से कम वर्गों का उपयोग करना है, जिसमें उत्तम दक्षता गुण भी सम्मिलित हैं।

यह भी देखें

 * डेल्टा विधि
 * सामान्यीकृत कम से कम वर्ग
 * सामान्यीकृत अनुमान समीकरण
 * भारित न्यूनतम वर्ग, एक वैकल्पिक सूत्रीकरण
 * श्वेत परीक्षण - विषमलैंगिकता मौजूद है या नहीं इसके लिए एक परीक्षण।
 * नेवी-वेस्ट एस्टिमेटर
 * अर्ध-अधिकतम संभावना अनुमान

सॉफ्टवेयर

 * ईव्यूज़: ईव्यूज़ संस्करण 8 शक्तिशाली कम से कम वर्गों के लिए तीन अलग-अलग विधियों की प्रस्तुति करता है: एम-अनुमान (ह्यूबर, 1973), एस-अनुमान (रूसीव और योहाई, 1984), और एमएम-अनुमान (योहाई 1987)।
 * जूलिया (प्रोग्रामिंग भाषा): द  पैकेज हेटेरोस्केडैस्टिक शक्तिशाली वैरियंस कोवैरियंस मैट्रिसेस के लिए कई विधि प्रदान करता है। * मैटलैब: देखें   इकोनोमेट्रिक्स टूलबॉक्स में कार्य करता है।
 * पायथन (प्रोग्रामिंग भाषा): स्टैट्समॉडल्स पैकेज विभिन्न शक्तिशाली मानक त्रुटि अनुमान प्रदान करता है, देखें statsmodels.regression.linear_model.RegressionResults आगे के विवरण के लिए
 * आर (प्रोग्रामिंग भाषा): द  से आदेश sandwich पैकेट।
 * रेट्स (सांख्यिकीय पैकेज): robusterrors विकल्प कई प्रतिगमन और अनुकूलन आदेशों में उपलब्ध है (linreg, nlls, वगैरह।)।
 * स्टाटा  विकल्प कई छद्म-संभावना आधारित प्रक्रियाओं में प्रयुक्त होता है।
 * ग्रेटल: विकल्प  कई अनुमान आदेशों के लिए (जैसे  ) क्रॉस-सेक्शनल डेटासेट के संदर्भ में शक्तिशाली मानक त्रुटियां उत्पन्न करता है।

अग्रिम पठन

 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf
 * Buja, Andreas, et al. "Models as approximations-a conspiracy of random regressors and model deviations against classical inference in regression." Statistical Science (2015): 1. pdf