एरर-इन-वैरिएबल मॉडल

डेटा में, एरर-इन-वैरिएबल मॉडल या माप त्रुटि मॉडल प्रतिगमन मॉडल हैं जो स्वतंत्र चर में माप त्रुटियों के लिए खाते हैं। इसके विपरीत, मानक प्रतिगमन मॉडल मानते हैं कि उन प्रतिगमनकर्ताओं को यथार्थ रूप से मापा गया है, या त्रुटि के बिना प्रेक्षित किया गया है; जैसे, वे मॉडल मात्र निर्भर चर, या प्रतिक्रियाओं में त्रुटियों के लिए खाते हैं।

ऐसी स्थिति में जब कुछ रजिस्टरों को त्रुटियों के साथ मापा गया है, मानक धारणा के आधार पर अनुमान निरंतर अनुमानक अनुमानों की ओर जाता है, जिसका अर्थ है कि पैरामीटर अनुमान बहुत बड़े प्रतिदर्शों में भी सत्य मानों की ओर नहीं जाते हैं। सरल रेखीय प्रतिगमन के लिए प्रभाव गुणांक का कम अनुमान है, जिसे क्षीणन पूर्वाग्रह के रूप में जाना जाता है। अरैखिक प्रतिरूपण में पूर्वाग्रह की दिशा अधिक जटिल होने की संभावना है।

प्रेरक उदाहरण
रूप

y_{t} = \alpha + \beta x_{t}^{*} + \varepsilon_t\,, \quad t=1,\ldots,T, $$ के एक साधारण रेखीय प्रतिगमन मॉडल पर विचार करें जहां $$x_{t}^{*}$$ सत्य परन्तु अव्यक्त चर को दर्शाता है। इसके अतिरिक्त हम इस मान को एक त्रुटि के साथ प्रेक्षित करते हैं:

x_{t} = x_{t}^{*} + \eta_{t}\, $$ जहां माप त्रुटि $$\eta_{t}$$ को वास्तविक मान $$x_{t}^{*}$$ से स्वतंत्र माना जाता है।

यदि $$y_{t}$$मात्र $$x_{t}$$ पर प्रतिगमन किया जाता है(सरल रेखीय प्रतिगमन देखें), तो प्रवणता गुणांक के लिए अनुमानक

\hat{\beta} = \frac{\tfrac{1}{T}\sum_{t=1}^T(x_t-\bar{x})(y_t-\bar{y})} {\tfrac{1}{T}\sum_{t=1}^T(x_t-\bar{x})^2}\,, $$ है, जो प्रतिदर्श आकार के रूप में अभिसरण करता है $$T$$ बिना सीमा के बढ़ता है:

\hat{\beta} \xrightarrow{p} \frac{\operatorname{Cov}[\,x_t,y_t\,]}{\operatorname{Var}[\,x_t\,]} = \frac{\beta \sigma^2_{x^*}} {\sigma_{x^*}^2 + \sigma_\eta^2} = \frac{\beta} {1 + \sigma_\eta^2/\sigma_{x^*}^2}\,. $$ प्रसरण गैर-ऋणात्मक होते हैं, इसलिए सीमा में अनुमान $$\beta$$ के वास्तविक मान की तुलना में परिमाण में छोटा होता है, एक प्रभाव जिसे सांख्यिकीविद् क्षीणन या प्रतिगमन तनुता कहते हैं। इस प्रकार 'अनुभवहीन ' कम से कम वर्ग अनुमानक इस व्यवस्था में सुसंगत अनुमानक है। यद्यपि, अनुमानक $$y$$ दिए गए $$x$$ के सर्वश्रेष्ठ रैखिक भविष्यवक्ता के लिए आवश्यक पैरामीटर का एक सुसंगत अनुमानक है: कुछ अनुप्रयोगों में यह वही हो सकता है जो 'सत्य' प्रतिगमन गुणांक के अनुमान के अतिरिक्त आवश्यक हो, यद्यपि यह मान लिया जाएगा कि $$x^{*}$$ प्रेक्षित करने में त्रुटियों का विचलन स्थिर रहता है। यह तुरंत ऊपर उद्धृत परिणाम से सीधे आता है, और तथ्य यह है कि $$y_{t}$$ से संबंधित प्रतिगमन गुणांक वस्तुतः प्रेक्षित किया गया $$x_{t}$$, एक साधारण रेखीय प्रतिगमन में,

\beta_x =     \frac{\operatorname{Cov}[\,x_t,y_t\,]}{\operatorname{Var}[\,x_t\,]} $$ द्वारा दिया जाता है। यह गुणांक है, $$\beta$$ के अतिरिक्त, जो एक प्रेक्षित $$x$$ के आधार पर $$y$$ के भविष्यवक्ता के निर्माण के लिए आवश्यक होगा जो शोर के अधीन है।

यह तर्क दिया जा सकता है कि लगभग सभी वर्तमान डेटा समूह में विभिन्न प्रकृति और परिमाण की त्रुटियां होती हैं, जिससे कि क्षीणन पूर्वाग्रह बहुत बार-बार होता है(यद्यपि बहुभिन्नरूपी प्रतिगमन में पूर्वाग्रह की दिशा अस्पष्ट है )। जेरी हॉसमैन इसे अर्थमिति के लोहे के नियम के रूप में प्रेक्षित करते हैं: अनुमान का परिमाण सामान्यतः अपेक्षा से छोटा होता है।

विशिष्टता
सामान्यतः माप त्रुटि मॉडल को अव्यक्त चर मॉडल दृष्टिकोण का उपयोग करके वर्णित किया जाता है। यदि $$y$$ प्रतिक्रिया चर है और $$x$$ प्रतिगमनकर्ताओं के प्रेक्षित मान हैं, तो यह माना जाता है कि कुछ अव्यक्त चर $$y^{*}$$ और $$x^{*}$$स्थित हैं जो मॉडल के "सत्य " फलन(गणित) $$g(\cdot)$$ का अनुसरण करते हैं, और ऐसी प्रेक्षित मात्राएँ उनके शोर अवलोकन हैं:
 * $$\begin{cases}

y^* = g(x^*\!,w\,|\,\theta),\\ y = y^{*} + \varepsilon, \\ x = x^{*} + \eta, \end{cases}$$ जहां $$\theta$$ मॉडल का पैरामीटर है और $$w$$ वे प्रतिगामी हैं जिन्हें त्रुटि-मुक्त माना जाता है(उदाहरण के लिए जब रैखिक प्रतिगमन में एक अवरोधन होता है, तो स्थिरांक से संबंधित प्रतिगामी में निश्चित रूप से कोई माप त्रुटि नहीं होती है)। विशिष्टताओं के आधार पर इन त्रुटि रहित रजिस्टरों के साथ अलग से व्यवहार किया जा सकता है या नहीं भी किया जा सकता है; बाद की स्थिति में यह मात्र माना जाता है कि $$\eta$$ के प्रसरण आव्यूह में संबंधित प्रविष्टियाँ शून्य हैं।

चर $$y$$, $$x$$, $$w$$ सभी प्रेक्षित हैं, जिसका अर्थ है कि सांख्यिकीविद के समीप $$n$$ सांख्यिकीय इकाइयों $$\left\{ y_{i}, x_{i}, w_{i} \right\}_{i = 1, \dots, n}$$ का डेटा समूह है जो ऊपर वर्णित डेटा संग्रह का पालन करता है; यद्यपि अव्यक्त चर $$x^*$$, $$y^*$$, $$\varepsilon$$, और $$\eta$$ नहीं प्रेक्षित हैं।

यह विनिर्देश सभी वर्तमान त्रुटियों-में-चर मॉडल को सम्मिलित नहीं करता है। उदाहरण के लिए उनमें से कुछ में फलन$$g(\cdot)$$ गैर-पैरामीट्रिक या अर्ध-पैरामीट्रिक डेटा हो सकते हैं। अन्य दृष्टिकोण कार्यात्मक के अतिरिक्त वितरणात्मक के रूप में $$y^*$$ और $$x^*$$ के बीच संबंध को मॉडल करते हैं, अर्थात वे मानते हैं कि $$y^*$$ सप्रतिबन्ध $$x^*$$ पर एक निश्चित(सामान्यतः पैरामीट्रिक) वितरण का अनुसरण करता है।

शब्दावली और धारणाएं

 * प्रेक्षित चर $$x$$ को प्रकट, संकेतक, या प्रॉक्सी(सांख्यिकी) चर कहा जा सकता है।
 * अप्रेक्षित चर $$x^*$$ अव्यक्त या सत्य चर कहा जा सकता है। इसे या तो एक अज्ञात स्थिरांक के रूप में माना जा सकता है(जिस स्थिति में मॉडल को एक कार्यात्मक मॉडल कहा जाता है), या एक यादृच्छिक चर(तदनुसार एक संरचनात्मक मॉडल) के रूप में।
 * माप त्रुटि के बीच संबंध $$\eta$$ और अव्यक्त चर $$x^*$$ अलग-अलग विधियों से मॉडलिंग की जा सकती है:
 * शास्त्रीय त्रुटियां: $$\eta \perp x^*$$ त्रुटियां अव्यक्त चर की स्वतंत्रता(संभाव्यता सिद्धांत) हैं। यह सबसे सामान्य धारणा है, इसका तात्पर्य है कि मापने वाले उपकरण द्वारा त्रुटियां प्रस्तुत की जाती हैं और उनका परिमाण मापे जाने वाले मान पर निर्भर नहीं करता है।
 * माध्य-स्वतंत्रता: $$\operatorname{E}[\eta|x^*]\,=\,0,$$ त्रुटियाँ अव्यक्त प्रतिगामी के प्रत्येक मान के लिए माध्य-शून्य हैं। यह शास्त्रीय की तुलना में कम प्रतिबंधात्मक धारणा है, क्योंकि यह माप त्रुटियों में विषम विचालिता या अन्य प्रभावों की उपस्थिति की अनुमति देता है।
 * बर्कसन की त्रुटियां: $$\eta\,\perp\,x,$$ त्रुटियाँ प्रेक्षित प्रतिगामी x से स्वतंत्र हैं। इस धारणा की बहुत सीमित प्रयोज्यता है। एक उदाहरण निकटन त्रुटियां हैं: उदाहरण के लिए यदि किसी व्यक्ति की आयु* एक सतत और असतत चर है, जबकि प्रेक्षित किए गए आयु को अगले सबसे छोटे पूर्णांक तक छोटा कर दिया जाता है, फिर छिन्नन त्रुटि प्रेक्षित की गई आयु से लगभग स्वतंत्र होती है। एक अन्य संभावना निश्चित डिजाइन प्रयोग के साथ है: उदाहरण के लिए यदि कोई वैज्ञानिक समय $$x$$ के एक निश्चित पूर्व निर्धारित क्षण पर माप करने का निर्णय लेता है, तो $$x = 10 s$$ पर कहें, तो वास्तविक माप $$x^*$$ के किसी अन्य मान पर हो सकता है(उदाहरण के कारण उसके परिमित प्रतिक्रिया समय के लिए) और ऐसी माप त्रुटि सामान्यतः प्रतिगामी के प्रेक्षित मान से स्वतंत्र होगी।
 * सदोष वर्गीकरण त्रुटियां: प्रतिरूपी चर(सांख्यिकी) के लिए प्रयुक्त विशेष स्थिति। यदि $$x^*$$ एक निश्चित घटना या स्थिति का सूचक है(जैसे कि व्यक्ति पुरुष/महिला है, कुछ चिकित्सा उपचार दिया गया है/नहीं, आदि), तो ऐसे प्रतिगामी में माप त्रुटि प्रकार I और प्रकार II त्रुटियों के समान सदोष वर्गीकरण के अनुरूप होगी सांख्यिकीय परीक्षण में। इस स्थिति में त्रुटि $$\eta$$ मात्र 3 संभावित मान हो सकते हैं, और $$x^*$$ पर इसके सप्रतिबन्ध वितरण को दो मापदंडों के साथ तैयार किया गया है: $$\alpha = \operatorname{Pr}[\eta = -1 | x^* = 1]$$, और $$\beta =\operatorname{Pr}[\eta = 1 | x^*=0]$$। पहचान के लिए आवश्यक प्रतिबन्ध यह है कि $$\alpha + \beta < 1$$ अर्थात सदोष वर्गीकरण बार-बार नहीं होना चाहिए। (इस विचार को दो से अधिक संभावित मानों वाले असतत चरों के लिए सामान्यीकृत किया जा सकता है।)

रैखिक मॉडल
रैखिक त्रुटियों-में-चर मॉडल का पूर्व अध्ययन किया गया था, संभवतया इसलिए कि रैखिक मॉडल इतने व्यापक रूप से उपयोग किए गए थे और वे गैर-रैखिक वाले की तुलना में सरल हैं। मानक साधारण न्यूनतम वर्ग प्रतिगमन(ओएलएस) के विपरीत, चर प्रतिगमन(ईआईवी) में त्रुटियों को सरल से बहुभिन्नरूपी स्थिति में विस्तारित करना सीधा नहीं है।

सरल रैखिक मॉडल
प्रेरणा अनुभाग में सरल रैखिक त्रुटियों-में-चर मॉडल पूर्व से ही प्रस्तुत किया गया था:
 * $$\begin{cases}

y_t = \alpha + \beta x_t^* + \varepsilon_t, \\ x_t = x_t^* + \eta_t, \end{cases}$$ जहाँ सभी चर अदिश(गणित) हैं। यहाँ α और β ब्याज के पैरामीटर हैं, जबकि σεऔर ση- त्रुटि प्रतिबन्ध के मानक विचलन- बाध्य पैरामीटर हैं। माप त्रुटि η(शास्त्रीय धारणा) से स्वतंत्र वास्तविक प्रतिगामी x* को एक यादृच्छिक चर(संरचनात्मक मॉडल) के रूप में माना जाता है।

यह मॉडल दो स्थितियों में पहचाना जा सकता है:(1) या तो अव्यक्त प्रतिगामी x* सामान्य वितरण नहीं है, (2) या x* का सामान्य वितरण है, परन्तु सामान्य वितरण से न तो εt और न ही ηt विभाज्य हैं। अर्थात, पैरामीटर α, β को बिना किसी अतिरिक्त जानकारी के डेटा समूह $$\scriptstyle(x_t,\,y_t)_{t=1}^T$$ से निरंतर अनुमान लगाया जा सकता है, बिना किसी अतिरिक्त जानकारी के, प्रविहित अव्यक्त प्रतिगामी गाऊसी नहीं है।

इस पहचान योग्य परिणाम के स्थापित होने से पूर्व, सांख्यिकीविदों ने यह मानकर अधिकतम संभावना तकनीक लागू करने का प्रयास किया कि सभी चर सामान्य हैं, और फिर निष्कर्ष निकाला कि मॉडल की पहचान नहीं की गई है। सुझाया गया उपाय यह मानना ​​था कि मॉडल के कुछ पैरामीटर ज्ञात हैं या बाहरी स्रोत से अनुमान लगाया जा सकता है। इस प्रकार के आकलन के विधियों में सम्मिलित हैं
 * डेमिंग प्रतिगमन - मानते है कि अनुपात δ = σ²ε/σ²η ज्ञात है। यह उदाहरण के लिए उपयुक ्त हो सकता है जब y और x दोनों में त्रुटिय ाँ माप के कारण होती हैं, और माप उपकरणों या प्रक्रियाओं की यथार्थता ज्ञात होती है। स्थिति जब δ = 1 को लंबकोणीय प्रतिगमन के रूप में भी जाना जाता है।
 * ज्ञात विश्वसनीयता(सांख्यिकी) अनुपात λ = σ²∗/ ( σ²η + σ²∗) के साथ प्रतिगमन, जहां σ²∗ अव्यक्त प्रतिगामी का प्रसरण है। इस प्रकार के दृष्टिकोण उदाहरण के लिए लागू हो सकते हैं जब एक ही इकाई के पुनरावर्ती माप उपलब्ध हों, या जब स्वतंत्र अध्ययन से विश्वसनीयता अनुपात ज्ञात हो। इस स्थिति में प्रवणता का सुसंगत अनुमान λ द्वारा विभाजित न्यूनतम वर्ग अनुमान के बराबर है।
 * ज्ञात σ²η के साथ प्रतिगमन तब हो सकता है जब x में त्रुटियों का स्रोत ज्ञात हो और उनके प्रसरण की गणना की जा सके। इसमें निकटन त्रुटि, या मापने वाले उपकरण द्वारा प्रस्तुत की गई त्रुटियां सम्मिलित हो सकती हैं। जब σ²η ज्ञात हो जाता है तो हम विश्वसनीयता अनुपात की गणना λ = ( σ²x − σ²η) / σ²x के रूप में कर सकते हैं और समस्या को पूर्व स्थिति में कम कर सकते हैं।

नवीन आकलन की विधियां जो मॉडल के कुछ मापदंडों के ज्ञान को नहीं मानते हैं, उनमें सम्मिलित हैं

बहुभिन्नरूपी रैखिक मॉडल
बहुभिन्नरूपी मॉडल पूर्ण रूप से साधारण रैखिक मॉडल जैसा दिखता है, मात्र इस बार β, ηt, xt और x*t k×1 सदिश हैं।
 * $$\begin{cases}

y_t = \alpha + \beta'x_t^* + \varepsilon_t, \\ x_t = x_t^* + \eta_t. \end{cases}$$ इस स्थिति में जब(εt, ηt) संयुक्त रूप से सामान्य है, पैरामीटर β की पहचान नहीं की जाती है यदि और मात्र यदि कोई गैर-विलक्षण k×k ब्लॉक आव्यूह [a A] है, जहां a k×1 सदिश है जैसे कि a′x* A 'x* सामान्य रूप से और स्वतंत्र रूप से वितरित किया जाता है। स्थिति में जब εt, ηt1,..., ηtk पारस्परिक रूप से स्वतंत्र हैं, पैरामीटर β की पहचान नहीं की जाती है यदि और मात्र यदि उपरोक्त प्रतिबन्ध के अतिरिक्त कुछ त्रुटियां दो स्वतंत्र चर के योग के रूप में लिखी जा सकती हैं जिनमें से एक सामान्य है।

बहुभिन्नरूपी रेखीय मॉडल के लिए कुछ आकलन विधियाँ हैं

गैर रेखीय मॉडल
एक सामान्य गैर-रैखिक माप त्रुटि मॉडल बनता है
 * $$\begin{cases}

y_t = g(x^*_t) + \varepsilon_t, \\ x_t = x^*_t + \eta_t. \end{cases}$$ यहाँ फलन g पैरामीट्रिक या गैर-पैरामीट्रिक हो सकता है। जब फलन g पैरामीट्रिक होता है तो इसे g(x*, β) के रूप में लिखा जाएगा।

एक सामान्य सदिश-मानित प्रतिगामी x* के लिए मॉडल की पहचान के लिए प्रतिबन्ध ज्ञात नहीं हैं। यद्यपि अदिश x* की स्थिति में मॉडल की पहचान तब तक की जाती है जब तक कि फलन g लॉग-घातीय रूप का न हो
 * $$g(x^*) = a + b \ln\big(e^{cx^*} + d\big)$$

और अव्यक्त प्रतिगामी x* का घनत्व है

f_{x^*}(x) = \begin{cases} A e^{-Be^{Cx}+CDx}(e^{Cx}+E)^{-F}, & \text{if}\ d>0 \\ A e^{-Bx^2 + Cx} & \text{if}\ d=0 \end{cases} $$ जहां स्थिरांक A,B,C,D,E,F a,b,c,d पर निर्भर हो सकते हैं।

इस आशावादी परिणाम के अतिरिक्त, अब तक बिना किसी बाहरी जानकारी के गैर-रैखिक त्रुटियों-में-चर मॉडल का अनुमान लगाने के लिए कोई विधि स्थित नहीं है। यद्यपि ऐसी कई तकनीकें हैं जो कुछ अतिरिक्त डेटा का उपयोग करती हैं: या तो उपकरण चर, या बार-बार अवलोकन।

पुनरावर्ती अवलोकन
इस दृष्टिकोण में प्रतिगामी x* के दो(या संभवतया अधिक) बार-बार अवलोकन उपलब्ध हैं। दोनों अवलोकनों में अपनी माप त्रुटियां होती हैं, यद्यपि उन त्रुटियों को स्वतंत्र होने की आवश्यकता होती है:
 * $$\begin{cases}

x_{1t} = x^*_t + \eta_{1t}, \\ x_{2t} = x^*_t + \eta_{2t}, \end{cases}$$ जहाँ x* ⊥ η1 ⊥ η2। चर η1, η2 समान रूप से वितरित करने की आवश्यकता नहीं है(यद्यपि यदि वे अनुमानक की दक्षता में थोड़ा सुधार कर सकते हैं)। मात्र इन दो प्रेक्षणों के साथ कोटलार्स्की की विसंक्रमण तकनीक का प्रयोग करके x* के घनत्व फलन का निरंतर अनुमान लगाना संभव है।

बाहरी संबंध

 * An Historical Overview of Linear Regression with Errors in both Variables, J.W. Gillard 2006
 * by Mark Thoma.