एरर-इन-वैरिएबल मॉडल

From Vigyanwiki

डेटा में, एरर-इन-वैरिएबल मॉडल या माप त्रुटि मॉडल प्रतिगमन मॉडल हैं जो स्वतंत्र चर में माप त्रुटियों के लिए खाते हैं। इसके विपरीत, मानक प्रतिगमन मॉडल मानते हैं कि उन प्रतिगमनकर्ताओं को यथार्थ रूप से मापा गया है, या त्रुटि के बिना प्रेक्षित किया गया है; जैसे, वे मॉडल मात्र निर्भर चर, या प्रतिक्रियाओं में त्रुटियों के लिए खाते हैं।[citation needed]

एरर-इन-वैरिएबल मॉडल में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन तनुता(या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ(लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। अल्पकोणीय प्रवणता तब प्राप्त होती है जब स्वतंत्र चर(या भविष्यवक्ता) भुज(x-अक्ष) पर होती है। तीव्र प्रवणता तब प्राप्त होती है जब स्वतंत्र चर कोटि(y-अक्ष) पर होती है। परंपरा से, x-अक्ष पर स्वतंत्र चर के साथ, अल्पकोणीय प्रवणता प्राप्त होती है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ यादृच्छिक डिब्बे के भीतर औसत होती हैं। ध्यान दें कि तीव्र हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।

ऐसी स्थिति में जब कुछ रजिस्टरों को त्रुटियों के साथ मापा गया है, मानक धारणा के आधार पर अनुमान निरंतर अनुमानक अनुमानों की ओर जाता है, जिसका अर्थ है कि पैरामीटर अनुमान बहुत बड़े प्रतिदर्शों में भी सत्य मानों की ओर नहीं जाते हैं। सरल रेखीय प्रतिगमन के लिए प्रभाव गुणांक का कम अनुमान है, जिसे क्षीणन पूर्वाग्रह के रूप में जाना जाता है। अरैखिक प्रतिरूपण में पूर्वाग्रह की दिशा अधिक जटिल होने की संभावना है।[1][2][3]


प्रेरक उदाहरण

रूप

के एक साधारण रेखीय प्रतिगमन मॉडल पर विचार करें जहां सत्य परन्तु अव्यक्त चर को दर्शाता है। इसके अतिरिक्त हम इस मान को एक त्रुटि के साथ प्रेक्षित करते हैं:

जहां माप त्रुटि को वास्तविक मान से स्वतंत्र माना जाता है।

यदि मात्र पर प्रतिगमन किया जाता है(सरल रेखीय प्रतिगमन देखें), तो प्रवणता गुणांक के लिए अनुमानक

है, जो प्रतिदर्श आकार के रूप में अभिसरण करता है बिना सीमा के बढ़ता है:

प्रसरण गैर-ऋणात्मक होते हैं, इसलिए सीमा में अनुमान के वास्तविक मान की तुलना में परिमाण में छोटा होता है, एक प्रभाव जिसे सांख्यिकीविद् क्षीणन या प्रतिगमन तनुता कहते हैं।[4] इस प्रकार 'अनुभवहीन ' कम से कम वर्ग अनुमानक इस व्यवस्था में सुसंगत अनुमानक है। यद्यपि, अनुमानक दिए गए के सर्वश्रेष्ठ रैखिक भविष्यवक्ता के लिए आवश्यक पैरामीटर का एक सुसंगत अनुमानक है: कुछ अनुप्रयोगों में यह वही हो सकता है जो 'सत्य' प्रतिगमन गुणांक के अनुमान के अतिरिक्त आवश्यक हो, यद्यपि यह मान लिया जाएगा कि प्रेक्षित करने में त्रुटियों का विचलन स्थिर रहता है। यह तुरंत ऊपर उद्धृत परिणाम से सीधे आता है, और तथ्य यह है कि से संबंधित प्रतिगमन गुणांक वस्तुतः प्रेक्षित किया गया , एक साधारण रेखीय प्रतिगमन में,

द्वारा दिया जाता है।

यह गुणांक है, के अतिरिक्त, जो एक प्रेक्षित के आधार पर के भविष्यवक्ता के निर्माण के लिए आवश्यक होगा जो शोर के अधीन है।

यह तर्क दिया जा सकता है कि लगभग सभी वर्तमान डेटा समूह में विभिन्न प्रकृति और परिमाण की त्रुटियां होती हैं, जिससे कि क्षीणन पूर्वाग्रह बहुत बार-बार होता है(यद्यपि बहुभिन्नरूपी प्रतिगमन में पूर्वाग्रह की दिशा अस्पष्ट है[5])। जेरी हॉसमैन इसे अर्थमिति के लोहे के नियम के रूप में प्रेक्षित करते हैं: अनुमान का परिमाण सामान्यतः अपेक्षा से छोटा होता है।[6]


विशिष्टता

सामान्यतः माप त्रुटि मॉडल को अव्यक्त चर मॉडल दृष्टिकोण का उपयोग करके वर्णित किया जाता है। यदि प्रतिक्रिया चर है और प्रतिगमनकर्ताओं के प्रेक्षित मान हैं, तो यह माना जाता है कि कुछ अव्यक्त चर और स्थित हैं जो मॉडल के "सत्य " फलन(गणित) का अनुसरण करते हैं, और ऐसी प्रेक्षित मात्राएँ उनके शोर अवलोकन हैं:

जहां मॉडल का पैरामीटर है और वे प्रतिगामी हैं जिन्हें त्रुटि-मुक्त माना जाता है(उदाहरण के लिए जब रैखिक प्रतिगमन में एक अवरोधन होता है, तो स्थिरांक से संबंधित प्रतिगामी में निश्चित रूप से कोई माप त्रुटि नहीं होती है)। विशिष्टताओं के आधार पर इन त्रुटि रहित रजिस्टरों के साथ अलग से व्यवहार किया जा सकता है या नहीं भी किया जा सकता है; बाद की स्थिति में यह मात्र माना जाता है कि के प्रसरण आव्यूह में संबंधित प्रविष्टियाँ शून्य हैं।

चर , , सभी प्रेक्षित हैं, जिसका अर्थ है कि सांख्यिकीविद के समीप सांख्यिकीय इकाइयों का डेटा समूह है जो ऊपर वर्णित डेटा संग्रह का पालन करता है; यद्यपि अव्यक्त चर , , , और नहीं प्रेक्षित हैं।

यह विनिर्देश सभी वर्तमान त्रुटियों-में-चर मॉडल को सम्मिलित नहीं करता है। उदाहरण के लिए उनमें से कुछ में फलन गैर-पैरामीट्रिक या अर्ध-पैरामीट्रिक डेटा हो सकते हैं। अन्य दृष्टिकोण कार्यात्मक के अतिरिक्त वितरणात्मक के रूप में और के बीच संबंध को मॉडल करते हैं, अर्थात वे मानते हैं कि सप्रतिबन्ध पर एक निश्चित(सामान्यतः पैरामीट्रिक) वितरण का अनुसरण करता है।

शब्दावली और धारणाएं

  • प्रेक्षित चर को प्रकट, संकेतक, या प्रॉक्सी(सांख्यिकी) चर कहा जा सकता है।
  • अप्रेक्षित चर अव्यक्त या सत्य चर कहा जा सकता है। इसे या तो एक अज्ञात स्थिरांक के रूप में माना जा सकता है(जिस स्थिति में मॉडल को एक कार्यात्मक मॉडल कहा जाता है), या एक यादृच्छिक चर(तदनुसार एक संरचनात्मक मॉडल) के रूप में।[7]
  • माप त्रुटि के बीच संबंध और अव्यक्त चर अलग-अलग विधियों से मॉडलिंग की जा सकती है:
    • शास्त्रीय त्रुटियां: त्रुटियां अव्यक्त चर की स्वतंत्रता(संभाव्यता सिद्धांत) हैं। यह सबसे सामान्य धारणा है, इसका तात्पर्य है कि मापने वाले उपकरण द्वारा त्रुटियां प्रस्तुत की जाती हैं और उनका परिमाण मापे जाने वाले मान पर निर्भर नहीं करता है।
    • माध्य-स्वतंत्रता: त्रुटियाँ अव्यक्त प्रतिगामी के प्रत्येक मान के लिए माध्य-शून्य हैं। यह शास्त्रीय की तुलना में कम प्रतिबंधात्मक धारणा है,[8] क्योंकि यह माप त्रुटियों में विषम विचालिता या अन्य प्रभावों की उपस्थिति की अनुमति देता है।
    • बर्कसन की त्रुटियां: त्रुटियाँ प्रेक्षित प्रतिगामी x से स्वतंत्र हैं।[9] इस धारणा की बहुत सीमित प्रयोज्यता है। एक उदाहरण निकटन त्रुटियां हैं: उदाहरण के लिए यदि किसी व्यक्ति की आयु* एक सतत और असतत चर है, जबकि प्रेक्षित किए गए आयु को अगले सबसे छोटे पूर्णांक तक छोटा कर दिया जाता है, फिर छिन्नन त्रुटि प्रेक्षित की गई आयु से लगभग स्वतंत्र होती है। एक अन्य संभावना निश्चित डिजाइन प्रयोग के साथ है: उदाहरण के लिए यदि कोई वैज्ञानिक समय के एक निश्चित पूर्व निर्धारित क्षण पर माप करने का निर्णय लेता है, तो पर कहें, तो वास्तविक माप के किसी अन्य मान पर हो सकता है(उदाहरण के कारण उसके परिमित प्रतिक्रिया समय के लिए) और ऐसी माप त्रुटि सामान्यतः प्रतिगामी के प्रेक्षित मान से स्वतंत्र होगी।
    • सदोष वर्गीकरण त्रुटियां: प्रतिरूपी चर(सांख्यिकी) के लिए प्रयुक्त विशेष स्थिति। यदि एक निश्चित घटना या स्थिति का सूचक है(जैसे कि व्यक्ति पुरुष/महिला है, कुछ चिकित्सा उपचार दिया गया है/नहीं, आदि), तो ऐसे प्रतिगामी में माप त्रुटि प्रकार I और प्रकार II त्रुटियों के समान सदोष वर्गीकरण के अनुरूप होगी सांख्यिकीय परीक्षण में। इस स्थिति में त्रुटि मात्र 3 संभावित मान हो सकते हैं, और पर इसके सप्रतिबन्ध वितरण को दो मापदंडों के साथ तैयार किया गया है: , और । पहचान के लिए आवश्यक प्रतिबन्ध यह है कि अर्थात सदोष वर्गीकरण बार-बार नहीं होना चाहिए। (इस विचार को दो से अधिक संभावित मानों वाले असतत चरों के लिए सामान्यीकृत किया जा सकता है।)

रैखिक मॉडल

रैखिक त्रुटियों-में-चर मॉडल का पूर्व अध्ययन किया गया था, संभवतया इसलिए कि रैखिक मॉडल इतने व्यापक रूप से उपयोग किए गए थे और वे गैर-रैखिक वाले की तुलना में सरल हैं। मानक साधारण न्यूनतम वर्ग प्रतिगमन(ओएलएस) के विपरीत, चर प्रतिगमन(ईआईवी) में त्रुटियों को सरल से बहुभिन्नरूपी स्थिति में विस्तारित करना सीधा नहीं है।

सरल रैखिक मॉडल

प्रेरणा अनुभाग में सरल रैखिक त्रुटियों-में-चर मॉडल पूर्व से ही प्रस्तुत किया गया था:

जहाँ सभी चर अदिश(गणित) हैं। यहाँ α और β ब्याज के पैरामीटर हैं, जबकि σεऔर ση- त्रुटि प्रतिबन्ध के मानक विचलन- बाध्य पैरामीटर हैं। माप त्रुटि η(शास्त्रीय धारणा) से स्वतंत्र वास्तविक प्रतिगामी x* को एक यादृच्छिक चर(संरचनात्मक मॉडल) के रूप में माना जाता है।

यह मॉडल दो स्थितियों में पहचाना जा सकता है:(1) या तो अव्यक्त प्रतिगामी x* सामान्य वितरण नहीं है, (2) या x* का सामान्य वितरण है, परन्तु सामान्य वितरण से न तो εt और न ही ηt विभाज्य हैं।[10] अर्थात, पैरामीटर α, β को बिना किसी अतिरिक्त जानकारी के डेटा समूह से निरंतर अनुमान लगाया जा सकता है, बिना किसी अतिरिक्त जानकारी के, प्रविहित अव्यक्त प्रतिगामी गाऊसी नहीं है।

इस पहचान योग्य परिणाम के स्थापित होने से पूर्व, सांख्यिकीविदों ने यह मानकर अधिकतम संभावना तकनीक लागू करने का प्रयास किया कि सभी चर सामान्य हैं, और फिर निष्कर्ष निकाला कि मॉडल की पहचान नहीं की गई है। सुझाया गया उपाय यह मानना ​​था कि मॉडल के कुछ पैरामीटर ज्ञात हैं या बाहरी स्रोत से अनुमान लगाया जा सकता है। इस प्रकार के आकलन के विधियों में सम्मिलित हैं[11]

  • डेमिंग प्रतिगमन - मानते है कि अनुपात δ = σ²ε/σ²η ज्ञात है। यह उदाहरण के लिए उपयुक्त हो सकता है जब y और x दोनों में त्रुटियाँ माप के कारण होती हैं, और माप उपकरणों या प्रक्रियाओं की यथार्थता ज्ञात होती है। स्थिति जब δ = 1 को लंबकोणीय प्रतिगमन के रूप में भी जाना जाता है।
  • ज्ञात विश्वसनीयता(सांख्यिकी) अनुपात λ = σ²/ ( σ²η + σ²) के साथ प्रतिगमन, जहां σ² अव्यक्त प्रतिगामी का प्रसरण है। इस प्रकार के दृष्टिकोण उदाहरण के लिए लागू हो सकते हैं जब एक ही इकाई के पुनरावर्ती माप उपलब्ध हों, या जब स्वतंत्र अध्ययन से विश्वसनीयता अनुपात ज्ञात हो। इस स्थिति में प्रवणता का सुसंगत अनुमान λ द्वारा विभाजित न्यूनतम वर्ग अनुमान के बराबर है।
  • ज्ञात σ²η के साथ प्रतिगमन तब हो सकता है जब x में त्रुटियों का स्रोत ज्ञात हो और उनके प्रसरण की गणना की जा सके। इसमें निकटन त्रुटि, या मापने वाले उपकरण द्वारा प्रस्तुत की गई त्रुटियां सम्मिलित हो सकती हैं। जब σ²η ज्ञात हो जाता है तो हम विश्वसनीयता अनुपात की गणना λ = ( σ²xσ²η) / σ²x के रूप में कर सकते हैं और समस्या को पूर्व स्थिति में कम कर सकते हैं।

नवीन आकलन की विधियां जो मॉडल के कुछ मापदंडों के ज्ञान को नहीं मानते हैं, उनमें सम्मिलित हैं

  • क्षणों की विधि — जीएमएम अनुमानक आधारित अवलोकनीय चरों के तीसरे- (या उच्चतर-) क्रम संयुक्त संचयी पर। स्लोप गुणांक का अनुमान [12]

    जहां (n1,n2) ऐसे हैं किK(n1+1,n2) —(x,y) का जोड़ संचयी — शून्य नहीं है। मामले में जब अव्यक्त प्रतिगामी x* का तीसरा केंद्रीय क्षण गैर-शून्य होता है, तो सूत्र कम हो जाता है

  • वाद्य चर - एक प्रतिगमन जिसके लिए आवश्यक है कि कुछ अतिरिक्त डेटा चर z, जिसे उपकरण कहा जाता है, उपलब्ध थे। इन चरों को निर्भर (परिणाम) चर (मान्य) के समीकरण में त्रुटियों के साथ असंबद्ध होना चाहिए, और उन्हें वास्तविक प्रतिगमनकर्ता x* के साथ सहसंबद्ध (प्रासंगिक) भी होना चाहिए। यदि ऐसे चर मिल सकते हैं तो अनुमानक रूप लेता है

बहुभिन्नरूपी रैखिक मॉडल

बहुभिन्नरूपी मॉडल पूर्ण रूप से साधारण रैखिक मॉडल जैसा दिखता है, मात्र इस बार β, ηt, xt और x*t k×1 सदिश हैं।

इस स्थिति में जब(εt, ηt) संयुक्त रूप से सामान्य है, पैरामीटर β की पहचान नहीं की जाती है यदि और मात्र यदि कोई गैर-विलक्षण k×k ब्लॉक आव्यूह [a A] है, जहां a k×1 सदिश है जैसे कि a′x* A'x* सामान्य रूप से और स्वतंत्र रूप से वितरित किया जाता है। स्थिति में जब εt, ηt1,..., ηtk पारस्परिक रूप से स्वतंत्र हैं, पैरामीटर β की पहचान नहीं की जाती है यदि और मात्र यदि उपरोक्त प्रतिबन्ध के अतिरिक्त कुछ त्रुटियां दो स्वतंत्र चर के योग के रूप में लिखी जा सकती हैं जिनमें से एक सामान्य है।[13]

बहुभिन्नरूपी रेखीय मॉडल के लिए कुछ आकलन विधियाँ हैं

गैर रेखीय मॉडल

एक सामान्य गैर-रैखिक माप त्रुटि मॉडल बनता है

यहाँ फलन g पैरामीट्रिक या गैर-पैरामीट्रिक हो सकता है। जब फलन g पैरामीट्रिक होता है तो इसे g(x*, β) के रूप में लिखा जाएगा।

एक सामान्य सदिश-मानित प्रतिगामी x* के लिए मॉडल की पहचान के लिए प्रतिबन्ध ज्ञात नहीं हैं। यद्यपि अदिश x* की स्थिति में मॉडल की पहचान तब तक की जाती है जब तक कि फलन g लॉग-घातीय रूप का न हो [14]

और अव्यक्त प्रतिगामी x* का घनत्व है

जहां स्थिरांक A,B,C,D,E,F a,b,c,d पर निर्भर हो सकते हैं।

इस आशावादी परिणाम के अतिरिक्त, अब तक बिना किसी बाहरी जानकारी के गैर-रैखिक त्रुटियों-में-चर मॉडल का अनुमान लगाने के लिए कोई विधि स्थित नहीं है। यद्यपि ऐसी कई तकनीकें हैं जो कुछ अतिरिक्त डेटा का उपयोग करती हैं: या तो उपकरण चर, या बार-बार अवलोकन।

पुनरावर्ती अवलोकन

इस दृष्टिकोण में प्रतिगामी x* के दो(या संभवतया अधिक) बार-बार अवलोकन उपलब्ध हैं। दोनों अवलोकनों में अपनी माप त्रुटियां होती हैं, यद्यपि उन त्रुटियों को स्वतंत्र होने की आवश्यकता होती है:

जहाँ x* ⊥ η1 ⊥ η2। चर η1, η2 समान रूप से वितरित करने की आवश्यकता नहीं है(यद्यपि यदि वे अनुमानक की दक्षता में थोड़ा सुधार कर सकते हैं)। मात्र इन दो प्रेक्षणों के साथ कोटलार्स्की की विसंक्रमण तकनीक का प्रयोग करके x* के घनत्व फलन का निरंतर अनुमान लगाना संभव है।[15]

संदर्भ

  1. Griliches, Zvi; Ringstad, Vidar (1970). "गैर-रैखिक संदर्भों में चर-में-त्रुटियां". Econometrica. 38 (2): 368–370. doi:10.2307/1913020. JSTOR 1913020.
  2. Chesher, Andrew (1991). "माप त्रुटि का प्रभाव". Biometrika. 78 (3): 451–462. doi:10.1093/biomet/78.3.451. JSTOR 2337015.
  3. Carroll, Raymond J.; Ruppert, David; Stefanski, Leonard A.; Crainiceanu, Ciprian (2006). Measurement Error in Nonlinear Models: A Modern Perspective (Second ed.). ISBN 978-1-58488-633-4.
  4. Greene, William H. (2003). अर्थमितीय विश्लेषण (5th ed.). New Jersey: Prentice Hall. Chapter 5.6.1. ISBN 978-0-13-066189-0.
  5. Wansbeek, T.; Meijer, E. (2000). "Measurement Error and Latent Variables". In Baltagi, B. H. (ed.). A Companion to Theoretical Econometrics. Blackwell. pp. 162–179. doi:10.1111/b.9781405106764.2003.00013.x. ISBN 9781405106764.
  6. Hausman, Jerry A. (2001). "Mismeasured variables in econometric analysis: problems from the right and problems from the left". Journal of Economic Perspectives. 15 (4): 57–67 [p. 58]. doi:10.1257/jep.15.4.57. JSTOR 2696516.
  7. Fuller, Wayne A. (1987). मापन त्रुटि मॉडल. John Wiley & Sons. p. 2. ISBN 978-0-471-86187-4.
  8. Hayashi, Fumio (2000). अर्थमिति. Princeton University Press. pp. 7–8. ISBN 978-1400823833.
  9. Koul, Hira; Song, Weixing (2008). "बर्कसन माप त्रुटियों के साथ प्रतिगमन मॉडल की जाँच". Journal of Statistical Planning and Inference. 138 (6): 1615–1628. doi:10.1016/j.jspi.2007.05.048.
  10. Reiersøl, Olav (1950). "त्रुटि के अधीन चर के बीच एक रैखिक संबंध की पहचान". Econometrica. 18 (4): 375–389 [p. 383]. doi:10.2307/1907835. JSTOR 1907835. A somewhat more restrictive result was established earlier by Geary, R. C. (1942). "Inherent relations between random variables". Proceedings of the Royal Irish Academy. 47: 63–76. JSTOR 20488436. He showed that under the additional assumption that (ε, η) are jointly normal, the model is not identified if and only if x*s are normal.
  11. Fuller, Wayne A. (1987). "A Single Explanatory Variable". मापन त्रुटि मॉडल. John Wiley & Sons. pp. 1–99. ISBN 978-0-471-86187-4.
  12. Template:जर्नल का हवाला दें
  13. Ben-Moshe, Dan (2020). "सभी चरों में त्रुटियों के साथ रेखीय प्रतिगमन की पहचान". Econometric Theory. 37 (4): 1–31. arXiv:1404.1473. doi:10.1017/S0266466620000250. S2CID 225653359.
  14. Schennach, S.; Hu, Y.; Lewbel, A. (2007). "बिना साइड जानकारी के क्लासिकल एरर-इन-वैरिएबल मॉडल की गैर पैरामीट्रिक पहचान". Working Paper.
  15. Li, Tong; Vuong, Quang (1998). "कई संकेतकों का उपयोग करके माप त्रुटि मॉडल का गैर पैरामीट्रिक अनुमान". Journal of Multivariate Analysis. 65 (2): 139–165. doi:10.1006/jmva.1998.1741.


अग्रिम पठन


बाहरी संबंध