वाद्य चर अनुमान

सांख्यिकी, अर्थमिति, महामारी विज्ञान और संबंधित विषयों में, जब नियंत्रित प्रयोग संभव नहीं होते हैं या जब यादृच्छिक प्रयोग में प्रत्येक इकाई तक उपचार सफलतापूर्वक नहीं पहुंचाया जाता है, तो कारण अनुमान का अनुमान लगाने के लिए वाद्य चर (IV) की विधि का उपयोग किया जाता है। सहज रूप से, IV का उपयोग तब किया जाता है जब ब्याज का व्याख्यात्मक चर त्रुटि शब्द के साथ सहसंबद्ध होता है, उस स्थिति में साधारण न्यूनतम वर्ग और एनोवा पूर्वाग्रह (सांख्यिकी) परिणाम प्राप्त होते हैं। वैध उपकरण व्याख्यात्मक चर में परिवर्तन करता है, किन्तु आश्रित चर पर कोई स्वतंत्र प्रभाव नहीं डालता है, जिससे शोधकर्ता को आश्रित चर पर व्याख्यात्मक चर के कारण प्रभाव को प्रदर्शित करने की अनुमति मिलती है।

जब आश्रित और स्वतंत्र चर (सहसंयोजक) प्रतिगमन विश्लेषण स्वरुप में आंकड़ों में त्रुटियों और अवशेषों के साथ सहसंबंधित होते हैं, तो वाद्य चर विधियां सुसंगत अनुमानक अनुमान की अनुमति देती हैं। ऐसा सहसंबंध तब घटित हो सकता है जब: प्रतिगमन के संदर्भ में इनमें से अधिक विषयों से ग्रस्त व्याख्यात्मक चर को कभी-कभी अंतर्जातता (अर्थमिति) के रूप में जाना जाता है। इस स्थिति में, साधारण न्यूनतम वर्ग पक्षपातपूर्ण और असंगत अनुमान उत्पन्न करते हैं। चूँकि, यदि कोई उपकरण उपलब्ध है, तो भी सुसंगत अनुमान प्राप्त किए जा सकते हैं। उपकरण ऐसा चर है जो स्वयं व्याख्यात्मक समीकरण में सम्मिलित नहीं होता है, किन्तु अन्य सहसंयोजकों के मूल्य पर सशर्त रूप से अंतर्जातता (अर्थमिति) व्याख्यात्मक चर के साथ सहसंबद्ध होता है।
 * 1) आश्रित चर में परिवर्तन से कम से कम एक सहसंयोजक (विपरीत कारण) का मान परिवर्तित हो जाता है,
 * 2) ऐसे त्याग किये गए-चर पूर्वाग्रह हैं, जो आश्रित और व्याख्यात्मक चर दोनों को प्रभावित करते हैं, या
 * 3) चर स्वरुप में त्रुटियाँ सहसंयोजक गैर-यादृच्छिक माप त्रुटि के अधीन होती हैं।

रैखिक स्वरुप में, IVs का उपयोग करने के लिए दो मुख्य आवश्यकताएँ हैं:
 * उपकरण को अन्य सहसंयोजकों पर सशर्त रूप से अंतर्जात व्याख्यात्मक चर के साथ सहसंबद्ध होना चाहिए। यदि यह सहसंबंध दृढ़ है, तो उपकरण को 'दृढ़ प्रथम चरण' कहा जाता है। निर्बल सहसंबंध पैरामीटर अनुमान और मानक त्रुटियों के सम्बन्ध में भ्रामक निष्कर्ष प्रदान कर सकता है।
 * उपकरण को अन्य सहसंयोजकों पर सशर्त रूप से व्याख्यात्मक समीकरण में त्रुटि शब्द के साथ सहसंबद्ध नहीं किया जा सकता है। दूसरे शब्दों में, उपकरण मूल पूर्वानुमान चर के समान समस्या से ग्रस्त नहीं हो सकता है। यदि यह शर्त पूर्ण हो जाती है, तो कहा जाता है कि उपकरण बहिष्करण प्रतिबंध को पूर्ण करता है।

उदाहरण
अनौपचारिक रूप से, किसी अन्य Y (स्वतंत्र चर) पर कुछ चर इस प्रकार है:-

उदाहरण के लिए, मान लीजिए कि शोधकर्ता सामान्य स्वास्थ्य (Y) पर धूम्रपान (X) के कारण प्रभाव का अनुमान लगाना चाहता है। धूम्रपान और स्वास्थ्य के मध्य संबंध का आशय यह नहीं है कि धूम्रपान हानिकारक स्वास्थ्य का कारण बनता है क्योंकि अन्य कारक, जैसे अवसाद, स्वास्थ्य और धूम्रपान दोनों को प्रभावित कर सकते हैं, या क्योंकि स्वास्थ्य धूम्रपान को प्रभावित कर सकता है। सामान्य जनसँख्या में धूम्रपान की स्थिति पर नियंत्रित प्रयोग करना संभव नहीं है। शोधकर्ता धूम्रपान के साधन के रूप में तंबाकू उत्पादों (Z) के लिए कर की दर का उपयोग करके अवलोकन डेटा से स्वास्थ्य पर धूम्रपान के कारण प्रभाव का अनुमान लगाने का प्रयास कर सकता है। तम्बाकू उत्पादों के लिए कर की दर साधन के लिए उचित विकल्प है क्योंकि शोधकर्ता का मानना ​​है कि केवल धूम्रपान पर इसके प्रभाव के माध्यम से स्वास्थ्य के साथ जोड़ा जा सकता है। यदि शोधकर्ता को तम्बाकू कर और स्वास्थ्य की स्थिति सहसंबद्ध लगती है, तो इसे प्रमाण के रूप में देखा जा सकता है कि धूम्रपान के कारण स्वास्थ्य में परिवर्तन होता है।

इतिहास
इंस्ट्रूमेंट चर का प्रथम प्रयोग फिलिप ग्रीन राइट की 1928 की किताब में हुआ था। फिलिप जी. राइट, संयुक्त राज्य अमेरिका में 1900 के दशक के प्रारम्भ में वनस्पति और पशु तेलों के उत्पादन, परिवहन और बिक्री के उत्कृष्ट विवरण के लिए जाने जाते हैं। जबकि 1945 में, ओलाव रेयर्सोल ने अपने शोध प्रबंध में त्रुटियों-में-चर स्वरुप के संदर्भ में उसी दृष्टिकोण को प्रस्तावित किया, जिससे विधि को इसका नाम मिला। राइट ने संयुक्त राज्य अमेरिका में विक्रय की गई कीमतों और मात्रा पर पैनल डेटा का उपयोग करके मक्खन की आपूर्ति और मांग निर्धारित करने का प्रयास किया। विचार यह था कि प्रतिगमन विश्लेषण मांग या आपूर्ति वक्र उत्पन्न कर सकता है क्योंकि वे कीमतों और मांग या आपूर्ति की मात्रा के मध्य के पथ से बनते हैं। समस्या यह थी कि अवलोकन डेटा ने मांग या आपूर्ति वक्र नहीं बनाया, परिणाम स्वरुप बिंदु अवलोकनों का बादल बनाया जो भिन्न-भिन्न बाजार स्थितियों के अंतर्गत भिन्न-भिन्न आकार लेता था। ऐसा लग रहा था कि डेटा से कटौती करना मायावी बना हुआ है।

समस्या यह थी कि कीमत आपूर्ति और मांग दोनों को प्रभावित करती थी, इसलिए दोनों में से केवल एक का वर्णन करने वाला फलन सीधे अवलोकन डेटा से नहीं बनाया जा सकता था। राइट ने सही ढंग से निष्कर्ष निकाला कि उन्हें ऐसे चर की आवश्यकता थी जो या तो मांग या आपूर्ति से संबंधित हो, किन्तु दोनों से नहीं - यानी, वाद्य चर आदि।

विचार-विमर्श के पश्चात्, राइट ने क्षेत्रीय वर्षा को अपने सहायक चर के रूप में उपयोग करने का निर्णय लिया: उन्होंने निष्कर्ष निकाला कि वर्षा ने घास के उत्पादन को प्रभावित किया और इसलिए दूध उत्पादन और अंततः मक्खन की आपूर्ति प्रभावित हुई, किन्तु मक्खन की मांग नहीं हुई। इस प्रकार वह केवल कीमत और आपूर्ति के वाद्य चर के साथ प्रतिगमन समीकरण बनाने में सक्षम था। 2000 में जुडिया पर्ल द्वारा प्रतितथ्यात्मक और ग्राफिकल मानदंडों का उपयोग करते हुए वाद्य चर की औपचारिक परिभाषाएँ दी गईं। जोशुआ एंग्रिस्ट और एलन क्रुएगर (2001) वाद्य परिवर्तनीय तकनीकों के इतिहास और उपयोग का सर्वेक्षण प्रस्तुत करते हैं। अर्थमिति में कार्य-कारण की धारणाएं, और वाद्य चर और अन्य उपायों के साथ उनके संबंध पर जेम्स हेक्मैन (2008) द्वारा वर्णन किया गया है।

सिद्धांत
जबकि IV के पूर्व के विचार स्वरूपों की विस्तृत श्रेणी तक विस्तारित हुए हैं, IV के लिए बहुत ही सामान्य संदर्भ रैखिक प्रतिगमन में होते है। परंपरागत रूप से, वाद्य चर परिभाषित किया गया है I चर Z के रूप में जो स्वतंत्र चर X के साथ सहसंबद्ध है, और रैखिक समीकरण में त्रुटि पद U के साथ असंबद्ध है, इस प्रकार है:-


 * $$Y = X \beta + U $$

$$Y$$ सदिश है, $$X$$ आव्यूह है, सामान्यतः इकाइयों के कॉलम के साथ और अन्य सहसंयोजकों के लिए अतिरिक्त कॉलम के साथ विचार करें कि कोई उपकरण कैसे अनुमति देता है I $$\beta$$ पुनर्प्राप्त किया जाना है I याद रखें कि साधारण न्यूनतम वर्ग हल करता है, $$ \widehat{\beta }$$ ऐसा है कि $$\operatorname{cov}(X,\widehat U) = 0$$ (जब हम त्रुटियों का योग कम करते हैं, $$\min_\beta (Y- X\beta)'(Y- X\beta) $$, प्रथम-क्रम की स्थिति बिल्कुल वैसी ही है, $$ X' (Y- X\widehat{\beta}) = X' \widehat{U} = 0 $$.) यदि सच्चा स्वरुप माना जाता है I $$\operatorname{cov}(X,U) \neq 0$$ ऊपर सूचीबद्ध किसी भी कारण से - उदाहरण के लिए, यदि कोई त्याग किया गया-परिवर्तनीय पूर्वाग्रह है, जो दोनों को प्रभावित करता है I $$X$$ और $$Y$$ भिन्न-भिन्न तो यह सामान्य न्यूनतम वर्ग प्रक्रिया का कारणात्मक प्रभाव उत्पन्न नहीं करेगी I $$X$$ पर $$Y$$. ओएलएस बस उस पैरामीटर को चुनेगा जिससे परिणामी त्रुटियां $$X$$ असंबंधित दिखाई देंगी I

सरलता के लिए एकल-चर विषय पर विचार करें। मान लीजिए कि हम चर और स्थिरांक के साथ प्रतिगमन पर विचार कर रहे हैं, (कोई अन्य सहसंयोजक आवश्यक नहीं है, या हमारे निकट फ्रिस्क-वॉ-लोवेल प्रमेय कोई अन्य प्रासंगिक सहसंयोजक है):


 * $$y=\alpha + \beta x + u$$

इस विषय में, ब्याज के प्रतिगामी पर गुणांक द्वारा दिया जाता है, $$ \widehat{\beta }= \frac{\operatorname{cov}(x,y)}{\operatorname{var}(x)} $$. के लिए स्थानापन्न $$y$$ है:-



\begin{align} \widehat{\beta} & = \frac{\operatorname{cov}(x,y)}{\operatorname{var}(x)} = \frac{\operatorname{cov}(x,\alpha + \beta x + u)}{\operatorname{var}(x)} \\[6pt] & =\frac{\operatorname{cov}(x, \alpha +\beta x)}{\operatorname{var}(x)} +\frac{\operatorname{cov}(x,u)}{\operatorname{var}(x)}= \beta^* + \frac{\operatorname{cov}(x,u)}{\operatorname{var}(x)}, \end{align} $$ जहाँ $$\beta^*$$ यदि x का u के साथ सहसंबद्ध न हो तो अनुमानित गुणांक सदिश क्या होगा। ऐसे में ये दिखाया जा सकता है I $$\beta^*$$ का निष्पक्ष अनुमानक $$\beta .$$ है I यदि $$\operatorname{cov}(x,u) \neq 0$$ अंतर्निहित स्वरुप में, जिस पर हम विश्वास करते हैं, सामान्य न्यूनतम वर्ग गुणांक होता है, जो ब्याज के अंतर्निहित कारण प्रभाव को प्रतिबिंबित नहीं करता है। IV मापदंडों की पहचान करके इस समस्या को ठीक करने में सहायता करता है I $${\beta}$$ चाहे $$x$$ पर आधारित न हो $$u$$ से असंबंधित है, किन्तु इस पर आधारित है कि क्या कोई अन्य चर $$z$$ से असंबंधित है I $$u$$ यदि सिद्धांत है $$z$$ से संबंधित है, $$x$$ (प्रथम चरण) किन्तु इससे असंबद्ध $$u$$ (बहिष्करण प्रतिबंध) है, तो IV ब्याज के कारण पैरामीटर की पहचान कर सकता है जहां ओएलएस विफल रहता है। क्योंकि केवल रैखिक विषय (IV, 2SLS, GMM) में भी IV अनुमानकों का उपयोग करने और प्राप्त करने के कई विशिष्ट उपाय हैं, हम नीचे अनुमान अनुभाग के लिए आगे की वर्णन करते हैं।

ग्राफ़िकल परिभाषा
IV तकनीकों को गैर-रेखीय स्वरुपों के व्यापक वर्ग के मध्य विकसित किया गया है। पर्ल (2000; पृष्ठ 248) द्वारा प्रतितथ्यात्मक और ग्राफिकल औपचारिकता का उपयोग करते हुए वाद्य चर की सामान्य परिभाषाएँ दी गईं। ग्राफिकल परिभाषा के लिए आवश्यक है कि Z निम्नलिखित शर्तों को पूरा करे:


 * $$(Z \perp\!\!\!\perp Y)_{G_{\overline{X}}} \qquad(Z \not\!\!{\perp\!\!\!\perp} X)_G $$

जहाँ $$\perp\!\!\!\perp$$ बायेसियन नेटवर्क डी-सेपरेशन और $$G_{\overline{X}}$$ के लिए है, बायेसियन नेटवर्क को प्रदर्शित करता है, जिसमें X में प्रवेश करने वाले सभी तीर काट दिए जाते हैं।

प्रतितथ्यात्मक परिभाषा के लिए आवश्यक है कि Z संतुष्ट हो


 * $$(Z \perp\!\!\!\perp Y_x)\qquad (Z \not\!\!{\perp\!\!\!\perp} X)$$

जहाँ Yx उस मान को प्रदर्शित करता है जो Y प्राप्त करेगा यदि X, x होता और $$\perp\!\!\!\perp$$ स्वतंत्रता है.

यदि अतिरिक्त सहसंयोजक W हैं, तो उपरोक्त परिभाषाओं को संशोधित किया जाता है, जिससे Z उपकरण के रूप में अर्हता प्राप्त कर सके यदि दिए गए मानदंड W पर सशर्त हों।

पर्ल की परिभाषा का सार यह है:
 * 1) रुचि के समीकरण संरचनात्मक हैं, प्रतिगमन नहीं हैं।
 * 2) त्रुटि शब्द U उन सभी बहिर्जात कारकों को प्रदर्शित करता है, जो X को स्थिर रखने पर Y को प्रभावित करते हैं।
 * 3) उपकरण Z, U से स्वतंत्र होना चाहिए।
 * 4) जब X को स्थिर रखा जाता है (बहिष्करण प्रतिबंध) तो उपकरण Z को Y को प्रभावित नहीं करना चाहिए।
 * 5) उपकरण Z, X से स्वतंत्र नहीं होना चाहिए।

ये स्थितियाँ विशिष्ट कार्यात्मकता पर निर्भर नहीं करतीं हैं I समीकरणों का रूप इसलिए प्रस्तावित होते हैं I अरैखिक समीकरण, जहाँ U a-योगात्मक हो सकता है, (गैर-पैरामीट्रिक विश्लेषण देखें)। वे एकाधिक की प्रणाली पर भी प्रस्तावित होते हैं, समीकरण, जिसमें X (और अन्य कारक) Y को प्रभावित करते हैं, कई मध्यवर्ती चर, वाद्य चर की आवश्यकता नहीं है I X का कारण; ऐसे कारण का प्रॉक्सी भी हो सकता है, जो उपयोग किया जाता है, यदि यह 1-5 शर्तों को पूर्ण करता है। बहिष्करण प्रतिबंध (शर्त 4) अनावश्यक है; यह स्थिति 2 और 3 से अनुसरण करता है।

उपयुक्त उपकरणों का चयन
चूँकि U का अवलोकन नहीं किया गया है, इसलिए आवश्यकता है कि Z, U से स्वतंत्र हो, डेटा से अनुमान नहीं लगाया जा सकता है, और इसके अतिरिक्त इसे स्वरुप संरचना, यानी डेटा-जनरेटिंग प्रक्रिया से निर्धारित किया जाना चाहिए। कारण ग्राफ़ इस संरचना का प्रतिनिधित्व करते हैं, और ऊपर दी गई ग्राफ़िकल परिभाषा का उपयोग यह निर्धारित करने के लिए किया जा सकता है कि क्या चर Z सहायक चर के रूप में योग्य है, जिसे सहसंयोजक W का समूह दिया गया है। यह देखने के लिए, निम्नलिखित उदाहरण पर विचार करें।

मान लीजिए कि हम ग्रेड प्वाइंट औसत (शिक्षा में ग्रेडिंग) पर विश्वविद्यालय ट्यूशन कार्यक्रम के प्रभाव का अनुमान लगाना चाहते हैं। ट्यूशन कार्यक्रम में भाग लेने और जीपीए के मध्य संबंध कई कारकों से भ्रमित हो सकता है। जो छात्र ट्यूशन कार्यक्रम में भाग लेते हैं वे अपने ग्रेड के सम्बन्ध में अधिक विचार कर सकते हैं या अपने काम से संघर्ष कर सकते हैं। इस त्रुटि को ट्यूशन प्रोग्राम और जीपीए के मध्य द्विदिश चाप के माध्यम से दाईं ओर चित्र 1-3 में दर्शाया गया है। यदि छात्रों को यादृच्छिक रूप से छात्रावासों में नियुक्त किया जाता है, तो ट्यूशन कार्यक्रम के लिए छात्र के छात्रावास की निकटता वाद्य चर होने के लिए स्वाभाविक उम्मीदवार है।

चूँकि, क्या होगा यदि ट्यूशन कार्यक्रम कॉलेज पुस्तकालय में स्थित है? उस स्थिति में, निकटता के कारण छात्रों को पुस्तकालय में अधिक समय लगाना पड़ सकता है, जिसके परिणामस्वरूप उनके GPA में सुधार होता है, (चित्र 1 देखें)। चित्र 2 में दर्शाए गए कारण ग्राफ का उपयोग करते हुए, हम देखते हैं कि निकटता वाद्य चर के रूप में योग्य नहीं है क्योंकि यह पथ निकटता के माध्यम से जीपीए से जुड़ा है $$ \rightarrow $$ पुस्तकालय के घंटे $$ \rightarrow $$ जीपीए में $$G_{\overline{X}}$$चूँकि, यदि हम लाइब्रेरी घंटों को सहसंयोजक के रूप में जोड़कर नियंत्रित करते हैं, तो निकटता वाद्य चर बन जाती है, क्योंकि निकटता GPA से भिन्न हो जाती है, लाइब्रेरी घंटों में $$G_{\overline{X}}$$.

अब, मान लीजिए कि हम देखते हैं कि छात्र की प्राकृतिक क्षमता लाइब्रेरी में उसके घंटों की संख्या के साथ-साथ उसके जीपीए को भी प्रभावित करती है, जैसा कि चित्र 3 में दिखाया गया है। कारण ग्राफ का उपयोग करते हुए, हम देखते हैं कि लाइब्रेरी के घंटे कोलाइडर और कंडीशनिंग हैं। यह निकटता का मार्ग खोलता है $$\rightarrow$$ पुस्तकालय के घंटे $$\leftrightarrow$$ जीपीए. परिणामस्वरूप, निकटता को वाद्य चर के रूप में उपयोग नहीं किया जा सकता है।

अंत में, मान लीजिए कि लाइब्रेरी के घंटे वास्तव में GPA को प्रभावित नहीं करते हैं क्योंकि जो छात्र लाइब्रेरी में नहीं पढ़ते हैं वे कहीं और पढ़ते हैं, जैसा कि चित्र 4 में है। इस विषय में, लाइब्रेरी के घंटों पर नियंत्रण अभी भी निकटता से GPA तक का नकली रास्ता बनाता है। चूँकि, यदि हम लाइब्रेरी के घंटों को नियंत्रित नहीं करते हैं और इसे सहसंयोजक के रूप में हटा देते हैं तो निकटता को फिर से वाद्य चर के रूप में उपयोग किया जा सकता है।

अनुमान
अब हम IV की यांत्रिकी पर पुनः विचार करेंगे और विस्तार करेंगे। मान लीजिए कि डेटा फॉर्म की प्रक्रिया द्वारा उत्पन्न होता है


 * $$ y_i = X_i \beta + e_i, $$

जहाँ
 * मैं अवलोकनों को अनुक्रमित करता हूं,
 * $$y_i$$ आश्रित चर का i-वां मान है,
 * $$X_i$$ स्वतंत्र चर और स्थिरांक के i-वें मानों का सदिश है,
 * $$e_i$$ के सभी कारणों का प्रतिनिधित्व करने वाले न देखे गए त्रुटि पद का i-वां मान है, $$y_i$$ के अतिरिक्त अन्य $$X_i$$, और
 * $$\beta$$ न देखा गया पैरामीटर सदिश है.

पैरामीटर सदिश $$\beta$$ पर कारणात्मक प्रभाव है I $$y_i$$ के प्रत्येक तत्व में इकाई परिवर्तन का $$X_i$$, अन्य सभी कारणों को बांधकर $$y_i$$ नियत है। अर्थमितीय लक्ष्य अनुमान लगाना है, $$\beta$$ सरलता के लिए मान लें कि e के चित्रण असंबद्ध हैं और वे समान विचरण वाले वितरणों से निकाले गए हैं (अर्थात, त्रुटियाँ क्रमिक रूप से असंबद्ध और समरूप हैं)।

यह भी मान लीजिए कि नाममात्र के समान रूप का प्रतिगमन स्वरुप प्रस्तावित है। इस प्रक्रिया से T अवलोकनों का यादृच्छिक प्रारूप देखते हुए, न्यूनतम वर्ग अनुमानक है


 * $$ \widehat{\beta}_\mathrm{OLS} = (X^\mathrm T X)^{-1} X^\mathrm T y = (X^\mathrm T X)^{-1} X^\mathrm T (X \beta + e) = \beta + (X^\mathrm T X)^{-1} X^\mathrm T e$$

जहां X, y और e लंबाई T के कॉलम सदिश को प्रदर्शित करते हैं। यह समीकरण सम्मिलित समीकरण के समान है I $$ \operatorname{cov}(X,y) $$ परिचय में (यह उस समीकरण का आव्यूह संस्करण है)। जब X और e सहसंबंध होते हैं, तो कुछ नियमितता शर्तों के अंतर्गत दूसरे पद में शून्य के  X पर अपेक्षित मूल्य सशर्त होता है और सीमा में शून्य पर परिवर्तित होता है, इसलिए अनुमानक पूर्वाग्रह और सुसंगत होता है। जब  X और अन्य बिना मापे गए, e शब्द में संक्षिप्त कारण चर सहसंबद्ध होते हैं, चूँकि, ओएलएस अनुमानक सामान्यतः β के लिए पक्षपाती और असंगत होता है। इस विषय में, X के दिए गए मानों के y के मानों की भविष्यवाणी करने के लिए अनुमानों का उपयोग करना मान्य है, किन्तु अनुमान y पर X के कारणात्मक प्रभाव को पुनर्प्राप्त नहीं करता है।

अंतर्निहित पैरामीटर को पुनर्प्राप्त करने के लिए $$ \beta $$, हम चर Z का समूह प्रदर्शित करते हैं, जो X के प्रत्येक एंडोजेनिटी (अर्थमिति) घटक के साथ अत्यधिक सहसंबद्ध है किन्तु (हमारे अंतर्निहित स्वरुप में) e के साथ सहसंबद्ध नहीं है। सरलता के लिए, कोई X को T × 2 आव्यूह मान सकता है जो स्थिरांक के स्तंभ और अंतर्जात चर से बना है, और Z ,T × 2 है जिसमें स्थिरांक का स्तंभ और वाद्य चर सम्मिलित है। चूँकि, यह तकनीक सामान्यीकृत करती है कि X स्थिरांक का आव्यूह है और, कहते हैं, 5 अंतर्जात चर, जिसमें Z स्थिरांक और 5 उपकरणों से बना आव्यूह है। इसके पश्चात् होने वाले वर्णन में, हम मान लेंगे कि X, T × K आव्यूह है और इस मान K को अनिर्दिष्ट त्याग देंगे। अनुमानक जिसमें X और Z दोनों T × K आव्यूह हैं, उसे पहचान कहा जाता है।

मान लीजिए कि प्रत्येक अंतर्जात घटक x के मध्य संबंध हैi और उपकरण द्वारा दिया गया है


 * $$ x_i = Z_i \gamma + v_i, $$

सामान्यतः IV विनिर्देश निम्नलिखित अनुमानक का उपयोग करता है:


 * $$ \widehat{\beta}_\mathrm{IV} = (Z^\mathrm T X)^{-1} Z^\mathrm T y $$

जैसे-जैसे प्रारूप बड़ा होता जाता है, यह विनिर्देशन वास्तविक पैरामीटर तक पहुंचता है, $$ Z^\mathrm T e = 0 $$ वास्तविक स्वरुप में:


 * $$ \widehat{\beta}_\mathrm{IV} = (Z^\mathrm T X)^{-1} Z^\mathrm T y = (Z^\mathrm T X)^{-1} Z^\mathrm T X \beta + (Z^\mathrm T X)^{-1} Z^\mathrm T e \rightarrow \beta    $$

जब तक कि $$ Z^\mathrm T e = 0 $$ डेटा उत्पन्न करने वाली अंतर्निहित प्रक्रिया में, IV अनुमानक का उचित उपयोग इस पैरामीटर की पहचान करेगा। यह काम करता है क्योंकि IV उस अद्वितीय पैरामीटर का समाधान करता है जो संतुष्ट करता है, $$ Z^\mathrm T e = 0 $$, और इसलिए प्रारूप आकार बढ़ने पर वास्तविक अंतर्निहित पैरामीटर पर ध्यान दिया जाता है।

अब विस्तार: मान लीजिए कि रुचि के समीकरण में सहसंयोजकों की तुलना में अधिक उपकरण हैं, जिससे Z, M > K के साथ T × M आव्यूह हो। इसे प्रायः 'अति-पहचान' वाला विषय कहा जाता है। इस विषय में, क्षणों की सामान्यीकृत विधि (जीएमएम) का उपयोग किया जा सकता है। GMM IV अनुमानक है:-


 * $$ \widehat{\beta}_\mathrm{GMM} = (X^\mathrm T P_Z X)^{-1}X^\mathrm T P_Z y,$$

जहाँ $$P_Z$$ प्रक्षेपण आव्यूह $$P_Z=Z(Z^\mathrm T Z)^{-1}Z^\mathrm T$$को संदर्भित करता है I

यह अभिव्यक्ति प्रथम बार ढह जाती है, जब उपकरणों की संख्या ब्याज के समीकरण में सहसंयोजकों की संख्या के बराबर होती है। इसलिए अति-पहचान किया गया IV, अभी-अभी पहचाने गए IV का सामान्यीकरण है।

का विकास करना $$\beta_\text{GMM}$$ अभिव्यक्ति:
 * $$ \widehat{\beta}_\mathrm{GMM} = (X^\mathrm{T} Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} X)^{-1}X^\mathrm{T} Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} y$$

अभी-अभी पहचाने गए मामले में, हमारे पास उतने ही उपकरण हैं जितने सहसंयोजक हैं, ताकि X का आयाम Z के समान हो। इसलिए, $$X^\mathrm{T} Z, Z^\mathrm{T} Z$$ और $$Z^\mathrm{T}X$$ सभी एक ही आयाम के वर्ग आव्यूह हैं। हम इस तथ्य का उपयोग करके व्युत्क्रम का विस्तार कर सकते हैं कि, किसी भी व्युत्क्रमणीय n-by-n आव्यूह 'ए' और 'बी' के लिए, ('एबी')−1 = बी−1ए−1 (इनवर्टेबल मैट्रिक्स#गुण देखें):

\begin{align} \widehat{\beta}_\mathrm{GMM} &= (Z^\mathrm{T} X)^{-1}(Z^\mathrm{T} Z)(X^\mathrm{T} Z)^{-1}X^\mathrm{T} Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} y\\ &= (Z^\mathrm{T} X)^{-1}(Z^\mathrm{T} Z)(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} y\\ &=(Z^\mathrm{T} X)^{-1}Z^\mathrm{T}y \\ &=\widehat{\beta}_\mathrm{IV} \end{align} $$ संदर्भ: डेविडसन और मैकिनॉन देखें (1993)

उस विषय के लिए समतुल्य पैरामीटर पहचान समस्या अनुमानक है, जहां m < k चूँकि पैरामीटर रैखिक समीकरणों के समूह के समाधान हैं, समीकरणों के समूह का उपयोग करने वाला कम-पहचान वाला स्वरुप $$ Z'v = 0 $$ कोई अनोखा समाधान नहीं है I

दो चरण वाले न्यूनतम वर्ग के रूप में व्याख्या
कम्प्यूटेशनल विधि जिसका उपयोग IV अनुमानों की गणना के लिए किया जा सकता है, वह दो-चरण न्यूनतम वर्ग (2SLS या TSLS) है। प्रथम चरण में, प्रत्येक व्याख्यात्मक चर जो रुचि के समीकरण में अंतर्जात सहसंयोजक है, स्वरुप में सभी बहिर्जात चर पर पुनः आ जाता है, जिसमें रुचि के समीकरण और बहिष्कृत उपकरणों में दोनों बहिर्जात सहसंयोजक सम्मिलित होते हैं। इन प्रतिगमनों से अनुमानित मान प्राप्त होते हैं:

चरण 1: X के प्रत्येक कॉलम को Z पर पुनः प्राप्त करें, ($$ X = Z \delta + \text{errors} $$):


 * $$\widehat{\delta}=(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T}X, \,$$

और अनुमानित मान इस प्रकार है:


 * $$\widehat{X}= Z\widehat{\delta} = {\color{ProcessBlue}Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T}}X = {\color{ProcessBlue}P_Z} X.\, $$

दूसरे चरण में, ब्याज के प्रतिगमन का अनुमान सदैव लगाया जाता है, अतिरिक्त इसके कि इस चरण में प्रत्येक अंतर्जात सहसंयोजक को प्रथम चरण से अनुमानित मूल्यों के साथ परिवर्तित कर दिया जाता है:

चरण 2: प्रथम चरण से अनुमानित मूल्यों पर Y को पुनः प्राप्त करें:


 * $$ Y = \widehat X \beta + \mathrm{noise},\,$$

इस प्रकार है:-
 * $$ \beta_\text{2SLS} = \left(X^\mathrm{T}{\color{ProcessBlue}P_Z} X\right)^{-1} X^\mathrm{T}{\color{ProcessBlue}P_Z}Y.$$

यह विधि केवल रैखिक स्वरुप में मान्य है। श्रेणीबद्ध अंतर्जात सहसंयोजकों के लिए, किसी को सामान्य न्यूनतम वर्गों की तुलना में भिन्न प्रथम चरण का उपयोग करने का प्रलोभन दिया जा सकता है, जैसे कि प्रथम चरण के लिए प्रोबिट स्वरुप और उसके पश्चात् दूसरे के लिए ओएलएस आदि। इसे सामान्यतः अर्थमिति साहित्य में निषिद्ध प्रतिगमन के रूप में जाना जाता है, क्योंकि दूसरे चरण IV पैरामीटर अनुमान केवल विशेष विषयों में ही सुसंगत होते हैं।

सामान्य OLS अनुमानक है: $$ (\widehat X^\mathrm{T}\widehat X)^{-1}\widehat X^\mathrm{T}Y$$. की जगह $$ \widehat X = P_Z X$$ और उसे नोट कर रहा हूँ $$P_Z $$ एक सममित और Idempotence मैट्रिक्स है, ताकि $$ P_Z^\mathrm{T}P_Z=P_Z P_Z = P_Z$$
 * $$ \beta_\text{2SLS} = (\widehat X^\mathrm{T}\widehat X)^{-1}\widehat X^\mathrm{T} Y = \left(X^\mathrm{T}P_Z^\mathrm{T}P_Z X\right)^{-1} X^\mathrm{T}P_Z^\mathrm{T}Y=\left(X^\mathrm{T}P_Z X\right)^{-1} X^\mathrm{T}P_ZY.$$

$$\beta$$ का परिणामी अनुमानक संख्यात्मक रूप से ऊपर प्रदर्शित अभिव्यक्ति के समान है। दूसरे चरण के फिट स्वरुप में वर्ग-अवशेषों के योग में छोटा सा सुधार किया जाना चाहिए जिससे सहप्रसरण मैट्रिक्स $$\beta$$ सही गणना की गई है.

गैर-पैरामीट्रिक विश्लेषण
जब संरचनात्मक समीकरणों का रूप अज्ञात हो, तो वाद्य चर $$Z$$ अभी भी समीकरणों के माध्यम से परिभाषित किया जा सकता है:


 * $$x = g(z,u) \, $$
 * $$y = f(x,u) \, $$

जहाँ $$f$$ और $$g$$ दो स्वेच्छानुसार कार्य हैं, और $$Z$$ से $$U$$ स्वतंत्र है I चूँकि, रैखिक स्वरुप के विपरीत, की माप $$Z, X$$ और $$Y$$ के औसत कारण प्रभाव की पहचान की अनुमति न दें, $$X$$ पर $$Y$$, ACE निरूपित किया गया
 * $$\text{ACE} = \Pr(y\mid \text{do}(x)) = \operatorname{E}_u[f(x,u)].$$

बाल्के और पर्ल [1997] ने एसीई पर कड़ी सीमाएं निकालीं और दिखाया कि ये एसीई के संकेत और आकार पर बहुमूल्य सूचना प्रदान कर सकते हैं। रैखिक विश्लेषण में, धारणा को गलत सिद्ध करने के लिए कोई परीक्षण नहीं है, $$Z$$ जोड़ी के सापेक्ष सहायक $$(X,Y)$$ है, ऐसा तब नहीं होता जब $$X$$ पृथक है, पर्ल (2000) ने यह सब प्रदर्शित किया है, $$f$$ और $$g$$, निम्नलिखित बाधा, जिसे वाद्य असमानता कहा जाता है, जब भी प्रस्तावित होनी चाहिए I $$Z$$ उपरोक्त दो समीकरणों को संतुष्ट करता है: :$$\max_x \sum_y [\max_z \Pr(y,x\mid z)]\leq 1.$$

चिकित्सा प्रभाव विषमता के अंतर्गत व्याख्या
उपरोक्त व्याख्या यह मानती है कि रुचि का कारणात्मक प्रभाव अवलोकनों में भिन्न नहीं होता है, अर्थात् $$\beta$$ स्थिरांक है I सामान्यतः, भिन्न-भिन्न विषय उपचार x में परिवर्तनों पर भिन्न-भिन्न उपायों से प्रतिक्रिया देंगे। जब इस संभावना को पहचाना जाता है, तो x पर y में परिवर्तन का जनसंख्या में औसत प्रभाव किसी दिए गए उप-जनसंख्या में प्रभाव से भिन्न हो सकता है। उदाहरण के लिए, नौकरी प्रशिक्षण कार्यक्रम का औसत प्रभाव वास्तव में प्रशिक्षण प्राप्त करने वाले लोगों के समूह और प्रशिक्षण प्राप्त न करने का विकल्प चुनने वाले समूह में भिन्न हो सकता है। इन कारणों से, IV विधियाँ व्यवहारिक प्रतिक्रिया पर अंतर्निहित धारणाओं, या अधिक सामान्यतः चिकित्सा की प्रतिक्रिया और उपचार प्राप्त करने की प्रवृत्ति के मध्य संबंध पर धारणाओं को प्रस्तावित करती हैं। मानक IV अनुमानक औसत चिकित्सा प्रभाव (ATE) के अतिरिक्त स्थानीय औसत चिकित्सा प्रभाव (LATE) पुनर्प्राप्त कर सकता है। इम्बेन्स और एंग्रिस्ट (1994) प्रदर्शित करते हैं कि रैखिक IV अनुमान की व्याख्या निर्बल परिस्थितियों में स्थानीय औसत चिकित्सा प्रभावों के भारित औसत के रूप में की जा सकती है, जहां भार वाद्य चर में परिवर्तन के लिए अंतर्जात प्रतिगामी की लोच पर निर्भर करता है। सामान्यतः, इसका आशय है कि चर का प्रभाव केवल उपकरणों में देखे गए परिवर्तनों से प्रभावित उप-जनसँख्या के लिए प्रकट होता है, और जो उप-जनसँख्या उपकरणों में परिवर्तनों पर सबसे अधिक प्रतिक्रिया करती है, उसका IV अनुमान के परिमाण पर सबसे बड़ा प्रभाव होगा।

उदाहरण के लिए, यदि कोई शोधकर्ता आय प्रतिगमन में कॉलेज की शिक्षा के लिए भूमि-अनुदान कॉलेज की उपस्थिति को पकरण के रूप में उपयोग करता है, तो वह उप-जनसंख्या में कमाई पर कॉलेज के प्रभाव की पहचान करती है, जो कॉलेज उपस्थित होने पर कॉलेज की डिग्री प्राप्त करेगी, किन्तु यदि कोई कॉलेज उपस्थित नहीं है तो डिग्री प्राप्त न करें। यह अनुभवजन्य दृष्टिकोण, आगे की धारणाओं के अतिरिक्त, शोधकर्ता को उन लोगों के मध्य कॉलेज के प्रभाव के सम्बन्ध में कुछ भी नहीं बताता है जो या तो सदैव या कभी कॉलेज की डिग्री प्राप्त नहीं करेंगे, भले ही स्थानीय कॉलेज उपस्थित हो या नहीं।

निर्बल उपकरणों की समस्या
जैसा कि बाउंड, डेविड ए. जैगर, और बेकर (1995) ने नोट किया है, समस्या निर्बल उपकरणों के चयन के कारण होती है, ऐसे उपकरण जो प्रथम चरण के समीकरण में अंतर्जात प्रश्न भविष्यवक्ता के बुरे भविष्यवक्ता हैं। इस विषय में, उपकरण द्वारा प्रश्न भविष्यवक्ता की भविष्यवाणी अशुभ होगी और अनुमानित मूल्यों में बहुत निम्न भिन्नता होगी। परिणाम स्वरुप, जब उन्हें द्वितीय चरण के समीकरण में प्रश्न भविष्यवक्ता को परिवर्तित करने के लिए उपयोग किया जाता है, तो उन्हें अंतिम परिणाम की भविष्यवाणी करने में अधिक सफलता मिलने की संभावना नहीं है।

ऊपर चर्चा किए गए धूम्रपान और स्वास्थ्य उदाहरण के संदर्भ में, तम्बाकू कर धूम्रपान के लिए निर्बल साधन हैं यदि धूम्रपान की स्थिति करों में परिवर्तन के प्रति अनुत्तरदायी है। यदि उच्च कर लोगों को धूम्रपान त्याग करने (या धूम्रपान प्रारम्भ नहीं करने) के लिए प्रेरित नहीं करते हैं, तो कर दरों में भिन्नता हमें स्वास्थ्य पर धूम्रपान के प्रभाव के सम्बन्ध में कुछ नहीं बताती है। यदि कर धूम्रपान पर अपने प्रभाव के अलावा अन्य चैनलों के माध्यम से स्वास्थ्य को प्रभावित करते हैं, तो उपकरण अमान्य हैं और वाद्य परिवर्तनशील दृष्टिकोण भ्रामक परिणाम दे सकता है। उदाहरण के लिए, अपेक्षाकृत स्वास्थ्य के प्रति जागरूक जनसँख्या वाले स्थान और समय दोनों उच्च तंबाकू करों को लागू कर सकते हैं और धूम्रपान की दरों को स्थिर रखते हुए भी अच्छे स्वास्थ्य प्रदर्शित कर सकते हैं, इसलिए हम स्वास्थ्य और तंबाकू करों के मध्य संबंध देखेंगे, भले ही ऐसा विषय हो कि धूम्रपान का कोई प्रभाव नहीं है। स्वस्थ्य पर इस विषय में, हम तंबाकू करों और स्वास्थ्य के मध्य देखे गए सहसंबंध से स्वास्थ्य पर धूम्रपान के कारणात्मक प्रभाव का अनुमान लगाने में गलती करते है।

निर्बल उपकरणों का परीक्षण
उपकरणों की दृढ़ता का सीधे आकलन किया जा सकता है क्योंकि अंतर्जात सहसंयोजक और उपकरण दोनों अवलोकन योग्य हैं। अंतर्जात प्रतिगमन वाले स्वरुप के लिए सामान्य नियम यह है: प्रथम चरण के प्रतिगमन में बहिष्कृत उपकरण अप्रासंगिक हैं, इस शून्य के विरुद्ध F-सांख्यिकी 10 से बड़ी होनी चाहिए I

सांख्यिकीय अनुमान और परिकल्पना परीक्षण
जब सहसंयोजक बहिर्जात होते हैं, तो ओएलएस अनुमानक के छोटे-प्रारूपों गुणों को X पर सशर्त अनुमानक के क्षणों की गणना करके सीधे प्रकार से प्राप्त किया जा सकता है। जब कुछ सहसंयोजक अंतर्जात होते हैं, तो वाद्य चर अनुमान प्रस्तावित किया जाता है, इसके लिए सरल अभिव्यक्तियाँ अनुमानक के क्षण इस प्रकार प्राप्त नहीं किये जा सकते है। सामान्यतः, वाद्य चर अनुमानकों में केवल वांछनीय स्पर्शोन्मुख होता है, न कि परिमित प्रारूप, गुण, और अनुमान अनुमानक के प्रारूप वितरण के स्पर्शोन्मुख अनुमानों पर आधारित होता है। यहां तक ​​कि जब उपकरण ब्याज के समीकरण में त्रुटि से असंबंधित होते हैं और जब उपकरण निर्बल नहीं होते हैं, तो उपकरण चर अनुमानक के परिमित प्रारूप गुण हानिकारक हो सकते हैं। उदाहरण के लिए, पहचाने गए स्वरुप बिना किसी क्षण के परिमित प्रारूप अनुमानक उत्पन्न करते हैं, इसलिए अनुमानक को न तो पक्षपाती और न ही निष्पक्ष कहा जा सकता है, परीक्षण आंकड़ों का नाममात्र आकार अधिक विकृत हो सकता है, और अनुमान सामान्यतः वास्तविक मूल्य से बहुत दूर हो सकते हैं I

बहिष्करण प्रतिबंध का परीक्षण
यह धारणा कि उपकरण रुचि के समीकरण में त्रुटि शब्द से संबंधित नहीं हैं, किन्तु प्राप्त किये गए स्वरुप में परीक्षण योग्य नहीं है। यदि स्वरुप की अधिक पहचान की गई है, तो ऐसी जानकारी उपलब्ध है, जिसका उपयोग इस धारणा का परीक्षण करने के लिए किया जा सकता है। इन अति पहचान प्रतिबंधों का सबसे सामान्य परीक्षण, जिसे सर्गन-हैनसेन परीक्षण कहा जाता है, इस अवलोकन पर आधारित है कि यदि उपकरण वास्तव में बहिर्जात हैं तो अवशेषों को बहिर्जात चर के समूह के साथ असंबद्ध होना चाहिए। सर्गन-हैनसेन परीक्षण $$TR^2$$सांख्यिकी की गणना इस प्रकार की जा सकती है I (निर्धारण के गुणांक द्वारा गुणा किए गए अवलोकनों की संख्या) बहिर्जात चर के समूह पर अवशेषों के ओएलएस प्रतिगमन से यह आँकड़ा शून्य के अंतर्गत स्वतंत्रता की m − k डिग्री के साथ असम्बद्ध रूप से ची-वर्ग किया जाएगा कि त्रुटि शब्द उपकरणों के साथ असंबंधित है।

यह भी देखें

 * नियंत्रण फलन (अर्थमिति)
 * इष्टतम उपकरण

ग्रन्थसूची

 * Wooldridge, J. (1997): Quasi-Likelihood Methods for Count Data, Handbook of Applied Econometrics, Volume 2, ed. M. H. Pesaran and P. Schmidt, Oxford, Blackwell, pp. 352–406
 * Terza, J. V. (1998): "Estimating Count Models with Endogenous Switching: Sample Selection and Endogenous Treatment Effects." Journal of Econometrics (84), pp. 129–154
 * Wooldridge, J. (2002): "Econometric Analysis of Cross Section and Panel Data", MIT Press, Cambridge, Massachusetts.

बाहरी संबंध

 * Chapter from Daniel McFadden's textbook
 * by Mark Thoma.
 * by Mark Thoma