वाद्य चर अनुमान

सांख्यिकी, अर्थमिति, महामारी विज्ञान और संबंधित विषयों में, जब नियंत्रित प्रयोग संभव नहीं होते हैं या जब यादृच्छिक प्रयोग में प्रत्येक इकाई तक उपचार सफलतापूर्वक नहीं पहुंचाया जाता है, तो कारण अनुमान ज्ञात करने के लिए वाद्य चर (IV) की विधि का उपयोग किया जाता है। सहज रूप से, IV का उपयोग तब किया जाता है जब ब्याज का व्याख्यात्मक चर त्रुटि शब्द के साथ सहसंबद्ध होता है, उस स्थिति में साधारण न्यूनतम वर्ग और एनोवा पूर्वाग्रह (सांख्यिकी) परिणाम प्राप्त होते हैं। वैध उपकरण व्याख्यात्मक चर में परिवर्तन करता है, किन्तु आश्रित चर पर कोई स्वतंत्र प्रभाव नहीं डालता है, जिससे शोधकर्ता को आश्रित चर पर व्याख्यात्मक चर के कारण प्रभाव को प्रदर्शित करने की अनुमति मिलती है।

स्वरुप में आंकड़े जब आश्रित और स्वतंत्र चर (सहसंयोजक) प्रतिगमन विश्लेषण में त्रुटियों और अवशेषों के साथ सहसंबंधित होते हैं, तो वाद्य चर विधियां सुसंगत अनुमानक अनुमान की अनुमति देती हैं। ऐसा सहसंबंध तब घटित हो सकता है जब: प्रतिगमन के संदर्भ में इनमें से अधिक विषयों से ग्रस्त व्याख्यात्मक चर को कभी-कभी अंतर्जातता (अर्थमिति) के रूप में जाना जाता है। इस स्थिति में, साधारण न्यूनतम वर्ग पक्षपातपूर्ण और असंगत अनुमान उत्पन्न करते हैं। चूँकि, यदि कोई उपकरण उपलब्ध है, तो भी सुसंगत अनुमान प्राप्त किए जा सकते हैं। उपकरण ऐसा चर है जो स्वयं व्याख्यात्मक समीकरण में सम्मिलित नहीं होता है, किन्तु अन्य सहसंयोजकों के मान पर नियमानुसार रूप से अंतर्जातता (अर्थमिति) व्याख्यात्मक चर के साथ सहसंबद्ध होता है।
 * 1) आश्रित चर में परिवर्तन से कम से कम एक सहसंयोजक (विपरीत कारण) का मान परिवर्तित हो जाता है,
 * 2) ऐसे त्याग किये गए-चर पूर्वाग्रह हैं, जो आश्रित और व्याख्यात्मक चर दोनों को प्रभावित करते हैं, या
 * 3) चर स्वरुप में त्रुटियाँ सहसंयोजक गैर-यादृच्छिक माप त्रुटि के अधीन होती हैं।

रैखिक स्वरुप में, IVs का उपयोग करने के लिए दो मुख्य आवश्यकताएँ हैं:
 * उपकरण को अन्य सहसंयोजकों पर नियमानुसार रूप से अंतर्जात व्याख्यात्मक चर के साथ सहसंबद्ध होना चाहिए। यदि यह सहसंबंध दृढ़ है, तो उपकरण को 'दृढ़ प्रथम चरण' कहा जाता है। निर्बल सहसंबंध पैरामीटर अनुमान और मानक त्रुटियों के सम्बन्ध में भ्रामक निष्कर्ष प्रदान कर सकता है।
 * उपकरण को अन्य सहसंयोजकों पर नियमानुसार रूप से व्याख्यात्मक समीकरण में त्रुटि शब्द के साथ सहसंबद्ध नहीं किया जा सकता है। दूसरे शब्दों में, उपकरण मूल पूर्वानुमान चर के समान समस्या से ग्रस्त नहीं हो सकता है। यदि यह प्रावधान पूर्ण हो जाते है, तो कहा जाता है कि उपकरण बहिष्करण प्रतिबंध को पूर्ण करता है।

उदाहरण
अनौपचारिक रूप से, किसी अन्य Y (स्वतंत्र चर) पर कुछ चर इस प्रकार है:-

उदाहरण के लिए, मान लीजिए कि शोधकर्ता सामान्य स्वास्थ्य (Y) पर धूम्रपान (X) के कारण प्रभाव का अनुमान लगाना चाहता है। धूम्रपान और स्वास्थ्य के मध्य संबंध का आशय यह नहीं है कि धूम्रपान हानिकारक स्वास्थ्य का कारण बनता है क्योंकि अन्य कारक, जैसे अवसाद, स्वास्थ्य और धूम्रपान दोनों को प्रभावित कर सकते हैं, या क्योंकि स्वास्थ्य धूम्रपान को प्रभावित कर सकता है। सामान्य जनसँख्या में धूम्रपान की स्थिति पर नियंत्रित प्रयोग करना संभव नहीं है। शोधकर्ता धूम्रपान के साधन के रूप में तंबाकू उत्पादों (Z) के लिए कर की दर का उपयोग करके अवलोकन डेटा से स्वास्थ्य पर धूम्रपान के कारण प्रभाव का अनुमान लगाने का प्रयास कर सकता है। तम्बाकू उत्पादों के लिए कर की दर साधन के लिए उचित विकल्प है क्योंकि शोधकर्ता का मानना ​​है कि केवल धूम्रपान पर इसके प्रभाव के माध्यम से स्वास्थ्य के साथ जोड़ा जा सकता है। यदि शोधकर्ता को तम्बाकू कर और स्वास्थ्य की स्थिति सहसंबद्ध लगती है, तो इसे प्रमाण के रूप में देखा जा सकता है कि धूम्रपान के कारण स्वास्थ्य में परिवर्तन होता है।

इतिहास
इंस्ट्रूमेंट चर का प्रथम प्रयोग फिलिप ग्रीन राइट की 1928 की पुस्तक में हुआ था। फिलिप जी. राइट, संयुक्त राज्य अमेरिका में 1900 के दशक के प्रारम्भ में वनस्पति और पशु तेलों के उत्पादन, परिवहन और बिक्री के उत्कृष्ट विवरण के लिए जाने जाते हैं। जबकि 1945 में, ओलाव रेयर्सोल ने अपने शोध प्रबंध में त्रुटियों-में-चर स्वरुप के संदर्भ में उसी दृष्टिकोण को प्रस्तावित किया, जिससे विधि को इसका नाम मिला। राइट ने संयुक्त राज्य अमेरिका में विक्रय की गई कीमतों और मात्रा पर पैनल डेटा का उपयोग करके मक्खन की आपूर्ति और मांग निर्धारित करने का प्रयास किया। विचार यह था कि प्रतिगमन विश्लेषण मांग या आपूर्ति वक्र उत्पन्न कर सकता है क्योंकि वे कीमतों और मांग या आपूर्ति की मात्रा के मध्य के पथ से बनते हैं। समस्या यह थी कि अवलोकन डेटा ने मांग या आपूर्ति वक्र नहीं बनाया, परिणाम स्वरुप बिंदु अवलोकनों का बादल बनाया जो भिन्न-भिन्न बाजार स्थितियों के अंतर्गत भिन्न-भिन्न आकार लेता था। ऐसा लग रहा था कि डेटा से कटौती करना मायावी बना हुआ है।

समस्या यह थी कि कीमत आपूर्ति और मांग दोनों को प्रभावित करती थी, इसलिए दोनों में से केवल एक का वर्णन करने वाला फलन सीधे अवलोकन डेटा से नहीं बनाया जा सकता था। राइट ने उचित रूप से निष्कर्ष निकाला कि उन्हें ऐसे चर की आवश्यकता थी जो या तो मांग या आपूर्ति से संबंधित हो, किन्तु दोनों से नहीं - यानी, वाद्य चर आदि।

विचार-विमर्श के पश्चात्, राइट ने क्षेत्रीय वर्षा को अपने सहायक चर के रूप में उपयोग करने का निर्णय लिया: उन्होंने निष्कर्ष निकाला कि वर्षा ने घास के उत्पादन को प्रभावित किया और इसलिए दूध उत्पादन और अंततः मक्खन की आपूर्ति प्रभावित हुई, किन्तु मक्खन की मांग नहीं हुई। इस प्रकार वह केवल कीमत और आपूर्ति के वाद्य चर के साथ प्रतिगमन समीकरण बनाने में सक्षम था। 2000 में जुडिया पर्ल द्वारा प्रतितथ्यात्मक और ग्राफिकल मानदंडों का उपयोग करते हुए वाद्य चर की औपचारिक परिभाषाएँ दी गईं। जोशुआ एंग्रिस्ट और एलन क्रुएगर (2001) वाद्य परिवर्तनीय तकनीकों के इतिहास और उपयोग का सर्वेक्षण प्रस्तुत करते हैं। अर्थमिति में कार्य-कारण की धारणाएं, और वाद्य चर और अन्य उपायों के साथ उनके संबंध पर जेम्स हेक्मैन (2008) द्वारा वर्णन किया गया है।

सिद्धांत
जबकि IV के पूर्व के विचार स्वरूपों की विस्तृत श्रेणी तक विस्तारित हुए हैं, IV के लिए अत्यधिक सामान्य संदर्भ रैखिक प्रतिगमन में होते है। परंपरागत रूप से, वाद्य चर परिभाषित किया गया है I चर Z के रूप में जो स्वतंत्र चर X के साथ सहसंबद्ध है, और रैखिक समीकरण में त्रुटि पद U के साथ असंबद्ध है, इस प्रकार है:-


 * $$Y = X \beta + U $$

$$Y$$ सदिश है, $$X$$ आव्यूह है, सामान्यतः इकाइयों के कॉलम के साथ और अन्य सहसंयोजकों के लिए अतिरिक्त कॉलम के साथ विचार करें कि कोई उपकरण कैसे अनुमति देता है I $$\beta$$ पुनर्प्राप्त किया जाना है I याद रखें कि साधारण न्यूनतम वर्ग समाधान करता है, $$ \widehat{\beta }$$ ऐसा है कि $$\operatorname{cov}(X,\widehat U) = 0$$ (जब हम त्रुटियों का योग कम करते हैं, $$\min_\beta (Y- X\beta)'(Y- X\beta) $$, प्रथम-क्रम की स्थिति बिल्कुल वैसी ही है, $$ X' (Y- X\widehat{\beta}) = X' \widehat{U} = 0 $$.) यदि सच्चा स्वरुप माना जाता है I $$\operatorname{cov}(X,U) \neq 0$$ ऊपर सूचीबद्ध किसी भी कारण से - उदाहरण के लिए, यदि कोई त्याग किया गया-परिवर्तनीय पूर्वाग्रह है, जो दोनों को प्रभावित करता है I $$X$$ और $$Y$$ भिन्न-भिन्न तो यह सामान्य न्यूनतम वर्ग प्रक्रिया का कारणात्मक प्रभाव उत्पन्न नहीं करेगी I $$X$$ पर $$Y$$. ओएलएस बस उस पैरामीटर को चुनेगा जिससे परिणामी त्रुटियां $$X$$ असंबंधित दिखाई देंगी I

सरलता के लिए एकल-चर विषय पर विचार करें। मान लीजिए कि हम चर और स्थिरांक के साथ प्रतिगमन पर विचार कर रहे हैं, (कोई अन्य सहसंयोजक आवश्यक नहीं है, या हमारे निकट फ्रिस्क-वॉ-लोवेल प्रमेय कोई अन्य प्रासंगिक सहसंयोजक है):


 * $$y=\alpha + \beta x + u$$

इस विषय में, ब्याज के प्रतिगामी पर गुणांक द्वारा दिया जाता है, $$ \widehat{\beta }= \frac{\operatorname{cov}(x,y)}{\operatorname{var}(x)} $$. के लिए स्थानापन्न $$y$$ है:-



\begin{align} \widehat{\beta} & = \frac{\operatorname{cov}(x,y)}{\operatorname{var}(x)} = \frac{\operatorname{cov}(x,\alpha + \beta x + u)}{\operatorname{var}(x)} \\[6pt] & =\frac{\operatorname{cov}(x, \alpha +\beta x)}{\operatorname{var}(x)} +\frac{\operatorname{cov}(x,u)}{\operatorname{var}(x)}= \beta^* + \frac{\operatorname{cov}(x,u)}{\operatorname{var}(x)}, \end{align} $$ जहाँ $$\beta^*$$ यदि x का u के साथ सहसंबद्ध न हो तो अनुमानित गुणांक सदिश क्या होगा। ऐसे में ये दिखाया जा सकता है I $$\beta^*$$ का निष्पक्ष अनुमानक $$\beta .$$ है I यदि $$\operatorname{cov}(x,u) \neq 0$$ अंतर्निहित स्वरुप में, जिस पर हम विश्वास करते हैं, सामान्य न्यूनतम वर्ग गुणांक होता है, जो ब्याज के अंतर्निहित कारण प्रभाव को प्रतिबिंबित नहीं करता है। IV मापदंडों की पहचान करके इस समस्या को ठीक करने में सहायता करता है I $${\beta}$$ चाहे $$x$$ पर आधारित न हो $$u$$ से असंबंधित है, किन्तु इस पर आधारित है कि क्या कोई अन्य चर $$z$$ से असंबंधित है I $$u$$ यदि सिद्धांत है $$z$$ से संबंधित है, $$x$$ (प्रथम चरण) किन्तु इससे असंबद्ध $$u$$ (बहिष्करण प्रतिबंध) है, तो IV ब्याज के कारण पैरामीटर की पहचान कर सकता है जहां ओएलएस विफल रहता है। क्योंकि केवल रैखिक विषय (IV, 2SLS, GMM) में भी IV अनुमानकों का उपयोग करने और प्राप्त करने के कई विशिष्ट उपाय हैं, हम नीचे अनुमान अनुभाग के लिए आगे की वर्णन करते हैं।

ग्राफ़िकल परिभाषा
IV प्रौद्योगिकी को गैर-रेखीय स्वरुपों के व्यापक वर्ग के मध्य विकसित किया गया है। पर्ल (2000; पृष्ठ 248) द्वारा प्रतितथ्यात्मक और ग्राफिकल औपचारिकता का उपयोग करते हुए वाद्य चर की सामान्य परिभाषाएँ दी गईं। ग्राफिकल परिभाषा के लिए आवश्यक है कि Z निम्नलिखित प्रावधानों को पूरा करे:


 * $$(Z \perp\!\!\!\perp Y)_{G_{\overline{X}}} \qquad(Z \not\!\!{\perp\!\!\!\perp} X)_G $$

जहाँ $$\perp\!\!\!\perp$$ बायेसियन नेटवर्क डी-सेपरेशन और $$G_{\overline{X}}$$ के लिए है, बायेसियन नेटवर्क को प्रदर्शित करता है, जिसमें X में प्रवेश करने वाले सभी तीर काट दिए जाते हैं।

प्रतितथ्यात्मक परिभाषा के लिए आवश्यक है कि Z संतुष्ट हो


 * $$(Z \perp\!\!\!\perp Y_x)\qquad (Z \not\!\!{\perp\!\!\!\perp} X)$$

जहाँ Yx उस मान को प्रदर्शित करता है जो Y प्राप्त करेगा यदि X, x होता और $$\perp\!\!\!\perp$$ स्वतंत्रता है.

यदि अतिरिक्त सहसंयोजक W हैं, तो उपरोक्त परिभाषाओं को संशोधित किया जाता है, जिससे Z उपकरण के रूप में अर्हता प्राप्त कर सके यदि दिए गए मानदंड W पर नियमानुसार हों।

पर्ल की परिभाषा का सार यह है:
 * 1) रुचि के समीकरण संरचनात्मक हैं, प्रतिगमन नहीं हैं।
 * 2) त्रुटि शब्द U उन सभी बहिर्जात कारकों को प्रदर्शित करता है, जो X को स्थिर रखने पर Y को प्रभावित करते हैं।
 * 3) उपकरण Z, U से स्वतंत्र होना चाहिए।
 * 4) जब X को स्थिर रखा जाता है (बहिष्करण प्रतिबंध) तो उपकरण Z को Y को प्रभावित नहीं करना चाहिए।
 * 5) उपकरण Z, X से स्वतंत्र नहीं होना चाहिए।

ये स्थितियाँ विशिष्ट कार्यात्मकता पर निर्भर नहीं करतीं हैं I समीकरणों का रूप इसलिए प्रस्तावित होते हैं I अरैखिक समीकरण, जहाँ U a-योगात्मक हो सकता है, (गैर-पैरामीट्रिक विश्लेषण देखें)। वे एकाधिक की प्रणाली पर भी प्रस्तावित होते हैं, समीकरण, जिसमें X (और अन्य कारक) Y को प्रभावित करते हैं, कई मध्यवर्ती चर, वाद्य चर की आवश्यकता नहीं है I X का कारण; ऐसे कारण का प्रॉक्सी भी हो सकता है, जो उपयोग किया जाता है, यदि यह 1-5 प्रावधानों को पूर्ण करता है। बहिष्करण प्रतिबंध (प्रावधान 4) अनावश्यक है; यह स्थिति 2 और 3 से अनुसरण करता है।

उपयुक्त उपकरणों का चयन
चूँकि U का अवलोकन नहीं किया गया है, इसलिए आवश्यकता है कि Z, U से स्वतंत्र हो, डेटा से अनुमान नहीं लगाया जा सकता है, और इसके अतिरिक्त इसे स्वरुप संरचना, यानी डेटा-जनरेटिंग प्रक्रिया से निर्धारित किया जाना चाहिए। कारण ग्राफ़ इस संरचना का प्रतिनिधित्व करते हैं, और ऊपर दी गई ग्राफ़िकल परिभाषा का उपयोग यह निर्धारित करने के लिए किया जा सकता है कि क्या चर Z सहायक चर के रूप में योग्य है, जिसे सहसंयोजक W का समूह दिया गया है। यह देखने के लिए, निम्नलिखित उदाहरण पर विचार करें।

मान लीजिए कि हम ग्रेड प्वाइंट औसत (शिक्षा में ग्रेडिंग) पर विश्वविद्यालय ट्यूशन कार्यक्रम के प्रभाव का अनुमान लगाना चाहते हैं। ट्यूशन कार्यक्रम में भाग लेने और जीपीए के मध्य संबंध कई कारकों से भ्रमित हो सकता है। जो छात्र ट्यूशन कार्यक्रम में भाग लेते हैं वे अपने ग्रेड के सम्बन्ध में अधिक विचार कर सकते हैं या अपने काम से संघर्ष कर सकते हैं। इस त्रुटि को ट्यूशन प्रोग्राम और जीपीए के मध्य द्विदिश चाप के माध्यम से दाईं ओर चित्र 1-3 में दर्शाया गया है। यदि छात्रों को यादृच्छिक रूप से छात्रावासों में नियुक्त किया जाता है, तो ट्यूशन कार्यक्रम के लिए छात्र के छात्रावास की निकटता वाद्य चर होने के लिए स्वाभाविक उम्मीदवार है।

चूँकि, क्या होगा यदि ट्यूशन कार्यक्रम कॉलेज पुस्तकालय में स्थित है? उस स्थिति में, निकटता के कारण छात्रों को पुस्तकालय में अधिक समय लगाना पड़ सकता है, जिसके परिणामस्वरूप उनके GPA में सुधार होता है, (चित्र 1 देखें)। चित्र 2 में दर्शाए गए कारण ग्राफ का उपयोग करते हुए, हम देखते हैं कि निकटता वाद्य चर के रूप में योग्य नहीं है क्योंकि यह पथ निकटता के माध्यम से जीपीए से जुड़ा है $$ \rightarrow $$ पुस्तकालय के घंटे $$ \rightarrow $$ जीपीए में $$G_{\overline{X}}$$चूँकि, यदि हम लाइब्रेरी घंटों को सहसंयोजक के रूप में जोड़कर नियंत्रित करते हैं, तो निकटता वाद्य चर बन जाती है, क्योंकि निकटता GPA से भिन्न हो जाती है, लाइब्रेरी घंटों में $$G_{\overline{X}}$$.

अब, मान लीजिए कि हम देखते हैं कि छात्र की प्राकृतिक क्षमता लाइब्रेरी में उसके घंटों की संख्या के साथ-साथ उसके जीपीए को भी प्रभावित करती है, जैसा कि चित्र 3 में दिखाया गया है। कारण ग्राफ का उपयोग करते हुए, हम देखते हैं कि लाइब्रेरी के घंटे कोलाइडर और कंडीशनिंग हैं। यह निकटता का मार्ग खोलता है $$\rightarrow$$ पुस्तकालय के घंटे $$\leftrightarrow$$ जीपीए. परिणामस्वरूप, निकटता को वाद्य चर के रूप में उपयोग नहीं किया जा सकता है।

अंत में, मान लीजिए कि लाइब्रेरी के घंटे वास्तव में GPA को प्रभावित नहीं करते हैं क्योंकि जो छात्र लाइब्रेरी में नहीं पढ़ते हैं वे कहीं और पढ़ते हैं, जैसा कि चित्र 4 में है। इस विषय में, लाइब्रेरी के घंटों पर नियंत्रण अभी भी निकटता से GPA तक का नकली रास्ता बनाता है। चूँकि, यदि हम लाइब्रेरी के घंटों को नियंत्रित नहीं करते हैं और इसे सहसंयोजक के रूप में हटा देते हैं तो निकटता को फिर से वाद्य चर के रूप में उपयोग किया जा सकता है।

अनुमान
अब हम IV की यांत्रिकी पर पुनः विचार करेंगे और विस्तार करेंगे। मान लीजिए कि डेटा फॉर्म की प्रक्रिया द्वारा उत्पन्न होता है


 * $$ y_i = X_i \beta + e_i, $$

जहाँ
 * मैं अवलोकनों को अनुक्रमित करता हूं,
 * $$y_i$$ आश्रित चर का i-वां मान है,
 * $$X_i$$ स्वतंत्र चर और स्थिरांक के i-वें मानों का सदिश है,
 * $$e_i$$ के सभी कारणों का प्रतिनिधित्व करने वाले न देखे गए त्रुटि पद का i-वां मान है, $$y_i$$ के अतिरिक्त अन्य $$X_i$$, और
 * $$\beta$$ न देखा गया पैरामीटर सदिश है।

पैरामीटर सदिश $$\beta$$ पर कारणात्मक प्रभाव है I $$y_i$$ के प्रत्येक तत्व में इकाई परिवर्तन का $$X_i$$, अन्य सभी कारणों को बांधकर $$y_i$$ नियत है। अर्थमितीय लक्ष्य अनुमान लगाना है, $$\beta$$ सरलता के लिए मान लें कि e के चित्रण असंबद्ध हैं और वे समान विचरण वाले वितरणों से निकाले गए हैं (अर्थात, त्रुटियाँ क्रमिक रूप से असंबद्ध और समरूप हैं)।

यह भी मान लीजिए कि नाममात्र के समान रूप का प्रतिगमन स्वरुप प्रस्तावित है। इस प्रक्रिया से T अवलोकनों का यादृच्छिक प्रारूप देखते हुए, न्यूनतम वर्ग अनुमानक है


 * $$ \widehat{\beta}_\mathrm{OLS} = (X^\mathrm T X)^{-1} X^\mathrm T y = (X^\mathrm T X)^{-1} X^\mathrm T (X \beta + e) = \beta + (X^\mathrm T X)^{-1} X^\mathrm T e$$

जहां X, y और e लंबाई T के कॉलम सदिश को प्रदर्शित करते हैं। यह समीकरण सम्मिलित समीकरण के समान है I $$ \operatorname{cov}(X,y) $$ परिचय में (यह उस समीकरण का आव्यूह संस्करण है)। जब X और e सहसंबंध होते हैं, तो कुछ नियमितता प्रावधानों के अंतर्गत दूसरे पद में शून्य के  X पर अपेक्षित मान नियमानुसार होता है और सीमा में शून्य पर परिवर्तित होता है, इसलिए अनुमानक पूर्वाग्रह और सुसंगत होता है। जब  X और अन्य बिना मापे गए, e शब्द में संक्षिप्त कारण चर सहसंबद्ध होते हैं, चूँकि, ओएलएस अनुमानक सामान्यतः β के लिए पक्षपाती और असंगत होता है। इस विषय में, X के दिए गए मानों के y के मानों की भविष्यवाणी करने के लिए अनुमानों का उपयोग करना मान्य है, किन्तु अनुमान y पर X के कारणात्मक प्रभाव को पुनर्प्राप्त नहीं करता है।

अंतर्निहित पैरामीटर को पुनर्प्राप्त करने के लिए $$ \beta $$, हम चर Z का समूह प्रदर्शित करते हैं, जो X के प्रत्येक एंडोजेनिटी (अर्थमिति) घटक के साथ अत्यधिक सहसंबद्ध है किन्तु (हमारे अंतर्निहित स्वरुप में) e के साथ सहसंबद्ध नहीं है। सरलता के लिए, कोई X को T × 2 आव्यूह मान सकता है जो स्थिरांक के स्तंभ और अंतर्जात चर से बना है, और Z ,T × 2 है जिसमें स्थिरांक का स्तंभ और वाद्य चर सम्मिलित है। चूँकि, यह तकनीक सामान्यीकृत करती है कि X स्थिरांक का आव्यूह है और, कहते हैं, 5 अंतर्जात चर, जिसमें Z स्थिरांक और 5 उपकरणों से बना आव्यूह है। इसके पश्चात् होने वाले वर्णन में, हम मान लेंगे कि X, T × K आव्यूह है और इस मान K को अनिर्दिष्ट त्याग देंगे। अनुमानक जिसमें X और Z दोनों T × K आव्यूह हैं, उसे पहचान कहा जाता है।

मान लीजिए कि प्रत्येक अंतर्जात घटक x के मध्य संबंध हैi और उपकरण द्वारा दिया गया है


 * $$ x_i = Z_i \gamma + v_i, $$

सामान्यतः IV विनिर्देश निम्नलिखित अनुमानक का उपयोग करता है:


 * $$ \widehat{\beta}_\mathrm{IV} = (Z^\mathrm T X)^{-1} Z^\mathrm T y $$

जैसे-जैसे प्रारूप बड़ा होता जाता है, यह विनिर्देशन वास्तविक पैरामीटर तक पहुंचता है, $$ Z^\mathrm T e = 0 $$ वास्तविक स्वरुप में:


 * $$ \widehat{\beta}_\mathrm{IV} = (Z^\mathrm T X)^{-1} Z^\mathrm T y = (Z^\mathrm T X)^{-1} Z^\mathrm T X \beta + (Z^\mathrm T X)^{-1} Z^\mathrm T e \rightarrow \beta    $$

जब तक कि $$ Z^\mathrm T e = 0 $$ डेटा उत्पन्न करने वाली अंतर्निहित प्रक्रिया में, IV अनुमानक का उचित उपयोग इस पैरामीटर की पहचान करेगा। यह काम करता है क्योंकि IV उस अद्वितीय पैरामीटर का समाधान करता है जो संतुष्ट करता है, $$ Z^\mathrm T e = 0 $$, और इसलिए प्रारूप आकार बढ़ने पर वास्तविक अंतर्निहित पैरामीटर पर ध्यान दिया जाता है।

अब विस्तार: मान लीजिए कि रुचि के समीकरण में सहसंयोजकों की तुलना में अधिक उपकरण हैं, जिससे Z, M > K के साथ T × M आव्यूह हो। इसे प्रायः 'अति-पहचान' वाला विषय कहा जाता है। इस विषय में, क्षणों की सामान्यीकृत विधि (जीएमएम) का उपयोग किया जा सकता है। GMM IV अनुमानक है:-


 * $$ \widehat{\beta}_\mathrm{GMM} = (X^\mathrm T P_Z X)^{-1}X^\mathrm T P_Z y,$$

जहाँ $$P_Z$$ प्रक्षेपण आव्यूह $$P_Z=Z(Z^\mathrm T Z)^{-1}Z^\mathrm T$$को संदर्भित करता है I

यह अभिव्यक्ति प्रथम बार ढह जाती है, जब उपकरणों की संख्या ब्याज के समीकरण में सहसंयोजकों की संख्या के बराबर होती है। इसलिए अति-पहचान किया गया IV, अभी-अभी पहचाने गए IV का सामान्यीकरण है।

$$\beta_\text{GMM}$$ का विकास करने की अभिव्यक्ति:
 * $$ \widehat{\beta}_\mathrm{GMM} = (X^\mathrm{T} Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} X)^{-1}X^\mathrm{T} Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} y$$

अभी-अभी पहचानी गयी स्थिति में, हमारे निकट उतने ही उपकरण हैं जितने सहसंयोजक हैं, जिससे कि X का आयाम Z के समान हो। इसलिए, $$X^\mathrm{T} Z, Z^\mathrm{T} Z$$ और $$Z^\mathrm{T}X$$ सभी आयाम के वर्ग आव्यूह हैं। हम इस तथ्य का उपयोग करके व्युत्क्रम का विस्तार कर सकते हैं कि, किसी भी व्युत्क्रमणीय n-by-n आव्यूह 'A' और 'B' के लिए, ('AB')−1 = B−1A−1 (इनवर्टेबल आव्यूह गुण देखें):

\begin{align} \widehat{\beta}_\mathrm{GMM} &= (Z^\mathrm{T} X)^{-1}(Z^\mathrm{T} Z)(X^\mathrm{T} Z)^{-1}X^\mathrm{T} Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} y\\ &= (Z^\mathrm{T} X)^{-1}(Z^\mathrm{T} Z)(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T} y\\ &=(Z^\mathrm{T} X)^{-1}Z^\mathrm{T}y \\ &=\widehat{\beta}_\mathrm{IV} \end{align} $$ संदर्भ: डेविडसन और मैकिनॉन देखें (1993)

उस विषय के लिए समतुल्य पैरामीटर पहचान समस्या अनुमानक है, जहां m < k चूँकि पैरामीटर रैखिक समीकरणों के समूह के समाधान हैं, समीकरणों के समूह का उपयोग करने वाला कम-पहचान वाला स्वरुप $$ Z'v = 0 $$ कोई अनोखा समाधान नहीं है I

दो चरण वाले न्यूनतम वर्ग के रूप में व्याख्या
कम्प्यूटेशनल विधि जिसका उपयोग IV अनुमानों की गणना के लिए किया जा सकता है, वह दो-चरण न्यूनतम वर्ग (2SLS या TSLS) है। प्रथम चरण में, प्रत्येक व्याख्यात्मक चर जो रुचि के समीकरण में अंतर्जात सहसंयोजक है, स्वरुप में सभी बहिर्जात चर पर पुनः आ जाता है, जिसमें रुचि के समीकरण और बहिष्कृत उपकरणों में दोनों बहिर्जात सहसंयोजक सम्मिलित होते हैं। इन प्रतिगमनों से अनुमानित मान प्राप्त होते हैं:

चरण 1: X के प्रत्येक कॉलम को Z पर पुनः प्राप्त करें, ($$ X = Z \delta + \text{errors} $$):


 * $$\widehat{\delta}=(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T}X, \,$$

और अनुमानित मान इस प्रकार है:


 * $$\widehat{X}= Z\widehat{\delta} = {\color{ProcessBlue}Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T}}X = {\color{ProcessBlue}P_Z} X.\, $$

दूसरे चरण में, ब्याज के प्रतिगमन का अनुमान सदैव लगाया जाता है, अतिरिक्त इसके कि इस चरण में प्रत्येक अंतर्जात सहसंयोजक को प्रथम चरण से अनुमानित मानों के साथ परिवर्तित कर दिया जाता है:

चरण 2: प्रथम चरण से अनुमानित मानों पर Y को पुनः प्राप्त करें:


 * $$ Y = \widehat X \beta + \mathrm{noise},\,$$

इस प्रकार है:-
 * $$ \beta_\text{2SLS} = \left(X^\mathrm{T}{\color{ProcessBlue}P_Z} X\right)^{-1} X^\mathrm{T}{\color{ProcessBlue}P_Z}Y.$$

यह विधि केवल रैखिक स्वरुप में मान्य है। श्रेणीबद्ध अंतर्जात सहसंयोजकों के लिए, किसी को सामान्य न्यूनतम वर्गों की तुलना में भिन्न प्रथम चरण का उपयोग करने का प्रलोभन दिया जा सकता है, जैसे कि प्रथम चरण के लिए प्रोबिट स्वरुप और उसके पश्चात् दूसरे के लिए ओएलएस आदि। इसे सामान्यतः अर्थमिति साहित्य में निषिद्ध प्रतिगमन के रूप में जाना जाता है, क्योंकि दूसरे चरण IV पैरामीटर अनुमान केवल विशेष विषयों में ही सुसंगत होते हैं।

सामान्य ओएलएस अनुमानक है: $$ (\widehat X^\mathrm{T}\widehat X)^{-1}\widehat X^\mathrm{T}Y$$. $$ \widehat X = P_Z X$$ के स्थान पर और उसे नोट करना $$P_Z $$ सममित और निष्क्रियता आव्यूह है,  जिससे कि $$  P_Z^\mathrm{T}P_Z=P_Z P_Z = P_Z$$
 * $$ \beta_\text{2SLS} = (\widehat X^\mathrm{T}\widehat X)^{-1}\widehat X^\mathrm{T} Y = \left(X^\mathrm{T}P_Z^\mathrm{T}P_Z X\right)^{-1} X^\mathrm{T}P_Z^\mathrm{T}Y=\left(X^\mathrm{T}P_Z X\right)^{-1} X^\mathrm{T}P_ZY.$$

$$\beta$$ का परिणामी अनुमानक संख्यात्मक रूप से ऊपर प्रदर्शित अभिव्यक्ति के समान है। दूसरे चरण के फिट स्वरुप में वर्ग-अवशेषों के योग में छोटा सा सुधार किया जाना चाहिए जिससे सहप्रसरण मैट्रिक्स $$\beta$$ सही गणना की गई है.

गैर-पैरामीट्रिक विश्लेषण
जब संरचनात्मक समीकरणों का रूप अज्ञात हो, तो वाद्य चर $$Z$$ अभी भी समीकरणों के माध्यम से परिभाषित किया जा सकता है:


 * $$x = g(z,u) \, $$
 * $$y = f(x,u) \, $$

जहाँ $$f$$ और $$g$$ दो स्वेच्छानुसार कार्य हैं, और $$Z$$ से $$U$$ स्वतंत्र है I चूँकि, रैखिक स्वरुप के विपरीत, की माप $$Z, X$$ और $$Y$$ के औसत कारण प्रभाव की पहचान की अनुमति न दें, $$X$$ पर $$Y$$, ACE निरूपित किया गया
 * $$\text{ACE} = \Pr(y\mid \text{do}(x)) = \operatorname{E}_u[f(x,u)].$$

बाल्के और पर्ल [1997] ने एसीई पर कड़ी सीमाएं निकालीं और दिखाया कि ये एसीई के संकेत और आकार पर बहुमान सूचना प्रदान कर सकते हैं। रैखिक विश्लेषण में, धारणा को गलत सिद्ध करने के लिए कोई परीक्षण नहीं है, $$Z$$ जोड़ी के सापेक्ष सहायक $$(X,Y)$$ है, ऐसा तब नहीं होता जब $$X$$ पृथक है, पर्ल (2000) ने यह सब प्रदर्शित किया है, $$f$$ और $$g$$, निम्नलिखित बाधा, जिसे वाद्य असमानता कहा जाता है, जब भी प्रस्तावित होनी चाहिए I $$Z$$ उपरोक्त दो समीकरणों को संतुष्ट करता है: :$$\max_x \sum_y [\max_z \Pr(y,x\mid z)]\leq 1.$$

चिकित्सा प्रभाव विषमता के अंतर्गत व्याख्या
उपरोक्त व्याख्या यह मानती है कि रुचि का कारणात्मक प्रभाव अवलोकनों में भिन्न नहीं होता है, अर्थात् $$\beta$$ स्थिरांक है I सामान्यतः, भिन्न-भिन्न विषय उपचार x में परिवर्तनों पर भिन्न-भिन्न उपायों से प्रतिक्रिया देंगे। जब इस संभावना को पहचाना जाता है, तो x पर y में परिवर्तन का जनसंख्या में औसत प्रभाव किसी दिए गए उप-जनसंख्या में प्रभाव से भिन्न हो सकता है। उदाहरण के लिए, नौकरी प्रशिक्षण कार्यक्रम का औसत प्रभाव वास्तव में प्रशिक्षण प्राप्त करने वाले लोगों के समूह और प्रशिक्षण प्राप्त न करने का विकल्प चुनने वाले समूह में भिन्न हो सकता है। इन कारणों से, IV विधियाँ व्यवहारिक प्रतिक्रिया पर अंतर्निहित धारणाओं, या अधिक सामान्यतः चिकित्सा की प्रतिक्रिया और उपचार प्राप्त करने की प्रवृत्ति के मध्य संबंध पर धारणाओं को प्रस्तावित करती हैं। मानक IV अनुमानक औसत चिकित्सा प्रभाव (ATE) के अतिरिक्त स्थानीय औसत चिकित्सा प्रभाव (LATE) पुनर्प्राप्त कर सकता है। इम्बेन्स और एंग्रिस्ट (1994) प्रदर्शित करते हैं कि रैखिक IV अनुमान की व्याख्या निर्बल परिस्थितियों में स्थानीय औसत चिकित्सा प्रभावों के भारित औसत के रूप में की जा सकती है, जहां भार वाद्य चर में परिवर्तन के लिए अंतर्जात प्रतिगामी की लोच पर निर्भर करता है। सामान्यतः, इसका आशय है कि चर का प्रभाव केवल उपकरणों में देखे गए परिवर्तनों से प्रभावित उप-जनसँख्या के लिए प्रकट होता है, और जो उप-जनसँख्या उपकरणों में परिवर्तनों पर सबसे अधिक प्रतिक्रिया करती है, उसका IV अनुमान के परिमाण पर सबसे बड़ा प्रभाव होगा।

उदाहरण के लिए, यदि कोई शोधकर्ता आय प्रतिगमन में कॉलेज की शिक्षा के लिए भूमि-अनुदान कॉलेज की उपस्थिति को पकरण के रूप में उपयोग करता है, तो वह उप-जनसंख्या में कमाई पर कॉलेज के प्रभाव की पहचान करती है, जो कॉलेज उपस्थित होने पर कॉलेज की डिग्री प्राप्त करेगी, किन्तु यदि कोई कॉलेज उपस्थित नहीं है तो डिग्री प्राप्त न करें। यह अनुभवजन्य दृष्टिकोण, आगे की धारणाओं के अतिरिक्त, शोधकर्ता को उन लोगों के मध्य कॉलेज के प्रभाव के सम्बन्ध में कुछ भी नहीं बताता है जो या तो सदैव या कभी कॉलेज की डिग्री प्राप्त नहीं करेंगे, भले ही स्थानीय कॉलेज उपस्थित हो या नहीं।

निर्बल उपकरणों की समस्या
जैसा कि बाउंड, डेविड ए. जैगर, और बेकर (1995) ने नोट किया है, समस्या निर्बल उपकरणों के चयन के कारण होती है, ऐसे उपकरण जो प्रथम चरण के समीकरण में अंतर्जात प्रश्न भविष्यवक्ता के बुरे भविष्यवक्ता हैं। इस विषय में, उपकरण द्वारा प्रश्न भविष्यवक्ता की भविष्यवाणी अशुभ होगी और अनुमानित मानों में बहुत निम्न भिन्नता होगी। परिणाम स्वरुप, जब उन्हें द्वितीय चरण के समीकरण में प्रश्न भविष्यवक्ता को परिवर्तित करने के लिए उपयोग किया जाता है, तो उन्हें अंतिम परिणाम की भविष्यवाणी करने में अधिक सफलता मिलने की संभावना नहीं है।

ऊपर चर्चा किए गए धूम्रपान और स्वास्थ्य उदाहरण के संदर्भ में, तम्बाकू कर धूम्रपान के लिए निर्बल साधन हैं यदि धूम्रपान की स्थिति करों में परिवर्तन के प्रति अनुत्तरदायी है। यदि उच्च कर लोगों को धूम्रपान त्याग करने (या धूम्रपान प्रारम्भ नहीं करने) के लिए प्रेरित नहीं करते हैं, तो कर दरों में भिन्नता हमें स्वास्थ्य पर धूम्रपान के प्रभाव के सम्बन्ध में कुछ नहीं बताती है। यदि कर धूम्रपान पर अपने प्रभाव के अलावा अन्य चैनलों के माध्यम से स्वास्थ्य को प्रभावित करते हैं, तो उपकरण अमान्य हैं और वाद्य परिवर्तनशील दृष्टिकोण भ्रामक परिणाम दे सकता है। उदाहरण के लिए, अपेक्षाकृत स्वास्थ्य के प्रति जागरूक जनसँख्या वाले स्थान और समय दोनों उच्च तंबाकू करों को लागू कर सकते हैं और धूम्रपान की दरों को स्थिर रखते हुए भी अच्छे स्वास्थ्य प्रदर्शित कर सकते हैं, इसलिए हम स्वास्थ्य और तंबाकू करों के मध्य संबंध देखेंगे, भले ही ऐसा विषय हो कि धूम्रपान का कोई प्रभाव नहीं है। स्वस्थ्य पर इस विषय में, हम तंबाकू करों और स्वास्थ्य के मध्य देखे गए सहसंबंध से स्वास्थ्य पर धूम्रपान के कारणात्मक प्रभाव का अनुमान लगाने में गलती करते है।

निर्बल उपकरणों का परीक्षण
उपकरणों की दृढ़ता का सीधे आकलन किया जा सकता है क्योंकि अंतर्जात सहसंयोजक और उपकरण दोनों अवलोकन योग्य हैं। अंतर्जात प्रतिगमन वाले स्वरुप के लिए सामान्य नियम यह है: प्रथम चरण के प्रतिगमन में बहिष्कृत उपकरण अप्रासंगिक हैं, इस शून्य के विरुद्ध F-सांख्यिकी 10 से बड़ी होनी चाहिए I

सांख्यिकीय अनुमान और परिकल्पना परीक्षण
जब सहसंयोजक बहिर्जात होते हैं, तो ओएलएस अनुमानक के छोटे-प्रारूपों गुणों को X पर नियमानुसार अनुमानक के क्षणों की गणना करके सीधे प्रकार से प्राप्त किया जा सकता है। जब कुछ सहसंयोजक अंतर्जात होते हैं, तो वाद्य चर अनुमान प्रस्तावित किया जाता है, इसके लिए सरल अभिव्यक्तियाँ अनुमानक के क्षण इस प्रकार प्राप्त नहीं किये जा सकते है। सामान्यतः, वाद्य चर अनुमानकों में केवल वांछनीय स्पर्शोन्मुख होता है, न कि परिमित प्रारूप, गुण, और अनुमान अनुमानक के प्रारूप वितरण के स्पर्शोन्मुख अनुमानों पर आधारित होता है। यहां तक ​​कि जब उपकरण ब्याज के समीकरण में त्रुटि से असंबंधित होते हैं और जब उपकरण निर्बल नहीं होते हैं, तो उपकरण चर अनुमानक के परिमित प्रारूप गुण हानिकारक हो सकते हैं। उदाहरण के लिए, पहचाने गए स्वरुप बिना किसी क्षण के परिमित प्रारूप अनुमानक उत्पन्न करते हैं, इसलिए अनुमानक को न तो पक्षपाती और न ही निष्पक्ष कहा जा सकता है, परीक्षण आंकड़ों का नाममात्र आकार अधिक विकृत हो सकता है, और अनुमान सामान्यतः वास्तविक मान से बहुत दूर हो सकते हैं I

बहिष्करण प्रतिबंध का परीक्षण
यह धारणा कि उपकरण रुचि के समीकरण में त्रुटि शब्द से संबंधित नहीं हैं, किन्तु प्राप्त किये गए स्वरुप में परीक्षण योग्य नहीं है। यदि स्वरुप की अधिक पहचान की गई है, तो ऐसी जानकारी उपलब्ध है, जिसका उपयोग इस धारणा का परीक्षण करने के लिए किया जा सकता है। इन अति पहचान प्रतिबंधों का सबसे सामान्य परीक्षण, जिसे सर्गन-हैनसेन परीक्षण कहा जाता है, इस अवलोकन पर आधारित है कि यदि उपकरण वास्तव में बहिर्जात हैं तो अवशेषों को बहिर्जात चर के समूह के साथ असंबद्ध होना चाहिए। सर्गन-हैनसेन परीक्षण $$TR^2$$सांख्यिकी की गणना इस प्रकार की जा सकती है I (निर्धारण के गुणांक द्वारा गुणा किए गए अवलोकनों की संख्या) बहिर्जात चर के समूह पर अवशेषों के ओएलएस प्रतिगमन से यह आँकड़ा शून्य के अंतर्गत स्वतंत्रता की m − k डिग्री के साथ असम्बद्ध रूप से ची-वर्ग किया जाएगा कि त्रुटि शब्द उपकरणों के साथ असंबंधित है।

यह भी देखें

 * नियंत्रण फलन (अर्थमिति)
 * इष्टतम उपकरण

ग्रन्थसूची

 * Wooldridge, J. (1997): Quasi-Likelihood Methods for Count Data, Handbook of Applied Econometrics, Volume 2, ed. M. H. Pesaran and P. Schmidt, Oxford, Blackwell, pp. 352–406
 * Terza, J. V. (1998): "Estimating Count Models with Endogenous Switching: Sample Selection and Endogenous Treatment Effects." Journal of Econometrics (84), pp. 129–154
 * Wooldridge, J. (2002): "Econometric Analysis of Cross Section and Panel Data", MIT Press, Cambridge, Massachusetts.

बाहरी संबंध

 * Chapter from Daniel McFadden's textbook
 * by Mark Thoma.
 * by Mark Thoma