समुच्चय पहचान

सांख्यिकी और अर्थमिति में, सेट पहचान (या आंशिक पहचान) सांख्यिकीय मॉडल में पहचान क्षमता (या बिंदु पहचान) की अवधारणा को उन स्थितियों तक विस्तारित करती है जहां अवलोकन योग्य चर का वितरण सांख्यिकीय पैरामीटर के सटीक मान की जानकारी नहीं देता है, बल्कि पैरामीटर को बाधित करता है पैरामीटर स्थान के सख्त उपसमुच्चय में स्थित होना। जिन सांख्यिकीय मॉडलों की पहचान की गई है, वे अर्थशास्त्र में विभिन्न प्रकार की समायोजन में उत्पन्न होते हैं, जिनमें खेल सिद्धांत  और रुबिन कारण मॉडल सम्मलित हैं।

चूंकि निर्धारित पहचान का उपयोग राग्नार ताजा के 1934 के लेख से होता है, लेकिन इन विधियों को 1990 के दशक में चार्ल्स मैन्स्की द्वारा महत्वपूर्ण रूप से विकसित और प्रचारित किया गया था। मैन्स्की ने चयन पूर्वाग्रह के लेखांकन के लिए सबसे निकृष्टतम स्थिति की एक विधि विकसित की। हेकमैन सुधार जैसी अतिरिक्त सांख्यिकीय धारणाएं बनाने वाली विधियों के विपरीत, सबसे निकृष्टतम स्थिति वाली सीमाएं समर्थित पैरामीटर मानों की एक श्रृंखला उत्पन्न करने के लिए केवल डेटा पर निर्भर करती हैं।

परिभाषा
होने देना $$ \mathcal{P}=\{P_\theta:\theta\in\Theta\} $$ एक सांख्यिकीय मॉडल बनें जहां पैरामीटर स्थान $$\Theta$$ या तो परिमित है या अनंत-आयामी है। कल्पना करना $$\theta_0$$ सही पैरामीटर मान है. हम ऐसा कहते हैं $$\theta_0$$ यदि सम्मलित है तो उसकी पहचान की जाती है $$\theta \in \Theta$$ ऐसा है कि $$P_\theta \neq P_{\theta_0}$$; अर्थात्, इसमें कुछ पैरामीटर मान हैं $$\Theta$$ अवलोकन की दृष्टि से समकक्ष नहीं हैं $$\theta_0$$. उस स्थिति में, पहचाना गया सेट पैरामीटर मानों का सेट है जो अवलोकन के बराबर है $$\theta_0$$.

उदाहरण: गुम डेटा
इस उदाहरण के कारण है. मान लीजिए कि दो द्विआधारी यादृच्छिक चर हैं, $Y$ और $Z$. अर्थशास्त्री की रुचि है $$\mathrm P(Y = 1)$$. चूंकि, डेटा गुम होने की समस्या है: $Y$ केवल तभी देखा जा सकता है यदि $$Z = 1$$.

कुल संभाव्यता के नियम के अनुसार,
 * $$\mathrm P(Y = 1) = \mathrm P(Y = 1 \mid Z = 1) \mathrm P(Z = 1) + \mathrm P(Y = 1 \mid Z = 0) \mathrm P(Z = 0).$$

एकमात्र अज्ञात वस्तु है $$\mathrm P(Y = 1 \mid Z = 0)$$, जो 0 और 1 के बीच स्थित होने के लिए बाध्य है। इसलिए, पहचाना गया सेट है
 * $$\Theta_I = \{ p \in [0, 1] : p = \mathrm P(Y = 1 \mid Z = 1) \mathrm P(Z = 1) + q \mathrm P(Z = 0), \text{ for some } q \in [0,1]\}.$$

लुप्त डेटा बाधा को देखते हुए, अर्थशास्त्री केवल यही कह सकते हैं $$\mathrm P(Y = 1) \in \Theta_I$$. यह सभी उपलब्ध जानकारी का उपयोग करता है।

सांख्यिकीय अनुमान
सेट अनुमान बिंदु अनुमान के लिए विकसित सांख्यिकीय अनुमान के सामान्य उपकरणों पर भरोसा नहीं कर सकता है। सांख्यिकी और अर्थमिति में एक साहित्य सेट-पहचाने गए मॉडल के संदर्भ में सांख्यिकीय अनुमान के लिए तरीकों का अध्ययन करता है, जो उचित गुणों के साथ आत्मविश्वास अंतराल या आत्मविश्वास क्षेत्रों के निर्माण पर ध्यान केंद्रित करता है। उदाहरण के लिए, द्वारा विकसित एक विधि (और क्या  जटिल के रूप में वर्णन करता है) आत्मविश्वास क्षेत्रों का निर्माण करता है जो किसी दिए गए संभावना के साथ पहचाने गए सेट को कवर करते हैं।