अभिज्ञेयता (आईडेन्टिफिएबिलिटी)

आंकड़ों में, पहचान एक ऐसी संपत्ति है जिसे एक सांख्यिकीय मॉडल को संभव होने के लिए सटीक सांख्यिकीय अनुमान के लिए संतुष्ट करना होगा। एक मॉडल की पहचान तब की जा सकती है जब अनंत संख्या में अवलोकन प्राप्त करने के बाद इस मॉडल के अंतर्निहित मापदंडों के वास्तविक मूल्यों को सीखना सैद्धांतिक रूप से संभव हो। गणितीय रूप से, यह कहने के बराबर है कि मापदंडों के विभिन्न मूल्यों को अवलोकन योग्य चर के विभिन्न संभाव्यता वितरण उत्पन्न करना चाहिए। आमतौर पर मॉडल को केवल कुछ तकनीकी प्रतिबंधों के तहत ही पहचाना जा सकता है, ऐसी स्थिति में इन आवश्यकताओं के सेट को पहचान की स्थिति कहा जाता है।

एक मॉडल जो पहचानने योग्य होने में विफल रहता है उसे गैर-पहचान योग्य या अज्ञात कहा जाता है: दो या दो से अधिक सांख्यिकीय पैरामीटर अवलोकन संबंधी तुल्यता हैं। कुछ मामलों में, भले ही एक मॉडल गैर-पहचान योग्य हो, फिर भी मॉडल मापदंडों के एक निश्चित उपसमूह के वास्तविक मूल्यों को सीखना संभव है। इस मामले में हम कहते हैं कि मॉडल आंशिक रूप से पहचाने जाने योग्य है। अन्य मामलों में पैरामीटर स्पेस के एक निश्चित सीमित क्षेत्र तक वास्तविक पैरामीटर का स्थान सीखना संभव हो सकता है, जिस स्थिति में मॉडल को पहचानने योग्य सेट किया जाता है।

मॉडल गुणों की कड़ाई से सैद्धांतिक खोज के अलावा, पहचान योग्यता विश्लेषण का उपयोग करके प्रयोगात्मक डेटा सेट के साथ मॉडल का परीक्षण करते समय पहचान क्षमता को व्यापक दायरे में संदर्भित किया जा सकता है।

परिभाषा
होने देना $$ \mathcal{P}=\{P_\theta:\theta\in\Theta\} $$ पैरामीटर स्पेस के साथ एक सांख्यिकीय मॉडल बनें $$\Theta$$. हम ऐसा कहते हैं $$\mathcal{P}$$ यदि मानचित्रण हो तो पहचान योग्य है $$\theta\mapsto P_\theta$$ आक्षेप है|एक-से-एक:

P_{\theta_1}=P_{\theta_2} \quad\Rightarrow\quad \theta_1=\theta_2 \quad\ \text{for all } \theta_1,\theta_2\in\Theta. $$ इस परिभाषा का अर्थ है कि θ के अलग-अलग मान अलग-अलग संभाव्यता वितरण के अनुरूप होने चाहिए: यदि θ1≠θ2, फिर भी पीθ 1 ≠Pθ 2. यदि वितरण को संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) के संदर्भ में परिभाषित किया गया है, तो दो पीडीएफ को केवल तभी अलग माना जाना चाहिए, जब वे गैर-शून्य माप के सेट पर भिन्न हों (उदाहरण के लिए दो फ़ंक्शन)1(x)='1'0 ≤ x < 1 और2(x)='1'0 ≤ x ≤ 1 केवल एक बिंदु x = 1 पर अंतर होता है - लेबेस्ग का एक सेट शून्य मापता है - और इस प्रकार इसे अलग पीडीएफ के रूप में नहीं माना जा सकता है)।

मानचित्र की व्युत्क्रमणीयता के अर्थ में मॉडल की पहचान $$\theta\mapsto P_\theta$$ यदि मॉडल को अनिश्चित काल तक देखा जा सकता है तो यह मॉडल के वास्तविक पैरामीटर को सीखने में सक्षम होने के बराबर है। वास्तव में, यदि {एक्सt} ⊆ एस मॉडल से अवलोकनों का क्रम है, फिर बड़ी संख्या के मजबूत कानून द्वारा,

\frac 1 T \sum_{t=1}^T \mathbf{1}_{\{X_t\in A\}} \ \xrightarrow{\text{a.s.}}\ \Pr[X_t\in A], $$ प्रत्येक मापने योग्य सेट ए ⊆ एस के लिए (यहां '1'{...} सूचक कार्य है)। इस प्रकार, अनंत संख्या में प्रेक्षणों के साथ हम वास्तविक संभाव्यता वितरण P ज्ञात करने में सक्षम होंगे0 मॉडल में, और चूंकि उपरोक्त पहचान की स्थिति के लिए मानचित्र की आवश्यकता है $$\theta\mapsto P_\theta$$ उलटा हो, हम उस पैरामीटर का सही मान भी ढूंढने में सक्षम होंगे जो दिए गए वितरण पी उत्पन्न करता है0.

उदाहरण 1
होने देना $$\mathcal{P}$$ सामान्य वितरण स्थान-पैमाने पर परिवार बनें:

\mathcal{P} = \Big\{\ f_\theta(x) = \tfrac{1}{\sqrt{2\pi}\sigma} e^{ -\frac{1}{2\sigma^2}(x-\mu)^2 }\ \Big|\ \theta=(\mu,\sigma): \mu\in\mathbb{R}, \,\sigma\!>0 \ \Big\}. $$ तब

\begin{align} & f_{\theta_1}=f_{\theta_2} \\[6pt] \Longleftrightarrow {} & \frac 1 {\sqrt{2\pi}\sigma_1} \exp\left( -\frac 1 {2\sigma_1^2} (x-\mu_1)^2 \right) = \frac 1 {\sqrt{2\pi}\sigma_2} \exp\left( -\frac 1 {2\sigma_2^2}(x-\mu_2)^2 \right) \\[6pt] \Longleftrightarrow {} & \frac 1 {\sigma_1^2}(x-\mu_1)^2 + \ln \sigma_1 = \frac 1 {\sigma_2^2}(x-\mu_2)^2 + \ln \sigma_2 \\[6pt] \Longleftrightarrow {} & x^2 \left(\frac 1 {\sigma_1^2}-\frac 1 {\sigma_2^2}\right) - 2x\left(\frac{\mu_1}{\sigma_1^2}-\frac{\mu_2}{\sigma_2^2} \right) + \left(\frac{\mu_1^2}{\sigma_1^2}-\frac{\mu_2^2}{\sigma_2^2}+\ln\sigma_1-\ln\sigma_2\right) = 0 \end{align} $$ यह अभिव्यक्ति लगभग सभी x के लिए शून्य के बराबर है, जब इसके सभी गुणांक शून्य के बराबर हों, जो केवल तभी संभव है जब |σ1| = |पी2| और μ1 = एम2. चूँकि स्केल पैरामीटर में σ शून्य से अधिक होने तक सीमित है, हम यह निष्कर्ष निकालते हैं कि मॉडल पहचानने योग्य है:θ 1 = ƒθ 2 ⇔ i उप>1 = θ2.

उदाहरण 2
होने देना $$\mathcal{P}$$ मानक रैखिक प्रतिगमन मॉडल बनें:

y = \beta'x + \varepsilon, \quad \mathrm{E}[\,\varepsilon\mid x\,]=0 $$ (जहाँ ′ मैट्रिक्स खिसकाना  को दर्शाता है)। तब पैरामीटर β पहचाने जाने योग्य है यदि और केवल यदि मैट्रिक्स $$ \mathrm{E}[xx'] $$ उलटा है. इस प्रकार, यह मॉडल में पहचान की स्थिति है।

उदाहरण 3
कल्पना करना $$\mathcal{P}$$ चर में शास्त्रीय त्रुटि रैखिक मॉडल है:
 * $$\begin{cases}

y = \beta x^* + \varepsilon, \\ x = x^* + \eta, \end{cases}$$ जहां (ε,η,x*) शून्य अपेक्षित मान और अज्ञात भिन्नताओं के साथ संयुक्त रूप से सामान्य स्वतंत्र यादृच्छिक चर हैं, और केवल चर (x,y) देखे जाते हैं। तब यह मॉडल पहचान योग्य नहीं है, केवल उत्पाद βσ²∗ है (जहां σ²∗ का प्रसरण है अव्यक्त प्रतिगामी x*). यह भी एक निर्धारित पहचान मॉडल का एक उदाहरण है: यद्यपि β का सटीक मान नहीं सीखा जा सकता है, हम गारंटी दे सकते हैं कि यह अंतराल (β) में कहीं स्थित होना चाहिए उप>yx, 1÷βxy), जहां βyx x, और β पर y के सामान्य न्यूनतम वर्ग प्रतिगमन में गुणांक हैxy y पर x के OLS प्रतिगमन में गुणांक है। यदि हम सामान्यता की धारणा को त्याग देते हैं और चाहते हैं कि x* सामान्य रूप से वितरित 'नहीं' हो, केवल स्वतंत्रता की स्थिति ε ⊥ η ⊥ x* को बनाए रखते हुए, तो मॉडल पहचानने योग्य हो जाता है।

यह भी देखें

 * सिस्टम पहचान
 * संरचनात्मक पहचान
 * अवलोकनशीलता
 * एक साथ समीकरण मॉडल

अर्थमिति


श्रेणी:अनुमान सिद्धांत