जैकनाइफ क्रॉस-वैलिडेशन

आंकड़ों में, जैकनाइफ (जैकनाइफ क्रॉस-वैलिडेशन) एक क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन तकनीक है और इसलिए, पुनः नमूनाकरण (सांख्यिकी) का एक रूप है। यह अनुमानक के पूर्वाग्रह और विचरण अनुमान के लिए विशेष रूप से उपयोगी है। जैकनाइफ़ बूटस्ट्रैप (सांख्यिकी) जैसी अन्य सामान्य पुन: नमूनाकरण विधियों को पूर्व-दिनांकित करता है। आकार का एक नमूना दिया गया है $$n$$, आकार के प्रत्येक उप-नमूने से पैरामीटर अनुमानों को एकत्रित करके एक जैकनाइफ अनुमानक बनाया जा सकता है $$(n-1)$$ एक अवलोकन को छोड़ कर प्राप्त किया गया।

जैकनाइफ तकनीक मौरिस क्वेनोइल (1924-1973) द्वारा 1949 में विकसित की गई थी और 1956 में परिष्कृत की गई थी। जॉन तुकी  ने 1958 में तकनीक का विस्तार किया और जैकनाइफ नाम प्रस्तावित किया क्योंकि, एक भौतिक :विकट:जैक-नाइफ|जैक-चाकू (एक कॉम्पैक्ट फोल्डिंग चाकू) की तरह, यह एक :विकेट:रफ-एंड-रेडी|रफ-एंड-रेडी उपकरण है जो समाधान में सुधार कर सकता है। विभिन्न प्रकार की समस्याएँ, भले ही विशिष्ट समस्याओं को एक उद्देश्य-डिज़ाइन किए गए उपकरण के साथ अधिक कुशलता से हल किया जा सकता है।

जैकनाइफ़ बूटस्ट्रैप (सांख्यिकी) का एक रैखिक सन्निकटन है।

एक सरल उदाहरण: माध्य अनुमान
एक पैरामीटर का जैकनाइफ़ अनुमानक एक डेटासेट से प्रत्येक अवलोकन को व्यवस्थित रूप से छोड़कर और शेष अवलोकनों पर पैरामीटर अनुमान की गणना करके और फिर इन गणनाओं को एकत्रित करके पाया जाता है।

उदाहरण के लिए, यदि अनुमान लगाया जाने वाला पैरामीटर यादृच्छिक चर का जनसंख्या माध्य है$$x$$, फिर आई.आई.डी. के दिए गए सेट के लिए टिप्पणियों $$x_1, ..., x_n$$ प्राकृतिक अनुमानक नमूना माध्य है:


 * $$\bar{x} =\frac{1}{n} \sum_{i=1}^{n} x_i =\frac{1}{n} \sum_{i \in [n]} x_i,$$

जहां अंतिम योग सूचकांक को इंगित करने के लिए दूसरे तरीके का उपयोग करता है $$i$$ सेट पर दौड़ता है $$[n] = \{ 1,\ldots,n\}$$.

फिर हम इस प्रकार आगे बढ़ते हैं: प्रत्येक के लिए $$i \in [n]$$ हम माध्य की गणना करते हैं $$\bar{x}_{(i)}$$ जैकनाइफ़ उपनमूना में के अलावा सभी शामिल हैं$$i$$-वां डेटा बिंदु, और इसे कहा जाता है $$i$$-वें जैकनाइफ़ प्रतिकृति:


 * $$\bar{x}_{(i)} =\frac{1}{n-1} \sum_{j \in [n], j\ne i} x_j, \quad \quad i=1, \dots ,n.$$

यह सोचने में मदद मिल सकती है कि ये$$n$$जैकनाइफ़ प्रतिकृति बनाता है $$\bar{x}_{(1)},\ldots,\bar{x}_{(n)}$$ हमें नमूना माध्य के वितरण का एक अनुमान दीजिए $$\bar{x}$$ और उतना ही बड़ा $$n$$ यह अनुमान उतना ही बेहतर होगा. फिर अंततः जैकनाइफ़ अनुमानक प्राप्त करने के लिए हम इनका औसत निकालते हैं $$n$$ जैकनाइफ़ प्रतिकृति:


 * $$\bar{x}_{\mathrm{jack}} = \frac{1}{n}\sum_{i=1}^n \bar{x}_{(i)}.$$

कोई पूर्वाग्रह और भिन्नता के बारे में पूछ सकता है $$\bar{x}_{\mathrm{jack}}$$. की परिभाषा से $$\bar{x}_{\mathrm{jack}}$$ जैसा कि जैकनाइफ़ के औसत की प्रतिकृति से कोई स्पष्ट रूप से गणना करने का प्रयास कर सकता है, और पूर्वाग्रह एक तुच्छ गणना है लेकिन इसका विचरण $$\bar{x}_{\mathrm{jack}}$$ अधिक शामिल है क्योंकि जैकनाइफ़ प्रतिकृति स्वतंत्र नहीं हैं।

माध्य के विशेष मामले के लिए, कोई स्पष्ट रूप से दिखा सकता है कि जैकनाइफ़ अनुमान सामान्य अनुमान के बराबर है:


 * $$\frac{1}{n}\sum_{i=1}^n \bar{x}_{(i)} = \bar{x}.$$

इससे पहचान स्थापित होती है $$\bar{x}_{\mathrm{jack}} = \bar{x}$$. फिर उम्मीदें लेकर हम मिलते हैं $$E[\bar{x}_{\mathrm{jack}}] = E[\bar{x}] =E[x]$$, इसलिए $$\bar{x}_{\mathrm{jack}}$$ निष्पक्ष है, भिन्नता लेते हुए हमें मिलता है $$V[\bar{x}_{\mathrm{jack}}] = V[\bar{x}] =V[x]/n$$. हालाँकि, ये गुण सामान्य रूप से माध्य के अलावा अन्य मापदंडों के लिए मान्य नहीं हैं।

माध्य अनुमान के मामले के लिए यह सरल उदाहरण केवल जैकनाइफ अनुमानक के निर्माण को दर्शाने के लिए है, जबकि वास्तविक सूक्ष्मताएं (और उपयोगिता) अन्य मापदंडों के अनुमान के मामले में उभरती हैं, जैसे कि माध्य से अधिक क्षण या वितरण के अन्य कार्य।

ध्यान दें कि $$\bar{x}_{\mathrm{jack}}$$ के पूर्वाग्रह का अनुभवजन्य अनुमान बनाने के लिए इस्तेमाल किया जा सकता है $$\bar{x}$$, अर्थात् $$\widehat{\operatorname{bias}}(\bar{x})_{\mathrm{jack}} = c(\bar{x}_{\mathrm{jack}} - \bar{x})$$ कुछ उपयुक्त कारक के साथ $$c>0$$, हालाँकि इस मामले में हम यह जानते हैं $$\bar{x}_{\mathrm{jack}} = \bar{x}$$ इसलिए यह निर्माण कोई सार्थक ज्ञान नहीं जोड़ता है, लेकिन यह ध्यान देने योग्य है कि यह पूर्वाग्रह का सही अनुमान देता है (जो शून्य है)।

के विचरण का एक जैकनाइफ़ अनुमान $$\bar{x}$$ जैकनाइफ प्रतिकृति के विचरण से गणना की जा सकती है $$\bar{x}_{(i)}$$:
 * $$\widehat{\operatorname{var}}(\bar{x})_{\mathrm{jack}}

=\frac{n-1}{n} \sum_{i=1}^n (\bar{x}_{(i)} - \bar{x}_{\mathrm{jack}})^2 =\frac{1}{n(n-1)} \sum_{i=1}^n (x_i - \bar{x})^2.$$ बाईं समानता अनुमानक को परिभाषित करती है $$\widehat{\operatorname{var}}(\bar{x})_{\mathrm{jack}}$$ और सही समानता एक पहचान है जिसे सीधे सत्यापित किया जा सकता है। फिर उम्मीदें लेकर हम मिलते हैं $$E[\widehat{\operatorname{var}}(\bar{x})_{\mathrm{jack}}] = V[x]/n = V[\bar{x}]$$, इसलिए यह विचरण का एक निष्पक्ष अनुमानक है $$\bar{x}$$.

आकलनकर्ता के पूर्वाग्रह का अनुमान लगाना
जैकनाइफ तकनीक का उपयोग पूरे नमूने पर गणना किए गए अनुमानक के पूर्वाग्रह का अनुमान लगाने (और सही करने) के लिए किया जा सकता है।

कल्पना करना $$\theta$$ रुचि का लक्ष्य पैरामीटर है, जिसे वितरण के कुछ कार्यात्मक माना जाता है $$x$$. अवलोकनों के एक सीमित सेट पर आधारित $$x_1, ..., x_n$$, जिसमें आई.आई.डी. शामिल माना जाता है। की प्रतियाँ $$x$$, अनुमानक $$\hat{\theta}$$ निर्माण किया है:


 * $$\hat{\theta} =f_n(x_1,\ldots,x_n).$$

का मान है $$\hat{\theta}$$ नमूना-निर्भर है, इसलिए यह मान एक यादृच्छिक नमूने से दूसरे में बदल जाएगा।

परिभाषा के अनुसार, का पूर्वाग्रह $$\hat{\theta}$$ इस प्रकार है:


 * $$\text{bias}(\hat{\theta}) = E[\hat{\theta}] - \theta.$$

कोई व्यक्ति कई मानों की गणना करना चाह सकता है $$\hat{\theta}$$ अनुभवजन्य अनुमान की गणना करने के लिए, कई नमूनों से, और उनका औसत निकालें $$E[\hat{\theta}]$$, लेकिन यह तब असंभव है जब उपलब्ध अवलोकनों के पूरे सेट में कोई अन्य नमूने न हों $$x_1, ..., x_n$$ गणना करने के लिए प्रयोग किया जाता था $$\hat{\theta}$$. इस तरह की स्थिति में जैकनाइफ रीसैंपलिंग तकनीक मददगार हो सकती है।

हम जैकनाइफ प्रतिकृति का निर्माण करते हैं:


 * $$\hat{\theta}_{(1)} =f_{n-1}(x_{2},x_{3}\ldots,x_{n})$$
 * $$\hat{\theta}_{(2)} =f_{n-1}(x_{1},x_{3},\ldots,x_{n})$$
 * $$\vdots$$
 * $$\hat{\theta}_{(n)} =f_{n-1}(x_1,x_{2},\ldots,x_{n-1})$$

जहां प्रत्येक प्रतिकृति जैकनाइफ सबसैंपल के आधार पर एक लीव-वन-आउट अनुमान है, जिसमें डेटा बिंदुओं में से एक को छोड़कर सभी शामिल हैं:


 * $$\hat{\theta}_{(i)} =f_{n-1}(x_{1},\ldots,x_{i-1},x_{i+1},\ldots,x_{n}) \quad \quad i=1, \dots,n.$$

फिर हम उनका औसत परिभाषित करते हैं:


 * $$\hat{\theta}_\mathrm{jack}=\frac{1}{n} \sum_{i=1}^n \hat{\theta}_{(i)}$$

जैकनाइफ़ के पूर्वाग्रह का अनुमान $$\hat{\theta}$$ द्वारा दिया गया है:
 * $$\widehat{\text{bias}}(\hat{\theta})_\mathrm{jack} =(n-1)(\hat{\theta}_\mathrm{jack} - \hat{\theta})$$

और परिणामी पूर्वाग्रह-सुधारित जैकनाइफ़ अनुमान $$\theta$$ द्वारा दिया गया है:
 * $$\hat{\theta}_{\text{jack}}^{*}

=\hat{\theta} - \widehat{\text{bias}}(\hat{\theta})_\mathrm{jack} =n\hat{\theta} - (n-1)\hat{\theta}_\mathrm{jack}.$$ यह उस विशेष मामले में पूर्वाग्रह को दूर करता है जो पूर्वाग्रह है $$O(n^{-1})$$ और इसे कम कर देता है $$O(n^{-2})$$ अन्य मामलों में।

एक अनुमानक के विचरण का अनुमान लगाना
जैकनाइफ तकनीक का उपयोग पूरे नमूने पर गणना किए गए अनुमानक के विचरण का अनुमान लगाने के लिए भी किया जा सकता है।

यह भी देखें

 * लीव-वन-आउट त्रुटि

साहित्य

 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.