जैकनाइफ क्रॉस-वैलिडेशन

आँकड़ों में, जैकनाइफ़ (जैकनाइफ़ अंतः वैधीकरण) एक अंतः वैधीकरण तकनीक है और इसलिए, यह पुनः प्रतिचयन का एक रूप है।

यह पूर्वाग्रह और प्रसरण परिमापन के लिए विशेष रूप से उपयोगी है। जैकनाइफ़ बूटस्ट्रैप (सांख्यिकी) जैसी अन्य सामान्य पुन: प्रतिचयन विधियों को पूर्व-दिनांकित करता है। आकार n के एक प्रतिरूप को देखते हुए, एक अवलोकन को छोड़कर प्राप्त आकार (n-1) के प्रत्येक उप-प्रतिरूप से मापदण्ड परिमापन को एकत्रित करके एक जैकनाइफ परिमापनक बनाया जा सकता है।

जैकनाइफ तकनीक को मौरिस क्वेनोइल (1924-1973) द्वारा 1949 में विकसित किया गया था और 1956 में परिष्कृत किया गया था। जॉन तुकी ने 1958 में इस तकनीक का विस्तार किया और "जैकनाइफ" नाम प्रस्तावित किया, क्योंकि एक भौतिक जैक-नाइफ (एक सघन वलन चाकू) की तरह, यह एक काम चलाऊ उपकरण है जो विभिन्न प्रकार की समस्याओं के लिए भी समाधान निकाल सकता है। हालाँकि उद्देश्य-प्रतिरूप किए गए उपकरण से विशिष्ट समस्याओं को अधिक निपूणता से हल किया जा सकता है।

जैकनाइफ़ बूटस्ट्रैप (सांख्यिकी) का एक रैखिक सादृश्य है।

एक सरल उदाहरण: माध्य परिमापन
एक मापदण्ड का जैकनाइफ परिमापनक एक आंकड़े समुच्चय से प्रत्येक अवलोकन को व्यवस्थित रूप से छोड़कर और शेष अवलोकनों पर मापदण्ड परिमापन की गणना करके और फिर इन गणनाओं को एकत्रित करके पाया जाता है।

उदाहरण के लिए, यदि परिमापन लगाया जाने वाला मापदण्ड यादृच्छिक चर x का जनसंख्या माध्य है, फिर आई.आई.डी. के दिए गए समुच्चय के लिए प्रेक्षण $$x_1, ..., x_n$$ प्राकृतिक परिमापनक प्रतिरूप माध्य है:


 * $$\bar{x} =\frac{1}{n} \sum_{i=1}^{n} x_i =\frac{1}{n} \sum_{i \in [n]} x_i,$$

जहां अंतिम योग यह इंगित करने के लिए अन्य तरीके का उपयोग करता है कि सूचकांक i $$[n] = \{ 1,\ldots,n\}$$ समुच्चय पर चलता है।

फिर हम निम्नानुसार आगे बढ़ते हैं: प्रत्येक $$i \in [n]$$ के लिए हम i-वें आंकड़े बिंदु को छोड़कर सभी से युक्त जैकनाइफ उप-प्रतिरूप के माध्य $$\bar{x}_{(i)}$$की गणना करते हैं, और इसे i-वें जैकनाइफ प्रतिकृति कहा जाता है:


 * $$\bar{x}_{(i)} =\frac{1}{n-1} \sum_{j \in [n], j\ne i} x_j, \quad \quad i=1, \dots ,n.$$

यह सोचने में सहायता मिल सकती है कि ये $$n$$ जैकनाइफ़ $$\bar{x}_{(1)},\ldots,\bar{x}_{(n)}$$ की प्रतिकृति बनाते हैं, जो हमें प्रतिरूप माध्य के वितरण का एक परिमापन देते हैं, $$\bar{x}$$ और $$n$$ जितना बड़ा होगा, यह परिमापन उतना ही बेहतर होगा। फिर अंततः जैकनाइफ परिमापनक प्राप्त करने के लिए हम इन $$n$$ जैकनाइफ प्रतिकृतियों का औसत लेते हैं:


 * $$\bar{x}_{\mathrm{jack}} = \frac{1}{n}\sum_{i=1}^n \bar{x}_{(i)}.$$

कोई व्यक्ति $$\bar{x}_{\mathrm{jack}}$$ पूर्वाग्रह और भिन्नता के बारे में पूछ सकता है। $$\bar{x}_{\mathrm{jack}}$$ की परिभाषा से, क्योंकि जैकनाइफ की औसत प्रतिकृति स्पष्ट रूप से गणना करने का प्रयास कर सकती है, और पूर्वाग्रह एक तुच्छ गणना है लेकिन $$\bar{x}_{\mathrm{jack}}$$ अधिक सम्मिलित है क्योंकि जैकनाइफ प्रतिकृति स्वतंत्र नहीं हैं। ।

माध्य के विशेष स्तिथि के लिए, कोई स्पष्ट रूप से दिखा सकता है कि जैकनाइफ़ परिमापन सामान्य परिमापन के बराबर है:


 * $$\frac{1}{n}\sum_{i=1}^n \bar{x}_{(i)} = \bar{x}.$$

इससे $$\bar{x}_{\mathrm{jack}} = \bar{x}$$ सर्वसमिका स्थापित होती है। फिर अपेक्षाओं को ध्यान में रखते हुए हमें $$E[\bar{x}_{\mathrm{jack}}] = E[\bar{x}] =E[x]$$ मिलता है, इसलिए $$\bar{x}_{\mathrm{jack}}$$ निष्पक्ष है, भिन्नता लेते समय हमें $$V[\bar{x}_{\mathrm{jack}}] = V[\bar{x}] =V[x]/n$$ मिलता है।

माध्य परिमापन के स्तिथि के लिए यह सरल उदाहरण केवल जैकनाइफ परिमापनक के निर्माण को दर्शाने के लिए है, जबकि वास्तविक सूक्ष्मताएं (और उपयोगिता) अन्य मापदंडों के परिमापन के स्तिथि में उभरती हैं, जैसे कि माध्य से अधिक क्षण या वितरण के अन्य कार्य हैं।

ध्यान दें कि $$\bar{x}_{\mathrm{jack}}$$ के पूर्वाग्रह का अनुभवजन्य परिमापन बनाने के लिए $$\bar{x}$$ का इस्तेमाल किया जा सकता है, अर्थात् $$\widehat{\operatorname{bias}}(\bar{x})_{\mathrm{jack}} = c(\bar{x}_{\mathrm{jack}} - \bar{x})$$ कुछ उपयुक्त कारक $$c>0$$ के साथ है, हालाँकि इस स्तिथि में हम यह जानते हैं कि $$\bar{x}_{\mathrm{jack}} = \bar{x}$$ है इसलिए यह निर्माण कोई सार्थक ज्ञान नहीं जोड़ता है, लेकिन यह ध्यान देने योग्य है कि यह पूर्वाग्रह का सही परिमापन देता है (जो शून्य है)।

जैकनाइफ के प्रसरण के परिमापन $$\bar{x}$$ की गणना जैकनाइफ प्रतिकृति $$\bar{x}_{(i)}$$के प्रसरण से की जा सकती है:
 * $$\widehat{\operatorname{var}}(\bar{x})_{\mathrm{jack}}

=\frac{n-1}{n} \sum_{i=1}^n (\bar{x}_{(i)} - \bar{x}_{\mathrm{jack}})^2 =\frac{1}{n(n-1)} \sum_{i=1}^n (x_i - \bar{x})^2.$$ बाईं ओर की समानता परिमापनक $$\widehat{\operatorname{var}}(\bar{x})_{\mathrm{jack}}$$को परिभाषित करती है, और सही समानता एक सर्वसमिका है जिसे सीधे सत्यापित किया जा सकता है। फिर अपेक्षाओं को ध्यान में रखते हुए हमें $$E[\widehat{\operatorname{var}}(\bar{x})_{\mathrm{jack}}] = V[x]/n = V[\bar{x}]$$ मिलता है, इसलिए यह विचरण का एक निष्पक्ष परिमापनक $$\bar{x}$$ है।

आकलनकर्ता के पूर्वाग्रह का परिमापन लगाना
जैकनाइफ तकनीक का उपयोग संपूर्ण प्रतिरूप पर गणना किए गए परिमापनक के पूर्वाग्रह का परिमापन लगाने (और सही करने) के लिए किया जा सकता है।

मान लीजिए $$\theta$$ ब्याज का लक्ष्य मापदण्ड है, जिसे $$x$$ के वितरण की कुछ कार्यात्मकता माना जाता है। अवलोकनों के एक सीमित समुच्चय पर आधारित $$x_1, ..., x_n$$, जिसमें आई.आई.डी. सम्मिलित माना जाता है। $$x$$ की प्रतियों से, परिमापनक $$\hat{\theta}$$ का निर्माण किया जाता है:


 * $$\hat{\theta} =f_n(x_1,\ldots,x_n).$$

$$\hat{\theta}$$ का मान प्रतिरूप-निर्भर है, इसलिए यह मान एक यादृच्छिक प्रतिरूप से अन्य यादृच्छिक प्रतिरूप में बदल जाएगा।

परिभाषा के अनुसार, $$\hat{\theta}$$ का पूर्वाग्रह इस प्रकार है:


 * $$\text{bias}(\hat{\theta}) = E[\hat{\theta}] - \theta.$$

कोई व्यक्ति अनेक प्रतिरूपों से $$\hat{\theta}$$ के अनेक मानों की गणना करना चाह सकता है, अनेक प्रतिरूपों से, और उनका औसत $$E[\hat{\theta}]$$ निकालें, लेकिन यह तब असंभव है जब उपलब्ध अवलोकनों के पूरे समुच्चय में कोई अन्य प्रतिरूपन $$x_1, ..., x_n$$ हों गणना करने के लिए $$\hat{\theta}$$ प्रयोग किया जाता था। इस तरह की स्थिति में जैकनाइफ पुनः प्रतिचयन तकनीक मददगार हो सकती है।

हम जैकनाइफ प्रतिकृति का निर्माण करते हैं:


 * $$\hat{\theta}_{(1)} =f_{n-1}(x_{2},x_{3}\ldots,x_{n})$$
 * $$\hat{\theta}_{(2)} =f_{n-1}(x_{1},x_{3},\ldots,x_{n})$$ $$\vdots$$
 * $$\hat{\theta}_{(n)} =f_{n-1}(x_1,x_{2},\ldots,x_{n-1})$$

जहां प्रत्येक प्रतिकृति जैकनाइफ उपप्रतिदर्श के आधार पर एक लीव-वन-आउट परिमापन है, जिसमें आंकड़े बिंदुओं में से एक को छोड़कर सभी सम्मिलित हैं:


 * $$\hat{\theta}_{(i)} =f_{n-1}(x_{1},\ldots,x_{i-1},x_{i+1},\ldots,x_{n}) \quad \quad i=1, \dots,n.$$

फिर हम उनका औसत परिभाषित करते हैं:


 * $$\hat{\theta}_\mathrm{jack}=\frac{1}{n} \sum_{i=1}^n \hat{\theta}_{(i)}$$

जैकनाइफ़ के पूर्वाग्रह का परिमापन $$\hat{\theta}$$ द्वारा दिया गया है:
 * $$\widehat{\text{bias}}(\hat{\theta})_\mathrm{jack} =(n-1)(\hat{\theta}_\mathrm{jack} - \hat{\theta})$$

और परिणामी पूर्वाग्रह-सुधारित जैकनाइफ़ परिमापन $$\theta$$ द्वारा दिया गया है:
 * $$\hat{\theta}_{\text{jack}}^{*}

=\hat{\theta} - \widehat{\text{bias}}(\hat{\theta})_\mathrm{jack} =n\hat{\theta} - (n-1)\hat{\theta}_\mathrm{jack}.$$ यह उस विशेष स्तिथि में पूर्वाग्रह को हटा देता है जिसमें पूर्वाग्रह $$O(n^{-1})$$ है, और अन्य स्तिथियों में इसे घटाकर $$O(n^{-2})$$ कर देता है।

एक परिमापनक के विचरण का परिमापन लगाना
जैकनाइफ तकनीक का उपयोग संपूर्ण प्रतिरूप पर गणना किए गए परिमापनक के विचरण का परिमापन लगाने के लिए भी किया जा सकता है।

यह भी देखें

 * लीव-वन-आउट त्रुटि

साहित्य

 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.
 * शाओ, जे. और तू, डी. (1995)। जैकनाइफ और बूटस्ट्रैप। स्प्रिंगर-वेरलाग, इंक.