क्रॉस-सत्यापन (सांख्यिकी)

क्रॉस-सत्यापन,  जिसे कभी-कभी घूर्णन अनुमान  या आउट-ऑफ-प्रतिदर्श परीक्षण कहा जाता है, यह आकलन करने के लिए विभिन्न समान मॉडल सत्यापन तकनीकों में से कोई है कि सांख्यिकी विश्लेषण के परिणाम कैसे होंगे एक स्वतंत्र डेटा समुच्चय के लिए सामान्यीकरण करेंगे। क्रॉस-सत्यापन एक पुनरुत्पादन विधि है जो विभिन्न पुनरावृत्तियों पर एक मॉडल का परीक्षण और प्रशिक्षण करने के लिए डेटा के विभिन्न भागों का उपयोग करती है। यह मुख्य रूप से उन स्थापन में उपयोग किया जाता है जहां लक्ष्य पूर्वाकलन है, और कोई यह अनुमान लगाना चाहता है कि भविष्यसूचक मॉडल व्यवहार में कितना सही प्रदर्शन करेगा। पूर्वाकलन की समस्या में, एक मॉडल को प्रायः ज्ञात डेटा का डेटासमुच्चय दिया जाता है, जिस पर प्रशिक्षण चलाया जाता है (प्रशिक्षण डेटासमुच्चय), और अज्ञात डेटा  का डेटासमुच्चय (या पहली बार देखा गया डेटा') जिसके प्रतिकूल मॉडल का परीक्षण किया जाता है (जिसे सत्यापन समुच्चय या 'परीक्षण समुच्चय' कहा जाता है)। क्रॉस-सत्यापन का लक्ष्य नए डेटा की पूर्वाकलन करने के लिए मॉडल की क्षमता का परीक्षण करना है, जिसका उपयोग अनुमान लगाने में नहीं किया गया था, ताकि अत्युपपन्न या चयन पूर्वाग्रह जैसी समस्याओं को चिह्नित किया जा सके। और यह जानकारी दी जा सके कि मॉडल एक स्वतंत्र डेटासमुच्चय के लिए सामान्यीकरण कैसे करेगा (यानी, एक अज्ञात डेटासमुच्चय, उदाहरण के लिए एक वास्तविक समस्या से)।

क्रॉस-सत्यापन के एक सीमा में डेटा के एक प्रतिदर्श को पूरक उपसमुच्चय में विभाजित करना, एक उपसमुच्चय पर विश्लेषण करना (प्रशिक्षण समुच्चय कहा जाता है), और दूसरे उपसमुच्चय पर विश्लेषण को मान्य करना (सत्यापन समुच्चय या परीक्षण समुच्चय कहा जाता है)। विचरणशीलता को कम करने के लिए, अधिकांश विधि में विभिन्न विभाजनों का उपयोग करके क्रॉस-सत्यापन के कई पूर्णंक किए जाते हैं, और मॉडल के पूर्वकथन प्रदर्शन का अनुमान देने के लिए पूर्णंक के ऊपर सत्यापन परिणाम संयुक्त होते हैं (उदाहरण के लिए औसतन)।

संक्षेप में,मॉडल पूर्वाकलन प्रदर्शन का अधिक सटीक अनुमान प्राप्त करने के लिए क्रॉस-सत्यापन पूर्वाकलन में योग्यता के उपायों (औसतन) को जोड़ता है।

अभिप्रेरणा
एक या एक से अधिक अज्ञात मापदंडों के साथ एक मॉडल मान लें, और एक डेटा समुच्चय जिसके लिए मॉडल (प्रशिक्षण डेटा समुच्चय) अनुरूप हो सकता है। उपयुक्त प्रक्रिया अनुकूलन मॉडल मापदंडों को अनुकूलित करती है ताकि मॉडल को प्रशिक्षण डेटा के साथ-साथ यथासंभव अनुरूप किया जा सके। यदि प्रशिक्षण डेटा के समान जनसंख्या से सत्यापन डेटा का एक स्वतंत्रता प्रतिदर्श लिया जाता है, तो सामान्यतः यह पता चलेगा कि मॉडल सत्यापन डेटा के साथ-साथ प्रशिक्षण डेटा के अनुरूप नहीं है। इस अंतर का आकार बड़ा होने की संभावना है, विशेषत: जब प्रशिक्षण डेटा समुच्चय का आकार छोटा हो, या जब मॉडल में मापदंडों की संख्या बड़ी हो। क्रॉस-सत्यापन इस प्रभाव के आकार का अनुमान लगाने का एक रास्ता है।

रैखिक प्रतिगमन में, वास्तविक संख्या प्रतिक्रिया मान y1, ..., yn और n p-आयामी सदिश सहप्रसरण x1, ..., xn उपस्थित होते है। सदिश xi के घटकों को xi1, ..., xip द्वारा दर्शाया गया है। यदि अधिसमतल ŷ = a + β के रूप में डेटा (xi, yi) 1 ≤ i ≤ n  के रूप में किसी फलन को अनुरूप करने के लिए कम से कम वर्गों का उपयोग किया जाता है, तो माध्य वर्ग त्रुटि (एमएसई) का उपयोग करके अनुरूप का आकलन किया जा सकता है। प्रशिक्षण समुच्चय  (xi, yi) 1 ≤ i ≤ n पर दिए गए अनुमानित प्राचल मान a और 'β' के लिए एमएसई को इस प्रकार परिभाषित किया गया है:


 * $$\begin{align}

\text{MSE} &= \frac 1 n \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \frac 1 n \sum_{i=1}^n (y_i - a - \boldsymbol\beta^T \mathbf{x}_i)^2\\&= \frac{1}{n}\sum_{i=1}^n (y_i - a - \beta_1x_{i1} - \dots - \beta_px_{ip})^2 \end{align}$$ यदि मॉडल ठीक प्रकार से निर्दिष्ट किया गया है, तो यह हल्के अनुमानों के अंतर्गत दिखाया जा सकता है कि प्रशिक्षण समुच्चय के लिए एमएसई का अपेक्षित मूल्य (n − p − 1)/(n + p + 1) < 1 एमएसई के अपेक्षित मूल्य का गुना है सत्यापन समुच्चय के लिए (प्रशिक्षण समुच्चयों के वितरण पर अपेक्षित मूल्य लिया जाता है)। इस प्रकार, प्रशिक्षण समुच्चय पर अनुरूप किए गए मॉडल और संगणित एमएसई के परिणामस्वरूप एक आशावादी रूप से अभिनत मूल्यांकन होगा कि मॉडल एक स्वतंत्र डेटा समुच्चय में कितनी अच्छी तरह अनुरूप होगा। इस अभिनत अनुमान को अनुरूप का इन-प्रतिदर्श अनुमान कहा जाता है, जबकि क्रॉस-सत्यापन अनुमान एक आउट-ऑफ-प्रतिदर्श अनुमान है।

क्योंकि रैखिक प्रतिगमन में कारक (n − p − 1)/(n + p + 1) की सीधे गणना करना संभव है, जिसके द्वारा प्रशिक्षण एमएसई सत्यापन एमएसई को इस धारणा के अंतर्गत कम करके आंका जाता है कि मॉडल विनिर्देश मान्य है, क्रॉस-सत्यापन कर सकते हैं यह जाँचने के लिए उपयोग किया जाना चाहिए कि क्या मॉडल को अत्युपपन्न किया गया है, जिस स्थिति में सत्यापन समुच्चय में एमएसई अपने अनुमानित मूल्य से काफी अधिक हो जाएगा। (रेखीय प्रतिगमन के संदर्भ में क्रॉस-सत्यापन भी उपयोगी है क्योंकि इसका उपयोग इष्टतम नियमित लागत फलन का चयन करने के लिए किया जा सकता है।) अधिकांश अन्य प्रतिगमन प्रक्रियाओं (जैसे रसद प्रतिगमन) में, अपेक्षित आउट-ऑफ-प्रतिदर्श अनुरूप की गणना करने के लिए कोई सरल सूत्र नहीं है। इस प्रकार, सैद्धांतिक विश्लेषण के स्थान पर संख्यात्मक गणना का उपयोग करके अनुपलब्ध डेटा पर एक मॉडल के प्रदर्शन की पूर्वाकलन करने के लिए क्रॉस-सत्यापन एक सामान्यतः उपयुक्त प्रकार है।

प्रकार
दो प्रकार के क्रॉस-सत्यापन को प्रतिष्ठित किया जा सकता है: संपूर्ण और गैर-संपूर्ण क्रॉस-सत्यापन।

संपूर्ण क्रॉस-सत्यापन
व्यापक क्रॉस-सत्यापन विधियाँ क्रॉस-सत्यापन विधियाँ हैं जो मूल प्रतिदर्श को एक प्रशिक्षण और एक सत्यापन समुच्चय में विभाजित करने के सभी संभावित विधि को सीखती हैं और उनका परीक्षण करती हैं।

लीव-पी-आउट क्रॉस-सत्यापन
लीव-पी-आउट क्रॉस-सत्यापन (LpO CV) में p अवलोकनों को सत्यापन समुच्चय के रूप में और शेष अवलोकनों को प्रशिक्षण समुच्चय के रूप में उपयोग करना सम्मिलित है। यह p टिप्पणियों के सत्यापन समुच्चय और प्रशिक्षण समुच्चय पर मूल प्रतिदर्श को कटौती के सभी विधि पर दोहराया जाता है।

LpO क्रॉस-सत्यापन के लिए मॉडल $$C^n_p$$ बार प्रशिक्षण और सत्यापन की आवश्यकता होती है, जहाँ n मूल प्रतिदर्श में टिप्पणियों की संख्या है, और जहां $$C^n_p$$ द्विपद गुणांक है। p > 1 के लिए और सामान्य रूप से बड़े n के लिए, LpO CV अभिकलनीयतः रूप से अक्षम हो सकता है। उदाहरण के लिए, n = 100 और p = 30 के साथ, $$C^{100}_{30} \approx 3\times 10^{25}$$।

p=2 के साथ LpO क्रॉस-सत्यापन का एक संस्करण जिसे लीव-पेयर-आउट क्रॉस-सत्यापन के रूप में जाना जाता है, को द्विआधारी वर्गीकरणकर्ता के आरओसी वक्र के अंतर्गत क्षेत्र का अनुमान लगाने के लिए लगभग निष्पक्ष विधि के रूप में अनुशंसित किया गया है।

लीव-वन-आउट क्रॉस-सत्यापन
लीव-वन-आउट क्रॉस-वेलिडेशन (एलओओसीवी) p = 1 के साथ लीव-पी-आउट क्रॉस-सत्यापन का एक विशेष प्रकरण है। यह प्रक्रिया जैकनाइफ के समान दिखती है; तथापि, क्रॉस-सत्यापन के साथ एक बाएं-आउट प्रतिदर्श पर एक आंकड़े की गणना करता है, जबकि जैकनाइफिंग के साथ केवल रखे गए प्रतिदर्श से एक आंकड़े की गणना करता है।

LOO क्रॉस-सत्यापन के लिए LpO क्रॉस-सत्यापन की तुलना में कम संगणना समय की आवश्यकता होती है क्योंकि $$C^n_1=n$$ के बदले केवल $$C^n_p$$ पास होते हैं। हालाँकि, $$n$$ पास को अभी भी काफी बड़े संगणना समय की आवश्यकता हो सकती है, इस प्रकरण में अन्य दृष्टिकोण जैसे k-गुना क्रॉस सत्यापन अधिक उपयुक्त हो सकता है।

इनपुट:
x, {लंबाई N का सदिश आने वाले बिंदुओं के x-मानों के साथ}

y, {अपेक्षित परिणाम के y-मानों के साथ लंबाई N का सदिश}

इंटरपोलेट (x_in, y_in, x_out), { प्रतिदर्श के x_in-y_in जोड़े के साथ प्रशिक्षित होने के बाद बिंदु x_out के लिए अनुमान देता है}

आउटपुट:
त्रुटि, {पूर्वाकलन त्रुटि के लिए अनुमान}

कदम:
err ← 0 for i ← 1, ..., N do   // define the cross-validation subsets x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N]) y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N]) x_out ← x[i] y_out ← interpolate(x_in, y_in, x_out) err ← err + (y[i] − y_out)^2 end for err ← err/N

गैर-संपूर्ण क्रॉस-सत्यापन
गैर-संपूर्ण क्रॉस सत्यापन विधियां मूल प्रतिदर्श को विभाजित करने के सभी विधि की गणना नहीं करती हैं। ये विधि लीव-पी-आउट क्रॉस-सत्यापन के अनुमान हैं।

k-गुना क्रॉस-सत्यापन
k-गुना क्रॉस-सत्यापन में, मूल प्रतिदर्श यादृच्छिक रूप से k के समान आकार के उप-प्रतिदर्श में विभाजित होता है। k उप-प्रतिदर्श में से, एक एकल उप-प्रतिदर्श मॉडल के परीक्षण के लिए सत्यापन डेटा के रूप में रखा जाता है, और शेष k − 1 उप-प्रतिदर्श को प्रशिक्षण डेटा के रूप में उपयोग किया जाता है। फिर क्रॉस-सत्यापन प्रक्रिया को k बार दोहराया जाता है, प्रत्येक k उप-प्रतिदर्श को सत्यापन डेटा के रूप में ठीक एक बार उपयोग किया जाता है। k परिणाम तब एक अनुमान का उत्पादन करने के लिए औसतनन हो सकते हैं। बार-बार यादृच्छिक उप-प्रतिदर्शकरण (नीचे देखें) पर इस पद्धति का लाभ यह है कि सभी अवलोकनों का उपयोग प्रशिक्षण और सत्यापन दोनों के लिए किया जाता है, और प्रत्येक अवलोकन का उपयोग केवल एक बार सत्यापन के लिए किया जाता है। 10-गुना क्रॉस-सत्यापन सामान्यतः उपयोग किया जाता है, लेकिन सामान्यतः k एक अनिश्चित प्राचल रहता है।

उदाहरण के लिए, k = 2 समुच्चय करने पर 2-गुना क्रॉस-सत्यापन होता है। 2-गुना क्रॉस-सत्यापन में, हम निरुद्देश्यता से डेटासमुच्चय को दो समुच्चय d0 और d1 में फेरबदल करते हैं, ताकि दोनों समुच्चय समान आकार के हों (यह सामान्यतः डेटा ऐरे को फेरबदल करके और फिर इसे दो में विभाजित करके उपयुक्त किया जाता है)। हम तब d0 पर प्रशिक्षण देते हैं और d1 पर सत्यापन करते हैं, इसके बाद d1 पर प्रशिक्षण और d0 पर सत्यापन करते हैं।

जब k = n (अवलोकन की संख्या), k- गुना क्रॉस-सत्यापन लीव-वन-आउट क्रॉस-सत्यापन के समान होता है।

स्तरीकृत k-गुना क्रॉस-सत्यापन में, विभाजन का चयन किया जाता है ताकि औसतन प्रतिक्रिया मान सभी विभाजनों में लगभग समान हो। द्विआधारी वर्गीकरण के प्रकरण में, इसका मतलब है कि प्रत्येक विभाजन में दो प्रकार के वर्ग लेबलों के लगभग समान अनुपात होते हैं।

बार-बार क्रॉस-सत्यापन में डेटा निरुद्देश्यता से कई बार k विभाजन में विभाजित हो जाता है। इस प्रकार मॉडल के प्रदर्शन को कई रनों से औसतन किया जा सकता है, लेकिन व्यवहार में यह शायद ही वांछनीय है।

जब कई अलग-अलग सांख्यिकीय या यंत्र अधिगम पर विचार किया जा रहा है, तो बहुभक्षक k-गुना क्रॉस-सत्यापन का उपयोग सबसे आशाजनक उम्मीदवार मॉडल को जल्दी से पहचानने के लिए किया जा सकता है।

होल्डआउट विधि
होल्डआउट विधि में, हम निरुद्देश्यता से दो समुच्चय d0 और d1 को डेटा बिन्दु नियुक्त करते हैं, जिन्हें सामान्यतः क्रमशः प्रशिक्षण समुच्चय और परीक्षण समुच्चय कहा जाता है। प्रत्येक समुच्चय का आकार मनमाना है, तथापि सामान्यतः परीक्षण समुच्चय प्रशिक्षण समुच्चय से छोटा होता है। हम फिर d0 पर प्रशिक्षण (एक मॉडल का निर्माण) और d1 पर परीक्षण (इसके प्रदर्शन का मूल्यांकन) करते हैं।

प्ररूपी क्रॉस-सत्यापन में, मॉडल-परीक्षण के कई रन के परिणाम एक साथ औसतन होते हैं; इसके विपरीत, होल्डआउट विधि, अलगाव में, एक रन सम्मिलित है। इसे सावधानी के साथ इस्तेमाल किया जाना चाहिए क्योंकि कई रनों के ऐसे औसतन के बिना, अत्यधिक भ्रामक परिणाम प्राप्त हो सकते हैं। भविष्यवाणी की सटीकता (F*) का एक संकेतक अस्थिर हो जाएगा क्योंकि इसे कई पुनरावृत्तियों (नीचे देखें) से सुचारू नहीं किया जाएगा। इसी तरह, विभिन्न पूर्वसूचक चर (जैसे, प्रतिगमन गुणांक के मान) द्वारा निभाई गई विशिष्ट भूमिका के संकेतक अस्थिर होंगे।

जबकि होल्डआउट विधि को "सरलतम प्रकार के क्रॉस-सत्यापन" के रूप में तैयार किया जा सकता है, क्रॉस-सत्यापन के एक सरल या अपभ्रष्ट रूप के बदले, कई स्रोत होल्डआउट को सरल सत्यापन के एक प्रकार के रूप में वर्गीकृत करते हैं।

बार-बार यादृच्छिक उप-प्रतिदर्श सत्यापन
यह विधि, जिसे मोंटे कार्लो विधि क्रॉस-सत्यापन के रूप में भी जाना जाता है, प्रशिक्षण और सत्यापन डेटा में डेटासमुच्चय के कई यादृच्छिक विभाजन बनाता है। इस तरह के प्रत्येक विभाजन के लिए, मॉडल प्रशिक्षण डेटा के लिए उपयुक्त है, और सत्यापन डेटा का उपयोग करके भविष्यसूचक सटीकता का आकलन किया जाता है। परिणाम तब विभाजन पर औसतन होते हैं। इस पद्धति का लाभ (k-गुना क्रॉस सत्यापन से अधिक) यह है कि प्रशिक्षण/सत्यापन विभाजन का अनुपात पुनरावृत्तियों की संख्या (यानी, विभाजनों की संख्या) पर निर्भर नहीं है। इस पद्धति का नुकसान यह है कि सत्यापन उप-प्रतिदर्श में कुछ अवलोकनों का चयन कभी नहीं किया जा सकता है, जबकि अन्य को एक से अधिक बार चुना जा सकता है। दूसरे शब्दों में, सत्यापन उपसमुच्चय ओवरलैप हो सकते हैं। यह विधि मोंटे कार्लो भिन्नता को भी प्रदर्शित करती है, जिसका अर्थ है कि यदि विश्लेषण अलग-अलग यादृच्छिक विभाजनों के साथ दोहराया जाता है तो परिणाम अलग-अलग होंगे।

जैसा कि यादृच्छिक विभाजन की संख्या अनंत तक पहुंचती है, बार-बार यादृच्छिक उप-प्रतिदर्श सत्यापन का परिणाम लीव-पी-आउट क्रॉस-सत्यापन की ओर जाता है।

इस दृष्टिकोण के एक स्तरीकृत संस्करण में, यादृच्छिक प्रतिदर्श इस तरह से उत्पन्न होते हैं कि औसतन प्रतिक्रिया मूल्य (यानी प्रतिगमन में निर्भर चर) प्रशिक्षण और परीक्षण समुच्चयों में समान होता है। यह विशेष रूप से उपयोगी है यदि डेटा में दो प्रतिक्रिया मूल्यों के असंतुलित प्रतिनिधित्व के साथ प्रतिक्रियाएं द्विबीजपत्री हैं।

एक विधि जो बार-बार यादृच्छिक उप-प्रतिदर्शकरण उपयुक्त करती है वह RANSAC है।

नेस्टेड क्रॉस-सत्यापन
जब हाइपरपरमीटर (मशीन लर्निंग) के सर्वश्रेष्ठ समुच्चय के चयन के लिए और त्रुटि अनुमान (और सामान्यीकरण क्षमता का आकलन) के लिए एक साथ क्रॉस-सत्यापन का उपयोग किया जाता है, तो एक नेस्टेड क्रॉस-सत्यापन की आवश्यकता होती है। कई प्रकार उपस्थित हैं। कम से कम दो रूपों को प्रतिष्ठित किया जा सकता है:

k*l-गुना क्रॉस-सत्यापन
यह वास्तव में नेस्टेड वैरिएंट है जिसमें k समुच्चय का बाहरी लूप और l समुच्चय का आंतरिक लूप होता है। कुल डेटा समुच्चय को k समुच्चय में विभाजित किया गया है। एक-एक करके, एक समुच्चय को (बाहरी) परीक्षण समुच्चय के रूप में चुना जाता है और k - 1 अन्य समुच्चयों को संबंधित बाहरी प्रशिक्षण समुच्चय में संयोजित किया जाता है। यह प्रत्येक k समुच्चय के लिए दोहराया जाता है। प्रत्येक बाहरी प्रशिक्षण समुच्चय को एल समुच्चयों में उप-विभाजित किया गया है। एक-एक करके, एक समुच्चय को आंतरिक परीक्षण (सत्यापन) समुच्चय के रूप में चुना जाता है और l - अन्य समुच्चयों को संबंधित आंतरिक प्रशिक्षण समुच्चय में संयोजित किया जाता है। यह प्रत्येक एल समुच्चय के लिए दोहराया जाता है। आंतरिक प्रशिक्षण समुच्चय का उपयोग मॉडल मापदंडों को अनुरूप करने के लिए किया जाता है, जबकि बाहरी परीक्षण समुच्चय का उपयोग मॉडल अनुरूप का निष्पक्ष मूल्यांकन प्रदान करने के लिए सत्यापन समुच्चय के रूप में किया जाता है। सामान्यतः, यह कई अलग-अलग हाइपरप्राचल (या यहां तक ​​​​कि अलग-अलग मॉडल प्रकार) के लिए दोहराया जाता है और इस आंतरिक प्रशिक्षण समुच्चय के लिए सबसे अच्छा हाइपरपरमीटर समुच्चय (और मॉडल प्रकार) निर्धारित करने के लिए सत्यापन समुच्चय का उपयोग किया जाता है। इसके बाद, आंतरिक क्रॉस-सत्यापन से हाइपरप्राचल के सर्वश्रेष्ठ समुच्चय का उपयोग करते हुए, पूरे बाहरी प्रशिक्षण समुच्चय पर एक नया मॉडल अनुरूप किया जाता है। इस मॉडल के प्रदर्शन का मूल्यांकन तब बाहरी परीक्षण समुच्चय का उपयोग करके किया जाता है।

सत्यापन और परीक्षण समुच्चय
के साथ k-गुना क्रॉस-सत्यापन

यह एक प्रकार का k*l-गुना क्रॉस-सत्यापन है जब l = k - 1। एक एकल k-फ़ोल्ड क्रॉस-सत्यापन का उपयोग प्रशिक्षण, सत्यापन और परीक्षण समुच्चय दोनों के साथ किया जाता है। कुल डेटा समुच्चय को k समुच्चय में विभाजित किया गया है। एक-एक करके, एक समुच्चय को टेस्ट समुच्चय के रूप में चुना जाता है। फिर, एक-एक करके, शेष समुच्चयों में से एक को सत्यापन समुच्चय के रूप में उपयोग किया जाता है और अन्य k - 2 समुच्चयों को प्रशिक्षण समुच्चय के रूप में तब तक उपयोग किया जाता है जब तक कि सभी संभावित संयोजनों का मूल्यांकन नहीं हो जाता। के * एल-फोल्ड क्रॉस सत्यापन के समान, प्रशिक्षण समुच्चय का उपयोग मॉडल उपयुक्त के लिए किया जाता है और सत्यापन समुच्चय का उपयोग प्रत्येक हाइपरप्राचल समुच्चय के मॉडल मूल्यांकन के लिए किया जाता है। अंत में, चयनित प्राचल समुच्चय के लिए, परीक्षण समुच्चय का उपयोग सर्वोत्तम प्राचल समुच्चय वाले मॉडल का मूल्यांकन करने के लिए किया जाता है। यहां, दो संस्करण संभव हैं: या तो उस मॉडल का मूल्यांकन करना जिसे प्रशिक्षण समुच्चय पर प्रशिक्षित किया गया था या एक नए मॉडल का मूल्यांकन करना जो प्रशिक्षण और सत्यापन समुच्चय के संयोजन पर अनुरूप था।

अनुरूप होने के उपाय
क्रॉस-सत्यापन का लक्ष्य मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा से स्वतंत्र डेटा समुच्चय के मॉडल के अनुरूप होने के अपेक्षित स्तर का अनुमान लगाना है। इसका उपयोग अनुरूप के किसी भी मात्रात्मक माप का अनुमान लगाने के लिए किया जा सकता है जो डेटा और मॉडल के लिए उपयुक्त है। उदाहरण के लिए, बाइनरी वर्गीकरण समस्याओं के लिए, सत्यापन समुच्चय में प्रत्येक प्रकरणकी या तो सही या गलत पूर्वाकलन की जाती है। इस स्थिति में गलत वर्गीकरण त्रुटि दर का उपयोग अनुरूप को सारांशित करने के लिए किया जा सकता है, तथापि सकारात्मक भविष्यसूचक मूल्य जैसे अन्य उपायों का भी उपयोग किया जा सकता है। जब अनुमान लगाया जा रहा मूल्य लगातार वितरित किया जाता है, तो त्रुटियों को सारांशित करने के लिए औसतन वर्ग त्रुटि, मूल माध्य वर्ग त्रुटि या औसतन पूर्ण विचलन का उपयोग किया जा सकता है।

पूर्व सूचना का प्रयोग
जब उपयोगकर्ता एक अच्छा कॉन्फ़िगरेशन चुनने के लिए क्रॉस-सत्यापन उपयुक्त करते हैं $$\lambda$$, तो वे कॉन्फ़िगरेशन के अपने अनुमान के साथ क्रॉस-वैध विकल्प को संतुलित करना चाह सकते हैं। इस तरह, वे प्रतिदर्श आकार छोटा होने पर क्रॉस-सत्यापन की अस्थिरता का मुकाबला करने का प्रयास कर सकते हैं और पिछले शोध से प्रासंगिक जानकारी सम्मिलित कर सकते हैं। उदाहरण के लिए, पूर्वानुमान संयोजन अभ्यास में, प्रत्येक पूर्वानुमान को निर्दिष्ट भार का अनुमान लगाने के लिए क्रॉस-सत्यापन उपयुक्त किया जा सकता है। क्योंकि एक साधारण समान भारित पूर्वानुमान को हराना मुश्किल है, समान भार से विचलन के लिए जुर्माना जोड़ा जा सकता है। या, यदि टिप्पणियों को अलग-अलग भार देने के लिए क्रॉस-सत्यापन उपयुक्त किया जाता है, तो संभावित प्रासंगिक जानकारी को बर्बाद करने से बचने के लिए समान भार से विचलन को दंडित किया जा सकता है। होर्नवेग (2018) दिखाता है कि कैसे एक ट्यूनिंग प्राचल $$\gamma$$ परिभाषित किया जा सकता है ताकि एक उपयोगकर्ता क्रॉस-सत्यापन की सटीकता और एक संदर्भ प्राचल से चिपके रहने की सरलता के बीच सहजता से संतुलन बना सके $$\lambda_R$$ जो उपयोगकर्ता द्वारा परिभाषित किया गया है।

अगर $$\lambda_i$$ दर्शाता है $$i^{th}$$ कैंडिडेट कॉन्फ़िगरेशन जिसे चुना जा सकता है, तो लॉस फ़ंक्शन # स्टेटिस्टिक्स जिसे कम किया जाना है, के रूप में परिभाषित किया जा सकता है

L_{\lambda_i} = (1-\gamma) \mbox{ Relative Accuracy}_i + \gamma \mbox{ Relative Simplicity}_i. $$ सापेक्ष सटीकता के रूप में मात्रा निर्धारित की जा सकती है $$\mbox{MSE}(\lambda_i)/\mbox{MSE}(\lambda_R)$$, ताकि एक उम्मीदवार की औसतन चुकता त्रुटि $$\lambda_i$$ उपयोगकर्ता द्वारा निर्दिष्ट के सापेक्ष बनाया गया है $$\lambda_R$$. सापेक्ष सरलता शब्द उस मात्रा को मापता है जो $$\lambda_i$$ से विचलित होता है $$\lambda_R$$ विचलन की अधिकतम मात्रा के सापेक्ष $$\lambda_R$$. तदनुसार, सापेक्ष सादगी के रूप में निर्दिष्ट किया जा सकता है $$\frac{(\lambda_i-\lambda_R)^2}{(\lambda_{\max}-\lambda_R)^2}$$, कहाँ $$\lambda_{\max}$$ से मेल खाता है $$\lambda$$ उच्चतम स्वीकार्य विचलन के साथ मूल्य $$\lambda_R$$. साथ $$\gamma\in[0,1]$$, उपयोगकर्ता यह निर्धारित करता है कि क्रॉस-सत्यापन के सापेक्ष संदर्भ प्राचल का प्रभाव कितना अधिक है।

एक से अधिक कॉन्फ़िगरेशन के लिए सापेक्ष सरलता शब्द जोड़ सकते हैं $$c=1,2,...,C$$ हानि फ़ंक्शन को निर्दिष्ट करके

L_{\lambda_i} = \mbox{ Relative Accuracy}_i + \sum_{c=1}^C \frac{\gamma_c}{1-\gamma_c} \mbox{ Relative Simplicity}_{i,c}. $$ होर्नवेग (2018) से पता चलता है कि इस तरह की सटीकता-सरलता ट्रेडऑफ़ के साथ एक हानि फ़ंक्शन का उपयोग (अनुकूली) लैस्सो और बायेसियन प्रतिगमन  /  रिज प्रतिगमन  जैसे संकोचन अनुमानकों को सहजता से परिभाषित करने के लिए भी किया जा सकता है। उदाहरण के लिए लासो (सांख्यिकी) #लासो की व्याख्या पर क्लिक करें।

सांख्यिकीय गुण
मान लीजिए कि हम अनुरूप एफ का एक उपाय चुनते हैं, और अनुमान एफ का उत्पादन करने के लिए क्रॉस-सत्यापन का उपयोग करते हैं* एक मॉडल के अपेक्षित फ़िट EF का प्रशिक्षण डेटा के समान जनसंख्या से लिए गए एक स्वतंत्र डेटा समुच्चय के लिए। यदि हम एक ही वितरण के बाद कई स्वतंत्र प्रशिक्षण समुच्चयों के प्रतिदर्श की कल्पना करते हैं, तो परिणामी मान F* भिन्न होगा। एफ के सांख्यिकीय गुण* इस भिन्नता का परिणाम है।

क्रॉस-सत्यापन अनुमानक एफ* EF के लिए लगभग निष्पक्ष है। इसके थोड़े अभिनत होने का कारण यह है कि क्रॉस-सत्यापन में समुच्चय किया गया प्रशिक्षण वास्तविक डेटा समुच्चय से थोड़ा छोटा होता है (उदाहरण के लिए LOOCV के लिए प्रशिक्षण समुच्चय का आकार n − 1 होता है जब n देखे गए प्रकरणहोते हैं)। लगभग सभी स्थितियों में, इस पूर्वाग्रह का प्रभाव रूढ़िवादी होगा जिसमें अनुमानित अनुरूप एक खराब अनुरूप का सुझाव देने वाली दिशा में थोड़ा अभिनत होगा। व्यवहार में, यह पूर्वाग्रह शायद ही कभी चिंता का विषय होता है।

F का विचरण* बड़ा हो सकता है। इस कारण से, यदि दो सांख्यिकीय प्रक्रियाओं की तुलना क्रॉस-सत्यापन के परिणामों के आधार पर की जाती है, तो बेहतर अनुमानित प्रदर्शन वाली प्रक्रिया वास्तव में दो प्रक्रियाओं से बेहतर नहीं हो सकती है (अर्थात इसमें EF का बेहतर मूल्य नहीं हो सकता है)। क्रॉस-सत्यापन अनुमानों के आसपास विश्वास अंतराल के निर्माण पर कुछ प्रगति हुई है, पर यह एक कठिन समस्या मानी जाती है।

कम्प्यूटेशनल मुद्दे
जब तक अध्ययन की जा रही पूर्वाकलन पद्धति का कार्यान्वयन उपलब्ध है, तब तक क्रॉस-सत्यापन के अधिकांश रूप उपयुक्त करने के लिए सरल हैं। विशेष रूप से, पूर्वाकलन पद्धति एक ब्लैक बॉक्स हो सकती है - इसके कार्यान्वयन के आंतरिक भाग तक पहुंच की कोई आवश्यकता नहीं है। यदि पूर्वाकलन पद्धति को प्रशिक्षित करना महंगा है, तो क्रॉस-सत्यापन बहुत धीमा हो सकता है क्योंकि प्रशिक्षण को बार-बार किया जाना चाहिए। कुछ मामलों में जैसे कम से कम वर्ग और कर्नेल प्रतिगमन, प्रशिक्षण में बार-बार आवश्यक कुछ मूल्यों की पूर्व-गणना करके, या शर्मन-मॉरिसन सूत्र जैसे तेजी से अद्यतन नियमों का उपयोग करके क्रॉस-सत्यापन को महत्वपूर्ण रूप से बढ़ाया जा सकता है। तथापि किसी को प्रशिक्षण प्रक्रिया से निर्धारित सत्यापन की कुल अंधाधुंधता को बनाए रखने के लिए सावधान रहना चाहिए, अन्यथा पूर्वाग्रह का परिणाम हो सकता है। क्रॉस-सत्यापन में तेजी लाने का एक चरम उदाहरण रेखीय प्रतिगमन में होता है, जहां क्रॉस-सत्यापन के परिणामों में एक बंद रूप अभिव्यक्ति होता है, जिसे प्रिडिक्शन रेसीड्यूल एरर योग ऑफ स्क्वेयर (प्रेस आँकड़ा) के रूप में जाना जाता है।

सीमाएं और दुरुपयोग
क्रॉस-सत्यापन केवल तभी सार्थक परिणाम देता है जब सत्यापन समुच्चय और प्रशिक्षण समुच्चय एक ही आबादी से तैयार किए जाते हैं और केवल तभी जब मानव पूर्वाग्रह नियंत्रित होते हैं।

पूर्वानुमानित मॉडलिंग के कई अनुप्रयोगों में, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (अर्थात यह गैर-स्थिर है)। ये दोनों प्रशिक्षण और सत्यापन समुच्चय के बीच व्यवस्थित अंतर का परिचय दे सकते हैं। उदाहरण के लिए, यदि शेयर बाजार की पूर्वाकलन के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद के पांच साल की अवधि को उसी आबादी से ड्रा के रूप में मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर एक विशेष बीमारी के साथ चिकित्सा निदान होने के लिए किसी व्यक्ति के जोखिम की पूर्वाकलन करने के लिए एक मॉडल विकसित किया गया है। यदि मॉडल को केवल एक विशिष्ट जनसंख्या समूह (जैसे युवा लोग या पुरुष) से ​​जुड़े एक अध्ययन से डेटा का उपयोग करके प्रशिक्षित किया जाता है, लेकिन फिर इसे सामान्य आबादी पर उपयुक्त किया जाता है, तो प्रशिक्षण समुच्चय से क्रॉस-सत्यापन परिणाम वास्तविक पूर्वाकलन प्रदर्शन से काफी भिन्न हो सकते हैं।.

कई अनुप्रयोगों में, मॉडल भी गलत तरीके से निर्दिष्ट किए जा सकते हैं और मॉडलर पूर्वाग्रहों और/या मनमाने विकल्पों के कार्य के रूप में भिन्न हो सकते हैं। जब ऐसा होता है, तो एक भ्रम हो सकता है कि सिस्टम बाहरी नमूनों में बदल जाता है, जबकि इसका कारण यह है कि मॉडल ने एक महत्वपूर्ण भविष्यवक्ता को याद किया है और/या एक भ्रमित भविष्यवक्ता को सम्मिलित किया है। नया साक्ष्य यह है कि क्रॉस-सत्यापन अपने आप में बाहरी वैधता का बहुत पूर्वानुमान नहीं है, जबकि प्रायोगिक सत्यापन का एक रूप जिसे स्वैप प्रतिदर्शकरण के रूप में जाना जाता है जो मानव पूर्वाग्रह के लिए नियंत्रण करता है, बाहरी वैधता का अधिक पूर्वानुमानित हो सकता है। जैसा कि 30,000 मॉडलों में इस बड़े MAQC-II अध्ययन द्वारा परिभाषित किया गया है, स्वैप प्रतिदर्शकरण इस अर्थ में क्रॉस-सत्यापन को सम्मिलित करता है कि स्वतंत्र प्रशिक्षण और सत्यापन नमूनों में भविष्यवाणियों का परीक्षण किया जाता है। फिर भी, मॉडल भी इन स्वतंत्र नमूनों में और मॉडलर्स द्वारा विकसित किए जाते हैं जो एक दूसरे से अंधे होते हैं। जब इन अदला-बदली प्रशिक्षण और सत्यापन नमूनों में विकसित इन मॉडलों में एक बेमेल होता है, जैसा कि अक्सर होता है, MAQC-II दिखाता है कि यह पारंपरिक क्रॉस-सत्यापन की तुलना में खराब बाहरी भविष्यसूचक वैधता का अधिक पूर्वानुमान होगा।

अदला-बदली के प्रतिदर्श की सफलता का कारण मॉडल निर्माण में मानव पूर्वाग्रहों के लिए एक अंतर्निहित नियंत्रण है। भविष्यवाणियों में बहुत अधिक विश्वास रखने के अलावा जो मॉडलर के बीच भिन्न हो सकते हैं और इन जटिल मॉडलर प्रभावों के कारण खराब बाहरी वैधता का कारण बन सकते हैं, ये कुछ अन्य तरीके हैं जिनसे क्रॉस-सत्यापन का दुरुपयोग किया जा सकता है:


 * संपूर्ण डेटा समुच्चय का उपयोग करके सबसे अधिक जानकारीपूर्ण सुविधाओं (पैटर्न पहचान) की पहचान करने के लिए प्रारंभिक विश्लेषण करके - यदि मॉडलिंग प्रक्रिया द्वारा फीचर चयन या मॉडल ट्यूनिंग की आवश्यकता होती है, तो इसे प्रत्येक प्रशिक्षण समुच्चय पर दोहराया जाना चाहिए। अन्यथा, भविष्यवाणियां निश्चित रूप से ऊपर की ओर अभिनत होंगी। यदि क्रॉस-सत्यापन का उपयोग यह तय करने के लिए किया जाता है कि कौन सी सुविधाओं का उपयोग करना है, तो प्रत्येक प्रशिक्षण समुच्चय पर फीचर चयन करने के लिए एक आंतरिक क्रॉस-सत्यापन किया जाना चाहिए।
 * कुछ प्रशिक्षण डेटा को परीक्षण समुच्चय में सम्मिलित करने की अनुमति देकर - यह डेटा समुच्चय में ट्विनिंग के कारण हो सकता है, जिससे डेटा समुच्चय में कुछ समान या लगभग समान प्रतिदर्श उपस्थित होते हैं। कुछ हद तक जुड़वां हमेशा पूरी तरह से स्वतंत्र प्रशिक्षण और सत्यापन प्रतिदर्श में भी होता है। ऐसा इसलिए है क्योंकि कुछ प्रशिक्षण प्रतिदर्श टिप्पणियों में सत्यापन प्रतिदर्श टिप्पणियों के रूप में भविष्यवक्ताओं के लगभग समान मूल्य होंगे। और इनमें से कुछ प्रशिक्षण और सत्यापन दोनों में एक ही दिशा में मौका स्तर से बेहतर लक्ष्य के साथ सहसंबद्ध होंगे, जब वे वास्तव में खराब बाहरी वैधता वाले भ्रमित भविष्यवक्ताओं द्वारा संचालित होते हैं। यदि इस तरह के क्रॉस-वैलिडेटेड मॉडल को के-फोल्ड समुच्चय से चुना जाता है, तो मानव पुष्टि पूर्वाग्रह काम पर होगा और यह निर्धारित करेगा कि इस तरह के मॉडल को मान्य किया गया है। यही कारण है कि पारंपरिक क्रॉस-सत्यापन को मानव पूर्वाग्रह और स्वैप प्रतिदर्शकरण और संभावित अध्ययन जैसे भ्रमित मॉडल विनिर्देश के नियंत्रण के साथ पूरक होने की आवश्यकता है।

समय-श्रृंखला मॉडल
के लिए क्रॉस सत्यापन क्योंकि डेटा का क्रम महत्वपूर्ण है, क्रॉस-सत्यापन समय-श्रृंखला मॉडल के लिए समस्याग्रस्त हो सकता है। रोलिंग क्रॉस-सत्यापन का उपयोग करने के लिए एक अधिक उपयुक्त दृष्टिकोण हो सकता है। तथापि, यदि प्रदर्शन का वर्णन एकल सारांश आँकड़ों द्वारा किया जाता है, तो यह संभव है कि पोलिटिस और रोमानो द्वारा एक स्थिर बूटस्ट्रैप के रूप में वर्णित दृष्टिकोण काम करेगा। बूटस्ट्रैप के आँकड़ों को समय श्रृंखला के एक अंतराल को स्वीकार करने और उस पर सारांश आँकड़ा वापस करने की आवश्यकता है। स्टेशनरी बूटस्ट्रैप को कॉल करने के लिए उचित औसतन अंतराल लंबाई निर्दिष्ट करने की आवश्यकता है।

अनुप्रयोग
विभिन्न पूर्वानुमानित मॉडलिंग प्रक्रियाओं के प्रदर्शन की तुलना करने के लिए क्रॉस-सत्यापन का उपयोग किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हम ऑप्टिकल कैरेक्टर मान्यता में रुचि रखते हैं, और हम हस्तलिखित चरित्र की छवि से वास्तविक चरित्र की पूर्वाकलन करने के लिए समर्थन सदिश यंत्र (SVM) या k निकटतम पड़ोसी | k-निकटतम पड़ोसी (KNN) का उपयोग करने पर विचार कर रहे हैं। क्रॉस-सत्यापन का उपयोग करते हुए, हम इन दो विधि की निष्पक्ष रूप से गलत वर्गीकृत वर्णों के उनके संबंधित अंशों के संदर्भ में तुलना कर सकते हैं। यदि हम केवल उनके इन-प्रतिदर्शएरर रेट के आधार पर विधि की तुलना करते हैं, तो एक प्रकार बेहतर प्रदर्शन करता दिखाई देगा, क्योंकि यह अधिक लचीला है और इसलिए ओवरउपयुक्त के लिए अधिक प्रवण है।  दूसरी विधि की तुलना में।

फ़ीचर चयन में क्रॉस-सत्यापन का भी उपयोग किया जा सकता है। मान लीजिए कि हम 20 प्रोटीनों के जीन अभिव्यक्ति स्तर का उपयोग कर रहे हैं यह अनुमान लगाने के लिए कि क्या कैंसर रोगी दवा का जवाब देगा। एक व्यावहारिक लक्ष्य यह निर्धारित करना होगा कि 20 विशेषताओं में से किस सबसमुच्चय का उपयोग सर्वोत्तम भविष्यसूचक मॉडल बनाने के लिए किया जाना चाहिए। अधिकांश मॉडलिंग प्रक्रियाओं के लिए, यदि हम इन-प्रतिदर्श त्रुटि दरों का उपयोग करके फीचर सबसमुच्चय की तुलना करते हैं, तो सबसे अच्छा प्रदर्शन तब होगा जब सभी 20 सुविधाओं का उपयोग किया जाएगा। तथापि क्रॉस-सत्यापन के अंतर्गत, सबसे अच्छे अनुरूप वाले मॉडल में सामान्यतः केवल उन विशेषताओं का एक सबसमुच्चय सम्मिलित होगा जिन्हें वास्तव में सूचनात्मक माना जाता है।

चिकित्सा सांख्यिकी में हालिया विकास मेटा-विश्लेषण में इसका उपयोग है। यह सत्यापन आँकड़ा, Vn का आधार बनाता है जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। मेटा-विश्लेषण परिणामों की संभावित पूर्वाकलन त्रुटि का अनुमान लगाने के लिए मेटा-विश्लेषण में इसका उपयोग अधिक पारंपरिक अर्थों में भी किया गया है।

यह भी देखें

 * बूस्टिंग (मशीन लर्निंग)
 * बूटस्ट्रैप एकत्रीकरण (बैगिंग)
 * आउट-ऑफ-बैग त्रुटि
 * बूटस्ट्रैपिंग (सांख्यिकी)
 * रिसाव (मशीन लर्निंग)
 * मॉडल चयन
 * स्थिरता (सीखने के सिद्धांत)
 * वैधता (सांख्यिकी)

नोट्स और संदर्भ
श्रेणी:मॉडल चयन श्रेणी:प्रतिगमन चर चयन श्रेणी:मशीन लर्निंग