क्रॉस-सत्यापन (सांख्यिकी)

क्रॉस-सत्यापन,  जिसे कभी-कभी घूर्णन अनुमान  या आउट-ऑफ-प्रतिदर्श परीक्षण कहा जाता है, एक स्वतंत्र डेटा समुच्चय के लिए एक सांख्यिकीय विश्लेषण के परिणाम कैसे सामान्य होंगे, इसका आकलन करने के लिए विभिन्न समान मॉडल सत्यापन तकनीकों में से एक है। क्रॉस-सत्यापन एक पुनरुत्पादन विधि है जो विभिन्न पुनरावृत्तियों पर एक मॉडल का परीक्षण और प्रशिक्षण करने के लिए डेटा के विभिन्न भागों का उपयोग करती है। यह मुख्य रूप से उन व्यवस्था में उपयोग किया जाता है जहां लक्ष्य पूर्वाकलन है, और कोई यह अनुमान लगाना चाहता है कि भविष्यसूचक मॉडल व्यवहार में कितना सही प्रदर्शन करेगा। पूर्वाकलन की समस्या में, एक मॉडल को प्रायः ज्ञात डेटा का डेटासमुच्चय दिया जाता है, जिस पर प्रशिक्षण चलाया जाता है (प्रशिक्षण डेटासमुच्चय), औरअज्ञात डेटा का डेटासमुच्चय (या पहली बार देखा गया डेटा') जिसके प्रतिकूल मॉडल का परीक्षण किया जाता है (जिसे सत्यापन समुच्चय या 'परीक्षण समुच्चय' कहा जाता है)।  क्रॉस-सत्यापन का लक्ष्य नए डेटा की पूर्वाकलन करने के लिए मॉडल की क्षमता का परीक्षण करना है, जिसका उपयोग अनुमान लगाने में नहीं किया गया था, ताकि ओवरफिटिंग या चयन पूर्वाग्रह जैसी समस्याओं को चिह्नित किया जा सके। और यह जानकारी दी जा सके कि मॉडल एक स्वतंत्र डेटासमुच्चय के लिए सामान्यीकरण कैसे करेगा। स्वतंत्र डेटासमुच्चय (यानी, एक अज्ञात डेटासमुच्चय, उदाहरण के लिए एक वास्तविक समस्या से)।

क्रॉस-सत्यापन के एक सीमा में डेटा के एक प्रतिदर्श को पूरक उपसमुच्चय में विभाजित करना, एक उपसमुच्चय पर विश्लेषण करना (प्रशिक्षण समुच्चय कहा जाता है), और दूसरे उपसमुच्चय पर विश्लेषण को मान्य करना (सत्यापन समुच्चय या परीक्षण समुच्चय कहा जाता है)। परिवर्तनशीलता को कम करने के लिए, अधिकांश विधि में विभिन्न विभाजनों का उपयोग करके क्रॉस-सत्यापन के कई पूर्णंक किए जाते हैं, और मॉडल के पूर्वकथन प्रदर्शन का अनुमान देने के लिए पूर्णंक के ऊपर सत्यापन परिणाम संयुक्त होते हैं (उदाहरण के लिए औसत)।

संक्षेप में, मॉडल पूर्वाकलन प्रदर्शन का अधिक यथार्थ अनुमान प्राप्त करने के लिए क्रॉस-सत्यापन पूर्वाकलन में योग्यता के उपायों (औसत) को जोड़ता है।

अभिप्रेरणा
एक या एक से अधिक अज्ञात मापदंडों के साथ एक मॉडल मान लें, और एक डेटा समुच्चय जिसके लिए मॉडल (प्रशिक्षण डेटा समुच्चय) अनुरूप हो सकता है। उपयुक्त प्रक्रिया अनुकूलन मॉडल मापदंडों को अनुकूलित करता है ताकि मॉडल को प्रशिक्षण डेटा के साथ-साथ यथासंभव अनुरूप किया जा सके। यदि प्रशिक्षण डेटा के समान जनसंख्या से सत्यापन डेटा का एक स्वतंत्रता प्रतिदर्श लिया जाता है, तो सामान्यतः यह पता चलेगा कि मॉडल सत्यापन डेटा के साथ-साथ प्रशिक्षण डेटा के अनुरूप नहीं है। इस अंतर का आकार बड़ा होने की संभावना है, विशेषत: जब प्रशिक्षण डेटा समुच्चय का आकार छोटा हो, या जब मॉडल में मापदंडों की संख्या बड़ी होती है। क्रॉस-सत्यापन इस प्रभाव के आकार का अनुमान लगाने का एक रास्ता है।

रैखिक प्रतिगमन में, वास्तविक संख्या प्रतिक्रिया मान y1, ..., yn और n p-आयामी सदिश सहप्रसरण x1, ..., xn उपस्थित होते है। सदिश xi के घटकों को xi1, ..., xip द्वारा दर्शाया गया है। यदि अधिसमतल ŷ = a + β के रूप में डेटा (xi, yi) 1 ≤ i ≤ n के रूप में किसी फलन को अनुरूप करने के लिए कम से कम वर्गों का उपयोग किया जाता है, तो माध्य वर्ग त्रुटि (एमएसई) का उपयोग करके अनुरूप का आकलन किया जा सकता है। प्रशिक्षण समुच्चय (xi, yi) 1 ≤ i ≤ n पर दिए गए अनुमानित प्राचल मान a और 'β' के लिए एमएसई को इस प्रकार परिभाषित किया गया है:


 * $$\begin{align}

\text{MSE} &= \frac 1 n \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \frac 1 n \sum_{i=1}^n (y_i - a - \boldsymbol\beta^T \mathbf{x}_i)^2\\&= \frac{1}{n}\sum_{i=1}^n (y_i - a - \beta_1x_{i1} - \dots - \beta_px_{ip})^2 \end{align}$$ यदि मॉडल सही प्रकार से निर्दिष्ट किया गया है, तो यह हल्के अनुमानों के अंतर्गत दिखाया जा सकता है कि प्रशिक्षण समुच्चय के लिए एमएसई का अपेक्षित मूल्य (n − p − 1)/(n + p + 1) < 1 एमएसई के अपेक्षित मूल्य का गुना है सत्यापन समुच्चय के लिए (प्रशिक्षण समुच्चयों के वितरण पर अपेक्षित मूल्य लिया जाता है)। इस प्रकार, प्रशिक्षण समुच्चय पर अनुरूप किए गए मॉडल और संगणित एमएसई के परिणामस्वरूप एक आशावादी रूप से पक्षपाती मूल्यांकन होगा कि मॉडल एक स्वतंत्र डेटा समुच्चय में कितनी अच्छी तरह अनुरूप होगा। इस पक्षपाती अनुमान को अनुरूप का प्रतिदर्श मे अनुमान कहा जाता है, जबकि क्रॉस-सत्यापन अनुमान एक आउट-ऑफ-प्रतिदर्श अनुमान है।

क्योंकि रैखिक प्रतिगमन में कारक (n − p − 1)/(n + p + 1) की सीधे गणना करना संभव है, जिसके द्वारा प्रशिक्षण एमएसई सत्यापन एमएसई को इस धारणा के अंतर्गत कम करके आंका जाता है कि मॉडल विनिर्देश मान्य है, क्रॉस-सत्यापन कर सकते हैं यह जाँचने के लिए उपयोग किया जाना चाहिए कि क्या मॉडल को ओवरफिटिंग किया गया है, जिस स्थिति में सत्यापन समुच्चय में एमएसई अपने अनुमानित मूल्य से काफी अधिक हो जाएगा। (रेखीय प्रतिगमन के संदर्भ में क्रॉस-सत्यापन भी उपयोगी है क्योंकि इसका उपयोग इष्टतम नियमित लागत फलन का चयन करने के लिए किया जा सकता है।) अधिकांश अन्य प्रतिगमन प्रक्रियाओं (जैसे रसद प्रतिगमन) में, अपेक्षित आउट-ऑफ-प्रतिदर्श अनुरूप की गणना करने के लिए कोई सरल सूत्र नहीं है। इस प्रकार, सैद्धांतिक विश्लेषण के स्थान पर संख्यात्मक गणना का उपयोग करके अनुपलब्ध डेटा पर एक मॉडल के प्रदर्शन की पूर्वाकलन करने के लिए क्रॉस-सत्यापन एक सामान्यतः उपयुक्त प्रकार है।

प्रकार
दो प्रकार के क्रॉस-सत्यापन को प्रतिष्ठित किया जा सकता है: संपूर्ण और गैर-संपूर्ण क्रॉस-सत्यापन।

संपूर्ण क्रॉस-सत्यापन
व्यापक क्रॉस-सत्यापन विधियाँ क्रॉस-सत्यापन विधियाँ हैं जो मूल प्रतिदर्श को एक प्रशिक्षण और एक सत्यापन समुच्चय में विभाजित करने के सभी संभावित विधि को सीखती हैं और उनका परीक्षण करती हैं।

लीव-पी-आउट क्रॉस-सत्यापन
लीव-पी-आउट क्रॉस-सत्यापन (LpO CV) में p अवलोकनों को सत्यापन समुच्चय के रूप में और शेष अवलोकनों को प्रशिक्षण समुच्चय के रूप में उपयोग करना सम्मिलित है। यह p टिप्पणियों के सत्यापन समुच्चय और प्रशिक्षण समुच्चय पर मूल प्रतिदर्श को कटौती के सभी विधि पर दोहराया जाता है।

LpO क्रॉस-सत्यापन के लिए मॉडल $$C^n_p$$ बार प्रशिक्षण और सत्यापन की आवश्यकता होती है, जहाँ n मूल प्रतिदर्श में टिप्पणियों की संख्या है, और जहां $$C^n_p$$ द्विपद गुणांक है। p > 1 के लिए और सामान्य रूप से बड़े n के लिए, LpO CV अभिकलनीयतः रूप से अक्षम हो सकता है। उदाहरण के लिए, n = 100 और p = 30 के साथ, $$C^{100}_{30} \approx 3\times 10^{25}$$ है।

p=2 के साथ LpO क्रॉस-सत्यापन का एक संस्करण जिसे लीव-पेयर-आउट क्रॉस-सत्यापन के रूप में जाना जाता है, को द्विआधारी वर्गीकरणकर्ता के आरओसी वक्र के अंतर्गत क्षेत्र का अनुमान लगाने के लिए लगभग निष्पक्ष विधि के रूप में अनुशंसित किया गया है।

लीव-वन-आउट क्रॉस-सत्यापन
लीव-वन-आउट क्रॉस-सत्यापन (एलओओसीवी) p = 1 के साथ लीव-पी-आउट क्रॉस-सत्यापन का एक विशेष प्रकरण है। यह प्रक्रिया जैकनाइफ के समान दिखती है; तथापि, क्रॉस-सत्यापन के साथ एक बाएं-आउट प्रतिदर्श पर एक आंकड़े की गणना करता है, जबकि जैकनाइफिंग के साथ केवल रखे गए प्रतिदर्श से एक आंकड़े की गणना करता है।

LOO क्रॉस-सत्यापन के लिए LpO क्रॉस-सत्यापन की तुलना में कम संगणना समय की आवश्यकता होती है क्योंकि $$C^n_1=n$$ के बदले केवल $$C^n_p$$ पास होते हैं। हालाँकि, $$n$$ पास को अभी भी काफी बड़े संगणना समय की आवश्यकता हो सकती है, इस प्रकरण में अन्य दृष्टिकोण जैसे k-गुना क्रॉस सत्यापन अधिक उपयुक्त हो सकता है।

इनपुट:
x, {लंबाई N का सदिश आने वाले बिंदुओं के x-मानों के साथ}

y, {अपेक्षित परिणाम के y-मानों के साथ लंबाई N का सदिश}

इंटरपोलेट (x_in, y_in, x_out), { प्रतिदर्श के x_in-y_in जोड़े के साथ प्रशिक्षित होने के बाद बिंदु x_out के लिए अनुमान देता है}

आउटपुट:
त्रुटि, {पूर्वाकलन त्रुटि के लिए अनुमान}

कदम:
err ← 0 for i ← 1, ..., N do   // define the cross-validation subsets x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N]) y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N]) x_out ← x[i] y_out ← interpolate(x_in, y_in, x_out) err ← err + (y[i] − y_out)^2 end for err ← err/N

गैर-संपूर्ण क्रॉस-सत्यापन
गैर-संपूर्ण क्रॉस सत्यापन विधियां मूल प्रतिदर्श को विभाजित करने के सभी विधि की गणना नहीं करती हैं। ये विधि लीव-पी-आउट क्रॉस-सत्यापन के अनुमान हैं।

k-गुना क्रॉस-सत्यापन
k-गुना क्रॉस-सत्यापन में, मूल प्रतिदर्श यादृच्छिक रूप से k के समान आकार के उप-प्रतिदर्श में विभाजित होता है। k उप-प्रतिदर्श में से, एक एकल उप-प्रतिदर्श मॉडल के परीक्षण के लिए सत्यापन डेटा के रूप में रखा जाता है, और शेष k − 1 उप-प्रतिदर्श को प्रशिक्षण डेटा के रूप में उपयोग किया जाता है। फिर क्रॉस-सत्यापन प्रक्रिया को k बार दोहराया जाता है, प्रत्येक k उप-प्रतिदर्श को सत्यापन डेटा के रूप में ठीक एक बार उपयोग किया जाता है। k परिणाम तब एक अनुमान का उत्पादन करने के लिए औसतन हो सकते हैं। बार-बार यादृच्छिक उप-प्रतिदर्शकरण (नीचे देखें) पर इस पद्धति का लाभ यह है कि सभी अवलोकनों का उपयोग प्रशिक्षण और सत्यापन दोनों के लिए किया जाता है, और प्रत्येक अवलोकन का उपयोग केवल एक बार सत्यापन के लिए किया जाता है। 10-गुना क्रॉस-सत्यापन सामान्यतः उपयोग किया जाता है, लेकिन सामान्यतः k एक अनिश्चित प्राचल रहता है।

उदाहरण के लिए, k = 2 समुच्चय करने पर 2-गुना क्रॉस-सत्यापन होता है। 2-गुना क्रॉस-सत्यापन में, हम निरुद्देश्यता से डेटासमुच्चय को दो समुच्चय d0 और d1 में फेरबदल करते हैं, ताकि दोनों समुच्चय समान आकार के हों (यह सामान्यतः डेटा ऐरे को फेरबदल करके और फिर इसे दो में विभाजित करके उपयुक्त किया जाता है)। हम तब d0 पर प्रशिक्षण देते हैं और d1 पर सत्यापन करते हैं, इसके बाद d1 पर प्रशिक्षण और d0 पर सत्यापन करते हैं।

जब k = n (अवलोकन की संख्या), k- गुना क्रॉस-सत्यापन लीव-वन-आउट क्रॉस-सत्यापन के समान होता है।

स्तरीकृत k-गुना क्रॉस-सत्यापन में, विभाजन का चयन किया जाता है ताकि औसत प्रतिक्रिया मान सभी विभाजनों में लगभग समान हो। द्विआधारी वर्गीकरण के प्रकरण में, इसका मतलब है कि प्रत्येक विभाजन में दो प्रकार के वर्ग लेबलों के लगभग समान अनुपात होते हैं।

बार-बार क्रॉस-सत्यापन में डेटा निरुद्देश्यता से कई बार k विभाजन में विभाजित हो जाता है। इस प्रकार मॉडल के प्रदर्शन को कई रनों से औसत किया जा सकता है, लेकिन व्यवहार में यह शायद ही वांछनीय है।

जब कई अलग-अलग सांख्यिकीय या यंत्र अधिगम पर विचार किया जा रहा है, तो बहुभक्षक k-गुना क्रॉस-सत्यापन का उपयोग सबसे आशाजनक अभ्यर्थी मॉडल को जल्दी से पहचानने के लिए किया जा सकता है।

होल्डआउट विधि
होल्डआउट विधि में, हम यादृच्छिक रूप से दो समुच्चय d0 और d1 को डेटा बिन्दु नियुक्त करते हैं, जिन्हें सामान्यतः क्रमशः प्रशिक्षण समुच्चय और परीक्षण समुच्चय कहा जाता है। प्रत्येक समुच्चय का आकार मनमाना है, तथापि सामान्यतः परीक्षण समुच्चय प्रशिक्षण समुच्चय से छोटा होता है। हम फिर d0 पर प्रशिक्षण (एक मॉडल का निर्माण) और d1 पर परीक्षण (इसके प्रदर्शन का मूल्यांकन) करते हैं।

प्ररूपी क्रॉस-सत्यापन में, मॉडल-परीक्षण के कई रन के परिणाम एक साथ औसत होते हैं; इसके विपरीत, होल्डआउट विधि, एकांत में, एक रन सम्मिलित है। इसे सावधानी के साथ उपयोग किया जाना चाहिए क्योंकि कई रनों के ऐसे औसत के बिना, अत्यधिक भ्रामक परिणाम प्राप्त हो सकते हैं। भविष्यवाणी की यथार्थता (F*) का एक संकेतक अस्थिर हो जाएगा क्योंकि इसे कई पुनरावृत्तियों (नीचे देखें) से सुचारू नहीं किया जाएगा। इसी तरह, विभिन्न पूर्वसूचक चर (जैसे, प्रतिगमन गुणांक के मान) द्वारा निभाई गई विशिष्ट भूमिका के संकेतक अस्थिर होंगे।

जबकि होल्डआउट विधि को "सरलतम प्रकार के क्रॉस-सत्यापन" के रूप में तैयार किया जा सकता है, क्रॉस-सत्यापन के एक सरल या अपभ्रष्ट रूप के बदले, कई स्रोत होल्डआउट को सरल सत्यापन के एक प्रकार के रूप में वर्गीकृत करते हैं।

बार-बार यादृच्छिक उप-प्रतिदर्श सत्यापन
यह विधि, जिसे मोंटे कार्लो विधि क्रॉस-सत्यापन के रूप में भी जाना जाता है, प्रशिक्षण और सत्यापन डेटा में डेटासमुच्चय के कई यादृच्छिक विभाजन बनाता है। इस तरह के प्रत्येक विभाजन के लिए, मॉडल प्रशिक्षण डेटा के लिए उपयुक्त है, और सत्यापन डेटा का उपयोग करके भविष्यसूचक यथार्थता का आकलन किया जाता है। परिणाम तब विभाजन पर औसत होते हैं। इस पद्धति का लाभ (k-गुना क्रॉस सत्यापन से अधिक) यह है कि प्रशिक्षण/सत्यापन विभाजन का अनुपात पुनरावृत्तियों की संख्या (यानी, विभाजनों की संख्या) पर निर्भर नहीं है। इस पद्धति का नुकसान यह है कि सत्यापन उप-प्रतिदर्श में कुछ अवलोकनों का चयन कभी नहीं किया जा सकता है, जबकि अन्य को एक से अधिक बार चयन किया जा सकता है। दूसरे शब्दों में, सत्यापन उपसमुच्चय ओवरलैप हो सकते हैं। यह विधि मोंटे कार्लो भिन्नता को भी प्रदर्शित करती है, जिसका अर्थ है कि यदि विश्लेषण अलग-अलग यादृच्छिक विभाजनों के साथ दोहराया जाता है तो परिणाम अलग-अलग होंगे।

जैसा कि यादृच्छिक विभाजन की संख्या अनंत तक पहुंचती है, बार-बार यादृच्छिक उप-प्रतिदर्श सत्यापन का परिणाम लीव-पी-आउट क्रॉस-सत्यापन की ओर जाता है।

इस दृष्टिकोण के एक स्तरीकृत संस्करण में, यादृच्छिक प्रतिदर्श इस तरह से उत्पन्न होते हैं कि औसत प्रतिक्रिया मूल्य (यानी प्रतिगमन में निर्भर चर) प्रशिक्षण और परीक्षण समुच्चयों में समान होता है। यह विशेष रूप से उपयोगी है यदि डेटा में दो प्रतिक्रिया मूल्यों के असंतुलित प्रतिनिधित्व के साथ प्रतिक्रियाएं द्विबीजपत्री हैं।

एक विधि जो बार-बार यादृच्छिक उप-प्रतिदर्शकरण उपयुक्त करती है वह RANSAC है।

नेस्टेड क्रॉस-सत्यापन
जब क्रॉस-सत्यापन का उपयोग एक साथ हाइपरपरमीटर के सर्वश्रेष्ठ समुच्चय के चयन के लिए और त्रुटि अनुमान (और सामान्यीकरण क्षमता का आकलन) के लिए एक साथ क्रॉस-सत्यापन का उपयोग किया जाता है, तो एक नेस्टेड क्रॉस-सत्यापन की आवश्यकता होती है। कई प्रकार उपस्थित हैं। कम से कम दो रूपों को प्रतिष्ठित किया जा सकता है:

k*l-गुना क्रॉस-सत्यापन
यह वास्तव में नेस्टेड वैरिएंट है जिसमें k समुच्चय का बाहरी लूप और l समुच्चय का आंतरिक लूप होता है। कुल डेटा समुच्चय को k समुच्चय में विभाजित किया गया है। एक-एक करके, एक समुच्चय को (बाहरी) परीक्षण समुच्चय के रूप में चयन किया जाता है और k - 1 अन्य समुच्चयों को संबंधित बाहरी प्रशिक्षण समुच्चय में संयोजित किया जाता है। यह प्रत्येक k समुच्चय के लिए दोहराया जाता है। प्रत्येक बाहरी प्रशिक्षण समुच्चय को l समुच्चयों में उप-विभाजित किया गया है। एक-एक करके, एक समुच्चय को आंतरिक परीक्षण (सत्यापन) समुच्चय के रूप में चयन किया जाता है और l - 1 अन्य समुच्चयों को संबंधित आंतरिक प्रशिक्षण समुच्चय में संयोजित किया जाता है। यह प्रत्येक l समुच्चय के लिए दोहराया जाता है। आंतरिक प्रशिक्षण समुच्चय का उपयोग मॉडल मापदंडों को अनुरूप करने के लिए किया जाता है, जबकि बाहरी परीक्षण समुच्चय का उपयोग मॉडल अनुरूप का निष्पक्ष मूल्यांकन प्रदान करने के लिए सत्यापन समुच्चय के रूप में किया जाता है। सामान्यतः, यह कई अलग-अलग हाइपरप्राचल (या यहां तक ​​​​कि अलग-अलग मॉडल प्रकार) के लिए दोहराया जाता है और इस आंतरिक प्रशिक्षण समुच्चय के लिए सबसे अच्छा हाइपरपरमीटर समुच्चय (और मॉडल प्रकार) निर्धारित करने के लिए सत्यापन समुच्चय का उपयोग किया जाता है। इसके बाद, आंतरिक क्रॉस-सत्यापन से हाइपरप्राचल के सर्वश्रेष्ठ समुच्चय का उपयोग करते हुए, पूरे बाहरी प्रशिक्षण समुच्चय पर एक नया मॉडल अनुरूप किया जाता है। इस मॉडल के प्रदर्शन का मूल्यांकन तब बाहरी परीक्षण समुच्चय का उपयोग करके किया जाता है।

सत्यापन और परीक्षण सेट के साथ k-गुना क्रॉस-सत्यापन
यह एक प्रकार का k*l-गुना क्रॉस-सत्यापन जब l = k - 1 है। सत्यापन और परीक्षण समुच्चय दोनों के साथ k-गुना क्रॉस-सत्यापन का उपयोग किया जाता है। कुल डेटा समुच्चय को k समुच्चय में विभाजित किया गया है। एक-एक करके, एक समुच्चय को परीक्षण समुच्चय के रूप में चयन किया जाता है। फिर, एक-एक करके, शेष समुच्चयों में से एक को सत्यापन समुच्चय के रूप में उपयोग किया जाता है और अन्य k - 2 समुच्चयों को प्रशिक्षण समुच्चय के रूप में तब तक उपयोग किया जाता है जब तक कि सभी संभावित संयोजनों का मूल्यांकन नहीं हो जाता है। k*l-गुना क्रॉस सत्यापन के समान, प्रशिक्षण समुच्चय का उपयोग मॉडल उपयुक्त के लिए किया जाता है और सत्यापन समुच्चय का उपयोग प्रत्येक हाइपरपैरामीटर समुच्चय के मॉडल मूल्यांकन के लिए किया जाता है। अंत में, चयनित प्राचल समुच्चय के लिए, परीक्षण समुच्चय का उपयोग सर्वोत्तम प्राचल समुच्चय वाले मॉडल का मूल्यांकन करने के लिए किया जाता है। यहां, दो संस्करण संभव हैं: या तो उस मॉडल का मूल्यांकन करना जिसे प्रशिक्षण समुच्चय पर प्रशिक्षित किया गया था या एक नए मॉडल का मूल्यांकन करना जो प्रशिक्षण और सत्यापन समुच्चय के संयोजन पर अनुरूप था।

अनुरूप होने के उपाय
क्रॉस-सत्यापन का लक्ष्य मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा से स्वतंत्र डेटा समुच्चय के मॉडल के अनुरूप होने के अपेक्षित स्तर का अनुमान लगाना है। इसका उपयोग अनुरूप के किसी भी मात्रात्मक माप का अनुमान लगाने के लिए किया जा सकता है जो डेटा और मॉडल के लिए उपयुक्त है। उदाहरण के लिए, बाइनरी वर्गीकरण समस्याएं के लिए, सत्यापन समुच्चय में प्रत्येक प्रकरण की या तो सही या गलत पूर्वाकलन की जाती है। इस स्थिति में गलत वर्गीकरण त्रुटि दर का उपयोग अनुरूप को सारांशित करने के लिए किया जा सकता है, तथापि सकारात्मक भविष्यसूचक मूल्य जैसे अन्य उपायों का भी उपयोग किया जा सकता है। जब अनुमान लगाया जा रहा की मूल्य लगातार वितरित किया जाता है, तो त्रुटियों को सारांशित करने के लिए औसत वर्ग त्रुटि, मूल माध्य वर्ग त्रुटि या औसत पूर्ण विचलन का उपयोग किया जा सकता है।

पूर्व सूचना का प्रयोग
जब उपयोगकर्ता एक उत्तम विन्यास $$\lambda$$ चुनने के लिए क्रॉस-सत्यापन उपयुक्त करते हैं, तो वे विन्यास के अपने अनुमान के साथ क्रॉस-विधिमान्य विकल्प को संतुलित करना चाह सकते हैं। इस तरह, वे प्रतिदर्श आकार छोटा होने पर क्रॉस-सत्यापन की अस्थिरता का प्रतिकूल करने का प्रयास कर सकते हैं और पूर्व शोध से प्रासंगिक जानकारी सम्मिलित कर सकते हैं। उदाहरण के लिए, पूर्वानुमान संयोजन अभ्यास में, प्रत्येक पूर्वानुमान को निर्दिष्ट भार का अनुमान लगाने के लिए क्रॉस-सत्यापन उपयुक्त किया जा सकता है। क्योंकि एक साधारण समान भारित पूर्वानुमान को हराना मुश्किल है, समान भार से विचलन के लिए जुर्माना जोड़ा जा सकता है। या, यदि टिप्पणियों को अलग-अलग भार देने के लिए क्रॉस-सत्यापन उपयुक्त किया जाता है, तो संभावित प्रासंगिक जानकारी को अपक्षय करने से बचने के लिए समान भार से विचलन को दंडित किया जा सकता है। होर्नवेग (2018) दिखाता है कि ट्यूनिंग प्राचल $$\gamma$$ को कैसे परिभाषित किया जा सकता है ताकि उपयोगकर्ता क्रॉस-सत्यापन की यथार्थता और उपयोगकर्ता द्वारा परिभाषित संदर्भ प्राचल $$\lambda_R$$ से अनुलगन की सरलता के मध्य सहजता से संतुलन बना सके।

अगर $$\lambda_i$$ $$i^{th}$$अभ्यर्थी विन्यास को दर्शाता है जिसे चयन किया जा सकता है, तो कम से कम होने वाले नुकसान फलन को परिभाषित किया जा सकता है

L_{\lambda_i} = (1-\gamma) \mbox{ Relative Accuracy}_i + \gamma \mbox{ Relative Simplicity}_i. $$ सापेक्ष यथार्थता को $$\mbox{MSE}(\lambda_i)/\mbox{MSE}(\lambda_R)$$ के रूप में मात्रा निर्धारित की जा सकती है, ताकि एक अभ्यर्थी $$\lambda_i$$ की औसत चुकता त्रुटि उपयोगकर्ता द्वारा निर्दिष्ट $$\lambda_R$$ के सापेक्ष बनायी जा सके। सापेक्ष सरलता शब्द उस मात्रा को मापता है जो $$\lambda_i$$ $$\lambda_R$$ से विचलन की अधिकतम मात्रा के सापेक्ष $$\lambda_R$$ से विचलन करती है। फलस्वरूप, सापेक्ष सादगी को $$\frac{(\lambda_i-\lambda_R)^2}{(\lambda_{\max}-\lambda_R)^2}$$के रूप में निर्दिष्ट किया जा सकता है, जहां $$\lambda_{\max}$$ $$\lambda_R$$ उच्चतम स्वीकार्य विचलन के साथ $$\lambda$$ के समान है। $$\gamma\in[0,1]$$ के साथ, उपयोगकर्ता यह निर्धारित करता है कि संदर्भ प्राचल का प्रभाव क्रॉस-सत्यापन के सापेक्ष कितना अधिक है।

हानि फलन को निर्दिष्ट करके कोई भी एकाधिक विन्यास $$c=1,2,...,C$$ के लिए सापेक्ष सरलता निबंधन जोड़ सकते हैं

L_{\lambda_i} = \mbox{ Relative Accuracy}_i + \sum_{c=1}^C \frac{\gamma_c}{1-\gamma_c} \mbox{ Relative Simplicity}_{i,c}. $$ होर्नवेग (2018) से पता चलता है कि इस तरह की यथार्थता-सरलता ट्रेडऑफ़ के साथ एक हानि फलन का उपयोग (अनुकूली) लासो और बायेसियन प्रतिगमन/रिज प्रतिगमन जैसे संकोचन अनुमानकों को सहज रूप से परिभाषित करने के लिए भी किया जा सकता है। उदाहरण के लिए लासो पर क्लिक करें।

सांख्यिकीय गुण
मान लीजिए कि हम अनुरूप F का एक उपाय चुनते हैं, और प्रशिक्षण डेटा के समान जनसंख्या से तैयार किए गए एक स्वतंत्र डेटा समुच्चय के लिए एक मॉडल के अपेक्षित अनुरूप EF के अनुमान F* का उत्पादन करने के लिए क्रॉस-सत्यापन का उपयोग करते हैं। यदि हम एक ही वितरण के बाद कई स्वतंत्र प्रशिक्षण समुच्चयों के प्रतिदर्श की कल्पना करते हैं, तो F* के परिणामी मान भिन्न होंगे। F* के सांख्यिकीय गुण इस भिन्नता के परिणाम हैं।

क्रॉस-सत्यापन अनुमानक F* EF के लिए लगभग निष्पक्ष है। इसके थोड़े पक्षपाती होने का कारण यह है कि क्रॉस-सत्यापन में समुच्चय किया गया प्रशिक्षण वास्तविक डेटा समुच्चय से थोड़ा छोटा होता है (उदाहरण के लिए LOOCV के लिए प्रशिक्षण समुच्चय का आकार n − 1 होता है जब n देखे गए प्रकरण होते हैं)। लगभग सभी स्थितियों में, इस पूर्वाग्रह का प्रभाव संरक्षी होगा जिसमें अनुमानित अनुरूप एक खराब अनुरूप का सुझाव देने वाली दिशा में थोड़ा पक्षपाती होगा। व्यवहार में, यह पूर्वाग्रह शायद ही कभी चिंता का विषय होता है।

F* का विचरण बड़ा हो सकता है। इस कारण से, यदि दो सांख्यिकीय प्रक्रियाओं की तुलना क्रॉस-सत्यापन के परिणामों के आधार पर की जाती है, तो बेहतर अनुमानित प्रदर्शन वाली प्रक्रिया वास्तव में दो प्रक्रियाओं से बेहतर नहीं हो सकती है (अर्थात इसमें EF का बेहतर मूल्य नहीं हो सकता है)। क्रॉस-सत्यापन अनुमानों के आसपास विश्वास अंतराल के निर्माण पर कुछ प्रगति हुई है, पर यह एक कठिन समस्या मानी जाती है।

अभिकलनात्मक मुद्दे
जब तक अध्ययन की जा रही पूर्वाकलन पद्धति का कार्यान्वयन उपलब्ध है, तब तक क्रॉस-सत्यापन के अधिकांश रूप उपयुक्त करने के लिए सरल हैं। विशेष रूप से, पूर्वाकलन पद्धति "ब्लैक बॉक्स" हो सकती है - इसके कार्यान्वयन के आंतरिक भाग तक पहुंच की कोई आवश्यकता नहीं है। यदि पूर्वाकलन पद्धति को प्रशिक्षित करना बहुमूल्य है, तो क्रॉस-सत्यापन बहुत धीमा हो सकता है क्योंकि प्रशिक्षण को बार-बार किया जाना चाहिए। कुछ प्रकरणो में जैसे कम से कम वर्ग और कर्नेल प्रतिगमन, प्रशिक्षण में बार-बार आवश्यक कुछ मूल्यों की पूर्व-गणना करके, या शर्मन-मॉरिसन सूत्र जैसे तेज़ "अद्यतन नियम" का उपयोग करके क्रॉस-सत्यापन को महत्वपूर्ण रूप से बढ़ाया जा सकता है। तथापि किसी को प्रशिक्षण प्रक्रिया से निर्धारित सत्यापन की  कुल छिद्ररोधन  को बनाए रखने के लिए सावधान रहना चाहिए, अन्यथा पूर्वाग्रह का परिणाम हो सकता है। क्रॉस-सत्यापन में तेजी लाने का एक चरम उदाहरण रेखीय प्रतिगमन में होता है, जिसे पूर्वकथन अवशिष्ट त्रुटि योग (प्रेस) के रूप में जाना जाता है।

सीमाएं और दुरुपयोग
क्रॉस-सत्यापन केवल तभी सार्थक परिणाम देता है जब सत्यापन समुच्चय और प्रशिक्षण समुच्चय एक ही जनसंख्या से तैयार किए जाते हैं और केवल तभी जब मानव पूर्वाग्रह नियंत्रित होते हैं।

पूर्वानुमानित मॉडलिंग के कई अनुप्रयोगों में, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (अर्थात यह गैर-स्थिर है)। ये दोनों प्रशिक्षण और सत्यापन समुच्चय के मध्य व्यवस्थित अंतर का परिचय दे सकते हैं। उदाहरण के लिए, यदि एक निश्चित पांच साल की अवधि के लिए स्टॉक मूल्यों की भविष्यवाणी करने के लिए एक मॉडल को डेटा पर प्रशिक्षित किया जाता है, तो बाद के पांच साल की अवधि को उसी जनसंख्या से ड्रा के रूप में मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के अंतर्गत किसी विशेष बीमारी के निदान के लिए किसी व्यक्ति के जोखिम की पूर्वाकलन करने के लिए एक मॉडल विकसित किया गया है। यदि मॉडल को केवल एक विशिष्ट जनसंख्या समूह (जैसे युवा लोग या पुरुष) से ​​जुड़े एक अध्ययन से डेटा का उपयोग करके प्रशिक्षित किया जाता है, लेकिन फिर इसे सामान्य जनसंख्या पर उपयुक्त किया जाता है, तो प्रशिक्षण समुच्चय से क्रॉस-सत्यापन परिणाम वास्तविक पूर्वाकलन प्रदर्शन से काफी भिन्न हो सकते हैं।.

कई अनुप्रयोगों में, मॉडल भी गलत विस्तृत से निर्दिष्ट किए जा सकते हैं और मॉडलर पूर्वाग्रहों और मनमाने विकल्पों के कार्य के रूप में भिन्न हो सकते हैं। जब ऐसा होता है, तो एक भ्रम हो सकता है कि प्रणाली बाहरी प्रतिदर्श में बदल जाती है, जबकि इसका कारण यह है कि मॉडल ने एक महत्वपूर्ण भविष्यवक्ता को सम्मिलित किया है। नया साक्ष्य यह है कि क्रॉस-सत्यापन अपने आप में बाहरी वैधता का बहुत पूर्वानुमान नहीं है, जबकि प्रायोगिक सत्यापन का एक रूप जिसे विनिमय प्रतिदर्शी के रूप में जाना जाता है जो मानव पूर्वाग्रह के लिए नियंत्रण करता है, बाहरी वैधता का अधिक पूर्वानुमानित हो सकता है। जैसा कि 30,000 मॉडलों में इस बड़े MAQC-II अध्ययन द्वारा परिभाषित किया गया है, विनिमय प्रतिदर्शी इस अर्थ में क्रॉस-सत्यापन को सम्मिलित करता है कि स्वतंत्र प्रशिक्षण और सत्यापन प्रतिदर्श में पूर्वाकलन का परीक्षण किया जाता है। फिर भी, मॉडल भी इन स्वतंत्र प्रतिदर्श में और मॉडलर्स द्वारा विकसित किए जाते हैं जो एक दूसरे से विवेकशून्य होते हैं। जब इन अदला-बदली प्रशिक्षण और सत्यापन प्रतिदर्श में विकसित इन मॉडलों में एक बेमेल होता है, जैसा कि पूर्ण रूप से होता है, MAQC-II दिखाता है कि यह पारंपरिक क्रॉस-सत्यापन की तुलना में खराब बाहरी भविष्यसूचक वैधता का अधिक पूर्वानुमान होगा।

अदला-बदली के प्रतिदर्श की सफलता का कारण मॉडल निर्माण में मानव पूर्वाग्रहों के लिए एक अंतर्निहित नियंत्रण है। भविष्यवाणियों में बहुत अधिक विश्वास रखने के अलावा जो मॉडलर के मध्य भिन्न हो सकते हैं और इन यथार्थ मॉडलर प्रभावों के कारण खराब बाहरी वैधता का कारण बन सकते हैं, ये कुछ अन्य प्रकार हैं जिनसे क्रॉस-सत्यापन का दुरुपयोग किया जा सकता है:


 * संपूर्ण डेटा समुच्चय का उपयोग करके सबसे अधिक जानकारीपूर्ण सुविधाओं की पहचान करने के लिए प्रारंभिक विश्लेषण करके - यदि मॉडलिंग प्रक्रिया द्वारा रूपलेख चयन या मॉडल ट्यूनिंग की आवश्यकता होती है, तो इसे प्रत्येक प्रशिक्षण समुच्चय पर दोहराया जाना चाहिए अन्यथा, भविष्यवाणियां निश्चित रूप से ऊपर की ओर पक्षपाती होंगी। यदि क्रॉस-सत्यापन का उपयोग यह तय करने के लिए किया जाता है कि कौन सी सुविधाओं का उपयोग करना है, तो प्रत्येक प्रशिक्षण समुच्चय पर रूपलेख चयन करने के लिए एक आंतरिक क्रॉस-सत्यापन किया जाना चाहिए।
 * कुछ प्रशिक्षण डेटा को परीक्षण समुच्चय में सम्मिलित करने की अनुमति देकर - यह डेटा समुच्चय में "ट्विनिंग" के कारण हो सकता है, जिससे डेटा समुच्चय में कुछ समान या लगभग समान प्रतिदर्श उपस्थित होते हैं। कुछ हद तक ट्विनिंग हमेशा पूरी तरह से स्वतंत्र प्रशिक्षण और सत्यापन प्रतिदर्श में भी होता है। ऐसा इसलिए है क्योंकि कुछ प्रशिक्षण प्रतिदर्श टिप्पणियों में सत्यापन प्रतिदर्श टिप्पणियों के रूप में भविष्यवक्ताओं के लगभग समान मूल्य होंगे और इनमें से कुछ प्रशिक्षण और सत्यापन दोनों में एक ही दिशा में मौका स्तर से बेहतर लक्ष्य के साथ सहसंबद्ध होंगे, जब वे वास्तव में खराब बाहरी वैधता वाले भ्रमित भविष्यवक्ताओं द्वारा संचालित होते हैं। यदि इस तरह के क्रॉस-सत्यापित मॉडल को k-गुना समुच्चय से चुना जाता है, तो मानव पुष्टि पूर्वाग्रह काम पर होगा और यह निर्धारित करेगा कि इस तरह के मॉडल को मान्य किया गया है। यही कारण है कि पारंपरिक क्रॉस-सत्यापन को मानव पूर्वाग्रह और विनिमय प्रतिदर्शी और संभावित अध्ययन जैसे भ्रमित मॉडल विनिर्देश के नियंत्रण के साथ पूरक होने की आवश्यकता है।

समय-श्रृंखला मॉडल के लिए क्रॉस सत्यापन
क्योंकि डेटा का क्रम महत्वपूर्ण है, क्रॉस-सत्यापन समय-श्रृंखला मॉडल के लिए समस्याग्रस्त हो सकता है। रोलिंग क्रॉस-सत्यापन का उपयोग करने के लिए एक अधिक उपयुक्त दृष्टिकोण हो सकता है।

तथापि, यदि प्रदर्शन को एक सारांश आंकड़े द्वारा वर्णित किया जाता है, तो यह संभव है कि पोलिटिस और रोमानो द्वारा एक स्थिर बूटस्ट्रैप के रूप में वर्णित दृष्टिकोण काम करेगा। बूटस्ट्रैप के आँकड़ों को समय श्रृंखला के एक अंतराल को स्वीकार करने और उस सारांश आँकड़ों को वापस करने की आवश्यकता है। स्थिर बूटस्ट्रैप को कॉल करने के लिए उचित औसत अंतराल लंबाई निर्दिष्ट करने की आवश्यकता है।

अनुप्रयोग
विभिन्न पूर्वानुमानित मॉडलिंग प्रक्रियाओं के प्रदर्शन की तुलना करने के लिए क्रॉस-सत्यापन का उपयोग किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हम प्रकाशिक संप्रतीक अभिज्ञान में रुचि रखते हैं, और हम हस्तलिखित वर्ण की छवि से वास्तविक वर्ण की पूर्वाकलन करने के लिए समर्थन सदिश यंत्र (एसवीएम) या k-निकटतम समीप (केएनएन) का उपयोग करने पर विचार कर रहे हैं। क्रॉस-सत्यापन का उपयोग करते हुए, हम इन दो विधि की निष्पक्ष रूप से गलत वर्गीकृत वर्णों के उनके संबंधित अंशों के संदर्भ में तुलना कर सकते हैं। यदि हम केवल उनके प्रतिदर्श में त्रुटि मूल्य के आधार पर विधि की तुलना करते हैं, तो एक विधि संभवतः बेहतर प्रदर्शन करती दिखाई देगी, क्योंकि यह अधिक लचीली है और इसलिए अन्य विधि की तुलना में ओवरफिटिंग की संभावना अधिक है।

चर चयन में क्रॉस-सत्यापन का भी उपयोग किया जा सकता है। मान लीजिए कि हम पूर्वाकलन करने के लिए 20 प्रोटीन के अभिव्यक्ति स्तर का उपयोग कर रहे हैं कि कैंसर रोगी दवा का जवाब देगा या नहीं। एक व्यावहारिक लक्ष्य यह निर्धारित करना होगा कि 20 विशेषताओं में से किस उपसमुच्चय का उपयोग सर्वोत्तम भविष्यसूचक मॉडल के लिए किया जाना चाहिए। अधिकांश मॉडलिंग प्रक्रियाओं के लिए, यदि हम प्रतिदर्श में त्रुटि दरों का उपयोग करके विशेष उपसमुच्चय की तुलना करते हैं, तो सबसे अच्छा प्रदर्शन तब होगा जब सभी 20 सुविधाओं का उपयोग किया जाएगा। तथापि क्रॉस-सत्यापन के अंतर्गत, सबसे अच्छे अनुरूप वाले मॉडल में सामान्यतः केवल उन विशेषताओं का एक उपसमुच्चय सम्मिलित होगा जिन्हें वास्तव में सूचनात्मक माना जाता है।

आयुर्विज्ञान सांख्यिकी में पुनः विकास मेटा-विश्लेषण में इसका उपयोग है। यह सत्यापन आँकड़ा, Vn का आधार बनाता है जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। मेटा-विश्लेषण परिणामों की संभावित पूर्वाकलन त्रुटि का अनुमान लगाने के लिए मेटा-विश्लेषण में इसका उपयोग अधिक पारंपरिक अर्थों में भी किया गया है।

यह भी देखें

 * अभिवर्धन (यंत्र अधिगम)
 * बूटस्ट्रैप एकत्रीकरण (बैगिंग)
 * आउट-ऑफ-बैग त्रुटि
 * बूटस्ट्रैपिंग (सांख्यिकी)
 * क्षरण (यंत्र अधिगम)
 * मॉडल चयन
 * स्थिरता (सीखने का सिद्धांत)
 * वैधता (सांख्यिकी)