क्रॉस-सत्यापन (सांख्यिकी)

क्रॉस-सत्यापन,  जिसे कभी-कभी घूर्णन अनुमान  या आउट-ऑफ-नमूना परीक्षण कहा जाता है, यह आकलन करने के लिए विभिन्न समान मॉडल सत्यापन तकनीकों में से कोई है कि सांख्यिकी विश्लेषण के परिणाम कैसे होंगे एक स्वतंत्र डेटा समुच्चय के लिए सामान्यीकरण करेंगे। क्रॉस-सत्यापन एक पुनरुत्पादन विधि है जो विभिन्न पुनरावृत्तियों पर एक मॉडल का परीक्षण और प्रशिक्षण करने के लिए डेटा के विभिन्न भागों का उपयोग करती है। यह मुख्य रूप से उन स्थापन में उपयोग किया जाता है जहां लक्ष्य भविष्यवाणी है, और कोई यह अनुमान लगाना चाहता है कि भविष्य कहनेवाला मॉडल व्यवहार में कितना सही प्रदर्शन करेगा। भविष्यवाणी की समस्या में, एक मॉडल को प्रायः ज्ञात डेटा का डेटासमुच्चय दिया जाता है, जिस पर प्रशिक्षण चलाया जाता है (प्रशिक्षण डेटासमुच्चय), और अज्ञात डेटा  का डेटासमुच्चय (या पहली बार देखा गया डेटा') जिसके प्रतिकूल मॉडल का परीक्षण किया जाता है (जिसे सत्यापन समुच्चय या 'परीक्षण समुच्चय' कहा जाता है)। क्रॉस-सत्यापन का लक्ष्य नए डेटा की भविष्यवाणी करने के लिए मॉडल की क्षमता का परीक्षण करना है, जिसका उपयोग अनुमान लगाने में नहीं किया गया था, ताकि अत्युपपन्न या चयन पूर्वाग्रह जैसी समस्याओं को चिह्नित किया जा सके। और यह जानकारी दी जा सके कि मॉडल एक स्वतंत्र डेटासमुच्चय के लिए सामान्यीकरण कैसे करेगा (यानी, एक अज्ञात डेटासमुच्चय, उदाहरण के लिए एक वास्तविक समस्या से)।

क्रॉस-सत्यापन के एक सीमा में डेटा के एक प्रतिदर्श को पूरक उपसमुच्चय में विभाजित करना, एक उपसमुच्चय पर विश्लेषण करना (प्रशिक्षण समुच्चय कहा जाता है), और दूसरे उपसमुच्चय पर विश्लेषण को मान्य करना (सत्यापन समुच्चय या परीक्षण समुच्चय कहा जाता है)। विचरणशीलता को कम करने के लिए, अधिकांश तरीकों में विभिन्न विभाजनों का उपयोग करके क्रॉस-सत्यापन के कई पूर्णंक किए जाते हैं, और मॉडल के पूर्वकथन प्रदर्शन का अनुमान देने के लिए पूर्णंक के ऊपर सत्यापन परिणाम संयुक्त होते हैं (उदाहरण के लिए औसत)।

संक्षेप में,मॉडल भविष्यवाणी प्रदर्शन का अधिक सटीक अनुमान प्राप्त करने के लिए क्रॉस-सत्यापन भविष्यवाणी में योग्यता के उपायों (औसत) को जोड़ता है।

अभिप्रेरणा
एक या एक से अधिक अज्ञात मापदंडों के साथ एक मॉडल मान लें, और एक डेटा समुच्चय जिसके लिए मॉडल अनुरूप हो सकता है (प्रशिक्षण डेटा समुच्चय)। उपयुक्त प्रक्रिया अनुकूलन (गणित) मॉडल मापदंडों को मॉडल को प्रशिक्षण डेटा के साथ-साथ यथासंभव अनुरूप करने के लिए। यदि प्रशिक्षण डेटा के रूप में एक ही सांख्यिकीय आबादी से सत्यापन डेटा का एक स्वतंत्रता (संभाव्यता सिद्धांत) नमूना लिया जाता है, तो यह आम तौर पर पता चलेगा कि मॉडल सत्यापन डेटा के साथ-साथ प्रशिक्षण डेटा में भी अनुरूप नहीं होता है। इस अंतर का आकार बड़ा होने की संभावना है, खासकर जब प्रशिक्षण डेटा समुच्चय का आकार छोटा हो, या जब मॉडल में मापदंडों की संख्या बड़ी हो। क्रॉस-सत्यापन इस प्रभाव के आकार का अनुमान लगाने का एक तरीका है।

रैखिक प्रतिगमन में, वास्तविक संख्या प्रतिक्रिया मान y मौजूद होते हैं1, ..., औरn, और n p-विमीय यूक्लिडियन सदिश सहचर 'x'1, ..., एक्सn. सदिश x के घटकi x निर्दिष्ट हैंi1, ..., एक्सip. यदि hyperplane  ŷ = a + β के रूप में किसी फ़ंक्शन को फ़िट करने के लिए कम से कम वर्गों का उपयोग किया जाता हैTx डेटा के लिए (xi, औरi)1 ≤ i ≤ n, तो अनुरूप का आकलन औसत वर्ग त्रुटि (एमएसई) का उपयोग करके किया जा सकता है। प्रशिक्षण समुच्चय ('x') पर दिए गए अनुमानित पैरामीटर मान a और 'β' के लिए MSEi, औरi)1 ≤ i ≤ n परिभाषित किया जाता है:


 * $$\begin{align}

\text{MSE} &= \frac 1 n \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \frac 1 n \sum_{i=1}^n (y_i - a - \boldsymbol\beta^T \mathbf{x}_i)^2\\&= \frac{1}{n}\sum_{i=1}^n (y_i - a - \beta_1x_{i1} - \dots - \beta_px_{ip})^2 \end{align}$$ यदि मॉडल सही ढंग से निर्दिष्ट किया गया है, तो यह हल्के अनुमानों के तहत दिखाया जा सकता है कि प्रशिक्षण समुच्चय के लिए MSE का अपेक्षित मूल्य (n − p − 1)/(n + p + 1) < MSE के अपेक्षित मूल्य का 1 गुना है सत्यापन समुच्चय के लिए (प्रशिक्षण समुच्चयों के वितरण पर अपेक्षित मान लिया जाता है)। इस प्रकार, प्रशिक्षण समुच्चय पर अनुरूप किए गए मॉडल और संगणित MSE के परिणामस्वरूप एक आशावादी पूर्वाग्रह (सांख्यिकी) का आकलन होगा कि मॉडल एक स्वतंत्र डेटा समुच्चय में कितनी अच्छी तरह अनुरूप होगा। इस पक्षपाती अनुमान को अनुरूप का इन-सैंपल अनुमान कहा जाता है, जबकि क्रॉस-सत्यापन अनुमान एक आउट-ऑफ-सैंपल अनुमान है।

चूंकि रैखिक प्रतिगमन में कारक (n − p − 1)/(n + p + 1) की सीधे गणना करना संभव है, जिसके द्वारा प्रशिक्षण MSE सत्यापन MSE को इस धारणा के तहत कम आंकता है कि मॉडल विनिर्देश मान्य है, क्रॉस-सत्यापन कर सकते हैं यह जाँचने के लिए उपयोग किया जाना चाहिए कि क्या मॉडल ओवरउपयुक्त कर रहा है, जिस स्थिति में सत्यापन समुच्चय में MSE अपने अनुमानित मूल्य से काफी अधिक हो जाएगा। (रेखीय प्रतिगमन के संदर्भ में क्रॉस-सत्यापन भी उपयोगी है क्योंकि इसका उपयोग इष्टतम नियमितीकरण (गणित) हानि समारोह का चयन करने के लिए किया जा सकता है।) अधिकांश अन्य प्रतिगमन प्रक्रियाओं (जैसे रसद प्रतिगमन) में, अपेक्षित आउट-ऑफ-नमूना अनुरूप की गणना करने के लिए कोई सरल सूत्र नहीं है। इस प्रकार, सैद्धांतिक विश्लेषण के स्थान पर संख्यात्मक गणना का उपयोग करके अनुपलब्ध डेटा पर एक मॉडल के प्रदर्शन की भविष्यवाणी करने के लिए क्रॉस-सत्यापन एक आम तौर पर लागू तरीका है।

प्रकार
दो प्रकार के क्रॉस-सत्यापन को प्रतिष्ठित किया जा सकता है: संपूर्ण और गैर-संपूर्ण क्रॉस-सत्यापन।

संपूर्ण क्रॉस-सत्यापन
व्यापक क्रॉस-सत्यापन विधियाँ क्रॉस-सत्यापन विधियाँ हैं जो मूल नमूने को एक प्रशिक्षण और एक सत्यापन समुच्चय में विभाजित करने के सभी संभावित तरीकों को सीखती हैं और उनका परीक्षण करती हैं।

लीव-पी-आउट क्रॉस-सत्यापन
लीव-पी-आउट क्रॉस-सत्यापन ('एलपीओ सीवी') में पी अवलोकनों को सत्यापन समुच्चय के रूप में और शेष अवलोकनों को प्रशिक्षण समुच्चय के रूप में उपयोग करना शामिल है। यह पी टिप्पणियों के सत्यापन समुच्चय और प्रशिक्षण समुच्चय पर मूल नमूने को काटने के सभी तरीकों पर दोहराया जाता है। एलपीओ क्रॉस-सत्यापन के लिए प्रशिक्षण और मॉडल को मान्य करने की आवश्यकता होती है $$C^n_p$$ बार, जहां n मूल नमूने में टिप्पणियों की संख्या है, और जहां $$C^n_p$$ द्विपद गुणांक है। पी> 1 के लिए और मामूली बड़े एन के लिए, एलपीओ सीवी कम्प्यूटेशनल रूप से अक्षम हो सकता है। उदाहरण के लिए, n = 100 और p = 30 के साथ, $$C^{100}_{30} \approx 3\times 10^{25}.$$ पी = 2 के साथ एलपीओ क्रॉस-सत्यापन का एक संस्करण जिसे लीव-पेयर-आउट क्रॉस-सत्यापन के रूप में जाना जाता है, को बाइनरी क्लासिफायर के आरओसी वक्र के तहत क्षेत्र का अनुमान लगाने के लिए लगभग निष्पक्ष विधि के रूप में अनुशंसित किया गया है।

लीव-वन-आउट क्रॉस-सत्यापन
लीव-वन-आउट क्रॉस-वेलिडेशन ('LOOCV') पी = 1 के साथ लीव-पी-आउट क्रॉस-सत्यापन का एक विशेष मामला है। यह प्रक्रिया जैकनाइफ रीसैंपलिंग के समान दिखती है; हालांकि, क्रॉस-सत्यापन के साथ एक बाएं-आउट नमूने पर एक आंकड़े की गणना करता है, जबकि जैकनाइफिंग के साथ केवल रखे गए नमूनों से एक आंकड़े की गणना करता है।

LOO क्रॉस-सत्यापन के लिए LpO क्रॉस-सत्यापन की तुलना में कम गणना समय की आवश्यकता होती है क्योंकि केवल होते हैं $$C^n_1=n$$ के बजाय गुजरता है $$C^n_p$$. हालाँकि, $$n$$ पास को अभी भी काफी बड़े संगणना समय की आवश्यकता हो सकती है, इस मामले में अन्य दृष्टिकोण जैसे कि के-फोल्ड क्रॉस सत्यापन अधिक उपयुक्त हो सकता है। छद्म कोड एल्गोरिथ्म:

इनपुट:

x, {लंबाई N का वेक्टर आने वाले बिंदुओं के x-मानों के साथ}

y, {अपेक्षित परिणाम के y-मानों के साथ लंबाई N का वेक्टर}

इंटरपोलेट (x_in, y_in, x_out), { मॉडल के x_in-y_in जोड़े के साथ प्रशिक्षित होने के बाद बिंदु x_out के लिए अनुमान देता है}

आउटपुट:

त्रुटि, {भविष्यवाणी त्रुटि के लिए अनुमान}

कदम:

त्रुटि ← 0 मैं ← 1 के लिए, ..., एन करते हैं // क्रॉस-सत्यापन सबसमुच्चय को परिभाषित करें x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N]) y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N]) x_out ← x[i] y_out ← इंटरपोलेट (x_in, y_in, x_out) त्रुटि ← त्रुटि + (y[i] - y_out)^2 के लिए समाप्त गलती ← गलती/एन

गैर-संपूर्ण क्रॉस-सत्यापन
गैर-संपूर्ण क्रॉस सत्यापन विधियां मूल नमूने को विभाजित करने के सभी तरीकों की गणना नहीं करती हैं। ये तरीके लीव-पी-आउट क्रॉस-सत्यापन के अनुमान हैं।

के-गुना क्रॉस-सत्यापन
के-गुना क्रॉस-सत्यापन में, मूल नमूना यादृच्छिक रूप से के बराबर आकार के उप-नमूने में विभाजित होता है। k उप-नमूने में से, एक एकल उप-नमूना मॉडल के परीक्षण के लिए सत्यापन डेटा के रूप में रखा जाता है, और शेष k − 1 उप-नमूने को प्रशिक्षण डेटा के रूप में उपयोग किया जाता है। फिर क्रॉस-सत्यापन प्रक्रिया को k बार दोहराया जाता है, प्रत्येक k उप-नमूने को सत्यापन डेटा के रूप में ठीक एक बार उपयोग किया जाता है। k परिणाम तब एक अनुमान का उत्पादन करने के लिए औसत हो सकते हैं। बार-बार यादृच्छिक उप-नमूनाकरण (नीचे देखें) पर इस पद्धति का लाभ यह है कि सभी अवलोकनों का उपयोग प्रशिक्षण और सत्यापन दोनों के लिए किया जाता है, और प्रत्येक अवलोकन का उपयोग केवल एक बार सत्यापन के लिए किया जाता है। 10-गुना क्रॉस-सत्यापन आमतौर पर उपयोग किया जाता है, लेकिन सामान्य तौर पर k एक अपरिवर्तित पैरामीटर बना रहता है।

उदाहरण के लिए, k = 2 समुच्चय करने पर दो गुना क्रॉस-सत्यापन होता है। 2-गुना क्रॉस-सत्यापन में, हम डेटासमुच्चय को बेतरतीब ढंग से दो समुच्चय d में फेरबदल करते हैं0 और डी1, ताकि दोनों समुच्चय समान आकार के हों (यह आमतौर पर डेटा ऐरे को फेरबदल करके और फिर इसे दो में विभाजित करके लागू किया जाता है)। हम फिर डी पर प्रशिक्षण देते हैं0 और डी पर मान्य करें1, इसके बाद डी पर प्रशिक्षण1 और d पर मान्य किया जा रहा है0.

जब k = n (अवलोकन की संख्या), k- गुना क्रॉस-सत्यापन लीव-वन-आउट क्रॉस-सत्यापन के बराबर होता है। स्तरीकृत के-गुना क्रॉस-सत्यापन में, विभाजन का चयन किया जाता है ताकि औसत प्रतिक्रिया मान सभी विभाजनों में लगभग बराबर हो। द्विआधारी वर्गीकरण के मामले में, इसका मतलब है कि प्रत्येक विभाजन में दो प्रकार के वर्ग लेबलों के लगभग समान अनुपात होते हैं।

बार-बार क्रॉस-सत्यापन में डेटा बेतरतीब ढंग से कई बार k विभाजन में विभाजित हो जाता है। इस प्रकार मॉडल के प्रदर्शन को कई रनों से औसत किया जा सकता है, लेकिन व्यवहार में यह शायद ही वांछनीय है। जब कई अलग-अलग सांख्यिकीय या मशीन_लर्निंग # मॉडल पर विचार किया जा रहा है, तो लालची के-फोल्ड क्रॉस-सत्यापन का उपयोग सबसे होनहार उम्मीदवार मॉडल को जल्दी से पहचानने के लिए किया जा सकता है।

होल्डआउट विधि
होल्डआउट पद्धति में, हम यादृच्छिक रूप से डेटा बिंदुओं को दो समुच्चय d पर असाइन करते हैं0 और डी1, आमतौर पर क्रमशः प्रशिक्षण समुच्चय और परीक्षण समुच्चय कहा जाता है। प्रत्येक समुच्चय का आकार मनमाना है, हालांकि आमतौर पर परीक्षण समुच्चय प्रशिक्षण समुच्चय से छोटा होता है। हम फिर डी पर प्रशिक्षण (एक मॉडल का निर्माण) करते हैं0 और डी पर परीक्षण (इसके प्रदर्शन का मूल्यांकन)।1.

ठेठ क्रॉस-सत्यापन में, मॉडल-परीक्षण के कई रन के परिणाम एक साथ औसत होते हैं; इसके विपरीत, होल्डआउट विधि, अलगाव में, एक रन शामिल है। इसे सावधानी के साथ इस्तेमाल किया जाना चाहिए क्योंकि कई रनों के ऐसे औसत के बिना, अत्यधिक भ्रामक परिणाम प्राप्त हो सकते हैं। भविष्य कहनेवाला सटीकता का एक संकेतक (#सांख्यिकीय गुण|एफ*) अस्थिर होने की प्रवृत्ति होगी क्योंकि इसे कई पुनरावृत्तियों (नीचे देखें) से सुचारू नहीं किया जाएगा। इसी तरह, विभिन्न पूर्वसूचक चर (जैसे, प्रतिगमन गुणांक के मान) द्वारा निभाई गई विशिष्ट भूमिका के संकेतक अस्थिर होंगे।

जबकि होल्डआउट विधि को सबसे सरल प्रकार के क्रॉस-सत्यापन के रूप में तैयार किया जा सकता है, इसके बजाय कई स्रोत क्रॉस-सत्यापन के एक सरल या पतित रूप के बजाय होल्डआउट को एक प्रकार के सरल सत्यापन के रूप में वर्गीकृत करते हैं।

दोहराया यादृच्छिक उप-नमूना सत्यापन
यह विधि, जिसे मोंटे कार्लो विधि क्रॉस-सत्यापन के रूप में भी जाना जाता है, प्रशिक्षण और सत्यापन डेटा में डेटासमुच्चय के कई यादृच्छिक विभाजन बनाएँ। इस तरह के प्रत्येक विभाजन के लिए, मॉडल प्रशिक्षण डेटा के लिए उपयुक्त है, और सत्यापन डेटा का उपयोग करके भविष्य कहनेवाला सटीकता का आकलन किया जाता है। परिणाम तब विभाजन पर औसत होते हैं। इस पद्धति का लाभ (के-गुना क्रॉस सत्यापन से अधिक) यह है कि प्रशिक्षण/सत्यापन विभाजन का अनुपात पुनरावृत्तियों की संख्या (यानी, विभाजनों की संख्या) पर निर्भर नहीं है। इस पद्धति का नुकसान यह है कि सत्यापन उप-नमूना में कुछ अवलोकनों का चयन कभी नहीं किया जा सकता है, जबकि अन्य को एक से अधिक बार चुना जा सकता है। दूसरे शब्दों में, सत्यापन उपसमुच्चय ओवरलैप हो सकते हैं। यह विधि मोंटे कार्लो पद्धति भिन्नता को भी प्रदर्शित करती है, जिसका अर्थ है कि यदि विश्लेषण अलग-अलग यादृच्छिक विभाजनों के साथ दोहराया जाता है तो परिणाम अलग-अलग होंगे।

जैसा कि यादृच्छिक विभाजन की संख्या अनंत तक पहुंचती है, बार-बार यादृच्छिक उप-नमूना सत्यापन का परिणाम लीव-पी-आउट क्रॉस-सत्यापन की ओर जाता है।

इस दृष्टिकोण के एक स्तरीकृत संस्करण में, यादृच्छिक नमूने इस तरह से उत्पन्न होते हैं कि औसत प्रतिक्रिया मूल्य (यानी प्रतिगमन में निर्भर चर) प्रशिक्षण और परीक्षण समुच्चयों में बराबर होता है। यह विशेष रूप से उपयोगी है यदि डेटा में दो प्रतिक्रिया मूल्यों के असंतुलित प्रतिनिधित्व के साथ प्रतिक्रियाएं द्विबीजपत्री हैं।

एक विधि जो बार-बार यादृच्छिक उप-नमूनाकरण लागू करती है वह RANSAC है।

नेस्टेड क्रॉस-सत्यापन
जब हाइपरपरमीटर (मशीन लर्निंग) के सर्वश्रेष्ठ समुच्चय के चयन के लिए और त्रुटि अनुमान (और सामान्यीकरण क्षमता का आकलन) के लिए एक साथ क्रॉस-सत्यापन का उपयोग किया जाता है, तो एक नेस्टेड क्रॉस-सत्यापन की आवश्यकता होती है। कई प्रकार मौजूद हैं। कम से कम दो रूपों को प्रतिष्ठित किया जा सकता है:

k*l-गुना क्रॉस-सत्यापन
यह वास्तव में नेस्टेड वैरिएंट है जिसमें k समुच्चय का बाहरी लूप और l समुच्चय का आंतरिक लूप होता है। कुल डेटा समुच्चय को k समुच्चय में विभाजित किया गया है। एक-एक करके, एक समुच्चय को (बाहरी) परीक्षण समुच्चय के रूप में चुना जाता है और k - 1 अन्य समुच्चयों को संबंधित बाहरी प्रशिक्षण समुच्चय में संयोजित किया जाता है। यह प्रत्येक k समुच्चय के लिए दोहराया जाता है। प्रत्येक बाहरी प्रशिक्षण समुच्चय को एल समुच्चयों में उप-विभाजित किया गया है। एक-एक करके, एक समुच्चय को आंतरिक परीक्षण (सत्यापन) समुच्चय के रूप में चुना जाता है और l - अन्य समुच्चयों को संबंधित आंतरिक प्रशिक्षण समुच्चय में संयोजित किया जाता है। यह प्रत्येक एल समुच्चय के लिए दोहराया जाता है। आंतरिक प्रशिक्षण समुच्चय का उपयोग मॉडल मापदंडों को अनुरूप करने के लिए किया जाता है, जबकि बाहरी परीक्षण समुच्चय का उपयोग मॉडल अनुरूप का निष्पक्ष मूल्यांकन प्रदान करने के लिए सत्यापन समुच्चय के रूप में किया जाता है। आमतौर पर, यह कई अलग-अलग हाइपरपैरामीटर (या यहां तक ​​​​कि अलग-अलग मॉडल प्रकार) के लिए दोहराया जाता है और इस आंतरिक प्रशिक्षण समुच्चय के लिए सबसे अच्छा हाइपरपरमीटर समुच्चय (और मॉडल प्रकार) निर्धारित करने के लिए सत्यापन समुच्चय का उपयोग किया जाता है। इसके बाद, आंतरिक क्रॉस-सत्यापन से हाइपरपैरामीटर के सर्वश्रेष्ठ समुच्चय का उपयोग करते हुए, पूरे बाहरी प्रशिक्षण समुच्चय पर एक नया मॉडल अनुरूप किया जाता है। इस मॉडल के प्रदर्शन का मूल्यांकन तब बाहरी परीक्षण समुच्चय का उपयोग करके किया जाता है।

सत्यापन और परीक्षण समुच्चय
के साथ के-गुना क्रॉस-सत्यापन

यह एक प्रकार का k*l-गुना क्रॉस-सत्यापन है जब l = k - 1। एक एकल k-फ़ोल्ड क्रॉस-सत्यापन का उपयोग प्रशिक्षण, सत्यापन और परीक्षण समुच्चय दोनों के साथ किया जाता है। कुल डेटा समुच्चय को k समुच्चय में विभाजित किया गया है। एक-एक करके, एक समुच्चय को टेस्ट समुच्चय के रूप में चुना जाता है। फिर, एक-एक करके, शेष समुच्चयों में से एक को सत्यापन समुच्चय के रूप में उपयोग किया जाता है और अन्य k - 2 समुच्चयों को प्रशिक्षण समुच्चय के रूप में तब तक उपयोग किया जाता है जब तक कि सभी संभावित संयोजनों का मूल्यांकन नहीं हो जाता। के * एल-फोल्ड क्रॉस सत्यापन के समान, प्रशिक्षण समुच्चय का उपयोग मॉडल उपयुक्त के लिए किया जाता है और सत्यापन समुच्चय का उपयोग प्रत्येक हाइपरपैरामीटर समुच्चय के मॉडल मूल्यांकन के लिए किया जाता है। अंत में, चयनित पैरामीटर समुच्चय के लिए, परीक्षण समुच्चय का उपयोग सर्वोत्तम पैरामीटर समुच्चय वाले मॉडल का मूल्यांकन करने के लिए किया जाता है। यहां, दो संस्करण संभव हैं: या तो उस मॉडल का मूल्यांकन करना जिसे प्रशिक्षण समुच्चय पर प्रशिक्षित किया गया था या एक नए मॉडल का मूल्यांकन करना जो प्रशिक्षण और सत्यापन समुच्चय के संयोजन पर अनुरूप था।

अनुरूप होने के उपाय
क्रॉस-सत्यापन का लक्ष्य मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा से स्वतंत्र डेटा समुच्चय के मॉडल के अनुरूप होने के अपेक्षित स्तर का अनुमान लगाना है। इसका उपयोग अनुरूप के किसी भी मात्रात्मक माप का अनुमान लगाने के लिए किया जा सकता है जो डेटा और मॉडल के लिए उपयुक्त है। उदाहरण के लिए, बाइनरी वर्गीकरण समस्याओं के लिए, सत्यापन समुच्चय में प्रत्येक मामले की या तो सही या गलत भविष्यवाणी की जाती है। इस स्थिति में गलत वर्गीकरण त्रुटि दर का उपयोग अनुरूप को सारांशित करने के लिए किया जा सकता है, हालांकि सकारात्मक भविष्य कहनेवाला मूल्य जैसे अन्य उपायों का भी उपयोग किया जा सकता है। जब अनुमान लगाया जा रहा मूल्य लगातार वितरित किया जाता है, तो त्रुटियों को सारांशित करने के लिए औसत वर्ग त्रुटि, मूल माध्य वर्ग त्रुटि या औसत पूर्ण विचलन का उपयोग किया जा सकता है।

पूर्व सूचना का प्रयोग
जब उपयोगकर्ता एक अच्छा कॉन्फ़िगरेशन चुनने के लिए क्रॉस-सत्यापन लागू करते हैं $$\lambda$$, तो वे कॉन्फ़िगरेशन के अपने अनुमान के साथ क्रॉस-वैध विकल्प को संतुलित करना चाह सकते हैं। इस तरह, वे नमूना आकार छोटा होने पर क्रॉस-सत्यापन की अस्थिरता का मुकाबला करने का प्रयास कर सकते हैं और पिछले शोध से प्रासंगिक जानकारी शामिल कर सकते हैं। उदाहरण के लिए, पूर्वानुमान संयोजन अभ्यास में, प्रत्येक पूर्वानुमान को निर्दिष्ट भार का अनुमान लगाने के लिए क्रॉस-सत्यापन लागू किया जा सकता है। चूंकि एक साधारण समान भारित पूर्वानुमान को हराना मुश्किल है, समान भार से विचलन के लिए जुर्माना जोड़ा जा सकता है। या, यदि टिप्पणियों को अलग-अलग भार देने के लिए क्रॉस-सत्यापन लागू किया जाता है, तो संभावित प्रासंगिक जानकारी को बर्बाद करने से बचने के लिए समान भार से विचलन को दंडित किया जा सकता है। होर्नवेग (2018) दिखाता है कि कैसे एक ट्यूनिंग पैरामीटर $$\gamma$$ परिभाषित किया जा सकता है ताकि एक उपयोगकर्ता क्रॉस-सत्यापन की सटीकता और एक संदर्भ पैरामीटर से चिपके रहने की सरलता के बीच सहजता से संतुलन बना सके $$\lambda_R$$ जो उपयोगकर्ता द्वारा परिभाषित किया गया है।

अगर $$\lambda_i$$ दर्शाता है $$i^{th}$$ कैंडिडेट कॉन्फ़िगरेशन जिसे चुना जा सकता है, तो लॉस फ़ंक्शन # स्टेटिस्टिक्स जिसे कम किया जाना है, के रूप में परिभाषित किया जा सकता है

L_{\lambda_i} = (1-\gamma) \mbox{ Relative Accuracy}_i + \gamma \mbox{ Relative Simplicity}_i. $$ सापेक्ष सटीकता के रूप में मात्रा निर्धारित की जा सकती है $$\mbox{MSE}(\lambda_i)/\mbox{MSE}(\lambda_R)$$, ताकि एक उम्मीदवार की औसत चुकता त्रुटि $$\lambda_i$$ उपयोगकर्ता द्वारा निर्दिष्ट के सापेक्ष बनाया गया है $$\lambda_R$$. सापेक्ष सरलता शब्द उस मात्रा को मापता है जो $$\lambda_i$$ से विचलित होता है $$\lambda_R$$ विचलन की अधिकतम मात्रा के सापेक्ष $$\lambda_R$$. तदनुसार, सापेक्ष सादगी के रूप में निर्दिष्ट किया जा सकता है $$\frac{(\lambda_i-\lambda_R)^2}{(\lambda_{\max}-\lambda_R)^2}$$, कहाँ $$\lambda_{\max}$$ से मेल खाता है $$\lambda$$ उच्चतम स्वीकार्य विचलन के साथ मूल्य $$\lambda_R$$. साथ $$\gamma\in[0,1]$$, उपयोगकर्ता यह निर्धारित करता है कि क्रॉस-सत्यापन के सापेक्ष संदर्भ पैरामीटर का प्रभाव कितना अधिक है।

एक से अधिक कॉन्फ़िगरेशन के लिए सापेक्ष सरलता शब्द जोड़ सकते हैं $$c=1,2,...,C$$ हानि फ़ंक्शन को निर्दिष्ट करके

L_{\lambda_i} = \mbox{ Relative Accuracy}_i + \sum_{c=1}^C \frac{\gamma_c}{1-\gamma_c} \mbox{ Relative Simplicity}_{i,c}. $$ होर्नवेग (2018) से पता चलता है कि इस तरह की सटीकता-सरलता ट्रेडऑफ़ के साथ एक हानि फ़ंक्शन का उपयोग (अनुकूली) लैस्सो और बायेसियन प्रतिगमन  /  रिज प्रतिगमन  जैसे संकोचन अनुमानकों को सहजता से परिभाषित करने के लिए भी किया जा सकता है। उदाहरण के लिए लासो (सांख्यिकी) #लासो की व्याख्या पर क्लिक करें।

सांख्यिकीय गुण
मान लीजिए कि हम अनुरूप एफ का एक उपाय चुनते हैं, और अनुमान एफ का उत्पादन करने के लिए क्रॉस-सत्यापन का उपयोग करते हैं* एक मॉडल के अपेक्षित फ़िट EF का प्रशिक्षण डेटा के समान जनसंख्या से लिए गए एक स्वतंत्र डेटा समुच्चय के लिए। यदि हम एक ही वितरण के बाद कई स्वतंत्र प्रशिक्षण समुच्चयों के नमूने की कल्पना करते हैं, तो परिणामी मान F* भिन्न होगा। एफ के सांख्यिकीय गुण* इस भिन्नता का परिणाम है।

क्रॉस-सत्यापन अनुमानक एफ* EF के लिए लगभग निष्पक्ष है। इसके थोड़े पक्षपाती होने का कारण यह है कि क्रॉस-सत्यापन में समुच्चय किया गया प्रशिक्षण वास्तविक डेटा समुच्चय से थोड़ा छोटा होता है (उदाहरण के लिए LOOCV के लिए प्रशिक्षण समुच्चय का आकार n − 1 होता है जब n देखे गए मामले होते हैं)। लगभग सभी स्थितियों में, इस पूर्वाग्रह का प्रभाव रूढ़िवादी होगा जिसमें अनुमानित अनुरूप एक खराब अनुरूप का सुझाव देने वाली दिशा में थोड़ा पक्षपाती होगा। व्यवहार में, यह पूर्वाग्रह शायद ही कभी चिंता का विषय होता है।

F का विचरण* बड़ा हो सकता है। इस कारण से, यदि दो सांख्यिकीय प्रक्रियाओं की तुलना क्रॉस-सत्यापन के परिणामों के आधार पर की जाती है, तो बेहतर अनुमानित प्रदर्शन वाली प्रक्रिया वास्तव में दो प्रक्रियाओं से बेहतर नहीं हो सकती है (अर्थात इसमें EF का बेहतर मूल्य नहीं हो सकता है)। क्रॉस-सत्यापन अनुमानों के आसपास विश्वास अंतराल के निर्माण पर कुछ प्रगति हुई है, पर यह एक कठिन समस्या मानी जाती है।

कम्प्यूटेशनल मुद्दे
जब तक अध्ययन की जा रही भविष्यवाणी पद्धति का कार्यान्वयन उपलब्ध है, तब तक क्रॉस-सत्यापन के अधिकांश रूप लागू करने के लिए सरल हैं। विशेष रूप से, भविष्यवाणी पद्धति एक ब्लैक बॉक्स हो सकती है - इसके कार्यान्वयन के आंतरिक भाग तक पहुंच की कोई आवश्यकता नहीं है। यदि भविष्यवाणी पद्धति को प्रशिक्षित करना महंगा है, तो क्रॉस-सत्यापन बहुत धीमा हो सकता है क्योंकि प्रशिक्षण को बार-बार किया जाना चाहिए। कुछ मामलों में जैसे कम से कम वर्ग और कर्नेल प्रतिगमन, प्रशिक्षण में बार-बार आवश्यक कुछ मूल्यों की पूर्व-गणना करके, या शर्मन-मॉरिसन सूत्र जैसे तेजी से अद्यतन नियमों का उपयोग करके क्रॉस-सत्यापन को महत्वपूर्ण रूप से बढ़ाया जा सकता है। हालांकि किसी को प्रशिक्षण प्रक्रिया से निर्धारित सत्यापन की कुल अंधाधुंधता को बनाए रखने के लिए सावधान रहना चाहिए, अन्यथा पूर्वाग्रह का परिणाम हो सकता है। क्रॉस-सत्यापन में तेजी लाने का एक चरम उदाहरण रेखीय प्रतिगमन में होता है, जहां क्रॉस-सत्यापन के परिणामों में एक बंद रूप अभिव्यक्ति होता है, जिसे प्रिडिक्शन रेसीड्यूल एरर योग ऑफ स्क्वेयर (प्रेस आँकड़ा) के रूप में जाना जाता है।

सीमाएं और दुरुपयोग
क्रॉस-सत्यापन केवल तभी सार्थक परिणाम देता है जब सत्यापन समुच्चय और प्रशिक्षण समुच्चय एक ही आबादी से तैयार किए जाते हैं और केवल तभी जब मानव पूर्वाग्रह नियंत्रित होते हैं।

पूर्वानुमानित मॉडलिंग के कई अनुप्रयोगों में, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (अर्थात यह गैर-स्थिर है)। ये दोनों प्रशिक्षण और सत्यापन समुच्चय के बीच व्यवस्थित अंतर का परिचय दे सकते हैं। उदाहरण के लिए, यदि शेयर बाजार की भविष्यवाणी के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद के पांच साल की अवधि को उसी आबादी से ड्रा के रूप में मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर एक विशेष बीमारी के साथ चिकित्सा निदान होने के लिए किसी व्यक्ति के जोखिम की भविष्यवाणी करने के लिए एक मॉडल विकसित किया गया है। यदि मॉडल को केवल एक विशिष्ट जनसंख्या समूह (जैसे युवा लोग या पुरुष) से ​​जुड़े एक अध्ययन से डेटा का उपयोग करके प्रशिक्षित किया जाता है, लेकिन फिर इसे सामान्य आबादी पर लागू किया जाता है, तो प्रशिक्षण समुच्चय से क्रॉस-सत्यापन परिणाम वास्तविक भविष्यवाणी प्रदर्शन से काफी भिन्न हो सकते हैं।.

कई अनुप्रयोगों में, मॉडल भी गलत तरीके से निर्दिष्ट किए जा सकते हैं और मॉडलर पूर्वाग्रहों और/या मनमाने विकल्पों के कार्य के रूप में भिन्न हो सकते हैं। जब ऐसा होता है, तो एक भ्रम हो सकता है कि सिस्टम बाहरी नमूनों में बदल जाता है, जबकि इसका कारण यह है कि मॉडल ने एक महत्वपूर्ण भविष्यवक्ता को याद किया है और/या एक भ्रमित भविष्यवक्ता को शामिल किया है। नया साक्ष्य यह है कि क्रॉस-सत्यापन अपने आप में बाहरी वैधता का बहुत पूर्वानुमान नहीं है, जबकि प्रायोगिक सत्यापन का एक रूप जिसे स्वैप नमूनाकरण के रूप में जाना जाता है जो मानव पूर्वाग्रह के लिए नियंत्रण करता है, बाहरी वैधता का अधिक पूर्वानुमानित हो सकता है। जैसा कि 30,000 मॉडलों में इस बड़े MAQC-II अध्ययन द्वारा परिभाषित किया गया है, स्वैप नमूनाकरण इस अर्थ में क्रॉस-सत्यापन को शामिल करता है कि स्वतंत्र प्रशिक्षण और सत्यापन नमूनों में भविष्यवाणियों का परीक्षण किया जाता है। फिर भी, मॉडल भी इन स्वतंत्र नमूनों में और मॉडलर्स द्वारा विकसित किए जाते हैं जो एक दूसरे से अंधे होते हैं। जब इन अदला-बदली प्रशिक्षण और सत्यापन नमूनों में विकसित इन मॉडलों में एक बेमेल होता है, जैसा कि अक्सर होता है, MAQC-II दिखाता है कि यह पारंपरिक क्रॉस-सत्यापन की तुलना में खराब बाहरी भविष्य कहनेवाला वैधता का अधिक पूर्वानुमान होगा।

अदला-बदली के नमूने की सफलता का कारण मॉडल निर्माण में मानव पूर्वाग्रहों के लिए एक अंतर्निहित नियंत्रण है। भविष्यवाणियों में बहुत अधिक विश्वास रखने के अलावा जो मॉडलर के बीच भिन्न हो सकते हैं और इन जटिल मॉडलर प्रभावों के कारण खराब बाहरी वैधता का कारण बन सकते हैं, ये कुछ अन्य तरीके हैं जिनसे क्रॉस-सत्यापन का दुरुपयोग किया जा सकता है:


 * संपूर्ण डेटा समुच्चय का उपयोग करके सबसे अधिक जानकारीपूर्ण सुविधाओं (पैटर्न पहचान) की पहचान करने के लिए प्रारंभिक विश्लेषण करके - यदि मॉडलिंग प्रक्रिया द्वारा फीचर चयन या मॉडल ट्यूनिंग की आवश्यकता होती है, तो इसे प्रत्येक प्रशिक्षण समुच्चय पर दोहराया जाना चाहिए। अन्यथा, भविष्यवाणियां निश्चित रूप से ऊपर की ओर पक्षपाती होंगी। यदि क्रॉस-सत्यापन का उपयोग यह तय करने के लिए किया जाता है कि कौन सी सुविधाओं का उपयोग करना है, तो प्रत्येक प्रशिक्षण समुच्चय पर फीचर चयन करने के लिए एक आंतरिक क्रॉस-सत्यापन किया जाना चाहिए।
 * कुछ प्रशिक्षण डेटा को परीक्षण समुच्चय में शामिल करने की अनुमति देकर - यह डेटा समुच्चय में ट्विनिंग के कारण हो सकता है, जिससे डेटा समुच्चय में कुछ समान या लगभग समान नमूने मौजूद होते हैं। कुछ हद तक जुड़वां हमेशा पूरी तरह से स्वतंत्र प्रशिक्षण और सत्यापन नमूने में भी होता है। ऐसा इसलिए है क्योंकि कुछ प्रशिक्षण नमूना टिप्पणियों में सत्यापन नमूना टिप्पणियों के रूप में भविष्यवक्ताओं के लगभग समान मूल्य होंगे। और इनमें से कुछ प्रशिक्षण और सत्यापन दोनों में एक ही दिशा में मौका स्तर से बेहतर लक्ष्य के साथ सहसंबद्ध होंगे, जब वे वास्तव में खराब बाहरी वैधता वाले भ्रमित भविष्यवक्ताओं द्वारा संचालित होते हैं। यदि इस तरह के क्रॉस-वैलिडेटेड मॉडल को के-फोल्ड समुच्चय से चुना जाता है, तो मानव पुष्टि पूर्वाग्रह काम पर होगा और यह निर्धारित करेगा कि इस तरह के मॉडल को मान्य किया गया है। यही कारण है कि पारंपरिक क्रॉस-सत्यापन को मानव पूर्वाग्रह और स्वैप नमूनाकरण और संभावित अध्ययन जैसे भ्रमित मॉडल विनिर्देश के नियंत्रण के साथ पूरक होने की आवश्यकता है।

समय-श्रृंखला मॉडल
के लिए क्रॉस सत्यापन चूंकि डेटा का क्रम महत्वपूर्ण है, क्रॉस-सत्यापन समय-श्रृंखला मॉडल के लिए समस्याग्रस्त हो सकता है। रोलिंग क्रॉस-सत्यापन का उपयोग करने के लिए एक अधिक उपयुक्त दृष्टिकोण हो सकता है। हालांकि, यदि प्रदर्शन का वर्णन एकल सारांश आँकड़ों द्वारा किया जाता है, तो यह संभव है कि पोलिटिस और रोमानो द्वारा एक स्थिर बूटस्ट्रैप के रूप में वर्णित दृष्टिकोण काम करेगा। बूटस्ट्रैप के आँकड़ों को समय श्रृंखला के एक अंतराल को स्वीकार करने और उस पर सारांश आँकड़ा वापस करने की आवश्यकता है। स्टेशनरी बूटस्ट्रैप को कॉल करने के लिए उचित औसत अंतराल लंबाई निर्दिष्ट करने की आवश्यकता है।

अनुप्रयोग
विभिन्न पूर्वानुमानित मॉडलिंग प्रक्रियाओं के प्रदर्शन की तुलना करने के लिए क्रॉस-सत्यापन का उपयोग किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हम ऑप्टिकल कैरेक्टर मान्यता में रुचि रखते हैं, और हम हस्तलिखित चरित्र की छवि से वास्तविक चरित्र की भविष्यवाणी करने के लिए समर्थन वेक्टर यंत्र  (SVM) या k निकटतम पड़ोसी | k-निकटतम पड़ोसी (KNN) का उपयोग करने पर विचार कर रहे हैं। क्रॉस-सत्यापन का उपयोग करते हुए, हम इन दो तरीकों की निष्पक्ष रूप से गलत वर्गीकृत वर्णों के उनके संबंधित अंशों के संदर्भ में तुलना कर सकते हैं। यदि हम केवल उनके इन-सैंपल एरर रेट के आधार पर तरीकों की तुलना करते हैं, तो एक तरीका बेहतर प्रदर्शन करता दिखाई देगा, क्योंकि यह अधिक लचीला है और इसलिए ओवरउपयुक्त के लिए अधिक प्रवण है।  दूसरी विधि की तुलना में।

फ़ीचर चयन में क्रॉस-सत्यापन का भी उपयोग किया जा सकता है। मान लीजिए कि हम 20 प्रोटीनों के जीन अभिव्यक्ति स्तर का उपयोग कर रहे हैं यह अनुमान लगाने के लिए कि क्या कैंसर रोगी दवा का जवाब देगा। एक व्यावहारिक लक्ष्य यह निर्धारित करना होगा कि 20 विशेषताओं में से किस सबसमुच्चय का उपयोग सर्वोत्तम भविष्य कहनेवाला मॉडल बनाने के लिए किया जाना चाहिए। अधिकांश मॉडलिंग प्रक्रियाओं के लिए, यदि हम इन-नमूना त्रुटि दरों का उपयोग करके फीचर सबसमुच्चय की तुलना करते हैं, तो सबसे अच्छा प्रदर्शन तब होगा जब सभी 20 सुविधाओं का उपयोग किया जाएगा। हालांकि क्रॉस-सत्यापन के तहत, सबसे अच्छे अनुरूप वाले मॉडल में आम तौर पर केवल उन विशेषताओं का एक सबसमुच्चय शामिल होगा जिन्हें वास्तव में सूचनात्मक माना जाता है।

चिकित्सा सांख्यिकी में हालिया विकास मेटा-विश्लेषण में इसका उपयोग है। यह सत्यापन आँकड़ा, Vn का आधार बनाता है जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। मेटा-विश्लेषण परिणामों की संभावित भविष्यवाणी त्रुटि का अनुमान लगाने के लिए मेटा-विश्लेषण में इसका उपयोग अधिक पारंपरिक अर्थों में भी किया गया है।

यह भी देखें

 * बूस्टिंग (मशीन लर्निंग)
 * बूटस्ट्रैप एकत्रीकरण (बैगिंग)
 * आउट-ऑफ-बैग त्रुटि
 * बूटस्ट्रैपिंग (सांख्यिकी)
 * रिसाव (मशीन लर्निंग)
 * मॉडल चयन
 * स्थिरता (सीखने के सिद्धांत)
 * वैधता (सांख्यिकी)

नोट्स और संदर्भ
श्रेणी:मॉडल चयन श्रेणी:प्रतिगमन चर चयन श्रेणी:मशीन लर्निंग