सांख्यिकीय मॉडल सत्यापन

सांख्यिकी में, चुना गया सांख्यिकीय प्रतिरूपण उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इसलिए, एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक निरंतर रह सकता है या नहीं यह परीक्षण करने के लिए प्रतिरूपण सत्यापन का उपयोग किया जाता है। सामान्यतया, प्रतिरूपण चयन और प्रतिरूपण सत्यापन समान प्रतीत होते है जो भ्रम उत्पन्न करते है पर प्रतिरूपण चयन कि प्रक्रिया में विभिन्न उपलब्ध प्रतिरूपण के प्रकार में से किसी एक का चयन करना होता है परन्तु प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक रचना को इतना महत्व नहीं देता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए उत्पादन के बीच स्थिरता का परीक्षण करता है।

प्रतिरूपण को प्रमाणित करने के विभिन्न तरीके हैं जैसे वर्गों का अवशिष्ट योग वास्तविक डेटा और प्रतिरूपण के पूर्वानुमान के बीच भिन्नता को दर्शाता है और इसमें सहसंबंध प्रतिरूपण में त्रुटि का संकेत दे सकता है। क्रॉस-सत्यापन (सांख्यिकी) प्रतिरूपण सत्यापन की एक विधि है जो प्रतिरूपण को गतिशील रूप से परिष्कृत करती है। इसमें प्रत्येक बार जांच करने के लिए थोड़ा डेटा छोड़ देते है और तुलना करते हैं की छोड़े गए डेटा प्रतिरूपण द्वारा अनुमानित है या नहीं। क्रॉस-सत्यापन विभिन्न प्रकार के होते है;अनुमानित सतत अनुकरण का उपयोग कृत्रिम डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है, बाहरी सत्यापन प्रतिरूपण को नए डेटा के अनुकूल करता है और एकैके सूचना मापदण्ड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है।

अवलोकन
प्रतिरूपण सत्यापन विभिन्न रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध रूप-रेखा की बाधा होती है। अधिक सरलता से, इसका अर्थ यह है कि प्रतिरूपण को सिद्ध करने की कोई एक विशिष्ट विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित समूह के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन रूपरेखा का उपयोग करके अपने प्रतिरूपण के उपयुक्त होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के उपयुक्त परीक्षण करने पर विचार कर सकते हैं। हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक मात्रा में डेटा है और वह विभिन्न स्थिर प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ शोधकर्ता को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ना पड़ सकता है। ये दो संक्षिप्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक जटिलता पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितियों पर निर्भर करते हैं।

सामान्य तौर पर, प्रतिरूपण को उपलब्ध डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।

उपलब्ध डेटा के साथ सत्यापन
उपलब्ध डेटा के आधार पर सत्यापन में प्रतिरूपण के उपयुक्त होने के गुण का विश्लेषण करना या प्रतिरूपण में अविष्ट निदान के आधार पर आकस्मिक त्रुटियों का विश्लेषण करना सम्मिलित हैं। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना सम्मिलित है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा को अनुमानित करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपदीय कार्य दिखाता है। हम देखते हैं कि बहुपद कार्य डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है।



नए डेटा के साथ सत्यापन
यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित किया जा सकता है या नहीं इसका आकलन करके उपलब्ध प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित नहीं किया जाता है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।

सावधानी का एक नोट
एक प्रतिरूपण को केवल कुछ संबंधित अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है। एक प्रतिरूपण जो एक अनुप्रयोग के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से निविष्ट का उपयोग करता है, तो वक्र एक स्वीकार्य प्रतिरूपण हो सकता है।

सत्यापन के तरीके
सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं। ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी और अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों को सुलझाने के तरीकों में; प्रतिरूपण के निर्माण में की गई धारणाओं की जाँच करना, उपलब्ध डेटा और संबंधित प्रतिरूपण आउटपुट की जांच करना और विशेषज्ञ निर्णय लागू करना सम्मिलित हैं:। विशेषज्ञ निर्णय के लिए सामान्यतौर पर अनुप्रयोग क्षेत्र में अनुमान लगाने के लिए विशेषज्ञान की आवश्यकता होती है।

कभी-कभी विशेषज्ञ निर्णय का उपयोग वास्तविक डेटा प्राप्त किए बिना अनुमानित परिणाम की मान्यता का आकलन करने के लिए किया जा सकता है: उदाहरण; चित्र 1 में, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि वक्र के लिए वास्तविक अनुमान लगाना अमान्य होगा। इसके अतिरिक्त, ट्यूरिंग परीक्षण जैसे परीक्षण में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।

सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन विश्लेषण के माध्यम से प्राप्त किया गया था, तो सामान्यतौर पर उसी प्रतिरूपण का उपयोग किया जाता है जो प्रतिगमन प्रतिरूपण सत्यापन के लिए विशेष विश्लेषण उपलब्ध हैं।

अवशिष्ट निदान
अवशिष्ट निदान में यह निर्धारित करने के लिए अवशिष्टों का विश्लेषण सम्मिलित है कि अवशिष्ट प्रभावी रूप से आकस्मिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में सामान्यतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार उपयोग करके प्राप्त किया जा सकता है, यानी आकस्मिक चर के लिए बार-बार प्रारंभिक आकस्मिक संख्या उत्पादक या काल्पनिक सतत अनुकरण का उपयोग करना।

यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन अवशिष्ट निदान का उपयोग किया जा सकता है और इस तरह के निदान का अच्छी तरह से अध्ययन किया गया है।

क्रॉस सत्यापन
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को उपयुक्त फिटिंग प्रक्रिया से बाहर किया जाता है और फिर यह देखा जाता है की छोड़ा गया डाटा, जहाँ पर प्रतिरूपण अनुमान करता है उस बिंदु से दूर है या नजदीक। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस मान्यकरण तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को स्थित करती है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण उस डेटा का बहुत ही कम वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो संभवतः प्रतिरूपण गलत है।

यह भी देखें

 * सभी मॉडल गलत हैं
 * क्रॉस-वैलिडेशन (सांख्यिकी)
 * पहचान क्षमता विश्लेषण
 * आंतरिक वैधता
 * मॉडल पहचान
 * ओवरफिटिंग
 * घबराहट
 * भविष्यवाणी मॉडल
 * संवेदनशीलता का विश्लेषण
 * नकली रिश्ते
 * सांख्यिकीय निष्कर्ष वैधता
 * सांख्यिकीय मॉडल चयन
 * सांख्यिकीय मॉडल विनिर्देश
 * वैधता (सांख्यिकी)

बाहरी संबंध

 * How can I tell if a model fits my data? —Handbook of Statistical Methods (NIST)