प्रतिगमन सत्यापन

आंकड़ों में, प्रतिगमन सत्यापन यह निर्णय लेने की प्रक्रिया है कि क्या प्रतिगमन विश्लेषण से प्राप्त चरों के बीच परिकल्पित संबंधों को परिमाणित करने वाले संख्यात्मक परिणाम, डेटा के विवरण के रूप में स्वीकार्य हैं। सत्यापन प्रक्रिया में प्रतिगमन के फिट की अवधारणा का विश्लेषण करना सम्मिलित हो सकता है, यह विश्लेषण करना कि क्या अवशिष्ट (सांख्यिकी) यादृच्छिक हैं, और यह जांचना कि क्या मॉडल के अनुमान में उपयोग नहीं किए गए डेटा पर लागू होने पर मॉडल का पूर्वानुमान प्रदर्शन काफी अनियंत्रित हो जाता है।

फिट होने का निर्धारण
फिट होने के निर्धारण का एक उपाय R2 है (निर्धारण का गुणांक), जो अंतर्ग्रहण वाले सामान्य न्यूनतम वर्गों में 0 और 1 के बीच होता है। हालांकि, एक R2 1 के करीब यह निश्चितता नहीं देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है: जैसा कि अंसकोम्बे की परिकल्पना दिखाती है, एक उच्च R2 किसी संबंध के कार्यात्मक रूप के गलत विवरण की उपस्थिति में या वास्तविक संबंध को विकृत करने वाले बाह्य कारकों की उपस्थिति में हो सकता है।

R2 के साथ एक समस्या मॉडल की वैधता के एक उपाय के रूप में यह है कि मॉडल में अधिक चर जोड़कर इसे सदैव बढ़ाया जा सकता है, सिवाय उस असंभावित घटना के कि अतिरिक्त चर उपयोग किए जा रहे डेटा नमूने में निर्भर चर के साथ बिल्कुल असंबद्ध हैं। R2 में वृद्धि के सांख्यिकीय महत्व का एफ-परीक्षण करके इस समस्या से बचा जा सकता है, या इसके बजाय समायोजित R-वर्ग का उपयोग करके इसका निर्धारण किया जा सकता है।

अवशेषों का विश्लेषण
फिट किए गए मॉडल से आँकड़ों में त्रुटियां और अवशेष व्याख्यात्मक चर के मूल्यों के प्रत्येक संयोजन पर देखी गई प्रतिक्रियाओं और प्रतिगमन फलन का उपयोग करके गणना की गई प्रतिक्रिया की संबंधित पूर्वधारणा के बीच अंतर हैं। गणितीय रूप से, i के लिए अवशिष्ट की परिभाषा डेटा सेट में अवलोकन निर्दिष्ट करता है,

e_i = y_i - f(x_i;\hat{\beta}), $$ y के साथ ii को दर्शाता है, डेटा सेट में प्रतिक्रिया और xi व्याख्यात्मक चर के वेक्टर, i में पाए जाने वाले संबंधित मानों पर प्रत्येक सेट डेटा सेट में अवलोकन करता है।

यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं। इसलिए, यदि अवशिष्ट अनियंत्रित माध्यमों से व्यवहार करते दिखाई देते हैं, तो यह सुझाव देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है। दूसरी ओर, यदि अवशेषों में गैर-यादृच्छिक संरचना स्पष्ट है, तो यह एक स्पष्ट संकेत है कि मॉडल डेटा को निष्क्रिय तरीके से फिट करता है। अगला खंड एक मॉडल के विभिन्न पहलुओं का परीक्षण करने के लिए उपयोग किए जाने वाले भूखंडों के प्रकारों का विवरण देता है और प्रत्येक प्रकार के भूखंडों के लिए देखे जा सकने वाले विभिन्न परिणामों की सही व्याख्या करता है।

अवशिष्टों का चित्रमय विश्लेषण
एक बुनियादी, हालांकि मात्रात्मक रूप से सटीक नहीं है, एक मॉडल को अपर्याप्त प्रस्तुत करने वाली समस्याओं की जांच करने का तरीका यादृच्छिकता से स्पष्ट विचलन देखने के लिए अवशिष्टों (मॉडल को मापने में उपयोग किए गए डेटा की गलत पूर्वधारणा) की एक दृश्य परीक्षा आयोजित करना है। यदि एक दृश्य परीक्षा, उदाहरण के लिए, हेटेरोस्केडिस्टिक की संभावित उपस्थिति (मॉडल त्रुटियों के विचरण और एक स्वतंत्र चर के अवलोकनों के आकार के बीच एक संबंध) का सुझाव देती है, तो इस अनुमान की पुष्टि या अस्वीकार करने के लिए सांख्यिकीय परीक्षण किए जा सकते हैं; यदि इसकी पुष्टि हो जाती है, तो विभिन्न मॉडलिंग प्रक्रियाओं को बुलाया जाता है। यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं।

फिट किए गए मॉडल से अवशेषों के विभिन्न प्रकार अंतराल भूखंड मॉडल के विभिन्न पहलुओं की पर्याप्तता के बारे में जानकारी प्रदान करते हैं।

मॉडल के कार्यात्मक भाग की पर्याप्तता: अवशिष्ट बनाम भविष्यवक्ताओं के अदिश प्लॉट मॉडल सत्यापन के लिए संख्यात्मक तरीकों पर ग्राफिकल तरीकों का लाभ होता है क्योंकि वे मॉडल और डेटा के बीच संबंधों के जटिल पहलुओं की एक विस्तृत श्रृंखला को आसानी से चित्रित करते हैं।
 * 1) डेटा में गैर-निरंतर भिन्नता: अवशिष्ट बनाम भविष्यवक्ताओं के अदिश प्लॉट; समय के साथ एकत्र किए गए डेटा के लिए, समय के विरुद्ध अवशेषों के प्लॉट
 * 2) त्रुटियों में निरंतरता (समय के साथ एकत्र किया गया डेटा): प्रतिक्रिया और त्रुटियों बनाम समय के चार्ट
 * 3) त्रुटियों की स्वतंत्रता: अंतराल प्लॉट
 * 4) त्रुटियों की सामान्यता: हिस्टोग्राम और सामान्य संभावना प्लॉट

अवशिष्टों का मात्रात्मक विश्लेषण
मॉडल सत्यापन में संख्यात्मक तरीके भी महत्वपूर्ण भूमिका निभाते हैं। उदाहरण के लिए, फिट की अवधारणा मॉडल के कार्यात्मक भाग की शुद्धता का आकलन करने के लिए फिट की कमी का परीक्षण एक सीमावर्ती अवशिष्ट भूखंड की व्याख्या करने में सहायता कर सकता है। एक सामान्य स्थिति जब संख्यात्मक सत्यापन विधियों को ग्राफिकल विधियों पर प्राथमिकता दी जाती है, जब अनुमानित सांख्यिकीय पैरामीटर की संख्या डेटा सेट के आकार के अपेक्षाकृत करीब होती है। इस स्थिति में अज्ञात मापदंडों के अनुमान द्वारा लगाए गए अवशेषों पर बाधाओं के कारण अवशिष्ट भूखंडों की व्याख्या करना प्रायः मुश्किल होता है। एक क्षेत्र जिसमें यह सामान्यतः होता है, डिज़ाइन किए गए प्रयोगों का उपयोग करके अनुकूलन अनुप्रयोगों में होता है। बाइनरी डेटा के साथ संभार तन्त्र परावर्तन एक अन्य क्षेत्र है जिसमें ग्राफिकल अवशिष्ट विश्लेषण मुश्किल हो सकता है। यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं।

अवशिष्टों का आनुक्रमिक सहसंबंध मॉडल के गलत विवरण का संकेत दे सकता है, और इसे डर्बिन-वाटसन सांख्यिकी के साथ जांचा जा सकता है। हेटेरोस्केडिस्टिक की समस्या को कई तरीकों से जांचा जा सकता है।

आउट-ऑफ-नमूना मूल्यांकन
क्रॉस-सत्यापन यह आकलन करने की प्रक्रिया है कि कैसे एक सांख्यिकीय विश्लेषण के परिणाम एक स्वतंत्र डेटा सेट के लिए सामान्यीकृत होंगे। यदि मॉडल का अनुमान कुछ उपलब्ध आंकड़ों पर लगाया गया है, लेकिन सभी पर नहीं, तो अनुमानित मापदंडों का उपयोग करने वाले मॉडल का उपयोग हेल्ड-बैक डेटा की पूर्वधारणा करने के लिए किया जा सकता है। यदि, उदाहरण के लिए, आउट-ऑफ़-सैंपल चुकता त्रुटि, जिसे चुकता पूर्वधारणा त्रुटि के रूप में भी जाना जाता है, इन-सैंपल मीन स्क्वायर त्रुटि से काफी अधिक है, यह मॉडल में कमी का संकेत है।

चिकित्सा सांख्यिकी में एक विकास मेटा-विश्लेषण में आउट-ऑफ़-सैंपल क्रॉस सत्यापन तकनीकों का उपयोग है। यह सत्यापन सांख्यिकी, Vn का आधार बनाता है, जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। अनिवार्य रूप से यह एक प्रकार की सामान्यीकृत पूर्वधारणा त्रुटि को मापता है और इसका 1 डिग्री चर वितरण χ2 का एक रैखिक संयोजन है।

यह भी देखें

 * सभी मॉडल गलत हैं
 * मॉडल चयन
 * पूर्वधारणा त्रुटि
 * पूर्वधारणा अंतराल
 * पुनर्नमूनाकरण (सांख्यिकी)
 * सांख्यिकीय निष्कर्ष वैधता
 * सांख्यिकीय मॉडल विनिर्देश
 * सांख्यिकीय मॉडल सत्यापन
 * वैधता (सांख्यिकी)
 * निर्धारण का गुणांक
 * वर्गों का अभाव-योग्य योग
 * कम ची-स्क्वायर

अग्रिम पठन

 * ; republished in 1997 by University of Michigan Press
 * ; republished in 1997 by University of Michigan Press

बाहरी संबंध

 * How can I tell if a model fits my data? (NIST)
 * NIST/SEMATECH e-Handbook of Statistical Methods
 * Model Diagnostics (Eberly College of Science)