ओवरफिटिंग

में गणितीय मॉडलिंग में, ओवरफिटिंग एक विश्लेषण का उत्पादन है जो डेटा के एक विशेष सेट के बहुत निकट या सटीक रूप से मेल खाता है, और इसलिए अतिरिक्त डेटा के लिए फ़िट होने या भविष्य की टिप्पणियों का विश्वसनीय रूप से अनुमान लगाने में विफल हो सकता है। एक ओवरफिटेड मॉडल एक गणितीय मॉडल है जिसमें डेटा द्वारा उचित ठहराए जाने की तुलना में अधिक पैरामीटर होते हैं। ओवरफिटिंग का सार अनजाने में कुछ अवशिष्ट भिन्नता (यानी, सांख्यिकीय शोर) को निकालना है जैसे कि भिन्नता अंतर्निहित मॉडल संरचना का प्रतिनिधित्व करती है। अंडरफिटिंग तब होती है जब एक गणितीय मॉडल डेटा की अंतर्निहित संरचना को पर्याप्त रूप से कैप्चर नहीं कर सकता है। एक अंडर-फिटेड मॉडल एक ऐसा मॉडल है जहां कुछ पैरामीटर या शब्द जो सही ढंग से निर्दिष्ट मॉडल में दिखाई देंगे गायब हैं। अंडर-फिटिंग हो सकती है, उदाहरण के लिए, जब एक रैखिक मॉडल को गैर-रैखिक डेटा में फ़िट किया जाता है। इस तरह के मॉडल में खराब भविष्य कहनेवाला प्रदर्शन होगा।

ओवर-फिटिंग की संभावना मौजूद है क्योंकि मॉडल चयन के लिए उपयोग की जाने वाली कसौटी एक मॉडल की उपयुक्तता का न्याय करने के लिए उपयोग की जाने वाली कसौटी के समान नहीं है। उदाहरण के लिए, प्रशिक्षण डेटा के कुछ सेट पर इसके प्रदर्शन को अधिकतम करके एक मॉडल का चयन किया जा सकता है, और फिर भी इसकी उपयुक्तता को अनदेखे डेटा पर अच्छा प्रदर्शन करने की क्षमता से निर्धारित किया जा सकता है; तब ओवरफिटिंग तब होती है जब एक मॉडल एक प्रवृत्ति से सामान्यीकरण सीखने के बजाय प्रशिक्षण डेटा को याद करना शुरू करता है।

एक चरम उदाहरण के रूप में, यदि मापदंडों की संख्या टिप्पणियों की संख्या के समान या उससे अधिक है, तो एक मॉडल डेटा को पूरी तरह से याद करके प्रशिक्षण डेटा का पूरी तरह से अनुमान लगा सकता है। (उदाहरण के लिए, चित्र 2 देखें।) हालांकि, इस तरह का मॉडल भविष्यवाणी करते समय आमतौर पर गंभीर रूप से विफल हो जाएगा।

ओवरफिटिंग की क्षमता न केवल मापदंडों और डेटा की संख्या पर निर्भर करती है, बल्कि डेटा आकार के साथ मॉडल संरचना की अनुरूपता और डेटा में शोर या त्रुटि के अपेक्षित स्तर की तुलना में मॉडल त्रुटि की भयावहता पर भी निर्भर करती है। यहां तक ​​​​कि जब फिट किए गए मॉडल में अत्यधिक संख्या में पैरामीटर नहीं होते हैं, तो यह अपेक्षा की जाती है कि फिटिंग के लिए उपयोग किए जाने वाले डेटा सेट की तुलना में फिट किए गए संबंध नए डेटा सेट पर कम अच्छा प्रदर्शन करते हैं (एक घटना जिसे कभी-कभी संकोचन के रूप में जाना जाता है). विशेष रूप से, निर्धारण के गुणांक का मान मूल डेटा के सापेक्ष सिकुड़ जाएगा (सांख्यिकी)।

ओवरफिटिंग की संभावना या मात्रा को कम करने के लिए, कई तकनीकें उपलब्ध हैं (उदाहरण के लिए, मॉडल चयन, क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन, नियमितीकरण (गणित), जल्दी रोकना, छंटाई (एल्गोरिदम), पूर्व वितरण, या ड्रॉपआउट (न्यूरल) नेटवर्क))। कुछ तकनीकों का आधार या तो (1) अत्यधिक जटिल मॉडल को स्पष्ट रूप से दंडित करना है या (2) प्रशिक्षण के लिए उपयोग नहीं किए गए डेटा के एक सेट पर इसके प्रदर्शन का मूल्यांकन करके सामान्यीकरण करने की मॉडल की क्षमता का परीक्षण करना है, जिसे विशिष्ट अनदेखे डेटा का अनुमान लगाया जाता है। कि एक मॉडल का सामना करना पड़ेगा।

सांख्यिकीय अनुमान
सांख्यिकी में, एक सांख्यिकीय मॉडल से एक सांख्यिकीय निष्कर्ष निकाला जाता है, जिसे कुछ प्रक्रिया के माध्यम से मॉडल चयन किया गया है। बर्नहैम और एंडरसन, मॉडल चयन पर अपने बहुप्रतीक्षित पाठ में तर्क देते हैं कि ओवरफिटिंग से बचने के लिए, हमें पारसीमोनी के सिद्धांत का पालन करना चाहिए। लेखक निम्नलिखित भी बताते हैं। "Overfitted models &hellip; are often free of bias in the parameter estimators, but have estimated (and actual) sampling variances that are needlessly large (the precision of the estimators is poor, relative to what could have been accomplished with a more parsimonious model). False treatment effects tend to be identified, and false variables are included with overfitted models. &hellip; A best approximating model is achieved by properly balancing the errors of underfitting and overfitting."

जब विश्लेषण को निर्देशित करने के लिए बहुत कम सिद्धांत उपलब्ध होते हैं, तो ओवरफिटिंग एक गंभीर चिंता का विषय हो सकता है, क्योंकि तब बड़ी संख्या में मॉडल का चयन करने की प्रवृत्ति होती है। किताब मॉडल चयन और मॉडल औसत (2008) इसे इस तरह रखती है। "Given a data set, you can fit thousands of models at the push of a button, but how do you choose the best? With so many candidate models, overfitting is a real danger. Is the monkey who typed Hamlet actually a good writer?"

प्रतिगमन
प्रतिगमन विश्लेषण में, ओवरफिटिंग अक्सर होती है। एक चरम उदाहरण के रूप में, यदि पी डेटा बिंदुओं के साथ एक रेखीय प्रतिगमन में पी चर हैं, तो फिट की गई रेखा प्रत्येक बिंदु के माध्यम से जा सकती है। रसद प्रतिगमन या कॉक्स आनुपातिक खतरों के मॉडल के लिए, अंगूठे के विभिन्न नियम हैं (उदाहरण के लिए 5-9, 10 और 10-15 - प्रति स्वतंत्र चर के 10 अवलोकनों के दिशानिर्देश को दस नियमों में से एक के रूप में जाना जाता है)। प्रतिगमन मॉडल चयन की प्रक्रिया में, यादृच्छिक प्रतिगमन फ़ंक्शन की औसत चुकता त्रुटि को प्रतिगमन फ़ंक्शन के अनुमान में यादृच्छिक शोर, सन्निकटन पूर्वाग्रह और विचरण में विभाजित किया जा सकता है। ओवरफिट मॉडल को दूर करने के लिए अक्सर बायस-वैरियंस ट्रेडऑफ़ का उपयोग किया जाता है।

व्याख्यात्मक चर के एक बड़े सेट के साथ जिसका वास्तव में निर्भर चर से कोई संबंध नहीं है, भविष्यवाणी की जा रही है, कुछ चर सामान्य रूप से सांख्यिकीय रूप से महत्वपूर्ण पाए जाएंगे और शोधकर्ता उन्हें मॉडल में बनाए रख सकते हैं, जिससे मॉडल को ओवरफिट किया जा सकता है। इसे फ्रीडमैन के विरोधाभास के रूप में जाना जाता है।

मशीन लर्निंग
आमतौर पर एक लर्निंग एल्गोरिदम को प्रशिक्षण डेटा के कुछ सेट का उपयोग करके प्रशिक्षित किया जाता है: अनुकरणीय स्थितियाँ जिसके लिए वांछित आउटपुट ज्ञात होता है। लक्ष्य यह है कि कलन विधि भी आउटपुट की भविष्यवाणी करने पर अच्छा प्रदर्शन करेगा जब सत्यापन डेटा खिलाया गया था जो इसके प्रशिक्षण के दौरान सामने नहीं आया था।

ओवरफिटिंग उन मॉडलों या प्रक्रियाओं का उपयोग है जो ऑकैम के रेज़र का उल्लंघन करते हैं, उदाहरण के लिए अधिक समायोज्य मापदंडों को शामिल करके जो अंततः इष्टतम हैं, या अंततः इष्टतम की तुलना में अधिक जटिल दृष्टिकोण का उपयोग करके। एक उदाहरण के लिए जहां बहुत अधिक समायोज्य पैरामीटर हैं, एक डेटासेट पर विचार करें जहां प्रशिक्षण डेटा के लिए $y$ दो स्वतंत्र चरों के रैखिक फलन द्वारा पर्याप्त रूप से भविष्यवाणी की जा सकती है। इस तरह के फ़ंक्शन के लिए केवल तीन पैरामीटर (अवरोधन और दो ढलान) की आवश्यकता होती है। इस साधारण फ़ंक्शन को एक नए, अधिक जटिल द्विघात फ़ंक्शन के साथ, या दो से अधिक स्वतंत्र चर पर एक नए, अधिक जटिल रैखिक फ़ंक्शन के साथ बदलना, एक जोखिम वहन करता है: ओकाम के रेजर का अर्थ है कि कोई भी जटिल फ़ंक्शन किसी दिए गए सरल की तुलना में कम संभव है। समारोह। यदि सरल फ़ंक्शन के बजाय नए, अधिक जटिल फ़ंक्शन का चयन किया जाता है, और यदि जटिलता में वृद्धि को ऑफसेट करने के लिए प्रशिक्षण-डेटा फ़िट में पर्याप्त लाभ नहीं था, तो नया जटिल फ़ंक्शन डेटा से अधिक हो जाता है, और जटिल ओवरफ़िट फ़ंक्शन होगा प्रशिक्षण डेटासेट के बाहर सत्यापन डेटा पर सरल फ़ंक्शन की तुलना में खराब प्रदर्शन की संभावना है, भले ही जटिल फ़ंक्शन ने प्रशिक्षण डेटासेट पर भी, या शायद इससे भी बेहतर प्रदर्शन किया हो। विभिन्न प्रकार के मॉडलों की तुलना करते समय, प्रत्येक मॉडल में कितने पैरामीटर मौजूद हैं, इसकी गणना करके जटिलता को पूरी तरह से नहीं मापा जा सकता है; प्रत्येक पैरामीटर की अभिव्यक्ति पर भी विचार किया जाना चाहिए। उदाहरण के लिए, न्यूरल नेट (जो वक्रीय संबंधों को ट्रैक कर सकता है) की जटिलता की सीधे तुलना करना गैर-तुच्छ है। $m$ एक प्रतिगमन मॉडल के लिए पैरामीटर $n$ पैरामीटर।

ओवरफिटिंग विशेष रूप से उन मामलों में होने की संभावना है जहां सीखने को बहुत लंबा प्रदर्शन किया गया था या जहां प्रशिक्षण के उदाहरण दुर्लभ हैं, जिससे शिक्षार्थी प्रशिक्षण डेटा की बहुत विशिष्ट यादृच्छिक विशेषताओं को समायोजित कर सकते हैं जिनका फ़ंक्शन सन्निकटन से कोई संबंध नहीं है। ओवरफिटिंग की इस प्रक्रिया में, प्रशिक्षण उदाहरणों पर प्रदर्शन अभी भी बढ़ता है जबकि अनदेखे डेटा पर प्रदर्शन खराब हो जाता है।

एक साधारण उदाहरण के रूप में, खुदरा खरीद के एक डेटाबेस पर विचार करें जिसमें खरीदी गई वस्तु, खरीदार और खरीदारी की तारीख और समय शामिल है। एक मॉडल का निर्माण करना आसान है जो अन्य विशेषताओं की भविष्यवाणी करने के लिए खरीद की तारीख और समय का उपयोग करके प्रशिक्षण सेट को पूरी तरह से फिट करेगा, लेकिन यह मॉडल नए डेटा के लिए बिल्कुल सामान्य नहीं होगा, क्योंकि वे पिछले समय फिर कभी नहीं होंगे।

आम तौर पर, एक सीखने के एल्गोरिदम को एक सरल के सापेक्ष ओवरफिट कहा जाता है यदि यह ज्ञात डेटा (पूर्वदृष्टि) को फिट करने में अधिक सटीक है लेकिन नए डेटा (दूरदर्शिता) की भविष्यवाणी करने में कम सटीक है। कोई भी इस तथ्य से ओवरफिटिंग को सहज रूप से समझ सकता है कि पिछले सभी अनुभवों की जानकारी को दो समूहों में विभाजित किया जा सकता है: वह जानकारी जो भविष्य के लिए प्रासंगिक है, और अप्रासंगिक जानकारी (शोर)। बाकी सब कुछ समान होने के कारण, एक कसौटी का अनुमान लगाना जितना कठिन होता है (अर्थात, इसकी अनिश्चितता उतनी ही अधिक होती है), अतीत की जानकारी में उतना ही अधिक शोर मौजूद होता है जिसे अनदेखा करने की आवश्यकता होती है। समस्या यह निर्धारित कर रही है कि किस भाग को अनदेखा करना है। एक लर्निंग एल्गोरिदम जो फिटिंग शोर के जोखिम को कम कर सकता है, उसे रोबस्टनेस (कंप्यूटर साइंस) #Robust मशीन लर्निंग कहा जाता है।

परिणाम
ओवरफिटिंग का सबसे स्पष्ट परिणाम सत्यापन डेटासेट पर खराब प्रदर्शन है। अन्य नकारात्मक परिणामों में शामिल हैं:


 * ओवरफिटेड फ़ंक्शन इष्टतम फ़ंक्शन की तुलना में सत्यापन डेटासेट में प्रत्येक आइटम के बारे में अधिक जानकारी का अनुरोध करने की संभावना है; इस अतिरिक्त अनावश्यक डेटा को इकट्ठा करना महंगा या त्रुटि-प्रवण हो सकता है, खासकर यदि प्रत्येक व्यक्तिगत जानकारी को मानव अवलोकन और मैन्युअल डेटा-प्रविष्टि द्वारा इकट्ठा किया जाना चाहिए।
 * एक अधिक जटिल, ओवरफिटेड फ़ंक्शन एक साधारण से कम पोर्टेबल होने की संभावना है। एक चरम पर, एक-चर रैखिक प्रतिगमन इतना पोर्टेबल है कि, यदि आवश्यक हो, तो इसे हाथ से भी किया जा सकता है। दूसरी चरम सीमा पर ऐसे मॉडल हैं जिन्हें केवल मूल मॉडलर के संपूर्ण सेटअप को हूबहू डुप्लिकेट करके पुन: प्रस्तुत किया जा सकता है, जिससे पुन: उपयोग या वैज्ञानिक पुनरुत्पादन मुश्किल हो जाता है।

उपाय
इष्टतम कार्य को आमतौर पर बड़े या पूरी तरह से नए डेटासेट पर सत्यापन की आवश्यकता होती है। हालाँकि, न्यूनतम फैले हुए पेड़ या सहसंबंध के जीवनकाल जैसी विधियाँ हैं जो सहसंबंध गुणांक और समय-श्रृंखला (खिड़की की चौड़ाई) के बीच निर्भरता को लागू करती हैं। जब भी खिड़की की चौड़ाई काफी बड़ी होती है, सहसंबंध गुणांक स्थिर होते हैं और अब खिड़की की चौड़ाई के आकार पर निर्भर नहीं होते हैं। इसलिए, जांच किए गए चर के बीच सहसंबंध के गुणांक की गणना करके एक सहसंबंध मैट्रिक्स बनाया जा सकता है। इस मैट्रिक्स को स्थैतिक रूप से एक जटिल नेटवर्क के रूप में दर्शाया जा सकता है जहां चर के बीच प्रत्यक्ष और अप्रत्यक्ष प्रभावों की कल्पना की जाती है। ड्रॉपआउट नियमितीकरण भी मजबूती में सुधार कर सकता है और इसलिए संभावित रूप से एक परत में इनपुट को हटाकर ओवरफिटिंग को कम कर सकता है।

अंडरफिटिंग
अंडरफिटिंग ओवरफिटिंग का विलोम है, जिसका अर्थ है कि सांख्यिकीय मॉडल या मशीन लर्निंग एल्गोरिदम डेटा का सटीक रूप से प्रतिनिधित्व करने के लिए बहुत सरल है। अंडरफ़िटिंग का एक संकेत यह है कि वर्तमान मॉडल या उपयोग किए गए एल्गोरिथ्म में एक उच्च पूर्वाग्रह और निम्न विचरण का पता चला है (ओवरफिटिंग का व्युत्क्रम: निम्न पूर्वाग्रह और उच्च विचरण)। इसे बाईस-वैरिएंस ट्रेडऑफ़ से इकट्ठा किया जा सकता है जो कि बायस एरर, झगड़ा एरर और इर्रिड्यूसिबल एरर के लिए मॉडल या एल्गोरिदम का विश्लेषण करने की विधि है। एक उच्च पूर्वाग्रह और कम विचरण के साथ मॉडल का परिणाम यह है कि यह गलत तरीके से डेटा बिंदुओं का प्रतिनिधित्व करेगा और इस प्रकार अपर्याप्त रूप से भविष्य के डेटा परिणामों की भविष्यवाणी करने में सक्षम होगा (सामान्यीकरण त्रुटि देखें)। चित्र 5 में दिखाया गया है कि रेखीय रेखा दिए गए सभी डेटा बिंदुओं का प्रतिनिधित्व नहीं कर सकती है क्योंकि रेखा बिंदुओं की वक्रता के समान नहीं है। जैसा कि चित्र 6 और चित्र 1 में दिखाया गया है, हम एक परवलय के आकार की रेखा देखने की अपेक्षा करेंगे। जैसा कि पहले उल्लेख किया गया है कि यदि हम विश्लेषण के लिए चित्र 5 का उपयोग करते हैं तो हम परिणामों के विपरीत झूठे भविष्य कहनेवाला परिणाम प्राप्त करेंगे यदि हम चित्र 6 का विश्लेषण करते हैं।

बर्नहैम और एंडरसन निम्नलिखित बताते हैं। "&hellip; an underfitted model would ignore some important replicable (i.e., conceptually replicable in most other samples) structure in the data and thus fail to identify effects that were actually supported by the data. In this case, bias in the parameter estimators is often substantial, and the sampling variance is underestimated, both factors resulting in poor confidence interval coverage. Underfitted models tend to miss important treatment effects in experimental settings."

अंडरफिटिंग का समाधान
अंडरफिटिंग को कई तरीकों से हल किया जा सकता है, मॉडल के पैरामीटर को बढ़ाने या अधिक प्रशिक्षण डेटा जोड़ने के लिए एक संभावित तरीका हो सकता है। अधिक प्रशिक्षण डेटा जोड़ने से वर्तमान सुविधाओं (फ़ीचर इंजीनियरिंग के रूप में जाना जाता है) से नई सुविधाएँ प्राप्त करके प्राप्त किया जा सकता है। एक अन्य संभावित तरीका यह होगा कि वर्तमान सांख्यिकीय मॉडल या मशीन लर्निंग एल्गोरिथम से अलग एक अलग मॉडल की ओर ले जाया जाए जो डेटा का बेहतर प्रतिनिधित्व कर सके।

यह भी देखें

 * पूर्वाग्रह-विचरण समझौता
 * वक्र फिटिंग
 * डेटा ड्रेजिंग
 * फीचर चयन
 * फीचर इंजीनियरिंग
 * फ्रीडमैन का विरोधाभास
 * सामान्यीकरण त्रुटि
 * स्वस्थ रहने के फायदे
 * सहसंबंध का जीवनकाल
 * मॉडल चयन
 * स्वतंत्रता की शोधकर्ता डिग्री
 * ओकाम का उस्तरा
 * Helmut_Norpoth#%22Primary_Model%22_for_US_presidential_elections
 * वीसी आयाम - बड़े वीसी आयाम का तात्पर्य ओवरफिटिंग के बड़े जोखिम से है

संदर्भ

 * Tip 7: Minimize overfitting.
 * Tip 7: Minimize overfitting.
 * Tip 7: Minimize overfitting.

इस पेज में लापता आंतरिक लिंक की सूची

 * गणित का मॉडल
 * प्रशिक्षण जानकारी
 * दृढ़ संकल्प का गुणांक
 * ड्रॉपआउट (तंत्रिका नेटवर्क)
 * जल्दी रुकना
 * संकोचन (सांख्यिकी)
 * क्रॉस-सत्यापन (सांख्यिकी)
 * पारसीमोनी का सिद्धांत
 * संभार तन्त्र परावर्तन
 * दस में से एक नियम
 * व्याख्यात्मक अस्थिरता
 * आंकड़ों की दृष्टि से महत्वपूर्ण
 * कारण संबंध
 * समारोह सन्निकटन
 * सहसंबंध का जीवनकाल
 * न्यूनतम फैलाव वाला पेड़
 * पक्षपात

बाहरी संबंध

 * Overfitting: when accuracy measure goes wrong – introductory video tutorial
 * The Problem of Overfitting Data – Stony Brook University
 * What is "overfitting," exactly? – Andrew Gelman blog
 * CSE546: Linear Regression Bias / Variance Tradeoff – University of Washington
 * Underfitting and Overfitting in machine learning and how to deal with it !!! – Towards Data Science
 * What is Underfitting – IBM
 * ML | Underfitting and Overfitting – Geeks for Geeks article - Dewang Nautiyal