प्रशिक्षण, सत्यापन और परीक्षण डेटा सेट

From Vigyanwiki

यंत्र अधिगम में, एक सामान्य कार्य कलन विधि का अध्ययन और निर्माण है जो डेटा से सीख सकता है और पूर्वानुमान कर सकता है।[1] इस तरह के एल्गोरिदम डेटा-संचालित पूर्वानुमान या निर्णय लेकर कार्य करते हैं,[2] इनपुट डेटा से गणितीय मॉडल बनाकर मॉडल बनाने के लिए उपयोग किए जाने वाले ये इनपुट डेटा सामान्यतः कई डेटा सेटों में विभाजित होते हैं। विशेष रूप से, तीन डेटा समुच्चय सामान्यतः मॉडल के निर्माण के विभिन्न चरणों में उपयोग किए जाते हैं: प्रशिक्षण, सत्यापन और परीक्षण समुच्चय ।

मॉडल प्रारम्भ में एक प्रशिक्षण डेटा समुच्चय पर फिट होता है,[3] जो मॉडल के मापदंडों (जैसे कृत्रिम तंत्रिका नेटवर्क में न्यूरॉन्स के बीच कनेक्शन के भार) को फिट करने के लिए उपयोग किए जाने वाले उदाहरणों का एक समुच्चय है।[4] मॉडल (उदाहरण के लिए एक सामान्य बेयस क्लासिफायरियर) को पर्यवेक्षित शिक्षण पद्धति का उपयोग करके प्रशिक्षण डेटा समुच्चय पर प्रशिक्षित किया जाता है, उदाहरण के लिए प्रवणता अवरोह या स्टोकेस्टिक ग्रेडिएंट डिसेंट जैसे अनुकूलन विधियों का उपयोग करना निर्धारित किया जाता है। व्यवहार में, प्रशिक्षण डेटा समुच्चय में प्रायः एक इनपुट ऐरे डेटा संरचना (या स्केलर) और संबंधित आउटपुट वेक्टर (या स्केलर) के जोड़े होते हैं, जहां उत्तर कुंजी को सामान्यतः लक्ष्य (या लेबल) के रूप में दर्शाया जाता है। वर्तमान मॉडल प्रशिक्षण डेटा समुच्चय के साथ चलाया जाता है और एक परिणाम उत्पन्न करता है, जिसे प्रशिक्षण डेटा समुच्चय में प्रत्येक इनपुट वेक्टर के लिए लक्ष्य के साथ तुलना की जाती है। तुलना के परिणाम और उपयोग किए जा रहे विशिष्ट शिक्षण एल्गोरिदम के आधार पर, मॉडल के मापदंडों को समायोजित किया जाता है। मॉडल फिटिंग में विशेषता चयन और पैरामीटर अनुमान सिद्धांत दोनों सम्मिलित हो सकते हैं।

क्रमिक रूप से, फिट किए गए मॉडल का उपयोग दूसरे डेटा समुच्चय में टिप्पणियों के लिए प्रतिक्रियाओं की पूर्वानुमान करने के लिए किया जाता है जिसे 'सत्यापन डेटा समुच्चय ' कहा जाता है।[3]सत्यापन डेटा समुच्चय मॉडल के हाइपरपरमीटर (मशीन लर्निंग) को ट्यून करते समय प्रशिक्षण डेटा समुच्चय पर फिट होने वाले मॉडल का निष्पक्ष मूल्यांकन प्रदान करता है।[5] (उदाहरण के लिए एक तंत्रिका नेटवर्क में छिपी हुई इकाइयों-परतों और परत की चौड़ाई-की संख्या[4]). सत्यापन डेटासेट का उपयोग नियमितकरण (गणित) के लिए जल्दी प्रतिरोध कर किया जा सकता है (सत्यापन डेटा समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण रोकना, क्योंकि यह ओवर फिटिंग का संकेत है। प्रशिक्षण डेटा समुच्चय के लिए ओवर-फिटिंग)।[6] यह सरल प्रक्रिया व्यवहार में इस तथ्य से जटिल है कि प्रशिक्षण के दौरान सत्यापन डेटासेट की त्रुटि में उतार-चढ़ाव हो सकता है, जिससे कई स्थानीय मिनीमा उत्पन्न हो सकते हैं। इस जटिलता ने निर्णय लेने के लिए कई तदर्थ नियमों का निर्माण किया है कि ओवर-फिटिंग वास्तव में कब प्रारम्भ हुई है।[6]

अंत में, परीक्षण डेटा समुच्चय एक डेटा समुच्चय है जिसका उपयोग प्रशिक्षण डेटा समुच्चय पर फिट होने वाले 'अंतिम' मॉडल का निष्पक्ष मूल्यांकन प्रदान करने के लिए किया जाता है।[5]यदि परीक्षण डेटा समुच्चय में डेटा का उपयोग प्रशिक्षण में कभी नहीं किया गया है (उदाहरण के लिए क्रॉस-सत्यापन (सांख्यिकी) क्रॉस-सत्यापन में), तो परीक्षण डेटा समुच्चय को होल्डआउट डेटा समुच्चय भी कहा जाता है। शब्द सत्यापन समुच्चय का उपयोग कभी-कभी कुछ साहित्य में परीक्षण समुच्चय के बजाय किया जाता है (उदाहरण के लिए, यदि मूल डेटा समुच्चय को केवल दो सबसेट में विभाजित किया गया था, तो परीक्षण समुच्चय को सत्यापन समुच्चय के रूप में संदर्भित किया जा सकता है)।[5]

प्रशिक्षण, परीक्षण और सत्यापन समुच्चय में डेटा समुच्चय डिवीजन के लिए आकार और रणनीति तय करना समस्या और उपलब्ध डेटा पर बहुत निर्भर करता है।[7]


प्रशिक्षण डेटा समुच्चय

एक प्रशिक्षण डेटा समुच्चय सीखने की प्रक्रिया के दौरान उपयोग किए जाने वाले उदाहरणों का एक डाटासेट है और इसका उपयोग क्लासिफायरियर (मशीन लर्निंग) के मापदंडों (जैसे, वजन) को फिट करने के लिए किया जाता है।[8][9] वर्गीकरण कार्यों के लिए, एक पर्यवेक्षित शिक्षण एल्गोरिथ्म चर के इष्टतम संयोजनों को निर्धारित करने या सीखने के लिए निर्धारित प्रशिक्षण डेटा को देखता है जो एक अच्छा पूर्वानुमानित मॉडलिंग उत्पन्न करेगा।[10] इसका सामान्य लक्ष्य एक प्रशिक्षित (फिट) मॉडल तैयार करना है जो नए, अज्ञात डेटा को अच्छी तरह से सामान्यीकृत करता है।[11] नए डेटा को वर्गीकृत करने में मॉडल की सटीकता का अनुमान लगाने के लिए आयोजित किए गए डेटासेट (सत्यापन और परीक्षण डेटासेट) से "नए" उदाहरणों का उपयोग करके फिट किए गए मॉडल का मूल्यांकन किया जाता है।[5]ओवर-फिटिंग जैसे मुद्दों के संकट को कम करने के लिए, मॉडल को प्रशिक्षित करने के लिए सत्यापन और परीक्षण डेटासेट के उदाहरणों का उपयोग नहीं किया जाना चाहिए।[5]

अनुभवजन्य संबंधों के लिए प्रशिक्षण डेटा के माध्यम से खोज करने वाले अधिकांश दृष्टिकोण डेटा से अधिक हो जाते हैं, जिसका अर्थ है कि वे प्रशिक्षण डेटा में स्पष्ट संबंधों की पहचान कर सकते हैं और उनका फायदा उठा सकते हैं जो सामान्य रूप से पकड़ में नहीं आते हैं।

सत्यापन डेटा समुच्चय

एक सत्यापन डेटा समुच्चय एक डेटासेट है। उदाहरणों का डेटा-समुच्चय एक क्लासिफायरियर के हाइपरपैरामीटर (मशीन लर्निंग) (अर्थात आर्किटेक्चर) को ट्यून करने के लिए उपयोग किया जाता है। इसे कभी-कभी विकास समुच्चय या देव समुच्चय भी कहा जाता है।[12] कृत्रिम तंत्रिका नेटवर्क के लिए एक हाइपरपैरामीटर के उदाहरण में प्रत्येक परत में छिपी हुई इकाइयों की संख्या सम्मिलित है।[8][9] साथ ही साथ परीक्षण समुच्चय (जैसा कि नीचे उल्लेख किया गया है) प्रशिक्षण डेटा समुच्चय के समान संभाव्यता वितरण का पालन करना चाहिए।

ओवरफिटिंग से बचने के लिए, जब किसी सांख्यिकीय वर्गीकरण पैरामीटर को समायोजित करने की आवश्यकता होती है, तो प्रशिक्षण और परीक्षण डेटासेट के अलावा एक सत्यापन डेटा समुच्चय होना आवश्यक है। उदाहरण के लिए, यदि समस्या के लिए सबसे उपयुक्त क्लासिफायरियर की मांग की जाती है, तो प्रशिक्षण डेटा समुच्चय का उपयोग विभिन्न उम्मीदवारों के क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है, सत्यापन डेटा समुच्चय का उपयोग उनके प्रदर्शन की तुलना करने और यह तय करने के लिए किया जाता है कि कौन सा लेना है और अंत में, टेस्ट डेटा समुच्चय का उपयोग प्रदर्शन विशेषताओं जैसे सटीकता, संवेदनशीलता और विशिष्टता, संवेदनशीलता और विशिष्टता, परिशुद्धता और रिकॉल F-मापांक, और इसी तरह प्राप्त करने के लिए किया जाता है। सत्यापन डेटा समुच्चय हाइब्रिड के रूप में कार्य करता है: यह परीक्षण के लिए उपयोग किया जाने वाला प्रशिक्षण डेटा है, लेकिन न तो निम्न-स्तरीय प्रशिक्षण के भाग के रूप में और न ही अंतिम परीक्षण के भाग के रूप में इसका प्रयोग किया जाता है।

मॉडल चयन के लिए सत्यापन डेटा समुच्चय (प्रशिक्षण डेटा समुच्चय, सत्यापन डेटा समुच्चय और परीक्षण डेटा समुच्चय के भाग के रूप में) का उपयोग करने की मूल प्रक्रिया है:[9][13]

चूंकि हमारा लक्ष्य नए डेटा पर सबसे अच्छा प्रदर्शन करने वाले नेटवर्क को खोजना है, इसलिए विभिन्न नेटवर्कों की तुलना करने का सबसे सरल तरीका डेटा का उपयोग करके त्रुटि फ़ंक्शन का मूल्यांकन करना है जो प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा से स्वतंत्र है। प्रशिक्षण डेटा सेट के संबंध में परिभाषित उपयुक्त त्रुटि फ़ंक्शन को कम करके विभिन्न नेटवर्क को प्रशिक्षित किया जाता है। नेटवर्क के प्रदर्शन की तुलना एक स्वतंत्र सत्यापन सेट का उपयोग करके त्रुटि फ़ंक्शन का मूल्यांकन करके की जाती है, और सत्यापन सेट के संबंध में सबसे छोटी त्रुटि वाले नेटवर्क का चयन किया जाता है। इस दृष्टिकोण को 'होल्ड आउट' विधि कहा जाता है। चूंकि यह प्रक्रिया स्वयं सत्यापन सेट के लिए कुछ ओवरफिटिंग का कारण बन सकती है, चयनित नेटवर्क के प्रदर्शन की पुष्टि परीक्षण सेट नामक डेटा के तीसरे स्वतंत्र सेट पर इसके प्रदर्शन को मापकर की जानी चाहिए।

इस प्रक्रिया का एक अनुप्रयोग प्रारंभिक प्रतिरोध में है, जहां पदान्वेषी मॉडल एक ही नेटवर्क के लगातार पुनरावृत्तियों होते हैं, और सत्यापन समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण बंद हो जाता है, पिछले मॉडल (न्यूनतम त्रुटि वाला एक) का चयन करना इसका एक प्रमुख उदाहरण है।

टेस्ट डेटा समुच्चय

एक परीक्षण डेटा समुच्चय एक डेटासेट है जो प्रशिक्षण डेटा समुच्चय की स्वतंत्रता (संभावना सिद्धांत) है, लेकिन यह प्रशिक्षण डेटा समुच्चय के समान संभाव्यता वितरण का अनुसरण करता है। यदि प्रशिक्षण डेटा समुच्चय के लिए कोई मॉडल फिट बैठता है, तो परीक्षण डेटा समुच्चय भी अच्छी तरह से फिट बैठता है, न्यूनतम ओवरफिटिंग हुई है (नीचे चित्र देखें)। परीक्षण डेटा समुच्चय के विपरीत प्रशिक्षण डेटा समुच्चय की बेहतर फिटिंग सामान्यतः ओवर-फिटिंग की ओर इशारा करती है।

एक परीक्षण समुच्चय इसलिए उदाहरणों का एक समुच्चय है जिसका उपयोग केवल पूर्ण रूप से निर्दिष्ट क्लासिफायरियर के प्रदर्शन (अर्थात सामान्यीकरण) का आकलन करने के लिए किया जाता है।[8][9]ऐसा करने के लिए, परीक्षण समुच्चय में उदाहरणों के वर्गीकरण की पूर्वानुमान करने के लिए अंतिम मॉडल का उपयोग किया जाता है। मॉडल की सटीकता का आकलन करने के लिए उन भविष्यवाणियों की तुलना उदाहरणों के सही वर्गीकरण से की जाती है।[10]

ऐसे परिदृश्य में जहां सत्यापन और परीक्षण डेटासेट दोनों का उपयोग किया जाता है, परीक्षण डेटा समुच्चय का उपयोग सामान्यतः सत्यापन प्रक्रिया के दौरान चुने गए अंतिम मॉडल का आकलन करने के लिए किया जाता है। ऐसे मामले में जहां मूल डेटा समुच्चय को दो सबसेट (प्रशिक्षण और परीक्षण डेटासेट) में विभाजित किया जाता है, परीक्षण डेटा समुच्चय केवल एक बार मॉडल का आकलन कर सकता है (उदाहरण के लिए, होल्डआउट विधि में)।[14] ध्यान दें कि कुछ स्रोत ऐसी विधि के विरुद्ध सलाह देते हैं।[11]हालांकि, क्रॉस-सत्यापन (सांख्यिकी) क्रॉस-सत्यापन जैसी विधि का उपयोग करते समय, दो विभाजन पर्याप्त और प्रभावी हो सकते हैं क्योंकि पूर्वाग्रह और परिवर्तनशीलता को कम करने में मदद करने के लिए मॉडल प्रशिक्षण और परीक्षण के बार-बार दौर के बाद परिणाम औसत होते हैं।[5][11]


एक ही सांख्यिकीय आबादी से एक प्रशिक्षण समुच्चय (बाएं) और एक परीक्षण समुच्चय (दाएं) को नीले बिंदुओं के रूप में दिखाया गया है। दो भविष्य कहनेवाला मॉडल प्रशिक्षण डेटा के लिए उपयुक्त हैं। दोनों सज्जित मॉडलों को प्रशिक्षण और परीक्षण समुच्चय दोनों के साथ प्लॉट किया गया है। प्रशिक्षण समुच्चय में, नारंगी में दिखाए गए फ़िट का माध्य वर्ग त्रुटि 4 है जबकि हरे रंग में दिखाए गए फ़िट के लिए MSE 9 है। परीक्षण समुच्चय में, नारंगी में दिखाए गए फ़िट के लिए MSE 15 है और फ़िट के लिए MSE है हरे रंग में दिखाया गया 13 है। नारंगी वक्र प्रशिक्षण डेटा को गंभीर रूप से ओवरफिट करता है, क्योंकि परीक्षण समुच्चय की तुलना प्रशिक्षण समुच्चय से करने पर इसका एमएसई लगभग चार के कारक से बढ़ जाता है। हरे रंग की वक्र प्रशिक्षण डेटा से बहुत कम होती है, क्योंकि इसका एमएसई 2 के कारक से कम बढ़ जाता है।

शब्दावली में भ्रम

परीक्षण इसके बारे में कुछ पता लगाने का प्रयास कर रहा है (प्रमाण देने के लिए अंग्रेजी के सहयोगी अंतर्राष्ट्रीय शब्दकोश के अनुसार प्रयोग द्वारा सत्य, वास्तविकता या गुणवत्ता प्रमाणित करने के लिए) और मान्य करने के लिए यह प्रमाणित करना है कि कुछ मान्य है (पुष्टि करने के लिए; अंग्रेजी के वैध सहयोगात्मक अंतर्राष्ट्रीय शब्दकोश को प्रस्तुत करने के लिए) इस परिप्रेक्ष्य में, परीक्षण समुच्चय और सत्यापन समुच्चय की शर्तों का सबसे साधारण उपयोग यहां वर्णित है। हालांकि, उद्योग और शिक्षा दोनों में, उन्हें कभी-कभी स्थानांतरित किया जाता है, यह देखते हुए कि आंतरिक प्रक्रिया में सुधार के लिए विभिन्न मॉडलों का परीक्षण किया जा रहा है (विकास समुच्चय के रूप में परीक्षण समुच्चय) और अंतिम मॉडल वह है जिसे वास्तविक उपयोग से पहले मान्य करने की आवश्यकता है, एक अनदेखा डेटा (सत्यापन समुच्चय) मशीन लर्निंग पर साहित्य प्रायः 'सत्यापन' और 'परीक्षण' समुच्चय के अर्थ को उलट देता है। मशीन लर्निंग (एमएल) में, एक मौलिक कार्य एल्गोरिथम मॉडल का विकास है जो परिदृश्यों का विश्लेषण करता है और पूर्वानुमान करता है। इस काम के दौरान, विश्लेषक विभिन्न उदाहरणों को प्रशिक्षण, सत्यापन और परीक्षण डेटासेट में जोड़ते हैं। नीचे, हम प्रत्येक फ़ंक्शन के बीच के अंतरों की समीक्षा करते हैं। यह शब्दावली भ्रम का सबसे स्पष्ट उदाहरण है जो कृत्रिम बुद्धिमत्ता अनुसंधान में व्याप्त है। प्रारंभ में, विकास पद्धति में निर्दिष्ट परियोजना मापदंडों के भीतर प्रारंभिक इनपुट सम्मिलित होते हैं। प्रक्रिया को एमएल मॉडल या अनुमानक के भीतर तथाकथित न्यूरॉन्स के विभिन्न कनेक्शनों के बीच भार की विशेषज्ञ सेटिंग की भी आवश्यकता होती है।

इस पहले डेटासेट के प्रारम्भ के बाद, डेवलपर्स परिणामी आउटपुट की तुलना लक्षित उत्तरों से करते हैं। वे आवश्यकतानुसार मॉडल के पैरामीटर, भार और कार्यक्षमता को समायोजित करते हैं। [15] फिर भी, जो महत्वपूर्ण अवधारणा रखी जानी चाहिए वह यह है कि अंतिम समुच्चय, जिसे परीक्षण या सत्यापन कहा जाता है, केवल अंतिम प्रयोग में ही उपयोग किया जाना चाहिए।

क्रॉस-सत्यापन

अधिक स्थिर परिणाम प्राप्त करने और प्रशिक्षण के लिए सभी मूल्यवान डेटा का उपयोग करने के लिए, डेटा समुच्चय को बार-बार कई प्रशिक्षण और सत्यापन डेटासेट में विभाजित किया जा सकता है। इसे क्रॉस-वैलिडेशन (सांख्यिकी) क्रॉस-वैलिडेशन के रूप में जाना जाता है। मॉडल के प्रदर्शन की पुष्टि करने के लिए, क्रॉस-सत्यापन से आयोजित एक अतिरिक्त परीक्षण डेटा समुच्चय का सामान्य रूप से उपयोग किया जाता है।

यह भी देखें

संदर्भ

  1. Ron Kohavi; Foster Provost (1998). "पारिभाषिक शब्दावली". Machine Learning. 30: 271–274. doi:10.1023/A:1007411609915.
  2. Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. New York: Springer. p. vii. ISBN 0-387-31073-8. Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field, and together they have undergone substantial development over the past ten years.
  3. 3.0 3.1 James, Gareth (2013). An Introduction to Statistical Learning: with Applications in R. Springer. p. 176. ISBN 978-1461471370.
  4. 4.0 4.1 Ripley, Brian (1996). पैटर्न पहचान और तंत्रिका नेटवर्क. Cambridge University Press. p. 354. ISBN 978-0521717700.
  5. 5.0 5.1 5.2 5.3 5.4 5.5 Brownlee, Jason (2017-07-13). "What is the Difference Between Test and Validation Datasets?". Retrieved 2017-10-12.
  6. 6.0 6.1 Prechelt, Lutz; Geneviève B. Orr (2012-01-01). "Early Stopping — But When?". In Grégoire Montavon; Klaus-Robert Müller (eds.). तंत्रिका नेटवर्क: व्यापार के गुर. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 53–67. doi:10.1007/978-3-642-35289-8_5. ISBN 978-3-642-35289-8.
  7. "Machine learning - Is there a rule-of-thumb for how to divide a dataset into training and validation sets?". Stack Overflow. Retrieved 2021-08-12.
  8. 8.0 8.1 8.2 Ripley, B.D. (1996) Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press, p. 354
  9. 9.0 9.1 9.2 9.3 "Subject: What are the population, sample, training set, design set, validation set, and test set?", Neural Network FAQ, part 1 of 7: Introduction (txt), comp.ai.neural-nets, Sarle, W.S., ed. (1997, last modified 2002-05-17)
  10. 10.0 10.1 Larose, D. T.; Larose, C. D. (2014). Discovering knowledge in data : an introduction to data mining. Hoboken: Wiley. doi:10.1002/9781118874059. ISBN 978-0-470-90874-7. OCLC 869460667.
  11. 11.0 11.1 11.2 Xu, Yun; Goodacre, Royston (2018). "On Splitting Training and Validation Set: A Comparative Study of Cross-Validation, Bootstrap and Systematic Sampling for Estimating the Generalization Performance of Supervised Learning". Journal of Analysis and Testing. Springer Science and Business Media LLC. 2 (3): 249–262. doi:10.1007/s41664-018-0068-2. ISSN 2096-241X. PMC 6373628. PMID 30842888.
  12. "ध्यान लगा के पढ़ना या सीखना". Coursera (in English). Retrieved 2021-05-18.
  13. Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford: Oxford University Press, p. 372
  14. Kohavi, Ron (2001-03-03). "सटीकता अनुमान और मॉडल चयन के लिए क्रॉस-वैलिडेशन और बूटस्ट्रैप का अध्ययन". 14. {{cite journal}}: Cite journal requires |journal= (help)
  15. Ripley, Brian D. (2009). पैटर्न पहचान और तंत्रिका नेटवर्क. Cambridge Univ. Press. pp. Glossary. ISBN 9780521717700. OCLC 601063414.