प्रशिक्षण, सत्यापन और परीक्षण डेटा सेट

यंत्र अधिगम में, एक सामान्य कार्य कलन विधि का अध्ययन और निर्माण है जो डेटा से सीख सकता है और पूर्वानुमान कर सकता है। इस तरह के एल्गोरिदम डेटा-संचालित पूर्वानुमान या निर्णय लेकर कार्य करते हैं, इनपुट डेटा से गणितीय मॉडल बनाकर मॉडल बनाने के लिए उपयोग किए जाने वाले ये इनपुट डेटा सामान्यतः कई डेटा सेटों में विभाजित होते हैं। विशेष रूप से, तीन डेटा समुच्चय सामान्यतः मॉडल के निर्माण के विभिन्न चरणों में उपयोग किए जाते हैं: प्रशिक्षण, सत्यापन और परीक्षण समुच्चय ।

मॉडल प्रारम्भ में एक प्रशिक्षण डेटा समुच्चय पर फिट होता है, जो मॉडल के मापदंडों (जैसे कृत्रिम तंत्रिका नेटवर्क में न्यूरॉन्स के बीच कनेक्शन के भार) को फिट करने के लिए उपयोग किए जाने वाले उदाहरणों का एक समुच्चय है। मॉडल (उदाहरण के लिए एक सामान्य बेयस क्लासिफायरियर) को पर्यवेक्षित शिक्षण पद्धति का उपयोग करके प्रशिक्षण डेटा समुच्चय पर प्रशिक्षित किया जाता है, उदाहरण के लिए प्रवणता अवरोह या स्टोकेस्टिक ग्रेडिएंट डिसेंट जैसे अनुकूलन विधियों का उपयोग करना निर्धारित किया जाता है। व्यवहार में, प्रशिक्षण डेटा समुच्चय में प्रायः एक इनपुट ऐरे डेटा संरचना (या स्केलर) और संबंधित आउटपुट वेक्टर (या स्केलर) के जोड़े होते हैं, जहां उत्तर कुंजी को सामान्यतः लक्ष्य (या लेबल) के रूप में दर्शाया जाता है। वर्तमान मॉडल प्रशिक्षण डेटा समुच्चय के साथ चलाया जाता है और एक परिणाम उत्पन्न करता है, जिसे प्रशिक्षण डेटा समुच्चय में प्रत्येक इनपुट वेक्टर के लिए लक्ष्य के साथ तुलना की जाती है। तुलना के परिणाम और उपयोग किए जा रहे विशिष्ट शिक्षण एल्गोरिदम के आधार पर, मॉडल के मापदंडों को समायोजित किया जाता है। मॉडल फिटिंग में विशेषता चयन और पैरामीटर अनुमान सिद्धांत दोनों सम्मिलित हो सकते हैं।

क्रमिक रूप से, फिट किए गए मॉडल का उपयोग दूसरे डेटा समुच्चय में टिप्पणियों के लिए प्रतिक्रियाओं की पूर्वानुमान करने के लिए किया जाता है जिसे 'सत्यापन डेटा समुच्चय ' कहा जाता है। सत्यापन डेटा समुच्चय मॉडल के हाइपरपरमीटर (मशीन लर्निंग) को ट्यून करते समय प्रशिक्षण डेटा समुच्चय पर फिट होने वाले मॉडल का निष्पक्ष मूल्यांकन प्रदान करता है। (उदाहरण के लिए एक तंत्रिका नेटवर्क में छिपी हुई इकाइयों-परतों और परत की चौड़ाई-की संख्या ). सत्यापन डेटासेट का उपयोग नियमितकरण (गणित) के लिए जल्दी प्रतिरोध कर किया जा सकता है (सत्यापन डेटा समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण रोकना, क्योंकि यह ओवर फिटिंग का संकेत है। प्रशिक्षण डेटा समुच्चय के लिए ओवर-फिटिंग)। यह सरल प्रक्रिया व्यवहार में इस तथ्य से जटिल है कि प्रशिक्षण के दौरान सत्यापन डेटासेट की त्रुटि में उतार-चढ़ाव हो सकता है, जिससे कई स्थानीय मिनीमा उत्पन्न हो सकते हैं। इस जटिलता ने निर्णय लेने के लिए कई तदर्थ नियमों का निर्माण किया है कि ओवर-फिटिंग वास्तव में कब प्रारम्भ हुई है।

अंत में, परीक्षण डेटा समुच्चय एक डेटा समुच्चय है जिसका उपयोग प्रशिक्षण डेटा समुच्चय पर फिट होने वाले 'अंतिम' मॉडल का निष्पक्ष मूल्यांकन प्रदान करने के लिए किया जाता है। यदि परीक्षण डेटा समुच्चय में डेटा का उपयोग प्रशिक्षण में कभी नहीं किया गया है (उदाहरण के लिए क्रॉस-सत्यापन (सांख्यिकी) क्रॉस-सत्यापन में), तो परीक्षण डेटा समुच्चय को होल्डआउट डेटा समुच्चय भी कहा जाता है। शब्द सत्यापन समुच्चय का उपयोग कभी-कभी कुछ साहित्य में परीक्षण समुच्चय के बजाय किया जाता है (उदाहरण के लिए, यदि मूल डेटा समुच्चय को केवल दो सबसेट में विभाजित किया गया था, तो परीक्षण समुच्चय को सत्यापन समुच्चय के रूप में संदर्भित किया जा सकता है)।

प्रशिक्षण, परीक्षण और सत्यापन समुच्चय में डेटा समुच्चय डिवीजन के लिए आकार और रणनीति तय करना समस्या और उपलब्ध डेटा पर बहुत निर्भर करता है।

प्रशिक्षण डेटा समुच्चय
एक प्रशिक्षण डेटा समुच्चय सीखने की प्रक्रिया के दौरान उपयोग किए जाने वाले उदाहरणों का एक डाटासेट है और इसका उपयोग क्लासिफायरियर (मशीन लर्निंग) के मापदंडों (जैसे, वजन) को फिट करने के लिए किया जाता है। वर्गीकरण कार्यों के लिए, एक पर्यवेक्षित शिक्षण एल्गोरिथ्म चर के इष्टतम संयोजनों को निर्धारित करने या सीखने के लिए निर्धारित प्रशिक्षण डेटा को देखता है जो एक अच्छा पूर्वानुमानित मॉडलिंग उत्पन्न करेगा। इसका सामान्य लक्ष्य एक प्रशिक्षित (फिट) मॉडल तैयार करना है जो नए, अज्ञात डेटा को अच्छी तरह से सामान्यीकृत करता है। नए डेटा को वर्गीकृत करने में मॉडल की सटीकता का अनुमान लगाने के लिए आयोजित किए गए डेटासेट (सत्यापन और परीक्षण डेटासेट) से "नए" उदाहरणों का उपयोग करके फिट किए गए मॉडल का मूल्यांकन किया जाता है। ओवर-फिटिंग जैसे मुद्दों के संकट को कम करने के लिए, मॉडल को प्रशिक्षित करने के लिए सत्यापन और परीक्षण डेटासेट के उदाहरणों का उपयोग नहीं किया जाना चाहिए।

अनुभवजन्य संबंधों के लिए प्रशिक्षण डेटा के माध्यम से खोज करने वाले अधिकांश दृष्टिकोण डेटा से अधिक हो जाते हैं, जिसका अर्थ है कि वे प्रशिक्षण डेटा में स्पष्ट संबंधों की पहचान कर सकते हैं और उनका फायदा उठा सकते हैं जो सामान्य रूप से पकड़ में नहीं आते हैं।

सत्यापन डेटा समुच्चय
एक सत्यापन डेटा समुच्चय एक डेटासेट है। उदाहरणों का डेटा-समुच्चय एक क्लासिफायरियर के हाइपरपैरामीटर (मशीन लर्निंग) (अर्थात आर्किटेक्चर) को ट्यून करने के लिए उपयोग किया जाता है। इसे कभी-कभी विकास समुच्चय या देव समुच्चय भी कहा जाता है। कृत्रिम तंत्रिका नेटवर्क के लिए एक हाइपरपैरामीटर के उदाहरण में प्रत्येक परत में छिपी हुई इकाइयों की संख्या सम्मिलित है। साथ ही साथ परीक्षण समुच्चय (जैसा कि नीचे उल्लेख किया गया है) प्रशिक्षण डेटा समुच्चय के समान संभाव्यता वितरण का पालन करना चाहिए।

ओवरफिटिंग से बचने के लिए, जब किसी सांख्यिकीय वर्गीकरण पैरामीटर को समायोजित करने की आवश्यकता होती है, तो प्रशिक्षण और परीक्षण डेटासेट के अलावा एक सत्यापन डेटा समुच्चय होना आवश्यक है। उदाहरण के लिए, यदि समस्या के लिए सबसे उपयुक्त क्लासिफायरियर की मांग की जाती है, तो प्रशिक्षण डेटा समुच्चय का उपयोग विभिन्न उम्मीदवारों के क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है, सत्यापन डेटा समुच्चय का उपयोग उनके प्रदर्शन की तुलना करने और यह तय करने के लिए किया जाता है कि कौन सा लेना है और अंत में, टेस्ट डेटा समुच्चय का उपयोग प्रदर्शन विशेषताओं जैसे सटीकता, संवेदनशीलता और विशिष्टता, संवेदनशीलता और विशिष्टता, परिशुद्धता और रिकॉल F-मापांक, और इसी तरह प्राप्त करने के लिए किया जाता है। सत्यापन डेटा समुच्चय हाइब्रिड के रूप में कार्य करता है: यह परीक्षण के लिए उपयोग किया जाने वाला प्रशिक्षण डेटा है, लेकिन न तो निम्न-स्तरीय प्रशिक्षण के भाग के रूप में और न ही अंतिम परीक्षण के भाग के रूप में इसका प्रयोग किया जाता है।

मॉडल चयन के लिए सत्यापन डेटा समुच्चय (प्रशिक्षण डेटा समुच्चय, सत्यापन डेटा समुच्चय और परीक्षण डेटा समुच्चय के भाग के रूप में) का उपयोग करने की मूल प्रक्रिया है:

"चूंकि हमारा लक्ष्य नए डेटा पर सबसे अच्छा प्रदर्शन करने वाले नेटवर्क को खोजना है, इसलिए विभिन्न नेटवर्कों की तुलना करने का सबसे सरल तरीका डेटा का उपयोग करके त्रुटि फ़ंक्शन का मूल्यांकन करना है जो प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा से स्वतंत्र है। प्रशिक्षण डेटा सेट के संबंध में परिभाषित उपयुक्त त्रुटि फ़ंक्शन को कम करके विभिन्न नेटवर्क को प्रशिक्षित किया जाता है। नेटवर्क के प्रदर्शन की तुलना एक स्वतंत्र सत्यापन सेट का उपयोग करके त्रुटि फ़ंक्शन का मूल्यांकन करके की जाती है, और सत्यापन सेट के संबंध में सबसे छोटी त्रुटि वाले नेटवर्क का चयन किया जाता है। इस दृष्टिकोण को 'होल्ड आउट' विधि कहा जाता है। चूंकि यह प्रक्रिया स्वयं सत्यापन सेट के लिए कुछ ओवरफिटिंग का कारण बन सकती है, चयनित नेटवर्क के प्रदर्शन की पुष्टि परीक्षण सेट नामक डेटा के तीसरे स्वतंत्र सेट पर इसके प्रदर्शन को मापकर की जानी चाहिए।"

इस प्रक्रिया का एक अनुप्रयोग प्रारंभिक प्रतिरोध में है, जहां पदान्वेषी मॉडल एक ही नेटवर्क के लगातार पुनरावृत्तियों होते हैं, और सत्यापन समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण बंद हो जाता है, पिछले मॉडल (न्यूनतम त्रुटि वाला एक) का चयन करना इसका एक प्रमुख उदाहरण है।

टेस्ट डेटा समुच्चय
एक परीक्षण डेटा समुच्चय एक डेटासेट है जो प्रशिक्षण डेटा समुच्चय की स्वतंत्रता (संभावना सिद्धांत) है, लेकिन यह प्रशिक्षण डेटा समुच्चय के समान संभाव्यता वितरण का अनुसरण करता है। यदि प्रशिक्षण डेटा समुच्चय के लिए कोई मॉडल फिट बैठता है, तो परीक्षण डेटा समुच्चय भी अच्छी तरह से फिट बैठता है, न्यूनतम ओवरफिटिंग हुई है (नीचे चित्र देखें)। परीक्षण डेटा समुच्चय के विपरीत प्रशिक्षण डेटा समुच्चय की बेहतर फिटिंग सामान्यतः ओवर-फिटिंग की ओर इशारा करती है।

एक परीक्षण समुच्चय इसलिए उदाहरणों का एक समुच्चय है जिसका उपयोग केवल पूर्ण रूप से निर्दिष्ट क्लासिफायरियर के प्रदर्शन (अर्थात सामान्यीकरण) का आकलन करने के लिए किया जाता है। ऐसा करने के लिए, परीक्षण समुच्चय में उदाहरणों के वर्गीकरण की पूर्वानुमान करने के लिए अंतिम मॉडल का उपयोग किया जाता है। मॉडल की सटीकता का आकलन करने के लिए उन भविष्यवाणियों की तुलना उदाहरणों के सही वर्गीकरण से की जाती है।

ऐसे परिदृश्य में जहां सत्यापन और परीक्षण डेटासेट दोनों का उपयोग किया जाता है, परीक्षण डेटा समुच्चय का उपयोग सामान्यतः सत्यापन प्रक्रिया के दौरान चुने गए अंतिम मॉडल का आकलन करने के लिए किया जाता है। ऐसे मामले में जहां मूल डेटा समुच्चय को दो सबसेट (प्रशिक्षण और परीक्षण डेटासेट) में विभाजित किया जाता है, परीक्षण डेटा समुच्चय केवल एक बार मॉडल का आकलन कर सकता है (उदाहरण के लिए, होल्डआउट विधि में)। ध्यान दें कि कुछ स्रोत ऐसी विधि के विरुद्ध सलाह देते हैं। हालांकि, क्रॉस-सत्यापन (सांख्यिकी) क्रॉस-सत्यापन जैसी विधि का उपयोग करते समय, दो विभाजन पर्याप्त और प्रभावी हो सकते हैं क्योंकि पूर्वाग्रह और परिवर्तनशीलता को कम करने में मदद करने के लिए मॉडल प्रशिक्षण और परीक्षण के बार-बार दौर के बाद परिणाम औसत होते हैं।



शब्दावली में भ्रम
परीक्षण इसके बारे में कुछ पता लगाने का प्रयास कर रहा है (प्रमाण देने के लिए अंग्रेजी के सहयोगी अंतर्राष्ट्रीय शब्दकोश के अनुसार प्रयोग द्वारा सत्य, वास्तविकता या गुणवत्ता प्रमाणित करने के लिए) और मान्य करने के लिए यह प्रमाणित करना है कि कुछ मान्य है (पुष्टि करने के लिए; अंग्रेजी के वैध सहयोगात्मक अंतर्राष्ट्रीय शब्दकोश को प्रस्तुत करने के लिए) इस परिप्रेक्ष्य में, परीक्षण समुच्चय और सत्यापन समुच्चय की शर्तों का सबसे साधारण उपयोग यहां वर्णित है। हालांकि, उद्योग और शिक्षा दोनों में, उन्हें कभी-कभी स्थानांतरित किया जाता है, यह देखते हुए कि आंतरिक प्रक्रिया में सुधार के लिए विभिन्न मॉडलों का परीक्षण किया जा रहा है (विकास समुच्चय के रूप में परीक्षण समुच्चय) और अंतिम मॉडल वह है जिसे वास्तविक उपयोग से पहले मान्य करने की आवश्यकता है, एक अनदेखा डेटा (सत्यापन समुच्चय) मशीन लर्निंग पर साहित्य प्रायः 'सत्यापन' और 'परीक्षण' समुच्चय के अर्थ को उलट देता है। मशीन लर्निंग (एमएल) में, एक मौलिक कार्य एल्गोरिथम मॉडल का विकास है जो परिदृश्यों का विश्लेषण करता है और पूर्वानुमान करता है। इस काम के दौरान, विश्लेषक विभिन्न उदाहरणों को प्रशिक्षण, सत्यापन और परीक्षण डेटासेट में जोड़ते हैं। नीचे, हम प्रत्येक फ़ंक्शन के बीच के अंतरों की समीक्षा करते हैं। यह शब्दावली भ्रम का सबसे स्पष्ट उदाहरण है जो कृत्रिम बुद्धिमत्ता अनुसंधान में व्याप्त है। प्रारंभ में, विकास पद्धति में निर्दिष्ट परियोजना मापदंडों के भीतर प्रारंभिक इनपुट सम्मिलित होते हैं। प्रक्रिया को एमएल मॉडल या अनुमानक के भीतर तथाकथित न्यूरॉन्स के विभिन्न कनेक्शनों के बीच भार की विशेषज्ञ सेटिंग की भी आवश्यकता होती है।

इस पहले डेटासेट के प्रारम्भ के बाद, डेवलपर्स परिणामी आउटपुट की तुलना लक्षित उत्तरों से करते हैं। वे आवश्यकतानुसार मॉडल के पैरामीटर, भार और कार्यक्षमता को समायोजित करते हैं। फिर भी, जो महत्वपूर्ण अवधारणा रखी जानी चाहिए वह यह है कि अंतिम समुच्चय, जिसे परीक्षण या सत्यापन कहा जाता है, केवल अंतिम प्रयोग में ही उपयोग किया जाना चाहिए।

क्रॉस-सत्यापन
अधिक स्थिर परिणाम प्राप्त करने और प्रशिक्षण के लिए सभी मूल्यवान डेटा का उपयोग करने के लिए, डेटा समुच्चय को बार-बार कई प्रशिक्षण और सत्यापन डेटासेट में विभाजित किया जा सकता है। इसे क्रॉस-वैलिडेशन (सांख्यिकी) क्रॉस-वैलिडेशन के रूप में जाना जाता है। मॉडल के प्रदर्शन की पुष्टि करने के लिए, क्रॉस-सत्यापन से आयोजित एक अतिरिक्त परीक्षण डेटा समुच्चय का सामान्य रूप से उपयोग किया जाता है।

यह भी देखें

 * सांख्यिकीय वर्गीकरण
 * मशीन लर्निंग रिसर्च के लिए डेटासेट की सूची
 * पदानुक्रमित वर्गीकरण