प्रशिक्षण, सत्यापन और परीक्षण डेटा सेट

यंत्र अधिगम में, एक सामान्य कार्य कलन विधि का अध्ययन और निर्माण है जो डेटा से सीख सकता है और भविष्यवाणी कर सकता है। इस तरह के एल्गोरिदम डेटा-संचालित भविष्यवाणियां या निर्णय लेकर कार्य करते हैं, इनपुट डेटा से गणितीय मॉडल बनाकर। मॉडल बनाने के लिए उपयोग किए जाने वाले ये इनपुट डेटा सामान्यतः कई डेटा सेटों में विभाजित होते हैं। विशेष रूप से, तीन डेटा समुच्चय  सामान्यतः मॉडल के निर्माण के विभिन्न चरणों में उपयोग किए जाते हैं: प्रशिक्षण, सत्यापन और परीक्षण समुच्चय ।

मॉडल शुरू में एक प्रशिक्षण डेटा समुच्चय पर फिट होता है, जो मॉडल के मापदंडों (जैसे कृत्रिम तंत्रिका नेटवर्क में न्यूरॉन्स के बीच कनेक्शन के भार) को फिट करने के लिए उपयोग किए जाने वाले उदाहरणों का एक समुच्चय  है। मॉडल (उदाहरण के लिए एक भोली बेयस क्लासिफायरियर) को पर्यवेक्षित शिक्षण पद्धति का उपयोग करके प्रशिक्षण डेटा समुच्चय  पर प्रशिक्षित किया जाता है, उदाहरण के लिए ढतला हुआ वंश या  स्टोकेस्टिक ग्रेडिएंट डिसेंट जैसे अनुकूलन विधियों का उपयोग करना। व्यवहार में, प्रशिक्षण डेटा समुच्चय  में अक्सर एक इनपुट ऐरे डेटा संरचना (या स्केलर) और संबंधित आउटपुट वेक्टर (या स्केलर) के जोड़े होते हैं, जहां उत्तर कुंजी को सामान्यतः लक्ष्य (या लेबल) के रूप में दर्शाया जाता है। वर्तमान मॉडल प्रशिक्षण डेटा समुच्चय  के साथ चलाया जाता है और एक परिणाम उत्पन्न करता है, जिसे प्रशिक्षण डेटा समुच्चय  में प्रत्येक इनपुट वेक्टर के लिए लक्ष्य के साथ तुलना की जाती है। तुलना के परिणाम और उपयोग किए जा रहे विशिष्ट शिक्षण एल्गोरिदम के आधार पर, मॉडल के मापदंडों को समायोजित किया जाता है। मॉडल फिटिंग में फीचर चयन और पैरामीटर अनुमान सिद्धांत दोनों सम्मिलित हो सकते हैं।

क्रमिक रूप से, फिट किए गए मॉडल का उपयोग दूसरे डेटा समुच्चय में टिप्पणियों के लिए प्रतिक्रियाओं की भविष्यवाणी करने के लिए किया जाता है जिसे 'सत्यापन डेटा समुच्चय ' कहा जाता है। सत्यापन डेटा समुच्चय  मॉडल के हाइपरपरमीटर (मशीन लर्निंग) को ट्यून करते समय प्रशिक्षण डेटा समुच्चय  पर फिट होने वाले मॉडल का निष्पक्ष मूल्यांकन प्रदान करता है। (उदाहरण के लिए एक तंत्रिका नेटवर्क में छिपी हुई इकाइयों-परतों और परत की चौड़ाई-की संख्या ). सत्यापन डेटासेट का उपयोग नियमितकरण (गणित) के लिए जल्दी रोक कर किया जा सकता है (सत्यापन डेटा समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण रोकना, क्योंकि यह  overfitting का संकेत है। प्रशिक्षण डेटा समुच्चय  के लिए ओवर-फिटिंग)। यह सरल प्रक्रिया व्यवहार में इस तथ्य से जटिल है कि प्रशिक्षण के दौरान सत्यापन डेटासेट की त्रुटि में उतार-चढ़ाव हो सकता है, जिससे कई स्थानीय मिनीमा उत्पन्न हो सकते हैं। इस जटिलता ने निर्णय लेने के लिए कई तदर्थ नियमों का निर्माण किया है कि ओवर-फिटिंग वास्तव में कब शुरू हुई है।

अंत में, परीक्षण डेटा समुच्चय एक डेटा समुच्चय  है जिसका उपयोग प्रशिक्षण डेटा समुच्चय  पर फिट होने वाले 'अंतिम' मॉडल का निष्पक्ष मूल्यांकन प्रदान करने के लिए किया जाता है। यदि परीक्षण डेटा समुच्चय  में डेटा का उपयोग प्रशिक्षण में कभी नहीं किया गया है (उदाहरण के लिए क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन में), तो परीक्षण डेटा समुच्चय  को होल्डआउट डेटा समुच्चय  भी कहा जाता है। शब्द सत्यापन समुच्चय  का उपयोग कभी-कभी कुछ साहित्य में परीक्षण समुच्चय  के बजाय किया जाता है (उदाहरण के लिए, यदि मूल डेटा समुच्चय  को केवल दो सबसेट में विभाजित किया गया था, तो परीक्षण समुच्चय  को सत्यापन समुच्चय  के रूप में संदर्भित किया जा सकता है)।

प्रशिक्षण, परीक्षण और सत्यापन समुच्चय में डेटा समुच्चय  डिवीजन के लिए आकार और रणनीति तय करना समस्या और उपलब्ध डेटा पर बहुत निर्भर करता है।

प्रशिक्षण डेटा समुच्चय
एक प्रशिक्षण डेटा समुच्चय सीखने की प्रक्रिया के दौरान उपयोग किए जाने वाले उदाहरणों का एक  डाटासेट  है और इसका उपयोग क्लासिफायरियर (मशीन लर्निंग) के मापदंडों (जैसे, वजन) को फिट करने के लिए किया जाता है।  वर्गीकरण कार्यों के लिए, एक पर्यवेक्षित शिक्षण एल्गोरिथ्म चर के इष्टतम संयोजनों को निर्धारित करने या सीखने के लिए निर्धारित प्रशिक्षण डेटा को देखता है जो एक अच्छा भविष्य कहनेवाला मॉडलिंग उत्पन्न करेगा। लक्ष्य एक प्रशिक्षित (फिट) मॉडल तैयार करना है जो नए, अज्ञात डेटा को अच्छी तरह से सामान्यीकृत करता है। नए डेटा को वर्गीकृत करने में मॉडल की सटीकता का अनुमान लगाने के लिए आयोजित किए गए डेटासेट (सत्यापन और परीक्षण डेटासेट) से "नए" उदाहरणों का उपयोग करके फिट किए गए मॉडल का मूल्यांकन किया जाता है। ओवर-फिटिंग जैसे मुद्दों के जोखिम को कम करने के लिए, मॉडल को प्रशिक्षित करने के लिए सत्यापन और परीक्षण डेटासेट के उदाहरणों का उपयोग नहीं किया जाना चाहिए।

अनुभवजन्य संबंधों के लिए प्रशिक्षण डेटा के माध्यम से खोज करने वाले अधिकांश दृष्टिकोण डेटा से अधिक हो जाते हैं, जिसका अर्थ है कि वे प्रशिक्षण डेटा में स्पष्ट संबंधों की पहचान कर सकते हैं और उनका फायदा उठा सकते हैं जो सामान्य रूप से पकड़ में नहीं आते हैं।

सत्यापन डेटा समुच्चय
एक सत्यापन डेटा समुच्चय एक डेटासेट है। उदाहरणों का डेटा-समुच्चय  एक क्लासिफायरियर के हाइपरपैरामीटर (मशीन लर्निंग) (यानी आर्किटेक्चर) को ट्यून करने के लिए उपयोग किया जाता है। इसे कभी-कभी विकास समुच्चय या देव समुच्चय भी कहा जाता है। कृत्रिम तंत्रिका नेटवर्क के लिए एक हाइपरपैरामीटर के उदाहरण में प्रत्येक परत में छिपी हुई इकाइयों की संख्या सम्मिलित है।  यह, साथ ही साथ परीक्षण समुच्चय  (जैसा कि नीचे उल्लेख किया गया है), प्रशिक्षण डेटा समुच्चय  के समान संभाव्यता वितरण का पालन करना चाहिए।

ओवरफिटिंग से बचने के लिए, जब किसी सांख्यिकीय वर्गीकरण पैरामीटर को समायोजित करने की आवश्यकता होती है, तो प्रशिक्षण और परीक्षण डेटासेट के अलावा एक सत्यापन डेटा समुच्चय होना आवश्यक है। उदाहरण के लिए, यदि समस्या के लिए सबसे उपयुक्त क्लासिफायरियर की मांग की जाती है, तो प्रशिक्षण डेटा समुच्चय  का उपयोग विभिन्न उम्मीदवारों के क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है, सत्यापन डेटा समुच्चय  का उपयोग उनके प्रदर्शन की तुलना करने और यह तय करने के लिए किया जाता है कि कौन सा लेना है और अंत में, टेस्ट डेटा समुच्चय  का उपयोग प्रदर्शन विशेषताओं जैसे सटीकता, संवेदनशीलता और विशिष्टता, संवेदनशीलता और विशिष्टता, परिशुद्धता और रिकॉल #F-measure|F-माप, और इसी तरह प्राप्त करने के लिए किया जाता है। सत्यापन डेटा समुच्चय  हाइब्रिड के रूप में कार्य करता है: यह परीक्षण के लिए उपयोग किया जाने वाला प्रशिक्षण डेटा है, लेकिन न तो निम्न-स्तरीय प्रशिक्षण के भाग के रूप में और न ही अंतिम परीक्षण के भाग के रूप में।

मॉडल चयन के लिए सत्यापन डेटा समुच्चय (प्रशिक्षण डेटा समुच्चय, सत्यापन डेटा समुच्चय  और परीक्षण डेटा समुच्चय  के भाग के रूप में) का उपयोग करने की मूल प्रक्रिया है:

"Since our goal is to find the network having the best performance on new data, the simplest approach to the comparison of different networks is to evaluate the error function using data which is independent of that used for training. Various networks are trained by minimization of an appropriate error function defined with respect to a training data set. The performance of the networks is then compared by evaluating the error function using an independent validation set, and the network having the smallest error with respect to the validation set is selected. This approach is called the hold out method. Since this procedure can itself lead to some overfitting to the validation set, the performance of the selected network should be confirmed by measuring its performance on a third independent set of data called a test set."

इस प्रक्रिया का एक अनुप्रयोग प्रारंभिक रोक में है, जहां उम्मीदवार मॉडल एक ही नेटवर्क के लगातार पुनरावृत्तियों होते हैं, और सत्यापन समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण बंद हो जाता है, पिछले मॉडल (न्यूनतम त्रुटि वाला एक) का चयन करना।

टेस्ट डेटा समुच्चय
एक परीक्षण डेटा समुच्चय एक डेटासेट है जो प्रशिक्षण डेटा समुच्चय  की स्वतंत्रता (संभावना सिद्धांत) है, लेकिन यह प्रशिक्षण डेटा समुच्चय  के समान संभाव्यता वितरण का अनुसरण करता है। यदि प्रशिक्षण डेटा समुच्चय  के लिए कोई मॉडल फिट बैठता है, तो परीक्षण डेटा समुच्चय  भी अच्छी तरह से फिट बैठता है, न्यूनतम ओवरफिटिंग हुई है (नीचे चित्र देखें)। परीक्षण डेटा समुच्चय  के विपरीत प्रशिक्षण डेटा समुच्चय  की बेहतर फिटिंग सामान्यतः ओवर-फिटिंग की ओर इशारा करती है।

एक परीक्षण समुच्चय इसलिए उदाहरणों का एक समुच्चय  है जिसका उपयोग केवल पूर्ण रूप से निर्दिष्ट क्लासिफायरियर के प्रदर्शन (यानी सामान्यीकरण) का आकलन करने के लिए किया जाता है।  ऐसा करने के लिए, परीक्षण समुच्चय  में उदाहरणों के वर्गीकरण की भविष्यवाणी करने के लिए अंतिम मॉडल का उपयोग किया जाता है। मॉडल की सटीकता का आकलन करने के लिए उन भविष्यवाणियों की तुलना उदाहरणों के सही वर्गीकरण से की जाती है।

ऐसे परिदृश्य में जहां सत्यापन और परीक्षण डेटासेट दोनों का उपयोग किया जाता है, परीक्षण डेटा समुच्चय का उपयोग सामान्यतः सत्यापन प्रक्रिया के दौरान चुने गए अंतिम मॉडल का आकलन करने के लिए किया जाता है। ऐसे मामले में जहां मूल डेटा समुच्चय  को दो सबसेट (प्रशिक्षण और परीक्षण डेटासेट) में विभाजित किया जाता है, परीक्षण डेटा समुच्चय  केवल एक बार मॉडल का आकलन कर सकता है (उदाहरण के लिए, होल्डआउट विधि में)। ध्यान दें कि कुछ स्रोत ऐसी विधि के विरुद्ध सलाह देते हैं। हालांकि, क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन जैसी विधि का उपयोग करते समय, दो विभाजन पर्याप्त और प्रभावी हो सकते हैं क्योंकि पूर्वाग्रह और परिवर्तनशीलता को कम करने में मदद करने के लिए मॉडल प्रशिक्षण और परीक्षण के बार-बार दौर के बाद परिणाम औसत होते हैं।



शब्दावली में भ्रम
परीक्षण इसके बारे में कुछ पता लगाने की कोशिश कर रहा है (सबूत देने के लिए; अंग्रेजी के सहयोगी अंतर्राष्ट्रीय शब्दकोश के अनुसार प्रयोग द्वारा सत्य, वास्तविकता या गुणवत्ता साबित करने के लिए) और मान्य करने के लिए यह साबित करना है कि कुछ मान्य है (पुष्टि करने के लिए; अंग्रेजी के वैध सहयोगात्मक अंतर्राष्ट्रीय शब्दकोश को प्रस्तुत करने के लिए)। इस परिप्रेक्ष्य में, परीक्षण समुच्चय और सत्यापन समुच्चय  की शर्तों का सबसे आम उपयोग यहां वर्णित एक है। हालांकि, उद्योग और शिक्षा दोनों में, उन्हें कभी-कभी इंटरचेंज किया जाता है, यह देखते हुए कि आंतरिक प्रक्रिया में सुधार के लिए विभिन्न मॉडलों का परीक्षण किया जा रहा है (विकास समुच्चय  के रूप में परीक्षण समुच्चय ) और अंतिम मॉडल वह है जिसे वास्तविक उपयोग से पहले मान्य करने की आवश्यकता है एक अनदेखा डेटा (सत्यापन समुच्चय )। मशीन लर्निंग पर साहित्य अक्सर 'सत्यापन' और 'परीक्षण' समुच्चय  के अर्थ को उलट देता है।मशीन लर्निंग (एमएल) में, एक मौलिक कार्य एल्गोरिथम मॉडल का विकास है जो परिदृश्यों का विश्लेषण करता है और भविष्यवाणियां करता है। इस काम के दौरान, विश्लेषक विभिन्न उदाहरणों को प्रशिक्षण, सत्यापन और परीक्षण डेटासेट में जोड़ते हैं। नीचे, हम प्रत्येक फ़ंक्शन के बीच के अंतरों की समीक्षा करते हैं। यह शब्दावली भ्रम का सबसे स्पष्ट उदाहरण है जो कृत्रिम बुद्धिमत्ता अनुसंधान में व्याप्त है।प्रारंभ में, विकास पद्धति में निर्दिष्ट परियोजना मापदंडों के भीतर प्रारंभिक इनपुट सम्मिलित होते हैं। प्रक्रिया को एमएल मॉडल या अनुमानक * के भीतर तथाकथित न्यूरॉन्स के विभिन्न कनेक्शनों के बीच भार की विशेषज्ञ सेटिंग की भी आवश्यकता होती है।

इस पहले डेटासेट की शुरुआत के बाद, डेवलपर्स परिणामी आउटपुट की तुलना लक्षित उत्तरों से करते हैं। अगला, वे आवश्यकतानुसार मॉडल के पैरामीटर, भार और कार्यक्षमता को समायोजित करते हैं। फिर भी, जो महत्वपूर्ण अवधारणा रखी जानी चाहिए वह यह है कि अंतिम समुच्चय, जिसे परीक्षण या सत्यापन कहा जाता है, केवल अंतिम प्रयोग में ही उपयोग किया जाना चाहिए।

क्रॉस-सत्यापन
अधिक स्थिर परिणाम प्राप्त करने और प्रशिक्षण के लिए सभी मूल्यवान डेटा का उपयोग करने के लिए, डेटा समुच्चय को बार-बार कई प्रशिक्षण और सत्यापन डेटासेट में विभाजित किया जा सकता है। इसे क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन के रूप में जाना जाता है। मॉडल के प्रदर्शन की पुष्टि करने के लिए, क्रॉस-सत्यापन से आयोजित एक अतिरिक्त परीक्षण डेटा समुच्चय  का सामान्य रूप से उपयोग किया जाता है।

यह भी देखें

 * सांख्यिकीय वर्गीकरण
 * मशीन लर्निंग रिसर्च के लिए डेटासेट की सूची
 * पदानुक्रमित वर्गीकरण