लीकेज (मशीन लर्निंग)

सांख्यिकी और यंत्र अधिगम  में, लीकेज (डेटा लीकेज या टारगेट लीकेज के रूप में भी जाना जाता है) मॉडल प्रशिक्षण प्रक्रिया में जानकारी का उपयोग होता है, जिसके भविष्यवाणी समय पर उपलब्ध होने की उम्मीद नहीं की जाती है, जिससे उत्पादन वातावरण में चलने पर पूर्वानुमानित स्कोर (मेट्रिक्स) मॉडल की उपयोगिता को कम कर देते हैं।

रिसाव अक्सर सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और समाप्त करना कठिन हो जाता है। रिसाव के कारण सांख्यिकीविद् या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है, जिसे रिसाव-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।

रिसाव मोड
मशीन सीखने की प्रक्रिया में रिसाव कई चरणों में हो सकता है। रिसाव के कारणों को किसी मॉडल के लिए रिसाव के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।

फीचर लीकेज
फ़ीचर या कॉलम-वार रिसाव उन कॉलमों को शामिल करने के कारण होता है जो निम्न में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये सुविधाएँ, जिन्हें एनाक्रोनिज़्म के रूप में जाना जाता है, तब उपलब्ध नहीं होंगी जब मॉडल का उपयोग भविष्यवाणियों के लिए किया जाता है, और यदि मॉडल को प्रशिक्षित किया जाता है तो शामिल होने पर रिसाव हो सकता है। उदाहरण के लिए, वार्षिक वेतन की भविष्यवाणी करते समय मासिक वेतन कॉलम शामिल करना; या IsLate की भविष्यवाणी करते समय MinutesLate ; या अधिक सूक्ष्मता से NumOfLatePayments, जब ShodGiveLoan की भविष्यवाणी करते हैं।

प्रशिक्षण उदाहरण रिसाव
पंक्ति-वार रिसाव डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार रिसाव के प्रकारों में शामिल हैं:
 * समय से पहले फ़ीचर इंजीनियरिंग; क्रॉस-वैलिडेशन (सांख्यिकी)/ट्रेन/टेस्ट स्प्लिट से पहले समय से पहले फीचराइजेशन से लीक होना (केवल ट्रेन स्प्लिट पर मिनमैक्स/एनग्राम/आदि फिट होना चाहिए, फिर टेस्ट सेट को बदलना चाहिए)
 * ट्रेन/सत्यापन/परीक्षण के बीच पंक्तियों को डुप्लिकेट करें (उदाहरण के लिए विभाजन से पहले इसके आकार को पैड करने के लिए डेटासेट को ओवरसैंपलिंग करना; उदाहरण के लिए एक ही छवि के विभिन्न घुमाव/संवर्द्धन; विभाजन से पहले बूटस्ट्रैपिंग (आंकड़े); या अल्पसंख्यक वर्ग के डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग के लिए पंक्तियों को डुप्लिकेट करना)
 * स्वतंत्र और समान रूप से वितरित यादृच्छिक चर|गैर-आई.आई.डी. आंकड़े
 * समय रिसाव (उदाहरण के लिए ट्रेनटेस्ट स्प्लिट या रोलिंग-ओरिजिन क्रॉस वैलिडेशन का उपयोग करके परीक्षण सेट में नए डेटा के बजाय समय-श्रृंखला डेटासेट को यादृच्छिक रूप से विभाजित करना)
 * ग्रुप लीकेज - इसमें ग्रुपिंग स्प्लिट कॉलम शामिल नहीं है (उदाहरण के लिए एंड्रयू एनजी के समूह में 30k रोगियों के 100k एक्स-रे थे, जिसका अर्थ है प्रति मरीज ~ 3 छवियां। पेपर ने यह सुनिश्चित करने के बजाय यादृच्छिक विभाजन का उपयोग किया कि एक मरीज की सभी छवियां एक ही विभाजन में थीं। इसलिए मॉडल ने छाती के एक्स-रे में निमोनिया को पहचानना सीखने के बजाय रोगियों को आंशिक रूप से याद किया। )

समय-निर्भर डेटासेट के लिए, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (यानी यह गैर-स्थिर है)। यह प्रशिक्षण और सत्यापन सेट के बीच व्यवस्थित अंतर पेश कर सकता है। उदाहरण के लिए, यदि शेयर बाजार की भविष्यवाणी के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद की पांच साल की अवधि को उसी आबादी से आकर्षित मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर किसी विशेष बीमारी के चिकित्सीय निदान के लिए किसी व्यक्ति के जोखिम की भविष्यवाणी करने के लिए एक मॉडल विकसित किया गया है।

यह भी देखें

 * ऑटोएमएल
 * क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन
 * ओवरफिटिंग
 * पुन: नमूनाकरण (सांख्यिकी)
 * पर्यवेक्षित अध्ययन
 * प्रशिक्षण, सत्यापन और परीक्षण सेट