लीकेज (मशीन लर्निंग)

सांख्यिकी और मशीन लर्निंग में, लीकेज जिसे डेटा लीकेज या टार्गेट लीकेज के रूप में जाना जाता है, जिसमें मॉडल प्रशिक्षण की प्रक्रिया में जानकारी का उपयोग किया जाता है, जो पूर्वानुमान समय में उपलब्ध होने की संभावना नहीं होती, जिससे पूर्वानुमान स्कोर उत्पादन वातावरण में चलने पर मॉडल के उपयोगिता का महत्व अधिक माना जाता है।

लीकेज प्रायः सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और उसे निकालना कठिन होता है। यह लीकेज किसी सांख्यिकीय विशेषज्ञ या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है जिसे लीकेज-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।

लीकेज मोड
मशीन सीखने की प्रक्रिया में लीकेज कई चरणों में हो सकता है। लीकेज के कारणों को किसी मॉडल के लिए लीकेज के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।

फीचर लीकेज
फ़ीचर या कॉलम-वार लीकेज उन कॉलमों को सम्मिलित करने के कारण होता है जो निम्नलिखित में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये विशेषताएं, जिन्हें अनाक्रोनिस्म के रूप में जाना जाता है, पूर्वानुमान के लिए मॉडल का उपयोग होने पर उपलब्ध नहीं होते है, और इन्हें मॉडल को प्रशिक्षित करते समय सम्मिलित किया जाए तो लीकेज का कारण बन सकते हैं।

उदाहरण के रूप में, "YearlySalary" का पूर्वानुमान करते समय "MonthlySalary" स्तंभ को शामिल करना; या "IsLate" का पूर्वानुमान करते समय "MinutesLate" को शामिल करना; या सूक्ष्मता से, "ShouldGiveLoan" का पूर्वानुमान करते समय "NumOfLatePayments" को शामिल करना लीकेज का कारण बना सकता है।

प्रशिक्षण उदाहरण लीकेज
पंक्ति-वार लीकेज डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार लीकेज के प्रकारों में सम्मिलित हैं:
 * पूर्वाग्रहीत विशेषताओं का उपयोग; क्रॉस वैलिडेशन / ट्रेन / टेस्ट स्प्लिट से पहले पूर्वाग्रहीत विशेषताओं से लीकेज ट्रेन स्प्लिट पर केवल मिनमैक्स / एनग्राम / आदि पर फिट करें, और फिर टेस्ट सेट को ट्रांसफ़ॉर्म करें।
 * प्रशिक्षण/मान्यता/परीक्षण के बीच डुप्लिकेट पंक्तियों का होना उदाहरण के लिए, एक डेटासेट का ओवरसैम्पलिंग करके इसका आकार बढ़ाना, एकल इमेज के भिन्न परिवर्तन/वृद्धि, स्प्लिट करने से पहले बूटस्ट्रैप सैंपलिंग, या अल्पसंख्यक वर्ग के डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग के लिए पंक्तियों को डुप्लिकेट करना ।
 * गैर-आई.आई.डी. आंकड़े
 * समय लीकेज (उदाहरण के लिए, ट्रेनटेस्ट स्प्लिट या रोलिंग-ऑरिजिन क्रॉस वैलिडेशन का उपयोग करके टाइम-सीरीज डेटासेट को यादृच्छिक रूप से विभाजित करना इसके बदले नएर डेटा को टेस्ट सेट में सम्मिलित करना।
 * ग्रुप लीकेज -- समूह विभाजन स्तंभ को सम्मिलित न करना उदाहरण के लिए, एंड्रू एन्ग के समूह में 30 हजार रोगियों के 100 हजार एक्सरे की तस्वीरें थीं, अर्थात्, मॉडल ने पूरी तरह से नहीं, बल्कि आंशिक रूप से रोगियों को याद किया था, जिससे यह ठीक से छाती के एक्सरे में न्यूमोनिया की पहचान करने की जगह रोगियों को याद करने की कोशिश करता रहा।

समय-आधारित डेटासेटों के लिए, जिस प्रकार की प्रणाली की अध्ययन किया जा रही है, वह समय के साथ विकसित होती है अर्थात्, यह "गैर-स्थायी" होती है।

इससे प्रशिक्षण और मान्यता सेट्स के बीच सिद्धांतिक अंतर उत्पन्न हो सकता है। उदाहरण के रूप में, यदि किसी शेयर के मूल्य का पूर्वानुमान करने के लिए एक मॉडल को एक निश्चित पाँच-वर्षीय अवधि के डेटा पर प्रशिक्षित किया जाता है, तो उसे उसके बाद के पाँच-वर्षीय अवधि को एक ही प्रजनन से खिंचने के रूप में नहीं देखा जा सकता। एक और उदाहरण के रूप में, सोचें कि एक मॉडल विकसित किया गया है जो एक व्यक्ति को अगले वर्ष में एक विशेष बीमारी के निदान के लिए जोखिम का पूर्वानुमान करता है।

यह भी देखें

 * ऑटोएमएल
 * क्रॉस-वैलिडेशन
 * ओवरफिटिंग
 * पुनः प्रतिचयन
 * पर्यवेक्षित अध्ययन
 * प्रशिक्षण, सत्यापन और परीक्षण सेट