आउट-ऑफ-बैग त्रुटि

आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, यादृच्छिकफ़ॉरेस्टों, बूटस्ट्रैप निर्णय वृक्ष और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्य यंत्र अधिगम मॉडल की भविष्यवाणी त्रुटि को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श $x_{i}$ पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में $x_{i}$ नहीं था।

बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।

आउट-ऑफ-बैग डेटासमुच्चय
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है।

जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है। यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।

आउट-ऑफ़-बैग त्रुटि की गणना
क्योंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।

बूटस्ट्रैप एकत्रीकरण प्रक्रिया को किसी मॉडल की आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है। एक यथार्थ मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के पास होना चाहिए। साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (जंगल) के पुनरावृत्तियों (वृक्ष) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है। दाईं ओर दिए गए उदाहरण में दिखाया गया है, जंगल समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।
 * 1) OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या वृक्ष, एक यादृच्छिक जंगल के प्रकरण में) खोजें।
 * 2) OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
 * 3) OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।

अंतः वैधीकरण की तुलना
यंत्र अधिगम मॉडल के त्रुटि अनुमान को मापने के लिए आउट-ऑफ-बैग त्रुटि और अंतः वैधीकरण (सीवी) अलग-अलग विधि हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। अर्थात, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह अंतः वैधीकरण (विशेष रूप से लीव-वन-आउट अंतः वैधीकरण) त्रुटि में परिवर्तित हो जाएगी। OOB विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के दौरान मॉडल का परीक्षण करने की अनुमति देता है।

शुद्धता और निरंतरता
आउट-ऑफ़-बैग त्रुटि का उपयोग प्रायः यादृच्छिक जंगलों के भीतर त्रुटि अनुमान के लिए किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने स्थापन में अधिक अनुमान लगाया है जिसमें से समान संख्या में अवलोकन सम्मिलित हैं सभी प्रतिक्रिया वर्ग (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के मध्य छोटे सहसंबंध और कमजोर प्रभाव।

यह भी देखें

 * बूस्टिंग (मेटा-एल्गोरिदम)
 * बूटस्ट्रैप एकत्रीकरण
 * बूटस्ट्रैपिंग (सांख्यिकी)
 * अंतः वैधीकरण (सांख्यिकी)
 * यादृच्छिकफ़ॉरेस्ट
 * यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)