आउट-ऑफ-बैग त्रुटि

आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग आकलित भी कहा जाता है, यादृच्छिक जंगलों, बूटस्ट्रैप निर्णय वृक्ष और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्य यंत्र अधिगम मॉडल की भविष्यवाणी त्रुटि को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग किया जाता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श $x_{i}$ पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में $x_{i}$ नहीं था।

बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग आकलित को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।

आउट-ऑफ-बैग डेटासमुच्चय
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित किया गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुने गए सभी डेटा है।

जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक जंगल बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है। यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।

आउट-ऑफ़-बैग त्रुटि की गणना
क्योंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।

बूटस्ट्रैप एकत्रीकरण प्रक्रिया को किसी मॉडल की आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है। एक यथार्थ मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के पास होना चाहिए। साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (जंगल) के पुनरावृत्तियों (वृक्ष) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है। दाईं ओर दिए गए उदाहरण में दिखाया गया है, जंगल समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।
 * 1) OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या वृक्ष, एक यादृच्छिक जंगल के प्रकरण में) खोजें।
 * 2) OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
 * 3) OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।

अंतः वैधीकरण की तुलना
यंत्र अधिगम मॉडल के त्रुटि अनुमान को मापने के लिए आउट-ऑफ-बैग त्रुटि और अंतः वैधीकरण (सीवी) अलग-अलग विधि हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। अर्थात, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह अंतः वैधीकरण (विशेष रूप से लीव-वन-आउट अंतः वैधीकरण) त्रुटि में परिवर्तित हो जाएगी। OOB विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के समय मॉडल का परीक्षण करने की अनुमति देता है।

शुद्धता और निरंतरता
आउट-ऑफ़-बैग त्रुटि का उपयोग प्रायः यादृच्छिक जंगलों के भीतर त्रुटि अनुमान के लिए किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने स्थापन में अधिक आकलित लगाया है जिसमें सभी प्रतिक्रिया वर्गों (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के मध्य छोटे सहसंबंध और कमजोर प्रभाव सम्मिलित हैं।

यह भी देखें

 * बूस्टिंग (मेटा-एल्गोरिदम)
 * बूटस्ट्रैप एकत्रीकरण
 * बूटस्ट्रैपिंग (सांख्यिकी)
 * अंतः वैधीकरण (सांख्यिकी)
 * यादृच्छिकजंगल
 * यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)