रैंडम फॉरेस्ट

From Vigyanwiki

रैंडम फॉरेस्ट या रैंडम निर्णय फॉरेस्ट सांख्यिकीय वर्गीकरण, प्रतिगमन विश्लेषण और अन्य फलनों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण फलनों के लिए, रैंडम फॉरेस्ट का उत्पादन अधिकांश ट्री के माध्यम से चयनित वर्ग है। प्रतिगमन फलनों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।[1][2] रैंडम निर्णय फॉरेस्ट अपने प्रशिक्षण सेट के लिए निर्णय पेड़ों की ओवरफट्टिंग की आदत के लिए सही हैं।[3]: 587–588  रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से अधिक अच्छा प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है। चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।[4][5]

रैंडम निर्णय फॉरेस्ट के लिए पहला एल्गोरिथम 1995 में तिन कम हो के माध्यम से बनाया गया था[1] जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।[6][7][8]

एल्गोरिथम का एक विस्तार लियो ब्रिमन के माध्यम से विकसित किया गया था[9] और एडेल कटलर,[10]जिसने पंजीकरण कराया[11] 2006 में ट्रेडमार्क के रूप में रैंडम फॉरेस्ट (as of 2019, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।[12] यह विस्तार ब्रीमन के बूटस्ट्रैप एकत्रीकरण विचार और सुविधाओं के क्रमहीनता चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था[1]और बाद में अमित और डोनाल्ड जेमन के माध्यम से स्वतंत्र रूप से[13] नियंत्रित विचरण वाले निर्णय ट्री का संग्रह बनाने के लिए।

रैंडम फॉरेस्ट का अधिकांशतः व्यवसायों में ब्लैक बॉक्स मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।

इतिहास

रैंडम निर्णय फॉरेस्ट की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।[1]हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि फॉरेस्ट को रैंडम रूप से एकमात्र चयनित फ़ीचर (मशीन लर्निंग) आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम[2]निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।[6][7][8]

रैंडम फॉरेस्टों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था

जेमन[13]जिन्होंने रैंडम उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया

एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय, हो से रैंडम उपस्थान चयन का विचार[2]रैंडम फॉरेस्टों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्री का जंगल उगा दिया जाता है, और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुत की जाती है

प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले रैंडम रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार रैंडम नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है एक नियतात्मक अनुकूलन के अतिरिक्त रैंडम प्रक्रिया पहले थी थॉमस जी डायटरिच के माध्यम से प्रस्तुत किया गया।[14]

रैंडम फॉरेस्टों का उचित परिचय एक कागज में किया गया था

लियो ब्रिमन के माध्यम से।[9] यह पत्र जंगल बनाने की एक विधि का वर्णन करता है एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, रैंडम नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है

सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं रैंडम फॉरेस्टों का आधुनिक अभ्यास, विशेष रूप से:

  1. सामान्यीकरण त्रुटि के अनुमान के रूप में आउट-ऑफ-बैग त्रुटि का उपयोग करना।
  2. क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।

रिपोर्ट रैंडम फॉरेस्ट के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है

सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है

जंगल में पेड़ और उनका सहसंबंध।

एल्गोरिथम

प्रारंभिक: निर्णय ट्री सीखना

निर्णय ट्री विभिन्न मशीन सीखने के फलनों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, ट्रेवर हेस्टी एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।[3]: 352 

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़ कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। रैंडम फॉरेस्ट एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ट्री को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।[3]: 587–588  यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

जंगल निर्णय ट्री एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ट्री की टीम वर्क लेकर इस प्रकार एक रैंडम पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

बैगिंग

रैंडम फॉरेस्ट के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया X = x1, ..., xn प्रतिक्रियाओं के साथ Y = y1, ..., yn, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ट्री को फिट करता है:

के लिए b = 1, ..., B:
# नमूना, प्रतिस्थापन के साथ, n प्रशिक्षण के उदाहरण X, Y; इन्हें कॉल करें Xb, Yb.
  1. एक वर्गीकरण या प्रतिगमन ट्री को प्रशिक्षित करें fb पर Xb, Yb.

प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां x' सभी अलग-अलग प्रतिगमन ट्री से भविष्यवाणियों के औसत से बनाया जा सकता है x':

या ले कर बहुमत[clarify] वर्गीकरण ट्री के स्थितियोंमें।

यह बूटस्ट्रैपिंग प्रक्रिया अधिक अच्छा मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ट्री का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ट्री को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक ​​​​कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ट्री को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।

इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ट्री से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है x':

नमूनों/ट्री की संख्या, B, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ट्री का उपयोग किया जाता है। ट्री की इष्टतम संख्या B क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि xi, एकमात्र उन ट्री का उपयोग करना जिनके पास नहीं था xi उनके बूटस्ट्रैप नमूने में।[15]

कुछ ट्री के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

बैगिंग से रैंडम फॉरेस्टों तक

उपरोक्त प्रक्रिया ट्री के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। रैंडम फॉरेस्ट में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ट्री का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा B पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और रैंडम उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।[16]

सामान्यतः, एक वर्गीकरण समस्या के लिए p विशेषताएँ, p (राउंड डाउन) सुविधाओं का उपयोग प्रत्येक विभाजन में किया जाता है।[3]: 592  प्रतिगमन समस्याओं के लिए आविष्कारक सलाह देते हैं p/3 (राउंड डाउन) डिफ़ॉल्ट के रूप में 5 के न्यूनतम नोड आकार के साथ।[3]: 592  व्यवहार में, इन पैरामीटरों के लिए सर्वोत्तम मूल्यों को हर समस्या के लिए स्थिति-दर-स्थिति आधार पर ट्यून किया जाना चाहिए।[3]: 592 

अतिरिक्त पेड़

रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य रैंडम फॉरेस्टों के समान ही वे अलग-अलग ट्री का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में ट्री शिक्षार्थी रैंडम है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, सूचना लाभ या गिन्नी अशुद्धता के आधार पर), एक रैंडम कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी रैंडम ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण रैंडम फॉरेस्टों के समान, प्रत्येक नोड पर विचार किए जाने वाले रैंडम रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं वर्गीकरण के लिए और प्रतिगमन के लिए, जहां मॉडल में सुविधाओं की संख्या है।[17]


गुण

परिवर्तनीय महत्व

प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए रैंडम फॉरेस्ट का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था[9]और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।[10] डेटा सेट में चर महत्व को मापने का पहला चरण डेटा के लिए एक रैंडम फॉरेस्ट फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।

के महत्व को मापने के लिए प्रशिक्षण के बाद -थ फीचर, के मूल्य -वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर -वें फीचर की गणना सभी ट्री पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन के माध्यम से स्कोर को सामान्य किया जाता है।

इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल के माध्यम से दी गई और उसका विश्लेषण किया गया।[18] परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, रैंडम फॉरेस्ट अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। आंशिक क्रमपरिवर्तन जैसे तरीके[19][20][4]और निष्पक्ष पेड़ उगाना[21][22] समस्या को हल करने के लिए उपयोग किया जा सकता है। यदि डेटा में आउटपुट के लिए समान प्रासंगिकता की सहसंबद्ध विशेषताओं के समूह होते हैं, तो बड़े समूहों पर छोटे समूहों का पक्ष लिया जाता है।[23]


निकटतम पड़ोसियों से संबंध

रैंडम फॉरेस्ट और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध k-निकटतम एल्गोरिथम (k-एनएन) को 2002 में लिन और जीन के माध्यम से इंगित किया गया था।[24] यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं जो भविष्यवाणी करते हैं नए बिंदुओं के लिए x' बिंदु के पड़ोस को देखकर, वजन समारोह के माध्यम से औपचारिक रूप दिया गया W:

यहाँ, का गैर-ऋणात्मक भार है i'वाँ प्रशिक्षण बिंदु नए बिंदु के सापेक्ष x' उसी पेड़ में। किसी विशेष के लिए x', अंकों के लिए भार एक होना चाहिए। वजन फलन निम्नानुसार दिए गए हैं:

  • में k-एनएन, वजन हैं यदि xi उनमे से एक है k के सबसे निकट स्थित है x', और शून्य अन्यथा।
  • एक पेड़ में,