रैंडम फॉरेस्ट: Difference between revisions
No edit summary |
m (Abhishekkshukla moved page बेतरतीब जंगल to रैंडम फॉरेस्ट without leaving a redirect) |
(No difference)
| |
Latest revision as of 16:05, 20 October 2023
रैंडम फॉरेस्ट या रैंडम निर्णय फॉरेस्ट सांख्यिकीय वर्गीकरण, प्रतिगमन विश्लेषण और अन्य फलनों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण फलनों के लिए, रैंडम फॉरेस्ट का उत्पादन अधिकांश ट्री के माध्यम से चयनित वर्ग है। प्रतिगमन फलनों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।[1][2] रैंडम निर्णय फॉरेस्ट अपने प्रशिक्षण सेट के लिए निर्णय पेड़ों की ओवरफट्टिंग की आदत के लिए सही हैं।[3]: 587–588 रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से अधिक अच्छा प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है। चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।[4][5]
रैंडम निर्णय फॉरेस्ट के लिए पहला एल्गोरिथम 1995 में तिन कम हो के माध्यम से बनाया गया था[1] जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।[6][7][8]
एल्गोरिथम का एक विस्तार लियो ब्रिमन के माध्यम से विकसित किया गया था[9] और एडेल कटलर,[10]जिसने पंजीकरण कराया[11] 2006 में ट्रेडमार्क के रूप में रैंडम फॉरेस्ट (as of 2019[update], जिसका स्वामित्व मिनिटैब, इंक.) के पास है।[12] यह विस्तार ब्रीमन के बूटस्ट्रैप एकत्रीकरण विचार और सुविधाओं के क्रमहीनता चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था[1]और बाद में अमित और डोनाल्ड जेमन के माध्यम से स्वतंत्र रूप से[13] नियंत्रित विचरण वाले निर्णय ट्री का संग्रह बनाने के लिए।
रैंडम फॉरेस्ट का अधिकांशतः व्यवसायों में ब्लैक बॉक्स मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।
इतिहास
रैंडम निर्णय फॉरेस्ट की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।[1]हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि फॉरेस्ट को रैंडम रूप से एकमात्र चयनित फ़ीचर (मशीन लर्निंग) आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम[2]निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।[6][7][8]
रैंडम फॉरेस्टों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
जेमन[13]जिन्होंने रैंडम उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय, हो से रैंडम उपस्थान चयन का विचार[2]रैंडम फॉरेस्टों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्री का जंगल उगा दिया जाता है, और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुत की जाती है
प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले रैंडम रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार रैंडम नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है एक नियतात्मक अनुकूलन के अतिरिक्त रैंडम प्रक्रिया पहले थी थॉमस जी डायटरिच के माध्यम से प्रस्तुत किया गया।[14]
रैंडम फॉरेस्टों का उचित परिचय एक कागज में किया गया था
लियो ब्रिमन के माध्यम से।[9] यह पत्र जंगल बनाने की एक विधि का वर्णन करता है एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, रैंडम नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है
सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं रैंडम फॉरेस्टों का आधुनिक अभ्यास, विशेष रूप से:
- सामान्यीकरण त्रुटि के अनुमान के रूप में आउट-ऑफ-बैग त्रुटि का उपयोग करना।
- क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।
रिपोर्ट रैंडम फॉरेस्ट के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है
सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है
जंगल में पेड़ और उनका सहसंबंध।
एल्गोरिथम
प्रारंभिक: निर्णय ट्री सीखना
निर्णय ट्री विभिन्न मशीन सीखने के फलनों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, ट्रेवर हेस्टी एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।[3]: 352
विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़ कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। रैंडम फॉरेस्ट एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ट्री को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।[3]: 587–588 यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
जंगल निर्णय ट्री एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ट्री की टीम वर्क लेकर इस प्रकार एक रैंडम पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
बैगिंग
रैंडम फॉरेस्ट के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया X = x1, ..., xn प्रतिक्रियाओं के साथ Y = y1, ..., yn, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ट्री को फिट करता है:
- के लिए b = 1, ..., B:
- # नमूना, प्रतिस्थापन के साथ, n प्रशिक्षण के उदाहरण X, Y; इन्हें कॉल करें Xb, Yb.
- एक वर्गीकरण या प्रतिगमन ट्री को प्रशिक्षित करें fb पर Xb, Yb.
प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां x' सभी अलग-अलग प्रतिगमन ट्री से भविष्यवाणियों के औसत से बनाया जा सकता है x':
या ले कर बहुमत[clarify] वर्गीकरण ट्री के स्थितियोंमें।
यह बूटस्ट्रैपिंग प्रक्रिया अधिक अच्छा मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ट्री का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ट्री को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ट्री को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।
इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ट्री से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है x':
नमूनों/ट्री की संख्या, B, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ट्री का उपयोग किया जाता है। ट्री की इष्टतम संख्या B क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि xi, एकमात्र उन ट्री का उपयोग करना जिनके पास नहीं था xi उनके बूटस्ट्रैप नमूने में।[15]
कुछ ट्री के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
बैगिंग से रैंडम फॉरेस्टों तक
उपरोक्त प्रक्रिया ट्री के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। रैंडम फॉरेस्ट में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ट्री का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा B पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और रैंडम उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।[16]
सामान्यतः, एक वर्गीकरण समस्या के लिए p विशेषताएँ, √p (राउंड डाउन) सुविधाओं का उपयोग प्रत्येक विभाजन में किया जाता है।[3]: 592 प्रतिगमन समस्याओं के लिए आविष्कारक सलाह देते हैं p/3 (राउंड डाउन) डिफ़ॉल्ट के रूप में 5 के न्यूनतम नोड आकार के साथ।[3]: 592 व्यवहार में, इन पैरामीटरों के लिए सर्वोत्तम मूल्यों को हर समस्या के लिए स्थिति-दर-स्थिति आधार पर ट्यून किया जाना चाहिए।[3]: 592
अतिरिक्त पेड़
रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य रैंडम फॉरेस्टों के समान ही वे अलग-अलग ट्री का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में ट्री शिक्षार्थी रैंडम है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, सूचना लाभ या गिन्नी अशुद्धता के आधार पर), एक रैंडम कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी रैंडम ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण रैंडम फॉरेस्टों के समान, प्रत्येक नोड पर विचार किए जाने वाले रैंडम रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं वर्गीकरण के लिए और प्रतिगमन के लिए, जहां मॉडल में सुविधाओं की संख्या है।[17]
गुण
परिवर्तनीय महत्व
प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए रैंडम फॉरेस्ट का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था[9]और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।[10] डेटा सेट में चर महत्व को मापने का पहला चरण डेटा के लिए एक रैंडम फॉरेस्ट फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
के महत्व को मापने के लिए प्रशिक्षण के बाद -थ फीचर, के मूल्य -वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर -वें फीचर की गणना सभी ट्री पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन के माध्यम से स्कोर को सामान्य किया जाता है।
इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल के माध्यम से दी गई और उसका विश्लेषण किया गया।[18] परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, रैंडम फॉरेस्ट अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। आंशिक क्रमपरिवर्तन जैसे तरीके[19][20][4]और निष्पक्ष पेड़ उगाना[21][22] समस्या को हल करने के लिए उपयोग किया जा सकता है। यदि डेटा में आउटपुट के लिए समान प्रासंगिकता की सहसंबद्ध विशेषताओं के समूह होते हैं, तो बड़े समूहों पर छोटे समूहों का पक्ष लिया जाता है।[23]
निकटतम पड़ोसियों से संबंध
रैंडम फॉरेस्ट और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध k-निकटतम एल्गोरिथम (k-एनएन) को 2002 में लिन और जीन के माध्यम से इंगित किया गया था।[24] यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं जो भविष्यवाणी करते हैं नए बिंदुओं के लिए x' बिंदु के पड़ोस को देखकर, वजन समारोह के माध्यम से औपचारिक रूप दिया गया W:
यहाँ, का गैर-ऋणात्मक भार है i'वाँ प्रशिक्षण बिंदु नए बिंदु के सापेक्ष x' उसी पेड़ में। किसी विशेष के लिए x', अंकों के लिए भार एक होना चाहिए। वजन फलन निम्नानुसार दिए गए हैं:
- में k-एनएन, वजन हैं