रैंडम फॉरेस्ट

यादृच्छिक वन या यादृच्छिक निर्णय वन सांख्यिकीय वर्गीकरण, प्रतिगमन विश्लेषण और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, यादृच्छिक वन का उत्पादन अधिकांश पेड़ों के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।  यादृच्छिक निर्णय वन अपने टेस्ट सेट के लिए निर्णय पेड़ों की ओवरफट्टिंग की आदत के लिए सही हैं। यादृच्छिक वन सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है। चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं। यादृच्छिक निर्णय वनों के लिए पहला एल्गोरिथम 1995 में तिन कम हो के माध्यम से बनाया गया था यादृच्छिक उपस्थान विधि का उपयोग करना, जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।

एल्गोरिथम का एक विस्तार लियो ब्रिमन के माध्यम से विकसित किया गया था और एडेल कटलर, जिसने पंजीकरण कराया 2006 में ट्रेडमार्क के रूप में यादृच्छिक वन (, जिसका स्वामित्व मिनिटैब, इंक.) के पास है। यह विस्तार ब्रीमन के बूटस्ट्रैप एकत्रीकरण विचार और सुविधाओं के यादृच्छिक चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था और बाद में अमित और डोनाल्ड जेमन  के माध्यम से स्वतंत्र रूप से नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।

यादृच्छिक वन का अधिकांशतः व्यवसायों में ब्लैक बॉक्स मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।

इतिहास
यादृच्छिक निर्णय वनों की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी। हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को यादृच्छिक रूप से एकमात्र चयनित फ़ीचर (मशीन लर्निंग) आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए वन पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है। बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था जेमन जिन्होंने यादृच्छिक उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय निर्णय वृक्ष। हो से यादृच्छिक उपस्थान चयन का विचार यादृच्छिक वनों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है, और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है

प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले यादृच्छिक रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार यादृच्छिक नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है एक नियतात्मक अनुकूलन के अतिरिक्त यादृच्छिक प्रक्रिया पहले थी थॉमस जी डायटरिच के माध्यम से प्रस्तुतकिया गया।

यादृच्छिक वनों का उचित परिचय एक कागज में किया गया था

लियो ब्रिमन के माध्यम से।  यह पत्र जंगल बनाने की एक विधि का वर्णन करता है एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, यादृच्छिक नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं यादृच्छिक वनों का आधुनिक अभ्यास, विशेष रूप से:


 * 1) सामान्यीकरण त्रुटि के अनुमान के रूप में आउट-ऑफ-बैग त्रुटि का उपयोग करना।
 * 2) क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।

रिपोर्ट यादृच्छिक जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है

सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है

जंगल में पेड़ और उनका सहसंबंध।

प्रारंभिक: निर्णय वृक्ष सीखना
निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, ट्रेवर हेस्टी एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। यादृच्छिक वन एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है। यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

वन निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक यादृच्छिक पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, वन क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

बैगिंग
यादृच्छिक वन के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया $X$ = $x_{1}$, ..., $x_{n}$ प्रतिक्रियाओं के साथ $Y$ = $y_{1}$, ..., $y_{n}$, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:


 * के लिए $b$ = 1, ..., $B$:
 * # नमूना, प्रतिस्थापन के साथ, $n$ प्रशिक्षण के उदाहरण $X$, $Y$; इन्हें कॉल करें $X_{b}$, $Y_{b}$.
 * एक वर्गीकरण या प्रतिगमन वृक्ष को प्रशिक्षित करें $f_{b}$ पर $X_{b}$, $Y_{b}$.

प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां $x'$ सभी अलग-अलग प्रतिगमन पेड़ों से भविष्यवाणियों के औसत से बनाया जा सकता है $x'$:


 * $$\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')$$

या ले कर वर्गीकरण पेड़ों के स्थितियोंमें।

यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई पेड़ों का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई पेड़ों को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक ​​​​कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण पेड़ों को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।

इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन पेड़ों से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है $x'$:


 * $$\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x') - \hat{f})^2}{B-1} }.$$

नमूनों/पेड़ों की संख्या, $B$, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार पेड़ों का उपयोग किया जाता है। पेड़ों की इष्टतम संख्या $B$ क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि $x_{i}$, एकमात्र उन पेड़ों का उपयोग करना जिनके पास नहीं था $x_{i}$ उनके बूटस्ट्रैप नमूने में। कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

बैगिंग से यादृच्छिक वनों तक
उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। यादृच्छिक वन में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा $B$ पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और यादृच्छिक उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।

सामान्यतः, एक वर्गीकरण समस्या के लिए $p$ विशेषताएँ, √$p$ (राउंड डाउन) सुविधाओं का उपयोग प्रत्येक विभाजन में किया जाता है। प्रतिगमन समस्याओं के लिए आविष्कारक सलाह देते हैं $p/3$ (राउंड डाउन) डिफ़ॉल्ट के रूप में 5 के न्यूनतम नोड आकार के साथ।  व्यवहार में, इन पैरामीटरों के लिए सर्वोत्तम मूल्यों को हर समस्या के लिए स्थिति-दर-स्थिति आधार पर ट्यून किया जाना चाहिए।

अतिरिक्त पेड़
रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य यादृच्छिक वनों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी यादृच्छिक है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, सूचना लाभ या गिन्नी अशुद्धता के आधार पर), एक यादृच्छिक कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण यादृच्छिक वनों के समान, प्रत्येक नोड पर विचार किए जाने वाले यादृच्छिक रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं $$\sqrt{p}$$ वर्गीकरण के लिए और $$p$$ प्रतिगमन के लिए, जहां $$p$$ मॉडल में सुविधाओं की संख्या है।

परिवर्तनीय महत्व
प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए यादृच्छिक जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है। डेटा सेट में चर महत्व को मापने का पहला चरण $$\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n$$ डेटा के लिए एक यादृच्छिक वन फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।

के महत्व को मापने के लिए $$j$$प्रशिक्षण के बाद -थ फीचर, के मूल्य $$j$$-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर $$j$$-वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन के माध्यम से स्कोर को सामान्य किया जाता है।

इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल के माध्यम से दी गई और उसका विश्लेषण किया गया। परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, यादृच्छिक वन अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। आंशिक क्रमपरिवर्तन जैसे तरीके और निष्पक्ष पेड़ उगाना  समस्या को हल करने के लिए उपयोग किया जा सकता है। यदि डेटा में आउटपुट के लिए समान प्रासंगिकता की सहसंबद्ध विशेषताओं के समूह होते हैं, तो बड़े समूहों पर छोटे समूहों का पक्ष लिया जाता है।

निकटतम पड़ोसियों से संबंध
यादृच्छिक जंगलों और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध$k$-निकटतम निकटतम एल्गोरिथम ($k$-एनएन) को 2002 में लिन और जीन के माध्यम से इंगित किया गया था। यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं $$\{(x_i, y_i)\}_{i=1}^n$$ जो भविष्यवाणी करते हैं $$\hat{y}$$ नए बिंदुओं के लिए $x'$ बिंदु के पड़ोस को देखकर, वजन समारोह  के माध्यम से औपचारिक रूप दिया गया $W$:


 * $$\hat{y} = \sum_{i=1}^n W(x_i, x') \, y_i.$$

यहाँ, $$W(x_i, x')$$ का गैर-ऋणात्मक भार है $i$'वाँ प्रशिक्षण बिंदु नए बिंदु के सापेक्ष $x'$ उसी पेड़ में। किसी विशेष के लिए $x'$, अंकों के लिए भार $$x_i$$ एक होना चाहिए। वजन कार्य निम्नानुसार दिए गए हैं:


 * में $k$-एनएन, वजन हैं $$W(x_i, x') = \frac{1}{k}$$ यदि $x_{i}$ उनमे से एक है $k$ के सबसे निकट स्थित है $x'$, और शून्य अन्यथा।
 * एक पेड़ में, $$W(x_i, x') = \frac{1}{k'}$$ यदि $x_{i}$ उनमे से एक है $k'$ उसी पत्ते में इंगित करता है $x'$, और शून्य अन्यथा।

चूंकि एक जंगल औसत के एक सेट की भविष्यवाणी करता है $m$ व्यक्तिगत भार कार्यों वाले पेड़ $$W_j$$, इसकी भविष्यवाणियां हैं


 * $$\hat{y} = \frac{1}{m}\sum_{j=1}^m\sum_{i=1}^n W_{j}(x_i, x') \, y_i = \sum_{i=1}^n\left(\frac{1}{m}\sum_{j=1}^m W_{j}(x_i, x')\right) \, y_i.$$

इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम $x'$ इस व्याख्या में बिंदु हैं $$x_i$$ किसी पेड़ में एक ही पत्ते को बांटना $$j$$. इस प्रकार, के पड़ोस $x'$ पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक यादृच्छिक वन के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।

बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा
उनके निर्माण के हिस्से के रूप में, यादृच्छिक वन भविष्यसमया स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक यादृच्छिक वन असमानता माप को भी परिभाषित किया जा सकता है: विचार एक यादृच्छिक वन भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है। देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेटा एक संदर्भ वितरण से तैयार किए गए हैं। एक यादृच्छिक वन असमानता आकर्षक हो सकती है क्योंकि यह मिश्रित चर प्रकारों को बहुत अच्छी प्रकार से संभालती है, इनपुट चर के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है, और बाहरी टिप्पणियों के लिए मजबूत है। यादृच्छिक वन असमानता अपने आंतरिक चर चयन के कारण बड़ी संख्या में अर्ध-निरंतर चर से आसानी से निपटती है; उदाहरण के लिए, Addcl 1 यादृच्छिक वन डिसिमिलैरिटी प्रत्येक वेरिएबल के योगदान को मापता है कि यह अन्य वेरिएबल्स पर कितना निर्भर है। विभिन्न प्रकार के अनुप्रयोगों में यादृच्छिक वन असमानता का उपयोग किया गया है, उदा। ऊतक मार्कर डेटा के आधार पर रोगियों के समूहों को खोजने के लिए।

वेरिएंट
निर्णय पेड़ों के अतिरिक्त, रैखिक मॉडल प्रस्तावित किए गए हैं और यादृच्छिक जंगलों में आधार अनुमानक के रूप में मूल्यांकन किया गया है, विशेष रूप से बहुराष्ट्रीय रसद प्रतिगमन और सहज बेयस क्लासिफायरियर में। ऐसे स्थितियों में जहां भविष्यवाणियों और लक्ष्य चर के बीच संबंध रैखिक है, आधार शिक्षार्थियों के पास समेकित शिक्षार्थी के समान उच्च त्रुटिहीनता हो सकती है।

कर्नेल यादृच्छिक वन
मशीन लर्निंग में, कर्नेल यादृच्छिक वन (KeRF) यादृच्छिक वन और कर्नेल विधियों के बीच संबंध स्थापित करता है। उनकी परिभाषा को थोड़ा संशोधित करके, यादृच्छिक वनों को कर्नेल विधियों के रूप में फिर से लिखा जा सकता है, जो अधिक व्याख्यात्मक और विश्लेषण करने में आसान हैं।

इतिहास
लियो ब्रिमन यादृच्छिक वन और कर्नेल विधियों के बीच की कड़ी को नोटिस करने वाले पहले व्यक्ति थे। उन्होंने बताया कि यादृच्छिक वन जो i.i.d. का उपयोग करके उगाए जाते हैं। वृक्ष निर्माण में यादृच्छिक वैक्टर सच्चे मार्जिन पर अभिनय करने वाले कर्नेल के समान होते हैं। लिन और जीन यादृच्छिक जंगलों और अनुकूली निकटतम निकटतम के बीच संबंध स्थापित किया, जिसका अर्थ है कि यादृच्छिक जंगलों को अनुकूली कर्नेल अनुमानों के रूप में देखा जा सकता है। डेविस और घरमनी प्रस्तावित यादृच्छिक वन कर्नेल और दिखाते हैं कि यह अनुभवजन्य रूप से अत्याधुनिक कर्नेल विधियों से बेहतर प्रदर्शन कर सकता है। स्कॉर्नेट पहले केआरएफ अनुमानों को परिभाषित किया और केआरएफ अनुमानों और यादृच्छिक वन के बीच स्पष्ट लिंक दिया। उन्होंने केन्द्रित यादृच्छिक वन के आधार पर गुठली के लिए स्पष्ट अभिव्यक्तियाँ भी दीं और समान यादृच्छिक वन, यादृच्छिक वन के दो सरलीकृत मॉडल। उन्होंने इन दो केआरएफ को केंद्रित केआरएफ और यूनिफॉर्म केआरएफ नाम दिया, और उनकी स्थिरता की दरों पर ऊपरी सीमा सिद्ध की।

प्रारंभिक: केंद्रित वन
केन्द्रित जंगल ब्रेमेन के मूल यादृच्छिक वन के लिए एक सरलीकृत मॉडल है, जो समान रूप से सभी विशेषताओं के बीच एक विशेषता का चयन करता है और पूर्व-चयनित विशेषता के साथ सेल के केंद्र में विभाजन करता है। एल्गोरिथ्म बंद हो जाता है जब स्तर का एक पूर्ण बाइनरी ट्री $$k$$ बनाया गया है, जहां $$k \in\mathbb{N} $$ एल्गोरिथम का एक पैरामीटर है।

एक समान वन
वर्दी का जंगल ब्रेमेन के मूल यादृच्छिक वन के लिए एक और सरलीकृत मॉडल है, जो समान रूप से सभी सुविधाओं के बीच एक विशेषता का चयन करता है और सेल के किनारे पर समान रूप से खींचे गए बिंदु पर विभाजित करता है, पूर्व-चयनित सुविधा के साथ।

बेतरतीब जंगल से केआरएफ तक
प्रशिक्षण का नमूना दिया $$\mathcal{D}_n =\{(\mathbf{X}_i, Y_i)\}_{i=1}^n$$ का $$[0,1]^p\times\mathbb{R}$$स्वतंत्र प्रोटोटाइप जोड़ी के रूप में वितरित मूल्यवान स्वतंत्र यादृच्छिक चर $$(\mathbf{X}, Y)$$, कहाँ $$\operatorname{E}[Y^2]<\infty$$. हमारा उद्देश्य प्रतिक्रिया की भविष्यवाणी करना है $$Y$$, यादृच्छिक चर के साथ जुड़ा हुआ है $$\mathbf{X}$$, प्रतिगमन फ़ंक्शन का अनुमान लगाकर $$m(\mathbf{x})=\operatorname{E}[Y \mid \mathbf{X} = \mathbf{x}]$$. एक यादृच्छिक प्रतिगमन वन का एक समूह है $$M$$ यादृच्छिक प्रतिगमन पेड़। निरूपित $$m_n(\mathbf{x},\mathbf{\Theta}_j)$$ बिंदु पर अनुमानित मूल्य $$\mathbf{x}$$ से $$j$$-वाँ पेड़, जहाँ $$\mathbf{\Theta}_1,\ldots,\mathbf{\Theta}_M $$ स्वतंत्र यादृच्छिक चर हैं, एक सामान्य यादृच्छिक चर के रूप में वितरित $$\mathbf{\Theta}$$, नमूने से स्वतंत्र $$\mathcal{D}_n$$. इस यादृच्छिक चर का उपयोग नोड विभाजन और वृक्ष निर्माण के लिए नमूनाकरण प्रक्रिया से प्रेरित यादृच्छिकता का वर्णन करने के लिए किया जा सकता है। परिमित वन अनुमान बनाने के लिए पेड़ों को जोड़ा जाता है $$m_{M, n}(\mathbf{x},\Theta_1,\ldots,\Theta_M) = \frac{1}{M}\sum_{j=1}^M m_n(\mathbf{x},\Theta_j)$$. प्रतिगमन पेड़ों के लिए, हमारे पास है $$m_n = \sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}$$, कहाँ $$A_n(\mathbf{x},\Theta_j)$$ युक्त कोशिका है $$\mathbf{x}$$, यादृच्छिकता के साथ डिजाइन किया गया $$\Theta_j$$ और डेटासेट $$\mathcal{D}_n$$, और $$ N_n(\mathbf{x}, \Theta_j) = \sum_{i=1}^n \mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)}$$.

इस प्रकार यादृच्छिक वन अनुमान सभी के लिए संतुष्ट करते हैं $$\mathbf{x}\in[0,1]^d$$, $$ m_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) =\frac{1}{M}\sum_{j=1}^M \left(\sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}\right)$$. रैंडम रिग्रेशन फ़ॉरेस्ट में औसत के दो स्तर होते हैं, पहले एक पेड़ के लक्ष्य सेल में नमूनों पर, फिर सभी पेड़ों पर। इस प्रकार उन प्रेक्षणों का योगदान जो डेटा बिंदुओं के उच्च घनत्व वाले कक्षों में होते हैं, उन प्रेक्षणों की समानता में कम होते हैं जो कम आबादी वाले कक्षों से संबंधित होते हैं। यादृच्छिक वन विधियों में सुधार करने और गलत आकलन की भरपाई करने के लिए, Scornet के माध्यम से परिभाषित केआरएफ


 * $$ \tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) = \frac{1}{\sum_{j=1}^M N_n(\mathbf{x}, \Theta_j)}\sum_{j=1}^M\sum_{i=1}^n Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)},$$

जो के माध्य के समान है $$Y_i$$युक्त कोशिकाओं में गिर रहा है $$\mathbf{x}$$ जंगल में। यदि हम के कनेक्शन फ़ंक्शन को परिभाषित करते हैं $$M$$ परिमित वन के रूप में $$K_{M,n}(\mathbf{x}, \mathbf{z}) = \frac{1}{M} \sum_{j=1}^M \mathbf{1}_{\mathbf{z} \in A_n (\mathbf{x}, \Theta_j)}$$, अर्थात बीच में साझा की गई कोशिकाओं का अनुपात $$\mathbf{x}$$ और $$\mathbf{z}$$, तो एकमात्र निश्चित रूप से हमारे पास है $$\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) = \frac{\sum_{i=1}^n Y_i K_{M,n}(\mathbf{x}, \mathbf{x}_i)}{\sum_{\ell=1}^n K_{M,n}(\mathbf{x}, \mathbf{x}_{\ell})}$$, जो केआरएफ को परिभाषित करता है।

केंद्रित केआरएफ
स्तर के केन्द्रित KeRF का निर्माण $$k$$ केंद्रित वन के समान ही है, सिवाय इसके कि भविष्यवाणी के माध्यम से की जाती है $$\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) $$, संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है



\begin{align} K_k^{cc}(\mathbf{x},\mathbf{z}) = \sum_{k_1,\ldots,k_d, \sum_{j=1}^d k_j=k} & \frac{k!}{k_1!\cdots k_d!} \left(\frac 1 d \right)^k \prod_{j=1}^d\mathbf{1}_{\lceil2^{k_j}x_j\rceil=\lceil2^{k_j}z_j\rceil}, \\ & \text{ for all } \mathbf{x},\mathbf{z}\in[0,1]^d. \end{align} $$

वर्दी केआरएफ
यूनिफ़ॉर्म केआरएफ उसी प्रकार से बनाया गया है जैसे यूनिफ़ॉर्म फ़ॉरेस्ट, सिवाय इसके कि भविष्यवाणी की जाती है $$\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) $$, संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है
 * $$K_k^{uf}(\mathbf{0},\mathbf{x}) =

\sum_{k_1,\ldots,k_d, \sum_{j=1}^d k_j=k} \frac{k!}{k_1!\ldots k_d!}\left(\frac{1}{d}\right)^k \prod_{m=1}^d\left(1-|x_m|\sum_{j=0}^{k_m-1}\frac{(-\ln|x_m|)^j}{j!}\right) \text{ for all } \mathbf{x}\in[0,1]^d.$$

केआरएफ और यादृच्छिक वन के बीच संबंध
यदि प्रत्येक सेल में बिंदुओं की संख्या नियंत्रित है तो केआरएफ और यादृच्छिक वनों के माध्यम से दी गई भविष्यवाणियां निकट हैं:

 मान लें कि अनुक्रम सम्मलित हैं $$ (a_n),(b_n) $$ ऐसा कि, एकमात्र निश्चित रूप से,
 * $$ a_n\leq N_n(\mathbf{x},\Theta)\leq b_n \text{ and } a_n\leq \frac 1 M \sum_{m=1}^M N_n {\mathbf{x},\Theta_m}\leq b_n.

$$ तब एकमात्र निश्चित रूप से,
 * $$|m_{M,n}(\mathbf{x}) - \tilde{m}_{M,n}(\mathbf{x})| \le\frac{b_n-a_n}{a_n} \tilde{m}_{M,n}(\mathbf{x}).

$$ 

अनंत केआरएफ और अनंत यादृच्छिक वन के बीच संबंध
जब पेड़ों की संख्या $$M$$ अनंत तक जाता है, तो हमारे पास अनंत यादृच्छिक वन और अनंत केआरएफ हैं। यदि प्रत्येक कोशिका में प्रेक्षणों की संख्या सीमित है तो उनके अनुमान निकट हैं:

 मान लें कि अनुक्रम सम्मलित हैं $$(\varepsilon_n), (a_n),(b_n)$$ ऐसा है कि, एकमात्र निश्चित रूप से तब एकमात्र निश्चित रूप से,
 * $$\operatorname{E}[N_n(\mathbf{x},\Theta)] \ge 1,$$
 * $$\operatorname{P}[a_n\le N_n(\mathbf{x},\Theta) \le b_n\mid \mathcal{D}_n] \ge 1-\varepsilon_n/2,$$
 * $$\operatorname{P}[a_n\le \operatorname{E}_\Theta [N_n(\mathbf{x},\Theta)] \le b_n\mid \mathcal{D}_n] \ge 1-\varepsilon_n/2,$$
 * $$ |m_{\infty,n}(\mathbf{x})-\tilde{m}_{\infty,n}(\mathbf{x})| \le

\frac{b_n-a_n}{a_n}\tilde{m}_{\infty,n}(\mathbf{x}) + n \varepsilon_n \left( \max_{1\le i\le n} Y_i \right).$$ 

संगति परिणाम
ये मान लीजिए $$Y = m(\mathbf{X}) + \varepsilon$$, कहाँ $$\varepsilon$$ से स्वतंत्र एक केंद्रित गाऊसी शोर है $$\mathbf{X}$$, परिमित विचरण के साथ $$\sigma^2<\infty$$. इसके अतिरिक्त, $$\mathbf{X}$$ पर समान रूप से वितरित है $$[0,1]^d$$ और $$m$$ लिप्सचिट्ज़ है। स्कॉर्नेट केंद्रित केआरएफ और वर्दी केआरएफ के लिए स्थिरता की दरों पर ऊपरी सीमा सिद्ध हुई।

केंद्रित केआरएफ की संगति
उपलब्ध कराने के $$k\rightarrow\infty$$ और $$n/2^k\rightarrow\infty$$, एक स्थिर सम्मलित है $$C_1>0$$ ऐसा कि, सभी के लिए $$n$$, $$ \mathbb{E}[\tilde{m}_n^{cc}(\mathbf{X}) - m(\mathbf{X})]^2 \le C_1 n^{-1/(3+d\log 2)}(\log n)^2$$.

वर्दी केआरएफ की संगति
उपलब्ध कराने के $$k\rightarrow\infty$$ और $$n/2^k\rightarrow\infty$$, एक स्थिर सम्मलित है $$C>0$$ ऐसा है कि, $$\mathbb{E}[\tilde{m}_n^{uf}(\mathbf{X})-m(\mathbf{X})]^2\le Cn^{-2/(6+3d\log2)}(\log n)^2$$.

हानि
चूँकि यादृच्छिक वन अधिकांशतः एकल निर्णय वृक्ष की समानता में उच्च त्रुटिहीनता प्राप्त करते हैं, वे निर्णय वृक्षों में सम्मलित आंतरिक व्याख्यात्मकता का त्याग करते हैं। निर्णय वृक्ष मशीन लर्निंग मॉडल के अधिक छोटे परिवार में से हैं जो रैखिक मॉडल, नियम-आधारित मशीन लर्निंग | नियम-आधारित मॉडल और ध्यान (मशीन लर्निंग)-आधारित मॉडल के साथ आसानी से व्याख्या योग्य हैं। यह व्याख्यात्मकता निर्णय पेड़ों के सबसे वांछनीय गुणों में से एक है। यह डेवलपर्स को यह पुष्टि करने की अनुमति देता है कि मॉडल ने डेटा से यथार्थवादी जानकारी सीखी है और अंतिम उपयोगकर्ताओं को मॉडल के माध्यम से किए गए निर्णयों में विश्वास और विश्वास रखने की अनुमति देता है। उदाहरण के लिए, एक निर्णय वृक्ष अपना निर्णय लेने के लिए जिस मार्ग का अनुसरण करता है, वह अधिक तुच्छ है, किन्तु दसियों या सैकड़ों पेड़ों के पथ का अनुसरण करना बहुत कठिन है। प्रदर्शन और व्याख्या दोनों को प्राप्त करने के लिए, कुछ मॉडल संपीड़न तकनीकें एक यादृच्छिक वन को एक न्यूनतम जन्म-पुनर्जन्म निर्णय पेड़ में बदलने की अनुमति देती हैं जो समान निर्णय फ़ंक्शन को ईमानदारी से पुन: उत्पन्न करता है।  यदि यह स्थापित हो जाता है कि पूर्वानुमानित विशेषताएँ लक्ष्य चर के साथ रैखिक रूप से सहसंबद्ध हैं, तो यादृच्छिक वन का उपयोग करने से आधार शिक्षार्थी की त्रुटिहीनता में वृद्धि नहीं हो सकती है।  इसके अतिरिक्त, कई श्रेणीगत चर के साथ समस्याओं में, यादृच्छिक वन आधार शिक्षार्थी की त्रुटिहीनता को बढ़ाने में सक्षम नहीं हो सकते हैं।

बाहरी संबंध

 * Random Forests classifier description (Leo Breiman's site)
 * Liaw, Andy & Wiener, Matthew "Classification and Regression by randomForest" R News (2002) Vol. 2/3 p. 18 (Discussion of the use of the random forest package for R)