रैंडम फॉरेस्ट: Difference between revisions

Revision as of 23:09, 14 March 2023

एक यादृच्छिक निर्णय वन का आरेख

यादृच्छिक वन या यादृच्छिक निर्णय वन सांख्यिकीय वर्गीकरण, प्रतिगमन विश्लेषण और अन्य कार्यों के लिए एक समेकित सीखने की विधि है जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, यादृच्छिक वन का उत्पादन अधिकांश पेड़ों के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।^[1]^[2]रैंडम डिसीजन फॉरेस्ट्स अपने टेस्ट सेट के लिए निर्णय पेड़ों की overfitting की आदत के लिए सही हैं।^[3]^{: 587–588} रैंडम फ़ॉरेस्ट सामान्यतः डिसीजन ट्री लर्निंग से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।^{[citation needed]} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।^[4]^[5]

यादृच्छिक निर्णय वनों के लिए पहला एल्गोरिथम 1995 में तिन कम हो के माध्यम से बनाया गया था^[1] यादृच्छिक उपस्थान विधि का उपयोग करना,^[2] जो, हो के सूत्रीकरण में, यूजीन क्लेनबर्ग के माध्यम से प्रस्तावित वर्गीकरण के लिए स्टोकेस्टिक भेदभाव दृष्टिकोण को लागू करने का एक विधि है।^[6]^[7]^[8] एल्गोरिथम का एक विस्तार लियो ब्रिमन के माध्यम से विकसित किया गया था^[9] और एडेल कटलर,^[10]जिसने पंजीकरण कराया^[11] 2006 में ट्रेडमार्क के रूप में यादृच्छिक वन (as of 2019^[update], जिसका स्वामित्व मिनिटैब|मिनिटैब, इंक.) के पास है।^[12] यह विस्तार ब्रीमन के बूटस्ट्रैप एकत्रीकरण विचार और सुविधाओं के यादृच्छिक चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुतकिया गया था^[1]और बाद में अमित और डोनाल्ड जेमन के माध्यम से स्वतंत्र रूप से^[13] नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।

रैंडम फ़ॉरेस्ट का अधिकांशतः व्यवसायों में ब्लैक बॉक्स मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े कॉन्फ़िगरेशन की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।^{[citation needed]}

इतिहास

यादृच्छिक निर्णय वनों की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।^[1]हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को यादृच्छिक रूप से एकमात्र चयनित फ़ीचर (मशीन लर्निंग) आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी तर्ज पर आगे का काम^[2]निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे बेतरतीब ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल क्लासिफायरियर (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक क्लासिफायर की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए वन पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।^[6]^[7]^[8]

बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था

जेमन^[13]जिन्होंने यादृच्छिक उपसमुच्चय पर खोज करने का विचार प्रस्तुतकिया एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय निर्णय वृक्ष। हो से यादृच्छिक उपस्थान चयन का विचार^[2]यादृच्छिक वनों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है, और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले यादृच्छिक रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार यादृच्छिक नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है एक नियतात्मक अनुकूलन के अतिरिक्त यादृच्छिक प्रक्रिया पहले थी थॉमस जी डायटरिच के माध्यम से प्रस्तुतकिया गया।^[14] यादृच्छिक वनों का उचित परिचय एक कागज में किया गया था लियो ब्रिमन के माध्यम से।^[9] यह पत्र जंगल बनाने की एक विधि का वर्णन करता है एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, यादृच्छिक नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं यादृच्छिक वनों का आधुनिक अभ्यास, विशेष रूप से:

सामान्यीकरण त्रुटि के अनुमान के रूप में आउट-ऑफ-बैग त्रुटि का उपयोग करना।
क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।

रिपोर्ट यादृच्छिक जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है जंगल में पेड़ और उनका सहसंबंध।

एल्गोरिथम

प्रारंभिक: निर्णय वृक्ष सीखना

निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, ट्रेवर हेस्टी एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।^[3]^: 352

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। रैंडम फ़ॉरेस्ट एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।^[3]^{: 587–588} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

वन निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक यादृच्छिक पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, वन क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

बैगिंग

रैंडम फ़ॉरेस्ट के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया $X$ = $x 1$ , ..., $x n$ प्रतिक्रियाओं के साथ $Y$ = $y 1$ , ..., $y n$ , बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:

के लिए

b

= 1, ...,

B

:

# नमूना, प्रतिस्थापन के साथ,

n

प्रशिक्षण के उदाहरण

X

,

Y

; इन्हें कॉल करें

X b

,

Y b

.

एक वर्गीकरण या प्रतिगमन वृक्ष को प्रशिक्षित करें $f b$ पर $X b$ , $Y b$ .

प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां $x'$ सभी अलग-अलग प्रतिगमन पेड़ों से भविष्यवाणियों के औसत से बनाया जा सकता है $x'$ :

{\hat {f}}={\frac {1}{B}}\sum _{b=1}^{B}f_{b}(x')

या ले कर majority vote^[clarify] वर्गीकरण पेड़ों के स्थितियोंमें।

यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई पेड़ों का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई पेड़ों को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण पेड़ों को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।

इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन पेड़ों से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है $x'$ :

\sigma ={\sqrt {\frac {\sum _{b=1}^{B}(f_{b}(x')-{\hat {f}})^{2}}{B-1}}}.

नमूनों/पेड़ों की संख्या, $B$ , एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार पेड़ों का उपयोग किया जाता है। पेड़ों की इष्टतम संख्या $B$ क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि $x i$ , एकमात्र उन पेड़ों का उपयोग करना जिनके पास नहीं था $x i$ उनके बूटस्ट्रैप नमूने में।^[15] कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

बैगिंग से यादृच्छिक वनों तक

उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। रैंडम फ़ॉरेस्ट में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा $B$ पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और यादृच्छिक उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।^[16] सामान्यतः, एक वर्गीकरण समस्या के लिए $p$ विशेषताएँ, √ $p$ (राउंड डाउन) सुविधाओं का उपयोग प्रत्येक विभाजन में किया जाता है।^[3]^: 592 प्रतिगमन समस्याओं के लिए आविष्कारक सलाह देते हैं $p/3$ (राउंड डाउन) डिफ़ॉल्ट के रूप में 5 के न्यूनतम नोड आकार के साथ।^[3]^: 592 व्यवहार में, इन पैरामीटरों के लिए सर्वोत्तम मूल्यों को हर समस्या के लिए स्थिति-दर-स्थिति आधार पर ट्यून किया जाना चाहिए।^[3]^: 592

अतिरिक्त पेड़

रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य यादृच्छिक वनों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी यादृच्छिक है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, सूचना लाभ या गिन्नी अशुद्धता के आधार पर), एक यादृच्छिक कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण यादृच्छिक वनों के समान, प्रत्येक नोड पर विचार किए जाने वाले यादृच्छिक रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं ${\sqrt {p}}$ वर्गीकरण के लिए और $p$ प्रतिगमन के लिए, जहां $p$ मॉडल में सुविधाओं की संख्या है।^[17]

गुण

परिवर्तनीय महत्व

प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए यादृच्छिक जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था^[9]और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।^[10] डेटा सेट में चर महत्व को मापने का पहला चरण ${\mathcal {D}}_{n}=\{(X_{i},Y_{i})\}_{i=1}^{n}$ डेटा के लिए एक यादृच्छिक वन फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।

के महत्व को मापने के लिए $j$ प्रशिक्षण के बाद -थ फीचर, के मूल्य $j$ -वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर $j$ -वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन के माध्यम से स्कोर को सामान्य किया जाता है।

इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल के माध्यम से दी गई और उसका विश्लेषण किया गया।^[18] परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, यादृच्छिक वन अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। आंशिक क्रमपरिवर्तन जैसे तरीके^[19]^[20]^[4]और निष्पक्ष पेड़ उगाना^[21]^[22] समस्या को हल करने के लिए उपयोग किया जा सकता है। यदि डेटा में आउटपुट के लिए समान प्रासंगिकता की सहसंबद्ध विशेषताओं के समूह होते हैं, तो बड़े समूहों पर छोटे समूहों का पक्ष लिया जाता है।^[23]

निकटतम पड़ोसियों से संबंध

यादृच्छिक जंगलों और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध $k$ -निकटतम निकटतम एल्गोरिथम ( $k$ -एनएन) को 2002 में लिन और जीन के माध्यम से इंगित किया गया था।^[24] यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं $\{(x_{i},y_{i})\}_{i=1}^{n}$ जो भविष्यवाणी करते हैं ${\hat {y}}$ नए बिंदुओं के लिए $x'$ बिंदु के पड़ोस को देखकर, वजन समारोह के माध्यम से औपचारिक रूप दिया गया $W$ :

{\hat {y}}=\sum _{i=1}^{n}W(x_{i},x')\,y_{i}.

यहाँ, $W(x_{i},x')$ का गैर-ऋणात्मक भार है $i$ 'वाँ प्रशिक्षण बिंदु नए बिंदु के सापेक्ष $x'$ उसी पेड़ में। किसी विशेष के लिए $x'$ , अंकों के लिए भार $x_{i}$ एक होना चाहिए। वजन कार्य निम्नानुसार दिए गए हैं:

में $k$ -एनएन, वजन हैं $W(x_{i},x')={\frac {1}{k}}$ यदि $x i$ उनमे से एक है $k$ के सबसे निकट स्थित है $x'$ , और शून्य अन्यथा।
एक पेड़ में, $W(x_{i},x')={\frac {1}{k'}}$ यदि $x i$ उनमे से एक है $k'$ उसी पत्ते में इंगित करता है $x'$ , और शून्य अन्यथा।

चूंकि एक जंगल औसत के एक सेट की भविष्यवाणी करता है $m$ व्यक्तिगत भार कार्यों वाले पेड़ $W_{j}$ , इसकी भविष्यवाणियां हैं

{\hat {y}}={\frac {1}{m}}\sum _{j=1}^{m}\sum _{i=1}^{n}W_{j}(x_{i},x')\,y_{i}=\sum _{i=1}^{n}\left({\frac {1}{m}}\sum _{j=1}^{m}W_{j}(x_{i},x')\right)\,y_{i}.

इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम $x'$ इस व्याख्या में बिंदु हैं $x_{i}$ किसी पेड़ में एक ही पत्ते को बांटना $j$ . इस प्रकार, के पड़ोस $x'$ पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक यादृच्छिक वन के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।^[24]

बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा

उनके निर्माण के हिस्से के रूप में, यादृच्छिक वन भविष्यसमया स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक यादृच्छिक वन असमानता माप को भी परिभाषित किया जा सकता है: विचार एक यादृच्छिक वन भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।^[9]^[25] देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेटा एक संदर्भ वितरण से तैयार किए गए हैं। एक यादृच्छिक वन असमानता आकर्षक हो सकती है क्योंकि यह मिश्रित चर प्रकारों को बहुत अच्छी प्रकार से संभालती है, इनपुट चर के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है, और बाहरी टिप्पणियों के लिए मजबूत है। यादृच्छिक वन असमानता अपने आंतरिक चर चयन के कारण बड़ी संख्या में अर्ध-निरंतर चर से आसानी से निपटती है; उदाहरण के लिए, Addcl 1 रैंडम फ़ॉरेस्ट डिसिमिलैरिटी प्रत्येक वेरिएबल के योगदान को मापता है कि यह अन्य वेरिएबल्स पर कितना निर्भर है। विभिन्न प्रकार के अनुप्रयोगों में यादृच्छिक वन असमानता का उपयोग किया गया है, उदा। ऊतक मार्कर डेटा के आधार पर रोगियों के समूहों को खोजने के लिए।^[26]

वेरिएंट

निर्णय पेड़ों के अतिरिक्त, रैखिक मॉडल प्रस्तावित किए गए हैं और यादृच्छिक जंगलों में आधार अनुमानक के रूप में मूल्यांकन किया गया है, विशेष रूप से बहुराष्ट्रीय रसद प्रतिगमन और सहज बेयस क्लासिफायरियर में।^[5]^[27]^[28] ऐसे स्थितियों में जहां भविष्यवाणियों और लक्ष्य चर के बीच संबंध रैखिक है, आधार शिक्षार्थियों के पास समेकित शिक्षार्थी के समान उच्च त्रुटिहीनता हो सकती है।^[29]^[5]

कर्नेल यादृच्छिक वन

मशीन लर्निंग में, कर्नेल रैंडम फ़ॉरेस्ट (KeRF) रैंडम फ़ॉरेस्ट और कर्नेल विधियों के बीच संबंध स्थापित करता है। उनकी परिभाषा को थोड़ा संशोधित करके, यादृच्छिक वनों को कर्नेल विधियों के रूप में फिर से लिखा जा सकता है, जो अधिक व्याख्यात्मक और विश्लेषण करने में आसान हैं।^[30]

इतिहास

लियो ब्रिमन^[31] रैंडम फ़ॉरेस्ट और कर्नेल विधियों के बीच की कड़ी को नोटिस करने वाले पहले व्यक्ति थे। उन्होंने बताया कि यादृच्छिक वन जो i.i.d. का उपयोग करके उगाए जाते हैं। वृक्ष निर्माण में यादृच्छिक वैक्टर सच्चे मार्जिन पर अभिनय करने वाले कर्नेल के समान होते हैं। लिन और जीन^[32] यादृच्छिक जंगलों और अनुकूली निकटतम निकटतम के बीच संबंध स्थापित किया, जिसका अर्थ है कि यादृच्छिक जंगलों को अनुकूली कर्नेल अनुमानों के रूप में देखा जा सकता है। डेविस और घरमनी^[33] प्रस्तावित रैंडम फ़ॉरेस्ट कर्नेल और दिखाते हैं कि यह अनुभवजन्य रूप से अत्याधुनिक कर्नेल विधियों से बेहतर प्रदर्शन कर सकता है। स्कॉर्नेट^[30]पहले केआरएफ अनुमानों को परिभाषित किया और केआरएफ अनुमानों और यादृच्छिक वन के बीच स्पष्ट लिंक दिया। उन्होंने केन्द्रित यादृच्छिक वन के आधार पर गुठली के लिए स्पष्ट अभिव्यक्तियाँ भी दीं^[34] और समान यादृच्छिक वन,^[35] यादृच्छिक वन के दो सरलीकृत मॉडल। उन्होंने इन दो केआरएफ को केंद्रित केआरएफ और यूनिफॉर्म केआरएफ नाम दिया, और उनकी स्थिरता की दरों पर ऊपरी सीमा सिद्ध की।

नोटेशन और परिभाषाएँ

प्रारंभिक: केंद्रित वन

केन्द्रित जंगल^[34]ब्रेमेन के मूल यादृच्छिक वन के लिए एक सरलीकृत मॉडल है, जो समान रूप से सभी विशेषताओं के बीच एक विशेषता का चयन करता है और पूर्व-चयनित विशेषता के साथ सेल के केंद्र में विभाजन करता है। एल्गोरिथ्म बंद हो जाता है जब स्तर का एक पूर्ण बाइनरी ट्री $k$ बनाया गया है, जहां $k\in \mathbb {N}$ एल्गोरिथम का एक पैरामीटर है।

एक समान वन

वर्दी का जंगल^[35]ब्रेमेन के मूल रैंडम फ़ॉरेस्ट के लिए एक और सरलीकृत मॉडल है, जो समान रूप से सभी सुविधाओं के बीच एक विशेषता का चयन करता है और सेल के किनारे पर समान रूप से खींचे गए बिंदु पर विभाजित करता है, पूर्व-चयनित सुविधा के साथ।

बेतरतीब जंगल से केआरएफ तक

प्रशिक्षण का नमूना दिया ${\mathcal {D}}_{n}=\{(\mathbf {X} _{i},Y_{i})\}_{i=1}^{n}$ का $[0,1]^{p}\times \mathbb {R}$ स्वतंत्र प्रोटोटाइप जोड़ी के रूप में वितरित मूल्यवान स्वतंत्र यादृच्छिक चर $(\mathbf {X} ,Y)$ , कहाँ $\operatorname {E} [Y^{2}]<\infty$ . हमारा उद्देश्य प्रतिक्रिया की भविष्यवाणी करना है $Y$ , यादृच्छिक चर के साथ जुड़ा हुआ है $\mathbf {X}$ , प्रतिगमन फ़ंक्शन का अनुमान लगाकर $m(\mathbf {x} )=\operatorname {E} [Y\mid \mathbf {X} =\mathbf {x} ]$ . एक यादृच्छिक प्रतिगमन वन का एक समूह है $M$ यादृच्छिक प्रतिगमन पेड़। निरूपित $m_{n}(\mathbf {x} ,\mathbf {\Theta } _{j})$ बिंदु पर अनुमानित मूल्य $\mathbf {x}$ से $j$ -वाँ पेड़, जहाँ $\mathbf {\Theta } _{1},\ldots ,\mathbf {\Theta } _{M}$ स्वतंत्र यादृच्छिक चर हैं, एक सामान्य यादृच्छिक चर के रूप में वितरित $\mathbf {\Theta }$ , नमूने से स्वतंत्र ${\mathcal {D}}_{n}$ . इस यादृच्छिक चर का उपयोग नोड विभाजन और वृक्ष निर्माण के लिए नमूनाकरण प्रक्रिया से प्रेरित यादृच्छिकता का वर्णन करने के लिए किया जा सकता है। परिमित वन अनुमान बनाने के लिए पेड़ों को जोड़ा जाता है $m_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})={\frac {1}{M}}\sum _{j=1}^{M}m_{n}(\mathbf {x} ,\Theta _{j})$ . प्रतिगमन पेड़ों के लिए, हमारे पास है $m_{n}=\sum _{i=1}^{n}{\frac {Y_{i}\mathbf {1} _{\mathbf {X} _{i}\in A_{n}(\mathbf {x} ,\Theta _{j})}}{N_{n}(\mathbf {x} ,\Theta _{j})}}$ , कहाँ $A_{n}(\mathbf {x} ,\Theta _{j})$ युक्त कोशिका है $\mathbf {x}$ , यादृच्छिकता के साथ डिजाइन किया गया $\Theta _{j}$ और डेटासेट ${\mathcal {D}}_{n}$ , और $N_{n}(\mathbf {x} ,\Theta _{j})=\sum _{i=1}^{n}\mathbf {1} _{\mathbf {X} _{i}\in A_{n}(\mathbf {x} ,\Theta _{j})}$ .

इस प्रकार यादृच्छिक वन अनुमान सभी के लिए संतुष्ट करते हैं $\mathbf {x} \in [0,1]^{d}$ , $m_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})={\frac {1}{M}}\sum _{j=1}^{M}\left(\sum _{i=1}^{n}{\frac {Y_{i}\mathbf {1} _{\mathbf {X} _{i}\in A_{n}(\mathbf {x} ,\Theta _{j})}}{N_{n}(\mathbf {x} ,\Theta _{j})}}\right)$ . रैंडम रिग्रेशन फ़ॉरेस्ट में औसत के दो स्तर होते हैं, पहले एक पेड़ के लक्ष्य सेल में नमूनों पर, फिर सभी पेड़ों पर। इस प्रकार उन प्रेक्षणों का योगदान जो डेटा बिंदुओं के उच्च घनत्व वाले कक्षों में होते हैं, उन प्रेक्षणों की समानता में कम होते हैं जो कम आबादी वाले कक्षों से संबंधित होते हैं। यादृच्छिक वन विधियों में सुधार करने और गलत आकलन की भरपाई करने के लिए, Scornet^[30] के माध्यम से परिभाषित केआरएफ

{\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})={\frac {1}{\sum _{j=1}^{M}N_{n}(\mathbf {x} ,\Theta _{j})}}\sum _{j=1}^{M}\sum _{i=1}^{n}Y_{i}\mathbf {1} _{\mathbf {X} _{i}\in A_{n}(\mathbf {x} ,\Theta _{j})},

जो के माध्य के समान है $Y_{i}$ युक्त कोशिकाओं में गिर रहा है $\mathbf {x}$ जंगल में। यदि हम के कनेक्शन फ़ंक्शन को परिभाषित करते हैं $M$ परिमित वन के रूप में $K_{M,n}(\mathbf {x} ,\mathbf {z} )={\frac {1}{M}}\sum _{j=1}^{M}\mathbf {1} _{\mathbf {z} \in A_{n}(\mathbf {x} ,\Theta _{j})}$ , अर्थात बीच में साझा की गई कोशिकाओं का अनुपात $\mathbf {x}$ और $\mathbf {z}$ , तो एकमात्र निश्चित रूप से हमारे पास है ${\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})={\frac {\sum _{i=1}^{n}Y_{i}K_{M,n}(\mathbf {x} ,\mathbf {x} _{i})}{\sum _{\ell =1}^{n}K_{M,n}(\mathbf {x} ,\mathbf {x} _{\ell })}}$ , जो केआरएफ को परिभाषित करता है।

केंद्रित केआरएफ

स्तर के केन्द्रित KeRF का निर्माण $k$ केंद्रित वन के समान ही है, सिवाय इसके कि भविष्यवाणी के माध्यम से की जाती है ${\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})$ , संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है

{\begin{aligned}K_{k}^{cc}(\mathbf {x} ,\mathbf {z} )=\sum _{k_{1},\ldots ,k_{d},\sum _{j=1}^{d}k_{j}=k}&{\frac {k!}{k_{1}!\cdots k_{d}!}}\left({\frac {1}{d}}\right)^{k}\prod _{j=1}^{d}\mathbf {1} _{\lceil 2^{k_{j}}x_{j}\rceil =\lceil 2^{k_{j}}z_{j}\rceil },\\&{\text{ for all }}\mathbf {x} ,\mathbf {z} \in [0,1]^{d}.\end{aligned}}

वर्दी केआरएफ

यूनिफ़ॉर्म केआरएफ उसी प्रकार से बनाया गया है जैसे यूनिफ़ॉर्म फ़ॉरेस्ट, सिवाय इसके कि भविष्यवाणी की जाती है ${\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})$ , संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है

K_{k}^{uf}(\mathbf {0} ,\mathbf {x} )=\sum _{k_{1},\ldots ,k_{d},\sum _{j=1}^{d}k_{j}=k}{\frac {k!}{k_{1}!\ldots k_{d}!}}\left({\frac {1}{d}}\right)^{k}\prod _{m=1}^{d}\left(1-|x_{m}|\sum _{j=0}^{k_{m}-1}{\frac {(-\ln |x_{m}|)^{j}}{j!}}\right){\text{ for all }}\mathbf {x} \in [0,1]^{d}.

गुण

केआरएफ और यादृच्छिक वन के बीच संबंध

यदि प्रत्येक सेल में बिंदुओं की संख्या नियंत्रित है तो केआरएफ और यादृच्छिक वनों के माध्यम से दी गई भविष्यवाणियां निकट हैं:

<ब्लॉककोट> मान लें कि अनुक्रम सम्मलित हैं $(a_{n}),(b_{n})$ ऐसा कि, एकमात्र निश्चित रूप से,

a_{n}\leq N_{n}(\mathbf {x} ,\Theta )\leq b_{n}{\text{ and }}a_{n}\leq {\frac {1}{M}}\sum _{m=1}^{M}N_{n}{\mathbf {x} ,\Theta _{m}}\leq b_{n}.

तब एकमात्र निश्चित रूप से,

|m_{M,n}(\mathbf {x} )-{\tilde {m}}_{M,n}(\mathbf {x} )|\leq {\frac {b_{n}-a_{n}}{a_{n}}}{\tilde {m}}_{M,n}(\mathbf {x} ).

</ब्लॉककोट>

अनंत केआरएफ और अनंत यादृच्छिक वन के बीच संबंध

जब पेड़ों की संख्या $M$ अनंत तक जाता है, तो हमारे पास अनंत यादृच्छिक वन और अनंत केआरएफ हैं। यदि प्रत्येक कोशिका में प्रेक्षणों की संख्या सीमित है तो उनके अनुमान निकट हैं:

<ब्लॉककोट> मान लें कि अनुक्रम सम्मलित हैं $(\varepsilon _{n}),(a_{n}),(b_{n})$ ऐसा है कि, एकमात्र निश्चित रूप से

$\operatorname {E} [N_{n}(\mathbf {x} ,\Theta )]\geq 1,$
$\operatorname {P} [a_{n}\leq N_{n}(\mathbf {x} ,\Theta )\leq b_{n}\mid {\mathcal {D}}_{n}]\geq 1-\varepsilon _{n}/2,$
$\operatorname {P} [a_{n}\leq \operatorname {E} _{\Theta }[N_{n}(\mathbf {x} ,\Theta )]\leq b_{n}\mid {\mathcal {D}}_{n}]\geq 1-\varepsilon _{n}/2,$

तब एकमात्र निश्चित रूप से,

|m_{\infty ,n}(\mathbf {x} )-{\tilde {m}}_{\infty ,n}(\mathbf {x} )|\leq {\frac {b_{n}-a_{n}}{a_{n}}}{\tilde {m}}_{\infty ,n}(\mathbf {x} )+n\varepsilon _{n}\left(\max _{1\leq i\leq n}Y_{i}\right).

</ब्लॉककोट>

संगति परिणाम

ये मान लीजिए $Y=m(\mathbf {X} )+\varepsilon$ , कहाँ $\varepsilon$ से स्वतंत्र एक केंद्रित गाऊसी शोर है $\mathbf {X}$ , परिमित विचरण के साथ $\sigma ^{2}<\infty$ . इसके अतिरिक्त, $\mathbf {X}$ पर समान रूप से वितरित है $[0,1]^{d}$ और $m$ लिप्सचिट्ज़ है। स्कॉर्नेट^[30]केंद्रित केआरएफ और वर्दी केआरएफ के लिए स्थिरता की दरों पर ऊपरी सीमा सिद्ध हुई।

केंद्रित केआरएफ की संगति

उपलब्ध कराने के $k\rightarrow \infty$ और $n/2^{k}\rightarrow \infty$ , एक स्थिर सम्मलित है $C_{1}>0$ ऐसा कि, सभी के लिए $n$ , $\mathbb {E} [{\tilde {m}}_{n}^{cc}(\mathbf {X} )-m(\mathbf {X} )]^{2}\leq C_{1}n^{-1/(3+d\log 2)}(\log n)^{2}$ .

वर्दी केआरएफ की संगति

उपलब्ध कराने के $k\rightarrow \infty$ और $n/2^{k}\rightarrow \infty$ , एक स्थिर सम्मलित है $C>0$ ऐसा है कि, $\mathbb {E} [{\tilde {m}}_{n}^{uf}(\mathbf {X} )-m(\mathbf {X} )]^{2}\leq Cn^{-2/(6+3d\log 2)}(\log n)^{2}$ .

हानि

चूँकि यादृच्छिक वन अधिकांशतः एकल निर्णय वृक्ष की समानता में उच्च त्रुटिहीनता प्राप्त करते हैं, वे निर्णय वृक्षों में सम्मलित आंतरिक व्याख्यात्मकता का त्याग करते हैं। निर्णय वृक्ष मशीन लर्निंग मॉडल के अधिक छोटे परिवार में से हैं जो रैखिक मॉडल, नियम-आधारित मशीन लर्निंग | नियम-आधारित मॉडल और ध्यान (मशीन लर्निंग)-आधारित मॉडल के साथ आसानी से व्याख्या योग्य हैं। यह व्याख्यात्मकता निर्णय पेड़ों के सबसे वांछनीय गुणों में से एक है। यह डेवलपर्स को यह पुष्टि करने की अनुमति देता है कि मॉडल ने डेटा से यथार्थवादी जानकारी सीखी है और अंतिम उपयोगकर्ताओं को मॉडल के माध्यम से किए गए निर्णयों में विश्वास और विश्वास रखने की अनुमति देता है।^[5]^[3]उदाहरण के लिए, एक निर्णय वृक्ष अपना निर्णय लेने के लिए जिस मार्ग का अनुसरण करता है, वह अधिक तुच्छ है, किन्तु दसियों या सैकड़ों पेड़ों के पथ का अनुसरण करना बहुत कठिन है। प्रदर्शन और व्याख्या दोनों को प्राप्त करने के लिए, कुछ मॉडल संपीड़न तकनीकें एक यादृच्छिक वन को एक न्यूनतम जन्म-पुनर्जन्म निर्णय पेड़ में बदलने की अनुमति देती हैं जो समान निर्णय फ़ंक्शन को ईमानदारी से पुन: उत्पन्न करता है।^[5]^[36]^[37] यदि यह स्थापित हो जाता है कि पूर्वानुमानित विशेषताएँ लक्ष्य चर के साथ रैखिक रूप से सहसंबद्ध हैं, तो यादृच्छिक वन का उपयोग करने से आधार शिक्षार्थी की त्रुटिहीनता में वृद्धि नहीं हो सकती है।^[5]^[29]इसके अतिरिक्त, कई श्रेणीगत चर के साथ समस्याओं में, यादृच्छिक वन आधार शिक्षार्थी की त्रुटिहीनता को बढ़ाने में सक्षम नहीं हो सकते हैं।^[38]

यह भी देखें

संदर्भ

↑ ^1.0 ^1.1 ^1.2 ^1.3 Ho, Tin Kam (1995). Random Decision Forests (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282. Archived from the original (PDF) on 17 April 2016. Retrieved 5 June 2016.
↑ ^2.0 ^2.1 ^2.2 ^2.3 Ho TK (1998). "निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844. doi:10.1109/34.709601.
↑ ^3.0 ^3.1 ^3.2 ^3.3 ^3.4 ^3.5 ^3.6 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). The Elements of Statistical Learning (2nd ed.). Springer. ISBN 0-387-95284-5.
↑ ^4.0 ^4.1 Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.
↑ ^5.0 ^5.1 ^5.2 ^5.3 ^5.4 ^5.5 Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). "फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना". Journal of Infrastructure Systems (in English). 27 (2): 04021005. doi:10.1061/(ASCE)IS.1943-555X.0000602. ISSN 1076-0342. S2CID 233550030.
↑ ^6.0 ^6.1 Kleinberg E (1990). "स्टोकेस्टिक भेदभाव" (PDF). Annals of Mathematics and Artificial Intelligence. 1 (1–4): 207–239. CiteSeerX 10.1.1.25.6750. doi:10.1007/BF01531079. S2CID 206795835. Archived from the original (PDF) on 2018-01-18.
↑ ^7.0 ^7.1 Kleinberg E (1996). "पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि". Annals of Statistics. 24 (6): 2319–2349. doi:10.1214/aos/1032181157. MR 1425956.
↑ ^8.0 ^8.1 Kleinberg E (2000). "स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर" (PDF). IEEE Transactions on PAMI. 22 (5): 473–490. CiteSeerX 10.1.1.33.4131. doi:10.1109/34.857004. S2CID 3563126. Archived from the original (PDF) on 2018-01-18.
↑ ^9.0 ^9.1 ^9.2 ^9.3 Breiman L (2001). "यादृच्छिक वन". Machine Learning. 45 (1): 5–32. Bibcode:2001MachL..45....5B. doi:10.1023/A:1010933404324.
↑ ^10.0 ^10.1 Liaw A (16 October 2012). "आर पैकेज के लिए प्रलेखन randomForest" (PDF). Retrieved 15 March 2013.
↑ U.S. trademark registration number 3185828, registered 2006/12/19.
↑ "RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks".
↑ ^13.0 ^13.1 Amit Y, Geman D (1997). "यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान" (PDF). Neural Computation. 9 (7): 1545–1588. CiteSeerX 10.1.1.57.6069. doi:10.1162/neco.1997.9.7.1545. S2CID 12470146.
↑ Dietterich, Thomas (2000). "An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization". Machine Learning. 40 (2): 139–157. doi:10.1023/A:1007607513941.
↑ Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.
↑ Ho, Tin Kam (2002). "A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors" (PDF). Pattern Analysis and Applications. 5 (2): 102–112. doi:10.1007/s100440200009. S2CID 7415435.
↑ Geurts P, Ernst D, Wehenkel L (2006). "अत्यधिक यादृच्छिक पेड़" (PDF). Machine Learning. 63: 3–42. doi:10.1007/s10994-006-6226-1.
↑ Zhu R, Zeng D, Kosorok MR (2015). "सुदृढीकरण सीखने के पेड़". Journal of the American Statistical Association. 110 (512): 1770–1784. doi:10.1080/01621459.2015.1036994. PMC 4760114. PMID 26903687.
↑ Deng, H.; Runger, G.; Tuv, E. (2011). Bias of importance measures for multi-valued attributes and solutions. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293–300.
↑ Altmann A, Toloşi L, Sander O, Lengauer T (May 2010). "Permutation importance: a corrected feature importance measure". Bioinformatics. 26 (10): 1340–7. doi:10.1093/bioinformatics/btq134. PMID 20385727.
↑ Strobl C, Boulesteix A, Augustin T (2007). "गिन्नी इंडेक्स के आधार पर वर्गीकरण पेड़ों के लिए निष्पक्ष विभाजन चयन" (PDF). Computational Statistics & Data Analysis. 52: 483–501. CiteSeerX 10.1.1.525.3178. doi:10.1016/j.csda.2006.12.030.
↑ Painsky A, Rosset S (2017). "ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है". IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (11): 2142–2153. arXiv:1512.03444. doi:10.1109/tpami.2016.2636831. PMID 28114007. S2CID 5381516.
↑ Tolosi L, Lengauer T (July 2011). "Classification with correlated features: unreliability of feature ranking and solutions". Bioinformatics. 27 (14): 1986–94. doi:10.1093/bioinformatics/btr300. PMID 21576180.
↑ ^24.0 ^24.1 Lin, Yi; Jeon, Yongho (2002). बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी (Technical report). Technical Report No. 1055. University of Wisconsin. CiteSeerX 10.1.1.153.9168.
↑ Shi, T., Horvath, S. (2006). "रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग". Journal of Computational and Graphical Statistics. 15 (1): 118–138. CiteSeerX 10.1.1.698.2365. doi:10.1198/106186006X94072. JSTOR 27594168. S2CID 245216.{{cite journal}}: CS1 maint: uses authors parameter (link)
↑ Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S (April 2005). "Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma". Modern Pathology. 18 (4): 547–57. doi:10.1038/modpathol.3800322. PMID 15529185.
↑ Prinzie, A., Van den Poel, D. (2008). "Random Forests for multiclass classification: Random MultiNomial Logit". Expert Systems with Applications. 34 (3): 1721–1732. doi:10.1016/j.eswa.2007.01.029.{{cite journal}}: CS1 maint: uses authors parameter (link)
↑ Prinzie, Anita (2007). "Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB". In Roland Wagner; Norman Revell; Günther Pernul (eds.). Database and Expert Systems Applications: 18th International Conference, DEXA 2007, Regensburg, Germany, September 3-7, 2007, Proceedings. Lecture Notes in Computer Science. Vol. 4653. pp. 349–358. doi:10.1007/978-3-540-74469-6_35. ISBN 978-3-540-74467-2.
↑ ^29.0 ^29.1 Smith, Paul F.; Ganesh, Siva; Liu, Ping (2013-10-01). "तंत्रिका विज्ञान में भविष्यवाणी के लिए यादृच्छिक वन प्रतिगमन और एकाधिक रैखिक प्रतिगमन की तुलना". Journal of Neuroscience Methods (in English). 220 (1): 85–91. doi:10.1016/j.jneumeth.2013.08.024. PMID 24012917. S2CID 13195700.
↑ ^30.0 ^30.1 ^30.2 ^30.3 Scornet, Erwan (2015). "Random forests and kernel methods". arXiv:1502.03836 [math.ST].
↑ Breiman, Leo (2000). "पूर्वसूचक पहनावा के लिए कुछ अनंत सिद्धांत". Technical Report 579, Statistics Dept. UCB. {{cite journal}}: Cite journal requires |journal= (help)
↑ Lin, Yi; Jeon, Yongho (2006). "बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी". Journal of the American Statistical Association. 101 (474): 578–590. CiteSeerX 10.1.1.153.9168. doi:10.1198/016214505000001230. S2CID 2469856.
↑ Davies, Alex; Ghahramani, Zoubin (2014). "यादृच्छिक विभाजन से बड़े डेटा के लिए रैंडम फ़ॉरेस्ट कर्नेल और अन्य कर्नेल". arXiv:1402.4293 [stat.ML].
↑ ^34.0 ^34.1 Breiman L, Ghahramani Z (2004). "यादृच्छिक वनों के एक साधारण मॉडल के लिए संगति". Statistical Department, University of California at Berkeley. Technical Report (670). CiteSeerX 10.1.1.618.90.
↑ ^35.0 ^35.1 Arlot S, Genuer R (2014). "विशुद्ध रूप से यादृच्छिक वन पूर्वाग्रह का विश्लेषण". arXiv:1407.3939 [math.ST].
↑ Sagi, Omer; Rokach, Lior (2020). "Explainable decision forest: Transforming a decision forest into an interpretable tree". Information Fusion (in English). 61: 124–138. doi:10.1016/j.inffus.2020.03.013. S2CID 216444882.
↑ Vidal, Thibaut; Schiffer, Maximilian (2020). "बॉर्न-अगेन ट्री एन्सेम्बल". International Conference on Machine Learning (in English). PMLR. 119: 9743–9753. arXiv:2003.11132.
↑ Piryonesi, Sayed Madeh (November 2019). Piryonesi, S. M. (2019). The Application of Data Analytics to Asset Management: Deterioration and Climate Change Adaptation in Ontario Roads (Doctoral dissertation) (Thesis).

अग्रिम पठन

Scholia has a topic profile for रैंडम फॉरेस्ट.

Prinzie A, Poel D (2007). "Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB". Database and Expert Systems Applications. Lecture Notes in Computer Science. Vol. 4653. p. 349. doi:10.1007/978-3-540-74469-6_35. ISBN 978-3-540-74467-2.
Denisko D, Hoffman MM (February 2018). "Classification and interaction in random forests". Proceedings of the National Academy of Sciences of the United States of America. 115 (8): 1690–1692. Bibcode:2018PNAS..115.1690D. doi:10.1073/pnas.1800256115. PMC 5828645. PMID 29440440.

बाहरी संबंध

Random Forests classifier description (Leo Breiman's site)
Liaw, Andy & Wiener, Matthew "Classification and Regression by randomForest" R News (2002) Vol. 2/3 p. 18 (Discussion of the use of the random forest package for R)

[ho1995-1] 1.0 ^1.1 ^1.2 ^1.3 Ho, Tin Kam (1995). Random Decision Forests (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282. Archived from the original (PDF) on 17 April 2016. Retrieved 5 June 2016.

[ho1998-2] 2.0 ^2.1 ^2.2 ^2.3 Ho TK (1998). "निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844. doi:10.1109/34.709601.

[elemstatlearn-3] 3.0 ^3.1 ^3.2 ^3.3 ^3.4 ^3.5 ^3.6 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). The Elements of Statistical Learning (2nd ed.). Springer. ISBN 0-387-95284-5.

[:02-4] 4.0 ^4.1 Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.

[:0-5] 5.0 ^5.1 ^5.2 ^5.3 ^5.4 ^5.5 Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). "फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना". Journal of Infrastructure Systems (in English). 27 (2): 04021005. doi:10.1061/(ASCE)IS.1943-555X.0000602. ISSN 1076-0342. S2CID 233550030.

[kleinberg1990-6] 6.0 ^6.1 Kleinberg E (1990). "स्टोकेस्टिक भेदभाव" (PDF). Annals of Mathematics and Artificial Intelligence. 1 (1–4): 207–239. CiteSeerX 10.1.1.25.6750. doi:10.1007/BF01531079. S2CID 206795835. Archived from the original (PDF) on 2018-01-18.

[kleinberg1996-7] 7.0 ^7.1 Kleinberg E (1996). "पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि". Annals of Statistics. 24 (6): 2319–2349. doi:10.1214/aos/1032181157. MR 1425956.

[kleinberg2000-8] 8.0 ^8.1 Kleinberg E (2000). "स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर" (PDF). IEEE Transactions on PAMI. 22 (5): 473–490. CiteSeerX 10.1.1.33.4131. doi:10.1109/34.857004. S2CID 3563126. Archived from the original (PDF) on 2018-01-18.

[breiman2001-9] 9.0 ^9.1 ^9.2 ^9.3 Breiman L (2001). "यादृच्छिक वन". Machine Learning. 45 (1): 5–32. Bibcode:2001MachL..45....5B. doi:10.1023/A:1010933404324.

[rpackage-10] 10.0 ^10.1 Liaw A (16 October 2012). "आर पैकेज के लिए प्रलेखन randomForest" (PDF). Retrieved 15 March 2013.

[11] U.S. trademark registration number 3185828, registered 2006/12/19.

[12] "RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks".

[amitgeman1997-13] 13.0 ^13.1 Amit Y, Geman D (1997). "यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान" (PDF). Neural Computation. 9 (7): 1545–1588. CiteSeerX 10.1.1.57.6069. doi:10.1162/neco.1997.9.7.1545. S2CID 12470146.

[14] Dietterich, Thomas (2000). "An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization". Machine Learning. 40 (2): 139–157. doi:10.1023/A:1007607513941.

[islr-15] Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.

[ho2002-16] Ho, Tin Kam (2002). "A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors" (PDF). Pattern Analysis and Applications. 5 (2): 102–112. doi:10.1007/s100440200009. S2CID 7415435.

[17] Geurts P, Ernst D, Wehenkel L (2006). "अत्यधिक यादृच्छिक पेड़" (PDF). Machine Learning. 63: 3–42. doi:10.1007/s10994-006-6226-1.

[18] Zhu R, Zeng D, Kosorok MR (2015). "सुदृढीकरण सीखने के पेड़". Journal of the American Statistical Association. 110 (512): 1770–1784. doi:10.1080/01621459.2015.1036994. PMC 4760114. PMID 26903687.

[19] Deng, H.; Runger, G.; Tuv, E. (2011). Bias of importance measures for multi-valued attributes and solutions. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293–300.

[20] Altmann A, Toloşi L, Sander O, Lengauer T (May 2010). "Permutation importance: a corrected feature importance measure". Bioinformatics. 26 (10): 1340–7. doi:10.1093/bioinformatics/btq134. PMID 20385727.

[21] Strobl C, Boulesteix A, Augustin T (2007). "गिन्नी इंडेक्स के आधार पर वर्गीकरण पेड़ों के लिए निष्पक्ष विभाजन चयन" (PDF). Computational Statistics & Data Analysis. 52: 483–501. CiteSeerX 10.1.1.525.3178. doi:10.1016/j.csda.2006.12.030.

[22] Painsky A, Rosset S (2017). "ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है". IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (11): 2142–2153. arXiv:1512.03444. doi:10.1109/tpami.2016.2636831. PMID 28114007. S2CID 5381516.

[23] Tolosi L, Lengauer T (July 2011). "Classification with correlated features: unreliability of feature ranking and solutions". Bioinformatics. 27 (14): 1986–94. doi:10.1093/bioinformatics/btr300. PMID 21576180.

[linjeon02-24] 24.0 ^24.1 Lin, Yi; Jeon, Yongho (2002). बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी (Technical report). Technical Report No. 1055. University of Wisconsin. CiteSeerX 10.1.1.153.9168.

[25] Shi, T., Horvath, S. (2006). "रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग". Journal of Computational and Graphical Statistics. 15 (1): 118–138. CiteSeerX 10.1.1.698.2365. doi:10.1198/106186006X94072. JSTOR 27594168. S2CID 245216.{{cite journal}}: CS1 maint: uses authors parameter (link)

[26] Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S (April 2005). "Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma". Modern Pathology. 18 (4): 547–57. doi:10.1038/modpathol.3800322. PMID 15529185.

[27] Prinzie, A., Van den Poel, D. (2008). "Random Forests for multiclass classification: Random MultiNomial Logit". Expert Systems with Applications. 34 (3): 1721–1732. doi:10.1016/j.eswa.2007.01.029.{{cite journal}}: CS1 maint: uses authors parameter (link)

[28] Prinzie, Anita (2007). "Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB". In Roland Wagner; Norman Revell; Günther Pernul (eds.). Database and Expert Systems Applications: 18th International Conference, DEXA 2007, Regensburg, Germany, September 3-7, 2007, Proceedings. Lecture Notes in Computer Science. Vol. 4653. pp. 349–358. doi:10.1007/978-3-540-74469-6_35. ISBN 978-3-540-74467-2.

[:1-29] 29.0 ^29.1 Smith, Paul F.; Ganesh, Siva; Liu, Ping (2013-10-01). "तंत्रिका विज्ञान में भविष्यवाणी के लिए यादृच्छिक वन प्रतिगमन और एकाधिक रैखिक प्रतिगमन की तुलना". Journal of Neuroscience Methods (in English). 220 (1): 85–91. doi:10.1016/j.jneumeth.2013.08.024. PMID 24012917. S2CID 13195700.

[scornet2015random-30] 30.0 ^30.1 ^30.2 ^30.3 Scornet, Erwan (2015). "Random forests and kernel methods". arXiv:1502.03836 [math.ST].

[breiman2000some-31] Breiman, Leo (2000). "पूर्वसूचक पहनावा के लिए कुछ अनंत सिद्धांत". Technical Report 579, Statistics Dept. UCB. {{cite journal}}: Cite journal requires |journal= (help)

[lin2006random-32] Lin, Yi; Jeon, Yongho (2006). "बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी". Journal of the American Statistical Association. 101 (474): 578–590. CiteSeerX 10.1.1.153.9168. doi:10.1198/016214505000001230. S2CID 2469856.

[davies2014random-33] Davies, Alex; Ghahramani, Zoubin (2014). "यादृच्छिक विभाजन से बड़े डेटा के लिए रैंडम फ़ॉरेस्ट कर्नेल और अन्य कर्नेल". arXiv:1402.4293 [stat.ML].

[breiman2004consistency-34] 34.0 ^34.1 Breiman L, Ghahramani Z (2004). "यादृच्छिक वनों के एक साधारण मॉडल के लिए संगति". Statistical Department, University of California at Berkeley. Technical Report (670). CiteSeerX 10.1.1.618.90.

[arlot2014analysis-35] 35.0 ^35.1 Arlot S, Genuer R (2014). "विशुद्ध रूप से यादृच्छिक वन पूर्वाग्रह का विश्लेषण". arXiv:1407.3939 [math.ST].

[36] Sagi, Omer; Rokach, Lior (2020). "Explainable decision forest: Transforming a decision forest into an interpretable tree". Information Fusion (in English). 61: 124–138. doi:10.1016/j.inffus.2020.03.013. S2CID 216444882.

[37] Vidal, Thibaut; Schiffer, Maximilian (2020). "बॉर्न-अगेन ट्री एन्सेम्बल". International Conference on Machine Learning (in English). PMLR. 119: 9743–9753. arXiv:2003.11132.

[:3-38] Piryonesi, Sayed Madeh (November 2019). Piryonesi, S. M. (2019). The Application of Data Analytics to Asset Management: Deterioration and Climate Change Adaptation in Ontario Roads (Doctoral dissertation) (Thesis).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

@@ Line 4: / Line 4: @@
 {{Machine learning|Supervised learning}}
-[[File:Random forest diagram complete.png|thumb|एक यादृच्छिक निर्णय वन का आरेख]]यादृच्छिक वन या यादृच्छिक निर्णय वन [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, यादृच्छिक वन का उत्पादन अधिकांश पेड़ों द्वारा चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>रैंडम डिसीजन फॉरेस्ट्स अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting ]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} रैंडम फ़ॉरेस्ट आमतौर पर डिसीजन ट्री लर्निंग से बेहतर प्रदर्शन करते हैं, लेकिन ग्रेडिएंट बूस्टेड ट्री की तुलना में उनकी सटीकता कम होती है।{{Citation needed|date=May 2022}} हालाँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
+[[File:Random forest diagram complete.png|thumb|एक यादृच्छिक निर्णय वन का आरेख]]यादृच्छिक वन या यादृच्छिक निर्णय वन [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, यादृच्छिक वन का उत्पादन अधिकांश पेड़ों  के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>रैंडम डिसीजन फॉरेस्ट्स अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting ]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} रैंडम फ़ॉरेस्ट सामान्यतः डिसीजन ट्री लर्निंग से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
-यादृच्छिक निर्णय वनों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो ]] द्वारा बनाया गया था<ref name="ho1995">{{cite conference
+यादृच्छिक निर्णय वनों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो ]]  के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
   |first        = Tin Kam
   |last         = Ho
@@ Line 18: / Line 18: @@
   |url-status     = dead
   |df           = dmy-all
-}}</ref> [[यादृच्छिक उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> जो, हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए स्टोकेस्टिक भेदभाव दृष्टिकोण को लागू करने का एक तरीका है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
+}}</ref> [[यादृच्छिक उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> जो, हो के सूत्रीकरण में, यूजीन क्लेनबर्ग  के माध्यम से प्रस्तावित वर्गीकरण के लिए स्टोकेस्टिक भेदभाव दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
-एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]] द्वारा विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage"/>जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में यादृच्छिक वन ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब|मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के यादृच्छिक चयन को जोड़ता है, जिसे पहले हो द्वारा पेश किया गया था<ref name="ho1995"/>और बाद में अमित और [[डोनाल्ड जेमन]] द्वारा स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।
+एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage"/>जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में यादृच्छिक वन ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब|मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के यादृच्छिक चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुतकिया गया था<ref name="ho1995"/>और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।
-रैंडम फ़ॉरेस्ट का अक्सर व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े कॉन्फ़िगरेशन की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}
+रैंडम फ़ॉरेस्ट का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े कॉन्फ़िगरेशन की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}
 == इतिहास ==
-यादृच्छिक निर्णय वनों की सामान्य विधि पहली बार 1995 में हो द्वारा प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल सटीकता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को यादृच्छिक रूप से केवल चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी तर्ज पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे बेतरतीब ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल क्लासिफायरियर (एक बड़ा जंगल) का यह अवलोकन लगभग नीरस रूप से अधिक सटीक हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक क्लासिफायर की जटिलता केवल एक निश्चित स्तर की सटीकता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए वन पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
+यादृच्छिक निर्णय वनों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को यादृच्छिक रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी तर्ज पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे बेतरतीब ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल क्लासिफायरियर (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक क्लासिफायर की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए वन पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
   बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
-जेमन<ref name="amitgeman1997"/>जिन्होंने यादृच्छिक उपसमुच्चय पर खोज करने का विचार पेश किया
+जेमन<ref name="amitgeman1997"/>जिन्होंने यादृच्छिक उपसमुच्चय पर खोज करने का विचार प्रस्तुतकिया
 एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय
 [[निर्णय वृक्ष]]। हो से यादृच्छिक उपस्थान चयन का विचार<ref name="ho1998"/>यादृच्छिक वनों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,
-और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता पेश की जाती है
+और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है
 प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले यादृच्छिक रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार
-यादृच्छिक नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a द्वारा चुना जाता है
+यादृच्छिक नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a  के माध्यम से चुना जाता है
-एक नियतात्मक अनुकूलन के बजाय यादृच्छिक प्रक्रिया पहले थी
+एक नियतात्मक अनुकूलन के अतिरिक्त यादृच्छिक प्रक्रिया पहले थी
-थॉमस जी डायटरिच द्वारा पेश किया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>
+थॉमस जी डायटरिच  के माध्यम से प्रस्तुतकिया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>
 यादृच्छिक वनों का उचित परिचय एक कागज में किया गया था
-लियो ब्रिमन द्वारा।<ref name="breiman2001"/>  यह पत्र जंगल बनाने की एक विधि का वर्णन करता है
+लियो ब्रिमन  के माध्यम से।<ref name="breiman2001"/>  यह पत्र जंगल बनाने की एक विधि का वर्णन करता है
 एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, यादृच्छिक नोड के साथ संयुक्त
-अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अलावा, यह पेपर कई को जोड़ता है
+अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है
 सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं
 यादृच्छिक वनों का आधुनिक अभ्यास, विशेष रूप से:
@@ Line 52: / Line 52: @@
 === प्रारंभिक: निर्णय वृक्ष सीखना ===
 {{main|Decision tree learning}}
-निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय तरीका है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे करीब है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के तहत अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। हालांकि, वे शायद ही कभी सटीक होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
+निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
-विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, यानी बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, लेकिन बहुत उच्च विचरण। रैंडम फ़ॉरेस्ट एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक तरीका है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ नुकसान की कीमत पर आता है, लेकिन आम तौर पर अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
+विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। रैंडम फ़ॉरेस्ट एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
-वन निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक यादृच्छिक पेड़ के प्रदर्शन में सुधार होता है। हालांकि काफी समान नहीं हैं, वन क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
+वन निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक यादृच्छिक पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, वन क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
 === बैगिंग ===
@@ Line 69: / Line 69: @@
 :<math>\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')</math>
-या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण पेड़ों के मामले में।
+या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण पेड़ों के स्थितियोंमें।
-यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका मतलब यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई पेड़ों का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई पेड़ों को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण पेड़ों को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक तरीका है।
+यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई पेड़ों का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई पेड़ों को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण पेड़ों को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।
 इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन पेड़ों से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:
 :<math>\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x')  - \hat{f})^2}{B-1} }.</math>
-नमूनों/पेड़ों की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। आमतौर पर, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार पेड़ों का उपयोग किया जाता है। पेड़ों की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, केवल उन पेड़ों का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
+नमूनों/पेड़ों की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार पेड़ों का उपयोग किया जाता है। पेड़ों की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, एकमात्र उन पेड़ों का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
 कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
 ===बैगिंग से यादृच्छिक वनों तक===
 {{main|Random subspace method}}
-उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। रैंडम फ़ॉरेस्ट में एक अन्य प्रकार की बैगिंग योजना भी शामिल है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यवक्ता हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और यादृच्छिक उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में सटीकता लाभ में योगदान का विश्लेषण हो द्वारा दिया गया है।<ref name="ho2002">
+उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। रैंडम फ़ॉरेस्ट में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और यादृच्छिक उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
 {{cite journal | first = Tin Kam | last = Ho | title = A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors | journal = Pattern Analysis and Applications | volume = 5 | issue = 2 | year = 2002 | pages = 102–112 | url = http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf | doi = 10.1007/s100440200009 | s2cid = 7415435 }}</ref>
-आमतौर पर, एक वर्गीकरण समस्या के लिए {{mvar|p}} विशेषताएँ, {{sqrt|{{mvar|p}}}} (राउंड डाउन) सुविधाओं का उपयोग प्रत्येक विभाजन में किया जाता है।<ref name="elemstatlearn"/>{{rp|592}} प्रतिगमन समस्याओं के लिए आविष्कारक सलाह देते हैं {{mvar|p/3}} (राउंड डाउन) डिफ़ॉल्ट के रूप में 5 के न्यूनतम नोड आकार के साथ।<ref name="elemstatlearn"/>{{rp|592}} व्यवहार में, इन पैरामीटरों के लिए सर्वोत्तम मूल्यों को हर समस्या के लिए मामला-दर-मामला आधार पर ट्यून किया जाना चाहिए।<ref name="elemstatlearn"/>{{rp|592}}
+सामान्यतः, एक वर्गीकरण समस्या के लिए {{mvar|p}} विशेषताएँ, {{sqrt|{{mvar|p}}}} (राउंड डाउन) सुविधाओं का उपयोग प्रत्येक विभाजन में किया जाता है।<ref name="elemstatlearn"/>{{rp|592}} प्रतिगमन समस्याओं के लिए आविष्कारक सलाह देते हैं {{mvar|p/3}} (राउंड डाउन) डिफ़ॉल्ट के रूप में 5 के न्यूनतम नोड आकार के साथ।<ref name="elemstatlearn"/>{{rp|592}} व्यवहार में, इन पैरामीटरों के लिए सर्वोत्तम मूल्यों को हर समस्या के लिए स्थिति-दर-स्थिति आधार पर ट्यून किया जाना चाहिए।<ref name="elemstatlearn"/>{{rp|592}}
 === अतिरिक्त पेड़ ===
-रेंडमाइजेशन के एक और चरण को जोड़ने से बेहद रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। जबकि सामान्य यादृच्छिक वनों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के बजाय) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी यादृच्छिक है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के बजाय (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक यादृच्छिक कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण यादृच्छिक वनों के समान, प्रत्येक नोड पर विचार किए जाने वाले यादृच्छिक रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>
+रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य यादृच्छिक वनों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी यादृच्छिक है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक यादृच्छिक कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण यादृच्छिक वनों के समान, प्रत्येक नोड पर विचार किए जाने वाले यादृच्छिक रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>
@@ Line 95: / Line 95: @@
 प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए यादृच्छिक जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}
 </ref>
-डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक यादृच्छिक वन फिट करना है। फिटिंग प्रक्रिया के दौरान प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के दौरान बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
+डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक यादृच्छिक वन फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
-के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन द्वारा स्कोर को सामान्य किया जाता है।
+के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन  के माध्यम से स्कोर को सामान्य किया जाता है।
-इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की तुलना में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल द्वारा दी गई और उसका विश्लेषण किया गया।<ref>{{cite journal | vauthors = Zhu R, Zeng D, Kosorok MR | title = सुदृढीकरण सीखने के पेड़| journal = Journal of the American Statistical Association | volume = 110 | issue = 512 | pages = 1770–1784 | date = 2015 | pmid = 26903687 | pmc = 4760114 | doi = 10.1080/01621459.2015.1036994 }}</ref>
+इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल  के माध्यम से दी गई और उसका विश्लेषण किया गया।<ref>{{cite journal | vauthors = Zhu R, Zeng D, Kosorok MR | title = सुदृढीकरण सीखने के पेड़| journal = Journal of the American Statistical Association | volume = 110 | issue = 512 | pages = 1770–1784 | date = 2015 | pmid = 26903687 | pmc = 4760114 | doi = 10.1080/01621459.2015.1036994 }}</ref>
 परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, यादृच्छिक वन अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। [[आंशिक क्रमपरिवर्तन]] जैसे तरीके<ref>{{cite conference
 |author=Deng, H.|author2=Runger, G. |author3=Tuv, E.
@@ Line 106: / Line 106: @@
 |year=2011|pages=293–300
 |url=https://www.researchgate.net/publication/221079908
-}}</ref><ref>{{cite journal | vauthors = Altmann A, Toloşi L, Sander O, Lengauer T | title = Permutation importance: a corrected feature importance measure | journal = Bioinformatics | volume = 26 | issue = 10 | pages = 1340–7 | date = May 2010 | pmid = 20385727 | doi = 10.1093/bioinformatics/btq134 | doi-access = free }}</ref><ref name=":02"/>और निष्पक्ष पेड़ उगाना<ref>{{cite journal | last1 = Strobl | first1 = Carolin | last2 = Boulesteix | first2 = Anne-Laure | last3 = Augustin | first3 = Thomas | name-list-style = vanc | title = गिन्नी इंडेक्स के आधार पर वर्गीकरण पेड़ों के लिए निष्पक्ष विभाजन चयन| journal = Computational Statistics & Data Analysis | volume = 52 | year = 2007 | pages = 483–501 | url = https://epub.ub.uni-muenchen.de/1833/1/paper_464.pdf | doi = 10.1016/j.csda.2006.12.030 | citeseerx = 10.1.1.525.3178 }}</ref><ref>{{cite journal|last1=Painsky|first1=Amichai|last2=Rosset|first2=Saharon| name-list-style = vanc |title=ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=2017|volume=39|issue=11|pages=2142–2153|doi=10.1109/tpami.2016.2636831|pmid=28114007|arxiv=1512.03444|s2cid=5381516}}</ref> समस्या को हल करने के लिए इस्तेमाल किया जा सकता है। यदि डेटा में आउटपुट के लिए समान प्रासंगिकता की सहसंबद्ध विशेषताओं के समूह होते हैं, तो बड़े समूहों पर छोटे समूहों का पक्ष लिया जाता है।<ref>{{cite journal | vauthors = Tolosi L, Lengauer T | title = Classification with correlated features: unreliability of feature ranking and solutions | journal = Bioinformatics | volume = 27 | issue = 14 | pages = 1986–94 | date = July 2011 | pmid = 21576180 | doi = 10.1093/bioinformatics/btr300 | doi-access = free }}</ref>
+}}</ref><ref>{{cite journal | vauthors = Altmann A, Toloşi L, Sander O, Lengauer T | title = Permutation importance: a corrected feature importance measure | journal = Bioinformatics | volume = 26 | issue = 10 | pages = 1340–7 | date = May 2010 | pmid = 20385727 | doi = 10.1093/bioinformatics/btq134 | doi-access = free }}</ref><ref name=":02"/>और निष्पक्ष पेड़ उगाना<ref>{{cite journal | last1 = Strobl | first1 = Carolin | last2 = Boulesteix | first2 = Anne-Laure | last3 = Augustin | first3 = Thomas | name-list-style = vanc | title = गिन्नी इंडेक्स के आधार पर वर्गीकरण पेड़ों के लिए निष्पक्ष विभाजन चयन| journal = Computational Statistics & Data Analysis | volume = 52 | year = 2007 | pages = 483–501 | url = https://epub.ub.uni-muenchen.de/1833/1/paper_464.pdf | doi = 10.1016/j.csda.2006.12.030 | citeseerx = 10.1.1.525.3178 }}</ref><ref>{{cite journal|last1=Painsky|first1=Amichai|last2=Rosset|first2=Saharon| name-list-style = vanc |title=ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=2017|volume=39|issue=11|pages=2142–2153|doi=10.1109/tpami.2016.2636831|pmid=28114007|arxiv=1512.03444|s2cid=5381516}}</ref> समस्या को हल करने के लिए उपयोग किया जा सकता है। यदि डेटा में आउटपुट के लिए समान प्रासंगिकता की सहसंबद्ध विशेषताओं के समूह होते हैं, तो बड़े समूहों पर छोटे समूहों का पक्ष लिया जाता है।<ref>{{cite journal | vauthors = Tolosi L, Lengauer T | title = Classification with correlated features: unreliability of feature ranking and solutions | journal = Bioinformatics | volume = 27 | issue = 14 | pages = 1986–94 | date = July 2011 | pmid = 21576180 | doi = 10.1093/bioinformatics/btr300 | doi-access = free }}</ref>
 === निकटतम पड़ोसियों से संबंध ===
-यादृच्छिक जंगलों और के-निकटतम पड़ोसी एल्गोरिदम के बीच संबंध{{mvar|k}}-निकटतम पड़ोसी एल्गोरिथम ({{mvar|k}}-एनएन) को 2002 में लिन और जीन द्वारा इंगित किया गया था।<ref name="linjeon02">{{Cite techreport  |first1=Yi |last1=Lin |first2=Yongho |last2=Jeon |title=बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी|series=Technical Report No. 1055 |year=2002 |institution=University of Wisconsin |citeseerx=10.1.1.153.9168}}</ref> यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं <math>\{(x_i, y_i)\}_{i=1}^n</math> जो भविष्यवाणी करते हैं <math>\hat{y}</math> नए बिंदुओं के लिए {{mvar|x'}} बिंदु के पड़ोस को देखकर, वजन समारोह द्वारा औपचारिक रूप दिया गया {{mvar|W}}:
+यादृच्छिक जंगलों और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध{{mvar|k}}-निकटतम निकटतम एल्गोरिथम ({{mvar|k}}-एनएन) को 2002 में लिन और जीन  के माध्यम से इंगित किया गया था।<ref name="linjeon02">{{Cite techreport  |first1=Yi |last1=Lin |first2=Yongho |last2=Jeon |title=बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी|series=Technical Report No. 1055 |year=2002 |institution=University of Wisconsin |citeseerx=10.1.1.153.9168}}</ref> यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं <math>\{(x_i, y_i)\}_{i=1}^n</math> जो भविष्यवाणी करते हैं <math>\hat{y}</math> नए बिंदुओं के लिए {{mvar|x'}} बिंदु के पड़ोस को देखकर, वजन समारोह  के माध्यम से औपचारिक रूप दिया गया {{mvar|W}}:
 :<math>\hat{y} = \sum_{i=1}^n W(x_i, x') \, y_i.</math>
 यहाँ, <math>W(x_i, x')</math> का गैर-ऋणात्मक भार है {{mvar|i}}'वाँ प्रशिक्षण बिंदु नए बिंदु के सापेक्ष {{mvar|x'}} उसी पेड़ में। किसी विशेष के लिए {{mvar|x'}}, अंकों के लिए भार <math>x_i</math> एक होना चाहिए। वजन कार्य निम्नानुसार दिए गए हैं:
-* में {{mvar|k}}-एनएन, वजन हैं <math>W(x_i, x') = \frac{1}{k}</math> अगर {{mvar|x<sub>i</sub>}} उनमे से एक है {{mvar|k}} के सबसे निकट स्थित है {{mvar|x'}}, और शून्य अन्यथा।
+* में {{mvar|k}}-एनएन, वजन हैं <math>W(x_i, x') = \frac{1}{k}</math> यदि {{mvar|x<sub>i</sub>}} उनमे से एक है {{mvar|k}} के सबसे निकट स्थित है {{mvar|x'}}, और शून्य अन्यथा।
-* एक पेड़ में, <math>W(x_i, x') = \frac{1}{k'}</math> अगर {{mvar|x<sub>i</sub>}} उनमे से एक है {{mvar|k'}} उसी पत्ते में इंगित करता है {{mvar|x'}}, और शून्य अन्यथा।
+* एक पेड़ में, <math>W(x_i, x') = \frac{1}{k'}</math> यदि {{mvar|x<sub>i</sub>}} उनमे से एक है {{mvar|k'}} उसी पत्ते में इंगित करता है {{mvar|x'}}, और शून्य अन्यथा।
 चूंकि एक जंगल औसत के एक सेट की भविष्यवाणी करता है {{mvar|m}} व्यक्तिगत भार कार्यों वाले पेड़ <math>W_j</math>, इसकी भविष्यवाणियां हैं
 :<math>\hat{y} = \frac{1}{m}\sum_{j=1}^m\sum_{i=1}^n W_{j}(x_i, x') \, y_i = \sum_{i=1}^n\left(\frac{1}{m}\sum_{j=1}^m W_{j}(x_i, x')\right) \, y_i.</math>
-इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के पड़ोसी {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक यादृच्छिक वन द्वारा उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>
+इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक यादृच्छिक वन  के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>
 == बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा ==
-उनके निर्माण के हिस्से के रूप में, यादृच्छिक वन भविष्यवक्ता स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक यादृच्छिक वन असमानता माप को भी परिभाषित किया जा सकता है: विचार एक यादृच्छिक वन भविष्यवक्ता का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।<ref name=breiman2001/><ref>{{cite journal |authors=Shi, T., Horvath, S. |year=2006 |title=रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग|journal=Journal of Computational and Graphical Statistics |volume=15 |issue=1 |pages=118–138  |doi=10.1198/106186006X94072 |jstor=27594168|citeseerx=10.1.1.698.2365 |s2cid=245216 }}</ref>
+उनके निर्माण के हिस्से के रूप में, यादृच्छिक वन भविष्यसमया स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक यादृच्छिक वन असमानता माप को भी परिभाषित किया जा सकता है: विचार एक यादृच्छिक वन भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।<ref name=breiman2001/><ref>{{cite journal |authors=Shi, T., Horvath, S. |year=2006 |title=रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग|journal=Journal of Computational and Graphical Statistics |volume=15 |issue=1 |pages=118–138  |doi=10.1198/106186006X94072 |jstor=27594168|citeseerx=10.1.1.698.2365 |s2cid=245216 }}</ref>
-देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेटा एक संदर्भ वितरण से तैयार किए गए हैं। एक यादृच्छिक वन असमानता आकर्षक हो सकती है क्योंकि यह मिश्रित चर प्रकारों को बहुत अच्छी तरह से संभालती है, इनपुट चर के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है, और बाहरी टिप्पणियों के लिए मजबूत है। यादृच्छिक वन असमानता अपने आंतरिक चर चयन के कारण बड़ी संख्या में अर्ध-निरंतर चर से आसानी से निपटती है; उदाहरण के लिए, Addcl 1 रैंडम फ़ॉरेस्ट डिसिमिलैरिटी प्रत्येक वेरिएबल के योगदान को मापता है कि यह अन्य वेरिएबल्स पर कितना निर्भर है। विभिन्न प्रकार के अनुप्रयोगों में यादृच्छिक वन असमानता का उपयोग किया गया है, उदा। ऊतक मार्कर डेटा के आधार पर रोगियों के समूहों को खोजने के लिए।<ref>{{cite journal | vauthors = Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S | title = Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma | journal = Modern Pathology | volume = 18 | issue = 4 | pages = 547–57 | date = April 2005 | pmid = 15529185 | doi = 10.1038/modpathol.3800322 | doi-access = free }}</ref>
+देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेटा एक संदर्भ वितरण से तैयार किए गए हैं। एक यादृच्छिक वन असमानता आकर्षक हो सकती है क्योंकि यह मिश्रित चर प्रकारों को बहुत अच्छी प्रकार से संभालती है, इनपुट चर के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है, और बाहरी टिप्पणियों के लिए मजबूत है। यादृच्छिक वन असमानता अपने आंतरिक चर चयन के कारण बड़ी संख्या में अर्ध-निरंतर चर से आसानी से निपटती है; उदाहरण के लिए, Addcl 1 रैंडम फ़ॉरेस्ट डिसिमिलैरिटी प्रत्येक वेरिएबल के योगदान को मापता है कि यह अन्य वेरिएबल्स पर कितना निर्भर है। विभिन्न प्रकार के अनुप्रयोगों में यादृच्छिक वन असमानता का उपयोग किया गया है, उदा। ऊतक मार्कर डेटा के आधार पर रोगियों के समूहों को खोजने के लिए।<ref>{{cite journal | vauthors = Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S | title = Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma | journal = Modern Pathology | volume = 18 | issue = 4 | pages = 547–57 | date = April 2005 | pmid = 15529185 | doi = 10.1038/modpathol.3800322 | doi-access = free }}</ref>
 == वेरिएंट ==
-निर्णय पेड़ों के बजाय, रैखिक मॉडल प्रस्तावित किए गए हैं और यादृच्छिक जंगलों में आधार अनुमानक के रूप में मूल्यांकन किया गया है, विशेष रूप से [[बहुराष्ट्रीय रसद प्रतिगमन]] और सहज बेयस क्लासिफायरियर में।<ref name=":0" /><ref>{{cite journal |authors=Prinzie, A., Van den Poel, D. |year=2008 |title=Random Forests for multiclass classification: Random MultiNomial Logit |journal=Expert Systems with Applications |volume=34 |issue=3 |pages=1721–1732 |doi=10.1016/j.eswa.2007.01.029}}</ref><ref>{{Cite conference | doi = 10.1007/978-3-540-74469-6_35 | contribution=Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB|title=Database and Expert Systems Applications: 18th International Conference, DEXA 2007, Regensburg, Germany, September 3-7, 2007, Proceedings |editor1=Roland Wagner |editor2=Norman Revell |editor3=Günther Pernul| year=2007 | series=Lecture Notes in Computer Science | volume=4653 | pages=349–358 | last1 = Prinzie | first1 = Anita| isbn=978-3-540-74467-2 }}</ref> ऐसे मामलों में जहां भविष्यवाणियों और लक्ष्य चर के बीच संबंध रैखिक है, आधार शिक्षार्थियों के पास समेकित शिक्षार्थी के समान उच्च सटीकता हो सकती है।<ref name=":1">{{Cite journal|last1=Smith|first1=Paul F.|last2=Ganesh|first2=Siva|last3=Liu|first3=Ping|date=2013-10-01|title=तंत्रिका विज्ञान में भविष्यवाणी के लिए यादृच्छिक वन प्रतिगमन और एकाधिक रैखिक प्रतिगमन की तुलना|url=https://linkinghub.elsevier.com/retrieve/pii/S0165027013003026|journal=Journal of Neuroscience Methods|language=en|volume=220|issue=1|pages=85–91|doi=10.1016/j.jneumeth.2013.08.024|pmid=24012917|s2cid=13195700|via=}}</ref><ref name=":0" />
+निर्णय पेड़ों के अतिरिक्त, रैखिक मॉडल प्रस्तावित किए गए हैं और यादृच्छिक जंगलों में आधार अनुमानक के रूप में मूल्यांकन किया गया है, विशेष रूप से [[बहुराष्ट्रीय रसद प्रतिगमन]] और सहज बेयस क्लासिफायरियर में।<ref name=":0" /><ref>{{cite journal |authors=Prinzie, A., Van den Poel, D. |year=2008 |title=Random Forests for multiclass classification: Random MultiNomial Logit |journal=Expert Systems with Applications |volume=34 |issue=3 |pages=1721–1732 |doi=10.1016/j.eswa.2007.01.029}}</ref><ref>{{Cite conference | doi = 10.1007/978-3-540-74469-6_35 | contribution=Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB|title=Database and Expert Systems Applications: 18th International Conference, DEXA 2007, Regensburg, Germany, September 3-7, 2007, Proceedings |editor1=Roland Wagner |editor2=Norman Revell |editor3=Günther Pernul| year=2007 | series=Lecture Notes in Computer Science | volume=4653 | pages=349–358 | last1 = Prinzie | first1 = Anita| isbn=978-3-540-74467-2 }}</ref> ऐसे स्थितियों में जहां भविष्यवाणियों और लक्ष्य चर के बीच संबंध रैखिक है, आधार शिक्षार्थियों के पास समेकित शिक्षार्थी के समान उच्च त्रुटिहीनता हो सकती है।<ref name=":1">{{Cite journal|last1=Smith|first1=Paul F.|last2=Ganesh|first2=Siva|last3=Liu|first3=Ping|date=2013-10-01|title=तंत्रिका विज्ञान में भविष्यवाणी के लिए यादृच्छिक वन प्रतिगमन और एकाधिक रैखिक प्रतिगमन की तुलना|url=https://linkinghub.elsevier.com/retrieve/pii/S0165027013003026|journal=Journal of Neuroscience Methods|language=en|volume=220|issue=1|pages=85–91|doi=10.1016/j.jneumeth.2013.08.024|pmid=24012917|s2cid=13195700|via=}}</ref><ref name=":0" />
@@ Line 143: / Line 143: @@
 === इतिहास ===
-लियो ब्रिमन<ref name="breiman2000some">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | title = पूर्वसूचक पहनावा के लिए कुछ अनंत सिद्धांत| institution = Technical Report 579, Statistics Dept. UCB | year = 2000 | url = https://statistics.berkeley.edu/tech-reports/579 }}</ref> रैंडम फ़ॉरेस्ट और कर्नेल विधियों के बीच की कड़ी को नोटिस करने वाले पहले व्यक्ति थे। उन्होंने बताया कि यादृच्छिक वन जो i.i.d. का उपयोग करके उगाए जाते हैं। वृक्ष निर्माण में यादृच्छिक वैक्टर सच्चे मार्जिन पर अभिनय करने वाले कर्नेल के बराबर होते हैं। लिन और जीन<ref name="lin2006random">{{cite journal | first1 = Yi | last1 = Lin | first2 = Yongho | last2 = Jeon | title = बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी| journal = Journal of the American Statistical Association | volume = 101 | number = 474 | pages = 578–590 | year = 2006 | doi = 10.1198/016214505000001230 | citeseerx = 10.1.1.153.9168 | s2cid = 2469856 }}</ref> यादृच्छिक जंगलों और अनुकूली निकटतम पड़ोसी के बीच संबंध स्थापित किया, जिसका अर्थ है कि यादृच्छिक जंगलों को अनुकूली कर्नेल अनुमानों के रूप में देखा जा सकता है। डेविस और घरमनी<ref name="davies2014random">{{cite arXiv |first1=Alex |last1=Davies |first2=Zoubin|last2=Ghahramani |title=यादृच्छिक विभाजन से बड़े डेटा के लिए रैंडम फ़ॉरेस्ट कर्नेल और अन्य कर्नेल|eprint=1402.4293 |year= 2014 |class=stat.ML }}</ref> प्रस्तावित रैंडम फ़ॉरेस्ट कर्नेल और दिखाते हैं कि यह अनुभवजन्य रूप से अत्याधुनिक कर्नेल विधियों से बेहतर प्रदर्शन कर सकता है। स्कॉर्नेट<ref name="scornet2015random"/>पहले केआरएफ अनुमानों को परिभाषित किया और केआरएफ अनुमानों और यादृच्छिक वन के बीच स्पष्ट लिंक दिया। उन्होंने केन्द्रित यादृच्छिक वन के आधार पर गुठली के लिए स्पष्ट अभिव्यक्तियाँ भी दीं<ref name="breiman2004consistency">{{cite journal | first1 = Leo | last1 = Breiman | first2 = Zoubin | last2 = Ghahramani | name-list-style = vanc | title = यादृच्छिक वनों के एक साधारण मॉडल के लिए संगति| journal = Statistical Department, University of California at Berkeley. Technical Report | number = 670 | year = 2004 | citeseerx = 10.1.1.618.90 }}</ref> और समान यादृच्छिक वन,<ref name="arlot2014analysis">{{cite arXiv |first1=Sylvain |last1=Arlot  | first2 = Robin | last2 = Genuer | name-list-style = vanc |title=विशुद्ध रूप से यादृच्छिक वन पूर्वाग्रह का विश्लेषण|eprint=1407.3939 |year= 2014 |class=math.ST  }}</ref> यादृच्छिक वन के दो सरलीकृत मॉडल। उन्होंने इन दो केआरएफ को केंद्रित केआरएफ और यूनिफॉर्म केआरएफ नाम दिया, और उनकी स्थिरता की दरों पर ऊपरी सीमा साबित की।
+लियो ब्रिमन<ref name="breiman2000some">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | title = पूर्वसूचक पहनावा के लिए कुछ अनंत सिद्धांत| institution = Technical Report 579, Statistics Dept. UCB | year = 2000 | url = https://statistics.berkeley.edu/tech-reports/579 }}</ref> रैंडम फ़ॉरेस्ट और कर्नेल विधियों के बीच की कड़ी को नोटिस करने वाले पहले व्यक्ति थे। उन्होंने बताया कि यादृच्छिक वन जो i.i.d. का उपयोग करके उगाए जाते हैं। वृक्ष निर्माण में यादृच्छिक वैक्टर सच्चे मार्जिन पर अभिनय करने वाले कर्नेल के समान होते हैं। लिन और जीन<ref name="lin2006random">{{cite journal | first1 = Yi | last1 = Lin | first2 = Yongho | last2 = Jeon | title = बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी| journal = Journal of the American Statistical Association | volume = 101 | number = 474 | pages = 578–590 | year = 2006 | doi = 10.1198/016214505000001230 | citeseerx = 10.1.1.153.9168 | s2cid = 2469856 }}</ref> यादृच्छिक जंगलों और अनुकूली निकटतम निकटतम के बीच संबंध स्थापित किया, जिसका अर्थ है कि यादृच्छिक जंगलों को अनुकूली कर्नेल अनुमानों के रूप में देखा जा सकता है। डेविस और घरमनी<ref name="davies2014random">{{cite arXiv |first1=Alex |last1=Davies |first2=Zoubin|last2=Ghahramani |title=यादृच्छिक विभाजन से बड़े डेटा के लिए रैंडम फ़ॉरेस्ट कर्नेल और अन्य कर्नेल|eprint=1402.4293 |year= 2014 |class=stat.ML }}</ref> प्रस्तावित रैंडम फ़ॉरेस्ट कर्नेल और दिखाते हैं कि यह अनुभवजन्य रूप से अत्याधुनिक कर्नेल विधियों से बेहतर प्रदर्शन कर सकता है। स्कॉर्नेट<ref name="scornet2015random"/>पहले केआरएफ अनुमानों को परिभाषित किया और केआरएफ अनुमानों और यादृच्छिक वन के बीच स्पष्ट लिंक दिया। उन्होंने केन्द्रित यादृच्छिक वन के आधार पर गुठली के लिए स्पष्ट अभिव्यक्तियाँ भी दीं<ref name="breiman2004consistency">{{cite journal | first1 = Leo | last1 = Breiman | first2 = Zoubin | last2 = Ghahramani | name-list-style = vanc | title = यादृच्छिक वनों के एक साधारण मॉडल के लिए संगति| journal = Statistical Department, University of California at Berkeley. Technical Report | number = 670 | year = 2004 | citeseerx = 10.1.1.618.90 }}</ref> और समान यादृच्छिक वन,<ref name="arlot2014analysis">{{cite arXiv |first1=Sylvain |last1=Arlot  | first2 = Robin | last2 = Genuer | name-list-style = vanc |title=विशुद्ध रूप से यादृच्छिक वन पूर्वाग्रह का विश्लेषण|eprint=1407.3939 |year= 2014 |class=math.ST  }}</ref> यादृच्छिक वन के दो सरलीकृत मॉडल। उन्होंने इन दो केआरएफ को केंद्रित केआरएफ और यूनिफॉर्म केआरएफ नाम दिया, और उनकी स्थिरता की दरों पर ऊपरी सीमा सिद्ध की।
 === नोटेशन और परिभाषाएँ ===
@@ Line 157: / Line 157: @@
 प्रतिगमन पेड़ों के लिए, हमारे पास है <math>m_n = \sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}</math>, कहाँ <math>A_n(\mathbf{x},\Theta_j)</math> युक्त कोशिका है <math>\mathbf{x}</math>, यादृच्छिकता के साथ डिजाइन किया गया <math>\Theta_j</math> और डेटासेट <math>\mathcal{D}_n</math>, और <math> N_n(\mathbf{x}, \Theta_j) = \sum_{i=1}^n \mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)}</math>.
-इस प्रकार यादृच्छिक वन अनुमान सभी के लिए संतुष्ट करते हैं <math>\mathbf{x}\in[0,1]^d</math>, <math> m_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) =\frac{1}{M}\sum_{j=1}^M \left(\sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}\right)</math>. रैंडम रिग्रेशन फ़ॉरेस्ट में औसत के दो स्तर होते हैं, पहले एक पेड़ के लक्ष्य सेल में नमूनों पर, फिर सभी पेड़ों पर। इस प्रकार उन प्रेक्षणों का योगदान जो डेटा बिंदुओं के उच्च घनत्व वाले कक्षों में होते हैं, उन प्रेक्षणों की तुलना में कम होते हैं जो कम आबादी वाले कक्षों से संबंधित होते हैं। यादृच्छिक वन विधियों में सुधार करने और गलत आकलन की भरपाई करने के लिए, Scornet<ref name="scornet2015random"/>द्वारा परिभाषित केआरएफ
+इस प्रकार यादृच्छिक वन अनुमान सभी के लिए संतुष्ट करते हैं <math>\mathbf{x}\in[0,1]^d</math>, <math> m_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) =\frac{1}{M}\sum_{j=1}^M \left(\sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}\right)</math>. रैंडम रिग्रेशन फ़ॉरेस्ट में औसत के दो स्तर होते हैं, पहले एक पेड़ के लक्ष्य सेल में नमूनों पर, फिर सभी पेड़ों पर। इस प्रकार उन प्रेक्षणों का योगदान जो डेटा बिंदुओं के उच्च घनत्व वाले कक्षों में होते हैं, उन प्रेक्षणों की समानता में कम होते हैं जो कम आबादी वाले कक्षों से संबंधित होते हैं। यादृच्छिक वन विधियों में सुधार करने और गलत आकलन की भरपाई करने के लिए, Scornet<ref name="scornet2015random"/> के माध्यम से परिभाषित केआरएफ
 : <math> \tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) = \frac{1}{\sum_{j=1}^M N_n(\mathbf{x}, \Theta_j)}\sum_{j=1}^M\sum_{i=1}^n Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)},</math>
-जो के माध्य के बराबर है <math>Y_i</math>युक्त कोशिकाओं में गिर रहा है <math>\mathbf{x}</math> जंगल में। यदि हम के कनेक्शन फ़ंक्शन को परिभाषित करते हैं <math>M</math> परिमित वन के रूप में <math>K_{M,n}(\mathbf{x}, \mathbf{z}) = \frac{1}{M} \sum_{j=1}^M \mathbf{1}_{\mathbf{z} \in A_n (\mathbf{x}, \Theta_j)}</math>, यानी बीच में साझा की गई कोशिकाओं का अनुपात <math>\mathbf{x}</math> और <math>\mathbf{z}</math>, तो लगभग निश्चित रूप से हमारे पास है <math>\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) =
+जो के माध्य के समान है <math>Y_i</math>युक्त कोशिकाओं में गिर रहा है <math>\mathbf{x}</math> जंगल में। यदि हम के कनेक्शन फ़ंक्शन को परिभाषित करते हैं <math>M</math> परिमित वन के रूप में <math>K_{M,n}(\mathbf{x}, \mathbf{z}) = \frac{1}{M} \sum_{j=1}^M \mathbf{1}_{\mathbf{z} \in A_n (\mathbf{x}, \Theta_j)}</math>, अर्थात बीच में साझा की गई कोशिकाओं का अनुपात <math>\mathbf{x}</math> और <math>\mathbf{z}</math>, तो एकमात्र निश्चित रूप से हमारे पास है <math>\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) =
 \frac{\sum_{i=1}^n Y_i K_{M,n}(\mathbf{x}, \mathbf{x}_i)}{\sum_{\ell=1}^n K_{M,n}(\mathbf{x}, \mathbf{x}_{\ell})}</math>, जो केआरएफ को परिभाषित करता है।
 ==== केंद्रित केआरएफ ====
-स्तर के केन्द्रित KeRF का निर्माण <math>k</math> केंद्रित वन के समान ही है, सिवाय इसके कि भविष्यवाणी द्वारा की जाती है <math>\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) </math>, संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है
+स्तर के केन्द्रित KeRF का निर्माण <math>k</math> केंद्रित वन के समान ही है, सिवाय इसके कि भविष्यवाणी  के माध्यम से की जाती है <math>\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) </math>, संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है
 : <math>
@@ Line 177: / Line 177: @@
 ==== वर्दी केआरएफ ====
-यूनिफ़ॉर्म केआरएफ उसी तरह से बनाया गया है जैसे यूनिफ़ॉर्म फ़ॉरेस्ट, सिवाय इसके कि भविष्यवाणी की जाती है <math>\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) </math>, संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है
+यूनिफ़ॉर्म केआरएफ उसी प्रकार से बनाया गया है जैसे यूनिफ़ॉर्म फ़ॉरेस्ट, सिवाय इसके कि भविष्यवाणी की जाती है <math>\tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) </math>, संबंधित कर्नेल फ़ंक्शन या कनेक्शन फ़ंक्शन है
 :<math>K_k^{uf}(\mathbf{0},\mathbf{x}) =
 \sum_{k_1,\ldots,k_d, \sum_{j=1}^d k_j=k}
@@ Line 187: / Line 187: @@
 ==== केआरएफ और यादृच्छिक वन के बीच संबंध ====
-यदि प्रत्येक सेल में बिंदुओं की संख्या नियंत्रित है तो केआरएफ और यादृच्छिक वनों द्वारा दी गई भविष्यवाणियां करीब हैं:
+यदि प्रत्येक सेल में बिंदुओं की संख्या नियंत्रित है तो केआरएफ और यादृच्छिक वनों  के माध्यम से दी गई भविष्यवाणियां निकट हैं:
 <ब्लॉककोट>
-मान लें कि अनुक्रम मौजूद हैं <math> (a_n),(b_n) </math> ऐसा कि, लगभग निश्चित रूप से,
+मान लें कि अनुक्रम सम्मलित हैं <math> (a_n),(b_n) </math> ऐसा कि, एकमात्र निश्चित रूप से,
 : <math> a_n\leq N_n(\mathbf{x},\Theta)\leq b_n \text{ and } a_n\leq \frac 1 M \sum_{m=1}^M N_n {\mathbf{x},\Theta_m}\leq b_n.
 </math>
-तब लगभग निश्चित रूप से,
+तब एकमात्र निश्चित रूप से,
 :<math>|m_{M,n}(\mathbf{x}) - \tilde{m}_{M,n}(\mathbf{x})| \le\frac{b_n-a_n}{a_n} \tilde{m}_{M,n}(\mathbf{x}).
 </math>
@@ Line 199: / Line 199: @@
 ==== अनंत केआरएफ और अनंत यादृच्छिक वन के बीच संबंध ====
-जब पेड़ों की संख्या <math>M</math> अनंत तक जाता है, तो हमारे पास अनंत यादृच्छिक वन और अनंत केआरएफ हैं। यदि प्रत्येक कोशिका में प्रेक्षणों की संख्या सीमित है तो उनके अनुमान करीब हैं:
+जब पेड़ों की संख्या <math>M</math> अनंत तक जाता है, तो हमारे पास अनंत यादृच्छिक वन और अनंत केआरएफ हैं। यदि प्रत्येक कोशिका में प्रेक्षणों की संख्या सीमित है तो उनके अनुमान निकट हैं:
 <ब्लॉककोट>
-मान लें कि अनुक्रम मौजूद हैं <math>(\varepsilon_n), (a_n),(b_n)</math> ऐसा है कि, लगभग निश्चित रूप से
+मान लें कि अनुक्रम सम्मलित हैं <math>(\varepsilon_n), (a_n),(b_n)</math> ऐसा है कि, एकमात्र निश्चित रूप से
 * <math>\operatorname{E}[N_n(\mathbf{x},\Theta)] \ge 1,</math>
 * <math>\operatorname{P}[a_n\le N_n(\mathbf{x},\Theta) \le b_n\mid \mathcal{D}_n] \ge 1-\varepsilon_n/2,</math>
 * <math>\operatorname{P}[a_n\le \operatorname{E}_\Theta [N_n(\mathbf{x},\Theta)] \le b_n\mid \mathcal{D}_n] \ge 1-\varepsilon_n/2,</math>
-तब लगभग निश्चित रूप से,
+तब एकमात्र निश्चित रूप से,
 : <math> |m_{\infty,n}(\mathbf{x})-\tilde{m}_{\infty,n}(\mathbf{x})| \le
 \frac{b_n-a_n}{a_n}\tilde{m}_{\infty,n}(\mathbf{x}) + n \varepsilon_n \left( \max_{1\le i\le n} Y_i \right).</math>
@@ Line 212: / Line 212: @@
 === संगति परिणाम ===
-ये मान लीजिए <math>Y = m(\mathbf{X}) + \varepsilon</math>, कहाँ <math>\varepsilon</math> से स्वतंत्र एक केंद्रित गाऊसी शोर है <math>\mathbf{X}</math>, परिमित विचरण के साथ <math>\sigma^2<\infty</math>. इसके अतिरिक्त, <math>\mathbf{X}</math> पर समान रूप से वितरित है <math>[0,1]^d</math> और <math>m</math> [[लिप्सचिट्ज़]] है। स्कॉर्नेट<ref name="scornet2015random"/>केंद्रित केआरएफ और वर्दी केआरएफ के लिए स्थिरता की दरों पर ऊपरी सीमा साबित हुई।
+ये मान लीजिए <math>Y = m(\mathbf{X}) + \varepsilon</math>, कहाँ <math>\varepsilon</math> से स्वतंत्र एक केंद्रित गाऊसी शोर है <math>\mathbf{X}</math>, परिमित विचरण के साथ <math>\sigma^2<\infty</math>. इसके अतिरिक्त, <math>\mathbf{X}</math> पर समान रूप से वितरित है <math>[0,1]^d</math> और <math>m</math> [[लिप्सचिट्ज़]] है। स्कॉर्नेट<ref name="scornet2015random"/>केंद्रित केआरएफ और वर्दी केआरएफ के लिए स्थिरता की दरों पर ऊपरी सीमा सिद्ध हुई।
 ==== केंद्रित केआरएफ की संगति ====
-उपलब्ध कराने के <math>k\rightarrow\infty</math> और <math>n/2^k\rightarrow\infty</math>, एक स्थिर मौजूद है <math>C_1>0</math> ऐसा कि, सभी के लिए <math>n</math>,
+उपलब्ध कराने के <math>k\rightarrow\infty</math> और <math>n/2^k\rightarrow\infty</math>, एक स्थिर सम्मलित है <math>C_1>0</math> ऐसा कि, सभी के लिए <math>n</math>,
 <math> \mathbb{E}[\tilde{m}_n^{cc}(\mathbf{X}) - m(\mathbf{X})]^2 \le C_1 n^{-1/(3+d\log 2)}(\log n)^2</math>.
 ==== वर्दी केआरएफ की संगति ====
-उपलब्ध कराने के <math>k\rightarrow\infty</math> और <math>n/2^k\rightarrow\infty</math>, एक स्थिर मौजूद है <math>C>0</math> ऐसा है कि,
+उपलब्ध कराने के <math>k\rightarrow\infty</math> और <math>n/2^k\rightarrow\infty</math>, एक स्थिर सम्मलित है <math>C>0</math> ऐसा है कि,
 <math>\mathbb{E}[\tilde{m}_n^{uf}(\mathbf{X})-m(\mathbf{X})]^2\le Cn^{-2/(6+3d\log2)}(\log n)^2</math>.
-== नुकसान ==
+== हानि ==
-जबकि यादृच्छिक वन अक्सर एकल निर्णय वृक्ष की तुलना में उच्च सटीकता प्राप्त करते हैं, वे निर्णय वृक्षों में मौजूद आंतरिक व्याख्यात्मकता का त्याग करते हैं। निर्णय वृक्ष मशीन लर्निंग मॉडल के काफी छोटे परिवार में से हैं जो रैखिक मॉडल, [[नियम-आधारित मशीन लर्निंग]] | नियम-आधारित मॉडल और [[ध्यान (मशीन लर्निंग)]]-आधारित मॉडल के साथ आसानी से व्याख्या योग्य हैं। यह व्याख्यात्मकता निर्णय पेड़ों के सबसे वांछनीय गुणों में से एक है। यह डेवलपर्स को यह पुष्टि करने की अनुमति देता है कि मॉडल ने डेटा से यथार्थवादी जानकारी सीखी है और अंतिम उपयोगकर्ताओं को मॉडल द्वारा किए गए निर्णयों में विश्वास और विश्वास रखने की अनुमति देता है।<ref name=":0" /><ref name="elemstatlearn" />उदाहरण के लिए, एक निर्णय वृक्ष अपना निर्णय लेने के लिए जिस मार्ग का अनुसरण करता है, वह काफी तुच्छ है, लेकिन दसियों या सैकड़ों पेड़ों के पथ का अनुसरण करना बहुत कठिन है। प्रदर्शन और व्याख्या दोनों को प्राप्त करने के लिए, कुछ मॉडल संपीड़न तकनीकें एक यादृच्छिक वन को एक न्यूनतम जन्म-पुनर्जन्म निर्णय पेड़ में बदलने की अनुमति देती हैं जो समान निर्णय फ़ंक्शन को ईमानदारी से पुन: उत्पन्न करता है।<ref name=":0" /><ref>{{Cite journal|last1=Sagi|first1=Omer|last2=Rokach|first2=Lior|date=2020|title=Explainable decision forest: Transforming a decision forest into an interpretable tree.|url=https://www.sciencedirect.com/science/article/pii/S1566253519307869|journal=Information Fusion|language=en|volume=61|pages=124–138|doi=10.1016/j.inffus.2020.03.013|s2cid=216444882}}</ref><ref>{{Cite journal|last1=Vidal|first1=Thibaut|last2=Schiffer|first2=Maximilian|date=2020|title=बॉर्न-अगेन ट्री एन्सेम्बल|url=http://proceedings.mlr.press/v119/vidal20a.html|journal=International Conference on Machine Learning|language=en|publisher=PMLR|volume=119|pages=9743–9753|arxiv=2003.11132}}</ref> यदि यह स्थापित हो जाता है कि पूर्वानुमानित विशेषताएँ लक्ष्य चर के साथ रैखिक रूप से सहसंबद्ध हैं, तो यादृच्छिक वन का उपयोग करने से आधार शिक्षार्थी की सटीकता में वृद्धि नहीं हो सकती है।<ref name=":0" /><ref name=":1" />इसके अलावा, कई श्रेणीगत चर के साथ समस्याओं में, यादृच्छिक वन आधार शिक्षार्थी की सटीकता को बढ़ाने में सक्षम नहीं हो सकते हैं।<ref name=":3">{{Cite thesis|title=Piryonesi, S. M. (2019). The Application of Data Analytics to Asset Management: Deterioration and Climate Change Adaptation in Ontario Roads (Doctoral dissertation)|date=November 2019|url=https://tspace.library.utoronto.ca/handle/1807/97601|type=Thesis|last1=Piryonesi|first1=Sayed Madeh}}</ref>
+चूँकि यादृच्छिक वन अधिकांशतः एकल निर्णय वृक्ष की समानता में उच्च त्रुटिहीनता प्राप्त करते हैं, वे निर्णय वृक्षों में सम्मलित आंतरिक व्याख्यात्मकता का त्याग करते हैं। निर्णय वृक्ष मशीन लर्निंग मॉडल के अधिक छोटे परिवार में से हैं जो रैखिक मॉडल, [[नियम-आधारित मशीन लर्निंग]] | नियम-आधारित मॉडल और [[ध्यान (मशीन लर्निंग)]]-आधारित मॉडल के साथ आसानी से व्याख्या योग्य हैं। यह व्याख्यात्मकता निर्णय पेड़ों के सबसे वांछनीय गुणों में से एक है। यह डेवलपर्स को यह पुष्टि करने की अनुमति देता है कि मॉडल ने डेटा से यथार्थवादी जानकारी सीखी है और अंतिम उपयोगकर्ताओं को मॉडल  के माध्यम से किए गए निर्णयों में विश्वास और विश्वास रखने की अनुमति देता है।<ref name=":0" /><ref name="elemstatlearn" />उदाहरण के लिए, एक निर्णय वृक्ष अपना निर्णय लेने के लिए जिस मार्ग का अनुसरण करता है, वह अधिक तुच्छ है, किन्तु दसियों या सैकड़ों पेड़ों के पथ का अनुसरण करना बहुत कठिन है। प्रदर्शन और व्याख्या दोनों को प्राप्त करने के लिए, कुछ मॉडल संपीड़न तकनीकें एक यादृच्छिक वन को एक न्यूनतम जन्म-पुनर्जन्म निर्णय पेड़ में बदलने की अनुमति देती हैं जो समान निर्णय फ़ंक्शन को ईमानदारी से पुन: उत्पन्न करता है।<ref name=":0" /><ref>{{Cite journal|last1=Sagi|first1=Omer|last2=Rokach|first2=Lior|date=2020|title=Explainable decision forest: Transforming a decision forest into an interpretable tree.|url=https://www.sciencedirect.com/science/article/pii/S1566253519307869|journal=Information Fusion|language=en|volume=61|pages=124–138|doi=10.1016/j.inffus.2020.03.013|s2cid=216444882}}</ref><ref>{{Cite journal|last1=Vidal|first1=Thibaut|last2=Schiffer|first2=Maximilian|date=2020|title=बॉर्न-अगेन ट्री एन्सेम्बल|url=http://proceedings.mlr.press/v119/vidal20a.html|journal=International Conference on Machine Learning|language=en|publisher=PMLR|volume=119|pages=9743–9753|arxiv=2003.11132}}</ref> यदि यह स्थापित हो जाता है कि पूर्वानुमानित विशेषताएँ लक्ष्य चर के साथ रैखिक रूप से सहसंबद्ध हैं, तो यादृच्छिक वन का उपयोग करने से आधार शिक्षार्थी की त्रुटिहीनता में वृद्धि नहीं हो सकती है।<ref name=":0" /><ref name=":1" />इसके अतिरिक्त, कई श्रेणीगत चर के साथ समस्याओं में, यादृच्छिक वन आधार शिक्षार्थी की त्रुटिहीनता को बढ़ाने में सक्षम नहीं हो सकते हैं।<ref name=":3">{{Cite thesis|title=Piryonesi, S. M. (2019). The Application of Data Analytics to Asset Management: Deterioration and Climate Change Adaptation in Ontario Roads (Doctoral dissertation)|date=November 2019|url=https://tspace.library.utoronto.ca/handle/1807/97601|type=Thesis|last1=Piryonesi|first1=Sayed Madeh}}</ref>

Anonymous

Search

रैंडम फॉरेस्ट: Difference between revisions

Revision as of 23:09, 14 March 2023

इतिहास

एल्गोरिथम

प्रारंभिक: निर्णय वृक्ष सीखना

बैगिंग

बैगिंग से यादृच्छिक वनों तक

अतिरिक्त पेड़

गुण

परिवर्तनीय महत्व

निकटतम पड़ोसियों से संबंध

बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा

वेरिएंट

कर्नेल यादृच्छिक वन

इतिहास

नोटेशन और परिभाषाएँ

प्रारंभिक: केंद्रित वन

एक समान वन

बेतरतीब जंगल से केआरएफ तक

केंद्रित केआरएफ

वर्दी केआरएफ

गुण

केआरएफ और यादृच्छिक वन के बीच संबंध

अनंत केआरएफ और अनंत यादृच्छिक वन के बीच संबंध

संगति परिणाम

केंद्रित केआरएफ की संगति

वर्दी केआरएफ की संगति

हानि

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories