रैंडम फॉरेस्ट: Difference between revisions

(11 intermediate revisions by 5 users not shown)

Line 1:

~~{{About|मशीन सीखने की तकनीक|अन्य प्रकार के बेतरतीब जंगल|बेतरतीब जंगल}}~~

{{short description|Binary search tree based ensemble machine learning method}}'''रैंडम फॉरेस्ट''' या '''रैंडम निर्णय फॉरेस्ट''' सांख्यिकीय वर्गीकरण, [[प्रतिगमन विश्लेषण]] और अन्य फलनों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण फलनों के लिए, '''रैंडम फॉरेस्ट''' का उत्पादन अधिकांश ट्री के माध्यम से चयनित वर्ग है। प्रतिगमन फलनों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> रैंडम निर्णय फॉरेस्ट अपने प्रशिक्षण सेट के लिए निर्णय पेड़ों की ओवरफट्टिंग की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से अधिक अच्छा प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है। चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>

{{short description|Binary search tree based ensemble machine learning method}}

~~[[File:Random forest diagram complete.png|thumb|एक बेतरतीब~~ निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश पेड़ों के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} बेतरतीब जंगल सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>

रैंडम निर्णय फॉरेस्ट के लिए पहला एल्गोरिथम 1995 में तिन कम हो के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference

~~बेतरतीब निर्णय जंगलों~~ के लिए पहला एल्गोरिथम 1995 में ~~[[ तिन कम हो |~~तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference

|first = Tin Kam

|last = Ho

Line 18:

Line 14:

|url-status = dead

|df = dmy-all

}}</ref> [[यादृच्छिक उपस्थान विधि|बेतरतीब उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>

}}</ref> जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>

एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]] के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में ~~बेतरतीब जंगल~~ ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के ~~बेतरतीब~~ चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]] के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय ~~वृक्षों~~ का संग्रह बनाने के लिए।

एल्गोरिथम का एक विस्तार लियो ब्रिमन के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और एडेल कटलर,<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में ट्रेडमार्क के रूप में रैंडम फॉरेस्ट ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के बूटस्ट्रैप एकत्रीकरण विचार और सुविधाओं के क्रमहीनता चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और डोनाल्ड जेमन के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय ट्री का संग्रह बनाने के लिए।

~~बेतरतीब जंगल~~ का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।~~{{Citation needed|date=October 2022}}~~

रैंडम फॉरेस्ट का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।

== इतिहास ==

~~बेतरतीब~~ निर्णय ~~जंगलों~~ की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ~~पेड़ों~~ के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि ~~जंगलों~~ को ~~बेतरतीब~~ रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>

रैंडम निर्णय फॉरेस्ट की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि फॉरेस्ट को रैंडम रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>

बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था

जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया

~~एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय~~

[[निर्णय वृक्ष]]। हो से बेतरतीब उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,

और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है

प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब रूप से चुने गए रैखिक उप-स्थान में। अंत में, का ~~विचार~~

रैंडम फॉरेस्टों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था

~~बेतरतीब नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है~~

~~एक नियतात्मक अनुकूलन के अतिरिक्त बेतरतीब प्रक्रिया पहले थी~~

~~थॉमस जी डायटरिच~~ के ~~माध्यम~~ से प्रस्तुतकिया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>

~~बेतरतीब जंगलों~~ का ~~उचित परिचय एक कागज में~~ किया ~~गया था~~

जेमन<ref name="amitgeman1997" />जिन्होंने रैंडम उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया

लियो ब्रिमन के माध्यम से।<ref name="breiman2001" /> यह पत्र जंगल बनाने की एक विधि का वर्णन करता है

एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय, हो से रैंडम उपस्थान चयन का विचार<ref name="ho1998" />रैंडम फॉरेस्टों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्री का जंगल उगा दिया जाता है, और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुत की जाती है

एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, ~~बेतरतीब~~ नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है

सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं

प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले रैंडम रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार रैंडम नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है

~~बेतरतीब जंगलों~~ का आधुनिक अभ्यास, विशेष रूप से:

एक नियतात्मक अनुकूलन के अतिरिक्त रैंडम प्रक्रिया पहले थी थॉमस जी डायटरिच के माध्यम से प्रस्तुत किया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>

रैंडम फॉरेस्टों का उचित परिचय एक कागज में किया गया था

लियो ब्रिमन के माध्यम से।<ref name="breiman2001" /> यह पत्र जंगल बनाने की एक विधि का वर्णन करता है एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, रैंडम नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है

सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं रैंडम फॉरेस्टों का आधुनिक अभ्यास, विशेष रूप से:

# [[सामान्यीकरण त्रुटि]] के अनुमान के रूप में [[आउट-ऑफ-बैग त्रुटि]] का उपयोग करना।

# क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।

रिपोर्ट ~~बेतरतीब~~ ~~जंगलों~~ के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है

रिपोर्ट रैंडम फॉरेस्ट के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है

सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है

Line 55:

Line 49:

== एल्गोरिथम ==

=== प्रारंभिक: निर्णय ~~वृक्ष~~ सीखना ===

=== प्रारंभिक: निर्णय ट्री सीखना ===

निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। ~~बेतरतीब जंगल~~ एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ~~पेड़ों~~ को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

निर्णय ट्री विभिन्न मशीन सीखने के फलनों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़ कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। रैंडम फॉरेस्ट एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ट्री को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn" />{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

जंगल निर्णय ~~वृक्ष~~ एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ~~पेड़ों~~ की टीम वर्क लेकर इस प्रकार एक ~~बेतरतीब~~ पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

जंगल निर्णय ट्री एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ट्री की टीम वर्क लेकर इस प्रकार एक रैंडम पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

=== बैगिंग ===

~~बेतरतीब जंगल~~ के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x1}}, ..., {{mvar|xn}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y1}}, ..., {{mvar|yn}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ~~पेड़ों~~ को फिट करता है:

रैंडम फॉरेस्ट के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x1}}, ..., {{mvar|xn}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y1}}, ..., {{mvar|yn}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ट्री को फिट करता है:

: के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:

: # नमूना, प्रतिस्थापन के साथ, {{mvar|n}} प्रशिक्षण के उदाहरण {{mvar|X}}, {{mvar|Y}}; इन्हें कॉल करें {{mvar|Xb}}, {{mvar|Yb}}.

:# एक वर्गीकरण या प्रतिगमन ~~वृक्ष~~ को प्रशिक्षित करें {{mvar|fb}} पर {{mvar|Xb}}, {{mvar|Yb}}.

:# एक वर्गीकरण या प्रतिगमन ट्री को प्रशिक्षित करें {{mvar|fb}} पर {{mvar|Xb}}, {{mvar|Yb}}.

प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन ~~पेड़ों~~ से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:

प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन ट्री से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:

:<math>\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')</math>

या ले कर {{clarification needed span|text=~~majority vote~~|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण ~~पेड़ों~~ के स्थितियोंमें।

या ले कर {{clarification needed span|text=बहुमत|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण ट्री के स्थितियोंमें।

यह बूटस्ट्रैपिंग प्रक्रिया ~~बेहतर~~ मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ~~पेड़ों~~ का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ~~पेड़ों~~ को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ~~पेड़ों~~ को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।

यह बूटस्ट्रैपिंग प्रक्रिया अधिक अच्छा मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ट्री का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ट्री को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ट्री को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।

इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ~~पेड़ों~~ से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:

इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ट्री से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:

:<math>\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x') - \hat{f})^2}{B-1} }.</math>

नमूनों/~~पेड़ों~~ की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ~~पेड़ों~~ का उपयोग किया जाता है। ~~पेड़ों~~ की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|xi}}, एकमात्र उन ~~पेड़ों~~ का उपयोग करना जिनके पास नहीं था {{mvar|xi}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>

नमूनों/ट्री की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ट्री का उपयोग किया जाता है। ट्री की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|xi}}, एकमात्र उन ट्री का उपयोग करना जिनके पास नहीं था {{mvar|xi}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>

कुछ ~~पेड़ों~~ के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

कुछ ट्री के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

===बैगिंग से ~~बेतरतीब जंगलों~~ तक===

===बैगिंग से रैंडम फॉरेस्टों तक===

उपरोक्त प्रक्रिया ~~पेड़ों~~ के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। ~~बेतरतीब जंगल~~ में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ~~पेड़ों~~ का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और ~~बेतरतीब~~ उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।<ref name="ho2002">

उपरोक्त प्रक्रिया ट्री के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। रैंडम फॉरेस्ट में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ट्री का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और रैंडम उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।<ref name="ho2002">

{{cite journal | first = Tin Kam | last = Ho | title = A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors | journal = Pattern Analysis and Applications | volume = 5 | issue = 2 | year = 2002 | pages = 102–112 | url = http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf | doi = 10.1007/s100440200009 | s2cid = 7415435 }}</ref>

Line 92:

Line 88:

=== अतिरिक्त पेड़ ===

रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य ~~बेतरतीब जंगलों~~ के समान ही वे अलग-अलग ~~पेड़ों~~ का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में ~~वृक्ष~~ शिक्षार्थी ~~बेतरतीब~~ है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक ~~बेतरतीब~~ कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी ~~बेतरतीब~~ ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण ~~बेतरतीब जंगलों~~ के समान, प्रत्येक नोड पर विचार किए जाने वाले ~~बेतरतीब~~ रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>

रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य रैंडम फॉरेस्टों के समान ही वे अलग-अलग ट्री का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में ट्री शिक्षार्थी रैंडम है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक रैंडम कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी रैंडम ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण रैंडम फॉरेस्टों के समान, प्रत्येक नोड पर विचार किए जाने वाले रैंडम रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>

Line 99:

Line 95:

=== परिवर्तनीय महत्व ===

प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए ~~बेतरतीब~~ ~~जंगलों~~ का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}

प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए रैंडम फॉरेस्ट का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}

</ref>

डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक ~~बेतरतीब जंगल~~ फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।

डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक रैंडम फॉरेस्ट फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।

के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी ~~पेड़ों~~ पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन के माध्यम से स्कोर को सामान्य किया जाता है।

के महत्व को मापन�

Anonymous

Search

रैंडम फॉरेस्ट: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
-{{About|मशीन सीखने की तकनीक|अन्य प्रकार के बेतरतीब जंगल|बेतरतीब जंगल}}
+{{short description|Binary search tree based ensemble machine learning method}}'''रैंडम फॉरेस्ट''' या '''रैंडम निर्णय फॉरेस्ट''' सांख्यिकीय वर्गीकरण, [[प्रतिगमन विश्लेषण]] और अन्य फलनों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण फलनों के लिए, '''रैंडम फॉरेस्ट''' का उत्पादन अधिकांश ट्री  के माध्यम से चयनित वर्ग है। प्रतिगमन फलनों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> रैंडम निर्णय फॉरेस्ट अपने प्रशिक्षण सेट के लिए निर्णय पेड़ों की ओवरफट्टिंग की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से अधिक अच्छा प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है। चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
-{{short description|Binary search tree based ensemble machine learning method}}
-{{Machine learning|पर्यवेक्षित अध्ययन}}
-[[File:Random forest diagram complete.png|thumb|एक बेतरतीब  निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब  निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश पेड़ों  के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब  निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} बेतरतीब जंगल सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
+रैंडम  निर्णय फॉरेस्ट के लिए पहला एल्गोरिथम 1995 में तिन कम हो के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
-बेतरतीब  निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
   |first        = Tin Kam
   |last         = Ho
@@ Line 18: / Line 14: @@
   |url-status     = dead
   |df           = dmy-all
-}}</ref> [[यादृच्छिक उपस्थान विधि|बेतरतीब  उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref>  जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
+}}</ref> जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
-एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब  चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।
+एल्गोरिथम का एक विस्तार लियो ब्रिमन  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और एडेल कटलर,<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में ट्रेडमार्क के रूप में रैंडम फॉरेस्ट ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के बूटस्ट्रैप एकत्रीकरण विचार और सुविधाओं के क्रमहीनता चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और डोनाल्ड जेमन  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय ट्री का संग्रह बनाने के लिए।
-बेतरतीब जंगल का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}
+रैंडम फॉरेस्ट का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।
 == इतिहास ==
-बेतरतीब  निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब  रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
+रैंडम निर्णय फॉरेस्ट की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि फॉरेस्ट को रैंडम  रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
- बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
-जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब  उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
-एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय
-[[निर्णय वृक्ष]]। हो से बेतरतीब  उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,
-और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है
-प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब  रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार
+रैंडम फॉरेस्टों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
-बेतरतीब  नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a  के माध्यम से चुना जाता है
-एक नियतात्मक अनुकूलन के अतिरिक्त बेतरतीब  प्रक्रिया पहले थी
-थॉमस जी डायटरिच  के माध्यम से प्रस्तुतकिया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>
-बेतरतीब जंगलों का उचित परिचय एक कागज में किया गया था
+जेमन<ref name="amitgeman1997" />जिन्होंने रैंडम  उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
-लियो ब्रिमन  के माध्यम से।<ref name="breiman2001" />  यह पत्र जंगल बनाने की एक विधि का वर्णन करता है
+एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय, हो से रैंडम  उपस्थान चयन का विचार<ref name="ho1998" />रैंडम फॉरेस्टों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्री का जंगल उगा दिया जाता है, और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुत की जाती है
-एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, बेतरतीब  नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है
-सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं
+प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले रैंडम  रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार रैंडम  नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a  के माध्यम से चुना जाता है
-बेतरतीब जंगलों का आधुनिक अभ्यास, विशेष रूप से:
+एक नियतात्मक अनुकूलन के अतिरिक्त रैंडम  प्रक्रिया पहले थी थॉमस जी डायटरिच  के माध्यम से प्रस्तुत किया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>
+रैंडम फॉरेस्टों का उचित परिचय एक कागज में किया गया था
+लियो ब्रिमन  के माध्यम से।<ref name="breiman2001" />  यह पत्र जंगल बनाने की एक विधि का वर्णन करता है एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, रैंडम  नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है
+सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं रैंडम फॉरेस्टों का आधुनिक अभ्यास, विशेष रूप से:
 # [[सामान्यीकरण त्रुटि]] के अनुमान के रूप में [[आउट-ऑफ-बैग त्रुटि]] का उपयोग करना।
 # क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।
-रिपोर्ट बेतरतीब  जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है
+रिपोर्ट रैंडम  फॉरेस्ट के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है
 सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है
@@ Line 55: / Line 49: @@
 == एल्गोरिथम ==
-=== प्रारंभिक: निर्णय वृक्ष सीखना ===
+=== प्रारंभिक: निर्णय ट्री सीखना ===
 {{main|निर्णय वृक्ष सीखना}}
-निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
-विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
+निर्णय ट्री विभिन्न मशीन सीखने के फलनों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
+विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़ कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। रैंडम फॉरेस्ट एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ट्री को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn" />{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
-जंगल निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक बेतरतीब  पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
+जंगल निर्णय ट्री एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ट्री की टीम वर्क लेकर इस प्रकार एक रैंडम  पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
 === बैगिंग ===
 {{main|बूटस्ट्रैप एकत्रीकरण}}
-बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:
+रैंडम फॉरेस्ट के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ट्री को फिट करता है:
 : के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:
 : # नमूना, प्रतिस्थापन के साथ, {{mvar|n}} प्रशिक्षण के उदाहरण {{mvar|X}}, {{mvar|Y}}; इन्हें कॉल करें {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
-:# एक वर्गीकरण या प्रतिगमन वृक्ष को प्रशिक्षित करें {{mvar|f<sub>b</sub>}} पर {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
+:# एक वर्गीकरण या प्रतिगमन ट्री को प्रशिक्षित करें {{mvar|f<sub>b</sub>}} पर {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
-प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन पेड़ों से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:
+प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन ट्री से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:
 :<math>\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')</math>
-या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण पेड़ों के स्थितियोंमें।
+या ले कर {{clarification needed span|text=बहुमत|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण ट्री के स्थितियोंमें।
-यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई पेड़ों का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई पेड़ों को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण पेड़ों को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।
+यह बूटस्ट्रैपिंग प्रक्रिया अधिक अच्छा मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ट्री का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ट्री को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ट्री को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।
-इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन पेड़ों से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:
+इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ट्री से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:
 :<math>\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x')  - \hat{f})^2}{B-1} }.</math>
-नमूनों/पेड़ों की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार पेड़ों का उपयोग किया जाता है। पेड़ों की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, एकमात्र उन पेड़ों का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
+नमूनों/ट्री की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ट्री का उपयोग किया जाता है। ट्री की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, एकमात्र उन ट्री का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
-कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
+कुछ ट्री के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
-===बैगिंग से बेतरतीब जंगलों तक===
+===बैगिंग से रैंडम फॉरेस्टों तक===
 {{main|रैंडम सबस्पेस विधि}}
-उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और बेतरतीब  उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
+उपरोक्त प्रक्रिया ट्री के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। रैंडम फॉरेस्ट में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ट्री का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और रैंडम  उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
 {{cite journal | first = Tin Kam | last = Ho | title = A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors | journal = Pattern Analysis and Applications | volume = 5 | issue = 2 | year = 2002 | pages = 102–112 | url = http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf | doi = 10.1007/s100440200009 | s2cid = 7415435 }}</ref>
@@ Line 92: / Line 88: @@
 === अतिरिक्त पेड़ ===
-रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य बेतरतीब जंगलों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी बेतरतीब  है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक बेतरतीब  कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण बेतरतीब जंगलों के समान, प्रत्येक नोड पर विचार किए जाने वाले बेतरतीब  रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>
+रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य रैंडम फॉरेस्टों के समान ही वे अलग-अलग ट्री का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में ट्री शिक्षार्थी रैंडम  है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक रैंडम  कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी रैंडम ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण रैंडम फॉरेस्टों के समान, प्रत्येक नोड पर विचार किए जाने वाले रैंडम  रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>
@@ Line 99: / Line 95: @@
 === परिवर्तनीय महत्व ===
-प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए बेतरतीब  जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}
+प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए रैंडम  फॉरेस्ट का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}
 </ref>
-डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक बेतरतीब जंगल फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
+डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक रैंडम फॉरेस्ट फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
-के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन  के माध्यम से स्कोर को सामान्य किया जाता है।
+के महत्व को मापन�