रैंडम फॉरेस्ट: Difference between revisions

Line 4:

[[File:Random forest diagram complete.png|thumb|एक बेतरतीब निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ~~वृक्ष~~ सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश ~~पेड़ों~~ के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग ~~पेड़ों~~ का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय ~~पेड़ों~~ की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} ~~बेतरतीब जंगल सामान्यतःनिर्णय वृक्ष~~ सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन ~~को प्रभावित कर~~ सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>

[[File:Random forest diagram complete.png|thumb|एक बेतरतीब निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश ट्री के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय ट्री की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>

बेतरतीब निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference

|first = Tin Kam

Line 18:

|url-status = dead

|df = dmy-all

}}</ref> [[यादृच्छिक उपस्थान विधि|बेतरतीब उपस्थान विधि]] का उपयोग ~~करना~~,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>

}}</ref> इसमें [[यादृच्छिक उपस्थान विधि|बेतरतीब उपस्थान विधि]] का उपयोग किया गया था,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>

एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]] के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]] के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय ~~वृक्षों~~ का संग्रह बनाने के लिए।

एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]] के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]] के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय ट्रीों का संग्रह बनाने के लिए।

बेतरतीब जंगल का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}

== इतिहास ==

बेतरतीब निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ~~पेड़ों~~ के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>

बेतरतीब निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>

बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था

जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया

एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय

[[निर्णय वृक्ष]]। हो से बेतरतीब उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में ~~वृक्षों~~ का जंगल उगा दिया जाता है,

[[निर्णय वृक्ष|निर्णय ट्री]]। हो से बेतरतीब उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्रीों का जंगल उगा दिया जाता है,

और प्रशिक्षण डेटा को प्रोजेक्ट करके ~~पेड़ों~~ के बीच भिन्नता प्रस्तुतकी जाती है

और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुतकी जाती है

प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार

Line 55:

== एल्गोरिथम ==

=== प्रारंभिक: निर्णय ~~वृक्ष~~ सीखना ===

=== प्रारंभिक: निर्णय ट्री सीखना ===

निर्णय ~~वृक्ष~~ विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}

निर्णय ट्री विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ~~पेड़ों~~ को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ट्री को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

जंगल निर्णय ~~वृक्ष~~ एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ~~पेड़ों~~ की टीम वर्क लेकर इस प्रकार एक बेतरतीब पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

जंगल निर्णय ट्री एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ट्री की टीम वर्क लेकर इस प्रकार एक बेतरतीब पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

=== बैगिंग ===

बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x1}}, ..., {{mvar|xn}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y1}}, ..., {{mvar|yn}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ~~पेड़ों~~ को फिट करता है:

बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x1}}, ..., {{mvar|xn}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y1}}, ..., {{mvar|yn}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ट्री को फिट करता है:

: के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:

: # नमूना, प्रतिस्थापन के साथ, {{mvar|n}} प्रशिक्षण के उदाहरण {{mvar|X}}, {{mvar|Y}}; इन्हें कॉल करें {{mvar|Xb}}, {{mvar|Yb}}.

:# एक वर्गीकरण या प्रतिगमन ~~वृक्ष~~ को प्रशिक्षित करें {{mvar|fb}} पर {{mvar|Xb}}, {{mvar|Yb}}.

:# एक वर्गीकरण या प्रतिगमन ट्री को प्रशिक्षित करें {{mvar|fb}} पर {{mvar|Xb}}, {{mvar|Yb}}.

प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन ~~पेड़ों~~ से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:

प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन ट्री से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:

:<math>\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')</math>

या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण ~~पेड़ों~~ के स्थितियोंमें।

या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण ट्री के स्थितियोंमें।

यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ~~पेड़ों~~ का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ~~पेड़ों~~ को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ~~पेड़ों~~ को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।

यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ट्री का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ट्री को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ट्री को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।

इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ~~पेड़ों~~ से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:

इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ट्री से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:

:<math>\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x') - \hat{f})^2}{B-1} }.</math>

नमूनों/~~पेड़ों~~ की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ~~पेड़ों~~ का उपयोग किया जाता है। ~~पेड़ों~~ की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|xi}}, एकमात्र उन ~~पेड़ों~~ का उपयोग करना जिनके पास नहीं था {{mvar|xi}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>

नमूनों/ट्री की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ट्री का उपयोग किया जाता है। ट्री की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|xi}}, एकमात्र उन ट्री का उपयोग करना जिनके पास नहीं था {{mvar|xi}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>

कुछ ~~पेड़ों~~ के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

कुछ ट्री के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

===बैगिंग से बेतरतीब जंगलों तक===

उपरोक्त प्रक्रिया ~~पेड़ों~~ के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ~~पेड़ों~~ का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और बेतरतीब उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।<ref name="ho2002">

उपरोक्त प्रक्रिया ट्री के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ट्री का सहसंबंध है: यदि प्रतिक्रिय�

Anonymous

Search

रैंडम फॉरेस्ट: Difference between revisions

Namespaces

More

Page actions

@@ Line 4: / Line 4: @@
 {{Machine learning|पर्यवेक्षित अध्ययन}}
-[[File:Random forest diagram complete.png|thumb|एक बेतरतीब  निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब  निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश पेड़ों  के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब  निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} बेतरतीब जंगल सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
+[[File:Random forest diagram complete.png|thumb|एक बेतरतीब  निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब  निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश ट्री  के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब  निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय ट्री की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
 बेतरतीब  निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
   |first        = Tin Kam
@@ Line 18: / Line 18: @@
   |url-status     = dead
   |df           = dmy-all
-}}</ref> [[यादृच्छिक उपस्थान विधि|बेतरतीब  उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref>  जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
+}}</ref> इसमें  [[यादृच्छिक उपस्थान विधि|बेतरतीब  उपस्थान विधि]] का उपयोग किया गया था,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref>  जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
-एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब  चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।
+एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब  चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय ट्रीों का संग्रह बनाने के लिए।
 बेतरतीब जंगल का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}
 == इतिहास ==
-बेतरतीब  निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब  रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
+बेतरतीब  निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब  रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
   बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
 जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब  उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
 एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय
-[[निर्णय वृक्ष]]। हो से बेतरतीब  उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,
+[[निर्णय वृक्ष|निर्णय ट्री]]। हो से बेतरतीब  उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्रीों का जंगल उगा दिया जाता है,
-और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है
+और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुतकी जाती है
 प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब  रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार
@@ Line 55: / Line 55: @@
 == एल्गोरिथम ==
-=== प्रारंभिक: निर्णय वृक्ष सीखना ===
+=== प्रारंभिक: निर्णय ट्री सीखना ===
 {{main|निर्णय वृक्ष सीखना}}
-निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
+निर्णय ट्री विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
-विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
+विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ट्री को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
-जंगल निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक बेतरतीब  पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
+जंगल निर्णय ट्री एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ट्री की टीम वर्क लेकर इस प्रकार एक बेतरतीब  पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
 === बैगिंग ===
 {{main|बूटस्ट्रैप एकत्रीकरण}}
-बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:
+बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ट्री को फिट करता है:
 : के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:
 : # नमूना, प्रतिस्थापन के साथ, {{mvar|n}} प्रशिक्षण के उदाहरण {{mvar|X}}, {{mvar|Y}}; इन्हें कॉल करें {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
-:# एक वर्गीकरण या प्रतिगमन वृक्ष को प्रशिक्षित करें {{mvar|f<sub>b</sub>}} पर {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
+:# एक वर्गीकरण या प्रतिगमन ट्री को प्रशिक्षित करें {{mvar|f<sub>b</sub>}} पर {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
-प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन पेड़ों से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:
+प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन ट्री से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:
 :<math>\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')</math>
-या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण पेड़ों के स्थितियोंमें।
+या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण ट्री के स्थितियोंमें।
-यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई पेड़ों का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई पेड़ों को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण पेड़ों को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।
+यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ट्री का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ट्री को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ट्री को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।
-इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन पेड़ों से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:
+इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ट्री से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:
 :<math>\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x')  - \hat{f})^2}{B-1} }.</math>
-नमूनों/पेड़ों की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार पेड़ों का उपयोग किया जाता है। पेड़ों की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, एकमात्र उन पेड़ों का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
+नमूनों/ट्री की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ट्री का उपयोग किया जाता है। ट्री की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, एकमात्र उन ट्री का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
-कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
+कुछ ट्री के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
 ===बैगिंग से बेतरतीब जंगलों तक===
 {{main|रैंडम सबस्पेस विधि}}
-उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और बेतरतीब  उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
+उपरोक्त प्रक्रिया ट्री के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ट्री का सहसंबंध है: यदि प्रतिक्रिय�