रैंडम फॉरेस्ट: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 4: Line 4:
{{Machine learning|पर्यवेक्षित अध्ययन}}
{{Machine learning|पर्यवेक्षित अध्ययन}}


[[File:Random forest diagram complete.png|thumb|एक बेतरतीब  निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब  निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश पेड़ों के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब  निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} बेतरतीब जंगल सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
[[File:Random forest diagram complete.png|thumb|एक बेतरतीब  निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब  निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश ट्री के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब  निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय ट्री की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
बेतरतीब  निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
बेतरतीब  निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
  |first        = Tin Kam
  |first        = Tin Kam
Line 18: Line 18:
  |url-status    = dead
  |url-status    = dead
  |df          = dmy-all
  |df          = dmy-all
}}</ref> [[यादृच्छिक उपस्थान विधि|बेतरतीब  उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref>  जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
}}</ref> इसमें  [[यादृच्छिक उपस्थान विधि|बेतरतीब  उपस्थान विधि]] का उपयोग किया गया था,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref>  जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>


एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब  चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।  
एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब  चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय ट्रीों का संग्रह बनाने के लिए।  


बेतरतीब जंगल का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}
बेतरतीब जंगल का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}


== इतिहास ==
== इतिहास ==
बेतरतीब  निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब  रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
बेतरतीब  निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब  रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
  बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
  बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब  उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब  उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय
एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय
[[निर्णय वृक्ष]]। हो से बेतरतीब  उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,
[[निर्णय वृक्ष|निर्णय ट्री]]। हो से बेतरतीब  उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्रीों का जंगल उगा दिया जाता है,
और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है
और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुतकी जाती है


प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब  रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार
प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब  रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार
Line 55: Line 55:
== एल्गोरिथम ==
== एल्गोरिथम ==


=== प्रारंभिक: निर्णय वृक्ष सीखना ===
=== प्रारंभिक: निर्णय ट्री सीखना ===
{{main|निर्णय वृक्ष सीखना}}
{{main|निर्णय वृक्ष सीखना}}
निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
निर्णय ट्री विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}


विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय ट्री को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।


जंगल निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक बेतरतीब  पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
जंगल निर्णय ट्री एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई ट्री की टीम वर्क लेकर इस प्रकार एक बेतरतीब  पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।


=== बैगिंग ===
=== बैगिंग ===
{{main|बूटस्ट्रैप एकत्रीकरण}}
{{main|बूटस्ट्रैप एकत्रीकरण}}
बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:
बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में ट्री को फिट करता है:


: के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:
: के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:
: # नमूना, प्रतिस्थापन के साथ, {{mvar|n}} प्रशिक्षण के उदाहरण {{mvar|X}}, {{mvar|Y}}; इन्हें कॉल करें {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
: # नमूना, प्रतिस्थापन के साथ, {{mvar|n}} प्रशिक्षण के उदाहरण {{mvar|X}}, {{mvar|Y}}; इन्हें कॉल करें {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
:# एक वर्गीकरण या प्रतिगमन वृक्ष को प्रशिक्षित करें {{mvar|f<sub>b</sub>}} पर {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.
:# एक वर्गीकरण या प्रतिगमन ट्री को प्रशिक्षित करें {{mvar|f<sub>b</sub>}} पर {{mvar|X<sub>b</sub>}}, {{mvar|Y<sub>b</sub>}}.


प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन पेड़ों से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:
प्रशिक्षण के बाद, अनदेखी नमूने के लिए भविष्यवाणियां {{mvar|x'}} सभी अलग-अलग प्रतिगमन ट्री से भविष्यवाणियों के औसत से बनाया जा सकता है {{mvar|x'}}:


:<math>\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')</math>
:<math>\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x')</math>
या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण पेड़ों के स्थितियोंमें।
या ले कर {{clarification needed span|text=majority vote|reason=Should this be plurality vote? What about a classification tree with more than two possible values?|date=August 2022}} वर्गीकरण ट्री के स्थितियोंमें।


यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई पेड़ों का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई पेड़ों को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक ​​​​कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण पेड़ों को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।
यह बूटस्ट्रैपिंग प्रक्रिया बेहतर मॉडल प्रदर्शन की ओर ले जाती है क्योंकि यह पूर्वाग्रह को बढ़ाए बिना मॉडल की पूर्वाग्रह-विचरण दुविधा को कम करती है। इसका अर्थ यह है कि एक पेड़ की भविष्यवाणियां अपने प्रशिक्षण सेट में शोर के प्रति अत्यधिक संवेदनशील होती हैं, जब तक पेड़ सहसंबद्ध नहीं होते हैं, तब तक कई ट्री का औसत नहीं होता है। बस एक ही प्रशिक्षण सेट पर कई ट्री को प्रशिक्षित करने से दृढ़ता से सहसंबद्ध पेड़ (या यहां तक ​​​​कि एक ही पेड़ कई बार, यदि प्रशिक्षण एल्गोरिथ्म नियतात्मक है); बूटस्ट्रैप नमूनाकरण ट्री को अलग-अलग प्रशिक्षण सेट दिखाकर डी-सहसंबद्ध करने का एक विधि है।


इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन पेड़ों से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:
इसके अतिरिक्त, भविष्यवाणी की अनिश्चितता का अनुमान सभी व्यक्तिगत प्रतिगमन ट्री से भविष्यवाणियों के मानक विचलन के रूप में बनाया जा सकता है {{mvar|x'}}:


:<math>\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x')  - \hat{f})^2}{B-1} }.</math>
:<math>\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x')  - \hat{f})^2}{B-1} }.</math>
नमूनों/पेड़ों की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार पेड़ों का उपयोग किया जाता है। पेड़ों की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, एकमात्र उन पेड़ों का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
नमूनों/ट्री की संख्या, {{mvar|B}}, एक मुफ़्त पैरामीटर है। सामान्यतः, प्रशिक्षण सेट के आकार और प्रकृति के आधार पर, कुछ सौ से लेकर कई हज़ार ट्री का उपयोग किया जाता है। ट्री की इष्टतम संख्या {{mvar|B}} [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन का उपयोग करके, या आउट-ऑफ-बैग त्रुटि को देखकर पाया जा सकता है: प्रत्येक प्रशिक्षण नमूने पर औसत भविष्यवाणी त्रुटि {{mvar|x<sub>i</sub>}}, एकमात्र उन ट्री का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
कुछ ट्री के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।


===बैगिंग से बेतरतीब जंगलों तक===
===बैगिंग से बेतरतीब जंगलों तक===
{{main|रैंडम सबस्पेस विधि}}
{{main|रैंडम सबस्पेस विधि}}
उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और बेतरतीब  उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
उपरोक्त प्रक्रिया ट्री के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में ट्री का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और बेतरतीब  उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
{{cite journal | first = Tin Kam | last = Ho | title = A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors | journal = Pattern Analysis and Applications | volume = 5 | issue = 2 | year = 2002 | pages = 102–112 | url = http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf | doi = 10.1007/s100440200009 | s2cid = 7415435 }}</ref>
{{cite journal | first = Tin Kam | last = Ho | title = A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors | journal = Pattern Analysis and Applications | volume = 5 | issue = 2 | year = 2002 | pages = 102–112 | url = http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf | doi = 10.1007/s100440200009 | s2cid = 7415435 }}</ref>


Line 92: Line 92:


=== अतिरिक्त पेड़ ===
=== अतिरिक्त पेड़ ===
रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य बेतरतीब जंगलों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी बेतरतीब  है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक बेतरतीब  कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण बेतरतीब जंगलों के समान, प्रत्येक नोड पर विचार किए जाने वाले बेतरतीब  रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>
रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य बेतरतीब जंगलों के समान ही वे अलग-अलग ट्री का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में ट्री शिक्षार्थी बेतरतीब  है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक बेतरतीब  कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण बेतरतीब जंगलों के समान, प्रत्येक नोड पर विचार किए जाने वाले बेतरतीब  रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>




Line 103: Line 103:
डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक बेतरतीब जंगल फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक बेतरतीब जंगल फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।


के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन  के माध्यम से स्कोर को सामान्य किया जाता है।
के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी ट्री पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन  के माध्यम से स्कोर को सामान्य किया जाता है।


इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल  के माध्यम से दी गई और उसका विश्लेषण किया गया।<ref>{{cite journal | vauthors = Zhu R, Zeng D, Kosorok MR | title = सुदृढीकरण सीखने के पेड़| journal = Journal of the American Statistical Association | volume = 110 | issue = 512 | pages = 1770–1784 | date = 2015 | pmid = 26903687 | pmc = 4760114 | doi = 10.1080/01621459.2015.1036994 }}</ref>
इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल  के माध्यम से दी गई और उसका विश्लेषण किया गया।<ref>{{cite journal | vauthors = Zhu R, Zeng D, Kosorok MR | title = सुदृढीकरण सीखने के पेड़| journal = Journal of the American Statistical Association | volume = 110 | issue = 512 | pages = 1770–1784 | date = 2015 | pmid = 26903687 | pmc = 4760114 | doi = 10.1080/01621459.2015.1036994 }}</ref>
Line 127: Line 127:


:<math>\hat{y} = \frac{1}{m}\sum_{j=1}^m\sum_{i=1}^n W_{j}(x_i, x') \, y_i = \sum_{i=1}^n\left(\frac{1}{m}\sum_{j=1}^m W_{j}(x_i, x')\right) \, y_i.</math>
:<math>\hat{y} = \frac{1}{m}\sum_{j=1}^m\sum_{i=1}^n W_{j}(x_i, x') \, y_i = \sum_{i=1}^n\left(\frac{1}{m}\sum_{j=1}^m W_{j}(x_i, x')\right) \, y_i.</math>
इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक बेतरतीब जंगल  के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>
इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग ट्री का औसत है। के निकटतम {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} ट्री की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक बेतरतीब जंगल  के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>




Line 136: Line 136:


== वेरिएंट ==
== वेरिएंट ==
निर्णय पेड़ों के अतिरिक्त, रैखिक मॉडल प्रस्तावित किए गए हैं और बेतरतीब  जंगलों में आधार अनुमानक के रूप में मूल्यांकन किया गया है, विशेष रूप से [[बहुराष्ट्रीय रसद प्रतिगमन]] और सहज बेयस क्लासिफायरियर में।<ref name=":0" /><ref>{{cite journal |authors=Prinzie, A., Van den Poel, D. |year=2008 |title=Random Forests for multiclass classification: Random MultiNomial Logit |journal=Expert Systems with Applications |volume=34 |issue=3 |pages=1721–1732 |doi=10.1016/j.eswa.2007.01.029}}</ref><ref>{{Cite conference | doi = 10.1007/978-3-540-74469-6_35 | contribution=Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB|title=Database and Expert Systems Applications: 18th International Conference, DEXA 2007, Regensburg, Germany, September 3-7, 2007, Proceedings |editor1=Roland Wagner |editor2=Norman Revell |editor3=Günther Pernul| year=2007 | series=Lecture Notes in Computer Science | volume=4653 | pages=349–358 | last1 = Prinzie | first1 = Anita| isbn=978-3-540-74467-2 }}</ref> ऐसे स्थितियों में जहां भविष्यवाणियों और लक्ष्य चर के बीच संबंध रैखिक है, आधार शिक्षार्थियों के पास समेकित शिक्षार्थी के समान उच्च त्रुटिहीनता हो सकती है।<ref name=":1">{{Cite journal|last1=Smith|first1=Paul F.|last2=Ganesh|first2=Siva|last3=Liu|first3=Ping|date=2013-10-01|title=तंत्रिका विज्ञान में भविष्यवाणी के लिए यादृच्छिक वन प्रतिगमन और एकाधिक रैखिक प्रतिगमन की तुलना|url=https://linkinghub.elsevier.com/retrieve/pii/S0165027013003026|journal=Journal of Neuroscience Methods|language=en|volume=220|issue=1|pages=85–91|doi=10.1016/j.jneumeth.2013.08.024|pmid=24012917|s2cid=13195700|via=}}</ref><ref name=":0" />
निर्णय ट्री के अतिरिक्त, रैखिक मॉडल प्रस्तावित किए गए हैं और बेतरतीब  जंगलों में आधार अनुमानक के रूप में मूल्यांकन किया गया है, विशेष रूप से [[बहुराष्ट्रीय रसद प्रतिगमन]] और सहज बेयस क्लासिफायरियर में।<ref name=":0" /><ref>{{cite journal |authors=Prinzie, A., Van den Poel, D. |year=2008 |title=Random Forests for multiclass classification: Random MultiNomial Logit |journal=Expert Systems with Applications |volume=34 |issue=3 |pages=1721–1732 |doi=10.1016/j.eswa.2007.01.029}}</ref><ref>{{Cite conference | doi = 10.1007/978-3-540-74469-6_35 | contribution=Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB|title=Database and Expert Systems Applications: 18th International Conference, DEXA 2007, Regensburg, Germany, September 3-7, 2007, Proceedings |editor1=Roland Wagner |editor2=Norman Revell |editor3=Günther Pernul| year=2007 | series=Lecture Notes in Computer Science | volume=4653 | pages=349–358 | last1 = Prinzie | first1 = Anita| isbn=978-3-540-74467-2 }}</ref> ऐसे स्थितियों में जहां भविष्यवाणियों और लक्ष्य चर के बीच संबंध रैखिक है, आधार शिक्षार्थियों के पास समेकित शिक्षार्थी के समान उच्च त्रुटिहीनता हो सकती है।<ref name=":1">{{Cite journal|last1=Smith|first1=Paul F.|last2=Ganesh|first2=Siva|last3=Liu|first3=Ping|date=2013-10-01|title=तंत्रिका विज्ञान में भविष्यवाणी के लिए यादृच्छिक वन प्रतिगमन और एकाधिक रैखिक प्रतिगमन की तुलना|url=https://linkinghub.elsevier.com/retrieve/pii/S0165027013003026|journal=Journal of Neuroscience Methods|language=en|volume=220|issue=1|pages=85–91|doi=10.1016/j.jneumeth.2013.08.024|pmid=24012917|s2cid=13195700|via=}}</ref><ref name=":0" />




Line 149: Line 149:


=== इतिहास ===
=== इतिहास ===
लियो ब्रिमन<ref name="breiman2000some">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | title = पूर्वसूचक पहनावा के लिए कुछ अनंत सिद्धांत| institution = Technical Report 579, Statistics Dept. UCB | year = 2000 | url = https://statistics.berkeley.edu/tech-reports/579 }}</ref> बेतरतीब जंगल और कर्नेल विधियों के बीच की कड़ी को नोटिस करने वाले पहले व्यक्ति थे। उन्होंने बताया कि बेतरतीब जंगल जो i.i.d. का उपयोग करके उगाए जाते हैं। वृक्ष निर्माण में बेतरतीब  वैक्टर सच्चे मार्जिन पर अभिनय करने वाले कर्नेल के समान होते हैं। लिन और जीन<ref name="lin2006random">{{cite journal | first1 = Yi | last1 = Lin | first2 = Yongho | last2 = Jeon | title = बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी| journal = Journal of the American Statistical Association | volume = 101 | number = 474 | pages = 578–590 | year = 2006 | doi = 10.1198/016214505000001230 | citeseerx = 10.1.1.153.9168 | s2cid = 2469856 }}</ref> बेतरतीब  जंगलों और अनुकूली निकटतम निकटतम के बीच संबंध स्थापित किया, जिसका अर्थ है कि बेतरतीब  जंगलों को अनुकूली कर्नेल अनुमानों के रूप में देखा जा सकता है। डेविस और घरमनी<ref name="davies2014random">{{cite arXiv |first1=Alex |last1=Davies |first2=Zoubin|last2=Ghahramani |title=यादृच्छिक विभाजन से बड़े डेटा के लिए रैंडम फ़ॉरेस्ट कर्नेल और अन्य कर्नेल|eprint=1402.4293 |year= 2014 |class=stat.ML }}</ref> प्रस्तावित बेतरतीब जंगल कर्नेल और दिखाते हैं कि यह अनुभवजन्य रूप से अत्याधुनिक कर्नेल विधियों से बेहतर प्रदर्शन कर सकता है। स्कॉर्नेट<ref name="scornet2015random"/>पहले केआरएफ अनुमानों को परिभाषित किया और केआरएफ अनुमानों और बेतरतीब जंगल के बीच स्पष्ट लिंक दिया। उन्होंने केन्द्रित बेतरतीब जंगल के आधार पर गुठली के लिए स्पष्ट अभिव्यक्तियाँ भी दीं<ref name="breiman2004consistency">{{cite journal | first1 = Leo | last1 = Breiman | first2 = Zoubin | last2 = Ghahramani | name-list-style = vanc | title = यादृच्छिक वनों के एक साधारण मॉडल के लिए संगति| journal = Statistical Department, University of California at Berkeley. Technical Report | number = 670 | year = 2004 | citeseerx = 10.1.1.618.90 }}</ref> और समान बेतरतीब जंगल,<ref name="arlot2014analysis">{{cite arXiv |first1=Sylvain |last1=Arlot  | first2 = Robin | last2 = Genuer | name-list-style = vanc |title=विशुद्ध रूप से यादृच्छिक वन पूर्वाग्रह का विश्लेषण|eprint=1407.393