रैंडम फॉरेस्ट: Difference between revisions

Line 1:

{{About|मशीन सीखने की तकनीक|अन्य प्रकार के ~~यादृच्छिक पेड़~~|बेतरतीब ~~पेड़~~}}

{{About|मशीन सीखने की तकनीक|अन्य प्रकार के बेतरतीब जंगल|बेतरतीब जंगल}}

{{short description|Binary search tree based ensemble machine learning method}}

[[File:Random forest diagram complete.png|thumb|एक ~~यादृच्छिक~~ निर्णय वन का आरेख]]~~यादृच्छिक वन~~ या ~~यादृच्छिक~~ निर्णय वन [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, ~~यादृच्छिक वन~~ का उत्पादन अधिकांश पेड़ों के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>~~यादृच्छिक~~ निर्णय वन अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} ~~यादृच्छिक वन~~ सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>

[[File:Random forest diagram complete.png|thumb|एक बेतरतीब निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश पेड़ों के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} बेतरतीब जंगल सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>

~~यादृच्छिक~~ निर्णय ~~वनों~~ के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference

बेतरतीब निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference

|first = Tin Kam

|last = Ho

Line 18:

|url-status = dead

|df = dmy-all

}}</ref> [[यादृच्छिक उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>

}}</ref> [[यादृच्छिक उपस्थान विधि|बेतरतीब उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref> जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>

एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]] के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में ~~यादृच्छिक वन~~ ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के ~~यादृच्छिक~~ चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]] के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।

एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]] के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]] के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।

~~यादृच्छिक वन~~ का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}

बेतरतीब जंगल का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}

== इतिहास ==

~~यादृच्छिक~~ निर्णय ~~वनों~~ की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को ~~यादृच्छिक~~ रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए वन पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>

बेतरतीब निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>

बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था

जेमन<ref name="amitgeman1997"/>जिन्होंने ~~यादृच्छिक~~ उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया

जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया

एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय

[[निर्णय वृक्ष]]। हो से ~~यादृच्छिक~~ उपस्थान चयन का विचार<ref name="ho1998"/>~~यादृच्छिक वनों~~ के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,

[[निर्णय वृक्ष]]। हो से बेतरतीब उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,

और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है

प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले ~~यादृच्छिक~~ रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार

प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार

~~यादृच्छिक~~ नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है

बेतरतीब नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है

एक नियतात्मक अनुकूलन के अतिरिक्त ~~यादृच्छिक~~ प्रक्रिया पहले थी

एक नियतात्मक अनुकूलन के अतिरिक्त बेतरतीब प्रक्रिया पहले थी

थॉमस जी डायटरिच के माध्यम से प्रस्तुतकिया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>

~~यादृच्छिक वनों~~ का उचित परिचय एक कागज में किया गया था

बेतरतीब जंगलों का उचित परिचय एक कागज में किया गया था

लियो ब्रिमन के माध्यम से।<ref name="breiman2001" /> यह पत्र जंगल बनाने की एक विधि का वर्णन करता है

एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, ~~यादृच्छिक~~ नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है

एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, बेतरतीब नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है

सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं

~~यादृच्छिक वनों~~ का आधुनिक अभ्यास, विशेष रूप से:

बेतरतीब जंगलों का आधुनिक अभ्यास, विशेष रूप से:

# [[सामान्यीकरण त्रुटि]] के अनुमान के रूप में [[आउट-ऑफ-बैग त्रुटि]] का उपयोग करना।

# क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।

रिपोर्ट ~~यादृच्छिक~~ जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है

रिपोर्ट बेतरतीब जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है

सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है

Line 59:

निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। ~~यादृच्छिक वन~~ एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।

वन निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक ~~यादृच्छिक~~ पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, वन क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

जंगल निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक बेतरतीब पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।

=== बैगिंग ===

~~यादृच्छिक वन~~ के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x1}}, ..., {{mvar|xn}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y1}}, ..., {{mvar|yn}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:

बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x1}}, ..., {{mvar|xn}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y1}}, ..., {{mvar|yn}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:

: के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:

Line 84:

कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।

===बैगिंग से ~~यादृच्छिक वनों~~ तक===

===बैगिंग से बेतरतीब जंगलों तक===

उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। ~~यादृच्छिक वन~~ में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और ~~यादृच्छिक~~ उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।<ref name="ho2002">

उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और बेतरतीब उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो के माध्यम से दिया गया है।<ref name="ho2002">

{{cite journal | first = Tin Kam | last = Ho | title = A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors | journal = Pattern Analysis and Applications | volume = 5 | issue = 2 | year = 2002 | pages = 102–112 | url = http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf | doi = 10.1007/s100440200009 | s2cid = 7415435 }}</ref>

Line 92:

=== अतिरिक्त पेड़ ===

रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य ~~यादृच्छिक वनों~~ के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी ~~यादृच्छिक~~ है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक ~~यादृच्छिक~~ कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण ~~यादृच्छिक वनों~~ के समान, प्रत्येक नोड पर विचार किए जाने वाले ~~यादृच्छिक~~ रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>

रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य बेतरतीब जंगलों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी बेतरतीब है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक बेतरतीब कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण बेतरतीब जंगलों के समान, प्रत्येक नोड पर विचार किए जाने वाले बेतरतीब रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>

Line 99:

=== परिवर्तनीय महत्व ===

प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए ~~यादृच्छिक~~ जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}

प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए बेतरतीब जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}

</ref>

डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक ~~यादृच्छिक वन~~ फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।

डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक बेतरतीब जंगल फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।

के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन के माध्यम से स्कोर को सामान्य किया जाता है।

इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल के माध्यम से दी गई और उसका विश्लेषण किया गया।<ref>{{cite journal | vauthors = Zhu R, Zeng D, Kosorok MR | title = सुदृढीकरण सीखने के पेड़| journal = Journal of the American Statistical Association | volume = 110 | issue = 512 | pages = 1770–1784 | date = 2015 | pmid = 26903687 | pmc = 4760114 | doi = 10.1080/01621459.2015.1036994 }}</ref>

परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, ~~यादृच्छिक वन~~ अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। [[आंशिक क्रमपरिवर्तन]] जैसे तरीके<ref>{{cite conference

परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, बेतरतीब जंगल अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। [[आंशिक क्रमपरिवर्तन]] जैसे तरीके<ref>{{cite conference

|author=Deng, H.|author2=Runger, G. |author3=Tuv, E.

|title=Bias of importance measures for multi-valued attributes and solutions

Line 116:

=== निकटतम पड़ोसियों से संबंध ===

~~यादृच्छिक~~ जंगलों और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध{{mvar|k}}-निकटतम निकटतम एल्गोरिथम ({{mvar|k}}-एनएन) को 2002 में लिन और जीन के माध्यम से इंगित किया गया था।<ref name="linjeon02">{{Cite techreport |first1=Yi |last1=Lin |first2=Yongho |last2=Jeon |title=बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी|series=Technical Report No. 1055 |year=2002 |institution=University of Wisconsin |citeseerx=10.1.1.153.9168}}</ref> यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं <math>\{(x_i, y_i)\}_{i=1}^n</math> जो भविष्यवाणी करते हैं <math>\hat{y}</math> नए बिंदुओं के लिए {{mvar|x'}} बिंदु के पड़ोस को देखकर, वजन समारोह के माध्यम से औपचारिक रूप दिया गया {{mvar|W}}:

बेतरतीब जंगलों और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध{{mvar|k}}-निकटतम निकटतम एल्गोरिथम ({{mvar|k}}-एनएन) को 2002 में लिन और जीन के माध्यम से इंगित किया गया था।<ref name="linjeon02">{{Cite techreport |first1=Yi |last1=Lin |first2=Yongho |last2=Jeon |title=बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी|series=Technical Report No. 1055 |year=2002 |institution=University of Wisconsin |citeseerx=10.1.1.153.9168}}</ref> यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं <math>\{(x_i, y_i)\}_{i=1}^n</math> जो भविष्यवाणी करते हैं <math>\hat{y}</math> नए बिंदुओं के लिए {{mvar|x'}} बिंदु के पड़ोस को देखकर, वजन समारोह के माध्यम से औपचारिक रूप दिया गया {{mvar|W}}:

:<math>\hat{y} = \sum_{i=1}^n W(x_i, x') \, y_i.</math>

Line 127:

:<math>\hat{y} = \frac{1}{m}\sum_{j=1}^m\sum_{i=1}^n W_{j}(x_i, x') \, y_i = \sum_{i=1}^n\left(\frac{1}{m}\sum_{j=1}^m W_{j}(x_i, x')\right) \, y_i.</math>

इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक ~~यादृच्छिक वन~~ के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>

इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक बेतरतीब जंगल के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>

== बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा ==

उनके निर्माण के हिस्से के रूप में, ~~यादृच्छिक वन~~ भविष्यसमया स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक ~~यादृच्छिक वन~~ असमानता माप को भी परिभाषित किया जा सकता है: विचार एक ~~यादृच्छिक वन~~ भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।<ref name=breiman2001/><ref>{{cite journal |authors=Shi, T., Horvath, S. |year=2006 |title=रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग|journal=Journal of Computational and Graphical Statistics |volume=15 |issue=1 |pages=118–138 |doi=10.1198/106186006X94072 |jstor=27594168|citeseerx=10.1.1.698.2365 |s2cid=245216 }}</ref>

उनके निर्माण के हिस्से के रूप में, बेतरतीब जंगल भविष्यसमया स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक बेतरतीब जंगल असमानता माप को भी परिभाषित किया जा सकता है: विचार एक बेतरतीब जंगल भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।<ref name=breiman2001/><ref>{{cite journal |authors=Shi, T., Horvath, S. |year=2006 |title=रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग|journal=Journal of Computational and Graphical Statistics |volume=15 |issue=1 |pages=118–138 |doi=10.1198/106186006X94072 |jstor=27594168|citeseerx=10.1.1.698.2365 |s2cid=245216 }}</ref>

देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेट�

Anonymous

Search

रैंडम फॉरेस्ट: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
-{{About|मशीन सीखने की तकनीक|अन्य प्रकार के यादृच्छिक पेड़|बेतरतीब पेड़}}
+{{About|मशीन सीखने की तकनीक|अन्य प्रकार के बेतरतीब जंगल|बेतरतीब जंगल}}
 {{short description|Binary search tree based ensemble machine learning method}}
 {{Machine learning|पर्यवेक्षित अध्ययन}}
-[[File:Random forest diagram complete.png|thumb|एक यादृच्छिक निर्णय वन का आरेख]]यादृच्छिक वन या यादृच्छिक निर्णय वन [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, यादृच्छिक वन का उत्पादन अधिकांश पेड़ों  के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>यादृच्छिक निर्णय वन अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} यादृच्छिक वन सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
+[[File:Random forest diagram complete.png|thumb|एक बेतरतीब  निर्णय जंगल का आरेख]]बेतरतीब जंगल या बेतरतीब  निर्णय जंगल [[सांख्यिकीय वर्गीकरण]], [[प्रतिगमन विश्लेषण]] और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय वृक्ष सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश पेड़ों  के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग पेड़ों का माध्य या औसत पूर्वानुमान दिया जाता है।<ref name="ho1995"/><ref name="ho1998"/>बेतरतीब  निर्णय जंगल अपने [[टेस्ट सेट]] के लिए निर्णय पेड़ों की [[ overfitting |ओवरफट्टिंग]] की आदत के लिए सही हैं।{{r|elemstatlearn}}{{rp|587–588}} बेतरतीब जंगल सामान्यतःनिर्णय वृक्ष सीखना से बेहतर प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।{{Citation needed|date=May 2022}} चूँकि, डेटा विशेषताएँ उनके प्रदर्शन को प्रभावित कर सकती हैं।<ref name=":02">{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175|s2cid=216485629}}</ref><ref name=":0">{{Cite journal|last1=Piryonesi|first1=S. Madeh|last2=El-Diraby|first2=Tamer E.|date=2021-02-01|title=फ्लेक्सिबल पेवमेंट डीटेरियोरेशन मॉडलिंग पर परफॉरमेंस इंडिकेटर के प्रकार के प्रभाव की जांच करने के लिए मशीन लर्निंग का उपयोग करना|url=http://ascelibrary.org/doi/10.1061/%28ASCE%29IS.1943-555X.0000602|journal=Journal of Infrastructure Systems|language=en|volume=27|issue=2|pages=04021005|doi=10.1061/(ASCE)IS.1943-555X.0000602|s2cid=233550030|issn=1076-0342|via=}}</ref>
-यादृच्छिक निर्णय वनों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
+बेतरतीब  निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में [[ तिन कम हो |तिन कम हो]] के माध्यम से बनाया गया था<ref name="ho1995">{{cite conference
   |first        = Tin Kam
   |last         = Ho
@@ Line 18: / Line 18: @@
   |url-status     = dead
   |df           = dmy-all
-}}</ref> [[यादृच्छिक उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref>  जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
+}}</ref> [[यादृच्छिक उपस्थान विधि|बेतरतीब  उपस्थान विधि]] का उपयोग करना,<ref name="ho1998">{{cite journal | first = Tin Kam | last = Ho | name-list-style = vanc | title = निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | year = 1998 | volume = 20 | issue = 8 | pages = 832–844 | doi = 10.1109/34.709601 | url = http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf }}</ref>  जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।<ref name="kleinberg1990">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=स्टोकेस्टिक भेदभाव|journal=[[Annals of Mathematics and Artificial Intelligence]] |year=1990 |volume=1 |issue=1–4 |pages=207–239 |url=https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |archive-url=https://web.archive.org/web/20180118124007/https://pdfs.semanticscholar.org/faa4/c502a824a9d64bf3dc26eb90a2c32367921f.pdf |url-status=dead |archive-date=2018-01-18 |doi=10.1007/BF01531079|citeseerx=10.1.1.25.6750 |s2cid=206795835 }}</ref><ref name="kleinberg1996">{{cite journal |first=Eugene |last=Kleinberg | name-list-style = vanc |title=पैटर्न पहचान के लिए एक ओवरट्रेनिंग-प्रतिरोधी स्टोकास्टिक मॉडलिंग विधि|journal=[[Annals of Statistics]] |year=1996 |volume=24 |issue=6 |pages=2319–2349 |doi=10.1214/aos/1032181157 |mr=1425956|doi-access=free }}</ref><ref name="kleinberg2000">{{cite journal|first=Eugene|last=Kleinberg| name-list-style = vanc |title=स्टोकेस्टिक भेदभाव के एल्गोरिथम कार्यान्वयन पर|journal=IEEE Transactions on PAMI|year=2000|volume=22|issue=5|pages=473–490|url=https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|archive-url=https://web.archive.org/web/20180118124006/https://pdfs.semanticscholar.org/8956/845b0701ec57094c7a8b4ab1f41386899aea.pdf|url-status=dead|archive-date=2018-01-18|doi=10.1109/34.857004|citeseerx=10.1.1.33.4131|s2cid=3563126}}</ref>
-एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में यादृच्छिक वन ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के यादृच्छिक चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।
+एल्गोरिथम का एक विस्तार [[लियो ब्रिमन]]  के माध्यम से विकसित किया गया था<ref name="breiman2001">{{cite journal | first = Leo | last = Breiman | author-link = Leo Breiman | name-list-style = vanc | title = यादृच्छिक वन| journal = [[Machine Learning (journal)|Machine Learning]] | year = 2001 | volume = 45 | issue = 1 | pages = 5–32 | doi = 10.1023/A:1010933404324 | bibcode = 2001MachL..45....5B | doi-access = free }}</ref> और [[एडेल कटलर]],<ref name="rpackage" />जिसने पंजीकरण कराया<ref>U.S. trademark registration number 3185828, registered 2006/12/19.</ref> 2006 में [[ट्रेडमार्क]] के रूप में बेतरतीब जंगल ({{As of|lc=y|2019}}, जिसका स्वामित्व मिनिटैब, इंक.) के पास है।<ref>{{cite web|url=https://trademarks.justia.com/786/42/random-78642027.html|title=RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks}}</ref> यह विस्तार ब्रीमन के [[बूटस्ट्रैप एकत्रीकरण]] विचार और सुविधाओं के बेतरतीब  चयन को जोड़ता है, जिसे पहले हो  के माध्यम से प्रस्तुत किया गया था<ref name="ho1995" />और बाद में अमित और [[डोनाल्ड जेमन]]  के माध्यम से स्वतंत्र रूप से<ref name="amitgeman1997">{{cite journal | last1 = Amit | first1 = Yali | last2 = Geman | first2 = Donald | author-link2 = Donald Geman | name-list-style = vanc | title = यादृच्छिक पेड़ों के साथ आकार परिमाणीकरण और पहचान| journal = [[Neural Computation (journal)|Neural Computation]] | year = 1997 | volume = 9 | issue = 7 | pages = 1545–1588 | doi = 10.1162/neco.1997.9.7.1545 | url = http://www.cis.jhu.edu/publications/papers_in_database/GEMAN/shape.pdf | citeseerx = 10.1.1.57.6069 | s2cid = 12470146 }}</ref> नियंत्रित विचरण वाले निर्णय वृक्षों का संग्रह बनाने के लिए।
-यादृच्छिक वन का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}
+बेतरतीब जंगल का अधिकांशतः व्यवसायों में [[ब्लैक बॉक्स]] मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।{{Citation needed|date=October 2022}}
 == इतिहास ==
-यादृच्छिक निर्णय वनों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को यादृच्छिक रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए वन पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
+बेतरतीब  निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो  के माध्यम से प्रस्तावित की गई थी।<ref name="ho1995"/>हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले पेड़ों के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब  रूप से एकमात्र चयनित [[फ़ीचर (मशीन लर्निंग)]] आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम<ref name="ho1998"/>निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।<ref name="kleinberg1990"/><ref name="kleinberg1996"/><ref name="kleinberg2000"/>
   बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
-जेमन<ref name="amitgeman1997"/>जिन्होंने यादृच्छिक उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
+जेमन<ref name="amitgeman1997"/>जिन्होंने बेतरतीब  उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
 एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय
-[[निर्णय वृक्ष]]। हो से यादृच्छिक उपस्थान चयन का विचार<ref name="ho1998"/>यादृच्छिक वनों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,
+[[निर्णय वृक्ष]]। हो से बेतरतीब  उपस्थान चयन का विचार<ref name="ho1998"/>बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में वृक्षों का जंगल उगा दिया जाता है,
 और प्रशिक्षण डेटा को प्रोजेक्ट करके पेड़ों के बीच भिन्नता प्रस्तुतकी जाती है
-प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले यादृच्छिक रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार
+प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब  रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार
-यादृच्छिक नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a  के माध्यम से चुना जाता है
+बेतरतीब  नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a  के माध्यम से चुना जाता है
-एक नियतात्मक अनुकूलन के अतिरिक्त यादृच्छिक प्रक्रिया पहले थी
+एक नियतात्मक अनुकूलन के अतिरिक्त बेतरतीब  प्रक्रिया पहले थी
 थॉमस जी डायटरिच  के माध्यम से प्रस्तुतकिया गया।<ref>{{cite journal | first = Thomas | last = Dietterich | title = An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization | journal = [[Machine Learning (journal)|Machine Learning]] | volume = 40 | issue = 2 | year = 2000 | pages = 139–157 | doi = 10.1023/A:1007607513941 | doi-access = free }}</ref>
-यादृच्छिक वनों का उचित परिचय एक कागज में किया गया था
+बेतरतीब जंगलों का उचित परिचय एक कागज में किया गया था
 लियो ब्रिमन  के माध्यम से।<ref name="breiman2001" />  यह पत्र जंगल बनाने की एक विधि का वर्णन करता है
-एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, यादृच्छिक नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है
+एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, बेतरतीब  नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है
 सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं
-यादृच्छिक वनों का आधुनिक अभ्यास, विशेष रूप से:
+बेतरतीब जंगलों का आधुनिक अभ्यास, विशेष रूप से:
 # [[सामान्यीकरण त्रुटि]] के अनुमान के रूप में [[आउट-ऑफ-बैग त्रुटि]] का उपयोग करना।
 # क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।
-रिपोर्ट यादृच्छिक जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है
+रिपोर्ट बेतरतीब  जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है
 सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है
@@ Line 59: / Line 59: @@
 निर्णय वृक्ष विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है, [[ट्रेवर हेस्टी]] एट अल कहते हैं, क्योंकि यह स्केलिंग और फीचर वैल्यू के विभिन्न अन्य परिवर्तनों के अनुसार  अपरिवर्तनीय है, समावेशन के लिए मजबूत है अप्रासंगिक सुविधाओं का, और निरीक्षण योग्य मॉडल तैयार करता है। चूंकि, वे संभवतः ही कभी त्रुटिहीन होते हैं।<ref name="elemstatlearn">{{ElemStatLearn}}</ref>{{rp|352}}
-विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। यादृच्छिक वन एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
+विशेष रूप से, बहुत गहरे उगने वाले पेड़ अत्यधिक अनियमित पैटर्न सीखने की प्रवृत्ति रखते हैं: वे अपने प्रशिक्षण सेटों को ओवरफिटिंग करते हैं, अर्थात बायस-वैरियंस ट्रेडऑफ़|कम पूर्वाग्रह, किन्तु बहुत उच्च विचरण। बेतरतीब जंगल एक ही प्रशिक्षण सेट के विभिन्न भागों पर प्रशिक्षित कई गहरे निर्णय पेड़ों को औसत करने का एक विधि है, जिसका लक्ष्य विचरण को कम करना है।<ref name="elemstatlearn"/>{{rp|587–588}} यह पूर्वाग्रह में थोड़ी वृद्धि और व्याख्यात्मकता के कुछ हानि की कीमत पर आता है, किन्तु सामान्यतः अंतिम मॉडल में प्रदर्शन को बहुत बढ़ा देता है।
-वन निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक यादृच्छिक पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, वन क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
+जंगल निर्णय वृक्ष एल्गोरिथम प्रयासों को एक साथ खींचने जैसा है। कई पेड़ों की टीम वर्क लेकर इस प्रकार एक बेतरतीब  पेड़ के प्रदर्शन में सुधार होता है। चूंकि अधिक समान नहीं हैं, जंगल क्रॉस-सत्यापन (सांख्यिकी)#k-fold_cross-Validation|k-fold क्रॉस सत्यापन का प्रभाव देते हैं।
 === बैगिंग ===
 {{main|बूटस्ट्रैप एकत्रीकरण}}
-यादृच्छिक वन के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:
+बेतरतीब जंगल के लिए प्रशिक्षण एल्गोरिद्म ट्री शिक्षार्थियों के लिए बूटस्ट्रैप एग्रीगेटिंग या बैगिंग की सामान्य तकनीक लागू करता है। ट्रेनिंग सेट दिया {{mvar|X}} = {{mvar|x<sub>1</sub>}}, ..., {{mvar|x<sub>n</sub>}} प्रतिक्रियाओं के साथ {{mvar|Y}} = {{mvar|y<sub>1</sub>}}, ..., {{mvar|y<sub>n</sub>}}, बार-बार बैगिंग (बी बार) एक नमूनाकरण (सांख्यिकी) का चयन करता है # प्रशिक्षण सेट की चयनित इकाइयों का प्रतिस्थापन और इन नमूनों में पेड़ों को फिट करता है:
 : के लिए {{mvar|b}} = 1, ..., {{mvar|B}}:
@@ Line 84: / Line 84: @@
 कुछ पेड़ों के फिट होने के बाद प्रशिक्षण और परीक्षण त्रुटि का स्तर कम हो जाता है।
-===बैगिंग से यादृच्छिक वनों तक===
+===बैगिंग से बेतरतीब जंगलों तक===
 {{main|रैंडम सबस्पेस विधि}}
-उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। यादृच्छिक वन में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और यादृच्छिक उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
+उपरोक्त प्रक्रिया पेड़ों के लिए मूल बैगिंग एल्गोरिथम का वर्णन करती है। बेतरतीब जंगल में एक अन्य प्रकार की बैगिंग योजना भी सम्मलित है: वे एक संशोधित ट्री लर्निंग एल्गोरिथम का उपयोग करते हैं, जो सीखने की प्रक्रिया में विभाजित प्रत्येक उम्मीदवार पर एक रैंडम सबस्पेस विधि का चयन करता है। इस प्रक्रिया को कभी-कभी फीचर बैगिंग कहा जाता है। ऐसा करने का कारण एक साधारण बूटस्ट्रैप नमूने में पेड़ों का सहसंबंध है: यदि प्रतिक्रिया चर (लक्ष्य आउटपुट) के लिए एक या कुछ फ़ीचर (मशीन लर्निंग) बहुत मजबूत भविष्यसमया हैं, तो इन सुविधाओं को कई में चुना जाएगा {{mvar|B}} पेड़, जिससे वे सहसंबद्ध हो जाते हैं। कैसे बैगिंग और बेतरतीब  उप-अंतरिक्ष प्रक्षेपण विभिन्न परिस्थितियों में त्रुटिहीनता लाभ में योगदान का विश्लेषण हो  के माध्यम से दिया गया है।<ref name="ho2002">
 {{cite journal | first = Tin Kam | last = Ho | title = A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors | journal = Pattern Analysis and Applications | volume = 5 | issue = 2 | year = 2002 | pages = 102–112 | url = http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf | doi = 10.1007/s100440200009 | s2cid = 7415435 }}</ref>
@@ Line 92: / Line 92: @@
 === अतिरिक्त पेड़ ===
-रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य यादृच्छिक वनों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी यादृच्छिक है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक यादृच्छिक कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण यादृच्छिक वनों के समान, प्रत्येक नोड पर विचार किए जाने वाले यादृच्छिक रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>
+रेंडमाइजेशन के एक और चरण को जोड़ने से अत्यधिक रैंडमाइज्ड ट्री या एक्स्ट्राट्रीज मिलते हैं। चूँकि सामान्य बेतरतीब जंगलों के समान ही वे अलग-अलग पेड़ों का एक समूह हैं, दो मुख्य अंतर हैं: पहला, प्रत्येक पेड़ को पूरे सीखने के नमूने (बूटस्ट्रैप नमूने के अतिरिक्त) का उपयोग करके प्रशिक्षित किया जाता है, और दूसरा, शीर्ष-नीचे विभाजन में वृक्ष शिक्षार्थी बेतरतीब  है। विचाराधीन प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम कट-पॉइंट की गणना करने के अतिरिक्त (उदाहरण के लिए, [[सूचना लाभ]] या गिन्नी अशुद्धता के आधार पर), एक बेतरतीब  कट-पॉइंट का चयन किया जाता है। यह मान फीचर की अनुभवजन्य सीमा (पेड़ के प्रशिक्षण सेट में) के भीतर एक समान वितरण से चुना गया है। फिर, सभी बेतरतीब ढंग से उत्पन्न विभाजनों में, उच्चतम स्कोर देने वाले विभाजन को नोड को विभाजित करने के लिए चुना जाता है। साधारण बेतरतीब जंगलों के समान, प्रत्येक नोड पर विचार किए जाने वाले बेतरतीब  रूप से चयनित सुविधाओं की संख्या निर्दिष्ट की जा सकती है। इस पैरामीटर के लिए डिफ़ॉल्ट मान हैं <math>\sqrt{p}</math> वर्गीकरण के लिए और <math>p</math> प्रतिगमन के लिए, जहां <math>p</math> मॉडल में सुविधाओं की संख्या है।<ref>{{Cite journal | doi = 10.1007/s10994-006-6226-1| title = अत्यधिक यादृच्छिक पेड़| journal = Machine Learning| volume = 63| pages = 3–42| year = 2006| vauthors = Geurts P, Ernst D, Wehenkel L | url = http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf| doi-access = free}}</ref>
@@ Line 99: / Line 99: @@
 === परिवर्तनीय महत्व ===
-प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए यादृच्छिक जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}
+प्राकृतिक तरीके से प्रतिगमन या वर्गीकरण समस्या में चर के महत्व को रैंक करने के लिए बेतरतीब  जंगलों का उपयोग किया जा सकता है। ब्रिमन के मूल पेपर में निम्नलिखित तकनीक का वर्णन किया गया था<ref name=breiman2001/>और R (प्रोग्रामिंग भाषा) पैकेज randomForest में लागू किया गया है।<ref name="rpackage">{{cite web |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |title=आर पैकेज के लिए प्रलेखन randomForest|first1=Andy |last1=Liaw | name-list-style = vanc | date=16 October 2012 |access-date=15 March 2013}}
 </ref>
-डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक यादृच्छिक वन फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
+डेटा सेट में चर महत्व को मापने का पहला चरण <math>\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n</math> डेटा के लिए एक बेतरतीब जंगल फिट करना है। फिटिंग प्रक्रिया के समय प्रत्येक डेटा बिंदु के लिए आउट-ऑफ़-बैग त्रुटि रिकॉर्ड की जाती है और जंगल पर औसत होती है (यदि प्रशिक्षण के समय बैगिंग का उपयोग नहीं किया जाता है तो एक स्वतंत्र परीक्षण सेट पर त्रुटियों को प्रतिस्थापित किया जा सकता है)।
 के महत्व को मापने के लिए <math>j</math>प्रशिक्षण के बाद -थ फीचर, के मूल्य <math>j</math>-वें फीचर को प्रशिक्षण डेटा के बीच अनुमति दी जाती है और इस परेशान डेटा सेट पर आउट-ऑफ-बैग त्रुटि की फिर से गणना की जाती है। के लिए महत्व स्कोर <math>j</math>-वें फीचर की गणना सभी पेड़ों पर क्रमपरिवर्तन से पहले और बाद में आउट-ऑफ-बैग त्रुटि में अंतर के औसत से की जाती है। इन अंतरों के मानक विचलन  के माध्यम से स्कोर को सामान्य किया जाता है।
 इस स्कोर के लिए बड़े मान उत्पन्न करने वाली सुविधाओं को छोटे मान उत्पन्न करने वाली सुविधाओं की समानता में अधिक महत्वपूर्ण माना जाता है। चर महत्व माप की सांख्यिकीय परिभाषा झू एट अल  के माध्यम से दी गई और उसका विश्लेषण किया गया।<ref>{{cite journal | vauthors = Zhu R, Zeng D, Kosorok MR | title = सुदृढीकरण सीखने के पेड़| journal = Journal of the American Statistical Association | volume = 110 | issue = 512 | pages = 1770–1784 | date = 2015 | pmid = 26903687 | pmc = 4760114 | doi = 10.1080/01621459.2015.1036994 }}</ref>
-परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, यादृच्छिक वन अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। [[आंशिक क्रमपरिवर्तन]] जैसे तरीके<ref>{{cite conference
+परिवर्तनशील महत्व के निर्धारण की इस पद्धति में कुछ कमियां हैं। विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित डेटा के लिए, बेतरतीब जंगल अधिक स्तरों के साथ उन विशेषताओं के पक्ष में पक्षपाती हैं। [[आंशिक क्रमपरिवर्तन]] जैसे तरीके<ref>{{cite conference
 |author=Deng, H.|author2=Runger, G. |author3=Tuv, E.
   |title=Bias of importance measures for multi-valued attributes and solutions
@@ Line 116: / Line 116: @@
 === निकटतम पड़ोसियों से संबंध ===
-यादृच्छिक जंगलों और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध{{mvar|k}}-निकटतम निकटतम एल्गोरिथम ({{mvar|k}}-एनएन) को 2002 में लिन और जीन  के माध्यम से इंगित किया गया था।<ref name="linjeon02">{{Cite techreport  |first1=Yi |last1=Lin |first2=Yongho |last2=Jeon |title=बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी|series=Technical Report No. 1055 |year=2002 |institution=University of Wisconsin |citeseerx=10.1.1.153.9168}}</ref> यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं <math>\{(x_i, y_i)\}_{i=1}^n</math> जो भविष्यवाणी करते हैं <math>\hat{y}</math> नए बिंदुओं के लिए {{mvar|x'}} बिंदु के पड़ोस को देखकर, वजन समारोह  के माध्यम से औपचारिक रूप दिया गया {{mvar|W}}:
+बेतरतीब  जंगलों और के-निकटतम निकटतम एल्गोरिदम के बीच संबंध{{mvar|k}}-निकटतम निकटतम एल्गोरिथम ({{mvar|k}}-एनएन) को 2002 में लिन और जीन  के माध्यम से इंगित किया गया था।<ref name="linjeon02">{{Cite techreport  |first1=Yi |last1=Lin |first2=Yongho |last2=Jeon |title=बेतरतीब जंगल और अनुकूल निकटतम पड़ोसी|series=Technical Report No. 1055 |year=2002 |institution=University of Wisconsin |citeseerx=10.1.1.153.9168}}</ref> यह पता चला है कि दोनों को तथाकथित भारित पड़ोस योजनाओं के रूप में देखा जा सकता है। ये एक प्रशिक्षण सेट से निर्मित मॉडल हैं <math>\{(x_i, y_i)\}_{i=1}^n</math> जो भविष्यवाणी करते हैं <math>\hat{y}</math> नए बिंदुओं के लिए {{mvar|x'}} बिंदु के पड़ोस को देखकर, वजन समारोह  के माध्यम से औपचारिक रूप दिया गया {{mvar|W}}:
 :<math>\hat{y} = \sum_{i=1}^n W(x_i, x') \, y_i.</math>
@@ Line 127: / Line 127: @@
 :<math>\hat{y} = \frac{1}{m}\sum_{j=1}^m\sum_{i=1}^n W_{j}(x_i, x') \, y_i = \sum_{i=1}^n\left(\frac{1}{m}\sum_{j=1}^m W_{j}(x_i, x')\right) \, y_i.</math>
-इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक यादृच्छिक वन  के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>
+इससे पता चलता है कि पूरा जंगल फिर से एक भारित पड़ोस योजना है, वजन के साथ जो कि अलग-अलग पेड़ों का औसत है। के निकटतम {{mvar|x'}} इस व्याख्या में बिंदु हैं <math>x_i</math> किसी पेड़ में एक ही पत्ते को बांटना <math>j</math>. इस प्रकार, के पड़ोस {{mvar|x'}} पेड़ों की संरचना पर और इस प्रकार प्रशिक्षण सेट की संरचना पर एक जटिल तरीके से निर्भर करता है। लिन और जीन बताते हैं कि एक बेतरतीब जंगल  के माध्यम से उपयोग किए जाने वाले पड़ोस का आकार प्रत्येक सुविधा के स्थानीय महत्व के अनुकूल होता है।<ref name="linjeon02"/>
 == बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा ==
-उनके निर्माण के हिस्से के रूप में, यादृच्छिक वन भविष्यसमया स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक यादृच्छिक वन असमानता माप को भी परिभाषित किया जा सकता है: विचार एक यादृच्छिक वन भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।<ref name=breiman2001/><ref>{{cite journal |authors=Shi, T., Horvath, S. |year=2006 |title=रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग|journal=Journal of Computational and Graphical Statistics |volume=15 |issue=1 |pages=118–138  |doi=10.1198/106186006X94072 |jstor=27594168|citeseerx=10.1.1.698.2365 |s2cid=245216 }}</ref>
+उनके निर्माण के हिस्से के रूप में, बेतरतीब जंगल भविष्यसमया स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक बेतरतीब जंगल असमानता माप को भी परिभाषित किया जा सकता है: विचार एक बेतरतीब जंगल भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।<ref name=breiman2001/><ref>{{cite journal |authors=Shi, T., Horvath, S. |year=2006 |title=रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग|journal=Journal of Computational and Graphical Statistics |volume=15 |issue=1 |pages=118–138  |doi=10.1198/106186006X94072 |jstor=27594168|citeseerx=10.1.1.698.2365 |s2cid=245216 }}</ref>
-देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेट�