रैंडम फॉरेस्ट: Difference between revisions
No edit summary |
No edit summary |
||
| Line 129: | Line 129: | ||
== बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा == | == बेतरतीब जंगलों के साथ अनियंत्रित शिक्षा == | ||
उनके निर्माण के | उनके निर्माण के भाग के रूप में, बेतरतीब जंगल भविष्यवक्ता स्वाभाविक रूप से प्रेक्षणों के बीच एक असमानता माप का नेतृत्व करते हैं। बिना लेबल वाले डेटा के बीच एक बेतरतीब जंगल असमानता माप को भी परिभाषित किया जा सकता है: विचार एक बेतरतीब जंगल भविष्यसमया का निर्माण करना है जो उपयुक्त रूप से उत्पन्न सिंथेटिक डेटा से देखे गए डेटा को अलग करता है।<ref name=breiman2001/><ref>{{cite journal |authors=Shi, T., Horvath, S. |year=2006 |title=रैंडम फॉरेस्ट प्रेडिक्टर्स के साथ अनसुपर्वाइज्ड लर्निंग|journal=Journal of Computational and Graphical Statistics |volume=15 |issue=1 |pages=118–138 |doi=10.1198/106186006X94072 |jstor=27594168|citeseerx=10.1.1.698.2365 |s2cid=245216 }}</ref> | ||
देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेटा एक संदर्भ वितरण से तैयार किए गए हैं। एक बेतरतीब जंगल असमानता आकर्षक हो सकती है क्योंकि यह मिश्रित चर प्रकारों को बहुत अच्छी प्रकार से संभालती है, इनपुट चर के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है, और बाहरी टिप्पणियों के लिए मजबूत है। बेतरतीब जंगल असमानता अपने आंतरिक चर चयन के कारण बड़ी संख्या में अर्ध-निरंतर चर से आसानी से निपटती है; उदाहरण के लिए अतिरिक्त 1 बेतरतीब जंगल डिसिमिलैरिटी प्रत्येक वेरिएबल के योगदान को मापता है कि यह अन्य वेरिएबल्स पर कितना निर्भर है। विभिन्न प्रकार के अनुप्रयोगों में बेतरतीब जंगल असमानता का उपयोग किया गया है, उदा। ऊतक मार्कर डेटा के आधार पर रोगियों के समूहों को खोजने के लिए।<ref>{{cite journal | vauthors = Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S | title = Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma | journal = Modern Pathology | volume = 18 | issue = 4 | pages = 547–57 | date = April 2005 | pmid = 15529185 | doi = 10.1038/modpathol.3800322 | doi-access = free }}</ref> | देखे गए डेटा मूल लेबल रहित डेटा हैं और सिंथेटिक डेटा एक संदर्भ वितरण से तैयार किए गए हैं। एक बेतरतीब जंगल असमानता आकर्षक हो सकती है क्योंकि यह मिश्रित चर प्रकारों को बहुत अच्छी प्रकार से संभालती है, इनपुट चर के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है, और बाहरी टिप्पणियों के लिए मजबूत है। बेतरतीब जंगल असमानता अपने आंतरिक चर चयन के कारण बड़ी संख्या में अर्ध-निरंतर चर से आसानी से निपटती है; उदाहरण के लिए अतिरिक्त 1 बेतरतीब जंगल डिसिमिलैरिटी प्रत्येक वेरिएबल के योगदान को मापता है कि यह अन्य वेरिएबल्स पर कितना निर्भर है। विभिन्न प्रकार के अनुप्रयोगों में बेतरतीब जंगल असमानता का उपयोग किया गया है, उदा। ऊतक मार्कर डेटा के आधार पर रोगियों के समूहों को खोजने के लिए।<ref>{{cite journal | vauthors = Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S | title = Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma | journal = Modern Pathology | volume = 18 | issue = 4 | pages = 547–57 | date = April 2005 | pmid = 15529185 | doi = 10.1038/modpathol.3800322 | doi-access = free }}</ref> | ||
| Line 160: | Line 160: | ||
==== बेतरतीब जंगल से केआरएफ तक ==== | ==== बेतरतीब जंगल से केआरएफ तक ==== | ||
प्रशिक्षण का | प्रशिक्षण का मॉडल दिया <math>\mathcal{D}_n =\{(\mathbf{X}_i, Y_i)\}_{i=1}^n</math> का <math>[0,1]^p\times\mathbb{R}</math>स्वतंत्र प्रोटोटाइप जोड़ी के रूप में वितरित मूल्यवान स्वतंत्र बेतरतीब चर <math>(\mathbf{X}, Y)</math>, कहाँ <math>\operatorname{E}[Y^2]<\infty</math>. हमारा उद्देश्य प्रतिक्रिया की भविष्यवाणी करना है <math>Y</math>, बेतरतीब चर के साथ जुड़ा हुआ है <math>\mathbf{X}</math>, प्रतिगमन फ़ंक्शन का अनुमान लगाकर <math>m(\mathbf{x})=\operatorname{E}[Y \mid \mathbf{X} = \mathbf{x}]</math>. एक बेतरतीब प्रतिगमन जंगल का एक समूह है <math>M</math> बेतरतीब प्रतिगमन पेड़। निरूपित <math>m_n(\mathbf{x},\mathbf{\Theta}_j)</math> बिंदु पर अनुमानित मूल्य <math>\mathbf{x}</math> से <math>j</math>-वाँ पेड़, जहाँ <math>\mathbf{\Theta}_1,\ldots,\mathbf{\Theta}_M </math> स्वतंत्र बेतरतीब चर हैं, एक सामान्य बेतरतीब चर के रूप में वितरित <math>\mathbf{\Theta}</math>, नमूने से स्वतंत्र <math>\mathcal{D}_n</math>. इस बेतरतीब चर का उपयोग नोड विभाजन और ट्री निर्माण के लिए नमूनाकरण प्रक्रिया से प्रेरित बेतरतीब ता का वर्णन करने के लिए किया जा सकता है। परिमित जंगल अनुमान बनाने के लिए ट्री को जोड़ा जाता है <math>m_{M, n}(\mathbf{x},\Theta_1,\ldots,\Theta_M) = \frac{1}{M}\sum_{j=1}^M m_n(\mathbf{x},\Theta_j)</math>. | ||
प्रतिगमन ट्री के लिए, हमारे पास है <math>m_n = \sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}</math>, कहाँ <math>A_n(\mathbf{x},\Theta_j)</math> युक्त कोशिका है <math>\mathbf{x}</math>, बेतरतीब ता के साथ डिजाइन किया गया <math>\Theta_j</math> और डेटासेट <math>\mathcal{D}_n</math>, और <math> N_n(\mathbf{x}, \Theta_j) = \sum_{i=1}^n \mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)}</math>. | प्रतिगमन ट्री के लिए, हमारे पास है <math>m_n = \sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}</math>, कहाँ <math>A_n(\mathbf{x},\Theta_j)</math> युक्त कोशिका है <math>\mathbf{x}</math>, बेतरतीब ता के साथ डिजाइन किया गया <math>\Theta_j</math> और डेटासेट <math>\mathcal{D}_n</math>, और <math> N_n(\mathbf{x}, \Theta_j) = \sum_{i=1}^n \mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)}</math>. | ||
इस प्रकार बेतरतीब जंगल अनुमान सभी के लिए संतुष्ट करते हैं <math>\mathbf{x}\in[0,1]^d</math>, <math> m_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) =\frac{1}{M}\sum_{j=1}^M \left(\sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}\right)</math>. रैंडम रिग्रेशन फ़ॉरेस्ट में औसत के दो स्तर होते हैं, पहले एक पेड़ के लक्ष्य सेल में नमूनों पर, फिर सभी ट्री पर। इस प्रकार उन प्रेक्षणों का योगदान जो डेटा बिंदुओं के उच्च घनत्व वाले कक्षों में होते हैं, उन प्रेक्षणों की समानता में कम होते हैं जो कम आबादी वाले कक्षों से संबंधित होते हैं। बेतरतीब जंगल विधियों में सुधार करने और गलत आकलन की भरपाई करने के लिए, स्कॉर्नेट<ref name="scornet2015random"/> के माध्यम से परिभाषित केआरएफ | इस प्रकार बेतरतीब जंगल अनुमान सभी के लिए संतुष्ट करते हैं <math>\mathbf{x}\in[0,1]^d</math>, <math> m_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) =\frac{1}{M}\sum_{j=1}^M \left(\sum_{i=1}^n\frac{Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x},\Theta_j)}}{N_n(\mathbf{x}, \Theta_j)}\right)</math>. रैंडम रिग्रेशन फ़ॉरेस्ट में औसत के दो स्तर होते हैं, पहले एक पेड़ के लक्ष्य सेल में नमूनों पर, फिर सभी ट्री पर। इस प्रकार उन प्रेक्षणों का योगदान जो डेटा बिंदुओं के उच्च घनत्व वाले कक्षों में होते हैं, उन प्रेक्षणों की समानता में कम होते हैं जो कम आबादी वाले कक्षों से संबंधित होते हैं। बेतरतीब जंगल विधियों में सुधार करने और गलत आकलन की भरपाई करने के लिए, स्कॉर्नेट<ref name="scornet2015random"/> के माध्यम से परिभाषित केआरएफ न फ़ंक्शन है, | ||
: <math> \tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) = \frac{1}{\sum_{j=1}^M N_n(\mathbf{x}, \Theta_j)}\sum_{j=1}^M\sum_{i=1}^n Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)},</math> | : <math> \tilde{m}_{M,n}(\mathbf{x}, \Theta_1,\ldots,\Theta_M) = \frac{1}{\sum_{j=1}^M N_n(\mathbf{x}, \Theta_j)}\sum_{j=1}^M\sum_{i=1}^n Y_i\mathbf{1}_{\mathbf{X}_i\in A_n(\mathbf{x}, \Theta_j)},</math> | ||
| Line 233: | Line 233: | ||
== '''हानि''' == | == '''हानि''' == | ||
जबकि एकल निर्णय के पेड़ों के साथ संबंधित और रैंडम वन अधिकांशतः एकल निर्णय से अधिक अनुशासिता प्राप्त करते हैं, वे | जबकि एकल निर्णय के पेड़ों के साथ संबंधित और रैंडम वन अधिकांशतः एकल निर्णय से अधिक अनुशासिता प्राप्त करते हैं, वे निर्णय पेड़ों में निहित निर्वाचनीयता को हानि पहुंचाते हैं। निर्णय के पेड़ एक [[नियम-आधारित मशीन लर्निंग]] के कुछ छोटे से परिवारों में से एक होते हैं जो स्वचालित रूप से समझदार होते हैं साथ ही लीनियर मॉडल, रूल-आधारित मॉडल, और ध्यान आधारित मॉडल। निर्णय के पेड़ों में यह निर्वाचनीयता एक अधिक चाहनीय गुण है। यह डेटा से वास्तविक जानकारी सीखा है कि मॉडल ने और इससे अंत उपयोगकर्ताओं को मॉडल द्वारा लिए गए निर्णयो पर विश्वास और आत्मविश्वास होता है।<ref name=":0" /><ref name="elemstatlearn" />उदाहरण के रूप में, एक निर्णय लेने के लिए एक डिसीजन ट्री द्वारा लिए गए पथ का पालन करना बहुत सरल होता है, लेकिन दसों या सैकड़ों ट्री के पथ का पालन करना कठिन होता है। प्रदर्शन और व्याख्यायता दोनों प्राप्त करने के लिए, कुछ मॉडल संपीड़न तकनीकों का उपयोग किया जा सकता है जो एक रैंडम फॉरेस्ट को एक न्यूनतम "जन्मान्तरित" डिसीजन ट्री में बदलने की अनुमति देते हैं जो एक ही निर्णय कार्य को विश्वसनीय रूप से पुनर्गठित करता है।<ref name=":0" /><ref>{{Cite journal|last1=Sagi|first1=Omer|last2=Rokach|first2=Lior|date=2020|title=Explainable decision forest: Transforming a decision forest into an interpretable tree.|url=https://www.sciencedirect.com/science/article/pii/S1566253519307869|journal=Information Fusion|language=en|volume=61|pages=124–138|doi=10.1016/j.inffus.2020.03.013|s2cid=216444882}}</ref><ref>{{Cite journal|last1=Vidal|first1=Thibaut|last2=Schiffer|first2=Maximilian|date=2020|title=बॉर्न-अगेन ट्री एन्सेम्बल|url=http://proceedings.mlr.press/v119/vidal20a.html|journal=International Conference on Machine Learning|language=en|publisher=PMLR|volume=119|pages=9743–9753|arxiv=2003.11132}}</ref> यदि यह स्थापित होता है कि पूर्वानुमानी गुण लक्ष्य चर के साथ रैखिक रूप से संबंधित हैं, तो रैंडम फॉरेस्ट का उपयोग बेस लर्नर की निखरता को बढ़ाने में सफल नहीं हो सकता है।<ref name=":0" /><ref name=":1" /> इसके अलावा, कई श्रेणीबद्ध गुणों वाली समस्याओं में, रैंडम फॉरेस्ट बेस लर्नर की निखरता को बढ़ाने में सक्षम नहीं हो सकता है।<ref name=":3">{{Cite thesis|title=Piryonesi, S. M. (2019). The Application of Data Analytics to Asset Management: Deterioration and Climate Change Adaptation in Ontario Roads (Doctoral dissertation)|date=November 2019|url=https://tspace.library.utoronto.ca/handle/1807/97601|type=Thesis|last1=Piryonesi|first1=Sayed Madeh}}</ref> | ||
Revision as of 01:19, 21 March 2023
| Part of a series on |
| Machine learning and data mining |
|---|
यादृच्छिक वन या यादृच्छिक निर्णय वन सांख्यिकीय वर्गीकरण, प्रतिगमन विश्लेषण और अन्य कार्यों के लिए एक समेकित सीखने की विधि है ,जो प्रशिक्षण समय पर निर्णय ट्री सीखने की भीड़ का निर्माण करके संचालित होता है। वर्गीकरण कार्यों के लिए, बेतरतीब जंगल का उत्पादन अधिकांश ट्री के माध्यम से चयनित वर्ग है। प्रतिगमन कार्यों के लिए, अलग-अलग ट्री का माध्य या औसत पूर्वानुमान दिया जाता है।[1][2] यादृच्छिक निर्णय वन अपने प्रशिक्षण सेट के लिए निर्णय पेड़ों की ओवरफट्टिंग की आदत के लिए सही हैं।[3]: 587–588 रैंडम फॉरेस्ट सामान्यतः निर्णय ट्री सीखना से अधिक अच्छा प्रदर्शन करते हैं, किन्तु ग्रेडिएंट बूस्टेड ट्री की समानता में उनकी त्रुटिहीनता कम होती है।[citation needed] चूँकि, डेटा विशेषताएँ उनके प्रदर्शन पर प्रभाव डाल सकती हैं।[4][5]
बेतरतीब निर्णय जंगलों के लिए पहला एल्गोरिथम 1995 में तिन कम हो के माध्यम से बनाया गया था[1] इसमें बेतरतीब उपस्थान विधि का उपयोग किया गया था,[2] जो हो के सूत्रीकरण में, यूजीन क्लेनबर्ग द्वारा प्रस्तावित वर्गीकरण के लिए "स्टोकेस्टिक भेदभाव" दृष्टिकोण को लागू करने का एक विधि है।[6][7][8]
एल्गोरिथम का एक विस्तार लियो ब्रिमन के माध्यम से विकसित किया गया था[9] और एडेल कटलर,[10]जिसने पंजीकरण कराया[11] 2006 में ट्रेडमार्क के रूप में बेतरतीब जंगल (as of 2019[update], जिसका स्वामित्व मिनिटैब, इंक.) के पास है।[12] यह विस्तार ब्रीमन के बूटस्ट्रैप एकत्रीकरण विचार और सुविधाओं के क्रमहीनता चयन को जोड़ता है, जिसे पहले हो के माध्यम से प्रस्तुत किया गया था[1]और बाद में अमित और डोनाल्ड जेमन के माध्यम से स्वतंत्र रूप से[13] नियंत्रित विचरण वाले निर्णय ट्री का संग्रह बनाने के लिए।
बेतरतीब जंगल का अधिकांशतः व्यवसायों में ब्लैक बॉक्स मॉडल के रूप में उपयोग किया जाता है, क्योंकि वे थोड़े विन्यास की आवश्यकता होने पर डेटा की एक विस्तृत श्रृंखला में उचित भविष्यवाणियां उत्पन्न करते हैं।[citation needed]
इतिहास
बेतरतीब निर्णय जंगलों की सामान्य विधि पहली बार 1995 में हो के माध्यम से प्रस्तावित की गई थी।[1]हो ने स्थापित किया कि तिरछे हाइपरप्लेन के साथ बंटने वाले ट्री के जंगल त्रुटिहीनता प्राप्त कर सकते हैं क्योंकि वे ओवरट्रेनिंग से पीड़ित हुए बिना बढ़ते हैं, जब तक कि जंगलों को बेतरतीब रूप से एकमात्र चयनित फ़ीचर (मशीन लर्निंग) आयामों के प्रति संवेदनशील होने के लिए प्रतिबंधित किया जाता है। उसी प्रणाली पर आगे का काम[2]निष्कर्ष निकाला कि अन्य विभाजन विधियाँ समान रूप से व्यवहार करती हैं, जब तक कि वे असंबद्धता ढंग से कुछ फीचर आयामों के प्रति असंवेदनशील होने के लिए मजबूर हैं। ध्यान दें कि एक अधिक जटिल वर्गीकरणकर्ता (एक बड़ा जंगल) का यह अवलोकन एकमात्र नीरस रूप से अधिक त्रुटिहीन हो जाता है, यह आम धारणा के ठीक विपरीत है कि ओवरफिटिंग से चोट लगने से पहले एक वर्गीकरणकर्ता की जटिलता एकमात्र एक निश्चित स्तर की त्रुटिहीनता तक बढ़ सकती है। क्लेनबर्ग के स्टोकेस्टिक भेदभाव के सिद्धांत में ओवरट्रेनिंग के लिए जंगल पद्धति के प्रतिरोध की व्याख्या पाई जा सकती है।[6][7][8]
बेतरतीब जंगलों की ब्रेमन की धारणा का शुरुआती विकास अमित और के काम से प्रभावित था
जेमन[13]जिन्होंने बेतरतीब उपसमुच्चय पर खोज करने का विचार प्रस्तुत किया
एकल बढ़ने के संदर्भ में, नोड को विभाजित करते समय उपलब्ध निर्णय निर्णय ट्री। हो से बेतरतीब उपस्थान चयन का विचार[2]बेतरतीब जंगलों के डिजाइन में भी प्रभावशाली था। इस विधि में ट्री का जंगल उगा दिया जाता है, और प्रशिक्षण डेटा को प्रोजेक्ट करके ट्री के बीच भिन्नता प्रस्तुत की जाती है
प्रत्येक पेड़ या प्रत्येक नोड को फिट करने से पहले बेतरतीब रूप से चुने गए रैखिक उप-स्थान में। अंत में, का विचार बेतरतीब नोड अनुकूलन, जहां प्रत्येक नोड पर निर्णय a के माध्यम से चुना जाता है एक नियतात्मक अनुकूलन के अतिरिक्त बेतरतीब प्रक्रिया पहले थी थॉमस जी डायटरिच के माध्यम से प्रस्तुत किया गया।[14]
बेतरतीब जंगलों का उचित परिचय एक कागज में किया गया था
लियो ब्रिमन के माध्यम से।[9] यह पत्र जंगल बनाने की एक विधि का वर्णन करता है एक वर्गीकरण और प्रतिगमन ट्री जैसी प्रक्रिया का उपयोग करते हुए असंबद्ध पेड़, बेतरतीब नोड के साथ संयुक्त अनुकूलन और बूटस्ट्रैप एकत्रीकरण। इसके अतिरिक्त, यह पेपर कई को जोड़ता है
सामग्री, कुछ पहले से ज्ञात और कुछ उपन्यास, जो इसका आधार बनते हैं बेतरतीब जंगलों का आधुनिक अभ्यास, विशेष रूप से:
- सामान्यीकरण त्रुटि के अनुमान के रूप में आउट-ऑफ-बैग त्रुटि का उपयोग करना।
- क्रमचय के माध्यम से परिवर्तनशील महत्व को मापना।
रिपोर्ट बेतरतीब जंगलों के लिए पहला सैद्धांतिक परिणाम भी प्रस्तुत करती है
सामान्यीकरण त्रुटि पर एक बाध्यता का रूप जो की ताकत पर निर्भर करता है
जंगल में पेड़ और उनका सहसंबंध।
एल्गोरिथम
प्रारंभिक: निर्णय ट्री सीखना
निर्णय ट्री विभिन्न मशीन सीखने के कार्यों के लिए एक लोकप्रिय विधि है। ट्री लर्निंग डेटा खनन के लिए एक ऑफ-द-शेल्फ प्रक्रिया के रूप में सेवा करने के लिए आवश्यकताओं को पूरा करने के सबसे निकट है,