डिसिशन ट्री लर्निंग: Difference between revisions

Latest revision as of 09:54, 14 December 2022

डिसीजन ट्री लर्निंग एक पर्यवेक्षित शिक्षण दृष्टिकोण है, जिसका उपयोग सांख्यिकी, आँकड़ा खनन और मशीन लर्निंग में किया जाता है। इस औपचारिकता में एक वर्गीकरण या प्रतिगमन डिसीजन ट्री का उपयोग प्रेक्षणों के एक समुच्चय के बारे में निष्कर्ष निकालने के लिए एक पूर्वकथानात्मक सूचक प्रारूप के रूप में किया जाता है।

ट्री प्रारूप जहां लक्ष्य चर मानों का असतत समुच्चय को ले सकता है, उसे वर्गीकरण ट्री कहा जाता है। तथा ये ट्री संरचनाओं में, पर्ण्सन्धि वर्ग स्तर का प्रतिनिधित्व करते हैं और शाखाएं उन विशेषताओं के तार्किक संयोजन का प्रतिनिधित्व करती हैं, जो उन वर्ग स्तरों की ओर ले जाती हैं। तथा डिसीजन ट्री जहां लक्ष्य चर निरंतर मान ले सकता है सामान्य रूप से वास्तविक संख्या को प्रतिगमन विश्लेषण कहा जाता है।

डिसीजन ट्री सबसे लोकप्रिय मशीन लर्निंग कलन विधि में से एक हैं, जो उनकी समझदारी और सरलता को देखते हैं।^[1]

निर्णय विश्लेषण में एक डिसीजन ट्री का उपयोग नेत्रहीन और स्पष्ट रूप से निर्णय लेने और निर्णय लेने का प्रतिनिधित्व करने के लिए किया जा सकता है। आँकड़ा खनन में एक डिसीजन ट्री आँकड़ा का वर्णन करता है लेकिन परिणामी वर्गीकरण ट्री निर्णय लेने के लिए एक इनपुट हो सकता है।

सामान्य

टाइटैनिक पर यात्रियों के जीवित रहने को दर्शाने वाला एक पेड़ (सिबस्प सवार पति-पत्नी या भाई-बहनों की संख्या होती है)। पत्तियों के नीचे के आंकड़े जीवित रहने की संभावना और पत्ती में प्रेक्षणों के प्रतिशत को दर्शाते हैं। संक्षेप में: यदि आप (i) एक महिला या (ii) अधिकतम 9.5 वर्ष के पुरुष और 3 से कम भाई-बहन हैं तो आपके जीवित रहने की संभावना अच्छी होती थी।

डिसीजन ट्री लर्निंग आँकड़ा खनन में सामान्य रूप से उपयोग की जाने वाली एक विधि है।^[2] जिसका लक्ष्य एक प्रारूप को बनाना होता है, जो कई इनपुट चर के आधार पर लक्ष्य चर के मान का पूर्वानुमान करता है।

एक डिसीजन ट्री उदाहरणों को वर्गीकृत करने के लिए एक सरल प्रतिनिधित्व होता है। इस खंड के लिए मान लें कि सभी इनपुट सुविधाओं में परिमित असतत कार्यक्षेत्र होता हैं, जो वर्गीकरण नामक एक एकल लक्ष्य विशेषता होती है। जिसे वर्गीकरण के कार्यक्षेत्र के प्रत्येक तत्व को एक वर्ग कहा जाता है। एक डिसीजन ट्री या एक वर्गीकरण ट्री एक ऐसा ट्री होता है, जिसमें प्रत्येक आंतरिक नोड को एक इनपुट सुविधा के साथ स्तर मे किया जाता है। एक इनपुट विशेषता के साथ लेबल किए गए नोड से आने वाले आर्क्स को टारगेट विशेषता के प्रत्येक संभावित मान के साथ लेबल किया जाता है या आर्क एक अलग इनपुट विशेषता पर एक अधीनस्थ निर्णय नोड की ओर जाता है। ट्री के प्रत्येक पत्ते को एक वर्ग या वर्गों पर संभाव्यता वितरण के साथ लेबल किया जाता है, यह दर्शाता है कि आँकड़ा समुच्चय को ट्री द्वारा या तो एक विशिष्ट वर्ग में वर्गीकृत किया गया है, या एक विशेष संभाव्यता वितरण में (यदि डिसीजन ट्री अच्छी तरह से है।) -निर्मित वर्गों के कुछ उपसमूहों की ओर तिरछा होता है।

स्रोत समुच्चय को विभाजित करके एक ट्री बनाया जाता है, जो ट्री के रूट नोड को उपसमुच्चय में बनाता है। तथा उत्तराधिकारी बच्चों का गठन करता है। विभाजन वर्गीकरण सुविधाओं के आधार पर विभाजन नियमों के एक समुच्चय पर आधारित होता है।^[3] यह प्रक्रिया प्रत्येक व्युत्पन्न उपसमुच्चय पर एक पुनरावर्ती तरीके से दोहराई जाती है, जिसे पुनरावर्ती विभाजन भी कहा जाता है। पुनरावर्तन पूरा हो जाता है जब एक नोड पर उपसमुच्चय में लक्ष्य चर के सभी समान मान होते हैं, या जब विभाजन पूर्वानुमानों के लिए मान को नहीं जोड़ता है। डिसीजन ट्री (TDIDT) के टॉप-डाउन प्रवर्तन की यह प्रक्रिया^[4] एक बहुभक्षक कलन विधि का एक उदाहरण है, और यह आँकड़ा से डिसीजन ट्री सीखने के लिए अब तक की सबसे साधारण योजना होती है।^[5]

आँकड़ा खनन में डिसीजन ट्री को आँकड़ा के दिए गए समुच्चय के विवरण, वर्गीकरण और सामान्यीकरण में सहायता के लिए गणितीय और कम्प्यूटेशनल तकनीकों के संयोजन के रूप में भी वर्णित किया जा सकता है।

आँकड़ा फॉर्म के रिकॉर्ड में आता है-

({\textbf {x}},Y)=(x_{1},x_{2},x_{3},...,x_{k},Y)

आश्रित चर $Y$ , वह लक्ष्य चर होता है, जिसे हम समझने, वर्गीकृत करने या सामान्य बनाने का प्रयास कर रहे हैं। सदिश ${\textbf {x}}$ सुविधाओं से बना होता है, $x_{1},x_{2},x_{3}$ आदि जो उस कार्य में प्रयुक्त होते हैं।

एक उदाहरण ट्री जो रीढ़ की हड्डी की सर्जरी के बाद किफोसिस की संभावना का अनुमान लगाता है, रोगी की उम्र और कशेरुक जिस पर सर्जरी प्रारम्भ की गई थी। एक ही वृक्ष को तीन प्रकार से दिखाया जाता है। बायीं रंगीन पत्तियाँ स्पाइनल सर्जरी के बाद कुब्जता की संभावना और पत्ती में रोगियों के प्रतिशत को दर्शाती हैं। मध्य पेड़ एक परिप्रेक्ष्य साजिश के रूप में। मध्य भूखंड का दाहिना हवाई दृश्य। सर्जरी के बाद अंधेरे क्षेत्रों में किफोसिस की संभावना अधिक होती है। (नोट: काइफोसिस का उपचार काफी उन्नत हो गया है क्योंकि आँकड़ा का यह छोटा समुच्चय एकत्र किया गया था।^{[citation needed]}

डिसीजन ट्री के प्रकार

आँकड़ा खनन में उपयोग किए जाने वाले डिसीजन ट्री मुख्य दो प्रकार के होते हैं।

वर्गीकरण ट्री विश्लेषण तब होता है, जब अनुमानित परिणाम वह वर्ग असतत होता है तथा जिससे विभिन्न आँकड़ा संबंधित होता है
प्रतिगमन ट्री विश्लेषण तब होता है, जब अनुमानित परिणाम को एक वास्तविक संख्या माना जा सकता है। उदाहरण के लिए घर की कीमत, या अस्पताल में रोगी की रहने की अवधि होती है।

शब्द वर्गीकरण और प्रतिगमन ट्री (CART) विश्लेषण एक छत्र शब्द होते है, जिसका उपयोग उपरोक्त प्रक्रियाओं में से किसी एक को संदर्भित करने के लिए किया जाता है, जिसे पहले ब्रिमन एट अल द्वारा 1984 में प्रस्तुत किया गया था।^[6] प्रतिगमन के लिए उपयोग किए जाने वाले ट्री और वर्गीकरण के लिए उपयोग किए जाने वाले ट्री में कुछ समानताएँ होती हैं, लेकिन कुछ अंतर भी होते हैं, जैसे कि यह निर्धारित करने के लिए उपयोग की जाने वाली प्रक्रिया कि कहाँ विभाजन करना है।^[6]

कुछ तकनीकें, जिन्हें अधिकांश समेकन विधि भी कहा जाता है, जो एक से अधिक डिसीजन ट्री का निर्माण करती हैं।

'ग्रेडिएंट बूस्टेड ट्री' पूर्व से गलत तरीके से तैयार किए गए प्रशिक्षण उदाहरणों पर महत्व देने के लिए प्रत्येक नए उदाहरण को प्रशिक्षित करके एक समेकन का निर्माण करना। एक विशिष्ट उदाहरण ऐडाबूस्ट होता है। इनका उपयोग प्रतिगमन और वर्गीकरण के प्रकार की विभिन्न समस्याओं के लिए किया जा सकता है^[7]^[8]
बूटस्ट्रैप एकत्रीकरण (या बैग्ड) डिसीजन ट्री एक प्रारंभिक समेकन विधि प्रतिस्थापन के साथ प्रशिक्षण आँकड़ा को बार-बार पुन: बूटस्ट्रैपिंग (सांख्यिकी) द्वारा और सामान्य सहमति के पूर्वकथन के लिए ट्री को वोट देकर कई डिसीजन ट्री बनाता है।^[9]
- एक यादृच्छिक वन वर्गीकारक एक विशिष्ट प्रकार का बूटस्ट्रैप एकत्रीकरण होता है।
परिभ्रमण वन - जिसमें प्रत्येक डिसीजन ट्री को पहले इनपुट सुविधाओं के एक यादृच्छिक उपसमुच्चय पर प्रमुख घटक विश्लेषण (PCA) लागू करके प्रशिक्षित किया जाता है।^[10]

डिसीजन ट्री की एक विशेष स्थिति एक निर्णय सूची होती है^[11], जो एक तरफा डिसीजन ट्री की तरह होती है, ताकि प्रत्येक आंतरिक नोड में ठीक 1 पत्ती का नोड और एक बच्चे के रूप में ठीक 1 आंतरिक नोड हो तथा सबसे निचले नोड को छोड़कर, जिसका केवल बच्चा एक पत्ती का नोड होता है। जबकि कम अभिव्यंजक, निर्णय सूचियाँ सामान्य निर्णय ट्री की तुलना में उनकी अतिरिक्त विरलता^{[citation needed]} गैर- बहुभक्षक सीखने के तरीकों की अनुमति^[12] और मोनोटोनिक बाधाओं को लागू करने के लिए यकीनन सरल होता हैं।^[13]

उल्लेखनीय डिसीजन ट्री कलन विधि में सम्मिलित होते हैं।

आईडी3 कलनविधि (पुनरावृत्ति डाइकोटोमाइज़र 3)
C4.5 (ID3 के उत्तराधिकारी)
CART (वर्गीकरण और प्रतिगमन ट्री)^[6]
ची-वर्ग स्वचालित इंटरैक्शन डिटेक्शन (CHAID)। वर्गीकरण ट्री की गणना करते समय बहु-स्तरीय विभाजन करता है।^[14]^[15]^[16]
आण्विक अधिशोषक पुनरावर्तन प्रणाली: संख्यात्मक आँकड़ा को बेहतर ढंग से संभालने के लिए डिसीजन ट्री का विस्तार करता है।
सशर्त निष्कर्ष ट्री सांख्यिकी-आधारित दृष्टिकोण जो गैर-पैरामीट्रिक परीक्षणों को विभाजन मानदंड के रूप में उपयोग करता है, अत्युपपन्न से बचने के लिए कई परीक्षणों के लिए सही किया जाता है। इस दृष्टिकोण के परिणामस्वरूप निष्पक्ष पूर्व सूचक का चयन होता है और इसमें छंटाई की आवश्यकता नहीं होती है।^[17]^[18]

ID3 और CART को लगभग एक ही समय (1970 और 1980 के बीच) स्वतंत्र रूप से आविष्कार किया गया था^{[citation needed]} फिर भी प्रशिक्षण टुपल्स से एक डिसीजन ट्री सीखने के लिए एक समान दृष्टिकोण का पालन करें।

डिसीजन ट्री के एक विशेष संस्करण की परिभाषा के लिए फ़ज़ी समुच्चय सिद्धांत की अवधारणाओं का लाभ उठाने का भी प्रस्ताव किया गया है, जिसे फ़ज़ी डिसीज़न ट्री (FDT) के रूप में जाना जाता है।^[19] इस प्रकार के फ़ज़ी वर्गीकरण में सामान्य रूप से एक इनपुट सदिश ${\textbf {x}}$ कई वर्गों से जुड़ा होता है, प्रत्येक एक अलग विश्वास्यता मान के साथ होता है। एफडीटी के बूस्टेड समुच्चय की हाल ही में जांच की गई है, और उन्होंने अन्य बहुत ही कुशल फ़ज़ी वर्गीकारक की तुलना में प्रदर्शन दिखाया है।^[20]

मेट्रिक्स

डिसीजन ट्री के निर्माण के लिए कलनविधि सामान्य रूप से प्रत्येक चरण पर एक चर चुनकर ऊपर से नीचे काम करते हैं, जो वस्तुओं के समुच्चय को सबसे अच्छी तरह से विभाजित करता है।^[5] अलग-अलग कलनविधि सर्वश्रेष्ठ को मापने के लिए अलग-अलग मेट्रिक्स का उपयोग करते हैं। ये सामान्य रूप से उपसमुच्चय के भीतर लक्ष्य चर की एकरूपता को मापते हैं। नीचे कुछ उदाहरण दिए गए हैं। ये मेट्रिक्स प्रत्येक उम्मीदवार उपसमुच्चय पर लागू होते हैं, और परिणामी मान संयुक्त होते हैं। उदाहरण के लिए, औसत विभाजन की गुणवत्ता का एक माप प्रदान करने के लिए अंतर्निहित मीट्रिक के आधार पर डिसीजन ट्री लर्निंग के लिए विभिन्न स्वानुभविक कलनविधि का प्रदर्शन महत्वपूर्ण रूप से भिन्न हो सकता है।^[21]

घनात्मक शुद्धता का अनुमान

एक सरल और प्रभावी मीट्रिक का उपयोग उस डिग्री की पहचान करने के लिए किया जा सकता है, जिस पर सत्य धनात्मकता वास्तविक ऋणात्मकता से अधिक होती है (असमंजस मैट्रिक्स देखें)। यह मीट्रिक, धनात्मक शुद्धता का अनुमान नीचे परिभाषित किया गया है।

$E_{P}=TP-FP$

इस समीकरण में, कुल असत्य धनात्मक (FP) को कुल सत्य धनात्मक (TP) से घटाया जाता है। परिणामी संख्या इस बात का अनुमान लगाती है, कि सुविधा कितने धनात्मक उदाहरणों को आँकड़ा के भीतर सही ढंग से पहचान सकती है, उच्च संख्या के साथ जिसका अर्थ है कि सुविधा अधिक धनात्मक प्रतिरूपों को सही ढंग से वर्गीकृत कर सकती है। नीचे एक उदाहरण दिया गया है कि किसी विशेष सुविधा का पूरा असमंजस मैट्रिक्स दिए जाने पर मीट्रिक का उपयोग कैसे किया जाता है।

विशेषता ए असमंजस मैट्रिक्स

Predicted Class Actual Class	Cancer	Non-cancer
Cancer	8	3
Non-cancer	2	5

यहाँ हम देख सकते हैं, कि TP मान 8 होगा और FP मान 2 होगा (तालिका में रेखांकित संख्याएँ)। जब हम इन संख्याओं को समीकरण में भरते हैं, तो हम अनुमान की गणना करने में सक्षम होते हैं। $E_{p}=TP-FP=8-2=6$ . इसका अर्थ है, कि इस सुविधा पर अनुमान का उपयोग करने पर इसे 6 का स्कोर प्राप्त होगा।

हालांकि, यह ध्यान देने योग्य है कि यह संख्या केवल एक अनुमान होता है। उदाहरण के लिए यदि दो विशेषताओं में दोनों का FP मान 2 था, जबकि एक विशेषता का उच्च TP मान था, तो उस विशेषता को दूसरे की तुलना में उच्च स्थान दिया जाएगा, क्योंकि समीकरण का उपयोग करते समय परिणामी अनुमान अधिक मान देगा। यदि कुछ विशेषताओं में अन्य की तुलना में अधिक धनात्मक प्रतिरूप होते हैं, तो इससे मीट्रिक का उपयोग करते समय कुछ अशुद्धियाँ हो सकती हैं। इसका सामना करने के लिए, संवेदनशीलता और विशिष्टता के रूप में ज्ञात एक अधिक प्रभावशाली मीट्रिक का उपयोग किया जा सकता है, जो वास्तविक सकारात्मक दर (TRP) देने के लिए भ्रम मैट्रिक्स से मानों के अनुपात को ध्यान में रखता है।तथा इन मीट्रिक के बीच का अंतर नीचे दिए गए उदाहरण में दिखाया गया है।

विशेषता ए असमंजस मैट्रिक्स

Predicted Class Actual Class	Cancer	Non-cancer
Cancer	8	3
Non-cancer	2	5

विशेषता बी असमंजस मैट्रिक्स

Predicted Class Actual Class	Cancer	Non-cancer
Cancer	6	2
Non-cancer	2	8

E_{p}=TP-FP=8-2=6

$TPR=TP/(TP+FN)=8/(8+3)\approx 0.73$

E_{p}=TP-FP=6-2=4

$TPR=TP/(TP+FN)=6/(6+2)=0.75$

इस उदाहरण में, विशेषता ए का अनुमान 6 और TRP लगभग 0.73 था। जबकि विशेषता बी का अनुमान 4 और TRP 0.75 था। इससे यह पता चलता है, कि हालांकि कुछ विशेषता के लिए धनात्मक अनुमान अधिक हो सकता है, लेकिन उस विशेषता के लिए अधिक सटीक TRP मान कम धनात्मक अनुमान वाली अन्य सुविधाओं की तुलना में कम हो सकता है। आँकड़ा और डिसीजन ट्री की स्थिति और ज्ञान के आधार पर, कोई अपनी समस्या के त्वरित और आसान समाधान के लिए धनात्मक अनुमान का उपयोग करने का विकल्प चुन सकता है। दूसरी ओर एक अधिक अनुभवी उपयोगकर्ता सुविधाओं को रैंक करने के लिए TPR मान का उपयोग करना पसंद करेगा क्योंकि यह आँकड़ा के अनुपात और उन सभी नमूनों को ध्यान में रखता है जिन्हें धनात्मक के रूप में वर्गीकृत किया जाना चाहिए था।

गिनी अशुद्धता

गिनी अशुद्धता, गिनी का विविधता सूचकांक^[22] या जैव विविधता अनुसंधान में गिनी सिम्पसन सूची वर्गीकरण ट्री के लिए CART (वर्गीकरण और प्रतिगमन ट्री) कलन विधि द्वारा उपयोग किया जाता है, गिनी अशुद्धता (इतालवी गणितज्ञ कोराडो गिनी के नाम पर) एक उपाय होता है कि कैसे अधिकांश समुच्चय से यादृच्छिक रूप से चुने गए तत्व को गलत तरीके से लेबल किया जाएगा यदि इसे उपसमुच्चय में स्तर के वितरण के अनुसार यादृच्छिक रूप से स्तर किया गया हो।

गिनी अशुद्धता की गणना संभाव्यता $p_{i}$ को जोड़कर की जा सकती है तथा स्तर वाले किसी वस्तु की $i$ संभाव्यता से गुणा चुना जा रहा है $\sum _{k\neq i}p_{k}=1-p_{i}$ उस वस्तु को वर्गीकृत करने में गलती के कारण। यह अपने न्यूनतम (शून्य) तक पहुँच जाता है, जब नोड के सभी स्थिति एक लक्ष्य श्रेणी में आते हैं।

गिनी अशुद्धता भी एक सूचना सिद्धांत उपाय होता है और विरूपण गुणांक के साथ सॉलिस एंट्रॉपी $q=2$ से मेल खाती है।, जो भौतिक विज्ञान में बाहरी संतुलन, गैर-व्यापक, विघटनकारी और क्वांटम प्रणाली में जानकारी की कमी से जुड़ा होता है। सीमा के लिए $q\to 1$ एक सामान्य बोल्ट्जमैन-गिब्स या शैनन एन्ट्रापी को पुनः प्राप्त करता है। इस अर्थ में गिनी अशुद्धता और कुछ नहीं बल्कि डिसीजन ट्री के लिए सामान्य एन्ट्रापी माप की भिन्नता होती है।

वस्तुओं के एक समुच्चय के लिए गिनी अशुद्धता की गणना करना $J$ वर्ग, मान कि $i\in \{1,2,...,J\}$ , और $p_{i}$ वर्ग के साथ स्तर की गयी वस्तु का अंश समुच्चय $i$ हो। तब -

\operatorname {I} _{G}(p)=\sum _{i=1}^{J}\left(p_{i}\sum _{k\neq i}p_{k}\right)=\sum _{i=1}^{J}p_{i}(1-p_{i})=\sum _{i=1}^{J}(p_{i}-p_{i}^{2})=\sum _{i=1}^{J}p_{i}-\sum _{i=1}^{J}p_{i}^{2}=1-\sum _{i=1}^{J}p_{i}^{2}

सूचना प्राप्ति

ID3 एल्गोरिथम, C4.5 एल्गोरिथम | C4.5 और C5.0 ट्री-जेनरेशन एल्गोरिदम द्वारा उपयोग किया जाता है। सूचना लाभ सूचना एन्ट्रापी की अवधारणा और सूचना सिद्धांत से सूचना सामग्री पर आधारित है।

ID3, C4.5 और C5.0 ट्री-जेनरेशन एल्गोरिदम द्वारा उपयोग किया जाता है। सूचना लाभ सूचना सिद्धांत से सूचना लाभ सूचना एन्ट्रापी सामग्री की अवधारणा पर आधारित होती है।

एंट्रॉपी को नीचे परिभाषित किया गया है।

\mathrm {H} (T)=\operatorname {I} _{E}\left(p_{1},p_{2},\ldots ,p_{J}\right)=-\sum _{i=1}^{J}p_{i}\log _{2}p_{i}

जहां पर $p_{1},p_{2},\ldots$ अंश हैं, जो 1 तक जोड़ते हैं और बच्चे के नोड में उपस्थित प्रत्येक वर्ग के प्रतिशत का प्रतिनिधित्व करते हैं, जो ट्री में विभाजन के परिणामस्वरूप होता है।

\overbrace {IG(T,a)} ^{\text{information gain}}=\overbrace {\mathrm {H} (T)} ^{\text{entropy (parent)}}-\overbrace {\mathrm {H} (T\mid a)} ^{\text{sum of entropies (children)}}

=-\sum _{i=1}^{J}p_{i}\log _{2}p_{i}-\sum _{i=1}^{J}-\Pr(i\mid a)\log _{2}\Pr(i\mid a)

$A$ ,के संभावित मानों का औसत निकालना,

\overbrace {E_{A}(\operatorname {IG} (T,a))} ^{\text{expected information gain}}=\overbrace {I(T;A)} ^{{\text{mutual information between }}T{\text{ and }}A}=\overbrace {\mathrm {H} (T)} ^{\text{entropy (parent)}}-\overbrace {\mathrm {H} (T\mid A)} ^{\text{weighted sum of entropies (children)}}

=-\sum _{i=1}^{J}p_{i}\log _{2}p_{i}-\sum _{a}p(a)\sum _{i=1}^{J}-\Pr(i\mid a)\log _{2}\Pr(i\mid a)

जहां एंट्रॉपी का भारित योग दिया जाता है,

{\mathrm {H} (T\mid A)}=\sum _{a}p(a)\sum _{i=1}^{J}-\Pr(i\mid a)\log _{2}\Pr(i\mid a)

अर्थात्, अपेक्षित सूचना लाभ पारस्परिक सूचना है, जिसका अर्थ है कि औसतन T की एन्ट्रापी में कमी पारस्परिक सूचना होती है।

सूचना लाभ का उपयोग यह तय करने के लिए किया जाता है कि ट्री के निर्माण में प्रत्येक चरण में किस सुविधा को विभाजित किया जाए। सरलता सर्वोत्तम होती है, इसलिए हम अपने ट्री को छोटा रखना चाहते हैं। ऐसा करने के लिए, प्रत्येक चरण पर हमें उस विभाजन को चुनना चाहिए, जिसके परिणामस्वरूप सबसे सुसंगत चाइल्ड नोड हो। स्थिरता मे सामान्य रूप से उपयोग किए जाने वाले माप को सूचना कहा जाता है, जिसे बिट्स में मापा जाता है। ट्री के प्रत्येक नोड के लिए सूचना मान जानकारी की अपेक्षित मात्रा का प्रतिनिधित्व करता है, जो यह निर्दिष्ट करने के लिए आवश्यक होगा कि क्या एक नया उदाहरण हाँ या नहीं में वर्गीकृत किया जाना चाहिए, यह देखते हुए कि उदाहरण उस नोड तक पहुंच गया है।

चार विशेषताओं के साथ एक उदाहरण आँकड़ा समुच्चय पर विचार करें कि आउटलुक (धूप, घटाटोप, बरसात), तापमान (गर्म, हल्का, ठंडा), आर्द्रता (उच्च, सामान्य), और हवादार (सच, गलत), बाइनरी (हाँ या नहीं) के साथ लक्ष्य चर, खेल और 14 आँकड़ा बिंदु इस डेटा पर एक डिसीजन ट्री बनाने के लिए, हमें चार ट्री में से प्रत्येक के सूचना लाभ की तुलना करने की आवश्यकता होती है, प्रत्येक चार विशेषताओं में से एक पर विभाजित होता है। उच्चतम सूचना लाभ वाले विभाजन को पहले विभाजन के रूप में लिया जाएगा और यह प्रक्रिया तब तक जारी रहेगी जब तक कि सभी चिल्ड्रन नोड्स में सुसंगत आँकड़ा न हो, या जब तक सूचना लाभ 0 न हो।

विंडी (वातमय) का उपयोग करके विभाजन की जानकारी प्राप्त करने के लिए, हमें पहले विभाजन से पहले डेटा में जानकारी की गणना करनी चाहिए। तथा मूल डेटा में नौ हां और पांच ना सम्मिलित थे।

I_{E}([9,5])=-{\frac {9}{14}}\log _{2}{\frac {9}{14}}-{\frac {5}{14}}\log _{2}{\frac {5}{14}}=0.94

विंडी सुविधा का उपयोग करके विभाजित करने से दो चिल्ड्रन नोड बनते हैं, एक सत्य के विंडी मान के लिए और दूसरा गलत के विंडी मान के लिए। इस आँकड़ा समुच्चय में, छह आँकड़ा बिंदु होते हैं, जिनमें से एक वास्तविक विंडी मान होता है, जिनमें से तीन का एक अनुकरण(प्ले) होता है (जहां प्ले लक्ष्य चर है) हां का मान और तीन का प्ले मान नहीं होता है। गलत के विंडी मान वाले आठ शेष डेटा बिंदुओं में दो नहीं और छह हाँ हैं। विंडी = सत्य नोड की जानकारी की गणना उपरोक्त एंट्रॉपी समीकरण का उपयोग करके की जाती है। चूँकि इस नोड में हाँ और ना की संख्या समान है, हमारे पास होती है।

I_{E}([3,3])=-{\frac {3}{6}}\log _{2}{\frac {3}{6}}-{\frac {3}{6}}\log _{2}{\frac {3}{6}}=-{\frac {1}{2}}\log _{2}{\frac {1}{2}}-{\frac {1}{2}}\log _{2}{\frac {1}{2}}=1

उस नोड के लिए जहां विंडी = गलत आठ आँकड़ा बिंदु थे, छह हां और दो नहीं। इस प्रकार हमारे पास होते है।

I_{E}([6,2])=-{\frac {6}{8}}\log _{2}{\frac {6}{8}}-{\frac {2}{8}}\log _{2}{\frac {2}{8}}=-{\frac {3}{4}}\log _{2}{\frac {3}{4}}-{\frac {1}{4}}\log _{2}{\frac {1}{4}}=0.81

विभाजन की जानकारी प्राप्त करने के लिए, हम इन दो संख्याओं के भारित औसत को इस आधार पर लेते हैं, कि कितने अवलोकन किस नोड में गिरे है।

I_{E}([3,3],[6,2])=I_{E}({\text{windy or not}})={\frac {6}{14}}\cdot 1+{\frac {8}{14}}\cdot 0.81=0.89

अब हम विंडी विशेषता पर विभाजन द्वारा प्राप्त सूचना लाभ की गणना कर सकते हैं।

\operatorname {IG} ({\text{windy}})=I_{E}([9,5])-I_{E}([3,3],[6,2])=0.94-0.89=0.05

ट्री के निर्माण के लिए, प्रत्येक संभव प्रथम विभाजन के सूचना लाभ की गणना करने की आवश्यकता होगी। सबसे अच्छा पहला विभाजन वह है, जो सबसे अधिक सूचना लाभ प्रदान करता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। यह उदाहरण विटन एट अल. में प्रदर्शित होने वाले उदाहरण से लिया गया है।

सूचना लाभ को जैव विविधता अनुसंधान में शैनन सूची के रूप में भी जाना जाता है।

भिन्नता में कमी

CART में पेश किया गया^[6] विचरण में कमी अधिकांश उन परिस्थितियों में नियोजित की जाती है, जहां लक्ष्य चर निरंतर (प्रतीपगमन ट्री) होता है, जिसका अर्थ है कि कई अन्य मेट्रिक्स के उपयोग को लागू करने से पहले असंततकरण की आवश्यकता होगी। नोड N की भिन्नता में कमी को इस नोड पर विभाजन के कारण लक्ष्य चर Y के भिन्नता की कुल कमी के रूप में परिभाषित किया गया है।

I_{V}(N)={\frac {1}{|S|^{2}}}\sum _{i\in S}\sum _{j\in S}{\frac {1}{2}}(y_{i}-y_{j})^{2}-\left({\frac {|S_{t}|^{2}}{|S|^{2}}}{\frac {1}{|S_{t}|^{2}}}\sum _{i\in S_{t}}\sum _{j\in S_{t}}{\frac {1}{2}}(y_{i}-y_{j})^{2}+{\frac {|S_{f}|^{2}}{|S|^{2}}}{\frac {1}{|S_{f}|^{2}}}\sum _{i\in S_{f}}\sum _{j\in S_{f}}{\frac {1}{2}}(y_{i}-y_{j})^{2}\right)

जहाँ पर $S$ , $S_{t}$ , तथा $S_{f}$ प्रीस्प्लिट प्रतिरूप सूचकांक का समुच्चय है, तथा प्रतिरूप सूची का समुच्चय है, जिसके लिए विभाजित परीक्षण सत्य है, और प्रतिरूप सूची का समुच्चय है जिसके लिए विभाजित परीक्षण गलत है। उपरोक्त योगों में से प्रत्येक वास्तव में विचरण अनुमान होता हैं, हालांकि, सीधे अर्थ का उल्लेख किए बिना एक रूप में लिखा गया है।

अच्छाई का पैमाना

1984 में CART द्वारा उपयोग किया गया^[23] अच्छाई का माप एक ऐसा कार्य होता है, जो समान आकार के बच्चों को बनाने की अपनी क्षमता के साथ शुद्ध बच्चों को बनाने के लिए एक उम्मीदवार विभाजन की क्षमता के संतुलन को अनुकूलित करना चाहता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। फंक्शनकार्यक्रम $\varphi (s\mid t)$ जहाँ $s$ नोड $t$ पर प्रत्याशी विभाजन को इस तरह परिभाषित किया गया है।

\varphi (s\mid t)=2P_{L}P_{R}\sum _{j=1}^{\text{class count}}|P(j\mid t_{L})-P(j\mid t_{R})|

जहाँ पर $t_{L}$ तथा $t_{R}$ नोड के बाएँ और दाएँ बच्चे हैं $t$ विभाजन का उपयोग करना $s$ , क्रमश; $P_{L}$ तथा $P_{R}$ में रिकॉर्ड के अनुपात हैं $t$ में $t_{L}$ तथा $t_{R}$ , क्रमश; तथा $P(j\mid t_{L})$ तथा $P(j\mid t_{R})$ वर्ग के अनुपात हैं $j$ में रिकॉर्ड $t_{L}$ तथा $t_{R}$ , क्रमश।

तीन विशेषताओं के साथ एक उदाहरण आँकड़ा समुच्चय पर विचार करें कि बचत (कम, मध्यम, उच्च), संपत्ति (निम्न, मध्यम, उच्च), आय (संख्यात्मक मान ), और एक बाइनरी लक्ष्य चर क्रेडिट जोखिम (अच्छा, बुरा) और 8 आँकड़ा बिंदु।^[23]पूरा आँकड़ा नीचे दी गई तालिका में प्रस्तुत किया गया है। डिसीजन ट्री प्रारम्भ करने के लिए हम अधिकतम मान $\varphi (s\mid t)$ की गणना करेंगे। तथा प्रत्येक सुविधा का उपयोग करके यह पता लगाने के लिए कि कौन रूट नोड को विभाजित करेगा। यह प्रक्रिया तब तक चलती रहेगी जब तक कि सभी बच्चे शुद्ध या सभी नहीं हो जाते $\varphi (s\mid t)$ मान एक निर्धारित सीमा से नीचे होता हैं।

ग्राहक	बचत	संपत्ति	आय ($1000s)	ऋण जोखिम
1	मध्यम	उच्च	75	अच्छा
2	कम	कम	50	खराब
3	उच्च	मध्यम	25	खराब
4	मध्यम	मध्यम	50	अच्छा
5	कम	मध्यम	100	अच्छा
6	उच्च	उच्च	25	अच्छा
7	कम	कम	25	खराब
8	मध्यम	मध्यम	75	अच्छा

सुविधा बचत के $\varphi (s\mid t)$ खोजने के लिए, हमें प्रत्येक मान की मात्रा नोट करनी होगी। मूल डेटा में तीन कम, तीन मध्यम और दो उच्च सम्मिलित थे। निम्न में से किसी का ऋण जोखिम अच्छा था जबकि मध्यम और उच्च में से 4 का ऋण जोखिम अच्छा था। मान लें कि एक उम्मीदवार $s$ विभाजित है जैसे कि कम बचत वाले रिकॉर्ड बाएं बच्चे में रखे जाएंगे और अन्य सभी रिकॉर्ड दाएं बच्चे में डाल दिए जाएंगे।

\varphi (s\mid {\text{root}})=2\cdot {\frac {3}{8}}\cdot {\frac {5}{8}}\cdot \left(\left|\left({\frac {1}{3}}-{\frac {4}{5}}\right)\right|+\left|\left({\frac {2}{3}}-{\frac {1}{5}}\right)\right|\right)=0.44

ट्री बनाने के लिए, रूट नोड के लिए सभी उम्मीदवारों के विभाजन की अच्छाई की गणना करने की आवश्यकता होती है। तथा अधिकतम मान वाला उम्मीदवार रूट नोड को विभाजित करेगा, और यह प्रक्रिया प्रत्येक अशुद्ध नोड के लिए तब तक जारी रहेगी जब तक कि ट्री पूरा नहीं हो जाता।

सूचना लाभ जैसे अन्य मेट्रिक्स की तुलना में अच्छाई कि माप एक अधिक संतुलित ट्री बनाने का प्रयास करेगा, जिससे निर्णय लेने में अधिक समय लगेगा। हालांकि, यह शुद्ध बच्चों को बनाने के लिए कुछ प्राथमिकता का त्याग करता है। जिससे अतिरिक्त विभाजन हो सकते हैं, जो अन्य मेट्रिक्स के साथ उपस्थित नहीं होता हैं।

उपयोग

लाभ

आँकड़ा खनन के अन्य तरीकों में डिसीजन ट्री के कई फायदे होते हैं।

समझने और व्याख्या करने में सरल संक्षिप्त विवरण के बाद लोग डिसीजन ट्री प्रारूप को समझने में सक्षम होते हैं। ट्री को रेखांकन के रूप में भी प्रदर्शित किया जा सकता है जो गैर-विशेषज्ञों के लिए व्याख्या करना सरल होता है^[24]
संख्यात्मक और श्रेणीबद्ध चर आँकड़ा दोनों को संभालने में सक्षम^[24] अन्य तकनीकें सामान्य रूप से आँकड़ा समुच्चय का विश्लेषण करने में विशिष्ट होती हैं, जिनमें केवल एक प्रकार का चर होता है। उदाहरण के लिए, संबंध नियमों का उपयोग केवल नाममात्र चर के साथ किया जा सकता है, जबकि तंत्रिका नेटवर्क का उपयोग केवल संख्यात्मक चर या श्रेणीबद्ध के साथ 0-1 मानों में परिवर्तित किया जा सकता है। प्रारंभिक डिसीजन ट्री केवल श्रेणीबद्ध चर को संभालने में सक्षम होते थे, लेकिन अधिक हाल के संस्करण, जैसे C4.5, में यह सीमा नहीं होती है।^[2]
अल्प आँकड़ा तैयार करने की आवश्यकता है। अन्य तकनीकों में :अधिकांश आँकड़ा सामान्यीकरण की आवश्यकता होती है। चूंकि ट्री गुणात्मक पूर्व सूचक को संभाल सकते हैं, इसलिए डमी चर (सांख्यिकी) बनाने की कोई आवश्यकता नहीं है।^[24]
एक सफेद वर्ग (सॉफ्टवेयर इंजीनियरिंग) या विवृत-वर्ग प्रतिरूप का उपयोग करता है^[2] यदि किसी प्रारूप में दी गई स्थिति को देखा जा सकता है, तो स्थिति की व्याख्या बूलियन तर्क द्वारा सरलता से समझाई जा सकती है। तथा इसके विपरीत एक ब्लैक बॉक्स प्रारूप में परिणामों के लिए स्पष्टीकरण को समझना सामान्य रूप से जटिल होता है, उदाहरण के लिए एक कृत्रिम तंत्रिका नेटवर्क के साथ।
सांख्यिकीय परीक्षणों का उपयोग करके एक प्रारूप को मान्य करना संभव होता है। इससे प्रारूप की विश्वसनीयता का पता लगाना संभव हो जाता है।
गैर-पैरामीट्रिक दृष्टिकोण प्रशिक्षण आँकड़ा या पूर्व सूचक अवशेषों की कोई धारणा नहीं बनाता है। उदाहरण के लिए कोई वितरणात्मक, स्वतंत्रता, या निरंतर भिन्नता धारणा नहीं होती है
बड़े आँकड़ा समुच्चय साथ अच्छा प्रदर्शन करता है। तथा उचित समय में मानक कंप्यूटिंग संसाधनों का उपयोग करके बड़ी मात्रा में आँकड़ा का विश्लेषण किया जा सकता है।
अन्य दृष्टिकोणों की तुलना में मानव निर्णय लेने को अधिक कुशलता से प्रतिबिंबित करता है।^[24] मानवीय निर्णयों/व्यवहार की मॉडलिंग करते समय यह उपयोगी हो सकता है।
सह-रैखिकता के विपरीत जटिल विशेष रूप से बढ़ावा देना।
निर्मित सुविधा चयन में अतिरिक्त अप्रासंगिक विशेषता का कम उपयोग किया जाएगा ताकि बाद के घूमने पर उन्हें हटाया जा सके। डिसीजन ट्री में विशेषताओं का पदानुक्रम विशेषताओं के महत्व को दर्शाता है।^[25] इसका अर्थ है कि शीर्ष पर उपस्थित सुविधाएं सबसे अधिक जानकारी पूर्ण होती हैं।^[26]
डिसीजन ट्री किसी भी बूलियन तर्क का अनुमान लगा सकते हैं उदाहरण XOR।^[27]

सीमाएं

ट्री बहुत गैर-जटिल हो सकते हैं। प्रशिक्षण, परीक्षण और सत्यापन समुच्चय में एक छोटे से परिवर्तन के परिणामस्वरूप ट्री में बड़ा परिवर्तन हो सकता है और इसके परिणामस्वरूप अंतिम पूर्व सूचक हो सकती हैं।^[24]
सर्वोत्तम डिसीजन ट्री लर्निंग की समस्या को सर्वोत्तमता के कई पहलुओं और यहां तक कि सरल अवधारणाओं के लिए NP-पूर्ण के रूप में जाना जाता है।^[28]^[29] नतीजतन, व्यावहारिक डिसीजन ट्री लर्निंग कलन विधि अनुभव पर आधारित होते हैं, जैसे कि बहुभक्षक कलन विधि जहां प्रत्येक नोड पर स्थानीय रूप से सर्वोत्तम निर्णय किए जाते हैं। इस तरह के कलनविधि विश्व स्तर पर सर्वोत्तम डिसीजन ट्री को वापस करने की गारंटी नहीं दे सकते। स्थानीय इष्टतमता के लालची प्रभाव को कम करने के लिए दोहरी सूचना दूरी (डीआईडी) ट्री जैसी कुछ विधियों का प्रस्ताव किया गया था।^[30]
डिसीजन ट्री को शिक्षार्थी अति-जटिल ट्री बना सकते हैं, जो प्रशिक्षण आँकड़ा से अच्छी तरह से सामान्यीकरण नहीं करते हैं। इसे अत्युपपन्न के रूप में जाना जाता है।^[31] तथा इस समस्या से बचने के लिए प्रूनिंग (डिसीजन ट्री) जैसे तंत्र कि आवश्यक होती हैं। कुछ कलन विधि के अपवाद के साथ जैसे सशर्त अनुमान दृष्टिकोण, जिसमें छंटाई की आवश्यकता नहीं होती है)।^[17]^[18]
वर्गीकरण तक नोड्स या परीक्षणों की संख्या द्वारा परिभाषित ट्री की औसत गहराई को विभिन्न विभाजन मानदंडों के तहत न्यूनतम या छोटा होने की गारंटी नहीं होती है।^[32]
स्तरों की विभिन्न संख्याओं के साथ श्रेणीबद्ध चर सहित डेटा के लिए, डिसीजन ट्री में सूचना लाभ अधिक स्तरों वाली विशेषताओं के पक्ष में पक्षपाती होता है।^[33] इस समस्या का सामना करने के लिए उच्चतम सूचना लाभ के साथ विशेषता को चुनने के अतिरिक्त उन विशेषताओं के बीच उच्चतम सूचना लाभ अनुपात वाली विशेषता का चयन कर सकते हैं, जिनकी सूचना लाभ अनुपात सूचना लाभ से अधिक होता है।^[34] यह बहुत कम जानकारी प्राप्त करने वाली विशेषताओं को अनुचित लाभ न देते हुए, बड़ी संख्या में अलग-अलग मानों के साथ विशेषताओं पर विचार करने के विपरीत डिसीजन ट्री को पक्षपाती बनाता है। वैकल्पिक रूप से पक्षपाती पूर्व सूचक चयन के मुद्दे को सशर्त अनुमान दृष्टिकोण^[17] दो-चरणीय दृष्टिकोण^[35] या अनुकूली लीव-वन-आउट की सुविधा चयन से बचा जा सकता है।^[36]

कार्यान्वयन

कई आँकड़ा खनन सॉफ्टवेयर पैकेज एक या अधिक डिसीजन ट्री कलनविधि के कार्यान्वयन को प्रदान करते हैं।

उदाहरणों में सम्मिलित-

सलफोर्ड प्रणाली CART (जिसने मूल CART लेखकों के मालिकाना कोड को लाइसेंस दिया था),^[6]
IBM SPSS मॉडलर,
रैपिडमाइनर,
एसएएस (सॉफ्टवेयर) # अवयव,
मैटलैब ,
R (प्रोग्रामिंग लैंग्वेज) सांख्यिकीय कंप्यूटिंग के लिए एक ओपन-सोर्स सॉफ़्टवेयर वातावरण जिसमें कई CART कार्यान्वयन जैसे rpart, पार्टी और रैंडमफ़ॉरेस्ट पैकेज सम्मिलित होता हैं।
वीका (मशीन लर्निंग) एक स्वतंत्र और ओपन-सोर्स आँकड़ा-खनन सूट जिसमें कई डिसीजन ट्री कलनविधि सम्मिलित होती हैं।,
ऑरेंज (सॉफ्टवेयर),
नीम,
माइक्रोसॉफ्ट एसक्यूएल सर्वर [1], और
scikit-लर्न पाइथन प्रोग्रामिंग लैंग्वेज के लिए एक फ्री और ओपन-सोर्स मशीन लर्निंग लाइब्रेरी।

एक्सटेंशन

निर्णय रेखांकन

एक डिसीजन ट्री में रूट नोड से लीफ नोड तक के सभी रास्ते संयुग्मन या AND के माध्यम से आगे बढ़ते हैं। एक निर्णय ग्राफ में, न्यूनतम संदेश लंबाई (MML) का उपयोग करके दो और रास्तों को एक साथ जोड़ने के लिए विच्छेदन (ORs) का उपयोग करना संभव होता है।^[37] पहले से अनकही नई विशेषताओं को गतिशील रूप से सीखने और ग्राफ़ के भीतर विभिन्न स्थानों पर उपयोग करने की अनुमति देने के लिए निर्णय ग्राफ़ को और विस्तारित किया गया है।^[38] अधिक सामान्य विसंकेतक योजना के परिणामस्वरूप बेहतर भावी सूचक सटीकता और लॉग-लॉस प्रायिकता स्कोरिंग होती है।^{[citation needed]} सामान्य रूप से निर्णय ग्राफ डिसीजन ट्री की तुलना में कम पत्तियों वाले प्रारूप का अनुमान लगाते हैं।

वैकल्पिक खोज विधियाँ

स्थानीय सर्वोत्तम निर्णयों से बचने के लिए विकासवादी कलनविधि का उपयोग किया गया है और डिसीजन ट्री स्थान को थोड़ा प्राथमिकता पूर्वाग्रह के साथ खोजा गया है।^[39]^[40]

मार्कोव चेन मोंटे कार्लो का उपयोग करके एक ट्री का प्रतिरूप लेना भी संभव होता है।^[41]

ट्री को नीचे के निर्माण में खोजा जा सकता है।^[42] या वर्गीकरण तक परीक्षणों की अपेक्षित संख्या को कम करने के लिए समानांतर में कई ट्री का निर्माण किया जा सकता है।^[32]

यह भी देखें

डिसीजन ट्री छंटाई
बाइनरी निर्णय आरेख
छेद
भावी सूचक विश्लेषण # वर्गीकरण और प्रतिगमन ट्री .28CART.29
ID3 कलनविधि
C4.5 कलनविधि
निर्णय स्टंप, उदाहरण के लिए उपयोग किया जाता है। ऐडाबूस्टिंग
निर्णय सूची
वृद्धिशील डिसीजन ट्री
वैकल्पिक डिसीजन ट्री
संरचित आँकड़ा विश्लेषण (सांख्यिकी)
तार्किक मॉडल ट्री
पदानुक्रमित गुच्छन

संदर्भ

↑ Wu, Xindong; Kumar, Vipin; Ross Quinlan, J.; Ghosh, Joydeep; Yang, Qiang; Motoda, Hiroshi; McLachlan, Geoffrey J.; Ng, Angus; Liu, Bing; Yu, Philip S.; Zhou, Zhi-Hua (2008-01-01). "डेटा माइनिंग में शीर्ष 10 एल्गोरिदम". Knowledge and Information Systems (in English). 14 (1): 1–37. doi:10.1007/s10115-007-0114-2. hdl:10983/15329. ISSN 0219-3116. S2CID 2367747.
↑ ^2.0 ^2.1 ^2.2 Rokach, Lior; Maimon, O. (2014). निर्णय वृक्षों के साथ डाटा माइनिंग: सिद्धांत और अनुप्रयोग, दूसरा संस्करण. World Scientific Pub Co Inc. doi:10.1142/9097. ISBN 978-9814590075. S2CID 44697571.
↑ Shalev-Shwartz, Shai; Ben-David, Shai (2014). "18. Decision Trees". मशीन लर्निंग को समझना. Cambridge University Press.
↑ Quinlan, J. R. (1986). "निर्णय पेड़ों की प्रेरण" (PDF). Machine Learning. 1: 81–106. doi:10.1007/BF00116251. S2CID 189902138.
↑ ^5.0 ^5.1 Rokach, L.; Maimon, O. (2005). "टॉप-डाउन इंडक्शन ऑफ डिसीजन ट्री क्लासिफायर-ए सर्वे". IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews. 35 (4): 476–487. CiteSeerX 10.1.1.458.7031. doi:10.1109/TSMCC.2004.843247. S2CID 14808716.
↑ ^6.0 ^6.1 ^6.2 ^6.3 ^6.4 Breiman, Leo; Friedman, J. H.; Olshen, R. A.; Stone, C. J. (1984). वर्गीकरण और प्रतिगमन पेड़. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software. ISBN 978-0-412-04841-8.
↑ Friedman, J. H. (1999). Stochastic gradient boosting Archived 2018-11-28 at the Wayback Machine. Stanford University.
↑ Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer Verlag.
↑ Breiman, L. (1996). "बैगिंग प्रिडिक्टर्स". Machine Learning. 24 (2): 123–140. doi:10.1007/BF00058655.
↑ Rodriguez, J. J.; Kuncheva, L. I.; Alonso, C. J. (2006). "रोटेशन वन: एक नया वर्गीकारक पहनावा विधि". IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (10): 1619–1630. CiteSeerX 10.1.1.156.8277. doi:10.1109/TPAMI.2006.211. PMID 16986543. S2CID 6847493.
↑ Rivest, Ron (Nov 1987). "सीखना निर्णय सूची" (PDF). Machine Learning. 3 (2): 229–246. doi:10.1023/A:1022607331053. S2CID 30625841.
↑ Letham, Ben; Rudin, Cynthia; McCormick, Tyler; Madigan, David (2015). "नियमों और बायेसियन विश्लेषण का उपयोग करने वाले व्याख्यात्मक वर्गीकरणकर्ता: एक बेहतर स्ट्रोक भविष्यवाणी मॉडल का निर्माण". Annals of Applied Statistics. 9 (3): 1350–1371. arXiv:1511.01644. doi:10.1214/15-AOAS848. S2CID 17699665.
↑ Wang, Fulton; Rudin, Cynthia (2015). "गिरती नियम सूची" (PDF). Journal of Machine Learning Research. 38. Archived from the original (PDF) on 2016-01-28. Retrieved 2016-01-22.
↑ Kass, G. V. (1980). "बड़ी मात्रा में स्पष्ट डेटा की जांच के लिए एक खोजपूर्ण तकनीक". Applied Statistics. 29 (2): 119–127. doi:10.2307/2986296. JSTOR 2986296.
↑ Biggs, David; De Ville, Barry; Suen, Ed (1991). "वर्गीकरण और निर्णय वृक्षों के लिए बहुपथीय विभाजनों को चुनने की एक विधि". Journal of Applied Statistics. 18 (1): 49–62. doi:10.1080/02664769100000005. ISSN 0266-4763.
↑ Ritschard, G. (2013), "CHAID and Earlier Supervised Tree Methods", in J.J. McArdle and G. Ritschard (eds), Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences, Quantitative Methodology Series, New York: Routledge, pages 48-74. Preprint
↑ ^17.0 ^17.1 ^17.2 Hothorn, T.; Hornik, K.; Zeileis, A. (2006). "निष्पक्ष पुनरावर्ती विभाजन: एक सशर्त निष्कर्ष ढांचा". Journal of Computational and Graphical Statistics. 15 (3): 651–674. CiteSeerX 10.1.1.527.2935. doi:10.1198/106186006X133933. JSTOR 27594202. S2CID 6074128.
↑ ^18.0 ^18.1 Strobl, C.; Malley, J.; Tutz, G. (2009). "पुनरावर्ती विभाजन का एक परिचय: औचित्य, अनुप्रयोग और वर्गीकरण और प्रतिगमन पेड़, बैगिंग और यादृच्छिक वन के लक्षण". Psychological Methods. 14 (4): 323–348. doi:10.1037/a0016973. PMC 2927982. PMID 19968396.
↑ Janikow, C. Z. (1998). "फजी डिसीजन ट्री: इश्यूज एंड मेथड्स". IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics). 28 (1): 1–14. doi:10.1109/3477.658573. PMID 18255917.
↑ Barsacchi, M.; Bechini, A.; Marcelloni, F. (2020). "An analysis of boosted ensembles of binary fuzzy decision trees". Expert Systems with Applications. 154: 113436. doi:10.1016/j.eswa.2020.113436. S2CID 216369273.
↑ Najmann, Oliver (1992). उदाहरणों से प्रतीकात्मक ज्ञान प्राप्त करने की तकनीक और अनुमान। (Thesis). Doctoral thesis.
↑ "बढ़ते निर्णय पेड़". MathWorks. MathWorks.
↑ ^23.0 ^23.1 Larose, Daniel T.; Larose, Chantal D. (2014). डेटा में ज्ञान की खोज: डेटा माइनिंग का परिचय. Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118874059.
↑ ^24.0 ^24.1 ^24.2 ^24.3 ^24.4 Gareth, James; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2015). सांख्यिकीय सीखने का एक परिचय. New York: Springer. pp. 315. ISBN 978-1-4614-7137-0.
↑ Provost, Foster, 1964- (2013). व्यवसाय के लिए डेटा विज्ञान: [डेटा खनन और डेटा-विश्लेषणात्मक सोच के बारे में आपको क्या जानने की आवश्यकता है]. Fawcett, Tom. (1st ed.). Sebastopol, Calif.: O'Reilly. ISBN 978-1-4493-6132-7. OCLC 844460899.{{cite book}}: CS1 maint: multiple names: authors list (link)
↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "इंफ्रास्ट्रक्चर एसेट मैनेजमेंट में डेटा एनालिटिक्स की भूमिका: डेटा आकार और गुणवत्ता की समस्याओं पर काबू पाना". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.
↑ Mehtaa, Dinesh; Raghavan, Vijay (2002). "बूलियन कार्यों का निर्णय वृक्ष सन्निकटन". Theoretical Computer Science. 270 (1–2): 609–623. doi:10.1016/S0304-3975(01)00011-1.
↑ Hyafil, Laurent; Rivest, RL (1976). "इष्टतम बाइनरी डिसीजन ट्री का निर्माण एनपी-पूर्ण है". Information Processing Letters. 5 (1): 15–17. doi:10.1016/0020-0190(76)90095-8.
↑ Murthy S. (1998). "Automatic construction of decision trees from data: A multidisciplinary survey". Data Mining and Knowledge Discovery
↑ Ben-Gal I. Dana A., Shkolnik N. and Singer (2014). "दोहरी सूचना दूरी विधि द्वारा निर्णय वृक्षों का कुशल निर्माण" (PDF). Quality Technology & Quantitative Management. 11 (1): 133–147. doi:10.1080/16843703.2014.11673330. S2CID 7025979.
↑ डाटा माइनिंग के सिद्धांत. 2007. doi:10.1007/978-1-84628-766-4. ISBN 978-1-84628-765-7.
↑ ^32.0 ^32.1 Ben-Gal I. and Trister C. (2015). "परीक्षणों की लगातार गैर-बढ़ती अपेक्षित संख्या के साथ निर्णय वृक्षों का समानांतर निर्माण" (PDF). Applied Stochastic Models in Business and Industry, Vol. 31(1) 64-78.
↑ Deng, H.; Runger, G.; Tuv, E. (2011). बहु-मूल्यवान विशेषताओं और समाधानों के लिए महत्व के पूर्वाग्रह उपाय. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293–300.
↑ Quinlan, J. Ross (1986). "निर्णय वृक्षों का प्रेरण". Machine Learning. 1 (1): 81–106. doi:10.1007/BF00116251.
↑ Brandmaier, Andreas M.; Oertzen, Timo von; McArdle, John J.; Lindenberger, Ulman (2012). "संरचनात्मक समीकरण मॉडल पेड़।". Psychological Methods (in English). 18 (1): 71–86. doi:10.1037/a0030001. hdl:11858/00-001M-0000-0024-EA33-9. PMC 4386908. PMID 22984789.
↑ Painsky, Amichai; Rosset, Saharon (2017). "ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है". IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (11): 2142–2153. arXiv:1512.03444. doi:10.1109/TPAMI.2016.2636831. PMID 28114007. S2CID 5381516.
↑ "साइटसीरएक्स".
↑ Tan & Dowe (2003)
↑ Papagelis, A.; Kalles, D. (2001). "Breeding Decision Trees Using Evolutionary Techniques" (PDF). मशीन लर्निंग पर अठारहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही, 28 जून-जुलाई 1, 2001. pp. 393–400.
↑ Barros, Rodrigo C.; Basgalupp, M. P.; Carvalho, A. C. P. L. F.; Freitas, Alex A. (2012). "निर्णय-वृक्ष प्रेरण के लिए विकासवादी एल्गोरिदम का सर्वेक्षण". IEEE Transactions on Systems, Man and Cybernetics. Part C: Applications and Reviews. 42 (3): 291–312. CiteSeerX 10.1.1.308.9068. doi:10.1109/TSMCC.2011.2157494. S2CID 365692.
↑ Chipman, Hugh A.; George, Edward I.; McCulloch, Robert E. (1998). "बायेसियन कार्ट मॉडल खोज". Journal of the American Statistical Association. 93 (443): 935–948. CiteSeerX 10.1.1.211.5573. doi:10.1080/01621459.1998.10473750.
↑ Barros, R. C.; Cerri, R.; Jaskowiak, P. A.; Carvalho, A. C. P. L. F. (2011). "A bottom-up oblique decision tree induction algorithm". इंटेलिजेंट सिस्टम डिजाइन और एप्लीकेशन पर 11वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही (आईएसडीए 2011). pp. 450–456. doi:10.1109/ISDA.2011.6121697. ISBN 978-1-4577-1676-8. S2CID 15574923.

अग्रिम पठन

James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). "Tree-Based Methods" (PDF). An Introduction to Statistical Learning: with Applications in R. New York: Springer. pp. 303–336. ISBN 978-1-4614-7137-0.

बाहरी संबंध

[1] Wu, Xindong; Kumar, Vipin; Ross Quinlan, J.; Ghosh, Joydeep; Yang, Qiang; Motoda, Hiroshi; McLachlan, Geoffrey J.; Ng, Angus; Liu, Bing; Yu, Philip S.; Zhou, Zhi-Hua (2008-01-01). "डेटा माइनिंग में शीर्ष 10 एल्गोरिदम". Knowledge and Information Systems (in English). 14 (1): 1–37. doi:10.1007/s10115-007-0114-2. hdl:10983/15329. ISSN 0219-3116. S2CID 2367747.

[tdidt-2] 2.0 ^2.1 ^2.2 Rokach, Lior; Maimon, O. (2014). निर्णय वृक्षों के साथ डाटा माइनिंग: सिद्धांत और अनुप्रयोग, दूसरा संस्करण. World Scientific Pub Co Inc. doi:10.1142/9097. ISBN 978-9814590075. S2CID 44697571.

[3] Shalev-Shwartz, Shai; Ben-David, Shai (2014). "18. Decision Trees". मशीन लर्निंग को समझना. Cambridge University Press.

[Quinlan86-4] Quinlan, J. R. (1986). "निर्णय पेड़ों की प्रेरण" (PDF). Machine Learning. 1: 81–106. doi:10.1007/BF00116251. S2CID 189902138.

[top-downDT-5] 5.0 ^5.1 Rokach, L.; Maimon, O. (2005). "टॉप-डाउन इंडक्शन ऑफ डिसीजन ट्री क्लासिफायर-ए सर्वे". IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews. 35 (4): 476–487. CiteSeerX 10.1.1.458.7031. doi:10.1109/TSMCC.2004.843247. S2CID 14808716.

[bfos-6] 6.0 ^6.1 ^6.2 ^6.3 ^6.4 Breiman, Leo; Friedman, J. H.; Olshen, R. A.; Stone, C. J. (1984). वर्गीकरण और प्रतिगमन पेड़. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software. ISBN 978-0-412-04841-8.

[7] Friedman, J. H. (1999). Stochastic gradient boosting Archived 2018-11-28 at the Wayback Machine. Stanford University.

[8] Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer Verlag.

[9] Breiman, L. (1996). "बैगिंग प्रिडिक्टर्स". Machine Learning. 24 (2): 123–140. doi:10.1007/BF00058655.

[10] Rodriguez, J. J.; Kuncheva, L. I.; Alonso, C. J. (2006). "रोटेशन वन: एक नया वर्गीकारक पहनावा विधि". IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (10): 1619–1630. CiteSeerX 10.1.1.156.8277. doi:10.1109/TPAMI.2006.211. PMID 16986543. S2CID 6847493.

[11] Rivest, Ron (Nov 1987). "सीखना निर्णय सूची" (PDF). Machine Learning. 3 (2): 229–246. doi:10.1023/A:1022607331053. S2CID 30625841.

[12] Letham, Ben; Rudin, Cynthia; McCormick, Tyler; Madigan, David (2015). "नियमों और बायेसियन विश्लेषण का उपयोग करने वाले व्याख्यात्मक वर्गीकरणकर्ता: एक बेहतर स्ट्रोक भविष्यवाणी मॉडल का निर्माण". Annals of Applied Statistics. 9 (3): 1350–1371. arXiv:1511.01644. doi:10.1214/15-AOAS848. S2CID 17699665.

[13] Wang, Fulton; Rudin, Cynthia (2015). "गिरती नियम सूची" (PDF). Journal of Machine Learning Research. 38. Archived from the original (PDF) on 2016-01-28. Retrieved 2016-01-22.

[14] Kass, G. V. (1980). "बड़ी मात्रा में स्पष्ट डेटा की जांच के लिए एक खोजपूर्ण तकनीक". Applied Statistics. 29 (2): 119–127. doi:10.2307/2986296. JSTOR 2986296.

[15] Biggs, David; De Ville, Barry; Suen, Ed (1991). "वर्गीकरण और निर्णय वृक्षों के लिए बहुपथीय विभाजनों को चुनने की एक विधि". Journal of Applied Statistics. 18 (1): 49–62. doi:10.1080/02664769100000005. ISSN 0266-4763.

[16] Ritschard, G. (2013), "CHAID and Earlier Supervised Tree Methods", in J.J. McArdle and G. Ritschard (eds), Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences, Quantitative Methodology Series, New York: Routledge, pages 48-74. Preprint

[Hothorn2006-17] 17.0 ^17.1 ^17.2 Hothorn, T.; Hornik, K.; Zeileis, A. (2006). "निष्पक्ष पुनरावर्ती विभाजन: एक सशर्त निष्कर्ष ढांचा". Journal of Computational and Graphical Statistics. 15 (3): 651–674. CiteSeerX 10.1.1.527.2935. doi:10.1198/106186006X133933. JSTOR 27594202. S2CID 6074128.

[Strobl2009-18] 18.0 ^18.1 Strobl, C.; Malley, J.; Tutz, G. (2009). "पुनरावर्ती विभाजन का एक परिचय: औचित्य, अनुप्रयोग और वर्गीकरण और प्रतिगमन पेड़, बैगिंग और यादृच्छिक वन के लक्षण". Psychological Methods. 14 (4): 323–348. doi:10.1037/a0016973. PMC 2927982. PMID 19968396.

[Janikow1998-19] Janikow, C. Z. (1998). "फजी डिसीजन ट्री: इश्यूज एंड मेथड्स". IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics). 28 (1): 1–14. doi:10.1109/3477.658573. PMID 18255917.

[Barsacchi2020-20] Barsacchi, M.; Bechini, A.; Marcelloni, F. (2020). "An analysis of boosted ensembles of binary fuzzy decision trees". Expert Systems with Applications. 154: 113436. doi:10.1016/j.eswa.2020.113436. S2CID 216369273.

[thask-21] Najmann, Oliver (1992). उदाहरणों से प्रतीकात्मक ज्ञान प्राप्त करने की तकनीक और अनुमान। (Thesis). Doctoral thesis.

[22] "बढ़ते निर्णय पेड़". MathWorks. MathWorks.

[ll-23] 23.0 ^23.1 Larose, Daniel T.; Larose, Chantal D. (2014). डेटा में ज्ञान की खोज: डेटा माइनिंग का परिचय. Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118874059.

[:0-24] 24.0 ^24.1 ^24.2 ^24.3 ^24.4 Gareth, James; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2015). सांख्यिकीय सीखने का एक परिचय. New York: Springer. pp. 315. ISBN 978-1-4614-7137-0.

[25] Provost, Foster, 1964- (2013). व्यवसाय के लिए डेटा विज्ञान: [डेटा खनन और डेटा-विश्लेषणात्मक सोच के बारे में आपको क्या जानने की आवश्यकता है]. Fawcett, Tom. (1st ed.). Sebastopol, Calif.: O'Reilly. ISBN 978-1-4493-6132-7. OCLC 844460899.{{cite book}}: CS1 maint: multiple names: authors list (link)

[26] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "इंफ्रास्ट्रक्चर एसेट मैनेजमेंट में डेटा एनालिटिक्स की भूमिका: डेटा आकार और गुणवत्ता की समस्याओं पर काबू पाना". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.

[27] Mehtaa, Dinesh; Raghavan, Vijay (2002). "बूलियन कार्यों का निर्णय वृक्ष सन्निकटन". Theoretical Computer Science. 270 (1–2): 609–623. doi:10.1016/S0304-3975(01)00011-1.

[28] Hyafil, Laurent; Rivest, RL (1976). "इष्टतम बाइनरी डिसीजन ट्री का निर्माण एनपी-पूर्ण है". Information Processing Letters. 5 (1): 15–17. doi:10.1016/0020-0190(76)90095-8.

[29] Murthy S. (1998). "Automatic construction of decision trees from data: A multidisciplinary survey". Data Mining and Knowledge Discovery

[30] Ben-Gal I. Dana A., Shkolnik N. and Singer (2014). "दोहरी सूचना दूरी विधि द्वारा निर्णय वृक्षों का कुशल निर्माण" (PDF). Quality Technology & Quantitative Management. 11 (1): 133–147. doi:10.1080/16843703.2014.11673330. S2CID 7025979.

[31] डाटा माइनिंग के सिद्धांत. 2007. doi:10.1007/978-1-84628-766-4. ISBN 978-1-84628-765-7.

[Tris-32] 32.0 ^32.1 Ben-Gal I. and Trister C. (2015). "परीक्षणों की लगातार गैर-बढ़ती अपेक्षित संख्या के साथ निर्णय वृक्षों का समानांतर निर्माण" (PDF). Applied Stochastic Models in Business and Industry, Vol. 31(1) 64-78.

[33] Deng, H.; Runger, G.; Tuv, E. (2011). बहु-मूल्यवान विशेषताओं और समाधानों के लिए महत्व के पूर्वाग्रह उपाय. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293–300.

[34] Quinlan, J. Ross (1986). "निर्णय वृक्षों का प्रेरण". Machine Learning. 1 (1): 81–106. doi:10.1007/BF00116251.

[35] Brandmaier, Andreas M.; Oertzen, Timo von; McArdle, John J.; Lindenberger, Ulman (2012). "संरचनात्मक समीकरण मॉडल पेड़।". Psychological Methods (in English). 18 (1): 71–86. doi:10.1037/a0030001. hdl:11858/00-001M-0000-0024-EA33-9. PMC 4386908. PMID 22984789.

[36] Painsky, Amichai; Rosset, Saharon (2017). "ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है". IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (11): 2142–2153. arXiv:1512.03444. doi:10.1109/TPAMI.2016.2636831. PMID 28114007. S2CID 5381516.

[37] "साइटसीरएक्स".

[38] Tan & Dowe (2003)

[39] Papagelis, A.; Kalles, D. (2001). "Breeding Decision Trees Using Evolutionary Techniques" (PDF). मशीन लर्निंग पर अठारहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही, 28 जून-जुलाई 1, 2001. pp. 393–400.

[40] Barros, Rodrigo C.; Basgalupp, M. P.; Carvalho, A. C. P. L. F.; Freitas, Alex A. (2012). "निर्णय-वृक्ष प्रेरण के लिए विकासवादी एल्गोरिदम का सर्वेक्षण". IEEE Transactions on Systems, Man and Cybernetics. Part C: Applications and Reviews. 42 (3): 291–312. CiteSeerX 10.1.1.308.9068. doi:10.1109/TSMCC.2011.2157494. S2CID 365692.

[41] Chipman, Hugh A.; George, Edward I.; McCulloch, Robert E. (1998). "बायेसियन कार्ट मॉडल खोज". Journal of the American Statistical Association. 93 (443): 935–948. CiteSeerX 10.1.1.211.5573. doi:10.1080/01621459.1998.10473750.

[42] Barros, R. C.; Cerri, R.; Jaskowiak, P. A.; Carvalho, A. C. P. L. F. (2011). "A bottom-up oblique decision tree induction algorithm". इंटेलिजेंट सिस्टम डिजाइन और एप्लीकेशन पर 11वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही (आईएसडीए 2011). pp. 450–456. doi:10.1109/ISDA.2011.6121697. ISBN 978-1-4577-1676-8. S2CID 15574923.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

Anonymous

Search

डिसिशन ट्री लर्निंग: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 09:54, 14 December 2022

Contents

सामान्य

डिसीजन ट्री के प्रकार

मेट्रिक्स

घनात्मक शुद्धता का अनुमान

गिनी अशुद्धता

सूचना प्राप्ति

भिन्नता में कमी

अच्छाई का पैमाना

उपयोग

लाभ

सीमाएं

कार्यान्वयन

एक्सटेंशन

निर्णय रेखांकन

वैकल्पिक खोज विधियाँ

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

@@ Line 35: / Line 35: @@
 [[File:Cart tree kyphosis.png|thumb|800px|alt=किफोसिस डेटा के एक रिग्रेशन ट्री के तीन अलग-अलग प्रतिनिधित्व |
-एक उदाहरण ट्री जो रीढ़ की हड्डी की सर्जरी के बाद किफोसिस की संभावना का अनुमान लगाता है, रोगी की उम्र और कशेरुक जिस पर सर्जरी प्रारम्भ की गई थी। एक ही वृक्ष को तीन प्रकार से दिखाया जाता है। बायीं रंगीन पत्तियाँ स्पाइनल सर्जरी के बाद [[कुब्जता]] की संभावना और पत्ती में रोगियों के प्रतिशत को दर्शाती हैं। मध्य पेड़ एक परिप्रेक्ष्य साजिश के रूप में। मध्य भूखंड का दाहिना हवाई दृश्य। सर्जरी के बाद अंधेरे क्षेत्रों में किफोसिस की संभावना अधिक होती है। (नोट: काइफोसिस का उपचार काफी उन्नत हो गया है क्योंकि आँकड़ा का यह छोटा सेट एकत्र किया गया था।{{citation needed|date=December 2019}}
+एक उदाहरण ट्री जो रीढ़ की हड्डी की सर्जरी के बाद किफोसिस की संभावना का अनुमान लगाता है, रोगी की उम्र और कशेरुक जिस पर सर्जरी प्रारम्भ की गई थी। एक ही वृक्ष को तीन प्रकार से दिखाया जाता है। बायीं रंगीन पत्तियाँ स्पाइनल सर्जरी के बाद [[कुब्जता]] की संभावना और पत्ती में रोगियों के प्रतिशत को दर्शाती हैं। मध्य पेड़ एक परिप्रेक्ष्य साजिश के रूप में। मध्य भूखंड का दाहिना हवाई दृश्य। सर्जरी के बाद अंधेरे क्षेत्रों में किफोसिस की संभावना अधिक होती है। (नोट: काइफोसिस का उपचार काफी उन्नत हो गया है क्योंकि आँकड़ा का यह छोटा समुच्चय एकत्र किया गया था।{{citation needed|date=December 2019}}
 ]]
@@ Line 147: / Line 147: @@
 इस उदाहरण में, विशेषता ए का अनुमान 6 और TRP लगभग 0.73 था। जबकि विशेषता बी का अनुमान 4 और TRP 0.75 था। इससे यह पता चलता है, कि हालांकि कुछ विशेषता के लिए धनात्मक अनुमान अधिक हो सकता है, लेकिन उस विशेषता के लिए अधिक सटीक TRP मान कम धनात्मक अनुमान वाली अन्य सुविधाओं की तुलना में कम हो सकता है। आँकड़ा और डिसीजन ट्री की स्थिति और ज्ञान के आधार पर, कोई अपनी समस्या के त्वरित और आसान समाधान के लिए धनात्मक अनुमान का उपयोग करने का विकल्प चुन सकता है। दूसरी ओर एक अधिक अनुभवी उपयोगकर्ता सुविधाओं को रैंक करने के लिए TPR मान का उपयोग करना पसंद करेगा क्योंकि यह आँकड़ा के अनुपात और उन सभी नमूनों को ध्यान में रखता है जिन्हें धनात्मक के रूप में वर्गीकृत किया जाना चाहिए था।
-===गिनी अशुद्धता ===
+===गिनी  अशुद्धता ===
-'''गिनी अशु'''द्धता, गिनी की विविधता सूचकांक,<ref>{{cite web |title=बढ़ते निर्णय पेड़|url=https://www.mathworks.com/help/stats/growing-decision-trees.html |website=MathWorks |publisher=MathWorks}}</ref> या Diversity_index#Gini%E2%80%93Simpson_index|Gini-Simpson Index जैव विविधता अनुसंधान में, वर्गीकरण ट्रीों के लिए CART (वर्गीकरण और प्रतिगमन ट्री) एल्गोरिथ्म द्वारा उपयोग किया जाता है, Gini अशुद्धता (इतालवी गणितज्ञ [[Corrado Gini]] के नाम पर) एक उपाय है कि कैसे अक्सर सेट से यादृच्छिक रूप से चुने गए तत्व को गलत तरीके से लेबल किया जाएगा यदि इसे सबसेट में लेबल के वितरण के अनुसार यादृच्छिक रूप से लेबल किया गया हो। गिन्नी अशुद्धता की गणना संभाव्यता को जोड़कर की जा सकती है <math>p_i</math> लेबल वाले किसी आइटम का <math>i</math> संभाव्यता से गुणा चुना जा रहा है <math>\sum_{k \ne i} p_k = 1-p_i</math> उस वस्तु को वर्गीकृत करने में गलती के कारण। यह अपने न्यूनतम (शून्य) तक पहुँच जाता है जब नोड के सभी मामले एक लक्ष्य श्रेणी में आते हैं।
+गिनी अशुद्धता, गिनी का विविधता सूचकांक<ref>{{cite web |title=बढ़ते निर्णय पेड़|url=https://www.mathworks.com/help/stats/growing-decision-trees.html |website=MathWorks |publisher=MathWorks}}</ref> या जैव विविधता अनुसंधान में गिनी सिम्पसन सूची वर्गीकरण ट्री के लिए CART (वर्गीकरण और प्रतिगमन ट्री) कलन विधि द्वारा उपयोग किया जाता है, गिनी अशुद्धता (इतालवी गणितज्ञ [[Corrado Gini|कोराडो]] गिनी के नाम पर) एक उपाय होता है कि कैसे अधिकांश समुच्चय से यादृच्छिक रूप से चुने गए तत्व को गलत तरीके से लेबल किया जाएगा यदि इसे उपसमुच्चय में स्तर के वितरण के अनुसार यादृच्छिक रूप से स्तर किया गया हो।
-गिन्नी अशुद्धता भी एक सूचना सिद्धांत उपाय है और विरूपण गुणांक के साथ [[सॉलिस एंट्रॉपी]] से मेल खाती है <math>q=2</math>, जो भौतिक विज्ञान में आउट-ऑफ-संतुलन, गैर-व्यापक, विघटनकारी और क्वांटम सिस्टम में जानकारी की कमी से जुड़ा है। सीमा के लिए <math>q\to 1</math> एक सामान्य बोल्ट्जमैन-गिब्स या शैनन एन्ट्रापी को पुनः प्राप्त करता है। इस अर्थ में, गिन्नी अशुद्धता और कुछ नहीं बल्कि निर्णय ट्रीों के लिए सामान्य एन्ट्रापी माप की भिन्नता है।
+गिनी अशुद्धता की गणना संभाव्यता <math>p_i</math> को जोड़कर की जा सकती है तथा स्तर वाले किसी वस्तु की  <math>i</math> संभाव्यता से गुणा चुना जा रहा है <math>\sum_{k \ne i} p_k = 1-p_i</math> उस वस्तु को वर्गीकृत करने में गलती के कारण। यह अपने न्यूनतम (शून्य) तक पहुँच जाता है, जब नोड के सभी स्थिति एक लक्ष्य श्रेणी में आते हैं।
-वस्तुओं के एक सेट के लिए गिन्नी अशुद्धता की गणना करना <math>J</math> वर्ग, मान लीजिए <math>i \in \{1, 2, ...,J\}</math>, और जाने <math>p_i</math> वर्ग के साथ लेबल किए गए आइटम का अंश हो <math>i</math> सेट में।
+गिनी अशुद्धता भी एक सूचना सिद्धांत उपाय होता है और विरूपण गुणांक के साथ [[सॉलिस एंट्रॉपी]] <math>q=2</math> से मेल खाती है।, जो भौतिक विज्ञान में बाहरी संतुलन, गैर-व्यापक, विघटनकारी और क्वांटम प्रणाली में जानकारी की कमी से जुड़ा होता है। सीमा के लिए <math>q\to 1</math> एक सामान्य बोल्ट्जमैन-गिब्स या शैनन एन्ट्रापी को पुनः प्राप्त करता है। इस अर्थ में गिनी अशुद्धता और कुछ नहीं बल्कि डिसीजन ट्री के लिए सामान्य एन्ट्रापी माप की भिन्नता होती है।
+वस्तुओं के एक समुच्चय के लिए गिनी अशुद्धता की गणना करना <math>J</math> वर्ग, मान कि <math>i \in \{1, 2, ...,J\}</math>, और  <math>p_i</math> वर्ग के साथ स्तर की गयी वस्तु का अंश समुच्चय <math>i</math> हो। तब -
 :<math>\operatorname{I}_G(p) = \sum_{i=1}^J \left( p_i \sum_{k\neq i} p_k \right)
@@ Line 159: / Line 161: @@
   = \sum_{i=1}^J p_i - \sum_{i=1}^J p_i^2
   = 1 - \sum^J_{i=1} p_i^2 </math>
 ===सूचना प्राप्ति===
-{{main|Information gain in decision trees}}
+{{main|डिसीजन ट्री में सूचना लाभ}}
 ID3 एल्गोरिथम, C4.5 एल्गोरिथम | C4.5 और C5.0 ट्री-जेनरेशन एल्गोरिदम द्वारा उपयोग किया जाता है। [[सूचना लाभ]] [[सूचना एन्ट्रापी]] की अवधारणा और [[सूचना सिद्धांत]] से सूचना सामग्री पर आधारित है।
-एंट्रॉपी को नीचे परिभाषित किया गया है
+ID3, C4.5 और C5.0 ट्री-जेनरेशन एल्गोरिदम द्वारा उपयोग किया जाता है। सूचना लाभ [[सूचना सिद्धांत]] से [[सूचना लाभ]] [[सूचना एन्ट्रापी]] सामग्री की अवधारणा पर आधारित होती है।
+एंट्रॉपी को नीचे परिभाषित किया गया है।
 :<math>\Eta(T) = \operatorname{I}_{E}\left(p_1, p_2, \ldots, p_J\right)
   = - \sum^J_{i=1} p_i \log_2 p_i</math>
-कहाँ पे <math>p_1, p_2, \ldots</math> अंश हैं जो 1 तक जोड़ते हैं और बच्चे के नोड में मौजूद प्रत्येक वर्ग के प्रतिशत का प्रतिनिधित्व करते हैं जो ट्री में विभाजन के परिणामस्वरूप होता है। <रेफरी नाम = विटन 2011 102-103>{{Cite book|title=डेटा माइनिंग|url=https://archive.org/details/dataminingpracti00witt_966|url-access=limited|last1=Witten|first1=Ian|last2=Frank|first2=Eibe|last3=Hall|first3=Mark|publisher=Morgan Kaufmann|year=2011|isbn=978-0-12-374856-0|location=Burlington, MA|pages=[https://archive.org/details/dataminingpracti00witt_966/page/n136 102]–103}}</रेफरी>
+जहां पर  <math>p_1, p_2, \ldots</math> अंश हैं, जो 1 तक जोड़ते हैं और बच्चे के नोड में उपस्थित प्रत्येक वर्ग के प्रतिशत का प्रतिनिधित्व करते हैं, जो ट्री में विभाजन के परिणामस्वरूप होता है।
 :<math display="block"> \overbrace{IG(T,a)}^\text{information gain}
 = \overbrace{\Eta(T)}^\text{entropy (parent)}
 - \overbrace{\Eta(T\mid a)}^\text{sum of entropies (children)} </math><math>=-\sum_{i=1}^J p_i\log_2 p_i - \sum_{i=1}^J - \Pr(i\mid a)\log_2 \Pr(i\mid a)</math>
-के संभावित मान ों पर औसत <math>A</math>,
+<math>A</math>,के संभावित मानों का औसत निकालना,
 :<math display="block"> \overbrace{E_A(\operatorname{IG}(T,a))}^\text{expected information gain}
@@ Line 182: / Line 185: @@
 : जहां एंट्रॉपी का भारित योग दिया जाता है,
 :<math>{\Eta(T\mid A)}= \sum_a p(a)\sum_{i=1}^J-\Pr(i\mid a) \log_2 \Pr(i\mid a)</math>
-अर्थात्, अपेक्षित सूचना लाभ पारस्परिक सूचना है, जिसका अर्थ है कि औसतन T की एन्ट्रापी में कमी पारस्परिक सूचना है।
+अर्थात्, अपेक्षित सूचना लाभ पारस्परिक सूचना है, जिसका अर्थ है कि औसतन T की एन्ट्रापी में कमी पारस्परिक सूचना होती है।
-सूचना लाभ का उपयोग यह तय करने के लिए किया जाता है कि ट्री के निर्माण में प्रत्येक चरण में किस सुविधा को विभाजित किया जाए। सरलता सर्वोत्तम है, इसलिए हम अपने ट्री को छोटा रखना चाहते हैं। ऐसा करने के लिए, प्रत्येक चरण पर हमें उस विभाजन को चुनना चाहिए जिसके परिणामस्वरूप सबसे सुसंगत चाइल्ड नोड हो। स्थिरता के आमतौर पर इस्तेमाल किए जाने वाले माप को सूचना सिद्धांत कहा जाता है जिसे [[काटा]]्स में मापा जाता है। ट्री के प्रत्येक नोड के लिए, सूचना मान  सूचना की अपेक्षित मात्रा का प्रतिनिधित्व करता है जो यह निर्दिष्ट करने के लिए आवश्यक होगा कि एक नया उदाहरण हाँ या नहीं में वर्गीकृत किया जाना चाहिए, यह देखते हुए कि उदाहरण उस नोड तक पहुंच गया है।<ref name= Witten 2011 102–103 />
+सूचना लाभ का उपयोग यह तय करने के लिए किया जाता है कि ट्री के निर्माण में प्रत्येक चरण में किस सुविधा को विभाजित किया जाए। सरलता सर्वोत्तम होती है, इसलिए हम अपने ट्री को छोटा रखना चाहते हैं। ऐसा करने के लिए, प्रत्येक चरण पर हमें उस विभाजन को चुनना चाहिए, जिसके परिणामस्वरूप सबसे सुसंगत चाइल्ड नोड हो। स्थिरता मे सामान्य रूप से उपयोग किए जाने वाले माप को सूचना कहा जाता है, जिसे बिट्स में मापा जाता है। ट्री के प्रत्येक नोड के लिए सूचना मान जानकारी की अपेक्षित मात्रा का प्रतिनिधित्व करता है, जो यह निर्दिष्ट करने के लिए आवश्यक होगा कि क्या एक नया उदाहरण हाँ या नहीं में वर्गीकृत किया जाना चाहिए, यह देखते हुए कि उदाहरण उस नोड तक पहुंच गया है।
-चार विशेषताओं के साथ एक उदाहरण आँकड़ा सेट पर विचार करें: आउटलुक (धूप, घटाटोप, बरसात), तापमान (गर्म, हल्का, ठंडा), आर्द्रता (उच्च, सामान्य), और हवादार (सच, गलत), बाइनरी (हाँ या नहीं) के साथ लक्ष्य चर, खेल और 14 आँकड़ा बिंदु। इस आँकड़ा पर एक निर्णय ट्री बनाने के लिए, हमें चार ट्रीों में से प्रत्येक के सूचना लाभ की तुलना करने की आवश्यकता है, प्रत्येक चार विशेषताओं में से एक पर विभाजित होता है। उच्चतम सूचना लाभ वाले विभाजन को पहले विभाजन के रूप में लिया जाएगा और यह प्रक्रिया तब तक जारी रहेगी जब तक कि सभी चिल्ड्रन नोड्स में सुसंगत आँकड़ा न हो, या जब तक सूचना लाभ 0 न हो।
+चार विशेषताओं के साथ एक उदाहरण आँकड़ा समुच्चय पर विचार करें कि आउटलुक (धूप, घटाटोप, बरसात), तापमान (गर्म, हल्का, ठंडा), आर्द्रता (उच्च, सामान्य), और हवादार (सच, गलत), बाइनरी (हाँ या नहीं) के साथ लक्ष्य चर, खेल और 14 आँकड़ा बिंदु इस डेटा पर एक डिसीजन ट्री बनाने के लिए, हमें चार ट्री में से प्रत्येक के सूचना लाभ की तुलना करने की आवश्यकता होती है, प्रत्येक चार विशेषताओं में से एक पर विभाजित होता है। उच्चतम सूचना लाभ वाले विभाजन को पहले विभाजन के रूप में लिया जाएगा और यह प्रक्रिया तब तक जारी रहेगी जब तक कि सभी चिल्ड्रन नोड्स में सुसंगत आँकड़ा न हो, या जब तक सूचना लाभ 0 न हो।
-विंडी का उपयोग करके विभाजन की जानकारी प्राप्त करने के लिए, हमें पहले विभाजन से पहले आँकड़ा में जानकारी की गणना करनी चाहिए। मूल आँकड़ा में नौ हां और पांच ना शामिल थे।
+विंडी (वातमय) का उपयोग करके विभाजन की जानकारी प्राप्त करने के लिए, हमें पहले विभाजन से पहले डेटा में जानकारी की गणना करनी चाहिए। तथा मूल डेटा में नौ हां और पांच ना सम्मिलित थे।
 :<math> I_E([9,5]) = -\frac 9 {14}\log_2 \frac 9 {14} - \frac 5 {14}\log_2 \frac 5 {14} = 0.94 </math>
-विंडी सुविधा का उपयोग करके विभाजित करने से दो चिल्ड्रन नोड बनते हैं, एक ट्रू के विंडी मान के लिए और दूसरा फ़ॉल्स के विंडी मान के लिए। इस आँकड़ा सेट में, छह आँकड़ा बिंदु हैं, जिनमें से एक वास्तविक हवादार मान  है, जिनमें से तीन का एक प्ले है (जहां प्ले लक्ष्य चर है) हां का मान और तीन का प्ले मान नहीं है। फाल्स के हवादार मान वाले आठ शेष आँकड़ा बिंदुओं में दो नहीं और छह हाँ हैं। विंडी = ट्रू नोड की जानकारी की गणना उपरोक्त एंट्रॉपी समीकरण का उपयोग करके की जाती है। चूँकि इस नोड में हाँ और ना की संख्या समान है, हमारे पास है
+विंडी सुविधा का उपयोग करके विभाजित करने से दो चिल्ड्रन नोड बनते हैं, एक सत्य के विंडी मान के लिए और दूसरा गलत के विंडी मान के लिए। इस आँकड़ा समुच्चय में, छह आँकड़ा बिंदु होते हैं, जिनमें से एक वास्तविक विंडी मान होता है, जिनमें से तीन का एक अनुकरण(प्ले) होता है (जहां प्ले लक्ष्य चर है) हां का मान और तीन का प्ले मान नहीं होता है। गलत के विंडी मान वाले आठ शेष डेटा बिंदुओं में दो नहीं और छह हाँ हैं। विंडी = सत्य नोड की जानकारी की गणना उपरोक्त एंट्रॉपी समीकरण का उपयोग करके की जाती है। चूँकि इस नोड में हाँ और ना की संख्या समान है, हमारे पास होती है।
 :<math> I_E([3,3]) = -\frac 3 6\log_2 \frac 3 6 - \frac 3 6\log_2 \frac 3 6 = -\frac 1 2\log_2 \frac 1 2 - \frac 1 2\log_2 \frac 1 2 = 1 </math>
-उस नोड के लिए जहां वाइंडी=फाल्स आठ आँकड़ा बिंदु थे, छह हां और दो नहीं। इस प्रकार हमारे पास है
+उस नोड के लिए जहां विंडी = गलत आठ आँकड़ा बिंदु थे, छह हां और दो नहीं। इस प्रकार हमारे पास होते है।
 :<math> I_E([6,2]) = -\frac 6 8\log_2 \frac 6 8 - \frac 2 8\log_2 \frac 2 8 = -\frac 3 4\log_2 \frac 3 4 - \frac 1 4\log_2 \frac 1 4 = 0.81 </math>
-विभाजन की जानकारी प्राप्त करने के लिए, हम इन दो संख्याओं के भारित औसत को इस आधार पर लेते हैं कि कितने अवलोकन किस नोड में गिरे।
+विभाजन की जानकारी प्राप्त करने के लिए, हम इन दो संख्याओं के भारित औसत को इस आधार पर लेते हैं, कि कितने अवलोकन किस नोड में गिरे है।
 :<math> I_E([3,3],[6,2]) = I_E(\text{windy or not}) = \frac 6 {14} \cdot 1 + \frac 8 {14} \cdot 0.81 = 0.89 </math>
-अब हम विंडीविशेषता पर विभाजन द्वारा प्राप्त सूचना लाभ की गणना कर सकते हैं।
+अब हम विंडी विशेषता पर विभाजन द्वारा प्राप्त सूचना लाभ की गणना कर सकते हैं।
 :<math> \operatorname{IG}(\text{windy}) = I_E([9,5]) - I_E([3,3],[6,2]) = 0.94 - 0.89 = 0.05 </math>
-ट्री के निर्माण के लिए, प्रत्येक संभव प्रथम विभाजन के सूचना लाभ की गणना करने की आवश्यकता होगी। सबसे अच्छा पहला विभाजन वह है जो सबसे अधिक सूचना लाभ प्रदान करता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। यह उदाहरण Witten et al.<ref name= Witten 2011 102–103 /> में प्रदर्शित होने वाले उदाहरण से लिया गया है।
+ट्री के निर्माण के लिए, प्रत्येक संभव प्रथम विभाजन के सूचना लाभ की गणना करने की आवश्यकता होगी। सबसे अच्छा पहला विभाजन वह है, जो सबसे अधिक सूचना लाभ प्रदान करता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। यह उदाहरण विटन एट अल. में प्रदर्शित होने वाले उदाहरण से लिया गया है।
-सूचना लाभ को जैव विविधता अनुसंधान में Diversity_index#Shannon_index के रूप में भी जाना जाता है।
+सूचना लाभ को जैव विविधता अनुसंधान में शैनन सूची के रूप में भी जाना जाता है।
 === भिन्नता में कमी ===
-कार्ट में पेश किया गया,<ref name="bfos"/>विचरण में कमी अक्सर ऐसे मामलों में नियोजित होती है जहां लक्ष्य चर निरंतर (रिग्रेशन ट्री) होता है, जिसका अर्थ है कि कई अन्य मेट्रिक्स के उपयोग के लिए पहले लागू होने से पहले विवेक की आवश्यकता होगी। एक नोड के विचरण में कमी {{mvar|N}} लक्ष्य चर के विचरण की कुल कमी के रूप में परिभाषित किया गया है {{mvar|Y}} इस नोड पर विभाजन के कारण:
+CART में पेश किया गया<ref name="bfos"/> विचरण में कमी अधिकांश उन परिस्थितियों में नियोजित की जाती है, जहां लक्ष्य चर निरंतर (प्रतीपगमन ट्री) होता है, जिसका अर्थ है कि कई अन्य मेट्रिक्स के उपयोग को लागू करने से पहले असंततकरण की आवश्यकता होगी। नोड N की भिन्नता में कमी को इस नोड पर विभाजन के कारण लक्ष्य चर Y के भिन्नता की कुल कमी के रूप में परिभाषित किया गया है।
 :<math>
 I_V(N) = \frac{1}{|S|^2}\sum_{i\in S} \sum_{j\in S} \frac{1}{2}(y_i - y_j)^2 - \left(\frac{|S_t|^2}{|S|^2}\frac{1}{|S_t|^2}\sum_{i\in S_t} \sum_{j\in S_t} \frac{1}{2}(y_i - y_j)^2 + \frac{|S_f|^2}{|S|^2}\frac{1}{|S_f|^2}\sum_{i\in S_f} \sum_{j\in S_f} \frac{1}{2}(y_i - y_j)^2\right)
 </math>
-कहाँ पे <math>S</math>, <math>S_t</math>, तथा <math>S_f</math> प्रीस्प्लिट सैंपल इंडेक्स का सेट है, सैंपल इंडेक्स का सेट है जिसके लिए स्प्लिट टेस्ट ट्रू है, और सैंपल इंडेक्स का सेट है जिसके लिए स्प्लिट टेस्ट गलत है। उपरोक्त योगों में से प्रत्येक वास्तव में विचरण अनुमान हैं, हालांकि, सीधे अर्थ का उल्लेख किए बिना एक रूप में लिखा गया है।
+जहाँ पर <math>S</math>, <math>S_t</math>, तथा <math>S_f</math> प्रीस्प्लिट प्रतिरूप सूचकांक का समुच्चय है, तथा प्रतिरूप सूची का समुच्चय है, जिसके लिए विभाजित परीक्षण सत्य है, और प्रतिरूप सूची का समुच्चय है जिसके लिए विभाजित परीक्षण गलत है। उपरोक्त योगों में से प्रत्येक वास्तव में विचरण अनुमान होता हैं, हालांकि, सीधे अर्थ का उल्लेख किए बिना एक रूप में लिखा गया है।
 === अच्छाई का पैमाना ===
-में CART द्वारा उपयोग किया गया,<ref name="ll">{{Cite book
+में CART द्वारा उपयोग किया गया<ref name="ll">{{Cite book
 |last=Larose
 |first=Daniel T.
@@ Line 224: / Line 227: @@
 |location=Hoboken, NJ
 |isbn=9781118874059
-}}</ref> अच्छाई का माप एक ऐसा कार्य है जो समान आकार के बच्चों को बनाने की क्षमता के साथ शुद्ध बच्चों को बनाने के लिए एक उम्मीदवार विभाजन की क्षमता के संतुलन को अनुकूलित करना चाहता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। कार्यक्रम <math>\varphi(s\mid t)</math>, कहाँ पे <math>s</math> एक उम्मीदवार नोड पर विभाजित है <math>t</math>, नीचे के रूप में परिभाषित किया गया है
+}}</ref> अच्छाई का माप एक ऐसा कार्य होता है, जो समान आकार के बच्चों को बनाने की अपनी क्षमता के साथ शुद्ध बच्चों को बनाने के लिए एक उम्मीदवार विभाजन की क्षमता के संतुलन को अनुकूलित करना चाहता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। फंक्शनकार्यक्रम <math>\varphi(s\mid t)</math> जहाँ <math>s</math> नोड <math>t</math> पर प्रत्याशी विभाजन को इस तरह परिभाषित किया गया है।
 :<math>
 \varphi(s\mid t) = 2P_L P_R \sum_{j=1}^\text{class count}|P(j\mid t_L) - P(j\mid t_R)|
 </math>
-कहाँ पे <math>t_L</math> तथा <math>t_R</math> नोड के बाएँ और दाएँ बच्चे हैं <math>t</math> विभाजन का उपयोग करना <math>s</math>, क्रमश; <math>P_L</math> तथा <math>P_R</math> में रिकॉर्ड के अनुपात हैं <math>t</math> में <math>t_L</math> तथा <math>t_R</math>, क्रमश; तथा <math>P(j\mid t_L)</math> तथा <math>P(j\mid t_R)</math> वर्ग के अनुपात हैं <math>j</math> में रिकॉर्ड <math>t_L</math> तथा <math>t_R</math>, क्रमश।
+जहाँ पर <math>t_L</math> तथा <math>t_R</math> नोड के बाएँ और दाएँ बच्चे हैं <math>t</math> विभाजन का उपयोग करना <math>s</math>, क्रमश; <math>P_L</math> तथा <math>P_R</math> में रिकॉर्ड के अनुपात हैं <math>t</math> में <math>t_L</math> तथा <math>t_R</math>, क्रमश; तथा <math>P(j\mid t_L)</math> तथा <math>P(j\mid t_R)</math> वर्ग के अनुपात हैं <math>j</math> में रिकॉर्ड <math>t_L</math> तथा <math>t_R</math>, क्रमश।
-तीन विशेषताओं के साथ एक उदाहरण आँकड़ा सेट पर विचार करें: बचत (कम, मध्यम, उच्च), संपत्ति (निम्न, मध्यम, उच्च), आय (संख्यात्मक मान ), और एक बाइनरी लक्ष्य चर क्रेडिट जोखिम (अच्छा, बुरा) और 8 आँकड़ा बिंदु।<ref name="ll"/>पूरा आँकड़ा नीचे दी गई तालिका में प्रस्तुत किया गया है। डिसीजन ट्री शुरू करने के लिए, हम अधिकतम मान की गणना करेंगे <math>\varphi(s\mid t)</math> प्रत्येक सुविधा का उपयोग करके यह पता लगाने के लिए कि कौन रूट नोड को विभाजित करेगा। यह प्रक्रिया तब तक चलती रहेगी जब तक कि सभी बच्चे शुद्ध या सभी नहीं हो जाते <math>\varphi(s\mid t)</math> मान एक निर्धारित सीमा से नीचे हैं।
+तीन विशेषताओं के साथ एक उदाहरण आँकड़ा समुच्चय पर विचार करें कि बचत (कम, मध्यम, उच्च), संपत्ति (निम्न, मध्यम, उच्च), आय (संख्यात्मक मान ), और एक बाइनरी लक्ष्य चर क्रेडिट जोखिम (अच्छा, बुरा) और 8 आँकड़ा बिंदु।<ref name="ll"/>पूरा आँकड़ा नीचे दी गई तालिका में प्रस्तुत किया गया है। डिसीजन ट्री प्रारम्भ करने के लिए हम अधिकतम मान <math>\varphi(s\mid t)</math> की गणना करेंगे। तथा प्रत्येक सुविधा का उपयोग करके यह पता लगाने के लिए कि कौन रूट नोड को विभाजित करेगा। यह प्रक्रिया तब तक चलती रहेगी जब तक कि सभी बच्चे शुद्ध या सभी नहीं हो जाते <math>\varphi(s\mid t)</math> मान एक निर्धारित सीमा से नीचे होता हैं।
 {| class="wikitable"
 |-
-! Customer !! Savings !! Assets !! Income ($1000s) !! Credit risk
+!ग्राहक
+! बचत !! संपत्ति !! आय ($1000s) !!ऋण जोखिम
 |-
-| 1 || Medium || High || 75 || Good
+| 1 ||मध्यम
+|उच्च
+| 75 || अच्छा
 |-
-| 2 || Low || Low || 50 || Bad
+| 2 ||कम
+|कम
+| 50 || खराब
 |-
-| 3 || High || Medium || 25 || Bad
+| 3 ||उच्च
+|मध्यम
+| 25 || खराब
 |-
-| 4 || Medium || Medium || 50 || Good
+| 4 ||मध्यम
+|मध्यम
+| 50 ||अच्छा
 |-
-| 5 || Low || Medium || 100 || Good
+| 5 ||कम
+|मध्यम
+| 100 ||अच्छा
 |-
-| 6 || High || High || 25 || Good
+| 6 ||उच्च
+|उच्च
+| 25 ||अच्छा
 |-
-| 7 || Low || Low || 25 || Bad
+| 7 ||कम
+|कम
+| 25 ||खराब
 |-
-| 8 || Medium || Medium || 75 || Good
+| 8 ||मध्यम
+|मध्यम
+| 75 ||अच्छा
 |}
-ढूँढ़ने के लिए <math>\varphi(s\mid t)</math> सुविधा बचत के लिए, हमें प्रत्येक मान की मात्रा को नोट करना होगा। मूल आँकड़ा में तीन लो, तीन मीडियम और दो हाई शामिल थे। निम्न में से किसी का क्रेडिट जोखिम अच्छा था जबकि मध्यम और उच्च में से 4 का क्रेडिट जोखिम अच्छा था। एक उम्मीदवार विभाजन मान लें <math>s</math> जैसे कि कम बचत वाले रिकॉर्ड बाएं बच्चे में डाल दिए जाएंगे और अन्य सभी रिकॉर्ड दाएं बच्चे में डाल दिए जाएंगे।
+सुविधा बचत के <math>\varphi(s\mid t)</math> खोजने के लिए, हमें प्रत्येक मान की मात्रा नोट करनी होगी। मूल डेटा में तीन कम, तीन मध्यम और दो उच्च सम्मिलित थे। निम्न में से किसी का ऋण जोखिम अच्छा था जबकि मध्यम और उच्च में से 4 का ऋण जोखिम अच्छा था। मान लें कि एक उम्मीदवार <math>s</math> विभाजित है जैसे कि कम बचत वाले रिकॉर्ड बाएं बच्चे में रखे जाएंगे और अन्य सभी रिकॉर्ड दाएं बच्चे में डाल दिए जाएंगे।
 :<math>
 \varphi(s\mid\text{root}) = 2\cdot\frac 3 8\cdot\frac 5 8\cdot \left(\left|\left(\frac 1 3 - \frac 4 5\right)\right| + \left|\left(\frac 2 3 - \frac 1 5\right)\right|\right) = 0.44
 </math>
-ट्री बनाने के लिए, रूट नोड के लिए सभी उम्मीदवारों के विभाजन की अच्छाई की गणना करने की आवश्यकता है। अधिकतम मान  वाला उम्मीदवार रूट नोड को विभाजित करेगा, और यह प्रक्रिया प्रत्येक अशुद्ध नोड के लिए तब तक जारी रहेगी जब तक कि ट्री पूरा नहीं हो जाता।
+ट्री बनाने के लिए, रूट नोड के लिए सभी उम्मीदवारों के विभाजन की अच्छाई की गणना करने की आवश्यकता होती है। तथा अधिकतम मान वाला उम्मीदवार रूट नोड को विभाजित करेगा, और यह प्रक्रिया प्रत्येक अशुद्ध नोड के लिए तब तक जारी रहेगी जब तक कि ट्री पूरा नहीं हो जाता।
-सूचना लाभ जैसे अन्य मेट्रिक्स की तुलना में, अच्छाई का माप एक अधिक संतुलित ट्री बनाने का प्रयास करेगा, जिससे निर्णय लेने में अधिक समय लगेगा। हालांकि, यह शुद्ध बच्चों को बनाने के लिए कुछ प्राथमिकता का त्याग करता है जिससे अतिरिक्त विभाजन हो सकते हैं जो अन्य मेट्रिक्स के साथ मौजूद नहीं हैं।
+सूचना लाभ जैसे अन्य मेट्रिक्स की तुलना में अच्छाई कि माप एक अधिक संतुलित ट्री बनाने का प्रयास करेगा, जिससे निर्णय लेने में अधिक समय लगेगा। हालांकि, यह शुद्ध बच्चों को बनाने के लिए कुछ प्राथमिकता का त्याग करता है। जिससे अतिरिक्त विभाजन हो सकते हैं, जो अन्य मेट्रिक्स के साथ उपस्थित नहीं होता हैं।
-== उपयोग करता है ==
+== उपयोग ==
 === लाभ ===
-आँकड़ा माइनिंग के अन्य तरीकों में, डिसीजन ट्री के कई फायदे हैं:
+आँकड़ा खनन के अन्य तरीकों में डिसीजन ट्री के कई फायदे होते हैं।
-* समझने और व्याख्या करने में आसान। संक्षिप्त विवरण के बाद लोग निर्णय ट्री मॉडल को समझने में सक्षम होते हैं। ट्रीों को रेखांकन के रूप में भी प्रदर्शित किया जा सकता है जो गैर-विशेषज्ञों के लिए व्याख्या करना आसान है।<ref name=":0">{{Cite book|title=सांख्यिकीय सीखने का एक परिचय|url=https://archive.org/details/introductiontost00jame|url-access=limited|last1=Gareth|first1=James|last2=Witten|first2=Daniela|last3=Hastie|first3=Trevor|last4=Tibshirani|first4=Robert|publisher=Springer|year=2015|isbn=978-1-4614-7137-0|location=New York|pages=[https://archive.org/details/introductiontost00jame/page/n323 315]}}</ref>
+* समझने और व्याख्या करने में सरल संक्षिप्त विवरण के बाद लोग डिसीजन ट्री प्रारूप को समझने में सक्षम होते हैं। ट्री को रेखांकन के रूप में भी प्रदर्शित किया जा सकता है जो गैर-विशेषज्ञों के लिए व्याख्या करना सरल होता है<ref name=":0">{{Cite book|title=सांख्यिकीय सीखने का एक परिचय|url=https://archive.org/details/introductiontost00jame|url-access=limited|last1=Gareth|first1=James|last2=Witten|first2=Daniela|last3=Hastie|first3=Trevor|last4=Tibshirani|first4=Robert|publisher=Springer|year=2015|isbn=978-1-4614-7137-0|location=New York|pages=[https://archive.org/details/introductiontost00jame/page/n323 315]}}</ref>
-* संख्यात्मक और श्रेणीबद्ध चर आँकड़ा दोनों को संभालने में सक्षम।<ref name=":0" />अन्य तकनीकें आमतौर पर आँकड़ासेट का विश्लेषण करने में विशिष्ट होती हैं जिनमें केवल एक प्रकार का चर होता है। (उदाहरण के लिए, संबंध नियमों का उपयोग केवल नाममात्र चर के साथ किया जा सकता है, जबकि तंत्रिका नेटवर्क का उपयोग केवल संख्यात्मक चर या श्रेणीबद्ध के साथ 0-1 मानों में परिवर्तित किया जा सकता है।) प्रारंभिक निर्णय ट्री केवल श्रेणीबद्ध चर को संभालने में सक्षम थे, लेकिन हाल के संस्करण, जैसे C4.5 के रूप में, यह सीमा नहीं है।<ref name="tdidt" />* थोड़ा आँकड़ा तैयार करने की आवश्यकता है। अन्य तकनीकों में अक्सर आँकड़ा सामान्यीकरण की आवश्यकता होती है। चूंकि ट्री गुणात्मक भविष्यवाणियों को संभाल सकते हैं, इसलिए [[डमी चर (सांख्यिकी)]] बनाने की कोई आवश्यकता नहीं है।<ref name=":0" />* एक [[सफेद बॉक्स (सॉफ्टवेयर इंजीनियरिंग)]] या ओपन-बॉक्स का उपयोग करता है<ref name="tdidt" />नमूना। यदि किसी मॉडल में दी गई स्थिति को देखा जा सकता है तो स्थिति की व्याख्या बूलियन लॉजिक द्वारा आसानी से समझाई जा सकती है। इसके विपरीत, एक [[ब्लैक बॉक्स]] मॉडल में, परिणामों के लिए स्पष्टीकरण को समझना आम तौर पर मुश्किल होता है, उदाहरण के लिए एक [[कृत्रिम तंत्रिका नेटवर्क]] के साथ।
+*संख्यात्मक और श्रेणीबद्ध चर आँकड़ा दोनों को संभालने में सक्षम<ref name=":0" /> अन्य तकनीकें सामान्य रूप से आँकड़ा समुच्चय का विश्लेषण करने में विशिष्ट होती हैं, जिनमें केवल एक प्रकार का चर होता है। उदाहरण के लिए, संबंध नियमों का उपयोग केवल नाममात्र चर के साथ किया जा सकता है, जबकि तंत्रिका नेटवर्क का उपयोग केवल संख्यात्मक चर या श्रेणीबद्ध के साथ 0-1 मानों में परिवर्तित किया जा सकता है। प्रारंभिक डिसीजन ट्री केवल श्रेणीबद्ध चर को संभालने में सक्षम होते थे, लेकिन अधिक हाल के संस्करण, जैसे C4.5, में यह सीमा नहीं होती है।<ref name="tdidt" />
-* सांख्यिकीय परीक्षणों का उपयोग करके एक मॉडल को मान्य करना संभव है। इससे मॉडल की विश्वसनीयता का पता लगाना संभव हो जाता है।
+*अल्प आँकड़ा तैयार करने की आवश्यकता है। अन्य तकनीकों में :अधिकांश आँकड़ा सामान्यीकरण की आवश्यकता होती है। चूंकि ट्री गुणात्मक पूर्व सूचक को संभाल सकते हैं, इसलिए [[डमी चर (सांख्यिकी)]] बनाने की कोई आवश्यकता नहीं है।<ref name=":0" />
-* गैर-पैरामीट्रिक दृष्टिकोण जो प्रशिक्षण आँकड़ा या भविष्यवाणी अवशेषों की कोई धारणा नहीं बनाता है; उदाहरण के लिए, कोई वितरणात्मक, स्वतंत्रता, या निरंतर भिन्नता धारणा नहीं
+*एक [[सफेद बॉक्स (सॉफ्टवेयर इंजीनियरिंग)|सफेद वर्ग (सॉफ्टवेयर इंजीनियरिंग)]] या विवृत-वर्ग प्रतिरूप का उपयोग करता है<ref name="tdidt" /> यदि किसी प्रारूप में दी गई स्थिति को देखा जा सकता है, तो स्थिति की व्याख्या बूलियन तर्क द्वारा सरलता से समझाई जा सकती है। तथा इसके विपरीत एक [[ब्लैक बॉक्स]] प्रारूप में परिणामों के लिए स्पष्टीकरण को समझना सामान्य रूप से जटिल होता है, उदाहरण के लिए एक [[कृत्रिम तंत्रिका नेटवर्क]] के साथ।
-* बड़े आँकड़ासेट के साथ अच्छा प्रदर्शन करता है। उचित समय में मानक कंप्यूटिंग संसाधनों का उपयोग करके बड़ी मात्रा में आँकड़ा का विश्लेषण किया जा सकता है।
+* सांख्यिकीय परीक्षणों का उपयोग करके एक प्रारूप को मान्य करना संभव होता है। इससे प्रारूप की विश्वसनीयता का पता लगाना संभव हो जाता है।
-* अन्य दृष्टिकोणों की तुलना में मानव निर्णय लेने को अधिक बारीकी से प्रतिबिंबित करता है।<ref name=":0" />मानवीय निर्णयों/व्यवहार की मॉडलिंग करते समय यह उपयोगी हो सकता है।
+* गैर-पैरामीट्रिक दृष्टिकोण प्रशिक्षण आँकड़ा या पूर्व सूचक अवशेषों की कोई धारणा नहीं बनाता है। उदाहरण के लिए कोई वितरणात्मक, स्वतंत्रता, या निरंतर भिन्नता धारणा नहीं होती है
-* सह-रैखिकता के खिलाफ मजबूत, विशेष रूप से बढ़ावा देना।
+* बड़े आँकड़ा समुच्चय साथ अच्छा प्रदर्शन करता है। तथा उचित समय में मानक कंप्यूटिंग संसाधनों का उपयोग करके बड़ी मात्रा में आँकड़ा का विश्लेषण किया जा सकता है।
-* निर्मित सुविधा चयन में। अतिरिक्त अप्रासंगिक विशेषता का कम उपयोग किया जाएगा ताकि बाद के रन पर उन्हें हटाया जा सके। डिसीजन ट्री में विशेषताओं का पदानुक्रम विशेषताओं के महत्व को दर्शाता है।<ref>{{Cite book|last=Provost, Foster, 1964-|title=व्यवसाय के लिए डेटा विज्ञान: [डेटा खनन और डेटा-विश्लेषणात्मक सोच के बारे में आपको क्या जानने की आवश्यकता है]|date=2013|publisher=O'Reilly|others=Fawcett, Tom.|isbn=978-1-4493-6132-7|edition= 1st|location=Sebastopol, Calif.|oclc=844460899}}</ref> इसका मतलब है कि शीर्ष पर मौजूद सुविधाएं सबसे अधिक जानकारीपूर्ण हैं।<ref>{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=इंफ्रास्ट्रक्चर एसेट मैनेजमेंट में डेटा एनालिटिक्स की भूमिका: डेटा आकार और गुणवत्ता की समस्याओं पर काबू पाना|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175| s2cid=216485629 }}</ref>
+* अन्य दृष्टिकोणों की तुलना में मानव निर्णय लेने को अधिक कुशलता से प्रतिबिंबित करता है।<ref name=":0" /> मानवीय निर्णयों/व्यवहार की मॉडलिंग करते समय यह उपयोगी हो सकता है।
-*डिसीजन ट्री किसी भी बूलियन प्रकार्य का अनुमान लगा सकते हैं उदा. [[एकमात्र]]।<ref>{{cite journal |first1=Dinesh |last1=Mehtaa |first2=Vijay |last2=Raghavan |title=बूलियन कार्यों का निर्णय वृक्ष सन्निकटन|journal=Theoretical Computer Science |volume=270 |issue=1–2 |year=2002 |pages=609–623 |doi=10.1016/S0304-3975(01)00011-1 |doi-access=free }}</ref>
+* सह-रैखिकता के विपरीत जटिल विशेष रूप से बढ़ावा देना।
+* निर्मित सुविधा चयन में अतिरिक्त अप्रासंगिक विशेषता का कम उपयोग किया जाएगा ताकि बाद के घूमने पर उन्हें हटाया जा सके। डिसीजन ट्री में विशेषताओं का पदानुक्रम विशेषताओं के महत्व को दर्शाता है।<ref>{{Cite book|last=Provost, Foster, 1964-|title=व्यवसाय के लिए डेटा विज्ञान: [डेटा खनन और डेटा-विश्लेषणात्मक सोच के बारे में आपको क्या जानने की आवश्यकता है]|date=2013|publisher=O'Reilly|others=Fawcett, Tom.|isbn=978-1-4493-6132-7|edition= 1st|location=Sebastopol, Calif.|oclc=844460899}}</ref> इसका अर्थ है कि शीर्ष पर उपस्थित सुविधाएं सबसे अधिक जानकारी पूर्ण होती हैं।<ref>{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-06-01|title=इंफ्रास्ट्रक्चर एसेट मैनेजमेंट में डेटा एनालिटिक्स की भूमिका: डेटा आकार और गुणवत्ता की समस्याओं पर काबू पाना|journal=Journal of Transportation Engineering, Part B: Pavements|volume=146|issue=2|pages=04020022|doi=10.1061/JPEODX.0000175| s2cid=216485629 }}</ref>
+*डिसीजन ट्री किसी भी बूलियन तर्क का अनुमान लगा सकते हैं उदाहरण  [[एकमात्र|'''XOR''']]।<ref>{{cite journal |first1=Dinesh |last1=Mehtaa |first2=Vijay |last2=Raghavan |title=बूलियन कार्यों का निर्णय वृक्ष सन्निकटन|journal=Theoretical Computer Science |volume=270 |issue=1–2 |year=2002 |pages=609–623 |doi=10.1016/S0304-3975(01)00011-1 |doi-access=free }}</ref>
 === सीमाएं ===
-* ट्री बहुत गैर-मजबूत हो सकते हैं। प्रशिक्षण, परीक्षण और सत्यापन सेट में एक छोटे से बदलाव के परिणामस्वरूप ट्री में बड़ा बदलाव हो सकता है और इसके परिणामस्वरूप अंतिम भविष्यवाणियां हो सकती हैं।<ref name=":0" />* एक इष्टतम डिसीजन ट्री सीखने की समस्या को इष्टतमता के कई पहलुओं और यहां तक कि सरल अवधारणाओं के लिए भी एनपी-पूर्ण माना जाता है।<ref>{{Cite journal | doi = 10.1016/0020-0190(76)90095-8 | last1 = Hyafil | first1 = Laurent | last2 = Rivest | first2 = RL | year = 1976 | title = इष्टतम बाइनरी डिसीजन ट्री का निर्माण एनपी-पूर्ण है| journal = Information Processing Letters | volume = 5 | issue = 1| pages = 15–17 }}</ref><ref>Murthy S. (1998). [https://cs.nyu.edu/~roweis/csc2515-2006/readings/murthy_dt.pdf "Automatic construction of decision trees from data: A multidisciplinary survey"]. ''Data Mining and Knowledge Discovery''</ref> नतीजतन, व्यावहारिक निर्णय-ट्री लर्निंग एल्गोरिदम ह्यूरिस्टिक्स पर आधारित होते हैं जैसे कि लालची एल्गोरिथ्म जहां प्रत्येक नोड पर स्थानीय रूप से इष्टतम निर्णय किए जाते हैं। इस तरह के एल्गोरिदम विश्व स्तर पर इष्टतम निर्णय ट्री को वापस करने की गारंटी नहीं दे सकते। स्थानीय इष्टतमता के लालची प्रभाव को कम करने के लिए, दोहरी सूचना दूरी (DID) ट्री जैसी कुछ विधियों का प्रस्ताव किया गया था।<ref>{{cite journal|url= http://www.eng.tau.ac.il/~bengal/DID.pdf|title=दोहरी सूचना दूरी विधि द्वारा निर्णय वृक्षों का कुशल निर्माण|author= Ben-Gal I. Dana A., Shkolnik N. and Singer|journal= Quality Technology & Quantitative Management | volume= 11 | issue=1 |pages= 133–147|year=2014|doi=10.1080/16843703.2014.11673330|s2cid=7025979}}</ref>
+* ट्री बहुत गैर-जटिल हो सकते हैं। प्रशिक्षण, परीक्षण और सत्यापन समुच्चय में एक छोटे से परिवर्तन के परिणामस्वरूप ट्री में बड़ा परिवर्तन हो सकता है और इसके परिणामस्वरूप अंतिम पूर्व सूचक हो सकती हैं।<ref name=":0" />
-* निर्णय-ट्री शिक्षार्थी अति-जटिल ट्री बना सकते हैं जो प्रशिक्षण आँकड़ा से अच्छी तरह से सामान्यीकरण नहीं करते हैं। (इसे [[overfitting]] के रूप में जाना जाता है।<ref>{{Cite book | title = डाटा माइनिंग के सिद्धांत| doi = 10.1007/978-1-84628-766-4 | year = 2007 | isbn = 978-1-84628-765-7 }}</ref>) इस समस्या से बचने के लिए प्रूनिंग (डिसीजन ट्री) जैसे तंत्र आवश्यक हैं (कुछ एल्गोरिदम के अपवाद के साथ जैसे सशर्त अनुमान दृष्टिकोण, जिसमें छंटाई की आवश्यकता नहीं होती है)।<ref name="Hothorn2006" /><ref name="Strobl2009" />* वर्गीकरण तक नोड्स या परीक्षणों की संख्या द्वारा परिभाषित ट्री की औसत गहराई को विभिन्न विभाजन मानदंडों के तहत न्यूनतम या छोटा होने की गारंटी नहीं है।<ref name="Tris">{{cite web|author = Ben-Gal I. and Trister C. (2015)|title = परीक्षणों की लगातार गैर-बढ़ती अपेक्षित संख्या के साथ निर्णय वृक्षों का समानांतर निर्माण|url =  http://www.eng.tau.ac.il/~bengal/Trist.pdf|publisher = Applied Stochastic Models in Business and Industry, Vol. 31(1) 64-78}}</ref> * विभिन्न स्तरों के साथ श्रेणीबद्ध चर सहित आँकड़ा के लिए, [[निर्णय पेड़ों में सूचना लाभ|निर्णय ट्रीों में सूचना लाभ]] अधिक स्तरों के साथ विशेषताओं के पक्ष में पक्षपाती है।<ref>{{cite conference|author=Deng, H.|author2=Runger, G. |author3=Tuv, E. |title=बहु-मूल्यवान विशेषताओं और समाधानों के लिए महत्व के पूर्वाग्रह उपाय|conference=Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN)|year=2011|pages= 293–300|url=https://www.researchgate.net/publication/221079908}}</ref> इस समस्या का मुकाबला करने के लिए, उच्चतम सूचना लाभ के साथ विशेषता को चुनने के बजाय, उन विशेषताओं के बीच उच्चतम [[सूचना लाभ अनुपात]] वाली विशेषता का चयन कर सकते हैं जिनकी सूचना लाभ औसत सूचना लाभ से अधिक है। <ref>{{cite journal |doi=10.1007/BF00116251 |last=Quinlan |first=J. Ross |title=निर्णय वृक्षों का प्रेरण|journal=[[Machine Learning (journal)|Machine Learning]] |volume=1 |issue=1 |year=1986 |pages=81–106 |doi-access=free }}</ref> यह बहुत कम जानकारी प्राप्त करने वाली विशेषताओं को अनुचित लाभ न देते हुए, बड़ी संख्या में अलग-अलग मानों के साथ विशेषताओं पर विचार करने के विरुद्ध डिसीजन ट्री को पक्षपाती बनाता है। वैकल्पिक रूप से, पक्षपाती भविष्यवक्ता चयन के मुद्दे को सशर्त अनुमान दृष्टिकोण से टाला जा सकता है,<ref name="Hothorn2006" />एक दो चरणीय दृष्टिकोण,<ref>{{Cite journal|last1=Brandmaier|first1=Andreas M.|last2=Oertzen|first2=Timo von|last3=McArdle|first3=John J.|last4=Lindenberger|first4=Ulman|title=संरचनात्मक समीकरण मॉडल पेड़।|journal=Psychological Methods|language=en|volume=18|issue=1|pages=71–86|doi=10.1037/a0030001|pmid=22984789|pmc=4386908|year=2012|hdl=11858/00-001M-0000-0024-EA33-9}}</ref> या अनुकूली लीव-वन-आउट सुविधा चयन।<ref>{{cite journal|last1=Painsky|first1=Amichai|last2=Rosset|first2=Saharon|title=ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=2017|volume=39|issue=11|pages=2142–2153|pmid=28114007|doi=10.1109/TPAMI.2016.2636831|arxiv=1512.03444|s2cid=5381516}}</ref>
+*सर्वोत्तम डिसीजन ट्री लर्निंग की समस्या को सर्वोत्तमता के कई पहलुओं और यहां तक कि सरल अवधारणाओं के लिए NP-पूर्ण के रूप में जाना जाता है।<ref>{{Cite journal | doi = 10.1016/0020-0190(76)90095-8 | last1 = Hyafil | first1 = Laurent | last2 = Rivest | first2 = RL | year = 1976 | title = इष्टतम बाइनरी डिसीजन ट्री का निर्माण एनपी-पूर्ण है| journal = Information Processing Letters | volume = 5 | issue = 1| pages = 15–17 }}</ref><ref>Murthy S. (1998). [https://cs.nyu.edu/~roweis/csc2515-2006/readings/murthy_dt.pdf "Automatic construction of decision trees from data: A multidisciplinary survey"]. ''Data Mining and Knowledge Discovery''</ref> नतीजतन, व्यावहारिक डिसीजन ट्री लर्निंग कलन विधि अनुभव पर आधारित होते हैं, जैसे कि बहुभक्षक कलन विधि जहां प्रत्येक नोड पर स्थानीय रूप से सर्वोत्तम निर्णय किए जाते हैं। इस तरह के कलनविधि विश्व स्तर पर सर्वोत्तम डिसीजन ट्री को वापस करने की गारंटी नहीं दे सकते। स्थानीय इष्टतमता के लालची प्रभाव को कम करने के लिए दोहरी सूचना दूरी (डीआईडी) ट्री जैसी कुछ विधियों का प्रस्ताव किया गया था।<ref>{{cite journal|url= http://www.eng.tau.ac.il/~bengal/DID.pdf|title=दोहरी सूचना दूरी विधि द्वारा निर्णय वृक्षों का कुशल निर्माण|author= Ben-Gal I. Dana A., Shkolnik N. and Singer|journal= Quality Technology & Quantitative Management | volume= 11 | issue=1 |pages= 133–147|year=2014|doi=10.1080/16843703.2014.11673330|s2cid=7025979}}</ref>
+* डिसीजन ट्री को शिक्षार्थी अति-जटिल ट्री बना सकते हैं, जो प्रशिक्षण आँकड़ा से अच्छी तरह से सामान्यीकरण नहीं करते हैं। इसे [[overfitting|अत्युपपन्न]] के रूप में जाना जाता है।<ref>{{Cite book | title = डाटा माइनिंग के सिद्धांत| doi = 10.1007/978-1-84628-766-4 | year = 2007 | isbn = 978-1-84628-765-7 }}</ref> तथा इस समस्या से बचने के लिए प्रूनिंग (डिसीजन ट्री) जैसे तंत्र कि आवश्यक होती हैं। कुछ कलन विधि के अपवाद के साथ जैसे सशर्त अनुमान दृष्टिकोण, जिसमें छंटाई की आवश्यकता नहीं होती है)।<ref name="Hothorn2006" /><ref name="Strobl2009" />
+*वर्गीकरण तक नोड्स या परीक्षणों की संख्या द्वारा परिभाषित ट्री की औसत गहराई को विभिन्न विभाजन मानदंडों के तहत न्यूनतम या छोटा होने की गारंटी नहीं होती है।<ref name="Tris">{{cite web|author = Ben-Gal I. and Trister C. (2015)|title = परीक्षणों की लगातार गैर-बढ़ती अपेक्षित संख्या के साथ निर्णय वृक्षों का समानांतर निर्माण|url =  http://www.eng.tau.ac.il/~bengal/Trist.pdf|publisher = Applied Stochastic Models in Business and Industry, Vol. 31(1) 64-78}}</ref>
+*स्तरों की विभिन्न संख्याओं के साथ श्रेणीबद्ध चर सहित डेटा के लिए, [[निर्णय पेड़ों में सूचना लाभ|डिसीजन ट्री में सूचना लाभ]] अधिक स्तरों वाली विशेषताओं के पक्ष में पक्षपाती होता है।<ref>{{cite conference|author=Deng, H.|author2=Runger, G. |author3=Tuv, E. |title=बहु-मूल्यवान विशेषताओं और समाधानों के लिए महत्व के पूर्वाग्रह उपाय|conference=Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN)|year=2011|pages= 293–300|url=https://www.researchgate.net/publication/221079908}}</ref> इस समस्या का सामना करने के लिए उच्चतम सूचना लाभ के साथ विशेषता को चुनने के अतिरिक्त उन विशेषताओं के बीच उच्चतम सूचना लाभ अनुपात वाली विशेषता का चयन कर सकते हैं, जिनकी [[सूचना लाभ अनुपात]] सूचना लाभ से अधिक होता है।<ref>{{cite journal |doi=10.1007/BF00116251 |last=Quinlan |first=J. Ross |title=निर्णय वृक्षों का प्रेरण|journal=[[Machine Learning (journal)|Machine Learning]] |volume=1 |issue=1 |year=1986 |pages=81–106 |doi-access=free }}</ref> यह बहुत कम जानकारी प्राप्त करने वाली विशेषताओं को अनुचित लाभ न देते हुए, बड़ी संख्या में अलग-अलग मानों के साथ विशेषताओं पर विचार करने के विपरीत डिसीजन ट्री को पक्षपाती बनाता है। वैकल्पिक रूप से पक्षपाती पूर्व सूचक चयन के मुद्दे को सशर्त अनुमान दृष्टिकोण<ref name="Hothorn2006" /> दो-चरणीय दृष्टिकोण<ref>{{Cite journal|last1=Brandmaier|first1=Andreas M.|last2=Oertzen|first2=Timo von|last3=McArdle|first3=John J.|last4=Lindenberger|first4=Ulman|title=संरचनात्मक समीकरण मॉडल पेड़।|journal=Psychological Methods|language=en|volume=18|issue=1|pages=71–86|doi=10.1037/a0030001|pmid=22984789|pmc=4386908|year=2012|hdl=11858/00-001M-0000-0024-EA33-9}}</ref> या अनुकूली लीव-वन-आउट की सुविधा चयन से बचा जा सकता है।<ref>{{cite journal|last1=Painsky|first1=Amichai|last2=Rosset|first2=Saharon|title=ट्री-आधारित विधियों में क्रॉस-वैलिडेटेड वेरिएबल चयन, पूर्वानुमानित प्रदर्शन में सुधार करता है|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=2017|volume=39|issue=11|pages=2142–2153|pmid=28114007|doi=10.1109/TPAMI.2016.2636831|arxiv=1512.03444|s2cid=5381516}}</ref>
 === कार्यान्वयन ===
-कई डाटा माइनिंग सॉफ्टवेयर पैकेज एक या अधिक डिसीजन ट्री एल्गोरिदम के कार्यान्वयन प्रदान करते हैं।
+कई आँकड़ा खनन सॉफ्टवेयर पैकेज एक या अधिक डिसीजन ट्री कलनविधि के कार्यान्वयन को प्रदान करते हैं।
-उदाहरणों में शामिल
+उदाहरणों में सम्मिलित-
-* सलफोर्ड सिस्टम्स कार्ट (जिसने मूल कार्ट लेखकों के मालिकाना कोड को लाइसेंस दिया था),<ref name="bfos"/>
+* सलफोर्ड प्रणाली CART (जिसने मूल CART लेखकों के मालिकाना कोड को लाइसेंस दिया था),<ref name="bfos"/>
-* [[एसपीएसएस मॉडलर]],
+* [[एसपीएसएस मॉडलर|IBM SPSS मॉडलर]],
 * [[रैपिडमाइनर]],
 * एसएएस (सॉफ्टवेयर) # अवयव,
-* [[Matlab]],
+* [[Matlab|मैटलैब]] ,
-* R (प्रोग्रामिंग लैंग्वेज) (सांख्यिकीय कंप्यूटिंग के लिए एक ओपन-सोर्स सॉफ्टवेयर वातावरण, जिसमें कई CART कार्यान्वयन जैसे rpart, पार्टी और रैंडमफॉरेस्ट पैकेज शामिल हैं),
+* R (प्रोग्रामिंग लैंग्वेज) सांख्यिकीय कंप्यूटिंग के लिए एक ओपन-सोर्स सॉफ़्टवेयर वातावरण जिसमें कई CART कार्यान्वयन जैसे rpart, पार्टी और रैंडमफ़ॉरेस्ट पैकेज सम्मिलित होता हैं।
-* वीका (मशीन लर्निंग) (एक स्वतंत्र और ओपन-सोर्स आँकड़ा-माइनिंग सूट, जिसमें कई निर्णय ट्री एल्गोरिदम शामिल हैं),
+* वीका (मशीन लर्निंग) एक स्वतंत्र और ओपन-सोर्स आँकड़ा-खनन सूट जिसमें कई डिसीजन ट्री कलनविधि सम्मिलित होती हैं।,
 * ऑरेंज (सॉफ्टवेयर),
 * [[नीम]],
 * [[माइक्रोसॉफ्ट एसक्यूएल सर्वर]] [https://technet.microsoft.com/en-us/library/cc645868.aspx], और
-* [[scikit-सीखें]] (पाइथन (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज के लिए एक फ्री और ओपन-सोर्स मशीन लर्निंग लाइब्रेरी)।
+* [[scikit-सीखें|scikit-लर्न]] पाइथन प्रोग्रामिंग लैंग्वेज के लिए एक फ्री और ओपन-सोर्स मशीन लर्निंग लाइब्रेरी।
 == एक्सटेंशन ==
 === निर्णय रेखांकन ===
-एक डिसीजन ट्री में, रूट नोड से लीफ नोड तक के सभी रास्ते संयुग्मन या AND के माध्यम से आगे बढ़ते हैं। एक निर्णय ग्राफ में, [[न्यूनतम संदेश लंबाई]] (एमएमएल) का उपयोग करके एक साथ दो और पथों में शामिल होने के लिए संयोजन (ओआरएस) का उपयोग करना संभव है।<ref>{{cite web | url=http://citeseer.ist.psu.edu/oliver93decision.html | title=साइटसीरएक्स}}</ref> पहले से अनकही नई विशेषताओं को गतिशील रूप से सीखने और ग्राफ़ के भीतर विभिन्न स्थानों पर उपयोग करने की अनुमति देने के लिए निर्णय ग्राफ़ को और बढ़ा दिया गया है।<ref>[http://www.csse.monash.edu.au/~dld/Publications/2003/Tan+Dowe2003_MMLDecisionGraphs.pdf Tan & Dowe (2003)]</ref> अधिक सामान्य कोडिंग योजना के परिणामस्वरूप बेहतर भविष्य कहनेवाला सटीकता और लॉग-लॉस संभाव्य स्कोरिंग होती है।{{Citation needed|date=January 2012}} सामान्य तौर पर, निर्णय ग्राफ़ निर्णय ट्रीों की तुलना में कम पत्तियों वाले मॉडल का अनुमान लगाते हैं।
+एक डिसीजन ट्री में रूट नोड से लीफ नोड तक के सभी रास्ते संयुग्मन या AND के माध्यम से आगे बढ़ते हैं। एक निर्णय ग्राफ में, [[न्यूनतम संदेश लंबाई]] (MML) का उपयोग करके दो और रास्तों को एक साथ जोड़ने के लिए विच्छेदन (ORs) का उपयोग करना संभव होता है।<ref>{{cite web | url=http://citeseer.ist.psu.edu/oliver93decision.html | title=साइटसीरएक्स}}</ref> पहले से अनकही नई विशेषताओं को गतिशील रूप से सीखने और ग्राफ़ के भीतर विभिन्न स्थानों पर उपयोग करने की अनुमति देने के लिए निर्णय ग्राफ़ को और विस्तारित किया गया है।<ref>[http://www.csse.monash.edu.au/~dld/Publications/2003/Tan+Dowe2003_MMLDecisionGraphs.pdf Tan & Dowe (2003)]</ref> अधिक सामान्य विसंकेतक योजना के परिणामस्वरूप बेहतर भावी सूचक सटीकता और लॉग-लॉस प्रायिकता स्कोरिंग होती है।{{Citation needed|date=January 2012}} सामान्य रूप से निर्णय ग्राफ डिसीजन ट्री की तुलना में कम पत्तियों वाले प्रारूप का अनुमान लगाते हैं।
 === वैकल्पिक खोज विधियाँ ===
-स्थानीय इष्टतम निर्णयों से बचने के लिए विकासवादी एल्गोरिदम का उपयोग किया गया है और डिसीजन ट्री स्थान को थोड़ा प्राथमिकता पूर्वाग्रह के साथ खोजा गया है।<ref>{{cite book |last1=Papagelis |first1=A. |last2=Kalles |first2=D. |year=2001 |chapter=Breeding Decision Trees Using Evolutionary Techniques |title=मशीन लर्निंग पर अठारहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही, 28 जून-जुलाई 1, 2001|pages=393–400 |chapter-url=http://www.gatree.com/wordpress/wp-content/uploads/2010/04/BreedinDecisioTreeUsinEvo.pdf }}</ref><ref>{{cite journal |last1=Barros |first1=Rodrigo C. |last2=Basgalupp |first2=M. P. |last3=Carvalho |first3=A. C. P. L. F. |last4=Freitas |first4=Alex A. |year=2012 |doi=10.1109/TSMCC.2011.2157494 |title=निर्णय-वृक्ष प्रेरण के लिए विकासवादी एल्गोरिदम का सर्वेक्षण|journal=IEEE Transactions on Systems, Man and Cybernetics |series=Part C: Applications and Reviews |volume=42 |issue=3 |pages=291–312 |citeseerx=10.1.1.308.9068 |s2cid=365692 }}</ref>
+स्थानीय सर्वोत्तम निर्णयों से बचने के लिए विकासवादी कलनविधि का उपयोग किया गया है और डिसीजन ट्री स्थान को थोड़ा प्राथमिकता पूर्वाग्रह के साथ खोजा गया है।<ref>{{cite book |last1=Papagelis |first1=A. |last2=Kalles |first2=D. |year=2001 |chapter=Breeding Decision Trees Using Evolutionary Techniques |title=मशीन लर्निंग पर अठारहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही, 28 जून-जुलाई 1, 2001|pages=393–400 |chapter-url=http://www.gatree.com/wordpress/wp-content/uploads/2010/04/BreedinDecisioTreeUsinEvo.pdf }}</ref><ref>{{cite journal |last1=Barros |first1=Rodrigo C. |last2=Basgalupp |first2=M. P. |last3=Carvalho |first3=A. C. P. L. F. |last4=Freitas |first4=Alex A. |year=2012 |doi=10.1109/TSMCC.2011.2157494 |title=निर्णय-वृक्ष प्रेरण के लिए विकासवादी एल्गोरिदम का सर्वेक्षण|journal=IEEE Transactions on Systems, Man and Cybernetics |series=Part C: Applications and Reviews |volume=42 |issue=3 |pages=291–312 |citeseerx=10.1.1.308.9068 |s2cid=365692 }}</ref>
-[[मार्कोव चेन मोंटे कार्लो]] का उपयोग करके एक ट्री का नमूना लेना भी संभव है।<ref>{{cite journal |last1=Chipman |first1=Hugh A. |first2=Edward I. |last2=George |first3=Robert E. |last3=McCulloch |title=बायेसियन कार्ट मॉडल खोज|journal=Journal of the American Statistical Association |volume=93 |issue=443 |year=1998 |pages=935–948 |doi=10.1080/01621459.1998.10473750 |citeseerx=10.1.1.211.5573 }}</ref>
-ट्री को बॉटम-अप फैशन में खोजा जा सकता है।<ref>{{cite book |last1=Barros |first1=R. C. |last2=Cerri |first2=R. |last3=Jaskowiak |first3=P. A. |last4=Carvalho |first4=A. C. P. L. F. |doi=10.1109/ISDA.2011.6121697 |chapter=A bottom-up oblique decision tree induction algorithm |title=इंटेलिजेंट सिस्टम डिजाइन और एप्लीकेशन पर 11वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही (आईएसडीए 2011)|pages=450–456 |year=2011 |isbn=978-1-4577-1676-8 |s2cid=15574923 }}</ref> या वर्गीकरण तक परीक्षणों की अपेक्षित संख्या को कम करने के लिए समानांतर में कई ट्रीों का निर्माण किया जा सकता है।<ref name="Tris"></ref>
+[[मार्कोव चेन मोंटे कार्लो]] का उपयोग करके एक ट्री का प्रतिरूप लेना भी संभव होता है।<ref>{{cite journal |last1=Chipman |first1=Hugh A. |first2=Edward I. |last2=George |first3=Robert E. |last3=McCulloch |title=बायेसियन कार्ट मॉडल खोज|journal=Journal of the American Statistical Association |volume=93 |issue=443 |year=1998 |pages=935–948 |doi=10.1080/01621459.1998.10473750 |citeseerx=10.1.1.211.5573 }}</ref>
+ट्री को नीचे के निर्माण में खोजा जा सकता है।<ref>{{cite book |last1=Barros |first1=R. C. |last2=Cerri |first2=R. |last3=Jaskowiak |first3=P. A. |last4=Carvalho |first4=A. C. P. L. F. |doi=10.1109/ISDA.2011.6121697 |chapter=A bottom-up oblique decision tree induction algorithm |title=इंटेलिजेंट सिस्टम डिजाइन और एप्लीकेशन पर 11वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही (आईएसडीए 2011)|pages=450–456 |year=2011 |isbn=978-1-4577-1676-8 |s2cid=15574923 }}</ref> या वर्गीकरण तक परीक्षणों की अपेक्षित संख्या को कम करने के लिए समानांतर में कई ट्री का निर्माण किया जा सकता है।<ref name="Tris"></ref>
 == यह भी देखें ==
 {{Div col|colwidth=20em}}
-*[[निर्णय-वृक्ष छंटाई]]
+*[[डिसीजन ट्री छंटाई]]
 * बाइनरी निर्णय आरेख
 * [[छेद]]
-* भविष्य कहनेवाला विश्लेषण # वर्गीकरण और प्रतिगमन पेड़ .28CART.29
+* भावी सूचक विश्लेषण # वर्गीकरण और प्रतिगमन ट्री .28CART.29
-* ID3 एल्गोरिथम
+* ID3 कलनविधि
-* C4.5 एल्गोरिथम
+* C4.5 कलनविधि
 * [[निर्णय स्टंप]], उदाहरण के लिए उपयोग किया जाता है। ऐडाबूस्टिंग
 * निर्णय सूची
-* [[वृद्धिशील निर्णय वृक्ष]]
+* [[वृद्धिशील डिसीजन ट्री]]
-* [[वैकल्पिक निर्णय वृक्ष]]
+* [[वैकल्पिक डिसीजन ट्री]]
-* [[संरचित डेटा विश्लेषण (सांख्यिकी)]]
+* [[संरचित आँकड़ा विश्लेषण (सांख्यिकी)]]
-* [[लॉजिस्टिक मॉडल ट्री]]
+* [[ तार्किक मॉडल ट्री]]
-* [[पदानुक्रमित क्लस्टरिंग]]{{Div col end}}
+* [[पदानुक्रमित  गुच्छन]]{{Div col end}}
 ==संदर्भ==
 {{Reflist}}
@@ Line 333: / Line 354: @@
-==इस पेज में लापता आंतरिक लिंक की सूची==
-*आंकड़े
-*भविष्य कहनेवाला मॉडल
-*निर्णय लेना
-*प्रत्यावर्तन
-*लालची एल्गोरिदम
-*वर्गीकरण ट्री
-*व्यापक शब्द
-*बहुभिन्नरूपी अनुकूली रिग्रेशन स्प्लाइन
-*असमंजस का जाल
-*जानकारी सामग्री
-*आपसी जानकारी
-*झगड़ा
-*श्रेणीगत चर
-*फीचर चयन
-*बूलियन समारोह
-*एन पी-सम्पूर्ण
-*छंटाई (निर्णय ट्री)
-*पायथन (प्रोग्रामिंग भाषा)
-*वेका (मशीन लर्निंग)
-*नारंगी (सॉफ्टवेयर)
-*आर (प्रोग्रामिंग भाषा)
-*द्विआधारी निर्णय आरेख
 ==बाहरी संबंध==
 *[https://www.cs.kent.ac.uk/people/staff/mg483/code/evoldectrees/ Evolutionary Learning of Decision Trees in C++]
 *[http://christianherta.de/lehre/dataScience/machineLearning/decision-trees.html A very detailed explanation of information gain as splitting criterion]
-[[Category:निर्णय वृक्ष]]
-[[Category: वर्गीकरण एल्गोरिदम]]
-[[Category: Machine Translated Page]]
+[[Category:All articles with unsourced statements]]
-[[Category:Created On 05/12/2022]]
+[[Category:Articles with hatnote templates targeting a nonexistent page]]
+[[Category:Articles with invalid date parameter in template]]
+[[Category:Articles with short description]]
+[[Category:Articles with unsourced statements from August 2014]]
+[[Category:Articles with unsourced statements from December 2019]]
+[[Category:Articles with unsourced statements from December 2021]]
+[[Category:Articles with unsourced statements from January 2012]]
+[[Category:CS1 English-language sources (en)]]
+[[Category:CS1 français-language sources (fr)]]
+[[Category:CS1 maint]]
+[[Category:CS1 Ελληνικά-language sources (el)]]
+[[Category:Citation Style 1 templates|W]]
+[[Category:Collapse templates]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Multi-column templates]]
+[[Category:Navigational boxes| ]]
+[[Category:Navigational boxes without horizontal lists]]
+[[Category:Pages using div col with small parameter]]
+[[Category:Pages with script errors]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Sidebars with styles needing conversion]]
+[[Category:Template documentation pages|Documentation/doc]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates based on the Citation/CS1 Lua module]]
+[[Category:Templates generating COinS|Cite web]]
+[[Category:Templates generating microformats]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that are not mobile friendly]]
+[[Category:Templates used by AutoWikiBrowser|Cite web]]
+[[Category:Templates using TemplateData]]
+[[Category:Templates using under-protected Lua modules]]
+[[Category:Webarchive template wayback links]]
+[[Category:Wikipedia fully protected templates|Div col]]
+[[Category:Wikipedia metatemplates]]

Anonymous

Search

डिसिशन ट्री लर्निंग: Difference between revisions

Latest revision as of 09:54, 14 December 2022

सामान्य

डिसीजन ट्री के प्रकार

मेट्रिक्स

घनात्मक शुद्धता का अनुमान

गिनी अशुद्धता

सूचना प्राप्ति

भिन्नता में कमी

अच्छाई का पैमाना

उपयोग

लाभ

सीमाएं

कार्यान्वयन

एक्सटेंशन

निर्णय रेखांकन

वैकल्पिक खोज विधियाँ

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Hidden categories