डिसिशन ट्री लर्निंग

डिसीजन ट्री लर्निंग एक पर्यवेक्षित शिक्षण दृष्टिकोण है, जिसका उपयोग सांख्यिकी, आँकड़ा खनन और मशीन लर्निंग में किया जाता है। इस औपचारिकता में एक वर्गीकरण या प्रतिगमन डिसीजन ट्री का उपयोग प्रेक्षणों के एक समुच्चय के बारे में निष्कर्ष निकालने के लिए एक पूर्वकथानात्मक सूचक प्रारूप के रूप में किया जाता है।

ट्री प्रारूप जहां लक्ष्य चर मानों का असतत समुच्चय को ले सकता है, उसे वर्गीकरण ट्री कहा जाता है। तथा ये ट्री संरचनाओं में, पर्ण्सन्धि वर्ग स्तर का प्रतिनिधित्व करते हैं और शाखाएं उन विशेषताओं के तार्किक संयोजन का प्रतिनिधित्व करती हैं, जो उन वर्ग स्तरों की ओर ले जाती हैं। तथा डिसीजन ट्री जहां लक्ष्य चर निरंतर मान ले सकता है सामान्य रूप से वास्तविक संख्या को प्रतिगमन विश्लेषण कहा जाता है।

डिसीजन ट्री सबसे लोकप्रिय मशीन लर्निंग कलन विधि में से एक हैं, जो उनकी समझदारी और सरलता को देखते हैं।

निर्णय विश्लेषण में एक डिसीजन ट्री का उपयोग नेत्रहीन और स्पष्ट रूप से निर्णय लेने और निर्णय लेने का प्रतिनिधित्व करने के लिए किया जा सकता है। आँकड़ा खनन में एक डिसीजन ट्री आँकड़ा का वर्णन करता है लेकिन परिणामी वर्गीकरण ट्री निर्णय लेने के लिए एक इनपुट हो सकता है।

सामान्य
डिसीजन ट्री लर्निंग आँकड़ा खनन में सामान्य रूप से उपयोग की जाने वाली एक विधि है। जिसका लक्ष्य एक प्रारूप को बनाना होता है, जो कई इनपुट चर के आधार पर लक्ष्य चर के मान का पूर्वानुमान करता है।

एक डिसीजन ट्री उदाहरणों को वर्गीकृत करने के लिए एक सरल प्रतिनिधित्व होता है। इस खंड के लिए मान लें कि सभी इनपुट सुविधाओं में परिमित असतत कार्यक्षेत्र होता हैं, जो वर्गीकरण नामक एक एकल लक्ष्य विशेषता होती है। जिसे वर्गीकरण के कार्यक्षेत्र के प्रत्येक तत्व को एक वर्ग कहा जाता है। एक डिसीजन ट्री या एक वर्गीकरण ट्री एक ऐसा ट्री होता है, जिसमें प्रत्येक आंतरिक नोड को एक इनपुट सुविधा के साथ स्तर मे किया जाता है। एक इनपुट विशेषता के साथ लेबल किए गए नोड से आने वाले आर्क्स को टारगेट विशेषता के प्रत्येक संभावित मान के साथ लेबल किया जाता है या आर्क एक अलग इनपुट विशेषता पर एक अधीनस्थ निर्णय नोड की ओर जाता है। ट्री के प्रत्येक पत्ते को एक वर्ग या वर्गों पर संभाव्यता वितरण के साथ लेबल किया जाता है, यह दर्शाता है कि आँकड़ा समुच्चय को ट्री द्वारा या तो एक विशिष्ट वर्ग में वर्गीकृत किया गया है, या एक विशेष संभाव्यता वितरण में (यदि डिसीजन ट्री अच्छी तरह से है।) -निर्मित वर्गों के कुछ उपसमूहों की ओर तिरछा होता है।

स्रोत समुच्चय को विभाजित करके एक ट्री बनाया जाता है, जो ट्री के रूट नोड को उपसमुच्चय में बनाता है। तथा उत्तराधिकारी बच्चों का गठन करता है। विभाजन वर्गीकरण सुविधाओं के आधार पर विभाजन नियमों के एक समुच्चय पर आधारित होता है। यह प्रक्रिया प्रत्येक व्युत्पन्न उपसमुच्चय पर एक पुनरावर्ती तरीके से दोहराई जाती है, जिसे पुनरावर्ती विभाजन भी कहा जाता है। पुनरावर्तन पूरा हो जाता है जब एक नोड पर उपसमुच्चय में लक्ष्य चर के सभी समान मान होते हैं, या जब विभाजन पूर्वानुमानों के लिए मान को नहीं जोड़ता है। डिसीजन ट्री (TDIDT) के टॉप-डाउन प्रवर्तन की यह प्रक्रिया एक बहुभक्षक कलन विधि का एक उदाहरण है, और यह आँकड़ा से डिसीजन ट्री सीखने के लिए अब तक की सबसे साधारण योजना होती है।

आँकड़ा खनन में डिसीजन ट्री को आँकड़ा के दिए गए समुच्चय के विवरण, वर्गीकरण और सामान्यीकरण में सहायता के लिए गणितीय और कम्प्यूटेशनल तकनीकों के संयोजन के रूप में भी वर्णित किया जा सकता है।

आँकड़ा फॉर्म के रिकॉर्ड में आता है-


 * $$(\textbf{x},Y) = (x_1, x_2, x_3, ..., x_k, Y)$$

आश्रित चर $$Y$$, वह लक्ष्य चर होता है, जिसे हम समझने, वर्गीकृत करने या सामान्य बनाने का प्रयास कर रहे हैं। सदिश $$\textbf{x}$$ सुविधाओं से बना होता है, $$x_1, x_2, x_3$$ आदि जो उस कार्य में प्रयुक्त होते हैं।

Cart tree kyphosis.png की संभावना और पत्ती में रोगियों के प्रतिशत को दर्शाती हैं। मध्य पेड़ एक परिप्रेक्ष्य साजिश के रूप में। मध्य भूखंड का दाहिना हवाई दृश्य। सर्जरी के बाद अंधेरे क्षेत्रों में किफोसिस की संभावना अधिक होती है। (नोट: काइफोसिस का उपचार काफी उन्नत हो गया है क्योंकि आँकड़ा का यह छोटा समुच्चय एकत्र किया गया था।

]]

डिसीजन ट्री के प्रकार
आँकड़ा खनन में उपयोग किए जाने वाले डिसीजन ट्री मुख्य दो प्रकार के होते हैं।


 * वर्गीकरण ट्री विश्लेषण तब होता है, जब अनुमानित परिणाम वह वर्ग असतत होता है तथा जिससे विभिन्न आँकड़ा संबंधित होता है
 * प्रतिगमन ट्री विश्लेषण तब होता है, जब अनुमानित परिणाम को एक वास्तविक संख्या माना जा सकता है। उदाहरण के लिए घर की कीमत, या अस्पताल में रोगी की रहने की अवधि होती है।

शब्द वर्गीकरण और प्रतिगमन ट्री (CART) विश्लेषण एक छत्र शब्द होते है, जिसका उपयोग उपरोक्त प्रक्रियाओं में से किसी एक को संदर्भित करने के लिए किया जाता है, जिसे पहले ब्रिमन एट अल द्वारा 1984 में प्रस्तुत किया गया था। प्रतिगमन के लिए उपयोग किए जाने वाले ट्री और वर्गीकरण के लिए उपयोग किए जाने वाले ट्री में कुछ समानताएँ होती हैं, लेकिन कुछ अंतर भी होते हैं, जैसे कि यह निर्धारित करने के लिए उपयोग की जाने वाली प्रक्रिया कि कहाँ विभाजन करना है।

कुछ तकनीकें, जिन्हें अधिकांश समेकन विधि भी कहा जाता है, जो एक से अधिक डिसीजन ट्री का निर्माण करती हैं।

डिसीजन ट्री की एक विशेष स्थिति एक निर्णय सूची होती है, जो एक तरफा डिसीजन ट्री की तरह होती है, ताकि प्रत्येक आंतरिक नोड में ठीक 1 पत्ती का नोड और एक बच्चे के रूप में ठीक 1 आंतरिक नोड हो तथा सबसे निचले नोड को छोड़कर, जिसका केवल बच्चा एक पत्ती का नोड होता है। जबकि कम अभिव्यंजक, निर्णय सूचियाँ सामान्य निर्णय ट्री की तुलना में उनकी अतिरिक्त विरलता गैर- बहुभक्षक सीखने के तरीकों की अनुमति और मोनोटोनिक बाधाओं को लागू करने के लिए यकीनन सरल होता हैं।
 * 'ग्रेडिएंट बूस्टेड ट्री' पूर्व से गलत तरीके से तैयार किए गए प्रशिक्षण उदाहरणों पर महत्व देने के लिए प्रत्येक नए उदाहरण को प्रशिक्षित करके एक समेकन का निर्माण करना। एक विशिष्ट उदाहरण ऐडाबूस्ट होता है। इनका उपयोग प्रतिगमन और वर्गीकरण के प्रकार की विभिन्न समस्याओं के लिए किया जा सकता है
 * बूटस्ट्रैप एकत्रीकरण (या बैग्ड) डिसीजन ट्री एक प्रारंभिक समेकन विधि प्रतिस्थापन के साथ प्रशिक्षण आँकड़ा को बार-बार पुन: बूटस्ट्रैपिंग (सांख्यिकी) द्वारा और सामान्य सहमति के पूर्वकथन के लिए ट्री को वोट देकर कई डिसीजन ट्री बनाता है।
 * एक यादृच्छिक वन वर्गीकारक एक विशिष्ट प्रकार का बूटस्ट्रैप एकत्रीकरण होता है।
 * परिभ्रमण वन - जिसमें प्रत्येक डिसीजन ट्री को पहले इनपुट सुविधाओं के एक यादृच्छिक उपसमुच्चय पर प्रमुख घटक विश्लेषण (PCA) लागू करके प्रशिक्षित किया जाता है।

उल्लेखनीय डिसीजन ट्री कलन विधि में सम्मिलित होते हैं।

ID3 और CART को लगभग एक ही समय (1970 और 1980 के बीच) स्वतंत्र रूप से आविष्कार किया गया था फिर भी प्रशिक्षण टुपल्स से एक डिसीजन ट्री सीखने के लिए एक समान दृष्टिकोण का पालन करें।
 * आईडी3 कलनविधि (पुनरावृत्ति डाइकोटोमाइज़र 3)
 * C4.5 (ID3 के उत्तराधिकारी)
 * CART (वर्गीकरण और प्रतिगमन ट्री)
 * ची-वर्ग स्वचालित इंटरैक्शन डिटेक्शन (CHAID)। वर्गीकरण ट्री की गणना करते समय बहु-स्तरीय विभाजन करता है।
 * आण्विक अधिशोषक पुनरावर्तन प्रणाली: संख्यात्मक आँकड़ा को बेहतर ढंग से संभालने के लिए डिसीजन ट्री का विस्तार करता है।
 * सशर्त निष्कर्ष ट्री सांख्यिकी-आधारित दृष्टिकोण जो गैर-पैरामीट्रिक परीक्षणों को विभाजन मानदंड के रूप में उपयोग करता है, अत्युपपन्न से बचने के लिए कई परीक्षणों के लिए सही किया जाता है। इस दृष्टिकोण के परिणामस्वरूप निष्पक्ष पूर्व सूचक का चयन होता है और इसमें छंटाई की आवश्यकता नहीं होती है।

डिसीजन ट्री के एक विशेष संस्करण की परिभाषा के लिए फ़ज़ी समुच्चय सिद्धांत की अवधारणाओं का लाभ उठाने का भी प्रस्ताव किया गया है, जिसे फ़ज़ी डिसीज़न ट्री (FDT) के रूप में जाना जाता है। इस प्रकार के फ़ज़ी वर्गीकरण में सामान्य रूप से एक इनपुट सदिश $$\textbf{x}$$ कई वर्गों से जुड़ा होता है, प्रत्येक एक अलग विश्वास्यता मान के साथ होता है। एफडीटी के बूस्टेड समुच्चय की हाल ही में जांच की गई है, और उन्होंने अन्य बहुत ही कुशल फ़ज़ी वर्गीकारक की तुलना में प्रदर्शन दिखाया है।

मेट्रिक्स
डिसीजन ट्री के निर्माण के लिए कलनविधि सामान्य रूप से प्रत्येक चरण पर एक चर चुनकर ऊपर से नीचे काम करते हैं, जो वस्तुओं के समुच्चय को सबसे अच्छी तरह से विभाजित करता है। अलग-अलग कलनविधि सर्वश्रेष्ठ को मापने के लिए अलग-अलग मेट्रिक्स का उपयोग करते हैं। ये सामान्य रूप से उपसमुच्चय के भीतर लक्ष्य चर की एकरूपता को मापते हैं। नीचे कुछ उदाहरण दिए गए हैं। ये मेट्रिक्स प्रत्येक उम्मीदवार उपसमुच्चय पर लागू होते हैं, और परिणामी मान संयुक्त होते हैं। उदाहरण के लिए, औसत विभाजन की गुणवत्ता का एक माप प्रदान करने के लिए अंतर्निहित मीट्रिक के आधार पर डिसीजन ट्री लर्निंग के लिए विभिन्न स्वानुभविक कलनविधि का प्रदर्शन महत्वपूर्ण रूप से भिन्न हो सकता है।

घनात्मक शुद्धता का अनुमान
एक सरल और प्रभावी मीट्रिक का उपयोग उस डिग्री की पहचान करने के लिए किया जा सकता है, जिस पर सत्य धनात्मकता वास्तविक ऋणात्मकता से अधिक होती है (असमंजस मैट्रिक्स देखें)। यह मीट्रिक, धनात्मक शुद्धता का अनुमान नीचे परिभाषित किया गया है।

$$   E_P = TP - FP $$

इस समीकरण में, कुल असत्य धनात्मक (FP) को कुल सत्य धनात्मक (TP) से घटाया जाता है। परिणामी संख्या इस बात का अनुमान लगाती है, कि सुविधा कितने धनात्मक उदाहरणों को आँकड़ा के भीतर सही ढंग से पहचान सकती है, उच्च संख्या के साथ जिसका अर्थ है कि सुविधा अधिक धनात्मक प्रतिरूपों को सही ढंग से वर्गीकृत कर सकती है। नीचे एक उदाहरण दिया गया है कि किसी विशेष सुविधा का पूरा असमंजस मैट्रिक्स दिए जाने पर मीट्रिक का उपयोग कैसे किया जाता है।

विशेषता ए असमंजस मैट्रिक्स यहाँ हम देख सकते हैं, कि TP मान 8 होगा और FP मान 2 होगा (तालिका में रेखांकित संख्याएँ)। जब हम इन संख्याओं को समीकरण में भरते हैं, तो हम अनुमान की गणना करने में सक्षम होते हैं। $$E_p = TP - FP = 8 - 2 = 6$$. इसका अर्थ है, कि इस सुविधा पर अनुमान का उपयोग करने पर इसे 6 का स्कोर प्राप्त होगा।

हालांकि, यह ध्यान देने योग्य है कि यह संख्या केवल एक अनुमान होता है। उदाहरण के लिए यदि दो विशेषताओं में दोनों का FP मान 2 था, जबकि एक विशेषता का उच्च TP मान था, तो उस विशेषता को दूसरे की तुलना में उच्च स्थान दिया जाएगा, क्योंकि समीकरण का उपयोग करते समय परिणामी अनुमान अधिक मान देगा। यदि कुछ विशेषताओं में अन्य की तुलना में अधिक धनात्मक प्रतिरूप होते हैं, तो इससे मीट्रिक का उपयोग करते समय कुछ अशुद्धियाँ हो सकती हैं। इसका सामना करने के लिए, संवेदनशीलता और विशिष्टता के रूप में ज्ञात एक अधिक प्रभावशाली मीट्रिक का उपयोग किया जा सकता है, जो वास्तविक सकारात्मक दर (TRP) देने के लिए भ्रम मैट्रिक्स से मानों के अनुपात को ध्यान में रखता है।तथा इन मीट्रिक के बीच का अंतर नीचे दिए गए उदाहरण में दिखाया गया है। इस उदाहरण में, विशेषता ए का अनुमान 6 और TRP लगभग 0.73 था। जबकि विशेषता बी का अनुमान 4 और TRP 0.75 था। इससे यह पता चलता है, कि हालांकि कुछ विशेषता के लिए धनात्मक अनुमान अधिक हो सकता है, लेकिन उस विशेषता के लिए अधिक सटीक TRP मान कम धनात्मक अनुमान वाली अन्य सुविधाओं की तुलना में कम हो सकता है। आँकड़ा और डिसीजन ट्री की स्थिति और ज्ञान के आधार पर, कोई अपनी समस्या के त्वरित और आसान समाधान के लिए धनात्मक अनुमान का उपयोग करने का विकल्प चुन सकता है। दूसरी ओर एक अधिक अनुभवी उपयोगकर्ता सुविधाओं को रैंक करने के लिए TPR मान का उपयोग करना पसंद करेगा क्योंकि यह आँकड़ा के अनुपात और उन सभी नमूनों को ध्यान में रखता है जिन्हें धनात्मक के रूप में वर्गीकृत किया जाना चाहिए था।

गिनी अशुद्धता
गिनी अशुद्धता, गिनी का विविधता सूचकांक या जैव विविधता अनुसंधान में गिनी सिम्पसन सूची वर्गीकरण ट्री के लिए CART (वर्गीकरण और प्रतिगमन ट्री) कलन विधि द्वारा उपयोग किया जाता है, गिनी अशुद्धता (इतालवी गणितज्ञ कोराडो गिनी के नाम पर) एक उपाय होता है कि कैसे अधिकांश समुच्चय से यादृच्छिक रूप से चुने गए तत्व को गलत तरीके से लेबल किया जाएगा यदि इसे उपसमुच्चय में स्तर के वितरण के अनुसार यादृच्छिक रूप से स्तर किया गया हो।

गिनी अशुद्धता की गणना संभाव्यता $$p_i$$ को जोड़कर की जा सकती है तथा स्तर वाले किसी वस्तु की $$i$$ संभाव्यता से गुणा चुना जा रहा है $$\sum_{k \ne i} p_k = 1-p_i$$ उस वस्तु को वर्गीकृत करने में गलती के कारण। यह अपने न्यूनतम (शून्य) तक पहुँच जाता है, जब नोड के सभी स्थिति एक लक्ष्य श्रेणी में आते हैं।

गिनी अशुद्धता भी एक सूचना सिद्धांत उपाय होता है और विरूपण गुणांक के साथ सॉलिस एंट्रॉपी $$q=2$$ से मेल खाती है।, जो भौतिक विज्ञान में बाहरी संतुलन, गैर-व्यापक, विघटनकारी और क्वांटम प्रणाली में जानकारी की कमी से जुड़ा होता है। सीमा के लिए $$q\to 1$$ एक सामान्य बोल्ट्जमैन-गिब्स या शैनन एन्ट्रापी को पुनः प्राप्त करता है। इस अर्थ में गिनी अशुद्धता और कुछ नहीं बल्कि डिसीजन ट्री के लिए सामान्य एन्ट्रापी माप की भिन्नता होती है।

वस्तुओं के एक समुच्चय के लिए गिनी अशुद्धता की गणना करना $$J$$ वर्ग, मान कि $$i \in \{1, 2, ...,J\}$$, और $$p_i$$ वर्ग के साथ स्तर की गयी वस्तु का अंश समुच्चय $$i$$ हो। तब -


 * $$\operatorname{I}_G(p) = \sum_{i=1}^J \left( p_i \sum_{k\neq i} p_k \right)

= \sum_{i=1}^J p_i (1-p_i) = \sum_{i=1}^J (p_i - p_i^2) = \sum_{i=1}^J p_i - \sum_{i=1}^J p_i^2 = 1 - \sum^J_{i=1} p_i^2 $$

सूचना प्राप्ति
ID3 एल्गोरिथम, C4.5 एल्गोरिथम | C4.5 और C5.0 ट्री-जेनरेशन एल्गोरिदम द्वारा उपयोग किया जाता है। सूचना लाभ सूचना एन्ट्रापी की अवधारणा और सूचना सिद्धांत से सूचना सामग्री पर आधारित है।

ID3, C4.5 और C5.0 ट्री-जेनरेशन एल्गोरिदम द्वारा उपयोग किया जाता है। सूचना लाभ सूचना सिद्धांत से सूचना लाभ सूचना एन्ट्रापी सामग्री की अवधारणा पर आधारित होती है।

एंट्रॉपी को नीचे परिभाषित किया गया है।


 * $$\Eta(T) = \operatorname{I}_{E}\left(p_1, p_2, \ldots, p_J\right)

= - \sum^J_{i=1} p_i \log_2 p_i$$ जहां पर $$p_1, p_2, \ldots$$ अंश हैं, जो 1 तक जोड़ते हैं और बच्चे के नोड में उपस्थित प्रत्येक वर्ग के प्रतिशत का प्रतिनिधित्व करते हैं, जो ट्री में विभाजन के परिणामस्वरूप होता है। 


 * $$ \overbrace{IG(T,a)}^\text{information gain}

= \overbrace{\Eta(T)}^\text{entropy (parent)} - \overbrace{\Eta(T\mid a)}^\text{sum of entropies (children)} $$$$=-\sum_{i=1}^J p_i\log_2 p_i - \sum_{i=1}^J - \Pr(i\mid a)\log_2 \Pr(i\mid a)$$ $$A$$,के संभावित मानों का औसत निकालना,


 * $$ \overbrace{E_A(\operatorname{IG}(T,a))}^\text{expected information gain}

= \overbrace{I(T; A)}^{\text{mutual information between } T \text{ and } A} = \overbrace{\Eta(T)}^\text{entropy (parent)} - \overbrace{\Eta(T\mid A)}^\text{weighted sum of entropies (children)} $$$$=-\sum_{i=1}^J p_i\log_2 p_i - \sum_a p(a)\sum_{i=1}^J-\Pr(i\mid a) \log_2 \Pr(i\mid a) $$
 * जहां एंट्रॉपी का भारित योग दिया जाता है,
 * $${\Eta(T\mid A)}= \sum_a p(a)\sum_{i=1}^J-\Pr(i\mid a) \log_2 \Pr(i\mid a)$$

अर्थात्, अपेक्षित सूचना लाभ पारस्परिक सूचना है, जिसका अर्थ है कि औसतन T की एन्ट्रापी में कमी पारस्परिक सूचना होती है।

सूचना लाभ का उपयोग यह तय करने के लिए किया जाता है कि ट्री के निर्माण में प्रत्येक चरण में किस सुविधा को विभाजित किया जाए। सरलता सर्वोत्तम होती है, इसलिए हम अपने ट्री को छोटा रखना चाहते हैं। ऐसा करने के लिए, प्रत्येक चरण पर हमें उस विभाजन को चुनना चाहिए, जिसके परिणामस्वरूप सबसे सुसंगत चाइल्ड नोड हो। स्थिरता मे सामान्य रूप से उपयोग किए जाने वाले माप को सूचना कहा जाता है, जिसे बिट्स में मापा जाता है। ट्री के प्रत्येक नोड के लिए सूचना मान जानकारी की अपेक्षित मात्रा का प्रतिनिधित्व करता है, जो यह निर्दिष्ट करने के लिए आवश्यक होगा कि क्या एक नया उदाहरण हाँ या नहीं में वर्गीकृत किया जाना चाहिए, यह देखते हुए कि उदाहरण उस नोड तक पहुंच गया है।

चार विशेषताओं के साथ एक उदाहरण आँकड़ा समुच्चय पर विचार करें कि आउटलुक (धूप, घटाटोप, बरसात), तापमान (गर्म, हल्का, ठंडा), आर्द्रता (उच्च, सामान्य), और हवादार (सच, गलत), बाइनरी (हाँ या नहीं) के साथ लक्ष्य चर, खेल और 14 आँकड़ा बिंदु इस डेटा पर एक डिसीजन ट्री बनाने के लिए, हमें चार ट्री में से प्रत्येक के सूचना लाभ की तुलना करने की आवश्यकता होती है, प्रत्येक चार विशेषताओं में से एक पर विभाजित होता है। उच्चतम सूचना लाभ वाले विभाजन को पहले विभाजन के रूप में लिया जाएगा और यह प्रक्रिया तब तक जारी रहेगी जब तक कि सभी चिल्ड्रन नोड्स में सुसंगत आँकड़ा न हो, या जब तक सूचना लाभ 0 न हो।

विंडी (वातमय) का उपयोग करके विभाजन की जानकारी प्राप्त करने के लिए, हमें पहले विभाजन से पहले डेटा में जानकारी की गणना करनी चाहिए। तथा मूल डेटा में नौ हां और पांच ना सम्मिलित थे।


 * $$ I_E([9,5]) = -\frac 9 {14}\log_2 \frac 9 {14} - \frac 5 {14}\log_2 \frac 5 {14} = 0.94 $$

विंडी सुविधा का उपयोग करके विभाजित करने से दो चिल्ड्रन नोड बनते हैं, एक सत्य के विंडी मान के लिए और दूसरा गलत के विंडी मान के लिए। इस आँकड़ा समुच्चय में, छह आँकड़ा बिंदु होते हैं, जिनमें से एक वास्तविक विंडी मान होता है, जिनमें से तीन का एक अनुकरण(प्ले) होता है (जहां प्ले लक्ष्य चर है) हां का मान और तीन का प्ले मान नहीं होता है। गलत के विंडी मान वाले आठ शेष डेटा बिंदुओं में दो नहीं और छह हाँ हैं। विंडी = सत्य नोड की जानकारी की गणना उपरोक्त एंट्रॉपी समीकरण का उपयोग करके की जाती है। चूँकि इस नोड में हाँ और ना की संख्या समान है, हमारे पास होती है।


 * $$ I_E([3,3]) = -\frac 3 6\log_2 \frac 3 6 - \frac 3 6\log_2 \frac 3 6 = -\frac 1 2\log_2 \frac 1 2 - \frac 1 2\log_2 \frac 1 2 = 1 $$

उस नोड के लिए जहां विंडी = गलत आठ आँकड़ा बिंदु थे, छह हां और दो नहीं। इस प्रकार हमारे पास होते है।


 * $$ I_E([6,2]) = -\frac 6 8\log_2 \frac 6 8 - \frac 2 8\log_2 \frac 2 8 = -\frac 3 4\log_2 \frac 3 4 - \frac 1 4\log_2 \frac 1 4 = 0.81 $$

विभाजन की जानकारी प्राप्त करने के लिए, हम इन दो संख्याओं के भारित औसत को इस आधार पर लेते हैं, कि कितने अवलोकन किस नोड में गिरे है।


 * $$ I_E([3,3],[6,2]) = I_E(\text{windy or not}) = \frac 6 {14} \cdot 1 + \frac 8 {14} \cdot 0.81 = 0.89 $$

अब हम विंडी विशेषता पर विभाजन द्वारा प्राप्त सूचना लाभ की गणना कर सकते हैं।


 * $$ \operatorname{IG}(\text{windy}) = I_E([9,5]) - I_E([3,3],[6,2]) = 0.94 - 0.89 = 0.05 $$

ट्री के निर्माण के लिए, प्रत्येक संभव प्रथम विभाजन के सूचना लाभ की गणना करने की आवश्यकता होगी। सबसे अच्छा पहला विभाजन वह है, जो सबसे अधिक सूचना लाभ प्रदान करता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। यह उदाहरण विटन एट अल. में प्रदर्शित होने वाले उदाहरण से लिया गया है।

सूचना लाभ को जैव विविधता अनुसंधान में शैनन सूची के रूप में भी जाना जाता है।

भिन्नता में कमी
CART में पेश किया गया विचरण में कमी अधिकांश उन परिस्थितियों में नियोजित की जाती है, जहां लक्ष्य चर निरंतर (प्रतीपगमन ट्री) होता है, जिसका अर्थ है कि कई अन्य मेट्रिक्स के उपयोग को लागू करने से पहले असंततकरण की आवश्यकता होगी। नोड N की भिन्नता में कमी को इस नोड पर विभाजन के कारण लक्ष्य चर Y के भिन्नता की कुल कमी के रूप में परिभाषित किया गया है।



I_V(N) = \frac{1}{|S|^2}\sum_{i\in S} \sum_{j\in S} \frac{1}{2}(y_i - y_j)^2 - \left(\frac{|S_t|^2}{|S|^2}\frac{1}{|S_t|^2}\sum_{i\in S_t} \sum_{j\in S_t} \frac{1}{2}(y_i - y_j)^2 + \frac{|S_f|^2}{|S|^2}\frac{1}{|S_f|^2}\sum_{i\in S_f} \sum_{j\in S_f} \frac{1}{2}(y_i - y_j)^2\right) $$ जहाँ पर $$S$$, $$S_t$$, तथा $$S_f$$ प्रीस्प्लिट प्रतिरूप सूचकांक का समुच्चय है, तथा प्रतिरूप सूची का समुच्चय है, जिसके लिए विभाजित परीक्षण सत्य है, और प्रतिरूप सूची का समुच्चय है जिसके लिए विभाजित परीक्षण गलत है। उपरोक्त योगों में से प्रत्येक वास्तव में विचरण अनुमान होता हैं, हालांकि, सीधे अर्थ का उल्लेख किए बिना एक रूप में लिखा गया है।

अच्छाई का पैमाना
1984 में CART द्वारा उपयोग किया गया अच्छाई का माप एक ऐसा कार्य होता है, जो समान आकार के बच्चों को बनाने की अपनी क्षमता के साथ शुद्ध बच्चों को बनाने के लिए एक उम्मीदवार विभाजन की क्षमता के संतुलन को अनुकूलित करना चाहता है। ट्री पूरा होने तक प्रत्येक अशुद्ध नोड के लिए यह प्रक्रिया दोहराई जाती है। फंक्शनकार्यक्रम $$\varphi(s\mid t)$$ जहाँ $$s$$ नोड $$t$$ पर प्रत्याशी विभाजन को इस तरह परिभाषित किया गया है।



\varphi(s\mid t) = 2P_L P_R \sum_{j=1}^\text{class count}|P(j\mid t_L) - P(j\mid t_R)| $$ जहाँ पर $$t_L$$ तथा $$t_R$$ नोड के बाएँ और दाएँ बच्चे हैं $$t$$ विभाजन का उपयोग करना $$s$$, क्रमश; $$P_L$$ तथा $$P_R$$ में रिकॉर्ड के अनुपात हैं $$t$$ में $$t_L$$ तथा $$t_R$$, क्रमश; तथा $$P(j\mid t_L)$$ तथा $$P(j\mid t_R)$$ वर्ग के अनुपात हैं $$j$$ में रिकॉर्ड $$t_L$$ तथा $$t_R$$, क्रमश।

तीन विशेषताओं के साथ एक उदाहरण आँकड़ा समुच्चय पर विचार करें कि बचत (कम, मध्यम, उच्च), संपत्ति (निम्न, मध्यम, उच्च), आय (संख्यात्मक मान ), और एक बाइनरी लक्ष्य चर क्रेडिट जोखिम (अच्छा, बुरा) और 8 आँकड़ा बिंदु। पूरा आँकड़ा नीचे दी गई तालिका में प्रस्तुत किया गया है। डिसीजन ट्री प्रारम्भ करने के लिए हम अधिकतम मान $$\varphi(s\mid t)$$ की गणना करेंगे। तथा प्रत्येक सुविधा का उपयोग करके यह पता लगाने के लिए कि कौन रूट नोड को विभाजित करेगा। यह प्रक्रिया तब तक चलती रहेगी जब तक कि सभी बच्चे शुद्ध या सभी नहीं हो जाते $$\varphi(s\mid t)$$ मान एक निर्धारित सीमा से नीचे होता हैं।

सुविधा बचत के $$\varphi(s\mid t)$$ खोजने के लिए, हमें प्रत्येक मान की मात्रा नोट करनी होगी। मूल डेटा में तीन कम, तीन मध्यम और दो उच्च सम्मिलित थे। निम्न में से किसी का ऋण जोखिम अच्छा था जबकि मध्यम और उच्च में से 4 का ऋण जोखिम अच्छा था। मान लें कि एक उम्मीदवार $$s$$ विभाजित है जैसे कि कम बचत वाले रिकॉर्ड बाएं बच्चे में रखे जाएंगे और अन्य सभी रिकॉर्ड दाएं बच्चे में डाल दिए जाएंगे।



\varphi(s\mid\text{root}) = 2\cdot\frac 3 8\cdot\frac 5 8\cdot \left(\left|\left(\frac 1 3 - \frac 4 5\right)\right| + \left|\left(\frac 2 3 - \frac 1 5\right)\right|\right) = 0.44 $$ ट्री बनाने के लिए, रूट नोड के लिए सभी उम्मीदवारों के विभाजन की अच्छाई की गणना करने की आवश्यकता होती है। तथा अधिकतम मान वाला उम्मीदवार रूट नोड को विभाजित करेगा, और यह प्रक्रिया प्रत्येक अशुद्ध नोड के लिए तब तक जारी रहेगी जब तक कि ट्री पूरा नहीं हो जाता।

सूचना लाभ जैसे अन्य मेट्रिक्स की तुलना में अच्छाई कि माप एक अधिक संतुलित ट्री बनाने का प्रयास करेगा, जिससे निर्णय लेने में अधिक समय लगेगा। हालांकि, यह शुद्ध बच्चों को बनाने के लिए कुछ प्राथमिकता का त्याग करता है। जिससे अतिरिक्त विभाजन हो सकते हैं, जो अन्य मेट्रिक्स के साथ उपस्थित नहीं होता हैं।

लाभ
आँकड़ा खनन के अन्य तरीकों में डिसीजन ट्री के कई फायदे होते हैं।
 * समझने और व्याख्या करने में सरल संक्षिप्त विवरण के बाद लोग डिसीजन ट्री प्रारूप को समझने में सक्षम होते हैं। ट्री को रेखांकन के रूप में भी प्रदर्शित किया जा सकता है जो गैर-विशेषज्ञों के लिए व्याख्या करना सरल होता है
 * संख्यात्मक और श्रेणीबद्ध चर आँकड़ा दोनों को संभालने में सक्षम अन्य तकनीकें सामान्य रूप से आँकड़ा समुच्चय का विश्लेषण करने में विशिष्ट होती हैं, जिनमें केवल एक प्रकार का चर होता है। उदाहरण के लिए, संबंध नियमों का उपयोग केवल नाममात्र चर के साथ किया जा सकता है, जबकि तंत्रिका नेटवर्क का उपयोग केवल संख्यात्मक चर या श्रेणीबद्ध के साथ 0-1 मानों में परिवर्तित किया जा सकता है। प्रारंभिक डिसीजन ट्री केवल श्रेणीबद्ध चर को संभालने में सक्षम होते थे, लेकिन अधिक हाल के संस्करण, जैसे C4.5, में यह सीमा नहीं होती है।
 * अल्प आँकड़ा तैयार करने की आवश्यकता है। अन्य तकनीकों में :अधिकांश आँकड़ा सामान्यीकरण की आवश्यकता होती है। चूंकि ट्री गुणात्मक पूर्व सूचक को संभाल सकते हैं, इसलिए डमी चर (सांख्यिकी) बनाने की कोई आवश्यकता नहीं है।
 * एक सफेद वर्ग (सॉफ्टवेयर इंजीनियरिंग) या विवृत-वर्ग प्रतिरूप का उपयोग करता है यदि किसी प्रारूप में दी गई स्थिति को देखा जा सकता है, तो स्थिति की व्याख्या बूलियन तर्क द्वारा सरलता से समझाई जा सकती है। तथा इसके विपरीत एक ब्लैक बॉक्स प्रारूप में परिणामों के लिए स्पष्टीकरण को समझना सामान्य रूप से जटिल होता है, उदाहरण के लिए एक कृत्रिम तंत्रिका नेटवर्क के साथ।
 * सांख्यिकीय परीक्षणों का उपयोग करके एक प्रारूप को मान्य करना संभव होता है। इससे प्रारूप की विश्वसनीयता का पता लगाना संभव हो जाता है।
 * गैर-पैरामीट्रिक दृष्टिकोण प्रशिक्षण आँकड़ा या पूर्व सूचक अवशेषों की कोई धारणा नहीं बनाता है। उदाहरण के लिए कोई वितरणात्मक, स्वतंत्रता, या निरंतर भिन्नता धारणा नहीं होती है
 * बड़े आँकड़ा समुच्चय साथ अच्छा प्रदर्शन करता है। तथा उचित समय में मानक कंप्यूटिंग संसाधनों का उपयोग करके बड़ी मात्रा में आँकड़ा का विश्लेषण किया जा सकता है।
 * अन्य दृष्टिकोणों की तुलना में मानव निर्णय लेने को अधिक कुशलता से प्रतिबिंबित करता है। मानवीय निर्णयों/व्यवहार की मॉडलिंग करते समय यह उपयोगी हो सकता है।
 * सह-रैखिकता के विपरीत जटिल विशेष रूप से बढ़ावा देना।
 * निर्मित सुविधा चयन में अतिरिक्त अप्रासंगिक विशेषता का कम उपयोग किया जाएगा ताकि बाद के घूमने पर उन्हें हटाया जा सके। डिसीजन ट्री में विशेषताओं का पदानुक्रम विशेषताओं के महत्व को दर्शाता है। इसका अर्थ है कि शीर्ष पर उपस्थित सुविधाएं सबसे अधिक जानकारी पूर्ण होती हैं।
 * डिसीजन ट्री किसी भी बूलियन तर्क का अनुमान लगा सकते हैं उदाहरण XOR।

सीमाएं

 * ट्री बहुत गैर-जटिल हो सकते हैं। प्रशिक्षण, परीक्षण और सत्यापन समुच्चय में एक छोटे से परिवर्तन के परिणामस्वरूप ट्री में बड़ा परिवर्तन हो सकता है और इसके परिणामस्वरूप अंतिम पूर्व सूचक हो सकती हैं।
 * सर्वोत्तम डिसीजन ट्री लर्निंग की समस्या को सर्वोत्तमता के कई पहलुओं और यहां तक ​​कि सरल अवधारणाओं के लिए NP-पूर्ण के रूप में जाना जाता है। नतीजतन, व्यावहारिक डिसीजन ट्री लर्निंग कलन विधि अनुभव पर आधारित होते हैं, जैसे कि बहुभक्षक कलन विधि जहां प्रत्येक नोड पर स्थानीय रूप से सर्वोत्तम निर्णय किए जाते हैं। इस तरह के कलनविधि विश्व स्तर पर सर्वोत्तम डिसीजन ट्री को वापस करने की गारंटी नहीं दे सकते। स्थानीय इष्टतमता के लालची प्रभाव को कम करने के लिए दोहरी सूचना दूरी (डीआईडी) ट्री जैसी कुछ विधियों का प्रस्ताव किया गया था।
 * डिसीजन ट्री को शिक्षार्थी अति-जटिल ट्री बना सकते हैं, जो प्रशिक्षण आँकड़ा से अच्छी तरह से सामान्यीकरण नहीं करते हैं। इसे अत्युपपन्न के रूप में जाना जाता है। तथा इस समस्या से बचने के लिए प्रूनिंग (डिसीजन ट्री) जैसे तंत्र कि आवश्यक होती हैं। कुछ कलन विधि के अपवाद के साथ जैसे सशर्त अनुमान दृष्टिकोण, जिसमें छंटाई की आवश्यकता नहीं होती है)।
 * वर्गीकरण तक नोड्स या परीक्षणों की संख्या द्वारा परिभाषित ट्री की औसत गहराई को विभिन्न विभाजन मानदंडों के तहत न्यूनतम या छोटा होने की गारंटी नहीं होती है।
 * स्तरों की विभिन्न संख्याओं के साथ श्रेणीबद्ध चर सहित डेटा के लिए, डिसीजन ट्री में सूचना लाभ अधिक स्तरों वाली विशेषताओं के पक्ष में पक्षपाती होता है। इस समस्या का सामना करने के लिए उच्चतम सूचना लाभ के साथ विशेषता को चुनने के अतिरिक्त उन विशेषताओं के बीच उच्चतम सूचना लाभ अनुपात वाली विशेषता का चयन कर सकते हैं, जिनकी सूचना लाभ अनुपात सूचना लाभ से अधिक होता है। यह बहुत कम जानकारी प्राप्त करने वाली विशेषताओं को अनुचित लाभ न देते हुए, बड़ी संख्या में अलग-अलग मानों के साथ विशेषताओं पर विचार करने के विपरीत डिसीजन ट्री को पक्षपाती बनाता है। वैकल्पिक रूप से पक्षपाती पूर्व सूचक चयन के मुद्दे को सशर्त अनुमान दृष्टिकोण दो-चरणीय दृष्टिकोण या अनुकूली लीव-वन-आउट की सुविधा चयन से बचा जा सकता है।

कार्यान्वयन
कई आँकड़ा खनन सॉफ्टवेयर पैकेज एक या अधिक डिसीजन ट्री कलनविधि के कार्यान्वयन को प्रदान करते हैं।

उदाहरणों में सम्मिलित-
 * सलफोर्ड प्रणाली CART (जिसने मूल CART लेखकों के मालिकाना कोड को लाइसेंस दिया था),
 * IBM SPSS मॉडलर,
 * रैपिडमाइनर,
 * एसएएस (सॉफ्टवेयर) # अवयव,
 * मैटलैब ,
 * R (प्रोग्रामिंग लैंग्वेज) सांख्यिकीय कंप्यूटिंग के लिए एक ओपन-सोर्स सॉफ़्टवेयर वातावरण जिसमें कई CART कार्यान्वयन जैसे rpart, पार्टी और रैंडमफ़ॉरेस्ट पैकेज सम्मिलित होता हैं।
 * वीका (मशीन लर्निंग) एक स्वतंत्र और ओपन-सोर्स आँकड़ा-खनन सूट जिसमें कई डिसीजन ट्री कलनविधि सम्मिलित होती हैं।,
 * ऑरेंज (सॉफ्टवेयर),
 * नीम,
 * माइक्रोसॉफ्ट एसक्यूएल सर्वर, और
 * scikit-लर्न पाइथन प्रोग्रामिंग लैंग्वेज के लिए एक फ्री और ओपन-सोर्स मशीन लर्निंग लाइब्रेरी।

निर्णय रेखांकन
एक डिसीजन ट्री में रूट नोड से लीफ नोड तक के सभी रास्ते संयुग्मन या AND के माध्यम से आगे बढ़ते हैं। एक निर्णय ग्राफ में, न्यूनतम संदेश लंबाई (MML) का उपयोग करके दो और रास्तों को एक साथ जोड़ने के लिए विच्छेदन (ORs) का उपयोग करना संभव होता है। पहले से अनकही नई विशेषताओं को गतिशील रूप से सीखने और ग्राफ़ के भीतर विभिन्न स्थानों पर उपयोग करने की अनुमति देने के लिए निर्णय ग्राफ़ को और विस्तारित किया गया है। अधिक सामान्य विसंकेतक योजना के परिणामस्वरूप बेहतर भावी सूचक सटीकता और लॉग-लॉस प्रायिकता स्कोरिंग होती है। सामान्य रूप से निर्णय ग्राफ डिसीजन ट्री की तुलना में कम पत्तियों वाले प्रारूप का अनुमान लगाते हैं।

वैकल्पिक खोज विधियाँ
स्थानीय सर्वोत्तम निर्णयों से बचने के लिए विकासवादी कलनविधि का उपयोग किया गया है और डिसीजन ट्री स्थान को थोड़ा प्राथमिकता पूर्वाग्रह के साथ खोजा गया है।

मार्कोव चेन मोंटे कार्लो का उपयोग करके एक ट्री का प्रतिरूप लेना भी संभव होता है।

ट्री को नीचे के निर्माण में खोजा जा सकता है। या वर्गीकरण तक परीक्षणों की अपेक्षित संख्या को कम करने के लिए समानांतर में कई ट्री का निर्माण किया जा सकता है।

यह भी देखें

 * डिसीजन ट्री छंटाई
 * बाइनरी निर्णय आरेख
 * छेद
 * भावी सूचक विश्लेषण # वर्गीकरण और प्रतिगमन ट्री .28CART.29
 * ID3 कलनविधि
 * C4.5 कलनविधि
 * निर्णय स्टंप, उदाहरण के लिए उपयोग किया जाता है। ऐडाबूस्टिंग
 * निर्णय सूची
 * वृद्धिशील डिसीजन ट्री
 * वैकल्पिक डिसीजन ट्री
 * संरचित आँकड़ा विश्लेषण (सांख्यिकी)
 * तार्किक मॉडल ट्री
 * पदानुक्रमित गुच्छन

इस पेज में लापता आंतरिक लिंक की सूची

 * आंकड़े
 * भविष्य कहनेवाला मॉडल
 * निर्णय लेना
 * प्रत्यावर्तन
 * लालची एल्गोरिदम
 * वर्गीकरण ट्री
 * व्यापक शब्द
 * बहुभिन्नरूपी अनुकूली रिग्रेशन स्प्लाइन
 * असमंजस का जाल
 * जानकारी सामग्री
 * आपसी जानकारी
 * झगड़ा
 * श्रेणीगत चर
 * फीचर चयन
 * बूलियन समारोह
 * एन पी-सम्पूर्ण
 * छंटाई (निर्णय ट्री)
 * पायथन (प्रोग्रामिंग भाषा)
 * वेका (मशीन लर्निंग)
 * नारंगी (सॉफ्टवेयर)
 * आर (प्रोग्रामिंग भाषा)
 * द्विआधारी निर्णय आरेख

बाहरी संबंध

 * Evolutionary Learning of Decision Trees in C++
 * A very detailed explanation of information gain as splitting criterion