भ्रम मैट्रिक्स

यंत्र अधिगम के क्षेत्र में और विशेष रूप से सांख्यिकीय वर्गीकरण की समस्या में, एक भ्रम मैट्रिक्स, जिसे त्रुटि मैट्रिक्स के रूप में भी जाना जाता है, एक विशिष्ट तालिका (सूचना) लेआउट है जो एक एल्गोरिथ्म के प्रदर्शन के दृश्य की अनुमति देता है, आमतौर पर एक पर्यवेक्षित शिक्षण; बिना पर्यवेक्षित शिक्षण में इसे आमतौर पर मिलान मैट्रिक्स कहा जाता है।

मैट्रिक्स (गणित) की प्रत्येक पंक्ति एक वास्तविक वर्ग में उदाहरणों का प्रतिनिधित्व करती है जबकि प्रत्येक कॉलम एक अनुमानित वर्ग में उदाहरणों का प्रतिनिधित्व करता है, या इसके विपरीत - दोनों प्रकार साहित्य में पाए जाते हैं। नाम इस तथ्य से उपजा है कि इससे यह देखना आसान हो जाता है कि क्या सिस्टम दो वर्गों को भ्रमित कर रहा है (यानी आमतौर पर एक को दूसरे के रूप में गलत लेबल करना)।

यह एक विशेष प्रकार की आकस्मिकता तालिका है, जिसमें दो आयाम (वास्तविक और अनुमानित) हैं, और दोनों आयामों में वर्गों के समान सेट हैं (आयाम और वर्ग का प्रत्येक संयोजन आकस्मिकता तालिका में एक चर है)।

उदाहरण
12 व्यक्तियों का एक नमूना दिया गया है, जिनमें से 8 को कैंसर का निदान किया गया है और 4 जो कैंसर-मुक्त हैं, जहां कैंसर वाले व्यक्ति वर्ग 1 (पॉजिटिव) और गैर-कैंसर वाले व्यक्ति वर्ग 0 (नकारात्मक) से संबंधित हैं, हम यह प्रदर्शित कर सकते हैं डेटा इस प्रकार है: मान लें कि हमारे पास एक क्लासिफायरियर है जो किसी तरह से कैंसर वाले और बिना कैंसर वाले व्यक्तियों के बीच अंतर करता है, हम 12 व्यक्तियों को ले सकते हैं और उन्हें क्लासिफायरियर के माध्यम से चला सकते हैं। इसके बाद क्लासिफायर 9 सटीक भविष्यवाणियां करता है और 3 को छोड़ देता है: कैंसर से पीड़ित 2 व्यक्तियों को कैंसर-मुक्त होने की गलत भविष्यवाणी की गई है (नमूना 1 और 2), और बिना कैंसर वाले 1 व्यक्ति को कैंसर होने की गलत भविष्यवाणी की गई है (नमूना 9)। ध्यान दें, कि यदि हम वास्तविक वर्गीकरण सेट की तुलना अनुमानित वर्गीकरण सेट से करते हैं, तो 4 अलग-अलग परिणाम होते हैं जिनका परिणाम किसी विशेष कॉलम में हो सकता है। एक, यदि वास्तविक वर्गीकरण सकारात्मक है और अनुमानित वर्गीकरण सकारात्मक (1,1) है, तो इसे वास्तविक सकारात्मक परिणाम कहा जाता है क्योंकि सकारात्मक नमूने को वर्गीकरणकर्ता द्वारा सही ढंग से पहचाना गया था। दो, यदि वास्तविक वर्गीकरण सकारात्मक है और अनुमानित वर्गीकरण नकारात्मक (1,0) है, तो इसे गलत नकारात्मक परिणाम कहा जाता है क्योंकि सकारात्मक नमूने को वर्गीकरणकर्ता द्वारा गलत तरीके से नकारात्मक के रूप में पहचाना जाता है। तीसरा, यदि वास्तविक वर्गीकरण नकारात्मक है और अनुमानित वर्गीकरण सकारात्मक (0,1) है, तो इसे गलत सकारात्मक परिणाम कहा जाता है क्योंकि वर्गीकरणकर्ता द्वारा नकारात्मक नमूने को गलत तरीके से सकारात्मक के रूप में पहचाना जाता है। चौथा, यदि वास्तविक वर्गीकरण नकारात्मक है और अनुमानित वर्गीकरण नकारात्मक (0,0) है, तो इसे वास्तविक नकारात्मक परिणाम कहा जाता है क्योंकि नकारात्मक नमूना वर्गीकरणकर्ता द्वारा सही ढंग से पहचाना जाता है।

फिर हम वास्तविक और अनुमानित वर्गीकरणों के बीच तुलना कर सकते हैं और इस जानकारी को तालिका में जोड़ सकते हैं, जिससे सही परिणाम हरे रंग में दिखाई देंगे ताकि वे अधिक आसानी से पहचाने जा सकें। किसी भी बाइनरी कन्फ्यूजन मैट्रिक्स के लिए टेम्पलेट सकारात्मक और नकारात्मक वर्गीकरण के साथ ऊपर चर्चा किए गए चार प्रकार के परिणामों (सच्चे सकारात्मक, गलत नकारात्मक, गलत सकारात्मक और सच्चे नकारात्मक) का उपयोग करता है। चार परिणामों को 2×2 भ्रम मैट्रिक्स में निम्नानुसार तैयार किया जा सकता है: डेटा को आसानी से अलग करने के लिए, उपरोक्त तीन डेटा तालिकाओं के रंग सम्मेलन को इस भ्रम मैट्रिक्स से मेल खाने के लिए चुना गया था।

अब, हम बस प्रत्येक प्रकार के परिणाम को जोड़ सकते हैं, टेम्पलेट में प्रतिस्थापित कर सकते हैं, और एक भ्रम मैट्रिक्स बना सकते हैं जो क्लासिफायरियर के परीक्षण के परिणामों को संक्षेप में सारांशित करेगा: इस भ्रम मैट्रिक्स में, कैंसर वाले 8 नमूनों में से, सिस्टम ने निर्णय लिया कि 2 कैंसर-मुक्त थे, और बिना कैंसर वाले 4 नमूनों में से, यह भविष्यवाणी की गई कि 1 में कैंसर था। सभी सही भविष्यवाणियाँ तालिका के विकर्ण (हरे रंग में हाइलाइट) में स्थित हैं, इसलिए भविष्यवाणी त्रुटियों के लिए तालिका का निरीक्षण करना आसान है, क्योंकि विकर्ण के बाहर के मान उनका प्रतिनिधित्व करेंगे। कन्फ्यूजन मैट्रिक्स की 2 पंक्तियों को जोड़कर, मूल डेटासेट में सकारात्मक (पी) और नकारात्मक (एन) नमूनों की कुल संख्या भी निकाली जा सकती है, यानी। $$P=TP+FN$$ और $$N=FP+TN$$.

भ्रम की तालिका
भविष्य कहनेवाला विश्लेषण में, भ्रम की एक तालिका (कभी-कभी भ्रम मैट्रिक्स भी कहा जाता है) दो पंक्तियों और दो स्तंभों वाली एक तालिका होती है जो सच्ची सकारात्मक, गलत नकारात्मक, गलत सकारात्मक की संख्या की रिपोर्ट करती है।, और सच्चे नकारात्मक। यह केवल सही वर्गीकरण (सटीकता) के अनुपात को देखने की तुलना में अधिक विस्तृत विश्लेषण की अनुमति देता है। यदि डेटा सेट असंतुलित है तो सटीकता भ्रामक परिणाम देगी; अर्थात्, जब विभिन्न वर्गों में प्रेक्षणों की संख्या बहुत भिन्न होती है।

उदाहरण के लिए, यदि डेटा में 95 कैंसर नमूने और केवल 5 गैर-कैंसर नमूने थे, तो एक विशेष वर्गीकरणकर्ता सभी टिप्पणियों को कैंसर होने के रूप में वर्गीकृत कर सकता है। समग्र सटीकता 95% होगी, लेकिन अधिक विस्तार से क्लासिफायरियर में कैंसर वर्ग के लिए 100% मान्यता दर (संवेदनशीलता (परीक्षण)) होगी लेकिन गैर-कैंसर वर्ग के लिए 0% मान्यता दर होगी। ऐसे मामलों में F1 स्कोर और भी अधिक अविश्वसनीय है, और यहां 97.4% से अधिक का परिणाम मिलेगा, जबकि सूचना इस तरह के पूर्वाग्रह को दूर करती है और किसी भी प्रकार के अनुमान के लिए एक सूचित निर्णय की संभावना के रूप में 0 उत्पन्न करती है (यहां हमेशा कैंसर का अनुमान लगाया जाता है)।

डेविड चिक्को और ग्यूसेप जर्मन के अनुसार, भ्रम मैट्रिक्स का मूल्यांकन करने के लिए सबसे जानकारीपूर्ण मीट्रिक मैथ्यू सहसंबंध गुणांक है|मैथ्यू सहसंबंध गुणांक (एमसीसी)। अन्य मेट्रिक्स को कन्फ्यूजन मैट्रिक्स में शामिल किया जा सकता है, उनमें से प्रत्येक का अपना महत्व और उपयोग होता है।

दो से अधिक श्रेणियों के साथ भ्रम की स्थिति
कन्फ्यूजन मैट्रिक्स बाइनरी वर्गीकरण तक ही सीमित नहीं है और इसका उपयोग मल्टी-क्लास क्लासिफायर में भी किया जा सकता है। ऊपर चर्चा की गई भ्रम की स्थिति में केवल दो स्थितियाँ हैं: सकारात्मक और नकारात्मक। उदाहरण के लिए, नीचे दी गई तालिका दो वक्ताओं के बीच व्हिसल्ड_लैंग्वेज#तकनीकों के संचार का सारांश प्रस्तुत करती है, स्पष्टता के लिए शून्य मान छोड़े गए हैं।

यह भी देखें

 * सकारात्मक और नकारात्मक पूर्वानुमानित मूल्य