द्विआधारी वर्गीकरण

From Vigyanwiki

बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक समुच्चय (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं:

  • यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
  • उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
  • सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।

बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (गलत घनात्मक और गलत ऋणात्मक#गलत घनात्मक त्रुटि) किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (गलत घनात्मक और गलत घनात्मक त्रुटि) से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि)।

सांख्यिकीय बाइनरी वर्गीकरण

सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।

बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं:

तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन)

अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए सपोर्ट वेक्टर मशीन (एसवीएम) क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]

बाइनरी क्लासिफायर का मूल्यांकन

परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं:
TP=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; FP=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); TPआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; FPआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।

ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।

किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (ट्रू पॉजिटिव/ सही घनात्मक असाइनमेंट), सही ऋणात्मक TN ((ट्रू ऋणात्मक/सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (फाल्स नेगेटिव/गलत ऋणात्मक असाइनमेंट)।

Assigned
Actual
टेस्ट आउटकम घनात्मक टेस्ट आउटकम ऋणात्मक
स्थिति घनात्मक सही घनात्मक गलत ऋणात्मक
स्थिति ऋणात्मक गलत घनात्मक सही ऋणात्मक

इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप रोव - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।

आठ बुनियादी अनुपात

इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी रोव या कॉलम के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक रोव अनुपात या गलत ऋणात्मक कॉलम अनुपात के रूप में संदर्भित किया जा सकता है।

इस प्रकार कॉलम अनुपात के दो जोड़े और रोव अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।

रोव के अनुपात हैं:

  • ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ ​​संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
    • फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN))
  • ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ ​​विशिष्टता (परीक्षण) (SPC),

कॉलम के अनुपात हैं:

नैदानिक ​​​​परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक कॉलम अनुपात हैं - वास्तविक घनात्मक दर और वास्तविक ऋणात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (रोव और कॉलम) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।

कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो कॉलम अनुपात, अनुपातों के दो रोव अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।

कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (FC) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; फ्रैक्शन इनकरेक्ट (FiC) है। F-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित F-स्कोर (F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा सम्मिलित हैं।

निरंतर मान को बाइनरी में परिवर्तित करना

ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश ब्लड वैल्यू , कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को घनात्मक या ऋणात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कटऑफ से कम है।

हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के नज़दीक एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य सामान्यतः निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन (hCG) की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो hCG के 52 mlU/ml को मापता है, कटऑफ के रूप में 50 mlU/ml के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में सामान्यतः परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 mlU/ml का मूत्र hCG मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 mlU/ml के समान ही घनात्मक दिखता है।

यह भी देखें

संदर्भ

  1. Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
  2. Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.

ग्रन्थसूची