सटीक और याद

पैटर्न की पहचान में, सूचना पुनर्प्राप्ति, वस्तु का पता लगाने और वर्गीकरण (मशीन लर्निंग), सटीक और रिकॉल प्रदर्शन मेट्रिक्स हैं जो डेटा स्टोर, टेक्स्ट_कॉर्पस या नमूना स्थान से प्राप्त डेटा पर लागू होते हैं।

परिशुद्धता (जिसे सकारात्मक भविष्य कहनेवाला मूल्य भी कहा जाता है) पुनर्प्राप्त उदाहरणों के बीच प्रासंगिक उदाहरणों का अंश है, जबकि रिकॉल (जिसे संवेदनशीलता और विशिष्टता के रूप में भी जाना जाता है) प्रासंगिक उदाहरणों का अंश है जो पुनर्प्राप्त किए गए थे। सटीकता और रिकॉल दोनों इसलिए प्रासंगिकता (सूचना पुनर्प्राप्ति) पर आधारित हैं।

डिजिटल फोटोग्राफ में कुत्तों (प्रासंगिक तत्व) को पहचानने के लिए एक कंप्यूटर प्रोग्राम पर विचार करें। दस बिल्लियों और बारह कुत्तों वाली एक तस्वीर को संसाधित करने पर, कार्यक्रम आठ कुत्तों की पहचान करता है। कुत्तों के रूप में पहचाने जाने वाले आठ तत्वों में से केवल पांच वास्तव में कुत्ते (सच्चे सकारात्मक) हैं, जबकि अन्य तीन बिल्लियाँ (झूठे सकारात्मक) हैं। सात कुत्तों को छोड़ दिया गया (झूठे नकारात्मक), और सात बिल्लियों को सही ढंग से बाहर रखा गया (वास्तविक नकारात्मक)। कार्यक्रम की सटीकता तब 5/8 (वास्तविक सकारात्मक/चयनित तत्व) होती है जबकि इसकी याद 5/12 (वास्तविक सकारात्मक/प्रासंगिक तत्व) होती है।

जब एक खोज इंजन (कंप्यूटिंग) 30 पृष्ठ लौटाता है, जिनमें से केवल 20 प्रासंगिक होते हैं, जबकि 40 अतिरिक्त प्रासंगिक पृष्ठ वापस करने में विफल रहते हैं, इसकी शुद्धता 20/30 = 2/3 होती है, जो हमें बताती है कि परिणाम कितने वैध हैं, जबकि इसकी याद 20/60 = 1/3 है, जो हमें बताता है कि परिणाम कितने पूर्ण हैं।

आँकड़ों से एक परिकल्पना-परीक्षण दृष्टिकोण अपनाना, जिसमें, इस मामले में, अशक्त परिकल्पना यह है कि एक दिया गया आइटम 'अप्रासंगिक' है, अर्थात, कुत्ता नहीं, प्रकार I और प्रकार II त्रुटियों की अनुपस्थिति (अर्थात पूर्ण विशिष्टता और 100% प्रत्येक की संवेदनशीलता) क्रमशः पूर्ण परिशुद्धता (कोई झूठी सकारात्मक नहीं) और सही याद (कोई झूठी नकारात्मक नहीं) से मेल खाती है।

अधिक आम तौर पर, रिकॉल केवल टाइप II त्रुटि दर का पूरक है, यानी टाइप II त्रुटि दर का एक माइनस। सटीकता प्रकार I त्रुटि दर से संबंधित है, लेकिन थोड़ा अधिक जटिल तरीके से, क्योंकि यह प्रासंगिक बनाम अप्रासंगिक वस्तु को देखने के पूर्व वितरण पर भी निर्भर करता है।

उपरोक्त बिल्ली और कुत्ते के उदाहरण में 10 कुल बिल्लियों (वास्तविक नकारात्मक) में से 8 − 5 = 3 प्रकार I त्रुटियां (गलत सकारात्मक) शामिल हैं, टाइप I त्रुटि दर 3/10 के लिए, और 12 − 5 = 7 प्रकार II त्रुटियां, टाइप II त्रुटि दर 7/12 के लिए। परिशुद्धता को गुणवत्ता के माप के रूप में देखा जा सकता है, और मात्रा के माप के रूप में याद किया जा सकता है। उच्च परिशुद्धता का मतलब है कि एक एल्गोरिथ्म अप्रासंगिक लोगों की तुलना में अधिक प्रासंगिक परिणाम देता है, और उच्च रिकॉल का मतलब है कि एक एल्गोरिथ्म अधिकांश प्रासंगिक परिणाम देता है (चाहे अप्रासंगिक भी लौटाए गए हों या नहीं)।

परिचय
सूचना पुनर्प्राप्ति में, उदाहरण दस्तावेज़ हैं और कार्य एक खोज शब्द दिए गए प्रासंगिक दस्तावेज़ों के एक सेट को वापस करना है। रिकॉल किसी खोज द्वारा प्राप्त प्रासंगिक दस्तावेज़ों की संख्या को मौजूदा प्रासंगिक दस्तावेज़ों की कुल संख्या से विभाजित करने पर प्राप्त होने वाली प्रासंगिक दस्तावेज़ों की संख्या है, जबकि सटीकता किसी खोज द्वारा प्राप्त किए गए प्रासंगिक दस्तावेज़ों की संख्या को उस खोज द्वारा प्राप्त किए गए दस्तावेज़ों की कुल संख्या से विभाजित करने पर प्राप्त होने वाली संख्या है।

एक वर्गीकरण (मशीन लर्निंग) कार्य में, एक वर्ग के लिए सटीकता सही सकारात्मक की संख्या है (अर्थात सकारात्मक वर्ग से संबंधित के रूप में सही ढंग से लेबल की गई वस्तुओं की संख्या) को सकारात्मक वर्ग से संबंधित तत्वों की कुल संख्या से विभाजित किया जाता है ( यानी वास्तविक सकारात्मकता और टाइप I और टाइप II त्रुटियों का योग, जो आइटम गलत तरीके से वर्ग से संबंधित हैं)। इस संदर्भ में याद करें कि वास्तव में सकारात्मक वर्ग से संबंधित तत्वों की कुल संख्या से विभाजित वास्तविक सकारात्मक की संख्या के रूप में परिभाषित किया गया है (यानी वास्तविक सकारात्मक और प्रकार I और प्रकार II त्रुटियों का योग, जो आइटम हैं जिन्हें संबंधित के रूप में लेबल नहीं किया गया था सकारात्मक वर्ग के लिए लेकिन होना चाहिए था)।

सूचना पुनर्प्राप्ति में, 1.0 के एक सटीक सटीक स्कोर का अर्थ है कि खोज द्वारा प्राप्त प्रत्येक परिणाम प्रासंगिक था (लेकिन इस बारे में कुछ नहीं कहता है कि क्या सभी प्रासंगिक दस्तावेज़ पुनर्प्राप्त किए गए थे) जबकि 1.0 के एक पूर्ण रिकॉल स्कोर का अर्थ है कि सभी प्रासंगिक दस्तावेज़ खोज द्वारा पुनर्प्राप्त किए गए थे ( लेकिन यह नहीं कहता है कि कितने अप्रासंगिक दस्तावेज़ भी पुनर्प्राप्त किए गए थे)।

अलगाव में उपयोग किए जाने पर प्रेसिजन और रिकॉल विशेष रूप से उपयोगी मेट्रिक्स नहीं होते हैं। उदाहरण के लिए, हर एक आइटम को केवल पुनः प्राप्त करके सही रिकॉल करना संभव है। इसी तरह, अत्यंत संभावित वस्तुओं की केवल बहुत कम संख्या का चयन करके लगभग पूर्ण सटीकता प्राप्त करना संभव है।

एक वर्गीकरण कार्य में, कक्षा सी के लिए 1.0 के एक सटीक स्कोर का अर्थ है कि कक्षा सी से संबंधित प्रत्येक आइटम वास्तव में कक्षा सी से संबंधित है (लेकिन कक्षा सी से उन वस्तुओं की संख्या के बारे में कुछ नहीं कहता है जिन्हें सही ढंग से लेबल नहीं किया गया था) जबकि ए 1.0 को वापस बुलाने का अर्थ है कि कक्षा सी से प्रत्येक वस्तु को कक्षा सी से संबंधित के रूप में लेबल किया गया था (लेकिन यह नहीं कहता है कि अन्य वर्गों की कितनी वस्तुओं को गलत तरीके से कक्षा सी से संबंधित के रूप में भी लेबल किया गया था)।

अक्सर, सटीक और रिकॉल के बीच एक विपरीत संबंध होता है, जहां दूसरे को कम करने की कीमत पर एक को बढ़ाना संभव होता है। ब्रेन सर्जरी ट्रेडऑफ़ का एक उदाहरण है। एक मस्तिष्क सर्जन पर विचार करें जो एक मरीज के मस्तिष्क से कैंसर के ट्यूमर को निकाल रहा है। सर्जन को सभी ट्यूमर कोशिकाओं को हटाने की जरूरत है क्योंकि शेष कैंसर कोशिकाएं ट्यूमर को पुन: उत्पन्न करेंगी। इसके विपरीत, सर्जन को मस्तिष्क की स्वस्थ कोशिकाओं को नहीं निकालना चाहिए क्योंकि इससे रोगी के मस्तिष्क का कार्य बाधित हो सकता है। सर्जन मस्तिष्क के उस क्षेत्र में अधिक उदार हो सकता है जिसे वह हटाता है यह सुनिश्चित करने के लिए कि उसने सभी कैंसर कोशिकाओं को निकाला है। यह निर्णय याद बढ़ाता है लेकिन सटीकता को कम करता है। दूसरी ओर, सर्जन मस्तिष्क की कोशिकाओं में अधिक रूढ़िवादी हो सकता है जिसे वह हटाता है यह सुनिश्चित करने के लिए कि वह केवल कैंसर कोशिकाओं को निकालता है। यह निर्णय सटीकता बढ़ाता है लेकिन रिकॉल को कम करता है। कहने का मतलब यह है कि अधिक याद करने से स्वस्थ कोशिकाओं (नकारात्मक परिणाम) को हटाने की संभावना बढ़ जाती है और सभी कैंसर कोशिकाओं (सकारात्मक परिणाम) को हटाने की संभावना बढ़ जाती है। अधिक सटीकता से स्वस्थ कोशिकाओं (सकारात्मक परिणाम) को हटाने की संभावना कम हो जाती है, लेकिन सभी कैंसर कोशिकाओं (नकारात्मक परिणाम) को हटाने की संभावना भी कम हो जाती है।

आमतौर पर, सटीक और रिकॉल स्कोर की चर्चा अलगाव में नहीं की जाती है। इसके बजाय, या तो एक माप के मूल्यों की तुलना दूसरे माप पर एक निश्चित स्तर के लिए की जाती है (उदाहरण के लिए 0.75 के रिकॉल स्तर पर सटीक) या दोनों को एक ही माप में जोड़ा जाता है। सटीकता और रिकॉल के संयोजन वाले उपायों के उदाहरण हैं #F-measure|F-माप (परिशुद्धता और रिकॉल का भारित अनुकूल माध्य), या मैथ्यूज सहसंबंध गुणांक, जो एक भूमौका-सुधारित वेरिएंट का मीट्रिक माध्य: प्रतिगमन गुणांक सूचितता (DeltaP') और Markedness (DeltaP)। सटीकता (द्विआधारी वर्गीकरण) परिशुद्धता और व्युत्क्रम परिशुद्धता (पूर्वाग्रह द्वारा भारित) के भारित अंकगणितीय माध्य के साथ-साथ रिकॉल और व्युत्क्रम रिकॉल (प्रचलन द्वारा भारित) का भारित अंकगणितीय माध्य है। व्युत्क्रम परिशुद्धता और व्युत्क्रम रिकॉल केवल व्युत्क्रम समस्या की शुद्धता और स्मरण है जहां सकारात्मक और नकारात्मक लेबल का आदान-प्रदान किया जाता है (वास्तविक कक्षाओं और भविष्यवाणी लेबल दोनों के लिए)। रिकॉल और इनवर्स रिकॉल, या समकक्ष रूप से सही सकारात्मक दर और झूठी सकारात्मक दर, अक्सर एक दूसरे के खिलाफ रिसीवर ऑपरेटिंग विशेषता घटता के रूप में प्लॉट किए जाते हैं और ऑपरेटिंग पॉइंट ट्रेडऑफ़ का पता लगाने के लिए एक सैद्धांतिक तंत्र प्रदान करते हैं। सूचना पुनर्प्राप्ति के बाहर, रिकॉल, सटीक और एफ-माप के आवेदन को त्रुटिपूर्ण माना जाता है क्योंकि वे आकस्मिक तालिका के वास्तविक नकारात्मक सेल की उपेक्षा करते हैं, और भविष्यवाणियों को पूर्वाग्रहित करके आसानी से हेरफेर किया जाता है। पहली समस्या सटीकता (द्विआधारी वर्गीकरण) का उपयोग करके 'हल' की जाती है और दूसरी समस्या मौका घटक को छूट देकर और कोहेन के कप्पा को फिर से सामान्य करके 'हल' की जाती है, लेकिन यह अब ग्राफिक रूप से ट्रेडऑफ़ का पता लगाने का अवसर नहीं देता है। हालाँकि, सूचनात्मकता और चिह्नितता कप्पा की तरह रिकॉल और प्रेसिजन के पुनर्सामान्यीकरण हैं, और उनका ज्यामितीय माध्य मैथ्यू सहसंबंध गुणांक इस प्रकार एक विवादित एफ-माप की तरह कार्य करता है।

परिभाषा (सूचना पुनर्प्राप्ति संदर्भ)
सूचना पुनर्प्राप्ति संदर्भों में, सटीक और रिकॉल को पुनर्प्राप्त दस्तावेजों के एक सेट के संदर्भ में परिभाषित किया गया है (उदाहरण के लिए एक वेब खोज इंजन द्वारा एक क्वेरी के लिए तैयार किए गए दस्तावेजों की सूची) और प्रासंगिक दस्तावेजों का एक सेट (जैसे इंटरनेट पर सभी दस्तावेजों की सूची) जो एक निश्चित विषय के लिए प्रासंगिक हैं), cf. प्रासंगिकता।

प्रेसिजन
सूचना पुनर्प्राप्ति के क्षेत्र में, सटीकता पुनर्प्राप्त दस्तावेज़ों का अंश है जो क्वेरी के लिए प्रासंगिकता (सूचना पुनर्प्राप्ति) हैं:

$$ \text{precision}=\frac{|\{\text{relevant documents}\}\cap\{\text{retrieved documents}\}|}{|\{\text{retrieved documents}\}|} $$ उदाहरण के लिए, दस्तावेज़ों के एक सेट पर एक पाठ खोज के लिए, सटीक परिणाम सभी लौटाए गए परिणामों की संख्या से विभाजित सही परिणामों की संख्या है।

परिशुद्धता सभी पुनर्प्राप्त दस्तावेजों को ध्यान में रखती है, लेकिन इसका मूल्यांकन किसी दिए गए कट-ऑफ रैंक पर भी किया जा सकता है, केवल सिस्टम द्वारा दिए गए शीर्ष परिणामों पर विचार किया जा सकता है। इस माप को कहा जाता है मूल्यांकन उपाय (सूचना पुनर्प्राप्ति)#शुद्धता k पर या मूल्यांकन उपाय (सूचना पुनर्प्राप्ति)#परिशुद्धता k|P@n पर।

रिकॉल के साथ परिशुद्धता का उपयोग किया जाता है, सभी प्रासंगिक दस्तावेजों का प्रतिशत जो खोज द्वारा लौटाया जाता है। F1 Score|F में कभी-कभी दो उपायों का एक साथ उपयोग किया जाता है1 किसी सिस्टम के लिए एकल माप प्रदान करने के लिए स्कोर (या f-माप)।

ध्यान दें कि सूचना पुनर्प्राप्ति के क्षेत्र में सटीकता का अर्थ और उपयोग विज्ञान और प्रौद्योगिकी की अन्य शाखाओं के भीतर सटीकता और सटीकता की परिभाषा से भिन्न है।

स्मरण
सूचना पुनर्प्राप्ति में, रिकॉल प्रासंगिक दस्तावेजों का वह अंश है जिसे सफलतापूर्वक पुनर्प्राप्त किया जाता है।

$$ \text{recall}=\frac{|\{\text{relevant documents}\}\cap\{\text{retrieved documents}\}|}{|\{\text{relevant documents}\}|} $$ उदाहरण के लिए, दस्तावेज़ों के एक सेट पर एक पाठ खोज के लिए, रिकॉल सही परिणामों की संख्या को उन परिणामों की संख्या से विभाजित करना है जिन्हें लौटाया जाना चाहिए था।

बाइनरी वर्गीकरण में, रिकॉल को संवेदनशीलता और विशिष्टता # संवेदनशीलता कहा जाता है। इसे इस संभावना के रूप में देखा जा सकता है कि क्वेरी द्वारा एक प्रासंगिक दस्तावेज़ को पुनः प्राप्त किया जाता है।

कनेक्शन
सटीक और रिकॉल की व्याख्या (अनुमानित) सशर्त संभावनाओं के रूप में की जा सकती है: प्रेसिजन द्वारा दिया जाता है $$P(C=P|\hat{C}=P)$$ जबकि रिकॉल द्वारा दिया गया है $$P(\hat{C}=P|C=P)$$, कहाँ $$\hat{C}$$ अनुमानित वर्ग है और $$C$$ वास्तविक वर्ग है। इसलिए, दोनों मात्राएँ बेयस प्रमेय द्वारा जुड़ी हुई हैं।

परिभाषा (वर्गीकरण संदर्भ)
वर्गीकरण कार्यों के लिए, सच्चे सकारात्मक, सच्चे नकारात्मक, झूठे सकारात्मक और झूठे नकारात्मक शब्द (परिभाषाओं के लिए टाइप I और टाइप II त्रुटियां देखें) विश्वसनीय बाहरी निर्णयों के साथ परीक्षण के तहत क्लासिफायरियर के परिणामों की तुलना करें। शब्द सकारात्मक और नकारात्मक वर्गीकारक की भविष्यवाणी (कभी-कभी अपेक्षा के रूप में जाना जाता है) को संदर्भित करते हैं, और सत्य और गलत शब्द संदर्भित करते हैं कि क्या भविष्यवाणी बाहरी निर्णय (कभी-कभी अवलोकन के रूप में जाना जाता है) से मेल खाती है।

आइए हम कुछ स्थितियों के लिए P धनात्मक दृष्टांतों और N ऋणात्मक दृष्टांतों से एक प्रयोग परिभाषित करें। चार परिणामों को 2×2 आकस्मिक तालिका या भ्रम मैट्रिक्स में निम्नानुसार तैयार किया जा सकता है:

प्रेसिजन और रिकॉल को तब परिभाषित किया जाता है:

$$\begin{align} \text{Precision} &= \frac{tp}{tp + fp} \\ \text{Recall} &= \frac{tp}{tp + fn} \, \end{align}$$ इस संदर्भ में रिकॉल को वास्तविक सकारात्मक दर या संवेदनशीलता और विशिष्टता के रूप में भी जाना जाता है, और सटीकता को सकारात्मक भविष्य कहनेवाला मूल्य (पीपीवी) भी कहा जाता है; वर्गीकरण में उपयोग किए जाने वाले अन्य संबंधित उपायों में वास्तविक नकारात्मक दर और सटीकता (द्विआधारी वर्गीकरण) शामिल हैं। सही नकारात्मक दर को विशिष्टता (परीक्षण) # विशिष्टता भी कहा जाता है।

$$\text{True negative rate} = \frac{tn}{tn + fp} \, $$

असंतुलित डेटा
$$\text{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN} \, $$ असंतुलित डेटा सेट के लिए सटीकता एक भ्रामक मीट्रिक हो सकती है। 95 ऋणात्मक और 5 धनात्मक मानों वाले एक नमूने पर विचार करें। इस मामले में सभी मूल्यों को नकारात्मक के रूप में वर्गीकृत करने से 0.95 सटीकता स्कोर मिलता है। ऐसे कई मेट्रिक्स हैं जो इस समस्या से ग्रस्त नहीं हैं। उदाहरण के लिए, संतुलित सटीकता (bACC) क्रमशः सकारात्मक और नकारात्मक नमूनों की संख्या से वास्तविक सकारात्मक और वास्तविक नकारात्मक भविष्यवाणियों को सामान्य करता है, और उनकी राशि को दो से विभाजित करता है:

$$\text{Balanced accuracy}= \frac{TPR + TNR}{2}\, $$ पिछले उदाहरण के लिए (95 नकारात्मक और 5 सकारात्मक नमूने), सभी को नकारात्मक के रूप में वर्गीकृत करने से 0.5 संतुलित सटीकता स्कोर मिलता है (अधिकतम बीएसीसी स्कोर एक है), जो एक संतुलित डेटा सेट में एक यादृच्छिक अनुमान के अपेक्षित मूल्य के बराबर है। संतुलित सटीकता एक मॉडल के लिए समग्र प्रदर्शन मीट्रिक के रूप में काम कर सकती है, भले ही डेटा में सही लेबल असंतुलित हों या नहीं, यह मानते हुए कि FN की लागत FP के समान है।

एक अन्य मीट्रिक अनुमानित सकारात्मक स्थिति दर (PPCR) है, जो फ़्लैग की गई कुल जनसंख्या के प्रतिशत की पहचान करती है। उदाहरण के लिए, एक खोज इंजन के लिए जो 1,000,000 दस्तावेज़ों में से 30 परिणाम (पुनर्प्राप्त दस्तावेज़) लौटाता है, PPCR 0.003% है।

$$\text{Predicted positive condition rate}=\frac{TP+FP}{TP+FP+TN+FN} \, $$ सैटो और रेहम्समीयर के अनुसार, असंतुलित डेटा पर बाइनरी क्लासिफायर का मूल्यांकन करते समय सटीक-रिकॉल प्लॉट आरओसी प्लॉट की तुलना में अधिक जानकारीपूर्ण होते हैं। ऐसे परिदृश्यों में, वर्गीकरण प्रदर्शन की विश्वसनीयता के बारे में निष्कर्ष के संबंध में आरओसी प्लॉट नेत्रहीन भ्रामक हो सकते हैं। उपरोक्त दृष्टिकोणों से भिन्न, यदि भ्रम मैट्रिक्स तत्वों को भारित करके असंतुलन स्केलिंग को सीधे लागू किया जाता है, तो असंतुलित डेटासेट के मामले में भी मानक मेट्रिक्स परिभाषाएँ अभी भी लागू होती हैं। वेटिंग प्रक्रिया भ्रम मैट्रिक्स तत्वों को प्रत्येक माना वर्ग के समर्थन सेट से संबंधित करती है।

संभाव्य व्याख्या
कोई सटीकता की व्याख्या भी कर सकता है और अनुपात के रूप में नहीं बल्कि संभावनाओं के अनुमान के रूप में याद कर सकता है:
 * सटीकता अनुमानित संभावना है कि पुनर्प्राप्त दस्तावेज़ों के पूल से यादृच्छिक रूप से चयनित दस्तावेज़ प्रासंगिक है।
 * रिकॉल अनुमानित संभावना है कि प्रासंगिक दस्तावेजों के पूल से बेतरतीब ढंग से चुने गए दस्तावेज़ को पुनः प्राप्त किया जाता है।

एक और व्याख्या यह है कि सटीकता प्रासंगिक पुनर्प्राप्ति की औसत संभावना है और रिकॉल कई पुनर्प्राप्ति प्रश्नों पर औसत पूर्ण पुनर्प्राप्ति की औसत संभावना है।

एफ-माप
एक उपाय जो सटीक और रिकॉल को जोड़ती है, वह सटीक और रिकॉल का हार्मोनिक मतलब है, पारंपरिक एफ-माप या संतुलित एफ-स्कोर:

$$F = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{ \mathrm{precision} + \mathrm{recall}}$$ जब वे करीब होते हैं तो यह माप लगभग दो का औसत होता है, और अधिक आम तौर पर हार्मोनिक माध्य होता है, जो दो संख्याओं के मामले में अंकगणितीय माध्य से विभाजित ज्यामितीय माध्य के वर्ग के साथ मेल खाता है। मूल्यांकन मीट्रिक के रूप में पूर्वाग्रह के कारण विशेष परिस्थितियों में एफ-स्कोर की आलोचना के कई कारण हो सकते हैं। इसे के नाम से भी जाना जाता है $$F_1$$ उपाय, क्योंकि याद और सटीक समान रूप से भारित होते हैं।

यह जनरल का एक विशेष मामला है $$F_\beta$$ उपाय (गैर-नकारात्मक वास्तविक मूल्यों के लिए$$\beta$$):

$$F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall} }{ \beta^2 \cdot \mathrm{precision} + \mathrm{recall}}$$ दो अन्य आमतौर पर उपयोग किए जाते हैं $$F$$ उपाय हैं $$F_2$$ उपाय, जो वजन सटीकता से अधिक याद करते हैं, और $$F_{0.5}$$ उपाय, जो रिकॉल की तुलना में सटीकता पर अधिक जोर देता है।

एफ-माप वैन रिज्सबर्गेन (1979) द्वारा प्राप्त किया गया था ताकि $$F_\beta$$ संलग्न करने वाले उपयोगकर्ता के संबंध में पुनर्प्राप्ति की प्रभावशीलता को मापता है $$\beta$$ बार-बार याद करने और सटीकता को महत्व देने के लिए। यह वैन रिज्सबर्गेन प्रभावशीलता माप पर आधारित है $$E_{\alpha} = 1 - \frac{1}{\frac{\alpha}{P} + \frac{1-\alpha}{R}}$$, दूसरा शब्द वजन के साथ सटीकता और रिकॉल का भारित हार्मोनिक माध्य है $$(\alpha, 1-\alpha)$$. उनका सम्बन्ध है $$F_\beta = 1 - E_{\alpha}$$ कहाँ $$\alpha=\frac{1}{1 + \beta^2}$$.

लक्ष्यों के रूप में सीमाएं
सूचना पुनर्प्राप्ति प्रणाली के प्रदर्शन मीट्रिक के लिए अन्य पैरामीटर और रणनीतियाँ हैं, जैसे कि आरओसी वक्र (एयूसी) के तहत क्षेत्र।

यह भी देखें

 * अनिश्चितता गुणांक, जिसे प्रवीणता भी कहा जाता है
 * संवेदनशीलता और विशिष्टता
 * असमंजस का जाल

संदर्भ

 * Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Modern Information Retrieval. New York, NY: ACM Press, Addison-Wesley, Seiten 75 ff. ISBN 0-201-39829-X
 * Hjørland, Birger (2010); The foundation of the concept of relevance, Journal of the American Society for Information Science and Technology, 61(2), 217-237
 * Makhoul, John; Kubala, Francis; Schwartz, Richard; and Weischedel, Ralph (1999); Performance measures for information extraction, in Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999
 * van Rijsbergen, Cornelis Joost "Keith" (1979); Information Retrieval, London, GB; Boston, MA: Butterworth, 2nd Edition, ISBN 0-408-70929-4

बाहरी संबंध

 * Information Retrieval – C. J. van Rijsbergen 1979
 * Computing Precision and Recall for a Multi-class Classification Problem

Beurteilung eines Klassifikators