रियायती संचयी लाभ: Difference between revisions
No edit summary |
(→उदाहरण) |
||
| Line 68: | Line 68: | ||
:<math> \mathrm{CG_{6}} = \sum_{i=1}^{6} rel_{i} = 3 + 2 + 3 + 0 + 1 + 2 = 11</math> | :<math> \mathrm{CG_{6}} = \sum_{i=1}^{6} rel_{i} = 3 + 2 + 3 + 0 + 1 + 2 = 11</math> | ||
किन्हीं दो दस्तावेज़ों के क्रम को बदलने से CG माप प्रभावित नहीं होता है। अगर <math>D_3</math> और <math>D_4</math> स्विच किए जाते हैं तो सीजी वही रहता है, 11. डीसीजी का उपयोग परिणाम सूची में जल्दी दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेजों पर जोर देने के लिए किया जाता है। कमी के लिए लघुगणकीय पैमाने का उपयोग करते हुए | किन्हीं दो दस्तावेज़ों के क्रम को बदलने से CG माप प्रभावित नहीं होता है। अगर <math>D_3</math> और <math>D_4</math> स्विच किए जाते हैं तो सीजी वही रहता है, 11. डीसीजी का उपयोग परिणाम सूची में जल्दी दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेजों पर सूची को जोर देने के लिए किया जाता है। कमी के लिए लघुगणकीय पैमाने का उपयोग करते हुए क्रम में प्रत्येक परिणाम के लिए DCG है: | ||
Revision as of 09:48, 26 March 2023
रियायती संचयी लाभ (DCG) रैंकिंग गुणवत्ता का एक पैमाना है। सूचना पुनर्प्राप्ति में, इसका उपयोग अक्सर वर्ल्ड वाइड वेब खोज इंजन कलन विधि या संबंधित अनुप्रयोगों की प्रभावशीलता को मापने के लिए किया जाता है। खोज-इंजन परिणाम सेट में दस्तावेजों के श्रेणीबद्ध प्रासंगिकता (सूचना पुनर्प्राप्ति) पैमाने का उपयोग करते हुए, डीसीजी परिणाम सूची में दस्तावेज़ की स्थिति के आधार पर उसकी उपयोगिता या लाभ को मापता है। लाभ परिणाम सूची के शीर्ष से नीचे तक संचित होता है प्रत्येक परिणाम के लाभ को निचले रैंकों पर छूट दी जाती है।[1] इस तथ्य के अलावा कि यह एक चिकनी कमी पैदा करता है। लेकिन वांग एट अल। (2013)[2] सामान्यीकृत डीसीजी (एनडीसीजी) में लॉगरिदमिक कमी कारक का उपयोग करने के लिए सैद्धांतिक गारंटी दी। लेखक बताते हैं कि प्रत्येक जोड़ी के लिए अलग-अलग रैंकिंग कार्यों के लिए, एनडीसीजी यह तय कर सकता है कि कौन सा एक सुसंगत तरीके से बेहतर है।
DCG का एक वैकल्पिक सूत्रीकरण[3] प्रासंगिक दस्तावेजों को पुनः प्राप्त करने पर अधिक जोर देता है:
प्रमुख वेब खोज कंपनियों सहित उद्योग में आमतौर पर बाद वाले सूत्र का उपयोग किया जाता है[4] और डेटा साइंस प्रतियोगिता प्लेटफॉर्म जैसे कागल।[5] डीसीजी के ये दो फॉर्मूलेशन समान हैं जब दस्तावेजों के प्रासंगिक मूल्य बाइनरी फ़ंक्शन हैं;[6]: 320 .
ध्यान दें कि क्रॉफ्ट एट अल। (2010) और बर्गेस एट अल। (2005) बेस ई के लॉग के साथ दूसरा DCG प्रस्तुत करते हैं, जबकि ऊपर DCG के दोनों संस्करण बेस 2 के लॉग का उपयोग करते हैं। DCG के पहले फॉर्मूलेशन के साथ NDCG की गणना करते समय, लॉग का आधार कोई मायने नहीं रखता, लेकिन इसका आधार लॉग दूसरे फॉर्मूलेशन के लिए एनडीसीजी के मूल्य को प्रभावित करता है। स्पष्ट रूप से, लॉग का आधार दोनों योगों में DCG के मान को प्रभावित करता है।
सामान्यीकृत डीसीजी
This section needs additional citations for verification. (February 2020) (Learn how and when to remove this template message) |
वेब खोज क्वेरी के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। एक खोज इंजन के प्रदर्शन की तुलना एक क्वेरी से अगली तक लगातार DCG का उपयोग करके प्राप्त नहीं किया जा सकता है इसलिए के चुने हुए मान के लिए प्रत्येक स्थान पर संचयी लाभ को सभी प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह कॉर्पस में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव DCG का उत्पादन होता है, जिसे आदर्श डीसीजी (आईडीसीजी) भी कहा जाता है। किसी क्वेरी के लिए, सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:
- ,
जहां IDCG आदर्श बट्टाकृत संचयी लाभ है,
और कॉर्पस में स्थिति p तक प्रासंगिक दस्तावेज़ों की सूची (उनकी प्रासंगिकता के अनुसार क्रमित) का प्रतिनिधित्व करता है।
खोज इंजन के रैंकिंग एल्गोरिथम के औसत प्रदर्शन का माप प्राप्त करने के लिए सभी प्रश्नों के लिए nDCG मानों का औसत निकाला जा सकता है। ध्यान दें कि एक पूर्ण रैंकिंग एल्गोरिथम में, के समान होगा 1.0 का nDCG उत्पन्न करता है। सभी एनडीसीजी गणना तब अंतराल 0.0 से 1.0 पर सापेक्ष मान हैं और इसलिए क्रॉस-क्वेरी तुलनीय हैं।
एनडीसीजी का उपयोग करने में आने वाली मुख्य कठिनाई परिणामों के आदर्श क्रम की अनुपलब्धता है जब केवल आंशिक प्रासंगिक प्रतिक्रिया उपलब्ध होती है।
उदाहरण
एक खोज क्वेरी के जवाब में दस्तावेजों की एक सूची के साथ प्रस्तुत किया गया, एक प्रयोग प्रतिभागी को क्वेरी के लिए प्रत्येक दस्तावेज़ की प्रासंगिकता का न्याय करने के लिए कहा गया। प्रत्येक दस्तावेज़ को 0-3 के पैमाने पर आंका जाता है, जिसमें 0 का अर्थ प्रासंगिक नहीं है, 3 का अर्थ अत्यधिक प्रासंगिक है, और 1 और 2 का अर्थ कहीं बीच में है। रैंकिंग एल्गोरिथम द्वारा ऑर्डर किए गए दस्तावेज़ों के लिए
उपयोगकर्ता निम्नलिखित प्रासंगिकता स्कोर प्रदान करता है:
अर्थात्: दस्तावेज़ 1 की प्रासंगिकता 3 है, दस्तावेज़ 2 की प्रासंगिकता 2 है आदि। इस खोज परिणाम लिस्टिंग का संचयी लाभ है:
किन्हीं दो दस्तावेज़ों के क्रम को बदलने से CG माप प्रभावित नहीं होता है। अगर और स्विच किए जाते हैं तो सीजी वही रहता है, 11. डीसीजी का उपयोग परिणाम सूची में जल्दी दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेजों पर सूची को जोर देने के लिए किया जाता है। कमी के लिए लघुगणकीय पैमाने का उपयोग करते हुए क्रम में प्रत्येक परिणाम के लिए DCG है:
| 1 | 3 | 1 | 3 |
| 2 | 2 | 1.585 | 1.262 |
| 3 | 3 | 2 | 1.5 |
| 4 | 0 | 2.322 | 0 |
| 5 | 1 | 2.585 | 0.387 |
| 6 | 2 | 2.807 | 0.712 |
इतना इस रैंकिंग का है: