रियायती संचयी लाभ: Difference between revisions

From Vigyanwiki
No edit summary
Line 68: Line 68:


:<math> \mathrm{CG_{6}} = \sum_{i=1}^{6} rel_{i} = 3 + 2 + 3 + 0 + 1 + 2 = 11</math>
:<math> \mathrm{CG_{6}} = \sum_{i=1}^{6} rel_{i} = 3 + 2 + 3 + 0 + 1 + 2 = 11</math>
किन्हीं दो दस्तावेज़ों के क्रम को बदलने से CG माप प्रभावित नहीं होता है। अगर <math>D_3</math> और <math>D_4</math> स्विच किए जाते हैं तो सीजी वही रहता है, 11. डीसीजी का उपयोग परिणाम सूची में जल्दी दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेजों पर जोर देने के लिए किया जाता है। कमी के लिए लघुगणकीय पैमाने का उपयोग करते हुए, क्रम में प्रत्येक परिणाम के लिए DCG है:
किन्हीं दो दस्तावेज़ों के क्रम को बदलने से CG माप प्रभावित नहीं होता है। अगर <math>D_3</math> और <math>D_4</math> स्विच किए जाते हैं तो सीजी वही रहता है, 11. डीसीजी का उपयोग परिणाम सूची में जल्दी दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेजों पर सूची को जोर देने के लिए किया जाता है। कमी के लिए लघुगणकीय पैमाने का उपयोग करते हुए क्रम में प्रत्येक परिणाम के लिए DCG है:





Revision as of 09:48, 26 March 2023

रियायती संचयी लाभ (DCG) रैंकिंग गुणवत्ता का एक पैमाना है। सूचना पुनर्प्राप्ति में, इसका उपयोग अक्सर वर्ल्ड वाइड वेब खोज इंजन कलन विधि या संबंधित अनुप्रयोगों की प्रभावशीलता को मापने के लिए किया जाता है। खोज-इंजन परिणाम सेट में दस्तावेजों के श्रेणीबद्ध प्रासंगिकता (सूचना पुनर्प्राप्ति) पैमाने का उपयोग करते हुए, डीसीजी परिणाम सूची में दस्तावेज़ की स्थिति के आधार पर उसकी उपयोगिता या लाभ को मापता है। लाभ परिणाम सूची के शीर्ष से नीचे तक संचित होता है प्रत्येक परिणाम के लाभ को निचले रैंकों पर छूट दी जाती है।[1] इस तथ्य के अलावा कि यह एक चिकनी कमी पैदा करता है। लेकिन वांग एट अल। (2013)[2] सामान्यीकृत डीसीजी (एनडीसीजी) में लॉगरिदमिक कमी कारक का उपयोग करने के लिए सैद्धांतिक गारंटी दी। लेखक बताते हैं कि प्रत्येक जोड़ी के लिए अलग-अलग रैंकिंग कार्यों के लिए, एनडीसीजी यह तय कर सकता है कि कौन सा एक सुसंगत तरीके से बेहतर है।

DCG का एक वैकल्पिक सूत्रीकरण[3] प्रासंगिक दस्तावेजों को पुनः प्राप्त करने पर अधिक जोर देता है:

प्रमुख वेब खोज कंपनियों सहित उद्योग में आमतौर पर बाद वाले सूत्र का उपयोग किया जाता है[4] और डेटा साइंस प्रतियोगिता प्लेटफॉर्म जैसे कागल।[5] डीसीजी के ये दो फॉर्मूलेशन समान हैं जब दस्तावेजों के प्रासंगिक मूल्य बाइनरी फ़ंक्शन हैं;[6]: 320  .

ध्यान दें कि क्रॉफ्ट एट अल। (2010) और बर्गेस एट अल। (2005) बेस ई के लॉग के साथ दूसरा DCG प्रस्तुत करते हैं, जबकि ऊपर DCG के दोनों संस्करण बेस 2 के लॉग का उपयोग करते हैं। DCG के पहले फॉर्मूलेशन के साथ NDCG की गणना करते समय, लॉग का आधार कोई मायने नहीं रखता, लेकिन इसका आधार लॉग दूसरे फॉर्मूलेशन के लिए एनडीसीजी के मूल्य को प्रभावित करता है। स्पष्ट रूप से, लॉग का आधार दोनों योगों में DCG के मान को प्रभावित करता है।


सामान्यीकृत डीसीजी

वेब खोज क्वेरी के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। एक खोज इंजन के प्रदर्शन की तुलना एक क्वेरी से अगली तक लगातार DCG का उपयोग करके प्राप्त नहीं किया जा सकता है इसलिए के चुने हुए मान के लिए प्रत्येक स्थान पर संचयी लाभ को सभी प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह कॉर्पस में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव DCG का उत्पादन होता है, जिसे आदर्श डीसीजी (आईडीसीजी) भी कहा जाता है। किसी क्वेरी के लिए, सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:

,

जहां IDCG आदर्श बट्टाकृत संचयी लाभ है,

और कॉर्पस में स्थिति p तक प्रासंगिक दस्तावेज़ों की सूची (उनकी प्रासंगिकता के अनुसार क्रमित) का प्रतिनिधित्व करता है।

खोज इंजन के रैंकिंग एल्गोरिथम के औसत प्रदर्शन का माप प्राप्त करने के लिए सभी प्रश्नों के लिए nDCG मानों का औसत निकाला जा सकता है। ध्यान दें कि एक पूर्ण रैंकिंग एल्गोरिथम में, के समान होगा 1.0 का nDCG उत्पन्न करता है। सभी एनडीसीजी गणना तब अंतराल 0.0 से 1.0 पर सापेक्ष मान हैं और इसलिए क्रॉस-क्वेरी तुलनीय हैं।

एनडीसीजी का उपयोग करने में आने वाली मुख्य कठिनाई परिणामों के आदर्श क्रम की अनुपलब्धता है जब केवल आंशिक प्रासंगिक प्रतिक्रिया उपलब्ध होती है।

उदाहरण

एक खोज क्वेरी के जवाब में दस्तावेजों की एक सूची के साथ प्रस्तुत किया गया, एक प्रयोग प्रतिभागी को क्वेरी के लिए प्रत्येक दस्तावेज़ की प्रासंगिकता का न्याय करने के लिए कहा गया। प्रत्येक दस्तावेज़ को 0-3 के पैमाने पर आंका जाता है, जिसमें 0 का अर्थ प्रासंगिक नहीं है, 3 का अर्थ अत्यधिक प्रासंगिक है, और 1 और 2 का अर्थ कहीं बीच में है। रैंकिंग एल्गोरिथम द्वारा ऑर्डर किए गए दस्तावेज़ों के लिए

उपयोगकर्ता निम्नलिखित प्रासंगिकता स्कोर प्रदान करता है:

अर्थात्: दस्तावेज़ 1 की प्रासंगिकता 3 है, दस्तावेज़ 2 की प्रासंगिकता 2 है आदि। इस खोज परिणाम लिस्टिंग का संचयी लाभ है:

किन्हीं दो दस्तावेज़ों के क्रम को बदलने से CG माप प्रभावित नहीं होता है। अगर और स्विच किए जाते हैं तो सीजी वही रहता है, 11. डीसीजी का उपयोग परिणाम सूची में जल्दी दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेजों पर सूची को जोर देने के लिए किया जाता है। कमी के लिए लघुगणकीय पैमाने का उपयोग करते हुए क्रम में प्रत्येक परिणाम के लिए DCG है:


1 3 1 3
2 2 1.585 1.262
3 3 2 1.5
4 0 2.322 0
5 1 2.585 0.387
6 2 2.807 0.712

इतना इस रैंकिंग का है: