रियायती संचयी लाभ: Difference between revisions
(→उदाहरण) |
(→उदाहरण) |
||
| Line 59: | Line 59: | ||
== उदाहरण == | == उदाहरण == | ||
खोज प्रश्न के जवाब में दस्तावेजों की एक सूची के साथ प्रस्तुत किया गया प्रयोग प्रतिभागी को प्रश्न के लिए प्रत्येक दस्तावेज़ की प्रासंगिकता का न्याय करने के लिए कहा गया | खोज प्रश्न के जवाब में दस्तावेजों की एक सूची के साथ प्रस्तुत किया गया प्रयोग प्रतिभागी को प्रश्न के लिए प्रत्येक दस्तावेज़ की प्रासंगिकता का न्याय करने के लिए कहा गया प्रत्येक दस्तावेज़ को 0-3 के स्तर पर आंका जाता है जिसमें 0 का अर्थ प्रासंगिक नहीं है, 3 का अर्थ अत्यधिक प्रासंगिक है तथा 1 और 2 का अर्थ कहीं बीच में है। श्रेणी कलन विधि द्वारा क्रम किए गए दस्तावेज़ों के लिए | ||
:<math> D_{1}, D_{2}, D_{3}, D_{4}, D_{5}, D_{6} </math> | :<math> D_{1}, D_{2}, D_{3}, D_{4}, D_{5}, D_{6} </math> | ||
| Line 108: | Line 108: | ||
| 0.712 | | 0.712 | ||
|} | |} | ||
<math>DCG_{6}</math> इस श्रेणी का है: | |||
:<math> \mathrm{DCG_{6}} = \sum_{i=1}^{6} \frac{rel_{i}}{\log_{2}(i+1)} = 3 + 1.262 + 1.5 + 0 + 0.387 + 0.712 = 6.861</math> | :<math> \mathrm{DCG_{6}} = \sum_{i=1}^{6} \frac{rel_{i}}{\log_{2}(i+1)} = 3 + 1.262 + 1.5 + 0 + 0.387 + 0.712 = 6.861</math> | ||
अब <math>D_3</math> और <math>D_4</math> के स्विच से डीसीजी कम हो जाता है क्योंकि | अब <math>D_3</math> और <math>D_4</math> के स्विच से डीसीजी कम हो जाता है क्योंकि न्यूनतम प्रासंगिक दस्तावेज़ को श्रेणी में ऊपर रखा जाता है अर्थात्, अधिक प्रासंगिक दस्तावेज़ को न्यूनतम श्रेणी में रखकर अधिक छूट दी जाती है। | ||
इस प्रश्न का प्रदर्शन दूसरे के लिए इस रूप में अतुलनीय है क्योंकि अन्य प्रश्न के अधिक परिणाम हो सकते हैं, जिसके परिणामस्वरूप एक बड़ा समग्र डीसीजी हो सकता है जो जरूरी नहीं कि बेहतर हो तुलना करने के लिए डीसीजी मूल्यों को सामान्यीकृत किया जाना चाहिए। | इस प्रश्न का प्रदर्शन दूसरे के लिए इस रूप में अतुलनीय है क्योंकि अन्य प्रश्न के अधिक परिणाम हो सकते हैं, जिसके परिणामस्वरूप एक बड़ा समग्र डीसीजी हो सकता है जो जरूरी नहीं कि बेहतर हो तुलना करने के लिए डीसीजी मूल्यों को सामान्यीकृत किया जाना चाहिए। | ||
| Line 117: | Line 117: | ||
डीसीजी मूल्यों को सामान्य करने के लिए दिए गए प्रश्न के लिए एक आइडियल क्रम की आवश्यकता होती है। इस उदाहरण के लिए, वह क्रम सभी ज्ञात प्रासंगिक निर्णयों का नीरस रूप से घटता क्रम होगा। इस प्रयोग से छः के अलावा, मान लीजिए कि हम यह भी जानते हैं कि एक दस्तावेज है <math>D_7</math> जिसकी प्रासंगिकता ग्रेड 3 है और दस्तावेज़ <math>D_8</math> उस प्रश्न के लिए प्रासंगिकता ग्रेड 2 हैं तब आइडियल क्रम है: | डीसीजी मूल्यों को सामान्य करने के लिए दिए गए प्रश्न के लिए एक आइडियल क्रम की आवश्यकता होती है। इस उदाहरण के लिए, वह क्रम सभी ज्ञात प्रासंगिक निर्णयों का नीरस रूप से घटता क्रम होगा। इस प्रयोग से छः के अलावा, मान लीजिए कि हम यह भी जानते हैं कि एक दस्तावेज है <math>D_7</math> जिसकी प्रासंगिकता ग्रेड 3 है और दस्तावेज़ <math>D_8</math> उस प्रश्न के लिए प्रासंगिकता ग्रेड 2 हैं तब आइडियल क्रम है: | ||
:<math> 3, 3, 3, 2, 2, 2, 1, 0 </math> | :<math> 3, 3, 3, 2, 2, 2, 1, 0 </math> | ||
श्रेणी | श्रेणी के विश्लेषण की गहराई से मिलान करने के लिए आइडियल श्रेणी को फिर से लंबाई 6 में काट दिया जाता है: | ||
:<math> 3, 3, 3, 2, 2, 2 </math> | :<math> 3, 3, 3, 2, 2, 2 </math> | ||
इस आइडियल क्रम के DCG या IDCG (आइडियल DCG) की गणना 6 श्रेणी पर की जाती है: | इस आइडियल क्रम के DCG या IDCG (आइडियल DCG) की गणना 6 श्रेणी पर की जाती है: | ||
| Line 128: | Line 128: | ||
== सीमाएं == | == सीमाएं == | ||
# सामान्यीकृत डीसीजी मापीय परिणाम में खराब दस्तावेज़ों के लिए दंडित नहीं करता है। उदाहरण के लिए, यदि कोई प्रश्न क्रमशः {{math| 1,1,1 }} और {{math| 1,1,1,0 }} अंक के साथ दो परिणाम देती है तो दोनों को समान रूप से अच्छा माना जाएगा, भले ही बाद वाले में खराब दस्तावेज़ हो। उत्कृष्ट, उचित, खराब श्रेणी | # सामान्यीकृत डीसीजी मापीय परिणाम में खराब दस्तावेज़ों के लिए दंडित नहीं करता है। उदाहरण के लिए, यदि कोई प्रश्न क्रमशः {{math| 1,1,1 }} और {{math| 1,1,1,0 }} अंक के साथ दो परिणाम देती है तो दोनों को समान रूप से अच्छा माना जाएगा, भले ही बाद वाले में खराब दस्तावेज़ हो। उत्कृष्ट, उचित, खराब श्रेणी निर्णयों के लिए 2,1,0 के बजाय संख्यात्मक अंक 1,0, -1 का उपयोग किया जा सकता है। यदि खराब परिणाम लौटाए जाते हैं तो इससे अंक कम हो जाएगा, प्रत्याह्वान पर परिणामों की सटीकता को प्राथमिकता दी जाएगी। ध्यान दें कि इस दृष्टिकोण के परिणामस्वरूप समग्र नकारात्मक अंक हो सकता है जो अंक की निचली सकता को {{math|0}} से नकारात्मक मान में बदल देगा। | ||
# सामान्यीकृत डीसीजी परिणाम में लापता दस्तावेजों के लिए दंडित नहीं करता है। उदाहरण के लिए, यदि कोई प्रश्न क्रमशः 1,1,1 और 1,1,1,1,1 अंक के साथ दो परिणाम देता है | # सामान्यीकृत डीसीजी परिणाम में लापता दस्तावेजों के लिए दंडित नहीं करता है। उदाहरण के लिए, यदि कोई प्रश्न क्रमशः 1,1,1 और 1,1,1,1,1 अंक के साथ दो परिणाम देता है तो दोनों को समान रूप से अच्छा माना जाएगा, यह मानते हुए कि आइडियल डीसीजी की गणना पूर्व के लिए श्रेणी 3 और बाद के लिए श्रेणी 5 पर की जाती है। इस सीमा को ध्यान में रखने का एक तरीका परिणाम सेट के लिए निश्चित सेट आकार को लागू करना और लापता दस्तावेज़ों के लिए न्यूनतम अंक का उपयोग करना है। पिछले उदाहरण में अंक 1,1,1,0,0 और {{math| 1,1,1,1,1 }} का उपयोग करेंगे और nDCG को nDCG@5 के रूप में उद्धृत करें।<!-- Wouldn't 1,1,1 and 1,1,1,1,1 return different scores if you plug them into the provided formula, assuming a constant iDCG? Further, wouldn't adding extra 0's have no influence on the score, as per the previous point? --> | ||
# सामान्यीकृत डीसीजी उन प्रश्नों के प्रदर्शन को मापने के लिए उपयुक्त नहीं हो सकता है जिनके ज्यादातर समान रूप से कई अच्छे परिणाम हो सकते हैं। यह विशेष रूप से सच है जब यह मापीय केवल पहले कुछ परिणामों तक ही सीमित है जैसा कि गतिविधि में किया जाता है। उदाहरण के लिए "रेस्टोरेंट" जैसे प्रश्नों के लिए nDCG@1 केवल पहले परिणाम के लिए जिम्मेदार होगा इसलिए यदि एक परिणाम सेट | # सामान्यीकृत डीसीजी उन प्रश्नों के प्रदर्शन को मापने के लिए उपयुक्त नहीं हो सकता है जिनके ज्यादातर समान रूप से कई अच्छे परिणाम हो सकते हैं। यह विशेष रूप से सच है जब यह मापीय केवल पहले कुछ परिणामों तक ही सीमित है जैसा कि गतिविधि में किया जाता है। उदाहरण के लिए "रेस्टोरेंट" जैसे प्रश्नों के लिए nDCG@1 केवल पहले परिणाम के लिए जिम्मेदार होगा इसलिए यदि एक परिणाम सेट में पास के क्षेत्र से केवल 1 रेस्टोरेंट सम्मिलित है जबकि दूसरे में 5 हैं, तो दोनों का अंक समान होगा भले ही उत्तरार्द्ध अधिक व्यापक है। | ||
== यह भी देखें == | == यह भी देखें == | ||
* [[मूल्यांकन उपाय (सूचना पुनर्प्राप्ति)]] | * [[मूल्यांकन उपाय (सूचना पुनर्प्राप्ति)]] | ||
* [[रैंक | * [[रैंक करना सीखना]] | ||
== संदर्भ == | == संदर्भ == | ||
Revision as of 12:26, 11 April 2023
रियायती संचयी लाभ (DCG) श्रेणी गुणवत्ता का परिमाण है। सूचना पुनर्प्राप्ति में इसका उपयोग अधिकतर वर्ल्ड वाइड वेब खोज इंजन कलन विधि या संबंधित अनुप्रयोगों की प्रभावशीलता को मापने के लिए किया जाता है। खोज-इंजन परिणाम सेट में दस्तावेजों के श्रेणीबद्ध प्रासंगिकता (सूचना पुनर्प्राप्ति) परिणाम का उपयोग करते हुए डीसीजी परिणाम सूची में दस्तावेज़ की स्थिति के आधार पर उसकी उपयोगिता या लाभ को मापता है। लाभ परिणाम सूची के शीर्ष से नीचे तक संचित होता है प्रत्येक परिणाम के लाभ को निचले श्रेणीयों पर छूट दी जाती है।[1]
सिंहावलोकन
डीसीजी और उससे संबंधित उपायों का उपयोग करने में दो धारणाएं बनाई जाती हैं।
- खोज इंजन परिणाम सूची में पहले प्रदर्शित होने पर अत्यधिक प्रासंगिक दस्तावेज़ (उच्च पद वाले) अधिक उपयोगी होते हैं।
- अत्यधिक प्रासंगिक दस्तावेज सामान्य रूप से प्रासंगिक दस्तावेज़ों की तुलना में अधिक उपयोगी होते हैं, जो बदले में गैर-प्रासंगिक दस्तावेज़ों की तुलना में अधिक उपयोगी होते हैं।
डीसीजी पहले के अधिक आदिम संचयी लाभ नामक उपाय से उत्पन्न होता है।
संचयी लाभ
संचयी लाभ (सीजी) खोज परिणाम सूची में सभी परिणामों के श्रेणीबद्ध प्रासंगिकता मूल्यों का योग है। DCG के इस पूर्ववर्ती परिणाम सेट की उपयोगिता के विचार में परिणाम सूची में पद (स्थिति) को सम्मिलित नहीं करता है। विशेष पद (स्थिति) पर सीजी को इस प्रकार परिभाषित किया गया है :
जहाँ स्थान पर परिणाम की श्रेणीबद्ध प्रासंगिकता है।
CG फ़ंक्शन के साथ परिकलित मान खोज परिणामों के क्रम में परिवर्तन से अप्रभावित रहता है यानी अत्यधिक प्रासंगिक दस्तावेज़ को उच्च पद, कम प्रासंगिक दस्तावेज़ CG से ऊपर ले जाने से इसके लिए परिकलित मान सीजी (यह मानते हुए ) नहीं बदलता है। खोज परिणामों की उपयोगिता के बारे में ऊपर की गई दो मान्यताओं के आधार पर (N)DCG को सामान्यतौर पर CG से अधिक पसंद किया जाता है।
संचयी लाभ को कभी-कभी ग्रेडेड प्रेसिजन कहा जाता है क्योंकि यह सटीक मापीय के समान होता है यदि क्रम निर्धारण मान द्विआधारी है।
रियायती संचयी लाभ
DCG का आधार यह है कि खोज परिणाम सूची में नीचे दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेज़ों को दंडित किया जाना चाहिए क्योंकि श्रेणीबद्ध प्रासंगिकता मान परिणाम की स्थिति के लिए लघुगणकीय से आनुपातिक रूप से कम हो जाता है।
विशेष पद स्थिति पर संचित DCG के पारंपरिक सूत्र को इस रूप में परिभाषित किया जाता है:
पहले लघुगणक कमी कारक का उपयोग करने के लिए सैद्धांतिक रूप से कोई ठोस औचित्य नहीं था<ref name=CMS2009>B. Croft; D. Metzler; T. Strohman (2010). Search Engines: Information Retrieval in Practice. Addison Wesley.</ref> इस तथ्य के अलावा कि यह एक सहज कमी पैदा करता है, लेकिन वांग एट अल (2013)[2] ने सामान्यीकृत डीसीजी (एनडीसीजी) में लघुगणकीय कमी कारक का उपयोग करने के लिए सैद्धांतिक आश्वासन दिया। लेखक बताते हैं कि प्रत्येक जोड़ी के अलग-अलग श्रेणी कार्यों के लिए एनडीसीजी यह तय कर सकता है कि कौन सा सुसंगत तरीके से बेहतर है।
डीसीजी का वैकल्पिक सूत्रीकरण[3] प्रासंगिक दस्तावेजों को पुनः प्राप्त करने पर अधिक जोर देता है:
बाद वाला सूत्र सामान्य तौर पर प्रमुख वेब खोज कंपनियों[4] और डेटा विज्ञान प्रतियोगिता मंच जैसे कागल सहित उद्योग में उपयोग किया जाता है।
डीसीजी के ये दो सूत्रीकरण समान हैं जब दस्तावेजों के प्रासंगिक मूल्य द्विआधारी हैं [5]: 320 .
ध्यान दें कि क्रॉफ्ट एट अल (2010) और बर्गेस एट अल (2005) बेस ई के लॉग के साथ दूसरा डीसीजी (DCG) प्रस्तुत करते हैं, जबकि ऊपर डीसीजी के दोनों संस्करण बेस 2 के लॉग का उपयोग करते हैं। डीसीजी के पहले सूत्रीकरण के साथ एनडीसीजी की गणना करते समय लॉग का आधार कोई मायने नहीं रखता लेकिन इसका आधार लॉग दूसरे सूत्रीकरण के लिए एनडीसीजी के मूल्य को प्रभावित करता है, स्पष्ट रूप से लॉग का आधार दोनों योगों में डीसीजी के मान को प्रभावित करता है।
सामान्यीकृत डीसीजी
वेब खोज प्रश्न के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। खोज इंजन के प्रदर्शन की तुलना एक प्रश्न से अगली तक लगातार डीसीजी का उपयोग करके प्राप्त नहीं किया जा सकता है इसलिए के चुने हुए मान के लिए प्रत्येक स्थान पर संचयी लाभ को सभी प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह मानवशरीर में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव डीसीजी का उत्पादन होता है, जिसे आइडियल डीसीजी (आईडीसीजी) भी कहा जाता है। किसी प्रश्न के लिए सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:
- ,
जहां IDCG आइडियल बट्टाकृत संचयी लाभ है,