रियायती संचयी लाभ

From Vigyanwiki

रियायती संचयी लाभ (DCG) श्रेणी गुणवत्ता का परिमाण है। सूचना पुनर्प्राप्ति में इसका उपयोग अधिकतर वर्ल्ड वाइड वेब खोज इंजन कलन विधि या संबंधित अनुप्रयोगों की प्रभावशीलता को मापने के लिए किया जाता है। खोज-इंजन परिणाम सेट में दस्तावेजों के श्रेणीबद्ध प्रासंगिकता (सूचना पुनर्प्राप्ति) परिणाम का उपयोग करते हुए डीसीजी परिणाम सूची में दस्तावेज़ की स्थिति के आधार पर उसकी उपयोगिता या लाभ को मापता है। लाभ परिणाम सूची के शीर्ष से नीचे तक संचित होता है प्रत्येक परिणाम के लाभ को निचले श्रेणीयों पर छूट दी जाती है।[1]

सिंहावलोकन

डीसीजी और उससे संबंधित उपायों का उपयोग करने में दो धारणाएं बनाई जाती हैं।

  1. खोज इंजन परिणाम सूची में पहले प्रदर्शित होने पर अत्यधिक प्रासंगिक दस्तावेज़ (उच्च पद वाले) अधिक उपयोगी होते हैं।
  2. अत्यधिक प्रासंगिक दस्तावेज सामान्य रूप से प्रासंगिक दस्तावेज़ों की तुलना में अधिक उपयोगी होते हैं, जो बदले में गैर-प्रासंगिक दस्तावेज़ों की तुलना में अधिक उपयोगी होते हैं।

डीसीजी पहले के अधिक आदिम संचयी लाभ नामक उपाय से उत्पन्न होता है।

संचयी लाभ

संचयी लाभ (सीजी) खोज परिणाम सूची में सभी परिणामों के श्रेणीबद्ध प्रासंगिकता मूल्यों का योग है। DCG के इस पूर्ववर्ती परिणाम सेट की उपयोगिता के विचार में परिणाम सूची में पद (स्थिति) को सम्मिलित नहीं करता है। विशेष पद (स्थिति) पर सीजी को इस प्रकार परिभाषित किया गया है :

जहाँ स्थान पर परिणाम की श्रेणीबद्ध प्रासंगिकता है।

CG फ़ंक्शन के साथ परिकलित मान खोज परिणामों के क्रम में परिवर्तन से अप्रभावित रहता है यानी अत्यधिक प्रासंगिक दस्तावेज़ को उच्च पद, कम प्रासंगिक दस्तावेज़ CG से ऊपर ले जाने से इसके लिए परिकलित मान सीजी (यह मानते हुए ) नहीं बदलता है। खोज परिणामों की उपयोगिता के बारे में ऊपर की गई दो मान्यताओं के आधार पर (N)DCG को सामान्यतौर पर CG से अधिक पसंद किया जाता है।

संचयी लाभ को कभी-कभी ग्रेडेड प्रेसिजन कहा जाता है क्योंकि यह सटीक मापीय के समान होता है यदि क्रम निर्धारण मान द्विआधारी है।

रियायती संचयी लाभ

DCG का आधार यह है कि खोज परिणाम सूची में नीचे दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेज़ों को दंडित किया जाना चाहिए क्योंकि श्रेणीबद्ध प्रासंगिकता मान परिणाम की स्थिति के लिए लघुगणकीय से आनुपातिक रूप से कम हो जाता है।

विशेष पद स्थिति पर संचित DCG के पारंपरिक सूत्र को इस रूप में परिभाषित किया जाता है:

पहले लघुगणक कमी कारक का उपयोग करने के लिए सैद्धांतिक रूप से कोई ठोस औचित्य नहीं था[2]</nowiki> इस तथ्य के अलावा कि यह एक सहज कमी पैदा करता है, लेकिन वांग एट अल (2013)[3] ने सामान्यीकृत डीसीजी (एनडीसीजी) में लघुगणकीय कमी कारक का उपयोग करने के लिए सैद्धांतिक आश्वासन दिया। लेखक बताते हैं कि प्रत्येक जोड़ी के अलग-अलग श्रेणी कार्यों के लिए एनडीसीजी यह तय कर सकता है कि कौन सा सुसंगत तरीके से बेहतर है।

डीसीजी का वैकल्पिक सूत्रीकरण[4] प्रासंगिक दस्तावेजों को पुनः प्राप्त करने पर अधिक जोर देता है:

बाद वाला सूत्र सामान्य तौर पर प्रमुख वेब खोज कंपनियों[5] और डेटा विज्ञान प्रतियोगिता मंच जैसे कागल सहित उद्योग में उपयोग किया जाता है।

डीसीजी के ये दो सूत्रीकरण समान हैं जब दस्तावेजों के प्रासंगिक मूल्य द्विआधारी हैं [2]: 320  .

ध्यान दें कि क्रॉफ्ट एट अल (2010) और बर्गेस एट अल (2005) बेस ई के लॉग के साथ दूसरा डीसीजी (DCG) प्रस्तुत करते हैं, जबकि ऊपर डीसीजी के दोनों संस्करण बेस 2 के लॉग का उपयोग करते हैं। डीसीजी के पहले सूत्रीकरण के साथ एनडीसीजी की गणना करते समय लॉग का आधार कोई मायने नहीं रखता लेकिन इसका आधार लॉग दूसरे सूत्रीकरण के लिए एनडीसीजी के मूल्य को प्रभावित करता है, स्पष्ट रूप से लॉग का आधार दोनों योगों में डीसीजी के मान को प्रभावित करता है।


सामान्यीकृत डीसीजी

वेब खोज प्रश्न के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। खोज इंजन के प्रदर्शन की तुलना एक प्रश्न से अगली तक लगातार डीसीजी का उपयोग करके प्राप्त नहीं किया जा सकता है इसलिए के चुने हुए मान के लिए प्रत्येक स्थान पर संचयी लाभ को सभी प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह मानवशरीर में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव डीसीजी का उत्पादन होता है, जिसे आइडियल डीसीजी (आईडीसीजी) भी कहा जाता है। किसी प्रश्न के लिए सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:

,

जहां IDCG आइडियल बट्टाकृत संचयी लाभ है,

और मानवशरीर में स्थिति p तक प्रासंगिक दस्तावेज़ों की सूची (उनकी प्रासंगिकता के अनुसार क्रमित) का प्रतिनिधित्व करता है।

खोज इंजन के श्रेणी कलन विधि के औसत प्रदर्शन का माप प्राप्त करने के लिए सभी प्रश्नों के लिए nDCG मानों का औसत निकाला जा सकता है। ध्यान दें कि एक पूर्ण श्रेणी कलन विधि में के समान होगा 1.0 का nDCG उत्पन्न करता है। सभी एनडीसीजी गणना तब अंतराल 0.0 से 1.0 पर सापेक्ष मान हैं इसलिए प्रति-प्रश्न तुलनीय हैं।

एनडीसीजी का उपयोग करने में आने वाली मुख्य कठिनाई परिणामों के आइडियल क्रम की अनुपलब्धता है जब केवल आंशिक प्रासंगिक प्रतिक्रिया उपलब्ध होती है।

उदाहरण

खोज प्रश्न के जवाब में दस्तावेजों की एक सूची के साथ प्रस्तुत किया गया प्रयोग प्रतिभागी को प्रश्न के लिए प्रत्येक दस्तावेज़ की प्रासंगिकता का न्याय करने के लिए कहा गया प्रत्येक दस्तावेज़ को 0-3 के स्तर पर आंका जाता है जिसमें 0 का अर्थ प्रासंगिक नहीं है, 3 का अर्थ अत्यधिक प्रासंगिक है तथा 1 और 2 का अर्थ कहीं बीच में है। श्रेणी कलन विधि द्वारा क्रम किए गए दस्तावेज़ों के लिए

उपयोगकर्ता निम्नलिखित प्रासंगिकता अंक प्रदान करता है:

अर्थात्: दस्तावेज़ 1 की प्रासंगिकता 3 है, दस्तावेज़ 2 की प्रासंगिकता 2 है आदि। इस खोज परिणाम प्रविष्टि का संचयी लाभ है: