रियायती संचयी लाभ: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 44: Line 44:


=== सामान्यीकृत डीसीजी ===
=== सामान्यीकृत डीसीजी ===
{{Refimprove section|date=February 2020}}
[[वेब खोज क्वेरी]] के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। खोज इंजन के प्रदर्शन की तुलना एक क्वेरी से अगली तक लगातार डीसीजी का उपयोग करके प्राप्त नहीं किया जा सकता है इसलिए <math>p</math> के चुने हुए मान के लिए प्रत्येक स्थान पर संचयी लाभ को सभी प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह कॉर्पस में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव डीसीजी का उत्पादन <math>p</math>होता है, जिसे आइडियल डीसीजी (आईडीसीजी) भी कहा जाता है। किसी क्वेरी के लिए सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:
[[वेब खोज क्वेरी]] के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। खोज इंजन के प्रदर्शन की तुलना एक क्वेरी से अगली तक लगातार डीसीजी का उपयोग करके प्राप्त नहीं किया जा सकता है इसलिए <math>p</math> के चुने हुए मान के लिए प्रत्येक स्थान पर संचयी लाभ को सभी प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह कॉर्पस में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव डीसीजी का उत्पादन <math>p</math>होता है, जिसे आइडियल डीसीजी (आईडीसीजी) भी कहा जाता है। किसी क्वेरी के लिए सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:


Line 140: Line 138:
== संदर्भ ==
== संदर्भ ==
{{Reflist|1}}
{{Reflist|1}}
{{Machine learning evaluation metrics}}


[[Category:Collapse templates]]
[[Category:Collapse templates]]

Revision as of 14:12, 6 April 2023

रियायती संचयी लाभ (DCG) रैंकिंग गुणवत्ता का परिमाण है। सूचना पुनर्प्राप्ति में, इसका उपयोग अधिकतर वर्ल्ड वाइड वेब खोज इंजन कलन विधि या संबंधित अनुप्रयोगों की प्रभावशीलता को मापने के लिए किया जाता है। खोज-इंजन परिणाम संग्रह में दस्तावेजों के श्रेणीबद्ध प्रासंगिकता (सूचना पुनर्प्राप्ति) परिणाम का उपयोग करते हुए डीसीजी परिणाम सूची में दस्तावेज़ की स्थिति के आधार पर उसकी उपयोगिता या लाभ को मापता है। लाभ परिणाम सूची के शीर्ष से नीचे तक संचित होता है प्रत्येक परिणाम के लाभ को निचले श्रेणीयों पर छूट दी जाती है।[1]

सिंहावलोकन

डीसीजी और उससे संबंधित उपायों का उपयोग करने में दो धारणाएं बनाई जाती हैं।

  1. खोज इंजन परिणाम सूची में पहले प्रदर्शित होने पर अत्यधिक प्रासंगिक दस्तावेज़ अधिक उपयोगी होते हैं (उच्च रैंक वाले)
  2. अत्यधिक प्रासंगिक दस्तावेज मामूली प्रासंगिक दस्तावेजों की तुलना में अधिक उपयोगी होते हैं, जो बदले में गैर-प्रासंगिक दस्तावेजों की तुलना में अधिक उपयोगी होते हैं।

डीसीजी पहले के, अधिक आदिम, संचयी लाभ नामक उपाय से उत्पन्न होता है।

संचयी लाभ

संचयी लाभ (सीजी) एक खोज परिणाम सूची में सभी परिणामों के श्रेणीबद्ध प्रासंगिकता मूल्यों का योग है। DCG के इस पूर्ववर्ती परिणाम सेट की उपयोगिता के विचार में परिणाम सूची में परिणाम के रैंक (स्थिति) को शामिल नहीं करता है। एक विशेष रैंक की स्थिति में सीजी परिभाषित किया जाता है:

कहाँ स्थिति पर परिणाम की श्रेणीबद्ध प्रासंगिकता है .

CG फ़ंक्शन के साथ परिकलित मान खोज परिणामों के क्रम में परिवर्तन से अप्रभावित रहता है। यानी एक अत्यधिक प्रासंगिक दस्तावेज़ को स्थानांतरित करना उच्च रैंक के ऊपर, कम प्रासंगिक, दस्तावेज़ CG के लिए परिकलित मान नहीं बदलता है (यह मानते हुए ). खोज परिणामों की उपयोगिता के बारे में ऊपर की गई दो मान्यताओं के आधार पर, (N)DCG को आमतौर पर CG से अधिक पसंद किया जाता है।

संचयी लाभ को कभी-कभी ग्रेडेड प्रेसिजन कहा जाता है क्योंकि यह सटीक मीट्रिक के समान होता है यदि रेटिंग स्केल बाइनरी है।

रियायती संचयी लाभ

DCG का आधार यह है कि खोज परिणाम सूची में नीचे दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेज़ों को दंडित किया जाना चाहिए क्योंकि श्रेणीबद्ध प्रासंगिकता मान परिणाम की स्थिति के लिए लघुगणकीय रूप से आनुपातिक रूप से कम हो जाता है।

DCG का पारंपरिक सूत्र एक विशेष रैंक की स्थिति में संचित होता है परिभाषित किया जाता है:

पहले लॉगरिदमिक रिडक्शन फैक्टर का उपयोग करने के लिए सैद्धांतिक रूप से कोई ठोस औचित्य नहीं था<ref name=CMS2009>B. Croft; D. Metzler; T. Strohman (2010). Search Engines: Information Retrieval in Practice. Addison Wesley.</ref> इस तथ्य के अलावा कि यह एक चिकनी कमी पैदा करता है, लेकिन वांग एट अल (2013)[2] ने सामान्यीकृत डीसीजी (एनडीसीजी) में लॉगरिदमिक कमी कारक का उपयोग करने के लिए सैद्धांतिक आश्वासन दिया। लेखक बताते हैं कि प्रत्येक जोड़ी के अलग-अलग रैंकिंग कार्यों के लिए एनडीसीजी यह तय कर सकता है कि कौन सा सुसंगत तरीके से बेहतर है।

डीसीजी का एक वैकल्पिक सूत्रीकरण[3] प्रासंगिक दस्तावेजों को पुनः प्राप्त करने पर अधिक जोर देता है:

प्रमुख वेब खोज कंपनियों सहित उद्योग सामान्यतौर पर बाद वाले सूत्र[4] और डेटा विज्ञान प्रतियोगिता मंच जैसे कागल का उपयोग किया जाता है।[5]

डीसीजी के ये दो सूत्रीकरण समान हैं जब दस्तावेजों के प्रासंगिक मूल्य द्विआधारी फ़ंक्शन हैं [6]: 320  .

ध्यान दें कि क्रॉफ्ट एट अल (2010) और बर्गेस एट अल (2005) बेस ई के लॉग के साथ दूसरा डीसीजी (DCG) प्रस्तुत करते हैं, जबकि ऊपर डीसीजी के दोनों संस्करण बेस 2 के लॉग का उपयोग करते हैं। डीसीजी के पहले सूत्रीकरण के साथ एनडीसीजी की गणना करते समय लॉग का आधार कोई मायने नहीं रखता लेकिन इसका आधार लॉग दूसरे सूत्रीकरण के लिए एनडीसीजी के मूल्य को प्रभावित करता है स्पष्ट रूप से लॉग का आधार दोनों योगों में डीसीजी के मान को प्रभावित करता है।


सामान्यीकृत डीसीजी

वेब खोज क्वेरी के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। खोज इंजन के प्रदर्शन की तुलना एक क्वेरी से अगली तक लगातार डीसीजी का उपयोग करके प्राप्त नहीं किया जा सकता है इसलिए के चुने हुए मान के लिए प्रत्येक स्थान पर संचयी लाभ को सभी प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह कॉर्पस में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव डीसीजी का उत्पादन होता है, जिसे आइडियल डीसीजी (आईडीसीजी) भी कहा जाता है। किसी क्वेरी के लिए सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:

,

जहां IDCG आइडियल बट्टाकृत संचयी लाभ है,

और कॉर्पस में स्थिति p तक प्रासंगिक दस्तावेज़ों की सूची (उनकी प्रासंगिकता के अनुसार क्रमित) का प्रतिनिधित्व करता है।

खोज इंजन के रैंकिंग एल्गोरिथम के औसत प्रदर्शन का माप प्राप्त करने के लिए सभी प्रश्नों के लिए nDCG मानों का औसत निकाला जा सकता है। ध्यान दें कि एक पूर्ण रैंकिंग एल्गोरिथम में के समान होगा 1.0 का nDCG उत्पन्न करता है। सभी एनडीसीजी गणना तब अंतराल 0.0 से 1.0 पर सापेक्ष मान हैं इसलिए क्रॉस-क्वेरी तुलनीय हैं।

एनडीसीजी का उपयोग करने में आने वाली मुख्य कठिनाई परिणामों के आइडियल क्रम की अनुपलब्धता है जब केवल आंशिक प्रासंगिक प्रतिक्रिया उपलब्ध होती है।