रियायती संचयी लाभ

रियायती संचयी लाभ (DCG) रैंकिंग गुणवत्ता का एक पैमाना है। सूचना पुनर्प्राप्ति में, इसका उपयोग अक्सर वर्ल्ड वाइड वेब खोज इंजन कलन विधि या संबंधित अनुप्रयोगों की प्रभावशीलता को मापने के लिए किया जाता है। खोज-इंजन परिणाम सेट में दस्तावेजों की प्रासंगिकता (सूचना पुनर्प्राप्ति) पैमाने का उपयोग करते हुए, डीसीजी परिणाम सूची में अपनी स्थिति के आधार पर दस्तावेज़ की उपयोगिता, या लाभ को मापता है। लाभ परिणाम सूची के शीर्ष से नीचे तक संचित होता है, प्रत्येक परिणाम के लाभ के साथ निम्न रैंकों पर छूट दी जाती है।Cite error: Closing </ref> missing for <ref> tag इस तथ्य के अलावा कि यह एक चिकनी कमी पैदा करता है। लेकिन वांग एट अल। (2013)^[1] सामान्यीकृत डीसीजी (एनडीसीजी) में लॉगरिदमिक कमी कारक का उपयोग करने के लिए सैद्धांतिक गारंटी दी। लेखक बताते हैं कि प्रत्येक जोड़ी के लिए अलग-अलग रैंकिंग कार्यों के लिए, एनडीसीजी यह तय कर सकता है कि कौन सा एक सुसंगत तरीके से बेहतर है।

DCG का एक वैकल्पिक सूत्रीकरण^[2] प्रासंगिक दस्तावेजों को पुनः प्राप्त करने पर अधिक जोर देता है:

\mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}

प्रमुख वेब खोज कंपनियों सहित उद्योग में आमतौर पर बाद वाले सूत्र का उपयोग किया जाता है^[3] और डेटा साइंस प्रतियोगिता प्लेटफॉर्म जैसे कागल।^[4] डीसीजी के ये दो फॉर्मूलेशन समान हैं जब दस्तावेजों के प्रासंगिक मूल्य बाइनरी फ़ंक्शन हैं;^[5]^: 320 $rel_{i}\in \{0,1\}$ .

ध्यान दें कि क्रॉफ्ट एट अल। (2010) और बर्गेस एट अल। (2005) बेस ई के लॉग के साथ दूसरा DCG प्रस्तुत करते हैं, जबकि ऊपर DCG के दोनों संस्करण बेस 2 के लॉग का उपयोग करते हैं। DCG के पहले फॉर्मूलेशन के साथ NDCG की गणना करते समय, लॉग का आधार कोई मायने नहीं रखता, लेकिन इसका आधार लॉग दूसरे फॉर्मूलेशन के लिए एनडीसीजी के मूल्य को प्रभावित करता है। स्पष्ट रूप से, लॉग का आधार दोनों योगों में DCG के मान को प्रभावित करता है।

सामान्यीकृत डीसीजी

वेब खोज क्वेरी के आधार पर खोज परिणाम सूचियां लंबाई में भिन्न होती हैं। एक खोज इंजन के प्रदर्शन की तुलना एक क्वेरी से अगली तक अकेले DCG का उपयोग करके लगातार प्राप्त नहीं किया जा सकता है, इसलिए प्रत्येक स्थिति में एक चुने हुए मूल्य के लिए संचयी लाभ $p$ प्रश्नों में सामान्यीकृत किया जाना चाहिए। यह कॉर्पस में सभी प्रासंगिक दस्तावेजों को उनकी सापेक्ष प्रासंगिकता के आधार पर क्रमबद्ध करके किया जाता है, जिससे स्थिति के माध्यम से अधिकतम संभव DCG का उत्पादन होता है $p$ , उस स्थिति के माध्यम से आदर्श डीसीजी (आईडीसीजी) भी कहा जाता है। किसी क्वेरी के लिए, सामान्यीकृत छूट प्राप्त संचयी लाभ या nDCG की गणना इस प्रकार की जाती है:

\mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG_{p}}}

,

जहां IDCG आदर्श बट्टाकृत संचयी लाभ है,

\mathrm {IDCG_{p}} =\sum _{i=1}^{|REL_{p}|}{\frac {rel_{i}}{\log _{2}(i+1)}}

और $REL_{p}$ प्रासंगिक दस्तावेजों की सूची का प्रतिनिधित्व करता है (उनकी प्रासंगिकता द्वारा आदेशित) पी स्थिति तक कॉर्पस में।

खोज इंजन के रैंकिंग एल्गोरिथम के औसत प्रदर्शन का माप प्राप्त करने के लिए सभी प्रश्नों के लिए nDCG मानों का औसत निकाला जा सकता है। ध्यान दें कि एक पूर्ण रैंकिंग एल्गोरिथम में, $DCG_{p}$ के समान होगा $IDCG_{p}$ 1.0 का nDCG उत्पन्न करता है। सभी एनडीसीजी गणना तब अंतराल 0.0 से 1.0 पर सापेक्ष मान हैं और इसलिए क्रॉस-क्वेरी तुलनीय हैं।

एनडीसीजी का उपयोग करने में आने वाली मुख्य कठिनाई परिणामों के आदर्श क्रम की अनुपलब्धता है जब केवल आंशिक प्रासंगिक प्रतिक्रिया उपलब्ध होती है।

उदाहरण

एक खोज क्वेरी के जवाब में दस्तावेजों की एक सूची के साथ प्रस्तुत किया गया, एक प्रयोग प्रतिभागी को क्वेरी के लिए प्रत्येक दस्तावेज़ की प्रासंगिकता का न्याय करने के लिए कहा गया। प्रत्येक दस्तावेज़ को 0-3 के पैमाने पर आंका जाना है, जिसमें 0 का अर्थ प्रासंगिक नहीं है, 3 का अर्थ अत्यधिक प्रासंगिक है, और 1 और 2 का अर्थ कहीं बीच में है। रैंकिंग एल्गोरिथम द्वारा ऑर्डर किए गए दस्तावेज़ों के लिए

D_{1},D_{2},D_{3},D_{4},D_{5},D_{6}

उपयोगकर्ता निम्नलिखित प्रासंगिकता स्कोर प्रदान करता है:

3,2,3,0,1,2

अर्थात्: दस्तावेज़ 1 की प्रासंगिकता 3 है, दस्तावेज़ 2 की प्रासंगिकता 2 है, आदि। इस खोज परिणाम लिस्टिंग का संचयी लाभ है:

\mathrm {CG_{6}} =\sum _{i=1}^{6}rel_{i}=3+2+3+0+1+2=11

किन्हीं दो दस्तावेज़ों के क्रम को बदलने से CG माप प्रभावित नहीं होता है। अगर $D_{3}$ और $D_{4}$ स्विच किए जाते हैं, सीजी वही रहता है, 11. डीसीजी का उपयोग परिणाम सूची में जल्दी दिखाई देने वाले अत्यधिक प्रासंगिक दस्तावेजों पर जोर देने के लिए किया जाता है। कमी के लिए लघुगणकीय पैमाने का उपयोग करते हुए, क्रम में प्रत्येक परिणाम के लिए DCG है:

$i$	$rel_{i}$	$\log _{2}(i+1)$	${\frac {rel_{i}}{\log _{2}(i+1)}}$
1	3	1	3
2	2	1.585	1.262
3	3	2	1.5
4	0	2.322	0
5	1	2.585	0.387
6	2	2.807	0.712

इतना $DCG_{6}$ इस रैंकिंग का है:

\mathrm {DCG_{6}} =\sum _{i=1}^{6}{\frac {rel_{i}}{\log _{2}(i+1)}}=3+1.262+1.5+0+0.387+0.712=6.861

अब का एक स्विच $D_{3}$ और $D_{4}$ DCG कम हो जाता है क्योंकि एक कम प्रासंगिक दस्तावेज़ को रैंकिंग में ऊपर रखा जाता है; अर्थात्, एक अधिक प्रासंगिक दस्तावेज़ को कम रैंक में रखकर अधिक छूट दी जाती है।

इस क्वेरी का प्रदर्शन दूसरे के लिए इस रूप में अतुलनीय है क्योंकि अन्य क्वेरी के अधिक परिणाम हो सकते हैं, जिसके परिणामस्वरूप एक बड़ा समग्र डीसीजी हो सकता है जो जरूरी नहीं कि बेहतर हो। तुलना करने के लिए, डीसीजी मूल्यों को सामान्यीकृत किया जाना चाहिए।

डीसीजी मूल्यों को सामान्य करने के लिए, दी गई क्वेरी के लिए एक आदर्श क्रम की आवश्यकता होती है। इस उदाहरण के लिए, वह आदेश सभी ज्ञात प्रासंगिक निर्णयों का मोनोटोनिक प्रकार होगा। इस प्रयोग से छः के अलावा, मान लीजिए कि हम यह भी जानते हैं कि एक दस्तावेज है $D_{7}$ प्रासंगिकता ग्रेड 3 के साथ एक ही प्रश्न और एक दस्तावेज़ के लिए $D_{8}$ उस क्वेरी के लिए प्रासंगिकता ग्रेड 2 के साथ। तब आदर्श क्रम है:

3,3,3,2,2,2,1,0

रैंकिंग के विश्लेषण की गहराई से मिलान करने के लिए आदर्श रैंकिंग को फिर से लंबाई 6 में काट दिया जाता है:

3,3,3,2,2,2

इस आदर्श क्रम के DCG, या IDCG (आदर्श DCG) की गणना 6 रैंक पर की जाती है:

\mathrm {IDCG_{6}} =8.740

और इसलिए इस प्रश्न के लिए एनडीसीजी इस प्रकार दिया गया है:

\mathrm {nDCG_{6}} ={\frac {DCG_{6}}{IDCG_{6}}}={\frac {6.861}{8.740}}=0.785

सीमाएं

सामान्यीकृत DCG मीट्रिक परिणाम में खराब दस्तावेज़ों के लिए दंडित नहीं करता है। उदाहरण के लिए, यदि कोई क्वेरी स्कोर के साथ दो परिणाम देती है $1,1,1$ और $1,1,1,0$ क्रमशः, दोनों को समान रूप से अच्छा माना जाएगा, भले ही बाद वाले में खराब दस्तावेज़ हो। रैंकिंग निर्णय के लिए $Excellent, Fair, Bad$ कोई संख्यात्मक अंकों का उपयोग कर सकता है $1,0,-1$ के बजाय $2,1,0$ . यदि खराब परिणाम लौटाए जाते हैं तो इससे स्कोर कम हो जाएगा, रिकॉल पर परिणामों की सटीकता को प्राथमिकता दी जाएगी। ध्यान दें कि इस दृष्टिकोण के परिणामस्वरूप एक समग्र नकारात्मक स्कोर हो सकता है जो स्कोर की निचली सीमा को स्थानांतरित कर देगा $0$ एक नकारात्मक मूल्य के लिए।
सामान्यीकृत DCG परिणाम में गुम दस्तावेजों के लिए दंडित नहीं करता है। उदाहरण के लिए, यदि कोई क्वेरी स्कोर के साथ दो परिणाम देती है $1,1,1$ और $1,1,1,1,1$ क्रमशः, दोनों को समान रूप से अच्छा माना जाएगा, यह मानते हुए कि आदर्श DCG की गणना पूर्व के लिए रैंक 3 और बाद के लिए रैंक 5 पर की जाती है। इस सीमा को ध्यान में रखने का एक तरीका परिणाम सेट के लिए निश्चित सेट आकार को लागू करना और लापता दस्तावेज़ों के लिए न्यूनतम स्कोर का उपयोग करना है। पिछले उदाहरण में, हम स्कोर का उपयोग करेंगे $1,1,1,0,0$ और $1,1,1,1,1$ और nDCG को nDCG@5 के रूप में उद्धृत करें।
सामान्यीकृत डीसीजी उन प्रश्नों के प्रदर्शन को मापने के लिए उपयुक्त नहीं हो सकता है जिनके अक्सर कई समान अच्छे परिणाम हो सकते हैं। यह विशेष रूप से सच है जब यह मीट्रिक केवल पहले कुछ परिणामों तक ही सीमित है जैसा कि व्यवहार में किया जाता है। उदाहरण के लिए, रेस्तरां nDCG@1 जैसे प्रश्नों के लिए केवल पहला परिणाम होगा और इसलिए यदि एक परिणाम सेट में पास के क्षेत्र से केवल 1 रेस्तरां शामिल है, जबकि दूसरे में 5 हैं, तो बाद वाले के बावजूद दोनों का स्कोर समान होगा अधिक विस्तृत है।

यह भी देखें

संदर्भ

↑ Yining Wang, Liwei Wang, Yuanzhi Li, Di He, Wei Chen, Tie-Yan Liu. 2013. A Theoretical Analysis of Normalized Discounted Cumulative Gain (NDCG) Ranking Measures. In Proceedings of the 26th Annual Conference on Learning Theory (COLT 2013).
↑ Chris Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Greg Hullender. 2005. Learning to rank using gradient descent. In Proceedings of the 22nd international conference on Machine learning (ICML '05). ACM, New York, NY, USA, 89-96. DOI=10.1145/1102351.1102363 http://doi.acm.org/10.1145/1102351.1102363
↑ "सूचना पुनर्प्राप्ति का परिचय - मूल्यांकन" (PDF). Stanford University. 21 April 2013. Retrieved 23 March 2014.
↑ "सामान्यीकृत रियायती संचयी लाभ". Archived from the original on 23 March 2014. Retrieved 23 March 2014.
↑ Cite error: Invalid <ref> tag; no text was provided for refs named CMS2009

[1] Yining Wang, Liwei Wang, Yuanzhi Li, Di He, Wei Chen, Tie-Yan Liu. 2013. A Theoretical Analysis of Normalized Discounted Cumulative Gain (NDCG) Ranking Measures. In Proceedings of the 26th Annual Conference on Learning Theory (COLT 2013).

[2] Chris Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Greg Hullender. 2005. Learning to rank using gradient descent. In Proceedings of the 22nd international conference on Machine learning (ICML '05). ACM, New York, NY, USA, 89-96. DOI=10.1145/1102351.1102363 http://doi.acm.org/10.1145/1102351.1102363

[stanfordireval-3] "सूचना पुनर्प्राप्ति का परिचय - मूल्यांकन" (PDF). Stanford University. 21 April 2013. Retrieved 23 March 2014.

[4] "सामान्यीकृत रियायती संचयी लाभ". Archived from the original on 23 March 2014. Retrieved 23 March 2014.

[CMS2009-5] Cite error: Invalid <ref> tag; no text was provided for refs named CMS2009

[1]

[2]

[3]

[4]

[5]

v t e Machine learning evaluation metrics
Regression	MSE · MAE · sMAPE · MAPE · MASE · MSPE · RMS · RMSE/RMSD · R2 · MDA · MAD
Classification	F-score · P4 · Accuracy · Precision · Recall · Kappa · MCC · AUC · ROC · Sensitivity and specificity · Logarithmic Loss
Clustering	Silhouette · Calinski-Harabasz · Davies-Bouldin · Dunn index · Hopkins statistic · Jaccard index · Rand index · Similarity measure · SMC · SimHash
Ranking	MRR · DCG · NDCG · AP
Computer Vision	PSNR · SSIM · IoU
NLP	Perplexity · BLEU
Deep Learning Related Metrics	Inception score · FID
Recommender system	Coverage · Intra-list Similarity
Similarity	Cosine similarity · Euclidean distance · Pearson correlation coefficient
Confusion matrix

Anonymous

Search

रियायती संचयी लाभ

Namespaces

More

Page actions

Contents

सामान्यीकृत डीसीजी

उदाहरण

सीमाएं

यह भी देखें

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

रियायती संचयी लाभ

सामान्यीकृत डीसीजी

उदाहरण

सीमाएं

यह भी देखें

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories