रैंकिंग (सूचना पुनर्प्राप्ति)

क्वेरी की रैंकिंग सूचना पुनर्प्राप्ति (आईआर) में मूलभूत समस्याओं में से एक है, खोज इंजन के पीछे का वैज्ञानिक/इंजीनियरिंग अनुशासन। एक प्रश्न दिया गया $q$ और एक संग्रह $D$ जो दस्तावेज़ क्वेरी से मेल खाते हैं, उनमें समस्या रैंक करने की है, यानी दस्तावेज़ों को क्रमबद्ध करने की है $D$ कुछ मानदंडों के अनुसार ताकि सर्वोत्तम परिणाम उपयोगकर्ता को प्रदर्शित परिणाम सूची में जल्दी दिखाई दें। सूचना पुनर्प्राप्ति के संदर्भ में रैंकिंग कंप्यूटर विज्ञान में एक महत्वपूर्ण अवधारणा है और इसका उपयोग खोज इंजन क्वेरी और अनुशंसा प्रणाली जैसे कई अलग-अलग अनुप्रयोगों में किया जाता है। अधिकांश खोज इंजन उपयोगकर्ताओं को सटीक और प्रासंगिक (सूचना पुनर्प्राप्ति) परिणाम प्रदान करने के लिए रैंकिंग एल्गोरिदम का उपयोग करते हैं।

इतिहास
पेज रैंक की धारणा 1940 के दशक की है और यह विचार अर्थशास्त्र के क्षेत्र में उत्पन्न हुआ था। 1941 में, वासिली लियोन्टीफ़ ने किसी देश के क्षेत्र को संसाधनों की आपूर्ति करने वाले अन्य क्षेत्रों के महत्व के आधार पर उसके मूल्यांकन की एक पुनरावृत्तीय पद्धति विकसित की। 1965 में, कैलिफ़ोर्निया विश्वविद्यालय, सांता बारबरा में चार्ल्स एच हबबेल ने उन लोगों के महत्व के आधार पर व्यक्तियों के महत्व को निर्धारित करने के लिए एक तकनीक प्रकाशित की जो उनका समर्थन करते हैं। गेब्रियल पिंस्की और फ्रांसिस नारिन पत्रिकाओं को रैंक करने के लिए एक दृष्टिकोण लेकर आए। उनका नियम था कि कोई पत्रिका तभी महत्वपूर्ण होती है जब उसे अन्य महत्वपूर्ण पत्रिकाओं द्वारा उद्धृत किया जाता है। कॉर्नेल विश्वविद्यालय के कंप्यूटर वैज्ञानिक जॉन क्लेनबर्ग ने पृष्ठ रैंक  के लिए लगभग समान दृष्टिकोण विकसित किया, जिसे हिट्स एल्गोरिदम या हिट्स कहा गया और इसने  वेब पृष्ठ  को हब और अथॉरिटी के रूप में माना।

Google का पेजरैंक एल्गोरिदम 1998 में Google के संस्थापकों सर्गी ब्रिन और लेरी पेज  द्वारा विकसित किया गया था और यह खोज इंजन परिणाम पृष्ठ में वेब पेजों को रैंकिंग देने की Google की पद्धति का एक महत्वपूर्ण हिस्सा है। उपरोक्त सभी विधियाँ कुछ हद तक समान हैं क्योंकि ये सभी लिंक की संरचना का शोषण करती हैं और एक पुनरावृत्त दृष्टिकोण की आवश्यकता होती है।

रैंकिंग मॉडल
रैंकिंग कार्यों का मूल्यांकन विभिन्न माध्यमों से किया जाता है; सबसे सरल में से एक है कुछ निश्चित k के लिए पहले k शीर्ष क्रम के परिणामों की सटीकता (सूचना पुनर्प्राप्ति) निर्धारित करना; उदाहरण के लिए, कई प्रश्नों पर औसतन शीर्ष 10 परिणामों का अनुपात, जो प्रासंगिक हैं।

आईआर मॉडल को मोटे तौर पर तीन प्रकारों में विभाजित किया जा सकता है: सूचना पुनर्प्राप्ति का बूलियन मॉडल या बीआईआर, वेक्टर स्पेस मॉडल और सांख्यिकीय भाषा अधिग्रहण। पुनर्प्राप्ति मॉडल के बीच विभिन्न तुलनाएँ साहित्य में पाई जा सकती हैं (उदाहरण के लिए, ).

बूलियन मॉडल
बूलियन मॉडल या बीआईआर एक सरल बेसलाइन क्वेरी मॉडल है जहां प्रत्येक क्वेरी बीजगणितीय अभिव्यक्तियों के साथ संबंधपरक बीजगणित के अंतर्निहित सिद्धांतों का पालन करती है और जहां दस्तावेज़ तब तक नहीं लाए जाते जब तक कि वे एक-दूसरे से पूरी तरह मेल नहीं खाते। चूँकि क्वेरी या तो दस्तावेज़ लाती है (1) या दस्तावेज़ लाती नहीं है (0), उन्हें रैंक करने की कोई पद्धति नहीं है।

वेक्टर स्पेस मॉडल
चूँकि बूलियन मॉडल केवल पूर्ण मिलान प्राप्त करता है, यह दस्तावेज़ों के आंशिक रूप से मिलान होने की समस्या का समाधान नहीं करता है। वेक्टर स्पेस मॉडल प्रत्येक भार के साथ निर्दिष्ट सूचकांक वस्तुओं के वैक्टर को पेश करके इस समस्या का समाधान करता है। यदि दस्तावेज़ मौजूद हैं तो वज़न सकारात्मक (यदि पूरी तरह से या कुछ हद तक मेल खाता है) से लेकर नकारात्मक (यदि बेमेल या पूरी तरह से विपरीत रूप से मेल खाता है) तक होता है। टर्म फ़्रीक्वेंसी - व्युत्क्रम दस्तावेज़ फ़्रीक्वेंसी (tf-idf) सबसे लोकप्रिय तकनीकों में से एक है जहाँ वज़न शब्द हैं (जैसे शब्द, कीवर्ड, वाक्यांश आदि) और आयाम कॉर्पस के अंदर शब्दों की संख्या है।

कोसाइन समानता का उपयोग करके क्वेरी वेट वेक्टर और दस्तावेज़ वेट वेक्टर के बीच कोसाइन मान की गणना करके क्वेरी और दस्तावेज़ के बीच समानता स्कोर पाया जा सकता है। वांछित दस्तावेज़ों को समानता स्कोर के अनुसार रैंकिंग करके प्राप्त किया जा सकता है और शीर्ष k दस्तावेज़ प्राप्त किए जा सकते हैं जिनके स्कोर उच्चतम हैं या क्वेरी वेक्टर के लिए सबसे अधिक प्रासंगिक हैं।

संभाव्य मॉडल
संभाव्य मॉडल में, संभाव्यता सिद्धांत का उपयोग गणितीय शब्दों में पुनर्प्राप्ति प्रक्रिया को मॉडलिंग करने के लिए एक प्रमुख साधन के रूप में किया गया है। सूचना पुनर्प्राप्ति का संभाव्यता मॉडल 1960 में मैरोन और कुह्न्स द्वारा पेश किया गया था और इसे रॉबर्टस्टन और अन्य शोधकर्ताओं द्वारा विकसित किया गया था। स्पैक जोन्स और विलेट (1997) के अनुसार: संभाव्य अवधारणाओं को पेश करने का औचित्य स्पष्ट है: आईआर सिस्टम प्राकृतिक भाषा से निपटते हैं, और यह इतना अधिक सटीक नहीं है कि किसी सिस्टम को निश्चित रूप से यह बताने में सक्षम बनाया जा सके कि कौन सा दस्तावेज़ किसी विशेष प्रश्न के लिए प्रासंगिक होगा।

मॉडल सूचना पुनर्प्राप्ति के लिए संभाव्यता के सिद्धांत को लागू करता है (किसी घटना के घटित होने की संभावना 0 प्रतिशत से 100 प्रतिशत तक होती है)। यानी, संभाव्यता मॉडल में, प्रासंगिकता संभाव्यता के संदर्भ में व्यक्त की जाती है। यहां, दस्तावेज़ों को प्रासंगिकता की घटती संभावना के क्रम में क्रमबद्ध किया गया है। यह आईआर प्रक्रिया में अनिश्चितता तत्व पर विचार करता है। यानी, इस बारे में अनिश्चितता कि सिस्टम द्वारा पुनर्प्राप्त दस्तावेज़ किसी दिए गए प्रश्न के लिए प्रासंगिक हैं या नहीं।

संभाव्यता मॉडल का उद्देश्य इस संभावना का अनुमान लगाना और गणना करना है कि कुछ तरीकों के आधार पर एक दस्तावेज़ किसी दिए गए प्रश्न के लिए प्रासंगिक होगा। सूचना पुनर्प्राप्ति के इस संदर्भ में "घटना" एक क्वेरी और दस्तावेज़ के बीच प्रासंगिकता की संभावना को संदर्भित करता है। अन्य आईआर मॉडल के विपरीत, संभाव्यता मॉडल प्रासंगिकता को सटीक मिस-या-मैच माप के रूप में नहीं मानता है।

मॉडल प्रश्नों और दस्तावेज़ों के बीच प्रासंगिकता की संभावना निर्धारित करने के लिए विभिन्न तरीकों को अपनाता है। संभाव्यता मॉडल में प्रासंगिकता को प्रश्नों और दस्तावेजों के बीच समानता के अनुसार आंका जाता है। समानता का निर्णय आगे शब्द आवृत्ति पर निर्भर है।

इस प्रकार, केवल एक शब्द (बी) से युक्त एक प्रश्न के लिए, एक विशेष दस्तावेज़ (डीएम) को प्रासंगिक माना जाएगा की संभावना उन उपयोगकर्ताओं का अनुपात है जो प्रश्न शब्द (बी) जमा करते हैं और दस्तावेज़ (डीएम) को प्रासंगिक मानते हैं शब्द (बी) सबमिट करने वाले उपयोगकर्ताओं की संख्या के संबंध में। जैसा कि मैरॉन और कुह्न के मॉडल में दर्शाया गया है, इसे इस संभावना के रूप में दर्शाया जा सकता है कि एक विशेष क्वेरी शब्द (बी) सबमिट करने वाले उपयोगकर्ता एक व्यक्तिगत दस्तावेज़ (डीएम) को प्रासंगिक मानेंगे।

जेरार्ड साल्टन और माइकल जे. मैकगिल के अनुसार, इस मॉडल का सार यह है कि यदि प्रासंगिक दस्तावेज़ों में विभिन्न शब्दों के घटित होने की संभावना के अनुमान की गणना की जा सकती है, तो संभावनाएँ कि एक दस्तावेज़ पुनः प्राप्त किया जाएगा, यह देखते हुए कि यह प्रासंगिक है, या कि नहीं है, इसका अनुमान लगाया जा सकता है. कई प्रयोगों से पता चला है कि संभाव्य मॉडल अच्छे परिणाम दे सकता है। हालाँकि, ऐसे परिणाम बूलियन या वेक्टर स्पेस मॉडल का उपयोग करके प्राप्त परिणामों से पर्याप्त रूप से बेहतर नहीं रहे हैं।

मूल्यांकन के उपाय
मूल्यांकन के सबसे सामान्य उपाय परिशुद्धता, रिकॉल और एफ-स्कोर हैं। उनकी गणना दस्तावेज़ों के अव्यवस्थित सेटों का उपयोग करके की जाती है। आधुनिक खोज इंजनों में मानक रैंक किए गए पुनर्प्राप्ति परिणामों का मूल्यांकन करने के लिए इन उपायों को बढ़ाया जाना चाहिए, या नए उपायों को परिभाषित किया जाना चाहिए। रैंक किए गए पुनर्प्राप्ति संदर्भ में, पुनर्प्राप्त दस्तावेज़ों के उचित सेट स्वाभाविक रूप से शीर्ष k पुनर्प्राप्त दस्तावेज़ों द्वारा दिए जाते हैं। ऐसे प्रत्येक सेट के लिए, परिशुद्धता-रिकॉल वक्र देने के लिए परिशुद्धता और रिकॉल मानों को प्लॉट किया जा सकता है।

परिशुद्धता
परिशुद्धता पुनर्प्राप्ति प्रक्रिया की सटीकता को मापती है। यदि प्रासंगिक दस्तावेजों का वास्तविक सेट I द्वारा दर्शाया गया है और दस्तावेजों का पुनर्प्राप्त सेट O द्वारा दर्शाया गया है, तो सटीकता इस प्रकार दी गई है: $$ \text{Precision}=\frac{|\{\text{I}\}\cap\{\text{O}\}|}{|\{\text{O}\}|} $$

स्मरण
रिकॉल आईआर प्रक्रिया की पूर्णता का एक माप है। यदि प्रासंगिक दस्तावेजों का वास्तविक सेट I द्वारा दर्शाया गया है और दस्तावेजों का पुनर्प्राप्त सेट O द्वारा दर्शाया गया है, तो रिकॉल इस प्रकार दिया जाता है: $$ \text{Recall}=\frac{|\{\text{I}\}\cap\{\text{O}\}|}{|\{\text{I}\}|} $$

एफ1 स्कोर
F1 स्कोर परिशुद्धता और रिकॉल माप को संयोजित करने का प्रयास करता है। यह दोनों का हार्मोनिक माध्य है। यदि P परिशुद्धता है और R रिकॉल है तो F-स्कोर इस प्रकार दिया जाता है:


 * $$F_1 = 2 \cdot \frac{\mathrm{P} \cdot \mathrm{R}}{\mathrm{P} + \mathrm{R}}$$

पेज रैंक एल्गोरिथम
पेजरैंक एल्गोरिदम एक संभाव्यता वितरण को आउटपुट करता है जिसका उपयोग इस संभावना को दर्शाने के लिए किया जाता है कि लिंक पर बेतरतीब ढंग से क्लिक करने वाला व्यक्ति किसी विशेष पृष्ठ पर पहुंच जाएगा। पेजरैंक की गणना किसी भी आकार के दस्तावेज़ों के संग्रह के लिए की जा सकती है। कई शोध पत्रों में यह माना गया है कि कम्प्यूटेशनल प्रक्रिया की शुरुआत में वितरण को संग्रह के सभी दस्तावेजों के बीच समान रूप से विभाजित किया गया है। पेजरैंक गणना के लिए सैद्धांतिक वास्तविक मूल्य को अधिक बारीकी से प्रतिबिंबित करने के लिए अनुमानित पेजरैंक मानों को समायोजित करने के लिए संग्रह के माध्यम से कई बार गुजरने की आवश्यकता होती है। सूत्र नीचे दिए गए हैं:


 * $$PR(u) = \sum_{v \in B_u} \frac{PR(v)}{L(v)}$$

यानी पेज यू के लिए पेजरैंक मान सेट बी में शामिल प्रत्येक पेज वी के लिए पेजरैंक मान पर निर्भर हैu(सेट जिसमें पेज यू से लिंक करने वाले सभी पेज शामिल हैं), पेज वी से लिंक की मात्रा एल(वी) से विभाजित किया गया है।

हिट एल्गोरिथम
पेजरैंक के समान, HITS पृष्ठों की प्रासंगिकता का विश्लेषण करने के लिए लिंक विश्लेषण का उपयोग करता है, लेकिन केवल सबग्राफ के छोटे सेट (संपूर्ण वेब ग्राफ़ के बजाय) पर काम करता है और साथ ही क्वेरी पर निर्भर होता है। सबग्राफ को हब और प्राधिकरणों में वजन के अनुसार रैंक किया जाता है, जहां उच्चतम रैंक वाले पेज लाए और प्रदर्शित किए जाते हैं।

यह भी देखें

 * रैंक करना सीखना: रैंकिंग समस्या के लिए यंत्र अधिगम  का अनुप्रयोग