रैंकिंग (सूचना पुनर्प्राप्ति)

क्वेरी की रैंकिंग सूचना पुनर्प्राप्ति (आईआर) में मूलभूत समस्याओं में से एक है, सर्च इंजन के पीछे का वैज्ञानिक/इंजीनियरिंग अनुशासन क्वेरी $q$ और क्वेरी से मेल खाते हैं, अर्थात् डाक्यूमेंटेशन के संग्रह $D$ को देखते हुए समस्या कुछ मानदंडों के अनुसार $D$ डाक्यूमेंटेशन को क्रमबद्ध करने के अनुसार जिससे सर्वोत्तम परिणाम उपयोगकर्ता को प्रदर्शित परिणाम सूची में जल्दी दिखाई दें। सूचना पुनर्प्राप्ति के संदर्भ में रैंकिंग कंप्यूटर विज्ञान में महत्वपूर्ण अवधारणा है। और इसका उपयोग सर्च इंजन क्वेरी और अनुशंसा प्रणाली जैसे कई अलग-अलग अनुप्रयोगों में किया जाता है। अधिकांश सर्च इंजन उपयोगकर्ताओं को सटीक और प्रासंगिक (सूचना पुनर्प्राप्ति) परिणाम प्रदान करने के लिए रैंकिंग एल्गोरिदम का उपयोग करते हैं।

इतिहास
पेज रैंक की धारणा 1940 के दशक की है और यह विचार अर्थशास्त्र के क्षेत्र में उत्पन्न हुआ था। 1941 में, वासिली लियोन्टीफ़ ने किसी देश के क्षेत्र को संसाधनों की आपूर्ति करने वाले अन्य क्षेत्रों के महत्व के आधार पर उसके मूल्यांकन की पुनरावृत्तीय पद्धति विकसित की 1965 में, कैलिफ़ोर्निया विश्वविद्यालय, सांता बारबरा में चार्ल्स एच हबबेल ने उन लोगों के महत्व के आधार पर व्यक्तियों के महत्व को निर्धारित करने के लिए तकनीक प्रकाशित की जो उनका समर्थन करते हैं।

गेब्रियल पिंस्की और फ्रांसिस नारिन पत्रिकाओं को रैंक करने के लिए दृष्टिकोण लेकर आए उनका नियम था कि कोई पत्रिका तभी महत्वपूर्ण होती है। जब उसे अन्य महत्वपूर्ण पत्रिकाओं द्वारा उद्धृत किया जाता है। कॉर्नेल विश्वविद्यालय के कंप्यूटर वैज्ञानिक जॉन क्लेनबर्ग ने पृष्ठ रैंक के लिए लगभग समान दृष्टिकोण विकसित किया, जिसे हिट्स एल्गोरिदम या हिट्स कहा गया और इसने वेब पृष्ठ को हब और अधिकार के रूप में माना।

गूगल का पेजरैंक एल्गोरिदम 1998 में गूगल के संस्थापकों सर्गी ब्रिन और लेरी पेज द्वारा विकसित किया गया था और यह सर्च इंजन परिणाम पृष्ठ में वेब पेजों को रैंकिंग देने की गूगल की पद्धति का महत्वपूर्ण भाग है। उपरोक्त सभी विधियाँ कुछ सीमा तक समान हैं क्योंकि ये सभी लिंक की संरचना का शोषण करती हैं और पुनरावृत्त दृष्टिकोण की आवश्यकता होती है।

रैंकिंग मॉडल
रैंकिंग कार्यों का मूल्यांकन विभिन्न माध्यमों से किया जाता है; सबसे सरल में से एक है कुछ निश्चित k के लिए पहले k शीर्ष क्रम के परिणामों की सटीकता (सूचना पुनर्प्राप्ति) निर्धारित करना; उदाहरण के लिए, कई प्रश्नों पर औसतन शीर्ष 10 परिणामों का अनुपात, जो प्रासंगिक हैं।

आईआर मॉडल को सामान्यतः तीन प्रकारों में विभाजित किया जा सकता है: सूचना पुनर्प्राप्ति का बूलियन मॉडल या बीआईआर, वेक्टर स्पेस मॉडल और सांख्यिकीय भाषा अधिग्रहण पुनर्प्राप्ति मॉडल के बीच विभिन्न तुलनाएँ साहित्य में पाई जा सकती हैं। (उदाहरण के लिए, )

बूलियन मॉडल
बूलियन मॉडल या बीआईआर सरल बेसलाइन क्वेरी मॉडल है जहां प्रत्येक क्वेरी बीजगणितीय अभिव्यक्तियों के साथ संबंधपरक बीजगणित के अंतर्निहित सिद्धांतों का पालन करती है। और जहां दस्तावेज़ तब तक नहीं लाए जाते जब तक कि वे एक-दूसरे से पूरी तरह मेल नहीं खाते चूँकि क्वेरी या तो दस्तावेज़ लाती है (1) या दस्तावेज़ लाती नहीं है (0), उन्हें रैंक करने की कोई पद्धति नहीं है।

वेक्टर स्पेस मॉडल
चूँकि बूलियन मॉडल केवल पूर्ण मिलान प्राप्त करता है, यह डाक्यूमेंटेशन के आंशिक रूप से मिलान होने की समस्या का समाधान नहीं करता है। वेक्टर स्पेस मॉडल प्रत्येक भार के साथ निर्दिष्ट सूचकांक वस्तुओं के वैक्टर को प्रस्तुत करके इस समस्या का समाधान करता है। यदि दस्तावेज़ उपस्थित हैं तो भार सकारात्मक (यदि पूरी तरह से या कुछ सीमा तक मेल खाता है।) से लेकर नकारात्मक (यदि बेमेल या पूरी तरह से विपरीत रूप से मेल खाता है) तक होता है। टर्म तरंग - व्युत्क्रम दस्तावेज़ तरंग (tf-idf) सबसे लोकप्रिय तकनीकों में से एक है जहाँ वज़न शब्द हैं (जैसे शब्द, कीवर्ड, वाक्यांश आदि) और आयाम कॉर्पस के अंदर शब्दों की संख्या है।

कोसाइन समानता का उपयोग करके क्वेरी वेट वेक्टर और दस्तावेज़ वेट वेक्टर के बीच कोसाइन मान की गणना करके क्वेरी और दस्तावेज़ के बीच समानता स्कोर पाया जा सकता है। वांछित डाक्यूमेंटेशन को समानता स्कोर के अनुसार रैंकिंग करके प्राप्त किया जा सकता है और शीर्ष k दस्तावेज़ प्राप्त किए जा सकते हैं जिनके स्कोर उच्चतम हैं या क्वेरी वेक्टर के लिए सबसे अधिक प्रासंगिक हैं।

संभाव्य मॉडल
संभाव्य मॉडल में, संभाव्यता सिद्धांत का उपयोग गणितीय शब्दों में पुनर्प्राप्ति प्रक्रिया को मॉडलिंग करने के लिए प्रमुख साधन के रूप में किया गया है। सूचना पुनर्प्राप्ति का संभाव्यता मॉडल 1960 में मैरोन और कुह्न्स द्वारा प्रस्तुत किया गया था और इसे रॉबर्टस्टन और अन्य शोधकर्ताओं द्वारा विकसित किया गया था। स्पैक जोन्स और विलेट (1997) के अनुसार: संभाव्य अवधारणाओं को प्रस्तुत करने का औचित्य स्पष्ट है: आईआर प्रणाली प्राकृतिक भाषा से निपटते हैं, और यह इतना अधिक सिद्ध नहीं है कि किसी प्रणाली को निश्चित रूप से यह बताने में सक्षम बनाया जा सके कि कौन सा दस्तावेज़ किसी विशेष प्रश्न के लिए प्रासंगिक होगा।

मॉडल सूचना पुनर्प्राप्ति के लिए संभाव्यता के सिद्धांत को प्रस्तुत करता है। (किसी घटना के घटित होने की संभावना 0 प्रतिशत से 100 प्रतिशत तक होती है।) अर्थात्, संभाव्यता मॉडल में, प्रासंगिकता संभाव्यता के संदर्भ में व्यक्त की जाती है। यहां, डाक्यूमेंटेशन को प्रासंगिकता की घटती संभावना के क्रम में क्रमबद्ध किया गया है। यह आईआर प्रक्रिया में अनिश्चितता तत्व पर विचार करता है। अर्थात्, इस बारे में अनिश्चितता कि प्रणाली द्वारा पुनर्प्राप्त दस्तावेज़ किसी दिए गए प्रश्न के लिए प्रासंगिक हैं या नहीं।

संभाव्यता मॉडल का उद्देश्य इस संभावना का अनुमान लगाना और गणना करना है कि कुछ विधियों के आधार पर दस्तावेज़ किसी दिए गए प्रश्न के लिए प्रासंगिक होगा। सूचना पुनर्प्राप्ति के इस संदर्भ में "घटना" क्वेरी और दस्तावेज़ के बीच प्रासंगिकता की संभावना को संदर्भित करता है। अन्य आईआर मॉडल के विपरीत, संभाव्यता मॉडल प्रासंगिकता को सटीक मिस-या-मैच माप के रूप में नहीं मानता है।

मॉडल प्रश्नों और डाक्यूमेंटेशन के बीच प्रासंगिकता की संभावना निर्धारित करने के लिए विभिन्न विधियों को अपनाता है। संभाव्यता मॉडल में प्रासंगिकता को प्रश्नों और डाक्यूमेंटेशन के बीच समानता के अनुसार मापा जाता है। समानता का निर्णय आगे शब्द आवृत्ति पर निर्भर है।

इस प्रकार, केवल शब्द (B) से युक्त प्रश्न के लिए, विशेष दस्तावेज़ (dm) को प्रासंगिक माना जाएगा की संभावना उन उपयोगकर्ताओं का अनुपात है जो प्रश्न शब्द (B) जमा करते हैं और दस्तावेज़ (dm) को प्रासंगिक मानते हैं शब्द (B) सबमिट करने वाले उपयोगकर्ताओं की संख्या के संबंध में। जैसा कि मैरॉन और कुह्न के मॉडल में दर्शाया गया है, इसे इस संभावना के रूप में दर्शाया जा सकता है कि विशेष क्वेरी शब्द (B) सबमिट करने वाले उपयोगकर्ता व्यक्तिगत दस्तावेज़ (dm) को प्रासंगिक मानेंगे।

जेरार्ड साल्टन और माइकल जे. मैकगिल के अनुसार, इस मॉडल का सार यह है कि यदि प्रासंगिक डाक्यूमेंटेशन में विभिन्न शब्दों के घटित होने की संभावना के अनुमान की गणना की जा सकती है, तो संभावनाएँ कि दस्तावेज़ पुनः प्राप्त किया जाएगा, यह देखते हुए कि यह प्रासंगिक है, या कि नहीं है, इसका अनुमान लगाया जा सकता है।

कई प्रयोगों से पता चला है कि संभाव्य मॉडल अच्छे परिणाम दे सकता है। चूंकि, ऐसे परिणाम बूलियन या वेक्टर स्पेस मॉडल का उपयोग करके प्राप्त परिणामों से पर्याप्त रूप से उचित नहीं हैं।

मूल्यांकन के उपाय
मूल्यांकन के सबसे सामान्य उपाय परिशुद्धता, रिकॉल और f-स्कोर हैं। उनकी गणना डाक्यूमेंटेशन के अव्यवस्थित सेटों का उपयोग करके की जाती है। आधुनिक सर्च इंजनों में मानक रैंक किए गए पुनर्प्राप्ति परिणामों का मूल्यांकन करने के लिए इन उपायों को बढ़ाया जाना चाहिए, या नए उपायों को परिभाषित किया जाना चाहिए। रैंक किए गए पुनर्प्राप्ति संदर्भ में, पुनर्प्राप्त डाक्यूमेंटेशन के उचित सेट स्वाभाविक रूप से शीर्ष k पुनर्प्राप्त डाक्यूमेंटेशन द्वारा दिए जाते हैं। ऐसे प्रत्येक सेट के लिए, परिशुद्धता-रिकॉल वक्र देने के लिए परिशुद्धता और रिकॉल मानों को प्लॉट किया जा सकता है।

परिशुद्धता
परिशुद्धता पुनर्प्राप्ति प्रक्रिया की सटीकता को मापती है। यदि प्रासंगिक डाक्यूमेंटेशन का वास्तविक सेट I द्वारा दर्शाया गया है और डाक्यूमेंटेशन का पुनर्प्राप्त सेट O द्वारा दर्शाया गया है, तो सटीकता इस प्रकार दी गई है: $$ \text{Precision}=\frac{|\{\text{I}\}\cap\{\text{O}\}|}{|\{\text{O}\}|} $$

स्मरण
रिकॉल आईआर प्रक्रिया की पूर्णता का माप है। यदि प्रासंगिक डाक्यूमेंटेशन का वास्तविक सेट द्वारा दर्शाया गया है और डाक्यूमेंटेशन का पुनर्प्राप्त सेट O द्वारा दर्शाया गया है, तो रिकॉल इस प्रकार दिया जाता है: $$ \text{Recall}=\frac{|\{\text{I}\}\cap\{\text{O}\}|}{|\{\text{I}\}|} $$

F1 स्कोर
F1 स्कोर परिशुद्धता और रिकॉल माप को संयोजित करने का प्रयास करता है। यह दोनों का हार्मोनिक माध्य है। यदि P परिशुद्धता है और R रिकॉल है तो F-स्कोर इस प्रकार दिया जाता है:


 * $$F_1 = 2 \cdot \frac{\mathrm{P} \cdot \mathrm{R}}{\mathrm{P} + \mathrm{R}}$$

पेज रैंक एल्गोरिथम
पेजरैंक एल्गोरिदम संभाव्यता वितरण को आउटपुट करता है जिसका उपयोग इस संभावना को दर्शाने के लिए किया जाता है कि लिंक पर अनियमित ढंग से क्लिक करने वाला व्यक्ति किसी विशेष पृष्ठ पर पहुंच जाएगा। पेजरैंक की गणना किसी भी आकार के डाक्यूमेंटेशन के संग्रह के लिए की जा सकती है। कई शोध पत्रों में यह माना गया है कि कम्प्यूटेशनल प्रक्रिया की प्रारंभिक में वितरण को संग्रह के सभी डाक्यूमेंटेशन के बीच समान रूप से विभाजित किया गया है। पेजरैंक गणना के लिए सैद्धांतिक वास्तविक मूल्य को अधिक शुद्धता से प्रतिबिंबित करने के लिए अनुमानित पेजरैंक मानों को समायोजित करने के लिए संग्रह के माध्यम से कई बार निकलने की आवश्यकता होती है। सूत्र नीचे दिए गए हैं:


 * $$PR(u) = \sum_{v \in B_u} \frac{PR(v)}{L(v)}$$

अर्थात् पेज u के लिए पेजरैंक मान सेट v में सम्मिलित प्रत्येक पेज Bu के लिए पेजरैंक मान पर निर्भर है (सेट जिसमें पेज u से लिंक करने वाले सभी पेज सम्मिलित हैं), पेज v से लिंक की मात्रा L(v) से विभाजित किया गया है।

हिट एल्गोरिथम
पेजरैंक के समान, HITS पृष्ठों की प्रासंगिकता का विश्लेषण करने के लिए लिंक विश्लेषण का उपयोग करता है, लेकिन केवल सबग्राफ के छोटे सेट (संपूर्ण वेब ग्राफ़ के अतिरिक्त) पर काम करता है, और साथ ही क्वेरी पर निर्भर होता है। सबग्राफ को हब और प्राधिकरणों में भार के अनुसार रैंक किया जाता है, जहां उच्चतम रैंक वाले पेज लाए और प्रदर्शित किए जाते हैं।

यह भी देखें

 * रैंक करना सीखना: रैंकिंग समस्या के लिए यंत्र अधिगम का अनुप्रयोग