क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति

क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति (सीएलआईआर) सूचना पुनर्प्राप्ति का एक उपक्षेत्र है, जो उपयोगकर्ता की क्वेरी की भाषा से भिन्न भाषा में लिखी गई जानकारी को पुनः प्राप्त करने से संबंधित है। इस शब्द में क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति शब्द के कई समानार्थक शब्द हैं, जिनमें से निम्नलिखित संभवतः सबसे अधिक बार मिलते हैं और इस प्रकार क्रॉस-लिंगुअल सूचना पुनर्प्राप्ति, ट्रांसलिंगुअल सूचना पुनर्प्राप्ति, बहुभाषी सूचना पुनर्प्राप्ति शब्द सामान्य रूप से बहुभाषी संग्रहों की पुनर्प्राप्ति के लिए प्रौद्योगिकी के लिए संदर्भित करता है, जिसे एक भाषा से दूसरी भाषा में सामग्री को संभालने के लिए स्थानांतरित किया जाता है। बहुभाषी सूचना पुनर्प्राप्ति (एमएलआईआर) शब्द में उन प्रणालियों का अध्ययन सम्मलित है, जो विभिन्न भाषाओं में जानकारी के लिए प्रश्नों को स्वीकार करते हैं और विभिन्न भाषाओं के ऑब्जेक्ट टेक्स्ट और अन्य मीडिया को उपयोगकर्ता की भाषा में अनुवादित करते हैं। क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति अधिक विशेष रूप से उपयोग के स्थितियों को संदर्भित करती है जहां उपयोगकर्ता एक भाषा में अपनी जानकारी की आवश्यकता का निरुपण करते हैं और प्रणाली किसी अन्य भाषा में प्रासंगिक दस्तावेजों को पुनः प्राप्त करता है। ऐसा करने के लिए अधिकांश सीएलआईआर प्रणालियाँ विभिन्न अनुवाद तकनीकों का उपयोग करती हैं। सीएलआईआर तकनीकों को विभिन्न अनुवाद संसाधनों के आधार पर विभिन्न श्रेणियों में वर्गीकृत किया जा सकता है।

शब्दकोश आधारित CLIR तकनीकें


 * समानांतर कॉर्पोरा आधारित CLIR तकनीकें
 * तुलनीय कॉर्पोरा आधारित CLIR तकनीकें
 * मशीन अनुवादक आधारित CLIR तकनीकें

CLIR प्रणाली में इतना सुधार हुआ है कि आज सबसे सटीक बहुभाषी और क्रॉस-लिंगुअल एडहॉक सूचना पुनर्प्राप्ति  प्रणाली लगभग मोनोलिंगुअल  प्रणाली के रूप में प्रभावी हैं। अन्य संबंधित सूचना एक्सेस कार्यों, जैसे कि  मीडिया निगरानी, सूचना फ़िल्टरिंग और रूटिंग, भावना विश्लेषण, और सूचना निष्कर्षण के लिए अधिक परिष्कृत मॉडल की आवश्यकता होती है और आम तौर पर ब्याज की सूचना वस्तुओं के अधिक प्रसंस्करण और विश्लेषण की आवश्यकता होती है। उस प्रसंस्करण में से अधिकांश को उन लक्षित भाषाओं की बारीकियों के बारे में पता होना चाहिए, जिनमें इसे तैनात किया गया है।

अधिकतर, भाषाई टाइपोलॉजी के विभिन्न तंत्र सूचना पुनर्प्राप्ति प्रणालियों के लिए कवरेज चुनौतियों का सामना करते हैं: संग्रह में पाठ रुचि के विषय का इलाज कर सकते हैं लेकिन उन शब्दों या अभिव्यक्तियों का उपयोग करते हैं जो उपयोगकर्ता द्वारा दी गई जानकारी की अभिव्यक्ति से मेल नहीं खाते हैं। यह एकभाषी मामले में भी सच हो सकता है, लेकिन यह विशेष रूप से क्रॉस-भाषी सूचना पुनर्प्राप्ति में सच है, जहां उपयोगकर्ता लक्ष्य भाषा को कुछ हद तक ही जान सकते हैं। लक्ष्य भाषा में खराब से मध्यम क्षमता वाले उपयोगकर्ताओं के लिए CLIR तकनीक का लाभ धाराप्रवाह बोलने वालों की तुलना में अधिक पाया गया है। CLIR सेवाओं के लिए मौजूद विशिष्ट तकनीकों में कंपाउंड (भाषा विज्ञान) को संभालने के लिए रूपान्तरण, डीकंपाउंडिंग या कंपाउंड स्प्लिटिंग को संभालने के लिए आकृति विज्ञान (भाषा विज्ञान) और एक भाषा से दूसरी भाषा में क्वेरी का अनुवाद करने के लिए अनुवाद तंत्र शामिल हैं।

SIGIR-96 सम्मेलन के दौरान ज़्यूरिख में CLIR पर पहली कार्यशाला आयोजित की गई थी। क्रॉस लैंग्वेज इवैल्यूएशन फोरम (सीएलईएफ) की बैठकों में 2000 से सालाना कार्यशालाएं आयोजित की जाती रही हैं। शोधकर्ता विभिन्न प्रणालियों और सूचना पुनर्प्राप्ति के तरीकों के बारे में अपने निष्कर्षों पर चर्चा करने के लिए वार्षिक पाठ पुनर्प्राप्ति सम्मेलन (TREC) में भी बुलाते हैं, और सम्मेलन ने CLIR उपक्षेत्र के संदर्भ बिंदु के रूप में कार्य किया है। 19-21 नवंबर, 1997 को राष्ट्रीय मानक और प्रौद्योगिकी संस्थान (NIST) में आयोजित TREC-6 में शुरुआती CLIR प्रयोग किए गए थे। Google खोज में एक क्रॉस-भाषा खोज सुविधा थी जिसे 2013 में हटा दिया गया था।

यह भी देखें

 * EXCLAIM (एक्सटेंसिबल क्रॉस-भाषाई स्वचालित सूचना मशीन)
 * CLEF (मूल्यांकन फोरम का सम्मेलन और लैब्स, जिसे पहले क्रॉस-लैंग्वेज मूल्यांकन फोरम के रूप में जाना जाता था)

बाहरी संबंध

 * A resource page for CLIR
 * A search engine for CLIR