क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति

क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति (सीएलआईआर) सूचना पुनर्प्राप्ति का एक उपक्षेत्र है जो उपयोगकर्ता की क्वेरी की भाषा से भिन्न भाषा में लिखी गई जानकारी को पुनः प्राप्त करने से संबंधित है। क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति शब्द के कई समानार्थक शब्द हैं, जिनमें से निम्नलिखित शायद सबसे अधिक बार होते हैं: क्रॉस-लिंगुअल सूचना पुनर्प्राप्ति, ट्रांसलिंगुअल सूचना पुनर्प्राप्ति, बहुभाषी सूचना पुनर्प्राप्ति। बहुभाषा सूचना पुनर्प्राप्ति शब्द आम तौर पर बहुभाषी संग्रहों की पुनर्प्राप्ति के लिए प्रौद्योगिकी और प्रौद्योगिकी के लिए संदर्भित करता है जिसे एक भाषा से दूसरी भाषा में सामग्री को संभालने के लिए स्थानांतरित किया गया है। बहुभाषी सूचना पुनर्प्राप्ति (एमएलआईआर) शब्द में उन प्रणालियों का अध्ययन शामिल है जो विभिन्न भाषाओं में जानकारी के लिए प्रश्नों को स्वीकार करते हैं और उपयोगकर्ता की भाषा में अनुवादित विभिन्न भाषाओं के ऑब्जेक्ट (टेक्स्ट और अन्य मीडिया) लौटाते हैं। क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति अधिक विशेष रूप से उपयोग के मामले को संदर्भित करती है जहां उपयोगकर्ता एक भाषा में अपनी जानकारी की आवश्यकता तैयार करते हैं और सिस्टम किसी अन्य भाषा में प्रासंगिक दस्तावेजों को पुनः प्राप्त करता है। ऐसा करने के लिए, अधिकांश CLIR प्रणालियाँ विभिन्न अनुवाद तकनीकों का उपयोग करती हैं। CLIR तकनीकों को विभिन्न अनुवाद संसाधनों के आधार पर विभिन्न श्रेणियों में वर्गीकृत किया जा सकता है: * शब्दकोश आधारित CLIR तकनीकें
 * समानांतर कॉर्पोरा आधारित CLIR तकनीकें
 * तुलनीय कॉर्पोरा आधारित CLIR तकनीकें
 * मशीन अनुवादक आधारित CLIR तकनीकें

CLIR सिस्टम में इतना सुधार हुआ है कि आज सबसे सटीक बहुभाषी और क्रॉस-लिंगुअल एडहॉक सूचना पुनर्प्राप्ति सिस्टम लगभग मोनोलिंगुअल सिस्टम के रूप में प्रभावी हैं। अन्य संबंधित सूचना एक्सेस कार्यों, जैसे कि मीडिया निगरानी, सूचना फ़िल्टरिंग और रूटिंग, भावना विश्लेषण, और सूचना निष्कर्षण के लिए अधिक परिष्कृत मॉडल की आवश्यकता होती है और आम तौर पर ब्याज की सूचना वस्तुओं के अधिक प्रसंस्करण और विश्लेषण की आवश्यकता होती है। उस प्रसंस्करण में से अधिकांश को उन लक्षित भाषाओं की बारीकियों के बारे में पता होना चाहिए, जिनमें इसे तैनात किया गया है।

अधिकतर, भाषाई टाइपोलॉजी के विभिन्न तंत्र सूचना पुनर्प्राप्ति प्रणालियों के लिए कवरेज चुनौतियों का सामना करते हैं: संग्रह में पाठ रुचि के विषय का इलाज कर सकते हैं लेकिन उन शब्दों या अभिव्यक्तियों का उपयोग करते हैं जो उपयोगकर्ता द्वारा दी गई जानकारी की अभिव्यक्ति से मेल नहीं खाते हैं। यह एकभाषी मामले में भी सच हो सकता है, लेकिन यह विशेष रूप से क्रॉस-भाषी सूचना पुनर्प्राप्ति में सच है, जहां उपयोगकर्ता लक्ष्य भाषा को कुछ हद तक ही जान सकते हैं। लक्ष्य भाषा में खराब से मध्यम क्षमता वाले उपयोगकर्ताओं के लिए CLIR तकनीक का लाभ धाराप्रवाह बोलने वालों की तुलना में अधिक पाया गया है। CLIR सेवाओं के लिए मौजूद विशिष्ट तकनीकों में कंपाउंड (भाषा विज्ञान) को संभालने के लिए रूपान्तरण, डीकंपाउंडिंग या कंपाउंड स्प्लिटिंग को संभालने के लिए आकृति विज्ञान (भाषा विज्ञान) और एक भाषा से दूसरी भाषा में क्वेरी का अनुवाद करने के लिए अनुवाद तंत्र शामिल हैं।

SIGIR-96 सम्मेलन के दौरान ज़्यूरिख में CLIR पर पहली कार्यशाला आयोजित की गई थी। क्रॉस लैंग्वेज इवैल्यूएशन फोरम (सीएलईएफ) की बैठकों में 2000 से सालाना कार्यशालाएं आयोजित की जाती रही हैं। शोधकर्ता विभिन्न प्रणालियों और सूचना पुनर्प्राप्ति के तरीकों के बारे में अपने निष्कर्षों पर चर्चा करने के लिए वार्षिक पाठ पुनर्प्राप्ति सम्मेलन (TREC) में भी बुलाते हैं, और सम्मेलन ने CLIR उपक्षेत्र के संदर्भ बिंदु के रूप में कार्य किया है। 19-21 नवंबर, 1997 को राष्ट्रीय मानक और प्रौद्योगिकी संस्थान (NIST) में आयोजित TREC-6 में शुरुआती CLIR प्रयोग किए गए थे। Google खोज में एक क्रॉस-भाषा खोज सुविधा थी जिसे 2013 में हटा दिया गया था।

यह भी देखें

 * EXCLAIM (एक्सटेंसिबल क्रॉस-भाषाई स्वचालित सूचना मशीन)
 * CLEF (मूल्यांकन फोरम का सम्मेलन और लैब्स, जिसे पहले क्रॉस-लैंग्वेज मूल्यांकन फोरम के रूप में जाना जाता था)

बाहरी संबंध

 * A resource page for CLIR
 * A search engine for CLIR