न्यूरल मशीन ट्रांसलेशन

न्यूरल मशीन ट्रांसलेशन (एनएमटी) मशीन ट्रांसलेशन के लिए एक दृष्टिकोण है, जो शब्दों के अनुक्रम की पॉसिबिलिटी की पूर्वकथन करने के लिए एक आर्टिफिशियल न्यूरल नेटवर्क का उपयोग करता है इस प्रकार विशेष रूप से पूरे वाक्यों को एक एकल एकीकृत मॉडल में मॉडलिंग करता है।

गुण
उन्हें पारंपरिक स्टेटिस्टिकल मशीन ट्रांसलेशन (एसएमटी) मॉडल द्वारा आवश्यक मेमोरी के केवल एक फ्रैक्शन की आवश्यकता होती है। इसके अतिरिक्त पारंपरिक ट्रांसलेशन प्रणालियों के विपरीत न्यूरल ट्रांसलेशन मॉडल के सभी भाग को ट्रांसलेशन निष्पादन को अधिकतम करने के लिए संयुक्त रूप से अंत से अंत तक प्रशिक्षित किया जाता है।

इतिहास
डीप लर्निंग अनुप्रयोग पहली बार 1990 के दशक में स्पीच रिकग्निशन के रूप में सामने आए थे। मशीनी ट्रांसलेशन में न्यूरल नेटवर्क का उपयोग करने पर पहला वैज्ञानिक पेपर 2014 में सामने आया था, जब बहदानौ एट अल, और सुतस्केवर और अन्य, प्रस्तावित एंड टू एंड न्यूरल नेटवर्क ट्रांसलेशन मॉडल का प्रस्ताव रखा और औपचारिक रूप से न्यूरल मशीन ट्रांसलेशन शब्द का उपयोग किया गया था। इस प्रकार पहला बड़े पैमाने का एनएमटी प्रणाली बैदु द्वारा 2015 में लॉन्च किया गया था और अगले वर्ष गूगल ने भी दूसरों की तरह एक एनएमटी प्रणाली लॉन्च किया था। इसके बाद अगले कुछ वर्षों में इसमें बहुत प्रगति हुई थी और 2017 में बड़ी शब्दावली एनएमटी, इमेज कैप्शनिंग के लिए अनुप्रयोग सबवर्ड-एनएमटी बहुभाषी एनएमटी, मल्टी-सोर्स एनएमटी, कैरेक्टर-डीसी एनएमटी, जीरो-रिसोर्स एनएमटी, गूगल, फुल कैरेक्टर-एनएमटी, जीरो-शॉट एनएमटी प्रणाली लॉन्च किया था और इस प्रकार 2015 में सार्वजनिक मशीनी ट्रांसलेशन प्रतियोगिता (ओपनएमटी'15) में एनएमटी प्रणाली की पहली उपस्थिति थी। WMT'15 में भी पहली बार एनएमटी दावेदार के रूप में था और अगले वर्ष इसके विजेताओं में पहले से ही 90% एनएमटी प्रणालियाँ सम्मलित थीं।

2017 से, वैश्विक पेटेंट प्रणाली से जानकारी को तुरंत सुलभ बनाने के लिए यूरोपीय पेटेंट कार्यालय द्वारा न्यूरल मशीन ट्रांसलेशन का उपयोग किया गया है। गूगल के सहयोग से विकसित इस प्रणाली को 31 भाषाओं के साथ जोड़ा गया है और 2018 तक इस प्रणाली ने नौ मिलियन से अधिक प्रपत्रो का ट्रांसलेशन किया है।

कामकाज
एनएमटी फ्रेज आधारित स्टेटिस्टिकल मशीन ट्रांसलेशन दृष्टिकोण से भिन्न होती है, जो भिन्न -भिन्न इंजीनियर सब कॉम्पोनेन्ट का उपयोग करता है। न्यूरल मशीन ट्रांसलेशन (एनएमटी) में पारंपरिक रूप से स्टेटिस्टिकल मशीन ट्रांसलेशन (एसएमटी) में जो किया जाता है वह कोई कठोर कदम नहीं है। इसका मुख्य प्रस्थान शब्दों और आंतरिक स्थितियों के लिए वेक्टर रेप्रज़ेन्टैशन का उपयोग होता है। एम्बेडिंग निरंतर स्थान रेप्रज़ेन्टैशन का उपयोग है मॉडलों की संरचना फ्रेज आधारित मॉडलों की तुलना में सरल रूप में होती है। कोई भिन्न भाषा मॉडल ट्रांसलेशन मॉडल और पुन: क्रम मॉडल नहीं है, बल्कि केवल एक अनुक्रम मॉडल होता है, जो एक समय में एक शब्द की पूर्वकथन करता है। चूंकि, यह अनुक्रम पूर्वकथन संपूर्ण स्रोत वाक्य और पहले से निर्मित लक्ष्य अनुक्रम पर आधारित होता है। एनएमटी मॉडल डीप लर्निंग और प्रतिनिधित्व लर्निंग का उपयोग करते हैं।

शब्द अनुक्रम मॉडलिंग सबसे पहले सामान्यतः रीकरंट न्यूरल नेटवर्क (आरएनएन) का उपयोग करके किया जाता था। एक द्विदिश रीकरंट न्यूरल नेटवर्क का उपयोग न्यूरल नेटवर्क द्वारा दूसरे आरएनएन के लिए स्रोत वाक्य को एनकोड करने के लिए किया जाता है, जिसे डिकोडर के रूप में जाना जाता है, जिसका उपयोग टारगेट लैंग्वेज (अनुवाद) में शब्दों की पूर्वकथन करने के लिए किया जाता है। इस प्रकार रीकरंट न्यूरल नेटवर्क को लंबे इनपुट को एक वेक्टर में एन्कोड करने में कठिनाइयों का सामना करना पड़ता है। इसकी भरपाई मैकेनिज्म द्वारा की जा सकती है जो डिकोडर को आउटपुट के प्रत्येक शब्द को उत्पन्न करते समय इनपुट के विभिन्न भागो पर अटेंशन केंद्रित करने की अनुमति देता है। इस तरह के अटेंशन मैकेनिज्म में विषयो को संबोधित करने वाले कवरेज मॉडल के रूप में होते है, जैसे कि पिछली एलाइनमेंट जानकारी की अनदेखी के कारण अधिक ट्रांसलेशन और कम ट्रांसलेशन होता है।

कन्वेन्शनल न्यूरल नेटवर्क (कन्वेनेट्स) सैद्धांतिक रूप से लंबे समय तक निरंतर अनुक्रमों के लिए कुछ सीमा तक अच्छे होते है, लेकिन शुरुआत में कई कमजोरियों के कारण इसका उपयोग नहीं किया गया था। इन्हें अटेंशन मैकेनिज्म का उपयोग करके 2017 में सफलतापूर्वक काम्पन्सेट दिया गया था।

ट्रांसफार्मर (मशीन लर्निंग मॉडल) एक अटेंशन आधारित मॉडल, जो कई भाषा युग्मों के लिए प्रमुख वास्तुकला के रूप में बना हुआ है। ट्रांसफार्मर मॉडल की सेल्फ अटेंशन परतें युग्मित अनुक्रमों में सभी शब्दों के बीच संबंधों की जांच करके और उन संबंधों को सीधे मॉडलिंग करके अनुक्रम में शब्दों के बीच निर्भरता बनाती हैं। यह आरएनएन द्वारा नियोजित गेटिंग मैकेनिज्म की तुलना में एक सरल दृष्टिकोण के रूप में होता है और इसकी सादगी ने शोधकर्ताओं को कम-संसाधन सेटिंग्स में भी ट्रांसफार्मर मॉडल के साथ उच्च गुणवत्ता वाले ट्रांसलेशन मॉडल विकसित करने में सक्षम बनाया है।

अनुप्रयोग
एनएमटी के लिए एक अनुप्रयोग कम संसाधन वाली मशीन ट्रांसलेशन के रूप में है, जब प्रलर्निंग के लिए केवल थोड़ी मात्रा में डेटा और उदाहरण उपलब्ध होते हैं। ऐसा ही एक उपयोग अक्काडियन भाषा और उसकी बोलियाँ, बेबीलोनियन और असीरियन जैसी प्राचीन भाषाओं की है।

एनएमटी के साथ समस्याएं
एनएमटी आउटपुट में पाई जाने वाली सबसे सामान्य ट्रांसलेशन समस्या वाक्यों के बीच सामंजस्य की कमी है। इस प्रकार एक ही शब्द को अधिकांशतः आसन्न वाक्यों में एक भिन्न शब्द के साथ अनुवादित किया जाता है, जिससे पाठक को आश्चर्य होता है कि क्या उसी अवधारणा का उल्लेख किया जाता है। इस प्रकार अन्य समस्याओं में बहुत समान शब्दों का एक ही शब्द के रूप में ट्रांसलेशन सम्मलित है, उदाहरण के लिए, कंप्यूटर सुरक्षा शब्दावली में, जर्मन ज़ुट्रिट्सकंट्रोल, ज़ुगांग्सकंट्रोल, ज़ुग्रिफ़्सकंट्रोल तीनों का केवल अभिगम नियंत्रण के रूप में ट्रांसलेशन करना सम्मलित है, चूंकि वे भिन्न -भिन्न प्रकार के रूप में होते है, जो भौतिक अभिगम नियंत्रण, नेटवर्क अभिगम नियंत्रण, डेटा एक्सेस कंट्रोल के रूप में होना चाहिए और जर्मन में संज्ञाओं के बड़े अक्षरों के कारण उचित नामों का सामान्य संज्ञा के रूप में ट्रांसलेशन होता है।

टिप्पणियाँ
