बीईआरटी (भाषा मॉडल)

ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में गूगल के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का परिवार है। 2020 के साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि "एक वर्ष से कुछ अधिक समय में, बीईआरटी मॉडल का विश्लेषण और संशोधन करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रयोगों में सर्वव्यापी आधार रेखा बन गया है।"

बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में प्रयुक्त किया गया था: (1) BERTBASE: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERTLARGE: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो बुककॉर्पस (800M शब्द) और अंग्रेजी विकिपीडिया (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।

आर्किटेक्चर
बीईआरटी ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) आर्किटेक्चर पर आधारित है। विशेष रूप से, बीईआरटी ट्रांसफार्मर एन्कोडर परतों से बना है।

बीईआरटी प्रत्येक अंग्रेजी शब्द को पूर्णांक कोड में परिवर्तित करने के लिए वर्डपीस का उपयोग करता है। इसकी शब्दावली का आकार 30,000 है। इसकी शब्दावली में दिखाई न देने वाला कोई भी टोकन को "अज्ञात" के लिए [यूएनके] से परिवर्तित कर दिया जाता है।

बीईआरटी को दो कार्यों पर एक साथ पूर्व-प्रशिक्षित किया गया था:

भाषा मॉडलिंग: भविष्यवाणी के लिए 15% टोकन का चयन किया गया था, और प्रशिक्षण का उद्देश्य चयनित टोकन को उसके संदर्भ में भविष्यवाणी करना था। चयनित टोकन है


 * 80% प्रायिकता के साथ [एमएएसके] टोकन के साथ प्रतिस्थापित किया गया,
 * प्रायिकता 10% के साथ यादृच्छिक शब्द टोकन के साथ प्रतिस्थापित किया गया,
 * संभाव्यता 10% के साथ प्रतिस्थापित नहीं किया गया।

उदाहरण के लिए, वाक्य "मेरा कुत्ता प्यारा है" में भविष्यवाणी के लिए चुना गया चौथा टोकन हो सकता है। मॉडल में इनपुट टेक्स्ट होगा


 * "मेरा कुत्ता [एमएएसके] है", जिसकी प्रायिकता 80% है,
 * "मेरा कुत्ता खुश है" की प्रायिकता 10% है,
 * "मेरा कुत्ता प्यारा है" 10% संभावना के साथ।

इनपुट पाठ को संसाधित करने के बाद, मॉडल का चौथा आउटपुट सदिश अलग तंत्रिका तंत्र को पास किया जाता है, जो इसकी 30,000-बड़ी शब्दावली पर संभाव्यता वितरण का उत्पादन करता है।

अगले वाक्य की भविष्यवाणी: पाठ के दो स्पैन दिए गए हैं, मॉडल भविष्यवाणी करता है कि क्या ये दो स्पैन क्रमिक रूप से प्रशिक्षण कॉर्पस में दिखाई देते हैं, या तो [IsNext] या [NotNext] का उत्पादन करते हैं। पहला स्पैन विशेष टोकन [सीएलएस] (वर्गीकरण के लिए) से प्रारंभ होता है। दो स्पैन विशेष टोकन [एसईपी] (अलग के लिए) द्वारा अलग किए गए हैं। दो स्पैन को संसाधित करने के बाद, 1-st आउटपुट सदिश ([सीएलएस] के लिए सदिश कोडिंग) बाइनरी वर्गीकरण के लिए [IsNext] और [NotNext] में अलग तंत्रिका तंत्र को पास किया जाता है।


 * उदाहरण के लिए, दिया गया "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] वह खेलना पसंद करता है" आउटपुट टोकन [IsNext] होना चाहिए।
 * यह देखते हुए कि "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] मैग्नेट कैसे काम करता है" मॉडल को टोकन आउटपुट [NotNext] करना चाहिए।

इस प्रशिक्षण प्रक्रिया के परिणामस्वरूप, बीईआरटी संदर्भ में शब्दों और वाक्यों के अव्यक्त स्थान को सीखता है। पूर्व-प्रशिक्षण के बाद, बीईआरटी एनएलपी कार्यों (भाषा अनुमान, पाठ वर्गीकरण) और अनुक्रम-से-अनुक्रम आधारित विशिष्ट कार्यों पर अपने प्रदर्शन को अनुकूलित करने के लिए छोटे डेटासेट पर कम संसाधनों के साथ भाषा निर्माण कार्य (प्रश्न-उत्तर, संवादी प्रतिक्रिया पीढ़ी) ठीक-ट्यूनिंग (मशीन लर्निंग) हो सकता है। फाइन-ट्यूनिंग की तुलना में प्री-ट्रेनिंग चरण अत्यधिक अधिक कम्प्यूटेशनल जटिल है।

प्रदर्शन
जब बीईआरटी प्रकाशित हुआ, तो इसने कई प्राकृतिक भाषा समझ कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया:


 * जीएलयूई (सामान्य भाषा समझ मूल्यांकन) कार्य सेट (9 कार्यों से मिलकर)
 * स्क्वाड (स्टैनफोर्ड प्रश्न उत्तर डेटासेट ) v1.1 और v2.0
 * एसडब्लूएजी (प्रतिकूल पीढ़ियों के साथ स्थितियां )

विश्लेषण
इन प्राकृतिक भाषा समझ कार्यों पर बीईआरटी स्टेट ऑफ द आर्ट के अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है। वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों,  प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश अभ्यावेदन के विश्लेषण,  और आर्किटेक्चर भार द्वारा दर्शाए गए संबंधों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे के संबंधों की जांच पर ध्यान केंद्रित किया है।  बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के समय बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को प्रयुक्त करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं (मैं आज ठीक अनुभव कर रहा हूं, उसके सुनहरे बाल हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है।

चूँकि यह व्यय पर आता है: एनकोडर-ओनली आर्किटेक्चर में डिकोडर की कमी के कारण, बीईआरटी को संकेत नहीं दिया जा सकता है और पाठ उत्पन्न नहीं किया जा सकता है, जबकि द्विदिश मॉडल सामान्य रूप से दाईं ओर के बिना प्रभावी ढंग से काम नहीं करते हैं, इस प्रकार संकेत देना जटिल है, यहां तक कि लघु पाठ निर्माण के लिए परिष्कृत कम्प्यूटेशनल रूप से बहुमूल्य विधियों की आवश्यकता होती है।

गहरे सीखने वाले तंत्रिका तंत्र के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है। विशिष्ट कार्यों जैसे कि विचार वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर विचार वर्गीकरण कार्य है, तो वित्तीय पाठ के विचार के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन प्रचलित किया गया था।

इतिहास
बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, ​​केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा, जनरेटिव प्री-ट्रेनिंग, एल्मो, और यूएलएमएफआईटी सम्मिलित है। पिछले मॉडलों के विपरीत, बीईआरटी गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल साधारण पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां बीईआरटी किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए सदिश में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही word2vec सदिश प्रतिनिधित्व होगा, वह कंपनी चला रहा है और वह मैराथन दौड़ रहा है, बीईआरटी प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा।

25 अक्टूबर, 2019 को, गूगल ने घोषणा की, कि उन्होंने यूएस के अन्दर अंग्रेजी भाषा गूगल खोज के लिए बीईआरटी मॉडल प्रयुक्त करना प्रारंभ कर दिया है। 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था। अक्टूबर 2020 में, लगभग हर अंग्रेजी-आधारित क्वेरी को बीईआरटी मॉडल द्वारा संसाधित किया गया था।

मान्यता
एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एनएएसीएल) के नॉर्थ अमेरिकन चैप्टर के 2019 वार्षिक सम्मेलन में बीईआरटी का वर्णन करने वाले शोध पत्र ने सर्वश्रेष्ठ लॉन्ग पेपर अवार्ड जीता था।

बाहरी संबंध

 * Official GitHub repository
 * BERT on Devopedia