अटेंशन (मशीन लर्निंग)

कृत्रिम तंत्रिका नेटवर्क में, ध्यान एक ऐसी तकनीक है जो ध्यान की अनुकरण करने के लिए होती है। प्रभाव अन्य भागों को कम करते हुए इनपुट डेटा के कुछ भागों को बढ़ाता है - प्रेरणा यह है कि नेटवर्क को डेटा के छोटे, परन्तु महत्वपूर्ण भागों पर अधिक ध्यान देना चाहिए। यह सीखना कि डेटा का कौन सा भाग दूसरे की तुलना में अधिक महत्वपूर्ण है, यह संदर्भ पर निर्भर करता है, और इसे प्रवणता ढाल द्वारा प्रशिक्षित किया जाता है।

1990 के दशक में गुणात्मक मॉड्यूल, सिग्मा पीआई इकाइयों और हाइपर-नेटवर्क जैसे नामों के अंतर्गत ध्यान देने वाली तंत्र का प्रारम्भ किया गया था। इसकी नम्यता सौम्य भार के रूप में इसकी भूमिका से आता है जो क्रम के समय बदल सकता है, मानक भार के विपरीत जो क्रम पर स्थिर रहना चाहिए। ध्यान के उपयोग में तंत्रिका ट्यूरिंग मशीनों में मेमोरी, अलग-अलग तंत्रिका कंप्यूटरों में तर्क कार्य सम्मिलित हैं, ट्रांसफॉर्मर में भाषा प्रोसेसिंग(मशीन लर्निंग मॉडल), और लंबी अल्पकालिक मेमोरी, और बहु संवेदी डेटा प्रोसेसिंग(ध्वनि, चित्र, वीडियो और टेक्स्ट)।   नीचे प्रकार अनुभाग में सूचीबद्ध सौम्य भार तंत्र को लागू करने के लिए कई योजनाएं हैं।

सामान्य विचार
सूचकांक $$i$$ द्वारा लेबल किए गए टोकन $$t_i$$ के अनुक्रम को देखते हुए,एक तंत्रिका नेटवर्क प्रत्येक $$t_i$$ के लिए एक सौम्य भार $$w_i$$ की गणना करता है जिसमें $$w_i$$ गैर-नकारात्मक और $\sum_i w_i = 1$ है। प्रत्येक $$t_i$$ को एक मान सदिश $$v_i$$ दिया जाता है जिसकी गणना $$i$$वें टोकन शब्द अंतः स्थापन से की जाती है । भारित औसत $\sum_i w_i v_i$  ध्यान तंत्र का आउटपुट है।

क्वेरी-कुंजी तंत्र सौम्य भार की गणना करता है। प्रत्येक टोकन के अंतः स्थापन शब्द से, यह इसके संबंधित क्वेरी सदिश $$q_i$$ और कुंजी सदिश $$k_i$$ की गणना करता है। बिंदु उत्पाद $$q_i k_j$$ के सॉफ्टमैक्स फलन को लेकर भार प्राप्त किया जाता है जहां $$i$$ वर्तमान टोकन का प्रतिनिधित्व करता है और $$j$$ उस टोकन का प्रतिनिधित्व करता है जिस पर ध्यान दिया जा रहा है।

कुछ स्थापत्य में, ध्यान के कई शीर्ष होते हैं(जिन्हें 'बहु-प्रमुख-ध्यान' कहा जाता है), प्रत्येक स्वतंत्र रूप से अपने स्वयं के क्वेरी, कुंजियों और मानों के साथ काम करता है।

एक भाषा अनुवाद उदाहरण
एक मशीन बनाने के लिए जो अंग्रेजी से फ्रेंच में अनुवाद करती है, एक मूलभूत कोडक-विकोडक लेता है और इसके लिए एक ध्यान इकाई (नीचे चित्र) तैयार करता है। सबसे सरल विषय में, ध्यान इकाई में पुनरावर्ती कोडक स्थितियों के बिंदु उत्पाद होते हैं और उन्हें प्रशिक्षण की आवश्यकता नहीं होती है। कार्यप्रणाली में, ध्यान इकाई में 3 पूर्ण रूप से जुड़ी तंत्रिका नेटवर्क पटल होती हैं जिन्हें क्वेरी-कुंजी-मान कहा जाता है जिन्हें प्रशिक्षित करने की आवश्यकता होती है। नीचे प्रकार अनुभाग देखें।



एक आव्यूह के रूप में देखा गया, ध्यान भार दिखाता है कि कैसे नेटवर्क संदर्भ के अनुसार अपना केंद्र समायोजित करता है। ध्यान भार का यह दृश्य व्याख्यात्मक कृत्रिम बुद्धिमत्ता समस्या को संबोधित करता है जिसके लिए तंत्रिका नेटवर्क की आलोचना की जाती है। शब्द क्रम की संबद्ध किए बिना शब्दशः अनुवाद करने वाले नेटवर्क में एक विकर्णन प्रमुख आव्यूह होगा यदि वे इन शब्दों में विश्लेषण योग्य थे। बंद विकर्ण प्रभुत्व दर्शाता है कि ध्यान तंत्र अधिक सूक्ष्म है। विकोडक के माध्यम से पूर्व पास पर, 94% ध्यान भार पूर्व अंग्रेजी शब्द "I" पर होता है। इसलिए नेटवर्क je शब्द प्रदान करता है। विकोडक के दूसरे पास पर, 88% ध्यान भार तीसरे अंग्रेजी शब्द you पर है, इसलिए यह t' प्रदान करता है। अंतिम पास पर, 95% ध्यान भार दूसरे अंग्रेजी शब्द love पर है, इसलिए यह aime प्रदान करता है।

प्रकार
ध्यान के कई रूप हैं जो सौम्य भार को लागू करते हैं, जिनमें(a) बहदानौ ध्यान, जिसे योगात्मक ध्यान भी कहा जाता है, और(b) लुओंग ध्यान जिसे गुणात्मक ध्यान के रूप में जाना जाता है, जो योगात्मक ध्यान के शीर्ष पर बनाया गया है, और(c) स्व- ट्रांसफॉर्मर(मशीन लर्निंग मॉडल) में प्रस्तुत किया गया ध्यान। दृढ़ तंत्रिका नेटवर्क के लिए, ध्यान तंत्र को उस विमा से भी अलग किया जा सकता है जिस पर वे काम करते हैं, अर्थात्: स्थानिक ध्यान, चैनल ध्यान, या दोनों का संयोजन।

ये प्रकार प्रत्येक नियोजित आउटपुट में उन प्रभावों को पुनर्वितरित करने के लिए कोडक-पार्श्व इनपुट को पुनः संयोजित करते हैं। प्रायः, बिंदु उत्पादों का एक सहसंबंध-शैली आव्यूह पुन: भार गुणांक प्रदान करता है(आलेख देखें)।

यह भी देखें

 * क्वेरी-कुंजी-मान(QKV) ध्यान के लिए
 * क्वेरी-कुंजी-मान(QKV) ध्यान के लिए

बाहरी संबंध

 * Dan Jurafsky and James H. Martin(2022) Speech and Language Processing(3rd ed. draft, January 2022), ch. 10.4 Attention and ch. 9.7 Self-Attention Networks: Transformers
 * Alex Graves(4 May 2020), Attention and Memory in Deep Learning(video lecture), DeepMind / UCL, via YouTube
 * Rasa Algorithm Whiteboard - Attention via YouTube