अटेंशन (मशीन लर्निंग)

कृत्रिम तंत्रिका नेटवर्क में, ध्यान एक ऐसी तकनीक है जो ध्यान के परिदर्शक के लिए होती है। प्रभाव अन्य भागों को कम करते हुए निविष्ट डेटा के कुछ भागों को बढ़ाता है - अभिप्रेरण यह है कि नेटवर्क को डेटा के छोटे, परन्तु महत्वपूर्ण भागों पर अधिक ध्यान देना चाहिए। यह सीखना कि डेटा का कौन सा भाग दूसरे की तुलना में अधिक महत्वपूर्ण है, यह संदर्भ पर निर्भर करता है, और इसे प्रवणता ढाल द्वारा प्रशिक्षित किया जाता है।

1990 के दशक में गुणात्मक मॉड्यूल, सिग्मा पीआई इकाइयों और हाइपर-नेटवर्क जैसे नामों के अंतर्गत ध्यान देने वाले तंत्र का प्रारम्भ किया गया था। इसकी नम्यता सौम्य भार के रूप में इसकी भूमिका से आता है जो क्रम के समय बदल सकता है, मानक भार के विपरीत जो क्रम पर स्थिर रहना चाहिए। ध्यान के उपयोग में तंत्रिका ट्यूरिंग मशीनों में मेमोरी, अलग-अलग तंत्रिका कंप्यूटरों में तर्क कार्य, ट्रांसफॉर्मर में भाषा प्रसंस्करण(मशीन लर्निंग मॉडल), और लंबी अल्पकालिक मेमोरी, और बहु संवेदी डेटा प्रोसेसिंग(ध्वनि, चित्र, वीडियो और टेक्स्ट) सम्मिलित हैं।   नीचे प्रकार अनुभाग में सूचीबद्ध सौम्य भार तंत्र को लागू करने के लिए कई पद्धति हैं।

सामान्य विचार
सूचकांक $$i$$ द्वारा लेबल किए गए टोकन $$t_i$$ के अनुक्रम को देखते हुए,एक तंत्रिका नेटवर्क प्रत्येक $$t_i$$ के लिए एक सौम्य भार $$w_i$$ की गणना करता है जिसमें $$w_i$$ गैर-नकारात्मक और $\sum_i w_i = 1$ है। प्रत्येक $$t_i$$ को एक मान सदिश $$v_i$$ दिया जाता है जिसकी गणना $$i$$वें टोकन शब्द अंतः स्थापन से की जाती है। भारित औसत $\sum_i w_i v_i$  ध्यान तंत्र का निर्गम है।

क्वेरी-कुंजी तंत्र सौम्य भार की गणना करता है। प्रत्येक टोकन के अंतः स्थापन शब्द से, यह इसके संबंधित क्वेरी सदिश $$q_i$$ और कुंजी सदिश $$k_i$$ की गणना करता है। बिंदु उत्पाद $$q_i k_j$$ के सॉफ्टमैक्स फलन को लेकर भार प्राप्त किया जाता है जहां $$i$$ वर्तमान टोकन का प्रतिनिधित्व करता है और $$j$$ उस टोकन का प्रतिनिधित्व करता है जिस पर ध्यान दिया जा रहा है।

कुछ स्थापत्य में, ध्यान के कई शीर्ष होते हैं(जिन्हें 'बहु-प्रमुख-ध्यान' कहा जाता है), प्रत्येक स्वतंत्र रूप से अपने स्वयं के क्वेरी, कुंजियों और मानों के साथ कार्य करते है।

एक भाषा अनुवाद उदाहरण
एक मशीन बनाने के लिए जो अंग्रेजी से फ्रेंच में अनुवाद करती है, एक मूलभूत कोडक-विकोडक लेते है और इसके लिए एक ध्यान इकाई (नीचे चित्र) तैयार करते है। सबसे सरल विषय में, ध्यान इकाई में पुनरावर्ती कोडक स्थितियों के बिंदु उत्पाद होते हैं और उन्हें प्रशिक्षण की आवश्यकता नहीं होती है। कार्यप्रणाली में, ध्यान इकाई में 3 पूर्ण रूप से जुड़ी तंत्रिका नेटवर्क पटल होती हैं जिन्हें क्वेरी-कुंजी-मान कहा जाता है जिन्हें प्रशिक्षित करने की आवश्यकता होती है। नीचे प्रकार अनुभाग देखें।



एक आव्यूह के रूप में देखा गया, ध्यान भार दिखाता है कि कैसे नेटवर्क संदर्भ के अनुसार अपना केंद्र समायोजित करता है। ध्यान भार का यह दृश्य व्याख्यात्मक कृत्रिम बुद्धिमत्ता समस्या को संबोधित करता है जिसके लिए तंत्रिका नेटवर्क की आलोचना की जाती है। शब्द क्रम की संबद्ध किए बिना शब्दशः अनुवाद करने वाले नेटवर्क में एक विकर्णन प्रमुख आव्यूह होगा यदि वे इन शब्दों में विश्लेषण योग्य थे। बंद विकर्ण प्रभुत्व दर्शाता है कि ध्यान तंत्र अधिक सूक्ष्म है। विकोडक के माध्यम से पूर्व पास पर, 94% ध्यान भार पूर्व अंग्रेजी शब्द "I" पर होता है। इसलिए नेटवर्क je शब्द प्रदान करता है। विकोडक के दूसरे पास पर, 88% ध्यान भार तीसरे अंग्रेजी शब्द you पर है, इसलिए यह t' प्रदान करता है। अंतिम पास पर, 95% ध्यान भार दूसरे अंग्रेजी शब्द love पर है, इसलिए यह aime प्रदान करता है।

प्रकार
ध्यान के कई रूप हैं जो सौम्य भार को लागू करते हैं, जिनमें(a) बहदानौ ध्यान, जिसे योगात्मक ध्यान भी कहा जाता है, और(b) लुओंग ध्यान जिसे गुणात्मक ध्यान के रूप में जाना जाता है, जो योगात्मक ध्यान के शीर्ष पर बनाया गया है, और(c) स्व- ट्रांसफॉर्मर(मशीन लर्निंग मॉडल) में प्रस्तुत किया गया ध्यान। दृढ़ तंत्रिका नेटवर्क के लिए, ध्यान तंत्र को उस विमा से भी अलग किया जा सकता है जिस पर वे कार्य करते हैं, अर्थात्: स्थानिक ध्यान, चैनल ध्यान, या दोनों का संयोजन।

ये प्रकार प्रत्येक नियोजित निर्गम में उन प्रभावों को पुनर्वितरित करने के लिए कोडक-पार्श्व निविष्ट को पुनः संयोजित करते हैं। प्रायः, बिंदु उत्पादों का एक सहसंबंध-शैली आव्यूह पुन: भार गुणांक प्रदान करता है(आलेख देखें)।

यह भी देखें

 * क्वेरी-कुंजी-मान(QKV) ध्यान के लिए
 * क्वेरी-कुंजी-मान(QKV) ध्यान के लिए

बाहरी संबंध

 * Dan Jurafsky and James H. Martin(2022) Speech and Language Processing(3rd ed. draft, January 2022), ch. 10.4 Attention and ch. 9.7 Self-Attention Networks: Transformers
 * Alex Graves(4 May 2020), Attention and Memory in Deep Learning(video lecture), DeepMind / UCL, via YouTube
 * Rasa Algorithm Whiteboard - Attention via YouTube