अटेंशन (मशीन लर्निंग)

कृत्रिम तंत्रिका नेटवर्क में, ध्यान एक ऐसी तकनीक है जो ध्यान की अनुकरण करने के लिए होती है। प्रभाव अन्य भागों को कम करते हुए इनपुट डेटा के कुछ भागों को बढ़ाता है - प्रेरणा यह है कि नेटवर्क को डेटा के छोटे, परन्तु महत्वपूर्ण भागों पर अधिक ध्यान देना चाहिए। यह सीखना कि डेटा का कौन सा भाग दूसरे की तुलना में अधिक महत्वपूर्ण है, यह संदर्भ पर निर्भर करता है, और इसे   प्रवणता ढाल द्वारा प्रशिक्षित किया जाता है।

1990 के दशक में गुणात्मक मॉड्यूल, सिग्मा पीआई इकाइयों और हाइपर-नेटवर्क जैसे नामों के अंतर्गत ध्यान देने वाली तंत्र का प्रारम्भ किया गया था। इसकी नम्यता  सौम्य भार के रूप में इसकी भूमिका से आता है जो क्रम के समय बदल सकता है, मानक भार के विपरीत जो क्रम पर स्थिर रहना चाहिए। ध्यान के उपयोग में  तंत्रिका ट्यूरिंग मशीनों में मेमोरी, अलग-अलग तंत्रिका कंप्यूटरों में तर्क कार्य सम्मिलित  हैं, ट्रांसफॉर्मर में भाषा प्रोसेसिंग (मशीन लर्निंग मॉडल), और लंबी अल्पकालिक मेमोरी, और बहु संवेदी डेटा प्रोसेसिंग (ध्वनि, चित्र, वीडियो और टेक्स्ट)।    नीचे रूपांतर अनुभाग में सूचीबद्ध  सौम्य भार तंत्र को लागू करने के लिए कई योजनाएं हैं।

सामान्य विचार
सूचकांक $$i$$ द्वारा लेबल किए गए टोकन $$t_i$$ के अनुक्रम को देखते हुए ,एक तंत्रिका नेटवर्क प्रत्येक $$t_i$$ के लिए  एक सौम्य भार  $$w_i$$ की गणना करता है जिसमें  $$w_i$$ गैर-नकारात्मक  और $\sum_i w_i = 1$  है। प्रत्येक $$t_i$$ को एक मान सदिश  $$v_i$$ दिया जाता है जिसकी गणना $$i$$वें टोकन शब्द  अंतः स्थापन  से की जाती है । भारित औसत $\sum_i w_i v_i$  ध्यान तंत्र का आउटपुट है।

क्वेरी-की तंत्र सौम्य भार की गणना करता है। प्रत्येक टोकन के  अंतः स्थापन  शब्द से, यह इसके संबंधित क्वेरी सदिश की गणना करता है $$q_i$$ और कुंजी सदिश $$k_i$$. डॉट उत्पाद के सॉफ्टमैक्स फ़ंक्शन को लेकर वजन प्राप्त किया जाता है $$q_i k_j$$ कहाँ $$i$$ वर्तमान टोकन का प्रतिनिधित्व करता है और $$j$$ उस टोकन का प्रतिनिधित्व करता है जिस पर ध्यान दिया जा रहा है।

कुछ आर्किटेक्चर में, ध्यान के कई शीर्ष होते हैं (जिन्हें 'मल्टी-हेड अटेंशन' कहा जाता है), प्रत्येक स्वतंत्र रूप से अपने स्वयं के प्रश्नों, कुंजियों और मूल्यों के साथ काम करता है।

एक भाषा अनुवाद उदाहरण
एक मशीन बनाने के लिए जो अंग्रेजी से फ्रेंच में अनुवाद करती है, एक बुनियादी एनकोडर-डिकोडर लेता है और इसके लिए एक ध्यान इकाई (नीचे चित्र) तैयार करता है। सबसे सरल मामले में, ध्यान इकाई में पुनरावर्ती एन्कोडर राज्यों के डॉट उत्पाद होते हैं और उन्हें प्रशिक्षण की आवश्यकता नहीं होती है। व्यवहार में, ध्यान इकाई में 3 पूरी तरह से जुड़े तंत्रिका नेटवर्क परत होते हैं जिन्हें क्वेरी-की-वैल्यू कहा जाता है जिन्हें प्रशिक्षित करने की आवश्यकता होती है। नीचे वेरिएंट अनुभाग देखें।



एक मैट्रिक्स के रूप में देखा गया, ध्यान भार दिखाता है कि कैसे नेटवर्क संदर्भ के अनुसार अपना फोकस समायोजित करता है। ध्यान भार का यह दृश्य व्याख्यात्मक कृत्रिम बुद्धिमत्ता समस्या को संबोधित करता है जिसके लिए तंत्रिका नेटवर्क की आलोचना की जाती है। शब्द क्रम की परवाह किए बिना शब्दशः अनुवाद करने वाले नेटवर्क में एक तिरछा प्रमुख मैट्रिक्स होगा यदि वे इन शब्दों में विश्लेषण योग्य थे। ऑफ-डायगोनल प्रभुत्व दर्शाता है कि ध्यान तंत्र अधिक सूक्ष्म है। डिकोडर के माध्यम से पहले पास पर, 94% ध्यान भार पहले अंग्रेजी शब्द I पर है, इसलिए नेटवर्क je शब्द प्रदान करता है। डिकोडर के दूसरे पास पर, 88% ध्यान भार तीसरे अंग्रेजी शब्द you पर है, इसलिए यह t' प्रदान करता है। अंतिम पास पर, 95% ध्यान भार दूसरे अंग्रेजी शब्द लव पर है, इसलिए यह ऐम प्रदान करता है।

वेरिएंट
ध्यान के कई रूप हैं जो सौम्य भार को लागू करते हैं, जिनमें सम्मिलित हैं (ए) बहदानौ ध्यान, योगात्मक ध्यान के रूप में भी जाना जाता है, और (बी) लुओंग ध्यान जिसे गुणात्मक ध्यान के रूप में जाना जाता है, जो योगात्मक ध्यान के शीर्ष पर बनाया गया है, और (सी) ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) में पेश किया गया आत्म-ध्यान। दृढ़ तंत्रिका नेटवर्क के लिए, ध्यान तंत्र को उस आयाम से भी अलग किया जा सकता है जिस पर वे काम करते हैं, अर्थात्: स्थानिक ध्यान, चैनल ध्यान, या दोनों का संयोजन।

ये वेरिएंट प्रत्येक लक्ष्य आउटपुट में उन प्रभावों को पुनर्वितरित करने के लिए एनकोडर-साइड इनपुट को पुनः संयोजित करते हैं। अक्सर, डॉट उत्पादों का एक सहसंबंध-शैली मैट्रिक्स पुन: भार गुणांक प्रदान करता है (किंवदंती देखें)।

यह भी देखें

 * क्वेरी-की-वैल्यू (QKV) ध्यान के लिए
 * क्वेरी-की-वैल्यू (QKV) ध्यान के लिए

बाहरी संबंध

 * Dan Jurafsky and James H. Martin (2022) Speech and Language Processing (3rd ed. draft, January 2022), ch. 10.4 Attention and ch. 9.7 Self-Attention Networks: Transformers
 * Alex Graves (4 May 2020), Attention and Memory in Deep Learning (video lecture), DeepMind / UCL, via YouTube
 * Rasa Algorithm Whiteboard - Attention via YouTube