लॉन्ग शॉर्ट टर्म मेमोरी

लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) एक कृत्रिम तंत्रिका नेटवर्क है जिसका उपयोग कृत्रिम बुद्धिमत्ता और गहन शिक्षा के क्षेत्र में किया जाता है। मानक फीडफॉरवर्ड न्यूरल नेटवर्क के विपरीत लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) में फीडबैक कनेक्शन होता है। ऐसा आवर्तक तंत्रिका नेटवर्क (RNN) न केवल एकल डेटा बिंदुओं (जैसे चित्र) को संसाधित कर सकता है बल्कि डेटा के संपूर्ण अनुक्रम (जैसे भाषण या वीडियो) को भी संसाधित कर सकता है। यह विशेषता डेटा को संसाधित करने और भविष्यवाणी करने के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) नेटवर्क को आदर्श बनाती है। उदाहरण के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) अचयनित, संयुक्त हस्तलिपि अभिज्ञान जैसे कार्यों पर लागू होती है। वाक् पहचान, मशीन अनुवाद,  भाषण गतिविधि का पता लगाने, रोबोट नियंत्रण,  वीडियो गेम,  और स्वास्थ्य सेवा आदि मे।

लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का नाम सादृश्य को संदर्भित करता है कि एक मानक आरएनएन में दीर्घकालिक स्मृति और अल्पकालिक स्मृति दोनों होती हैं। नेटवर्क में कनेक्शन वजन और पूर्वाग्रह प्रशिक्षण के प्रति एपिसोड एक बार बदलते हैं और सिनैप्टिक ताकत में शारीरिक परिवर्तन कैसे दीर्घकालिक स्मृति को संग्रहीत करते हैं। नेटवर्क में सक्रियण प्रतिरूप प्रति समय-चरण में एक बार बदलते हैं और मस्तिष्क में अल्पकालिक स्मृति को संग्रहीत करने वाले इलेक्ट्रिक फायरिंग प्रतिरूप में पल-पल कैसे बदलाव होता है। लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) आर्किटेक्चर का उद्देश्य आरएनएन के लिए एक अल्पकालिक स्मृति प्रदान करना है जो हजारों टाइमस्टेप तक चल सकती है और इस प्रकार लंबी अवधि की मेमोरी होती है।

एक सामान्य लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाई एक सेल एक इनपुट गेट एक आउटपुट गेट से बनी होती है । सेल मनमाना समय अंतराल पर मूल्यों को याद रखता है और तीन द्वार सेल में और बाहर सूचना के प्रवाह को नियंत्रित करते हैं। भूल जाओ गेट्स तय करते हैं कि पिछली स्थिति को वर्तमान इनपुट की तुलना में 0 और 1 के बीच एक मान निर्दिष्ट करके पिछली स्थिति से किस सूचना को छोड़ना है। इनपुट गेट तय करते हैं कि वर्तमान स्थिति में कौन सी नई जानकारी स्टोर की जाए उसी प्रणाली का उपयोग करते हुए गेट्स को भूल जाते हैं। पिछली और वर्तमान अवस्थाओं को ध्यान में रखते हुए आउटपुट गेट्स 0 से 1 तक के मान को निर्दिष्ट करके वर्तमान स्थिति में सूचना के किन हिस्सों को नियंत्रित करते हैं। वर्तमान स्थिति से प्रासंगिक जानकारी का चयन करने से लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) नेटवर्क को वर्तमान और भविष्य के समय-चरणों में भविष्यवाणियां करने के लिए उपयोगी दीर्घकालिक निर्भरता बनाए रखने की अनुमति मिलती है।

लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) नेटवर्क मशीन लर्निंग, कंप्यूटर डाटा प्रोसेसिंग और समय श्रृंखला डेटा के आधार पर भविष्यवाणी करने के लिए अच्छी तरह से अनुकूल हैं क्योंकि समय श्रृंखला में महत्वपूर्ण घटनाओं के बीच अज्ञात अवधि हो सकती है। लुप्त हो रही ढाल की समस्या से निपटने के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) विकसित की गई थी। पारंपरिक आरएनएन को प्रशिक्षित करते समय इसका सामना किया जा सकता है। अंतराल की लंबाई के प्रति सापेक्ष असंवेदनशीलता आरएनएन, छिपे हुए मार्कोव प्रतिरूप और कई अनुप्रयोगों में अन्य अनुक्रम सीखने के तरीकों पर लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का लाभ है।

प्रेरणा
सिद्धांत रूप में क्लासिक (या वेनिला) आवर्तक तंत्रिका नेटवर्क इनपुट अनुक्रमों में मनमाने ढंग से दीर्घकालिक निर्भरता का ट्रैक रख सकता है। वेनिला आरएनएन के साथ समस्या प्रकृति में कम्प्यूटेशनल (या व्यावहारिक) है। बैक-प्रचार का उपयोग करते हुए एक वैनिला आरएनएन को प्रशिक्षित करते समय लंबी अवधि के ग्रेडियेंट जो बैक-प्रचारित होते हैं और प्रवणता समस्या को लुप्त कर सकते हैं। लुप्त हो जाना (अर्थात वे शून्य की ओर प्रवृत्त हो सकते हैं) या विस्फोट (अर्थात वे अनंत की ओर प्रवृत्त हो सकते हैं) प्रक्रिया में सम्मिलित संगणनाओं के कारण जो राउंड-ऑफ त्रुटि परिमित-सटीक संख्याओं का उपयोग करती हैं। लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाइयों का उपयोग करने वाले आरएनएन आंशिक रूप से लुप्त हो रही ढाल समस्या को हल करते हैं क्योंकि लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाइयाँ ढालों को भी अपरिवर्तित प्रवाहित करने की अनुमति देती हैं। हालाँकि लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) नेटवर्क अभी भी विस्फोट की समस्या से पीड़ित हो सकता है।

LSTM आर्किटेक्चर के पीछे का अंतर्ज्ञान एक तंत्रिका नेटवर्क में एक अतिरिक्त मॉड्यूल बनाना है जो सीखता है कि कब याद रखना है और कब प्रासंगिक जानकारी को भूलना है। दूसरे शब्दों में नेटवर्क प्रभावी ढंग से सीखता है कि किस क्रम के बाद में किस जानकारी की आवश्यकता हो सकती है और जब उस जानकारी की आवश्यकता नहीं रह जाती है तो उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण के संदर्भ में नेटवर्क व्याकरणिक निर्भरता सीख सकता है। एक लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) वाक्य डेव को संसाधित कर सकता है उनके विवादास्पद दावों के परिणामस्वरूप (सांख्यिकीय रूप से संभावित) व्याकरणिक लिंग को याद करके है अब अछूत है और विषय डेव की संख्या ध्यान दें कि यह जानकारी सर्वनाम के लिए प्रासंगिक है और ध्यान दें कि क्रिया के बाद यह जानकारी अब महत्वपूर्ण नहीं है।

वेरिएंट
नीचे दिए गए समीकरणों में लोअरकेस चर सदिशों का प्रतिनिधित्व करते हैं। मैट्रिसेस $$W_q$$ और $$U_q$$ क्रमशः, इनपुट और आवर्तक कनेक्शन का भार होता है जहां सबस्क्रिप्ट $$_q$$ या तो इनपुट गेट $$i$$ हो सकता है आउटपुट गेट $$o$$ भूल जाओ गेट $$f$$ या मेमोरी सेल $$c$$ गणना की जा रही सक्रियता के आधार पर। इस खंड में हम इस प्रकार एक सदिश संकेतन का उपयोग कर रहे हैं। उदाहरण के लिए $$c_t \in \mathbb{R}^{h}$$ एक लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) सेल की केवल एक इकाई नहीं है बल्कि इसमें सम्मिलित है $$h$$ लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) सेल की इकाइयाँ।

भूल गेट के साथ लॉन्ग शॉर्ट टर्म मेमोरी (LSTM)
एक भूल गेट के साथ एक लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) सेल के फॉरवर्ड पास के लिए समीकरणों के संक्षिप्त रूप हैं:

\begin{align} f_t &= \sigma_g(W_{f} x_t + U_{f} h_{t-1} + b_f) \\ i_t &= \sigma_g(W_{i} x_t + U_{i} h_{t-1} + b_i) \\ o_t &= \sigma_g(W_{o} x_t + U_{o} h_{t-1} + b_o) \\ \tilde{c}_t &= \sigma_c(W_{c} x_t + U_{c} h_{t-1} + b_c) \\ c_t &= f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \\ h_t &= o_t \odot \sigma_h(c_t) \end{align} $$ जहां प्रारंभिक मान हैं $$c_0 = 0$$ और $$h_0 = 0$$ और संचालिका $$\odot$$ हैडमार्ड उत्पाद (मैट्रिसेस) (तत्व-वार उत्पाद) को दर्शाता है। सबस्क्रिप्ट $$t$$ समय चरण को अनुक्रमित करता है।

चर

 * $$x_t \in \mathbb{R}^{d}$$:लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाई के लिए इनपुट वेक्टर
 * $$f_t \in {(0,1)}^{h}$$: गेट के सक्रियण वेक्टर को भूल जाइए
 * $$i_t \in {(0,1)}^{h}$$: इनपुट/अपडेट गेट का सक्रियण वेक्टर
 * $$o_t \in {(0,1)}^{h}$$: आउटपुट गेट का सक्रियण वेक्टर
 * $$h_t \in {(-1,1)}^{h}$$: छिपे हुए राज्य वेक्टर को लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाई के आउटपुट वेक्टर के रूप में भी जाना जाता है
 * $$\tilde{c}_t \in {(-1,1)}^{h}$$: सेल इनपुट सक्रियण वेक्टर
 * $$c_t \in \mathbb{R}^{h}$$: सेल राज्य वेक्टर
 * $$W \in \mathbb{R}^{h \times d}$$, $$U \in \mathbb{R}^{h \times h} $$ और $$b \in \mathbb{R}^{h}$$: वजन मैट्रिक्स और पूर्वाग्रह वेक्टर पैरामीटर जिन्हें प्रशिक्षण के दौरान सीखने की जरूरत है

जहां सुपरस्क्रिप्ट $$d$$ और $$h$$ क्रमशः इनपुट सुविधाओं की संख्या और छिपी हुई इकाइयों की संख्या का संदर्भ है।

सक्रियण कार्य

 * $$\sigma_g$$: सिग्मॉइड कार्य।
 * $$\sigma_c$$: अतिशयोक्तिपूर्ण स्पर्शरेखा कार्य।
 * $$\sigma_h$$: अतिशयोक्तिपूर्ण स्पर्श रेखा कार्य या पीपहोल लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) पेपर के रूप में सुझाव देता है $$\sigma_h(x) = x$$.

पीपहोल एलएसटीएम
दाईं ओर का आंकड़ा पीपहोल कनेक्शन (यानी एक पीपहोल एलएसटीएम) के साथ एक एलएसटीएम इकाई का चित्रमय प्रतिनिधित्व है। पीपहोल कनेक्शन फाटकों को निरंतर त्रुटि कैरोसेल (सीईसी) तक पहुंचने की अनुमति देता है जिसका सक्रियण सेल स्थिति है। $$h_{t-1}$$ उपयोग नहीं होता है $$c_{t-1}$$ के स्थान पर अधिकांश स्थानों पर प्रयोग किया जाता है।

\begin{align} f_t &= \sigma_g(W_{f} x_t + U_{f} c_{t-1} + b_f) \\ i_t &= \sigma_g(W_{i} x_t + U_{i} c_{t-1} + b_i) \\ o_t &= \sigma_g(W_{o} x_t + U_{o} c_{t-1} + b_o) \\ c_t &= f_t \odot c_{t-1} + i_t \odot \sigma_c(W_{c} x_t + b_c) \\ h_t &= o_t \odot \sigma_h(c_t) \end{align} $$ प्रत्येक द्वार को फीड-फॉरवर्ड (या बहु-परत) तंत्रिका नेटवर्क में एक मानक न्यूरॉन के रूप में माना जा सकता है: अर्थात वे एक भारित राशि के सक्रियण की गणना करते हैं। $$i_t, o_t$$ और $$f_t$$ समय कदम पर क्रमशः इनपुट, आउटपुट और भूल गेट्स की सक्रियता का प्रतिनिधित्व करते हैं $$t$$.

मेमोरी सेल से 3 निकास तीर $$c$$ 3 द्वारों के लिए $$i, o$$ और $$f$$ पीपहोल कनेक्शन का प्रतिनिधित्व करते हैं। ये पीपहोल कनेक्शन वास्तव में मेमोरी सेल के सक्रियण के योगदान को दर्शाते हैं $$c$$ समय कदम पर $$t-1$$ यानी का योगदान $$c_{t-1}$$ (और नहीं $$c_{t}$$ जैसा चित्र सुझा सकता है)। दूसरे शब्दों में द्वार $$i,  o$$ और $$f$$ समय कदम पर उनकी सक्रियता की गणना करें $$t$$ (यानी क्रमशः, $$i_t,  o_t$$ और $$f_t$$) मेमोरी सेल की सक्रियता पर भी विचार कर रहा है $$c$$ समय कदम पर $$t - 1$$ अर्थात $$c_{t-1}$$.

मेमोरी सेल से बाहर निकलने वाला एकल बाएँ से दाएँ तीर एक पीपहोल कनेक्शन नहीं है और यह दर्शाता है $$c_{t}$$.

a युक्त छोटे वृत्त $$\times$$ प्रतीक इसके इनपुट के बीच एक तत्व-वार गुणन का प्रतिनिधित्व करता है। एस-जैसे वक्र वाले बड़े वृत्त एक भारित योग के लिए एक अलग-अलग कार्य (जैसे सिग्मॉइड कार्य) के अनुप्रयोग का प्रतिनिधित्व करते हैं।

पीपहोल दृढ़ लॉन्ग शॉर्ट टर्म मेमोरी (LSTM)
पीपहोल संवादात्मक तंत्रिका नेटवर्क लॉन्ग शॉर्ट टर्म मेमोरी (LSTM)। $$*$$ h> कनवल्शन ऑपरेटर को दर्शाता है।
 * <गणित आईडी = पृष्ठ 4 [33] संदर्भ में सूत्र 4 (ओटी की गणना सी (टी) के अतिरिक्त सी (टी) के लिए की जाती है - 1)): https://arxiv.org/abs/1506.04214v2 >

\प्रारम्भ {संरेखित करें}

f_t &= \sigma_g(W_{f} * x_t + U_{f} * h_{t-1} + V_{f} \odot c_{t-1} + b_f) \\

i_t &= \sigma_g(W_{i} * x_t + U_{i} * h_{t-1} + V_{i} \odot c_{t-1} + b_i) \\

c_t &= f_t \odot c_{t-1} + i_t \odot \sigma_c(W_{c} * x_t + U_{c} * h_{t-1} + b_c) \\

o_t &= \sigma_g(W_{o} * x_t + U_{o} * h_{t-1} + V_{o} \odot c_{t} + b_o) \\

h_t &= o_t \odot \sigma_h(c_t)

\ अंत {संरेखित करें}



प्रशिक्षण
LSTM इकाइयों का उपयोग करने वाले एक आरएनएन को प्रशिक्षण अनुक्रमों के एक सेट पर पर्यवेक्षित तरीके से प्रशिक्षित किया जा सकता है और लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) के प्रत्येक वजन को बदलने के लिए अनुकूलन प्रक्रिया के दौरान आवश्यक प्रवणता की गणना करने के लिए समय के माध्यम से बैकप्रोपैजेशन के साथ संयुक्त प्रवणता कुल जैसे अनुकूलन एल्गोरिदम का उपयोग किया जाता है। संबंधित भार के संबंध में त्रुटि के व्युत्पन्न (LSTM नेटवर्क की आउटपुट परत पर) के अनुपात में नेटवर्क।

मानक आरएनएन के लिए प्रवणता डिसेंट का उपयोग करने में एक समस्या यह है कि महत्वपूर्ण घटनाओं के बीच समय अंतराल के आकार के साथ त्रुटि प्रवणता समस्या तेजी से लुप्त हो जाती है। इसकी वजह है $$\lim_{n \to \infty}W^n = 0$$ यदि वर्णक्रमीय त्रिज्या $$W$$ 1 से छोटा है।

हालाँकि लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाइयों के साथ जब त्रुटि मान आउटपुट परत से वापस प्रचारित होते हैं तो लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाई के सेल में त्रुटि बनी रहती है। यह त्रुटि हिंडोला लगातार लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाई के प्रत्येक गेट पर त्रुटि को वापस फीड करता है जब तक कि वे मूल्य को काटना नहीं सीखते।

सीटीसी स्कोर कार्य
कई एप्लिकेशन लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) आरएनएन के ढेर का उपयोग करते हैं और कनेक्शनिस्ट टेम्पोरल वर्गीकरण (CTC) द्वारा उन्हें प्रशिक्षित करें एक आरएनएन वजन मैट्रिक्स खोजने के लिए जो संबंधित इनपुट अनुक्रमों को देखते हुए प्रशिक्षण सेट में लेबल अनुक्रमों की संभावना को अधिकतम करता है। सीटीसी संरेखण और मान्यता दोनों प्राप्त करता है।

विकल्प
कभी-कभी तंत्रिका विकास द्वारा लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) को प्रशिक्षित (भागों) करना फायदेमंद हो सकता है या नीतिगत ढाल विधियों द्वारा विशेषकर जब कोई शिक्षक नहीं है (अर्थात प्रशिक्षण लेबल)।

सफलता
गैर-पर्यवेक्षित फैशन में लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) इकाइयों के साथ आरएनएन के प्रशिक्षण की कई सफल कहानियाँ रही हैं।

2018 में बिल गेट्स ने इसे कृत्रिम बुद्धिमत्ता को आगे बढ़ाने में एक बहुत बड़ा मील का पत्थर बताया जब OpenAI द्वारा विकसित बॉट्स Dota 2 के खेल में मनुष्यों को मात देने में सक्षम थे। OpenAI Five में पाँच स्वतंत्र लेकिन समन्वित तंत्रिका नेटवर्क होते हैं। प्रत्येक नेटवर्क को शिक्षक की निगरानी के बिना एक नीतिगत ढाल विधि द्वारा प्रशिक्षित किया जाता है और इसमें एक एकल-परत, 1024-इकाई लॉन्ग शॉर्ट टर्म मेमोरी होती है जो वर्तमान खेल स्थिति को देखती है और कई संभावित क्रिया प्रमुखों के माध्यम से क्रियाओं का उत्सर्जन करती है।

2018 में OpenAI ने मानव जैसे रोबोट हाथ को नियंत्रित करने के लिए पॉलिसी प्रवणता द्वारा समान लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) को भी प्रशिक्षित किया जो अभूतपूर्व निपुणता के साथ भौतिक वस्तुओं में हेरफेर करता है।

2019 में डीपमाइंड के कार्यक्रम अल्फास्टार (सॉफ्टवेयर) ने जटिल वीडियो गेम स्टारक्राफ्ट में उत्कृष्टता प्राप्त करने के लिए एक गहन लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) कोर का उपयोग किया। जिसे कृत्रिम सामान्य बुद्धिमत्ता की दिशा में महत्वपूर्ण प्रगति के रूप में देखा गया।

अनुप्रयोग
LSTM के अनुप्रयोगों में सम्मिलित हैं:


 * रोबोट नियंत्रण
 * समय श्रृंखला भविष्यवाणी
 * वाक् पहचान
 * ताल सीखना
 * संगीत रचना
 * व्याकरण सीखना
 * हस्तलिपि अभिज्ञान
 * मानव क्रिया पहचान
 * सांकेतिक भाषा
 * प्रोटीन होमोलॉजी डिटेक्शन
 * प्रोटीन के उपकोशिकीय स्थानीयकरण की भविष्यवाणी करना
 * समय श्रृंखला विसंगति का पता लगाना
 * बिजनेस प्रक्रिया प्रबंधन के क्षेत्र में कई भविष्यवाणी कार्य
 * चिकित्सा देखभाल मार्गों में भविष्यवाणी
 * सिमेंटिक पार्सिंग
 * वस्तु सह-विभाजन
 * हवाई अड्डा यात्री प्रबंधन
 * लघु अवधि यातायात पूर्वानुमान
 * दवा डिजाइन
 * बाजार भविष्यवाणी

विकास की समयरेखा
1991: सेप होचराइटर ने अपने जर्मन डिप्लोमा थीसिस  में जुरगेन श्मिटुबर द्वारा सलाह दी गई लुप्त हो रही ढाल की समस्या और विधि के विकसित सिद्धांतों का विश्लेषण किया।

1995: "लॉन्ग शॉर्ट-टर्म मेमोरी (LSTM)" सेप होचराइटर और जुरगेन श्मिटुबर द्वारा एक तकनीकी रिपोर्ट में प्रकाशित किया गया है।

1996: एलएसटीएम NIPS'1996, एक सहकर्मी-समीक्षित सम्मेलन में प्रकाशित हुआ।

1997: मुख्य एलएसटीएम पेपर न्यूरल कंप्यूटेशन जर्नल में प्रकाशित हुआ। लगातार त्रुटि हिंडोला (सीईसी) इकाइयों की प्रारम्भ करके एलएसटीएम लुप्त हो रही ढाल समस्या से निपटाता है। LSTM ब्लॉक के प्रारंभिक संस्करण में सेल इनपुट और आउटपुट गेट सम्मिलित थे।

1999: फेलिक्स गेर्स और उनके सलाहकार जुरगेन श्मिटहुबर और फ्रेड कमिंस ने एलएसटीएम आर्किटेक्चर में भूल गेट (जिसे "कीप गेट" भी कहा जाता है) प्रस्तुत किया जिससे एलएसटीएम अपनी स्थिति को रीसेट कर सके।

2000: गेर्स एंड श्मिटहुबर एंड कमिंस ने आर्किटेक्चर में पीपहोल कनेक्शन (सेल से गेट्स तक कनेक्शन) जोड़े। इसके अतिरिक्त आउटपुट सक्रियण कार्य छोड़ा गया था।

2001: गेर्स और श्मिटहुबर ने लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) को हिडन मार्कोव प्रतिरूप जैसे पारंपरिक प्रतिरूप द्वारा न सीखी जाने वाली भाषाओं को सीखने के लिए प्रशिक्षित किया।  मेटा-लर्निंग (कंप्यूटर विज्ञान) के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का उपयोग किया मेटा-लर्निंग (यानी लर्निंग एल्गोरिथम सीखना)।

2004: श्मिटहुबर के छात्र एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और अन्य द्वारा भाषण के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का पहला सफल अनुप्रयोग।

2005: लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का पहला प्रकाशन (ग्रेव्स और श्मिटहुबर) समय के माध्यम से और द्वि-दिशात्मक लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) के पूर्ण बैकप्रोपैगेशन के साथ।

2005: डैन विएरस्ट्रा, फॉस्टिनो गोमेज़ और श्मिटहुबर ने बिना शिक्षक के न्यूरोएवोल्यूशन द्वारा लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) को प्रशिक्षित किया।

2006: ग्रेव्स, फर्नांडीज, गोमेज़ और श्मिटहुबर ने लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) के लिए एक नया त्रुटि कार्य प्रस्तुत किया: एक साथ संरेखण और अनुक्रमों की पहचान के लिए कनेक्शनिस्ट टेम्पोरल वर्गीकरण (CTC)। सीटीसी-प्रशिक्षित एलएसटीएम ने वाक् पहचान में सफलता हासिल की।

मेयर एट अल। रोबोट को नियंत्रित करने के लिए प्रशिक्षित लॉन्ग शॉर्ट टर्म मेमोरी (LSTM)।

2007: Wierstra, Foerster, Peters और Schmidhuber ने लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) को बिना शिक्षक के सुदृढीकरण सीखने के लिए नीतिगत ढाल द्वारा प्रशिक्षित किया।

Hochreiter, Heuesel, और Obermayr ने लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) को जीव विज्ञान के क्षेत्र में प्रोटीन समरूपता का पता लगाने के लिए लागू किया।

2008: CTC द्वारा प्रशिक्षित एक लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) ने ICDAR से जुड़ी लिखावट पहचान प्रतियोगिता जीती। ऐसे तीन प्रतिरूप एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) के नेतृत्व वाली टीम द्वारा प्रस्तुत किए गए थे। एक प्रतियोगिता में सबसे सटीक प्रतिरूप था और दूसरा सबसे तेज था। यह पहली बार था जब किसी आरएनएन ने अंतर्राष्ट्रीय प्रतियोगिताओं में जीत हासिल की।

2009: जस्टिन बायर एट अल। लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) के लिए तंत्रिका वास्तुकला खोज प्रारम्भ किया।

2013: एलेक्स ग्रेव्स, अब्देल-रहमान मोहम्मद और जेफ्री हिंटन ने लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) नेटवर्क का उपयोग नेटवर्क के एक प्रमुख घटक के रूप में किया जिसने क्लासिक TIMIT प्राकृतिक भाषण डेटासेट पर रिकॉर्ड 17.7% स्वनिम त्रुटि दर हासिल की।

2014: क्युनघ्युन चो एट अल। भूल गेट लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का एक सरलीकृत संस्करण सामने रखें गेटेड आवर्तक इकाई (जीआरयू) कहा जाता है।

2015: गूगल ने गूगल  Voice पर वाक् पहचान के लिए CTC द्वारा प्रशिक्षित लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का उपयोग करना प्रारम्भ किया।  आधिकारिक ब्लॉग पोस्ट के अनुसार नया प्रतिरूप ट्रांसक्रिप्शन त्रुटियों में 49% की कटौती करता है।

2015: रूपेश कुमार श्रीवास्तव, क्लॉस ग्रीफ और श्मिधुबर ने एलएसटीएम सिद्धांतों का उपयोग किया राजमार्ग नेटवर्क बनाने के लिए सैकड़ों परतों वाला एक फीडफॉरवर्ड न्यूरल नेटवर्क जो पिछले नेटवर्क की तुलना में बहुत गहरा है।   7 महीने बाद कैमिंग हे जियानग्यू झांग; शाओकिंग रेन और जियान सन ने इमेजनेट 2015 प्रतियोगिता को ओपन-गेटेड या गेटलेस हाईवे नेटवर्क संस्करण के साथ अवशिष्ट तंत्रिका नेटवर्क कहा जाता है। यह 21वीं सदी का सबसे उद्धृत तंत्रिका नेटवर्क बन गया है।

2016: गूगल ने Allo वार्तालाप ऐप में संदेशों का सुझाव देने के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का उपयोग करना प्रारम्भ किया। उसी वर्ष गूगल ने गूगल अनुवाद के लिए गूगल तंत्रिका मशीन अनुवाद प्रणाली प्रारम्भ की जिसने लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का उपयोग करके अनुवाद त्रुटियों को 60% तक कम कर दिया।

Apple ने अपने विश्वव्यापी डेवलपर्स सम्मेलन में घोषणा की कि वह iPhone में क्विकटाइप और सिरी के लिए एलएसटीएम का उपयोग करना प्रारम्भ कर देगा।

अमेज़ॅन ने पोली को प्रारम्भ किया जो टेक्स्ट-टू-स्पीच तकनीक के लिए एक द्विदिश एलएसटीएम का उपयोग करके एलेक्सा के पीछे की आवाज़ें उत्पन्न करता है।

2017: फेसबुक ने लॉन्ग शॉर्ट टर्म मेमोरी नेटवर्क का उपयोग करते हुए हर दिन लगभग 4.5 बिलियन स्वचालित अनुवाद किए।

मिशिगन स्टेट विश्वविद्यालय,आईबीएम रिसर्च और कॉर्नेल विश्वविद्यालय के शोधकर्ताओं ने नॉलेज डिस्कवरी एंड डाटा माइनिंग (केडीडी) सम्मेलन में एक अध्ययन प्रकाशित किया।  उनका टाइम-अवेयर लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) (T-LSTM) मानक लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) की तुलना में कुछ डेटा सेटों पर बेहतर प्रदर्शन करता है।

Microsoft ने स्विचबोर्ड कॉर्पस पर 94.9% पहचान सटीकता तक पहुंचने की सूचना दी जिसमें 165,000 शब्दों की शब्दावली सम्मिलित थी। दृष्टिकोण "संवाद सत्र-आधारित दीर्घकालिक अल्पकालिक स्मृति" का उपयोग करता है।

2018: OpenAI ने Dota 2 के जटिल वीडियो गेम में इंसानों को मात देने के लिए पॉलिसी प्रवणता द्वारा प्रशिक्षित लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का उपयोग किया और एक मानव-जैसे रोबोट हाथ को नियंत्रित करने के लिए जो अभूतपूर्व निपुणता के साथ भौतिक वस्तुओं में हेरफेर करता है।

201: डीपमाइंड ने स्टारक्राफ्ट II के जटिल वीडियो गेम में उत्कृष्टता प्राप्त करने के लिए पॉलिसी प्रवणता द्वारा प्रशिक्षित लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) का उपयोग किया।

2021: गूगल विद्वान के अनुसार 2021 में लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) को एक वर्ष के भीतर 16,000 से अधिक बार उद्धृत किया गया था। यह स्वास्थ्य सेवा सहित कई अलग-अलग क्षेत्रों में लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) के अनुप्रयोगों को दर्शाता है।

यह भी देखें

 * ध्यान लगा के पढ़ना या सीखना
 * विभेदी तंत्रिका कंप्यूटर
 * गेटेड आवर्तक इकाई
 * राजमार्ग नेटवर्क
 * दीर्घकालिक पोतेन्तिअतिओन
 * प्रीफ्रंटल कॉर्टेक्स बेसल गैन्ग्लिया वर्किंग मेमोरी
 * आवर्तक तंत्रिका नेटवर्क
 * Seq2seq
 * समय जागरूक लंबी अल्पकालिक स्मृति
 * समय श्रृंखला

बाहरी संबंध

 * Recurrent Neural Networks with over 30लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) papers by Jürgen Schmidhuber's group at IDSIA
 * original with two chapters devoted to explaining recurrent neural networks, especiallyलॉन्ग शॉर्ट टर्म मेमोरी (LSTM).
 * original with two chapters devoted to explaining recurrent neural networks, especiallyलॉन्ग शॉर्ट टर्म मेमोरी (LSTM).
 * original with two chapters devoted to explaining recurrent neural networks, especiallyलॉन्ग शॉर्ट टर्म मेमोरी (LSTM).
 * original with two chapters devoted to explaining recurrent neural networks, especiallyलॉन्ग शॉर्ट टर्म मेमोरी (LSTM).