स्टोचैस्टिक ग्रेडिएंट डिसेंट

स्टोचैस्टिक ग्रेडिएंट डिसेंट ( अधिकांशतः संक्षिप्त एसजीडी) उपयुक्त चिकनाई गुणों (जैसे विभेदक फलन या सबग्रेडिएंट विधि) के साथ उद्देश्य फलन को अनुकूलित करने के लिए पुनरावृत्त विधि है। इसे ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन के स्टोकेस्टिक सन्निकटन के रूप में माना जा सकता है, क्योंकि यह वास्तविक ग्रेडिएंट (संपूर्ण डेटा सेट से गणना की गई) को अनुमान से बदल देता है (डेटा के यादृच्छिक रूप से चयनित उपसमुच्चय से गणना) विशेष रूप से उच्च-आयामी अनुकूलन समस्याओं में यह बहुत उच्च कम्प्यूटेशनल जटिलता को कम करता है, कम अभिसरण दर के बदले तेजी से पुनरावृत्तियों को प्राप्त करता है।

जबकि स्टोचैस्टिक सन्निकटन के पीछे मूल विचार को 1950 के रॉबिन्स-मोनरो एल्गोरिथम में देखा जा सकता है, स्टोचैस्टिक ग्रेडिएंट डिसेंट यंत्र अधिगम में महत्वपूर्ण अनुकूलन विधि बन गई है।

पृष्ठभूमि
दोनों सांख्यिकी एम-अनुमान और मशीन लर्निंग गणितीय अनुकूलन की समस्या को वस्तुनिष्ठ कार्य मानते हैं जिसका योग का रूप है:
 * $$Q(w) = \frac{1}{n}\sum_{i=1}^n Q_i(w),$$

जहां पैरामीटर $$w$$ जो $$Q(w)$$ को न्यूनतम करता है उसका अनुमान लगाया जाना है। प्रत्येक सारांश फलन $$Q_i$$सामान्यतः डेटा सेट (प्रशिक्षण के लिए प्रयुक्त) में $$i$$-वें अवलोकन से जुड़ा होता है।

मौलिक आँकड़ों में योग-न्यूनीकरण की समस्या न्यूनतम वर्गों में और अधिकतम-संभावना के अनुमान (स्वतंत्र टिप्पणियों के लिए) में उत्पन्न होती है। आकलनकर्ताओं के सामान्य वर्ग जो राशियों के न्यूनतमकर्ता के रूप में उत्पन्न होते हैं, उन्हें एम-अनुमानक कहा जाता है। चूँकि आँकड़ों में, यह लंबे समय से माना जाता है कि अधिकतम-संभावना अनुमान की कुछ समस्याओं के लिए स्थानीय न्यूनीकरण की आवश्यकता भी बहुत अधिक प्रतिबंधात्मक है। इसलिए समकालीन सांख्यिकीय सिद्धांतकार अधिकांशतः संभावना कार्य (या इसके व्युत्पन्न के शून्य, स्कोर (सांख्यिकी) और अन्य आकलन समीकरणों) के स्थिर बिंदुओं पर विचार करते हैं।

अनुभवजन्य कठिन परिस्थिति न्यूनतमकरण के लिए योग-न्यूनीकरण समस्या भी उत्पन्न होती है। इसमें $$Q_i(w)$$ $$i$$-वें उदाहरण में हानि फलन का मूल्य है और $$Q(w)$$ अनुभवजन्य कठिन परिस्थिति है।

जब उपरोक्त फलन को न्यूनतम करने के लिए उपयोग किया जाता है, तो एक मानक (या "बैच") ग्रेडिएंट डिसेंट विधि निम्नलिखित पुनरावृत्तियों को निष्पादित करेगी:
 * $$w := w - \eta \nabla Q(w) = w - \frac{\eta}{n} \sum_{i=1}^n \nabla Q_i(w),$$

जहां $$\eta$$ चरण आकार है (कभी-कभी मशीन सीखने में सीखने की दर कहा जाता है)।

कई स्थितियों में, सारांश फलन का एक सरल रूप होता है जो योग-फलन और योग ग्रेडिएंट के सस्ते मूल्यांकन को सक्षम बनाता है। उदाहरण के लिए, आंकड़ों में, एक-पैरामीटर घातीय वर्ग प्रभावकारी फलन -मूल्यांकन और ग्रेडिएंट-मूल्यांकन की अनुमति देते हैं।

चूँकि अन्य स्थितियों में सम-ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों से ग्रेडिएंट के मूल्यवान मूल्यांकन की आवश्यकता हो सकती है। जब प्रशिक्षण सेट बहुत बड़ा होता है और कोई सरल सूत्र उपस्थित नहीं होता है, तो ग्रेडिएंट्स के योग का मूल्यांकन करना बहुत मूल्यवान हो जाता है, क्योंकि ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों के ग्रेडिएंट्स का मूल्यांकन करने की आवश्यकता होती है। प्रत्येक पुनरावृत्ति पर कम्प्यूटेशनल निवेश को कम करने के लिए, स्टोचैस्टिक ग्रेडिएंट डिसेंट सैंपलिंग (सांख्यिकी) प्रत्येक चरण पर योग का उपसमुच्चय कार्य करता है। बड़े मापदंड पर मशीन सीखने की समस्याओं के स्थिति में यह बहुत प्रभावी है।

पुनरावृत्ति विधि
स्टोचैस्टिक (या ऑन-लाइन) ग्रेडिएंट डिसेंट में, का सही ग्रेडिएंट $$Q(w)$$ नमूने पर ढाल द्वारा अनुमानित है:
 * $$w := w - \eta \nabla Q_i(w).$$

जैसा कि एल्गोरिथ्म प्रशिक्षण सेट के माध्यम से व्यापक है, यह प्रत्येक प्रशिक्षण नमूने के लिए उपरोक्त अद्यतन करता है। एल्गोरिथम अभिसरण होने तक प्रशिक्षण सेट पर कई पास किए जा सकते हैं। यदि ऐसा किया जाता है, तो चक्रों को रोकने के लिए प्रत्येक पास के लिए डेटा में हेफेर किया जा सकता है। विशिष्ट कार्यान्वयन अनुकूली सीखने की दर का उपयोग कर सकते हैं जिससे एल्गोरिथम अभिसरण हो सकता है ।

स्यूडोकोड में, स्टोचैस्टिक ग्रेडिएंट डिसेंट को इस प्रकार प्रस्तुत किया जा सकता है: 


 * मापदंडों का एक प्रारंभिक वेक्टर चुनें $$w$$ और सीखने की दर $$\eta$$.
 * एक अनुमानित न्यूनतम प्राप्त होने तक दोहराएं:
 * प्रशिक्षण सेट में बेतरतीब ढंग से नमूने फेरबदल करें।
 * के लिए $$ i=1, 2, ..., n$$, करना:
 * $$ w := w - \eta \nabla Q_i(w).$$

वास्तविक ग्रेडिएंट और ग्रेडिएंट की गणना के बीच समझौता प्रत्येक चरण में से अधिक प्रशिक्षण नमूने (जिसे मिनी-बैच कहा जाता है) के विपरीत ग्रेडिएंट की गणना करना है। यह वास्तविक स्टोकास्टिक ग्रेडियेंट डिसेंट से अधिक उत्तम प्रदर्शन कर सकता है, क्योंकि कोड प्रत्येक चरण को अलग-अलग गणना करने के अतिरिक्त वैश्वीकरण (गणित) पुस्तकालयों का उपयोग कर सकता है जैसा कि पहले दिखाया गया था जहाँ इसे बंच-मोड बैक-प्रपोगेशन एल्गोरिथम कहा जाता था। इसका परिणाम सहज अभिसरण भी हो सकता है, क्योंकि प्रत्येक चरण पर गणना की गई ढाल को अधिक प्रशिक्षण नमूने पर औसत किया जाता है।

उत्तल अनुकूलन और स्टोचैस्टिक सन्निकटन के सिद्धांतों का उपयोग करके स्टोकेस्टिक ग्रेडिएंट डिसेंट के अभिसरण का विश्लेषण किया गया है। संक्षेप में, जब सीखने की दर $$\eta$$ उचित दर से घटाएं, और अपेक्षाकृत हल्की मान्यताओं के अधीन, स्टोकेस्टिक ग्रेडिएंट डिसेंट लगभग निश्चित रूप से वैश्विक न्यूनतम में परिवर्तित हो जाता है जब उद्देश्य फलन उत्तल फलन या स्यूडोकोनवेक्स फलन हो, और अन्यथा लगभग निश्चित रूप से स्थानीय न्यूनतम में परिवर्तित हो जाता है। यह वास्तव में रॉबिंस-सिगमंड प्रमेय का परिणाम है।

उदाहरण
मान लीजिए कि हम कम से कम वर्गों का उपयोग करके अवलोकनों $$\hat{y} = \! w_1 + w_2 x$$और संबंधित अनुमानित प्रतिक्रियाओं $$ (x_1, x_2, \ldots, x_n)$$ के साथ एक प्रशिक्षण सेट में एक सीधी रेखा $$ (\hat{y_1}, \hat{y_2}, \ldots, \hat{y_n})$$फिट करना चाहते हैं। न्यूनतम किया जाने वाला उद्देश्य कार्य है:


 * $$Q(w) = \sum_{i=1}^n Q_i(w) = \sum_{i=1}^n \left(\hat{y_i}-y_i\right)^2 = \sum_{i=1}^n \left(w_1 + w_2 x_i - y_i\right)^2.$$

इस विशिष्ट समस्या के लिए उपरोक्त स्यूडोकोड में अंतिम पंक्ति बन जाएगी:
 * $$\begin{bmatrix} w_1 \\ w_2 \end{bmatrix} :=

\begin{bmatrix} w_1 \\ w_2 \end{bmatrix} - \eta \begin{bmatrix} \frac{\partial}{\partial w_1} (w_1 + w_2 x_i - y_i)^2 \\ \frac{\partial}{\partial w_2} (w_1 + w_2 x_i - y_i)^2 \end{bmatrix} = \begin{bmatrix} w_1 \\ w_2 \end{bmatrix} - \eta  \begin{bmatrix} 2 (w_1 + w_2 x_i - y_i) \\ 2 x_i(w_1 + w_2 x_i - y_i) \end{bmatrix}.$$ ध्यान दें कि प्रत्येक पुनरावृत्ति (जिसे अद्यतन भी कहा जाता है) में, ग्रेडिएंट का मूल्यांकन सभी नमूनों के सेट के अतिरिक्त केवल एक बिंदु $$ x_i $$ पर किया जाता है।

मानक (बैच) ग्रेडिएंट डिसेंट की तुलना में मुख्य अंतर यह है कि चरण की गणना करने के लिए डेटासेट के डेटा का केवल टुकड़ा उपयोग किया जाता है, और डेटा का टुकड़ा प्रत्येक चरण पर यादृच्छिक रूप से चुना जाता है।

उल्लेखनीय अनुप्रयोग
स्टोचैस्टिक ग्रेडिएंट डिसेंट मशीन लर्निंग में मॉडल की विस्तृत श्रृंखला के प्रशिक्षण के लिए लोकप्रिय एल्गोरिथ्म है, जिसमें (रैखिक) समर्थन सदिश यंत्र, संभार तन्त्र परावर्तन (देखें, उदाहरण के लिए, वॉवपल वैबिट) और ग्राफिकल मॉडल सम्मिलित हैं। पश्चप्रचार एल्गोरिथम के साथ संयुक्त होने पर यह कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक मानक एल्गोरिथम है। इसका उपयोग भूभौतिकी समुदाय में भी बताया गया है, विशेष रूप से पूर्ण तरंग विपरीत (एफडब्ल्यूआई) के अनुप्रयोगों के लिए प्रयोग में है ।

स्टोचैस्टिक ग्रेडिएंट डिसेंट सीमित-मेमोरी बीएफजीएस या एल-बीएफजीएस एल्गोरिथम के साथ प्रतिस्पर्धा करता है, जिसका व्यापक रूप से उपयोग भी किया जाता है। मूल रूप से एडपंक्ति नाम के तहत रेखीय प्रतिगमन मॉडल के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट का उपयोग कम से कम 1960 से किया जाता रहा है।

एक अन्य स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम न्यूनतम माध्य वर्ग (एलएमएस) अनुकूली फ़िल्टर है।

व्युत्पत्ति और भिन्नता
मूल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम पर कई सुधार प्रस्तावित और उपयोग किए गए हैं। विशेष रूप से मशीन लर्निंग में, सीखने की दर (स्टेप साइज) निर्धारित करने की आवश्यकता को समस्याग्रस्त माना गया है। इस पैरामीटर को बहुत अधिक सेट करने से एल्गोरिथम अलग हो सकता है; इसे बहुत नीचे सेट करने से अभिसरण धीमा हो जाता है। स्टोचैस्टिक ग्रेडिएंट डिसेंट का वैचारिक रूप से सरल विस्तार सीखने की दर को घटता हुआ कार्य बनाता है ηt पुनरावृत्ति संख्या का $t$, सीखने की दर अनुसूची दे रहा है, जिससे पहले पुनरावृत्तियों के कारण मापदंडों में बड़े बदलाव हों, जबकि बाद वाले केवल ठीक-ठीक करते हैं। इस तरह के कार्यक्रम के-साधन क्लस्टरिंग पर मैकक्वीन के काम के बाद से जाने जाते हैं $k$-मतलब क्लस्टरिंग स्पैल द्वारा एसजीडी के कई रूपों में चरण आकार चुनने पर व्यावहारिक मार्गदर्शन दिया गया है।

निहित अद्यतन (आईएसजीडी)
जैसा कि पहले उल्लेख किया गया है, मौलिक स्टोकेस्टिक ग्रेडिएंट डिसेंट सामान्यतः सीखने की दर $η$ के प्रति संवेदनशील होता है तेजी से अभिसरण के लिए बड़ी सीखने की दर की आवश्यकता होती है किंतु इससे संख्यात्मक अस्थिरता उत्पन्न हो सकती है। समस्या का अधिक सीमा तक समाधान किया जा सकता है अंतर्निहित अद्यतनों पर विचार करके जिससे स्टोकेस्टिक ग्रेडिएंट का मूल्यांकन वर्तमान के अतिरिक्त अगले पुनरावृत्त में किया जाता है:
 * $$w^{\rm new} := w^{\rm old} - \eta \nabla Q_i(w^{\rm new}).$$

यह समीकरण अंतर्निहित है क्योंकि समीकरण के दोनों पक्षों पर $$w^{\rm new}$$ दिखाई देता है। यह समीपस्थ ग्रेडिएंट विधि का एक स्टोकेस्टिक रूप है क्योंकि अद्यतन को इस प्रकार भी लिखा जा सकता है:
 * $$w^{\rm new} := \arg\min_w \{ Q_i(w) + \frac{1}{2\eta} ||w - w^{\rm old}||^2 \}.$$

उदहारण के लिए, विशेषताओं वाले कम से कम वर्गों पर विचार करें $$x_1, \ldots, x_n \in\mathbb{R}^p$$और अवलोकनोंडिस्प्लेस्टाइल $$y_1, \ldots, y_n\in\mathbb{R}$$ हम हल करना चाहते हैं:
 * $$\min_w \sum_{j=1}^n (y_j - x_j'w)^2,$$

जहां $$x_j' w = x_{j1} w_1 + x_{j, 2} w_2 + ... + x_{j,p} w_p$$ आंतरिक उत्पाद को इंगित करता है। ध्यान दें कि $$x$$ इंटरसेप्ट को सम्मिलित करने वाले पहले तत्व के रूप में 1 हो सकता है। उत्कृष्टस्टोकेस्टिक ग्रेडिएंट डिसेंट निम्नानुसार आगे बढ़ता है:
 * $$w^{\rm new} = w^{\rm old} + \eta (y_i - x_i'w^{\rm old}) x_i$$

जहां $$i$$ को 1 और $$n$$ के बीच समान रूप से नमूना किया गया है। यद्यपि इस प्रक्रिया का सैद्धांतिक अभिसरण अपेक्षाकृत हल्की धारणाओं के तहत होता है, व्यवहार में यह प्रक्रिया अधिक अस्थिर हो सकती है। विशेष रूप से, जब $$\eta$$ को गलत निर्दिष्ट किया जाता है जिससे $$I - \eta x_i x_i'$$ में उच्च संभावना के साथ बड़े निरपेक्ष ईगेनवैल्यू हों, तो प्रक्रिया कुछ पुनरावृत्तियों के भीतर संख्यात्मक रूप से भिन्न हो सकती है। इसके विपरीत, अंतर्निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट (आईएसजीडी के रूप में छोटा) को बंद रूप में हल किया जा सकता है:
 * $$w^{\rm new} = w^{\rm old} + \frac{\eta}{1 + \eta ||x_i||^2} (y_i - x_i'w^{\rm old}) x_i.$$

यह प्रक्रिया वस्तुतः सभी $$\eta$$ के लिए संख्यात्मक रूप से स्थिर रहेगी क्योंकि सीखने की दर अब सामान्य हो गई है। न्यूनतम वर्ग समस्या में मौलिक और अंतर्निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट के बीच ऐसी तुलना कम से कम माध्य वर्ग (एलएमएस) और सामान्यीकृत न्यूनतम माध्य वर्ग फिल्टर (एनएलएमएस) के बीच तुलना के समान है।

तथापि आईएसजीडी के लिए एक बंद-फॉर्म समाधान केवल कम से कम वर्गों में ही संभव है, इस प्रक्रिया को मॉडलों की एक विस्तृत श्रृंखला में कुशलतापूर्वक प्रयुक्त किया जा सकता है। विशेष रूप से, मान लें कि $$Q_i(w)$$ केवल सुविधाओं $$x_i$$ के साथ एक रैखिक संयोजन के माध्यम से $$w$$ पर निर्भर करता है, जिससे हम $$\nabla_w Q_i(w) = -q(x_i'w) x_i$$ लिख सकें, जहां $$q \in\mathbb{R}$$ $$x_i, y_i$$ पर निर्भर हो सकता है भी किंतु $$x_i'w$$ को छोड़कर $$w$$ पर नहीं कम से कम वर्ग इस नियम का पालन करते हैं, और इसी तरह लॉजिस्टिक रिग्रेशन और अधिकांश सामान्यीकृत रैखिक मॉडल भी इसका पालन करते हैं। उदाहरण के लिए, कम से कम वर्गों में, $$q(x_i'w) = y_i - x_i'w$$ और लॉजिस्टिक रिग्रेशन $$q(x_i'w) = y_i - S(x_i'w)$$ में, जहां $$S(u) = e^u/(1+e^u)$$ लॉजिस्टिक फलन है। पॉइसन प्रतिगमन में, $$q(x_i'w) = y_i - e^{x_i'w}$$, इत्यादि।

ऐसी सेटिंग्स में आईएसजीडी को निम्नानुसार कार्यान्वित किया जाता है। होने देना $$f(\xi) = \eta q(x_i'w^{old} + \xi ||x_i||^2)$$, जहां $$\xi$$ अदिश है।

]फिर, आईएसजीडी इसके समान है:
 * $$w^{\rm new} = w^{\rm old} + \xi^\ast x_i,~\text{where}~\xi^\ast = f(\xi^\ast).$$

स्केलिंग कारक $$\xi^\ast\in\mathbb{R}$$ समद्विभाजन विधि के माध्यम से पाया जा सकता है अधिकांश नियमित मॉडल में, जैसे उपरोक्त सामान्यीकृत रैखिक मॉडल, फलन $$q$$ गिरते हुए, और इस प्रकार खोज सीमा $$\xi^\ast$$ हैं

स्केलिंग कारक $$\xi^\ast\in\mathbb{R}$$ को द्विभाजन विधि के माध्यम से पाया जा सकता है क्योंकि अधिकांश नियमित मॉडल में, जैसे कि उपरोक्त सामान्यीकृत रैखिक मॉडल, फलन $$q$$ कम हो रहा है, और इस प्रकार $$\xi^\ast$$$$[\min(0, f(0)), \max(0, f(0))]$$ के लिए खोज सीमा होती है।.

गति
आगे के प्रस्तावों में गति विधि या हैवी बॉल मेथड सम्मिलित है, जो एमएल संदर्भ में डेविड रुमेलहार्ट, जेफ्री हिंटन और रोनाल्ड जे. विलियम्स के बैकप्रॉपैगेशन लर्निंग पर पेपर में दिखाई दिया। और कार्यात्मक समीकरणों को हल करने पर सोवियत गणितज्ञ बोरिस पोलाक के 1964 के लेख से विचार उधार लिया गया था। संवेग के साथ स्टोचैस्टिक ग्रेडिएंट डिसेंट अपडेट को $Δw$ याद रखता है प्रत्येक पुनरावृत्ति पर और अगले अद्यतन को ढाल और पिछले अद्यतन के रैखिक संयोजन के रूप में निर्धारित करता है:
 * $$\Delta w := \alpha \Delta w - \eta \nabla Q_i(w)$$
 * $$w := w + \Delta w $$

जो इस ओर ले जाता है:
 * $$w := w - \eta \nabla Q_i(w) + \alpha \Delta w $$

जहां पैरामीटर $$w$$ जो $$Q(w)$$ को न्यूनतम करता है उसका अनुमान लगाया जाना है $$\eta$$ एक चरण आकार है (कभी-कभी मशीन लर्निंग में सीखने की दर कहा जाता है) और $$\alpha$$, 0 और 1 के बीच एक घातीय क्षय कारक है जो वर्तमान के सापेक्ष योगदान को निर्धारित करता है वजन में बदलाव के लिए ग्रेडिएंट और पहले के ग्रेडिएंट को निर्धारित करती है।।

संवेग नाम भौतिकी में संवेग के सादृश्य से उपजा है: भार सदिश $$w$$, पैरामीटर स्पेस के माध्यम से यात्रा करने वाले कण के रूप में सोचा गया, हानि (बल) के ढाल से त्वरण होता है। उत्कृष्टस्टोचैस्टिक ग्रेडिएंट डिसेंट के विपरीत, यह ही दिशा में यात्रा करता रहता है, दोलनों को रोकता है। कई दशकों से कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण में कंप्यूटर वैज्ञानिकों द्वारा गति का सफलतापूर्वक उपयोग किया गया है। संवेग विधि लैंग्विन गतिकी से निकटता से संबंधित है, और इसे सिमुलेटेड_एनीलिंग के साथ जोड़ा जा सकता है।

1980 के दशक के मध्य में यूरी नेस्टरोव द्वारा अगले बिंदु पर भविष्यवाणी की गई ढाल का उपयोग करने के लिए विधि को संशोधित किया गया था, और परिणामी तथाकथित नेस्टरोव त्वरित ग्रेडिएंट को कभी-कभी 2010 में एमएल में उपयोग किया गया था।

औसत
1980 के दशक के अंत में रूपर्ट और पॉलीक द्वारा स्वतंत्र रूप से आविष्कार किया गया एवरेज्ड स्टोचैस्टिक ग्रेडिएंट डिसेंट, साधारण स्टोचैस्टिक ग्रेडिएंट डिसेंट है जो समय के साथ अपने पैरामीटर सदिश का औसत सूची करता है। यही है अद्यतन साधारण स्टोकेस्टिक ग्रेडिएंट डिसेंट के समान है किंतु एल्गोरिथ्म भी ट्रैक रखता है


 * $$\bar{w} = \frac{1}{t} \sum_{i=0}^{t-1} w_i$$.

जब अनुकूलन किया जाता है, तो यह औसत पैरामीटर वेक्टर $w$ का स्थान ले लेता है।

अदाग्रैड
एडाग्रैड (एडेप्टिव ग्रेडिएंट डिसेंट एल्गोरिथम के लिए) प्रति-पैरामीटर सीखने की दर के साथ संशोधित स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम है, जो पहली बार 2011 में प्रकाशित हुआ था। अनौपचारिक रूप से यह विरल मापदंडों के लिए सीखने की दर को बढ़ाता है और कम विरल मापदंडों के लिए सीखने की दर को कम करता है। यह रणनीति अधिकांशतः सेटिंग्स में मानक स्टोचैस्टिक ग्रेडिएंट डिसेंट पर अभिसरण प्रदर्शन में सुधार करती है जहां डेटा विरल है और विरल पैरामीटर अधिक जानकारीपूर्ण हैं। ऐसे अनुप्रयोगों के उदाहरणों में प्राकृतिक भाषा प्रसंस्करण और छवि पहचान सम्मिलित है।

इसमें अभी भी आधार सीखने की दर है $η$, किंतु इसे सदिश के तत्वों से गुणा किया जाता है ${G_{j,j}} |undefined$ जो बाहरी उत्पाद आव्यूह का विकर्ण है


 * $$G = \sum_{\tau=1}^t g_\tau g_\tau^\mathsf{T}$$

जहां $$g_\tau = \nabla Q_i(w)$$, ढाल, पुनरावृत्ति पर $τ$. विकर्ण द्वारा दिया गया है


 * $$G_{j,j} = \sum_{\tau=1}^t g_{\tau,j}^2$$.

यह सदिश अनिवार्य रूप से आयाम द्वारा ढाल वर्गों का ऐतिहासिक योग संग्रहीत करता है और प्रत्येक पुनरावृत्ति के बाद अद्यतन किया जाता है। अपडेट का सूत्र अभी है


 * $$w := w - \eta\, \mathrm{diag}(G)^{-\frac{1}{2}} \odot g$$

या, प्रति-पैरामीटर अपडेट के रूप में लिखा गया है,

प्रत्येक ${G_{(i,i)}} |undefined$ सीखने की दर के लिए एक स्केलिंग कारक को जन्म देता है जो एकल पैरामीटर $w_{i}$ पर प्रयुक्त होता है। चूँकि इस कारक में हर,$$\sqrt{G_i} = \sqrt{\sum_{\tau=1}^t g_\tau^2}$$, ℓ2 मानदंड है पिछले डेरिवेटिव में, चरम पैरामीटर अपडेट कम हो जाते हैं, जबकि जिन पैरामीटर को कम या छोटे अपडेट मिलते हैं, उन्हें उच्च सीखने की दर प्राप्त होती है।
 * $$w_j := w_j - \frac{\eta}{\sqrt{G_{j,j}}} g_j.$$

उत्तल अनुकूलन के लिए डिज़ाइन किए जाने के समय, एडाग्रैड को गैर-उत्तल अनुकूलन पर सफलतापूर्वक प्रयुक्त किया गया है।

आरएमएसप्रॉप
आरएमएसप्रॉप (रूट मीन स्क्वायर प्रचार के लिए) 2012 में जेफ्री हिंटन द्वारा आविष्कृत विधि है जिसमें सीखने की दर एडाग्रैड की तरह, प्रत्येक पैरामीटर के लिए अनुकूलित है। विचार यह है कि वजन के लिए सीखने की दर को उस वजन के लिए वर्त्तमान के ग्रेडिएंट्स के परिमाण के चल रहे औसत से विभाजित किया जाए। असामान्य रूप से, यह लेख में प्रकाशित नहीं हुआ था चूँकि केवल कौरसेरा व्याख्यान में वर्णित था।

तो, सबसे पहले रनिंग औसत की गणना साधन वर्ग के संदर्भ में की जाती है


 * $$v(w,t):=\gamma v(w,t-1)+(1-\gamma)(\nabla Q_i(w))^2$$

जहां, $$\gamma$$ भूलने वाला कारक है। वर्गों के योग के रूप में ऐतिहासिक ढाल को संग्रहीत करने की अवधारणा को एडाग्रेड से उधार लिया गया है, किंतु पुराने डेटा के प्रभाव को धीरे-धीरे कम करके गैर-उत्तल समस्याओं में एडाग्रेड की घटती सीखने की दर को हल करने के लिए भूलना प्रारंभ किया गया है। और पैरामीटर के रूप में अद्यतन किया जाता है,


 * $$w:=w-\frac{\eta}{\sqrt{v(w,t)}}\nabla Q_i(w)$$

आरएमएसप्रॉप ने विभिन्न अनुप्रयोगों में सीखने की दर का अच्छा अनुकूलन दिखाया है। आरएमएसप्रॉप को आरप्रॉप के सामान्यीकरण के रूप में देखा जा सकता है और केवल पूर्ण बैचों के विपरीत मिनी-बैचों के साथ काम करने में सक्षम है।

आदमी
एडम (एडेप्टिव मोमेंट एस्टिमेशन के लिए संक्षिप्त) आरएमएसप्रॉप ऑप्टिमाइज़र के लिए 2014 का अपडेट है जो इसे गति विधि की मुख्य विशेषता के साथ जोड़ता है। इस ऑप्टिमाइज़ेशन एल्गोरिदम में, ग्रेडियेंट और ग्रेडियेंट के दूसरे क्षणों दोनों के घातीय भूलने के साथ चलने वाली औसत का उपयोग किया जाता है। दिए गए पैरामीटर $$ w^ {(t)} $$ और हानि कार्य $$ L ^ {(t)} $$, जहां $$ t $$ वर्तमान प्रशिक्षण पुनरावृत्ति को अनुक्रमित करता है (पर अनुक्रमित $$ 0 $$), एडम का पैरामीटर अपडेट इसके द्वारा दिया गया है:


 * $$m_w ^ {(t+1)} \leftarrow \beta_1 m_w ^ {(t)} + (1 - \beta_1) \nabla _w L ^ {(t)} $$
 * $$v_w ^ {(t+1)} \leftarrow \beta_2 v_w ^ {(t)} + (1 - \beta_2) (\nabla _w L ^ {(t)} )^2 $$
 * $$\hat{m}_w = \frac{m_w ^ {(t+1)}}{1 - \beta_1^t} $$
 * $$\hat{v}_w = \frac{ v_w ^ {(t+1)}}{1 - \beta_2^t} $$
 * $$w ^ {(t+1)} \leftarrow w ^ {(t)} - \eta \frac{\hat{m}_w}{\sqrt{\hat{v}_w} + \epsilon} $$

जहां $$\epsilon$$ एक छोटा अदिश राशि है (उदाहरण के लिए $$10^{-8}$$) जिसका उपयोग 0 से विभाजन को रोकने के लिए किया जाता है, और $$\beta_1$$ (उदाहरण के लिए 0.9) और $$\beta_2$$(उदाहरण के लिए 0.999) विस्मृति हैं क्रमशः ग्रेडिएंट्स और ग्रेडिएंट्स के दूसरे क्षणों के लिए कारक। वर्गमूल और वर्गमूलन तत्वानुसार किया जाता है। इस एल्गोरिथम के गहन प्रभाव ने नेस्टरोव-संवर्धित ग्रेडिएंट्स (जैसे: नादाम और एफएएफएसए ) और दूसरे क्रम की जानकारी की अलग-अलग व्याख्याओं (जैसे: पावरप्रोपेगेशन ) का उपयोग करके कई नई, कम प्रसिद्ध गति-आधारित अनुकूलन योजनाओं को प्रेरित किया। और एडास्कर्ट )। चूँकि, सबसे अधिक उपयोग किए जाने वाले वेरिएंट एडामैक्स हैं, जो अनंत मानदंड का उपयोग करके एडम को सामान्यीकृत करता है, और एएमएसग्रैड, जो घातीय औसत के अतिरिक्त अधिकतम पिछले वर्ग ग्रेडिएंट का उपयोग करके एडम से अभिसरण समस्याओं को संबोधित करता है।

एडम डब्ल्यू बाद का अपडेट है जो एडम में वज़न क्षय एल्गोरिथम के गैर-इष्टतम विकल्प को कम करता है।

साइन-आधारित स्टोकेस्टिक ग्रेडिएंट डीसेंट
तथापि साइन-आधारित अनुकूलन पूर्वोक्त आरप्रॉप पर वापस जाता है, केवल 2018 में शोधकर्ताओं ने स्टोकेस्टिक ग्रेडिएंट के परिमाण को ध्यान में रखते हुए और केवल इसके संकेत पर विचार करके एडम को सरल बनाने की प्रयाश की थी ।

बैकट्रैकिंग पंक्ति खोज
बैकट्रैकिंग पंक्ति सर्च ग्रेडिएंट डिसेंट का और प्रकार है। नीचे दिए गए सभी को उल्लिखित लिंक से प्राप्त किया गया है। यह अर्मिजो-गोल्डस्टीन स्थिति के रूप में जानी जाने वाली स्थिति पर आधारित है। दोनों विधियाँ सीखने की दरों को प्रत्येक पुनरावृत्ति में बदलने की अनुमति देती हैं; चूँकि परिवर्तन का विधि अलग है। बैकट्रैकिंग पंक्ति खोज आर्मिजो की स्थिति की जांच करने के लिए फलन मूल्यांकन का उपयोग करती है, और सैद्धांतिक रूप से सीखने की दर निर्धारित करने के लिए एल्गोरिथ्म में लूप पहले से लंबा और अज्ञात हो सकता है। अनुकूली एसजीडी को सीखने की दर निर्धारित करने में लूप की आवश्यकता नहीं होती है। दूसरी ओर, अनुकूली एसजीडी मूल संपत्ति की आश्वासन नहीं देता है - जो बैकट्रैकिंग पंक्ति खोज का आनंद लेती है - जो कि सभी एन के लिए $$f(x_{n+1})\leq f(x_n)$$ है। यदि निवेश फलन का ग्रेडिएंट विश्व स्तर पर लिप्सचिट्ज़ निरंतर है, लिप्सचिट्ज़ निरंतर एल के साथ, और सीखने की दर को 1 / एल के क्रम में चुना जाता है, तो एसजीडी का मानक संस्करण बैकट्रैकिंग पंक्ति खोज का विशेष स्थिति है।

दूसरे क्रम के विधि
अनुकूलन में मानक (नियतात्मक) न्यूटन की विधि का स्टोचैस्टिक एनालॉग न्यूटन-रफसन एल्गोरिथ्म (एक दूसरे क्रम की विधि) स्टोकेस्टिक सन्निकटन की सेटिंग में विषम रूप से इष्टतम या पुनरावृत्त अनुकूलन का निकट-इष्टतम रूप प्रदान करता है। अनुभवजन्य कठिन परिस्थिति कार्य में सारांश के हेसियन आव्यूह के प्रत्यक्ष माप का उपयोग करने वाली विधि बायर्ड, हैनसेन, नोकेडल और सिंगर द्वारा विकसित की गई थी। चूँकि अनुकूलन के लिए आवश्यक हेस्सियन मैट्रिसेस का सीधे निर्धारण व्यवहार में संभव नहीं हो सकता है। एसजीडी के दूसरे-क्रम के संस्करणों के लिए व्यावहारिक और सैद्धांतिक रूप से ध्वनि विधियाँ जिनके लिए प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं होती है, स्पाल और अन्य द्वारा दी गई हैं।  (रूपर्ट द्वारा साथ गड़बड़ी के अतिरिक्त परिमित मतभेदों के आधार पर कम कुशल विधि दी गई है। ) सन्निकटन हेस्सियन आव्यूह के लिए अन्य दृष्टिकोण इसे फिशर सूचना आव्यूह के साथ बदल रहा है जो सामान्य ढाल को प्राकृतिक में बदल देता है। प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं करने वाली ये विधियाँ उपरोक्त अनुभवजन्य कठिन परिस्थिति कार्य में योगों के मूल्यों या योगों के ढाल के मूल्यों (अथार्त एसजीडी इनपुट) पर आधारित हैं। विशेष रूप से अनुभवजन्य कठिन परिस्थिति कार्य में सारांश के हेस्सियन मैट्रिसेस की सीधी गणना के बिना दूसरे क्रम की इष्टतमता विषम रूप से प्राप्त करने योग्य है।

2023 में, स्टैनफोर्ड यूनिवर्सिटी के शोधकर्ताओं ने विकर्ण हेस्सियन के हल्के वजन वाले अनुमान का उपयोग किया गया जिसकी गणना वे प्रत्येक 10 चरणों में केवल बार गणना और मेमोरी ओवरहेड को कम करने के लिए करते हैं।

इतिहास
1950 के दशक के समय एसजीडी को धीरे-धीरे कई समूहों द्वारा विकसित किया गया था।

यह भी देखें

 * बैकट्रैकिंग पंक्ति खोज
 * समन्वय डिसेंट - उदाहरण के अतिरिक्त समय में समन्वय को बदलता है
 * रैखिक वर्गीकारक
 * ऑनपंक्ति मशीन लर्निंग
 * स्टोकेस्टिक क्लाइम्बिंग
 * स्टोचैस्टिक विचरण में कमी

बाहरी संबंध

 * Using stochastic gradient descent in C++, Boost, Ublas for linear regression
 * Machine Learning Algorithms
 * Interactive paper explaining momentum.
 * Interactive paper explaining momentum.