स्टोचैस्टिक ग्रेडिएंट डिसेंट

स्टोचैस्टिक ढतला हुआ वंश  (अक्सर संक्षिप्त SGD) उपयुक्त चिकनाई गुणों (जैसे विभेदक फ़ंक्शन या सबग्रेडिएंट विधि) के साथ एक उद्देश्य फ़ंक्शन को अनुकूलित करने के लिए एक पुनरावृत्त विधि है। इसे ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन के स्टोकेस्टिक सन्निकटन के रूप में माना जा सकता है, क्योंकि यह वास्तविक ग्रेडिएंट (संपूर्ण डेटा सेट से गणना की गई) को एक अनुमान से बदल देता है (डेटा के एक यादृच्छिक रूप से चयनित सबसेट से गणना)। विशेष रूप से उच्च-आयामी अनुकूलन समस्याओं में यह बहुत उच्च कम्प्यूटेशनल जटिलता को कम करता है, कम अभिसरण दर के बदले तेजी से पुनरावृत्तियों को प्राप्त करता है। जबकि स्टोचैस्टिक सन्निकटन के पीछे मूल विचार को 1950 के रॉबिन्स-मोनरो एल्गोरिथम में देखा जा सकता है, स्टोचैस्टिक ग्रेडिएंट डिसेंट यंत्र अधिगम  में एक महत्वपूर्ण अनुकूलन विधि बन गई है।

पृष्ठभूमि
दोनों सांख्यिकी एम-अनुमान और मशीन लर्निंग गणितीय अनुकूलन की समस्या को एक वस्तुनिष्ठ कार्य मानते हैं जिसका योग का रूप है:
 * $$Q(w) = \frac{1}{n}\sum_{i=1}^n Q_i(w),$$

जहां पैरामीट्रिक आँकड़े $$w$$ जो कम करता है $$Q(w)$$ अनुमानक होना है। प्रत्येक योग समारोह $$Q_i$$ के साथ सामान्य रूप से जुड़ा हुआ है $$i$$-वें अवलोकन (सांख्यिकी) डेटा सेट में (प्रशिक्षण के लिए प्रयुक्त)।

शास्त्रीय आँकड़ों में, योग-न्यूनीकरण की समस्या कम से कम वर्गों में और अधिकतम-संभावना के अनुमान (स्वतंत्र टिप्पणियों के लिए) में उत्पन्न होती है। आकलनकर्ताओं के सामान्य वर्ग जो राशियों के न्यूनतमकर्ता के रूप में उत्पन्न होते हैं, उन्हें एम-अनुमानक कहा जाता है। हालाँकि, आँकड़ों में, यह लंबे समय से माना जाता है कि अधिकतम-संभावना अनुमान की कुछ समस्याओं के लिए स्थानीय न्यूनीकरण की आवश्यकता भी बहुत अधिक प्रतिबंधात्मक है। इसलिए, समकालीन सांख्यिकीय सिद्धांतकार अक्सर संभावना समारोह (या इसके व्युत्पन्न के शून्य, स्कोर (सांख्यिकी) और अन्य आकलन समीकरणों) के स्थिर बिंदुओं पर विचार करते हैं।

अनुभवजन्य जोखिम न्यूनीकरण के लिए योग-न्यूनीकरण की समस्या भी उत्पन्न होती है। इस में $$Q_i(w)$$ पर हानि फलन का मान है $$i$$-वें उदाहरण, और $$Q(w)$$ अनुभवजन्य जोखिम है।

उपरोक्त फ़ंक्शन को कम करने के लिए उपयोग किए जाने पर, एक मानक (या बैच) ढाल वंश विधि निम्नलिखित पुनरावृत्तियों का प्रदर्शन करेगी:
 * $$w := w - \eta \nabla Q(w) = w - \frac{\eta}{n} \sum_{i=1}^n \nabla Q_i(w),$$

कहाँ $$\eta$$ एक चरण आकार है (कभी-कभी मशीन सीखने में सीखने की दर कहा जाता है)।

कई मामलों में, सारांश कार्यों का एक सरल रूप होता है जो योग-फ़ंक्शन और योग ढाल के सस्ते मूल्यांकन को सक्षम बनाता है। उदाहरण के लिए, सांख्यिकी में, घातीय परिवार | एक-पैरामीटर घातीय परिवार आर्थिक कार्य-मूल्यांकन और ढाल-मूल्यांकन की अनुमति देते हैं।

हालांकि, अन्य मामलों में, सम-ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों से ग्रेडिएंट के महंगे मूल्यांकन की आवश्यकता हो सकती है। जब प्रशिक्षण सेट बहुत बड़ा होता है और कोई सरल सूत्र मौजूद नहीं होता है, तो ग्रेडिएंट्स के योग का मूल्यांकन करना बहुत महंगा हो जाता है, क्योंकि ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों के ग्रेडिएंट्स का मूल्यांकन करने की आवश्यकता होती है। प्रत्येक पुनरावृत्ति पर कम्प्यूटेशनल लागत को कम करने के लिए, स्टोचैस्टिक ग्रेडिएंट डिसेंट सैंपलिंग (सांख्यिकी) प्रत्येक चरण पर योग का एक सबसेट कार्य करता है। बड़े पैमाने पर मशीन सीखने की समस्याओं के मामले में यह बहुत प्रभावी है।

पुनरावृत्ति विधि
स्टोचैस्टिक (या ऑन-लाइन) ग्रेडिएंट डिसेंट में, का सही ग्रेडिएंट $$Q(w)$$ एक नमूने पर एक ढाल द्वारा अनुमानित है:
 * $$w := w - \eta \nabla Q_i(w).$$

जैसा कि एल्गोरिथ्म प्रशिक्षण सेट के माध्यम से व्यापक है, यह प्रत्येक प्रशिक्षण नमूने के लिए उपरोक्त अद्यतन करता है। एल्गोरिथम अभिसरण होने तक प्रशिक्षण सेट पर कई पास किए जा सकते हैं। यदि ऐसा किया जाता है, तो चक्रों को रोकने के लिए प्रत्येक पास के लिए डेटा में फेरबदल किया जा सकता है। विशिष्ट कार्यान्वयन एक अनुकूली सीखने की दर का उपयोग कर सकते हैं ताकि एल्गोरिथम अभिसरण हो। स्यूडोकोड में, स्टोचैस्टिक ग्रेडिएंट डिसेंट को इस प्रकार प्रस्तुत किया जा सकता है: 


 * मापदंडों का एक प्रारंभिक वेक्टर चुनें $$w$$ और सीखने की दर $$\eta$$.
 * एक अनुमानित न्यूनतम प्राप्त होने तक दोहराएं:
 * प्रशिक्षण सेट में बेतरतीब ढंग से नमूने फेरबदल करें।
 * के लिए $$ i=1, 2, ..., n$$, करना:
 * $$ w := w - \eta \nabla Q_i(w).$$

वास्तविक ग्रेडिएंट और ग्रेडिएंट की गणना के बीच एक समझौता प्रत्येक चरण में एक से अधिक प्रशिक्षण नमूने (जिसे मिनी-बैच कहा जाता है) के खिलाफ ग्रेडिएंट की गणना करना है। यह वास्तविक स्टोकास्टिक ग्रेडियेंट वंश से काफी बेहतर प्रदर्शन कर सकता है, क्योंकि कोड प्रत्येक चरण को अलग-अलग गणना करने के बजाय वैश्वीकरण (गणित) पुस्तकालयों का उपयोग कर सकता है जैसा कि पहले दिखाया गया था जहाँ इसे बंच-मोड बैक-प्रपोगेशन एल्गोरिथम कहा जाता था। इसका परिणाम सहज अभिसरण भी हो सकता है, क्योंकि प्रत्येक चरण पर गणना की गई ढाल को अधिक प्रशिक्षण नमूने पर औसत किया जाता है।

उत्तल अनुकूलन और स्टोचैस्टिक सन्निकटन के सिद्धांतों का उपयोग करके स्टोकेस्टिक ग्रेडिएंट डिसेंट के अभिसरण का विश्लेषण किया गया है। संक्षेप में, जब सीखने की दर $$\eta$$ उचित दर से घटाएं, और अपेक्षाकृत हल्की मान्यताओं के अधीन, स्टोकेस्टिक ग्रेडिएंट डिसेंट लगभग निश्चित रूप से एक वैश्विक न्यूनतम में परिवर्तित हो जाता है जब उद्देश्य फलन उत्तल फलन या स्यूडोकोनवेक्स फ़ंक्शन हो, और अन्यथा लगभग निश्चित रूप से एक स्थानीय न्यूनतम में परिवर्तित हो जाता है। यह वास्तव में रॉबिंस-सिगमंड प्रमेय का परिणाम है।

उदाहरण
मान लीजिए हम एक सीधी रेखा में फिट होना चाहते हैं $$\hat{y} = \! w_1 + w_2 x$$ टिप्पणियों के साथ एक प्रशिक्षण सेट के लिए $$ (x_1, x_2, \ldots, x_n)$$ और संबंधित अनुमानित प्रतिक्रियाएं $$ (\hat{y_1}, \hat{y_2}, \ldots, \hat{y_n})$$ कम से कम वर्गों का उपयोग करना। कम से कम किया जाने वाला उद्देश्य कार्य है:
 * $$Q(w) = \sum_{i=1}^n Q_i(w) = \sum_{i=1}^n \left(\hat{y_i}-y_i\right)^2 = \sum_{i=1}^n \left(w_1 + w_2 x_i - y_i\right)^2.$$

इस विशिष्ट समस्या के लिए उपरोक्त स्यूडोकोड में अंतिम पंक्ति बन जाएगी:
 * $$\begin{bmatrix} w_1 \\ w_2 \end{bmatrix} :=

\begin{bmatrix} w_1 \\ w_2 \end{bmatrix} - \eta \begin{bmatrix} \frac{\partial}{\partial w_1} (w_1 + w_2 x_i - y_i)^2 \\ \frac{\partial}{\partial w_2} (w_1 + w_2 x_i - y_i)^2 \end{bmatrix} = \begin{bmatrix} w_1 \\ w_2 \end{bmatrix} - \eta  \begin{bmatrix} 2 (w_1 + w_2 x_i - y_i) \\ 2 x_i(w_1 + w_2 x_i - y_i) \end{bmatrix}.$$ ध्यान दें कि प्रत्येक पुनरावृत्ति (जिसे अद्यतन भी कहा जाता है) में, ढाल का मूल्यांकन केवल एक बिंदु पर किया जाता है $$ x_i $$ बजाय सभी नमूनों के सेट पर।

मानक (बैच) ग्रेडिएंट डिसेंट की तुलना में मुख्य अंतर यह है कि चरण की गणना करने के लिए डेटासेट के डेटा का केवल एक टुकड़ा उपयोग किया जाता है, और डेटा का टुकड़ा प्रत्येक चरण पर यादृच्छिक रूप से चुना जाता है।

उल्लेखनीय अनुप्रयोग
स्टोचैस्टिक ग्रेडिएंट डिसेंट मशीन लर्निंग में मॉडल की एक विस्तृत श्रृंखला के प्रशिक्षण के लिए एक लोकप्रिय एल्गोरिथ्म है, जिसमें (रैखिक) समर्थन वेक्टर यंत्र,  संभार तन्त्र परावर्तन  (देखें, उदाहरण के लिए, वॉवपल वैबिट) और ग्राफिकल मॉडल शामिल हैं। backpropagation एल्गोरिथम के साथ संयुक्त होने पर, यह कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक मानक एल्गोरिथम है। इसका उपयोग भूभौतिकी समुदाय में भी बताया गया है, विशेष रूप से पूर्ण तरंग उलटा (एफडब्ल्यूआई) के अनुप्रयोगों के लिए। स्टोचैस्टिक ग्रेडिएंट डिसेंट सीमित-मेमोरी BFGS|L-BFGS एल्गोरिथम के साथ प्रतिस्पर्धा करता है, जिसका व्यापक रूप से उपयोग भी किया जाता है। मूल रूप से ADALINE नाम के तहत रेखीय प्रतिगमन मॉडल के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट का उपयोग कम से कम 1960 से किया जाता रहा है। एक अन्य स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम कम से कम वर्ग फ़िल्टर है | कम से कम औसत वर्ग (LMS) अनुकूली फ़िल्टर।

एक्सटेंशन और वेरिएंट
मूल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम पर कई सुधार प्रस्तावित और उपयोग किए गए हैं। विशेष रूप से, मशीन लर्निंग में, सीखने की दर (स्टेप साइज) निर्धारित करने की आवश्यकता को समस्याग्रस्त माना गया है। इस पैरामीटर को बहुत अधिक सेट करने से एल्गोरिथम अलग हो सकता है; इसे बहुत नीचे सेट करने से अभिसरण धीमा हो जाता है। स्टोचैस्टिक ग्रेडिएंट डिसेंट का वैचारिक रूप से सरल विस्तार सीखने की दर को घटता हुआ कार्य बनाता है ηt}पुनरावृत्ति संख्या का } $t$, एक सीखने की दर अनुसूची दे रहा है, ताकि पहले पुनरावृत्तियों के कारण मापदंडों में बड़े बदलाव हों, जबकि बाद वाले केवल ठीक-ठीक करते हैं। इस तरह के कार्यक्रम के-साधन क्लस्टरिंग पर मैकक्वीन के काम के बाद से जाने जाते हैं$k$-मतलब क्लस्टरिंग। स्पैल द्वारा SGD के कई रूपों में चरण आकार चुनने पर व्यावहारिक मार्गदर्शन दिया गया है।

निहित अद्यतन (ISGD)
जैसा कि पहले उल्लेख किया गया है, शास्त्रीय स्टोकेस्टिक ग्रेडिएंट डिसेंट आमतौर पर सीखने की दर के प्रति संवेदनशील होता है $η$. तेजी से अभिसरण के लिए बड़ी सीखने की दर की आवश्यकता होती है लेकिन इससे संख्यात्मक अस्थिरता उत्पन्न हो सकती है। समस्या का काफी हद तक समाधान किया जा सकता है अंतर्निहित अद्यतनों पर विचार करके जिससे स्टोकास्टिक ढाल का मूल्यांकन वर्तमान के बजाय अगले पुनरावृत्ति पर किया जाता है:
 * $$w^{\rm new} := w^{\rm old} - \eta \nabla Q_i(w^{\rm new}).$$

यह समीकरण तब से निहित है $$w^{\rm new}$$ समीकरण के दोनों ओर प्रकट होता है। यह अद्यतन के बाद से समीपस्थ ढाल पद्धति का एक स्टोकेस्टिक रूप है के रूप में भी लिखा जा सकता है:
 * $$w^{\rm new} := \arg\min_w \{ Q_i(w) + \frac{1}{2\eta} ||w - w^{\rm old}||^2 \}.$$

उदहारण के लिए, सुविधाओं के साथ कम से कम वर्गों पर विचार करें $$x_1, \ldots, x_n \in\mathbb{R}^p$$ और अवलोकन $$y_1, \ldots, y_n\in\mathbb{R}$$. हम हल करना चाहते हैं:
 * $$\min_w \sum_{j=1}^n (y_j - x_j'w)^2,$$

कहाँ $$x_j' w = x_{j1} w_1 + x_{j, 2} w_2 + ... + x_{j,p} w_p$$ आंतरिक उत्पाद को इंगित करता है। ध्यान दें कि $$x$$ इंटरसेप्ट को शामिल करने वाले पहले तत्व के रूप में 1 हो सकता है। क्लासिकल स्टोकेस्टिक ग्रेडिएंट डिसेंट निम्नानुसार आगे बढ़ता है:
 * $$w^{\rm new} = w^{\rm old} + \eta (y_i - x_i'w^{\rm old}) x_i$$

कहाँ $$i$$ 1 और के बीच समान रूप से नमूना लिया जाता है $$n$$. यद्यपि इस प्रक्रिया का सैद्धांतिक अभिसरण अपेक्षाकृत हल्की मान्यताओं के तहत होता है, व्यवहार में यह प्रक्रिया काफी अस्थिर हो सकती है। विशेष रूप से, कब $$\eta$$ गलत निर्दिष्ट किया गया है ताकि $$I - \eta x_i x_i'$$ उच्च संभावना के साथ बड़े निरपेक्ष eigenvalues ​​​​हैं, प्रक्रिया कुछ पुनरावृत्तियों के भीतर संख्यात्मक रूप से भिन्न हो सकती है। इसके विपरीत, निहित स्टोचैस्टिक ग्रेडिएंट डिसेंट (ISGD के रूप में छोटा) को बंद-रूप में हल किया जा सकता है:
 * $$w^{\rm new} = w^{\rm old} + \frac{\eta}{1 + \eta ||x_i||^2} (y_i - x_i'w^{\rm old}) x_i.$$

यह प्रक्रिया वस्तुतः सभी के लिए संख्यात्मक रूप से स्थिर रहेगी $$\eta$$ चूंकि सीखने की दर अब सामान्य हो गई है। कम से कम वर्गों की समस्या में शास्त्रीय और निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट के बीच इस तरह की तुलना कम से कम वर्ग फिल्टर | कम से कम औसत वर्ग (एलएमएस) और के बीच तुलना के समान है। कम से कम माध्य वर्ग फ़िल्टर # सामान्यीकृत न्यूनतम माध्य वर्ग फ़िल्टर (NLMS) | सामान्यीकृत न्यूनतम माध्य वर्ग फ़िल्टर (NLMS)।

भले ही ISGD के लिए एक बंद-रूप समाधान केवल कम से कम वर्गों में ही संभव है, इस प्रक्रिया को मॉडल की एक विस्तृत श्रृंखला में कुशलता से कार्यान्वित किया जा सकता है। विशेष रूप से, मान लीजिए $$Q_i(w)$$ पर निर्भर करता है $$w$$ केवल सुविधाओं के साथ एक रैखिक संयोजन के माध्यम से $$x_i$$, ताकि हम लिख सकें $$\nabla_w Q_i(w) = -q(x_i'w) x_i$$, कहाँ $$q \in\mathbb{R}$$ पर निर्भर हो सकता है $$x_i, y_i$$ भी लेकिन चालू नहीं $$w$$ के माध्यम से छोड़कर $$x_i'w$$. कम से कम वर्ग इस नियम का पालन करते हैं, और इसलिए लॉजिस्टिक प्रतिगमन, और सबसे सामान्यीकृत रैखिक मॉडल। उदाहरण के लिए, कम से कम वर्गों में, $$q(x_i'w) = y_i - x_i'w$$, और लॉजिस्टिक रिग्रेशन में $$q(x_i'w) = y_i - S(x_i'w)$$, कहाँ $$S(u) = e^u/(1+e^u)$$ रसद समारोह  है। प्वासों प्रतिगमन में, $$q(x_i'w) = y_i - e^{x_i'w}$$, और इसी तरह।

ऐसी सेटिंग्स में, आईएसजीडी को निम्नानुसार कार्यान्वित किया जाता है। होने देना $$f(\xi) = \eta q(x_i'w^{old} + \xi ||x_i||^2)$$, कहाँ $$\xi$$ अदिश है। फिर, ISGD इसके बराबर है:
 * $$w^{\rm new} = w^{\rm old} + \xi^\ast x_i,~\text{where}~\xi^\ast = f(\xi^\ast).$$

स्केलिंग कारक $$\xi^\ast\in\mathbb{R}$$ समद्विभाजन विधि के माध्यम से पाया जा सकता है अधिकांश नियमित मॉडल में, जैसे उपरोक्त सामान्यीकृत रैखिक मॉडल, फ़ंक्शन $$q$$ गिरते हुए, और इस प्रकार खोज सीमा $$\xi^\ast$$ हैं $$[\min(0, f(0)), \max(0, f(0))]$$.

गति
आगे के प्रस्तावों में मोमेंटम मेथड या हैवी बॉल मेथड शामिल है, जो एमएल संदर्भ में डेविड रुमेलहार्ट, जेफ्री हिंटन और रोनाल्ड जे. विलियम्स के बैकप्रॉपैगेशन लर्निंग पर पेपर में दिखाई दिया। और कार्यात्मक समीकरणों को हल करने पर सोवियत गणितज्ञ बोरिस पोलाक के 1964 के लेख से विचार उधार लिया। संवेग के साथ स्टोचैस्टिक ग्रेडिएंट डिसेंट अपडेट को याद रखता है $Δw$ प्रत्येक पुनरावृत्ति पर, और अगले अद्यतन को ढाल और पिछले अद्यतन के रैखिक संयोजन के रूप में निर्धारित करता है:
 * $$\Delta w := \alpha \Delta w - \eta \nabla Q_i(w)$$
 * $$w := w + \Delta w $$

जो इस ओर ले जाता है:
 * $$w := w - \eta \nabla Q_i(w) + \alpha \Delta w $$

जहां पैरामीट्रिक आँकड़े $$w$$ जो कम करता है $$Q(w)$$ अनुमानक होना है, $$\eta$$ एक कदम आकार है (कभी-कभी मशीन सीखने में सीखने की दर कहा जाता है) और $$\alpha$$ एक घातीय सीखने की दर # सीखने की दर अनुसूची 0 और 1 के बीच है जो वजन परिवर्तन के लिए वर्तमान ढाल और पहले के ढाल के सापेक्ष योगदान को निर्धारित करती है।

संवेग नाम भौतिकी में संवेग के सादृश्य से उपजा है: भार सदिश $$w$$, पैरामीटर स्पेस के माध्यम से यात्रा करने वाले कण के रूप में सोचा गया, हानि (बल) के ढाल से त्वरण होता है। क्लासिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट के विपरीत, यह एक ही दिशा में यात्रा करता रहता है, दोलनों को रोकता है। कई दशकों से कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण में कंप्यूटर वैज्ञानिकों द्वारा मोमेंटम का सफलतापूर्वक उपयोग किया गया है। संवेग विधि लैंग्विन गतिकी से निकटता से संबंधित है, और इसे सिमुलेटेड_एनीलिंग के साथ जोड़ा जा सकता है। 1980 के दशक के मध्य में यूरी नेस्टरोव द्वारा अगले बिंदु पर भविष्यवाणी की गई ढाल का उपयोग करने के लिए विधि को संशोधित किया गया था, और परिणामी तथाकथित नेस्टरोव त्वरित ग्रेडिएंट को कभी-कभी 2010 में एमएल में इस्तेमाल किया गया था।

औसत
1980 के दशक के अंत में रूपर्ट और पॉलीक द्वारा स्वतंत्र रूप से आविष्कार किया गया एवरेज्ड स्टोचैस्टिक ग्रेडिएंट डिसेंट, साधारण स्टोचैस्टिक ग्रेडिएंट डिसेंट है जो समय के साथ अपने पैरामीटर वेक्टर का औसत रिकॉर्ड करता है। यही है, अद्यतन साधारण स्टोकेस्टिक ग्रेडिएंट डिसेंट के समान है, लेकिन एल्गोरिथ्म भी ट्रैक रखता है
 * $$\bar{w} = \frac{1}{t} \sum_{i=0}^{t-1} w_i$$.

जब अनुकूलन किया जाता है, तो यह औसत पैरामीटर वेक्टर का स्थान ले लेता है $w$.

अदाग्रैड
AdaGrad (एडेप्टिव ग्रेडिएंट डिसेंट एल्गोरिथम के लिए) प्रति-पैरामीटर सीखने की दर के साथ एक संशोधित स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम है, जो पहली बार 2011 में प्रकाशित हुआ था। अनौपचारिक रूप से, यह विरल मापदंडों के लिए सीखने की दर को बढ़ाता है और कम विरल मापदंडों के लिए सीखने की दर को कम करता है। यह रणनीति अक्सर सेटिंग्स में मानक स्टोचैस्टिक ग्रेडिएंट डिसेंट पर अभिसरण प्रदर्शन में सुधार करती है जहां डेटा विरल है और विरल पैरामीटर अधिक जानकारीपूर्ण हैं। ऐसे अनुप्रयोगों के उदाहरणों में प्राकृतिक भाषा प्रसंस्करण और छवि पहचान शामिल है।

इसमें अभी भी आधार सीखने की दर है $η$, लेकिन इसे वेक्टर के तत्वों से गुणा किया जाता है ${G_{j,j}} |undefined$ जो बाहरी उत्पाद मैट्रिक्स का विकर्ण है


 * $$G = \sum_{\tau=1}^t g_\tau g_\tau^\mathsf{T}$$

कहाँ $$g_\tau = \nabla Q_i(w)$$, ढाल, पुनरावृत्ति पर $τ$. विकर्ण द्वारा दिया गया है


 * $$G_{j,j} = \sum_{\tau=1}^t g_{\tau,j}^2$$.

यह वेक्टर अनिवार्य रूप से आयाम द्वारा ढाल वर्गों का एक ऐतिहासिक योग संग्रहीत करता है और प्रत्येक पुनरावृत्ति के बाद अद्यतन किया जाता है। अपडेट का फॉर्मूला अभी है


 * $$w := w - \eta\, \mathrm{diag}(G)^{-\frac{1}{2}} \odot g$$

या, प्रति-पैरामीटर अपडेट के रूप में लिखा गया है,


 * $$w_j := w_j - \frac{\eta}{\sqrt{G_{j,j}}} g_j.$$

प्रत्येक ${G_{(i,i)}} |undefined$ एकल पैरामीटर पर लागू होने वाली सीखने की दर के लिए एक स्केलिंग कारक को जन्म देता है $w_{i}$. चूँकि इस गुणनखंड में हर, $$\sqrt{G_i} = \sqrt{\sum_{\tau=1}^t g_\tau^2}$$ नॉर्म है (गणित)#यूक्लिडियन मानदंड|ℓ2 पिछले डेरिवेटिव्स के मानक, चरम पैरामीटर अपडेट कम हो जाते हैं, जबकि कुछ या छोटे अपडेट प्राप्त करने वाले पैरामीटर उच्च सीखने की दर प्राप्त करते हैं।

उत्तल अनुकूलन के लिए डिज़ाइन किए जाने के दौरान, AdaGrad को गैर-उत्तल अनुकूलन पर सफलतापूर्वक लागू किया गया है।

आरएमएसप्रॉप
RMSProp (रूट मीन स्क्वायर प्रचार के लिए) 2012 में जेफ्री हिंटन द्वारा आविष्कृत एक विधि है जिसमें सीखने की दर, एडाग्रैड की तरह, प्रत्येक पैरामीटर के लिए अनुकूलित है। विचार यह है कि वजन के लिए सीखने की दर को उस वजन के लिए हाल के ग्रेडिएंट्स के परिमाण के चल रहे औसत से विभाजित किया जाए। असामान्य रूप से, यह एक लेख में प्रकाशित नहीं हुआ था बल्कि केवल एक Coursera व्याख्यान में वर्णित था।

तो, पहले रनिंग एवरेज की गणना माध्य वर्ग के संदर्भ में की जाती है,


 * $$v(w,t):=\gamma v(w,t-1)+(1-\gamma)(\nabla Q_i(w))^2$$

कहाँ, $$\gamma$$ भूलने वाला कारक है। वर्गों के योग के रूप में ऐतिहासिक ढाल को संग्रहीत करने की अवधारणा को एडाग्रेड से उधार लिया गया है, लेकिन पुराने डेटा के प्रभाव को धीरे-धीरे कम करके गैर-उत्तल समस्याओं में एडाग्रेड की घटती सीखने की दर को हल करने के लिए भूलना शुरू किया गया है। और पैरामीटर के रूप में अद्यतन किया जाता है,


 * $$w:=w-\frac{\eta}{\sqrt{v(w,t)}}\nabla Q_i(w)$$

RMSProp ने विभिन्न अनुप्रयोगों में सीखने की दर का अच्छा अनुकूलन दिखाया है। RMSProp को Rprop के सामान्यीकरण के रूप में देखा जा सकता है और केवल पूर्ण बैचों के विपरीत मिनी-बैचों के साथ काम करने में सक्षम है।

आदमी
आदमी (एडेप्टिव मोमेंट एस्टिमेशन के लिए संक्षिप्त) RMSProp ऑप्टिमाइज़र के लिए 2014 का अपडेट है जो इसे मोमेंटम विधि की मुख्य विशेषता के साथ जोड़ता है। इस ऑप्टिमाइज़ेशन एल्गोरिदम में, ग्रेडियेंट और ग्रेडियेंट के दूसरे क्षणों दोनों के घातीय भूलने के साथ चलने वाली औसत का उपयोग किया जाता है। दिए गए पैरामीटर $$ w^ {(t)} $$ और एक नुकसान समारोह $$ L ^ {(t)} $$, कहाँ $$ t $$ वर्तमान प्रशिक्षण पुनरावृत्ति को अनुक्रमित करता है (पर अनुक्रमित $$ 0 $$), एडम का पैरामीटर अपडेट इसके द्वारा दिया गया है:


 * $$m_w ^ {(t+1)} \leftarrow \beta_1 m_w ^ {(t)} + (1 - \beta_1) \nabla _w L ^ {(t)} $$
 * $$v_w ^ {(t+1)} \leftarrow \beta_2 v_w ^ {(t)} + (1 - \beta_2) (\nabla _w L ^ {(t)} )^2 $$
 * $$\hat{m}_w = \frac{m_w ^ {(t+1)}}{1 - \beta_1^t} $$
 * $$\hat{v}_w = \frac{ v_w ^ {(t+1)}}{1 - \beta_2^t} $$
 * $$w ^ {(t+1)} \leftarrow w ^ {(t)} - \eta \frac{\hat{m}_w}{\sqrt{\hat{v}_w} + \epsilon} $$

कहाँ $$\epsilon$$ एक छोटा अदिश है (उदा। $$10^{-8}$$) 0 से विभाजन को रोकने के लिए प्रयोग किया जाता है, और $$\beta_1$$ (उदाहरण 0.9) और $$\beta_2$$ (उदाहरण के लिए 0.999) क्रमशः ग्रेडिएंट्स और ग्रेडिएंट्स के दूसरे पलों के लिए भूलने वाले कारक हैं। स्क्वायरिंग और स्क्वायर रूटिंग तत्व-वार किया जाता है। इस एल्गोरिद्म के गहरे प्रभाव ने नेस्टरोव-संवर्धित ग्रेडिएंट्स (जैसे: एनएडैम और एफएएफएसए ) और दूसरे क्रम की जानकारी की अलग-अलग व्याख्याएं (उदाहरण: पावरप्रोपैगेशन और अदासक्र्ट ). हालाँकि, सबसे अधिक इस्तेमाल किए जाने वाले संस्करण AdaMax हैं, जो आदम को इन्फिनिटी मानदंड का उपयोग करके सामान्यीकृत करता है, और AMSGrad, जो एक्सपोनेंशियल एवरेज के बजाय पिछले स्क्वेर्ड ग्रेडिएंट्स का अधिकतम उपयोग करके एडम से अभिसरण समस्याओं को संबोधित करता है। एडम डब्ल्यू एक बाद का अपडेट है जो एडम में वज़न क्षय एल्गोरिथम के एक गैर-इष्टतम विकल्प को कम करता है।

साइन-आधारित स्टोकेस्टिक ग्रेडिएंट डीसेंट
भले ही साइन-आधारित अनुकूलन पूर्वोक्त आरप्रॉप पर वापस जाता है, केवल 2018 में शोधकर्ताओं ने स्टोकेस्टिक ग्रेडिएंट के परिमाण को ध्यान में रखते हुए और केवल इसके संकेत पर विचार करके एडम को सरल बनाने की कोशिश की।

बैकट्रैकिंग लाइन खोज
बैकट्रैकिंग लाइन सर्च ग्रेडिएंट डिसेंट का एक और प्रकार है। नीचे दिए गए सभी को उल्लिखित लिंक से प्राप्त किया गया है। यह अर्मिजो-गोल्डस्टीन स्थिति के रूप में जानी जाने वाली स्थिति पर आधारित है। दोनों विधियाँ सीखने की दरों को प्रत्येक पुनरावृत्ति में बदलने की अनुमति देती हैं; हालाँकि, परिवर्तन का तरीका अलग है। बैकट्रैकिंग लाइन खोज आर्मिजो की स्थिति की जांच करने के लिए फ़ंक्शन मूल्यांकन का उपयोग करती है, और सैद्धांतिक रूप से सीखने की दर निर्धारित करने के लिए एल्गोरिथ्म में लूप पहले से लंबा और अज्ञात हो सकता है। अनुकूली SGD को सीखने की दर निर्धारित करने में लूप की आवश्यकता नहीं होती है। दूसरी ओर, अनुकूली SGD मूल संपत्ति की गारंटी नहीं देता है - जो बैकट्रैकिंग लाइन खोज का आनंद लेती है - जो कि है $$f(x_{n+1})\leq f(x_n)$$ सभी के लिए एन। यदि लागत फ़ंक्शन का ग्रेडिएंट विश्व स्तर पर लिप्सचिट्ज़ निरंतर है, लिप्सचिट्ज़ निरंतर एल के साथ, और सीखने की दर को 1 / एल के क्रम में चुना जाता है, तो SGD का मानक संस्करण बैकट्रैकिंग लाइन खोज का एक विशेष मामला है।

दूसरे क्रम के तरीके
अनुकूलन में मानक (नियतात्मक) न्यूटन की विधि का एक स्टोचैस्टिक एनालॉग | न्यूटन-रफसन एल्गोरिथ्म (एक दूसरे क्रम की विधि) स्टोकेस्टिक सन्निकटन की सेटिंग में एक विषम रूप से इष्टतम या पुनरावृत्त अनुकूलन का निकट-इष्टतम रूप प्रदान करता है।. अनुभवजन्य जोखिम समारोह में सारांश के हेसियन मैट्रिक्स के प्रत्यक्ष माप का उपयोग करने वाली एक विधि बायर्ड, हैनसेन, नोकेडल और सिंगर द्वारा विकसित की गई थी। हालाँकि, अनुकूलन के लिए आवश्यक हेस्सियन मैट्रिसेस का सीधे निर्धारण व्यवहार में संभव नहीं हो सकता है। SGD के दूसरे-क्रम के संस्करणों के लिए व्यावहारिक और सैद्धांतिक रूप से ध्वनि विधियाँ जिनके लिए प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं होती है, स्पाल और अन्य द्वारा दी गई हैं।  (रूपर्ट द्वारा एक साथ गड़बड़ी के बजाय परिमित मतभेदों के आधार पर एक कम कुशल विधि दी गई है। ) सन्निकटन हेस्सियन मैट्रिक्स के लिए एक अन्य दृष्टिकोण इसे फिशर सूचना मैट्रिक्स के साथ बदल रहा है, जो सामान्य ढाल को प्राकृतिक में बदल देता है। प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं करने वाली ये विधियाँ उपरोक्त अनुभवजन्य जोखिम समारोह में योगों के मूल्यों या योगों के ढाल के मूल्यों (यानी, SGD इनपुट) पर आधारित हैं। विशेष रूप से, अनुभवजन्य जोखिम समारोह में सारांश के हेस्सियन मैट्रिसेस की सीधी गणना के बिना दूसरे क्रम की इष्टतमता विषम रूप से प्राप्त करने योग्य है।

2023 में, स्टैनफोर्ड यूनिवर्सिटी के शोधकर्ताओं ने विकर्ण हेस्सियन के एक हल्के वजन वाले अनुमान का उपयोग किया, जिसकी गणना वे प्रत्येक 10 चरणों में केवल एक बार गणना और मेमोरी ओवरहेड को कम करने के लिए करते हैं।

इतिहास
1950 के दशक के दौरान SGD को धीरे-धीरे कई समूहों द्वारा विकसित किया गया था।

यह भी देखें

 * बैकट्रैकिंग लाइन खोज
 * समन्वय वंश - एक उदाहरण के बजाय एक समय में एक समन्वय को बदलता है
 * रैखिक वर्गीकारक
 * ऑनलाइन मशीन लर्निंग
 * स्टोकेस्टिक पहाड़ी चढ़ाई
 * स्टोचैस्टिक विचरण में कमी

बाहरी संबंध

 * Using stochastic gradient descent in C++, Boost, Ublas for linear regression
 * Machine Learning Algorithms
 * Interactive paper explaining momentum.
 * Interactive paper explaining momentum.