स्टोचैस्टिक ग्रेडिएंट डिसेंट

स्टोचैस्टिक ढतला हुआ वंश (अक्सर संक्षिप्त एसजीडी) उपयुक्त चिकनाई गुणों (जैसे विभेदक फलन या सबग्रेडिएंट विधि) के साथ उद्देश्य फलन को अनुकूलित करने के लिए पुनरावृत्त विधि है। इसे ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन के स्टोकेस्टिक सन्निकटन के रूप में माना जा सकता है, क्योंकि यह वास्तविक ग्रेडिएंट (संपूर्ण डेटा सेट से गणना की गई) को अनुमान से बदल देता है (डेटा के यादृच्छिक रूप से चयनित उपसमुच्चय से गणना) विशेष रूप से उच्च-आयामी अनुकूलन समस्याओं में यह बहुत उच्च कम्प्यूटेशनल जटिलता को कम करता है, कम अभिसरण दर के बदले तेजी से पुनरावृत्तियों को प्राप्त करता है।

जबकि स्टोचैस्टिक सन्निकटन के पीछे मूल विचार को 1950 के रॉबिन्स-मोनरो एल्गोरिथम में देखा जा सकता है, स्टोचैस्टिक ग्रेडिएंट डिसेंट यंत्र अधिगम में महत्वपूर्ण अनुकूलन विधि बन गई है।

पृष्ठभूमि
दोनों सांख्यिकी एम-अनुमान और मशीन लर्निंग गणितीय अनुकूलन की समस्या को वस्तुनिष्ठ कार्य मानते हैं जिसका योग का रूप है:
 * $$Q(w) = \frac{1}{n}\sum_{i=1}^n Q_i(w),$$

जहां पैरामीट्रिक आँकड़े $$w$$ जो कम करता है $$Q(w)$$ अनुमानक होना है। प्रत्येक योग समारोह $$Q_i$$ के साथ सामान्य रूप से जुड़ा हुआ है $$i$$-वें अवलोकन (सांख्यिकी) डेटा सेट में (प्रशिक्षण के लिए प्रयुक्त)।

शास्त्रीय आँकड़ों में, योग-न्यूनीकरण की समस्या कम से कम वर्गों में और अधिकतम-संभावना के अनुमान (स्वतंत्र टिप्पणियों के लिए) में उत्पन्न होती है। आकलनकर्ताओं के सामान्य वर्ग जो राशियों के न्यूनतमकर्ता के रूप में उत्पन्न होते हैं, उन्हें एम-अनुमानक कहा जाता है। हालाँकि, आँकड़ों में, यह लंबे समय से माना जाता है कि अधिकतम-संभावना अनुमान की कुछ समस्याओं के लिए स्थानीय न्यूनीकरण की आवश्यकता भी बहुत अधिक प्रतिबंधात्मक है। इसलिए, समकालीन सांख्यिकीय सिद्धांतकार अक्सर संभावना समारोह (या इसके व्युत्पन्न के शून्य, स्कोर (सांख्यिकी) और अन्य आकलन समीकरणों) के स्थिर बिंदुओं पर विचार करते हैं।

अनुभवजन्य जोखिम न्यूनीकरण के लिए योग-न्यूनीकरण की समस्या भी उत्पन्न होती है। इस में $$Q_i(w)$$ पर हानि फलन का मान है $$i$$-वें उदाहरण, और $$Q(w)$$ अनुभवजन्य जोखिम है।

उपरोक्त फलन को कम करने के लिए उपयोग किए जाने पर, मानक (या बैच) ढाल वंश विधि निम्नलिखित पुनरावृत्तियों का प्रदर्शन करेगी:
 * $$w := w - \eta \nabla Q(w) = w - \frac{\eta}{n} \sum_{i=1}^n \nabla Q_i(w),$$

कहाँ $$\eta$$ चरण आकार है (कभी-कभी मशीन सीखने में सीखने की दर कहा जाता है)।

कई मामलों में, सारांश कार्यों का सरल रूप होता है जो योग-फलन और योग ढाल के सस्ते मूल्यांकन को सक्षम बनाता है। उदाहरण के लिए, सांख्यिकी में, घातीय परिवार | एक-पैरामीटर घातीय परिवार आर्थिक कार्य-मूल्यांकन और ढाल-मूल्यांकन की अनुमति देते हैं।

हालांकि, अन्य मामलों में, सम-ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों से ग्रेडिएंट के महंगे मूल्यांकन की आवश्यकता हो सकती है। जब प्रशिक्षण सेट बहुत बड़ा होता है और कोई सरल सूत्र मौजूद नहीं होता है, तो ग्रेडिएंट्स के योग का मूल्यांकन करना बहुत महंगा हो जाता है, क्योंकि ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों के ग्रेडिएंट्स का मूल्यांकन करने की आवश्यकता होती है। प्रत्येक पुनरावृत्ति पर कम्प्यूटेशनल लागत को कम करने के लिए, स्टोचैस्टिक ग्रेडिएंट डिसेंट सैंपलिंग (सांख्यिकी) प्रत्येक चरण पर योग का सबसेट कार्य करता है। बड़े पैमाने पर मशीन सीखने की समस्याओं के मामले में यह बहुत प्रभावी है।

पुनरावृत्ति विधि
स्टोचैस्टिक (या ऑन-लाइन) ग्रेडिएंट डिसेंट में, का सही ग्रेडिएंट $$Q(w)$$ नमूने पर ढाल द्वारा अनुमानित है:
 * $$w := w - \eta \nabla Q_i(w).$$

जैसा कि एल्गोरिथ्म प्रशिक्षण सेट के माध्यम से व्यापक है, यह प्रत्येक प्रशिक्षण नमूने के लिए उपरोक्त अद्यतन करता है। एल्गोरिथम अभिसरण होने तक प्रशिक्षण सेट पर कई पास किए जा सकते हैं। यदि ऐसा किया जाता है, तो चक्रों को रोकने के लिए प्रत्येक पास के लिए डेटा में फेरबदल किया जा सकता है। विशिष्ट कार्यान्वयन अनुकूली सीखने की दर का उपयोग कर सकते हैं ताकि एल्गोरिथम अभिसरण हो। स्यूडोकोड में, स्टोचैस्टिक ग्रेडिएंट डिसेंट को इस प्रकार प्रस्तुत किया जा सकता है: 


 * मापदंडों का एक प्रारंभिक वेक्टर चुनें $$w$$ और सीखने की दर $$\eta$$.
 * एक अनुमानित न्यूनतम प्राप्त होने तक दोहराएं:
 * प्रशिक्षण सेट में बेतरतीब ढंग से नमूने फेरबदल करें।
 * के लिए $$ i=1, 2, ..., n$$, करना:
 * $$ w := w - \eta \nabla Q_i(w).$$

वास्तविक ग्रेडिएंट और ग्रेडिएंट की गणना के बीच समझौता प्रत्येक चरण में से अधिक प्रशिक्षण नमूने (जिसे मिनी-बैच कहा जाता है) के खिलाफ ग्रेडिएंट की गणना करना है। यह वास्तविक स्टोकास्टिक ग्रेडियेंट वंश से काफी बेहतर प्रदर्शन कर सकता है, क्योंकि कोड प्रत्येक चरण को अलग-अलग गणना करने के बजाय वैश्वीकरण (गणित) पुस्तकालयों का उपयोग कर सकता है जैसा कि पहले दिखाया गया था जहाँ इसे बंच-मोड बैक-प्रपोगेशन एल्गोरिथम कहा जाता था। इसका परिणाम सहज अभिसरण भी हो सकता है, क्योंकि प्रत्येक चरण पर गणना की गई ढाल को अधिक प्रशिक्षण नमूने पर औसत किया जाता है।

उत्तल अनुकूलन और स्टोचैस्टिक सन्निकटन के सिद्धांतों का उपयोग करके स्टोकेस्टिक ग्रेडिएंट डिसेंट के अभिसरण का विश्लेषण किया गया है। संक्षेप में, जब सीखने की दर $$\eta$$ उचित दर से घटाएं, और अपेक्षाकृत हल्की मान्यताओं के अधीन, स्टोकेस्टिक ग्रेडिएंट डिसेंट लगभग निश्चित रूप से वैश्विक न्यूनतम में परिवर्तित हो जाता है जब उद्देश्य फलन उत्तल फलन या स्यूडोकोनवेक्स फलन हो, और अन्यथा लगभग निश्चित रूप से स्थानीय न्यूनतम में परिवर्तित हो जाता है। यह वास्तव में रॉबिंस-सिगमंड प्रमेय का परिणाम है।

उदाहरण
मान लीजिए हम सीधी रेखा में फिट होना चाहते हैं $$\hat{y} = \! w_1 + w_2 x$$ टिप्पणियों के साथ प्रशिक्षण सेट के लिए $$ (x_1, x_2, \ldots, x_n)$$ और संबंधित अनुमानित प्रतिक्रियाएं $$ (\hat{y_1}, \hat{y_2}, \ldots, \hat{y_n})$$ कम से कम वर्गों का उपयोग करना। कम से कम किया जाने वाला उद्देश्य कार्य है:
 * $$Q(w) = \sum_{i=1}^n Q_i(w) = \sum_{i=1}^n \left(\hat{y_i}-y_i\right)^2 = \sum_{i=1}^n \left(w_1 + w_2 x_i - y_i\right)^2.$$

इस विशिष्ट समस्या के लिए उपरोक्त स्यूडोकोड में अंतिम पंक्ति बन जाएगी:
 * $$\begin{bmatrix} w_1 \\ w_2 \end{bmatrix} :=

\begin{bmatrix} w_1 \\ w_2 \end{bmatrix} - \eta \begin{bmatrix} \frac{\partial}{\partial w_1} (w_1 + w_2 x_i - y_i)^2 \\ \frac{\partial}{\partial w_2} (w_1 + w_2 x_i - y_i)^2 \end{bmatrix} = \begin{bmatrix} w_1 \\ w_2 \end{bmatrix} - \eta  \begin{bmatrix} 2 (w_1 + w_2 x_i - y_i) \\ 2 x_i(w_1 + w_2 x_i - y_i) \end{bmatrix}.$$ ध्यान दें कि प्रत्येक पुनरावृत्ति (जिसे अद्यतन भी कहा जाता है) में, ढाल का मूल्यांकन केवल बिंदु पर किया जाता है $$ x_i $$ बजाय सभी नमूनों के सेट पर।

मानक (बैच) ग्रेडिएंट डिसेंट की तुलना में मुख्य अंतर यह है कि चरण की गणना करने के लिए डेटासेट के डेटा का केवल टुकड़ा उपयोग किया जाता है, और डेटा का टुकड़ा प्रत्येक चरण पर यादृच्छिक रूप से चुना जाता है।

उल्लेखनीय अनुप्रयोग
स्टोचैस्टिक ग्रेडिएंट डिसेंट मशीन लर्निंग में मॉडल की विस्तृत श्रृंखला के प्रशिक्षण के लिए लोकप्रिय एल्गोरिथ्म है, जिसमें (रैखिक) समर्थन वेक्टर यंत्र, संभार तन्त्र परावर्तन (देखें, उदाहरण के लिए, वॉवपल वैबिट) और ग्राफिकल मॉडल शामिल हैं। backpropagation एल्गोरिथम के साथ संयुक्त होने पर, यह कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक मानक एल्गोरिथम है। इसका उपयोग भूभौतिकी समुदाय में भी बताया गया है, विशेष रूप से पूर्ण तरंग उलटा (एफडब्ल्यूआई) के अनुप्रयोगों के लिए। स्टोचैस्टिक ग्रेडिएंट डिसेंट सीमित-मेमोरी BFGS|L-BFGS एल्गोरिथम के साथ प्रतिस्पर्धा करता है, जिसका व्यापक रूप से उपयोग भी किया जाता है। मूल रूप से ADALINE नाम के तहत रेखीय प्रतिगमन मॉडल के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट का उपयोग कम से कम 1960 से किया जाता रहा है। एक अन्य स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम कम से कम वर्ग फ़िल्टर है | कम से कम औसत वर्ग (LMS) अनुकूली फ़िल्टर।

एक्सटेंशन और वेरिएंट
मूल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम पर कई सुधार प्रस्तावित और उपयोग किए गए हैं। विशेष रूप से, मशीन लर्निंग में, सीखने की दर (स्टेप साइज) निर्धारित करने की आवश्यकता को समस्याग्रस्त माना गया है। इस पैरामीटर को बहुत अधिक सेट करने से एल्गोरिथम अलग हो सकता है; इसे बहुत नीचे सेट करने से अभिसरण धीमा हो जाता है। स्टोचैस्टिक ग्रेडिएंट डिसेंट का वैचारिक रूप से सरल विस्तार सीखने की दर को घटता हुआ कार्य बनाता है ηt}पुनरावृत्ति संख्या का } $t$, सीखने की दर अनुसूची दे रहा है, ताकि पहले पुनरावृत्तियों के कारण मापदंडों में बड़े बदलाव हों, जबकि बाद वाले केवल ठीक-ठीक करते हैं। इस तरह के कार्यक्रम के-साधन क्लस्टरिंग पर मैकक्वीन के काम के बाद से जाने जाते हैं$k$-मतलब क्लस्टरिंग। स्पैल द्वारा SGD के कई रूपों में चरण आकार चुनने पर व्यावहारिक मार्गदर्शन दिया गया है।

निहित अद्यतन (ISGD)
जैसा कि पहले उल्लेख किया गया है, शास्त्रीय स्टोकेस्टिक ग्रेडिएंट डिसेंट आमतौर पर सीखने की दर के प्रति संवेदनशील होता है $η$. तेजी से अभिसरण के लिए बड़ी सीखने की दर की आवश्यकता होती है लेकिन इससे संख्यात्मक अस्थिरता उत्पन्न हो सकती है। समस्या का काफी हद तक समाधान किया जा सकता है अंतर्निहित अद्यतनों पर विचार करके जिससे स्टोकास्टिक ढाल का मूल्यांकन वर्तमान के बजाय अगले पुनरावृत्ति पर किया जाता है:
 * $$w^{\rm new} := w^{\rm old} - \eta \nabla Q_i(w^{\rm new}).$$

यह समीकरण तब से निहित है $$w^{\rm new}$$ समीकरण के दोनों ओर प्रकट होता है। यह अद्यतन के बाद से समीपस्थ ढाल पद्धति का स्टोकेस्टिक रूप है के रूप में भी लिखा जा सकता है:
 * $$w^{\rm new} := \arg\min_w \{ Q_i(w) + \frac{1}{2\eta} ||w - w^{\rm old}||^2 \}.$$

उदहारण के लिए, सुविधाओं के साथ कम से कम वर्गों पर विचार करें $$x_1, \ldots, x_n \in\mathbb{R}^p$$ और अवलोकन $$y_1, \ldots, y_n\in\mathbb{R}$$. हम हल करना चाहते हैं:
 * $$\min_w \sum_{j=1}^n (y_j - x_j'w)^2,$$

कहाँ $$x_j' w = x_{j1} w_1 + x_{j, 2} w_2 + ... + x_{j,p} w_p$$ आंतरिक उत्पाद को इंगित करता है। ध्यान दें कि $$x$$ इंटरसेप्ट को शामिल करने वाले पहले तत्व के रूप में 1 हो सकता है। क्लासिकल स्टोकेस्टिक ग्रेडिएंट डिसेंट निम्नानुसार आगे बढ़ता है:
 * $$w^{\rm new} = w^{\rm old} + \eta (y_i - x_i'w^{\rm old}) x_i$$

कहाँ $$i$$ 1 और के बीच समान रूप से नमूना लिया जाता है $$n$$. यद्यपि इस प्रक्रिया का सैद्धांतिक अभिसरण अपेक्षाकृत हल्की मान्यताओं के तहत होता है, व्यवहार में यह प्रक्रिया काफी अस्थिर हो सकती है। विशेष रूप से, कब $$\eta$$ गलत निर्दिष्ट किया गया है ताकि $$I - \eta x_i x_i'$$ उच्च संभावना के साथ बड़े निरपेक्ष eigenvalues ​​​​हैं, प्रक्रिया कुछ पुनरावृत्तियों के भीतर संख्यात्मक रूप से भिन्न हो सकती है। इसके विपरीत, निहित स्टोचैस्टिक ग्रेडिएंट डिसेंट (ISGD के रूप में छोटा) को बंद-रूप में हल किया जा सकता है:
 * $$w^{\rm new} = w^{\rm old} + \frac{\eta}{1 + \eta ||x_i||^2} (y_i - x_i'w^{\rm old}) x_i.$$

यह प्रक्रिया वस्तुतः सभी के लिए संख्यात्मक रूप से स्थिर रहेगी $$\eta$$ चूंकि सीखने की दर अब सामान्य हो गई है। कम से कम वर्गों की समस्या में शास्त्रीय और निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट के बीच इस तरह की तुलना कम से कम वर्ग फिल्टर | कम से कम औसत वर्ग (एलएमएस) और के बीच तुलना के समान है। कम से कम माध्य वर्ग फ़िल्टर # सामान्यीकृत न्यूनतम माध्य वर्ग फ़िल्टर (NLMS) | सामान्यीकृत न्यूनतम माध्य वर्ग फ़िल्टर (NLMS)।

भले ही ISGD के लिए बंद-रूप समाधान केवल कम से कम वर्गों में ही संभव है, इस प्रक्रिया को मॉडल की विस्तृत श्रृंखला में कुशलता से कार्यान्वित किया जा सकता है। विशेष रूप से, मान लीजिए $$Q_i(w)$$ पर निर्भर करता है $$w$$ केवल सुविधाओं के साथ रैखिक संयोजन के माध्यम से $$x_i$$, ताकि हम लिख सकें $$\nabla_w Q_i(w) = -q(x_i'w) x_i$$, कहाँ $$q \in\mathbb{R}$$ पर निर्भर हो सकता है $$x_i, y_i$$ भी लेकिन चालू नहीं $$w$$ के माध्यम से छोड़कर $$x_i'w$$. कम से कम वर्ग इस नियम का पालन करते हैं, और इसलिए लॉजिस्टिक प्रतिगमन, और सबसे सामान्यीकृत रैखिक मॉडल। उदाहरण के लिए, कम से कम वर्गों में, $$q(x_i'w) = y_i - x_i'w$$, और लॉजिस्टिक रिग्रेशन में $$q(x_i'w) = y_i - S(x_i'w)$$, कहाँ $$S(u) = e^u/(1+e^u)$$ रसद समारोह है। प्वासों प्रतिगमन में, $$q(x_i'w) = y_i - e^{x_i'w}$$, और इसी तरह।

ऐसी सेटिंग्स में, आईएसजीडी को निम्नानुसार कार्यान्वित किया जाता है। होने देना $$f(\xi) = \eta q(x_i'w^{old} + \xi ||x_i||^2)$$, कहाँ $$\xi$$ अदिश है। फिर, ISGD इसके बराबर है:
 * $$w^{\rm new} = w^{\rm old} + \xi^\ast x_i,~\text{where}~\xi^\ast = f(\xi^\ast).$$

स्केलिंग कारक $$\xi^\ast\in\mathbb{R}$$ समद्विभाजन विधि के माध्यम से पाया जा सकता है अधिकांश नियमित मॉडल में, जैसे उपरोक्त सामान्यीकृत रैखिक मॉडल, फलन $$q$$ गिरते हुए, और इस प्रकार खोज सीमा $$\xi^\ast$$ हैं $$[\min(0, f(0)), \max(0, f(0))]$$.

गति
आगे के प्रस्तावों में मोमेंटम मेथड या हैवी बॉल मेथड शामिल है, जो एमएल संदर्भ में डेविड रुमेलहार्ट, जेफ्री हिंटन और रोनाल्ड जे. विलियम्स के बैकप्रॉपैगेशन लर्निंग पर पेपर में दिखाई दिया। और कार्यात्मक समीकरणों को हल करने पर सोवियत गणितज्ञ बोरिस पोलाक के 1964 के लेख से विचार उधार लिया। संवेग के साथ स्टोचैस्टिक ग्रेडिएंट डिसेंट अपडेट को याद रखता है $Δw$ प्रत्येक पुनरावृत्ति पर, और अगले अद्यतन को ढाल और पिछले अद्यतन के रैखिक संयोजन के रूप में निर्धारित करता है:
 * $$\Delta w := \alpha \Delta w - \eta \nabla Q_i(w)$$
 * $$w := w + \Delta w $$

जो इस ओर ले जाता है:
 * $$w := w - \eta \nabla Q_i(w) + \alpha \Delta w $$

जहां पैरामीट्रिक आँकड़े $$w$$ जो कम करता है $$Q(w)$$ अनुमानक होना है, $$\eta$$ कदम आकार है (कभी-कभी मशीन सीखने में सीखने की दर कहा जाता है) और $$\alpha$$ घातीय सीखने की दर # सीखने की दर अनुसूची 0 और 1 के बीच है जो वजन परिवर्तन के लिए वर्तमान ढाल और पहले के ढाल के सापेक्ष योगदान को निर्धारित करती है।

संवेग नाम भौतिकी में संवेग के सादृश्य से उपजा है: भार सदिश $$w$$, पैरामीटर स्पेस के माध्यम से यात्रा करने वाले कण के रूप में सोचा गया, हानि (बल) के ढाल से त्वरण होता है। क्लासिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट के विपरीत, यह ही दिशा में यात्रा करता रहता है, दोलनों को रोकता है। कई दशकों से कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण में कंप्यूटर वैज्ञानिकों द्वारा मोमेंटम का सफलतापूर्वक उपयोग किया गया है। संवेग विधि लैंग्विन गतिकी से निकटता से संबंधित है, और इसे सिमुलेटेड_एनीलिंग के साथ जोड़ा जा सकता है। 1980 के दशक के मध्य में यूरी नेस्टरोव द्वारा अगले बिंदु पर भविष्यवाणी की गई ढाल का उपयोग करने के लिए विधि को संशोधित किया गया था, और परिणामी तथाकथित नेस्टरोव त्वरित ग्रेडिएंट को कभी-कभी 2010 में एमएल में इस्तेमाल किया गया था।

औसत
1980 के दशक के अंत में रूपर्ट और पॉलीक द्वारा स्वतंत्र रूप से आविष्कार किया गया एवरेज्ड स्टोचैस्टिक ग्रेडिएंट डिसेंट, साधारण स्टोचैस्टिक ग्रेडिएंट डिसेंट है जो समय के साथ अपने पैरामीटर वेक्टर का औसत रिकॉर्ड करता है। यही है, अद्यतन साधारण स्टोकेस्टिक ग्रेडिएंट डिसेंट के समान है, लेकिन एल्गोरिथ्म भी ट्रैक रखता है
 * $$\bar{w} = \frac{1}{t} \sum_{i=0}^{t-1} w_i$$.

जब अनुकूलन किया जाता है, तो यह औसत पैरामीटर वेक्टर का स्थान ले लेता है $w$.

अदाग्रैड
AdaGrad (एडेप्टिव ग्रेडिएंट डिसेंट एल्गोरिथम के लिए) प्रति-पैरामीटर सीखने की दर के साथ संशोधित स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम है, जो पहली बार 2011 में प्रकाशित हुआ था। अनौपचारिक रूप से, यह विरल मापदंडों के लिए सीखने की दर को बढ़ाता है और कम विरल मापदंडों के लिए सीखने की दर को कम करता है। यह रणनीति अक्सर सेटिंग्स में मानक स्टोचैस्टिक ग्रेडिएंट डिसेंट पर अभिसरण प्रदर्शन में सुधार करती है जहां डेटा विरल है और विरल पैरामीटर अधिक जानकारीपूर्ण हैं। ऐसे अनुप्रयोगों के उदाहरणों में प्राकृतिक भाषा प्रसंस्करण और छवि पहचान शामिल है।

इसमें अभी भी आधार सीखने की दर है $η$, लेकिन इसे वेक्टर के तत्वों से गुणा किया जाता है ${G_{j,j}} |undefined$ जो बाहरी उत्पाद मैट्रिक्स का विकर्ण है


 * $$G = \sum_{\tau=1}^t g_\tau g_\tau^\mathsf{T}$$

कहाँ $$g_\tau = \nabla Q_i(w)$$, ढाल, पुनरावृत्ति पर $τ$. विकर्ण द्वारा दिया गया है


 * $$G_{j,j} = \sum_{\tau=1}^t g_{\tau,j}^2$$.

यह वेक्टर अनिवार्य रूप से आयाम द्वारा ढाल वर्गों का ऐतिहासिक योग संग्रहीत करता है और प्रत्येक पुनरावृत्ति के बाद अद्यतन किया जाता है। अपडेट का फॉर्मूला अभी है


 * $$w := w - \eta\, \mathrm{diag}(G)^{-\frac{1}{2}} \odot g$$

या, प्रति-पैरामीटर अपडेट के रूप में लिखा गया है,


 * $$w_j := w_j - \frac{\eta}{\sqrt{G_{j,j}}} g_j.$$

प्रत्येक ${G_{(i,i)}} |undefined$ एकल पैरामीटर पर लागू होने वाली सीखने की दर के लिए स्केलिंग कारक को जन्म देता है $w_{i}$. चूँकि इस गुणनखंड में हर, $$\sqrt{G_i} = \sqrt{\sum_{\tau=1}^t g_\tau^2}$$ नॉर्म है (गणित)#यूक्लिडियन मानदंड|ℓ2 पिछले डेरिवेटिव्स के मानक, चरम पैरामीटर अपडेट कम हो जाते हैं, जबकि कुछ या छोटे अपडेट प्राप्त करने वाले पैरामीटर उच्च सीखने की दर प्राप्त करते हैं।

उत्तल अनुकूलन के लिए डिज़ाइन किए जाने के दौरान, AdaGrad को गैर-उत्तल अनुकूलन पर सफलतापूर्वक लागू किया गया है।

आरएमएसप्रॉप
RMSProp (रूट मीन स्क्वायर प्रचार के लिए) 2012 में जेफ्री हिंटन द्वारा आविष्कृत विधि है जिसमें सीखने की दर, एडाग्रैड की तरह, प्रत्येक पैरामीटर के लिए अनुकूलित है। विचार यह है कि वजन के लिए सीखने की दर को उस वजन के लिए हाल के ग्रेडिएंट्स के परिमाण के चल रहे औसत से विभाजित किया जाए। असामान्य रूप से, यह लेख में प्रकाशित नहीं हुआ था बल्कि केवल Coursera व्याख्यान में वर्णित था।

तो, पहले रनिंग एवरेज की गणना माध्य वर्ग के संदर्भ में की जाती है,


 * $$v(w,t):=\gamma v(w,t-1)+(1-\gamma)(\nabla Q_i(w))^2$$

कहाँ, $$\gamma$$ भूलने वाला कारक है। वर्गों के योग के रूप में ऐतिहासिक ढाल को संग्रहीत करने की अवधारणा को एडाग्रेड से उधार लिया गया है, लेकिन पुराने डेटा के प्रभाव को धीरे-धीरे कम करके गैर-उत्तल समस्याओं में एडाग्रेड की घटती सीखने की दर को हल करने के लिए भूलना शुरू किया गया है। और पैरामीटर के रूप में अद्यतन किया जाता है,


 * $$w:=w-\frac{\eta}{\sqrt{v(w,t)}}\nabla Q_i(w)$$

RMSProp ने विभिन्न अनुप्रयोगों में सीखने की दर का अच्छा अनुकूलन दिखाया है। RMSProp को Rprop के सामान्यीकरण के रूप में देखा जा सकता है और केवल पूर्ण बैचों के विपरीत मिनी-बैचों के साथ काम करने में सक्षम है।

आदमी
आदमी (एडेप्टिव मोमेंट एस्टिमेशन के लिए संक्षिप्त) RMSProp ऑप्टिमाइज़र के लिए 2014 का अपडेट है जो इसे मोमेंटम विधि की मुख्य विशेषता के साथ जोड़ता है। इस ऑप्टिमाइज़ेशन एल्गोरिदम में, ग्रेडियेंट और ग्रेडियेंट के दूसरे क्षणों दोनों के घातीय भूलने के साथ चलने वाली औसत का उपयोग किया जाता है। दिए गए पैरामीटर $$ w^ {(t)} $$ और नुकसान समारोह $$ L ^ {(t)} $$, कहाँ $$ t $$ वर्तमान प्रशिक्षण पुनरावृत्ति को अनुक्रमित करता है (पर अनुक्रमित $$ 0 $$), एडम का पैरामीटर अपडेट इसके द्वारा दिया गया है:


 * $$m_w ^ {(t+1)} \leftarrow \beta_1 m_w ^ {(t)} + (1 - \beta_1) \nabla _w L ^ {(t)} $$
 * $$v_w ^ {(t+1)} \leftarrow \beta_2 v_w ^ {(t)} + (1 - \beta_2) (\nabla _w L ^ {(t)} )^2 $$
 * $$\hat{m}_w = \frac{m_w ^ {(t+1)}}{1 - \beta_1^t} $$
 * $$\hat{v}_w = \frac{ v_w ^ {(t+1)}}{1 - \beta_2^t} $$
 * $$w ^ {(t+1)} \leftarrow w ^ {(t)} - \eta \frac{\hat{m}_w}{\sqrt{\hat{v}_w} + \epsilon} $$

कहाँ $$\epsilon$$ छोटा अदिश है (उदा। $$10^{-8}$$) 0 से विभाजन को रोकने के लिए प्रयोग किया जाता है, और $$\beta_1$$ (उदाहरण 0.9) और $$\beta_2$$ (उदाहरण के लिए 0.999) क्रमशः ग्रेडिएंट्स और ग्रेडिएंट्स के दूसरे पलों के लिए भूलने वाले कारक हैं। स्क्वायरिंग और स्क्वायर रूटिंग तत्व-वार किया जाता है। इस एल्गोरिद्म के गहरे प्रभाव ने नेस्टरोव-संवर्धित ग्रेडिएंट्स (जैसे: एनएडैम और एफएएफएसए ) और दूसरे क्रम की जानकारी की अलग-अलग व्याख्याएं (उदाहरण: पावरप्रोपैगेशन और अदासक्र्ट ). हालाँकि, सबसे अधिक इस्तेमाल किए जाने वाले संस्करण AdaMax हैं, जो आदम को इन्फिनिटी मानदंड का उपयोग करके सामान्यीकृत करता है, और AMSGrad, जो एक्सपोनेंशियल एवरेज के बजाय पिछले स्क्वेर्ड ग्रेडिएंट्स का अधिकतम उपयोग करके एडम से अभिसरण समस्याओं को संबोधित करता है। एडम डब्ल्यू बाद का अपडेट है जो एडम में वज़न क्षय एल्गोरिथम के गैर-इष्टतम विकल्प को कम करता है।

साइन-आधारित स्टोकेस्टिक ग्रेडिएंट डीसेंट
भले ही साइन-आधारित अनुकूलन पूर्वोक्त आरप्रॉप पर वापस जाता है, केवल 2018 में शोधकर्ताओं ने स्टोकेस्टिक ग्रेडिएंट के परिमाण को ध्यान में रखते हुए और केवल इसके संकेत पर विचार करके एडम को सरल बनाने की कोशिश की।

बैकट्रैकिंग लाइन खोज
बैकट्रैकिंग लाइन सर्च ग्रेडिएंट डिसेंट का और प्रकार है। नीचे दिए गए सभी को उल्लिखित लिंक से प्राप्त किया गया है। यह अर्मिजो-गोल्डस्टीन स्थिति के रूप में जानी जाने वाली स्थिति पर आधारित है। दोनों विधियाँ सीखने की दरों को प्रत्येक पुनरावृत्ति में बदलने की अनुमति देती हैं; हालाँकि, परिवर्तन का तरीका अलग है। बैकट्रैकिंग लाइन खोज आर्मिजो की स्थिति की जांच करने के लिए फलन मूल्यांकन का उपयोग करती है, और सैद्धांतिक रूप से सीखने की दर निर्धारित करने के लिए एल्गोरिथ्म में लूप पहले से लंबा और अज्ञात हो सकता है। अनुकूली SGD को सीखने की दर निर्धारित करने में लूप की आवश्यकता नहीं होती है। दूसरी ओर, अनुकूली SGD मूल संपत्ति की गारंटी नहीं देता है - जो बैकट्रैकिंग लाइन खोज का आनंद लेती है - जो कि है $$f(x_{n+1})\leq f(x_n)$$ सभी के लिए एन। यदि लागत फलन का ग्रेडिएंट विश्व स्तर पर लिप्सचिट्ज़ निरंतर है, लिप्सचिट्ज़ निरंतर एल के साथ, और सीखने की दर को 1 / एल के क्रम में चुना जाता है, तो SGD का मानक संस्करण बैकट्रैकिंग लाइन खोज का विशेष मामला है।

दूसरे क्रम के तरीके
अनुकूलन में मानक (नियतात्मक) न्यूटन की विधि का स्टोचैस्टिक एनालॉग | न्यूटन-रफसन एल्गोरिथ्म (एक दूसरे क्रम की विधि) स्टोकेस्टिक सन्निकटन की सेटिंग में विषम रूप से इष्टतम या पुनरावृत्त अनुकूलन का निकट-इष्टतम रूप प्रदान करता है।. अनुभवजन्य जोखिम समारोह में सारांश के हेसियन मैट्रिक्स के प्रत्यक्ष माप का उपयोग करने वाली विधि बायर्ड, हैनसेन, नोकेडल और सिंगर द्वारा विकसित की गई थी। हालाँकि, अनुकूलन के लिए आवश्यक हेस्सियन मैट्रिसेस का सीधे निर्धारण व्यवहार में संभव नहीं हो सकता है। SGD के दूसरे-क्रम के संस्करणों के लिए व्यावहारिक और सैद्धांतिक रूप से ध्वनि विधियाँ जिनके लिए प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं होती है, स्पाल और अन्य द्वारा दी गई हैं।  (रूपर्ट द्वारा साथ गड़बड़ी के बजाय परिमित मतभेदों के आधार पर कम कुशल विधि दी गई है। ) सन्निकटन हेस्सियन मैट्रिक्स के लिए अन्य दृष्टिकोण इसे फिशर सूचना मैट्रिक्स के साथ बदल रहा है, जो सामान्य ढाल को प्राकृतिक में बदल देता है। प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं करने वाली ये विधियाँ उपरोक्त अनुभवजन्य जोखिम समारोह में योगों के मूल्यों या योगों के ढाल के मूल्यों (यानी, SGD इनपुट) पर आधारित हैं। विशेष रूप से, अनुभवजन्य जोखिम समारोह में सारांश के हेस्सियन मैट्रिसेस की सीधी गणना के बिना दूसरे क्रम की इष्टतमता विषम रूप से प्राप्त करने योग्य है।

2023 में, स्टैनफोर्ड यूनिवर्सिटी के शोधकर्ताओं ने विकर्ण हेस्सियन के हल्के वजन वाले अनुमान का उपयोग किया, जिसकी गणना वे प्रत्येक 10 चरणों में केवल बार गणना और मेमोरी ओवरहेड को कम करने के लिए करते हैं।

इतिहास
1950 के दशक के दौरान SGD को धीरे-धीरे कई समूहों द्वारा विकसित किया गया था।

यह भी देखें

 * बैकट्रैकिंग लाइन खोज
 * समन्वय वंश - उदाहरण के बजाय समय में समन्वय को बदलता है
 * रैखिक वर्गीकारक
 * ऑनलाइन मशीन लर्निंग
 * स्टोकेस्टिक पहाड़ी चढ़ाई
 * स्टोचैस्टिक विचरण में कमी

बाहरी संबंध

 * Using stochastic gradient descent in C++, Boost, Ublas for linear regression
 * Machine Learning Algorithms
 * Interactive paper explaining momentum.
 * Interactive paper explaining momentum.