स्टोचैस्टिक ग्रेडिएंट डिसेंट

स्टोचैस्टिक ग्रेडिएंट डिसेंट ( अधिकांशतः संक्षिप्त एसजीडी) उपयुक्त चिकनाई गुणों (जैसे विभेदक फलन या सबग्रेडिएंट विधि) के साथ उद्देश्य फलन को अनुकूलित करने के लिए पुनरावृत्त विधि होती है। इस प्रकार से ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन के स्टोकेस्टिक सन्निकटन के रूप में माना जाता है, क्योंकि यह वास्तविक ग्रेडिएंट (संपूर्ण डेटा सेट से गणना की गई) को अनुमान से बदल देता है (डेटा के यादृच्छिक रूप से चयनित उपसमुच्चय से गणना) विशेष रूप से उच्च-आयामी अनुकूलन समस्याओं में यह बहुत उच्च कम्प्यूटेशनल जटिलता को कम करता है, कम अभिसरण दर के बदले तेजी से पुनरावृत्तियों को प्राप्त किया जाता है।^[1]

जबकि स्टोचैस्टिक सन्निकटन के पीछे मूल विचार को 1950 के रॉबिन्स-मोनरो एल्गोरिथम में देखा जा सकता है, स्टोचैस्टिक ग्रेडिएंट डिसेंट यंत्र अधिगम में महत्वपूर्ण अनुकूलन विधि बन गई है।^[2]

पृष्ठभूमि

दोनों सांख्यिकी एम-अनुमान और मशीन लर्निंग गणितीय अनुकूलन की समस्या को वस्तुनिष्ठ कार्य मानते हैं जिसका योग का रूप है:

Q(w)={\frac {1}{n}}\sum _{i=1}^{n}Q_{i}(w),

जहां पैरामीटर $w$ जो $Q(w)$ को न्यूनतम करता है उसका अनुमान लगाया जाना है। प्रत्येक सारांश फलन $Q_{i}$ सामान्यतः डेटा सेट (प्रशिक्षण के लिए प्रयुक्त) में $i$ -वें अवलोकन से जुड़ा होता है।

मौलिक आँकड़ों में योग-न्यूनीकरण की समस्या न्यूनतम वर्गों में और अधिकतम-संभावना के अनुमान (स्वतंत्र टिप्पणियों के लिए) में उत्पन्न होती है। आकलनकर्ताओं के सामान्य वर्ग जो राशियों के न्यूनतमकर्ता के रूप में उत्पन्न होते हैं, उन्हें एम-अनुमानक कहा जाता है। चूँकि आँकड़ों में, यह लंबे समय से माना जाता है कि अधिकतम-संभावना अनुमान की कुछ समस्याओं के लिए स्थानीय न्यूनीकरण की आवश्यकता भी बहुत अधिक प्रतिबंधात्मक है।^[3] इसलिए समकालीन सांख्यिकीय सिद्धांतकार अधिकांशतः संभावना कार्य (या इसके व्युत्पन्न के शून्य, स्कोर (सांख्यिकी) और अन्य आकलन समीकरणों) के स्थिर बिंदुओं पर विचार करते हैं।

अनुभवजन्य कठिन परिस्थिति न्यूनतमकरण के लिए योग-न्यूनीकरण समस्या भी उत्पन्न होती है। इसमें $Q_{i}(w)$ $i$ -वें उदाहरण में हानि फलन का मूल्य है और $Q(w)$ अनुभवजन्य कठिन परिस्थिति है।

जब उपरोक्त फलन को न्यूनतम करने के लिए उपयोग किया जाता है, तो एक मानक (या "बैच") ग्रेडिएंट डिसेंट विधि निम्नलिखित पुनरावृत्तियों को निष्पादित करेगी:

w:=w-\eta \nabla Q(w)=w-{\frac {\eta }{n}}\sum _{i=1}^{n}\nabla Q_{i}(w),

जहां $\eta$ चरण आकार है (कभी-कभी मशीन सीखने में सीखने की दर कहा जाता है)।

कई स्थितियों में, सारांश फलन का एक सरल रूप होता है जो योग-फलन और योग ग्रेडिएंट के सस्ते मूल्यांकन को सक्षम बनाता है। उदाहरण के लिए, आंकड़ों में, एक-पैरामीटर घातीय वर्ग प्रभावकारी फलन -मूल्यांकन और ग्रेडिएंट-मूल्यांकन की अनुमति देते हैं।

चूँकि अन्य स्थितियों में सम-ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों से ग्रेडिएंट के मूल्यवान मूल्यांकन की आवश्यकता हो सकती है। जबकी प्रशिक्षण सेट बहुत बड़ा होता है और कोई भी सरल सूत्र उपस्थित नहीं होते है, तब यह ग्रेडिएंट्स के योग का मूल्यांकन करना बहुत मूल्यवान हो जाता है, क्योंकि ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों के ग्रेडिएंट्स का मूल्यांकन करने की आवश्यकता होती है। प्रत्येक पुनरावृत्ति पर कम्प्यूटेशनल निवेश को कम करने के लिए, स्टोचैस्टिक ग्रेडिएंट डिसेंट सैंपलिंग (सांख्यिकी) प्रत्येक चरण पर योग का उपसमुच्चय कार्य करता है। उच्च मापदंड पर मशीन सीखने की समस्याओं के स्थिति में यह बहुत प्रभावी होते है।^[4]

पुनरावृत्ति विधि

मिनी-बैचों के संबंध में क्रमिक कदमों के रूप में कुल उद्देश्य कार्य में उतार-चढ़ाव लिया जाता है।

स्टोचैस्टिक (या ऑन-लाइन) ग्रेडिएंट डिसेंट में, का सही ग्रेडिएंट $Q(w)$ नमूने पर ढाल द्वारा अनुमानित है:

w:=w-\eta \nabla Q_{i}(w).

जैसा कि एल्गोरिथ्म प्रशिक्षण सेट के माध्यम से व्यापक है, यह प्रत्येक प्रशिक्षण नमूने के लिए उपरोक्त अद्यतन करता है। एल्गोरिथम अभिसरण होने तक प्रशिक्षण सेट पर कई पास किए जा सकते हैं। यदि ऐसा किया जाता है, तो यह चक्रों को रोकने के लिए प्रत्येक पास के लिए डेटा में हेफेर किया जा सकता है।और विशिष्ट कार्यान्वयन अनुकूली सीखने की दर का उपयोग कर सकते हैं जिससे एल्गोरिथम अभिसरण हो सकता है।^[5]

इस प्रकार से स्यूडोकोड में, स्टोचैस्टिक ग्रेडिएंट डिसेंट कोप्रस्तुत किया जा सकता है:

मापदंडों का एक प्रारंभिक वेक्टर चुनें $w$ और सीखने की दर $\eta$ .
एक अनुमानित न्यूनतम प्राप्त होने तक दोहराएं:
- प्रशिक्षण सेट में बेतरतीब ढंग से नमूने फेरबदल करें।
- के लिए $i=1,2,...,n$ $i=1,2,...,n$ , करना:
  - $w:=w-\eta \nabla Q_{i}(w).$

अतः वास्तविक ग्रेडिएंट और ग्रेडिएंट की गणना के बीच समझौता प्रत्येक चरण में से अधिक प्रशिक्षण नमूने (जिसे मिनी-बैच कहा जाता है) के विपरीत ग्रेडिएंट की गणना करना है। यह वास्तविक स्टोकास्टिक ग्रेडियेंट डिसेंट से अधिक उत्तम प्रदर्शन कर सकता है, क्योंकि कोड प्रत्येक चरण को अलग-अलग गणना करने के अतिरिक्त वैश्वीकरण (गणित) पुस्तकालयों का उपयोग कर सकता है जैसा कि पहले दिखाया गया था ^[6] जहाँ इसे बंच-मोड बैक-प्रपोगेशन एल्गोरिथम कहा जाता था। इसका परिणाम सहज अभिसरण भी हो सकता है, क्योंकि प्रत्येक चरण पर गणना की गई ढाल को अधिक प्रशिक्षण नमूने पर औसत किया जाता है।

उत्तल अनुकूलन और स्टोचैस्टिक सन्निकटन के सिद्धांतों का उपयोग करके स्टोकेस्टिक ग्रेडिएंट डिसेंट के अभिसरण का विश्लेषण किया गया है। संक्षेप में, जब सीखने की दर $\eta$ उचित दर से घटाएं, और अपेक्षाकृत हल्की मान्यताओं के अधीन, स्टोकेस्टिक ग्रेडिएंट डिसेंट लगभग निश्चित रूप से वैश्विक न्यूनतम में परिवर्तित हो जाता है जब उद्देश्य फलन उत्तल फलन या स्यूडोकोनवेक्स फलन हो, और अन्यथा लगभग निश्चित रूप से स्थानीय न्यूनतम में परिवर्तित हो जाता है।^[7]^[8] यह वास्तव में रॉबिंस-सिगमंड प्रमेय का परिणाम है।^[9]

उदाहरण

इस प्रकार से हम कम से कम वर्गों का उपयोग करके अवलोकनों ${\hat {y}}=\!w_{1}+w_{2}x$ और संबंधित अनुमानित प्रतिक्रियाओं $(x_{1},x_{2},\ldots ,x_{n})$ के साथ एक प्रशिक्षण सेट में एक सीधी रेखा $({\hat {y_{1}}},{\hat {y_{2}}},\ldots ,{\hat {y_{n}}})$ फिट करना चाहते हैं। न्यूनतम किया जाने वाला उद्देश्य कार्य है:

Q(w)=\sum _{i=1}^{n}Q_{i}(w)=\sum _{i=1}^{n}\left({\hat {y_{i}}}-y_{i}\right)^{2}=\sum _{i=1}^{n}\left(w_{1}+w_{2}x_{i}-y_{i}\right)^{2}.

इस विशिष्ट समस्या के लिए उपरोक्त स्यूडोकोड में अंतिम पंक्ति बन जाएगी:

{\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}:={\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}-\eta {\begin{bmatrix}{\frac {\partial }{\partial w_{1}}}(w_{1}+w_{2}x_{i}-y_{i})^{2}\\{\frac {\partial }{\partial w_{2}}}(w_{1}+w_{2}x_{i}-y_{i})^{2}\end{bmatrix}}={\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}-\eta {\begin{bmatrix}2(w_{1}+w_{2}x_{i}-y_{i})\\2x_{i}(w_{1}+w_{2}x_{i}-y_{i})\end{bmatrix}}.

ध्यान दें कि प्रत्येक पुनरावृत्ति (जिसे अद्यतन भी कहा जाता है) में, ग्रेडिएंट का मूल्यांकन सभी नमूनों के सेट के अतिरिक्त केवल एक बिंदु $x_{i}$ पर किया जाता है।

मानक (बैच) ग्रेडिएंट डिसेंट की तुलना में मुख्य अंतर यह है कि चरण की गणना करने के लिए डेटासेट के डेटा का केवल टुकड़ा उपयोग किया जाता है, और डेटा का टुकड़ा प्रत्येक चरण पर यादृच्छिक रूप से चुना जाता है।

उल्लेखनीय अनुप्रयोग

स्टोचैस्टिक ग्रेडिएंट डिसेंट मशीन लर्निंग में मॉडल की विस्तृत श्रृंखला के प्रशिक्षण के लिए लोकप्रिय एल्गोरिथ्म है, जिसमें (रैखिक) समर्थन सदिश यंत्र , संभार तन्त्र परावर्तन (देखें, उदाहरण के लिए, वॉवपल वैबिट) और ग्राफिकल मॉडल सम्मिलित होते हैं।^[10] पश्चप्रचार एल्गोरिथम के साथ संयुक्त होने पर यह कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक मानक एल्गोरिथम है।^[11] इसका उपयोग भूभौतिकी समुदाय में भी बताया गया है, विशेष रूप से पूर्ण तरंग विपरीत (एफडब्ल्यूआई) के अनुप्रयोगों के लिए प्रयोग में है ।^[12]

स्टोचैस्टिक ग्रेडिएंट डिसेंट सीमित-मेमोरी बीएफजीएस या एल-बीएफजीएस एल्गोरिथम के साथ प्रतिस्पर्धा करता है, जिसका व्यापक रूप से उपयोग भी किया जाता है। मूल रूप से एड पंक्ति नाम के अतिरिक्त रेखीय प्रतिगमन मॉडल के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट का उपयोग कम से कम 1960 से किया जाता रहा है।^[13]

किन्तु अन्य स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम न्यूनतम मध्य वर्ग (एलएमएस) अनुकूली फ़िल्टर है।

व्युत्पत्ति और भिन्नता

मूल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम पर कई सुधार प्रस्तावित और उपयोग किए गए हैं। विशेष रूप से मशीन लर्निंग में, सीखने की दर (स्टेप साइज) निर्धारित करने की आवश्यकता को समस्याग्रस्त माना गया है। इस पैरामीटर को बहुत अधिक सेट करने से एल्गोरिथम अलग हो सकता है; इसे बहुत नीचे सेट करने से अभिसरण धीमा हो जाता है।^[14] स्टोचैस्टिक ग्रेडिएंट डिसेंट का वैचारिक रूप से सरल विस्तार सीखने की दर को घटता हुआ कार्य बनाता है η_t पुनरावृत्ति संख्या का $t$ , सीखने की दर अनुसूची दे रहा है, जिससे पहले पुनरावृत्तियों के कारण मापदंडों में बड़े बदलाव हों, जबकि बाद वाले केवल ठीक-ठीक करते हैं। इस तरह के कार्यक्रम के-साधन क्लस्टरिंग पर मैकक्वीन के काम के बाद से जाने जाते हैं $k$ -मतलब क्लस्टरिंग^[15] स्पैल द्वारा एसजीडी के कई रूपों में चरण आकार चुनने पर व्यावहारिक मार्गदर्शन दिया गया है।^[16]

निहित अद्यतन (आईएसजीडी)

जैसा कि पहले उल्लेख किया गया है, मौलिक स्टोकेस्टिक ग्रेडिएंट डिसेंट सामान्यतः सीखने की दर $η$ के प्रति संवेदनशील होता है तेजी से अभिसरण के लिए बड़ी सीखने की दर की आवश्यकता होती है किंतु इससे संख्यात्मक अस्थिरता उत्पन्न हो सकती है। समस्या का अधिक सीमा तक समाधान किया जा सकता है^[17] अंतर्निहित अद्यतनों पर विचार करके जिससे स्टोकेस्टिक ग्रेडिएंट का मूल्यांकन वर्तमान के अतिरिक्त अगले पुनरावृत्त में किया जाता है:

w^{\rm {new}}:=w^{\rm {old}}-\eta \nabla Q_{i}(w^{\rm {new}}).

यह समीकरण अंतर्निहित है क्योंकि समीकरण के दोनों पक्षों पर $w^{\rm {new}}$ दिखाई देता है। यह समीपस्थ ग्रेडिएंट विधि का एक स्टोकेस्टिक रूप है क्योंकि अद्यतन को इस प्रकार भी लिखा जा सकता है:

w^{\rm {new}}:=\arg \min _{w}\{Q_{i}(w)+{\frac {1}{2\eta }}||w-w^{\rm {old}}||^{2}\}.

उदहारण के लिए, विशेषताओं वाले कम से कम वर्गों पर विचार करें $x_{1},\ldots ,x_{n}\in \mathbb {R} ^{p}$ और अवलोकनोंडिस्प्लेस्टाइल $y_{1},\ldots ,y_{n}\in \mathbb {R}$ हम हल करना चाहते हैं:

\min _{w}\sum _{j=1}^{n}(y_{j}-x_{j}'w)^{2},

जहां $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ आंतरिक उत्पाद को इंगित करता है। ध्यान दें कि $x$ इंटरसेप्ट को सम्मिलित करने वाले पहले तत्व के रूप में 1 हो सकता है। उत्कृष्टस्टोकेस्टिक ग्रेडिएंट डिसेंट निम्नानुसार आगे बढ़ता है:

w^{\rm {new}}=w^{\rm {old}}+\eta (y_{i}-x_{i}'w^{\rm {old}})x_{i}

जहां $i$ को 1 और $n$ के बीच समान रूप से नमूना किया गया है। यद्यपि इस प्रक्रिया का सैद्धांतिक अभिसरण अपेक्षाकृत हल्की धारणाओं के तहत होता है, व्यवहार में यह प्रक्रिया अधिक अस्थिर हो सकती है। विशेष रूप से, जब $\eta$ को गलत निर्दिष्ट किया जाता है जिससे $I-\eta x_{i}x_{i}'$ में उच्च संभावना के साथ बड़े निरपेक्ष ईगेनवैल्यू हों, तो प्रक्रिया कुछ पुनरावृत्तियों के भीतर संख्यात्मक रूप से भिन्न हो सकती है। इसके विपरीत, अंतर्निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट (आईएसजीडी के रूप में छोटा) को बंद रूप में हल किया जा सकता है:

w^{\rm {new}}=w^{\rm {old}}+{\frac {\eta }{1+\eta ||x_{i}||^{2}}}(y_{i}-x_{i}'w^{\rm {old}})x_{i}.

यह प्रक्रिया वस्तुतः सभी $\eta$ के लिए संख्यात्मक रूप से स्थिर रहेगी क्योंकि सीखने की दर अब सामान्य हो गई है। न्यूनतम वर्ग समस्या में मौलिक और अंतर्निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट के बीच ऐसी तुलना कम से कम माध्य वर्ग (एलएमएस) और सामान्यीकृत न्यूनतम माध्य वर्ग फिल्टर (एनएलएमएस) के बीच तुलना के समान है।

तथापि आईएसजीडी के लिए एक बंद-फॉर्म समाधान केवल कम से कम वर्गों में ही संभव है, इस प्रक्रिया को मॉडलों की एक विस्तृत श्रृंखला में कुशलतापूर्वक प्रयुक्त किया जा सकता है। विशेष रूप से, मान लें कि $Q_{i}(w)$ केवल सुविधाओं $x_{i}$ के साथ एक रैखिक संयोजन के माध्यम से $w$ पर निर्भर करता है, जिससे हम $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ लिख सकें, जहां $q()\in \mathbb {R}$ $x_{i},y_{i}$ पर निर्भर हो सकता है भी किंतु $x_{i}'w$ को छोड़कर $w$ पर नहीं कम से कम वर्ग इस नियम का पालन करते हैं, और इसी तरह लॉजिस्टिक रिग्रेशन और अधिकांश सामान्यीकृत रैखिक मॉडल भी इसका पालन करते हैं। उदाहरण के लिए, कम से कम वर्गों में, $q(x_{i}'w)=y_{i}-x_{i}'w$ और लॉजिस्टिक रिग्रेशन $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ में, जहां $S(u)=e^{u}/(1+e^{u})$ लॉजिस्टिक फलन है। पॉइसन प्रतिगमन में, $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ , इत्यादि।

ऐसी सेटिंग्स में आईएसजीडी को निम्नानुसार कार्यान्वित किया जाता है। होने देना $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ , जहां $\xi$ अदिश है।

]फिर, आईएसजीडी इसके समान है:

w^{\rm {new}}=w^{\rm {old}}+\xi ^{\ast }x_{i},~{\text{where}}~\xi ^{\ast }=f(\xi ^{\ast }).

स्केलिंग कारक $\xi ^{\ast }\in \mathbb {R}$ समद्विभाजन विधि के माध्यम से पाया जा सकता है अधिकांश नियमित मॉडल में, जैसे उपरोक्त सामान्यीकृत रैखिक मॉडल, फलन $q()$ गिरते हुए, और इस प्रकार खोज सीमा $\xi ^{\ast }$ हैं

स्केलिंग कारक $\xi ^{\ast }\in \mathbb {R}$ को द्विभाजन विधि के माध्यम से पाया जा सकता है क्योंकि अधिकांश नियमित मॉडल में, जैसे कि उपरोक्त सामान्यीकृत रैखिक मॉडल, फलन $q()$ कम हो रहा है, और इस प्रकार $\xi ^{\ast }$ $[\min(0,f(0)),\max(0,f(0))]$ के लिए खोज सीमा होती है।.

गति

आगे के प्रस्तावों में गति विधि या हैवी बॉल मेथड सम्मिलित है, जो एमएल संदर्भ में डेविड रुमेलहार्ट, जेफ्री हिंटन और रोनाल्ड जे. विलियम्स के बैकप्रॉपैगेशन लर्निंग पर पेपर में दिखाई दिया।^[18] और कार्यात्मक समीकरणों को हल करने पर सोवियत गणितज्ञ बोरिस पोलाक के 1964 के लेख से विचार उधार लिया गया था।^[19] संवेग के साथ स्टोचैस्टिक ग्रेडिएंट डिसेंट अपडेट को $Δ w$ याद रखता है प्रत्येक पुनरावृत्ति पर और अगले अद्यतन को ढाल और पिछले अद्यतन के रैखिक संयोजन के रूप में निर्धारित करता है:^[20]^[21]

\Delta w:=\alpha \Delta w-\eta \nabla Q_{i}(w)

w:=w+\Delta w

जो इस ओर ले जाता है:

w:=w-\eta \nabla Q_{i}(w)+\alpha \Delta w

जहां पैरामीटर $w$ जो $Q(w)$ को न्यूनतम करता है उसका अनुमान लगाया जाना है $\eta$ एक चरण आकार है (कभी-कभी मशीन लर्निंग में सीखने की दर कहा जाता है) और $\alpha$ , 0 और 1 के बीच एक घातीय क्षय कारक है जो वर्तमान के सापेक्ष योगदान को निर्धारित करता है वजन में बदलाव के लिए ग्रेडिएंट और पहले के ग्रेडिएंट को निर्धारित करती है।।

संवेग नाम भौतिकी में संवेग के सादृश्य से उपजा है: भार सदिश $w$ , पैरामीटर स्पेस के माध्यम से यात्रा करने वाले कण के रूप में सोचा गया,^[18] हानि (बल) के ढाल से त्वरण होता है। उत्कृष्टस्टोचैस्टिक ग्रेडिएंट डिसेंट के विपरीत, यह ही दिशा में यात्रा करता रहता है, दोलनों को रोकता है। कई दशकों से कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण में कंप्यूटर वैज्ञानिकों द्वारा गति का सफलतापूर्वक उपयोग किया गया है।^[22] संवेग विधि लैंग्विन गतिकी से निकटता से संबंधित है, और इसे सिमुलेटेड_एनीलिंग के साथ जोड़ा जा सकता है। ^[23]

1980 के दशक के मध्य में यूरी नेस्टरोव द्वारा अगले बिंदु पर भविष्यवाणी की गई ढाल का उपयोग करने के लिए विधि को संशोधित किया गया था, और परिणामी तथाकथित नेस्टरोव त्वरित ग्रेडिएंट को कभी-कभी 2010 में एमएल में उपयोग किया गया था।^[24]

औसत

1980 के दशक के अंत में रूपर्ट और पॉलीक द्वारा स्वतंत्र रूप से आविष्कार किया गया एवरेज्ड स्टोचैस्टिक ग्रेडिएंट डिसेंट, साधारण स्टोचैस्टिक ग्रेडिएंट डिसेंट है जो समय के साथ अपने पैरामीटर सदिश का औसत सूची करता है। यही है अद्यतन साधारण स्टोकेस्टिक ग्रेडिएंट डिसेंट के समान है किंतु एल्गोरिथ्म भी ट्रैक रखता है^[25]

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

.

जब अनुकूलन किया जाता है, तो यह औसत पैरामीटर वेक्टर $w$ का स्थान ले लेता है।

एडाग्राड

एडाग्राड (एडेप्टिव ग्रेडिएंट डिसेंट एल्गोरिथम के लिए) प्रति-पैरामीटर सीखने की दर के साथ संशोधित स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम है, जो पहली बार 2011 में प्रकाशित हुआ था।^[26] अनौपचारिक रूप से यह विरल मापदंडों के लिए सीखने की दर को बढ़ाता है और कम विरल मापदंडों के लिए सीखने की दर को कम करता है। यह रणनीति अधिकांशतः सेटिंग्स में मानक स्टोचैस्टिक ग्रेडिएंट डिसेंट पर अभिसरण प्रदर्शन में सुधार करती है जहां डेटा विरल है और विरल पैरामीटर अधिक जानकारीपूर्ण हैं। ऐसे अनुप्रयोगों के उदाहरणों में प्राकृतिक भाषा प्रसंस्करण और छवि पहचान सम्मिलित है।^[26]

इसमें अभी भी आधार सीखने की दर है $η$ , किंतु इसे सदिश के तत्वों से गुणा किया जाता है ${G j, j}$ जो बाहरी उत्पाद आव्यूह का विकर्ण है

G=\sum _{\tau =1}^{t}g_{\tau }g_{\tau }^{\mathsf {T}}

जहां $g_{\tau }=\nabla Q_{i}(w)$ , ढाल, पुनरावृत्ति पर $τ$ . विकर्ण द्वारा दिया गया है

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

.

यह सदिश अनिवार्य रूप से आयाम द्वारा ढाल वर्गों का ऐतिहासिक योग संग्रहीत करता है और प्रत्येक पुनरावृत्ति के बाद अद्यतन किया जाता है। अपडेट का सूत्र अभी है

w:=w-\eta \,\mathrm {diag} (G)^{-{\frac {1}{2}}}\odot g

^{[lower-alpha 1]}

या, प्रति-पैरामीटर अपडेट के रूप में लिखा गया है,

w_{j}:=w_{j}-{\frac {\eta }{\sqrt {G_{j,j}}}}g_{j}.

प्रत्येक ${G (i, i)}$ सीखने की दर के लिए एक स्केलिंग कारक को जन्म देता है जो एकल पैरामीटर $w i$ पर प्रयुक्त होता है। चूँकि इस कारक में हर, ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ , ℓ₂ मानदंड है पिछले डेरिवेटिव में, चरम पैरामीटर अपडेट कम हो जाते हैं, जबकि जिन पैरामीटर को कम या छोटे अपडेट मिलते हैं, उन्हें उच्च सीखने की दर प्राप्त होती है।^[22]

उत्तल अनुकूलन के लिए डिज़ाइन किए जाने के समय, एडाग्रैड को गैर-उत्तल अनुकूलन पर सफलतापूर्वक प्रयुक्त किया गया है।^[27]

आरएमएसप्रॉप

आरएमएसप्रॉप (रूट मीन स्क्वायर प्रचार के लिए) 2012 में जेफ्री हिंटन द्वारा आविष्कृत विधि है जिसमें सीखने की दर एडाग्रैड की तरह, प्रत्येक पैरामीटर के लिए अनुकूलित है। विचार यह है कि वजन के लिए सीखने की दर को उस वजन के लिए वर्त्तमान के ग्रेडिएंट्स के परिमाण के चल रहे औसत से विभाजित किया जाए।^[28] असामान्य रूप से, यह लेख में प्रकाशित नहीं हुआ था चूँकि केवल कौरसेरा व्याख्यान में वर्णित था।

तो, सबसे पहले रनिंग औसत की गणना साधन वर्ग के संदर्भ में की जाती है

v(w,t):=\gamma v(w,t-1)+(1-\gamma )(\nabla Q_{i}(w))^{2}

जहां, $\gamma$ भूलने वाला कारक है। वर्गों के योग के रूप में ऐतिहासिक ढाल को संग्रहीत करने की अवधारणा को एडाग्रेड से उधार लिया गया है, किंतु पुराने डेटा के प्रभाव को धीरे-धीरे कम करके गैर-उत्तल समस्याओं में एडाग्रेड की घटती सीखने की दर को हल करने के लिए भूलना प्रारंभ किया गया है।^[29] और पैरामीटर के रूप में अद्यतन किया जाता है,

w:=w-{\frac {\eta }{\sqrt {v(w,t)}}}\nabla Q_{i}(w)

आरएमएसप्रॉप ने विभिन्न अनुप्रयोगों में सीखने की दर का अच्छा अनुकूलन दिखाया है। आरएमएसप्रॉप को आरप्रॉप के सामान्यीकरण के रूप में देखा जा सकता है और केवल पूर्ण बैचों के विपरीत मिनी-बैचों के साथ काम करने में सक्षम है।^[28]

एडम

एडम^[30] (एडेप्टिव मोमेंट एस्टिमेशन के लिए संक्षिप्त) आरएमएसप्रॉप ऑप्टिमाइज़र के लिए 2014 का अपडेट है जो इसे गति विधि की मुख्य विशेषता के साथ जोड़ता है।^[31] इस ऑप्टिमाइज़ेशन एल्गोरिदम में, ग्रेडियेंट और ग्रेडियेंट के दूसरे क्षणों दोनों के घातीय भूलने के साथ चलने वाली औसत का उपयोग किया जाता है। दिए गए पैरामीटर $w^{(t)}$ और हानि कार्य $L^{(t)}$ , जहां $t$ वर्तमान प्रशिक्षण पुनरावृत्ति को अनुक्रमित करता है (पर अनुक्रमित $0$ ), एडम का पैरामीटर अपडेट इसके द्वारा दिया गया है:

m_{w}^{(t+1)}\leftarrow \beta _{1}m_{w}^{(t)}+(1-\beta _{1})\nabla _{w}L^{(t)}

v_{w}^{(t+1)}\leftarrow \beta _{2}v_{w}^{(t)}+(1-\beta _{2})(\nabla _{w}L^{(t)})^{2}

{\hat {m}}_{w}={\frac {m_{w}^{(t+1)}}{1-\beta _{1}^{t}}}

{\hat {v}}_{w}={\frac {v_{w}^{(t+1)}}{1-\beta _{2}^{t}}}

w^{(t+1)}\leftarrow w^{(t)}-\eta {\frac {{\hat {m}}_{w}}{{\sqrt {{\hat {v}}_{w}}}+\epsilon }}

जहां $\epsilon$ एक छोटा अदिश राशि है (उदाहरण के लिए $10^{-8}$ ) जिसका उपयोग 0 से विभाजन को रोकने के लिए किया जाता है, और $\beta _{1}$ (उदाहरण के लिए 0.9) और $\beta _{2}$ (उदाहरण के लिए 0.999) विस्मृति हैं क्रमशः ग्रेडिएंट्स और ग्रेडिएंट्स के दूसरे क्षणों के लिए कारक। वर्गमूल और वर्गमूलन तत्वानुसार किया जाता है। इस एल्गोरिथम के गहन प्रभाव ने नेस्टरोव-संवर्धित ग्रेडिएंट्स (जैसे: नादाम^[32] और एफएएफएसए^[33]) और दूसरे क्रम की जानकारी की अलग-अलग व्याख्याओं (जैसे: पावरप्रोपेगेशन^[34]) का उपयोग करके कई नई, कम प्रसिद्ध गति-आधारित अनुकूलन योजनाओं को प्रेरित किया। और एडास्कर्ट^[35] चूँकि, सबसे अधिक उपयोग किए जाने वाले वेरिएंट एडामैक्स^[30] हैं, जो अनंत मानदंड का उपयोग करके एडम को सामान्यीकृत करता है, और एएमएसग्रैड,^[36] जो घातीय औसत के अतिरिक्त अधिकतम पिछले वर्ग ग्रेडिएंट का उपयोग करके एडम से अभिसरण समस्याओं को संबोधित करता है।^[37]

एडम डब्ल्यू^[38] बाद का अपडेट है जो एडम में वज़न क्षय एल्गोरिथम के गैर-इष्टतम विकल्प को कम करता है।

साइन-आधारित स्टोकेस्टिक ग्रेडिएंट डीसेंट

तथापि साइन-आधारित अनुकूलन पूर्वोक्त आरप्रॉप पर वापस जाता है, केवल 2018 में शोधकर्ताओं ने स्टोकेस्टिक ग्रेडिएंट के परिमाण को ध्यान में रखते हुए और केवल इसके संकेत पर विचार करके एडम को सरल बनाने की प्रयाश किया था।^[39]^[40]

बैकट्रैकिंग पंक्ति खोज

बैकट्रैकिंग पंक्ति सर्च ग्रेडिएंट डिसेंट का और प्रकार है। नीचे दिए गए सभी को उल्लिखित लिंक से प्राप्त किया गया है। यह अर्मिजो-गोल्डस्टीन स्थिति के रूप में जानी जाने वाली स्थिति पर आधारित होते है। दोनों विधियाँ सीखने की दरों को प्रत्येक पुनरावृत्ति में बदलने की अनुमति देती हैं; चूँकि परिवर्तन का विधि अलग है। बैकट्रैकिंग पंक्ति खोज आर्मिजो की स्थिति की जांच करने के लिए फलन मूल्यांकन का उपयोग करती है, और सैद्धांतिक रूप से सीखने की दर निर्धारित करने के लिए एल्गोरिथ्म में लूप पहले से लंबा और अज्ञात हो सकता है। अनुकूली एसजीडी को सीखने की दर निर्धारित करने में लूप की आवश्यकता नहीं होती है। दूसरी ओर, अनुकूली एसजीडी मूल संपत्ति की आश्वासन नहीं देता है - जो बैकट्रैकिंग पंक्ति खोज का आनंद लेती है - जो कि सभी n के लिए $f(x_{n+1})\leq f(x_{n})$ है। यदि निवेश फलन का ग्रेडिएंट विश्व स्तर पर लिप्सचिट्ज़ निरंतर है, लिप्सचिट्ज़ निरंतर एल के साथ, और सीखने की दर को 1/L के क्रम में चुना जाता है, तो एसजीडी का मानक संस्करण बैकट्रैकिंग पंक्ति खोज का विशेष स्थिति है।

दूसरे क्रम के विधि

अनुकूलन में मानक (नियतात्मक) न्यूटन की विधि का स्टोचैस्टिक एनालॉग न्यूटन-रफसन एल्गोरिथ्म (एक दूसरे क्रम की विधि) स्टोकेस्टिक सन्निकटन की सेटिंग में विषम रूप से इष्टतम या पुनरावृत्त अनुकूलन का निकट-इष्टतम रूप प्रदान करता है। अनुभवजन्य कठिन परिस्थिति कार्य में सारांश के हेसियन आव्यूह के प्रत्यक्ष माप का उपयोग करने वाली विधि बायर्ड, हैनसेन, नोकेडल और सिंगर द्वारा विकसित की गई थी।^[41] चूँकि अनुकूलन के लिए आवश्यक हेस्सियन मैट्रिसेस का सीधे निर्धारण व्यवहार में संभव नहीं हो सकता है। एसजीडी के दूसरे-क्रम के संस्करणों के लिए व्यावहारिक और सैद्धांतिक रूप से ध्वनि विधियाँ जिनके लिए प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं होती है, स्पाल और अन्य द्वारा दी गई हैं।^[42]^[43]^[44] (रूपर्ट द्वारा साथ गड़बड़ी के अतिरिक्त परिमित मतभेदों के आधार पर कम कुशल विधि दी गई है।^[45]) सन्निकटन हेस्सियन आव्यूह के लिए अन्य दृष्टिकोण इसे फिशर सूचना आव्यूह के साथ बदल रहा है जो सामान्य ढाल को प्राकृतिक में बदल देता है।^[46] प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं करने वाली ये विधियाँ उपरोक्त अनुभवजन्य कठिन परिस्थिति कार्य में योगों के मूल्यों या योगों के ढाल के मूल्यों (अथार्त एसजीडी इनपुट) पर आधारित हैं। विशेष रूप से अनुभवजन्य कठिन परिस्थिति कार्य में सारांश के हेस्सियन मैट्रिसेस की सीधी गणना के बिना दूसरे क्रम की इष्टतमता विषम रूप से प्राप्त करने योग्य है।

इस प्रकार से 2023 में, स्टैनफोर्ड यूनिवर्सिटी के शोधकर्ताओं ने विकर्ण हेस्सियन के हल्के वजन वाले अनुमान का उपयोग किया गया जिसकी गणना वे प्रत्येक 10 चरणों में केवल बार गणना और मेमोरी ओवरहेड को कम करने के लिए करते हैं।^[47]

इतिहास

1950 के दशक के समय एसजीडी को धीरे-धीरे कई समूहों द्वारा विकसित किया गया था।

यह भी देखें

बैकट्रैकिंग पंक्ति खोज
समन्वय डिसेंट - उदाहरण के अतिरिक्त समय में समन्वय को बदलता है
रैखिक वर्गीकारक
ऑनपंक्ति मशीन लर्निंग
स्टोकेस्टिक क्लाइम्बिंग
स्टोचैस्टिक विचरण में कमी

संदर्भ

↑ Bottou, Léon; Bousquet, Olivier (2012). "The Tradeoffs of Large Scale Learning". In Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (eds.). मशीन लर्निंग के लिए अनुकूलन. Cambridge: MIT Press. pp. 351–368. ISBN 978-0-262-01646-9.
↑ Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
↑ Ferguson, Thomas S. (1982). "एक असंगत अधिकतम संभावना अनुमान". Journal of the American Statistical Association. 77 (380): 831–834. doi:10.1080/01621459.1982.10477894. JSTOR 2287314.
↑ Bottou, Léon; Bousquet, Olivier (2008). बड़े पैमाने पर सीखने का व्यापार. Advances in Neural Information Processing Systems. Vol. 20. pp. 161–168.
↑ Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Retrieved 10 April 2021. {{cite book}}: |website= ignored (help)
↑ Bilmes, Jeff; Asanovic, Krste; Chin, Chee-Whye; Demmel, James (April 1997). "Using PHiPAC to speed error back-propagation learning". 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP. Munich, Germany: IEEE. pp. 4153-4156 vol.5. doi:10.1109/ICASSP.1997.604861.
↑ Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
↑ Kiwiel, Krzysztof C. (2001). "Convergence and efficiency of subgradient methods for quasiconvex minimization". Mathematical Programming, Series A. Berlin, Heidelberg: Springer. 90 (1): 1–25. doi:10.1007/PL00011414. ISSN 0025-5610. MR 1819784. S2CID 10043417.
↑ Robbins, Herbert; Siegmund, David O. (1971). "A convergence theorem for non negative almost supermartingales and some applications". In Rustagi, Jagdish S. (ed.). Optimizing Methods in Statistics. Academic Press. ISBN 0-12-604550-X.
↑ Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008). Efficient, Feature-based, Conditional Random Field Parsing. Proc. Annual Meeting of the ACL.
↑ LeCun, Yann A., et al. "Efficient backprop." Neural networks: Tricks of the trade. Springer Berlin Heidelberg, 2012. 9-48
↑ Jerome R. Krebs, John E. Anderson, David Hinkley, Ramesh Neelamani, Sunwoong Lee, Anatoly Baumstein, and Martin-Daniel Lacasse, (2009), "Fast full-wavefield seismic inversion using encoded sources," GEOPHYSICS 74: WCC177-WCC188.
↑ Avi Pfeffer. "CS181 Lecture 5 — Perceptrons" (PDF). Harvard University.^{[permanent dead link]}
↑ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press. p. 291. ISBN 978-0262035613.
↑ Cited by Darken, Christian; Moody, John (1990). Fast adaptive k-means clustering: some empirical results. Int'l Joint Conf. on Neural Networks (IJCNN). IEEE. doi:10.1109/IJCNN.1990.137720.
↑ Spall, J. C. (2003). Introduction to Stochastic Search and Optimization: Estimation, Simulation, and Control. Hoboken, NJ: Wiley. pp. Sections 4.4, 6.6, and 7.5. ISBN 0-471-33052-3.
↑ Toulis, Panos; Airoldi, Edoardo (2017). "स्टोचैस्टिक ग्रेडिएंट्स के आधार पर अनुमानकों के स्पर्शोन्मुख और परिमित-नमूना गुण". Annals of Statistics. 45 (4): 1694–1727. arXiv:1408.2923. doi:10.1214/16-AOS1506. S2CID 10279395.
↑ ^18.0 ^18.1 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (8 October 1986). "बैक-प्रोपेगेटिंग एरर द्वारा अभ्यावेदन सीखना". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.
↑ "Gradient Descent and Momentum: The Heavy Ball Method". 13 July 2020.
↑ Sutskever, Ilya; Martens, James; Dahl, George; Hinton, Geoffrey E. (June 2013). Sanjoy Dasgupta and David Mcallester (ed.). गहन शिक्षा में आरंभीकरण और गति के महत्व पर (PDF). In Proceedings of the 30th international conference on machine learning (ICML-13). Vol. 28. Atlanta, GA. pp. 1139–1147. Retrieved 14 January 2016.
↑ Sutskever, Ilya (2013). प्रशिक्षण आवर्तक तंत्रिका नेटवर्क (PDF) (Ph.D.). University of Toronto. p. 74.
↑ ^22.0 ^22.1 Zeiler, Matthew D. (2012). "ADADELTA: An adaptive learning rate method". arXiv:1212.5701 [cs.LG].
↑ Borysenko, Oleksandr; Byshkin, Maksym (2021). "CoolMomentum: A Method for Stochastic Optimization by Langevin Dynamics with Simulated Annealing". Scientific Reports. 11 (1): 10705. arXiv:2005.14605. Bibcode:2021NatSR..1110705B. doi:10.1038/s41598-021-90144-3. PMC 8139967. PMID 34021212.
↑ "Papers with Code - Nesterov Accelerated Gradient Explained".
↑ Polyak, Boris T.; Juditsky, Anatoli B. (1992). "औसत द्वारा स्टोकेस्टिक सन्निकटन का त्वरण" (PDF). SIAM J. Control Optim. 30 (4): 838–855. doi:10.1137/0330046.
↑ ^26.0 ^26.1 Duchi, John; Hazan, Elad; Singer, Yoram (2011). "ऑनलाइन सीखने और स्टोकेस्टिक अनुकूलन के लिए अनुकूली उप-ग्रेडिएंट तरीके" (PDF). JMLR. 12: 2121–2159.
↑ Gupta, Maya R.; Bengio, Samy; Weston, Jason (2014). "अत्यधिक बहुवर्गीय वर्गीकारकों का प्रशिक्षण" (PDF). JMLR. 15 (1): 1461–1492.
↑ ^28.0 ^28.1 Hinton, Geoffrey. "Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude" (PDF). p. 26. Retrieved 19 March 2020.
↑ "Understanding RMSprop — faster neural network learning". 2 September 2018.
↑ ^30.0 ^30.1 Kingma, Diederik; Ba, Jimmy (2014). "Adam: A Method for Stochastic Optimization". arXiv:1412.6980 [cs.LG].
↑ "4. Beyond Gradient Descent - Fundamentals of Deep Learning [Book]".
↑ Dozat, T. (2016). "एडम में नेस्टरोव मोमेंटम को शामिल करना" (in English). S2CID 70293087. {{cite journal}}: Cite journal requires |journal= (help)
↑ Naveen, Philip (2022-08-09). "FASFA: A Novel Next-Generation Backpropagation Optimizer". dx.doi.org. doi:10.36227/techrxiv.20427852.v1. Retrieved 2022-11-19.
↑ Whye, Schwarz, Jonathan Jayakumar, Siddhant M. Pascanu, Razvan Latham, Peter E. Teh, Yee (2021-10-01). Powerpropagation: A sparsity inducing weight reparameterisation. OCLC 1333722169.{{cite book}}: CS1 maint: multiple names: authors list (link)
↑ Hu, Yuzheng; Lin, Licong; Tang, Shange (2019-12-20). "प्रथम क्रम अनुकूलन विधियों में द्वितीय क्रम की जानकारी". arXiv:1912.09926. {{cite journal}}: Cite journal requires |journal= (help)
↑ Reddi, Sashank J.; Kale, Satyen; Kumar, Sanjiv (2018). "एडम और बियॉन्ड के अभिसरण पर". arXiv:1904.09237. {{cite journal}}: Cite journal requires |journal= (help)
↑ "ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन". 19 January 2016.
↑ Loshchilov, Ilya; Hutter, Frank (4 January 2019). "डिकूपल्ड वेट डिके रेगुलराइजेशन". arXiv:1711.05101. {{cite journal}}: Cite journal requires |journal= (help)
↑ https://openreview.net/forum?id=S1EwLkW0W
↑ https://proceedings.mlr.press/v80/bernstein18a.html
↑ Byrd, R. H.; Hansen, S. L.; Nocedal, J.; Singer, Y. (2016). "बड़े पैमाने पर अनुकूलन के लिए एक स्टोकेस्टिक क्वैसी-न्यूटन विधि". SIAM Journal on Optimization. 26 (2): 1008–1031. arXiv:1401.7020. doi:10.1137/140954362. S2CID 12396034.
↑ Spall, J. C. (2000). "युगपत पर्टर्बेशन विधि द्वारा अनुकूली स्टोकेस्टिक सन्निकटन". IEEE Transactions on Automatic Control. 45 (10): 1839−1853. doi:10.1109/TAC.2000.880982.
↑ Spall, J. C. (2009). "अनुकूली युगपत पर्टर्बेशन एल्गोरिथम में जैकोबियन अनुमानों में सुधार के लिए प्रतिक्रिया और भार तंत्र". IEEE Transactions on Automatic Control. 54 (6): 1216–1229. doi:10.1109/TAC.2009.2019793. S2CID 3564529.
↑ Bhatnagar, S.; Prasad, H. L.; Prashanth, L. A. (2013). Stochastic Recursive Algorithms for Optimization: Simultaneous Perturbation Methods. London: Springer. ISBN 978-1-4471-4284-3.
↑ Ruppert, D. (1985). "बहुभिन्नरूपी रॉबिन्स-मोनरो प्रक्रिया का न्यूटन-रैफसन संस्करण". Annals of Statistics. 13 (1): 236–245. doi:10.1214/aos/1176346589.
↑ Abdulkadirov, R. I.; Lyakhov, P.A.; Nagornov, N.N. (2022). "डिरिचलेट डिस्ट्रीब्यूशन के साथ प्राकृतिक ग्रेडियेंट डिसेंट के आधार पर बहुआयामी कार्यों की चरम खोज को तेज करना". Mathematics. 10 (19): 3556. doi:10.3390/math10193556.
↑ https://arxiv.org/abs/2305.14342

अग्रिम पठन

Bottou, Léon (2004), "Stochastic Learning", Advanced Lectures on Machine Learning, LNAI, vol. 3176, Springer, pp. 146–168, ISBN 978-3-540-23122-6
Buduma, Nikhil; Locascio, Nicholas (2017), "Beyond Gradient Descent", Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms, O'Reilly, ISBN 9781491925584
LeCun, Yann A.; Bottou, Léon; Orr, Genevieve B.; Müller, Klaus-Robert (2012), "Efficient BackProp", Neural Networks: Tricks of the Trade, Springer, pp. 9–48, ISBN 978-3-642-35288-1
Spall, James C. (2003), Introduction to Stochastic Search and Optimization, Wiley, ISBN 978-0-471-33052-3

बाहरी संबंध

Using stochastic gradient descent in C++, Boost, Ublas for linear regression
Machine Learning Algorithms
"Gradient Descent, How Neural Networks Learn". 3Blue1Brown. October 16, 2017. Archived from the original on 2021-12-22 – via YouTube.
Goh (April 4, 2017). "Why Momentum Really Works". Distill. 2 (4). doi:10.23915/distill.00006. Interactive paper explaining momentum.

[27] $\odot$ is the element-wise product.

[1] Bottou, Léon; Bousquet, Olivier (2012). "The Tradeoffs of Large Scale Learning". In Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (eds.). मशीन लर्निंग के लिए अनुकूलन. Cambridge: MIT Press. pp. 351–368. ISBN 978-0-262-01646-9.

[2] Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.

[3] Ferguson, Thomas S. (1982). "एक असंगत अधिकतम संभावना अनुमान". Journal of the American Statistical Association. 77 (380): 831–834. doi:10.1080/01621459.1982.10477894. JSTOR 2287314.

[4] Bottou, Léon; Bousquet, Olivier (2008). बड़े पैमाने पर सीखने का व्यापार. Advances in Neural Information Processing Systems. Vol. 20. pp. 161–168.

[5] Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Retrieved 10 April 2021. {{cite book}}: |website= ignored (help)

[6] Bilmes, Jeff; Asanovic, Krste; Chin, Chee-Whye; Demmel, James (April 1997). "Using PHiPAC to speed error back-propagation learning". 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP. Munich, Germany: IEEE. pp. 4153-4156 vol.5. doi:10.1109/ICASSP.1997.604861.

[7] Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.

[8] Kiwiel, Krzysztof C. (2001). "Convergence and efficiency of subgradient methods for quasiconvex minimization". Mathematical Programming, Series A. Berlin, Heidelberg: Springer. 90 (1): 1–25. doi:10.1007/PL00011414. ISSN 0025-5610. MR 1819784. S2CID 10043417.

[9] Robbins, Herbert; Siegmund, David O. (1971). "A convergence theorem for non negative almost supermartingales and some applications". In Rustagi, Jagdish S. (ed.). Optimizing Methods in Statistics. Academic Press. ISBN 0-12-604550-X.

[10] Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008). Efficient, Feature-based, Conditional Random Field Parsing. Proc. Annual Meeting of the ACL.

[11] LeCun, Yann A., et al. "Efficient backprop." Neural networks: Tricks of the trade. Springer Berlin Heidelberg, 2012. 9-48

[12] Jerome R. Krebs, John E. Anderson, David Hinkley, Ramesh Neelamani, Sunwoong Lee, Anatoly Baumstein, and Martin-Daniel Lacasse, (2009), "Fast full-wavefield seismic inversion using encoded sources," GEOPHYSICS 74: WCC177-WCC188.

[13] Avi Pfeffer. "CS181 Lecture 5 — Perceptrons" (PDF). Harvard University.^{[permanent dead link]}

[14] Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press. p. 291. ISBN 978-0262035613.

[15] Cited by Darken, Christian; Moody, John (1990). Fast adaptive k-means clustering: some empirical results. Int'l Joint Conf. on Neural Networks (IJCNN). IEEE. doi:10.1109/IJCNN.1990.137720.

[16] Spall, J. C. (2003). Introduction to Stochastic Search and Optimization: Estimation, Simulation, and Control. Hoboken, NJ: Wiley. pp. Sections 4.4, 6.6, and 7.5. ISBN 0-471-33052-3.

[17] Toulis, Panos; Airoldi, Edoardo (2017). "स्टोचैस्टिक ग्रेडिएंट्स के आधार पर अनुमानकों के स्पर्शोन्मुख और परिमित-नमूना गुण". Annals of Statistics. 45 (4): 1694–1727. arXiv:1408.2923. doi:10.1214/16-AOS1506. S2CID 10279395.

[Rumelhart1986-18] 18.0 ^18.1 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (8 October 1986). "बैक-प्रोपेगेटिंग एरर द्वारा अभ्यावेदन सीखना". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.

[19] "Gradient Descent and Momentum: The Heavy Ball Method". 13 July 2020.

[Sutskever2013-20] Sutskever, Ilya; Martens, James; Dahl, George; Hinton, Geoffrey E. (June 2013). Sanjoy Dasgupta and David Mcallester (ed.). गहन शिक्षा में आरंभीकरण और गति के महत्व पर (PDF). In Proceedings of the 30th international conference on machine learning (ICML-13). Vol. 28. Atlanta, GA. pp. 1139–1147. Retrieved 14 January 2016.

[SutskeverPhD-21] Sutskever, Ilya (2013). प्रशिक्षण आवर्तक तंत्रिका नेटवर्क (PDF) (Ph.D.). University of Toronto. p. 74.

[Zeiler_2012-22] 22.0 ^22.1 Zeiler, Matthew D. (2012). "ADADELTA: An adaptive learning rate method". arXiv:1212.5701 [cs.LG].

[Borysenko2021-23] Borysenko, Oleksandr; Byshkin, Maksym (2021). "CoolMomentum: A Method for Stochastic Optimization by Langevin Dynamics with Simulated Annealing". Scientific Reports. 11 (1): 10705. arXiv:2005.14605. Bibcode:2021NatSR..1110705B. doi:10.1038/s41598-021-90144-3. PMC 8139967. PMID 34021212.

[24] "Papers with Code - Nesterov Accelerated Gradient Explained".

[25] Polyak, Boris T.; Juditsky, Anatoli B. (1992). "औसत द्वारा स्टोकेस्टिक सन्निकटन का त्वरण" (PDF). SIAM J. Control Optim. 30 (4): 838–855. doi:10.1137/0330046.

[duchi-26] 26.0 ^26.1 Duchi, John; Hazan, Elad; Singer, Yoram (2011). "ऑनलाइन सीखने और स्टोकेस्टिक अनुकूलन के लिए अनुकूली उप-ग्रेडिएंट तरीके" (PDF). JMLR. 12: 2121–2159.

[28] Gupta, Maya R.; Bengio, Samy; Weston, Jason (2014). "अत्यधिक बहुवर्गीय वर्गीकारकों का प्रशिक्षण" (PDF). JMLR. 15 (1): 1461–1492.

[rmsprop-29] 28.0 ^28.1 Hinton, Geoffrey. "Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude" (PDF). p. 26. Retrieved 19 March 2020.

[30] "Understanding RMSprop — faster neural network learning". 2 September 2018.

[Adam2014-31] 30.0 ^30.1 Kingma, Diederik; Ba, Jimmy (2014). "Adam: A Method for Stochastic Optimization". arXiv:1412.6980 [cs.LG].

[32] "4. Beyond Gradient Descent - Fundamentals of Deep Learning [Book]".

[33] Dozat, T. (2016). "एडम में नेस्टरोव मोमेंटम को शामिल करना" (in English). S2CID 70293087. {{cite journal}}: Cite journal requires |journal= (help)

[34] Naveen, Philip (2022-08-09). "FASFA: A Novel Next-Generation Backpropagation Optimizer". dx.doi.org. doi:10.36227/techrxiv.20427852.v1. Retrieved 2022-11-19.

[35] Whye, Schwarz, Jonathan Jayakumar, Siddhant M. Pascanu, Razvan Latham, Peter E. Teh, Yee (2021-10-01). Powerpropagation: A sparsity inducing weight reparameterisation. OCLC 1333722169.{{cite book}}: CS1 maint: multiple names: authors list (link)

[36] Hu, Yuzheng; Lin, Licong; Tang, Shange (2019-12-20). "प्रथम क्रम अनुकूलन विधियों में द्वितीय क्रम की जानकारी". arXiv:1912.09926. {{cite journal}}: Cite journal requires |journal= (help)

[37] Reddi, Sashank J.; Kale, Satyen; Kumar, Sanjiv (2018). "एडम और बियॉन्ड के अभिसरण पर". arXiv:1904.09237. {{cite journal}}: Cite journal requires |journal= (help)

[38] "ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन". 19 January 2016.

[AdamW-39] Loshchilov, Ilya; Hutter, Frank (4 January 2019). "डिकूपल्ड वेट डिके रेगुलराइजेशन". arXiv:1711.05101. {{cite journal}}: Cite journal requires |journal= (help)

[40] ttps://openreview.net/forum?id=S1EwLkW0W

[41] ttps://proceedings.mlr.press/v80/bernstein18a.html

[42] Byrd, R. H.; Hansen, S. L.; Nocedal, J.; Singer, Y. (2016). "बड़े पैमाने पर अनुकूलन के लिए एक स्टोकेस्टिक क्वैसी-न्यूटन विधि". SIAM Journal on Optimization. 26 (2): 1008–1031. arXiv:1401.7020. doi:10.1137/140954362. S2CID 12396034.

[43] Spall, J. C. (2000). "युगपत पर्टर्बेशन विधि द्वारा अनुकूली स्टोकेस्टिक सन्निकटन". IEEE Transactions on Automatic Control. 45 (10): 1839−1853. doi:10.1109/TAC.2000.880982.

[44] Spall, J. C. (2009). "अनुकूली युगपत पर्टर्बेशन एल्गोरिथम में जैकोबियन अनुमानों में सुधार के लिए प्रतिक्रिया और भार तंत्र". IEEE Transactions on Automatic Control. 54 (6): 1216–1229. doi:10.1109/TAC.2009.2019793. S2CID 3564529.

[45] Bhatnagar, S.; Prasad, H. L.; Prashanth, L. A. (2013). Stochastic Recursive Algorithms for Optimization: Simultaneous Perturbation Methods. London: Springer. ISBN 978-1-4471-4284-3.

[46] Ruppert, D. (1985). "बहुभिन्नरूपी रॉबिन्स-मोनरो प्रक्रिया का न्यूटन-रैफसन संस्करण". Annals of Statistics. 13 (1): 236–245. doi:10.1214/aos/1176346589.

[47] Abdulkadirov, R. I.; Lyakhov, P.A.; Nagornov, N.N. (2022). "डिरिचलेट डिस्ट्रीब्यूशन के साथ प्राकृतिक ग्रेडियेंट डिसेंट के आधार पर बहुआयामी कार्यों की चरम खोज को तेज करना". Mathematics. 10 (19): 3556. doi:10.3390/math10193556.

[48] ttps://arxiv.org/abs/2305.14342

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[lower-alpha 1]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

Anonymous

Search

स्टोचैस्टिक ग्रेडिएंट डिसेंट

Namespaces

More

Page actions

Contents

पृष्ठभूमि

पुनरावृत्ति विधि

उदाहरण

उल्लेखनीय अनुप्रयोग

व्युत्पत्ति और भिन्नता

निहित अद्यतन (आईएसजीडी)

गति

औसत

एडाग्राड

आरएमएसप्रॉप

एडम

साइन-आधारित स्टोकेस्टिक ग्रेडिएंट डीसेंट

बैकट्रैकिंग पंक्ति खोज

दूसरे क्रम के विधि

इतिहास

टिप्पणियाँ

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

स्टोचैस्टिक ग्रेडिएंट डिसेंट

पृष्ठभूमि

पुनरावृत्ति विधि

उदाहरण

उल्लेखनीय अनुप्रयोग

व्युत्पत्ति और भिन्नता

निहित अद्यतन (आईएसजीडी)

गति

औसत

एडाग्राड

आरएमएसप्रॉप

एडम

साइन-आधारित स्टोकेस्टिक ग्रेडिएंट डीसेंट

बैकट्रैकिंग पंक्ति खोज

दूसरे क्रम के विधि

इतिहास

टिप्पणियाँ

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories