स्टोचैस्टिक ग्रेडिएंट डिसेंट

From Vigyanwiki

स्टोचैस्टिक ग्रेडिएंट डिसेंट ( अधिकांशतः संक्षिप्त एसजीडी) उपयुक्त चिकनाई गुणों (जैसे विभेदक फलन या सबग्रेडिएंट विधि) के साथ उद्देश्य फलन को अनुकूलित करने के लिए पुनरावृत्त विधि होती है। इस प्रकार से ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन के स्टोकेस्टिक सन्निकटन के रूप में माना जाता है, क्योंकि यह वास्तविक ग्रेडिएंट (संपूर्ण डेटा सेट से गणना की गई) को अनुमान से बदल देता है (डेटा के यादृच्छिक रूप से चयनित उपसमुच्चय से गणना) विशेष रूप से उच्च-आयामी अनुकूलन समस्याओं में यह बहुत उच्च कम्प्यूटेशनल जटिलता को कम करता है, कम अभिसरण दर के बदले तेजी से पुनरावृत्तियों को प्राप्त किया जाता है।[1]

जबकि स्टोचैस्टिक सन्निकटन के पीछे मूल विचार को 1950 के रॉबिन्स-मोनरो एल्गोरिथम में देखा जा सकता है, स्टोचैस्टिक ग्रेडिएंट डिसेंट यंत्र अधिगम में महत्वपूर्ण अनुकूलन विधि बन गई है।[2]

पृष्ठभूमि

दोनों सांख्यिकी एम-अनुमान और मशीन लर्निंग गणितीय अनुकूलन की समस्या को वस्तुनिष्ठ कार्य मानते हैं जिसका योग का रूप है:

जहां पैरामीटर जो को न्यूनतम करता है उसका अनुमान लगाया जाना है। प्रत्येक सारांश फलन सामान्यतः डेटा सेट (प्रशिक्षण के लिए प्रयुक्त) में -वें अवलोकन से जुड़ा होता है।

मौलिक आँकड़ों में योग-न्यूनीकरण की समस्या न्यूनतम वर्गों में और अधिकतम-संभावना के अनुमान (स्वतंत्र टिप्पणियों के लिए) में उत्पन्न होती है। आकलनकर्ताओं के सामान्य वर्ग जो राशियों के न्यूनतमकर्ता के रूप में उत्पन्न होते हैं, उन्हें एम-अनुमानक कहा जाता है। चूँकि आँकड़ों में, यह लंबे समय से माना जाता है कि अधिकतम-संभावना अनुमान की कुछ समस्याओं के लिए स्थानीय न्यूनीकरण की आवश्यकता भी बहुत अधिक प्रतिबंधात्मक है।[3] इसलिए समकालीन सांख्यिकीय सिद्धांतकार अधिकांशतः संभावना कार्य (या इसके व्युत्पन्न के शून्य, स्कोर (सांख्यिकी) और अन्य आकलन समीकरणों) के स्थिर बिंदुओं पर विचार करते हैं।

अनुभवजन्य कठिन परिस्थिति न्यूनतमकरण के लिए योग-न्यूनीकरण समस्या भी उत्पन्न होती है। इसमें -वें उदाहरण में हानि फलन का मूल्य है और अनुभवजन्य कठिन परिस्थिति है।

जब उपरोक्त फलन को न्यूनतम करने के लिए उपयोग किया जाता है, तो एक मानक (या "बैच") ग्रेडिएंट डिसेंट विधि निम्नलिखित पुनरावृत्तियों को निष्पादित करेगी:

जहां चरण आकार है (कभी-कभी मशीन सीखने में सीखने की दर कहा जाता है)।

कई स्थितियों में, सारांश फलन का एक सरल रूप होता है जो योग-फलन और योग ग्रेडिएंट के सस्ते मूल्यांकन को सक्षम बनाता है। उदाहरण के लिए, आंकड़ों में, एक-पैरामीटर घातीय वर्ग प्रभावकारी फलन -मूल्यांकन और ग्रेडिएंट-मूल्यांकन की अनुमति देते हैं।

चूँकि अन्य स्थितियों में सम-ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों से ग्रेडिएंट के मूल्यवान मूल्यांकन की आवश्यकता हो सकती है। जबकी प्रशिक्षण सेट बहुत बड़ा होता है और कोई भी सरल सूत्र उपस्थित नहीं होते है, तब यह ग्रेडिएंट्स के योग का मूल्यांकन करना बहुत मूल्यवान हो जाता है, क्योंकि ग्रेडिएंट का मूल्यांकन करने के लिए सभी योग कार्यों के ग्रेडिएंट्स का मूल्यांकन करने की आवश्यकता होती है। प्रत्येक पुनरावृत्ति पर कम्प्यूटेशनल निवेश को कम करने के लिए, स्टोचैस्टिक ग्रेडिएंट डिसेंट सैंपलिंग (सांख्यिकी) प्रत्येक चरण पर योग का उपसमुच्चय कार्य करता है। उच्च मापदंड पर मशीन सीखने की समस्याओं के स्थिति में यह बहुत प्रभावी होते है।[4]

पुनरावृत्ति विधि

मिनी-बैचों के संबंध में क्रमिक कदमों के रूप में कुल उद्देश्य कार्य में उतार-चढ़ाव लिया जाता है।

स्टोचैस्टिक (या ऑन-लाइन) ग्रेडिएंट डिसेंट में, का सही ग्रेडिएंट नमूने पर ढाल द्वारा अनुमानित है:

जैसा कि एल्गोरिथ्म प्रशिक्षण सेट के माध्यम से व्यापक है, यह प्रत्येक प्रशिक्षण नमूने के लिए उपरोक्त अद्यतन करता है। एल्गोरिथम अभिसरण होने तक प्रशिक्षण सेट पर कई पास किए जा सकते हैं। यदि ऐसा किया जाता है, तो यह चक्रों को रोकने के लिए प्रत्येक पास के लिए डेटा में हेफेर किया जा सकता है।और विशिष्ट कार्यान्वयन अनुकूली सीखने की दर का उपयोग कर सकते हैं जिससे एल्गोरिथम अभिसरण हो सकता है।[5]

इस प्रकार से स्यूडोकोड में, स्टोचैस्टिक ग्रेडिएंट डिसेंट कोप्रस्तुत किया जा सकता है:

  • मापदंडों का एक प्रारंभिक वेक्टर चुनें और सीखने की दर .
  • एक अनुमानित न्यूनतम प्राप्त होने तक दोहराएं:
    • प्रशिक्षण सेट में बेतरतीब ढंग से नमूने फेरबदल करें।
    • के लिए , करना:

अतः वास्तविक ग्रेडिएंट और ग्रेडिएंट की गणना के बीच समझौता प्रत्येक चरण में से अधिक प्रशिक्षण नमूने (जिसे मिनी-बैच कहा जाता है) के विपरीत ग्रेडिएंट की गणना करना है। यह वास्तविक स्टोकास्टिक ग्रेडियेंट डिसेंट से अधिक उत्तम प्रदर्शन कर सकता है, क्योंकि कोड प्रत्येक चरण को अलग-अलग गणना करने के अतिरिक्त वैश्वीकरण (गणित) पुस्तकालयों का उपयोग कर सकता है जैसा कि पहले दिखाया गया था [6] जहाँ इसे बंच-मोड बैक-प्रपोगेशन एल्गोरिथम कहा जाता था। इसका परिणाम सहज अभिसरण भी हो सकता है, क्योंकि प्रत्येक चरण पर गणना की गई ढाल को अधिक प्रशिक्षण नमूने पर औसत किया जाता है।

उत्तल अनुकूलन और स्टोचैस्टिक सन्निकटन के सिद्धांतों का उपयोग करके स्टोकेस्टिक ग्रेडिएंट डिसेंट के अभिसरण का विश्लेषण किया गया है। संक्षेप में, जब सीखने की दर उचित दर से घटाएं, और अपेक्षाकृत हल्की मान्यताओं के अधीन, स्टोकेस्टिक ग्रेडिएंट डिसेंट लगभग निश्चित रूप से वैश्विक न्यूनतम में परिवर्तित हो जाता है जब उद्देश्य फलन उत्तल फलन या स्यूडोकोनवेक्स फलन हो, और अन्यथा लगभग निश्चित रूप से स्थानीय न्यूनतम में परिवर्तित हो जाता है।[7][8] यह वास्तव में रॉबिंस-सिगमंड प्रमेय का परिणाम है।[9]

उदाहरण

इस प्रकार से हम कम से कम वर्गों का उपयोग करके अवलोकनों और संबंधित अनुमानित प्रतिक्रियाओं के साथ एक प्रशिक्षण सेट में एक सीधी रेखा फिट करना चाहते हैं। न्यूनतम किया जाने वाला उद्देश्य कार्य है:

इस विशिष्ट समस्या के लिए उपरोक्त स्यूडोकोड में अंतिम पंक्ति बन जाएगी:

ध्यान दें कि प्रत्येक पुनरावृत्ति (जिसे अद्यतन भी कहा जाता है) में, ग्रेडिएंट का मूल्यांकन सभी नमूनों के सेट के अतिरिक्त केवल एक बिंदु पर किया जाता है।

मानक (बैच) ग्रेडिएंट डिसेंट की तुलना में मुख्य अंतर यह है कि चरण की गणना करने के लिए डेटासेट के डेटा का केवल टुकड़ा उपयोग किया जाता है, और डेटा का टुकड़ा प्रत्येक चरण पर यादृच्छिक रूप से चुना जाता है।

उल्लेखनीय अनुप्रयोग

स्टोचैस्टिक ग्रेडिएंट डिसेंट मशीन लर्निंग में मॉडल की विस्तृत श्रृंखला के प्रशिक्षण के लिए लोकप्रिय एल्गोरिथ्म है, जिसमें (रैखिक) समर्थन सदिश यंत्र , संभार तन्त्र परावर्तन (देखें, उदाहरण के लिए, वॉवपल वैबिट) और ग्राफिकल मॉडल सम्मिलित होते हैं।[10] पश्चप्रचार एल्गोरिथम के साथ संयुक्त होने पर यह कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक मानक एल्गोरिथम है।[11] इसका उपयोग भूभौतिकी समुदाय में भी बताया गया है, विशेष रूप से पूर्ण तरंग विपरीत (एफडब्ल्यूआई) के अनुप्रयोगों के लिए प्रयोग में है ।[12]

स्टोचैस्टिक ग्रेडिएंट डिसेंट सीमित-मेमोरी बीएफजीएस या एल-बीएफजीएस एल्गोरिथम के साथ प्रतिस्पर्धा करता है, जिसका व्यापक रूप से उपयोग भी किया जाता है। मूल रूप से एड पंक्ति नाम के अतिरिक्त रेखीय प्रतिगमन मॉडल के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट का उपयोग कम से कम 1960 से किया जाता रहा है।[13]

किन्तु अन्य स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम न्यूनतम मध्य वर्ग (एलएमएस) अनुकूली फ़िल्टर है।

व्युत्पत्ति और भिन्नता

मूल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम पर कई सुधार प्रस्तावित और उपयोग किए गए हैं। विशेष रूप से मशीन लर्निंग में, सीखने की दर (स्टेप साइज) निर्धारित करने की आवश्यकता को समस्याग्रस्त माना गया है। इस पैरामीटर को बहुत अधिक सेट करने से एल्गोरिथम अलग हो सकता है; इसे बहुत नीचे सेट करने से अभिसरण धीमा हो जाता है।[14] स्टोचैस्टिक ग्रेडिएंट डिसेंट का वैचारिक रूप से सरल विस्तार सीखने की दर को घटता हुआ कार्य बनाता है ηt पुनरावृत्ति संख्या का t, सीखने की दर अनुसूची दे रहा है, जिससे पहले पुनरावृत्तियों के कारण मापदंडों में बड़े बदलाव हों, जबकि बाद वाले केवल ठीक-ठीक करते हैं। इस तरह के कार्यक्रम के-साधन क्लस्टरिंग पर मैकक्वीन के काम के बाद से जाने जाते हैं k-मतलब क्लस्टरिंग[15] स्पैल द्वारा एसजीडी के कई रूपों में चरण आकार चुनने पर व्यावहारिक मार्गदर्शन दिया गया है।[16]

निहित अद्यतन (आईएसजीडी)

जैसा कि पहले उल्लेख किया गया है, मौलिक स्टोकेस्टिक ग्रेडिएंट डिसेंट सामान्यतः सीखने की दर η के प्रति संवेदनशील होता है तेजी से अभिसरण के लिए बड़ी सीखने की दर की आवश्यकता होती है किंतु इससे संख्यात्मक अस्थिरता उत्पन्न हो सकती है। समस्या का अधिक सीमा तक समाधान किया जा सकता है[17] अंतर्निहित अद्यतनों पर विचार करके जिससे स्टोकेस्टिक ग्रेडिएंट का मूल्यांकन वर्तमान के अतिरिक्त अगले पुनरावृत्त में किया जाता है:

यह समीकरण अंतर्निहित है क्योंकि समीकरण के दोनों पक्षों पर दिखाई देता है। यह समीपस्थ ग्रेडिएंट विधि का एक स्टोकेस्टिक रूप है क्योंकि अद्यतन को इस प्रकार भी लिखा जा सकता है:

उदहारण के लिए, विशेषताओं वाले कम से कम वर्गों पर विचार करें और अवलोकनोंडिस्प्लेस्टाइल हम हल करना चाहते हैं:

जहां आंतरिक उत्पाद को इंगित करता है। ध्यान दें कि इंटरसेप्ट को सम्मिलित करने वाले पहले तत्व के रूप में 1 हो सकता है। उत्कृष्टस्टोकेस्टिक ग्रेडिएंट डिसेंट निम्नानुसार आगे बढ़ता है:

जहां को 1 और के बीच समान रूप से नमूना किया गया है। यद्यपि इस प्रक्रिया का सैद्धांतिक अभिसरण अपेक्षाकृत हल्की धारणाओं के तहत होता है, व्यवहार में यह प्रक्रिया अधिक अस्थिर हो सकती है। विशेष रूप से, जब को गलत निर्दिष्ट किया जाता है जिससे में उच्च संभावना के साथ बड़े निरपेक्ष ईगेनवैल्यू हों, तो प्रक्रिया कुछ पुनरावृत्तियों के भीतर संख्यात्मक रूप से भिन्न हो सकती है। इसके विपरीत, अंतर्निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट (आईएसजीडी के रूप में छोटा) को बंद रूप में हल किया जा सकता है:

यह प्रक्रिया वस्तुतः सभी के लिए संख्यात्मक रूप से स्थिर रहेगी क्योंकि सीखने की दर अब सामान्य हो गई है। न्यूनतम वर्ग समस्या में मौलिक और अंतर्निहित स्टोकेस्टिक ग्रेडिएंट डिसेंट के बीच ऐसी तुलना कम से कम माध्य वर्ग (एलएमएस) और सामान्यीकृत न्यूनतम माध्य वर्ग फिल्टर (एनएलएमएस) के बीच तुलना के समान है।

तथापि आईएसजीडी के लिए एक बंद-फॉर्म समाधान केवल कम से कम वर्गों में ही संभव है, इस प्रक्रिया को मॉडलों की एक विस्तृत श्रृंखला में कुशलतापूर्वक प्रयुक्त किया जा सकता है। विशेष रूप से, मान लें कि केवल सुविधाओं के साथ एक रैखिक संयोजन के माध्यम से पर निर्भर करता है, जिससे हम लिख सकें, जहां पर निर्भर हो सकता है भी किंतु को छोड़कर पर नहीं कम से कम वर्ग इस नियम का पालन करते हैं, और इसी तरह लॉजिस्टिक रिग्रेशन और अधिकांश सामान्यीकृत रैखिक मॉडल भी इसका पालन करते हैं। उदाहरण के लिए, कम से कम वर्गों में, और लॉजिस्टिक रिग्रेशन में, जहां लॉजिस्टिक फलन है। पॉइसन प्रतिगमन में, , इत्यादि।

ऐसी सेटिंग्स में आईएसजीडी को निम्नानुसार कार्यान्वित किया जाता है। होने देना , जहां अदिश है।

]फिर, आईएसजीडी इसके समान है:

स्केलिंग कारक समद्विभाजन विधि के माध्यम से पाया जा सकता है अधिकांश नियमित मॉडल में, जैसे उपरोक्त सामान्यीकृत रैखिक मॉडल, फलन गिरते हुए, और इस प्रकार खोज सीमा हैं

स्केलिंग कारक को द्विभाजन विधि के माध्यम से पाया जा सकता है क्योंकि अधिकांश नियमित मॉडल में, जैसे कि उपरोक्त सामान्यीकृत रैखिक मॉडल, फलन कम हो रहा है, और इस प्रकार के लिए खोज सीमा होती है।.

गति

आगे के प्रस्तावों में गति विधि या हैवी बॉल मेथड सम्मिलित है, जो एमएल संदर्भ में डेविड रुमेलहार्ट, जेफ्री हिंटन और रोनाल्ड जे. विलियम्स के बैकप्रॉपैगेशन लर्निंग पर पेपर में दिखाई दिया।[18] और कार्यात्मक समीकरणों को हल करने पर सोवियत गणितज्ञ बोरिस पोलाक के 1964 के लेख से विचार उधार लिया गया था।[19] संवेग के साथ स्टोचैस्टिक ग्रेडिएंट डिसेंट अपडेट को Δw याद रखता है प्रत्येक पुनरावृत्ति पर और अगले अद्यतन को ढाल और पिछले अद्यतन के रैखिक संयोजन के रूप में निर्धारित करता है:[20][21]

जो इस ओर ले जाता है:

जहां पैरामीटर जो को न्यूनतम करता है उसका अनुमान लगाया जाना है एक चरण आकार है (कभी-कभी मशीन लर्निंग में सीखने की दर कहा जाता है) और , 0 और 1 के बीच एक घातीय क्षय कारक है जो वर्तमान के सापेक्ष योगदान को निर्धारित करता है वजन में बदलाव के लिए ग्रेडिएंट और पहले के ग्रेडिएंट को निर्धारित करती है।।

संवेग नाम भौतिकी में संवेग के सादृश्य से उपजा है: भार सदिश , पैरामीटर स्पेस के माध्यम से यात्रा करने वाले कण के रूप में सोचा गया,[18] हानि (बल) के ढाल से त्वरण होता है। उत्कृष्टस्टोचैस्टिक ग्रेडिएंट डिसेंट के विपरीत, यह ही दिशा में यात्रा करता रहता है, दोलनों को रोकता है। कई दशकों से कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण में कंप्यूटर वैज्ञानिकों द्वारा गति का सफलतापूर्वक उपयोग किया गया है।[22] संवेग विधि लैंग्विन गतिकी से निकटता से संबंधित है, और इसे सिमुलेटेड_एनीलिंग के साथ जोड़ा जा सकता है। [23]

1980 के दशक के मध्य में यूरी नेस्टरोव द्वारा अगले बिंदु पर भविष्यवाणी की गई ढाल का उपयोग करने के लिए विधि को संशोधित किया गया था, और परिणामी तथाकथित नेस्टरोव त्वरित ग्रेडिएंट को कभी-कभी 2010 में एमएल में उपयोग किया गया था।[24]

औसत

1980 के दशक के अंत में रूपर्ट और पॉलीक द्वारा स्वतंत्र रूप से आविष्कार किया गया एवरेज्ड स्टोचैस्टिक ग्रेडिएंट डिसेंट, साधारण स्टोचैस्टिक ग्रेडिएंट डिसेंट है जो समय के साथ अपने पैरामीटर सदिश का औसत सूची करता है। यही है अद्यतन साधारण स्टोकेस्टिक ग्रेडिएंट डिसेंट के समान है किंतु एल्गोरिथ्म भी ट्रैक रखता है[25]

.

जब अनुकूलन किया जाता है, तो यह औसत पैरामीटर वेक्टर w का स्थान ले लेता है।

एडाग्राड

एडाग्राड (एडेप्टिव ग्रेडिएंट डिसेंट एल्गोरिथम के लिए) प्रति-पैरामीटर सीखने की दर के साथ संशोधित स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिथम है, जो पहली बार 2011 में प्रकाशित हुआ था।[26] अनौपचारिक रूप से यह विरल मापदंडों के लिए सीखने की दर को बढ़ाता है और कम विरल मापदंडों के लिए सीखने की दर को कम करता है। यह रणनीति अधिकांशतः सेटिंग्स में मानक स्टोचैस्टिक ग्रेडिएंट डिसेंट पर अभिसरण प्रदर्शन में सुधार करती है जहां डेटा विरल है और विरल पैरामीटर अधिक जानकारीपूर्ण हैं। ऐसे अनुप्रयोगों के उदाहरणों में प्राकृतिक भाषा प्रसंस्करण और छवि पहचान सम्मिलित है।[26]

इसमें अभी भी आधार सीखने की दर है η, किंतु इसे सदिश के तत्वों से गुणा किया जाता है {Gj,j} जो बाहरी उत्पाद आव्यूह का विकर्ण है

जहां , ढाल, पुनरावृत्ति पर τ. विकर्ण द्वारा दिया गया है

.

यह सदिश अनिवार्य रूप से आयाम द्वारा ढाल वर्गों का ऐतिहासिक योग संग्रहीत करता है और प्रत्येक पुनरावृत्ति के बाद अद्यतन किया जाता है। अपडेट का सूत्र अभी है

[lower-alpha 1]

या, प्रति-पैरामीटर अपडेट के रूप में लिखा गया है,

प्रत्येक {G(i,i)} सीखने की दर के लिए एक स्केलिंग कारक को जन्म देता है जो एकल पैरामीटर wi पर प्रयुक्त होता है। चूँकि इस कारक में हर, , ℓ2 मानदंड है पिछले डेरिवेटिव में, चरम पैरामीटर अपडेट कम हो जाते हैं, जबकि जिन पैरामीटर को कम या छोटे अपडेट मिलते हैं, उन्हें उच्च सीखने की दर प्राप्त होती है।[22]

उत्तल अनुकूलन के लिए डिज़ाइन किए जाने के समय, एडाग्रैड को गैर-उत्तल अनुकूलन पर सफलतापूर्वक प्रयुक्त किया गया है।[27]

आरएमएसप्रॉप

आरएमएसप्रॉप (रूट मीन स्क्वायर प्रचार के लिए) 2012 में जेफ्री हिंटन द्वारा आविष्कृत विधि है जिसमें सीखने की दर एडाग्रैड की तरह, प्रत्येक पैरामीटर के लिए अनुकूलित है। विचार यह है कि वजन के लिए सीखने की दर को उस वजन के लिए वर्त्तमान के ग्रेडिएंट्स के परिमाण के चल रहे औसत से विभाजित किया जाए।[28] असामान्य रूप से, यह लेख में प्रकाशित नहीं हुआ था चूँकि केवल कौरसेरा व्याख्यान में वर्णित था।

तो, सबसे पहले रनिंग औसत की गणना साधन वर्ग के संदर्भ में की जाती है

जहां, भूलने वाला कारक है। वर्गों के योग के रूप में ऐतिहासिक ढाल को संग्रहीत करने की अवधारणा को एडाग्रेड से उधार लिया गया है, किंतु पुराने डेटा के प्रभाव को धीरे-धीरे कम करके गैर-उत्तल समस्याओं में एडाग्रेड की घटती सीखने की दर को हल करने के लिए भूलना प्रारंभ किया गया है।[29] और पैरामीटर के रूप में अद्यतन किया जाता है,

आरएमएसप्रॉप ने विभिन्न अनुप्रयोगों में सीखने की दर का अच्छा अनुकूलन दिखाया है। आरएमएसप्रॉप को आरप्रॉप के सामान्यीकरण के रूप में देखा जा सकता है और केवल पूर्ण बैचों के विपरीत मिनी-बैचों के साथ काम करने में सक्षम है।[28]

एडम

एडम[30] (एडेप्टिव मोमेंट एस्टिमेशन के लिए संक्षिप्त) आरएमएसप्रॉप ऑप्टिमाइज़र के लिए 2014 का अपडेट है जो इसे गति विधि की मुख्य विशेषता के साथ जोड़ता है।[31] इस ऑप्टिमाइज़ेशन एल्गोरिदम में, ग्रेडियेंट और ग्रेडियेंट के दूसरे क्षणों दोनों के घातीय भूलने के साथ चलने वाली औसत का उपयोग किया जाता है। दिए गए पैरामीटर और हानि कार्य , जहां वर्तमान प्रशिक्षण पुनरावृत्ति को अनुक्रमित करता है (पर अनुक्रमित ), एडम का पैरामीटर अपडेट इसके द्वारा दिया गया है:

जहां एक छोटा अदिश राशि है (उदाहरण के लिए ) जिसका उपयोग 0 से विभाजन को रोकने के लिए किया जाता है, और (उदाहरण के लिए 0.9) और (उदाहरण के लिए 0.999) विस्मृति हैं क्रमशः ग्रेडिएंट्स और ग्रेडिएंट्स के दूसरे क्षणों के लिए कारक। वर्गमूल और वर्गमूलन तत्वानुसार किया जाता है। इस एल्गोरिथम के गहन प्रभाव ने नेस्टरोव-संवर्धित ग्रेडिएंट्स (जैसे: नादाम[32] और एफएएफएसए[33]) और दूसरे क्रम की जानकारी की अलग-अलग व्याख्याओं (जैसे: पावरप्रोपेगेशन[34]) का उपयोग करके कई नई, कम प्रसिद्ध गति-आधारित अनुकूलन योजनाओं को प्रेरित किया। और एडास्कर्ट[35] चूँकि, सबसे अधिक उपयोग किए जाने वाले वेरिएंट एडामैक्स[30] हैं, जो अनंत मानदंड का उपयोग करके एडम को सामान्यीकृत करता है, और एएमएसग्रैड,[36] जो घातीय औसत के अतिरिक्त अधिकतम पिछले वर्ग ग्रेडिएंट का उपयोग करके एडम से अभिसरण समस्याओं को संबोधित करता है।[37]

एडम डब्ल्यू[38] बाद का अपडेट है जो एडम में वज़न क्षय एल्गोरिथम के गैर-इष्टतम विकल्प को कम करता है।

साइन-आधारित स्टोकेस्टिक ग्रेडिएंट डीसेंट

तथापि साइन-आधारित अनुकूलन पूर्वोक्त आरप्रॉप पर वापस जाता है, केवल 2018 में शोधकर्ताओं ने स्टोकेस्टिक ग्रेडिएंट के परिमाण को ध्यान में रखते हुए और केवल इसके संकेत पर विचार करके एडम को सरल बनाने की प्रयाश किया था।[39][40]

बैकट्रैकिंग पंक्ति खोज

बैकट्रैकिंग पंक्ति सर्च ग्रेडिएंट डिसेंट का और प्रकार है। नीचे दिए गए सभी को उल्लिखित लिंक से प्राप्त किया गया है। यह अर्मिजो-गोल्डस्टीन स्थिति के रूप में जानी जाने वाली स्थिति पर आधारित होते है। दोनों विधियाँ सीखने की दरों को प्रत्येक पुनरावृत्ति में बदलने की अनुमति देती हैं; चूँकि परिवर्तन का विधि अलग है। बैकट्रैकिंग पंक्ति खोज आर्मिजो की स्थिति की जांच करने के लिए फलन मूल्यांकन का उपयोग करती है, और सैद्धांतिक रूप से सीखने की दर निर्धारित करने के लिए एल्गोरिथ्म में लूप पहले से लंबा और अज्ञात हो सकता है। अनुकूली एसजीडी को सीखने की दर निर्धारित करने में लूप की आवश्यकता नहीं होती है। दूसरी ओर, अनुकूली एसजीडी मूल संपत्ति की आश्वासन नहीं देता है - जो बैकट्रैकिंग पंक्ति खोज का आनंद लेती है - जो कि सभी n के लिए है। यदि निवेश फलन का ग्रेडिएंट विश्व स्तर पर लिप्सचिट्ज़ निरंतर है, लिप्सचिट्ज़ निरंतर एल के साथ, और सीखने की दर को 1/L के क्रम में चुना जाता है, तो एसजीडी का मानक संस्करण बैकट्रैकिंग पंक्ति खोज का विशेष स्थिति है।

दूसरे क्रम के विधि

अनुकूलन में मानक (नियतात्मक) न्यूटन की विधि का स्टोचैस्टिक एनालॉग न्यूटन-रफसन एल्गोरिथ्म (एक दूसरे क्रम की विधि) स्टोकेस्टिक सन्निकटन की सेटिंग में विषम रूप से इष्टतम या पुनरावृत्त अनुकूलन का निकट-इष्टतम रूप प्रदान करता है। अनुभवजन्य कठिन परिस्थिति कार्य में सारांश के हेसियन आव्यूह के प्रत्यक्ष माप का उपयोग करने वाली विधि बायर्ड, हैनसेन, नोकेडल और सिंगर द्वारा विकसित की गई थी।[41] चूँकि अनुकूलन के लिए आवश्यक हेस्सियन मैट्रिसेस का सीधे निर्धारण व्यवहार में संभव नहीं हो सकता है। एसजीडी के दूसरे-क्रम के संस्करणों के लिए व्यावहारिक और सैद्धांतिक रूप से ध्वनि विधियाँ जिनके लिए प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं होती है, स्पाल और अन्य द्वारा दी गई हैं।[42][43][44] (रूपर्ट द्वारा साथ गड़बड़ी के अतिरिक्त परिमित मतभेदों के आधार पर कम कुशल विधि दी गई है।[45]) सन्निकटन हेस्सियन आव्यूह के लिए अन्य दृष्टिकोण इसे फिशर सूचना आव्यूह के साथ बदल रहा है जो सामान्य ढाल को प्राकृतिक में बदल देता है।[46] प्रत्यक्ष हेस्सियन जानकारी की आवश्यकता नहीं करने वाली ये विधियाँ उपरोक्त अनुभवजन्य कठिन परिस्थिति कार्य में योगों के मूल्यों या योगों के ढाल के मूल्यों (अथार्त एसजीडी इनपुट) पर आधारित हैं। विशेष रूप से अनुभवजन्य कठिन परिस्थिति कार्य में सारांश के हेस्सियन मैट्रिसेस की सीधी गणना के बिना दूसरे क्रम की इष्टतमता विषम रूप से प्राप्त करने योग्य है।

इस प्रकार से 2023 में, स्टैनफोर्ड यूनिवर्सिटी के शोधकर्ताओं ने विकर्ण हेस्सियन के हल्के वजन वाले अनुमान का उपयोग किया गया जिसकी गणना वे प्रत्येक 10 चरणों में केवल बार गणना और मेमोरी ओवरहेड को कम करने के लिए करते हैं।[47]

इतिहास

1950 के दशक के समय एसजीडी को धीरे-धीरे कई समूहों द्वारा विकसित किया गया था।

टिप्पणियाँ

  1. is the element-wise product.

यह भी देखें

संदर्भ

  1. Bottou, Léon; Bousquet, Olivier (2012). "The Tradeoffs of Large Scale Learning". In Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (eds.). मशीन लर्निंग के लिए अनुकूलन. Cambridge: MIT Press. pp. 351–368. ISBN 978-0-262-01646-9.
  2. Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
  3. Ferguson, Thomas S. (1982). "एक असंगत अधिकतम संभावना अनुमान". Journal of the American Statistical Association. 77 (380): 831–834. doi:10.1080/01621459.1982.10477894. JSTOR 2287314.
  4. Bottou, Léon; Bousquet, Olivier (2008). बड़े पैमाने पर सीखने का व्यापार. Advances in Neural Information Processing Systems. Vol. 20. pp. 161–168.
  5. Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Retrieved 10 April 2021. {{cite book}}: |website= ignored (help)
  6. Bilmes, Jeff; Asanovic, Krste; Chin, Chee-Whye; Demmel, James (April 1997). "Using PHiPAC to speed error back-propagation learning". 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP. Munich, Germany: IEEE. pp. 4153-4156 vol.5. doi:10.1109/ICASSP.1997.604861.
  7. Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
  8. Kiwiel, Krzysztof C. (2001). "Convergence and efficiency of subgradient methods for quasiconvex minimization". Mathematical Programming, Series A. Berlin, Heidelberg: Springer. 90 (1): 1–25. doi:10.1007/PL00011414. ISSN 0025-5610. MR 1819784. S2CID 10043417.
  9. Robbins, Herbert; Siegmund, David O. (1971). "A convergence theorem for non negative almost supermartingales and some applications". In Rustagi, Jagdish S. (ed.). Optimizing Methods in Statistics. Academic Press. ISBN 0-12-604550-X.
  10. Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008). Efficient, Feature-based, Conditional Random Field Parsing. Proc. Annual Meeting of the ACL.
  11. LeCun, Yann A., et al. "Efficient backprop." Neural networks: Tricks of the trade. Springer Berlin Heidelberg, 2012. 9-48
  12. Jerome R. Krebs, John E. Anderson, David Hinkley, Ramesh Neelamani, Sunwoong Lee, Anatoly Baumstein, and Martin-Daniel Lacasse, (2009), "Fast full-wavefield seismic inversion using encoded sources," GEOPHYSICS 74: WCC177-WCC188.
  13. Avi Pfeffer. "CS181 Lecture 5 — Perceptrons" (PDF). Harvard University.[permanent dead link]
  14. Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press. p. 291. ISBN 978-0262035613.
  15. Cited by Darken, Christian; Moody, John (1990). Fast adaptive k-means clustering: some empirical results. Int'l Joint Conf. on Neural Networks (IJCNN). IEEE. doi:10.1109/IJCNN.1990.137720.
  16. Spall, J. C. (2003). Introduction to Stochastic Search and Optimization: Estimation, Simulation, and Control. Hoboken, NJ: Wiley. pp. Sections 4.4, 6.6, and 7.5. ISBN 0-471-33052-3.
  17. Toulis, Panos; Airoldi, Edoardo (2017). "स्टोचैस्टिक ग्रेडिएंट्स के आधार पर अनुमानकों के स्पर्शोन्मुख और परिमित-नमूना गुण". Annals of Statistics. 45 (4): 1694–1727. arXiv:1408.2923. doi:10.1214/16-AOS1506. S2CID 10279395.
  18. 18.0 18.1 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (8 October 1986). "बैक-प्रोपेगेटिंग एरर द्वारा अभ्यावेदन सीखना". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.
  19. "Gradient Descent and Momentum: The Heavy Ball Method". 13 July 2020.
  20. Sutskever, Ilya; Martens, James; Dahl, George; Hinton, Geoffrey E. (June 2013). Sanjoy Dasgupta and David Mcallester (ed.). गहन शिक्षा में आरंभीकरण और गति के महत्व पर (PDF). In Proceedings of the 30th international conference on machine learning (ICML-13). Vol. 28. Atlanta, GA. pp. 1139–1147. Retrieved 14 January 2016.
  21. Sutskever, Ilya (2013). प्रशिक्षण आवर्तक तंत्रिका नेटवर्क (PDF) (Ph.D.). University of Toronto. p. 74.
  22. 22.0 22.1 Zeiler, Matthew D. (2012). "ADADELTA: An adaptive learning rate method". arXiv:1212.5701 [cs.LG].
  23. Borysenko, Oleksandr; Byshkin, Maksym (2021). "CoolMomentum: A Method for Stochastic Optimization by Langevin Dynamics with Simulated Annealing". Scientific Reports. 11 (1): 10705. arXiv:2005.14605. Bibcode:2021NatSR..1110705B. doi:10.1038/s41598-021-90144-3. PMC 8139967. PMID 34021212.
  24. "Papers with Code - Nesterov Accelerated Gradient Explained".
  25. Polyak, Boris T.; Juditsky, Anatoli B. (1992). "औसत द्वारा स्टोकेस्टिक सन्निकटन का त्वरण" (PDF). SIAM J. Control Optim. 30 (4): 838–855. doi:10.1137/0330046.
  26. 26.0 26.1 Duchi, John; Hazan, Elad; Singer, Yoram (2011). "ऑनलाइन सीखने और स्टोकेस्टिक अनुकूलन के लिए अनुकूली उप-ग्रेडिएंट तरीके" (PDF). JMLR. 12: 2121–2159.
  27. Gupta, Maya R.; Bengio, Samy; Weston, Jason (2014). "अत्यधिक बहुवर्गीय वर्गीकारकों का प्रशिक्षण" (PDF). JMLR. 15 (1): 1461–1492.
  28. 28.0 28.1 Hinton, Geoffrey. "Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude" (PDF). p. 26. Retrieved 19 March 2020.
  29. "Understanding RMSprop — faster neural network learning". 2 September 2018.
  30. 30.0 30.1 Kingma, Diederik; Ba, Jimmy (2014). "Adam: A Method for Stochastic Optimization". arXiv:1412.6980 [cs.LG].
  31. "4. Beyond Gradient Descent - Fundamentals of Deep Learning [Book]".
  32. Dozat, T. (2016). "एडम में नेस्टरोव मोमेंटम को शामिल करना" (in English). S2CID 70293087. {{cite journal}}: Cite journal requires |journal= (help)
  33. Naveen, Philip (2022-08-09). "FASFA: A Novel Next-Generation Backpropagation Optimizer". dx.doi.org. doi:10.36227/techrxiv.20427852.v1. Retrieved 2022-11-19.
  34. Whye, Schwarz, Jonathan Jayakumar, Siddhant M. Pascanu, Razvan Latham, Peter E. Teh, Yee (2021-10-01). Powerpropagation: A sparsity inducing weight reparameterisation. OCLC 1333722169.{{cite book}}: CS1 maint: multiple names: authors list (link)
  35. Hu, Yuzheng; Lin, Licong; Tang, Shange (2019-12-20). "प्रथम क्रम अनुकूलन विधियों में द्वितीय क्रम की जानकारी". arXiv:1912.09926. {{cite journal}}: Cite journal requires |journal= (help)
  36. Reddi, Sashank J.; Kale, Satyen; Kumar, Sanjiv (2018). "एडम और बियॉन्ड के अभिसरण पर". arXiv:1904.09237. {{cite journal}}: Cite journal requires |journal= (help)
  37. "ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन". 19 January 2016.
  38. Loshchilov, Ilya; Hutter, Frank (4 January 2019). "डिकूपल्ड वेट डिके रेगुलराइजेशन". arXiv:1711.05101. {{cite journal}}: Cite journal requires |journal= (help)
  39. https://openreview.net/forum?id=S1EwLkW0W
  40. https://proceedings.mlr.press/v80/bernstein18a.html
  41. Byrd, R. H.; Hansen, S. L.; Nocedal, J.; Singer, Y. (2016). "बड़े पैमाने पर अनुकूलन के लिए एक स्टोकेस्टिक क्वैसी-न्यूटन विधि". SIAM Journal on Optimization. 26 (2): 1008–1031. arXiv:1401.7020. doi:10.1137/140954362. S2CID 12396034.
  42. Spall, J. C. (2000). "युगपत पर्टर्बेशन विधि द्वारा अनुकूली स्टोकेस्टिक सन्निकटन". IEEE Transactions on Automatic Control. 45 (10): 1839−1853. doi:10.1109/TAC.2000.880982.
  43. Spall, J. C. (2009). "अनुकूली युगपत पर्टर्बेशन एल्गोरिथम में जैकोबियन अनुमानों में सुधार के लिए प्रतिक्रिया और भार तंत्र". IEEE Transactions on Automatic Control. 54 (6): 1216–1229. doi:10.1109/TAC.2009.2019793. S2CID 3564529.
  44. Bhatnagar, S.; Prasad, H. L.; Prashanth, L. A. (2013). Stochastic Recursive Algorithms for Optimization: Simultaneous Perturbation Methods. London: Springer. ISBN 978-1-4471-4284-3.
  45. Ruppert, D. (1985). "बहुभिन्नरूपी रॉबिन्स-मोनरो प्रक्रिया का न्यूटन-रैफसन संस्करण". Annals of Statistics. 13 (1): 236–245. doi:10.1214/aos/1176346589.
  46. Abdulkadirov, R. I.; Lyakhov, P.A.; Nagornov, N.N. (2022). "डिरिचलेट डिस्ट्रीब्यूशन के साथ प्राकृतिक ग्रेडियेंट डिसेंट के आधार पर बहुआयामी कार्यों की चरम खोज को तेज करना". Mathematics. 10 (19): 3556. doi:10.3390/math10193556.
  47. https://arxiv.org/abs/2305.14342

अग्रिम पठन


बाहरी संबंध