लर्निंग रेट

मशीन लर्निंग और सांख्यिकी में, अल्गोरिथम ऑप्टिमाइजेशन में लर्निंग रेट एक हाइपरपैरामीटर (मशीन लर्निंग) है जो मिनिमम लॉस फ़ंक्शन की ओर बढ़ते हुए प्रत्येक इटरएशन पर स्टेप साइज़ निर्धारित करता है।^[1] चूँकि यह इनफ्लुएंस करता है कि नई अर्जित जानकारी पुरानी जानकारी को ओवरराइड कर देती है, यह मेटाफोरिकली उस मोमेंटम को रिप्रेजेंट करता है जिस पर मशीन लर्निंग मॉडल सीखता है। अडाप्टिव कण्ट्रोल लिटरेचर में, लर्निंग रेट को सामान्यतः गेन के रूप में जाना जाता है।^[2]

लर्निंग रेट सेटिंग करने में, कन्वर्जेन्स की रेट और ओवरशूट के मध्य एक ट्रेड-ऑफ़ होता है। जबकि डिसेंट डायरेक्शन सामान्यतः लॉस फ़ंक्शन के ग्रेडिएंट से निर्धारित होती है, लर्निंग रेट यह निर्धारित करती है कि उस डायरेक्शन में कितना बड़ा स्टेप लिया है। बहुत हाई लर्निंग रेट लर्निंग जम्प को मिनिमम स्तर से ऊपर ले जाएगी, लेकिन बहुत लो लर्निंग रेट या तो कनवर्ज होने में बहुत अधिक समय लेगी या अनडिजायरेबल लोकल मिनिमम में स्टक हो जाएगी।^[3]

फास्टर कन्वर्जेन्स प्राप्त करने के लिए, ऑस्किलेशन को रोकने और अनडिजायरेबल लोकल मिनीमा में स्टक से रोकने के लिए लर्निंग रेट अधिकांशतः ट्रेंनिग के समय या तो लर्निंग रेट शेड्यूल के अनुसार या अडाप्टिव लर्निंग रेट का उपयोग करके भिन्न होती है।^[4] लर्निंग रेट और इसका एडजस्टमेंट भी प्रति पैरामीटर भिन्न हो सकता है, इस स्थिति में यह एक डायगोनल मैट्रिक्स होता है जिसे न्यूटन की विधि में हेस्सियन मैट्रिक्स के इन्वेर्स मैट्रिक्स के एप्रोक्सीमेशन में व्याख्या किया जा सकती है।^[5] लर्निंग रेट कुअसी-न्यूटन मेथड्सऔर संबंधित ऑप्टिमाइजेशन एल्गोरिदम में एक्साक्ट लाइन सर्च द्वारा निर्धारित स्टेप लेंग्थ से संबंधित होती है।^[6]^[7]

लर्निंग रेट शेड्यूल

इनिशियल रेट को सिस्टम डिफ़ॉल्ट के रूप में लेफ्ट किया जा सकता है या कई तकनीकों का उपयोग करके सेलेक्ट किया जा सकता है।^[8] लर्निंग रेट शेड्यूल सीखने के समय लर्निंग रेट को बदल देती है और इसे अधिकांशतः इपॉक्स/ इटरएशन के मध्य बदला जाता है। यह मुख्य रूप से दो पैरामीटर के साथ किया जाता है: डिके और मोमेंटम। लर्निंग रेट के कई भिन्न-भिन्न शेड्यूल हैं लेकिन सबसे कॉमन टाइम-बेस्ड, स्टेप-बेस्ड और एक्सपोनेंशियल हैं।^[4]

डिके लर्निंग नाईस प्लेस पर सेटल करने और ऑस्किलेशन से बचने का कार्य करता है, एक ऐसी स्थिति जो तब उत्पन्न हो सकती है जब बहुत हाई कांस्टेंट लर्निंग रेट सीखने को मिनिमम से आगे और पीछे जम्प करती है, और एक हाइपरपैरामीटर द्वारा कण्ट्रोल होती है।

मोमेंटम एक हिल से रोल करती हुई गेंद के समान होता है; हम चाहते हैं कि गेंद हिल के सबसे निचले बिंदु (सबसे कम एरर के अनुरूप) पर स्थिर हो। जब त्रुटि लागत प्रवणता लंबे समय तक एक ही डायरेक्शन में जा रही हो तो मोमेंटम सीखने की गति को बढ़ाता है (लर्निंग रेट बढ़ाता है) और स्माल बम्प्स को 'रोल ओवर' करके लोकल मिनीमा से भी बचाता है। मोमेंटम को गेंद के द्रव्यमान के अनुरूप एक हाइपरपैरामीटर द्वारा नियंत्रित किया जाता है जिसे मैन्युअल रूप से चुना जाना चाहिए - बहुत अधिक और गेंद मिनिमा पर रोल कर जाएगी जिसे हम ढूंढना चाहते हैं, बहुत कम और यह अपने उद्देश्य को पूरा नहीं करेगा। स्टोकेस्टिक ग्रेडिएंट डीसेंट मोमेंटम डिके की तुलना में अधिक समष्टि होता है, लेकिन इसे अधिकांशतः केरस जैसे डीप लर्निंग लाइब्रेरी के साथ बनाया जाता है।

टाइम-बेस्ड लर्निंग शेड्यूल पिछली बार की इटरएशन की लर्निंग रेट के आधार पर लर्निंग रेट को बदलते हैं। डिके में फैक्टरिंग लर्निंग रेट के लिए गणितीय सूत्र निम्न प्रकार है:

$\eta _{n+1}={\frac {\eta _{n}}{1+dn}}$

जहाँ $\eta$ लर्निंग रेट है, $d$ एक डिके पैरामीटर है और $n$ इटरएशन स्टेप है।

स्टेप-बेस्ड लर्निंग शेड्यूल कुछ प्रीडिफाइंड स्टेपों के अनुसार लर्निंग रेट को बदलता है। डिके अनुप्रयोग सूत्र को यहाँ इस प्रकार परिभाषित किया गया है:

$\eta _{n}=\eta _{0}d^{\left\lfloor {\frac {1+n}{r}}\right\rfloor }$

जहाँ $\eta _{n}$ इटरएशन पर लर्निंग रेट है, $n$ , $\eta _{0}$ प्रारंभिक लर्निंग रेट है, $d$ प्रत्येक ड्राप पर लर्निंग रेट कितनी बदलनी चाहिए (0.5 आधे से मैच करती है) और $r$ ड्राप रेट से मैच करती है, या कितनी बार रेट को कम किया जाना चाहिए (10 प्रत्येक 10 इटरएशन में एक ड्राप से मैच करती है)। फ्लोर फंक्शन ( $\lfloor \dots \rfloor$ ) यहां 1 से छोटे सभी मानों के लिए इसके इनपुट का मान घटाकर 0 कर दिया गया है।

एक्सपोनेंशियल लर्निंग शेड्यूल स्टेप-बेस्ड के समान हैं, लेकिन स्टेपों के अतिरिक्त, डिक्रीजिंग एक्सपोनेंशियल फ़ंक्शन का उपयोग किया जाता है। डिके में गुणनखंडन का गणितीय सूत्र निम्न प्रकार है:

$\eta _{n}=\eta _{0}e^{-dn}$

जहाँ $d$ एक डिके पैरामीटर है।

अडाप्टिव लर्निंग रेट

लर्निंग रेट के शेड्यूल के साथ समस्या यह है कि वे सभी हाइपरपैरामीटर पर निर्भर करते हैं जिन्हें प्रत्येक दिए गए लर्निंग सेशन के लिए मैन्युअल रूप से चुना जाना चाहिए और हैण्ड में समस्या या उपयोग किए गए मॉडल के आधार पर अत्यधिकता भिन्न हो सकते हैं। इससे कॉम्बैट के लिए, कई भिन्न-भिन्न प्रकार के अडाप्टिव एल्गोरिथ्म ग्रेडिएंट डिसेंट एल्गोरिदम होते हैं जैसे जैसे कि एडाग्रेड, एडाडेल्टा, आरएमएसप्रॉप और एडम।^[9] जो सामान्यतः पर केरस जैसे डीप लर्निंग लाइब्रेरी में बनाए जाते हैं।^[10]

यह भी देखें

संरेट्भ

↑ Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. p. 247. ISBN 978-0-262-01802-9.
↑ Delyon, Bernard (2000). "Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory". Unpublished Lecture Notes. Université de Rennes. CiteSeerX 10.1.1.29.4428.
↑ Buduma, Nikhil; Locascio, Nicholas (2017). Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms. O'Reilly. p. 21. ISBN 978-1-4919-2558-4.
↑ ^4.0 ^4.1 Patterson, Josh; Gibson, Adam (2017). "Understanding Learning Rates". Deep Learning : A Practitioner's Approach. O'Reilly. pp. 258–263. ISBN 978-1-4919-1425-0.
↑ Ruder, Sebastian (2017). "ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन". arXiv:1609.04747 [cs.LG].
↑ Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. p. 25. ISBN 1-4020-7553-7.
↑ Dixon, L. C. W. (1972). "The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms". गैर-रेखीय अनुकूलन के लिए संख्यात्मक तरीके. London: Academic Press. pp. 149–170. ISBN 0-12-455650-7.
↑ Smith, Leslie N. (4 April 2017). "तंत्रिका नेटवर्क के प्रशिक्षण के लिए चक्रीय सीखने की दरें". arXiv:1506.01186 [cs.CV].
↑ Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Retrieved 10 April 2021. {{cite book}}: |website= ignored (help)
↑ Brownlee, Jason (22 January 2019). "डीप लर्निंग न्यूरल नेटवर्क को प्रशिक्षित करते समय सीखने की दर को कैसे कॉन्फ़िगर करें". Machine Learning Mastery. Retrieved 4 January 2021.

अग्रिम पठन

Géron, Aurélien (2017). "Gradient Descent". Hands-On Machine Learning with Scikit-Learn and TensorFlow. O'Reilly. pp. 113–124. ISBN 978-1-4919-6229-9.
Plagianakos, V. P.; Magoulas, G. D.; Vrahatis, M. N. (2001). "Learning Rate Adaptation in Stochastic Gradient Descent". Advances in Convex Analysis and Global Optimization. Kluwer. pp. 433–444. ISBN 0-7923-6942-4.

बाहरी संबंध

de Freitas, Nando (February 12, 2015). "Optimization". Deep Learning Lecture 6. University of Oxford – via YouTube.

[1] Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. p. 247. ISBN 978-0-262-01802-9.

[2] Delyon, Bernard (2000). "Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory". Unpublished Lecture Notes. Université de Rennes. CiteSeerX 10.1.1.29.4428.

[3] Buduma, Nikhil; Locascio, Nicholas (2017). Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms. O'Reilly. p. 21. ISBN 978-1-4919-2558-4.

[variablelearningrate-4] 4.0 ^4.1 Patterson, Josh; Gibson, Adam (2017). "Understanding Learning Rates". Deep Learning : A Practitioner's Approach. O'Reilly. pp. 258–263. ISBN 978-1-4919-1425-0.

[5] Ruder, Sebastian (2017). "ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन". arXiv:1609.04747 [cs.LG].

[6] Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. p. 25. ISBN 1-4020-7553-7.

[7] Dixon, L. C. W. (1972). "The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms". गैर-रेखीय अनुकूलन के लिए संख्यात्मक तरीके. London: Academic Press. pp. 149–170. ISBN 0-12-455650-7.

[8] Smith, Leslie N. (4 April 2017). "तंत्रिका नेटवर्क के प्रशिक्षण के लिए चक्रीय सीखने की दरें". arXiv:1506.01186 [cs.CV].

[9] Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Retrieved 10 April 2021. {{cite book}}: |website= ignored (help)

[10] Brownlee, Jason (22 January 2019). "डीप लर्निंग न्यूरल नेटवर्क को प्रशिक्षित करते समय सीखने की दर को कैसे कॉन्फ़िगर करें". Machine Learning Mastery. Retrieved 4 January 2021.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Anonymous

Search

लर्निंग रेट

Namespaces

More

Page actions

Contents

लर्निंग रेट शेड्यूल

अडाप्टिव लर्निंग रेट

यह भी देखें

संरेट्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

लर्निंग रेट

लर्निंग रेट शेड्यूल

अडाप्टिव लर्निंग रेट

यह भी देखें

संरेट्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories