लर्निंग रेट

मशीन लर्निंग और सांख्यिकी में, अल्गोरिथम ऑप्टिमाइजेशन में लर्निंग रेट एक हाइपरपैरामीटर (मशीन लर्निंग) है जो मिनिमम लॉस फ़ंक्शन की ओर बढ़ते हुए प्रत्येक इटरएशन पर स्टेप साइज़ निर्धारित करता है। चूँकि यह इनफ्लुएंस करता है कि नई अर्जित जानकारी पुरानी जानकारी को ओवरराइड कर देती है, यह मेटाफोरिकली उस मोमेंटम को रिप्रेजेंट करता है जिस पर मशीन लर्निंग मॉडल सीखता है। अडाप्टिव कण्ट्रोल लिटरेचर में, लर्निंग रेट को सामान्यतः गेन के रूप में जाना जाता है।

लर्निंग रेट सेटिंग करने में, कन्वर्जेन्स की रेट और ओवरशूट के मध्य एक ट्रेड-ऑफ़ होता है। जबकि डिसेंट डायरेक्शन सामान्यतः लॉस फ़ंक्शन के ग्रेडिएंट से निर्धारित होती है, लर्निंग रेट यह निर्धारित करती है कि उस डायरेक्शन में कितना बड़ा स्टेप लिया है। बहुत हाई लर्निंग रेट लर्निंग जम्प को मिनिमम स्तर से ऊपर ले जाएगी, लेकिन बहुत लो लर्निंग रेट या तो कनवर्ज होने में बहुत अधिक समय लेगी या अनडिजायरेबल लोकल मिनिमम में स्टक हो जाएगी।

फास्टर कन्वर्जेन्स प्राप्त करने के लिए, ऑस्किलेशन को रोकने और अनडिजायरेबल लोकल मिनीमा में स्टक से रोकने के लिए लर्निंग रेट अधिकांशतः ट्रेंनिग के समय या तो लर्निंग रेट शेड्यूल के अनुसार या अडाप्टिव लर्निंग रेट का उपयोग करके भिन्न होती है। लर्निंग रेट और इसका एडजस्टमेंट भी प्रति पैरामीटर भिन्न हो सकता है, इस स्थिति में यह एक डायगोनल मैट्रिक्स होता है जिसे न्यूटन की विधि में हेस्सियन मैट्रिक्स के इन्वेर्स मैट्रिक्स के एप्रोक्सीमेशन में व्याख्या किया जा सकती है। लर्निंग रेट कुअसी-न्यूटन मेथड्सऔर संबंधित ऑप्टिमाइजेशन एल्गोरिदम में एक्साक्ट लाइन सर्च द्वारा निर्धारित स्टेप लेंग्थ से संबंधित होती है।

लर्निंग रेट शेड्यूल
इनिशियल रेट को सिस्टम डिफ़ॉल्ट के रूप में लेफ्ट किया जा सकता है या कई तकनीकों का उपयोग करके सेलेक्ट किया जा सकता है। लर्निंग रेट शेड्यूल सीखने के समय लर्निंग रेट को बदल देती है और इसे अधिकांशतः इपॉक्स/ इटरएशन के मध्य बदला जाता है। यह मुख्य रूप से दो पैरामीटर के साथ किया जाता है: डिके और मोमेंटम। लर्निंग रेट के कई भिन्न-भिन्न शेड्यूल हैं लेकिन सबसे कॉमन टाइम-बेस्ड, स्टेप-बेस्ड और एक्सपोनेंशियल हैं।

डिके लर्निंग नाईस प्लेस पर सेटल करने और ऑस्किलेशन से बचने का कार्य करता है, एक ऐसी स्थिति जो तब उत्पन्न हो सकती है जब बहुत हाई कांस्टेंट लर्निंग रेट सीखने को मिनिमम से आगे और पीछे जम्प करती है, और एक हाइपरपैरामीटर द्वारा कण्ट्रोल होती है।

मोमेंटम एक हिल से रोल करती हुई गेंद के समान होता है; हम चाहते हैं कि गेंद हिल के सबसे निचले बिंदु (सबसे कम एरर के अनुरूप) पर स्थिर हो। जब त्रुटि लागत प्रवणता लंबे समय तक एक ही डायरेक्शन में जा रही हो तो मोमेंटम सीखने की गति को बढ़ाता है (लर्निंग रेट बढ़ाता है) और स्माल बम्प्स को 'रोल ओवर' करके लोकल मिनीमा से भी बचाता है। मोमेंटम को गेंद के द्रव्यमान के अनुरूप एक हाइपरपैरामीटर द्वारा नियंत्रित किया जाता है जिसे मैन्युअल रूप से चुना जाना चाहिए - बहुत अधिक और गेंद मिनिमा पर रोल कर जाएगी जिसे हम ढूंढना चाहते हैं, बहुत कम और यह अपने उद्देश्य को पूरा नहीं करेगा। स्टोकेस्टिक ग्रेडिएंट डीसेंट मोमेंटम डिके की तुलना में अधिक समष्टि होता है, लेकिन इसे अधिकांशतः केरस जैसे डीप लर्निंग लाइब्रेरी के साथ बनाया जाता है।

टाइम-बेस्ड लर्निंग शेड्यूल पिछली बार की इटरएशन की लर्निंग रेट के आधार पर लर्निंग रेट को बदलते हैं। डिके में फैक्टरिंग लर्निंग रेट के लिए गणितीय सूत्र निम्न प्रकार है:

$$\eta_{n+1} = \frac{\eta_n }{1+dn}$$

जहाँ $$\eta$$ लर्निंग रेट है, $$d$$ एक डिके पैरामीटर है और $$n$$ इटरएशन स्टेप है।

स्टेप-बेस्ड लर्निंग शेड्यूल कुछ प्रीडिफाइंड स्टेपों के अनुसार लर्निंग रेट को बदलता है। डिके अनुप्रयोग सूत्र को यहाँ इस प्रकार परिभाषित किया गया है:

$$\eta_{n} = \eta_0d^{\left\lfloor\frac{1+n}{r}\right\rfloor}$$

जहाँ $$\eta_{n}$$ इटरएशन पर लर्निंग रेट है, $$n$$, $$\eta_0$$ प्रारंभिक लर्निंग रेट है, $$d$$ प्रत्येक ड्राप पर लर्निंग रेट कितनी बदलनी चाहिए (0.5 आधे से मैच करती है) और $$r$$ ड्राप रेट से मैच करती है, या कितनी बार रेट को कम किया जाना चाहिए (10 प्रत्येक 10 इटरएशन में एक ड्राप से मैच करती है)। फ्लोर फंक्शन ($$\lfloor\dots\rfloor$$) यहां 1 से छोटे सभी मानों के लिए इसके इनपुट का मान घटाकर 0 कर दिया गया है।

एक्सपोनेंशियल लर्निंग शेड्यूल स्टेप-बेस्ड के समान हैं, लेकिन स्टेपों के अतिरिक्त, डिक्रीजिंग एक्सपोनेंशियल फ़ंक्शन का उपयोग किया जाता है। डिके में गुणनखंडन का गणितीय सूत्र निम्न प्रकार है:

$$\eta_{n} = \eta_0e^{-dn}$$

जहाँ $$d$$ एक डिके पैरामीटर है।

अडाप्टिव लर्निंग रेट
लर्निंग रेट के शेड्यूल के साथ समस्या यह है कि वे सभी हाइपरपैरामीटर पर निर्भर करते हैं जिन्हें प्रत्येक दिए गए लर्निंग सेशन के लिए मैन्युअल रूप से चुना जाना चाहिए और हैण्ड में समस्या या उपयोग किए गए मॉडल के आधार पर अत्यधिकता भिन्न हो सकते हैं। इससे कॉम्बैट के लिए, कई भिन्न-भिन्न प्रकार के अडाप्टिव एल्गोरिथ्म ग्रेडिएंट डिसेंट एल्गोरिदम होते हैं जैसे जैसे कि एडाग्रेड, एडाडेल्टा, आरएमएसप्रॉप और एडम। जो सामान्यतः पर केरस जैसे डीप लर्निंग लाइब्रेरी में बनाए जाते हैं।

यह भी देखें

 * हाइपरपैरामीटर (मशीन लर्निंग)
 * हाइपरपैरामीटर ऑप्टिमाइजेशन
 * स्टोकेस्टिक ग्रेडिएंट डिसेंट
 * वेरिएबल मीट्रिक मेथड्स
 * ओवरफिटिंग
 * बैकप्रोपेगेशन
 * ऑटोएमएल
 * मॉडल सिलेक्शन
 * सेल्फ ट्यूनिंग