लर्निंग रेट

यंत्र अधिगम और सांख्यिकी में, गणितीय अनुकूलन में सीखने की दर एक हाइपरपैरामीटर (मशीन लर्निंग) है जो न्यूनतम हानि फ़ंक्शन की ओर बढ़ते हुए प्रत्येक पुनरावृत्ति पर चरण आकार निर्धारित करता है। चूँकि यह प्रभावित करता है कि नई अर्जित जानकारी किस हद तक पुरानी जानकारी से आगे निकल जाती है, यह रूपक रूप से उस गति का प्रतिनिधित्व करता है जिस पर मशीन लर्निंग मॉडल सीखता है। अनुकूली नियंत्रण साहित्य में, सीखने की दर को आमतौर पर लाभ के रूप में जाना जाता है। सीखने की दर निर्धारित करने में, अभिसरण की दर और ओवरशूट (संकेत) के बीच एक व्यापार-बंद होता है। जबकि वंश दिशा आमतौर पर हानि फ़ंक्शन के ढतला हुआ वंश से निर्धारित होती है, सीखने की दर यह निर्धारित करती है कि उस दिशा में कितना बड़ा कदम उठाया गया है। बहुत अधिक सीखने की दर सीखने को न्यूनतम स्तर से ऊपर ले जाएगी, लेकिन बहुत कम सीखने की दर या तो एकत्रित होने में बहुत अधिक समय लेगी या अवांछनीय स्थानीय न्यूनतम में फंस जाएगी। तेजी से अभिसरण प्राप्त करने के लिए, दोलनों को रोकने और अवांछनीय स्थानीय मिनीमा में फंसने से रोकने के लिए सीखने की दर अक्सर प्रशिक्षण के दौरान या तो सीखने की दर अनुसूची के अनुसार या अनुकूली सीखने की दर का उपयोग करके भिन्न होती है। सीखने की दर और इसका समायोजन भी प्रति पैरामीटर भिन्न हो सकता है, इस स्थिति में यह एक विकर्ण मैट्रिक्स है जिसे न्यूटन की विधि में हेस्सियन मैट्रिक्स के व्युत्क्रमणीय मैट्रिक्स के अनुमान के रूप में व्याख्या किया जा सकता है। न्यूटन की विधि। सीखने की दर अर्ध-न्यूटन विधियों और संबंधित अनुकूलन एल्गोरिदम में सटीक रेखा खोज द्वारा निर्धारित चरण लंबाई से संबंधित है।

सीखने की दर अनुसूची
प्रारंभिक दर को सिस्टम डिफ़ॉल्ट के रूप में छोड़ा जा सकता है या कई तकनीकों का उपयोग करके चुना जा सकता है। सीखने की दर अनुसूची सीखने के दौरान सीखने की दर को बदल देती है और इसे अक्सर युगों/पुनरावृत्तियों के बीच बदला जाता है। यह मुख्य रूप से दो मापदंडों के साथ किया जाता है: क्षय और गति। सीखने की दर के कई अलग-अलग शेड्यूल हैं लेकिन सबसे आम समय-आधारित, चरण-आधारित और घातीय हैं।

क्षय सीखने को एक अच्छी जगह पर व्यवस्थित करने और दोलनों से बचने का कार्य करता है, एक ऐसी स्थिति जो तब उत्पन्न हो सकती है जब बहुत अधिक निरंतर सीखने की दर सीखने को न्यूनतम से आगे और पीछे कूदती है, और एक हाइपरपैरामीटर द्वारा नियंत्रित होती है।

संवेग एक पहाड़ी से लुढ़कती हुई गेंद के समान है; हम चाहते हैं कि गेंद पहाड़ी के सबसे निचले बिंदु (सबसे कम त्रुटि के अनुरूप) पर स्थिर हो। जब त्रुटि लागत प्रवणता लंबे समय तक एक ही दिशा में जा रही हो तो मोमेंटम सीखने की गति बढ़ाता है (सीखने की दर बढ़ाता है) और छोटे धक्कों को 'रोल ओवर' करके स्थानीय मिनीमा से भी बचाता है। संवेग को गेंद के द्रव्यमान के अनुरूप एक हाइपरपैरामीटर द्वारा नियंत्रित किया जाता है जिसे मैन्युअल रूप से चुना जाना चाहिए - बहुत अधिक और गेंद मिनिमा पर लुढ़क जाएगी जिसे हम ढूंढना चाहते हैं, बहुत कम और यह अपने उद्देश्य को पूरा नहीं करेगा। स्टोकेस्टिक ग्रेडिएंट डीसेंट#मोमेंटम क्षय की तुलना में अधिक जटिल है, लेकिन इसे अक्सर मुश्किल जैसे गहन शिक्षण पुस्तकालयों के साथ बनाया जाता है।

समय-आधारित शिक्षण कार्यक्रम पिछली बार की पुनरावृत्ति की सीखने की दर के आधार पर सीखने की दर को बदलते हैं। क्षय में फैक्टरिंग सीखने की दर के लिए गणितीय सूत्र है:

$$\eta_{n+1} = \frac{\eta_n }{1+dn}$$ कहाँ $$\eta$$ सीखने की दर है, $$d$$ एक क्षय पैरामीटर है और $$n$$ पुनरावृत्ति चरण है.

चरण-आधारित शिक्षण कार्यक्रम कुछ पूर्वनिर्धारित चरणों के अनुसार सीखने की दर को बदलता है। क्षय अनुप्रयोग सूत्र को यहाँ इस प्रकार परिभाषित किया गया है:

$$\eta_{n} = \eta_0d^{\left\lfloor\frac{1+n}{r}\right\rfloor}$$ कहाँ $$\eta_{n}$$ पुनरावृत्ति पर सीखने की दर है $$n$$, $$\eta_0$$ प्रारंभिक सीखने की दर है, $$d$$ प्रत्येक गिरावट पर सीखने की दर कितनी बदलनी चाहिए (0.5 आधे से मेल खाती है) और $$r$$ गिरावट की दर से मेल खाती है, या कितनी बार दर को कम किया जाना चाहिए (10 प्रत्येक 10 पुनरावृत्तियों में एक गिरावट से मेल खाती है)। फर्श और छत के कार्य कार्य ($$\lfloor\dots\rfloor$$) यहां 1 से छोटे सभी मानों के लिए इसके इनपुट का मान घटाकर 0 कर दिया गया है।

घातीय शिक्षण कार्यक्रम चरण-आधारित के समान हैं, लेकिन चरणों के बजाय, घटते घातीय फ़ंक्शन का उपयोग किया जाता है। क्षय में गुणनखंडन का गणितीय सूत्र है:

$$\eta_{n} = \eta_0e^{-dn}$$ कहाँ $$d$$ एक क्षय पैरामीटर है.

अनुकूली सीखने की दर
सीखने की दर के शेड्यूल के साथ समस्या यह है कि वे सभी हाइपरपैरामीटर पर निर्भर करते हैं जिन्हें प्रत्येक दिए गए सीखने के सत्र के लिए मैन्युअल रूप से चुना जाना चाहिए और हाथ में समस्या या उपयोग किए गए मॉडल के आधार पर काफी भिन्न हो सकते हैं। इससे निपटने के लिए, कई अलग-अलग प्रकार के अनुकूली एल्गोरिथ्म ग्रेडिएंट डिसेंट एल्गोरिदम हैं जैसे स्टोचैस्टिक ग्रेडिएंट डिसेंट #AdaGrad, Adadelta, स्टोचैस्टिक ग्रेडिएंट डिसेंट #RMSProp, और स्टोचैस्टिक ग्रेडिएंट डिसेंट #एडम। जो आम तौर पर केरस जैसे गहन शिक्षण पुस्तकालयों में निर्मित होते हैं।

यह भी देखें

 * हाइपरपैरामीटर (मशीन लर्निंग)
 * हाइपरपैरामीटर अनुकूलन
 * स्टोकेस्टिक ग्रेडिएंट डिसेंट
 * परिवर्तनीय मीट्रिक विधियाँ
 * ओवरफिटिंग
 * पश्चप्रचार
 * ऑटोएमएल
 * मॉडल चयन
 * स्वयं ट्यूनिंग