क्यू-लर्निंग

क्यू-लर्निंग एक मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मान को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।

किसी भी परिमित मार्कोव निर्णय प्रक्रिया (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल पुरस्कार के अपेक्षित मान को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।^[1] क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है। कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।^[1] Q उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए अवस्था में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।^[2]

रीइन्फोर्समेंट लर्निंग

सुदृढीकरण सीखने में एक बुद्धिमान एजेंट, अवस्थाओं का एक सेट $S$ और $A$ प्रति अवस्था क्रियाओं का एक सेट सम्मिलित होता है। एक क्रिया $a\in A$ करके, एजेंट एक अवस्था से दूसरे अवस्था में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक पुरस्कार (एक संख्यात्मक स्कोर) मिलता है।

एजेंट का लक्ष्य अपने कुल पुरस्कार को अधिकतम करना है। यह भविष्य के अवस्थाओं से प्राप्त होने वाले अधिकतम पुरस्कार को संभावित भविष्य के पुरस्कार द्वारा वर्तमान कार्रवाई को प्रभावी विधि से प्रभावित करने के लिए अपनी वर्तमान स्थिति को प्राप्त करने के लिए पुरस्कार में जोड़कर करता है। यह संभावित पुरस्कार वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के चरणों के पुरस्कारों के अपेक्षित मानों का भारित योग है।

उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है) में बिताए गए कुल समय के ऋणात्मक द्वारा पुरस्कार को मापा जाता है। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए प्रारंभिक प्रतीक्षा समय को कम किया जाए। चूंकि, यदि ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:

0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय

अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। चूंकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का पुरस्कार पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है:

5 सेकंड प्रतीक्षा समय + 0 सेकंड लड़ाई का समय

अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के अतिरिक्त बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक पुरस्कार) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का विवरण प्राप्त होता है।

एल्गोरिथम

क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।

भविष्य में $\Delta t$ चरण उठाने के बाद एजेंट कोई अगला चरण तय करेगा। इस चरण के लिए वजन की गणना $\gamma ^{\Delta t}$ के रूप में की जाती है, जहां $\gamma$ (डिस्काउंट फैक्टर) 0 और 1 ( $0\leq \gamma \leq 1$ ) के बीच की संख्या है और बाद में प्राप्त ("अच्छे प्रारंभ" के मान को दर्शाता है) पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है। $\gamma$ को प्रत्येक चरण $\Delta t$ पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या किया जा सकता है।

एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो अवस्था-क्रिया संयोजन की गुणवत्ता की गणना करता है:

Q:S\times A\to \mathbb {R}

.

सीखना प्रारंभ करने से पहले, $Q$ संभावित स्वैच्छिक निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, प्रत्येक बार $t$ एजेंट क्रिया $a_{t}$ का चयन करता है, एक पुरस्कार $r_{t}$ देखता है, नई स्थिति $s_{t+1}$ में प्रवेश करता है (जो पिछली स्थिति दोनों पर निर्भर हो सकता है $s_{t}$ और चयनित क्रिया), और $Q$ अद्यतन किया गया है। एल्गोरिथम का मूल एक बेलमैन समीकरण है, जो वर्तमान मान के भारित औसत और नई जानकारी का उपयोग करते हुए एक साधारण मान पुनरावृत्ति अद्यतन के रूप में है^[3]

Q^{new}(s_{t},a_{t})\leftarrow (1-\underbrace {\alpha } _{\text{learning rate}})\cdot \underbrace {Q(s_{t},a_{t})} _{\text{current value}}+\underbrace {\alpha } _{\text{learning rate}}\cdot {\bigg (}\underbrace {\underbrace {r_{t}} _{\text{reward}}+\underbrace {\gamma } _{\text{discount factor}}\cdot \underbrace {\max _{a}Q(s_{t+1},a)} _{\text{estimate of optimal future value}}} _{\text{new value (temporal difference target)}}{\bigg )}

जहाँ $r_{t}$ अवस्था

[1]

[2]

[3]

Anonymous

Search

क्यू-लर्निंग

Namespaces

More

Page actions

Contents

रीइन्फोर्समेंट लर्निंग

एल्गोरिथम