क्यू-लर्निंग

क्यू-लर्निंग एक मॉडल-मुक्त (सुदृढ़ीकरण सीखना) है | मॉडल-फ्री रीइन्फोर्समेंट लर्निंग एल्गोरिद्म किसी विशेष राज्य में किसी क्रिया के मूल्य को जानने के लिए। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।

किसी भी परिमित मार्कोव निर्णय प्रक्रिया (FMDP) के लिए, Q-शिक्षण वर्तमान स्थिति से शुरू होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में एक इष्टतम नीति पाता है।^[1] क्यू-लर्निंग एक इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए FMDP के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।^[1]क्यू फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम गणना करता है - किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कार।^[2]

सुदृढीकरण सीखना

सुदृढीकरण सीखने में एक बुद्धिमान एजेंट, राज्यों का एक समूह शामिल होता है $S$ , और एक सेट $A$ प्रति राज्य कार्रवाइयों का। एक क्रिया करके $a\in A$ , एजेंट राज्य से राज्य में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक इनाम (एक संख्यात्मक स्कोर) मिलता है।

एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से शुरू होने वाले सभी भविष्य के कदमों के पुरस्कारों के अपेक्षित मूल्यों का भारित योग है।

एक उदाहरण के रूप में, एक ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। एक रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:

0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय

अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह शुरू में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है:

5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम

अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार एक अधिक पुरस्कृत रणनीति का खुलासा होता है।

एल्गोरिथम

क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।

बाद $\Delta t$ भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है $\gamma ^{\Delta t}$ , कहाँ $\gamma$ (छूट कारक) 0 और 1 के बीच एक संख्या है ( $0\leq \gamma \leq 1$ ) और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (एक अच्छी शुरुआत के मूल्य को दर्शाता है)। $\gamma$ हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है $\Delta t$ .

एल्गोरिथ्म, इसलिए, एक फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:

Q:S\times A\to \mathbb {R}

.

सीखना शुरू करने से पहले, $Q$ संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार $t$ एजेंट एक क्रिया का चयन करता है $a_{t}$ , एक इनाम देखता है $r_{t}$ , एक नई स्थिति में प्रवेश करता है $s_{t+1}$ (जो पिछली स्थिति दोनों पर निर्भर हो सकता है $s_{t}$ और चयनित क्रिया), और $Q$ यह अद्यतित है। एल्गोरिथ्म का मूल एक साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में एक बेलमैन समीकरण है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:^[3]

Q^{new}(s_{t},a_{t})\leftarrow (1-\underbrace {\alpha } _{\text{learning rate}})\cdot \underbrace {Q(s_{t},a_{t})} _{\text{current value}}+\underbrace {\alpha } _{\text{learning rate}}\cdot {\bigg (}\underbrace {\underbrace {r_{t}} _{\text{reward}}+\underbrace {\gamma } _{\text{discount factor}}\cdot \underbrace {\max _{a}Q(s_{t+1},a)} _{\text{estimate of optimal future value}}} _{\text{new value (temporal difference target)}}{\bigg )}

कहाँ $r_{t}$ राज्य से जाने पर मिलने वाला इनाम है $s_{t}$ राज्य को $s Subscript t plus 1$

[1]

[2]

[3]

Anonymous

Search

क्यू-लर्निंग

Namespaces

More

Page actions

Contents

सुदृढीकरण सीखना

एल्गोरिथम