क्यू-लर्निंग: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Model-free reinforcement learning algorithm}} {{Machine learning|Reinforcement learning}} ''क्यू''-लर्निंग एक मॉडल-...")
 
No edit summary
Line 2: Line 2:
{{Machine learning|Reinforcement learning}}
{{Machine learning|Reinforcement learning}}


''क्यू''-लर्निंग एक [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) ]] है | मॉडल-फ्री रीइन्फोर्समेंट लर्निंग एल्गोरिद्म किसी विशेष राज्य में किसी क्रिया के मूल्य को जानने के लिए। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।
''क्यू''-लर्निंग [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) ]] है | मॉडल-फ्री रीइन्फोर्समेंट लर्निंग एल्गोरिद्म किसी विशेष राज्य में किसी क्रिया के मूल्य को जानने के लिए। इसे पर्यावरण के मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।


किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (FMDP) के लिए, ''Q''-शिक्षण वर्तमान स्थिति से शुरू होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में एक इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग एक इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए FMDP के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" />क्यू फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम गणना करता है - किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कार।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref>
किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (FMDP) के लिए, ''Q''-शिक्षण वर्तमान स्थिति से शुरू होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए FMDP के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" />क्यू फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम गणना करता है - किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कार।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref>




== सुदृढीकरण सीखना ==
== सुदृढीकरण सीखना ==
{{Main|Reinforcement learning}}
{{Main|Reinforcement learning}}
सुदृढीकरण सीखने में एक [[बुद्धिमान एजेंट]], राज्यों का एक समूह शामिल होता है {{tmath|S}}, और एक सेट {{tmath|A}} प्रति राज्य कार्रवाइयों का। एक क्रिया करके <math>a \in A</math>, एजेंट राज्य से राज्य में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक इनाम (एक संख्यात्मक स्कोर) मिलता है।
सुदृढीकरण सीखने में [[बुद्धिमान एजेंट]], राज्यों का समूह शामिल होता है {{tmath|S}}, और सेट {{tmath|A}} प्रति राज्य कार्रवाइयों का। क्रिया करके <math>a \in A</math>, एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है।


एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से शुरू होने वाले सभी भविष्य के कदमों के पुरस्कारों के [[अपेक्षित मूल्य]]ों का भारित योग है।
एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से शुरू होने वाले सभी भविष्य के कदमों के पुरस्कारों के [[अपेक्षित मूल्य]]ों का भारित योग है।


एक उदाहरण के रूप में, एक ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। एक रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:
उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:


* 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय
* 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय
Line 21: Line 21:
* 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम
* 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम


अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार एक अधिक पुरस्कृत रणनीति का खुलासा होता है।
अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का खुलासा होता है।


== एल्गोरिथम ==
== एल्गोरिथम ==
[[File:Q-Learning Matrix Initialized and After Training.png|thumb|upright=2|क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।]]बाद <math>\Delta t</math> भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है <math>\gamma^{\Delta t}</math>, कहाँ <math>\gamma</math> (छूट कारक) 0 और 1 के बीच एक संख्या है (<math>0 \le \gamma \le 1</math>) और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (एक अच्छी शुरुआत के मूल्य को दर्शाता है)। <math> \gamma </math> हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है <math>\Delta t</math>.
[[File:Q-Learning Matrix Initialized and After Training.png|thumb|upright=2|क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।]]बाद <math>\Delta t</math> भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है <math>\gamma^{\Delta t}</math>, कहाँ <math>\gamma</math> (छूट कारक) 0 और 1 के बीच संख्या है (<math>0 \le \gamma \le 1</math>) और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (अच्छी शुरुआत के मूल्य को दर्शाता है)। <math> \gamma </math> हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है <math>\Delta t</math>.


एल्गोरिथ्म, इसलिए, एक फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:
एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:


:<math>Q: S \times A \to \mathbb{R}</math>.
:<math>Q: S \times A \to \mathbb{R}</math>.


सीखना शुरू करने से पहले, {{tmath|Q}} संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार <math>t</math> एजेंट एक क्रिया का चयन करता है <math>a_t</math>, एक इनाम देखता है <math>r_t</math>, एक नई स्थिति में प्रवेश करता है <math>s_{t+1}</math> (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> यह अद्यतित है। एल्गोरिथ्म का मूल एक साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में एक [[बेलमैन समीकरण]] है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref>
सीखना शुरू करने से पहले, {{tmath|Q}} संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार <math>t</math> एजेंट क्रिया का चयन करता है <math>a_t</math>, इनाम देखता है <math>r_t</math>, नई स्थिति में प्रवेश करता है <math>s_{t+1}</math> (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> यह अद्यतित है। एल्गोरिथ्म का मूल साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में [[बेलमैन समीकरण]] है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref>
:<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math>
:<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math>
कहाँ<math>r_{t}</math>राज्य से जाने पर मिलने वाला इनाम है <math>s_{t}</math> राज्य को <math>s_{t+1}</math>, और <math>\alpha</math> [[सीखने की दर]] है <math>(0 < \alpha \le 1)</math>.
कहाँ<math>r_{t}</math>राज्य से जाने पर मिलने वाला इनाम है <math>s_{t}</math> राज्य को <math>s_{t+1}</math>, और <math>\alpha</math> [[सीखने की दर]] है <math>(0 < \alpha \le 1)</math>.
Line 36: Line 36:
ध्यान दें कि <math>Q^{new}(s_t,a_t)</math> तीन कारकों का योग है:
ध्यान दें कि <math>Q^{new}(s_t,a_t)</math> तीन कारकों का योग है:


* <math>(1 - \alpha)Q(s_t,a_t)</math>: वर्तमान मूल्य (एक घटाकर सीखने की दर से भारित)
* <math>(1 - \alpha)Q(s_t,a_t)</math>: वर्तमान मूल्य (घटाकर सीखने की दर से भारित)
* <math>\alpha \, r_t</math>: पुरस्कार <math>r_t=r(s_t,a_t)</math> कार्रवाई प्राप्त करने के लिए <math>a_t</math> राज्य में होने पर लिया जाता है <math>s_t</math> (सीखने की दर से भारित)
* <math>\alpha \, r_t</math>: पुरस्कार <math>r_t=r(s_t,a_t)</math> कार्रवाई प्राप्त करने के लिए <math>a_t</math> राज्य में होने पर लिया जाता है <math>s_t</math> (सीखने की दर से भारित)
*<math>\alpha \gamma \max_{a}Q(s_{t+1},a)</math>: अधिकतम इनाम जो राज्य से प्राप्त किया जा सकता है <math>s_{t+1}</math>(सीखने की दर और छूट कारक द्वारा भारित)
*<math>\alpha \gamma \max_{a}Q(s_{t+1},a)</math>: अधिकतम इनाम जो राज्य से प्राप्त किया जा सकता है <math>s_{t+1}</math>(सीखने की दर और छूट कारक द्वारा भारित)


एल्गोरिथम का एक एपिसोड तब समाप्त होता है जब State <math>s_{t+1}</math> एक अंतिम या अंतिम स्थिति है। हालाँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि छूट कारक 1 से कम है, तो क्रिया मान परिमित हैं, भले ही समस्या में अनंत लूप हो सकते हैं।
एल्गोरिथम का एपिसोड तब समाप्त होता है जब State <math>s_{t+1}</math> अंतिम या अंतिम स्थिति है। हालाँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि छूट कारक 1 से कम है, तो क्रिया मान परिमित हैं, भले ही समस्या में अनंत लूप हो सकते हैं।


सभी अंतिम राज्यों के लिए <math>s_f</math>, <math>Q(s_f, a)</math> कभी भी अपडेट नहीं होता है, लेकिन इनाम मूल्य पर सेट होता है <math>r</math> राज्य के लिए मनाया <math>s_f</math>. अधिकतर परिस्थितियों में, <math>Q(s_f,a)</math> शून्य के बराबर ले जाया जा सकता है।
सभी अंतिम राज्यों के लिए <math>s_f</math>, <math>Q(s_f, a)</math> कभी भी अपडेट नहीं होता है, लेकिन इनाम मूल्य पर सेट होता है <math>r</math> राज्य के लिए मनाया <math>s_f</math>. अधिकतर परिस्थितियों में, <math>Q(s_f,a)</math> शून्य के बराबर ले जाया जा सकता है।
Line 47: Line 47:


=== सीखने की दर ===
=== सीखने की दर ===
सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का एक कारक एजेंट को कुछ भी नहीं सीखने देता (विशेष रूप से पूर्व ज्ञान का शोषण), जबकि 1 का एक कारक एजेंट को केवल सबसे हाल की जानकारी पर विचार करता है (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना)। पूरी तरह से [[नियतात्मक प्रणाली]] के वातावरण में, सीखने की दर <math>\alpha_t = 1</math> इष्टतम है। जब समस्या [[ स्टोकेस्टिक सिस्टम ]] की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के तहत सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अक्सर एक निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि <math>\alpha_t = 0.1</math> सभी के लिए <math>t</math>.<ref>{{Cite book |url=http://incompleteideas.net/sutton/book/ebook/the-book.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard |last2=Barto |first2=Andrew |date=1998 |publisher=MIT Press}}</ref>
सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का कारक एजेंट को कुछ भी नहीं सीखने देता (विशेष रूप से पूर्व ज्ञान का शोषण), जबकि 1 का कारक एजेंट को केवल सबसे हाल की जानकारी पर विचार करता है (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना)। पूरी तरह से [[नियतात्मक प्रणाली]] के वातावरण में, सीखने की दर <math>\alpha_t = 1</math> इष्टतम है। जब समस्या [[ स्टोकेस्टिक सिस्टम ]] की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के तहत सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अक्सर निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि <math>\alpha_t = 0.1</math> सभी के लिए <math>t</math>.<ref>{{Cite book |url=http://incompleteideas.net/sutton/book/ebook/the-book.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard |last2=Barto |first2=Andrew |date=1998 |publisher=MIT Press}}</ref>




=== डिस्काउंट कारक ===
=== डिस्काउंट कारक ===
छूट का कारक {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का एक कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए {{tmath|\gamma {{=}} 1}}, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी एक तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक ​​​​कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन [[कृत्रिम तंत्रिका नेटवर्क]] के साथ अनुमानित होता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम छूट कारक के साथ शुरू करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref>
छूट का कारक {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए {{tmath|\gamma {{=}} 1}}, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक ​​​​कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन [[कृत्रिम तंत्रिका नेटवर्क]] के साथ अनुमानित होता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम छूट कारक के साथ शुरू करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref>




=== प्रारंभिक शर्तें (क्यू<sub>0</sub>) ===
=== प्रारंभिक शर्तें (क्यू<sub>0</sub>) ===
चूंकि क्यू-लर्निंग एक पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले एक प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मूल्य, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है,<ref>{{Cite book |chapter-url=http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard S. |last2=Barto |first2=Andrew G. |archive-url=https://web.archive.org/web/20130908031737/http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |archive-date=2013-09-08 |url-status=dead |access-date=2013-07-18 |chapter=2.7 Optimistic Initial Values}}</ref> अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाएगी। पहला इनाम <math>r</math> प्रारंभिक स्थितियों को रीसेट करने के लिए इस्तेमाल किया जा सकता है।<ref name="hshteingart">{{Cite journal |last1=Shteingart |first1=Hanan |last2=Neiman |first2=Tal |last3=Loewenstein |first3=Yonatan |date=May 2013 |title=ऑपरेटिव लर्निंग में पहली छाप की भूमिका।|url=http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf |journal=Journal of Experimental Psychology: General |language=en |volume=142 |issue=2 |pages=476–488 |doi=10.1037/a0029550 |issn=1939-2222 |pmid=22924882}}</ref> इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो इनाम का मूल्य निर्धारित करने के लिए उपयोग किया जाता है <math>Q</math>. यह निश्चित नियतात्मक पुरस्कारों के मामले में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को शामिल करने वाला एक मॉडल किसी भी मनमानी प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की बेहतर भविष्यवाणी करने की उम्मीद करता है।<ref name="hshteingart" />आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।<ref name="hshteingart" />
चूंकि क्यू-लर्निंग पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मूल्य, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है,<ref>{{Cite book |chapter-url=http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard S. |last2=Barto |first2=Andrew G. |archive-url=https://web.archive.org/web/20130908031737/http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |archive-date=2013-09-08 |url-status=dead |access-date=2013-07-18 |chapter=2.7 Optimistic Initial Values}}</ref> अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाएगी। पहला इनाम <math>r</math> प्रारंभिक स्थितियों को रीसेट करने के लिए इस्तेमाल किया जा सकता है।<ref name="hshteingart">{{Cite journal |last1=Shteingart |first1=Hanan |last2=Neiman |first2=Tal |last3=Loewenstein |first3=Yonatan |date=May 2013 |title=ऑपरेटिव लर्निंग में पहली छाप की भूमिका।|url=http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf |journal=Journal of Experimental Psychology: General |language=en |volume=142 |issue=2 |pages=476–488 |doi=10.1037/a0029550 |issn=1939-2222 |pmid=22924882}}</ref> इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो इनाम का मूल्य निर्धारित करने के लिए उपयोग किया जाता है <math>Q</math>. यह निश्चित नियतात्मक पुरस्कारों के मामले में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को शामिल करने वाला मॉडल किसी भी मनमानी प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की बेहतर भविष्यवाणी करने की उम्मीद करता है।<ref name="hshteingart" />आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।<ref name="hshteingart" />




Line 64: Line 64:
क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।<ref>{{cite book|chapter-url={{google books |plainurl=y |id=YPjNuvrJR0MC|pp= 207-251}}|title=Reinforcement Learning: State-of-the-Art|editor-last1=Wiering|editor-first1=Marco|editor-last2=Otterlo|editor-first2=Martijn van|date=5 March 2012|publisher=Springer Science & Business Media |first=Hado van |last=Hasselt |chapter=Reinforcement Learning in Continuous State and Action Spaces |pages= 207–251 |isbn=978-3-642-27645-3}}</ref> यह एल्गोरिथ्म को बड़ी समस्याओं पर लागू करना संभव बनाता है, तब भी जब राज्य का स्थान निरंतर हो।
क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।<ref>{{cite book|chapter-url={{google books |plainurl=y |id=YPjNuvrJR0MC|pp= 207-251}}|title=Reinforcement Learning: State-of-the-Art|editor-last1=Wiering|editor-first1=Marco|editor-last2=Otterlo|editor-first2=Martijn van|date=5 March 2012|publisher=Springer Science & Business Media |first=Hado van |last=Hasselt |chapter=Reinforcement Learning in Continuous State and Action Spaces |pages= 207–251 |isbn=978-3-642-27645-3}}</ref> यह एल्गोरिथ्म को बड़ी समस्याओं पर लागू करना संभव बनाता है, तब भी जब राज्य का स्थान निरंतर हो।


एक समाधान एक (अनुकूलित) कृत्रिम तंत्रिका नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है।<ref name="CACM">{{cite journal|last=Tesauro|first=Gerald|date=March 1995|title=टेम्पोरल डिफरेंस लर्निंग और टीडी-गैमन|url=http://www.bkgm.com/articles/tesauro/tdl.html|journal=Communications of the ACM|volume=38|issue=3|pages=58–68|doi=10.1145/203330.203343|s2cid=8763243|access-date=2010-02-08}}</ref> एक और संभावना है कि [[फजी नियम]] इंटरपोलेशन (FRI) को एकीकृत किया जाए और विरल फ़ज़ी रूल | फ़ज़ी रूल-बेस का उपयोग किया जाए<ref>{{Cite journal |last=Vincze |first=David |date=2017 |title=फ़ज़ी रूल इंटरपोलेशन और रीइन्फोर्समेंट लर्निंग|url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |journal=IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> असतत क्यू-टेबल या एएनएन के बजाय, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे राज्यों के लिए पहले के अनुभवों को सामान्य कर सकता है।
समाधान (अनुकूलित) कृत्रिम तंत्रिका नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है।<ref name="CACM">{{cite journal|last=Tesauro|first=Gerald|date=March 1995|title=टेम्पोरल डिफरेंस लर्निंग और टीडी-गैमन|url=http://www.bkgm.com/articles/tesauro/tdl.html|journal=Communications of the ACM|volume=38|issue=3|pages=58–68|doi=10.1145/203330.203343|s2cid=8763243|access-date=2010-02-08}}</ref> और संभावना है कि [[फजी नियम]] इंटरपोलेशन (FRI) को एकीकृत किया जाए और विरल फ़ज़ी रूल | फ़ज़ी रूल-बेस का उपयोग किया जाए<ref>{{Cite journal |last=Vincze |first=David |date=2017 |title=फ़ज़ी रूल इंटरपोलेशन और रीइन्फोर्समेंट लर्निंग|url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |journal=IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> असतत क्यू-टेबल या एएनएन के बजाय, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे राज्यों के लिए पहले के अनुभवों को सामान्य कर सकता है।


=== परिमाणीकरण ===
=== परिमाणीकरण ===
स्थिति/कार्रवाई स्थान को कम करने के लिए एक अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। एक निश्चित समय पर एक राज्य का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का [[कोणीय वेग]] शामिल होता है। यह एक चार-तत्व वेक्टर उत्पन्न करता है जो एक राज्य का वर्णन करता है, यानी एक राज्य का एक स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ मौजूद हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए एक बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी शुरुआती स्थिति (-इन्फिनिटी टू इनफिनिटी) से उंगली की सटीक दूरी ज्ञात नहीं है, बल्कि यह दूर है या नहीं (निकट, दूर)।<ref>{{cite journal |last1=Krishnan |first1=Srivatsan |last2=Lam |first2=Maximilian |last3=Chitlangia |first3=Sharad |last4=Wan |first4=Zishen |last5=Barth-Maron |first5=Gabriel |last6=Faust |first6=Aleksandra |last7=Reddi |first7=Vijay Janapa |title=QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning |journal=arXiv:1910.01055 [cs] |date=13 November 2022 |url=https://arxiv.org/abs/1910.01055 |access-date=11 April 2023}}</ref>
स्थिति/कार्रवाई स्थान को कम करने के लिए अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। निश्चित समय पर राज्य का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का [[कोणीय वेग]] शामिल होता है। यह चार-तत्व वेक्टर उत्पन्न करता है जो राज्य का वर्णन करता है, यानी राज्य का स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ मौजूद हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी शुरुआती स्थिति (-इन्फिनिटी टू इनफिनिटी) से उंगली की सटीक दूरी ज्ञात नहीं है, बल्कि यह दूर है या नहीं (निकट, दूर)।<ref>{{cite journal |last1=Krishnan |first1=Srivatsan |last2=Lam |first2=Maximilian |last3=Chitlangia |first3=Sharad |last4=Wan |first4=Zishen |last5=Barth-Maron |first5=Gabriel |last6=Faust |first6=Aleksandra |last7=Reddi |first7=Vijay Janapa |title=QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning |journal=arXiv:1910.01055 [cs] |date=13 November 2022 |url=https://arxiv.org/abs/1910.01055 |access-date=11 April 2023}}</ref>




== इतिहास ==
== इतिहास ==
क्यू-लर्निंग की शुरुआत 1989 में [[क्रिस वाटकिंस]] ने की थी।<ref>{{cite thesis|type=Ph.D. thesis|last=Watkins|first=C.J.C.H.|year=1989|title=विलंबित पुरस्कारों से सीखना|publisher=[[University of Cambridge]]|url=http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf|id={{EThOS|uk.bl.ethos.330022}}}}</ref> 1992 में वाटकिंस और [[पीटर दयान]] द्वारा अभिसरण प्रमाण प्रस्तुत किया गया था।<ref>{{cite journal |last1=Watkins |first1=Chris |last2=Dayan |first2=Peter |year=1992 |title=क्यू-लर्निंग|journal=Machine Learning |volume=8 |issue= 3–4|pages=279–292 |doi=10.1007/BF00992698 |doi-access=free }}</ref>
क्यू-लर्निंग की शुरुआत 1989 में [[क्रिस वाटकिंस]] ने की थी।<ref>{{cite thesis|type=Ph.D. thesis|last=Watkins|first=C.J.C.H.|year=1989|title=विलंबित पुरस्कारों से सीखना|publisher=[[University of Cambridge]]|url=http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf|id={{EThOS|uk.bl.ethos.330022}}}}</ref> 1992 में वाटकिंस और [[पीटर दयान]] द्वारा अभिसरण प्रमाण प्रस्तुत किया गया था।<ref>{{cite journal |last1=Watkins |first1=Chris |last2=Dayan |first2=Peter |year=1992 |title=क्यू-लर्निंग|journal=Machine Learning |volume=8 |issue= 3–4|pages=279–292 |doi=10.1007/BF00992698 |doi-access=free }}</ref>
वॉटकिंस अपनी पीएचडी थीसिस के शीर्षक "लर्निंग फ्रॉम डिलेड रिवार्ड्स" को संबोधित कर रहे थे। आठ साल पहले 1981 में "विलंबित सुदृढीकरण सीखने" के नाम से एक ही समस्या को बोज़िनोव्स्की के क्रॉसबार एडेप्टिव एरे (सीएए) द्वारा हल किया गया था।<ref name="DobnikarSteele1999">{{cite book|editor-last1=Dobnikar|editor-first1=Andrej|editor-last2=Steele|editor-first2=Nigel C.|editor-last3=Pearson|editor-first3=David W.|editor-first4=Rudolf F. |editor-last4=Albrecht|title=Artificial Neural Nets and Genetic Algorithms: Proceedings of the International Conference in Portorož, Slovenia, 1999|chapter-url={{google books |plainurl=y |id=clKwynlfZYkC|page=320-325}}|date=15 July 1999|publisher=Springer Science & Business Media|isbn=978-3-211-83364-3 |first=S. |last=Bozinovski |chapter=Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem|pages=320–325}}</ref><ref name="Trappl1982">{{cite book|editor-last=Trappl|editor-first=Robert|title=Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research|chapter-url={{google books |plainurl=y |id=mGtQAAAAMAAJ|page=397}}|year=1982|publisher=North Holland|isbn=978-0-444-86488-8|first=S. |last=Bozinovski |chapter=A self learning system using secondary reinforcement|pages=397–402}}</ref> मेमोरी मैट्रिक्स <math>W = \|w(a,s)\|</math> क्यू-लर्निंग के आठ साल बाद क्यू-टेबल के समान था। वास्तुकला ने सुदृढीकरण सीखने में "राज्य मूल्यांकन" शब्द पेश किया। पेपर में गणितीय [[स्यूडोकोड]] में लिखा गया क्रॉसबार लर्निंग एल्गोरिथम, प्रत्येक पुनरावृत्ति में निम्नलिखित संगणना करता है:
वॉटकिंस अपनी पीएचडी थीसिस के शीर्षक "लर्निंग फ्रॉम डिलेड रिवार्ड्स" को संबोधित कर रहे थे। आठ साल पहले 1981 में "विलंबित सुदृढीकरण सीखने" के नाम से ही समस्या को बोज़िनोव्स्की के क्रॉसबार एडेप्टिव एरे (सीएए) द्वारा हल किया गया था।<ref name="DobnikarSteele1999">{{cite book|editor-last1=Dobnikar|editor-first1=Andrej|editor-last2=Steele|editor-first2=Nigel C.|editor-last3=Pearson|editor-first3=David W.|editor-first4=Rudolf F. |editor-last4=Albrecht|title=Artificial Neural Nets and Genetic Algorithms: Proceedings of the International Conference in Portorož, Slovenia, 1999|chapter-url={{google books |plainurl=y |id=clKwynlfZYkC|page=320-325}}|date=15 July 1999|publisher=Springer Science & Business Media|isbn=978-3-211-83364-3 |first=S. |last=Bozinovski |chapter=Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem|pages=320–325}}</ref><ref name="Trappl1982">{{cite book|editor-last=Trappl|editor-first=Robert|title=Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research|chapter-url={{google books |plainurl=y |id=mGtQAAAAMAAJ|page=397}}|year=1982|publisher=North Holland|isbn=978-0-444-86488-8|first=S. |last=Bozinovski |chapter=A self learning system using secondary reinforcement|pages=397–402}}</ref> मेमोरी मैट्रिक्स <math>W = \|w(a,s)\|</math> क्यू-लर्निंग के आठ साल बाद क्यू-टेबल के समान था। वास्तुकला ने सुदृढीकरण सीखने में "राज्य मूल्यांकन" शब्द पेश किया। पेपर में गणितीय [[स्यूडोकोड]] में लिखा गया क्रॉसबार लर्निंग एल्गोरिथम, प्रत्येक पुनरावृत्ति में निम्नलिखित संगणना करता है:


* राज्य में {{mvar|s}} काम करना {{mvar|a}};
* राज्य में {{mvar|s}} काम करना {{mvar|a}};
Line 80: Line 80:


"द्वितीयक सुदृढीकरण" शब्द को पशु सीखने के सिद्धांत से उधार लिया गया है, [[backpropagation]] के माध्यम से राज्य के मूल्यों को मॉडल करने के लिए: राज्य मूल्य {{tmath|v(s')}परिणाम की स्थिति का } पहले से सामना की गई स्थितियों के लिए वापस प्रचारित किया गया है। CAA राज्य मूल्यों की लंबवत और क्रियाओं की क्षैतिज रूप से गणना करता है (क्रॉसबार)। विलंबित सुदृढीकरण सीखने वाले प्रदर्शन ग्राफ में राज्यों (वांछनीय, अवांछनीय और तटस्थ राज्यों) को दिखाया गया है, जिनकी गणना राज्य मूल्यांकन समारोह द्वारा की गई थी। यह लर्निंग सिस्टम क्यू-लर्निंग एल्गोरिथम का अग्रदूत था।<ref name="OmidvarElliott1997">{{cite book|editor-last1=Omidvar|editor-first1=Omid|editor-last2=Elliott|editor-first2=David L.|title=नियंत्रण के लिए तंत्रिका तंत्र|chapter-url={{google books |plainurl=y |id=oLcAiySCow0C}}|date=24 February 1997|publisher=Elsevier|isbn=978-0-08-053739-9|first=A. |last=Barto |chapter=Reinforcement learning}}</ref>
"द्वितीयक सुदृढीकरण" शब्द को पशु सीखने के सिद्धांत से उधार लिया गया है, [[backpropagation]] के माध्यम से राज्य के मूल्यों को मॉडल करने के लिए: राज्य मूल्य {{tmath|v(s')}परिणाम की स्थिति का } पहले से सामना की गई स्थितियों के लिए वापस प्रचारित किया गया है। CAA राज्य मूल्यों की लंबवत और क्रियाओं की क्षैतिज रूप से गणना करता है (क्रॉसबार)। विलंबित सुदृढीकरण सीखने वाले प्रदर्शन ग्राफ में राज्यों (वांछनीय, अवांछनीय और तटस्थ राज्यों) को दिखाया गया है, जिनकी गणना राज्य मूल्यांकन समारोह द्वारा की गई थी। यह लर्निंग सिस्टम क्यू-लर्निंग एल्गोरिथम का अग्रदूत था।<ref name="OmidvarElliott1997">{{cite book|editor-last1=Omidvar|editor-first1=Omid|editor-last2=Elliott|editor-first2=David L.|title=नियंत्रण के लिए तंत्रिका तंत्र|chapter-url={{google books |plainurl=y |id=oLcAiySCow0C}}|date=24 February 1997|publisher=Elsevier|isbn=978-0-08-053739-9|first=A. |last=Barto |chapter=Reinforcement learning}}</ref>
2014 में, [[Google DeepMind]] ने पेटेंट कराया<ref>{{cite web|url=https://patentimages.storage.googleapis.com/71/91/4a/c5cf4ffa56f705/US20150100530A1.pdf|title=Methods and Apparatus for Reinforcement Learning, US Patent #20150100530A1|publisher=US Patent Office|date=9 April 2015|access-date=28 July 2018}}</ref> गहरी शिक्षा के लिए क्यू-लर्निंग का एक अनुप्रयोग, जिसका शीर्षक डीप रीइन्फोर्समेंट लर्निंग या [[ध्यान लगा के पढ़ना या सीखना]] है, जो विशेषज्ञ मानव स्तरों पर [[अटारी 2600]] गेम खेल सकता है।
2014 में, [[Google DeepMind]] ने पेटेंट कराया<ref>{{cite web|url=https://patentimages.storage.googleapis.com/71/91/4a/c5cf4ffa56f705/US20150100530A1.pdf|title=Methods and Apparatus for Reinforcement Learning, US Patent #20150100530A1|publisher=US Patent Office|date=9 April 2015|access-date=28 July 2018}}</ref> गहरी शिक्षा के लिए क्यू-लर्निंग का अनुप्रयोग, जिसका शीर्षक डीप रीइन्फोर्समेंट लर्निंग या [[ध्यान लगा के पढ़ना या सीखना]] है, जो विशेषज्ञ मानव स्तरों पर [[अटारी 2600]] गेम खेल सकता है।


== वेरिएंट ==
== वेरिएंट ==


=== दीप क्यू-लर्निंग ===
=== दीप क्यू-लर्निंग ===
डीपमाइंड सिस्टम ने ग्रहणशील क्षेत्रों के प्रभावों की नकल करने के लिए टाइल वाले [[कनवल्शन]]ल फिल्टर की परतों के साथ एक गहरे [[दृढ़ तंत्रिका नेटवर्क]] का उपयोग किया। सुदृढीकरण सीखना अस्थिर या भिन्न होता है जब क्यू का प्रतिनिधित्व करने के लिए एक गैर-रैखिक फ़ंक्शन सन्निकटन जैसे तंत्रिका नेटवर्क का उपयोग किया जाता है। यह अस्थिरता टिप्पणियों के अनुक्रम में मौजूद सहसंबंधों से आती है, तथ्य यह है कि क्यू के छोटे अद्यतन एजेंट की नीति को महत्वपूर्ण रूप से बदल सकते हैं और डेटा वितरण, और क्यू और लक्ष्य मूल्यों के बीच संबंध। विधि का उपयोग विभिन्न डोमेन और अनुप्रयोगों में स्टोकेस्टिक खोज के लिए किया जा सकता है।<ref name="MBK">{{Cite journal |author1 = Matzliach B. |author2 = Ben-Gal I. |author3 = Kagan E. |title = डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना| journal=Entropy | year=2022 | volume=24 | issue=8 | page=1168 |url =  http://www.eng.tau.ac.il/~bengal/DeepQ_MBK_2023.pdf | doi=10.3390/e24081168 | pmid=36010832 | pmc=9407070 | bibcode=2022Entrp..24.1168M | doi-access=free }}</ref>
डीपमाइंड सिस्टम ने ग्रहणशील क्षेत्रों के प्रभावों की नकल करने के लिए टाइल वाले [[कनवल्शन]]ल फिल्टर की परतों के साथ गहरे [[दृढ़ तंत्रिका नेटवर्क]] का उपयोग किया। सुदृढीकरण सीखना अस्थिर या भिन्न होता है जब क्यू का प्रतिनिधित्व करने के लिए गैर-रैखिक फ़ंक्शन सन्निकटन जैसे तंत्रिका नेटवर्क का उपयोग किया जाता है। यह अस्थिरता टिप्पणियों के अनुक्रम में मौजूद सहसंबंधों से आती है, तथ्य यह है कि क्यू के छोटे अद्यतन एजेंट की नीति को महत्वपूर्ण रूप से बदल सकते हैं और डेटा वितरण, और क्यू और लक्ष्य मूल्यों के बीच संबंध। विधि का उपयोग विभिन्न डोमेन और अनुप्रयोगों में स्टोकेस्टिक खोज के लिए किया जा सकता है।<ref name="MBK">{{Cite journal |author1 = Matzliach B. |author2 = Ben-Gal I. |author3 = Kagan E. |title = डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना| journal=Entropy | year=2022 | volume=24 | issue=8 | page=1168 |url =  http://www.eng.tau.ac.il/~bengal/DeepQ_MBK_2023.pdf | doi=10.3390/e24081168 | pmid=36010832 | pmc=9407070 | bibcode=2022Entrp..24.1168M | doi-access=free }}</ref>
तकनीक ने अनुभव रीप्ले का उपयोग किया, एक जैविक रूप से प्रेरित तंत्र जो आगे बढ़ने के लिए सबसे हाल की कार्रवाई के बजाय पूर्व क्रियाओं के यादृच्छिक नमूने का उपयोग करता है।<ref name=":0" />यह अवलोकन अनुक्रम में सहसंबंधों को हटा देता है और डेटा वितरण में परिवर्तन को सुगम बनाता है। पुनरावर्ती अद्यतन Q को लक्ष्य मानों की ओर समायोजित करते हैं जो केवल समय-समय पर अद्यतन किए जाते हैं, लक्ष्य के साथ सहसंबंधों को और कम करते हैं।<ref name="DQN">{{Cite journal |last1=Mnih |first1=Volodymyr |last2=Kavukcuoglu |first2=Koray |last3=Silver |first3=David |last4=Rusu |first4=Andrei A. |last5=Veness |first5=Joel |last6=Bellemare |first6=Marc G. |last7=Graves |first7=Alex |last8=Riedmiller |first8=Martin |last9=Fidjeland |first9=Andreas K. |date=Feb 2015 |title=गहन सुदृढीकरण सीखने के माध्यम से मानव-स्तर पर नियंत्रण|journal=Nature |language=en |volume=518 |issue=7540 |pages=529–533 |doi=10.1038/nature14236 |pmid=25719670 |bibcode=2015Natur.518..529M |s2cid=205242740 |issn=0028-0836}}</ref>
तकनीक ने अनुभव रीप्ले का उपयोग किया, जैविक रूप से प्रेरित तंत्र जो आगे बढ़ने के लिए सबसे हाल की कार्रवाई के बजाय पूर्व क्रियाओं के यादृच्छिक नमूने का उपयोग करता है।<ref name=":0" />यह अवलोकन अनुक्रम में सहसंबंधों को हटा देता है और डेटा वितरण में परिवर्तन को सुगम बनाता है। पुनरावर्ती अद्यतन Q को लक्ष्य मानों की ओर समायोजित करते हैं जो केवल समय-समय पर अद्यतन किए जाते हैं, लक्ष्य के साथ सहसंबंधों को और कम करते हैं।<ref name="DQN">{{Cite journal |last1=Mnih |first1=Volodymyr |last2=Kavukcuoglu |first2=Koray |last3=Silver |first3=David |last4=Rusu |first4=Andrei A. |last5=Veness |first5=Joel |last6=Bellemare |first6=Marc G. |last7=Graves |first7=Alex |last8=Riedmiller |first8=Martin |last9=Fidjeland |first9=Andreas K. |date=Feb 2015 |title=गहन सुदृढीकरण सीखने के माध्यम से मानव-स्तर पर नियंत्रण|journal=Nature |language=en |volume=518 |issue=7540 |pages=529–533 |doi=10.1038/nature14236 |pmid=25719670 |bibcode=2015Natur.518..529M |s2cid=205242740 |issn=0028-0836}}</ref>




=== डबल क्यू-लर्निंग ===
=== डबल क्यू-लर्निंग ===
क्योंकि क्यू-लर्निंग में भविष्य के अधिकतम अनुमानित एक्शन वैल्यू का मूल्यांकन उसी क्यू फ़ंक्शन का उपयोग करके किया जाता है जैसा कि वर्तमान एक्शन सिलेक्शन पॉलिसी में होता है, शोरगुल वाले वातावरण में क्यू-लर्निंग कभी-कभी एक्शन वैल्यू को कम कर सकता है, सीखने को धीमा कर सकता है। इसे ठीक करने के लिए डबल क्यू-लर्निंग नामक एक संस्करण प्रस्तावित किया गया था। डबल क्यू-लर्निंग<ref>{{Cite journal |last=van Hasselt |first=Hado |year=2011 |title=डबल क्यू-लर्निंग|url=http://papers.nips.cc/paper/3964-double-q-learning |format=PDF |journal=Advances in Neural Information Processing Systems |volume=23 |pages=2613–2622}}</ref> एक [[ऑफ नीति]] रीइन्फोर्समेंट लर्निंग एल्गोरिथम है, जहां मूल्य मूल्यांकन के लिए एक अलग नीति का उपयोग किया जाता है, जो अगली कार्रवाई का चयन करने के लिए उपयोग की जाती है।
क्योंकि क्यू-लर्निंग में भविष्य के अधिकतम अनुमानित एक्शन वैल्यू का मूल्यांकन उसी क्यू फ़ंक्शन का उपयोग करके किया जाता है जैसा कि वर्तमान एक्शन सिलेक्शन पॉलिसी में होता है, शोरगुल वाले वातावरण में क्यू-लर्निंग कभी-कभी एक्शन वैल्यू को कम कर सकता है, सीखने को धीमा कर सकता है। इसे ठीक करने के लिए डबल क्यू-लर्निंग नामक संस्करण प्रस्तावित किया गया था। डबल क्यू-लर्निंग<ref>{{Cite journal |last=van Hasselt |first=Hado |year=2011 |title=डबल क्यू-लर्निंग|url=http://papers.nips.cc/paper/3964-double-q-learning |format=PDF |journal=Advances in Neural Information Processing Systems |volume=23 |pages=2613–2622}}</ref> [[ऑफ नीति]] रीइन्फोर्समेंट लर्निंग एल्गोरिथम है, जहां मूल्य मूल्यांकन के लिए अलग नीति का उपयोग किया जाता है, जो अगली कार्रवाई का चयन करने के लिए उपयोग की जाती है।


व्यवहार में, दो अलग-अलग मूल्य कार्य  <math>Q^A</math> और <math>Q^B</math> अलग-अलग अनुभवों का उपयोग करके परस्पर सममित तरीके से प्रशिक्षित किया जाता है। डबल क्यू-लर्निंग अपडेट चरण इस प्रकार है:
व्यवहार में, दो अलग-अलग मूल्य कार्य  <math>Q^A</math> और <math>Q^B</math> अलग-अलग अनुभवों का उपयोग करके परस्पर सममित तरीके से प्रशिक्षित किया जाता है। डबल क्यू-लर्निंग अपडेट चरण इस प्रकार है:
:<math>Q^A_{t+1}(s_{t}, a_{t}) = Q^A_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^B_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^A_t(s_{t+1}, a)\right) - Q^A_{t}(s_{t}, a_{t})\right)</math>, और
:<math>Q^A_{t+1}(s_{t}, a_{t}) = Q^A_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^B_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^A_t(s_{t+1}, a)\right) - Q^A_{t}(s_{t}, a_{t})\right)</math>, और
:<math>Q^B_{t+1}(s_{t}, a_{t}) = Q^B_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^A_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^B_t(s_{t+1}, a)\right) - Q^B_{t}(s_{t}, a_{t})\right).</math>
:<math>Q^B_{t+1}(s_{t}, a_{t}) = Q^B_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^A_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^B_t(s_{t+1}, a)\right) - Q^B_{t}(s_{t}, a_{t})\right).</math>
अब रियायती भविष्य के अनुमानित मूल्य का मूल्यांकन एक अलग नीति का उपयोग करके किया जाता है, जो अतिरेक के मुद्दे को हल करता है।
अब रियायती भविष्य के अनुमानित मूल्य का मूल्यांकन अलग नीति का उपयोग करके किया जाता है, जो अतिरेक के मुद्दे को हल करता है।


इस एल्गोरिथम को बाद में 2015 में संशोधित किया गया और इसे डीप लर्निंग के साथ जोड़ा गया,<ref>{{cite journal |last1=van Hasselt |first1=Hado |last2=Guez |first2=Arthur |last3=Silver |first3=David |title=डबल क्यू-लर्निंग के साथ डीप रीइंफोर्समेंट लर्निंग|journal=arXiv:1509.06461 [cs] |date=8 December 2015 |url=https://arxiv.org/abs/1509.06461 |access-date=11 April 2023}}</ref> जैसा कि DQN एल्गोरिथम में होता है, जिसके परिणामस्वरूप डबल DQN होता है, जो मूल DQN एल्गोरिथम से बेहतर प्रदर्शन करता है।<ref>{{Cite journal |last1=van Hasselt |first1=Hado |last2=Guez |first2=Arthur |last3=Silver |first3=David |date=2015 |title=डबल क्यू-लर्निंग के साथ डीप रीइन्फोर्समेंट लर्निंग|url=https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847 |format=PDF |journal=AAAI Conference on Artificial Intelligence |pages=2094–2100|arxiv=1509.06461 }}</ref>
इस एल्गोरिथम को बाद में 2015 में संशोधित किया गया और इसे डीप लर्निंग के साथ जोड़ा गया,<ref>{{cite journal |last1=van Hasselt |first1=Hado |last2=Guez |first2=Arthur |last3=Silver |first3=David |title=डबल क्यू-लर्निंग के साथ डीप रीइंफोर्समेंट लर्निंग|journal=arXiv:1509.06461 [cs] |date=8 December 2015 |url=https://arxiv.org/abs/1509.06461 |access-date=11 April 2023}}</ref> जैसा कि DQN एल्गोरिथम में होता है, जिसके परिणामस्वरूप डबल DQN होता है, जो मूल DQN एल्गोरिथम से बेहतर प्रदर्शन करता है।<ref>{{Cite journal |last1=van Hasselt |first1=Hado |last2=Guez |first2=Arthur |last3=Silver |first3=David |date=2015 |title=डबल क्यू-लर्निंग के साथ डीप रीइन्फोर्समेंट लर्निंग|url=https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847 |format=PDF |journal=AAAI Conference on Artificial Intelligence |pages=2094–2100|arxiv=1509.06461 }}</ref>
Line 101: Line 101:


=== अन्य ===
=== अन्य ===
विलंबित क्यू-लर्निंग ऑनलाइन क्यू-लर्निंग एल्गोरिदम का एक वैकल्पिक कार्यान्वयन है, संभवतः लगभग सही लर्निंग|शायद लगभग सही (पीएसी) लर्निंग के साथ।<ref>{{Cite journal |last1=Strehl |first1=Alexander L. |last2=Li |first2=Lihong |last3=Wiewiora |first3=Eric |last4=Langford |first4=John |last5=Littman |first5=Michael L. |year=2006 |title=पीएसी मॉडल-मुक्त सुदृढीकरण सीखना|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/published-14.pdf |journal=Proc. 22nd ICML |pages=881–888}}</ref>
विलंबित क्यू-लर्निंग ऑनलाइन क्यू-लर्निंग एल्गोरिदम का वैकल्पिक कार्यान्वयन है, संभवतः लगभग सही लर्निंग|शायद लगभग सही (पीएसी) लर्निंग के साथ।<ref>{{Cite journal |last1=Strehl |first1=Alexander L. |last2=Li |first2=Lihong |last3=Wiewiora |first3=Eric |last4=Langford |first4=John |last5=Littman |first5=Michael L. |year=2006 |title=पीएसी मॉडल-मुक्त सुदृढीकरण सीखना|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/published-14.pdf |journal=Proc. 22nd ICML |pages=881–888}}</ref>
लालची जीक्यू क्यू-लर्निंग का एक प्रकार है (रैखिक) फ़ंक्शन सन्निकटन के संयोजन में उपयोग करने के लिए।<ref>{{cite web |first1=Hamid |last1=Maei |first2=Csaba |last2=Szepesvári |first3=Shalabh |last3=Bhatnagar |first4=Richard |last4=Sutton |url=https://webdocs.cs.ualberta.ca/~sutton/papers/MSBS-10.pdf |title=Toward off-policy learning control with function approximation in Proceedings of the 27th International Conference on Machine Learning |pages=719–726 |year=2010 |access-date=2016-01-25 |archive-url=https://web.archive.org/web/20120908050052/http://webdocs.cs.ualberta.ca/~sutton/papers/MSBS-10.pdf |archive-date=2012-09-08 |url-status=dead }}</ref> लालची जीक्यू का लाभ यह है कि क्रिया मूल्यों का अनुमान लगाने के लिए फ़ंक्शन सन्निकटन का उपयोग किए जाने पर भी अभिसरण की गारंटी दी जाती है।
लालची जीक्यू क्यू-लर्निंग का प्रकार है (रैखिक) फ़ंक्शन सन्निकटन के संयोजन में उपयोग करने के लिए।<ref>{{cite web |first1=Hamid |last1=Maei |first2=Csaba |last2=Szepesvári |first3=Shalabh |last3=Bhatnagar |first4=Richard |last4=Sutton |url=https://webdocs.cs.ualberta.ca/~sutton/papers/MSBS-10.pdf |title=Toward off-policy learning control with function approximation in Proceedings of the 27th International Conference on Machine Learning |pages=719–726 |year=2010 |access-date=2016-01-25 |archive-url=https://web.archive.org/web/20120908050052/http://webdocs.cs.ualberta.ca/~sutton/papers/MSBS-10.pdf |archive-date=2012-09-08 |url-status=dead }}</ref> लालची जीक्यू का लाभ यह है कि क्रिया मूल्यों का अनुमान लगाने के लिए फ़ंक्शन सन्निकटन का उपयोग किए जाने पर भी अभिसरण की गारंटी दी जाती है।


डिस्ट्रीब्यूशनल क्यू-लर्निंग क्यू-लर्निंग का एक प्रकार है जो प्रत्येक क्रिया के अपेक्षित रिटर्न के बजाय रिटर्न के वितरण का मॉडल बनाना चाहता है। यह गहरे तंत्रिका नेटवर्क द्वारा अनुमान लगाने की सुविधा के लिए देखा गया है और जोखिम-संवेदनशील नियंत्रण जैसे वैकल्पिक नियंत्रण विधियों को सक्षम कर सकता है।<ref>{{cite journal |last1=Hessel |first1=Matteo |last2=Modayil |first2=Joseph |last3=van Hasselt |first3=Hado |last4=Schaul |first4=Tom |last5=Ostrovski |first5=Georg |last6=Dabney |first6=Will |last7=Horgan |first7=Dan |last8=Piot |first8=Bilal |last9=Azar |first9=Mohammad |last10=Silver |first10=David |title=Rainbow: Combining Improvements in Deep Reinforcement Learning |journal=AAAI Conference on Artificial Intelligence |date=February 2018 |volume=32 |doi=10.1609/aaai.v32i1.11796 |arxiv=1710.02298 |s2cid=19135734 }}</ref>
डिस्ट्रीब्यूशनल क्यू-लर्निंग क्यू-लर्निंग का प्रकार है जो प्रत्येक क्रिया के अपेक्षित रिटर्न के बजाय रिटर्न के वितरण का मॉडल बनाना चाहता है। यह गहरे तंत्रिका नेटवर्क द्वारा अनुमान लगाने की सुविधा के लिए देखा गया है और जोखिम-संवेदनशील नियंत्रण जैसे वैकल्पिक नियंत्रण विधियों को सक्षम कर सकता है।<ref>{{cite journal |last1=Hessel |first1=Matteo |last2=Modayil |first2=Joseph |last3=van Hasselt |first3=Hado |last4=Schaul |first4=Tom |last5=Ostrovski |first5=Georg |last6=Dabney |first6=Will |last7=Horgan |first7=Dan |last8=Piot |first8=Bilal |last9=Azar |first9=Mohammad |last10=Silver |first10=David |title=Rainbow: Combining Improvements in Deep Reinforcement Learning |journal=AAAI Conference on Artificial Intelligence |date=February 2018 |volume=32 |doi=10.1609/aaai.v32i1.11796 |arxiv=1710.02298 |s2cid=19135734 }}</ref>




=== मल्टी-एजेंट लर्निंग ===
=== मल्टी-एजेंट लर्निंग ===
क्यू-लर्निंग को मल्टी-एजेंट सेटिंग में प्रस्तावित किया गया है (अनुभाग 4.1.2 देखें)। <ref>{{cite journal |last1=Shoham |first1=Yoav |last2=Powers |first2=Rob |last3=Grenager |first3=Trond |title=If multi-agent learning is the answer, what is the question? |journal=Artificial Intelligence |date=1 May 2007 |volume=171 |issue=7 |pages=365–377 |doi=10.1016/j.artint.2006.02.006 |url=https://dl.acm.org/doi/10.1016/j.artint.2006.02.006 |access-date=4 April 2023 |issn=0004-3702}}</ref>). एक तरीका यह है कि वातावरण निष्क्रिय है।<ref>{{cite journal |last1=Sen |first1=Sandip |last2=Sekaran |first2=Mahendra |last3=Hale |first3=John |title=जानकारी साझा किए बिना समन्वय करना सीखना|journal=Proceedings of the Twelfth AAAI National Conference on Artificial Intelligence |date=1 August 1994 |pages=426–431 |url=https://dl.acm.org/doi/10.5555/2891730.2891796 |access-date=4 April 2023 |publisher=AAAI Press}}</ref> लिटमैन मिनिमैक्स क्यू लर्निंग एल्गोरिथम प्रस्तावित करता है।<ref>{{cite journal |last1=Littman |first1=Michael L. |title=मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग के लिए एक फ्रेमवर्क के रूप में मार्कोव गेम्स|journal=Proceedings of the Eleventh International Conference on International Conference on Machine Learning |date=10 July 1994 |pages=157–163 |url=https://dl.acm.org/doi/10.5555/3091574.3091594 |access-date=4 April 2023 |publisher=Morgan Kaufmann Publishers Inc.}}</ref>
क्यू-लर्निंग को मल्टी-एजेंट सेटिंग में प्रस्तावित किया गया है (अनुभाग 4.1.2 देखें)। <ref>{{cite journal |last1=Shoham |first1=Yoav |last2=Powers |first2=Rob |last3=Grenager |first3=Trond |title=If multi-agent learning is the answer, what is the question? |journal=Artificial Intelligence |date=1 May 2007 |volume=171 |issue=7 |pages=365–377 |doi=10.1016/j.artint.2006.02.006 |url=https://dl.acm.org/doi/10.1016/j.artint.2006.02.006 |access-date=4 April 2023 |issn=0004-3702}}</ref>). तरीका यह है कि वातावरण निष्क्रिय है।<ref>{{cite journal |last1=Sen |first1=Sandip |last2=Sekaran |first2=Mahendra |last3=Hale |first3=John |title=जानकारी साझा किए बिना समन्वय करना सीखना|journal=Proceedings of the Twelfth AAAI National Conference on Artificial Intelligence |date=1 August 1994 |pages=426–431 |url=https://dl.acm.org/doi/10.5555/2891730.2891796 |access-date=4 April 2023 |publisher=AAAI Press}}</ref> लिटमैन मिनिमैक्स क्यू लर्निंग एल्गोरिथम प्रस्तावित करता है।<ref>{{cite journal |last1=Littman |first1=Michael L. |title=मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग के लिए एक फ्रेमवर्क के रूप में मार्कोव गेम्स|journal=Proceedings of the Eleventh International Conference on International Conference on Machine Learning |date=10 July 1994 |pages=157–163 |url=https://dl.acm.org/doi/10.5555/3091574.3091594 |access-date=4 April 2023 |publisher=Morgan Kaufmann Publishers Inc.}}</ref>





Revision as of 20:02, 30 May 2023

क्यू-लर्निंग मॉडल-मुक्त (सुदृढ़ीकरण सीखना) है | मॉडल-फ्री रीइन्फोर्समेंट लर्निंग एल्गोरिद्म किसी विशेष राज्य में किसी क्रिया के मूल्य को जानने के लिए। इसे पर्यावरण के मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।

किसी भी परिमित मार्कोव निर्णय प्रक्रिया (FMDP) के लिए, Q-शिक्षण वर्तमान स्थिति से शुरू होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।[1] क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए FMDP के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।[1]क्यू फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम गणना करता है - किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कार।[2]


सुदृढीकरण सीखना

सुदृढीकरण सीखने में बुद्धिमान एजेंट, राज्यों का समूह शामिल होता है , और सेट प्रति राज्य कार्रवाइयों का। क्रिया करके , एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है।

एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से शुरू होने वाले सभी भविष्य के कदमों के पुरस्कारों के अपेक्षित मूल्यों का भारित योग है।

उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:

  • 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय

अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह शुरू में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब ​​है:

  • 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम

अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का खुलासा होता है।

एल्गोरिथम

क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।

बाद भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है , कहाँ (छूट कारक) 0 और 1 के बीच संख्या है () और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (अच्छी शुरुआत के मूल्य को दर्शाता है)। हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है .

एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:

.

सीखना शुरू करने से पहले, संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार एजेंट क्रिया का चयन करता है , इनाम देखता है , नई स्थिति में प्रवेश करता है (जो पिछली स्थिति दोनों पर निर्भर हो सकता है और चयनित क्रिया), और यह अद्यतित है। एल्गोरिथ्म का मूल साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में बेलमैन समीकरण है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:[3]

कहाँराज्य से जाने पर मिलने वाला इनाम है राज्य को , और सीखने की दर है .

ध्यान दें कि तीन कारकों का योग है:

  • : वर्तमान मूल्य (घटाकर सीखने की दर से भारित)
  • : पुरस्कार कार्रवाई प्राप्त करने के लिए राज्य में होने पर लिया जाता है (सीखने की दर से भारित)
  • : अधिकतम इनाम जो राज्य से प्राप्त किया जा सकता है (सीखने की दर और छूट कारक द्वारा भारित)

एल्गोरिथम का एपिसोड तब समाप्त होता है जब State अंतिम या अंतिम स्थिति है। हालाँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि छूट कारक 1 से कम है, तो क्रिया मान परिमित हैं, भले ही समस्या में अनंत लूप हो सकते हैं।

सभी अंतिम राज्यों के लिए , कभी भी अपडेट नहीं होता है, लेकिन इनाम मूल्य पर सेट होता है राज्य के लिए मनाया . अधिकतर परिस्थितियों में, शून्य के बराबर ले जाया जा सकता है।

चरों का प्रभाव

सीखने की दर

सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का कारक एजेंट को कुछ भी नहीं सीखने देता (विशेष रूप से पूर्व ज्ञान का शोषण), जबकि 1 का कारक एजेंट को केवल सबसे हाल की जानकारी पर विचार करता है (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना)। पूरी तरह से नियतात्मक प्रणाली के वातावरण में, सीखने की दर इष्टतम है। जब समस्या स्टोकेस्टिक सिस्टम की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के तहत सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अक्सर निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि सभी के लिए .[4]


डिस्काउंट कारक

छूट का कारक भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए , बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।[5] यहां तक ​​​​कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन कृत्रिम तंत्रिका नेटवर्क के साथ अनुमानित होता है।[6] उस स्थिति में, कम छूट कारक के साथ शुरू करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।[7]


प्रारंभिक शर्तें (क्यू0)

चूंकि क्यू-लर्निंग पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मूल्य, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है,[8] अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाएगी। पहला इनाम प्रारंभिक स्थितियों को रीसेट करने के लिए इस्तेमाल किया जा सकता है।[9] इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो इनाम का मूल्य निर्धारित करने के लिए उपयोग किया जाता है . यह निश्चित नियतात्मक पुरस्कारों के मामले में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को शामिल करने वाला मॉडल किसी भी मनमानी प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की बेहतर भविष्यवाणी करने की उम्मीद करता है।[9]आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।[9]


कार्यान्वयन

क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण राज्यों/कार्रवाइयों की बढ़ती संख्या के साथ लड़खड़ाता है क्योंकि एजेंट के किसी विशेष राज्य में जाने और किसी विशेष कार्य को करने की संभावना लगातार कम होती जा रही है।

फ़ंक्शन सन्निकटन

क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।[10] यह एल्गोरिथ्म को बड़ी समस्याओं पर लागू करना संभव बनाता है, तब भी जब राज्य का स्थान निरंतर हो।

समाधान (अनुकूलित) कृत्रिम तंत्रिका नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है।[11] और संभावना है कि फजी नियम इंटरपोलेशन (FRI) को एकीकृत किया जाए और विरल फ़ज़ी रूल | फ़ज़ी रूल-बेस का उपयोग किया जाए[12] असतत क्यू-टेबल या एएनएन के बजाय, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे राज्यों के लिए पहले के अनुभवों को सामान्य कर सकता है।

परिमाणीकरण

स्थिति/कार्रवाई स्थान को कम करने के लिए अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। निश्चित समय पर राज्य का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का कोणीय वेग शामिल होता है। यह चार-तत्व वेक्टर उत्पन्न करता है जो राज्य का वर्णन करता है, यानी राज्य का स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ मौजूद हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी शुरुआती स्थिति (-इन्फिनिटी टू इनफिनिटी) से उंगली की सटीक दूरी ज्ञात नहीं है, बल्कि यह दूर है या नहीं (निकट, दूर)।[13]


इतिहास

क्यू-लर्निंग की शुरुआत 1989 में क्रिस वाटकिंस ने की थी।[14] 1992 में वाटकिंस और पीटर दयान द्वारा अभिसरण प्रमाण प्रस्तुत किया गया था।[15] वॉटकिंस अपनी पीएचडी थीसिस के शीर्षक "लर्निंग फ्रॉम डिलेड रिवार्ड्स" को संबोधित कर रहे थे। आठ साल पहले 1981 में "विलंबित सुदृढीकरण सीखने" के नाम से ही समस्या को बोज़िनोव्स्की के क्रॉसबार एडेप्टिव एरे (सीएए) द्वारा हल किया गया था।[16][17] मेमोरी मैट्रिक्स क्यू-लर्निंग के आठ साल बाद क्यू-टेबल के समान था। वास्तुकला ने सुदृढीकरण सीखने में "राज्य मूल्यांकन" शब्द पेश किया। पेपर में गणितीय स्यूडोकोड में लिखा गया क्रॉसबार लर्निंग एल्गोरिथम, प्रत्येक पुनरावृत्ति में निम्नलिखित संगणना करता है:

  • राज्य में s काम करना a;
  • परिणाम स्थिति प्राप्त करें s';
  • गणना राज्य मूल्यांकन ;
  • अद्यतन क्रॉसबार मान .

"द्वितीयक सुदृढीकरण" शब्द को पशु सीखने के सिद्धांत से उधार लिया गया है, backpropagation के माध्यम से राज्य के मूल्यों को मॉडल करने के लिए: राज्य मूल्य {{tmath|v(s')}परिणाम की स्थिति का } पहले से सामना की गई स्थितियों के लिए वापस प्रचारित किया गया है। CAA राज्य मूल्यों की लंबवत और क्रियाओं की क्षैतिज रूप से गणना करता है (क्रॉसबार)। विलंबित सुदृढीकरण सीखने वाले प्रदर्शन ग्राफ में राज्यों (वांछनीय, अवांछनीय और तटस्थ राज्यों) को दिखाया गया है, जिनकी गणना राज्य मूल्यांकन समारोह द्वारा की गई थी। यह लर्निंग सिस्टम क्यू-लर्निंग एल्गोरिथम का अग्रदूत था।[18] 2014 में, Google DeepMind ने पेटेंट कराया[19] गहरी शिक्षा के लिए क्यू-लर्निंग का अनुप्रयोग, जिसका शीर्षक डीप रीइन्फोर्समेंट लर्निंग या ध्यान लगा के पढ़ना या सीखना है, जो विशेषज्ञ मानव स्तरों पर अटारी 2600 गेम खेल सकता है।

वेरिएंट

दीप क्यू-लर्निंग

डीपमाइंड सिस्टम ने ग्रहणशील क्षेत्रों के प्रभावों की नकल करने के लिए टाइल वाले कनवल्शनल फिल्टर की परतों के साथ गहरे दृढ़ तंत्रिका नेटवर्क का उपयोग किया। सुदृढीकरण सीखना अस्थिर या भिन्न होता है जब क्यू का प्रतिनिधित्व करने के लिए गैर-रैखिक फ़ंक्शन सन्निकटन जैसे तंत्रिका नेटवर्क का उपयोग किया जाता है। यह अस्थिरता टिप्पणियों के अनुक्रम में मौजूद सहसंबंधों से आती है, तथ्य यह है कि क्यू के छोटे अद्यतन एजेंट की नीति को महत्वपूर्ण रूप से बदल सकते हैं और डेटा वितरण, और क्यू और लक्ष्य मूल्यों के बीच संबंध। विधि का उपयोग विभिन्न डोमेन और अनुप्रयोगों में स्टोकेस्टिक खोज के लिए किया जा सकता है।[20] तकनीक ने अनुभव रीप्ले का उपयोग किया, जैविक रूप से प्रेरित तंत्र जो आगे बढ़ने के लिए सबसे हाल की कार्रवाई के बजाय पूर्व क्रियाओं के यादृच्छिक नमूने का उपयोग करता है।[2]यह अवलोकन अनुक्रम में सहसंबंधों को हटा देता है और डेटा वितरण में परिवर्तन को सुगम बनाता है। पुनरावर्ती अद्यतन Q को लक्ष्य मानों की ओर समायोजित करते हैं जो केवल समय-समय पर अद्यतन किए जाते हैं, लक्ष्य के साथ सहसंबंधों को और कम करते हैं।[21]


डबल क्यू-लर्निंग

क्योंकि क्यू-लर्निंग में भविष्य के अधिकतम अनुमानित एक्शन वैल्यू का मूल्यांकन उसी क्यू फ़ंक्शन का उपयोग करके किया जाता है जैसा कि वर्तमान एक्शन सिलेक्शन पॉलिसी में होता है, शोरगुल वाले वातावरण में क्यू-लर्निंग कभी-कभी एक्शन वैल्यू को कम कर सकता है, सीखने को धीमा कर सकता है। इसे ठीक करने के लिए डबल क्यू-लर्निंग नामक संस्करण प्रस्तावित किया गया था। डबल क्यू-लर्निंग[22] ऑफ नीति रीइन्फोर्समेंट लर्निंग एल्गोरिथम है, जहां मूल्य मूल्यांकन के लिए अलग नीति का उपयोग किया जाता है, जो अगली कार्रवाई का चयन करने के लिए उपयोग की जाती है।

व्यवहार में, दो अलग-अलग मूल्य कार्य और अलग-अलग अनुभवों का उपयोग करके परस्पर सममित तरीके से प्रशिक्षित किया जाता है। डबल क्यू-लर्निंग अपडेट चरण इस प्रकार है:

, और

अब रियायती भविष्य के अनुमानित मूल्य का मूल्यांकन अलग नीति का उपयोग करके किया जाता है, जो अतिरेक के मुद्दे को हल करता है।

इस एल्गोरिथम को बाद में 2015 में संशोधित किया गया और इसे डीप लर्निंग के साथ जोड़ा गया,[23] जैसा कि DQN एल्गोरिथम में होता है, जिसके परिणामस्वरूप डबल DQN होता है, जो मूल DQN एल्गोरिथम से बेहतर प्रदर्शन करता है।[24]


अन्य

विलंबित क्यू-लर्निंग ऑनलाइन क्यू-लर्निंग एल्गोरिदम का वैकल्पिक कार्यान्वयन है, संभवतः लगभग सही लर्निंग|शायद लगभग सही (पीएसी) लर्निंग के साथ।[25] लालची जीक्यू क्यू-लर्निंग का प्रकार है (रैखिक) फ़ंक्शन सन्निकटन के संयोजन में उपयोग करने के लिए।[26] लालची जीक्यू का लाभ यह है कि क्रिया मूल्यों का अनुमान लगाने के लिए फ़ंक्शन सन्निकटन का उपयोग किए जाने पर भी अभिसरण की गारंटी दी जाती है।

डिस्ट्रीब्यूशनल क्यू-लर्निंग क्यू-लर्निंग का प्रकार है जो प्रत्येक क्रिया के अपेक्षित रिटर्न के बजाय रिटर्न के वितरण का मॉडल बनाना चाहता है। यह गहरे तंत्रिका नेटवर्क द्वारा अनुमान लगाने की सुविधा के लिए देखा गया है और जोखिम-संवेदनशील नियंत्रण जैसे वैकल्पिक नियंत्रण विधियों को सक्षम कर सकता है।[27]


मल्टी-एजेंट लर्निंग

क्यू-लर्निंग को मल्टी-एजेंट सेटिंग में प्रस्तावित किया गया है (अनुभाग 4.1.2 देखें)। [28]). तरीका यह है कि वातावरण निष्क्रिय है।[29] लिटमैन मिनिमैक्स क्यू लर्निंग एल्गोरिथम प्रस्तावित करता है।[30]


सीमाएं

मानक क्यू-लर्निंग एल्गोरिदम (ए तालिका) केवल असतत कार्रवाई और राज्य रिक्त स्थान पर लागू होती है। इन मूल्यों का विवेकहीनता अक्षम शिक्षा की ओर ले जाता है, मुख्यतः आयामीता के अभिशाप के कारण। हालाँकि, क्यू-लर्निंग के अनुकूलन हैं जो इस समस्या को हल करने का प्रयास करते हैं जैसे वायर-फिटेड न्यूरल नेटवर्क क्यू-लर्निंग।[31]


यह भी देखें

संदर्भ

  1. 1.0 1.1 Melo, Francisco S. "Convergence of Q-learning: a simple proof" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
  2. 2.0 2.1 Matiisen, Tambet (December 19, 2015). "डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना". neuro.cs.ut.ee (in English). Computational Neuroscience Lab. Retrieved 2018-04-06.
  3. Dietterich, Thomas G. (21 May 1999). "MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना". arXiv:cs/9905014. Retrieved 11 April 2023.
  4. Sutton, Richard; Barto, Andrew (1998). Reinforcement Learning: An Introduction. MIT Press.
  5. Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (Third ed.). Prentice Hall. p. 649. ISBN 978-0136042594.
  6. Baird, Leemon (1995). "Residual algorithms: Reinforcement learning with function approximation" (PDF). ICML: 30–37.
  7. François-Lavet, Vincent; Fonteneau, Raphael; Ernst, Damien (2015-12-07). "How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies". arXiv:1512.02011 [cs.LG].
  8. Sutton, Richard S.; Barto, Andrew G. "2.7 Optimistic Initial Values". Reinforcement Learning: An Introduction. Archived from the original on 2013-09-08. Retrieved 2013-07-18.
  9. 9.0 9.1 9.2 Shteingart, Hanan; Neiman, Tal; Loewenstein, Yonatan (May 2013). "ऑपरेटिव लर्निंग में पहली छाप की भूमिका।" (PDF). Journal of Experimental Psychology: General (in English). 142 (2): 476–488. doi:10.1037/a0029550. ISSN 1939-2222. PMID 22924882.
  10. Hasselt, Hado van (5 March 2012). "Reinforcement Learning in Continuous State and Action Spaces". In Wiering, Marco; Otterlo, Martijn van (eds.). Reinforcement Learning: State-of-the-Art. Springer Science & Business Media. pp. 207–251. ISBN 978-3-642-27645-3.
  11. Tesauro, Gerald (March 1995). "टेम्पोरल डिफरेंस लर्निंग और टीडी-गैमन". Communications of the ACM. 38 (3): 58–68. doi:10.1145/203330.203343. S2CID 8763243. Retrieved 2010-02-08.
  12. Vincze, David (2017). "फ़ज़ी रूल इंटरपोलेशन और रीइन्फोर्समेंट लर्निंग" (PDF). IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE: 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
  13. Krishnan, Srivatsan; Lam, Maximilian; Chitlangia, Sharad; Wan, Zishen; Barth-Maron, Gabriel; Faust, Aleksandra; Reddi, Vijay Janapa (13 November 2022). "QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning". arXiv:1910.01055 [cs]. Retrieved 11 April 2023.
  14. Watkins, C.J.C.H. (1989). विलंबित पुरस्कारों से सीखना (PDF) (Ph.D. thesis). University of Cambridge. EThOS uk.bl.ethos.330022.
  15. Watkins, Chris; Dayan, Peter (1992). "क्यू-लर्निंग". Machine Learning. 8 (3–4): 279–292. doi:10.1007/BF00992698.
  16. Bozinovski, S. (15 July 1999). "Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem". In Dobnikar, Andrej; Steele, Nigel C.; Pearson, David W.; Albrecht, Rudolf F. (eds.). Artificial Neural Nets and Genetic Algorithms: Proceedings of the International Conference in Portorož, Slovenia, 1999. Springer Science & Business Media. pp. 320–325. ISBN 978-3-211-83364-3.
  17. Bozinovski, S. (1982). "A self learning system using secondary reinforcement". In Trappl, Robert (ed.). Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397–402. ISBN 978-0-444-86488-8.
  18. Barto, A. (24 February 1997). "Reinforcement learning". In Omidvar, Omid; Elliott, David L. (eds.). नियंत्रण के लिए तंत्रिका तंत्र. Elsevier. ISBN 978-0-08-053739-9.
  19. "Methods and Apparatus for Reinforcement Learning, US Patent #20150100530A1" (PDF). US Patent Office. 9 April 2015. Retrieved 28 July 2018.
  20. Matzliach B.; Ben-Gal I.; Kagan E. (2022). "डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना" (PDF). Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.
  21. Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K. (Feb 2015). "गहन सुदृढीकरण सीखने के माध्यम से मानव-स्तर पर नियंत्रण". Nature (in English). 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. ISSN 0028-0836. PMID 25719670. S2CID 205242740.
  22. van Hasselt, Hado (2011). "डबल क्यू-लर्निंग" (PDF). Advances in Neural Information Processing Systems. 23: 2613–2622.
  23. van Hasselt, Hado; Guez, Arthur; Silver, David (8 December 2015). "डबल क्यू-लर्निंग के साथ डीप रीइंफोर्समेंट लर्निंग". arXiv:1509.06461 [cs]. Retrieved 11 April 2023.
  24. van Hasselt, Hado; Guez, Arthur; Silver, David (2015). "डबल क्यू-लर्निंग के साथ डीप रीइन्फोर्समेंट लर्निंग" (PDF). AAAI Conference on Artificial Intelligence: 2094–2100. arXiv:1509.06461.
  25. Strehl, Alexander L.; Li, Lihong; Wiewiora, Eric; Langford, John; Littman, Michael L. (2006). "पीएसी मॉडल-मुक्त सुदृढीकरण सीखना" (PDF). Proc. 22nd ICML: 881–888.
  26. Maei, Hamid; Szepesvári, Csaba; Bhatnagar, Shalabh; Sutton, Richard (2010). "Toward off-policy learning control with function approximation in Proceedings of the 27th International Conference on Machine Learning" (PDF). pp. 719–726. Archived from the original (PDF) on 2012-09-08. Retrieved 2016-01-25.
  27. Hessel, Matteo; Modayil, Joseph; van Hasselt, Hado; Schaul, Tom; Ostrovski, Georg; Dabney, Will; Horgan, Dan; Piot, Bilal; Azar, Mohammad; Silver, David (February 2018). "Rainbow: Combining Improvements in Deep Reinforcement Learning". AAAI Conference on Artificial Intelligence. 32. arXiv:1710.02298. doi:10.1609/aaai.v32i1.11796. S2CID 19135734.
  28. Shoham, Yoav; Powers, Rob; Grenager, Trond (1 May 2007). "If multi-agent learning is the answer, what is the question?". Artificial Intelligence. 171 (7): 365–377. doi:10.1016/j.artint.2006.02.006. ISSN 0004-3702. Retrieved 4 April 2023.
  29. Sen, Sandip; Sekaran, Mahendra; Hale, John (1 August 1994). "जानकारी साझा किए बिना समन्वय करना सीखना". Proceedings of the Twelfth AAAI National Conference on Artificial Intelligence. AAAI Press: 426–431. Retrieved 4 April 2023.
  30. Littman, Michael L. (10 July 1994). "मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग के लिए एक फ्रेमवर्क के रूप में मार्कोव गेम्स". Proceedings of the Eleventh International Conference on International Conference on Machine Learning. Morgan Kaufmann Publishers Inc.: 157–163. Retrieved 4 April 2023.
  31. Gaskett, Chris; Wettergreen, David; Zelinsky, Alexander (1999). "क्यू-लर्निंग इन कंटीन्यूअस स्टेट एंड एक्शन स्पेसेस" (PDF).


बाहरी संबंध