क्यू-लर्निंग: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Model-free reinforcement learning algorithm}} {{Machine learning|Reinforcement learning}} ''क्यू''-लर्निंग एक मॉडल-...")
 
No edit summary
 
(11 intermediate revisions by 3 users not shown)
Line 2: Line 2:
{{Machine learning|Reinforcement learning}}
{{Machine learning|Reinforcement learning}}


''क्यू''-लर्निंग एक [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) ]] है | मॉडल-फ्री रीइन्फोर्समेंट लर्निंग एल्गोरिद्म किसी विशेष राज्य में किसी क्रिया के मूल्य को जानने के लिए। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।
'''''क्यू''-लर्निंग''' एक [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) |मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग]] एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मान को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।


किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (FMDP) के लिए, ''Q''-शिक्षण वर्तमान स्थिति से शुरू होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में एक इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग एक इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए FMDP के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" />क्यू फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम गणना करता है - किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कार।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref>
किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल पुरस्कार के अपेक्षित मान को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है। कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" /> Q उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए अवस्था में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref>




== सुदृढीकरण सीखना ==
== रीइन्फोर्समेंट लर्निंग ==
{{Main|Reinforcement learning}}
{{Main|सुदृढीकरण सीखना}}
सुदृढीकरण सीखने में एक [[बुद्धिमान एजेंट]], राज्यों का एक समूह शामिल होता है {{tmath|S}}, और एक सेट {{tmath|A}} प्रति राज्य कार्रवाइयों का। एक क्रिया करके <math>a \in A</math>, एजेंट राज्य से राज्य में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक इनाम (एक संख्यात्मक स्कोर) मिलता है।


एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से शुरू होने वाले सभी भविष्य के कदमों के पुरस्कारों के [[अपेक्षित मूल्य]]ों का भारित योग है।
सुदृढीकरण सीखने में एक [[बुद्धिमान एजेंट]], अवस्थाओं का एक सेट {{tmath|S}} और {{tmath|A}} प्रति अवस्था क्रियाओं का एक सेट सम्मिलित होता है। एक क्रिया <math>a \in A</math> करके, एजेंट एक अवस्था से दूसरे अवस्था में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक पुरस्कार (एक संख्यात्मक स्कोर) मिलता है।


एक उदाहरण के रूप में, एक ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। एक रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:
एजेंट का लक्ष्य अपने कुल पुरस्कार को अधिकतम करना है। यह भविष्य के अवस्थाओं से प्राप्त होने वाले अधिकतम पुरस्कार को संभावित भविष्य के पुरस्कार द्वारा वर्तमान कार्रवाई को प्रभावी विधि से प्रभावित करने के लिए अपनी वर्तमान स्थिति को प्राप्त करने के लिए पुरस्कार में जोड़कर करता है। यह संभावित पुरस्कार वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के चरणों के पुरस्कारों के [[अपेक्षित मूल्य|अपेक्षित मानों]] का भारित योग है।
 
उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है) में बिताए गए कुल समय के ऋणात्मक द्वारा पुरस्कार को मापा जाता है। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए प्रारंभिक प्रतीक्षा समय को कम किया जाए। चूंकि, यदि ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:


* 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय
* 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय


अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह शुरू में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब ​​है:
अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। चूंकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का पुरस्कार पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब ​​है:


* 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम
* 5 सेकंड प्रतीक्षा समय + 0 सेकंड लड़ाई का समय


अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार एक अधिक पुरस्कृत रणनीति का खुलासा होता है।
अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के अतिरिक्त बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक पुरस्कार) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का विवरण प्राप्त होता है।


== एल्गोरिथम ==
== एल्गोरिथम ==
[[File:Q-Learning Matrix Initialized and After Training.png|thumb|upright=2|क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।]]बाद <math>\Delta t</math> भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है <math>\gamma^{\Delta t}</math>, कहाँ <math>\gamma</math> (छूट कारक) 0 और 1 के बीच एक संख्या है (<math>0 \le \gamma \le 1</math>) और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (एक अच्छी शुरुआत के मूल्य को दर्शाता है)। <math> \gamma </math> हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है <math>\Delta t</math>.
[[File:Q-Learning Matrix Initialized and After Training.png|thumb|upright=2|क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।]]भविष्य में <math>\Delta t</math> चरण उठाने के बाद एजेंट कोई अगला चरण तय करेगा। इस चरण के लिए वजन की गणना <math>\gamma^{\Delta t}</math> के रूप में की जाती है, जहां <math>\gamma</math> (डिस्काउंट फैक्टर) 0 और 1 (<math>0 \le \gamma \le 1</math>) के बीच की संख्या है और बाद में प्राप्त ("अच्छे प्रारंभ" के मान को दर्शाता है) पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है। <math> \gamma </math> को प्रत्येक चरण <math>\Delta t</math> पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या किया जा सकता है।


एल्गोरिथ्म, इसलिए, एक फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:
एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो अवस्था-क्रिया संयोजन की गुणवत्ता की गणना करता है:


:<math>Q: S \times A \to \mathbb{R}</math>.
:<math>Q: S \times A \to \mathbb{R}</math>.


सीखना शुरू करने से पहले, {{tmath|Q}} संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार <math>t</math> एजेंट एक क्रिया का चयन करता है <math>a_t</math>, एक इनाम देखता है <math>r_t</math>, एक नई स्थिति में प्रवेश करता है <math>s_{t+1}</math> (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> यह अद्यतित है। एल्गोरिथ्म का मूल एक साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में एक [[बेलमैन समीकरण]] है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref>
सीखना प्रारंभ करने से पहले, {{tmath|Q}} संभावित स्वैच्छिक निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, प्रत्येक बार <math>t</math> एजेंट क्रिया <math>a_t</math> का चयन करता है, एक पुरस्कार <math>r_t</math> देखता है, नई स्थिति <math>s_{t+1}</math> में प्रवेश करता है (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> अद्यतन किया गया है। एल्गोरिथम का मूल एक [[बेलमैन समीकरण]] है, जो वर्तमान मान के भारित औसत और नई जानकारी का उपयोग करते हुए एक साधारण मान पुनरावृत्ति अद्यतन के रूप में है<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref>
:<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math>
:<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math>
कहाँ<math>r_{t}</math>राज्य से जाने पर मिलने वाला इनाम है <math>s_{t}</math> राज्य को <math>s_{t+1}</math>, और <math>\alpha</math> [[सीखने की दर]] है <math>(0 < \alpha \le 1)</math>.
जहाँ <math>r_{t}</math> अवस्था <math>s_{t}</math> से अवस्था <math>s_{t+1}</math> में जाने पर प्राप्त होने वाला पुरस्कार है, और <math>\alpha</math> [[सीखने की दर]] <math>(0 < \alpha \le 1)</math> है।


ध्यान दें कि <math>Q^{new}(s_t,a_t)</math> तीन कारकों का योग है:
ध्यान दें कि <math>Q^{new}(s_t,a_t)</math> तीन फैक्टरों का योग है:


* <math>(1 - \alpha)Q(s_t,a_t)</math>: वर्तमान मूल्य (एक घटाकर सीखने की दर से भारित)
* <math>(1 - \alpha)Q(s_t,a_t)</math>: वर्तमान मान (घटाकर सीखने की दर से भारित)
* <math>\alpha \, r_t</math>: पुरस्कार <math>r_t=r(s_t,a_t)</math> कार्रवाई प्राप्त करने के लिए <math>a_t</math> राज्य में होने पर लिया जाता है <math>s_t</math> (सीखने की दर से भारित)
*<math>\alpha \, r_t</math>: पुरस्कार <math>r_t=r(s_t,a_t)</math> प्राप्त करने के लिए यदि कार्रवाई <math>a_t</math> तब की जाती है जब अवस्था <math>s_t</math> (सीखने की दर से भारित) में होता है
*<math>\alpha \gamma \max_{a}Q(s_{t+1},a)</math>: अधिकतम इनाम जो राज्य से प्राप्त किया जा सकता है <math>s_{t+1}</math>(सीखने की दर और छूट कारक द्वारा भारित)
*<math>\alpha \gamma \max_{a}Q(s_{t+1},a)</math>: अधिकतम पुरस्कार जो अवस्था <math>s_{t+1}</math>(सीखने की दर और डिस्काउंट फैक्टर द्वारा भारित) से प्राप्त किया जा सकता है


एल्गोरिथम का एक एपिसोड तब समाप्त होता है जब State <math>s_{t+1}</math> एक अंतिम या अंतिम स्थिति है। हालाँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि छूट कारक 1 से कम है, तो क्रिया मान परिमित हैं, भले ही समस्या में अनंत लूप हो सकते हैं।
एल्गोरिथम का एपिसोड तब समाप्त होता है जब स्थिति <math>s_{t+1}</math> अंतिम या अंतिम स्थिति है। चूँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि डिस्काउंट फैक्टर 1 से कम है, तो क्रिया मान परिमित हैं, तथापि समस्या में अनंत लूप हो सकते हैं।


सभी अंतिम राज्यों के लिए <math>s_f</math>, <math>Q(s_f, a)</math> कभी भी अपडेट नहीं होता है, लेकिन इनाम मूल्य पर सेट होता है <math>r</math> राज्य के लिए मनाया <math>s_f</math>. अधिकतर परिस्थितियों में, <math>Q(s_f,a)</math> शून्य के बराबर ले जाया जा सकता है।
सभी अंतिम अवस्थाओं के लिए <math>s_f</math>, <math>Q(s_f, a)</math> कभी भी अपडेट नहीं होता है, किन्तु अवस्था <math>s_f</math> के लिए देखे गए इनाम मूल्य <math>r</math> पर सेट होता है। आधिकांश स्थितियों में, <math>Q(s_f,a)</math> को शून्य के बराबर ले जाया जा सकता है।


== चरों का प्रभाव ==
== वेरिएबल्स का प्रभाव ==


=== सीखने की दर ===
=== सीखने की दर ===
सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का एक कारक एजेंट को कुछ भी नहीं सीखने देता (विशेष रूप से पूर्व ज्ञान का शोषण), जबकि 1 का एक कारक एजेंट को केवल सबसे हाल की जानकारी पर विचार करता है (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना)पूरी तरह से [[नियतात्मक प्रणाली]] के वातावरण में, सीखने की दर <math>\alpha_t = 1</math> इष्टतम है। जब समस्या [[ स्टोकेस्टिक सिस्टम ]] की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के तहत सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अक्सर एक निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि <math>\alpha_t = 0.1</math> सभी के लिए <math>t</math>.<ref>{{Cite book |url=http://incompleteideas.net/sutton/book/ebook/the-book.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard |last2=Barto |first2=Andrew |date=1998 |publisher=MIT Press}}</ref>
सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का एक फैक्टर एजेंट को कुछ (विशेष रूप से पूर्व ज्ञान का शोषण) भी नहीं सीखने देता, जबकि 1 का एक फैक्टर एजेंट को केवल सबसे वर्तमान जानकारी (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना) पर विचार करता है। पूरी तरह से [[नियतात्मक प्रणाली]] के वातावरण में, सीखने की दर <math>\alpha_t = 1</math> इष्टतम है। जब समस्या [[ स्टोकेस्टिक सिस्टम |स्टोकेस्टिक प्रणाली]] की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के अनुसार सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अधिकांश निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि सभी <math>t</math> के लिए <math>\alpha_t = 0.1</math> होता है।<ref>{{Cite book |url=http://incompleteideas.net/sutton/book/ebook/the-book.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard |last2=Barto |first2=Andrew |date=1998 |publisher=MIT Press}}</ref>




=== डिस्काउंट कारक ===
=== डिस्काउंट फैक्टर ===
छूट का कारक {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का एक कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए {{tmath|\gamma {{=}} 1}}, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी एक तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक ​​​​कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन [[कृत्रिम तंत्रिका नेटवर्क]] के साथ अनुमानित होता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम छूट कारक के साथ शुरू करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref>
डिस्काउंट फैक्टर {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का एक फैक्टर केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को "मायोपिक" (या अदूरदर्शी) बना देता है, अर्थात <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला फैक्टर इसे दीर्घकालिक उच्च पुरस्कार के लिए प्रयास करता है। यदि डिस्काउंट फैक्टर 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। {{tmath|\gamma {{=}} 1}} के लिए, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास अनंत रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ सामान्यतः अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक ​​​​कि डिस्काउंट फैक्टर के साथ केवल 1 से थोड़ा कम होने पर, Q-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन को [[कृत्रिम तंत्रिका नेटवर्क|कृत्रिम न्यूरल नेटवर्क]] के साथ अनुमानित किया जाता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम डिस्काउंट फैक्टर के साथ प्रारंभ करना और इसे अपने अंतिम मान की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref>




=== प्रारंभिक शर्तें (क्यू<sub>0</sub>) ===
=== प्रारंभिक शर्तें (Q<sub>0</sub>) ===
चूंकि क्यू-लर्निंग एक पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले एक प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मूल्य, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है,<ref>{{Cite book |chapter-url=http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard S. |last2=Barto |first2=Andrew G. |archive-url=https://web.archive.org/web/20130908031737/http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |archive-date=2013-09-08 |url-status=dead |access-date=2013-07-18 |chapter=2.7 Optimistic Initial Values}}</ref> अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाएगी। पहला इनाम <math>r</math> प्रारंभिक स्थितियों को रीसेट करने के लिए इस्तेमाल किया जा सकता है।<ref name="hshteingart">{{Cite journal |last1=Shteingart |first1=Hanan |last2=Neiman |first2=Tal |last3=Loewenstein |first3=Yonatan |date=May 2013 |title=ऑपरेटिव लर्निंग में पहली छाप की भूमिका।|url=http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf |journal=Journal of Experimental Psychology: General |language=en |volume=142 |issue=2 |pages=476–488 |doi=10.1037/a0029550 |issn=1939-2222 |pmid=22924882}}</ref> इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो इनाम का मूल्य निर्धारित करने के लिए उपयोग किया जाता है <math>Q</math>. यह निश्चित नियतात्मक पुरस्कारों के मामले में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को शामिल करने वाला एक मॉडल किसी भी मनमानी प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की बेहतर भविष्यवाणी करने की उम्मीद करता है।<ref name="hshteingart" />आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।<ref name="hshteingart" />
चूंकि क्यू-लर्निंग पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मान, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है,<ref>{{Cite book |chapter-url=http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard S. |last2=Barto |first2=Andrew G. |archive-url=https://web.archive.org/web/20130908031737/http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |archive-date=2013-09-08 |url-status=dead |access-date=2013-07-18 |chapter=2.7 Optimistic Initial Values}}</ref> अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाती है। प्रारंभिक शर्तों को रीसेट करने के लिए पहले पुरस्कार <math>r</math> का उपयोग किया जा सकता है।<ref name="hshteingart">{{Cite journal |last1=Shteingart |first1=Hanan |last2=Neiman |first2=Tal |last3=Loewenstein |first3=Yonatan |date=May 2013 |title=ऑपरेटिव लर्निंग में पहली छाप की भूमिका।|url=http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf |journal=Journal of Experimental Psychology: General |language=en |volume=142 |issue=2 |pages=476–488 |doi=10.1037/a0029550 |issn=1939-2222 |pmid=22924882}}</ref> इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो पुरस्कार का उपयोग <math>Q</math> के मान को निर्धारित करने के लिए किया जाता है। यह निश्चित नियतात्मक पुरस्कारों के स्थिति में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को सम्मिलित करने वाला मॉडल किसी भी स्वैच्छिक प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की उत्तम भविष्यवाणी करने की आशा करता है।<ref name="hshteingart" /> आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।<ref name="hshteingart" />




== कार्यान्वयन ==
== कार्यान्वयन ==
क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण राज्यों/कार्रवाइयों की बढ़ती संख्या के साथ लड़खड़ाता है क्योंकि एजेंट के किसी विशेष राज्य में जाने और किसी विशेष कार्य को करने की संभावना लगातार कम होती जा रही है।
क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण अवस्थाओं/कार्रवाइयों की बढ़ती संख्या के साथ विचलित होता है क्योंकि एजेंट के किसी विशेष अवस्था में जाने और किसी विशेष कार्य को करने की संभावना निरंतर कम होती जा रही है।


=== फ़ंक्शन सन्निकटन ===
=== फ़ंक्शन सन्निकटन ===
क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।<ref>{{cite book|chapter-url={{google books |plainurl=y |id=YPjNuvrJR0MC|pp= 207-251}}|title=Reinforcement Learning: State-of-the-Art|editor-last1=Wiering|editor-first1=Marco|editor-last2=Otterlo|editor-first2=Martijn van|date=5 March 2012|publisher=Springer Science & Business Media |first=Hado van |last=Hasselt |chapter=Reinforcement Learning in Continuous State and Action Spaces |pages= 207–251 |isbn=978-3-642-27645-3}}</ref> यह एल्गोरिथ्म को बड़ी समस्याओं पर लागू करना संभव बनाता है, तब भी जब राज्य का स्थान निरंतर हो।
क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।<ref>{{cite book|chapter-url={{google books |plainurl=y |id=YPjNuvrJR0MC|pp= 207-251}}|title=Reinforcement Learning: State-of-the-Art|editor-last1=Wiering|editor-first1=Marco|editor-last2=Otterlo|editor-first2=Martijn van|date=5 March 2012|publisher=Springer Science & Business Media |first=Hado van |last=Hasselt |chapter=Reinforcement Learning in Continuous State and Action Spaces |pages= 207–251 |isbn=978-3-642-27645-3}}</ref> यह एल्गोरिथ्म को बड़ी समस्याओं पर प्रायुक्त करना संभव बनाता है, तब भी जब अवस्था का स्थान निरंतर हो।


एक समाधान एक (अनुकूलित) कृत्रिम तंत्रिका नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है।<ref name="CACM">{{cite journal|last=Tesauro|first=Gerald|date=March 1995|title=टेम्पोरल डिफरेंस लर्निंग और टीडी-गैमन|url=http://www.bkgm.com/articles/tesauro/tdl.html|journal=Communications of the ACM|volume=38|issue=3|pages=58–68|doi=10.1145/203330.203343|s2cid=8763243|access-date=2010-02-08}}</ref> एक और संभावना है कि [[फजी नियम]] इंटरपोलेशन (FRI) को एकीकृत किया जाए और विरल फ़ज़ी रूल | फ़ज़ी रूल-बेस का उपयोग किया जाए<ref>{{Cite journal |last=Vincze |first=David |date=2017 |title=फ़ज़ी रूल इंटरपोलेशन और रीइन्फोर्समेंट लर्निंग|url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |journal=IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> असतत क्यू-टेबल या एएनएन के बजाय, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे राज्यों के लिए पहले के अनुभवों को सामान्य कर सकता है।
एक समाधान (अनुकूलित) कृत्रिम न्यूरल नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है।<ref name="CACM">{{cite journal|last=Tesauro|first=Gerald|date=March 1995|title=टेम्पोरल डिफरेंस लर्निंग और टीडी-गैमन|url=http://www.bkgm.com/articles/tesauro/tdl.html|journal=Communications of the ACM|volume=38|issue=3|pages=58–68|doi=10.1145/203330.203343|s2cid=8763243|access-date=2010-02-08}}</ref> एक और संभावना है कि [[फजी नियम|फ़ज़ी रूल]] इंटरपोलेशन (एफआरआई) को एकीकृत किया जाए और असतत Q-सारणी या एएनएन के अतिरिक्त विरल फ़ज़ी रूल-बेस<ref>{{Cite journal |last=Vincze |first=David |date=2017 |title=फ़ज़ी रूल इंटरपोलेशन और रीइन्फोर्समेंट लर्निंग|url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |journal=IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> का उपयोग किया जाए, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे अवस्थाओं के लिए पहले के अनुभवों को सामान्य कर सकता है।


=== परिमाणीकरण ===
=== परिमाणीकरण ===
स्थिति/कार्रवाई स्थान को कम करने के लिए एक अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। एक निश्चित समय पर एक राज्य का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का [[कोणीय वेग]] शामिल होता है। यह एक चार-तत्व वेक्टर उत्पन्न करता है जो एक राज्य का वर्णन करता है, यानी एक राज्य का एक स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ मौजूद हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए एक बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी शुरुआती स्थिति (-इन्फिनिटी टू इनफिनिटी) से उंगली की सटीक दूरी ज्ञात नहीं है, बल्कि यह दूर है या नहीं (निकट, दूर)<ref>{{cite journal |last1=Krishnan |first1=Srivatsan |last2=Lam |first2=Maximilian |last3=Chitlangia |first3=Sharad |last4=Wan |first4=Zishen |last5=Barth-Maron |first5=Gabriel |last6=Faust |first6=Aleksandra |last7=Reddi |first7=Vijay Janapa |title=QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning |journal=arXiv:1910.01055 [cs] |date=13 November 2022 |url=https://arxiv.org/abs/1910.01055 |access-date=11 April 2023}}</ref>
स्थिति/कार्रवाई स्थान को कम करने के लिए अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। निश्चित समय पर अवस्था का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का [[कोणीय वेग]] सम्मिलित होता है। यह चार-तत्व वेक्टर उत्पन्न करता है जो एक अवस्था का वर्णन करता है, अर्थात् अवस्था का स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ उपस्थित हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी प्रारंभिक स्थिति (- अनंत से अनंत तक) से उंगली की स्पष्ट दूरी ज्ञात नहीं है, किन्तु यह दूर है या नहीं (निकट, दूर) यह भी ज्ञात नहीं है।<ref>{{cite journal |last1=Krishnan |first1=Srivatsan |last2=Lam |first2=Maximilian |last3=Chitlangia |first3=Sharad |last4=Wan |first4=Zishen |last5=Barth-Maron |first5=Gabriel |last6=Faust |first6=Aleksandra |last7=Reddi |first7=Vijay Janapa |title=QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning |journal=arXiv:1910.01055 [cs] |date=13 November 2022 |url=https://arxiv.org/abs/1910.01055 |access-date=11 April 2023}}</ref>




== इतिहास ==