क्यू-लर्निंग: Difference between revisions
No edit summary |
No edit summary |
||
| Line 2: | Line 2: | ||
{{Machine learning|Reinforcement learning}} | {{Machine learning|Reinforcement learning}} | ||
''क्यू''-लर्निंग [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) | '''''क्यू''-लर्निंग''' एक [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) | मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग]] एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मूल्य को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है। | ||
किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] ( | किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" /> क्यू उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref> | ||
| Line 11: | Line 11: | ||
सुदृढीकरण सीखने में [[बुद्धिमान एजेंट]], राज्यों का समूह शामिल होता है {{tmath|S}}, और सेट {{tmath|A}} प्रति राज्य कार्रवाइयों का। क्रिया करके <math>a \in A</math>, एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है। | सुदृढीकरण सीखने में [[बुद्धिमान एजेंट]], राज्यों का समूह शामिल होता है {{tmath|S}}, और सेट {{tmath|A}} प्रति राज्य कार्रवाइयों का। क्रिया करके <math>a \in A</math>, एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है। | ||
एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से | एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के कदमों के पुरस्कारों के [[अपेक्षित मूल्य]]ों का भारित योग है। | ||
उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है: | उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है: | ||
| Line 17: | Line 17: | ||
* 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय | * 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय | ||
अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह | अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है: | ||
* 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम | * 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम | ||
| Line 30: | Line 30: | ||
:<math>Q: S \times A \to \mathbb{R}</math>. | :<math>Q: S \times A \to \mathbb{R}</math>. | ||
सीखना | सीखना प्रारंभ करने से पहले, {{tmath|Q}} संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार <math>t</math> एजेंट क्रिया का चयन करता है <math>a_t</math>, इनाम देखता है <math>r_t</math>, नई स्थिति में प्रवेश करता है <math>s_{t+1}</math> (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> यह अद्यतित है। एल्गोरिथ्म का मूल साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में [[बेलमैन समीकरण]] है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref> | ||
:<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math> | :<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math> | ||
कहाँ<math>r_{t}</math>राज्य से जाने पर मिलने वाला इनाम है <math>s_{t}</math> राज्य को <math>s_{t+1}</math>, और <math>\alpha</math> [[सीखने की दर]] है <math>(0 < \alpha \le 1)</math>. | कहाँ<math>r_{t}</math>राज्य से जाने पर मिलने वाला इनाम है <math>s_{t}</math> राज्य को <math>s_{t+1}</math>, और <math>\alpha</math> [[सीखने की दर]] है <math>(0 < \alpha \le 1)</math>. | ||
| Line 51: | Line 51: | ||
=== डिस्काउंट कारक === | === डिस्काउंट कारक === | ||
छूट का कारक {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए {{tmath|\gamma {{=}} 1}}, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन [[कृत्रिम तंत्रिका नेटवर्क]] के साथ अनुमानित होता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम छूट कारक के साथ | छूट का कारक {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए {{tmath|\gamma {{=}} 1}}, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन [[कृत्रिम तंत्रिका नेटवर्क]] के साथ अनुमानित होता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम छूट कारक के साथ प्रारंभ करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref> | ||
Revision as of 06:12, 31 May 2023
| Part of a series on |
| Machine learning and data mining |
|---|
| Scatterplot featuring a linear support vector machine's decision boundary (dashed line) |
क्यू-लर्निंग एक मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मूल्य को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।
किसी भी परिमित मार्कोव निर्णय प्रक्रिया (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।[1] क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।[1] क्यू उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।[2]
सुदृढीकरण सीखना
सुदृढीकरण सीखने में बुद्धिमान एजेंट, राज्यों का समूह शामिल होता है , और सेट प्रति राज्य कार्रवाइयों का। क्रिया करके , एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है।
एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के कदमों के पुरस्कारों के अपेक्षित मूल्यों का भारित योग है।
उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:
- 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय
अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है:
- 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम
अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का खुलासा होता है।
एल्गोरिथम
बाद भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है , कहाँ (छूट कारक) 0 और 1 के बीच संख्या है () और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (अच्छी शुरुआत के मूल्य को दर्शाता है)। हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है .
एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:
- .
सीखना प्रारंभ करने से पहले, संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार एजेंट क्रिया का चयन करता है