क्यू-लर्निंग: Difference between revisions

Revision as of 06:12, 31 May 2023

क्यू-लर्निंग एक मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मूल्य को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।

किसी भी परिमित मार्कोव निर्णय प्रक्रिया (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।^[1] क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।^[1] क्यू उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।^[2]

सुदृढीकरण सीखना

सुदृढीकरण सीखने में बुद्धिमान एजेंट, राज्यों का समूह शामिल होता है $S$ , और सेट $A$ प्रति राज्य कार्रवाइयों का। क्रिया करके $a\in A$ , एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है।

एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के कदमों के पुरस्कारों के अपेक्षित मूल्यों का भारित योग है।

उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:

0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय

अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है:

5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम

अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का खुलासा होता है।

एल्गोरिथम

Error creating thumbnail:

क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।

बाद $\Delta t$ भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है $\gamma ^{\Delta t}$ , कहाँ $\gamma$ (छूट कारक) 0 और 1 के बीच संख्या है ( $0\leq \gamma \leq 1$ ) और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (अच्छी शुरुआत के मूल्य को दर्शाता है)। $\gamma$ हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है $\Delta t$ .

एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:

Q:S\times A\to \mathbb {R}

.

सीखना प्रारंभ करने से पहले, $Q$ संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार $t$ एजेंट क्रिया का चयन करता है $a_{}$

[1]

[2]

@@ Line 2: / Line 2: @@
 {{Machine learning|Reinforcement learning}}
-''क्यू''-लर्निंग [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) ]] है | मॉडल-फ्री रीइन्फोर्समेंट लर्निंग एल्गोरिद्म किसी विशेष राज्य में किसी क्रिया के मूल्य को जानने के लिए। इसे पर्यावरण के मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।
+'''''क्यू''-लर्निंग''' एक [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) | मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग]] एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मूल्य को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।
-किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (FMDP) के लिए, ''Q''-शिक्षण वर्तमान स्थिति से शुरू होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए FMDP के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" />क्यू फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम गणना करता है - किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कार।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref>
+किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" /> क्यू उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref>
@@ Line 11: / Line 11: @@
 सुदृढीकरण सीखने में [[बुद्धिमान एजेंट]], राज्यों का समूह शामिल होता है {{tmath|S}}, और सेट {{tmath|A}} प्रति राज्य कार्रवाइयों का। क्रिया करके <math>a \in A</math>, एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है।
-एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से शुरू होने वाले सभी भविष्य के कदमों के पुरस्कारों के [[अपेक्षित मूल्य]]ों का भारित योग है।
+एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के कदमों के पुरस्कारों के [[अपेक्षित मूल्य]]ों का भारित योग है।
 उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:
@@ Line 17: / Line 17: @@
 * 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय
-अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह शुरू में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है:
+अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है:
 * 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम
@@ Line 30: / Line 30: @@
 :<math>Q: S \times A \to \mathbb{R}</math>.
-सीखना शुरू करने से पहले, {{tmath|Q}} संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार <math>t</math> एजेंट क्रिया का चयन करता है <math>a_t</math>, इनाम देखता है <math>r_t</math>, नई स्थिति में प्रवेश करता है <math>s_{t+1}</math> (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> यह अद्यतित है। एल्गोरिथ्म का मूल साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में [[बेलमैन समीकरण]] है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref>
+सीखना प्रारंभ करने से पहले, {{tmath|Q}} संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार <math>t</math> एजेंट क्रिया का चयन करता है <math>a_t</math>, इनाम देखता है <math>r_t</math>, नई स्थिति में प्रवेश करता है <math>s_{t+1}</math> (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> यह अद्यतित है। एल्गोरिथ्म का मूल साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में [[बेलमैन समीकरण]] है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref>
 :<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math>
 कहाँ<math>r_{t}</math>राज्य से जाने पर मिलने वाला इनाम है <math>s_{t}</math> राज्य को <math>s_{t+1}</math>, और <math>\alpha</math> [[सीखने की दर]] है <math>(0 < \alpha \le 1)</math>.
@@ Line 51: / Line 51: @@
 === डिस्काउंट कारक ===
-छूट का कारक {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए {{tmath|\gamma {{=}} 1}}, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन [[कृत्रिम तंत्रिका नेटवर्क]] के साथ अनुमानित होता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम छूट कारक के साथ शुरू करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref>
+छूट का कारक {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए {{tmath|\gamma {{=}} 1}}, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन [[कृत्रिम तंत्रिका नेटवर्क]] के साथ अनुमानित होता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम छूट कारक के साथ प्रारंभ करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref>

Anonymous

Search

क्यू-लर्निंग: Difference between revisions

Namespaces

More

Page actions

Revision as of 06:12, 31 May 2023

Contents

सुदृढीकरण सीखना

एल्गोरिथम