क्यू-लर्निंग: Difference between revisions
From Vigyanwiki
(Created page with "{{Short description|Model-free reinforcement learning algorithm}} {{Machine learning|Reinforcement learning}} ''क्यू''-लर्निंग एक मॉडल-...") |
No edit summary |
||
| (11 intermediate revisions by 3 users not shown) | |||
| Line 2: | Line 2: | ||
{{Machine learning|Reinforcement learning}} | {{Machine learning|Reinforcement learning}} | ||
''क्यू''-लर्निंग एक [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) | '''''क्यू''-लर्निंग''' एक [[ मॉडल-मुक्त (सुदृढ़ीकरण सीखना) |मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग]] एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मान को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है। | ||
किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] ( | किसी भी परिमित [[मार्कोव निर्णय प्रक्रिया]] (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल पुरस्कार के अपेक्षित मान को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।<ref name="auto">{{Cite document |last=Melo |first=Francisco S. |title=Convergence of Q-learning: a simple proof |url=http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.pdf}}</ref> क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है। कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।<ref name="auto" /> Q उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए अवस्था में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।<ref name=":0">{{Cite web |url=http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ |title=डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना|last=Matiisen |first=Tambet |date=December 19, 2015 |website=neuro.cs.ut.ee |publisher=Computational Neuroscience Lab |language=en-US |access-date=2018-04-06}}</ref> | ||
== | == रीइन्फोर्समेंट लर्निंग == | ||
{{Main| | {{Main|सुदृढीकरण सीखना}} | ||
सुदृढीकरण | |||
एजेंट का | सुदृढीकरण सीखने में एक [[बुद्धिमान एजेंट]], अवस्थाओं का एक सेट {{tmath|S}} और {{tmath|A}} प्रति अवस्था क्रियाओं का एक सेट सम्मिलित होता है। एक क्रिया <math>a \in A</math> करके, एजेंट एक अवस्था से दूसरे अवस्था में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक पुरस्कार (एक संख्यात्मक स्कोर) मिलता है। | ||
एजेंट का लक्ष्य अपने कुल पुरस्कार को अधिकतम करना है। यह भविष्य के अवस्थाओं से प्राप्त होने वाले अधिकतम पुरस्कार को संभावित भविष्य के पुरस्कार द्वारा वर्तमान कार्रवाई को प्रभावी विधि से प्रभावित करने के लिए अपनी वर्तमान स्थिति को प्राप्त करने के लिए पुरस्कार में जोड़कर करता है। यह संभावित पुरस्कार वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के चरणों के पुरस्कारों के [[अपेक्षित मूल्य|अपेक्षित मानों]] का भारित योग है। | |||
उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है) में बिताए गए कुल समय के ऋणात्मक द्वारा पुरस्कार को मापा जाता है। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए प्रारंभिक प्रतीक्षा समय को कम किया जाए। चूंकि, यदि ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है: | |||
* 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय | * 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय | ||
अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह | अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। चूंकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का पुरस्कार पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब है: | ||
* 5 सेकंड | * 5 सेकंड प्रतीक्षा समय + 0 सेकंड लड़ाई का समय | ||
अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के | अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के अतिरिक्त बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक पुरस्कार) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का विवरण प्राप्त होता है। | ||
== एल्गोरिथम == | == एल्गोरिथम == | ||
[[File:Q-Learning Matrix Initialized and After Training.png|thumb|upright=2|क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।]] | [[File:Q-Learning Matrix Initialized and After Training.png|thumb|upright=2|क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।]]भविष्य में <math>\Delta t</math> चरण उठाने के बाद एजेंट कोई अगला चरण तय करेगा। इस चरण के लिए वजन की गणना <math>\gamma^{\Delta t}</math> के रूप में की जाती है, जहां <math>\gamma</math> (डिस्काउंट फैक्टर) 0 और 1 (<math>0 \le \gamma \le 1</math>) के बीच की संख्या है और बाद में प्राप्त ("अच्छे प्रारंभ" के मान को दर्शाता है) पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है। <math> \gamma </math> को प्रत्येक चरण <math>\Delta t</math> पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या किया जा सकता है। | ||
एल्गोरिथ्म, इसलिए, | एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो अवस्था-क्रिया संयोजन की गुणवत्ता की गणना करता है: | ||
:<math>Q: S \times A \to \mathbb{R}</math>. | :<math>Q: S \times A \to \mathbb{R}</math>. | ||
सीखना | सीखना प्रारंभ करने से पहले, {{tmath|Q}} संभावित स्वैच्छिक निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, प्रत्येक बार <math>t</math> एजेंट क्रिया <math>a_t</math> का चयन करता है, एक पुरस्कार <math>r_t</math> देखता है, नई स्थिति <math>s_{t+1}</math> में प्रवेश करता है (जो पिछली स्थिति दोनों पर निर्भर हो सकता है <math>s_t</math> और चयनित क्रिया), और <math>Q</math> अद्यतन किया गया है। एल्गोरिथम का मूल एक [[बेलमैन समीकरण]] है, जो वर्तमान मान के भारित औसत और नई जानकारी का उपयोग करते हुए एक साधारण मान पुनरावृत्ति अद्यतन के रूप में है<ref>{{cite journal |last1=Dietterich |first1=Thomas G. |title=MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना|journal=arXiv:cs/9905014 |date=21 May 1999 |url=https://arxiv.org/abs/cs/9905014 |access-date=11 April 2023}}</ref> | ||
:<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math> | :<math>Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) </math> | ||
जहाँ <math>r_{t}</math> अवस्था <math>s_{t}</math> से अवस्था <math>s_{t+1}</math> में जाने पर प्राप्त होने वाला पुरस्कार है, और <math>\alpha</math> [[सीखने की दर]] <math>(0 < \alpha \le 1)</math> है। | |||
ध्यान दें कि <math>Q^{new}(s_t,a_t)</math> तीन | ध्यान दें कि <math>Q^{new}(s_t,a_t)</math> तीन फैक्टरों का योग है: | ||
* <math>(1 - \alpha)Q(s_t,a_t)</math>: वर्तमान | * <math>(1 - \alpha)Q(s_t,a_t)</math>: वर्तमान मान (घटाकर सीखने की दर से भारित) | ||
* <math>\alpha \, r_t</math>: पुरस्कार <math>r_t=r(s_t,a_t)</math> | *<math>\alpha \, r_t</math>: पुरस्कार <math>r_t=r(s_t,a_t)</math> प्राप्त करने के लिए यदि कार्रवाई <math>a_t</math> तब की जाती है जब अवस्था <math>s_t</math> (सीखने की दर से भारित) में होता है | ||
*<math>\alpha \gamma \max_{a}Q(s_{t+1},a)</math>: अधिकतम | *<math>\alpha \gamma \max_{a}Q(s_{t+1},a)</math>: अधिकतम पुरस्कार जो अवस्था <math>s_{t+1}</math>(सीखने की दर और डिस्काउंट फैक्टर द्वारा भारित) से प्राप्त किया जा सकता है | ||
एल्गोरिथम का | एल्गोरिथम का एपिसोड तब समाप्त होता है जब स्थिति <math>s_{t+1}</math> अंतिम या अंतिम स्थिति है। चूँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि डिस्काउंट फैक्टर 1 से कम है, तो क्रिया मान परिमित हैं, तथापि समस्या में अनंत लूप हो सकते हैं। | ||
सभी अंतिम | सभी अंतिम अवस्थाओं के लिए <math>s_f</math>, <math>Q(s_f, a)</math> कभी भी अपडेट नहीं होता है, किन्तु अवस्था <math>s_f</math> के लिए देखे गए इनाम मूल्य <math>r</math> पर सेट होता है। आधिकांश स्थितियों में, <math>Q(s_f,a)</math> को शून्य के बराबर ले जाया जा सकता है। | ||
== | == वेरिएबल्स का प्रभाव == | ||
=== सीखने की दर === | === सीखने की दर === | ||
सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का एक | सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का एक फैक्टर एजेंट को कुछ (विशेष रूप से पूर्व ज्ञान का शोषण) भी नहीं सीखने देता, जबकि 1 का एक फैक्टर एजेंट को केवल सबसे वर्तमान जानकारी (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना) पर विचार करता है। पूरी तरह से [[नियतात्मक प्रणाली]] के वातावरण में, सीखने की दर <math>\alpha_t = 1</math> इष्टतम है। जब समस्या [[ स्टोकेस्टिक सिस्टम |स्टोकेस्टिक प्रणाली]] की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के अनुसार सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अधिकांश निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि सभी <math>t</math> के लिए <math>\alpha_t = 0.1</math> होता है।<ref>{{Cite book |url=http://incompleteideas.net/sutton/book/ebook/the-book.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard |last2=Barto |first2=Andrew |date=1998 |publisher=MIT Press}}</ref> | ||
=== डिस्काउंट | === डिस्काउंट फैक्टर === | ||
डिस्काउंट फैक्टर {{tmath|\gamma}} भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का एक फैक्टर केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को "मायोपिक" (या अदूरदर्शी) बना देता है, अर्थात <math>r_t</math> (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला फैक्टर इसे दीर्घकालिक उच्च पुरस्कार के लिए प्रयास करता है। यदि डिस्काउंट फैक्टर 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। {{tmath|\gamma {{=}} 1}} के लिए, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास अनंत रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ सामान्यतः अनंत हो जाती हैं।<ref>{{Cite book |title=Artificial Intelligence: A Modern Approach |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |date=2010 |publisher=[[Prentice Hall]] |isbn=978-0136042594 |edition=Third |page=649 |author-link=Stuart J. Russell |author-link2=Peter Norvig}}</ref> यहां तक कि डिस्काउंट फैक्टर के साथ केवल 1 से थोड़ा कम होने पर, Q-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन को [[कृत्रिम तंत्रिका नेटवर्क|कृत्रिम न्यूरल नेटवर्क]] के साथ अनुमानित किया जाता है।<ref>{{cite journal|first=Leemon |last=Baird |title=Residual algorithms: Reinforcement learning with function approximation |url=http://www.leemon.com/papers/1995b.pdf |journal=ICML |pages= 30–37 |year=1995}}</ref> उस स्थिति में, कम डिस्काउंट फैक्टर के साथ प्रारंभ करना और इसे अपने अंतिम मान की ओर बढ़ाना सीखने को गति देता है।<ref>{{cite arXiv|last1=François-Lavet|first1=Vincent|last2=Fonteneau|first2=Raphael|last3=Ernst|first3=Damien|date=2015-12-07|title=How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies|eprint=1512.02011 |class=cs.LG}}</ref> | |||
=== प्रारंभिक शर्तें ( | === प्रारंभिक शर्तें (Q<sub>0</sub>) === | ||
चूंकि क्यू-लर्निंग | चूंकि क्यू-लर्निंग पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मान, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है,<ref>{{Cite book |chapter-url=http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |title=Reinforcement Learning: An Introduction |last1=Sutton |first1=Richard S. |last2=Barto |first2=Andrew G. |archive-url=https://web.archive.org/web/20130908031737/http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node21.html |archive-date=2013-09-08 |url-status=dead |access-date=2013-07-18 |chapter=2.7 Optimistic Initial Values}}</ref> अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाती है। प्रारंभिक शर्तों को रीसेट करने के लिए पहले पुरस्कार <math>r</math> का उपयोग किया जा सकता है।<ref name="hshteingart">{{Cite journal |last1=Shteingart |first1=Hanan |last2=Neiman |first2=Tal |last3=Loewenstein |first3=Yonatan |date=May 2013 |title=ऑपरेटिव लर्निंग में पहली छाप की भूमिका।|url=http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf |journal=Journal of Experimental Psychology: General |language=en |volume=142 |issue=2 |pages=476–488 |doi=10.1037/a0029550 |issn=1939-2222 |pmid=22924882}}</ref> इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो पुरस्कार का उपयोग <math>Q</math> के मान को निर्धारित करने के लिए किया जाता है। यह निश्चित नियतात्मक पुरस्कारों के स्थिति में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को सम्मिलित करने वाला मॉडल किसी भी स्वैच्छिक प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की उत्तम भविष्यवाणी करने की आशा करता है।<ref name="hshteingart" /> आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।<ref name="hshteingart" /> | ||
== कार्यान्वयन == | == कार्यान्वयन == | ||
क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण | क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण अवस्थाओं/कार्रवाइयों की बढ़ती संख्या के साथ विचलित होता है क्योंकि एजेंट के किसी विशेष अवस्था में जाने और किसी विशेष कार्य को करने की संभावना निरंतर कम होती जा रही है। | ||
=== फ़ंक्शन सन्निकटन === | === फ़ंक्शन सन्निकटन === | ||
क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।<ref>{{cite book|chapter-url={{google books |plainurl=y |id=YPjNuvrJR0MC|pp= 207-251}}|title=Reinforcement Learning: State-of-the-Art|editor-last1=Wiering|editor-first1=Marco|editor-last2=Otterlo|editor-first2=Martijn van|date=5 March 2012|publisher=Springer Science & Business Media |first=Hado van |last=Hasselt |chapter=Reinforcement Learning in Continuous State and Action Spaces |pages= 207–251 |isbn=978-3-642-27645-3}}</ref> यह एल्गोरिथ्म को बड़ी समस्याओं पर | क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।<ref>{{cite book|chapter-url={{google books |plainurl=y |id=YPjNuvrJR0MC|pp= 207-251}}|title=Reinforcement Learning: State-of-the-Art|editor-last1=Wiering|editor-first1=Marco|editor-last2=Otterlo|editor-first2=Martijn van|date=5 March 2012|publisher=Springer Science & Business Media |first=Hado van |last=Hasselt |chapter=Reinforcement Learning in Continuous State and Action Spaces |pages= 207–251 |isbn=978-3-642-27645-3}}</ref> यह एल्गोरिथ्म को बड़ी समस्याओं पर प्रायुक्त करना संभव बनाता है, तब भी जब अवस्था का स्थान निरंतर हो। | ||
एक समाधान | एक समाधान (अनुकूलित) कृत्रिम न्यूरल नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है।<ref name="CACM">{{cite journal|last=Tesauro|first=Gerald|date=March 1995|title=टेम्पोरल डिफरेंस लर्निंग और टीडी-गैमन|url=http://www.bkgm.com/articles/tesauro/tdl.html|journal=Communications of the ACM|volume=38|issue=3|pages=58–68|doi=10.1145/203330.203343|s2cid=8763243|access-date=2010-02-08}}</ref> एक और संभावना है कि [[फजी नियम|फ़ज़ी रूल]] इंटरपोलेशन (एफआरआई) को एकीकृत किया जाए और असतत Q-सारणी या एएनएन के अतिरिक्त विरल फ़ज़ी रूल-बेस<ref>{{Cite journal |last=Vincze |first=David |date=2017 |title=फ़ज़ी रूल इंटरपोलेशन और रीइन्फोर्समेंट लर्निंग|url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |journal=IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> का उपयोग किया जाए, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे अवस्थाओं के लिए पहले के अनुभवों को सामान्य कर सकता है। | ||
=== परिमाणीकरण === | === परिमाणीकरण === | ||
स्थिति/कार्रवाई स्थान को कम करने के लिए | स्थिति/कार्रवाई स्थान को कम करने के लिए अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। निश्चित समय पर अवस्था का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का [[कोणीय वेग]] सम्मिलित होता है। यह चार-तत्व वेक्टर उत्पन्न करता है जो एक अवस्था का वर्णन करता है, अर्थात् अवस्था का स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ उपस्थित हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी प्रारंभिक स्थिति (- अनंत से अनंत तक) से उंगली की स्पष्ट दूरी ज्ञात नहीं है, किन्तु यह दूर है या नहीं (निकट, दूर) यह भी ज्ञात नहीं है।<ref>{{cite journal |last1=Krishnan |first1=Srivatsan |last2=Lam |first2=Maximilian |last3=Chitlangia |first3=Sharad |last4=Wan |first4=Zishen |last5=Barth-Maron |first5=Gabriel |last6=Faust |first6=Aleksandra |last7=Reddi |first7=Vijay Janapa |title=QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning |journal=arXiv:1910.01055 [cs] |date=13 November 2022 |url=https://arxiv.org/abs/1910.01055 |access-date=11 April 2023}}</ref> | ||
== इतिहास == | |||