क्यू-लर्निंग

क्यू-लर्निंग एक मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मान को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।

किसी भी परिमित मार्कोव निर्णय प्रक्रिया (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल पुरस्कार के अपेक्षित मान को अधिकतम करने के अर्थ में इष्टतम नीति पाता है। क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है। क्यू उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए अवस्था में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।

सुदृढीकरण सीखना
सुदृढीकरण सीखने में एक बुद्धिमान एजेंट, अवस्थाओं का एक सेट $S$ और $A$ प्रति अवस्था क्रियाओं का एक सेट सम्मिलित होता है। एक क्रिया $$a \in A$$ करके, एजेंट एक अवस्था से दूसरे अवस्था में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक पुरस्कार (एक संख्यात्मक स्कोर) मिलता है।

एजेंट का लक्ष्य अपने कुल पुरस्कार को अधिकतम करना है। यह भविष्य के अवस्थाओं से प्राप्त होने वाले अधिकतम पुरस्कार को संभावित भविष्य के पुरस्कार द्वारा वर्तमान कार्रवाई को प्रभावी विधि से प्रभावित करने के लिए अपनी वर्तमान स्थिति को प्राप्त करने के लिए पुरस्कार में जोड़कर करता है। यह संभावित पुरस्कार वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के चरणों के पुरस्कारों के अपेक्षित मानों का भारित योग है।

उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है) में बिताए गए कुल समय के ऋणात्मक द्वारा पुरस्कार को मापा जाता है। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए प्रारंभिक प्रतीक्षा समय को कम किया जाए। चूंकि, यदि ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:


 * 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय

अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। चूंकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का पुरस्कार पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब ​​है:


 * 5 सेकंड प्रतीक्षा समय + 0 सेकंड लड़ाई का समय

अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के अतिरिक्त बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक पुरस्कार) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का विवरण प्राप्त होता है।

एल्गोरिथम
भविष्य में $$\Delta t$$ चरण उठाने के बाद एजेंट कोई अगला चरण तय करेगा। इस चरण के लिए वजन की गणना $$\gamma^{\Delta t}$$ के रूप में की जाती है, जहां $$\gamma$$ (डिस्काउंट फैक्टर) 0 और 1 ($$0 \le \gamma \le 1$$) के बीच की संख्या है और बाद में प्राप्त ("अच्छे प्रारंभ" के मान को दर्शाता है) पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मानांकन करने का प्रभाव है। $$ \gamma $$ को प्रत्येक चरण $$\Delta t$$ पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या किया जा सकता है।

एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो अवस्था-क्रिया संयोजन की गुणवत्ता की गणना करता है:


 * $$Q: S \times A \to \mathbb{R}$$.

सीखना प्रारंभ करने से पहले, $Q$ संभावित स्वैच्छिक निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, प्रत्येक बार $$t$$ एजेंट क्रिया $$a_t$$ का चयन करता है, एक पुरस्कार $$r_t$$ देखता है, नई स्थिति $$s_{t+1}$$ में प्रवेश करता है (जो पिछली स्थिति दोनों पर निर्भर हो सकता है $$s_t$$ और चयनित क्रिया), और $$Q$$ अद्यतन किया गया है। एल्गोरिथम का मूल एक बेलमैन समीकरण है, जो वर्तमान मान के भारित औसत और नई जानकारी का उपयोग करते हुए एक साधारण मान पुनरावृत्ति अद्यतन के रूप में है
 * $$Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) $$

जहाँ $$r_{t}$$ अवस्था $$s_{t}$$ से अवस्था $$s_{t+1}$$ में जाने पर प्राप्त होने वाला पुरस्कार है, और $$\alpha$$ सीखने की दर $$(0 < \alpha \le 1)$$ है।

ध्यान दें कि $$Q^{new}(s_t,a_t)$$ तीन फैक्टरों का योग है:


 * $$(1 - \alpha)Q(s_t,a_t)$$: वर्तमान मान (घटाकर सीखने की दर से भारित)
 * $$\alpha \, r_t$$: पुरस्कार $$r_t=r(s_t,a_t)$$ प्राप्त करने के लिए यदि कार्रवाई $$a_t$$ तब की जाती है जब अवस्था $$s_t$$ (सीखने की दर से भारित) में होता है
 * $$\alpha \gamma \max_{a}Q(s_{t+1},a)$$: अधिकतम पुरस्कार जो अवस्था $$s_{t+1}$$(सीखने की दर और डिस्काउंट फैक्टर द्वारा भारित) से प्राप्त किया जा सकता है

एल्गोरिथम का एपिसोड तब समाप्त होता है जब स्थिति $$s_{t+1}$$ अंतिम या अंतिम स्थिति है। चूँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि डिस्काउंट फैक्टर 1 से कम है, तो क्रिया मान परिमित हैं, तथापि समस्या में अनंत लूप हो सकते हैं।

सभी अंतिम अवस्थाओं के लिए $$s_f$$, $$Q(s_f, a)$$ कभी भी अपडेट नहीं होता है, किन्तु अवस्था $$s_f$$ के लिए देखे गए इनाम मूल्य $$r$$ पर सेट होता है। आधिकांश स्थितियों में, $$Q(s_f,a)$$ को शून्य के बराबर ले जाया जा सकता है।

सीखने की दर
सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का एक फैक्टर एजेंट को कुछ (विशेष रूप से पूर्व ज्ञान का शोषण) भी नहीं सीखने देता, जबकि 1 का एक फैक्टर एजेंट को केवल सबसे वर्तमान जानकारी (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना) पर विचार करता है। पूरी तरह से नियतात्मक प्रणाली के वातावरण में, सीखने की दर $$\alpha_t = 1$$ इष्टतम है। जब समस्या स्टोकेस्टिक प्रणाली की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के अनुसार सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अधिकांश निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि सभी $$t$$ के लिए $$\alpha_t = 0.1$$ होता है।

डिस्काउंट फैक्टर
डिस्काउंट फैक्टर $\gamma$ भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का एक फैक्टर केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को "मायोपिक" (या अदूरदर्शी) बना देता है, अर्थात $$r_t$$ (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला फैक्टर इसे दीर्घकालिक उच्च पुरस्कार के लिए प्रयास करता है। यदि डिस्काउंट फैक्टर 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। $\gamma = 1$ के लिए, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास अनंत रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ सामान्यतः अनंत हो जाती हैं। यहां तक ​​​​कि डिस्काउंट फैक्टर के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन को कृत्रिम न्यूरल नेटवर्क के साथ अनुमानित किया जाता है। उस स्थिति में, कम डिस्काउंट फैक्टर के साथ प्रारंभ करना और इसे अपने अंतिम मान की ओर बढ़ाना सीखने को गति देता है।

प्रारंभिक शर्तें (Q0)
चूंकि क्यू-लर्निंग पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मान, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है, अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाती है। प्रारंभिक शर्तों को रीसेट करने के लिए पहले पुरस्कार $$r$$ का उपयोग किया जा सकता है। इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो पुरस्कार का उपयोग $$Q$$ के मान को निर्धारित करने के लिए किया जाता है। यह निश्चित नियतात्मक पुरस्कारों के स्थिति में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को सम्मिलित करने वाला मॉडल किसी भी स्वैच्छिक प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की उत्तम भविष्यवाणी करने की आशा करता है। आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।

कार्यान्वयन
क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण अवस्थाओं/कार्रवाइयों की बढ़ती संख्या के साथ विचलित होता है क्योंकि एजेंट के किसी विशेष अवस्था में जाने और किसी विशेष कार्य को करने की संभावना निरंतर कम होती जा रही है।

फ़ंक्शन सन्निकटन
क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है। यह एल्गोरिथ्म को बड़ी समस्याओं पर प्रायुक्त करना संभव बनाता है, तब भी जब अवस्था का स्थान निरंतर हो।

एक समाधान (अनुकूलित) कृत्रिम न्यूरल नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है। एक और संभावना है कि फ़ज़ी रूल इंटरपोलेशन (एफआरआई) को एकीकृत किया जाए और असतत क्यू-सारणी या एएनएन के अतिरिक्त विरल फ़ज़ी रूल-बेस का उपयोग किया जाए, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे अवस्थाओं के लिए पहले के अनुभवों को सामान्य कर सकता है।

परिमाणीकरण
स्थिति/कार्रवाई स्थान को कम करने के लिए अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। निश्चित समय पर अवस्था का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का कोणीय वेग सम्मिलित होता है। यह चार-तत्व वेक्टर उत्पन्न करता है जो एक अवस्था का वर्णन करता है, अर्थात् अवस्था का स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ उपस्थित हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी प्रारंभिक स्थिति (- अनंत से अनंत तक) से उंगली की स्पष्ट दूरी ज्ञात नहीं है, किन्तु यह दूर है या नहीं (निकट, दूर) यह भी ज्ञात नहीं है।

इतिहास
क्यू-लर्निंग की शुरुआत 1989 में क्रिस वाटकिंस ने की थी। 1992 में वाटकिंस और पीटर दयान द्वारा अभिसरण प्रमाण प्रस्तुत किया गया था। वॉटकिंस अपनी पीएचडी थीसिस के शीर्षक "लर्निंग फ्रॉम डिलेड रिवार्ड्स" को संबोधित कर रहे थे। आठ साल पहले 1981 में "विलंबित सुदृढीकरण सीखने" के नाम से ही समस्या को बोज़िनोव्स्की के क्रॉसबार एडेप्टिव एरे (सीएए) द्वारा हल किया गया था। मेमोरी मैट्रिक्स $$W = \|w(a,s)\|$$ क्यू-लर्निंग के आठ साल बाद क्यू-टेबल के समान था। वास्तुकला ने सुदृढीकरण सीखने में "अवस्था मानांकन" शब्द पेश किया। पेपर में गणितीय स्यूडोकोड में लिखा गया क्रॉसबार लर्निंग एल्गोरिथम, प्रत्येक पुनरावृत्ति में निम्नलिखित संगणना करता है:


 * अवस्था में $s$ काम करना $a$;
 * परिणाम स्थिति प्राप्त करें $s'$;
 * गणना अवस्था मानांकन $v(s')$;
 * अद्यतन क्रॉसबार मान $$w'(a,s) = w(a,s) + v(s')$$.

"द्वितीयक सुदृढीकरण" शब्द को पशु सीखने के सिद्धांत से उधार लिया गया है, backpropagation के माध्यम से अवस्था के मानों को मॉडल करने के लिए: अवस्था मान v(s')}परिणाम की स्थिति का } पहले से सामना की गई स्थितियों के लिए वापस प्रचारित किया गया है। CAA अवस्था मानों की लंबवत और क्रियाओं की क्षैतिज रूप से गणना करता है (क्रॉसबार)। विलंबित सुदृढीकरण सीखने वाले प्रदर्शन ग्राफ में अवस्थाओं (वांछनीय, अवांछनीय और तटस्थ अवस्थाओं) को दिखाया गया है, जिनकी गणना अवस्था मानांकन समारोह द्वारा की गई थी। यह लर्निंग प्रणाली क्यू-लर्निंग एल्गोरिथम का अग्रदूत था। 2014 में, Google DeepMind ने पेटेंट कराया गहरी शिक्षा के लिए क्यू-लर्निंग का अनुप्रयोग, जिसका शीर्षक डीप रीइन्फोर्समेंट लर्निंग या ध्यान लगा के पढ़ना या सीखना है, जो विशेषज्ञ मानव स्तरों पर अटारी 2600 गेम खेल सकता है।

दीप क्यू-लर्निंग
डीपमाइंड प्रणाली ने ग्रहणशील क्षेत्रों के प्रभावों की नकल करने के लिए टाइल वाले कनवल्शनल फिल्टर की परतों के साथ गहरे दृढ़ न्यूरल नेटवर्क का उपयोग किया। सुदृढीकरण सीखना अस्थिर या भिन्न होता है जब क्यू का प्रतिनिधित्व करने के लिए गैर-रैखिक फ़ंक्शन सन्निकटन जैसे न्यूरल नेटवर्क का उपयोग किया जाता है। यह अस्थिरता टिप्पणियों के अनुक्रम में उपस्थित सहसंबंधों से आती है, तथ्य यह है कि क्यू के छोटे अद्यतन एजेंट की नीति को महत्वपूर्ण रूप से बदल सकते हैं और डेटा वितरण, और क्यू और लक्ष्य मानों के बीच संबंध। विधि का उपयोग विभिन्न डोमेन और अनुप्रयोगों में स्टोकेस्टिक खोज के लिए किया जा सकता है। तकनीक ने अनुभव रीप्ले का उपयोग किया, जैविक रूप से प्रेरित तंत्र जो आगे बढ़ने के लिए सबसे हाल की कार्रवाई के अतिरिक्त पूर्व क्रियाओं के यादृच्छिक नमूने का उपयोग करता है। यह अवलोकन अनुक्रम में सहसंबंधों को हटा देता है और डेटा वितरण में परिवर्तन को सुगम बनाता है। पुनरावर्ती अद्यतन Q को लक्ष्य मानों की ओर समायोजित करते हैं जो केवल समय-समय पर अद्यतन किए जाते हैं, लक्ष्य के साथ सहसंबंधों को और कम करते हैं।

डबल क्यू-लर्निंग
क्योंकि क्यू-लर्निंग में भविष्य के अधिकतम अनुमानित एक्शन वैल्यू का मानांकन उसी क्यू फ़ंक्शन का उपयोग करके किया जाता है जैसा कि वर्तमान एक्शन सिलेक्शन पॉलिसी में होता है, शोरगुल वाले वातावरण में क्यू-लर्निंग कभी-कभी एक्शन वैल्यू को कम कर सकता है, सीखने को धीमा कर सकता है। इसे ठीक करने के लिए डबल क्यू-लर्निंग नामक संस्करण प्रस्तावित किया गया था। डबल क्यू-लर्निंग ऑफ नीति रीइन्फोर्समेंट लर्निंग एल्गोरिथम है, जहां मान मानांकन के लिए अलग नीति का उपयोग किया जाता है, जो अगली कार्रवाई का चयन करने के लिए उपयोग की जाती है।

व्यवहार में, दो अलग-अलग मान कार्य $$Q^A$$ और $$Q^B$$ अलग-अलग अनुभवों का उपयोग करके परस्पर सममित तरीके से प्रशिक्षित किया जाता है। डबल क्यू-लर्निंग अपडेट चरण इस प्रकार है:
 * $$Q^A_{t+1}(s_{t}, a_{t}) = Q^A_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^B_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^A_t(s_{t+1}, a)\right) - Q^A_{t}(s_{t}, a_{t})\right)$$, और
 * $$Q^B_{t+1}(s_{t}, a_{t}) = Q^B_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^A_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^B_t(s_{t+1}, a)\right) - Q^B_{t}(s_{t}, a_{t})\right).$$

अब रियायती भविष्य के अनुमानित मान का मानांकन अलग नीति का उपयोग करके किया जाता है, जो अतिरेक के मुद्दे को हल करता है।

इस एल्गोरिथम को बाद में 2015 में संशोधित किया गया और इसे डीप लर्निंग के साथ जोड़ा गया, जैसा कि DQN एल्गोरिथम में होता है, जिसके परिणामस्वरूप डबल DQN होता है, जो मूल DQN एल्गोरिथम से बेहतर प्रदर्शन करता है।

अन्य
विलंबित क्यू-लर्निंग ऑनलाइन क्यू-लर्निंग एल्गोरिदम का वैकल्पिक कार्यान्वयन है, संभवतः लगभग सही लर्निंग|शायद लगभग सही (पीएसी) लर्निंग के साथ। लालची जीक्यू क्यू-लर्निंग का प्रकार है (रैखिक) फ़ंक्शन सन्निकटन के संयोजन में उपयोग करने के लिए। लालची जीक्यू का लाभ यह है कि क्रिया मानों का अनुमान लगाने के लिए फ़ंक्शन सन्निकटन का उपयोग किए जाने पर भी अभिसरण की गारंटी दी जाती है।

डिस्ट्रीब्यूशनल क्यू-लर्निंग क्यू-लर्निंग का प्रकार है जो प्रत्येक क्रिया के अपेक्षित रिटर्न के अतिरिक्त रिटर्न के वितरण का मॉडल बनाना चाहता है। यह गहरे न्यूरल नेटवर्क द्वारा अनुमान लगाने की सुविधा के लिए देखा गया है और जोखिम-संवेदनशील नियंत्रण जैसे वैकल्पिक नियंत्रण विधियों को सक्षम कर सकता है।

मल्टी-एजेंट लर्निंग
क्यू-लर्निंग को मल्टी-एजेंट सेटिंग में प्रस्तावित किया गया है (अनुभाग 4.1.2 देखें)। ). तरीका यह है कि वातावरण निष्क्रिय है। लिटमैन मिनिमैक्स क्यू लर्निंग एल्गोरिथम प्रस्तावित करता है।

सीमाएं
मानक क्यू-लर्निंग एल्गोरिदम (ए $$Q$$ तालिका) केवल असतत कार्रवाई और अवस्था रिक्त स्थान पर प्रायुक्त होती है। इन मानों का विवेकहीनता अक्षम शिक्षा की ओर ले जाता है, मुख्यतः आयामीता के अभिशाप के कारण। चूँकि, क्यू-लर्निंग के अनुकूलन हैं जो इस समस्या को हल करने का प्रयास करते हैं जैसे वायर-फिटेड न्यूरल नेटवर्क क्यू-लर्निंग।

यह भी देखें

 * सुदृढीकरण सीखना
 * अस्थायी अंतर सीखना
 * अवस्था-कार्रवाई-पुरस्कार-अवस्था-कार्रवाई
 * कैदी की दुविधा # पुनरावृत्त कैदी। 27 की दुविधा | पुनरावर्तित कैदी की दुविधा
 * खेल सिद्धांत

बाहरी संबंध

 * Watkins, C.J.C.H. (1989). Learning from Delayed Rewards. PhD thesis, Cambridge University, Cambridge, England.
 * Strehl, Li, Wiewiora, Langford, Littman (2006). PAC model-free reinforcement learning
 * Reinforcement Learning: An Introduction by Richard Sutton and Andrew S. Barto, an online textbook. See "6.5 Q-Learning: Off-Policy TD Control".
 * Piqle: a Generic Java Platform for Reinforcement Learning
 * Reinforcement Learning Maze, a demonstration of guiding an ant through a maze using Q-learning
 * Q-learning work by Gerald Tesauro