क्यू-लर्निंग

क्यू-लर्निंग मॉडल-मुक्त (सुदृढ़ीकरण सीखना)  है | मॉडल-फ्री रीइन्फोर्समेंट लर्निंग एल्गोरिद्म किसी विशेष राज्य में किसी क्रिया के मूल्य को जानने के लिए। इसे पर्यावरण के मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।

किसी भी परिमित मार्कोव निर्णय प्रक्रिया (FMDP) के लिए, Q-शिक्षण वर्तमान स्थिति से शुरू होने वाले किसी भी और सभी क्रमिक चरणों पर कुल इनाम के अपेक्षित मूल्य को अधिकतम करने के अर्थ में इष्टतम नीति पाता है। क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है | कार्रवाई-चयन नीति किसी भी दिए गए FMDP के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है। क्यू फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम गणना करता है - किसी दिए गए राज्य में की गई कार्रवाई के लिए अपेक्षित पुरस्कार।

सुदृढीकरण सीखना
सुदृढीकरण सीखने में बुद्धिमान एजेंट, राज्यों का समूह शामिल होता है $S$, और सेट $A$ प्रति राज्य कार्रवाइयों का। क्रिया करके $$a \in A$$, एजेंट राज्य से राज्य में संक्रमण करता है। विशिष्ट स्थिति में क्रिया को निष्पादित करने से एजेंट को इनाम (संख्यात्मक स्कोर) मिलता है।

एजेंट का लक्ष्य अपने कुल इनाम को अधिकतम करना है। यह भविष्य के राज्यों से प्राप्य अधिकतम इनाम को अपनी वर्तमान स्थिति को प्राप्त करने के लिए इनाम में जोड़कर करता है, संभावित भविष्य के इनाम द्वारा वर्तमान कार्रवाई को प्रभावी ढंग से प्रभावित करता है। यह संभावित इनाम वर्तमान स्थिति से शुरू होने वाले सभी भविष्य के कदमों के पुरस्कारों के अपेक्षित मूल्यों का भारित योग है।

उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग में बिताए गए कुल समय के ऋणात्मक द्वारा इनाम को मापा जाता है (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है)। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए शुरुआती प्रतीक्षा समय को कम किया जाए। हालांकि, अगर ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:


 * 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय

अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह शुरू में लंबे समय तक प्रतीक्षा समय का परिणाम है। हालांकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का इनाम पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब ​​है:


 * 5 सेकंड का वेट टाइम + 0 सेकंड का फाइट टाइम

अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के बावजूद बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक इनाम) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का खुलासा होता है।

एल्गोरिथम
बाद $$\Delta t$$ भविष्य में कदम एजेंट कुछ अगला कदम तय करेगा। इस चरण के लिए वजन की गणना इस प्रकार की जाती है $$\gamma^{\Delta t}$$, कहाँ $$\gamma$$ (छूट कारक) 0 और 1 के बीच संख्या है ($$0 \le \gamma \le 1$$) और बाद में प्राप्त पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है (अच्छी शुरुआत के मूल्य को दर्शाता है)। $$ \gamma $$ हर कदम पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या की जा सकती है $$\Delta t$$.

एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो राज्य-क्रिया संयोजन की गुणवत्ता की गणना करता है:


 * $$Q: S \times A \to \mathbb{R}$$.

सीखना शुरू करने से पहले, $Q$ संभावित मनमाना निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, हर बार $$t$$ एजेंट क्रिया का चयन करता है $$a_t$$, इनाम देखता है $$r_t$$, नई स्थिति में प्रवेश करता है $$s_{t+1}$$ (जो पिछली स्थिति दोनों पर निर्भर हो सकता है $$s_t$$ और चयनित क्रिया), और $$Q$$ यह अद्यतित है। एल्गोरिथ्म का मूल साधारण मार्कोव निर्णय प्रक्रिया#मूल्य पुनरावृत्ति के रूप में बेलमैन समीकरण है, जो वर्तमान मूल्य के भारित औसत और नई जानकारी का उपयोग करता है:
 * $$Q^{new}(s_{t},a_{t}) \leftarrow (1 - \underbrace{\alpha}_{\text{learning rate}}) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{current value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \bigg( \underbrace{\underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}}}_{\text{new value (temporal difference target)}} \bigg) $$

कहाँ$$r_{t}$$राज्य से जाने पर मिलने वाला इनाम है $$s_{t}$$ राज्य को $$s_{t+1}$$, और $$\alpha$$ सीखने की दर है $$(0 < \alpha \le 1)$$.

ध्यान दें कि $$Q^{new}(s_t,a_t)$$ तीन कारकों का योग है:


 * $$(1 - \alpha)Q(s_t,a_t)$$: वर्तमान मूल्य (घटाकर सीखने की दर से भारित)
 * $$\alpha \, r_t$$: पुरस्कार $$r_t=r(s_t,a_t)$$ कार्रवाई प्राप्त करने के लिए $$a_t$$ राज्य में होने पर लिया जाता है $$s_t$$ (सीखने की दर से भारित)
 * $$\alpha \gamma \max_{a}Q(s_{t+1},a)$$: अधिकतम इनाम जो राज्य से प्राप्त किया जा सकता है $$s_{t+1}$$(सीखने की दर और छूट कारक द्वारा भारित)

एल्गोरिथम का एपिसोड तब समाप्त होता है जब State $$s_{t+1}$$ अंतिम या अंतिम स्थिति है। हालाँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि छूट कारक 1 से कम है, तो क्रिया मान परिमित हैं, भले ही समस्या में अनंत लूप हो सकते हैं।

सभी अंतिम राज्यों के लिए $$s_f$$, $$Q(s_f, a)$$ कभी भी अपडेट नहीं होता है, लेकिन इनाम मूल्य पर सेट होता है $$r$$ राज्य के लिए मनाया $$s_f$$. अधिकतर परिस्थितियों में, $$Q(s_f,a)$$ शून्य के बराबर ले जाया जा सकता है।

सीखने की दर
सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का कारक एजेंट को कुछ भी नहीं सीखने देता (विशेष रूप से पूर्व ज्ञान का शोषण), जबकि 1 का कारक एजेंट को केवल सबसे हाल की जानकारी पर विचार करता है (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना)। पूरी तरह से नियतात्मक प्रणाली के वातावरण में, सीखने की दर $$\alpha_t = 1$$ इष्टतम है। जब समस्या स्टोकेस्टिक सिस्टम  की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के तहत सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अक्सर निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि $$\alpha_t = 0.1$$ सभी के लिए $$t$$.

डिस्काउंट कारक
छूट का कारक $\gamma$ भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का कारक केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को मायोपिक (या अदूरदर्शी) बना देगा, अर्थात। $$r_t$$ (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला कारक इसे दीर्घकालिक उच्च इनाम के लिए प्रयास करेगा। यदि छूट कारक 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए $\gamma = 1$, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास असीम रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ आम तौर पर अनंत हो जाती हैं। यहां तक ​​​​कि छूट कारक के साथ केवल 1 से थोड़ा कम होने पर, क्यू-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन कृत्रिम तंत्रिका नेटवर्क के साथ अनुमानित होता है। उस स्थिति में, कम छूट कारक के साथ शुरू करना और इसे अपने अंतिम मूल्य की ओर बढ़ाना सीखने को गति देता है।

प्रारंभिक शर्तें (क्यू0)
चूंकि क्यू-लर्निंग पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मूल्य, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है, अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाएगी। पहला इनाम $$r$$ प्रारंभिक स्थितियों को रीसेट करने के लिए इस्तेमाल किया जा सकता है। इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो इनाम का मूल्य निर्धारित करने के लिए उपयोग किया जाता है $$Q$$. यह निश्चित नियतात्मक पुरस्कारों के मामले में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को शामिल करने वाला मॉडल किसी भी मनमानी प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की बेहतर भविष्यवाणी करने की उम्मीद करता है। आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।

कार्यान्वयन
क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण राज्यों/कार्रवाइयों की बढ़ती संख्या के साथ लड़खड़ाता है क्योंकि एजेंट के किसी विशेष राज्य में जाने और किसी विशेष कार्य को करने की संभावना लगातार कम होती जा रही है।

फ़ंक्शन सन्निकटन
क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है। यह एल्गोरिथ्म को बड़ी समस्याओं पर लागू करना संभव बनाता है, तब भी जब राज्य का स्थान निरंतर हो।

समाधान (अनुकूलित) कृत्रिम तंत्रिका नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है। और संभावना है कि फजी नियम इंटरपोलेशन (FRI) को एकीकृत किया जाए और विरल फ़ज़ी रूल | फ़ज़ी रूल-बेस का उपयोग किया जाए असतत क्यू-टेबल या एएनएन के बजाय, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे राज्यों के लिए पहले के अनुभवों को सामान्य कर सकता है।

परिमाणीकरण
स्थिति/कार्रवाई स्थान को कम करने के लिए अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। निश्चित समय पर राज्य का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का कोणीय वेग शामिल होता है। यह चार-तत्व वेक्टर उत्पन्न करता है जो राज्य का वर्णन करता है, यानी राज्य का स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ मौजूद हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी शुरुआती स्थिति (-इन्फिनिटी टू इनफिनिटी) से उंगली की सटीक दूरी ज्ञात नहीं है, बल्कि यह दूर है या नहीं (निकट, दूर)।

इतिहास
क्यू-लर्निंग की शुरुआत 1989 में क्रिस वाटकिंस ने की थी। 1992 में वाटकिंस और पीटर दयान द्वारा अभिसरण प्रमाण प्रस्तुत किया गया था। वॉटकिंस अपनी पीएचडी थीसिस के शीर्षक "लर्निंग फ्रॉम डिलेड रिवार्ड्स" को संबोधित कर रहे थे। आठ साल पहले 1981 में "विलंबित सुदृढीकरण सीखने" के नाम से ही समस्या को बोज़िनोव्स्की के क्रॉसबार एडेप्टिव एरे (सीएए) द्वारा हल किया गया था। मेमोरी मैट्रिक्स $$W = \|w(a,s)\|$$ क्यू-लर्निंग के आठ साल बाद क्यू-टेबल के समान था। वास्तुकला ने सुदृढीकरण सीखने में "राज्य मूल्यांकन" शब्द पेश किया। पेपर में गणितीय स्यूडोकोड में लिखा गया क्रॉसबार लर्निंग एल्गोरिथम, प्रत्येक पुनरावृत्ति में निम्नलिखित संगणना करता है:


 * राज्य में $s$ काम करना $a$;
 * परिणाम स्थिति प्राप्त करें $s'$;
 * गणना राज्य मूल्यांकन $v(s')$;
 * अद्यतन क्रॉसबार मान $$w'(a,s) = w(a,s) + v(s')$$.

"द्वितीयक सुदृढीकरण" शब्द को पशु सीखने के सिद्धांत से उधार लिया गया है, backpropagation के माध्यम से राज्य के मूल्यों को मॉडल करने के लिए: राज्य मूल्य v(s')}परिणाम की स्थिति का } पहले से सामना की गई स्थितियों के लिए वापस प्रचारित किया गया है। CAA राज्य मूल्यों की लंबवत और क्रियाओं की क्षैतिज रूप से गणना करता है (क्रॉसबार)। विलंबित सुदृढीकरण सीखने वाले प्रदर्शन ग्राफ में राज्यों (वांछनीय, अवांछनीय और तटस्थ राज्यों) को दिखाया गया है, जिनकी गणना राज्य मूल्यांकन समारोह द्वारा की गई थी। यह लर्निंग सिस्टम क्यू-लर्निंग एल्गोरिथम का अग्रदूत था। 2014 में, Google DeepMind ने पेटेंट कराया गहरी शिक्षा के लिए क्यू-लर्निंग का अनुप्रयोग, जिसका शीर्षक डीप रीइन्फोर्समेंट लर्निंग या ध्यान लगा के पढ़ना या सीखना है, जो विशेषज्ञ मानव स्तरों पर अटारी 2600 गेम खेल सकता है।

दीप क्यू-लर्निंग
डीपमाइंड सिस्टम ने ग्रहणशील क्षेत्रों के प्रभावों की नकल करने के लिए टाइल वाले कनवल्शनल फिल्टर की परतों के साथ गहरे दृढ़ तंत्रिका नेटवर्क का उपयोग किया। सुदृढीकरण सीखना अस्थिर या भिन्न होता है जब क्यू का प्रतिनिधित्व करने के लिए गैर-रैखिक फ़ंक्शन सन्निकटन जैसे तंत्रिका नेटवर्क का उपयोग किया जाता है। यह अस्थिरता टिप्पणियों के अनुक्रम में मौजूद सहसंबंधों से आती है, तथ्य यह है कि क्यू के छोटे अद्यतन एजेंट की नीति को महत्वपूर्ण रूप से बदल सकते हैं और डेटा वितरण, और क्यू और लक्ष्य मूल्यों के बीच संबंध। विधि का उपयोग विभिन्न डोमेन और अनुप्रयोगों में स्टोकेस्टिक खोज के लिए किया जा सकता है। तकनीक ने अनुभव रीप्ले का उपयोग किया, जैविक रूप से प्रेरित तंत्र जो आगे बढ़ने के लिए सबसे हाल की कार्रवाई के बजाय पूर्व क्रियाओं के यादृच्छिक नमूने का उपयोग करता है। यह अवलोकन अनुक्रम में सहसंबंधों को हटा देता है और डेटा वितरण में परिवर्तन को सुगम बनाता है। पुनरावर्ती अद्यतन Q को लक्ष्य मानों की ओर समायोजित करते हैं जो केवल समय-समय पर अद्यतन किए जाते हैं, लक्ष्य के साथ सहसंबंधों को और कम करते हैं।

डबल क्यू-लर्निंग
क्योंकि क्यू-लर्निंग में भविष्य के अधिकतम अनुमानित एक्शन वैल्यू का मूल्यांकन उसी क्यू फ़ंक्शन का उपयोग करके किया जाता है जैसा कि वर्तमान एक्शन सिलेक्शन पॉलिसी में होता है, शोरगुल वाले वातावरण में क्यू-लर्निंग कभी-कभी एक्शन वैल्यू को कम कर सकता है, सीखने को धीमा कर सकता है। इसे ठीक करने के लिए डबल क्यू-लर्निंग नामक संस्करण प्रस्तावित किया गया था। डबल क्यू-लर्निंग ऑफ नीति रीइन्फोर्समेंट लर्निंग एल्गोरिथम है, जहां मूल्य मूल्यांकन के लिए अलग नीति का उपयोग किया जाता है, जो अगली कार्रवाई का चयन करने के लिए उपयोग की जाती है।

व्यवहार में, दो अलग-अलग मूल्य कार्य $$Q^A$$ और $$Q^B$$ अलग-अलग अनुभवों का उपयोग करके परस्पर सममित तरीके से प्रशिक्षित किया जाता है। डबल क्यू-लर्निंग अपडेट चरण इस प्रकार है:
 * $$Q^A_{t+1}(s_{t}, a_{t}) = Q^A_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^B_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^A_t(s_{t+1}, a)\right) - Q^A_{t}(s_{t}, a_{t})\right)$$, और
 * $$Q^B_{t+1}(s_{t}, a_{t}) = Q^B_{t}(s_{t}, a_{t}) + \alpha_{t}(s_{t}, a_{t}) \left(r_{t} + \gamma Q^A_{t}\left(s_{t+1}, \mathop\operatorname{arg~max}_{a} Q^B_t(s_{t+1}, a)\right) - Q^B_{t}(s_{t}, a_{t})\right).$$

अब रियायती भविष्य के अनुमानित मूल्य का मूल्यांकन अलग नीति का उपयोग करके किया जाता है, जो अतिरेक के मुद्दे को हल करता है।

इस एल्गोरिथम को बाद में 2015 में संशोधित किया गया और इसे डीप लर्निंग के साथ जोड़ा गया, जैसा कि DQN एल्गोरिथम में होता है, जिसके परिणामस्वरूप डबल DQN होता है, जो मूल DQN एल्गोरिथम से बेहतर प्रदर्शन करता है।

अन्य
विलंबित क्यू-लर्निंग ऑनलाइन क्यू-लर्निंग एल्गोरिदम का वैकल्पिक कार्यान्वयन है, संभवतः लगभग सही लर्निंग|शायद लगभग सही (पीएसी) लर्निंग के साथ। लालची जीक्यू क्यू-लर्निंग का प्रकार है (रैखिक) फ़ंक्शन सन्निकटन के संयोजन में उपयोग करने के लिए। लालची जीक्यू का लाभ यह है कि क्रिया मूल्यों का अनुमान लगाने के लिए फ़ंक्शन सन्निकटन का उपयोग किए जाने पर भी अभिसरण की गारंटी दी जाती है।

डिस्ट्रीब्यूशनल क्यू-लर्निंग क्यू-लर्निंग का प्रकार है जो प्रत्येक क्रिया के अपेक्षित रिटर्न के बजाय रिटर्न के वितरण का मॉडल बनाना चाहता है। यह गहरे तंत्रिका नेटवर्क द्वारा अनुमान लगाने की सुविधा के लिए देखा गया है और जोखिम-संवेदनशील नियंत्रण जैसे वैकल्पिक नियंत्रण विधियों को सक्षम कर सकता है।

मल्टी-एजेंट लर्निंग
क्यू-लर्निंग को मल्टी-एजेंट सेटिंग में प्रस्तावित किया गया है (अनुभाग 4.1.2 देखें)। ). तरीका यह है कि वातावरण निष्क्रिय है। लिटमैन मिनिमैक्स क्यू लर्निंग एल्गोरिथम प्रस्तावित करता है।

सीमाएं
मानक क्यू-लर्निंग एल्गोरिदम (ए $$Q$$ तालिका) केवल असतत कार्रवाई और राज्य रिक्त स्थान पर लागू होती है। इन मूल्यों का विवेकहीनता अक्षम शिक्षा की ओर ले जाता है, मुख्यतः आयामीता के अभिशाप के कारण। हालाँकि, क्यू-लर्निंग के अनुकूलन हैं जो इस समस्या को हल करने का प्रयास करते हैं जैसे वायर-फिटेड न्यूरल नेटवर्क क्यू-लर्निंग।

यह भी देखें

 * सुदृढीकरण सीखना
 * अस्थायी अंतर सीखना
 * राज्य-कार्रवाई-इनाम-राज्य-कार्रवाई
 * कैदी की दुविधा # पुनरावृत्त कैदी। 27 की दुविधा | पुनरावर्तित कैदी की दुविधा
 * खेल सिद्धांत

बाहरी संबंध

 * Watkins, C.J.C.H. (1989). Learning from Delayed Rewards. PhD thesis, Cambridge University, Cambridge, England.
 * Strehl, Li, Wiewiora, Langford, Littman (2006). PAC model-free reinforcement learning
 * Reinforcement Learning: An Introduction by Richard Sutton and Andrew S. Barto, an online textbook. See "6.5 Q-Learning: Off-Policy TD Control".
 * Piqle: a Generic Java Platform for Reinforcement Learning
 * Reinforcement Learning Maze, a demonstration of guiding an ant through a maze using Q-learning
 * Q-learning work by Gerald Tesauro