क्यू-लर्निंग

From Vigyanwiki

क्यू-लर्निंग एक मॉडल-मुक्त रीइन्फोर्समेंट लर्निंग एल्गोरिथम है जो किसी विशेष स्थिति में किसी क्रिया के मान को जानने के लिए है। इसे पर्यावरण के एक मॉडल (इसलिए मॉडल-मुक्त) की आवश्यकता नहीं है, और यह अनुकूलन की आवश्यकता के बिना स्टोकास्टिक संक्रमण और पुरस्कार के साथ समस्याओं को संभाल सकता है।

किसी भी परिमित मार्कोव निर्णय प्रक्रिया (एफएमडीपी) के लिए, क्यू-लर्निंग वर्तमान स्थिति से प्रारंभ होने वाले किसी भी और सभी क्रमिक चरणों पर कुल पुरस्कार के अपेक्षित मान को अधिकतम करने के अर्थ में इष्टतम नीति पाता है।[1] क्यू-लर्निंग इष्टतम कार्रवाई चयन की पहचान कर सकता है। कार्रवाई-चयन नीति किसी भी दिए गए एफएमडीपी के लिए, अनंत अन्वेषण समय और आंशिक रूप से यादृच्छिक नीति दी गई है।[1] Q उस फ़ंक्शन को संदर्भित करता है जो एल्गोरिदम किसी दिए गए अवस्था में की गई कार्रवाई के लिए अपेक्षित पुरस्कारों की गणना करता है।[2]


रीइन्फोर्समेंट लर्निंग

सुदृढीकरण सीखने में एक बुद्धिमान एजेंट, अवस्थाओं का एक सेट और प्रति अवस्था क्रियाओं का एक सेट सम्मिलित होता है। एक क्रिया करके, एजेंट एक अवस्था से दूसरे अवस्था में संक्रमण करता है। एक विशिष्ट स्थिति में एक क्रिया को निष्पादित करने से एजेंट को एक पुरस्कार (एक संख्यात्मक स्कोर) मिलता है।

एजेंट का लक्ष्य अपने कुल पुरस्कार को अधिकतम करना है। यह भविष्य के अवस्थाओं से प्राप्त होने वाले अधिकतम पुरस्कार को संभावित भविष्य के पुरस्कार द्वारा वर्तमान कार्रवाई को प्रभावी विधि से प्रभावित करने के लिए अपनी वर्तमान स्थिति को प्राप्त करने के लिए पुरस्कार में जोड़कर करता है। यह संभावित पुरस्कार वर्तमान स्थिति से प्रारंभ होने वाले सभी भविष्य के चरणों के पुरस्कारों के अपेक्षित मानों का भारित योग है।

उदाहरण के रूप में, ट्रेन में सवार होने की प्रक्रिया पर विचार करें, जिसमें बोर्डिंग (वैकल्पिक रूप से, ट्रेन में चढ़ने की लागत बोर्डिंग समय के बराबर होती है) में बिताए गए कुल समय के ऋणात्मक द्वारा पुरस्कार को मापा जाता है। रणनीति यह है कि ट्रेन के दरवाजे के खुलते ही उसमें प्रवेश किया जाए, अपने लिए प्रारंभिक प्रतीक्षा समय को कम किया जाए। चूंकि, यदि ट्रेन में भीड़ है, तो दरवाजे से प्रवेश करने की प्रारंभिक कार्रवाई के बाद आपके पास धीमी गति से प्रवेश होगा क्योंकि जब आप चढ़ने का प्रयास करते हैं तो लोग आपसे ट्रेन को छोड़ने के लिए लड़ रहे होते हैं। कुल बोर्डिंग समय, या लागत, तब है:

  • 0 सेकंड प्रतीक्षा समय + 15 सेकंड लड़ाई का समय

अगले दिन, यादृच्छिक संयोग (अन्वेषण) द्वारा, आप प्रतीक्षा करने का निर्णय लेते हैं और अन्य लोगों को पहले जाने देते हैं। यह प्रारंभ में लंबे समय तक प्रतीक्षा समय का परिणाम है। चूंकि, प्रस्थान करने वाले यात्रियों से लड़ने में कम समय व्यतीत होता है। कुल मिलाकर, इस पथ का पुरस्कार पिछले दिन की तुलना में अधिक है, क्योंकि कुल बोर्डिंग समय अब ​​है:

  • 5 सेकंड प्रतीक्षा समय + 0 सेकंड लड़ाई का समय

अन्वेषण के माध्यम से, प्रारंभिक (रोगी) कार्रवाई के अतिरिक्त बलशाली रणनीति की तुलना में बड़ी लागत (या नकारात्मक पुरस्कार) के परिणामस्वरूप, समग्र लागत कम होती है, इस प्रकार अधिक पुरस्कृत रणनीति का विवरण प्राप्त होता है।

एल्गोरिथम

क्यू-लर्निंग टेबल ऑफ स्टेट्स बाय ऐक्शन्स जिसे ज़ीरो से इनिशियलाइज़ किया जाता है, फिर हर सेल को ट्रेनिंग के ज़रिए अपडेट किया जाता है।

भविष्य में चरण उठाने के बाद एजेंट कोई अगला चरण तय करेगा। इस चरण के लिए वजन की गणना के रूप में की जाती है, जहां (डिस्काउंट फैक्टर) 0 और 1 () के बीच की संख्या है और बाद में प्राप्त ("अच्छे प्रारंभ" के मान को दर्शाता है) पुरस्कारों की तुलना में पहले प्राप्त किए गए पुरस्कारों का मूल्यांकन करने का प्रभाव है। को प्रत्येक चरण पर सफल होने (या जीवित रहने) की संभावना के रूप में भी व्याख्या किया जा सकता है।

एल्गोरिथ्म, इसलिए, फ़ंक्शन है जो अवस्था-क्रिया संयोजन की गुणवत्ता की गणना करता है:

.

सीखना प्रारंभ करने से पहले, संभावित स्वैच्छिक निश्चित मान (प्रोग्रामर द्वारा चुना गया) के लिए प्रारंभ किया गया है। फिर, प्रत्येक बार एजेंट क्रिया का चयन करता है, एक पुरस्कार देखता है, नई स्थिति में प्रवेश करता है (जो पिछली स्थिति दोनों पर निर्भर हो सकता है और चयनित क्रिया), और अद्यतन किया गया है। एल्गोरिथम का मूल एक बेलमैन समीकरण है, जो वर्तमान मान के भारित औसत और नई जानकारी का उपयोग करते हुए एक साधारण मान पुनरावृत्ति अद्यतन के रूप में है[3]

जहाँ अवस्था से अवस्था में जाने पर प्राप्त होने वाला पुरस्कार है, और सीखने की दर है।

ध्यान दें कि तीन फैक्टरों का योग है:

  • : वर्तमान मान (घटाकर सीखने की दर से भारित)
  • : पुरस्कार प्राप्त करने के लिए यदि कार्रवाई तब की जाती है जब अवस्था (सीखने की दर से भारित) में होता है
  • : अधिकतम पुरस्कार जो अवस्था (सीखने की दर और डिस्काउंट फैक्टर द्वारा भारित) से प्राप्त किया जा सकता है

एल्गोरिथम का एपिसोड तब समाप्त होता है जब स्थिति अंतिम या अंतिम स्थिति है। चूँकि, क्यू-लर्निंग गैर-एपिसोडिक कार्यों में भी सीख सकता है (अभिसरण अनंत श्रृंखला की संपत्ति के परिणामस्वरूप)। यदि डिस्काउंट फैक्टर 1 से कम है, तो क्रिया मान परिमित हैं, तथापि समस्या में अनंत लूप हो सकते हैं।

सभी अंतिम अवस्थाओं के लिए , कभी भी अपडेट नहीं होता है, किन्तु अवस्था के लिए देखे गए इनाम मूल्य पर सेट होता है। आधिकांश स्थितियों में, को शून्य के बराबर ले जाया जा सकता है।

वेरिएबल्स का प्रभाव

सीखने की दर

सीखने की दर या चरण का आकार निर्धारित करता है कि किस हद तक नई अधिग्रहीत जानकारी पुरानी जानकारी को ओवरराइड करती है। 0 का एक फैक्टर एजेंट को कुछ (विशेष रूप से पूर्व ज्ञान का शोषण) भी नहीं सीखने देता, जबकि 1 का एक फैक्टर एजेंट को केवल सबसे वर्तमान जानकारी (संभावनाओं का पता लगाने के लिए पूर्व ज्ञान की उपेक्षा करना) पर विचार करता है। पूरी तरह से नियतात्मक प्रणाली के वातावरण में, सीखने की दर इष्टतम है। जब समस्या स्टोकेस्टिक प्रणाली की होती है, तो एल्गोरिथम कुछ तकनीकी स्थितियों के अनुसार सीखने की दर पर अभिसरण करता है जिसके लिए इसे शून्य तक कम करने की आवश्यकता होती है। व्यवहार में, अधिकांश निरंतर सीखने की दर का उपयोग किया जाता है, जैसे कि सभी के लिए होता है।[4]


डिस्काउंट फैक्टर

डिस्काउंट फैक्टर भविष्य के पुरस्कारों के महत्व को निर्धारित करता है। 0 का एक फैक्टर केवल वर्तमान पुरस्कारों पर विचार करके एजेंट को "मायोपिक" (या अदूरदर्शी) बना देता है, अर्थात (उपर्युक्त अद्यतन नियम में), जबकि 1 तक पहुंचने वाला फैक्टर इसे दीर्घकालिक उच्च पुरस्कार के लिए प्रयास करता है। यदि डिस्काउंट फैक्टर 1 से मिलता है या उससे अधिक होता है, तो कार्रवाई के मान अलग-अलग हो सकते हैं। के लिए, बिना टर्मिनल स्थिति के, या यदि एजेंट कभी भी तक नहीं पहुंचता है, तो सभी पर्यावरण इतिहास अनंत रूप से लंबे हो जाते हैं, और योगात्मक, बिना छूट वाले पुरस्कारों वाली उपयोगिताएँ सामान्यतः अनंत हो जाती हैं।[5] यहां तक ​​​​कि डिस्काउंट फैक्टर के साथ केवल 1 से थोड़ा कम होने पर, Q-फ़ंक्शन सीखने से त्रुटियों और अस्थिरताओं का प्रसार होता है जब मान फ़ंक्शन को कृत्रिम न्यूरल नेटवर्क के साथ अनुमानित किया जाता है।[6] उस स्थिति में, कम डिस्काउंट फैक्टर के साथ प्रारंभ करना और इसे अपने अंतिम मान की ओर बढ़ाना सीखने को गति देता है।[7]


प्रारंभिक शर्तें (Q0)

चूंकि क्यू-लर्निंग पुनरावृत्त एल्गोरिथम है, इसलिए यह पहला अद्यतन होने से पहले प्रारंभिक स्थिति मानता है। उच्च प्रारंभिक मान, जिसे आशावादी प्रारंभिक स्थितियों के रूप में भी जाना जाता है,[8] अन्वेषण को प्रोत्साहित कर सकता है: कोई फर्क नहीं पड़ता कि क्या कार्रवाई का चयन किया जाता है, अद्यतन नियम अन्य विकल्पों की तुलना में कम मान देगा, इस प्रकार उनकी पसंद की संभावना बढ़ जाती है। प्रारंभिक शर्तों को रीसेट करने के लिए पहले पुरस्कार का उपयोग किया जा सकता है।[9] इस विचार के अनुसार, जब पहली बार कोई कार्य किया जाता है तो पुरस्कार का उपयोग के मान को निर्धारित करने के लिए किया जाता है। यह निश्चित नियतात्मक पुरस्कारों के स्थिति में तत्काल सीखने की अनुमति देता है। प्रारंभिक स्थितियों (आरआईसी) के रीसेट को सम्मिलित करने वाला मॉडल किसी भी स्वैच्छिक प्रारंभिक स्थिति (एआईसी) को मानने वाले मॉडल की तुलना में प्रतिभागियों के व्यवहार की उत्तम भविष्यवाणी करने की आशा करता है।[9] आरआईसी दोहराए गए द्विआधारी विकल्प प्रयोगों में मानव व्यवहार के अनुरूप प्रतीत होता है।[9]


कार्यान्वयन

क्यू-लर्निंग अपने सरलतम रूप में डेटा को तालिकाओं में संग्रहीत करता है। यह दृष्टिकोण अवस्थाओं/कार्रवाइयों की बढ़ती संख्या के साथ विचलित होता है क्योंकि एजेंट के किसी विशेष अवस्था में जाने और किसी विशेष कार्य को करने की संभावना निरंतर कम होती जा रही है।

फ़ंक्शन सन्निकटन

क्यू-लर्निंग को फंक्शन सन्निकटन के साथ जोड़ा जा सकता है।[10] यह एल्गोरिथ्म को बड़ी समस्याओं पर प्रायुक्त करना संभव बनाता है, तब भी जब अवस्था का स्थान निरंतर हो।

एक समाधान (अनुकूलित) कृत्रिम न्यूरल नेटवर्क को फ़ंक्शन सन्निकटन के रूप में उपयोग करना है।[11] एक और संभावना है कि फ़ज़ी रूल इंटरपोलेशन (एफआरआई) को एकीकृत किया जाए और असतत Q-सारणी या एएनएन के अतिरिक्त विरल फ़ज़ी रूल-बेस[12] का उपयोग किया जाए, जिसका मानव-पठनीय ज्ञान प्रतिनिधित्व प्रपत्र होने का लाभ है। फ़ंक्शन सन्निकटन परिमित समस्याओं में सीखने की गति बढ़ा सकता है, इस तथ्य के कारण कि एल्गोरिथ्म पहले के अनदेखे अवस्थाओं के लिए पहले के अनुभवों को सामान्य कर सकता है।

परिमाणीकरण

स्थिति/कार्रवाई स्थान को कम करने के लिए अन्य तकनीक संभावित मानों को परिमाणित करती है। उंगली पर छड़ी को संतुलित करना सीखने के उदाहरण पर विचार करें। निश्चित समय पर अवस्था का वर्णन करने के लिए अंतरिक्ष में उंगली की स्थिति, उसका वेग, छड़ी का कोण और छड़ी का कोणीय वेग सम्मिलित होता है। यह चार-तत्व वेक्टर उत्पन्न करता है जो एक अवस्था का वर्णन करता है, अर्थात् अवस्था का स्नैपशॉट चार मानों में एन्कोड किया गया है। समस्या यह है कि अपरिमित रूप से अनेक संभावित अवस्थाएँ उपस्थित हैं। मान्य क्रियाओं के संभावित स्थान को कम करने के लिए बकेट को कई मान निर्दिष्ट किए जा सकते हैं। अपनी प्रारंभिक स्थिति (- अनंत से अनंत तक) से उंगली की स्पष्ट दूरी ज्ञात नहीं है, किन्तु यह दूर है या नहीं (निकट, दूर) यह भी ज्ञात नहीं है।[13]


इतिहास

क्यू-लर्निंग का प्रारंभ 1989 में क्रिस वाटकिंस ने की थी।[14] 1992 में वाटकिंस और पीटर दयान द्वारा अभिसरण प्रमाण प्रस्तुत किया गया था।[15]

वॉटकिंस अपनी पीएचडी थीसिस के शीर्षक "लर्निंग फ्रॉम डिलेड रिवार्ड्स" को संबोधित कर रहे थे। आठ साल पहले 1981 में "विलंबित सुदृढीकरण सीखने" के नाम से ही समस्या को बोज़िनोव्स्की के क्रॉसबार एडेप्टिव एरे (सीएए) द्वारा समाधान किया गया था।[16][17] मेमोरी मैट्रिक्स क्यू-लर्निंग के आठ साल बाद Q-सारणी के समान था। वास्तुकला ने सुदृढीकरण सीखने में "अवस्था मूल्यांकन" शब्द प्रस्तुत किया था। पेपर में गणितीय स्यूडोकोड में लिखा गया क्रॉसबार लर्निंग एल्गोरिथम, प्रत्येक पुनरावृत्ति में निम्नलिखित संगणना करता है:

  • अवस्था में s क्रिया a निष्पादित करें;
  • परिणाम स्थिति s' प्राप्त करें;
  • गणना अवस्था मूल्यांकन ;
  • अद्यतन क्रॉसबार मान .

"द्वितीयक सुदृढीकरण" शब्द को पशु सीखने के सिद्धांत से उधार लिया गया है, बैकप्रोपैजेशन के माध्यम से अवस्था के मानों को मॉडल करने के लिए: परिणामी स्थिति का अवस्था मूल्य v (s ') पहले से सामना की गई स्थितियों के लिए वापस प्रचारित किया गया है। सीएए अवस्था मानों की लंबवत और क्रियाओं की क्षैतिज रूप से (क्रॉसबार) गणना करता है। विलंबित सुदृढीकरण सीखने वाले प्रदर्शन ग्राफ में अवस्थाओं (वांछनीय, अवांछनीय और तटस्थ अवस्थाओं) को दिखाया गया है, जिनकी गणना अवस्था मूल्यांकन समारोह द्वारा की गई थी। यह लर्निंग प्रणाली क्यू-लर्निंग एल्गोरिथम का अग्रदूत था।[18]

2014 में, गूगल डीपमाइंड ने[19] गहरी शिक्षा के लिए क्यू-लर्निंग के एक आवेदन का पेटेंट कराया था, जिसका शीर्षक डीप रीइन्फोर्समेंट लर्निंग या डीप क्यू-लर्निंग है, जो विशेषज्ञ मानव स्तरों पर अटारी 2600 गेम खेल सकता है।

वेरिएंट

डीप क्यू-लर्निंग

डीपमाइंड प्रणाली ने ग्रहणशील क्षेत्रों के प्रभावों की नकल करने के लिए टाइल वाले कनवल्शनल फिल्टर की परतों के साथ गहरे दृढ़ न्यूरल नेटवर्क का उपयोग किया था। रीइन्फोर्समेंट लर्निंग अस्थिर या भिन्न होता है जब Q का प्रतिनिधित्व करने के लिए गैर-रैखिक फ़ंक्शन सन्निकटन जैसे न्यूरल नेटवर्क का उपयोग किया जाता है। यह अस्थिरता टिप्पणियों के अनुक्रम में उपस्थित सहसंबंधों से आती है, तथ्य यह है कि Q के छोटे अद्यतन एजेंट की नीति और डेटा वितरण और Q और लक्ष्य मूल्यों के बीच के संबंधों को महत्वपूर्ण रूप से बदल सकते हैं। विधि का उपयोग विभिन्न डोमेन और अनुप्रयोगों में स्टोकेस्टिक खोज के लिए किया जा सकता है।[20]

उपयोग की गई विधि एक जैविक रूप से प्रेरित तंत्र को फिर से चलाती है जो आगे बढ़ने के लिए सबसे वर्तमान की कार्रवाई के अतिरिक्त पूर्व क्रियाओं के यादृच्छिक नमूने का उपयोग करती है।[2] यह अवलोकन अनुक्रम में सहसंबंधों को हटा देता है और डेटा वितरण में परिवर्तन को सुगम बनाता है। पुनरावर्ती अद्यतन Q को लक्ष्य मानों की ओर समायोजित करते हैं जो केवल समय-समय पर अद्यतन किए जाते हैं, और लक्ष्य के साथ सहसंबंधों को और कम करते हैं।[21]


डबल क्यू-लर्निंग

क्योंकि क्यू-लर्निंग में भविष्य के अधिकतम अनुमानित एक्शन वैल्यू का मूल्यांकन उसी Q फ़ंक्शन का उपयोग करके किया जाता है जैसा कि वर्तमान एक्शन सिलेक्शन पॉलिसी में होता है, शोरगुल वाले वातावरण में क्यू-लर्निंग कभी-कभी एक्शन वैल्यू को कम कर सकता है, सीखने को धीमा कर सकता है। इसे ठीक करने के लिए डबल क्यू-लर्निंग नामक संस्करण प्रस्तावित किया गया था। डबल क्यू-लर्निंग[22] एक ऑफ पॉलिसी रीइन्फोर्समेंट लर्निंग एल्गोरिथम है, जहां मान मूल्यांकन के लिए अलग नीति का उपयोग किया जाता है, जो अगली कार्रवाई का चयन करने के लिए उपयोग की जाती है।

व्यवहार में, दो अलग-अलग मान कार्य और अलग-अलग अनुभवों का उपयोग करके परस्पर सममित विधि से प्रशिक्षित किया जाता है। डबल क्यू-लर्निंग अपडेट चरण इस प्रकार है:

, और

अब रियायती भविष्य के अनुमानित मान का मूल्यांकन अलग नीति का उपयोग करके किया जाता है, जो अतिरेक के उद्देश्य को समाधान करता है।

इस एल्गोरिथम को बाद में 2015 में संशोधित किया गया और इसे डीप लर्निंग के साथ जोड़ा गया,[23] जैसा कि डीक्यूएन एल्गोरिथम में होता है, जिसके परिणामस्वरूप डबल डीक्यूएन होता है, जो मूल डीक्यूएन एल्गोरिथम से उत्तम प्रदर्शन करता है।[24]


अन्य

विलंबित क्यू-लर्निंग संभवत: लगभग सही (पीएसी) लर्निंग के साथ ऑनलाइन क्यू-लर्निंग एल्गोरिदम का एक वैकल्पिक कार्यान्वयन है।[25]

ग्रीडी जीक्यू क्यू-लर्निंग का प्रकार है (रैखिक) फ़ंक्शन सन्निकटन के संयोजन में उपयोग करने के लिए।[26] ग्रीडी जीक्यू का लाभ यह है कि क्रिया मानों का अनुमान लगाने के लिए फ़ंक्शन सन्निकटन का उपयोग किए जाने पर भी अभिसरण की गारंटी दी जाती है।

डिस्ट्रीब्यूशनल क्यू-लर्निंग क्यू-लर्निंग का एक प्रकार है जो प्रत्येक क्रिया के अपेक्षित रिटर्न के अतिरिक्त रिटर्न के वितरण का मॉडल बनाना चाहता है। यह गहरे न्यूरल नेटवर्क द्वारा अनुमान लगाने की सुविधा के लिए देखा गया है और जोखिम-संवेदनशील नियंत्रण जैसे वैकल्पिक नियंत्रण विधियों को सक्षम कर सकता है।[27]


मल्टी-एजेंट लर्निंग

क्यू-लर्निंग को मल्टी-एजेंट सेटिंग (अनुभाग 4.1.2 देखें) में प्रस्तावित किया गया है।[28] एक विधि यह है कि वातावरण निष्क्रिय है।[29] लिटमैन मिनिमैक्स क्यू लर्निंग एल्गोरिथम प्रस्तावित करता है।[30]


सीमाएं

मानक क्यू-लर्निंग एल्गोरिदम ( तालिका का उपयोग करके) केवल असतत क्रिया और राज्य रिक्त स्थान पर लागू होता है। इन मानों का विवेकहीनता बड़े पैमाने पर आयामीता के अभिशाप के कारण अकुशल शिक्षा की ओर ले जाता है। चूँकि, क्यू-लर्निंग के अनुकूलन हैं जो इस समस्या को समाधान करने का प्रयास करते हैं जैसे वायर-फिटेड न्यूरल नेटवर्क क्यू-लर्निंग।[31]


यह भी देखें

  • रीइन्फोर्समेंट लर्निंग
  • अस्थायी अंतर सीखना
  • अवस्था-कार्रवाई-पुरस्कार-अवस्था-कार्रवाई
  • कैदी की दुविधा # पुनरावृत्त कैदी। 27 की दुविधा | पुनरावर्तित कैदी की दुविधा
  • खेल सिद्धांत

संदर्भ

  1. 1.0 1.1 Melo, Francisco S. "Convergence of Q-learning: a simple proof" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
  2. 2.0 2.1 Matiisen, Tambet (December 19, 2015). "डीप रीइंफोर्समेंट लर्निंग को डीमिस्टिफाई करना". neuro.cs.ut.ee (in English). Computational Neuroscience Lab. Retrieved 2018-04-06.
  3. Dietterich, Thomas G. (21 May 1999). "MAXQ मान फ़ंक्शन अपघटन के साथ श्रेणीबद्ध सुदृढीकरण सीखना". arXiv:cs/9905014. Retrieved 11 April 2023.
  4. Sutton, Richard; Barto, Andrew (1998). Reinforcement Learning: An Introduction. MIT Press.
  5. Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (Third ed.). Prentice Hall. p. 649. ISBN 978-0136042594.
  6. Baird, Leemon (1995). "Residual algorithms: Reinforcement learning with function approximation" (PDF). ICML: 30–37.
  7. François-Lavet, Vincent; Fonteneau, Raphael; Ernst, Damien (2015-12-07). "How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies". arXiv:1512.02011 [cs.LG].
  8. Sutton, Richard S.; Barto, Andrew G. "2.7 Optimistic Initial Values". Reinforcement Learning: An Introduction. Archived from the original on 2013-09-08. Retrieved 2013-07-18.
  9. 9.0 9.1 9.2 Shteingart, Hanan; Neiman, Tal; Loewenstein, Yonatan (May 2013). "ऑपरेटिव लर्निंग में पहली छाप की भूमिका।" (PDF). Journal of Experimental Psychology: General (in English). 142 (2): 476–488. doi:10.1037/a0029550. ISSN 1939-2222. PMID 22924882.
  10. Hasselt, Hado van (5 March 2012). "Reinforcement Learning in Continuous State and Action Spaces". In Wiering, Marco; Otterlo, Martijn van (eds.). Reinforcement Learning: State-of-the-Art. Springer Science & Business Media. pp. 207–251. ISBN 978-3-642-27645-3.
  11. Tesauro, Gerald (March 1995). "टेम्पोरल डिफरेंस लर्निंग और टीडी-गैमन". Communications of the ACM. 38 (3): 58–68. doi:10.1145/203330.203343. S2CID 8763243. Retrieved 2010-02-08.
  12. Vincze, David (2017). "फ़ज़ी रूल इंटरपोलेशन और रीइन्फोर्समेंट लर्निंग" (PDF). IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE: 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
  13. Krishnan, Srivatsan; Lam, Maximilian; Chitlangia, Sharad; Wan, Zishen; Barth-Maron, Gabriel; Faust, Aleksandra; Reddi, Vijay Janapa (13 November 2022). "QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning". arXiv:1910.01055 [cs]. Retrieved 11 April 2023.
  14. Watkins, C.J.C.H. (1989). विलंबित पुरस्कारों से सीखना (PDF) (Ph.D. thesis). University of Cambridge. EThOS uk.bl.ethos.330022.
  15. Watkins, Chris; Dayan, Peter (1992). "क्यू-लर्निंग". Machine Learning. 8 (3–4): 279–292. doi:10.1007/BF00992698.
  16. Bozinovski, S. (15 July 1999). "Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem". In Dobnikar, Andrej; Steele, Nigel C.; Pearson, David W.; Albrecht, Rudolf F. (eds.). Artificial Neural Nets and Genetic Algorithms: Proceedings of the International Conference in Portorož, Slovenia, 1999. Springer Science & Business Media. pp. 320–325. ISBN 978-3-211-83364-3.
  17. Bozinovski, S. (1982). "A self learning system using secondary reinforcement". In Trappl, Robert (ed.). Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397–402. ISBN 978-0-444-86488-8.
  18. Barto, A. (24 February 1997). "Reinforcement learning". In Omidvar, Omid; Elliott, David L. (eds.). नियंत्रण के लिए तंत्रिका तंत्र. Elsevier. ISBN 978-0-08-053739-9.
  19. "Methods and Apparatus for Reinforcement Learning, US Patent #20150100530A1" (PDF). US Patent Office. 9 April 2015. Retrieved 28 July 2018.
  20. Matzliach B.; Ben-Gal I.; Kagan E. (2022). "डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना" (PDF). Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.
  21. Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K. (Feb 2015). "गहन सुदृढीकरण सीखने के माध्यम से मानव-स्तर पर नियंत्रण". Nature (in English). 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. ISSN 0028-0836. PMID 25719670. S2CID 205242740.
  22. van Hasselt, Hado (2011). "डबल क्यू-लर्निंग" (PDF). Advances in Neural Information Processing Systems. 23: 2613–2622.
  23. van Hasselt, Hado; Guez, Arthur; Silver, David (8 December 2015). "डबल क्यू-लर्निंग के साथ डीप रीइंफोर्समेंट लर्निंग". arXiv:1509.06461 [cs]. Retrieved 11 April 2023.
  24. van Hasselt, Hado; Guez, Arthur; Silver, David (2015). "डबल क्यू-लर्निंग के साथ डीप रीइन्फोर्समेंट लर्निंग" (PDF). AAAI Conference on Artificial Intelligence: 2094–2100. arXiv:1509.06461.
  25. Strehl, Alexander L.; Li, Lihong; Wiewiora, Eric; Langford, John; Littman, Michael L. (2006). "पीएसी मॉडल-मुक्त सुदृढीकरण सीखना" (PDF). Proc. 22nd ICML: 881–888.
  26. Maei, Hamid; Szepesvári, Csaba; Bhatnagar, Shalabh; Sutton, Richard (2010). "Toward off-policy learning control with function approximation in Proceedings of the 27th International Conference on Machine Learning" (PDF). pp. 719–726. Archived from the original (PDF) on 2012-09-08. Retrieved 2016-01-25.
  27. Hessel, Matteo; Modayil, Joseph; van Hasselt, Hado; Schaul, Tom; Ostrovski, Georg; Dabney, Will; Horgan, Dan; Piot, Bilal; Azar, Mohammad; Silver, David (February 2018). "Rainbow: Combining Improvements in Deep Reinforcement Learning". AAAI Conference on Artificial Intelligence. 32. arXiv:1710.02298. doi:10.1609/aaai.v32i1.11796. S2CID 19135734.
  28. Shoham, Yoav; Powers, Rob; Grenager, Trond (1 May 2007). "If multi-agent learning is the answer, what is the question?". Artificial Intelligence. 171 (7): 365–377. doi:10.1016/j.artint.2006.02.006. ISSN 0004-3702. Retrieved 4 April 2023.
  29. Sen, Sandip; Sekaran, Mahendra; Hale, John (1 August 1994). "जानकारी साझा किए बिना समन्वय करना सीखना". Proceedings of the Twelfth AAAI National Conference on Artificial Intelligence. AAAI Press: 426–431. Retrieved 4 April 2023.
  30. Littman, Michael L. (10 July 1994). "मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग के लिए एक फ्रेमवर्क के रूप में मार्कोव गेम्स". Proceedings of the Eleventh International Conference on International Conference on Machine Learning. Morgan Kaufmann Publishers Inc.: 157–163. Retrieved 4 April 2023.
  31. Gaskett, Chris; Wettergreen, David; Zelinsky, Alexander (1999). "क्यू-लर्निंग इन कंटीन्यूअस स्टेट एंड एक्शन स्पेसेस" (PDF).


बाहरी संबंध