रीइंफोर्समेंट लर्निंग

रीइन्फोर्समेंट लर्निंग (आरएल) यंत्र अधिगम  का एक क्षेत्र है, जो इस बात से संबंधित है कि पुरस्कार-आधारित चयन की धारणा को अधिकतम करने के लिए बुद्धिमान एजेंटों को पर्यावरण में कार्रवाई का चयन कैसे करना चाहिए। रीइन्फोर्समेंट लर्निंग तीन बुनियादी मशीन लर्निंग प्रतिमानों में से एक है, पर्यवेक्षित शिक्षण और अनुपयोगी शिक्षण के साथ।

सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है, और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके बजाय ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है। पर्यावरण को आमतौर पर मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम गतिशील प्रोग्रामिंग तकनीकों का उपयोग करते हैं। शास्त्रीय गतिशील प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक सटीक गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां सटीक तरीके अव्यवहारिक हो जाते हैं।

परिचय
इसकी व्यापकता के कारण, खेल सिद्धांत, कंट्रोल थ्योरी,  गतिविधि अनुसंधान , सूचना सिद्धांत, अनुकरण आधारित अनुकूलन,  बहु एजेंट प्रणाली , झुंड खुफिया और  आंकड़े  जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में, सुदृढीकरण सीखने को अनुमानित गतिशील प्रोग्रामिंग या न्यूरो-गतिशील प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम [[नियंत्रण सिद्धांत]] में भी अध्ययन किया गया है, जो ज्यादातर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है, और उनकी सटीक गणना के लिए एल्गोरिदम, और सीखने या सन्निकटन के साथ कम, विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल। अर्थशास्त्र और गेम थ्योरी में, रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।

बुनियादी सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया | मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:


 * पर्यावरण और एजेंट राज्यों का एक सेट, $S$;
 * क्रियाओं का एक सेट, $A$, एजेंट का;
 * $$P_a(s,s')=\Pr(s_{t+1}=s'\mid s_t=s, a_t=a)$$ संक्रमण की संभावना है (time $$t$$) राज्य से $$s$$ कहना $$s'$$ कार्रवाई के तहत $$a$$.
 * $$R_a(s,s')$$ से संक्रमण के बाद तत्काल इनाम है $$s$$ को $$s'$$ कार्रवाई के साथ $$a$$.

सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम, या लगभग-इष्टतम, नीति सीखना है जो इनाम समारोह या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए, जैविक दिमाग दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं, और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में शामिल होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं। एक बुनियादी सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में बातचीत करता है। हर बार $t$, एजेंट को वर्तमान स्थिति प्राप्त होती है $$s_t$$ और इनाम $$r_t$$. यह तब एक क्रिया चुनता है $$a_t$$ उपलब्ध क्रियाओं के सेट से, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई स्थिति में चला जाता है $$s_{t+1}$$ और इनाम $$r_{t+1}$$ संक्रमण से जुड़ा हुआ है $$(s_t,a_t,s_{t+1})$$ निर्धारित किया जाता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य नीति सीखना है: $$\pi: A \times S \rightarrow [0,1] $$, $$\pi(a,s) = \Pr(a_t = a\mid s_t =s)$$ जो अपेक्षित संचयी इनाम को अधिकतम करता है।

एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है; इस मामले में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल राज्यों के एक सबसेट तक पहुंच है, या यदि देखे गए राज्य शोर से दूषित हैं, तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है, और औपचारिक रूप से समस्या को आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया के रूप में तैयार किया जाना चाहिए। दोनों ही मामलों में, एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए, खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि राज्य का वर्तमान मूल्य 3 है और राज्य संक्रमण मूल्य को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।

जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो बेहतर तरीके से काम करता है, तो प्रदर्शन में अंतर अफसोस की धारणा (गेम थ्योरी) को जन्म देता है। बेहतर तरीके से कार्य करने के लिए, एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (यानी, भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, हालांकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।

इस प्रकार, सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद शामिल है। रोबोट नियंत्रण सहित विभिन्न समस्याओं के लिए इसे सफलतापूर्वक लागू किया गया है, लिफ्ट एल्गोरिथ्म, दूरसंचार, चौसर, चेकर्स और जाओ (खेल) (AlphaGo)।

दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए फ़ंक्शन सन्निकटन का उपयोग। इन दो प्रमुख घटकों के लिए धन्यवाद, सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है: इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है), जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। हालाँकि, सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।
 * पर्यावरण का एक मॉडल ज्ञात है, लेकिन एक बंद रूप अभिव्यक्ति उपलब्ध नहीं है;
 * पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);
 * पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र तरीका इसके साथ अंतःक्रिया करना है।

अन्वेषण
बर्नेटास और कटेहाकिस (1997) में बहु-सशस्त्र डाकू समस्या और परिमित राज्य अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है। सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना बेतरतीब ढंग से क्रियाओं का चयन करना, खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का मामला अपेक्षाकृत अच्छी तरह से समझा गया है। हालांकि, एल्गोरिदम की कमी के कारण जो राज्यों की संख्या (या अनंत राज्य रिक्त स्थान के साथ समस्याओं के पैमाने) के साथ अच्छी तरह से स्केल करते हैं, सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।

ऐसा ही एक तरीका है $$\varepsilon$$-लालची, कहाँ $$0 < \varepsilon < 1$$ अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करने वाला एक पैरामीटर है। संभावना के साथ $$1-\varepsilon$$, शोषण को चुना जाता है, और एजेंट उस कार्रवाई को चुनता है जिसके बारे में उसका मानना ​​है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से, संभावना के साथ $$\varepsilon$$, अन्वेषण को चुना जाता है, और कार्रवाई को समान रूप से यादृच्छिक रूप से चुना जाता है। $$\varepsilon$$ आमतौर पर एक निश्चित पैरामीटर होता है, लेकिन या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम एक्सप्लोर करने के लिए), या अनुकूली रूप से ह्यूरिस्टिक्स के आधार पर।

नियंत्रण सीखने के लिए एल्गोरिदम
यहां तक ​​​​कि अगर अन्वेषण के मुद्दे की अवहेलना की जाती है और यहां तक ​​​​कि अगर राज्य अवलोकनीय था (इसके बाद माना जाता है), समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।

नीति
एजेंट की कार्रवाई का चयन एक मानचित्र के रूप में किया जाता है जिसे नीति कहा जाता है:
 * $$\pi: A \times S \rightarrow [0,1]$$
 * $$\pi(a,s) = \Pr(a_t = a\mid s_t =s)$$

नीति मानचित्र कार्रवाई करने की संभावना देता है $$a$$ जब राज्य में $$s$$. नियतात्मक नीतियां भी हैं।

राज्य-मूल्य समारोह
मूल्य समारोह $$V_\pi(s)$$ के रूप में परिभाषित किया गया है, राज्य से शुरू होने वाली अपेक्षित वापसी $$s$$, अर्थात। $$s_0 = s$$, और क्रमिक रूप से नीति का पालन करना $$\pi$$. इसलिए, मोटे तौर पर बोलते हुए, मूल्य समारोह का अनुमान है कि यह किसी दिए गए राज्य में कितना अच्छा है।


 * $$V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],$$

जहां यादृच्छिक चर $$R$$ वापसी को दर्शाता है, और इसे भविष्य के रियायती पुरस्कारों के योग के रूप में परिभाषित किया गया है:


 * $$R=\sum_{t=0}^\infty \gamma^t r_t,$$

कहाँ $$r_t$$ कदम पर इनाम है $$t$$, $$\gamma \in [0,1) $$ क्यू-लर्निंग #डिस्काउंट फैक्टर है|डिस्काउंट-रेट। गामा 1 से कम है, इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।

एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के नुकसान के बिना, खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम दौरे पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को राज्यों के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई नुकसान नहीं है।

क्रूर बल
क्रूर-बल खोज एप्रोच में दो चरण होते हैं:
 * प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
 * अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें

इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का सटीक अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।

इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण #Value फ़ंक्शन और #Direct नीति खोज हैं।

मान समारोह
वैल्यू फ़ंक्शन दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (आमतौर पर या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।

ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक मजबूत है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका)। फिर से, स्थिर नीतियों के बीच एक इष्टतम नीति हमेशा पाई जा सकती है।

इष्टतमता को औपचारिक तरीके से परिभाषित करने के लिए, नीति के मूल्य को परिभाषित करें $$\pi$$ द्वारा


 * $$ V^{\pi} (s) = E[R\mid s,\pi],$$

कहाँ $$R$$ निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है $$\pi$$ प्रारंभिक अवस्था से $$s$$. परिभाषित $$V^*(s)$$ के अधिकतम संभव मान के रूप में $$V^\pi(s)$$, कहाँ $$\pi$$ बदलने की अनुमति है,


 * $$V^*(s) = \max_\pi V^\pi(s).$$

एक नीति जो प्रत्येक राज्य में इन इष्टतम मूल्यों को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस मजबूत अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है $$\rho^\pi$$, तब से $$\rho^\pi = E[ V^\pi(S) ]$$, कहाँ $$S$$ वितरण से बेतरतीब ढंग से नमूना लिया गया राज्य है $$\mu$$ प्रारंभिक अवस्थाओं की (इसलिए $$\mu(s) = \Pr(s_0 = s)$$).

यद्यपि राज्य-मूल्य इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मूल्यों को परिभाषित करने के लिए उपयोगी है। एक राज्य दिया $$s$$, एक कार्यवाही $$a$$ और एक नीति $$\pi$$, जोड़ी का क्रिया-मूल्य $$(s,a)$$ अंतर्गत $$\pi$$ द्वारा परिभाषित किया गया है


 * $$Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,$$

कहाँ $$R$$ अब पहली कार्रवाई से जुड़े यादृच्छिक रिटर्न के लिए खड़ा है $$a$$ राज्य में $$s$$ और निम्नलिखित $$\pi$$, उसके बाद।

एमडीपी के सिद्धांत में कहा गया है कि अगर $$\pi^*$$ एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। $$Q^{\pi^*}(s,\cdot)$$ प्रत्येक राज्य में उच्चतम मूल्य के साथ, $$s$$. ऐसी इष्टतम नीति का क्रिया-मूल्य कार्य ($$Q^{\pi^*}$$) को इष्टतम क्रिया-मूल्य फ़ंक्शन कहा जाता है और आमतौर पर इसे निरूपित किया जाता है $$Q^*$$. संक्षेप में, केवल इष्टतम क्रिया-मूल्य फ़ंक्शन का ज्ञान ही यह जानने के लिए पर्याप्त है कि बेहतर तरीके से कैसे कार्य किया जाए।

एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मूल्य फ़ंक्शन की गणना करने के लिए दो बुनियादी दृष्टिकोण मूल्य पुनरावृत्ति और नीति पुनरावृत्ति हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं $$Q_k$$ ($$k=0,1,2,\ldots$$) जो अभिसरण करता है $$Q^*$$. इन कार्यों की गणना में पूरे राज्य-स्थान पर अपेक्षाओं की गणना करना शामिल है, जो कि सबसे छोटे (परिमित) एमडीपी के अलावा सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के तरीकों में, बड़े राज्य-कार्रवाई स्थानों पर मूल्य कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और फ़ंक्शन सन्निकटन तकनीकों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।

मोंटे कार्लो के तरीके
मोंटे कार्लो नमूनाकरण का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार।

मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है $$\pi$$, लक्ष्य फ़ंक्शन मानों की गणना करना है $$Q^\pi(s,a)$$ (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए $$(s,a)$$. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मूल्यों को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया शुरू होता है। फिर, किसी दिए गए स्टेट-एक्शन जोड़ी के मूल्य का अनुमान $$(s,a)$$ से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है $$(s,a)$$ अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक सटीक अनुमान का निर्माण कर सकती है $$Q$$ क्रिया-मूल्य फ़ंक्शन का $$Q^\pi$$. यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।

नीति सुधार चरण में, के संबंध में लालची नीति की गणना करके अगली नीति प्राप्त की जाती है $$Q$$: एक राज्य दिया $$s$$, यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है $$Q(s,\cdot)$$. व्यावहारिक रूप से आलसी मूल्यांकन अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।

इस प्रक्रिया की समस्याओं में शामिल हैं:

1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।

2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल राज्य-क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र शुरू किया।

3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।

4. यह एपिसोडिक प्रॉब्लम्स में ही काम करता है।

5. यह छोटे, सीमित एमडीपी में ही काम करता है।

टेम्पोरल डिफरेंस मेथड्स
मूल्यों के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी राज्यों में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं, सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।

दूसरे मुद्दे को प्रक्षेपवक्र को उनमें किसी भी राज्य-एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ हद तक मदद कर सकता है, हालांकि एक बेहतर समाधान जब रिटर्न में उच्च विचरण होता है, तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती बेलमैन समीकरण पर आधारित होती हैं। टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है), या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ, जैसे कि कम से कम वर्ग अस्थायी अंतर विधि, नमूनों में जानकारी का बेहतर उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।

टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है $$\lambda$$ पैरामीटर $$(0\le \lambda\le 1)$$ जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर भरोसा नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर भरोसा करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।

फंक्शन सन्निकटन के तरीके
पांचवें मुद्दे को संबोधित करने के लिए, फ़ंक्शन सन्निकटन विधियों का उपयोग किया जाता है। रेखीय कार्य सन्निकटन एक मानचित्रण के साथ शुरू होता है $$\phi$$ जो प्रत्येक स्टेट-एक्शन जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, राज्य-क्रिया युग्म के क्रिया मान $$(s,a)$$ के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है $$\phi(s,a)$$ कुछ भार के साथ $$\theta$$:


 * $$Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).$$

एल्गोरिदम तब अलग-अलग राज्य-क्रिया जोड़े से जुड़े मूल्यों को समायोजित करने के बजाय वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।

क्यू-लर्निंग एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए वैल्यू इटरेशन को शुरुआती बिंदु के रूप में भी इस्तेमाल किया जा सकता है। स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को शामिल करना। क्रिया-मूल्यों का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मूल्यों के अत्यधिक सटीक अनुमानों की आवश्यकता हो सकती है जो रिटर्न शोर होने पर प्राप्त करना कठिन हो सकता है, हालांकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ हद तक कम किया जाता है। तथाकथित संगत फ़ंक्शन सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।

प्रत्यक्ष नीति खोज
एक वैकल्पिक तरीका पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है, जिस स्थिति में समस्या स्टोचैस्टिक अनुकूलन का मामला बन जाती है। उपलब्ध दो दृष्टिकोण ढाल-आधारित और ढाल-मुक्त विधियाँ हैं।

ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ शुरू होती हैं: पैरामीटर वेक्टर दिया गया $$\theta$$, होने देना $$\pi_\theta$$ से संबंधित नीति को निरूपित करें $$\theta$$. द्वारा प्रदर्शन समारोह को परिभाषित करना


 * $$\rho(\theta) = \rho^{\pi_\theta},$$

हल्की परिस्थितियों में यह फ़ंक्शन पैरामीटर वेक्टर के फ़ंक्शन के रूप में अलग-अलग होगा $$\theta$$. यदि की ढाल $$\rho$$ ज्ञात था, कोई ढतला हुआ वंश  का उपयोग कर सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है, केवल शोर का अनुमान उपलब्ध है। इस तरह के अनुमान को कई तरह से बनाया जा सकता है, जिससे विलियम्स की रीइन्फोर्स विधि जैसे एल्गोरिदम को जन्म दिया जा सकता है (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात पद्धति के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है। कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज (अनुकूलन) पर आधारित हैं)।

विधियों का एक बड़ा वर्ग ढाल की जानकारी पर भरोसा करने से बचता है। इनमें तैयार किए हुयी धातु पे पानी चढाने की कला, क्रॉस-एन्ट्रॉपी विधि | क्रॉस-एन्ट्रॉपी खोज या विकासवादी संगणना के तरीके शामिल हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।

नीति खोज पद्धति धीरे-धीरे दिए गए शोर वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए, यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-फ़ंक्शन आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं, इस मामले में मदद कर सकती हैं। हाल के वर्षों में, अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।

मॉडल-आधारित एल्गोरिदम
अंत में, उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए, डायना एल्गोरिथम अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अलावा, मूल्य फ़ंक्शन के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के तरीकों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है, जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और 'फिर से चलाए जाते हैं' सीखने के एल्गोरिदम के लिए।

मूल्य फ़ंक्शन को अपडेट करने के अलावा मॉडल का उपयोग करने के अन्य तरीके हैं। उदाहरण के लिए, मॉडल भविष्य कहनेवाला नियंत्रण  में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।

सिद्धांत
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण मुद्दे को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।

बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है। कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं, लेकिन इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को बेहतर ढंग से समझने के लिए अधिक काम करने की आवश्यकता है।

वृद्धिशील एल्गोरिदम के लिए, स्पर्शोन्मुख अभिसरण मुद्दों का समाधान किया गया है. टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में शर्तों के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए, जब मनमाने ढंग से, सुचारू फ़ंक्शन सन्निकटन के साथ उपयोग किया जाता है)।

अनुसंधान
शोध विषयों में शामिल हैं:
 * अभिनेता-आलोचक
 * अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
 * सॉफ्टवेयर परियोजनाओं में बग का पता लगाना
 * लगातार सीखना
 * तर्क-आधारित रूपरेखाओं के साथ संयोजन * बड़े एमडीपी में अन्वेषण
 * मानव प्रतिक्रिया से सुदृढीकरण सीखना
 * कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच बातचीत
 * आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति, जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है, बड़े पैमाने पर अनुभवजन्य मूल्यांकन
 * बड़े (या निरंतर) क्रिया स्थान
 * मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना
 * मल्टी-एजेंट/डिस्ट्रीब्यूटेड रिइन्फोर्समेंट लर्निंग रुचि का विषय है। अनुप्रयोगों का विस्तार हो रहा है।
 * निवासी-केंद्रित नियंत्रण
 * कंप्यूटिंग संसाधनों का अनुकूलन
 * आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, भविष्य कहनेवाला राज्य प्रतिनिधित्व का उपयोग करके)
 * इनाम समारोह उपन्यास जानकारी को अधिकतम करने पर आधारित है
 * नमूना-आधारित योजना (जैसे, मोंटे कार्लो ट्री खोज पर आधारित)।
 * प्रतिभूति व्यापार
 * सीखने को स्थानांतरित करें
 * टीडी लर्निंग मॉडलिंग डोपामाइन-आधारित लर्निंग इन द ब्रेन। मूल नाइग्रा से बेसल गैन्ग्लिया फ़ंक्शन तक डोपामिनर्जिक अनुमान पूर्वानुमान त्रुटि हैं।
 * मूल्य-फ़ंक्शन और नीति खोज विधियाँ

साहचर्य सुदृढीकरण सीखना
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण पैटर्न वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में, सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।

गहरा सुदृढीकरण सीखना
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से राज्य स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है। Google डीपमाइंड द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया। रेफरी नाम = DQN2 >

प्रतिकूल गहन सुदृढीकरण सीखना
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग, रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है, जो सीखी हुई नीतियों की कमजोरियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने शुरू में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।  जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ तरीकों का प्रस्ताव किया गया है, हाल के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमजोरियों का सटीक प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।

फ़ज़ी रीइन्फोर्समेंट लर्निंग
आरएल में फजी नियंत्रण प्रणाली  शुरू करके, निरंतर स्थान में फजी नियमों के साथ स्टेट-एक्शन वैल्यू फ़ंक्शन का अनुमान लगाना संभव हो जाता है। फजी नियमों का IF - THEN रूप इस दृष्टिकोण को प्राकृतिक भाषा के करीब के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ FRL का विस्तार कार्डिनल नियमों (सबसे महत्वपूर्ण राज्य-कार्रवाई मूल्यों) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।

उलटा सुदृढीकरण सीखना
उलटा सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम समारोह नहीं दिया जाता है। इसके बजाय, एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम समारोह का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है, जो अक्सर इष्टतम या इष्टतम के करीब होता है।

सुरक्षित सुदृढीकरण सीखना
सुरक्षित सुदृढीकरण सीखने (SRL) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के दौरान सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।

यह भी देखें

 * अस्थायी अंतर सीखना
 * प्र-सीखना
 * स्टेट-एक्शन-इनाम-स्टेट-एक्शन (एसएआरएसए)
 * मानव प्रतिक्रिया से सुदृढीकरण सीखना
 * काल्पनिक नाटक
 * लर्निंग क्लासिफायर सिस्टम
 * इष्टतम नियंत्रण
 * गतिशील उपचार व्यवस्था
 * त्रुटि चालित शिक्षा
 * मल्टी-एजेंट सुदृढीकरण सीखना
 * मल्टी-एजेंट सिस्टम
 * वितरित कृत्रिम बुद्धि
 * आंतरिक प्रेरणा (कृत्रिम बुद्धि)
 * आनुवंशिक एल्गोरिदम
 * शिक्षुता सीखना
 * मॉडल-मुक्त (सुदृढ़ीकरण सीखना)

बाहरी संबंध

 * Reinforcement Learning Repository
 * Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
 * Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
 * Real-world reinforcement learning experiments at Delft University of Technology
 * Stanford University Andrew Ng Lecture on Reinforcement Learning
 * Dissecting Reinforcement Learning Series of blog post on RL with Python code
 * A (Long) Peek into Reinforcement Learning