रीइंफोर्समेंट लर्निंग

रीइंफोर्समेंट लर्निंग (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।

सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।

पर्यावरण को सामान्यतः मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं। मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।

परिचय
इसकी व्यापकता के कारण खेल सिद्धांत कंट्रोल सिद्धांत गतिविधि अनुसंधान सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और आंकड़े जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम नियंत्रण सिद्धांत में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल अर्थशास्त्र और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।

मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:


 * पर्यावरण और एजेंट अवस्थाओ का एक सेट, $S$;
 * एजेंट के कार्यों $A$ का एक सेट;
 * $$P_a(s,s')=\Pr(s_{t+1}=s'\mid s_t=s, a_t=a)$$ संक्रमण की संभावना है (पर समय $$t$$) अवस्था $$s$$ से अवस्था $$s'$$कार्रवाई $$a$$ के तहत।
 * $$R_a(s,s')$$ कार्रवाई $$a$$ के साथ $$s$$ से $$s'$$ में संक्रमण के बाद तत्काल इनाम है।

सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम या लगभग-इष्टतम नीति सीखना है जो इनाम कार्य या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए जैविक सर दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में सम्मिलित होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं।

एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय $t$ पर, एजेंट को वर्तमान स्थिति $$s_t$$ और पुरस्कार $$r_t$$ प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया $$a_t$$ चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था $$s_{t+1}$$ में जाता है और संक्रमण $$(s_t,a_t,s_{t+1})$$ से जुड़ा इनाम $$r_{t+1}$$ निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: $$\pi: A \times S \rightarrow [0,1] $$,$$\pi(a,s) = \Pr(a_t = a\mid s_t =s)$$ जो अपेक्षित संचयी इनाम को अधिकतम करता है।

एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।

जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।

इस प्रकार सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद सम्मिलित है। इसे रोबोट नियंत्रण, एलिवेटर शेड्यूलिंग, दूरसंचार, बैकगैमौन, चेकर्स और गो (अल्फागो) सहित विभिन्न समस्याओं पर सफलतापूर्वक प्रयुक्त किया गया है।

दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए कार्य सन्निकटन का उपयोग इन दो प्रमुख घटकों के लिए धन्यवाद सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है: इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है) जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। चूँकि सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।
 * पर्यावरण का एक मॉडल ज्ञात है किन्तु एक बंद रूप अभिव्यक्ति उपलब्ध नहीं है;
 * पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);
 * पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र विधि इसके साथ अंतःक्रिया करना है।

अन्वेषण
बर्नेटास और कटेहाकिस (1997) में बहु-हथियारबंद दस्यु समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।

सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।

ऐसा ही एक विधि है $$\varepsilon$$-ग्रीडी जहां $$0 < \varepsilon < 1$$ एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता $$1-\varepsilon$$ के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता $$\varepsilon$$ के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। $$\varepsilon$$ सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।

नियंत्रण सीखने के लिए एल्गोरिदम
यहां तक ​​​​कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक ​​​​कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।

नीति
एजेंट की कार्रवाई का चयन एक मानचित्र के रूप में किया जाता है जिसे नीति कहा जाता है:
 * $$\pi: A \times S \rightarrow [0,1]$$
 * $$\pi(a,s) = \Pr(a_t = a\mid s_t =s)$$

नीति मानचित्र $$a$$ जब स्थिति में कार्रवाई करने की संभावना देता है। $$s$$. नियतात्मक नीतियां भी हैं।

अवस्था -मान कार्य
मान कार्य $$V_\pi(s)$$ के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी $$s$$, अर्थात $$s_0 = s$$, और क्रमिक रूप से नीति का पालन करना $$\pi$$. इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।


 * $$V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],$$

जहां यादृच्छिक चर $$R$$ वापसी को दर्शाता है, और इसे भविष्य के रियायती पुरस्कारों के योग के रूप में परिभाषित किया गया है:


 * $$R=\sum_{t=0}^\infty \gamma^t r_t,$$

जहां $$r_t$$ चरण $$t$$ पर पुरस्कार है $$\gamma \in [0,1) $$ छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।

एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है।

क्रूर बल
क्रूर-बल खोज एप्रोच में दो चरण होते हैं:
 * प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
 * अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें

इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।

इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं।

मान कार्य
मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।

ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है।

इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति $$\pi$$ के मान को परिभाषित करें


 * $$ V^{\pi} (s) = E[R\mid s,\pi],$$

जहाँ $$R$$ निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है $$\pi$$ प्रारंभिक अवस्था से $$s$$. परिभाषित $$V^*(s)$$ के अधिकतम संभव मान के रूप में $$V^\pi(s)$$, जहाँ $$\pi$$ बदलने की अनुमति है,


 * $$V^*(s) = \max_\pi V^\pi(s).$$

एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है $$\rho^\pi$$, तब से $$\rho^\pi = E[ V^\pi(S) ]$$, जहाँ $$S$$ वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है $$\mu$$ प्रारंभिक अवस्थाओं की (इसलिए $$\mu(s) = \Pr(s_0 = s)$$).

यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया $$s$$, एक कार्यवाही $$a$$ और एक नीति $$\pi$$, जोड़ी का क्रिया-मान $$(s,a)$$ अंतर्गत $$\pi$$ द्वारा परिभाषित किया गया है


 * $$Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,$$

जहां $$R$$ अब अवस्था $$s$$ में पहली बार $$a$$ कार्रवाई करने और उसके बाद $$\pi$$ के बाद से जुड़े यादृच्छिक रिटर्न के लिए है।

एमडीपी के सिद्धांत में कहा गया है कि यदि $$\pi^*$$ एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। $$Q^{\pi^*}(s,\cdot)$$ प्रत्येक अवस्था में उच्चतम मान के साथ, $$s$$. ऐसी इष्टतम नीति का क्रिया-मान कार्य ($$Q^{\pi^*}$$) को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है $$Q^*$$. संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।

एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण मान पुनरावृत्ति और नीति पुनरावृत्ति हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं $$Q_k$$ ($$k=0,1,2,\ldots$$) जो अभिसरण करता है $$Q^*$$. इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।

मोंटे कार्लो के विधि
मोंटे कार्लो नमूनाकरण का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है ।

मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है $$\pi$$, लक्ष्य कार्य मानों की गणना करना है $$Q^\pi(s,a)$$ (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए $$(s,a)$$. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान $$(s,a)$$ से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है $$(s,a)$$ अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है $$Q$$ क्रिया-मान कार्य का $$Q^\pi$$. यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।

नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है $$Q$$: एक अवस्था दिया $$s$$, यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है $$Q(s,\cdot)$$. व्यावहारिक रूप से आलसी मूल्यांकन अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।

इस प्रक्रिया की समस्याओं में सम्मिलित हैं:

1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।

2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल अवस्था -क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र प्रारंभ किया।

3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।

4. यह एपिसोडिक समस्या में ही काम करता है।

5. यह छोटे, सीमित एमडीपी में ही काम करता है।

अस्थायी अंतर के विधि
मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।

दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती बेलमैन समीकरण पर आधारित होती हैं। टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि, नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।

टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है $$\lambda$$ पैरामीटर $$(0\le \lambda\le 1)$$ जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।

फंक्शन सन्निकटन के विधि
पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण $$\phi$$ से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म$$(s,a)$$ के क्रिया मान को कुछ वज़न $$\theta$$ के साथ $$\phi(s,a)$$ के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है।


 * $$Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).$$

एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।

क्यू-लर्निंग एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है। स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।

क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।

प्रत्यक्ष नीति खोज
एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या स्टोचैस्टिक अनुकूलन का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण ढाल-आधारित और ढाल-मुक्त विधियाँ हैं।

ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर $$\theta$$ दिया गया है, चलो $$\pi_\theta$$, $$\theta$$से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है


 * $$\rho(\theta) = \rho^{\pi_\theta},$$

हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर $$\theta$$ के कार्य के रूप में अलग-अलग होगा। यदि $$\rho$$ का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है। कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।

विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें तैयार किए हुयी धातु पे पानी चढाने की कला, क्रॉस-एन्ट्रॉपी विधि क्रॉस-एन्ट्रॉपी खोज या विकासवादी संगणना के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।

नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।

मॉडल-आधारित एल्गोरिदम
अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं' ।

मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं। उदाहरण के लिए, मॉडल भविष्य कहनेवाला नियंत्रण में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।

सिद्धांत
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।

बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है। कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है।

वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।

अनुसंधान
शोध विषयों में सम्मिलित हैं:
 * अभिनेता-आलोचक
 * अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
 * सॉफ्टवेयर परियोजनाओं में बग का पता लगाना
 * लगातार सीखना
 * तर्क-आधारित रूपरेखाओं के साथ संयोजन
 * बड़े एमडीपी में अन्वेषण
 * मानव प्रतिक्रिया से सुदृढीकरण सीखना
 * कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया
 * आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन
 * बड़े (या निरंतर) क्रिया स्थान
 * मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना
 * मल्टी-एजेंट/डिस्ट्रीब्यूटेड रिइन्फोर्समेंट लर्निंग रुचि का विषय है। अनुप्रयोगों का विस्तार हो रहा है।
 * निवासी-केंद्रित नियंत्रण
 * कंप्यूटिंग संसाधनों का अनुकूलन
 * आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, भविष्य कहनेवाला अवस्था प्रतिनिधित्व का उपयोग करके)
 * इनाम कार्य उपन्यास जानकारी को अधिकतम करने पर आधारित है
 * नमूना-आधारित योजना (जैसे, मोंटे कार्लो ट्री खोज पर आधारित)।
 * प्रतिभूति व्यापार
 * सीखने को स्थानांतरित करें
 * टीडी लर्निंग मॉडलिंग डोपामाइन-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से बेसल गैन्ग्लिया कार्य तक डोपामिनर्जिक अनुमान पूर्वानुमान त्रुटि हैं।
 * मूल्य-कार्य और नीति खोज विधियाँ

साहचर्य सुदृढीकरण सीखना
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।

गहरा सुदृढीकरण सीखना
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है। गूगल डीपमाइंड द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है ।

प्रतिकूल गहन सुदृढीकरण सीखना
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।  जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।

अस्पष्ट सुदृढीकरण सीखना
आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।

विपरीत सुदृढीकरण सीखना
विपरीत सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम कार्य नहीं दिया जाता है। इसके अतिरिक्त एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम कार्य का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है जो अधिकांशतः इष्टतम या इष्टतम के समीप होता है।

सुरक्षित सुदृढीकरण सीखना
सुरक्षित सुदृढीकरण सीखने (एसआरएल) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के समय सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।

यह भी देखें

 * अस्थायी अंतर सीखना
 * प्र-सीखना
 * स्टेट-एक्शन-इनाम-स्टेट-एक्शन (एसएआरएसए)
 * मानव प्रतिक्रिया से सुदृढीकरण सीखना
 * काल्पनिक नाटक
 * लर्निंग क्लासिफायर सिस्टम
 * इष्टतम नियंत्रण
 * गतिशील उपचार व्यवस्था
 * त्रुटि चालित शिक्षा
 * मल्टी-एजेंट सुदृढीकरण सीखना
 * मल्टी-एजेंट सिस्टम
 * वितरित कृत्रिम बुद्धि
 * आंतरिक प्रेरणा (कृत्रिम बुद्धि)
 * आनुवंशिक एल्गोरिदम
 * शिक्षुता सीखना
 * मॉडल-मुक्त (सुदृढ़ीकरण सीखना)

बाहरी संबंध

 * Reinforcement Learning Repository
 * Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
 * Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
 * Real-world reinforcement learning experiments at Delft University of Technology
 * Stanford University Andrew Ng Lecture on Reinforcement Learning
 * Dissecting Reinforcement Learning Series of blog post on RL with Python code
 * A (Long) Peek into Reinforcement Learning