रीइंफोर्समेंट लर्निंग

From Vigyanwiki



रीइंफोर्समेंट लर्निंग (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।

सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।[1]

पर्यावरण को सामान्यतः मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं।[2] मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।

परिचय

इसकी व्यापकता के कारण खेल सिद्धांत कंट्रोल सिद्धांत गतिविधि अनुसंधान सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और आंकड़े जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम नियंत्रण सिद्धांत में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल अर्थशास्त्र और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।

मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:

  • पर्यावरण और एजेंट अवस्थाओ का एक सेट, S;
  • एजेंट के कार्यों A का एक सेट;
  • संक्रमण की संभावना है (पर समय ) अवस्था से अवस्था कार्रवाई के तहत।
  • कार्रवाई के साथ से में संक्रमण के बाद तत्काल इनाम है।

सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम या लगभग-इष्टतम नीति सीखना है जो इनाम कार्य या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए जैविक सर दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में सम्मिलित होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं।[3][4]

एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय t पर, एजेंट को वर्तमान स्थिति और पुरस्कार प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था में जाता है और संक्रमण से जुड़ा इनाम निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: , जो अपेक्षित संचयी इनाम को अधिकतम करता है।

एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।

जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।

इस प्रकार सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद सम्मिलित है। इसे रोबोट नियंत्रण, एलिवेटर शेड्यूलिंग, दूरसंचार, बैकगैमौन, चेकर्स और गो (अल्फागो) सहित विभिन्न समस्याओं पर सफलतापूर्वक प्रयुक्त किया गया है।

दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए कार्य सन्निकटन का उपयोग इन दो प्रमुख घटकों के लिए धन्यवाद सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है:

  • पर्यावरण का एक मॉडल ज्ञात है किन्तु एक बंद रूप अभिव्यक्ति उपलब्ध नहीं है;
  • पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);[5]
  • पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र विधि इसके साथ अंतःक्रिया करना है।

इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है) जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। चूँकि सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।

अन्वेषण

बर्नेटास और कटेहाकिस (1997) में बहु-हथियारबंद दस्यु समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।[6]

सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।

ऐसा ही एक विधि है -ग्रीडी जहां एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।

नियंत्रण सीखने के लिए एल्गोरिदम

यहां तक ​​​​कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक ​​​​कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।

इष्टतमता का मानदंड

नीति

एजेंट की कार्रवाई का चयन एक मानचित्र के रूप में किया जाता है जिसे नीति कहा जाता है:

नीति मानचित्र जब स्थिति में कार्रवाई करने की संभावना देता है। .[7]: 61  नियतात्मक नीतियां भी हैं।

अवस्था -मान कार्य

मान कार्य के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी , अर्थात , और क्रमिक रूप से नीति का पालन करना . इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।[7]: 60 

जहां यादृच्छिक चर वापसी को दर्शाता है, और इसे भविष्य के रियायती पुरस्कारों के योग के रूप में परिभाषित किया गया है:

जहां चरण पर पुरस्कार है छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।

एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है।

क्रूर बल

क्रूर-बल खोज एप्रोच में दो चरण होते हैं:

  • प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
  • अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें

इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।

इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं।

मान कार्य

मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।

ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है।

इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति के मान को परिभाषित करें

जहाँ निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है प्रारंभिक अवस्था से . परिभाषित के अधिकतम संभव मान के रूप में , जहाँ बदलने की अनुमति है,

एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है , तब से , जहाँ वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है प्रारंभिक अवस्थाओं की (इसलिए ).

यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया , एक कार्यवाही और एक नीति , जोड़ी का क्रिया-मान अंतर्गत द्वारा परिभाषित किया गया है

जहां अब अवस्था में पहली बार कार्रवाई करने और उसके बाद के बाद से जुड़े यादृच्छिक रिटर्न के लिए है।

एमडीपी के सिद्धांत में कहा गया है कि यदि एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। प्रत्येक अवस्था में उच्चतम मान के साथ, . ऐसी इष्टतम नीति का क्रिया-मान कार्य () को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है . संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।

एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण मान पुनरावृत्ति और नीति पुनरावृत्ति हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं () जो अभिसरण करता है . इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।

मोंटे कार्लो के विधि

मोंटे कार्लो नमूनाकरण का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है ।

मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है , लक्ष्य कार्य मानों की गणना करना है (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए . मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है क्रिया-मान कार्य का . यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।

नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है : एक अवस्था दिया , यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है . व्यावहारिक रूप से आलसी मूल्यांकन अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।

इस प्रक्रिया की समस्याओं में सम्मिलित हैं:

1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।

2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल अवस्था -क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र प्रारंभ किया।

3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।

4. यह एपिसोडिक समस्या में ही काम करता है।

5. यह छोटे, सीमित एमडीपी में ही काम करता है।

अस्थायी अंतर के विधि

मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।

दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती बेलमैन समीकरण पर आधारित होती हैं।[8][9] टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,[10] नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।

टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है पैरामीटर जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।

फंक्शन सन्निकटन के विधि

पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म के क्रिया मान को कुछ वज़न के साथ के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है।

एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।

क्यू-लर्निंग एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है।[11] स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।[12]

क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।

प्रत्यक्ष नीति खोज

एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या स्टोचैस्टिक अनुकूलन का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण ढाल-आधारित और ढाल-मुक्त विधियाँ हैं।

ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर दिया गया है, चलो , से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है

हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर के कार्य के रूप में अलग-अलग होगा। यदि का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।[13] कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।[14][15]

विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें तैयार किए हुयी धातु पे पानी चढाने की कला , क्रॉस-एन्ट्रॉपी विधि क्रॉस-एन्ट्रॉपी खोज या विकासवादी संगणना के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।

नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।[16]


मॉडल-आधारित एल्गोरिदम

अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम[17] अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं'[18]

मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं।[19] उदाहरण के लिए, मॉडल भविष्य कहनेवाला नियंत्रण में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।

सिद्धांत

अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।

बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।[6] कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है।

वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।

अनुसंधान

शोध विषयों में सम्मिलित हैं:

  • अभिनेता-आलोचक
  • अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
  • सॉफ्टवेयर परियोजनाओं में बग का पता लगाना[20]
  • लगातार सीखना
  • तर्क-आधारित रूपरेखाओं के साथ संयोजन[21]
  • बड़े एमडीपी में अन्वेषण
  • मानव प्रतिक्रिया से सुदृढीकरण सीखना[22]
  • कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया
  • आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन
  • बड़े (या निरंतर) क्रिया स्थान
  • मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना[23]
  • मल्टी-एजेंट/डिस्ट्रीब्यूटेड रिइन्फोर्समेंट लर्निंग रुचि का विषय है। अनुप्रयोगों का विस्तार हो रहा है।[24]
  • निवासी-केंद्रित नियंत्रण
  • कंप्यूटिंग संसाधनों का अनुकूलन[25][26][27]
  • आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, भविष्य कहनेवाला अवस्था प्रतिनिधित्व का उपयोग करके)
  • इनाम कार्य उपन्यास जानकारी को अधिकतम करने पर आधारित है[28][29][30]
  • नमूना-आधारित योजना (जैसे, मोंटे कार्लो ट्री खोज पर आधारित)।
  • प्रतिभूति व्यापार[31]
  • सीखने को स्थानांतरित करें [32]
  • टीडी लर्निंग मॉडलिंग डोपामाइन-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से बेसल गैन्ग्लिया कार्य तक डोपामिनर्जिक अनुमान पूर्वानुमान त्रुटि हैं।
  • मूल्य-कार्य और नीति खोज विधियाँ

सुदृढीकरण सीखने के एल्गोरिदम की तुलना

एल्गोरिथ्म विवरण नीति क्रिया स्थान अवस्था स्थान संचालिका
मोंटे कार्लो मोंटे कार्लो की हर यात्रा दोनों में से एक पृथक पृथक प्रतिदर्श-साधन
क्यू-लर्निंग अवस्था -कार्रवाई-इनाम-अवस्था ऑफ नीति पृथक पृथक क्यू-मूल्य
सार्सा स्टेट-एक्शन-इनाम-स्टेट-एक्शन ऑन-नीति पृथक पृथक क्यू-मूल्य
क्यू-लर्निंग - लैम्ब्डा अवस्था -कार्रवाई-इनाम-अवस्था योग्यता के निशान के साथ ऑफ नीति पृथक पृथक क्यू-मूल्य
सरसा - लैम्ब्डा योग्यता के निशान के साथ अवस्था -कार्रवाई-इनाम-अवस्था -कार्रवाई ऑन-नीति पृथक पृथक क्यू-मूल्य
डीक्यूएन डीप क्यू नेटवर्क ऑफ नीति पृथक निरंतर क्यू-मूल्य
डीडीपीजी दीप नियतात्मक नीति ढाल ऑफ नीति निरंतर निरंतर क्यू-मूल्य
ए3सी एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक एल्गोरिथम ऑन-नीति निरंतर निरंतर लाभ
एनएएफ सामान्यीकृत लाभ कार्यों के साथ क्यू-लर्निंग ऑफ नीति निरंतर निरंतर लाभ
टीआरपीओ विश्वास क्षेत्र नीति अनुकूलन ऑन-नीति निरंतर और पृथक निरंतर लाभ
पीपीओ समीपस्थ नीति अनुकूलन ऑन-नीति निरंतर और पृथक निरंतर लाभ
टीडी3 ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट ऑफ नीति निरंतर निरंतर क्यू-मूल्य
एसएसी शीतल अभिनेता-आलोचक ऑफ नीति निरंतर निरंतर लाभ


साहचर्य सुदृढीकरण सीखना

साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।[33]

गहरा सुदृढीकरण सीखना

यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।[34] गूगल डीपमाइंड द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है ।

प्रतिकूल गहन सुदृढीकरण सीखना

एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।[35][36][37] जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।[38]

अस्पष्ट सुदृढीकरण सीखना

आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके[39] निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार [40] कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।

विपरीत सुदृढीकरण सीखना

विपरीत सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम कार्य नहीं दिया जाता है। इसके अतिरिक्त एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम कार्य का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है जो अधिकांशतः इष्टतम या इष्टतम के समीप होता है।[41]


सुरक्षित सुदृढीकरण सीखना

सुरक्षित सुदृढीकरण सीखने (एसआरएल) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के समय सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।[42]


यह भी देखें

संदर्भ

  1. Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Archived from the original on 2001-11-20.
  2. van Otterlo, M.; Wiering, M. (2012). सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. {{cite book}}: |journal= ignored (help)
  3. Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
  4. Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). "सुदृढीकरण सीखने और निर्णय लेने का तंत्रिका आधार". Annual Review of Neuroscience. 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.
  5. Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.
  6. 6.0 6.1 Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222–255, doi:10.1287/moor.22.1.222
  7. 7.0 7.1 "Reinforcement learning: An introduction" (PDF).
  8. Sutton, Richard S. (1984). रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट (PhD thesis). University of Massachusetts, Amherst, MA.
  9. Sutton & Barto 1998, §6. Temporal-Difference Learning.
  10. Bradtke, Steven J.; Barto, Andrew G. (1996). "Learning to predict by the method of temporal differences". Machine Learning. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023/A:1018056104778. S2CID 20327856.
  11. Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
  12. Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). "डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना". Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.
  13. Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.
  14. Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण (PDF). Foundations and Trends in Robotics. Vol. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051.
  15. Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
  16. Juliani, Arthur (2016-12-17). "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)". Medium. Retrieved 2018-02-22.
  17. Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
  18. Lin, Long-Ji (1992). "सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699.
  19. van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
  20. "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment". cie.acm.org (in English). Retrieved 2018-11-27.
  21. Riveret, Regis; Gao, Yang (2019). "सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा". Autonomous Agents and Multi-Agent Systems (in English). 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. S2CID 71147890.
  22. Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (2021-11-16). "विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना". arXiv:2111.08596 [cs.LG].
  23. Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation". Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.
  24. "Reinforcement Learning / Successes of Reinforcement Learning". umichrl.pbworks.com. Retrieved 2017-08-06.
  25. Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). "सीपीयू-जीपीयू मोबाइल एमपीएसओसी की पावर और थर्मल दक्षता के लिए यूजर इंटरेक्शन अवेयर रीइन्फोर्समेंट लर्निंग". 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
  26. Quested, Tony. "एसेक्स इनोवेशन के साथ स्मार्टफोन और स्मार्ट हो जाते हैं". Business Weekly. Retrieved 2021-06-17.{{cite web}}: CS1 maint: url-status (link)
  27. Williams, Rhiannon (2020-07-21). "भविष्य के स्मार्टफोन 'मालिकों के व्यवहार की निगरानी करके अपनी खुद की बैटरी लाइफ बढ़ाएंगे'". i (in English). Retrieved 2021-06-17.{{cite web}}: CS1 maint: url-status (link)
  28. Kaplan, F.; Oudeyer, P. (2004). "Maximizing learning progress: an internal reward system for development". In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (eds.). सन्निहित आर्टिफिशियल इंटेलिजेंस. Lecture Notes in Computer Science. Vol. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID 9781221.
  29. Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Keep your options open: an information-based driving principle for sensorimotor systems". PLOS ONE. 3 (12): e4018. Bibcode:2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.
  30. Barto, A. G. (2013). "Intrinsic motivation and reinforcement learning". प्राकृतिक और कृत्रिम प्रणालियों में आंतरिक रूप से प्रेरित शिक्षा (PDF). Berlin; Heidelberg: Springer. pp. 17–47.
  31. Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना". The Journal of Machine Learning in Finance. 1. SSRN 3374766.
  32. George Karimpanal, Thommen; Bouffanais, Roland (2019). "सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र". Adaptive Behavior (in English). 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
  33. Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
  34. {{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}
  35. Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना". International Conference on Learning Representations. arXiv:1412.6572.
  36. Behzadan, Vahid; Munir, Arslan (2017). "पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता". International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science. 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID 1562290.
  37. Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले. OCLC 1106256905.{{cite book}}: CS1 maint: multiple names: authors list (link)
  38. Korkmaz, Ezgi (2022). "डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।". Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22). 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684. S2CID 245219157.
  39. Berenji, H.R. (1994). "Fuzzy Q-learning: a new approach for fuzzy dynamic programming". Proc. IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE: 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. S2CID 56694947.
  40. Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
  41. Ng, A. Y.; Russell, S. J. (2000). "Algorithms for Inverse Reinforcement Learning" (PDF). मशीन लर्निंग पर सत्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ICML '00 की कार्यवाही. pp. 663–670. ISBN 1-55860-707-2.
  42. García, Javier; Fernández, Fernando (1 January 2015). "सुरक्षित सुदृढीकरण सीखने पर एक व्यापक सर्वेक्षण" (PDF). The Journal of Machine Learning Research. 16 (1): 1437–1480.


अग्रिम पठन


बाहरी संबंध