एआईएक्सआई: Difference between revisions

Latest revision as of 18:07, 21 August 2023

एआईएक्सआई ['ai̯k͡siː] कृत्रिम सामान्य बुद्धि के लिए गणितीय तर्क गणित के भीतर औपचारिक तर्क का अध्ययन है। यह सोलोमनॉफ का आगमनात्मक अनुमान के सिद्धांत को अनुक्रमिक निर्णय सिद्धांत के साथ जोड़ता है। एआईएक्सआई को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था^[1] और एआईएक्सआई के संबंध में कई परिणाम हटर की 2005 की पुस्तक यूनिवर्सल आर्टिफिशियल इंटेलिजेंस (एजीआई) में सिद्ध हुए हैं।^[2]

एआईएक्सआई एक सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पारितोषक को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पारितोषक को उत्पन्न करता है। अभिवचन किए गए पारितोषकों को तब व्यक्तिपरक तर्क (संभाव्य तर्क) के आधार पर महत्व दिया जाता है कि जब यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। एआईएक्सआई तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल पारितोषक होता है।

परिभाषा

एआईएक्सआई एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ परस्पर क्रिया करता है $\mu$ . परस्पर क्रिया समय के चरणों में आगे बढ़ती है, से $t=1$ को $t=m$ , जहां $m\in \mathbb {N}$ एआईएक्सआई एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है $a_{t}\in {\mathcal {A}}$ (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है $e_{t}\in {\mathcal {E}}={\mathcal {O}}\times \mathbb {R}$ , जिसमें एक अवलोकन सम्मलित है $o_{t}\in {\mathcal {O}}$ (उदाहरण के लिए, एक कैमरा छवि) और एक पारितोषक $r_{t}\in \mathbb {R}$ , सशर्त संभाव्यता के अनुसार वितरित $\mu (o_{t}r_{t}|a_{1}o_{1}r_{1}...a_{t-1}o_{t-1}r_{t-1}a_{t})$ , जहां $a_{1}o_{1}r_{1}...a_{t-1}o_{t-1}r_{t-1}a_{t}$ क्रियाओं, अवलोकनों का "इतिहास" और पारितोषक है। पर्यावरण इस प्रकार $\mu$ को गणितीय रूप से "अवधारणाओं" (अवलोकन और पारितोषक) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई मार्कोव धारणा नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण एआईएक्सआई एजेंट के लिए अज्ञात है। इसके अतिरिक्त, उस पर फिर से ध्यान दें $\mu$ गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पारितोषक एआईएक्सआई एजेंट के पिछले कार्यों को देखते हुए, $\mu$ की गणना कुछ प्रोग्राम (जो ट्यूरिंग मशीन पर चलती है) द्वारा की जा सकती है।^[3]

एआईएक्सआई एजेंट का एकमात्र लक्ष्य अधिकतम करना है $\sum _{t=1}^{m}r_{t}$ , अर्थात्, समय चरण 1 से m तक पारितोषकों का योग।

एआईएक्सआई एजेंट स्टोकेस्टिक नीति से जुड़ा है $\pi :({\mathcal {A}}\times {\mathcal {E}})^{*}\rightarrow {\mathcal {A}}$ , यह वह फलन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय स्टेप, जहां ${\mathcal {A}}$ उन सभी संभावित कार्रवाइयों का स्थान है जो एआईएक्सआई र सकता है और ${\mathcal {E}}$ सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) $\mu$ को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): $\mu :({\mathcal {A}}\times {\mathcal {E}})^{*}\times {\mathcal {A}}\rightarrow {\mathcal {E}}$ , जहां $*$ क्लेन स्टार संचालन है।

सामान्यतः, समय पर स्टेप $t$ (जो 1 से मी तक है), एआईएक्सआई, पहले निष्पादित क्रियाएं $a_{1}\dots a_{t-1}$ (जिसे अधिकांशतः साहित्य में संक्षिप्त रूप में कहा जाता है $a_{<t}$ ) और धारणाओं के इतिहास का अवलोकन किया $o_{1}r_{1}...o_{t-1}r_{t-1}$ (जिसे संक्षिप्त रूप में कहा जा सकता है $e_{<t}$ ), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, $a_{t}$ , निम्नानुसार परिभाषित किया गया है ^[4]

a_{t} := \arg max_{a_{t}} \sum_{o_{t} r_{t}} \dots max_{a_{m}} \sum_{o_{m} r_{m}} [r_{t} + \dots + r_{m}] \sum_{q}

[1]

[2]

[3]

[4]

@@ Line 65: / Line 65: @@
 {{reflist}}
 * "यूनिवर्सल एल्गोरिथम इंटेलिजेंस: एक गणितीय शीर्ष->नीचे दृष्टिकोण", मार्कस हटर, {{arXiv|cs/0701125}}; आर्टिफिशियल जनरल इंटेलिजेंस में भी, संस्करण। बी. गोएर्टज़ेल और सी. पेनाचिन, स्प्रिंगर, 2007, {{ISBN|9783540237334}}, pp.&nbsp;227–290, {{doi|10.1007/978-3-540-68677-4_8}}.
-[[Category: इष्टतम निर्णय]] [[Category: निर्णय सिद्धांत]] [[Category: यंत्र अधिगम]]
+[[Category:All articles with unsourced statements]]
+[[Category:Articles with unsourced statements from June 2014]]
-[[Category: Machine Translated Page]]
 [[Category:Created On 26/07/2023]]
-[[Category:Vigyan Ready]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Pages with script errors]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:इष्टतम निर्णय]]
+[[Category:निर्णय सिद्धांत]]
+[[Category:यंत्र अधिगम]]

Anonymous

Search

एआईएक्सआई: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 18:07, 21 August 2023

Contents

परिभाषा