एआईएक्सआई: Difference between revisions

Latest revision as of 18:07, 21 August 2023

एआईएक्सआई ['ai̯k͡siː] कृत्रिम सामान्य बुद्धि के लिए गणितीय तर्क गणित के भीतर औपचारिक तर्क का अध्ययन है। यह सोलोमनॉफ का आगमनात्मक अनुमान के सिद्धांत को अनुक्रमिक निर्णय सिद्धांत के साथ जोड़ता है। एआईएक्सआई को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था^[1] और एआईएक्सआई के संबंध में कई परिणाम हटर की 2005 की पुस्तक यूनिवर्सल आर्टिफिशियल इंटेलिजेंस (एजीआई) में सिद्ध हुए हैं।^[2]

एआईएक्सआई एक सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पारितोषक को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पारितोषक को उत्पन्न करता है। अभिवचन किए गए पारितोषकों को तब व्यक्तिपरक तर्क (संभाव्य तर्क) के आधार पर महत्व दिया जाता है कि जब यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। एआईएक्सआई तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल पारितोषक होता है।

परिभाषा

एआईएक्सआई एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ परस्पर क्रिया करता है $\mu$ . परस्पर क्रिया समय के चरणों में आगे बढ़ती है, से $t=1$ को $t=m$ , जहां $m\in \mathbb {N}$ एआईएक्सआई एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है $a_{t}\in {\mathcal {A}}$ (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है $e_{t}\in {\mathcal {E}}={\mathcal {O}}\times \mathbb {R}$ , जिसमें एक अवलोकन सम्मलित है $o_{t}\in {\mathcal {O}}$ (उदाहरण के लिए, एक कैमरा छवि) और एक पारितोषक $r_{t}\in \mathbb {R}$ , सशर्त संभाव्यता के अनुसार वितरित $\mu (o_{t}r_{t}|a_{1}o_{1}r_{1}...a_{t-1}o_{t-1}r_{t-1}a_{t})$ , जहां $a_{1}o_{1}r_{1}...a_{t-1}o_{t-1}r_{t-1}a_{t}$ क्रियाओं, अवलोकनों का "इतिहास" और पारितोषक है। पर्यावरण इस प्रकार $\mu$ को गणितीय रूप से "अवधारणाओं" (अवलोकन और पारितोषक) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई मार्कोव धारणा नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण एआईएक्सआई एजेंट के लिए अज्ञात है। इसके अतिरिक्त, उस पर फिर से ध्यान दें $\mu$ गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पारितोषक एआईएक्सआई एजेंट के पिछले कार्यों को देखते हुए, $\mu$ की गणना कुछ प्रोग्राम (जो ट्यूरिंग मशीन पर चलती है) द्वारा की जा सकती है।^[3]

एआईएक्सआई एजेंट का एकमात्र लक्ष्य अधिकतम करना है $\sum _{t=1}^{m}r_{t}$ , अर्थात्, समय चरण 1 से m तक पारितोषकों का योग।

एआईएक्सआई एजेंट स्टोकेस्टिक नीति से जुड़ा है $\pi :({\mathcal {A}}\times {\mathcal {E}})^{*}\rightarrow {\mathcal {A}}$ , यह वह फलन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय स्टेप, जहां ${\mathcal {A}}$ उन सभी संभावित कार्रवाइयों का स्थान है जो एआईएक्सआई र सकता है और ${\mathcal {E}}$ सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) $\mu$ को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): $\mu :({\mathcal {A}}\times {\mathcal {E}})^{*}\times {\mathcal {A}}\rightarrow {\mathcal {E}}$ , जहां $*$ क्लेन स्टार संचालन है।

सामान्यतः, समय पर स्टेप $t$ (जो 1 से मी तक है), एआईएक्सआई, पहले निष्पादित क्रियाएं $a_{1}\dots a_{t-1}$ (जिसे अधिकांशतः साहित्य में संक्षिप्त रूप में कहा जाता है $a_{<t}$ ) और धारणाओं के इतिहास का अवलोकन किया $o_{1}r_{1}...o_{t-1}r_{t-1}$ (जिसे संक्षिप्त रूप में कहा जा सकता है $e_{<t}$ ), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, $a_{t}$ , निम्नानुसार परिभाषित किया गया है ^[4]

a_{t}:=\arg \max _{a_{t}}\sum _{o_{t}r_{t}}\ldots \max _{a_{m}}\sum _{o_{m}r_{m}}[r_{t}+\ldots +r_{m}]\sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}

या, प्राथमिकता को स्पष्ट करने के लिए कोष्ठकों का उपयोग करें

a_{t}:=\arg \max _{a_{t}}\left(\sum _{o_{t}r_{t}}\ldots \left(\max _{a_{m}}\sum _{o_{m}r_{m}}[r_{t}+\ldots +r_{m}]\left(\sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}\right)\right)\right)

सहज रूप से, उपरोक्त परिभाषा में, एआईएक्सआई सभी संभावित "प्रण" पर कुल पारितोषक के योग पर विचार करता है $m-t$ समय आगे बढ़ता है (अर्थात, से।) $t$ को $m$ ), कार्यक्रमों की जटिलता के आधार पर उनमें से प्रत्येक की तुलना करना करता है $q$ (अर्थात, द्वारा $2^{-{\textrm {length}}(q)}$ ) एजेंट के अतीत के अनुरूप (अर्थात, पहले निष्पादित क्रियाएं, $a_{<t}$ , और प्राप्त धारणाएँ, $e_{<t}$ ) जो उस भविष्य को उत्पन्न कर सकता है, और फिर उस कार्रवाई को चुनता है जो अपेक्षित भविष्य के पारितोषकों को अधिकतम करती है।^[3]

आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।

$o_{t}r_{t}$ धारणा है (जिसमें अवलोकन सम्मलित है)। $o_{t}$ और पारितोषक $r_{t}$ ) समय स्टेप पर एआईएक्सआई एजेंट द्वारा प्राप्त किया गया $t$ पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, $o_{m}r_{m}$ समय स्टेप पर एआईएक्सआई द्वारा प्राप्त अवधारणा है $m$ (अंतिम समय चरण जहां एआईएक्सआई सक्रिय है)।

$r_{t}+\ldots +r_{m}$ समय स्टेप से पारितोषकों का योग है $t$ समय स्टेप के लिए $m$ , इसलिए एआईएक्सआई को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है $t$ .

$U$ एक मोनोटोन वर्ग प्रमेय सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और $q$ सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है $U$ , जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है $q$ और क्रियाओं का क्रम $a_{1}\dots a_{m}$ (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है $o_{1}r_{1}\ldots o_{m}r_{m}$ . यूनिवर्सल ट्यूरिंग मशीन $U$ इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है $q$ (जो पर्यावरण को मॉडल करता है) और एआईएक्सआई एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्यतः, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां एआईएक्सआई को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।

${\textrm {length}}(q)$ कार्यक्रम की लंबाई है $q$ (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि $2^{-{\textrm {length}}(q)}={\frac {1}{2^{{\textrm {length}}(q)}}}$ . इसलिए, उपरोक्त परिभाषा में, $\sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}$ सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर मिश्रण (संभावना) (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए $2^{-{\textrm {length}}(q)}$ . ध्यान दें कि $a_{1}\ldots a_{m}$ के रूप में भी लिखा जा सकता है $a_{1}\ldots a_{t-1}a_{t}\ldots a_{m}$ , और $a_{1}\ldots a_{t-1}=a_{<t}$ एआईएक्सआई एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, $o_{1}r_{1}\ldots o_{m}r_{m}=o_{1}r_{1}\ldots o_{t-1}r_{t-1}o_{t}r_{t}\ldots o_{m}r_{m}$ , और $o_{1}r_{1}\ldots o_{t-1}r_{t-1}$ यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।

आइए अब इस समीकरण या परिभाषा को समझने के लिए इन सभी घटकों को एक साथ रखें।

समय चरण t पर, एआईएक्सआई क्रिया चुनता है $a_{t}$ जहां फलन है $\sum _{o_{t}r_{t}}\ldots \max _{a_{m}}\sum _{o_{m}r_{m}}[r_{t}+\ldots +r_{m}]\sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}$ अपनी अधिकतम सीमा तक पहुँच जाता है।

पैरामीटर्स

एआईएक्सआई के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। पश्चात वाले पैरामीटर को छूट के उपयोग से हटाया जा सकता है।

एआईएक्सआई शब्द का अर्थ

हटर के अनुसार, "एआईएक्सआई" शब्द की कई व्याख्याएँ हो सकती हैं। एआईएक्सआई सोलोमन ऑफ़ के वितरण के आधार पर एआई (AI) के लिए स्थिर हो सकता है, जिसे द्वारा दर्शाया गया है $\xi$ (जो ग्रीक अक्षर xi है), या उदा. यह इंडक्शन (I) के साथ AI "क्रॉस्ड" (X) के लिए स्थिर हो सकता है।

इष्टतमता

एआईएक्सआई का प्रदर्शन उसे मिलने वाले पारितोषकों की अपेक्षित कुल संख्या से मापा जाता है। एआईएक्सआई निम्नलिखित विधियो से इष्टतम सिद्ध करना है।^[2]

पेरेटो इष्टतमता: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से उत्तम प्रदर्शन करते हुए सभी वातावरणों में एआईएक्सआई के बराबर प्रदर्शन करता है।^{[citation needed]}
संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है $\mu$ यदि पी का प्रदर्शन सैद्धांतिक अधिकतम के समीप पहुंचता है $\mu$ जब एजेंट के जीवनकाल की लंबाई (समय नहीं) अनंत हो जाती है।पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां उपस्थित हैं, एआईएक्सआई स्व-अनुकूलन है।

इसे पश्चात में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे एआईएक्सआई के लिए पिछले सभी इष्टतमता अधिकार को कमजोर करने के रूप में वर्णित करते हैं।^[5]

चूंकि, एआईएक्सआई की सीमाएँ हैं। यह बाहरी स्थितियों के विपरीत धारणाओं के आधार पर पारितोषकों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से परस्पर क्रिया करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह भी मानता है कि पर्यावरण गणना योग्य है।^[6]

कम्प्यूटेशनल पहलू

सोलोमनॉफ़ का आगमनात्मक अनुमान के सिद्धांत की तरह, एआईएक्सआई अनिर्णीत समस्या है। चूंकि, इसके गणना योग्य अनुमान उपस्थित हैं। ऐसा ही एक सन्निकटन एआईएक्सआई है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।^[2]प्रतिबंधित पर्यावरण वर्ग के साथ एआईएक्सआई का एक और अनुमान एमसी-एआईएक्सआई (एफएसी-सीटीडब्ल्यू) है (मोंटे कार्लो विधि पद्धति एआईएक्सआई कॉन्टेक्स्ट ट्री वेटिंग मेथड), जिसे आंशिक रूप से अवलोकन योग्य पीएसी मैन जैसे सरल गेम खेलने में कुछ सफलता मिली है।^[3]^[7]

यह भी देखें

गोडेल मशीन (काल्पनिक स्व-सुधार करने वाला कंप्यूटर प्रोग्राम है)

संदर्भ

↑ Marcus Hutter (2000). एल्गोरिथम जटिलता पर आधारित यूनिवर्सल आर्टिफिशियल इंटेलिजेंस का एक सिद्धांत. arXiv:cs.AI/0004001. Bibcode:2000cs........4001H.
↑ ^2.0 ^2.1 ^2.2 — (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Texts in Theoretical Computer Science an EATCS Series. Springer. doi:10.1007/b138233. ISBN 978-3-540-22139-5. S2CID 33352850.
↑ ^3.0 ^3.1 ^3.2 Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Silver, David (2009). "मोंटे कार्लो में AIXI सन्निकटन". arXiv:0909.0801 [cs.AI].
↑ Universal Artificial Intelligence
↑ Leike, Jan; Hutter, Marcus (2015). ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ (PDF). Proceedings of the 28th Conference on Learning Theory.
↑ Soares, Nate. "यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना" (PDF). Intelligence.org. Retrieved 2015-07-19.
↑ Playing Pacman using AIXI Approximation – YouTube

"यूनिवर्सल एल्गोरिथम इंटेलिजेंस: एक गणितीय शीर्ष->नीचे दृष्टिकोण", मार्कस हटर, arXiv:cs/0701125; आर्टिफिशियल जनरल इंटेलिजेंस में भी, संस्करण। बी. गोएर्टज़ेल और सी. पेनाचिन, स्प्रिंगर, 2007, ISBN 9783540237334, pp. 227–290, doi:10.1007/978-3-540-68677-4_8.

[1] Marcus Hutter (2000). एल्गोरिथम जटिलता पर आधारित यूनिवर्सल आर्टिफिशियल इंटेलिजेंस का एक सिद्धांत. arXiv:cs.AI/0004001. Bibcode:2000cs........4001H.

[uaibook-2] 2.0 ^2.1 ^2.2 — (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Texts in Theoretical Computer Science an EATCS Series. Springer. doi:10.1007/b138233. ISBN 978-3-540-22139-5. S2CID 33352850.

[veness2009-3] 3.0 ^3.1 ^3.2 Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Silver, David (2009). "मोंटे कार्लो में AIXI सन्निकटन". arXiv:0909.0801 [cs.AI].

[4] Universal Artificial Intelligence

[5] Leike, Jan; Hutter, Marcus (2015). ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ (PDF). Proceedings of the 28th Conference on Learning Theory.

[6] Soares, Nate. "यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना" (PDF). Intelligence.org. Retrieved 2015-07-19.

[7] Playing Pacman using AIXI Approximation – YouTube

[1]

[2]

[3]

[4]

[5]

[6]

[7]

@@ Line 1: / Line 1: @@
 {{Short description|Mathematical formalism for artificial general intelligence}}
-एआईएक्सआई [[Help:IPA|['ai̯k͡siː]]] [[कृत्रिम सामान्य बुद्धि]] के लिए एक सैद्धांतिक गणितीय औपचारिकता है। यह सोलोमनॉफ इंडक्शन को अनुक्रमिक [[निर्णय सिद्धांत]] के साथ जोड़ता है। एआईएक्सआई को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था<ref>{{cite book |author=Marcus Hutter |title=एल्गोरिथम जटिलता पर आधारित यूनिवर्सल आर्टिफिशियल इंटेलिजेंस का एक सिद्धांत|url=https://archive.org/details/arxiv-cs0004001 |arxiv=cs.AI/0004001 |year=2000 |bibcode=2000cs........4001H }}</ref> और AIXI के संबंध में कई परिणाम हटर की 2005 की पुस्तक यूनिवर्सल आर्टिफिशियल इंटेलिजेंस में सिद्ध हुए हैं।<ref name="uaibook">{{cite book |author=Marcus Hutter |title=Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability |series=Texts in Theoretical Computer Science an EATCS Series |url=https://books.google.com/books?id=NP53iZGt4KUC |year=2005 |publisher=Springer |isbn=978-3-540-22139-5 |doi=10.1007/b138233 |s2cid=33352850 |author-mask=1}}</ref>
+'''एआईएक्सआई''' [[Help:IPA|['ai̯k͡siː]]] [[कृत्रिम सामान्य बुद्धि]] के लिए गणितीय तर्क गणित के भीतर औपचारिक तर्क का अध्ययन है। यह सोलोमनॉफ का आगमनात्मक अनुमान के सिद्धांत को अनुक्रमिक [[निर्णय सिद्धांत]] के साथ जोड़ता है। एआईएक्सआई को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था<ref>{{cite book |author=Marcus Hutter |title=एल्गोरिथम जटिलता पर आधारित यूनिवर्सल आर्टिफिशियल इंटेलिजेंस का एक सिद्धांत|url=https://archive.org/details/arxiv-cs0004001 |arxiv=cs.AI/0004001 |year=2000 |bibcode=2000cs........4001H }}</ref> और एआईएक्सआई के संबंध में कई परिणाम हटर की 2005 की पुस्तक यूनिवर्सल आर्टिफिशियल इंटेलिजेंस (एजीआई) में सिद्ध हुए हैं।<ref name="uaibook">{{cite book |author=Marcus Hutter |title=Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability |series=Texts in Theoretical Computer Science an EATCS Series |url=https://books.google.com/books?id=NP53iZGt4KUC |year=2005 |publisher=Springer |isbn=978-3-540-22139-5 |doi=10.1007/b138233 |s2cid=33352850 |author-mask=1}}</ref>
-AIXI एक सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पुरस्कारों को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पुरस्कार उत्पन्न करता है। वादा किए गए पुरस्कारों को तब [[व्यक्तिपरक तर्क]] के आधार पर महत्व दिया जाता है कि यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। AIXI तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल इनाम होता है।
+एआईएक्सआई एक सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पारितोषक को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पारितोषक को उत्पन्न करता है। अभिवचन किए गए पारितोषकों को तब [[व्यक्तिपरक तर्क]] (संभाव्य तर्क) के आधार पर महत्व दिया जाता है कि जब यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। एआईएक्सआई तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल पारितोषक होता है।
 == परिभाषा ==
-AIXI एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ बातचीत करता है <math>\mu</math>. बातचीत समय के चरणों में आगे बढ़ती है, से <math>t=1</math> को <math>t=m</math>, जहां <math>m \in \mathbb{N}</math> AIXI एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है <math>a_t \in \mathcal{A}</math> (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है <math>e_t \in \mathcal{E} = \mathcal{O} \times \mathbb{R}</math>, जिसमें एक अवलोकन शामिल है <math>o_t \in \mathcal{O}</math> (उदाहरण के लिए, एक कैमरा छवि) और एक इनाम <math>r_t \in \mathbb{R}</math>, [[सशर्त संभाव्यता]] के अनुसार वितरित <math>\mu(o_t r_t | a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t)</math>, जहां <math>a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t</math> क्रियाओं, अवलोकनों का "इतिहास" और पुरस्कार है। पर्यावरण इस प्रकार <math>\mu</math> को गणितीय रूप से "अवधारणाओं" (अवलोकन और पुरस्कार) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई [[मार्कोव संपत्ति|मार्कोव धारणा]] नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण AIXI एजेंट के लिए अज्ञात है। इसके अलावा, उस पर फिर से ध्यान दें <math>\mu</math>  गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पुरस्कार AIXI एजेंट के पिछले कार्यों को देखते हुए, <math>\mu</math> की गणना कुछ प्रोग्राम (जो [[ट्यूरिंग मशीन]] पर चलती है) द्वारा की जा सकती है।<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David   |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref>
+एआईएक्सआई एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ परस्पर क्रिया करता है <math>\mu</math>. परस्पर क्रिया समय के चरणों में आगे बढ़ती है, से <math>t=1</math> को <math>t=m</math>, जहां <math>m \in \mathbb{N}</math> एआईएक्सआई एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है <math>a_t \in \mathcal{A}</math> (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है <math>e_t \in \mathcal{E} = \mathcal{O} \times \mathbb{R}</math>, जिसमें एक अवलोकन सम्मलित है <math>o_t \in \mathcal{O}</math> (उदाहरण के लिए, एक कैमरा छवि) और एक पारितोषक <math>r_t \in \mathbb{R}</math>, [[सशर्त संभाव्यता]] के अनुसार वितरित <math>\mu(o_t r_t | a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t)</math>, जहां <math>a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t</math> क्रियाओं, अवलोकनों का "इतिहास" और पारितोषक है। पर्यावरण इस प्रकार <math>\mu</math> को गणितीय रूप से "अवधारणाओं" (अवलोकन और पारितोषक) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई [[मार्कोव संपत्ति|मार्कोव धारणा]] नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण एआईएक्सआई एजेंट के लिए अज्ञात है। इसके अतिरिक्त, उस पर फिर से ध्यान दें <math>\mu</math>  गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पारितोषक एआईएक्सआई एजेंट के पिछले कार्यों को देखते हुए, <math>\mu</math> की गणना कुछ प्रोग्राम (जो [[ट्यूरिंग मशीन]] पर चलती है) द्वारा की जा सकती है।<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David   |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref>
-AIXI एजेंट का एकमात्र लक्ष्य अधिकतम करना है <math>\sum_{t=1}^m r_t</math>, अर्थात्, समय चरण 1 से m तक पुरस्कारों का योग।
+एआईएक्सआई एजेंट का एकमात्र लक्ष्य अधिकतम करना है <math>\sum_{t=1}^m r_t</math>, अर्थात्, समय चरण 1 से m तक पारितोषकों का योग।
-AIXI एजेंट स्टोकेस्टिक नीति से जुड़ा है <math>\pi : (\mathcal{A} \times \mathcal{E})^* \rightarrow \mathcal{A}</math>, यह वह फ़ंक्शन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय कदम, जहां <math>\mathcal{A}</math> उन सभी संभावित कार्रवाइयों का स्थान है जो AIXI र सकता है और <math>\mathcal{E}</math> सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) <math>\mu</math> को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): <math>\mu  : (\mathcal{A} \times \mathcal{E})^* \times \mathcal{A} \rightarrow \mathcal{E} </math>, जहां <math>*</math> [[क्लेन स्टार]] ऑपरेशन है।
+एआईएक्सआई एजेंट स्टोकेस्टिक नीति से जुड़ा है <math>\pi : (\mathcal{A} \times \mathcal{E})^* \rightarrow \mathcal{A}</math>, यह वह फलन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय स्टेप, जहां <math>\mathcal{A}</math> उन सभी संभावित कार्रवाइयों का स्थान है जो एआईएक्सआई र सकता है और <math>\mathcal{E}</math> सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) <math>\mu</math> को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): <math>\mu  : (\mathcal{A} \times \mathcal{E})^* \times \mathcal{A} \rightarrow \mathcal{E} </math>, जहां <math>*</math> [[क्लेन स्टार]] संचालन है।
-सामान्य तौर पर, समय पर कदम <math>t</math> (जो 1 से मी तक है), AIXI, पहले निष्पादित क्रियाएं <math>a_1\dots a_{t-1}</math> (जिसे अक्सर साहित्य में संक्षिप्त रूप में कहा जाता है <math>a_{<t}</math>) और धारणाओं के इतिहास का अवलोकन किया <math>o_1 r_1 ... o_{t-1} r_{t-1}</math> (जिसे संक्षिप्त रूप में कहा जा सकता है <math>e_{<t}</math>), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, <math>a_t</math>, निम्नानुसार परिभाषित किया गया है <ref>[http://hutter1.net/ai/uaibook.htm Universal Artificial Intelligence<!-- Bot generated title -->]</ref>
+सामान्यतः, समय पर स्टेप <math>t</math> (जो 1 से मी तक है), एआईएक्सआई, पहले निष्पादित क्रियाएं <math>a_1\dots a_{t-1}</math> (जिसे अधिकांशतः साहित्य में संक्षिप्त रूप में कहा जाता है <math>a_{<t}</math>) और धारणाओं के इतिहास का अवलोकन किया <math>o_1 r_1 ... o_{t-1} r_{t-1}</math> (जिसे संक्षिप्त रूप में कहा जा सकता है <math>e_{<t}</math>), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, <math>a_t</math>, निम्नानुसार परिभाषित किया गया है <ref>[http://hutter1.net/ai/uaibook.htm Universal Artificial Intelligence<!-- Bot generated title -->]</ref>
 :<math>
 a_t := \arg \max_{a_t} \sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}
@@ Line 20: / Line 20: @@
 a_t :=  \arg \max_{a_t} \left( \sum_{o_t r_t} \ldots \left( \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \left( \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)} \right) \right) \right)
 </math>
-सहज रूप से, उपरोक्त परिभाषा में, AIXI सभी संभावित "वायदा" पर कुल इनाम के योग पर विचार करता है <math>m - t</math> समय आगे बढ़ता है (अर्थात, से।) <math>t</math> को <math>m</math>), कार्यक्रमों की जटिलता के आधार पर उनमें से प्रत्येक की तुलना करना करता है <math>q</math> (अर्थात, द्वारा <math>2^{-\textrm{length}(q)}</math>) एजेंट के अतीत के अनुरूप (अर्थात, पहले निष्पादित क्रियाएं, <math>a_{<t}</math>, और प्राप्त धारणाएँ, <math>e_{<t}</math>) जो उस भविष्य को उत्पन्न कर सकता है, और फिर उस कार्रवाई को चुनता है जो अपेक्षित भविष्य के पुरस्कारों को अधिकतम करती है।<ref name=veness2009 />
+सहज रूप से, उपरोक्त परिभाषा में, एआईएक्सआई सभी संभावित "प्रण" पर कुल पारितोषक के योग पर विचार करता है <math>m - t</math> समय आगे बढ़ता है (अर्थात, से।) <math>t</math> को <math>m</math>), कार्यक्रमों की जटिलता के आधार पर उनमें से प्रत्येक की तुलना करना करता है <math>q</math> (अर्थात, द्वारा <math>2^{-\textrm{length}(q)}</math>) एजेंट के अतीत के अनुरूप (अर्थात, पहले निष्पादित क्रियाएं, <math>a_{<t}</math>, और प्राप्त धारणाएँ, <math>e_{<t}</math>) जो उस भविष्य को उत्पन्न कर सकता है, और फिर उस कार्रवाई को चुनता है जो अपेक्षित भविष्य के पारितोषकों को अधिकतम करती है।<ref name=veness2009 />
 आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।
-<math>o_t r_t</math> धारणा है (जिसमें अवलोकन शामिल है)। <math>o_t</math> और इनाम <math>r_t</math>) समय कदम पर AIXI एजेंट द्वारा प्राप्त किया गया <math>t</math> पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, <math>o_m r_m</math> समय कदम पर AIXI द्वारा प्राप्त अवधारणा है <math>m</math> (अंतिम समय चरण जहां AIXI सक्रिय है)।
+<math>o_t r_t</math> धारणा है (जिसमें अवलोकन सम्मलित है)। <math>o_t</math> और पारितोषक <math>r_t</math>) समय स्टेप पर एआईएक्सआई एजेंट द्वारा प्राप्त किया गया <math>t</math> पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, <math>o_m r_m</math> समय स्टेप पर एआईएक्सआई द्वारा प्राप्त अवधारणा है <math>m</math> (अंतिम समय चरण जहां एआईएक्सआई सक्रिय है)।
-<math>r_t + \ldots + r_m</math> समय कदम से पुरस्कारों का योग है <math>t</math> समय कदम के लिए <math>m</math>, इसलिए AIXI को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है <math>t</math>.
+<math>r_t + \ldots + r_m</math> समय स्टेप से पारितोषकों का योग है <math>t</math> समय स्टेप के लिए <math>m</math>, इसलिए एआईएक्सआई को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है <math>t</math>.
-<math>U</math> एक [[मोनोटोन वर्ग प्रमेय]] सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और <math>q</math> सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है <math>U</math>, जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है <math>q</math> और क्रियाओं का क्रम <math>a_1\dots a_m</math> (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है <math>o_1 r_1 \ldots o_m r_m</math>. यूनिवर्सल ट्यूरिंग मशीन <math>U</math> इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है <math>q</math> (जो पर्यावरण को मॉडल करता है) और AIXI एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्य तौर पर, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां AIXI को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।
+<math>U</math> एक [[मोनोटोन वर्ग प्रमेय]] सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और <math>q</math> सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है <math>U</math>, जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है <math>q</math> और क्रियाओं का क्रम <math>a_1\dots a_m</math> (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है <math>o_1 r_1 \ldots o_m r_m</math>. यूनिवर्सल ट्यूरिंग मशीन <math>U</math> इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है <math>q</math> (जो पर्यावरण को मॉडल करता है) और एआईएक्सआई एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्यतः, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां एआईएक्सआई को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।
- <math>\textrm{length}(q)</math> कार्यक्रम की लंबाई है <math>q</math> (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि <math>2^{-\textrm{length}(q)} = \frac{1}{2^{\textrm{length}(q)}}</math>. इसलिए, उपरोक्त परिभाषा में, <math>\sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}</math> सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर [[मिश्रण (संभावना)]] (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए <math>2^{-\textrm{length}(q)}</math>. ध्यान दें कि <math>a_1 \ldots a_m</math> के रूप में भी लिखा जा सकता है <math>a_1 \ldots a_{t-1}a_t \ldots a_m</math>, और <math>a_1 \ldots a_{t-1} = a_{<t}</math> AIXI एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, <math>o_1 r_1 \ldots o_m r_m = o_1 r_1 \ldots o_{t-1} r_{t-1}o_{t} r_{t} \ldots o_m r_m</math>, और <math>o_1 r_1 \ldots o_{t-1} r_{t-1}</math> यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।
+<math>\textrm{length}(q)</math> कार्यक्रम की लंबाई है <math>q</math> (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि <math>2^{-\textrm{length}(q)} = \frac{1}{2^{\textrm{length}(q)}}</math>. इसलिए, उपरोक्त परिभाषा में, <math>\sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}</math> सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर [[मिश्रण (संभावना)]] (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए <math>2^{-\textrm{length}(q)}</math>. ध्यान दें कि <math>a_1 \ldots a_m</math> के रूप में भी लिखा जा सकता है <math>a_1 \ldots a_{t-1}a_t \ldots a_m</math>, और <math>a_1 \ldots a_{t-1} = a_{<t}</math> एआईएक्सआई एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, <math>o_1 r_1 \ldots o_m r_m = o_1 r_1 \ldots o_{t-1} r_{t-1}o_{t} r_{t} \ldots o_m r_m</math>, और <math>o_1 r_1 \ldots o_{t-1} r_{t-1}</math> यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।
 आइए अब इस समीकरण या परिभाषा को समझने के लिए इन सभी घटकों को एक साथ रखें।
-समय चरण t पर, AIXI क्रिया चुनता है <math>a_t</math> जहां फ़ंक्शन है<math>\sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}</math> अपनी अधिकतम सीमा तक पहुँच जाता है।
+समय चरण t पर, एआईएक्सआई क्रिया चुनता है <math>a_t</math> जहां फलन है<math>\sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}</math> अपनी अधिकतम सीमा तक पहुँच जाता है।
-{{Missing information|description of the selection of actions|date=February 2019}}
 === पैरामीटर्स ===
-AIXI के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। बाद वाले पैरामीटर को [[ छूट ]] के उपयोग से हटाया जा सकता है।
+एआईएक्सआई के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। पश्चात वाले पैरामीटर को [[ छूट |छूट]] के उपयोग से हटाया जा सकता है।
-== AIXI शब्द का अर्थ ==
+== एआईएक्सआई शब्द का अर्थ ==
-हटर के अनुसार, AIXI शब्द की कई व्याख्याएँ हो सकती हैं। AIXI सोलोमनऑफ़ के वितरण के आधार पर AI के लिए खड़ा हो सकता है, जिसे द्वारा दर्शाया गया है <math>\xi</math> (जो ग्रीक अक्षर xi है), या उदा. यह इंडक्शन (I) के साथ AI क्रॉस्ड (X) के लिए खड़ा हो सकता है। अन्य व्याख्याएँ भी हैं।
+हटर के अनुसार, "एआईएक्सआई" शब्द की कई व्याख्याएँ हो सकती हैं। एआईएक्सआई सोलोमन ऑफ़ के वितरण के आधार पर एआई (AI) के लिए स्थिर हो सकता है, जिसे द्वारा दर्शाया गया है <math>\xi</math> (जो ग्रीक अक्षर xi है), या उदा. यह इंडक्शन (I) के साथ AI "क्रॉस्ड" (X) के लिए स्थिर हो सकता है।
 == इष्टतमता ==
-AIXI का प्रदर्शन उसे मिलने वाले पुरस्कारों की अपेक्षित कुल संख्या से मापा जाता है।
+एआईएक्सआई का प्रदर्शन उसे मिलने वाले पारितोषकों की अपेक्षित कुल संख्या से मापा जाता है। एआईएक्सआई निम्नलिखित विधियो से इष्टतम सिद्ध करना है।<ref name="uaibook" />
-AIXI निम्नलिखित तरीकों से इष्टतम साबित हुआ है।<ref name="uaibook" />
-* [[पेरेटो इष्टतमता]]: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से बेहतर प्रदर्शन करते हुए सभी वातावरणों में AIXI के बराबर प्रदर्शन करता है।{{citation needed|date=June 2014}}
+* [[पेरेटो इष्टतमता]]: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से उत्तम प्रदर्शन करते हुए सभी वातावरणों में एआईएक्सआई के बराबर प्रदर्शन करता है।{{citation needed|date=June 2014}}
 * संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
-* स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है <math>\mu</math> यदि पी का प्रदर्शन सैद्धांतिक अधिकतम तक पहुंचता है <math>\mu</math> जब एजेंट के जीवनकाल की अवधि (समय नहीं) अनंत हो जाती है। पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां मौजूद हैं, AIXI स्व-अनुकूलन है।
+* स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है <math>\mu</math> यदि पी का प्रदर्शन सैद्धांतिक अधिकतम के समीप पहुंचता है <math>\mu</math>  जब एजेंट के जीवनकाल की लंबाई (समय नहीं) अनंत हो जाती है।पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां उपस्थित हैं, एआईएक्सआई स्व-अनुकूलन है।
-इसे बाद में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे AIXI के लिए पिछले सभी इष्टतमता दावों को कमजोर करने के रूप में वर्णित करते हैं।<ref>{{cite conference|conference=Proceedings of the 28th Conference on Learning Theory|last1=Leike|first1=Jan|last2=Hutter|first2=Marcus|title=ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ|date=2015|url=http://proceedings.mlr.press/v40/Leike15.pdf}}</ref>
-हालाँकि, AIXI की सीमाएँ हैं। यह बाहरी राज्यों के विपरीत धारणाओं के आधार पर पुरस्कारों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से बातचीत करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह यह भी मानता है कि पर्यावरण गणना योग्य है।<ref>{{cite web|last1=Soares|first1=Nate|title=यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना|url=https://intelligence.org/files/RealisticWorldModels.pdf|website=Intelligence.org|access-date=2015-07-19|ref=MIRI}}</ref>
+इसे पश्चात में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे एआईएक्सआई के लिए पिछले सभी इष्टतमता अधिकार को कमजोर करने के रूप में वर्णित करते हैं।<ref>{{cite conference|conference=Proceedings of the 28th Conference on Learning Theory|last1=Leike|first1=Jan|last2=Hutter|first2=Marcus|title=ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ|date=2015|url=http://proceedings.mlr.press/v40/Leike15.pdf}}</ref>
+चूंकि, एआईएक्सआई की सीमाएँ हैं। यह बाहरी स्थितियों के विपरीत धारणाओं के आधार पर पारितोषकों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से परस्पर क्रिया करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह भी मानता है कि पर्यावरण गणना योग्य है।<ref>{{cite web|last1=Soares|first1=Nate|title=यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना|url=https://intelligence.org/files/RealisticWorldModels.pdf|website=Intelligence.org|access-date=2015-07-19|ref=MIRI}}</ref>
 == कम्प्यूटेशनल पहलू ==
-सोलोमनॉफ इंडक्शन की तरह, AIXI [[अनिर्णीत समस्या]] है। हालाँकि, इसके गणना योग्य अनुमान मौजूद हैं। ऐसा ही एक सन्निकटन AIXItl है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।<ref name="uaibook" />प्रतिबंधित पर्यावरण वर्ग के साथ AIXI का एक और अनुमान MC-AIXI (FAC-CTW) है ([[मोंटे कार्लो विधि]] पद्धति AIXI [[प्रसंग वृक्ष भार]] | कॉन्टेक्स्ट-ट्री वेटिंग के लिए है), जिसे आंशिक रूप से देखने योग्य जैसे सरल गेम खेलने में कुछ सफलता मिली है सिस्टम [[पीएसी मैन]]<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David   |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref><ref>[https://www.youtube.com/watch?v=yfsMHtmGDKE Playing Pacman using AIXI Approximation – YouTube<!-- Bot generated title -->]</ref>
+सोलोमनॉफ़ का आगमनात्मक अनुमान के सिद्धांत की तरह, एआईएक्सआई [[अनिर्णीत समस्या]] है। चूंकि, इसके गणना योग्य अनुमान उपस्थित हैं। ऐसा ही एक सन्निकटन एआईएक्सआई है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।<ref name="uaibook" />प्रतिबंधित पर्यावरण वर्ग के साथ एआईएक्सआई का एक और अनुमान एमसी-एआईएक्सआई (एफएसी-सीटीडब्ल्यू) है ([[मोंटे कार्लो विधि]] पद्धति एआईएक्सआई [[प्रसंग वृक्ष भार|कॉन्टेक्स्ट ट्री वेटिंग मेथड]]), जिसे आंशिक रूप से अवलोकन योग्य [[पीएसी मैन]] जैसे सरल गेम खेलने में कुछ सफलता मिली है।<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David   |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref><ref>[https://www.youtube.com/watch?v=yfsMHtmGDKE Playing Pacman using AIXI Approximation – YouTube<!-- Bot generated title -->]</ref>
 == यह भी देखें ==
-* गोडेल मशीन
+* गोडेल मशीन (काल्पनिक स्व-सुधार करने वाला कंप्यूटर प्रोग्राम है)
 == संदर्भ ==
 {{reflist}}
-* "Universal Algorithmic Intelligence: A mathematical top->down approach", Marcus Hutter, {{arXiv|cs/0701125}}; also in ''Artificial General Intelligence'', eds. B. Goertzel and C. Pennachin, Springer, 2007, {{ISBN|9783540237334}}, pp.&nbsp;227–290, {{doi|10.1007/978-3-540-68677-4_8}}.
+* "यूनिवर्सल एल्गोरिथम इंटेलिजेंस: एक गणितीय शीर्ष->नीचे दृष्टिकोण", मार्कस हटर, {{arXiv|cs/0701125}}; आर्टिफिशियल जनरल इंटेलिजेंस में भी, संस्करण। बी. गोएर्टज़ेल और सी. पेनाचिन, स्प्रिंगर, 2007, {{ISBN|9783540237334}}, pp.&nbsp;227–290, {{doi|10.1007/978-3-540-68677-4_8}}.
-[[Category: इष्टतम निर्णय]] [[Category: निर्णय सिद्धांत]] [[Category: यंत्र अधिगम]]
-[[Category: Machine Translated Page]]
+[[Category:All articles with unsourced statements]]
+[[Category:Articles with unsourced statements from June 2014]]
 [[Category:Created On 26/07/2023]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Pages with script errors]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:इष्टतम निर्णय]]
+[[Category:निर्णय सिद्धांत]]
+[[Category:यंत्र अधिगम]]

Anonymous

Search

एआईएक्सआई: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 18:07, 21 August 2023

Contents

परिभाषा

पैरामीटर्स

एआईएक्सआई शब्द का अर्थ

इष्टतमता

कम्प्यूटेशनल पहलू

यह भी देखें

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

एआईएक्सआई: Difference between revisions

Latest revision as of 18:07, 21 August 2023

परिभाषा

पैरामीटर्स

एआईएक्सआई शब्द का अर्थ

इष्टतमता

कम्प्यूटेशनल पहलू

यह भी देखें

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories