एआईएक्सआई: Difference between revisions

From Vigyanwiki
No edit summary
Line 6: Line 6:
== परिभाषा ==
== परिभाषा ==


AIXI एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ बातचीत करता है <math>\mu</math>. बातचीत समय के चरणों में आगे बढ़ती है, से <math>t=1</math> को <math>t=m</math>, जहां <math>m \in \mathbb{N}</math> AIXI एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है <math>a_t \in \mathcal{A}</math> (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है <math>e_t \in \mathcal{E} = \mathcal{O} \times \mathbb{R}</math>, जिसमें एक अवलोकन शामिल है <math>o_t \in \mathcal{O}</math> (उदाहरण के लिए, एक कैमरा छवि) और एक इनाम <math>r_t \in \mathbb{R}</math>, [[सशर्त संभाव्यता]] के अनुसार वितरित <math>\mu(o_t r_t | a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t)</math>, जहां <math>a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t</math> क्रियाओं, अवलोकनों का "इतिहास" और पुरस्कार है। पर्यावरण इस प्रकार <math>\mu</math> को गणितीय रूप से "अवधारणाओं" (अवलोकन और पुरस्कार) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई [[मार्कोव संपत्ति|मार्कोव धारणा]] नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण AIXI एजेंट के लिए अज्ञात है। इसके अलावा, उस पर फिर से ध्यान दें <math>\mu</math>  गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पुरस्कार AIXI एजेंट के पिछले कार्यों को देखते हुए, <math>\mu</math> की गणना कुछ प्रोग्राम (जो [[ट्यूरिंग मशीन]] पर चलती है) द्वारा की जा सकती है।<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David  |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref>
AIXI एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ बातचीत करता है <math>\mu</math>. बातचीत समय के चरणों में आगे बढ़ती है, से <math>t=1</math> को <math>t=m</math>, जहां <math>m \in \mathbb{N}</math> AIXI एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है <math>a_t \in \mathcal{A}</math> (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है <math>e_t \in \mathcal{E} = \mathcal{O} \times \mathbb{R}</math>, जिसमें एक अवलोकन सम्मलित है <math>o_t \in \mathcal{O}</math> (उदाहरण के लिए, एक कैमरा छवि) और एक इनाम <math>r_t \in \mathbb{R}</math>, [[सशर्त संभाव्यता]] के अनुसार वितरित <math>\mu(o_t r_t | a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t)</math>, जहां <math>a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t</math> क्रियाओं, अवलोकनों का "इतिहास" और पुरस्कार है। पर्यावरण इस प्रकार <math>\mu</math> को गणितीय रूप से "अवधारणाओं" (अवलोकन और पुरस्कार) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई [[मार्कोव संपत्ति|मार्कोव धारणा]] नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण AIXI एजेंट के लिए अज्ञात है। इसके अतिरिक्त, उस पर फिर से ध्यान दें <math>\mu</math>  गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पुरस्कार AIXI एजेंट के पिछले कार्यों को देखते हुए, <math>\mu</math> की गणना कुछ प्रोग्राम (जो [[ट्यूरिंग मशीन]] पर चलती है) द्वारा की जा सकती है।<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David  |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref>


AIXI एजेंट का एकमात्र लक्ष्य अधिकतम करना है <math>\sum_{t=1}^m r_t</math>, अर्थात्, समय चरण 1 से m तक पुरस्कारों का योग।
AIXI एजेंट का एकमात्र लक्ष्य अधिकतम करना है <math>\sum_{t=1}^m r_t</math>, अर्थात्, समय चरण 1 से m तक पुरस्कारों का योग।
Line 12: Line 12:
AIXI एजेंट स्टोकेस्टिक नीति से जुड़ा है <math>\pi : (\mathcal{A} \times \mathcal{E})^* \rightarrow \mathcal{A}</math>, यह वह फ़ंक्शन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय कदम, जहां <math>\mathcal{A}</math> उन सभी संभावित कार्रवाइयों का स्थान है जो AIXI र सकता है और <math>\mathcal{E}</math> सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) <math>\mu</math> को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): <math>\mu  : (\mathcal{A} \times \mathcal{E})^* \times \mathcal{A} \rightarrow \mathcal{E} </math>, जहां <math>*</math> [[क्लेन स्टार]] ऑपरेशन है।
AIXI एजेंट स्टोकेस्टिक नीति से जुड़ा है <math>\pi : (\mathcal{A} \times \mathcal{E})^* \rightarrow \mathcal{A}</math>, यह वह फ़ंक्शन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय कदम, जहां <math>\mathcal{A}</math> उन सभी संभावित कार्रवाइयों का स्थान है जो AIXI र सकता है और <math>\mathcal{E}</math> सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) <math>\mu</math> को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): <math>\mu  : (\mathcal{A} \times \mathcal{E})^* \times \mathcal{A} \rightarrow \mathcal{E} </math>, जहां <math>*</math> [[क्लेन स्टार]] ऑपरेशन है।


सामान्य तौर पर, समय पर कदम <math>t</math> (जो 1 से मी तक है), AIXI, पहले निष्पादित क्रियाएं <math>a_1\dots a_{t-1}</math> (जिसे अक्सर साहित्य में संक्षिप्त रूप में कहा जाता है <math>a_{<t}</math>) और धारणाओं के इतिहास का अवलोकन किया <math>o_1 r_1 ... o_{t-1} r_{t-1}</math> (जिसे संक्षिप्त रूप में कहा जा सकता है <math>e_{<t}</math>), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, <math>a_t</math>, निम्नानुसार परिभाषित किया गया है <ref>[http://hutter1.net/ai/uaibook.htm Universal Artificial Intelligence<!-- Bot generated title -->]</ref>
सामान्यतः, समय पर कदम <math>t</math> (जो 1 से मी तक है), AIXI, पहले निष्पादित क्रियाएं <math>a_1\dots a_{t-1}</math> (जिसे अधिकांशतः साहित्य में संक्षिप्त रूप में कहा जाता है <math>a_{<t}</math>) और धारणाओं के इतिहास का अवलोकन किया <math>o_1 r_1 ... o_{t-1} r_{t-1}</math> (जिसे संक्षिप्त रूप में कहा जा सकता है <math>e_{<t}</math>), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, <math>a_t</math>, निम्नानुसार परिभाषित किया गया है <ref>[http://hutter1.net/ai/uaibook.htm Universal Artificial Intelligence<!-- Bot generated title -->]</ref>
:<math>
:<math>
a_t := \arg \max_{a_t} \sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}  
a_t := \arg \max_{a_t} \sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}  
Line 24: Line 24:
आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।
आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।


<math>o_t r_t</math> धारणा है (जिसमें अवलोकन शामिल है)। <math>o_t</math> और इनाम <math>r_t</math>) समय कदम पर AIXI एजेंट द्वारा प्राप्त किया गया <math>t</math> पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, <math>o_m r_m</math> समय कदम पर AIXI द्वारा प्राप्त अवधारणा है <math>m</math> (अंतिम समय चरण जहां AIXI सक्रिय है)।
<math>o_t r_t</math> धारणा है (जिसमें अवलोकन सम्मलित है)। <math>o_t</math> और इनाम <math>r_t</math>) समय कदम पर AIXI एजेंट द्वारा प्राप्त किया गया <math>t</math> पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, <math>o_m r_m</math> समय कदम पर AIXI द्वारा प्राप्त अवधारणा है <math>m</math> (अंतिम समय चरण जहां AIXI सक्रिय है)।


<math>r_t + \ldots + r_m</math> समय कदम से पुरस्कारों का योग है <math>t</math> समय कदम के लिए <math>m</math>, इसलिए AIXI को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है <math>t</math>.
<math>r_t + \ldots + r_m</math> समय कदम से पुरस्कारों का योग है <math>t</math> समय कदम के लिए <math>m</math>, इसलिए AIXI को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है <math>t</math>.


<math>U</math> एक [[मोनोटोन वर्ग प्रमेय]] सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और <math>q</math> सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है <math>U</math>, जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है <math>q</math> और क्रियाओं का क्रम <math>a_1\dots a_m</math> (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है <math>o_1 r_1 \ldots o_m r_m</math>. यूनिवर्सल ट्यूरिंग मशीन <math>U</math> इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है <math>q</math> (जो पर्यावरण को मॉडल करता है) और AIXI एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्य तौर पर, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां AIXI को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।
<math>U</math> एक [[मोनोटोन वर्ग प्रमेय]] सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और <math>q</math> सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है <math>U</math>, जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है <math>q</math> और क्रियाओं का क्रम <math>a_1\dots a_m</math> (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है <math>o_1 r_1 \ldots o_m r_m</math>. यूनिवर्सल ट्यूरिंग मशीन <math>U</math> इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है <math>q</math> (जो पर्यावरण को मॉडल करता है) और AIXI एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्यतः, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां AIXI को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।


  <math>\textrm{length}(q)</math> कार्यक्रम की लंबाई है <math>q</math> (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि <math>2^{-\textrm{length}(q)} = \frac{1}{2^{\textrm{length}(q)}}</math>. इसलिए, उपरोक्त परिभाषा में, <math>\sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}</math> सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर [[मिश्रण (संभावना)]] (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए <math>2^{-\textrm{length}(q)}</math>. ध्यान दें कि <math>a_1 \ldots a_m</math> के रूप में भी लिखा जा सकता है <math>a_1 \ldots a_{t-1}a_t \ldots a_m</math>, और <math>a_1 \ldots a_{t-1} = a_{<t}</math> AIXI एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, <math>o_1 r_1 \ldots o_m r_m = o_1 r_1 \ldots o_{t-1} r_{t-1}o_{t} r_{t} \ldots o_m r_m</math>, और <math>o_1 r_1 \ldots o_{t-1} r_{t-1}</math> यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।
  <math>\textrm{length}(q)</math> कार्यक्रम की लंबाई है <math>q</math> (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि <math>2^{-\textrm{length}(q)} = \frac{1}{2^{\textrm{length}(q)}}</math>. इसलिए, उपरोक्त परिभाषा में, <math>\sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}</math> सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर [[मिश्रण (संभावना)]] (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए <math>2^{-\textrm{length}(q)}</math>. ध्यान दें कि <math>a_1 \ldots a_m</math> के रूप में भी लिखा जा सकता है <math>a_1 \ldots a_{t-1}a_t \ldots a_m</math>, और <math>a_1 \ldots a_{t-1} = a_{<t}</math> AIXI एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, <math>o_1 r_1 \ldots o_m r_m = o_1 r_1 \ldots o_{t-1} r_{t-1}o_{t} r_{t} \ldots o_m r_m</math>, और <math>o_1 r_1 \ldots o_{t-1} r_{t-1}</math> यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।
Line 40: Line 40:
=== पैरामीटर्स ===
=== पैरामीटर्स ===


AIXI के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। बाद वाले पैरामीटर को [[ छूट |छूट]] के उपयोग से हटाया जा सकता है।
AIXI के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। पश्चात वाले पैरामीटर को [[ छूट |छूट]] के उपयोग से हटाया जा सकता है।


== AIXI शब्द का अर्थ ==
== AIXI शब्द का अर्थ ==
Line 48: Line 48:
== इष्टतमता ==
== इष्टतमता ==


AIXI का प्रदर्शन उसे मिलने वाले पुरस्कारों की अपेक्षित कुल संख्या से मापा जाता है। AIXI निम्नलिखित तरीकों से इष्टतम साबित हुआ है।<ref name="uaibook" />
AIXI का प्रदर्शन उसे मिलने वाले पुरस्कारों की अपेक्षित कुल संख्या से मापा जाता है। AIXI निम्नलिखित तरीकों से इष्टतम सिद्ध करना है।<ref name="uaibook" />


* [[पेरेटो इष्टतमता]]: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से बेहतर प्रदर्शन करते हुए सभी वातावरणों में AIXI के बराबर प्रदर्शन करता है।{{citation needed|date=June 2014}}
* [[पेरेटो इष्टतमता]]: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से बेहतर प्रदर्शन करते हुए सभी वातावरणों में AIXI के बराबर प्रदर्शन करता है।{{citation needed|date=June 2014}}
* संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
* संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
* स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है <math>\mu</math> यदि पी का प्रदर्शन सैद्धांतिक अधिकतम के करीब पहुंचता है <math>\mu</math>  जब एजेंट के जीवनकाल की लंबाई (समय नहीं) अनंत हो जाती है।पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां मौजूद हैं, AIXI स्व-अनुकूलन है।
* स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है <math>\mu</math> यदि पी का प्रदर्शन सैद्धांतिक अधिकतम के समीप पहुंचता है <math>\mu</math>  जब एजेंट के जीवनकाल की लंबाई (समय नहीं) अनंत हो जाती है।पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां उपस्थित हैं, AIXI स्व-अनुकूलन है।


इसे बाद में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे AIXI के लिए पिछले सभी इष्टतमता दावों को कमजोर करने के रूप में वर्णित करते हैं।<ref>{{cite conference|conference=Proceedings of the 28th Conference on Learning Theory|last1=Leike|first1=Jan|last2=Hutter|first2=Marcus|title=ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ|date=2015|url=http://proceedings.mlr.press/v40/Leike15.pdf}}</ref>
इसे पश्चात में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे AIXI के लिए पिछले सभी इष्टतमता दावों को कमजोर करने के रूप में वर्णित करते हैं।<ref>{{cite conference|conference=Proceedings of the 28th Conference on Learning Theory|last1=Leike|first1=Jan|last2=Hutter|first2=Marcus|title=ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ|date=2015|url=http://proceedings.mlr.press/v40/Leike15.pdf}}</ref>


हालाँकि, AIXI की सीमाएँ हैं। यह बाहरी राज्यों के विपरीत धारणाओं के आधार पर पुरस्कारों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से बातचीत करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह यह भी मानता है कि पर्यावरण गणना योग्य है।<ref>{{cite web|last1=Soares|first1=Nate|title=यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना|url=https://intelligence.org/files/RealisticWorldModels.pdf|website=Intelligence.org|access-date=2015-07-19|ref=MIRI}}</ref>
चूंकि, AIXI की सीमाएँ हैं। यह बाहरी राज्यों के विपरीत धारणाओं के आधार पर पुरस्कारों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से बातचीत करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह यह भी मानता है कि पर्यावरण गणना योग्य है।<ref>{{cite web|last1=Soares|first1=Nate|title=यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना|url=https://intelligence.org/files/RealisticWorldModels.pdf|website=Intelligence.org|access-date=2015-07-19|ref=MIRI}}</ref>
== कम्प्यूटेशनल पहलू ==
== कम्प्यूटेशनल पहलू ==


सोलोमनॉफ इंडक्शन की तरह, AIXI [[अनिर्णीत समस्या]] है। हालाँकि, इसके गणना योग्य अनुमान मौजूद हैं। ऐसा ही एक सन्निकटन AIXItl है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।<ref name="uaibook" />प्रतिबंधित पर्यावरण वर्ग के साथ AIXI का एक और अनुमान एमसी-AIXI (एफएसी-सीटीडब्ल्यू) है ([[मोंटे कार्लो विधि]] पद्धति AIXI [[प्रसंग वृक्ष भार|कॉन्टेक्स्ट ट्री वेटिंग मेथड]]), जिसे आंशिक रूप से अवलोकन योग्य [[पीएसी मैन]] जैसे सरल गेम खेलने में कुछ सफलता मिली है।<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David  |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref><ref>[https://www.youtube.com/watch?v=yfsMHtmGDKE Playing Pacman using AIXI Approximation – YouTube<!-- Bot generated title -->]</ref>
सोलोमनॉफ इंडक्शन की तरह, AIXI [[अनिर्णीत समस्या]] है। चूंकि, इसके गणना योग्य अनुमान उपस्थित हैं। ऐसा ही एक सन्निकटन AIXItl है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।<ref name="uaibook" />प्रतिबंधित पर्यावरण वर्ग के साथ AIXI का एक और अनुमान एमसी-AIXI (एफएसी-सीटीडब्ल्यू) है ([[मोंटे कार्लो विधि]] पद्धति AIXI [[प्रसंग वृक्ष भार|कॉन्टेक्स्ट ट्री वेटिंग मेथड]]), जिसे आंशिक रूप से अवलोकन योग्य [[पीएसी मैन]] जैसे सरल गेम खेलने में कुछ सफलता मिली है।<ref name=veness2009>{{cite arXiv |last1=Veness |first1=Joel |author2=Kee Siong Ng |last3=Hutter |first3=Marcus |last4=Uther |first4=William  |last5=Silver |first5=David  |eprint=0909.0801 |title=मोंटे कार्लो में AIXI सन्निकटन|year=2009 |class=cs.AI}}</ref><ref>[https://www.youtube.com/watch?v=yfsMHtmGDKE Playing Pacman using AIXI Approximation – YouTube<!-- Bot generated title -->]</ref>
== यह भी देखें ==
== यह भी देखें ==
* गोडेल मशीन (काल्पनिक स्व-सुधार करने वाला कंप्यूटर प्रोग्राम है)
* गोडेल मशीन (काल्पनिक स्व-सुधार करने वाला कंप्यूटर प्रोग्राम है)

Revision as of 14:58, 7 August 2023

एआईएक्सआई ['ai̯k͡siː] कृत्रिम सामान्य बुद्धि के लिए एक सैद्धांतिक गणितीय औपचारिकता है। यह सोलोमनॉफ इंडक्शन को अनुक्रमिक निर्णय सिद्धांत के साथ जोड़ता है। एआईएक्सआई को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था[1] और AIXI के संबंध में कई परिणाम हटर की 2005 की पुस्तक यूनिवर्सल आर्टिफिशियल इंटेलिजेंस में सिद्ध हुए हैं।[2]

AIXI एक सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पुरस्कारों को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पुरस्कार उत्पन्न करता है। वादा किए गए पुरस्कारों को तब व्यक्तिपरक तर्क के आधार पर महत्व दिया जाता है कि यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। AIXI तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल इनाम होता है।

परिभाषा

AIXI एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ बातचीत करता है . बातचीत समय के चरणों में आगे बढ़ती है, से को , जहां AIXI एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है , जिसमें एक अवलोकन सम्मलित है (उदाहरण के लिए, एक कैमरा छवि) और एक इनाम , सशर्त संभाव्यता के अनुसार वितरित , जहां क्रियाओं, अवलोकनों का "इतिहास" और पुरस्कार है। पर्यावरण इस प्रकार को गणितीय रूप से "अवधारणाओं" (अवलोकन और पुरस्कार) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई मार्कोव धारणा नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण AIXI एजेंट के लिए अज्ञात है। इसके अतिरिक्त, उस पर फिर से ध्यान दें गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पुरस्कार AIXI एजेंट के पिछले कार्यों को देखते हुए, की गणना कुछ प्रोग्राम (जो ट्यूरिंग मशीन पर चलती है) द्वारा की जा सकती है।[3]

AIXI एजेंट का एकमात्र लक्ष्य अधिकतम करना है , अर्थात्, समय चरण 1 से m तक पुरस्कारों का योग।

AIXI एजेंट स्टोकेस्टिक नीति से जुड़ा है , यह वह फ़ंक्शन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय कदम, जहां उन सभी संभावित कार्रवाइयों का स्थान है जो AIXI र सकता है और सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): , जहां क्लेन स्टार ऑपरेशन है।

सामान्यतः, समय पर कदम (जो 1 से मी तक है), AIXI, पहले निष्पादित क्रियाएं (जिसे अधिकांशतः साहित्य में संक्षिप्त रूप में कहा जाता है ) और धारणाओं के इतिहास का अवलोकन किया (जिसे संक्षिप्त रूप में कहा जा सकता है ), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, , निम्नानुसार परिभाषित किया गया है [4]

या, प्राथमिकता को स्पष्ट करने के लिए कोष्ठकों का उपयोग करें

सहज रूप से, उपरोक्त परिभाषा में, AIXI सभी संभावित "वायदा" पर कुल इनाम के योग पर विचार करता है समय आगे बढ़ता है (अर्थात, से।) को ), कार्यक्रमों की जटिलता के आधार पर उनमें से प्रत्येक की तुलना करना करता है (अर्थात, द्वारा ) एजेंट के अतीत के अनुरूप (अर्थात, पहले निष्पादित क्रियाएं, , और प्राप्त धारणाएँ, ) जो उस भविष्य को उत्पन्न कर सकता है, और फिर उस कार्रवाई को चुनता है जो अपेक्षित भविष्य के पुरस्कारों को अधिकतम करती है।[3]

आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।

धारणा है (जिसमें अवलोकन सम्मलित है)। और इनाम ) समय कदम पर AIXI एजेंट द्वारा प्राप्त किया गया पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, समय कदम पर AIXI द्वारा प्राप्त अवधारणा है (अंतिम समय चरण जहां AIXI सक्रिय है)।

समय कदम से पुरस्कारों का योग है समय कदम के लिए , इसलिए AIXI को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है .

एक मोनोटोन वर्ग प्रमेय सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है , जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है और क्रियाओं का क्रम (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है . यूनिवर्सल ट्यूरिंग मशीन इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है (जो पर्यावरण को मॉडल करता है) और AIXI एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्यतः, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां AIXI को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।

 कार्यक्रम की लंबाई है  (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि . इसलिए, उपरोक्त परिभाषा में,  सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर मिश्रण (संभावना) (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए . ध्यान दें कि  के रूप में भी लिखा जा सकता है , और  AIXI एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, , और  यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।

आइए अब इस समीकरण या परिभाषा को समझने के लिए इन सभी घटकों को एक साथ रखें।

समय चरण t पर, AIXI क्रिया चुनता है जहां फ़ंक्शन है अपनी अधिकतम सीमा तक पहुँच जाता है।

पैरामीटर्स

AIXI के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। पश्चात वाले पैरामीटर को छूट के उपयोग से हटाया जा सकता है।

AIXI शब्द का अर्थ

हटर के अनुसार, "AIXI" शब्द की कई व्याख्याएँ हो सकती हैं। AIXI सोलोमनऑफ़ के वितरण के आधार पर AI के लिए स्थिर हो सकता है, जिसे द्वारा दर्शाया गया है (जो ग्रीक अक्षर xi है), या उदा. यह इंडक्शन (I) के साथ AI "क्रॉस्ड" (X) के लिए स्थिर हो सकता है।

इष्टतमता

AIXI का प्रदर्शन उसे मिलने वाले पुरस्कारों की अपेक्षित कुल संख्या से मापा जाता है। AIXI निम्नलिखित तरीकों से इष्टतम सिद्ध करना है।[2]

  • पेरेटो इष्टतमता: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से बेहतर प्रदर्शन करते हुए सभी वातावरणों में AIXI के बराबर प्रदर्शन करता है।[citation needed]
  • संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
  • स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है यदि पी का प्रदर्शन सैद्धांतिक अधिकतम के समीप पहुंचता है जब एजेंट के जीवनकाल की लंबाई (समय नहीं) अनंत हो जाती है।पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां उपस्थित हैं, AIXI स्व-अनुकूलन है।

इसे पश्चात में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे AIXI के लिए पिछले सभी इष्टतमता दावों को कमजोर करने के रूप में वर्णित करते हैं।[5]

चूंकि, AIXI की सीमाएँ हैं। यह बाहरी राज्यों के विपरीत धारणाओं के आधार पर पुरस्कारों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से बातचीत करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह यह भी मानता है कि पर्यावरण गणना योग्य है।[6]

कम्प्यूटेशनल पहलू

सोलोमनॉफ इंडक्शन की तरह, AIXI अनिर्णीत समस्या है। चूंकि, इसके गणना योग्य अनुमान उपस्थित हैं। ऐसा ही एक सन्निकटन AIXItl है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।[2]प्रतिबंधित पर्यावरण वर्ग के साथ AIXI का एक और अनुमान एमसी-AIXI (एफएसी-सीटीडब्ल्यू) है (मोंटे कार्लो विधि पद्धति AIXI कॉन्टेक्स्ट ट्री वेटिंग मेथड), जिसे आंशिक रूप से अवलोकन योग्य पीएसी मैन जैसे सरल गेम खेलने में कुछ सफलता मिली है।[3][7]

यह भी देखें

  • गोडेल मशीन (काल्पनिक स्व-सुधार करने वाला कंप्यूटर प्रोग्राम है)

संदर्भ

  1. Marcus Hutter (2000). एल्गोरिथम जटिलता पर आधारित यूनिवर्सल आर्टिफिशियल इंटेलिजेंस का एक सिद्धांत. arXiv:cs.AI/0004001. Bibcode:2000cs........4001H.
  2. 2.0 2.1 2.2 — (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Texts in Theoretical Computer Science an EATCS Series. Springer. doi:10.1007/b138233. ISBN 978-3-540-22139-5. S2CID 33352850.
  3. 3.0 3.1 3.2 Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Silver, David (2009). "मोंटे कार्लो में AIXI सन्निकटन". arXiv:0909.0801 [cs.AI].
  4. Universal Artificial Intelligence
  5. Leike, Jan; Hutter, Marcus (2015). ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ (PDF). Proceedings of the 28th Conference on Learning Theory.
  6. Soares, Nate. "यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना" (PDF). Intelligence.org. Retrieved 2015-07-19.
  7. Playing Pacman using AIXI Approximation – YouTube