एआईएक्सआई

एआईएक्सआई ['ai̯k͡siː] कृत्रिम सामान्य बुद्धि के लिए एक सैद्धांतिक गणितीय औपचारिकता है। यह सोलोमनॉफ के आगमनात्मक अनुमान के सिद्धांत को अनुक्रमिक निर्णय सिद्धांत के साथ जोड़ता है। एआईएक्सआई को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था और एआईएक्सआई के संबंध में कई परिणाम हटर की 2005 की पुस्तक सार्वभौमिक कृत्रिम सामान्य बुद्धि (एजीआई) में सिद्ध हुए हैं।

एआईएक्सआई एक सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पुरस्कारों को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पुरस्कार उत्पन्न करता है। अभिवचन किए गए पुरस्कारों को तब व्यक्तिपरक तर्क के आधार पर महत्व दिया जाता है कि यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। एआईएक्सआई तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल पुरस्कार होता है।

परिभाषा
एआईएक्सआई एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ बातचीत करता है $$\mu$$. बातचीत समय के चरणों में आगे बढ़ती है, से $$t=1$$ को $$t=m$$, जहां $$m \in \mathbb{N}$$ एआईएक्सआई एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है $$a_t \in \mathcal{A}$$ (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है $$e_t \in \mathcal{E} = \mathcal{O} \times \mathbb{R}$$, जिसमें एक अवलोकन सम्मलित है $$o_t \in \mathcal{O}$$ (उदाहरण के लिए, एक कैमरा छवि) और एक पुरस्कार $$r_t \in \mathbb{R}$$, सशर्त संभाव्यता के अनुसार वितरित $$\mu(o_t r_t | a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t)$$, जहां $$a_1 o_1 r_1 ... a_{t-1} o_{t-1} r_{t-1} a_t$$ क्रियाओं, अवलोकनों का "इतिहास" और पुरस्कार है। पर्यावरण इस प्रकार $$\mu$$ को गणितीय रूप से "अवधारणाओं" (अवलोकन और पुरस्कार) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई मार्कोव धारणा नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण एआईएक्सआई एजेंट के लिए अज्ञात है। इसके अतिरिक्त, उस पर फिर से ध्यान दें $$\mu$$ गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पुरस्कार एआईएक्सआई एजेंट के पिछले कार्यों को देखते हुए, $$\mu$$ की गणना कुछ प्रोग्राम (जो ट्यूरिंग मशीन पर चलती है) द्वारा की जा सकती है।

एआईएक्सआई एजेंट का एकमात्र लक्ष्य अधिकतम करना है $$\sum_{t=1}^m r_t$$, अर्थात्, समय चरण 1 से m तक पुरस्कारों का योग।

एआईएक्सआई एजेंट स्टोकेस्टिक नीति से जुड़ा है $$\pi : (\mathcal{A} \times \mathcal{E})^* \rightarrow \mathcal{A}$$, यह वह फलन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय कदम, जहां $$\mathcal{A}$$ उन सभी संभावित कार्रवाइयों का स्थान है जो एआईएक्सआई र सकता है और $$\mathcal{E}$$ सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) $$\mu$$ को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): $$\mu : (\mathcal{A} \times \mathcal{E})^* \times \mathcal{A} \rightarrow \mathcal{E} $$, जहां $$*$$ क्लेन स्टार संचालन है।

सामान्यतः, समय पर कदम $$t$$ (जो 1 से मी तक है), एआईएक्सआई, पहले निष्पादित क्रियाएं $$a_1\dots a_{t-1}$$ (जिसे अधिकांशतः साहित्य में संक्षिप्त रूप में कहा जाता है $$a_{<t}$$) और धारणाओं के इतिहास का अवलोकन किया $$o_1 r_1 ... o_{t-1} r_{t-1}$$ (जिसे संक्षिप्त रूप में कहा जा सकता है $$e_{<t}$$), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, $$a_t$$, निम्नानुसार परिभाषित किया गया है

a_t := \arg \max_{a_t} \sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)} $$ या, प्राथमिकता को स्पष्ट करने के लिए कोष्ठकों का उपयोग करें

a_t := \arg \max_{a_t} \left( \sum_{o_t r_t} \ldots \left( \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \left( \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)} \right) \right) \right) $$ सहज रूप से, उपरोक्त परिभाषा में, एआईएक्सआई सभी संभावित "प्रण" पर कुल पुरस्कार के योग पर विचार करता है $$m - t$$ समय आगे बढ़ता है (अर्थात, से।) $$t$$ को $$m$$), कार्यक्रमों की जटिलता के आधार पर उनमें से प्रत्येक की तुलना करना करता है $$q$$ (अर्थात, द्वारा $$2^{-\textrm{length}(q)}$$) एजेंट के अतीत के अनुरूप (अर्थात, पहले निष्पादित क्रियाएं, $$a_{<t}$$, और प्राप्त धारणाएँ, $$e_{<t}$$) जो उस भविष्य को उत्पन्न कर सकता है, और फिर उस कार्रवाई को चुनता है जो अपेक्षित भविष्य के पुरस्कारों को अधिकतम करती है।

आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।

$$o_t r_t$$ धारणा है (जिसमें अवलोकन सम्मलित है)। $$o_t$$ और पुरस्कार $$r_t$$) समय कदम पर एआईएक्सआई एजेंट द्वारा प्राप्त किया गया $$t$$ पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, $$o_m r_m$$ समय कदम पर एआईएक्सआई द्वारा प्राप्त अवधारणा है $$m$$ (अंतिम समय चरण जहां एआईएक्सआई सक्रिय है)।

$$r_t + \ldots + r_m$$ समय कदम से पुरस्कारों का योग है $$t$$ समय कदम के लिए $$m$$, इसलिए एआईएक्सआई को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है $$t$$.

$$U$$ एक मोनोटोन वर्ग प्रमेय सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और $$q$$ सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है $$U$$, जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है $$q$$ और क्रियाओं का क्रम $$a_1\dots a_m$$ (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है $$o_1 r_1 \ldots o_m r_m$$. यूनिवर्सल ट्यूरिंग मशीन $$U$$ इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है $$q$$ (जो पर्यावरण को मॉडल करता है) और एआईएक्सआई एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्यतः, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां एआईएक्सआई को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।

$$\textrm{length}(q)$$ कार्यक्रम की लंबाई है $$q$$ (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि $$2^{-\textrm{length}(q)} = \frac{1}{2^{\textrm{length}(q)}}$$. इसलिए, उपरोक्त परिभाषा में, $$\sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}$$ सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर मिश्रण (संभावना) (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए $$2^{-\textrm{length}(q)}$$. ध्यान दें कि $$a_1 \ldots a_m$$ के रूप में भी लिखा जा सकता है $$a_1 \ldots a_{t-1}a_t \ldots a_m$$, और $$a_1 \ldots a_{t-1} = a_{<t}$$ एआईएक्सआई एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, $$o_1 r_1 \ldots o_m r_m = o_1 r_1 \ldots o_{t-1} r_{t-1}o_{t} r_{t} \ldots o_m r_m$$, और $$o_1 r_1 \ldots o_{t-1} r_{t-1}$$ यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।

आइए अब इस समीकरण या परिभाषा को समझने के लिए इन सभी घटकों को एक साथ रखें।

समय चरण t पर, एआईएक्सआई क्रिया चुनता है $$a_t$$ जहां फलन है$$\sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} [r_t + \ldots + r_m] \sum_{q:\; U(q, a_1 \ldots a_m) = o_1 r_1 \ldots o_m r_m} 2^{-\textrm{length}(q)}$$ अपनी अधिकतम सीमा तक पहुँच जाता है।

पैरामीटर्स
एआईएक्सआई के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। पश्चात वाले पैरामीटर को छूट के उपयोग से हटाया जा सकता है।

एआईएक्सआई शब्द का अर्थ
हटर के अनुसार, "एआईएक्सआई" शब्द की कई व्याख्याएँ हो सकती हैं। एआईएक्सआई सोलोमन ऑफ़ के वितरण के आधार पर एआई (AI) के लिए स्थिर हो सकता है, जिसे द्वारा दर्शाया गया है $$\xi$$ (जो ग्रीक अक्षर xi है), या उदा. यह इंडक्शन (I) के साथ AI "क्रॉस्ड" (X) के लिए स्थिर हो सकता है।

इष्टतमता
एआईएक्सआई का प्रदर्शन उसे मिलने वाले पुरस्कारों की अपेक्षित कुल संख्या से मापा जाता है। एआईएक्सआई निम्नलिखित तरीकों से इष्टतम सिद्ध करना है।


 * पेरेटो इष्टतमता: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से उत्तम प्रदर्शन करते हुए सभी वातावरणों में एआईएक्सआई के बराबर प्रदर्शन करता है।
 * संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
 * स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है $$\mu$$ यदि पी का प्रदर्शन सैद्धांतिक अधिकतम के समीप पहुंचता है $$\mu$$ जब एजेंट के जीवनकाल की लंबाई (समय नहीं) अनंत हो जाती है।पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां उपस्थित हैं, एआईएक्सआई स्व-अनुकूलन है।

इसे पश्चात में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे एआईएक्सआई के लिए पिछले सभी इष्टतमता अधिकार को कमजोर करने के रूप में वर्णित करते हैं।

चूंकि, एआईएक्सआई की सीमाएँ हैं। यह बाहरी स्थितियों के विपरीत धारणाओं के आधार पर पुरस्कारों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से बातचीत करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह भी मानता है कि पर्यावरण गणना योग्य है।

कम्प्यूटेशनल पहलू
सोलोमनॉफ़ का आगमनात्मक अनुमान के सिद्धांत की तरह, एआईएक्सआई अनिर्णीत समस्या है। चूंकि, इसके गणना योग्य अनुमान उपस्थित हैं। ऐसा ही एक सन्निकटन एआईएक्सआई है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है। प्रतिबंधित पर्यावरण वर्ग के साथ एआईएक्सआई का एक और अनुमान एमसी-एआईएक्सआई (एफएसी-सीटीडब्ल्यू) है (मोंटे कार्लो विधि पद्धति एआईएक्सआई कॉन्टेक्स्ट ट्री वेटिंग मेथड), जिसे आंशिक रूप से अवलोकन योग्य पीएसी मैन जैसे सरल गेम खेलने में कुछ सफलता मिली है।

यह भी देखें

 * गोडेल मशीन (काल्पनिक स्व-सुधार करने वाला कंप्यूटर प्रोग्राम है)

संदर्भ

 * "Universal Algorithmic Intelligence: A mathematical top->down approach", Marcus Hutter, ; also in Artificial General Intelligence, eds. B. Goertzel and C. Pennachin, Springer, 2007, ISBN 9783540237334, pp. 227–290,.