आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया

आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (पीओएमडीपी) मार्कोव निर्णय प्रक्रिया (एमडीपी) का सामान्यीकरण है। एक POMDP एक एजेंट निर्णय प्रक्रिया को मॉडल करता है जिसमें यह माना जाता है कि सिस्टम की गतिशीलता एक MDP द्वारा निर्धारित की जाती है, लेकिन एजेंट सीधे अंतर्निहित स्थिति का निरीक्षण नहीं कर सकता है। इसके बजाय, इसे एक सेंसर मॉडल (अंतर्निहित स्थिति को देखते हुए विभिन्न अवलोकनों की संभावना वितरण) और अंतर्निहित एमडीपी को बनाए रखना चाहिए। एमडीपी में पॉलिसी फ़ंक्शन के विपरीत, जो अंतर्निहित राज्यों को क्रियाओं के लिए मैप करता है, पीओएमडीपी की नीति टिप्पणियों के इतिहास (या विश्वास राज्यों) से कार्यों के लिए एक मानचित्रण है।

POMDP ढांचा सामान्य रूप से वास्तविक दुनिया की विभिन्न अनुक्रमिक निर्णय प्रक्रियाओं को मॉडल करने के लिए पर्याप्त है। अनुप्रयोगों में रोबोट नेविगेशन समस्याएं, मशीन रखरखाव और सामान्य रूप से अनिश्चितता के तहत योजना शामिल है। 1965 में कार्ल जोहान एस्ट्रोम द्वारा अपूर्ण जानकारी के साथ मार्कोव निर्णय प्रक्रियाओं के सामान्य ढांचे का वर्णन किया गया था। असतत राज्य स्थान के मामले में, और इसका संचालन अनुसंधान समुदाय में आगे अध्ययन किया गया था जहां संक्षिप्त नाम POMDP गढ़ा गया था। इसे बाद में लेस्ली पी. केलब्लिंग और माइकल एल. लिटमैन द्वारा कृत्रिम बुद्धिमत्ता और स्वचालित योजना में समस्याओं के लिए अनुकूलित किया गया था। पीओएमडीपी का एक सटीक समाधान विश्व राज्यों पर प्रत्येक संभावित विश्वास के लिए इष्टतम कार्रवाई करता है। इष्टतम कार्रवाई संभवतः अनंत क्षितिज पर एजेंट के अपेक्षित इनाम (या लागत को कम करती है) को अधिकतम करती है। इष्टतम क्रियाओं के अनुक्रम को एजेंट के पर्यावरण के साथ बातचीत के लिए इष्टतम नीति के रूप में जाना जाता है।

औपचारिक परिभाषा
एक असतत-समय POMDP एक एजेंट और उसके वातावरण के बीच संबंध को मॉडल करता है। औपचारिक रूप से, एक पीओएमडीपी 7-ट्यूपल है $$(S,A,T,R,\Omega,O,\gamma)$$, कहाँ
 * $$S$$ राज्यों का एक समूह है,
 * $$A$$ क्रियाओं का एक समूह है,
 * $$T$$ राज्यों के बीच सशर्त संक्रमण संभावनाओं का एक सेट है,
 * $$R: S \times A \to \mathbb{R}$$ इनाम समारोह है।
 * $$\Omega$$ टिप्पणियों का एक सेट है,
 * $$O$$ सशर्त अवलोकन संभावनाओं का एक सेट है, और
 * $$\gamma \in [0, 1)$$ छूट कारक है।

प्रत्येक समय अवधि में, पर्यावरण किसी न किसी अवस्था में होता है $$s \in S$$. एजेंट कार्रवाई करता है $$a \in A$$, जो पर्यावरण को राज्य में संक्रमण का कारण बनता है $$s'$$ संभावना के साथ $$T(s'\mid s,a)$$. उसी समय, एजेंट एक अवलोकन प्राप्त करता है $$o \in \Omega$$ जो पर्यावरण की नई स्थिति पर निर्भर करता है, $$s'$$, और अभी-अभी की गई कार्रवाई पर, $$a$$, संभावना के साथ $$O(o \mid s',a)$$ (या कभी-कभी $$O(o \mid s')$$ सेंसर मॉडल पर निर्भर करता है)। अंत में, एजेंट को इनाम मिलता है $$r$$ के बराबर $$R(s, a)$$. फिर प्रक्रिया दोहराती है। एजेंट के लिए लक्ष्य प्रत्येक समय कदम पर ऐसी कार्रवाइयों का चयन करना है जो उसके अपेक्षित भविष्य के छूट वाले इनाम को अधिकतम करें: $$E \left[ \sum_{t=0}^\infty \gamma^t r_t \right]$$, कहाँ $$r_t$$ समय पर अर्जित पुरस्कार है $$t$$. छूट का कारक $$\gamma$$ यह निर्धारित करता है कि अधिक दूर के पुरस्कारों पर कितने तात्कालिक पुरस्कार पसंद किए जाते हैं। कब $$\gamma=0$$ एजेंट केवल इस बात की परवाह करता है कि किस कार्रवाई से सबसे बड़ा अपेक्षित तत्काल इनाम मिलेगा; कब $$\gamma \rightarrow 1$$ एजेंट भविष्य के पुरस्कारों की अपेक्षित राशि को अधिकतम करने की परवाह करता है।

चर्चा
क्योंकि एजेंट सीधे पर्यावरण की स्थिति का निरीक्षण नहीं करता है, एजेंट को सही पर्यावरण स्थिति की अनिश्चितता के तहत निर्णय लेना चाहिए। हालांकि, पर्यावरण के साथ बातचीत करके और अवलोकन प्राप्त करके, एजेंट वर्तमान स्थिति की संभाव्यता वितरण को अद्यतन करके वास्तविक स्थिति में अपने विश्वास को अद्यतन कर सकता है। इस संपत्ति का एक परिणाम यह है कि इष्टतम व्यवहार में अक्सर (सूचना एकत्र करना) क्रियाएं शामिल हो सकती हैं जो विशुद्ध रूप से इसलिए की जाती हैं क्योंकि वे वर्तमान स्थिति के एजेंट के अनुमान में सुधार करते हैं, जिससे भविष्य में बेहतर निर्णय लेने की अनुमति मिलती है।

मार्कोव निर्णय प्रक्रिया # परिभाषा की परिभाषा के साथ उपरोक्त परिभाषा की तुलना करना शिक्षाप्रद है। एक एमडीपी में अवलोकन सेट शामिल नहीं होता है, क्योंकि एजेंट हमेशा पर्यावरण की वर्तमान स्थिति को निश्चित रूप से जानता है। वैकल्पिक रूप से, एक एमडीपी को पीओएमडीपी के रूप में राज्यों के सेट के बराबर होने के लिए अवलोकन सेट सेट करके और अवलोकन सशर्त संभावनाओं को निश्चित रूप से सही स्थिति से मेल खाने वाले अवलोकन का चयन करके परिभाषित किया जा सकता है।

विश्वास अद्यतन
कार्रवाई करने के बाद $$a$$ और देख रहा है $$o$$, एक एजेंट को राज्य में अपने विश्वास को अद्यतन करने की आवश्यकता है (या नहीं) पर्यावरण में हो सकता है (या नहीं)। चूंकि राज्य मार्कोवियन है (धारणा के अनुसार), राज्यों पर विश्वास बनाए रखने के लिए केवल पिछले विश्वास राज्य के ज्ञान की आवश्यकता होती है, की गई कार्रवाई, और वर्तमान अवलोकन। ऑपरेशन दर्शाया गया है $$b' = \tau(b,a,o)$$. नीचे हम वर्णन करते हैं कि इस विश्वास अद्यतन की गणना कैसे की जाती है।

पहुंचने के बाद $$s'$$, एजेंट देखता है $$o \in \Omega$$ संभावना के साथ $$O(o\mid s',a)$$. होने देना $$b$$ राज्य स्थान पर संभाव्यता वितरण हो $$S$$. $$b(s)$$ इस संभावना को दर्शाता है कि पर्यावरण स्थिति में है $$s$$. दिया गया $$b(s)$$, फिर कार्रवाई करने के बाद $$a$$ और देख रहा है $$o$$,

b'(s') = \eta O(o\mid s',a) \sum_{s\in S} T(s'\mid s,a)b(s) $$ कहाँ $$\eta=1/\Pr(o\mid b,a)$$ के साथ एक सामान्यीकरण स्थिरांक है $$\Pr(o\mid b,a) = \sum_{s'\in S}O(o\mid s',a)\sum_{s\in S}T(s'\mid s,a)b(s)$$.

विश्वास एमडीपी
एक मार्कोवियन विश्वास राज्य एक पीओएमडीपी को मार्कोव निर्णय प्रक्रिया के रूप में तैयार करने की अनुमति देता है जहां हर विश्वास एक राज्य है। परिणामी विश्वास एमडीपी इस प्रकार एक निरंतर राज्य स्थान पर परिभाषित किया जाएगा (भले ही मूल पीओएमडीपी में राज्यों की सीमित संख्या हो: अनंत विश्वास राज्य हैं (में $$B$$) क्योंकि राज्यों में असीमित संभाव्यता वितरण हैं (के $$S$$)).

औपचारिक रूप से, विश्वास एमडीपी को टपल के रूप में परिभाषित किया गया है $$(B,A,\tau,r,\gamma)$$ कहाँ


 * $$B$$ POMDP राज्यों पर विश्वास राज्यों का समूह है,
 * $$A$$ मूल पीओएमडीपी के समान कार्रवाई का एक ही सीमित सेट है,
 * $$\tau$$ विश्वास राज्य संक्रमण समारोह है,
 * $$r:B \times A \to \mathbb{R}$$ विश्वास राज्यों पर इनाम समारोह है,
 * $$\gamma$$ के बराबर छूट कारक है $$\gamma$$ मूल पीओएमडीपी में।

यहाँ इन, $$\tau$$ और $$r$$ मूल POMDP से प्राप्त करने की आवश्यकता है। $$\tau$$ है

$$\tau(b,a,b') = \sum_{o\in \Omega} \Pr(b'|b,a,o) \Pr(o | a, b),$$ कहाँ $$\Pr(o | a,b)$$ पिछले खंड में प्राप्त मूल्य है और

$$Pr(b'|b,a,o) = \begin{cases} 1 &\text{if the belief update with arguments } b,a,o \text{ returns } b' \\ 0 &\text{otherwise } \end{cases}.$$ विश्वास एमडीपी इनाम समारोह ($$r$$) विश्वास राज्य वितरण पर POMDP इनाम समारोह से अपेक्षित इनाम है:

$$r(b,a) = \sum_{s\in S} b(s) R(s,a)$$.

विश्वास एमडीपी अब आंशिक रूप से देखने योग्य नहीं है, क्योंकि किसी भी समय एजेंट अपने विश्वास को जानता है, और विस्तार से विश्वास एमडीपी की स्थिति।

नीति और मूल्य समारोह
प्रारंभिक पीओएमडीपी के विपरीत (जहां प्रत्येक क्रिया केवल एक राज्य से उपलब्ध है), संबंधित विश्वास एमडीपी में सभी विश्वास राज्य सभी कार्यों की अनुमति देते हैं, क्योंकि आप (लगभग) हमेशा विश्वास करने की कुछ संभावना रखते हैं कि आप किसी भी (मूल) राज्य में हैं। जैसे की, $$\pi$$ एक क्रिया निर्दिष्ट करता है $$a=\pi(b)$$ किसी विश्वास के लिए $$b$$.

यहां यह माना जाता है कि उद्देश्य अनंत क्षितिज पर अपेक्षित कुल रियायती इनाम को अधिकतम करना है। कब $$R$$ एक लागत को परिभाषित करता है, उद्देश्य अपेक्षित लागत का न्यूनीकरण हो जाता है।

नीति के लिए अपेक्षित इनाम $$\pi$$ विश्वास से शुरू $$b_0$$ परिभाषित किया जाता है

V^\pi(b_0) = \sum_{t=0}^\infty \gamma^t r(b_t, a_t) = \sum_{t=0}^\infty \gamma^t E\Bigl[ R(s_t,a_t) \mid b_0, \pi \Bigr] $$ कहाँ $$\gamma<1$$ छूट कारक है। इष्टतम नीति $$\pi^*$$ लंबी अवधि के इनाम का अनुकूलन करके प्राप्त किया जाता है।

\pi^* = \underset{\pi}{\mbox{argmax}}\ V^\pi(b_0) $$ कहाँ $$b_0$$ प्रारंभिक विश्वास है।

इष्टतम नीति, द्वारा निरूपित $$\pi^*$$, प्रत्येक विश्वास राज्य के लिए उच्चतम अपेक्षित इनाम मूल्य प्राप्त करता है, जो कि इष्टतम मूल्य फ़ंक्शन द्वारा कॉम्पैक्ट रूप से दर्शाया गया है $$V^*$$. यह मान फलन बेलमैन समीकरण का हल है:

V^*(b) = \max_{a\in A}\Bigl[ r(b,a) + \gamma\sum_{o\in \Omega} \Pr(o\mid b,a) V^*(\tau(b,a,o)) \Bigr] $$ परिमित-क्षितिज POMDPs के लिए, इष्टतम मान फ़ंक्शन टुकड़ावार-रैखिक और उत्तल है। इसे सदिशों के परिमित समुच्चय के रूप में प्रदर्शित किया जा सकता है। अनंत-क्षितिज सूत्रीकरण में, एक परिमित वेक्टर सेट अनुमानित हो सकता है $$V^*$$ मनमाने ढंग से बारीकी से, जिसका आकार उत्तल रहता है। वैल्यू इटरेशन डायनामिक प्रोग्रामिंग अपडेट को लागू करता है ताकि मूल्य में धीरे-धीरे सुधार हो सके जब तक कि अभिसरण नहीं हो जाता $$\epsilon$$-ऑप्टिमल वैल्यू फंक्शन, और इसकी टुकड़े-टुकड़े रैखिकता और उत्तलता को बरकरार रखता है। मूल्य में सुधार करके, नीति में निहित रूप से सुधार किया जाता है। नीति पुनरावृत्ति नामक एक अन्य गतिशील प्रोग्रामिंग तकनीक स्पष्ट रूप से नीति का प्रतिनिधित्व करती है और इसके बजाय सुधार करती है।

अनुमानित POMDP समाधान
व्यवहार में, पीओएमडीपी अक्सर कम्प्यूटेशनल रूप से कम्प्यूटेशनल जटिलता सिद्धांत # वास्तव में हल करने के लिए इंट्रेक्टेबिलिटी होते हैं, इसलिए कंप्यूटर वैज्ञानिकों ने ऐसे तरीके विकसित किए हैं जो पीओएमडीपी के लिए अनुमानित समाधान हैं। ग्रिड-आधारित एल्गोरिदम एक अनुमानित समाधान तकनीक शामिल करें। इस दृष्टिकोण में, मूल्य समारोह की गणना विश्वास स्थान में बिंदुओं के एक सेट के लिए की जाती है, और इंटरपोलेशन का उपयोग उन अन्य विश्वास राज्यों के लिए इष्टतम कार्रवाई निर्धारित करने के लिए किया जाता है जो ग्रिड बिंदुओं के सेट में नहीं हैं। अधिक हाल के कार्य नमूनाकरण तकनीकों, सामान्यीकरण तकनीकों और समस्या संरचना के शोषण का उपयोग करते हैं, और लाखों राज्यों के साथ बड़े डोमेन में POMDP समाधान को विस्तारित किया है। उदाहरण के लिए, अनुकूली ग्रिड और बिंदु-आधारित विधियाँ यादृच्छिक पहुंच योग्य विश्वास बिंदुओं का नमूना लेती हैं, जो विश्वास स्थान में प्रासंगिक क्षेत्रों की योजना को विवश करती हैं। सिद्धांत घटक विश्लेषण का उपयोग करते हुए आयाम में कमी का भी पता लगाया गया है। पीओएमडीपी को हल करने के लिए अनुमानित समाधान तकनीकों की एक और पंक्ति पिछली टिप्पणियों, कार्यों और पुरस्कारों के इतिहास को एक छद्म राज्य के रूप में उपयोग करने (एक सबसेट) पर निर्भर करती है। इन छद्म अवस्थाओं के आधार पर एमडीपी को हल करने के लिए सामान्य तकनीकों का उपयोग किया जा सकता है (जैसे क्यू-लर्निंग)। आदर्श रूप से छद्म राज्यों में यथासंभव संकुचित होने के दौरान पूरे इतिहास (पूर्वाग्रह को कम करने के लिए) से सबसे महत्वपूर्ण जानकारी होनी चाहिए (ओवरफिटिंग को कम करने के लिए)।

पीओएमडीपी सिद्धांत
पीओएमडीपी में नियोजन सामान्य रूप से अनिर्णीत समस्या है। हालाँकि, कुछ सेटिंग्स को निर्णायक होने के लिए पहचाना गया है (देखें तालिका 2 में, नीचे पुनरुत्पादित)। विभिन्न उद्देश्यों पर विचार किया गया है। बुच्ची उद्देश्यों को बुची ऑटोमेटन|बुची ऑटोमेटा द्वारा परिभाषित किया गया है। रीचैबिलिटी एक बुची स्थिति का एक उदाहरण है (उदाहरण के लिए, एक अच्छी स्थिति तक पहुँचना जिसमें सभी रोबोट घर हैं)। coBüchi उद्देश्य उन निशानों के अनुरूप हैं जो किसी दी गई Büchi स्थिति को संतुष्ट नहीं करते हैं (उदाहरण के लिए, खराब स्थिति में नहीं पहुँचना जिसमें कुछ रोबोट की मृत्यु हो गई)। समता उद्देश्यों को समता खेल के माध्यम से परिभाषित किया जाता है; वे जटिल उद्देश्यों को परिभाषित करने में सक्षम होते हैं जैसे कि हर 10 बार एक अच्छी स्थिति तक पहुँचना। उद्देश्य को पूरा किया जा सकता है:


 * लगभग-निश्चित रूप से, यानी उद्देश्य को पूरा करने की संभावना 1 है;
 * सकारात्मक, अर्थात् उद्देश्य को पूरा करने की संभावना 0 से अधिक है;
 * मात्रात्मक, अर्थात उद्देश्य को पूरा करने की संभावना दी गई सीमा से अधिक है।

हम परिमित स्मृति मामले पर भी विचार करते हैं जिसमें एजेंट एक परिमित-राज्य मशीन है, और सामान्य मामला जिसमें एजेंट की अनंत स्मृति होती है।

अनुप्रयोग
पीओएमडीपी का इस्तेमाल कई तरह की वास्तविक दुनिया की समस्याओं के मॉडल के लिए किया जा सकता है। उल्लेखनीय अनुप्रयोगों में इस्कीमिक हृदय रोग के रोगियों के प्रबंधन में पीओएमडीपी का उपयोग शामिल है, डिमेंशिया वाले व्यक्तियों के लिए सहायक तकनीक, गंभीर रूप से लुप्तप्राय और सुमात्रन बाघों का पता लगाना मुश्किल है और विमान टक्कर परिहार।

बाहरी संबंध

 * APPL, a fast point-based POMDP solver
 * Finite-state Controllers using Branch-and-Bound An Exact POMDP Solver for Policies of a Bounded Size
 * pomdp: Infrastructure for Partially Observable Markov Decision Processes (POMDP) an R package which includes an interface to Tony Cassandra's pomdp-solve program.
 * POMDPs.jl, an interface for defining and solving MDPs and POMDPs in Julia and python with a variety of solvers.
 * pyPOMDP, a (PO)MDP toolbox (simulator, solver, learner, file reader) for Python by Oliver Stollmann and Bastian Migge
 * zmdp, a POMDP solver by Trey Smith