बेलमैन समीकरण

रिचर्ड ई. बेलमैन के नाम पर एक बेलमैन समीकरण, गणितीय अनुकूलन (गणित) विधि से जुड़ी इष्टतमता के लिए एक आवश्यक शर्त है जिसे गतिशील कार्यरचना के रूप में जाना जाता है। यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से लाभ और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है। यह एक गतिशील अनुकूलन समस्या को सरल उप-समस्याओं के अनुक्रम में तोड़ता है, जैसा कि बेलमैन के "इष्टतमता का सिद्धांत निर्धारित करता है। समीकरण कुल क्रम के साथ बीजगणितीय संरचनाओं पर लागू होता है; आंशिक क्रम के साथ बीजगणितीय संरचनाओं के लिए, सामान्य बेलमैन के समीकरण का उपयोग किया जा सकता है। बेलमैन समीकरण पहले इंजीनियरिंग नियंत्रण सिद्धांत और उपयोजित गणित में अन्य विषयों पर लागू किया गया था, और बाद में आर्थिक सिद्धांत में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को जॉन वॉन न्यूमैन और ऑस्कर मॉर्गनस्टर्न के खेल और आर्थिक आचरण का सिद्धांत और अब्राहम के अनुक्रमिक विश्लेषण में पूर्वनिर्धारित किया गया है। 'बेलमैन समीकरण' शब्द सामान्यतः असतत-समय अनुकूलन समस्याओं से जुड़े गतिशील प्रोग्रामिंग समीकरण को संदर्भित करता है। निरंतर-समय की अनुकूलन समस्याओं में, अनुरूप समीकरण एक आंशिक अंतर समीकरण है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण कहा जाता है।

असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। नई स्थिति चर को प्रस्तुत करके उपयुक्त बेलमैन समीकरण पाया जा सकता है। हालाँकि, परिणामी संवर्धित-स्थिति बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा विषय जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि बहु-चरणी इष्टमीकरण समस्या का लागत प्रकार्य एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण स्थिति वृद्धि के बिना पाया जा सकता है।

गतिशील प्रोग्रामिंग में विश्लेषणात्मक अवधारणाएँ
बेलमैन समीकरण को समझने के लिए, कई अंतर्निहित अवधारणाओं को समझना आवश्यक है। सबसे पहले, किसी भी अनुकूलन समस्या का कुछ उद्देश्य होता है: यात्रा के समय को कम करना, लागत को कम करना, लाभ को अधिकतम करना, उपयोगिता को अधिकतम करना आदि। गणितीय कार्य जो इस उद्देश्य का वर्णन करता है, उसे हानि फलन कहा जाता है।

गतिशील प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर ध्यान देने की आवश्यकता है। सही निर्णय लेने के लिए आवश्यक वर्तमान स्थिति की जानकारी को स्थिति कहा जाता है। उदाहरण के लिए, यह निश्चित करने के लिए कि प्रत्येक बिंदु पर कितना उपभोग और व्यय करना है, लोगों को (अन्य बातों के अलावा) अपनी प्रारंभिक संपत्ति जानने की आवश्यकता होगी। इसलिए धन $$(W)$$ उनके स्थिति चरों में से एक होगा, परन्तु संभवतः अन्य भी होंगे।

किसी दिए गए समय पर चुने गए चर को प्रायः नियंत्रण चर (प्रोग्रामिंग) कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह तय कर सकते हैं कि अभी कितना व्यय करना है। नियंत्रण चर का चयन अब अगले स्थिति को चुनने के बराबर हो सकता है; सामान्यतः, अगली स्थिति वर्तमान नियंत्रण के अतिरिक्त अन्य कारकों से प्रभावित होती है। उदाहरण के लिए, सबसे सरल स्तिथि में, आज का धन (स्थिति) और खपत (नियंत्रण) कल के धन (नया स्थिति) को सटीक रूप से निर्धारित कर सकते हैं, हालांकि सामान्यतः अन्य कारक कल के धन को भी प्रभावित करेंगे।

गतिशील प्रोग्रामिंग दृष्टिकोण एक नियम खोजकर इष्टतम योजना का वर्णन करता है जो बताता है कि स्थिति के किसी भी संभावित मूल्य को देखते हुए नियंत्रण क्या होना चाहिए। उदाहरण के लिए, यदि उपभोग (सी) केवल धन (डब्ल्यू) पर निर्भर करता है, तो हम एक नियम की तलाश करेंगे $$c(W)$$ जो धन के कार्य के रूप में उपभोग देता है। ऐसे नियम, जो स्थितिों के कार्य के रूप में नियंत्रणों का निर्धारण करते हैं, नीति कार्य कहलाते हैं (बेलमैन, 1957, अध्याय III.2 देखें)।

अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई खुशी को अधिकतम करने के लिए, उपभोग को चुनता है, तो खुशी को अधिकतम करने के लिए (यह मानते हुए कि खुशी एच को एक गणितीय कार्य द्वारा दर्शाया जा सकता है, जैसे उपयोगिता फ़ंक्शन और धन द्वारा परिभाषित कुछ है), तो धन का प्रत्येक स्तर जुड़ा होगा खुशी का कुछ उच्चतम संभव स्तर, $$H(W)$$. स्थिति के एक समारोह के रूप में लिखे गए उद्देश्य का सर्वोत्तम संभव मूल्य मूल्य समारोह कहा जाता है।

बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे पीछे की ओर प्रेरण के रूप में जाना जाता है, एक अवधि में मूल्य फ़ंक्शन और अगली अवधि में मूल्य फ़ंक्शन के बीच संबंध लिखकर. इन दो मूल्य कार्यों के बीच संबंध को बेलमैन समीकरण कहा जाता है। इस दृष्टिकोण में, अंतिम समय अवधि में इष्टतम नीति उस समय स्थिति चर के मूल्य के एक समारोह के रूप में अग्रिम रूप से निर्दिष्ट की जाती है, और इस प्रकार उद्देश्य समारोह के परिणामी इष्टतम मूल्य को स्थिति चर के उस मूल्य के संदर्भ में व्यक्त किया जाता है। इसके बाद, अगली-से-अंतिम अवधि के अनुकूलन में उस अवधि की अवधि-विशिष्ट उद्देश्य समारोह और भविष्य के उद्देश्य समारोह के इष्टतम मूल्य को अधिकतम करना शामिल है, जो उस अवधि की इष्टतम नीति को स्थिति चर के मूल्य पर निर्भर करता है, जैसा कि अगले- से अंतिम अवधि का निर्णय। यह तर्क समय-समय पर पुनरावर्ती रूप से जारी रहता है, जब तक कि पहली अवधि के निर्णय नियम को प्रारंभिक स्थिति चर मूल्य के एक समारोह के रूप में, पहली-अवधि-विशिष्ट उद्देश्य समारोह के योग और दूसरी अवधि के मूल्य समारोह के मूल्य को अनुकूलित करके, प्राप्त नहीं किया जाता है। जो भविष्य की सभी अवधियों के लिए मूल्य देता है। इस प्रकार, प्रत्येक अवधि का निर्णय स्पष्ट रूप से यह स्वीकार करते हुए किया जाता है कि भविष्य के सभी निर्णय इष्टतम रूप से किए जाएंगे।

एक गतिशील निर्णय समस्या
स्थिति को समय पर जाने दो $$t$$ होना $$x_t$$. एक निर्णय के लिए जो समय 0 से शुरू होता है, हम प्रारंभिक अवस्था के रूप में लेते हैं $$x_0$$. किसी भी समय, संभावित क्रियाओं का समूह वर्तमान स्थिति पर निर्भर करता है; हम इसे इस प्रकार लिख सकते हैं $$ a_{t} \in \Gamma (x_t)$$, जहां कार्रवाई $$a_t$$ एक या अधिक नियंत्रण चर का प्रतिनिधित्व करता है। हम यह भी मानते हैं कि स्थिति से बदलता है $$x$$ एक नए स्थिति के लिए $$T(x,a)$$ जब कार्रवाई $$a$$ लिया जाता है, और यह कि कार्रवाई करने से वर्तमान अदायगी $$a$$ स्थिति में $$x$$ है $$F(x,a)$$. अंत में, हम अधीरता को मान लेते हैं, जिसे छूट कारक द्वारा दर्शाया जाता है $$0<\beta<1$$.

इन मान्यताओं के तहत, एक अनंत-क्षितिज निर्णय समस्या निम्न रूप लेती है:


 * $$ V(x_0) \; = \; \max_{ \left \{ a_{t} \right \}_{t=0}^{\infty} } \sum_{t=0}^{\infty} \beta^t F(x_t,a_{t}), $$

बाधाओं के अधीन


 * $$ a_{t} \in \Gamma (x_t), \; x_{t+1}=T(x_t,a_t), \; \forall t = 0, 1, 2, \dots $$

ध्यान दें कि हमने संकेतन को परिभाषित किया है $$V(x_0)$$ उस इष्टतम मूल्य को निरूपित करने के लिए जिसे कल्पित बाधाओं के अधीन इस उद्देश्य फलन को अधिकतम करके प्राप्त किया जा सकता है। यह फ़ंक्शन मान फ़ंक्शन है। यह प्रारंभिक अवस्था चर का एक कार्य है $$x_0$$, चूंकि प्राप्त करने योग्य सर्वोत्तम मूल्य प्रारंभिक स्थिति पर निर्भर करता है।

बेलमैन का इष्टतमता का सिद्धांत
गतिशील प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह कैसे करना है:इष्टतमता का सिद्धांत: एक इष्टतम नीति में यह गुण होता है कि प्रारंभिक स्थिति और प्रारंभिक निर्णय चाहे जो भी हों, शेष निर्णयों को पहले से उत्पन्न स्थिति के संबंध में एक इष्टतम नीति का गठन करना चाहिए फ़ैसला। (बेलमैन, 1957, अध्याय III.3 देखें।)  कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे इष्टतम उपसंरचना कहा जाता है। गतिशील खेल सिद्धांत के संदर्भ में, यह सिद्धांत सबगेम पूर्ण संतुलन की अवधारणा के अनुरूप है, हालांकि इस स्तिथि में एक इष्टतम नीति क्या है जो निर्णयकर्ता के विरोधियों द्वारा उनके दृष्टिकोण से समान इष्टतम नीतियों को चुनने पर निर्भर है।

जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए स्थिति के साथ समय 1 से नए सिरे से शुरुआत करेंगे $$x_1 $$). भविष्य के निर्णयों को कोष्ठक में दाईं ओर एकत्रित करना, उपरोक्त अनंत-क्षितिज निर्णय समस्या के बराबर है:
 * $$ \max_{ a_0 } \left \{ F(x_0,a_0)

+ \beta \left[ \max_{ \left \{ a_{t} \right \}_{t=1}^{\infty} } \sum_{t=1}^{\infty} \beta^{t-1} F(x_t,a_{t}): a_{t} \in \Gamma (x_t), \; x_{t+1}=T(x_t,a_t), \; \forall t \geq 1 \right] \right \}$$ बाधाओं के अधीन


 * $$ a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). $$

यहां हम चुन रहे हैं $$a_0$$, यह जानते हुए कि हमारी पसंद समय 1 स्थिति का कारण बनेगी $$x_1=T(x_0,a_0)$$. वह नया स्थिति समय 1 से निर्णय समस्या को प्रभावित करेगा। संपूर्ण भविष्य की निर्णय समस्या दाईं ओर वर्ग कोष्ठक के अंदर दिखाई देती है।

बेलमैन समीकरण
अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो स्थिति से शुरू होता है $$x_1=T(x_0,a_0)$$.

इसलिए, हम समस्या को मान फ़ंक्शन की पुनरावर्तन परिभाषा के रूप में फिर से लिख सकते हैं:


 * $$V(x_0) = \max_{ a_0 } \{ F(x_0,a_0) + \beta V(x_1) \} $$, बाधाओं के अधीन: $$ a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). $$

यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम टाइम सबस्क्रिप्ट छोड़ दें और अगले स्थिति के मान में प्लग करें:


 * $$V(x) = \max_{a \in \Gamma (x) } \{ F(x,a) + \beta V(T(x,a)) \}.$$

बेलमैन समीकरण को एक कार्यात्मक समीकरण के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात फ़ंक्शन को खोजना है $$V$$, जो कि वैल्यू फंक्शन है। याद रखें कि मूल्य समारोह स्थिति के एक समारोह के रूप में, उद्देश्य के सर्वोत्तम संभव मूल्य का वर्णन करता है $$x$$. मान फलन की गणना करके, हम फलन भी ज्ञात करेंगे $$a(x)$$ जो स्थिति के कार्य के रूप में इष्टतम क्रिया का वर्णन करता है; इसे नीति कार्य कहा जाता है।

एक स्टोकेस्टिक समस्या में
नियतात्मक सेटिंग में, उपरोक्त इष्टतम नियंत्रण समस्या से निपटने के लिए गतिशील प्रोग्रामिंग के अलावा अन्य तकनीकों का उपयोग किया जा सकता है। हालांकि, बेलमैन समीकरण प्रायः स्टोकास्टिक इष्टतम नियंत्रण समस्याओं को हल करने का सबसे सुविधाजनक तरीका होता है।

अर्थशास्त्र से एक विशिष्ट उदाहरण के लिए, प्रारंभिक धन बंदोबस्ती के साथ असीम रूप से रहने वाले उपभोक्ता पर विचार करें $${\color{Red}a_0}$$ अवधि में $$0$$. उनके पास तात्कालिक उपयोगिता कार्य है $$u(c)$$ कहाँ $$c$$ की दर से खपत और अगली अवधि की उपयोगिता को दर्शाता है $$0< \beta<1 $$. मान लीजिए कि पीरियड में क्या नहीं खाया जाता है $$t$$ ब्याज दर के साथ अगली अवधि तक ले जाता है $$r$$. तब उपभोक्ता की उपयोगिता अधिकतम करने की समस्या उपभोग योजना का चयन करना है $$\{{\color{OliveGreen}c_t}\}$$ वह हल करता है


 * $$\max \sum_{t=0} ^{\infty} \beta^t u ({\color{OliveGreen}c_t})$$

का विषय है


 * $${\color{Red}a_{t+1}} = (1 + r) ({\color{Red}a_t} - {\color{OliveGreen}c_t}), \; {\color{OliveGreen}c_t} \geq 0,$$

और


 * $$\lim_{t \rightarrow \infty} {\color{Red}a_t} \geq 0.$$

पहली बाधा पूंजी संचय/समस्या द्वारा निर्दिष्ट गति का नियम है, जबकि दूसरी बाधा एक ट्रांसवर्सलिटी (गणित) है कि उपभोक्ता अपने जीवन के अंत में ऋण नहीं लेता है। बेलमैन समीकरण है


 * $$V(a) = \max_{ 0 \leq c \leq a } \{ u(c) + \beta V((1+r) (a - c)) \},$$

वैकल्पिक रूप से, कोई अनुक्रम समस्या का सीधे उपयोग कर सकता है, उदाहरण के लिए, हैमिल्टनियन (नियंत्रण सिद्धांत)।

अब, यदि ब्याज दर समय-समय पर बदलती रहती है, तो उपभोक्ता को स्टोकेस्टिक अनुकूलन समस्या का सामना करना पड़ता है। बता दें कि ब्याज आर प्रायिकता संक्रमण समारोह के साथ एक मार्कोव प्रक्रिया का पालन करता है $$Q(r, d\mu_r)$$ कहाँ $$d\mu_r$$ यदि वर्तमान ब्याज दर है तो अगली अवधि में ब्याज दर के वितरण को नियंत्रित करने वाले संभाव्यता माप को दर्शाता है $$r$$. इस मॉडल में उपभोक्ता वर्तमान अवधि की ब्याज दर की घोषणा के बाद अपनी वर्तमान अवधि की खपत तय करता है।

केवल एक अनुक्रम चुनने के बजाय $$\{{\color{OliveGreen}c_t}\}$$, उपभोक्ता को अब एक क्रम चुनना होगा $$\{{\color{OliveGreen}c_t}\}$$ ए के हर संभव अहसास के लिए $$\{r_t\}$$ इस तरह से कि उनकी आजीवन अपेक्षित उपयोगिता अधिकतम हो:


 * $$\max_{ \left \{ c_{t} \right \}_{t=0}^{\infty} } \mathbb{E}\bigg( \sum_{t=0} ^{\infty} \beta^t u ({\color{OliveGreen}c_t})  \bigg).$$

अपेक्षा $$\mathbb{E}$$ आर के अनुक्रमों पर क्यू द्वारा दिए गए उचित संभाव्यता माप के संबंध में लिया जाता है'एस। क्योंकि आर एक मार्कोव प्रक्रिया द्वारा नियंत्रित होता है, गतिशील प्रोग्रामिंग समस्या को महत्वपूर्ण रूप से सरल करती है। फिर बेलमैन समीकरण बस है:


 * $$V(a, r) = \max_{ 0 \leq c \leq a } \{ u(c) + \beta \int V((1+r) (a - c), r') Q(r, d\mu_r) \} .$$

कुछ उचित धारणा के तहत, परिणामी इष्टतम नीति कार्य g(a,r) मापने योग्य है।

मार्कोवियन झटकों के साथ एक सामान्य स्टोचैस्टिक अनुक्रमिक अनुकूलन समस्या के लिए और जहां एजेंट को अपने निर्णय पूर्व-पोस्ट का सामना करना पड़ता है, बेलमैन समीकरण एक समान रूप लेता है


 * $$V(x, z) = \max_{c \in \Gamma(x,z)} \{F(x, c, z) + \beta \int V( T(x,c), z') d\mu_z(z')\}. $$

समाधान के तरीके

 * अनिर्धारित गुणांक की विधि, जिसे 'अनुमान और सत्यापन' के रूप में भी जाना जाता है, का उपयोग कुछ अनंत-क्षितिज, स्वायत्त प्रणाली (गणित) बेलमैन समीकरणों को हल करने के लिए किया जा सकता है।
 * बेलमैन समीकरण को पीछे की ओर प्रेरण द्वारा हल किया जा सकता है, या तो कुछ विशेष मामलों में बंद रूप अभिव्यक्ति, या कंप्यूटर पर संख्यात्मक विश्लेषण। न्यूमेरिकल बैकवर्ड इंडक्शन कई तरह की समस्याओं पर लागू होता है, लेकिन डायमेंशनलिटी के अभिशाप के कारण कई स्टेट वेरिएबल्स होने पर यह संभव नहीं हो सकता है। दिमित्री बर्टसेकस | डी द्वारा अनुमानित गतिशील प्रोग्रामिंग प्रस्तुत की गई है। पी. बर्टसेकास और जॉन त्सित्सिकलिस|जे. बेलमैन फ़ंक्शन का अनुमान लगाने के लिए कृत्रिम तंत्रिका नेटवर्क (बहुपरत परसेप्ट्रॉन) के उपयोग के साथ एन। त्सित्सिकलिस। यह एकमात्र न्यूरल नेटवर्क पैरामीटर के मेमोराइजेशन के साथ पूरे अंतरिक्ष डोमेन के लिए पूर्ण फ़ंक्शन मैपिंग के संस्मरण को बदलकर आयाम के प्रभाव को कम करने के लिए एक प्रभावी शमन रणनीति है। विशेष रूप से, निरंतर समय प्रणालियों के लिए, एक अनुमानित गतिशील प्रोग्रामिंग दृष्टिकोण प्रस्तुत किया गया था जो दोनों नीति पुनरावृत्तियों को तंत्रिका नेटवर्क के साथ जोड़ता है। असतत समय में, मूल्य पुनरावृत्तियों और तंत्रिका नेटवर्क के संयोजन वाले HJB समीकरण को हल करने के लिए एक दृष्टिकोण प्रस्तुत किया गया था।
 * बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर लिफाफा प्रमेय का उपयोग करके मूल्य समारोह के डेरिवेटिव को खत्म करने के लिए, [[अंतर समीकरण]]ों या अंतर समीकरणों की एक प्रणाली प्राप्त करना संभव है जिसे 'यूलर-लग्रेंज समीकरण' कहा जाता है। . अंतर या अंतर समीकरणों के समाधान के लिए मानक तकनीकों का उपयोग स्थिति चर की गतिशीलता और अनुकूलन समस्या के नियंत्रण चर की गणना के लिए किया जा सकता है।

अर्थशास्त्र में अनुप्रयोग
अर्थशास्त्र में बेलमैन समीकरण का पहला ज्ञात अनुप्रयोग मार्टिन बेकमैन और रिचर्ड मुथ के कारण है। मार्टिन बेकमैन ने भी 1959 में बेलमैन समीकरण का उपयोग करते हुए उपभोग सिद्धांत पर व्यापक रूप से लिखा। उनके काम ने एडमंड एस. फेल्प्स सहित अन्य को प्रभावित किया।

बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग ICAPM पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है। (मर्टन की पोर्टफोलियो समस्या भी देखें)। मर्टन के सैद्धांतिक मॉडल का समाधान, जिसमें निवेशकों ने आज की आय और भविष्य की आय या पूंजीगत लाभ के बीच चयन किया, बेलमैन के समीकरण का एक रूप है। क्योंकि गतिशील प्रोग्रामिंग के आर्थिक अनुप्रयोगों के परिणामस्वरूप सामान्यतः बेलमैन समीकरण होता है जो एक अंतर समीकरण है, अर्थशास्त्री गतिशील प्रोग्रामिंग को एक पुनरावर्ती विधि के रूप में संदर्भित करते हैं और पुनरावर्ती अर्थशास्त्र का एक उपक्षेत्र अब अर्थशास्त्र के भीतर मान्यता प्राप्त है।

नैन्सी स्टोकी, रॉबर्ट ई. लुकास, और एडवर्ड प्रेस्कॉट ने स्टोकेस्टिक और नॉन स्टोकेस्टिक गतिशील प्रोग्रामिंग का काफी विस्तार से वर्णन किया है, और कुछ शर्तों को पूरा करने वाली समस्याओं के समाधान के अस्तित्व के लिए प्रमेय विकसित किए हैं। वे पुनरावर्ती विधियों का उपयोग करके अर्थशास्त्र में सैद्धांतिक समस्याओं के मॉडलिंग के कई उदाहरणों का भी वर्णन करते हैं। इस पुस्तक ने गतिशील प्रोग्रामिंग को अर्थशास्त्र में सैद्धांतिक समस्याओं की एक विस्तृत श्रृंखला को हल करने के लिए नियोजित किया, जिसमें इष्टतम आर्थिक विकास, संसाधन निष्कर्षण, प्रिंसिपल-एजेंट समस्याएं, सार्वजनिक वित्त, व्यापार निवेश, परिसंपत्ति मूल्य निर्धारण, उत्पादन आपूर्ति का कारक और औद्योगिक संगठन शामिल हैं। Lars Ljungqvist और थॉमस सार्जेंट मौद्रिक नीति, राजकोषीय नीति, कराधान, आर्थिक विकास, खोज सिद्धांत और श्रम अर्थशास्त्र में विभिन्न प्रकार के सैद्धांतिक प्रश्नों का अध्ययन करने के लिए गतिशील प्रोग्रामिंग लागू करते हैं। अविनाश दीक्षित और रॉबर्ट पिंडिक ने पूंजी आय - व्ययक के बारे में सोचने के लिए विधि का मूल्य दिखाया। एंडरसन ने निजी तौर पर आयोजित व्यवसायों सहित तकनीक को व्यापार मूल्यांकन के लिए अनुकूलित किया। ठोस समस्याओं को हल करने के लिए गतिशील प्रोग्रामिंग का उपयोग सूचना संबंधी कठिनाइयों से जटिल है, जैसे कि अप्राप्य छूट दर का चयन करना। कम्प्यूटेशनल मुद्दे भी हैं, जिनमें से एक मुख्य संभावित क्रियाओं और संभावित स्थिति चरों की विशाल संख्या से उत्पन्न होने वाली आयामीता का अभिशाप है जिसे एक इष्टतम रणनीति का चयन करने से पहले विचार किया जाना चाहिए। कम्प्यूटेशनल मुद्दों की व्यापक चर्चा के लिए, मिरांडा और फाकलर देखें, एंड में 2007.

उदाहरण
मार्कोव निर्णय प्रक्रियाओं में, बेलमैन समीकरण अपेक्षित पुरस्कारों के लिए एक पुनरावर्तन है। उदाहरण के लिए, किसी विशेष स्थिति में होने और कुछ निश्चित नीति का पालन करने के लिए अपेक्षित इनाम $$\pi$$ बेलमैन समीकरण है:


 * $$ V^\pi(s)= R(s,\pi(s)) + \gamma \sum_{s'} P(s'|s,\pi(s)) V^\pi(s').\ $$

यह समीकरण किसी नीति द्वारा निर्धारित कार्रवाई करने के लिए अपेक्षित इनाम का वर्णन करता है $$\pi$$.

इष्टतम नीति के समीकरण को बेलमैन इष्टतमता समीकरण कहा जाता है:


 * $$ V^{\pi*}(s)= \max_a \left\{ {R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^{\pi*}(s')} \right\}.\ $$

कहाँ $${\pi*}$$ इष्टतम नीति है और $$V^{\pi*}$$ इष्टतम नीति के मूल्य समारोह को संदर्भित करता है। उपरोक्त समीकरण उच्चतम प्रत्याशित रिटर्न देने वाली कार्रवाई करने के लिए इनाम का वर्णन करता है।