बेलमैन समीकरण: Difference between revisions

Line 1:

{{short description|Necessary condition for optimality associated with dynamic programming}}

[[File:Bellman flow chart.png|thumb|बेलमैन ~~फ्लो चार्ट~~]]रिचर्ड ई. बेलमैन के नाम पर एक बेलमैन समीकरण, गणितीय [[अनुकूलन (गणित)]] विधि से जुड़ी इष्टतमता के लिए एक [[आवश्यक शर्त]] है जिसे [[गतिशील प्रोग्रामिंग]] के रूप में जाना जाता है।<ref>{{cite book |first=Avinash K. |last=Dixit |title=Optimization in Economic Theory |publisher=Oxford University Press |edition=2nd |year=1990 |isbn=0-19-877211-4 |page=164 |url=https://books.google.com/books?id=dHrsHz0VocUC&pg=PA164 }}</ref> यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से ~~अदायगी~~ और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है।{{Citation needed|date=September 2017}} यह एक गतिशील अनुकूलन समस्या को सरल उप-समस्याओं के [[अनुक्रम]] में तोड़ता है, जैसा कि बेलमैन के "इष्टतमता का सिद्धांत निर्धारित करता है।<ref>{{cite book |first=Donald E. |last=Kirk |title=Optimal Control Theory: An Introduction |publisher=Prentice-Hall |year=1970 |isbn=0-13-638098-0 |page=55 |url=https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA55 }}</ref> समीकरण कुल क्रम के साथ बीजगणितीय संरचनाओं पर लागू होता है; आंशिक क्रम के साथ बीजगणितीय संरचनाओं के लिए, सामान्य बेलमैन के समीकरण का उपयोग किया जा सकता है।<ref name = "Generic Dijkstra correctness">{{citation | title = Generic Dijkstra: correctness and tractability | last1 = Szcześniak | first1 = Ireneusz | last2 = Woźna-Szcześniak | first2 = Bożena | year = 2022 | arxiv = 2204.13547}}</ref>

[[File:Bellman flow chart.png|thumb|बेलमैन प्रवाह मानचित्र]]रिचर्ड ई. बेलमैन के नाम पर एक बेलमैन समीकरण, गणितीय [[अनुकूलन (गणित)]] विधि से जुड़ी इष्टतमता के लिए एक [[आवश्यक शर्त]] है जिसे [[गतिशील प्रोग्रामिंग|गतिशील कार्यरचना]] के रूप में जाना जाता है।<ref>{{cite book |first=Avinash K. |last=Dixit |title=Optimization in Economic Theory |publisher=Oxford University Press |edition=2nd |year=1990 |isbn=0-19-877211-4 |page=164 |url=https://books.google.com/books?id=dHrsHz0VocUC&pg=PA164 }}</ref> यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से लाभ और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है।{{Citation needed|date=September 2017}} यह एक गतिशील अनुकूलन समस्या को सरल उप-समस्याओं के [[अनुक्रम]] में तोड़ता है, जैसा कि बेलमैन के "इष्टतमता का सिद्धांत निर्धारित करता है।<ref>{{cite book |first=Donald E. |last=Kirk |title=Optimal Control Theory: An Introduction |publisher=Prentice-Hall |year=1970 |isbn=0-13-638098-0 |page=55 |url=https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA55 }}</ref> समीकरण कुल क्रम के साथ बीजगणितीय संरचनाओं पर लागू होता है; आंशिक क्रम के साथ बीजगणितीय संरचनाओं के लिए, सामान्य बेलमैन के समीकरण का उपयोग किया जा सकता है।<ref name = "Generic Dijkstra correctness">{{citation | title = Generic Dijkstra: correctness and tractability | last1 = Szcześniak | first1 = Ireneusz | last2 = Woźna-Szcześniak | first2 = Bożena | year = 2022 | arxiv = 2204.13547}}</ref>

बेलमैन समीकरण पहले इंजीनियरिंग [[नियंत्रण सिद्धांत]] और ~~लागू~~ गणित में अन्य विषयों पर लागू किया गया था, और बाद में [[आर्थिक सिद्धांत]] में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को [[जॉन वॉन न्यूमैन]] और [[ऑस्कर मॉर्गनस्टर्न]] के [[गेम और आर्थिक आचरण का सिद्धांत]] और [[अब्राहम का जन्म हुआ]] के [[अनुक्रमिक विश्लेषण]] में पूर्वनिर्धारित किया गया है।{{Citation needed|date=September 2017}} 'बेलमैन समीकरण' शब्द ~~आमतौर पर~~ असतत-समय अनुकूलन समस्याओं से जुड़े गतिशील प्रोग्रामिंग समीकरण को संदर्भित करता है।<ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA70 70]}}</ref> निरंतर-समय की अनुकूलन समस्याओं में, अनुरूप समीकरण एक आंशिक अंतर समीकरण है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण कहा जाता है।<ref>{{cite book |first1=Morton I. |last1=Kamien |author-link=Morton Kamien |first2=Nancy L. |last2=Schwartz |title=Dynamic Optimization: The Calculus of Variations and Optimal Control in Economics and Management |location=Amsterdam |publisher=Elsevier |edition=Second |year=1991 |isbn=0-444-01609-0 |page=261 |url=https://books.google.com/books?id=liLCAgAAQBAJ&pg=PA261 }}</ref><ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA88 88]}}</ref>

बेलमैन समीकरण पहले इंजीनियरिंग [[नियंत्रण सिद्धांत]] और उपयोजित गणित में अन्य विषयों पर लागू किया गया था, और बाद में [[आर्थिक सिद्धांत]] में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को [[जॉन वॉन न्यूमैन]] और [[ऑस्कर मॉर्गनस्टर्न]] के [[गेम और आर्थिक आचरण का सिद्धांत|खेल और आर्थिक आचरण का सिद्धांत]] और [[अब्राहम का जन्म हुआ|अब्राहम]] के [[अनुक्रमिक विश्लेषण]] में पूर्वनिर्धारित किया गया है।{{Citation needed|date=September 2017}} 'बेलमैन समीकरण' शब्द सामान्यतः असतत-समय अनुकूलन समस्याओं से जुड़े गतिशील प्रोग्रामिंग समीकरण को संदर्भित करता है।<ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA70 70]}}</ref> निरंतर-समय की अनुकूलन समस्याओं में, अनुरूप समीकरण एक आंशिक अंतर समीकरण है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण कहा जाता है।<ref>{{cite book |first1=Morton I. |last1=Kamien |author-link=Morton Kamien |first2=Nancy L. |last2=Schwartz |title=Dynamic Optimization: The Calculus of Variations and Optimal Control in Economics and Management |location=Amsterdam |publisher=Elsevier |edition=Second |year=1991 |isbn=0-444-01609-0 |page=261 |url=https://books.google.com/books?id=liLCAgAAQBAJ&pg=PA261 }}</ref><ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA88 88]}}</ref>

असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। ~~नए राज्य~~ चर ~~(राज्य वृद्धि)~~ को ~~पेश~~ करके उपयुक्त बेलमैन समीकरण पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration |journal=IEEE Transactions on Automatic Control |date=2020 |volume=66 |issue=4 |pages=1602–1617 |doi=10.1109/TAC.2020.3002235|arxiv=1812.00792 |s2cid=119622206 }}</ref> हालाँकि, परिणामी संवर्धित-~~राज्य~~ बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा ~~मुद्दा~~ जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि ~~मल्टी~~-~~स्टेज ऑप्टिमाइज़ेशन~~ समस्या का लागत ~~फ़ंक्शन~~ एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण ~~राज्य~~ वृद्धि के बिना पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=A Generalization of Bellman's Equation with Application to Path Planning, Obstacle Avoidance and Invariant Set Estimation |journal=Automatica |date=2021 |volume=127 |pages=109510 |doi=10.1016/j.automatica.2021.109510 |url=https://www.sciencedirect.com/science/article/pii/S0005109821000303 |arxiv=2006.08175 |s2cid=222350370 }}</ref>

असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। नई स्थिति चर को प्रस्तुत करके उपयुक्त बेलमैन समीकरण पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration |journal=IEEE Transactions on Automatic Control |date=2020 |volume=66 |issue=4 |pages=1602–1617 |doi=10.1109/TAC.2020.3002235|arxiv=1812.00792 |s2cid=119622206 }}</ref> हालाँकि, परिणामी संवर्धित-स्थिति बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा विषय जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि बहु-चरणी इष्टमीकरण समस्या का लागत प्रकार्य एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण स्थिति वृद्धि के बिना पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=A Generalization of Bellman's Equation with Application to Path Planning, Obstacle Avoidance and Invariant Set Estimation |journal=Automatica |date=2021 |volume=127 |pages=109510 |doi=10.1016/j.automatica.2021.109510 |url=https://www.sciencedirect.com/science/article/pii/S0005109821000303 |arxiv=2006.08175 |s2cid=222350370 }}</ref>

Line 9:

Line 11:

बेलमैन समीकरण को समझने के लिए, कई अंतर्निहित अवधारणाओं को समझना आवश्यक है। सबसे पहले, किसी भी अनुकूलन समस्या का कुछ उद्देश्य होता है: यात्रा के समय को कम करना, लागत को कम करना, लाभ को अधिकतम करना, उपयोगिता को अधिकतम करना आदि। गणितीय कार्य जो इस उद्देश्य का वर्णन करता है, उसे हानि फलन कहा जाता है।

~~डायनेमिक~~ प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर ~~नज़र रखने~~ की आवश्यकता है। सही निर्णय लेने के लिए आवश्यक वर्तमान स्थिति की जानकारी को ~~राज्य~~ कहा जाता है।<ref name=BellmanDP>{{cite book |last=Bellman |first=R.E. |orig-year=1957 |title=Dynamic Programming |year=2003 |publisher=Dover |isbn=0-486-42809-5}}</ref><ref name=dreyfus>{{cite journal |first=S. |last=Dreyfus |year=2002 |title=Richard Bellman on the birth of dynamic programming |journal=Operations Research |volume=50 |issue=1 |pages=48–51 |doi=10.1287/opre.50.1.48.17791|doi-access=free }}</ref> उदाहरण के लिए, यह तय करने के लिए कि ~~समय पर~~ प्रत्येक बिंदु पर कितना उपभोग और ~~खर्च~~ करना है, लोगों को (अन्य बातों के अलावा) अपनी प्रारंभिक संपत्ति जानने की आवश्यकता होगी। इसलिए धन <math>(W)</math> उनके ~~राज्य~~ चरों में से एक होगा, ~~लेकिन शायद~~ अन्य भी होंगे।

गतिशील प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर ध्यान देने की आवश्यकता है। सही निर्णय लेने के लिए आवश्यक वर्तमान स्थिति की जानकारी को स्थिति कहा जाता है।<ref name=BellmanDP>{{cite book |last=Bellman |first=R.E. |orig-year=1957 |title=Dynamic Programming |year=2003 |publisher=Dover |isbn=0-486-42809-5}}</ref><ref name=dreyfus>{{cite journal |first=S. |last=Dreyfus |year=2002 |title=Richard Bellman on the birth of dynamic programming |journal=Operations Research |volume=50 |issue=1 |pages=48–51 |doi=10.1287/opre.50.1.48.17791|doi-access=free }}</ref> उदाहरण के लिए, यह निश्चित करने के लिए कि प्रत्येक बिंदु पर कितना उपभोग और व्यय करना है, लोगों को (अन्य बातों के अलावा) अपनी प्रारंभिक संपत्ति जानने की आवश्यकता होगी। इसलिए धन <math>(W)</math> उनके स्थिति चरों में से एक होगा, परन्तु संभवतः अन्य भी होंगे।

किसी दिए गए समय पर चुने गए चर को ~~अक्सर~~ [[नियंत्रण चर (प्रोग्रामिंग)]] कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह तय कर सकते हैं कि अभी कितना ~~उपभोग~~ करना है। नियंत्रण चर का चयन अब अगले ~~राज्य~~ को चुनने के बराबर हो सकता है; ~~आम तौर पर~~, अगली स्थिति वर्तमान नियंत्रण के अतिरिक्त अन्य कारकों से प्रभावित होती है। उदाहरण के लिए, सबसे सरल ~~मामले~~ में, आज का धन (~~राज्य~~) और खपत (नियंत्रण) कल के धन (नया ~~राज्य~~) को सटीक रूप से निर्धारित कर सकते हैं, हालांकि ~~आम तौर पर~~ अन्य कारक कल के धन को भी प्रभावित करेंगे।

किसी दिए गए समय पर चुने गए चर को प्रायः [[नियंत्रण चर (प्रोग्रामिंग)]] कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह तय कर सकते हैं कि अभी कितना व्यय करना है। नियंत्रण चर का चयन अब अगले स्थिति को चुनने के बराबर हो सकता है; सामान्यतः, अगली स्थिति वर्तमान नियंत्रण के अतिरिक्त अन्य कारकों से प्रभावित होती है। उदाहरण के लिए, सबसे सरल स्तिथि में, आज का धन (स्थिति) और खपत (नियंत्रण) कल के धन (नया स्थिति) को सटीक रूप से निर्धारित कर सकते हैं, हालांकि सामान्यतः अन्य कारक कल के धन को भी प्रभावित करेंगे।

~~गतिशील~~ प्रोग्रामिंग दृष्टिकोण एक नियम खोजकर इष्टतम योजना का वर्णन करता है जो बताता है कि ~~राज्य~~ के किसी भी संभावित मूल्य को देखते हुए नियंत्रण क्या होना चाहिए। उदाहरण के लिए, यदि उपभोग (सी) केवल धन (डब्ल्यू) पर निर्भर करता है, तो हम एक नियम की तलाश करेंगे <math>c(W)</math> जो धन के कार्य के रूप में उपभोग देता है। ऐसे नियम, जो ~~राज्यों~~ के कार्य के रूप में नियंत्रणों का निर्धारण करते हैं, नीति कार्य कहलाते हैं (बेलमैन, 1957, अध्याय III.2 देखें)।<ref name=BellmanDP />

ग'''तिशील प्रोग्रामिंग दृष्टिकोण एक नियम''' खोजकर इष्टतम योजना का वर्णन करता है जो बताता है कि स्थिति के किसी भी संभावित मूल्य को देखते हुए नियंत्रण क्या होना चाहिए। उदाहरण के लिए, यदि उपभोग (सी) केवल धन (डब्ल्यू) पर निर्भर करता है, तो हम एक नियम की तलाश करेंगे <math>c(W)</math> जो धन के कार्य के रूप में उपभोग देता है। ऐसे नियम, जो स्थितिों के कार्य के रूप में नियंत्रणों का निर्धारण करते हैं, नीति कार्य कहलाते हैं (बेलमैन, 1957, अध्याय III.2 देखें)।<ref name=BellmanDP />

अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई खुशी को अधिकतम करने के लिए, उपभोग को चुनता है, तो खुशी को अधिकतम करने के लिए (यह मानते हुए कि खुशी एच को एक गणितीय कार्य द्वारा दर्शाया जा सकता है, जैसे [[उपयोगिता]] फ़ंक्शन और धन द्वारा परिभाषित कुछ है), तो धन का प्रत्येक स्तर जुड़ा होगा खुशी का कुछ उच्चतम संभव स्तर, <math>H(W)</math>. ~~राज्य~~ के एक समारोह के रूप में लिखे गए उद्देश्य का सर्वोत्तम संभव मूल्य मूल्य समारोह कहा जाता है।

अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई खुशी को अधिकतम करने के लिए, उपभोग को चुनता है, तो खुशी को अधिकतम करने के लिए (यह मानते हुए कि खुशी एच को एक गणितीय कार्य द्वारा दर्शाया जा सकता है, जैसे [[उपयोगिता]] फ़ंक्शन और धन द्वारा परिभाषित कुछ है), तो धन का प्रत्येक स्तर जुड़ा होगा खुशी का कुछ उच्चतम संभव स्तर, <math>H(W)</math>. स्थिति के एक समारोह के रूप में लिखे गए उद्देश्य का सर्वोत्तम संभव मूल्य मूल्य समारोह कहा जाता है।

बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे [[पीछे की ओर प्रेरण]] के रूप में जाना जाता है, एक अवधि में मूल्य फ़ंक्शन और अगली अवधि में मूल्य फ़ंक्शन के बीच संबंध लिखकर . इन दो मूल्य कार्यों के बीच संबंध को बेलमैन समीकरण कहा जाता है। इस दृष्टिकोण में, अंतिम समय अवधि में इष्टतम नीति उस समय ~~राज्य~~ चर के मूल्य के एक समारोह के रूप में अग्रिम रूप से निर्दिष्ट की जाती है, और इस प्रकार उद्देश्य समारोह के परिणामी इष्टतम मूल्य को ~~राज्य~~ चर के उस मूल्य के संदर्भ में व्यक्त किया जाता है। इसके बाद, अगली-से-अंतिम अवधि के अनुकूलन में उस अवधि की अवधि-विशिष्ट उद्देश्य समारोह और भविष्य के उद्देश्य समारोह के इष्टतम मूल्य को अधिकतम करना शामिल है, जो उस अवधि की इष्टतम नीति को ~~राज्य~~ चर के मूल्य पर निर्भर करता है, जैसा कि अगले- से अंतिम अवधि का निर्णय।{{clarify |date=January 2020 |reason=comment from reader: the last two sentences are too long and ambiguous/confusing}} यह तर्क समय-समय पर पुनरावर्ती रूप से जारी रहता है, जब तक कि पहली अवधि के निर्णय नियम को प्रारंभिक ~~राज्य~~ चर मूल्य के एक समारोह के रूप में, पहली-अवधि-विशिष्ट उद्देश्य समारोह के योग और दूसरी अवधि के मूल्य समारोह के मूल्य को अनुकूलित करके, प्राप्त नहीं किया जाता है। जो भविष्य की सभी अवधियों के लिए मूल्य देता है। इस प्रकार, प्रत्येक अवधि का निर्णय स्पष्ट रूप से यह स्वीकार करते हुए किया जाता है कि भविष्य के सभी निर्णय इष्टतम रूप से किए जाएंगे।

बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे [[पीछे की ओर प्रेरण]] के रूप में जाना जाता है, एक अवधि में मूल्य फ़ंक्शन और अगली अवधि में मूल्य फ़ंक्शन के बीच संबंध लिखकर . इन दो मूल्य कार्यों के बीच संबंध को बेलमैन समीकरण कहा जाता है। इस दृष्टिकोण में, अंतिम समय अवधि में इष्टतम नीति उस समय स्थिति चर के मूल्य के एक समारोह के रूप में अग्रिम रूप से निर्दिष्ट की जाती है, और इस प्रकार उद्देश्य समारोह के परिणामी इष्टतम मूल्य को स्थिति चर के उस मूल्य के संदर्भ में व्यक्त किया जाता है। इसके बाद, अगली-से-अंतिम अवधि के अनुकूलन में उस अवधि की अवधि-विशिष्ट उद्देश्य समारोह और भविष्य के उद्देश्य समारोह के इष्टतम मूल्य को अधिकतम करना शामिल है, जो उस अवधि की इष्टतम नीति को स्थिति चर के मूल्य पर निर्भर करता है, जैसा कि अगले- से अंतिम अवधि का निर्णय।{{clarify |date=January 2020 |reason=comment from reader: the last two sentences are too long and ambiguous/confusing}} यह तर्क समय-समय पर पुनरावर्ती रूप से जारी रहता है, जब तक कि पहली अवधि के निर्णय नियम को प्रारंभिक स्थिति चर मूल्य के एक समारोह के रूप में, पहली-अवधि-विशिष्ट उद्देश्य समारोह के योग और दूसरी अवधि के मूल्य समारोह के मूल्य को अनुकूलित करके, प्राप्त नहीं किया जाता है। जो भविष्य की सभी अवधियों के लिए मूल्य देता है। इस प्रकार, प्रत्येक अवधि का निर्णय स्पष्ट रूप से यह स्वीकार करते हुए किया जाता है कि भविष्य के सभी निर्णय इष्टतम रूप से किए जाएंगे।

== व्युत्पत्ति ==

=== एक गतिशील निर्णय समस्या ===

~~राज्य~~ को समय पर जाने दो <math>t</math> होना <math>x_t</math>. एक निर्णय के लिए जो समय 0 से शुरू होता है, हम प्रारंभिक अवस्था के रूप में लेते हैं <math>x_0</math>. किसी भी समय, संभावित क्रियाओं का समूह वर्तमान स्थिति पर निर्भर करता है; हम इसे इस प्रकार लिख सकते हैं <math> a_{t} \in \Gamma (x_t)</math>, जहां कार्रवाई <math>a_t</math> एक या अधिक नियंत्रण चर का प्रतिनिधित्व करता है। हम यह भी मानते हैं कि ~~राज्य~~ से बदलता है <math>x</math> एक नए ~~राज्य~~ के लिए <math>T(x,a)</math> जब कार्रवाई <math>a</math> लिया जाता है, और यह कि कार्रवाई करने से वर्तमान अदायगी <math>a</math> ~~राज्य~~ में <math>x</math> है <math>F(x,a)</math>. अंत में, हम अधीरता को मान लेते हैं, जिसे [[छूट कारक]] द्वारा दर्शाया जाता है <math>0<\beta<1</math>.

स्थिति को समय पर जाने दो <math>t</math> होना <math>x_t</math>. एक निर्णय के लिए जो समय 0 से शुरू होता है, हम प्रारंभिक अवस्था के रूप में लेते हैं <math>x_0</math>. किसी भी समय, संभावित क्रियाओं का समूह वर्तमान स्थिति पर निर्भर करता है; हम इसे इस प्रकार लिख सकते हैं <math> a_{t} \in \Gamma (x_t)</math>, जहां कार्रवाई <math>a_t</math> एक या अधिक नियंत्रण चर का प्रतिनिधित्व करता है। हम यह भी मानते हैं कि स्थिति से बदलता है <math>x</math> एक नए स्थिति के लिए <math>T(x,a)</math> जब कार्रवाई <math>a</math> लिया जाता है, और यह कि कार्रवाई करने से वर्तमान अदायगी <math>a</math> स्थिति में <math>x</math> है <math>F(x,a)</math>. अंत में, हम अधीरता को मान लेते हैं, जिसे [[छूट कारक]] द्वारा दर्शाया जाता है <math>0<\beta<1</math>.

इन मान्यताओं के तहत, एक अनंत-क्षितिज निर्णय समस्या निम्न रूप लेती है:

Line 33:

Line 35:

=== बेलमैन का इष्टतमता का सिद्धांत ===

~~डायनेमिक~~ प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह कैसे करना है:<ब्लॉककोट>इष्टतमता का सिद्धांत: एक इष्टतम नीति में यह गुण होता है कि प्रारंभिक स्थिति और प्रारंभिक निर्णय चाहे जो भी हों, शेष निर्णयों को पहले से उत्पन्न ~~राज्य~~ के संबंध में एक इष्टतम नीति का गठन करना चाहिए फ़ैसला। (बेलमैन, 1957, अध्याय III.3 देखें।)<ref name=BellmanDP /><ref name=dreyfus /><ref name=BellmanTheory>{{cite journal |first=R |last=Bellman |pmc=1063639 |title=On the Theory of Dynamic Programming |journal=Proc Natl Acad Sci U S A |date=August 1952 |volume=38 |issue=8 |pages=716–9 |pmid=16589166 |doi=10.1073/pnas.38.8.716|bibcode=1952PNAS...38..716B |doi-access=free }}</ref></ब्लॉककोट>

गतिशील प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह कैसे करना है:<ब्लॉककोट>इष्टतमता का सिद्धांत: एक इष्टतम नीति में यह गुण होता है कि प्रारंभिक स्थिति और प्रारंभिक निर्णय चाहे जो भी हों, शेष निर्णयों को पहले से उत्पन्न स्थिति के संबंध में एक इष्टतम नीति का गठन करना चाहिए फ़ैसला। (बेलमैन, 1957, अध्याय III.3 देखें।)<ref name=BellmanDP /><ref name=dreyfus /><ref name=BellmanTheory>{{cite journal |first=R |last=Bellman |pmc=1063639 |title=On the Theory of Dynamic Programming |journal=Proc Natl Acad Sci U S A |date=August 1952 |volume=38 |issue=8 |pages=716–9 |pmid=16589166 |doi=10.1073/pnas.38.8.716|bibcode=1952PNAS...38..716B |doi-access=free }}</ref></ब्लॉककोट>

कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे [[इष्टतम उपसंरचना]] कहा जाता है। गतिशील [[खेल सिद्धांत]] के संदर्भ में, यह सिद्धांत सबगेम पूर्ण संतुलन की अवधारणा के अनुरूप है, हालांकि इस ~~मामले~~ में एक इष्टतम नीति क्या है जो निर्णयकर्ता के विरोधियों द्वारा उनके दृष्टिकोण से समान इष्टतम नीतियों को चुनने पर निर्भर है।

कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे [[इष्टतम उपसंरचना]] कहा जाता है। गतिशील [[खेल सिद्धांत]] के संदर्भ में, यह सिद्धांत सबगेम पूर्ण संतुलन की अवधारणा के अनुरूप है, हालांकि इस स्तिथि में एक इष्टतम नीति क्या है जो निर्णयकर्ता के विरोधियों द्वारा उनके दृष्टिकोण से समान इष्टतम नीतियों को चुनने पर निर्भर है।

जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए ~~राज्य~~ के साथ समय 1 से नए सिरे से शुरुआत करेंगे <math>x_1 </math>). भविष्य के निर्णयों को कोष्ठक में दाईं ओर एकत्रित करना, उपरोक्त अनंत-क्षितिज निर्णय समस्या के बराबर है:{{Clarify|date=September 2017}}

जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए स्थिति के साथ समय 1 से नए सिरे से शुरुआत करेंगे <math>x_1 </math>). भविष्य के निर्णयों को कोष्ठक में दाईं ओर एकत्रित करना, उपरोक्त अनंत-क्षितिज निर्णय समस्या के बराबर है:{{Clarify|date=September 2017}}

:<math> \max_{ a_0 } \left \{ F(x_0,a_0)

+ \beta \left[ \max_{ \left \{ a_{t} \right \}_{t=1}^{\infty} }

Line 44:

Line 46:

:<math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math>

यहां हम चुन रहे हैं <math>a_0</math>, यह जानते हुए कि हमारी पसंद समय 1 स्थिति का कारण बनेगी <math>x_1=T(x_0,a_0)</math>. वह नया ~~राज्य~~ समय 1 से निर्णय समस्या को प्रभावित करेगा। संपूर्ण भविष्य की निर्णय समस्या दाईं ओर वर्ग कोष्ठक के अंदर दिखाई देती है।{{Clarify|date=September 2017}}{{Explain|date=September 2017}}

यहां हम चुन रहे हैं <math>a_0</math>, यह जानते हुए कि हमारी पसंद समय 1 स्थिति का कारण बनेगी <math>x_1=T(x_0,a_0)</math>. वह नया स्थिति समय 1 से निर्णय समस्या को प्रभावित करेगा। संपूर्ण भविष्य की निर्णय समस्या दाईं ओर वर्ग कोष्ठक के अंदर दिखाई देती है।{{Clarify|date=September 2017}}{{Explain|date=September 2017}}

=== बेलमैन समीकरण ===

अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो ~~राज्य~~ से शुरू होता है <math>x_1=T(x_0,a_0)</math>.

अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो स्थिति से शुरू होता है <math>x_1=T(x_0,a_0)</math>.

इसलिए, हम समस्या को मान फ़ंक्शन की पुनरावर्तन परिभाषा के रूप में फिर से लिख सकते हैं:

:<math>V(x_0) = \max_{ a_0 } \{ F(x_0,a_0) + \beta V(x_1) \} </math>, बाधाओं के अधीन: <math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math>

यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम टाइम सबस्क्रिप्ट छोड़ दें और अगले ~~राज्य~~ के मान में प्लग करें:

यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम टाइम सबस्क्रिप्ट छोड़ दें और अगले स्थिति के मान में प्लग करें:

:<math>V(x) = \max_{a \in \Gamma (x) } \{ F(x,a) + \beta V(T(x,a)) \}.</math>

बेलमैन समीकरण को एक [[कार्यात्मक समीकरण]] के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात फ़ंक्शन को खोजना है <math>V</math>, जो कि वैल्यू फंक्शन है। याद रखें कि मूल्य समारोह ~~राज्य~~ के एक समारोह के रूप में, उद्देश्य के सर्वोत्तम संभव मूल्य का वर्णन करता है <math>x</math>. मान फलन की गणना करके, हम फलन भी ज्ञात करेंगे <math>a(x)</math> जो ~~राज्य~~ के कार्य के रूप में इष्टतम क्रिया का वर्णन करता है; इसे नीति कार्य कहा जाता है।

बेलमैन समीकरण को एक [[कार्यात्मक समीकरण]] के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात फ़ंक्शन को खोजना है <math>V</math>, जो कि वैल्यू फंक्शन है। याद रखें कि मूल्य समारोह स्थिति के एक समारोह के रूप में, उद्देश्य के सर्वोत्तम संभव मूल्य का वर्णन करता है <math>x</math>. मान फलन की गणना करके, हम फलन भी ज्ञात करेंगे <math>a(x)</math> जो स्थिति के कार्य के रूप में इष्टतम क्रिया का वर्णन करता है; इसे नीति कार्य कहा जाता है।

=== एक स्टोकेस्टिक समस्या में ===

नियतात्मक सेटिंग में, उपरोक्त [[इष्टतम नियंत्रण]] समस्या से निपटने के लिए गतिशील प्रोग्रामिंग के अलावा अन्य तकनीकों का उपयोग किया जा सकता है। हालांकि, बेलमैन समीकरण ~~अक्सर~~ स्टोकास्टिक इष्टतम नियंत्रण समस्याओं को हल करने का सबसे सुविधाजनक तरीका होता है।

नियतात्मक सेटिंग में, उपरोक्त [[इष्टतम नियंत्रण]] समस्या से निपटने के लिए गतिशील प्रोग्रामिंग के अलावा अन्य तकनीकों का उपयोग किया जा सकता है। हालांकि, बेलमैन समीकरण प्रायः स्टोकास्टिक इष्टतम नियंत्रण समस्याओं को हल करने का सबसे सुविधाजनक तरीका होता है।

अर्थशास्त्र से एक विशिष्ट उदाहरण के लिए, प्रारंभिक धन बंदोबस्ती के साथ असीम रूप से रहने वाले उपभोक्ता पर विचार करें <math>{\color{Red}a_0}</math> अवधि में <math>0</math>. उनके पास तात्कालिक उपयोगिता कार्य है <math>u(c)</math> कहाँ <math>c</math> की दर से खपत और अगली अवधि की उपयोगिता को दर्शाता है <math>0< \beta<1 </math>. मान लीजिए कि पीरियड में क्या नहीं खाया जाता है <math>t</math> ब्याज दर के साथ अगली अवधि तक ले जाता है <math>r</math>. तब उपभोक्ता की उपयोगिता अधिकतम करने की समस्या उपभोग योजना का चयन करना है <math>\{{\color{OliveGreen}c_t}\}</math> वह हल करता है

Line 93:

Line 95:

== समाधान के तरीके ==

* [[अनिर्धारित गुणांक की विधि]], जिसे 'अनुमान और सत्यापन' के रूप में भी जाना जाता है, का उपयोग कुछ अनंत-क्षितिज, [[स्वायत्त प्रणाली (गणित)]] बेलमैन समीकरणों को हल करने के लिए किया जा सकता है।<ref>{{cite book |first1=Lars |last1=Ljungqvist |first2=Thomas J. |last2=Sargent |title=Recursive Macroeconomic Theory |publisher=MIT Press |year=2004 |edition=2nd |pages=[https://archive.org/details/recursivemacroec02edljun/page/88 88]–90 |isbn=0-262-12274-X |url=https://archive.org/details/recursivemacroec02edljun |url-access=registration }}</ref>

* बेलमैन समीकरण को [[पीछे की ओर प्रेरण]] द्वारा हल किया जा सकता है, या तो कुछ विशेष मामलों में [[बंद रूप अभिव्यक्ति]], या कंप्यूटर पर [[संख्यात्मक विश्लेषण]]। न्यूमेरिकल बैकवर्ड इंडक्शन कई तरह की समस्याओं पर लागू होता है, लेकिन डायमेंशनलिटी के अभिशाप के कारण कई स्टेट वेरिएबल्स होने पर यह संभव नहीं हो सकता है। दिमित्री बर्टसेकस | डी द्वारा अनुमानित गतिशील प्रोग्रामिंग ~~पेश~~ की गई है। पी. बर्टसेकास और जॉन त्सित्सिकलिस|जे. बेलमैन फ़ंक्शन का अनुमान लगाने के लिए [[कृत्रिम तंत्रिका नेटवर्क]] ([[बहुपरत परसेप्ट्रॉन]]) के उपयोग के साथ एन। त्सित्सिकलिस।<ref name="NeuroDynProg">{{cite book |first1=Dimitri P. |last1=Bertsekas |first2=John N. |last2=Tsitsiklis |title=Neuro-dynamic Programming |year=1996 |publisher=Athena Scientific |isbn=978-1-886529-10-6}}</ref> यह एकमात्र न्यूरल नेटवर्क पैरामीटर के मेमोराइजेशन के साथ पूरे अंतरिक्ष डोमेन के लिए पूर्ण फ़ंक्शन मैपिंग के संस्मरण को बदलकर आयाम के प्रभाव को कम करने के लिए एक प्रभावी शमन रणनीति है। विशेष रूप से, निरंतर समय प्रणालियों के लिए, एक अनुमानित गतिशील प्रोग्रामिंग दृष्टिकोण ~~पेश~~ किया गया था जो दोनों नीति पुनरावृत्तियों को तंत्रिका नेटवर्क के साथ जोड़ता है।<ref name="CTHJB">{{cite journal |first1=Murad |last1=Abu-Khalaf |first2=Frank L.|last2=Lewis |title=Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach|year=2005 |journal=Automatica |volume=41 | issue=5 | pages=779–791|doi=10.1016/j.automatica.2004.11.034}}</ref> असतत समय में, मूल्य पुनरावृत्तियों और तंत्रिका नेटवर्क के संयोजन वाले HJB समीकरण को हल करने के लिए एक दृष्टिकोण ~~पेश~~ किया गया था।<ref name="DTHJB">{{cite journal |first1=Asma |last1=Al-Tamimi|first2=Frank L.|last2=Lewis |first3=Murad |last3=Abu-Khalaf |title=Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof|year=2008 |journal=IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) |volume= 38| issue=4 | pages=943–949 |doi= 10.1109/TSMCB.2008.926614|pmid=18632382|s2cid=14202785}}</ref>

* बेलमैन समीकरण को [[पीछे की ओर प्रेरण]] द्वारा हल किया जा सकता है, या तो कुछ विशेष मामलों में [[बंद रूप अभिव्यक्ति]], या कंप्यूटर पर [[संख्यात्मक विश्लेषण]]। न्यूमेरिकल बैकवर्ड इंडक्शन कई तरह की समस्याओं पर लागू होता है, लेकिन डायमेंशनलिटी के अभिशाप के कारण कई स्टेट वेरिएबल्स होने पर यह संभव नहीं हो सकता है। दिमित्री बर्टसेकस | डी द्वारा अनुमानित गतिशील प्रोग्रामिंग प्रस्तुत की गई है। पी. बर्टसेकास और जॉन त्सित्सिकलिस|जे. बेलमैन फ़ंक्शन का अनुमान लगाने के लिए [[कृत्रिम तंत्रिका नेटवर्क]] ([[बहुपरत परसेप्ट्रॉन]]) के उपयोग के साथ एन। त्सित्सिकलिस।<ref name="NeuroDynProg">{{cite book |first1=Dimitri P. |last1=Bertsekas |first2=John N. |last2=Tsitsiklis |title=Neuro-dynamic Programming |year=1996 |publisher=Athena Scientific |isbn=978-1-886529-10-6}}</ref> यह एकमात्र न्यूरल नेटवर्क पैरामीटर के मेमोराइजेशन के साथ पूरे अंतरिक्ष डोमेन के लिए पूर्ण फ़ंक्शन मैपिंग के संस्मरण को बदलकर आयाम के प्रभाव को कम करने के लिए एक प्रभावी शमन रणनीति है। विशेष रूप से, निरंतर समय प्रणालियों के लिए, एक अनुमानित गतिशील प्रोग्रामिंग दृष्टिकोण प्रस्तुत किया गया था जो दोनों नीति पुनरावृत्तियों को तंत्रिका नेटवर्क के साथ जोड़ता है।<ref name="CTHJB">{{cite journal |first1=Murad |last1=Abu-Khalaf |first2=Frank L.|last2=Lewis |title=Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach|year=2005 |journal=Automatica |volume=41 | issue=5 | pages=779–791|doi=10.1016/j.automatica.2004.11.034}}</ref> असतत समय में, मूल्य पुनरावृत्तियों और तंत्रिका नेटवर्क के संयोजन वाले HJB समीकरण को हल करने के लिए एक दृष्टिकोण प्रस्तुत किया गया था।<ref name="DTHJB">{{cite journal |first1=Asma |last1=Al-Tamimi|first2=Frank L.|last2=Lewis |first3=Murad |last3=Abu-Khalaf |title=Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof|year=2008 |journal=IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) |volume= 38| issue=4 | pages=943–949 |doi= 10.1109/TSMCB.2008.926614|pmid=18632382|s2cid=14202785}}</ref>

* बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर [[लिफाफा प्रमेय]] का उपयोग करके मूल्य समारोह के डेरिवेटिव को खत्म करने के लिए, [[[[अंतर समीकरण]]]]ों या अंतर समीकरणों की एक प्रणाली प्राप्त करना संभव है जिसे 'यूलर-लग्रेंज समीकरण' कहा जाता है। .<ref>{{cite book |first=Jianjun |last=Miao |title=Economic Dynamics in Discrete Time |publisher=MIT Press |year=2014 |page=134 |isbn=978-0-262-32560-8 |url=https://books.google.com/books?id=dh2EBAAAQBAJ&pg=PA134 }}</ref> अंतर या अंतर समीकरणों के समाधान के लिए मानक तकनीकों का उपयोग ~~राज्य~~ चर की गतिशीलता और अनुकूलन समस्या के नियंत्रण चर की गणना के लिए किया जा सकता है।

* बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर [[लिफाफा प्रमेय]] का उपयोग करके मूल्य समारोह के डेरिवेटिव को खत्म करने के लिए, [[[[अंतर समीकरण]]]]ों या अंतर समीकरणों की एक प्रणाली प्राप्त करना संभव है जिसे 'यूलर-लग्रेंज समीकरण' कहा जाता है। .<ref>{{cite book |first=Jianjun |last=Miao |title=Economic Dynamics in Discrete Time |publisher=MIT Press |year=2014 |page=134 |isbn=978-0-262-32560-8 |url=https://books.google.com/books?id=dh2EBAAAQBAJ&pg=PA134 }}</ref> अंतर या अंतर समीकरणों के समाधान के लिए मानक तकनीकों का उपयोग स्थिति चर की गतिशीलता और अनुकूलन समस्या के नियंत्रण चर की गणना के लिए किया जा सकता है।

== अर्थशास्त्र में अनुप्रयोग ==

अर्थशास्त्र में बेलमैन समीकरण का पहला ज्ञात अनुप्रयोग [[मार्टिन बेकमैन]] और [[रिचर्ड मुथ]] के कारण है।<ref>{{cite journal |first1=Martin |last1=Beckmann |first2=Richard |last2=Muth |year=1954 |title=On the Solution to the 'Fundamental Equation' of inventory theory |journal=Cowles Commission Discussion Paper 2116 |url=http://cowles.yale.edu/sites/default/files/files/pub/cdp/e-2116.pdf }}</ref> मार्टिन बेकमैन ने भी 1959 में बेलमैन समीकरण का उपयोग करते हुए उपभोग सिद्धांत पर व्यापक रूप से लिखा। उनके काम ने एडमंड एस. फेल्प्स सहित अन्य को प्रभावित किया।

बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग [[ICAPM]] पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है।<ref>{{cite journal |first=Robert C. |last=Merton |year=1973 |title=An Intertemporal Capital Asset Pricing Model |journal=[[Econometrica]] |volume=41 |issue=5 |pages=867–887 |doi=10.2307/1913811 |jstor=1913811 }}</ref> (मर्टन की पोर्टफोलियो समस्या भी देखें)। मर्टन के सैद्धांतिक मॉडल का समाधान, जिसमें निवेशकों ने आज की आय और भविष्य की आय या पूंजीगत लाभ के बीच चयन किया, बेलमैन के समीकरण का एक रूप है। क्योंकि गतिशील प्रोग्रामिंग के आर्थिक अनुप्रयोगों के परिणामस्वरूप ~~आमतौर पर~~ बेलमैन समीकरण होता है जो एक अंतर समीकरण है, अर्थशास्त्री गतिशील प्रोग्रामिंग को एक पुनरावर्ती विधि के रूप में संदर्भित करते हैं और [[पुनरावर्ती अर्थशास्त्र]] का एक उपक्षेत्र अब अर्थशास्त्र के भीतर मान्यता प्राप्त है।

बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग [[ICAPM]] पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है।<ref>{{cite journal |first=Robert C. |last=Merton |year=1973 |title=An Intertemporal Capital Asset Pricing Model |journal=[[Econometrica]] |volume=41 |issue=5 |pages=867–887 |doi=10.2307/1913811 |jstor=1913811 }}</ref> (मर्टन की पोर्टफोलियो समस्या भी देखें)। मर्टन के सैद्धांतिक मॉडल का समाधान, जिसमें निवेशकों ने आज की आय और भविष्य की आय या पूंजीगत लाभ के बीच चयन किया, बेलमैन के समीकरण का एक रूप है। क्योंकि गतिशील प्रोग्रामिंग के आर्थिक अनुप्रयोगों के परिणामस्वरूप सामान्यतः बेलमैन समीकरण होता है जो एक अंतर समीकरण है, अर्थशास्त्री गतिशील प्रोग्रामिंग को एक पुनरावर्ती विधि के रूप में संदर्भित करते हैं और [[पुनरावर्ती अर्थशास्त्र]] का एक उपक्षेत्र अब अर्थशास्त्र के भीतर मान्यता प्राप्त है।

[[नैन्सी स्टोकी]], रॉबर्ट ई. लुकास, और [[एडवर्ड प्रेस्कॉट]] ने स्टोकेस्टिक और नॉन स्टोकेस्टिक ~~डायनेमिक~~ प्रोग्रामिंग का काफी विस्तार से वर्णन किया है, और कुछ शर्तों को पूरा करने वाली समस्याओं के समाधान के अस्तित्व के लिए प्रमेय विकसित किए हैं। वे पुनरावर्ती विधियों का उपयोग करके अर्थशास्त्र में सैद्धांतिक समस्याओं के मॉडलिंग के कई उदाहरणों का भी वर्णन करते हैं।<ref>{{cite book |first1=Nancy |last1=Stokey |first2=Robert E. |last2=Lucas |first3=Edward |last3=Prescott |year=1989 |title=Recursive Methods in Economic Dynamics |publisher=Harvard University Press |isbn=0-674-75096-9 }}</ref> इस पुस्तक ने गतिशील प्रोग्रामिंग को अर्थशास्त्र में सैद्धांतिक समस्याओं की एक विस्तृत श्रृंखला को हल करने के लिए नियोजित किया, जिसमें इष्टतम [[आर्थिक विकास]], [[संसाधन निष्कर्षण]], प्रिंसिपल-एजेंट समस्याएं, [[सार्वजनिक वित्त]], व्यापार [[निवेश]], [[परिसंपत्ति मूल्य निर्धारण]], उत्पादन आपूर्ति का कारक और [[औद्योगिक संगठन]] शामिल हैं। [[Lars Ljungqvist]] और [[थॉमस सार्जेंट]] [[मौद्रिक नीति]], [[राजकोषीय नीति]], कराधान, आर्थिक विकास, [[खोज सिद्धांत]] और [[श्रम अर्थशास्त्र]] में विभिन्न प्रकार के सैद्धांतिक प्रश्नों का अध्ययन करने के लिए गतिशील प्रोग्रामिंग लागू करते हैं।<ref>{{cite book |first1=Lars |last1=Ljungqvist |first2=Thomas |last2=Sargent |year=2012 |title=Recursive Macroeconomic Theory |publisher=MIT Press |edition=3rd |isbn=978-0-262-01874-6 }}</ref> [[अविनाश दीक्षित]] और [[रॉबर्ट पिंडिक]] ने [[पूंजी आय - व्ययक]] के बारे में सोचने के लिए विधि का मूल्य दिखाया।<ref>{{cite book |first1=Avinash |last1=Dixit |first2=Robert |last2=Pindyck |year=1994 |title=Investment Under Uncertainty |publisher=Princeton University Press |isbn=0-691-03410-9 |url-access=registration |url=https://archive.org/details/investmentunderu00dixi_0 }}</ref> एंडरसन ने निजी तौर पर आयोजित व्यवसायों सहित तकनीक को व्यापार मूल्यांकन के लिए अनुकूलित किया।<ref>{{cite book |last=Anderson |first=Patrick L. |title=Business Economics & Finance |publisher=CRC Press |year=2004 |chapter=Ch. 10 |isbn=1-58488-348-0}}

[[नैन्सी स्टोकी]], रॉबर्ट ई. लुकास, और [[एडवर्ड प्रेस्कॉट]] ने स्टोकेस्टिक

Anonymous

Search

बेलमैन समीकरण: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
 {{short description|Necessary condition for optimality associated with dynamic programming}}
 {{More footnotes|date=April 2018}}
-[[File:Bellman flow chart.png|thumb|बेलमैन फ्लो चार्ट]]रिचर्ड ई. बेलमैन के नाम पर एक बेलमैन समीकरण, गणितीय [[अनुकूलन (गणित)]] विधि से जुड़ी इष्टतमता के लिए एक [[आवश्यक शर्त]] है जिसे [[गतिशील प्रोग्रामिंग]] के रूप में जाना जाता है।<ref>{{cite book |first=Avinash K. |last=Dixit |title=Optimization in Economic Theory |publisher=Oxford University Press |edition=2nd |year=1990 |isbn=0-19-877211-4 |page=164 |url=https://books.google.com/books?id=dHrsHz0VocUC&pg=PA164 }}</ref> यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से अदायगी और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है।{{Citation needed|date=September 2017}} यह एक गतिशील अनुकूलन समस्या को सरल उप-समस्याओं के [[अनुक्रम]] में तोड़ता है, जैसा कि बेलमैन के "इष्टतमता का सिद्धांत निर्धारित करता है।<ref>{{cite book |first=Donald E. |last=Kirk |title=Optimal Control Theory: An Introduction |publisher=Prentice-Hall |year=1970 |isbn=0-13-638098-0 |page=55 |url=https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA55 }}</ref> समीकरण कुल क्रम के साथ बीजगणितीय संरचनाओं पर लागू होता है; आंशिक क्रम के साथ बीजगणितीय संरचनाओं के लिए, सामान्य बेलमैन के समीकरण का उपयोग किया जा सकता है।<ref name = "Generic Dijkstra correctness">{{citation | title = Generic Dijkstra: correctness and tractability | last1 = Szcześniak | first1 = Ireneusz | last2 = Woźna-Szcześniak | first2 = Bożena | year = 2022 | arxiv = 2204.13547}}</ref>
+[[File:Bellman flow chart.png|thumb|बेलमैन प्रवाह मानचित्र]]रिचर्ड ई. बेलमैन के नाम पर एक बेलमैन समीकरण, गणितीय [[अनुकूलन (गणित)]] विधि से जुड़ी इष्टतमता के लिए एक [[आवश्यक शर्त]] है जिसे [[गतिशील प्रोग्रामिंग|गतिशील कार्यरचना]] के रूप में जाना जाता है।<ref>{{cite book |first=Avinash K. |last=Dixit |title=Optimization in Economic Theory |publisher=Oxford University Press |edition=2nd |year=1990 |isbn=0-19-877211-4 |page=164 |url=https://books.google.com/books?id=dHrsHz0VocUC&pg=PA164 }}</ref> यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से लाभ और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है।{{Citation needed|date=September 2017}} यह एक गतिशील अनुकूलन समस्या को सरल उप-समस्याओं के [[अनुक्रम]] में तोड़ता है, जैसा कि बेलमैन के "इष्टतमता का सिद्धांत निर्धारित करता है।<ref>{{cite book |first=Donald E. |last=Kirk |title=Optimal Control Theory: An Introduction |publisher=Prentice-Hall |year=1970 |isbn=0-13-638098-0 |page=55 |url=https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA55 }}</ref> समीकरण कुल क्रम के साथ बीजगणितीय संरचनाओं पर लागू होता है; आंशिक क्रम के साथ बीजगणितीय संरचनाओं के लिए, सामान्य बेलमैन के समीकरण का उपयोग किया जा सकता है।<ref name = "Generic Dijkstra correctness">{{citation | title = Generic Dijkstra: correctness and tractability | last1 = Szcześniak | first1 = Ireneusz | last2 = Woźna-Szcześniak | first2 = Bożena | year = 2022 | arxiv = 2204.13547}}</ref>
-बेलमैन समीकरण पहले इंजीनियरिंग [[नियंत्रण सिद्धांत]] और लागू गणित में अन्य विषयों पर लागू किया गया था, और बाद में [[आर्थिक सिद्धांत]] में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को [[जॉन वॉन न्यूमैन]] और [[ऑस्कर मॉर्गनस्टर्न]] के [[गेम और आर्थिक आचरण का सिद्धांत]] और [[अब्राहम का जन्म हुआ]] के [[अनुक्रमिक विश्लेषण]] में पूर्वनिर्धारित किया गया है।{{Citation needed|date=September 2017}} 'बेलमैन समीकरण' शब्द आमतौर पर असतत-समय अनुकूलन समस्याओं से जुड़े गतिशील प्रोग्रामिंग समीकरण को संदर्भित करता है।<ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA70 70]}}</ref> निरंतर-समय की अनुकूलन समस्याओं में, अनुरूप समीकरण एक आंशिक अंतर समीकरण है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण कहा जाता है।<ref>{{cite book |first1=Morton I. |last1=Kamien |author-link=Morton Kamien |first2=Nancy L. |last2=Schwartz |title=Dynamic Optimization: The Calculus of Variations and Optimal Control in Economics and Management |location=Amsterdam |publisher=Elsevier |edition=Second |year=1991 |isbn=0-444-01609-0 |page=261 |url=https://books.google.com/books?id=liLCAgAAQBAJ&pg=PA261 }}</ref><ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA88 88]}}</ref>
+बेलमैन समीकरण पहले इंजीनियरिंग [[नियंत्रण सिद्धांत]] और उपयोजित गणित में अन्य विषयों पर लागू किया गया था, और बाद में [[आर्थिक सिद्धांत]] में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को [[जॉन वॉन न्यूमैन]] और [[ऑस्कर मॉर्गनस्टर्न]] के [[गेम और आर्थिक आचरण का सिद्धांत|खेल और आर्थिक आचरण का सिद्धांत]] और [[अब्राहम का जन्म हुआ|अब्राहम]] के [[अनुक्रमिक विश्लेषण]] में पूर्वनिर्धारित किया गया है।{{Citation needed|date=September 2017}} 'बेलमैन समीकरण' शब्द सामान्यतः असतत-समय अनुकूलन समस्याओं से जुड़े गतिशील प्रोग्रामिंग समीकरण को संदर्भित करता है।<ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA70 70]}}</ref> निरंतर-समय की अनुकूलन समस्याओं में, अनुरूप समीकरण एक आंशिक अंतर समीकरण है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण कहा जाता है।<ref>{{cite book |first1=Morton I. |last1=Kamien |author-link=Morton Kamien |first2=Nancy L. |last2=Schwartz |title=Dynamic Optimization: The Calculus of Variations and Optimal Control in Economics and Management |location=Amsterdam |publisher=Elsevier |edition=Second |year=1991 |isbn=0-444-01609-0 |page=261 |url=https://books.google.com/books?id=liLCAgAAQBAJ&pg=PA261 }}</ref><ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA88 88]}}</ref>
-असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। नए राज्य चर (राज्य वृद्धि) को पेश करके उपयुक्त बेलमैन समीकरण पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration |journal=IEEE Transactions on Automatic Control |date=2020 |volume=66 |issue=4 |pages=1602–1617 |doi=10.1109/TAC.2020.3002235|arxiv=1812.00792 |s2cid=119622206 }}</ref> हालाँकि, परिणामी संवर्धित-राज्य बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा मुद्दा जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि मल्टी-स्टेज ऑप्टिमाइज़ेशन समस्या का लागत फ़ंक्शन एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण राज्य वृद्धि के बिना पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=A Generalization of Bellman's Equation with Application to Path Planning, Obstacle Avoidance and Invariant Set Estimation |journal=Automatica |date=2021 |volume=127 |pages=109510 |doi=10.1016/j.automatica.2021.109510 |url=https://www.sciencedirect.com/science/article/pii/S0005109821000303  |arxiv=2006.08175 |s2cid=222350370 }}</ref>
+असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। नई स्थिति चर को प्रस्तुत करके उपयुक्त बेलमैन समीकरण पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration |journal=IEEE Transactions on Automatic Control |date=2020 |volume=66 |issue=4 |pages=1602–1617 |doi=10.1109/TAC.2020.3002235|arxiv=1812.00792 |s2cid=119622206 }}</ref> हालाँकि, परिणामी संवर्धित-स्थिति बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा विषय जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि बहु-चरणी इष्टमीकरण समस्या का लागत प्रकार्य एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण स्थिति वृद्धि के बिना पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=A Generalization of Bellman's Equation with Application to Path Planning, Obstacle Avoidance and Invariant Set Estimation |journal=Automatica |date=2021 |volume=127 |pages=109510 |doi=10.1016/j.automatica.2021.109510 |url=https://www.sciencedirect.com/science/article/pii/S0005109821000303  |arxiv=2006.08175 |s2cid=222350370 }}</ref>
@@ Line 9: / Line 11: @@
 बेलमैन समीकरण को समझने के लिए, कई अंतर्निहित अवधारणाओं को समझना आवश्यक है। सबसे पहले, किसी भी अनुकूलन समस्या का कुछ उद्देश्य होता है: यात्रा के समय को कम करना, लागत को कम करना, लाभ को अधिकतम करना, उपयोगिता को अधिकतम करना आदि। गणितीय कार्य जो इस उद्देश्य का वर्णन करता है, उसे हानि फलन कहा जाता है।
-डायनेमिक प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर नज़र रखने की आवश्यकता है। सही निर्णय लेने के लिए आवश्यक वर्तमान स्थिति की जानकारी को राज्य कहा जाता है।<ref name=BellmanDP>{{cite book |last=Bellman |first=R.E. |orig-year=1957 |title=Dynamic Programming |year=2003 |publisher=Dover |isbn=0-486-42809-5}}</ref><ref name=dreyfus>{{cite journal |first=S. |last=Dreyfus |year=2002 |title=Richard Bellman on the birth of dynamic programming |journal=Operations Research |volume=50 |issue=1 |pages=48–51 |doi=10.1287/opre.50.1.48.17791|doi-access=free }}</ref> उदाहरण के लिए, यह तय करने के लिए कि समय पर प्रत्येक बिंदु पर कितना उपभोग और खर्च करना है, लोगों को (अन्य बातों के अलावा) अपनी प्रारंभिक संपत्ति जानने की आवश्यकता होगी। इसलिए धन <math>(W)</math> उनके राज्य चरों में से एक होगा, लेकिन शायद अन्य भी होंगे।
+गतिशील प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर ध्यान देने की आवश्यकता है। सही निर्णय लेने के लिए आवश्यक वर्तमान स्थिति की जानकारी को स्थिति कहा जाता है।<ref name=BellmanDP>{{cite book |last=Bellman |first=R.E. |orig-year=1957 |title=Dynamic Programming |year=2003 |publisher=Dover |isbn=0-486-42809-5}}</ref><ref name=dreyfus>{{cite journal |first=S. |last=Dreyfus |year=2002 |title=Richard Bellman on the birth of dynamic programming |journal=Operations Research |volume=50 |issue=1 |pages=48–51 |doi=10.1287/opre.50.1.48.17791|doi-access=free }}</ref> उदाहरण के लिए, यह निश्चित करने के लिए कि प्रत्येक बिंदु पर कितना उपभोग और व्यय करना है, लोगों को (अन्य बातों के अलावा) अपनी प्रारंभिक संपत्ति जानने की आवश्यकता होगी। इसलिए धन <math>(W)</math> उनके स्थिति चरों में से एक होगा, परन्तु संभवतः अन्य भी होंगे।
-किसी दिए गए समय पर चुने गए चर को अक्सर [[नियंत्रण चर (प्रोग्रामिंग)]] कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह तय कर सकते हैं कि अभी कितना उपभोग करना है। नियंत्रण चर का चयन अब अगले राज्य को चुनने के बराबर हो सकता है; आम तौर पर, अगली स्थिति वर्तमान नियंत्रण के अतिरिक्त अन्य कारकों से प्रभावित होती है। उदाहरण के लिए, सबसे सरल मामले में, आज का धन (राज्य) और खपत (नियंत्रण) कल के धन (नया राज्य) को सटीक रूप से निर्धारित कर सकते हैं, हालांकि आम तौर पर अन्य कारक कल के धन को भी प्रभावित करेंगे।
+किसी दिए गए समय पर चुने गए चर को प्रायः [[नियंत्रण चर (प्रोग्रामिंग)]] कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह तय कर सकते हैं कि अभी कितना व्यय करना है। नियंत्रण चर का चयन अब अगले स्थिति को चुनने के बराबर हो सकता है; सामान्यतः, अगली स्थिति वर्तमान नियंत्रण के अतिरिक्त अन्य कारकों से प्रभावित होती है। उदाहरण के लिए, सबसे सरल स्तिथि में, आज का धन (स्थिति) और खपत (नियंत्रण) कल के धन (नया स्थिति) को सटीक रूप से निर्धारित कर सकते हैं, हालांकि सामान्यतः अन्य कारक कल के धन को भी प्रभावित करेंगे।
-गतिशील प्रोग्रामिंग दृष्टिकोण एक नियम खोजकर इष्टतम योजना का वर्णन करता है जो बताता है कि राज्य के किसी भी संभावित मूल्य को देखते हुए नियंत्रण क्या होना चाहिए। उदाहरण के लिए, यदि उपभोग (सी) केवल धन (डब्ल्यू) पर निर्भर करता है, तो हम एक नियम की तलाश करेंगे  <math>c(W)</math> जो धन के कार्य के रूप में उपभोग देता है। ऐसे नियम, जो राज्यों के कार्य के रूप में नियंत्रणों का निर्धारण करते हैं, नीति कार्य कहलाते हैं (बेलमैन, 1957, अध्याय III.2 देखें)।<ref name=BellmanDP />
+ग'''तिशील प्रोग्रामिंग दृष्टिकोण एक नियम''' खोजकर इष्टतम योजना का वर्णन करता है जो बताता है कि स्थिति के किसी भी संभावित मूल्य को देखते हुए नियंत्रण क्या होना चाहिए। उदाहरण के लिए, यदि उपभोग (सी) केवल धन (डब्ल्यू) पर निर्भर करता है, तो हम एक नियम की तलाश करेंगे  <math>c(W)</math> जो धन के कार्य के रूप में उपभोग देता है। ऐसे नियम, जो स्थितिों के कार्य के रूप में नियंत्रणों का निर्धारण करते हैं, नीति कार्य कहलाते हैं (बेलमैन, 1957, अध्याय III.2 देखें)।<ref name=BellmanDP />
-अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई खुशी को अधिकतम करने के लिए, उपभोग को चुनता है, तो खुशी को अधिकतम करने के लिए (यह मानते हुए कि खुशी एच को एक गणितीय कार्य द्वारा दर्शाया जा सकता है, जैसे [[उपयोगिता]] फ़ंक्शन और धन द्वारा परिभाषित कुछ है), तो धन का प्रत्येक स्तर जुड़ा होगा खुशी का कुछ उच्चतम संभव स्तर, <math>H(W)</math>. राज्य के एक समारोह के रूप में लिखे गए उद्देश्य का सर्वोत्तम संभव मूल्य मूल्य समारोह कहा जाता है।
+अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई खुशी को अधिकतम करने के लिए, उपभोग को चुनता है, तो खुशी को अधिकतम करने के लिए (यह मानते हुए कि खुशी एच को एक गणितीय कार्य द्वारा दर्शाया जा सकता है, जैसे [[उपयोगिता]] फ़ंक्शन और धन द्वारा परिभाषित कुछ है), तो धन का प्रत्येक स्तर जुड़ा होगा खुशी का कुछ उच्चतम संभव स्तर, <math>H(W)</math>. स्थिति के एक समारोह के रूप में लिखे गए उद्देश्य का सर्वोत्तम संभव मूल्य मूल्य समारोह कहा जाता है।
-बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे [[पीछे की ओर प्रेरण]] के रूप में जाना जाता है, एक अवधि में मूल्य फ़ंक्शन और अगली अवधि में मूल्य फ़ंक्शन के बीच संबंध लिखकर . इन दो मूल्य कार्यों के बीच संबंध को बेलमैन समीकरण कहा जाता है। इस दृष्टिकोण में, अंतिम समय अवधि में इष्टतम नीति उस समय राज्य चर के मूल्य के एक समारोह के रूप में अग्रिम रूप से निर्दिष्ट की जाती है, और इस प्रकार उद्देश्य समारोह के परिणामी इष्टतम मूल्य को राज्य चर के उस मूल्य के संदर्भ में व्यक्त किया जाता है। इसके बाद, अगली-से-अंतिम अवधि के अनुकूलन में उस अवधि की अवधि-विशिष्ट उद्देश्य समारोह और भविष्य के उद्देश्य समारोह के इष्टतम मूल्य को अधिकतम करना शामिल है, जो उस अवधि की इष्टतम नीति को राज्य चर के मूल्य पर निर्भर करता है, जैसा कि अगले- से अंतिम अवधि का निर्णय।{{clarify |date=January 2020 |reason=comment from reader: the last two sentences are too long and ambiguous/confusing}} यह तर्क समय-समय पर पुनरावर्ती रूप से जारी रहता है, जब तक कि पहली अवधि के निर्णय नियम को प्रारंभिक राज्य चर मूल्य के एक समारोह के रूप में, पहली-अवधि-विशिष्ट उद्देश्य समारोह के योग और दूसरी अवधि के मूल्य समारोह के मूल्य को अनुकूलित करके, प्राप्त नहीं किया जाता है। जो भविष्य की सभी अवधियों के लिए मूल्य देता है। इस प्रकार, प्रत्येक अवधि का निर्णय स्पष्ट रूप से यह स्वीकार करते हुए किया जाता है कि भविष्य के सभी निर्णय इष्टतम रूप से किए जाएंगे।
+बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे [[पीछे की ओर प्रेरण]] के रूप में जाना जाता है, एक अवधि में मूल्य फ़ंक्शन और अगली अवधि में मूल्य फ़ंक्शन के बीच संबंध लिखकर . इन दो मूल्य कार्यों के बीच संबंध को बेलमैन समीकरण कहा जाता है। इस दृष्टिकोण में, अंतिम समय अवधि में इष्टतम नीति उस समय स्थिति चर के मूल्य के एक समारोह के रूप में अग्रिम रूप से निर्दिष्ट की जाती है, और इस प्रकार उद्देश्य समारोह के परिणामी इष्टतम मूल्य को स्थिति चर के उस मूल्य के संदर्भ में व्यक्त किया जाता है। इसके बाद, अगली-से-अंतिम अवधि के अनुकूलन में उस अवधि की अवधि-विशिष्ट उद्देश्य समारोह और भविष्य के उद्देश्य समारोह के इष्टतम मूल्य को अधिकतम करना शामिल है, जो उस अवधि की इष्टतम नीति को स्थिति चर के मूल्य पर निर्भर करता है, जैसा कि अगले- से अंतिम अवधि का निर्णय।{{clarify |date=January 2020 |reason=comment from reader: the last two sentences are too long and ambiguous/confusing}} यह तर्क समय-समय पर पुनरावर्ती रूप से जारी रहता है, जब तक कि पहली अवधि के निर्णय नियम को प्रारंभिक स्थिति चर मूल्य के एक समारोह के रूप में, पहली-अवधि-विशिष्ट उद्देश्य समारोह के योग और दूसरी अवधि के मूल्य समारोह के मूल्य को अनुकूलित करके, प्राप्त नहीं किया जाता है। जो भविष्य की सभी अवधियों के लिए मूल्य देता है। इस प्रकार, प्रत्येक अवधि का निर्णय स्पष्ट रूप से यह स्वीकार करते हुए किया जाता है कि भविष्य के सभी निर्णय इष्टतम रूप से किए जाएंगे।
 == व्युत्पत्ति ==
 === एक गतिशील निर्णय समस्या ===
-राज्य को समय पर जाने दो <math>t</math> होना <math>x_t</math>. एक निर्णय के लिए जो समय 0 से शुरू होता है, हम प्रारंभिक अवस्था के रूप में लेते हैं <math>x_0</math>. किसी भी समय, संभावित क्रियाओं का समूह वर्तमान स्थिति पर निर्भर करता है; हम इसे इस प्रकार लिख सकते हैं <math> a_{t} \in \Gamma (x_t)</math>, जहां कार्रवाई <math>a_t</math> एक या अधिक नियंत्रण चर का प्रतिनिधित्व करता है। हम यह भी मानते हैं कि राज्य से बदलता है <math>x</math> एक नए राज्य के लिए <math>T(x,a)</math> जब कार्रवाई <math>a</math> लिया जाता है, और यह कि कार्रवाई करने से वर्तमान अदायगी <math>a</math> राज्य में <math>x</math> है <math>F(x,a)</math>. अंत में, हम अधीरता को मान लेते हैं, जिसे [[छूट कारक]] द्वारा दर्शाया जाता है <math>0<\beta<1</math>.
+स्थिति को समय पर जाने दो <math>t</math> होना <math>x_t</math>. एक निर्णय के लिए जो समय 0 से शुरू होता है, हम प्रारंभिक अवस्था के रूप में लेते हैं <math>x_0</math>. किसी भी समय, संभावित क्रियाओं का समूह वर्तमान स्थिति पर निर्भर करता है; हम इसे इस प्रकार लिख सकते हैं <math> a_{t} \in \Gamma (x_t)</math>, जहां कार्रवाई <math>a_t</math> एक या अधिक नियंत्रण चर का प्रतिनिधित्व करता है। हम यह भी मानते हैं कि स्थिति से बदलता है <math>x</math> एक नए स्थिति के लिए <math>T(x,a)</math> जब कार्रवाई <math>a</math> लिया जाता है, और यह कि कार्रवाई करने से वर्तमान अदायगी <math>a</math> स्थिति में <math>x</math> है <math>F(x,a)</math>. अंत में, हम अधीरता को मान लेते हैं, जिसे [[छूट कारक]] द्वारा दर्शाया जाता है <math>0<\beta<1</math>.
 इन मान्यताओं के तहत, एक अनंत-क्षितिज निर्णय समस्या निम्न रूप लेती है:
@@ Line 33: / Line 35: @@
 === बेलमैन का इष्टतमता का सिद्धांत ===
-डायनेमिक प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह कैसे करना है:<ब्लॉककोट>इष्टतमता का सिद्धांत: एक इष्टतम नीति में यह गुण होता है कि प्रारंभिक स्थिति और प्रारंभिक निर्णय चाहे जो भी हों, शेष निर्णयों को पहले से उत्पन्न राज्य के संबंध में एक इष्टतम नीति का गठन करना चाहिए फ़ैसला। (बेलमैन, 1957, अध्याय III.3 देखें।)<ref name=BellmanDP /><ref name=dreyfus /><ref name=BellmanTheory>{{cite journal |first=R |last=Bellman |pmc=1063639 |title=On the Theory of Dynamic Programming |journal=Proc Natl Acad Sci U S A |date=August 1952 |volume=38 |issue=8 |pages=716–9 |pmid=16589166 |doi=10.1073/pnas.38.8.716|bibcode=1952PNAS...38..716B |doi-access=free }}</ref></ब्लॉककोट>
+गतिशील प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह कैसे करना है:<ब्लॉककोट>इष्टतमता का सिद्धांत: एक इष्टतम नीति में यह गुण होता है कि प्रारंभिक स्थिति और प्रारंभिक निर्णय चाहे जो भी हों, शेष निर्णयों को पहले से उत्पन्न स्थिति के संबंध में एक इष्टतम नीति का गठन करना चाहिए फ़ैसला। (बेलमैन, 1957, अध्याय III.3 देखें।)<ref name=BellmanDP /><ref name=dreyfus /><ref name=BellmanTheory>{{cite journal |first=R |last=Bellman |pmc=1063639 |title=On the Theory of Dynamic Programming |journal=Proc Natl Acad Sci U S A |date=August 1952 |volume=38 |issue=8 |pages=716–9 |pmid=16589166 |doi=10.1073/pnas.38.8.716|bibcode=1952PNAS...38..716B |doi-access=free }}</ref></ब्लॉककोट>
-कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे [[इष्टतम उपसंरचना]] कहा जाता है। गतिशील [[खेल सिद्धांत]] के संदर्भ में, यह सिद्धांत सबगेम पूर्ण संतुलन की अवधारणा के अनुरूप है, हालांकि इस मामले में एक इष्टतम नीति क्या है जो निर्णयकर्ता के विरोधियों द्वारा उनके दृष्टिकोण से समान इष्टतम नीतियों को चुनने पर निर्भर है।
+कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे [[इष्टतम उपसंरचना]] कहा जाता है। गतिशील [[खेल सिद्धांत]] के संदर्भ में, यह सिद्धांत सबगेम पूर्ण संतुलन की अवधारणा के अनुरूप है, हालांकि इस स्तिथि में एक इष्टतम नीति क्या है जो निर्णयकर्ता के विरोधियों द्वारा उनके दृष्टिकोण से समान इष्टतम नीतियों को चुनने पर निर्भर है।
-जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए राज्य के साथ समय 1 से नए सिरे से शुरुआत करेंगे <math>x_1 </math>). भविष्य के निर्णयों को कोष्ठक में दाईं ओर एकत्रित करना, उपरोक्त अनंत-क्षितिज निर्णय समस्या के बराबर है:{{Clarify|date=September 2017}}
+जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए स्थिति के साथ समय 1 से नए सिरे से शुरुआत करेंगे <math>x_1 </math>). भविष्य के निर्णयों को कोष्ठक में दाईं ओर एकत्रित करना, उपरोक्त अनंत-क्षितिज निर्णय समस्या के बराबर है:{{Clarify|date=September 2017}}
 :<math> \max_{ a_0 } \left \{ F(x_0,a_0)
 + \beta  \left[ \max_{ \left \{ a_{t} \right \}_{t=1}^{\infty} }
@@ Line 44: / Line 46: @@
 :<math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math>
-यहां हम चुन रहे हैं <math>a_0</math>, यह जानते हुए कि हमारी पसंद समय 1 स्थिति का कारण बनेगी <math>x_1=T(x_0,a_0)</math>. वह नया राज्य समय 1 से निर्णय समस्या को प्रभावित करेगा। संपूर्ण भविष्य की निर्णय समस्या दाईं ओर वर्ग कोष्ठक के अंदर दिखाई देती है।{{Clarify|date=September 2017}}{{Explain|date=September 2017}}
+यहां हम चुन रहे हैं <math>a_0</math>, यह जानते हुए कि हमारी पसंद समय 1 स्थिति का कारण बनेगी <math>x_1=T(x_0,a_0)</math>. वह नया स्थिति समय 1 से निर्णय समस्या को प्रभावित करेगा। संपूर्ण भविष्य की निर्णय समस्या दाईं ओर वर्ग कोष्ठक के अंदर दिखाई देती है।{{Clarify|date=September 2017}}{{Explain|date=September 2017}}
 === बेलमैन समीकरण ===
-अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो राज्य से शुरू होता है <math>x_1=T(x_0,a_0)</math>.
+अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो स्थिति से शुरू होता है <math>x_1=T(x_0,a_0)</math>.
 इसलिए, हम समस्या को मान फ़ंक्शन की पुनरावर्तन परिभाषा के रूप में फिर से लिख सकते हैं:
 :<math>V(x_0) = \max_{ a_0 } \{ F(x_0,a_0) + \beta V(x_1) \} </math>, बाधाओं के अधीन: <math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math>
-यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम टाइम सबस्क्रिप्ट छोड़ दें और अगले राज्य के मान में प्लग करें:
+यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम टाइम सबस्क्रिप्ट छोड़ दें और अगले स्थिति के मान में प्लग करें:
 :<math>V(x) = \max_{a \in \Gamma (x) } \{ F(x,a) + \beta V(T(x,a)) \}.</math>
-बेलमैन समीकरण को एक [[कार्यात्मक समीकरण]] के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात फ़ंक्शन को खोजना है <math>V</math>, जो कि वैल्यू फंक्शन है। याद रखें कि मूल्य समारोह राज्य के एक समारोह के रूप में, उद्देश्य के सर्वोत्तम संभव मूल्य का वर्णन करता है <math>x</math>. मान फलन की गणना करके, हम फलन भी ज्ञात करेंगे <math>a(x)</math> जो राज्य के कार्य के रूप में इष्टतम क्रिया का वर्णन करता है; इसे नीति कार्य कहा जाता है।
+बेलमैन समीकरण को एक [[कार्यात्मक समीकरण]] के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात फ़ंक्शन को खोजना है <math>V</math>, जो कि वैल्यू फंक्शन है। याद रखें कि मूल्य समारोह स्थिति के एक समारोह के रूप में, उद्देश्य के सर्वोत्तम संभव मूल्य का वर्णन करता है <math>x</math>. मान फलन की गणना करके, हम फलन भी ज्ञात करेंगे <math>a(x)</math> जो स्थिति के कार्य के रूप में इष्टतम क्रिया का वर्णन करता है; इसे नीति कार्य कहा जाता है।
 === एक स्टोकेस्टिक समस्या में ===
 {{See also|Markov decision process}}
-नियतात्मक सेटिंग में, उपरोक्त [[इष्टतम नियंत्रण]] समस्या से निपटने के लिए गतिशील प्रोग्रामिंग के अलावा अन्य तकनीकों का उपयोग किया जा सकता है। हालांकि, बेलमैन समीकरण अक्सर स्टोकास्टिक इष्टतम नियंत्रण समस्याओं को हल करने का सबसे सुविधाजनक तरीका होता है।
+नियतात्मक सेटिंग में, उपरोक्त [[इष्टतम नियंत्रण]] समस्या से निपटने के लिए गतिशील प्रोग्रामिंग के अलावा अन्य तकनीकों का उपयोग किया जा सकता है। हालांकि, बेलमैन समीकरण प्रायः स्टोकास्टिक इष्टतम नियंत्रण समस्याओं को हल करने का सबसे सुविधाजनक तरीका होता है।
 अर्थशास्त्र से एक विशिष्ट उदाहरण के लिए, प्रारंभिक धन बंदोबस्ती के साथ असीम रूप से रहने वाले उपभोक्ता पर विचार करें <math>{\color{Red}a_0}</math> अवधि में <math>0</math>. उनके पास तात्कालिक उपयोगिता कार्य है <math>u(c)</math> कहाँ <math>c</math> की दर से खपत और अगली अवधि की उपयोगिता को दर्शाता है <math>0< \beta<1 </math>. मान लीजिए कि पीरियड में क्या नहीं खाया जाता है <math>t</math> ब्याज दर के साथ अगली अवधि तक ले जाता है <math>r</math>. तब उपभोक्ता की उपयोगिता अधिकतम करने की समस्या उपभोग योजना का चयन करना है <math>\{{\color{OliveGreen}c_t}\}</math> वह हल करता है
@@ Line 93: / Line 95: @@
 == समाधान के तरीके ==
 * [[अनिर्धारित गुणांक की विधि]], जिसे 'अनुमान और सत्यापन' के रूप में भी जाना जाता है, का उपयोग कुछ अनंत-क्षितिज, [[स्वायत्त प्रणाली (गणित)]] बेलमैन समीकरणों को हल करने के लिए किया जा सकता है।<ref>{{cite book |first1=Lars |last1=Ljungqvist |first2=Thomas J. |last2=Sargent |title=Recursive Macroeconomic Theory |publisher=MIT Press |year=2004 |edition=2nd |pages=[https://archive.org/details/recursivemacroec02edljun/page/88 88]–90 |isbn=0-262-12274-X |url=https://archive.org/details/recursivemacroec02edljun |url-access=registration }}</ref>
-* बेलमैन समीकरण को [[पीछे की ओर प्रेरण]] द्वारा हल किया जा सकता है, या तो कुछ विशेष मामलों में [[बंद रूप अभिव्यक्ति]], या कंप्यूटर पर [[संख्यात्मक विश्लेषण]]। न्यूमेरिकल बैकवर्ड इंडक्शन कई तरह की समस्याओं पर लागू होता है, लेकिन डायमेंशनलिटी के अभिशाप के कारण कई स्टेट वेरिएबल्स होने पर यह संभव नहीं हो सकता है। दिमित्री बर्टसेकस | डी द्वारा अनुमानित गतिशील प्रोग्रामिंग पेश की गई है। पी. बर्टसेकास और जॉन त्सित्सिकलिस|जे. बेलमैन फ़ंक्शन का अनुमान लगाने के लिए [[कृत्रिम तंत्रिका नेटवर्क]] ([[बहुपरत परसेप्ट्रॉन]]) के उपयोग के साथ एन। त्सित्सिकलिस।<ref name="NeuroDynProg">{{cite book |first1=Dimitri P. |last1=Bertsekas |first2=John N. |last2=Tsitsiklis |title=Neuro-dynamic Programming |year=1996 |publisher=Athena Scientific |isbn=978-1-886529-10-6}}</ref> यह एकमात्र न्यूरल नेटवर्क पैरामीटर के मेमोराइजेशन के साथ पूरे अंतरिक्ष डोमेन के लिए पूर्ण फ़ंक्शन मैपिंग के संस्मरण को बदलकर आयाम के प्रभाव को कम करने के लिए एक प्रभावी शमन रणनीति है। विशेष रूप से, निरंतर समय प्रणालियों के लिए, एक अनुमानित गतिशील प्रोग्रामिंग दृष्टिकोण पेश किया गया था जो दोनों नीति पुनरावृत्तियों को तंत्रिका नेटवर्क के साथ जोड़ता है।<ref name="CTHJB">{{cite journal |first1=Murad |last1=Abu-Khalaf |first2=Frank L.|last2=Lewis |title=Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach|year=2005 |journal=Automatica |volume=41 | issue=5 | pages=779–791|doi=10.1016/j.automatica.2004.11.034}}</ref> असतत समय में, मूल्य पुनरावृत्तियों और तंत्रिका नेटवर्क के संयोजन वाले HJB समीकरण को हल करने के लिए एक दृष्टिकोण पेश किया गया था।<ref name="DTHJB">{{cite journal |first1=Asma |last1=Al-Tamimi|first2=Frank L.|last2=Lewis |first3=Murad |last3=Abu-Khalaf |title=Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof|year=2008 |journal=IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) |volume= 38| issue=4 | pages=943–949 |doi= 10.1109/TSMCB.2008.926614|pmid=18632382|s2cid=14202785}}</ref>
+* बेलमैन समीकरण को [[पीछे की ओर प्रेरण]] द्वारा हल किया जा सकता है, या तो कुछ विशेष मामलों में [[बंद रूप अभिव्यक्ति]], या कंप्यूटर पर [[संख्यात्मक विश्लेषण]]। न्यूमेरिकल बैकवर्ड इंडक्शन कई तरह की समस्याओं पर लागू होता है, लेकिन डायमेंशनलिटी के अभिशाप के कारण कई स्टेट वेरिएबल्स होने पर यह संभव नहीं हो सकता है। दिमित्री बर्टसेकस | डी द्वारा अनुमानित गतिशील प्रोग्रामिंग प्रस्तुत की गई है। पी. बर्टसेकास और जॉन त्सित्सिकलिस|जे. बेलमैन फ़ंक्शन का अनुमान लगाने के लिए [[कृत्रिम तंत्रिका नेटवर्क]] ([[बहुपरत परसेप्ट्रॉन]]) के उपयोग के साथ एन। त्सित्सिकलिस।<ref name="NeuroDynProg">{{cite book |first1=Dimitri P. |last1=Bertsekas |first2=John N. |last2=Tsitsiklis |title=Neuro-dynamic Programming |year=1996 |publisher=Athena Scientific |isbn=978-1-886529-10-6}}</ref> यह एकमात्र न्यूरल नेटवर्क पैरामीटर के मेमोराइजेशन के साथ पूरे अंतरिक्ष डोमेन के लिए पूर्ण फ़ंक्शन मैपिंग के संस्मरण को बदलकर आयाम के प्रभाव को कम करने के लिए एक प्रभावी शमन रणनीति है। विशेष रूप से, निरंतर समय प्रणालियों के लिए, एक अनुमानित गतिशील प्रोग्रामिंग दृष्टिकोण प्रस्तुत किया गया था जो दोनों नीति पुनरावृत्तियों को तंत्रिका नेटवर्क के साथ जोड़ता है।<ref name="CTHJB">{{cite journal |first1=Murad |last1=Abu-Khalaf |first2=Frank L.|last2=Lewis |title=Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach|year=2005 |journal=Automatica |volume=41 | issue=5 | pages=779–791|doi=10.1016/j.automatica.2004.11.034}}</ref> असतत समय में, मूल्य पुनरावृत्तियों और तंत्रिका नेटवर्क के संयोजन वाले HJB समीकरण को हल करने के लिए एक दृष्टिकोण प्रस्तुत किया गया था।<ref name="DTHJB">{{cite journal |first1=Asma |last1=Al-Tamimi|first2=Frank L.|last2=Lewis |first3=Murad |last3=Abu-Khalaf |title=Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof|year=2008 |journal=IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) |volume= 38| issue=4 | pages=943–949 |doi= 10.1109/TSMCB.2008.926614|pmid=18632382|s2cid=14202785}}</ref>
-* बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर [[लिफाफा प्रमेय]] का उपयोग करके मूल्य समारोह के डेरिवेटिव को खत्म करने के लिए, [[[[अंतर समीकरण]]]]ों या अंतर समीकरणों की एक प्रणाली प्राप्त करना संभव है जिसे 'यूलर-लग्रेंज समीकरण' कहा जाता है। .<ref>{{cite book |first=Jianjun |last=Miao |title=Economic Dynamics in Discrete Time |publisher=MIT Press |year=2014 |page=134 |isbn=978-0-262-32560-8 |url=https://books.google.com/books?id=dh2EBAAAQBAJ&pg=PA134 }}</ref> अंतर या अंतर समीकरणों के समाधान के लिए मानक तकनीकों का उपयोग राज्य चर की गतिशीलता और अनुकूलन समस्या के नियंत्रण चर की गणना के लिए किया जा सकता है।
+* बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर [[लिफाफा प्रमेय]] का उपयोग करके मूल्य समारोह के डेरिवेटिव को खत्म करने के लिए, [[[[अंतर समीकरण]]]]ों या अंतर समीकरणों की एक प्रणाली प्राप्त करना संभव है जिसे 'यूलर-लग्रेंज समीकरण' कहा जाता है। .<ref>{{cite book |first=Jianjun |last=Miao |title=Economic Dynamics in Discrete Time |publisher=MIT Press |year=2014 |page=134 |isbn=978-0-262-32560-8 |url=https://books.google.com/books?id=dh2EBAAAQBAJ&pg=PA134 }}</ref> अंतर या अंतर समीकरणों के समाधान के लिए मानक तकनीकों का उपयोग स्थिति चर की गतिशीलता और अनुकूलन समस्या के नियंत्रण चर की गणना के लिए किया जा सकता है।
 == अर्थशास्त्र में अनुप्रयोग ==
 अर्थशास्त्र में बेलमैन समीकरण का पहला ज्ञात अनुप्रयोग [[मार्टिन बेकमैन]] और [[रिचर्ड मुथ]] के कारण है।<ref>{{cite journal |first1=Martin |last1=Beckmann |first2=Richard |last2=Muth |year=1954 |title=On the Solution to the 'Fundamental Equation' of inventory theory |journal=Cowles Commission Discussion Paper 2116 |url=http://cowles.yale.edu/sites/default/files/files/pub/cdp/e-2116.pdf }}</ref> मार्टिन बेकमैन ने भी 1959 में बेलमैन समीकरण का उपयोग करते हुए उपभोग सिद्धांत पर व्यापक रूप से लिखा। उनके काम ने एडमंड एस. फेल्प्स सहित अन्य को प्रभावित किया।
-बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग [[ICAPM]] पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है।<ref>{{cite journal |first=Robert C. |last=Merton |year=1973 |title=An Intertemporal Capital Asset Pricing Model |journal=[[Econometrica]] |volume=41 |issue=5 |pages=867–887 |doi=10.2307/1913811 |jstor=1913811 }}</ref> (मर्टन की पोर्टफोलियो समस्या भी देखें)। मर्टन के सैद्धांतिक मॉडल का समाधान, जिसमें निवेशकों ने आज की आय और भविष्य की आय या पूंजीगत लाभ के बीच चयन किया, बेलमैन के समीकरण का एक रूप है। क्योंकि गतिशील प्रोग्रामिंग के आर्थिक अनुप्रयोगों के परिणामस्वरूप आमतौर पर बेलमैन समीकरण होता है जो एक अंतर समीकरण है, अर्थशास्त्री गतिशील प्रोग्रामिंग को एक पुनरावर्ती विधि के रूप में संदर्भित करते हैं और [[पुनरावर्ती अर्थशास्त्र]] का एक उपक्षेत्र अब अर्थशास्त्र के भीतर मान्यता प्राप्त है।
+बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग [[ICAPM]] पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है।<ref>{{cite journal |first=Robert C. |last=Merton |year=1973 |title=An Intertemporal Capital Asset Pricing Model |journal=[[Econometrica]] |volume=41 |issue=5 |pages=867–887 |doi=10.2307/1913811 |jstor=1913811 }}</ref> (मर्टन की पोर्टफोलियो समस्या भी देखें)। मर्टन के सैद्धांतिक मॉडल का समाधान, जिसमें निवेशकों ने आज की आय और भविष्य की आय या पूंजीगत लाभ के बीच चयन किया, बेलमैन के समीकरण का एक रूप है। क्योंकि गतिशील प्रोग्रामिंग के आर्थिक अनुप्रयोगों के परिणामस्वरूप सामान्यतः बेलमैन समीकरण होता है जो एक अंतर समीकरण है, अर्थशास्त्री गतिशील प्रोग्रामिंग को एक पुनरावर्ती विधि के रूप में संदर्भित करते हैं और [[पुनरावर्ती अर्थशास्त्र]] का एक उपक्षेत्र अब अर्थशास्त्र के भीतर मान्यता प्राप्त है।
-[[नैन्सी स्टोकी]], रॉबर्ट ई. लुकास, और [[एडवर्ड प्रेस्कॉट]] ने स्टोकेस्टिक और नॉन स्टोकेस्टिक डायनेमिक प्रोग्रामिंग का काफी विस्तार से वर्णन किया है, और कुछ शर्तों को पूरा करने वाली समस्याओं के समाधान के अस्तित्व के लिए प्रमेय विकसित किए हैं। वे पुनरावर्ती विधियों का उपयोग करके अर्थशास्त्र में सैद्धांतिक समस्याओं के मॉडलिंग के कई उदाहरणों का भी वर्णन करते हैं।<ref>{{cite book |first1=Nancy |last1=Stokey |first2=Robert E. |last2=Lucas |first3=Edward |last3=Prescott |year=1989 |title=Recursive Methods in Economic Dynamics |publisher=Harvard University Press |isbn=0-674-75096-9 }}</ref> इस पुस्तक ने गतिशील प्रोग्रामिंग को अर्थशास्त्र में सैद्धांतिक समस्याओं की एक विस्तृत श्रृंखला को हल करने के लिए नियोजित किया, जिसमें इष्टतम [[आर्थिक विकास]], [[संसाधन निष्कर्षण]], प्रिंसिपल-एजेंट समस्याएं, [[सार्वजनिक वित्त]], व्यापार [[निवेश]], [[परिसंपत्ति मूल्य निर्धारण]], उत्पादन आपूर्ति का कारक और [[औद्योगिक संगठन]] शामिल हैं। [[Lars Ljungqvist]] और [[थॉमस सार्जेंट]] [[मौद्रिक नीति]], [[राजकोषीय नीति]], कराधान, आर्थिक विकास, [[खोज सिद्धांत]] और [[श्रम अर्थशास्त्र]] में विभिन्न प्रकार के सैद्धांतिक प्रश्नों का अध्ययन करने के लिए गतिशील प्रोग्रामिंग लागू करते हैं।<ref>{{cite book |first1=Lars |last1=Ljungqvist |first2=Thomas |last2=Sargent |year=2012 |title=Recursive Macroeconomic Theory |publisher=MIT Press |edition=3rd |isbn=978-0-262-01874-6 }}</ref> [[अविनाश दीक्षित]] और [[रॉबर्ट पिंडिक]] ने [[पूंजी आय - व्ययक]] के बारे में सोचने के लिए विधि का मूल्य दिखाया।<ref>{{cite book |first1=Avinash |last1=Dixit |first2=Robert |last2=Pindyck |year=1994 |title=Investment Under Uncertainty |publisher=Princeton University Press |isbn=0-691-03410-9 |url-access=registration |url=https://archive.org/details/investmentunderu00dixi_0 }}</ref> एंडरसन ने निजी तौर पर आयोजित व्यवसायों सहित तकनीक को व्यापार मूल्यांकन के लिए अनुकूलित किया।<ref>{{cite book |last=Anderson |first=Patrick L. |title=Business Economics & Finance |publisher=CRC Press |year=2004 |chapter=Ch. 10 |isbn=1-58488-348-0}}
+[[नैन्सी स्टोकी]], रॉबर्ट ई. लुकास, और [[एडवर्ड प्रेस्कॉट]] ने स्टोकेस्टिक