मान फलन

किसी अनुकूलन समस्या का मान फलन किसी समाधान पर उद्देश्य फलन द्वारा प्राप्त मान (गणित) देता है, जबकि यह केवल समस्या के पैरामीटरों पर निर्भर करता है। एक नियंत्रण सिद्धांत गतिशील प्रणाली में, मान फ़ंक्शन अंतराल [t, t पर सिस्टम के इष्टतम भुगतान का प्रतिनिधित्व करता है1] जब समय- t स्थिति चर x(t)=x पर प्रारंभ किया गया। यदि उद्देश्य फ़ंक्शन कुछ लागत का प्रतिनिधित्व करता है जिसे कम किया जाना है, तो मूल्य फ़ंक्शन को इष्टतम प्रोग्राम को पूरा करने की लागत के रूप में व्याख्या की जा सकती है, और इस प्रकार इसे कॉस्ट-टू-गो फ़ंक्शन के रूप में संदर्भित किया जाता है। एक आर्थिक संदर्भ में, जहां उद्देश्य फलन आमतौर पर उपयोगिता का प्रतिनिधित्व करता है, मान फलन अवधारणात्मक रूप से अप्रत्यक्ष उपयोगिता फलन के समतुल्य है। इष्टतम नियंत्रण की समस्या में, मान फ़ंक्शन को स्वीकार्य नियंत्रणों के सेट पर लिए गए ऑब्जेक्टिव फ़ंक्शन के सर्वोच्च के रूप में परिभाषित किया गया है। दिया गया $$(t_{0}, x_{0}) \in [0, t_{1}] \times \mathbb{R}^{d}$$, एक विशिष्ट इष्टतम नियंत्रण समस्या है
 * $$ \text{maximize} \quad J(t_{0}, x_{0}; u) = \int_{t_{0}}^{t_{1}} I(t,x(t), u(t)) \, \mathrm{d}t + \phi(x(t_{1}))$$

का विषय है
 * $$\frac{\mathrm{d}x(t)}{\mathrm{d}t} = f(t, x(t), u(t))$$

प्रारंभिक अवस्था चर के साथ $$x(t_{0})=x_{0}$$. उद्देश्य समारोह $$J(t_{0}, x_{0}; u)$$ सभी स्वीकार्य नियंत्रणों पर अधिकतम किया जाना है $$u \in U[t_{0},t_{1}]$$, कहाँ $$u$$ से एक मापने योग्य कार्य है $$[t_{0}, t_{1}]$$ कुछ निर्धारित मनमाना सेट में $$\mathbb{R}^{m}$$. मूल्य समारोह तब के रूप में परिभाषित किया गया है साथ $$V(t_{1}, x(t_{1})) = \phi(x(t_{1}))$$, कहाँ $$\phi(x(t_{1}))$$ स्क्रैप मूल्य है। यदि नियंत्रण और राज्य प्रक्षेपवक्र की इष्टतम जोड़ी है $$(x^\ast, u^\ast)$$, तब $$V(t_{0}, x_{0}) = J(t_{0}, x_{0}; u^\ast)$$. कार्यक्रम $$h$$ जो इष्टतम नियंत्रण देता है $$u^\ast$$ वर्तमान स्थिति के आधार पर $$x$$ एक प्रतिक्रिया नियंत्रण नीति कहा जाता है, या बस एक नीति समारोह। बेलमैन का इष्टतमता का सिद्धांत मोटे तौर पर बताता है कि समय पर कोई भी इष्टतम नीति $$t$$, $$t_{0} \leq t \leq t_{1}$$ वर्तमान स्थिति ले रहा है $$x(t)$$ नई प्रारंभिक स्थिति शेष समस्या के लिए इष्टतम होनी चाहिए। यदि मान फ़ंक्शन अवकलनीय फ़ंक्शन होता है, यह एक महत्वपूर्ण आंशिक अंतर समीकरण को जन्म देता है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण के रूप में जाना जाता है,
 * $$-\frac{\partial V(t,x)}{\partial t} = \max_u \left\{ I(t,x,u) + \frac{\partial V(t,x)}{\partial x} f(t, x, u) \right\}$$

जहाँ विक्षनरी: दाएँ हाथ की ओर अधिकतम भी हैमिल्टनियन (नियंत्रण सिद्धांत) के रूप में फिर से लिखा जा सकता है, $$H \left(t, x, u, \lambda \right) = I(t,x,u) + \lambda f(t, x, u)$$, जैसा
 * $$-\frac{\partial V(t,x)}{\partial t} = \max_u H(t,x,u,\lambda)$$

साथ $$\partial V(t,x)/\partial x = \lambda(t)$$ कॉस्टेट चर की भूमिका निभा रहा है। इस परिभाषा को देखते हुए, हमारे पास आगे है $$\mathrm{d} \lambda(t) / \mathrm{d}t = \partial^{2} V(t,x) / \partial x \partial t + \partial^{2} V(t,x) / \partial x^{2} \cdot f(x)$$, और के संबंध में HJB समीकरण के दोनों पक्षों को अवकलित करने के बाद $$x$$,
 * $$- \frac{\partial^{2} V(t,x)}{\partial t \partial x} = \frac{\partial I}{\partial x} + \frac{\partial^{2} V(t,x)}{\partial x^{2}} f(x) + \frac{\partial V(t,x)}{\partial x} \frac{\partial f(x)}{\partial x}$$

जो उपयुक्त शर्तों को बदलने के बाद कॉस्टेट समीकरण को पुनः प्राप्त करता है
 * $$- \dot{\lambda}(t) = \frac{\partial I}{\partial x} + \lambda(t) \frac{\partial f(x)}{\partial x} = \frac{\partial H}{\partial x}$$

कहाँ $$\dot{\lambda}(t)$$ समय के संबंध में डेरिवेटिव के लिए न्यूटन नोटेशन है। मूल्य समारोह हैमिल्टन-जैकोबी-बेलमैन समीकरण का अद्वितीय चिपचिपापन समाधान है। एक ऑनलाइन एल्गोरिदम  बंद-लूप अनुमानित इष्टतम नियंत्रण में, वैल्यू फ़ंक्शन भी एक लायपुनोव समारोह है जो बंद-लूप सिस्टम की वैश्विक स्पर्शोन्मुख स्थिरता स्थापित करता है।