मान फलन

किसी अनुकूलन निर्मेय का मान फलन किसी समाधान पर उद्देश्य फलन द्वारा प्राप्त मान (गणित) देता है, जबकि यह केवल निर्मेय के पैरामीटरों पर निर्भर करता है। एक नियंत्रण सिद्धांत गतिशील प्रणाली में, मान फलन अंतराल [t, t1 पर प्रणाली के इष्टतम भुगतान का प्रतिनिधित्व करता है] जब समय- t स्थिति चर x(t)=x पर प्रारंभ किया गया। यदि उद्देश्य फलन कुछ लागत का प्रतिनिधित्व करता है जिसे कम किया जाना है, तो मूल्य फलन को इष्टतम क्रमानुदेश को पूरा करने की लागत के रूप में व्याख्या की जा सकती है, और इस प्रकार इसे कॉस्ट-टू-गो फलन के रूप में संदर्भित किया जाता है। एक आर्थिक संदर्भ में, जहां उद्देश्य फलन सामान्यतः उपयोगिता का प्रतिनिधित्व करता है, मान फलन अवधारणात्मक रूप से अप्रत्यक्ष उपयोगिता फलन के समतुल्य है।  इष्टतम नियंत्रण की निर्मेय में, मान फलन को स्वीकार्य नियंत्रणों के सम्मुच्चय पर लिए गए उद्देश्य फलन के सर्वोच्च के रूप में परिभाषित किया गया है। दिया गया $$(t_{0}, x_{0}) \in [0, t_{1}] \times \mathbb{R}^{d}$$, निम्न एक विशिष्ट इष्टतम नियंत्रण निर्मेय
 * $$ \text{maximize} \quad J(t_{0}, x_{0}; u) = \int_{t_{0}}^{t_{1}} I(t,x(t), u(t)) \, \mathrm{d}t + \phi(x(t_{1}))$$

का विषय
 * $$\frac{\mathrm{d}x(t)}{\mathrm{d}t} = f(t, x(t), u(t))$$

प्रारंभिक अवस्था $$x(t_{0})=x_{0}$$चर के साथ है। उद्देश्य फलन $$J(t_{0}, x_{0}; u)$$ सभी स्वीकार्य नियंत्रणों पर अधिकतम $$u \in U[t_{0},t_{1}]$$ किया जाना है, जहाँ कुछ निर्धारित स्वेच्छाचारी सम्मुच्चय $$\mathbb{R}^{m}$$ में $$u$$ से एक मापने योग्य कार्य $$[t_{0}, t_{1}]$$ है। मूल्य फलन तब के रूप में परिभाषित किया गया है $$V(t_{1}, x(t_{1})) = \phi(x(t_{1}))$$ के साथ, जहाँ $$\phi(x(t_{1}))$$ उच्छिष्ट मूल्य है। यदि नियंत्रण और राज्य प्रक्षेपवक्र की इष्टतम जोड़ी $$(x^\ast, u^\ast)$$ है, तब $$V(t_{0}, x_{0}) = J(t_{0}, x_{0}; u^\ast)$$ है। कार्यक्रम $$h$$ जो इष्टतम नियंत्रण $$u^\ast$$ देता है वर्तमान स्थिति के आधार पर $$x$$ एक प्रतिक्रिया नियंत्रण नीति, या बस एक नीति फलन कहा जाता है।

बेलमैन का इष्टतमता का सिद्धांत स्थूलतः बताता है कि समय $$t$$ पर कोई भी इष्टतम नीति, $$t_{0} \leq t \leq t_{1}$$ वर्तमान स्थिति $$x(t)$$ नई प्रारंभिक स्थिति शेष निर्मेय के लिए इष्टतम होनी चाहिए। यदि मान फलन अवकलनीय फलन होता है, यह एक महत्वपूर्ण आंशिक अंतर समीकरण को उत्पन्न करता है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण के रूप में जाना जाता है,
 * $$-\frac{\partial V(t,x)}{\partial t} = \max_u \left\{ I(t,x,u) + \frac{\partial V(t,x)}{\partial x} f(t, x, u) \right\}$$

जहाँ विक्षनरी: दाएँ हाथ की ओर अधिकतम भी हैमिल्टनियन (नियंत्रण सिद्धांत) $$H \left(t, x, u, \lambda \right) = I(t,x,u) + \lambda f(t, x, u)$$ के रूप में फिर से लिखा जा सकता है, जैसे
 * $$-\frac{\partial V(t,x)}{\partial t} = \max_u H(t,x,u,\lambda)$$

$$\partial V(t,x)/\partial x = \lambda(t)$$ कॉस्टेट चर की भूमिका निभा रहा है। इस परिभाषा को देखते हुए, हमारे पास आगे $$\mathrm{d} \lambda(t) / \mathrm{d}t = \partial^{2} V(t,x) / \partial x \partial t + \partial^{2} V(t,x) / \partial x^{2} \cdot f(x)$$ है, और x के संबंध में HJB समीकरण के दोनों पक्षों को अवकलित करने के बाद समीकरण निम्न प्रकार है,
 * $$- \frac{\partial^{2} V(t,x)}{\partial t \partial x} = \frac{\partial I}{\partial x} + \frac{\partial^{2} V(t,x)}{\partial x^{2}} f(x) + \frac{\partial V(t,x)}{\partial x} \frac{\partial f(x)}{\partial x}$$

जो उपयुक्त परिस्थितियों को बदलने के बाद कॉस्टेट समीकरण को पुनः प्राप्त करता है
 * $$- \dot{\lambda}(t) = \frac{\partial I}{\partial x} + \lambda(t) \frac{\partial f(x)}{\partial x} = \frac{\partial H}{\partial x}$$

जहाँ $$\dot{\lambda}(t)$$ समय के संबंध में व्युत्पन्न शब्द के लिए न्यूटन संकेत पद्धति है। मूल्य फलन हैमिल्टन-जैकोबी-बेलमैन समीकरण का अद्वितीय श्यानता समाधान है। एक ऑनलाइन कलन विधि बंद-परिपथ अनुमानित इष्टतम नियंत्रण में, वैल्यू फलन भी एक लायपुनोव फलन है जो बंद-परिपथ प्रणाली की वैश्विक स्पर्शोन्मुख स्थिरता स्थापित करता है।