प्रवणता अवरोहण

गणित में, प्रवणता अवरोहण (जिसे अधिकांशतः स्टीपेस्ट अवरोहण भी कहा जाता है) अलग-अलग फलन के स्थानीय न्यूनतम को खोजने के लिए प्रथम क्रम पुनरावृत्त कलन विधि है। वर्तमान बिंदु पर फलन के प्रवणता (या अनुमानित प्रवणता) के विपरीत दिशा में कदम उठाने का विचार है, क्योंकि यह सबसे तेज गिरावट की दिशा है। इसके विपरीत, प्रवणता की दिशा में आगे बढ़ने से उस फलन का स्थानीय अधिकतम परिणाम होगा; प्रक्रिया को तब प्रवणता एसेंट के रूप में जाना जाता है। यह लागत या हानि फलन को कम करने के लिए मशीन लर्निंग में विशेष रूप से उपयोगी है। इसकी सरलता और दक्षता के अतिरिक्त, प्रवणता अवरोहण की कुछ सीमाएँ हैं और इन सीमाओं को दूर करने के लिए विविधताएँ विकसित की गई हैं। कुल मिलाकर, प्रवणता अवरोहण ने विभिन्न क्षेत्रों में क्रांति ला दी है और अनुसंधान और विकास का सक्रिय क्षेत्र बना हुआ है।

प्रवणता अवरोहण को सामान्यतः ऑगस्टिन-लुई कॉची के लिए जिम्मेदार ठहराया जाता है, जिन्होंने पहली बार 1847 में इसका सुझाव दिया था। जैक्स हैडमार्ड ने स्वतंत्र रूप से 1907 में इसी तरह की विधि प्रस्तावित की थी। गैर-रैखिक अनुकूलन समस्याओं के लिए इसके अभिसरण गुणों का पहली बार 1944 में हास्केल करी द्वारा अध्ययन किया गया था, इस पद्धति का तेजी से अच्छी तरह से अध्ययन किया गया और बाद के दशकों में इसका उपयोग किया गया।

विवरण
प्रवणता अवरोहण इस अवलोकन पर आधारित है कि यदि बहु चर फलन $$F(\mathbf{x})$$ बिंदु के पड़ोस में परिभाषित और अपरिभाषित और अलग करने योग्य कार्य है $$\mathbf{a}$$, तब $$F(\mathbf{x})$$ अगर कोई जाता है तो सबसे तेजी से घटता है $$\mathbf{a}$$ के नकारात्मक प्रवणता की दिशा में $$F$$ पर $$\mathbf{a}, -\nabla F(\mathbf{a})$$. यह इस प्रकार है, अगर


 * $$ \mathbf{a}_{n+1} = \mathbf{a}_n-\gamma\nabla F(\mathbf{a}_n)$$

छोटे पर्याप्त कदम आकार या सीखने की दर के लिए $$\gamma \in \R_{+}$$, तब $$F(\mathbf{a_n})\geq F(\mathbf{a_{n+1}})$$. दूसरे शब्दों में, शब्द $$\gamma\nabla F(\mathbf{a})$$ से घटाया जाता है $$\mathbf{a}$$ क्योंकि हम प्रवणता के खिलाफ स्थानीय न्यूनतम की ओर बढ़ना चाहते हैं। इस अवलोकन को ध्यान में रखते हुए, अनुमान के साथ प्रारंभ होता है $$\mathbf{x}_0$$ स्थानीय न्यूनतम के लिए $$F$$, और अनुक्रम पर विचार करता है $$\mathbf{x}_0, \mathbf{x}_1, \mathbf{x}_2, \ldots$$ ऐसा है कि


 * $$\mathbf{x}_{n+1}=\mathbf{x}_n-\gamma_n \nabla F(\mathbf{x}_n),\ n \ge 0.$$

हमारे पास मोनोटोनिक फलन अनुक्रम है।


 * $$F(\mathbf{x}_0)\ge F(\mathbf{x}_1)\ge F(\mathbf{x}_2)\ge \cdots,$$

तो, उम्मीद है, क्रम $$(\mathbf{x}_n)$$ वांछित स्थानीय न्यूनतम में परिवर्तित हो जाता है। ध्यान दें कि चरण आकार का मान $$\gamma$$ प्रत्येक पुनरावृत्ति पर बदलने की अनुमति है। फलन पर कुछ मान्यताओं के साथ $$F$$ (उदाहरण के लिए, $$F$$ उत्तल फलन और $$\nabla F$$ लिप्सचिट्ज़ निरंतरता) और विशेष विकल्प $$\gamma$$ (उदाहरण के लिए, या तो लाइन खोज के माध्यम से चुना गया है जो वोल्फ शर्तों को पूरा करता है, या बारज़िलाई-बोरवीन विधि निम्नलिखित के रूप में दिखाया गया है।)


 * $$\gamma_{n} = \frac{ \left | \left (\mathbf x_{n} - \mathbf x_{n-1} \right )^T \left [\nabla F (\mathbf x_{n}) - \nabla F (\mathbf x_{n-1}) \right ] \right |}{\left \|\nabla F(\mathbf{x}_{n}) - \nabla F(\mathbf{x}_{n-1}) \right \|^2}$$

स्थानीय न्यूनतम के लिए अभिसरण श्रृंखला की गारंटी दी जा सकती है। जब फलन $$F$$ उत्तल कार्य है, सभी स्थानीय न्यूनतम भी वैश्विक न्यूनतम हैं, इसलिए इस स्थितियों में प्रवणता वंश वैश्विक समाधान में परिवर्तित हो सकता है।

इस प्रक्रिया को बगल के चित्र में दिखाया गया है। यहाँ, $$F$$ माना जाता है कि समतल पर परिभाषित किया गया है, और इसके ग्राफ में बाउल (बर्तन) का आकार है। नीले वक्र समोच्च रेखाएँ हैं, अर्थात् वे क्षेत्र जिन पर का मान है $$F$$ स्थिर है। बिंदु पर उत्पन्न होने वाला लाल तीर उस बिंदु पर ऋणात्मक प्रवणता की दिशा दर्शाता है। ध्यान दें कि बिंदु पर (नकारात्मक) प्रवणता उस बिंदु से होकर जाने वाली समोच्च रेखा के लिए ओर्थोगोनल है। हम देखते हैं कि प्रवणता अवरोहण हमें कटोरे के निचले भाग तक ले जाता है, चूँकि उस बिंदु तक जहां फलन का मान $$F$$ न्यूनतम है।

प्रवणता अवरोहण को समझने के लिए सादृश्य
क्रमिक वंश के पीछे मूल अंतर्ज्ञान को काल्पनिक परिदृश्य द्वारा चित्रित किया जा सकता है। व्यक्ति पहाड़ों में फंस गया है और नीचे उतरने की प्रयास कर रहा है (यानी वैश्विक न्यूनतम खोजने की प्रयास कर रहा है)। घना कोहरा ऐसा है कि दृश्यता बहुत कम है। इसलिए, पहाड़ के नीचे का रास्ता दिखाई नहीं देता है, इसलिए उन्हें न्यूनतम खोजने के लिए स्थानीय जानकारी का उपयोग करना चाहिए। वे प्रवणता अवरोहण की विधि का उपयोग कर सकते हैं, जिसमें उनकी वर्तमान स्थिति में पहाड़ी की प्रवणता को देखना सम्मिलित है, फिर सबसे तेज गिरावट (यानी, डाउनहिल) के साथ दिशा में आगे बढ़ना सम्मिलित है। यदि वे पहाड़ की चोटी (यानी, अधिकतम) खोजने की प्रयास कर रहे थे, तो वे सबसे तेज चढ़ाई (यानी, ऊपर की ओर) की दिशा में आगे बढ़ेंगे। इस पद्धति का उपयोग करते हुए, वे अंततः पहाड़ के नीचे अपना रास्ता खोज लेंगे या संभवतः किसी पहाड़ी झील की तरह किसी छेद (यानी, स्थानीय न्यूनतम या काठी बिंदु) में फंस जाएंगे। चूँकि, यह भी मान लें कि पहाड़ी की प्रवणता सरल अवलोकन के साथ तुरंत स्पष्ट नहीं होती है, बल्कि इसे मापने के लिए परिष्कृत उपकरण की आवश्यकता होती है, जो उस समय व्यक्ति के पास होता है। उपकरण के साथ पहाड़ी की प्रवणता को मापने में बहुत समय लगता है, इसलिए यदि वे सूर्यास्त से पहले पहाड़ से नीचे उतरना चाहते हैं तो उन्हें उपकरण का उपयोग कम से कम करना चाहिए। कठिनाई तब आवृत्ति का चयन कर रही है जिस पर उन्हें पहाड़ी की प्रवणता को मापना चाहिए जिससे रास्तें से न हटें।

इस समानता में, व्यक्ति कलनविधि का प्रतिनिधित्व करता है, और पहाड़ के नीचे ले जाने वाला मार्ग पैरामीटर सेटिंग्स के अनुक्रम का प्रतिनिधित्व करता है जो कलनविधि अन्वेषण करेगा। पहाड़ी की प्रवणता उस बिंदु पर फलन के प्रवणता का प्रतिनिधित्व करती है। प्रवणता को मापने के लिए प्रयोग किया जाने वाला उपकरण विभेदन (गणित) है। वे जिस दिशा में यात्रा करना चुनते हैं वह उस बिंदु पर फलन के प्रवणता के साथ संरेखित होती है। एक और माप लेने से पहले वे जितना समय यात्रा करते हैं, वह कदम का आकार होता है।

स्टेप आकार और अवरोहण दिशा का चुनना
चरण आकार का उपयोग करने के बाद से $$\gamma$$ वह बहुत छोटा है जो अभिसरण को धीमा कर देगा, और a $$\gamma$$ बहुत बड़ा विचलन का कारण बन सकता है, अच्छी सेटिंग ढूंढ रहा है $$\gamma$$ महत्वपूर्ण व्यावहारिक समस्या है। फिलिप वोल्फ (गणितज्ञ) ने व्यवहार में [वंश] दिशा के चतुर विकल्पों का उपयोग करने की भी वकालत की। जबकि एक ऐसी दिशा का उपयोग करना जो सबसे तेज अवरोही दिशा से विचलित हो, प्रति-सहज लग सकता है, विचार यह है कि छोटे प्रवणता को अधिक लंबी दूरी तक बनाए रखने के लिए भरपाई दिया जा सकता है।

इसके बारे में गणितीय रूप से तर्क करने के लिए, दिशा पर विचार करें $$ \mathbf{p}_n$$ और चरण आकार $$ \gamma_n$$ और अधिक सामान्य अद्यतन पर विचार करें:
 * $$ \mathbf{a}_{n+1} = \mathbf{a}_n-\gamma_n\,\mathbf{p}_n$$.

की अच्छी सेटिंग ढूँढना $$ \mathbf{p}_n$$ और $$ \gamma_n$$ कुछ विचार की आवश्यकता है। सबसे पहले, हम चाहते हैं कि अद्यतन दिशा नीचे की ओर इंगित करे। गणितीय रूप से, दे रहा है $$ \theta_n$$ के बीच के कोण को निरूपित करें $$-\nabla F(\mathbf{a_n})$$ और $$ \mathbf{p}_n$$, इसकी आवश्यकता है $$ \cos \theta_n > 0.$$ अधिक कहने के लिए, हमें उस उद्देश्य फलन के बारे में अधिक जानकारी की आवश्यकता है जिसे हम अनुकूलित कर रहे हैं। काफी कमजोर धारणा के अंतर्गत कि $$F$$ निरंतर अवकलनीय है, तो हम यह सिद्ध कर सकते हैं कि:

इस असमानता का अर्थ है कि वह राशि जिसके द्वारा हम कार्य सुनिश्चित कर सकते हैं $$F$$ घटा है वर्ग कोष्ठक में दो शब्दों के बीच व्यापार बंद पर निर्भर करता है। वर्ग कोष्ठक में पहला शब्द अवरोही दिशा और ऋणात्मक प्रवणता के बीच के कोण को मापता है। दूसरा शब्द मापता है कि अवरोही दिशा के साथ प्रवणता कितनी जल्दी बदलती है।

सिद्धांत रूप में असमानता ($$) पर अनुकूलित किया जा सकता है $$ \mathbf{p}_n$$ और $$ \gamma_n$$ इष्टतम चरण आकार और दिशा चुनने के लिए। समस्या यह है कि वर्ग कोष्ठक में दूसरे पद का मूल्यांकन करने के लिए मूल्यांकन की आवश्यकता होती है $$ \nabla F(\mathbf{a}_n - t \gamma_n \mathbf{p}_n)$$, और अतिरिक्त प्रवणता मूल्यांकन सामान्यतः महंगे और अवांछनीय होते हैं। इस समस्या से निपटने के कुछ विधि हैं:


 * चालाकी से अवरोही दिशा की स्थापना करके लाभ का परित्याग करें $$\mathbf{p}_n = \nabla F(\mathbf{a_n})$$, और उपयुक्त चरण-आकार खोजने के लिए लाइन खोज का उपयोग करें $$ \gamma_n$$, जैसे कि वोल्फ शर्तों को पूरा करता है। सीखने की दरों को चुनने का अधिक लाभ वाली विधि बैकट्रैकिंग लाइन खोज है, ऐसी विधि जिसमें अच्छी सैद्धांतिक गारंटी और प्रयोगात्मक परिणाम दोनों हैं। ध्यान दें कि किसी को चुनने की आवश्यकता नहीं है $$\mathbf{p}_n $$ प्रवणता होना; प्रवणता के साथ धनात्मक प्रतिच्छेदन उत्पाद वाली किसी भी दिशा के परिणामस्वरूप $$ \gamma_n$$ फलन मान में कमी आएगी (काफ़ी छोटे मान के लिए )
 * ये मानते हुए $$F$$ दो बार अलग-अलग है, इसके हेसियन का प्रयोग करें $$\nabla^2 F$$ अनुमान लगाने के लिए $$ \|\nabla F(\mathbf{a}_n - t \gamma_n \mathbf{p}_n) - \nabla F(\mathbf{a}_n)\|_2 \approx \| t \gamma_n \nabla^2 F(\mathbf{a}_n) \mathbf{p}_n\|.$$उसके बाद चुनो $$ \mathbf{p}_n$$ और $$ \gamma_n$$ असमानता का अनुकूलन करके ($$).
 * ये मानते हुए $$\nabla F$$ लिप्सचिट्ज़ निरंतरता है, इसके लिप्सचिट्ज़ स्थिरांक का उपयोग करें $$ L$$ बाध्य करने के लिए $$ \|\nabla F(\mathbf{a}_n - t \gamma_n \mathbf{p}_n) - \nabla F(\mathbf{a}_n)\|_2 \leq L t \gamma_n \|\mathbf{p}_n\|.$$ उसके बाद चुनो $$ \mathbf{p}_n$$ और $$ \gamma_n$$ असमानता का अनुकूलन करके ($$).
 * का कस्टम मॉडल बनाएँ $$ \max_{t\in[0,1]} \frac{\|\nabla F(\mathbf{a}_n - t \gamma_n \mathbf{p}_n) - \nabla F(\mathbf{a}_n)\|_2}{\| \nabla F(\mathbf{a}_n) \|_2}$$ के लिए $$F$$. उसके बाद चुनो $$ \mathbf{p}_n$$ और $$ \gamma_n$$ असमानता का अनुकूलन करके ($$).
 * फलन पर मजबूत धारणाओं के अंतर्गत $$F$$ जैसे उत्तल कार्य, अधिक तेजी से प्रवणता विधियां संभव हो सकती हैं।

सामान्यतः उपरोक्त व्यंजनों में से एक का पालन करके, स्थानीय न्यूनतम तक अभिसरण श्रृंखला की गारंटी दी जा सकती है। जब फलन $$F$$ उत्तल कार्य है, सभी स्थानीय न्यूनतम भी वैश्विक न्यूनतम हैं, इसलिए इस स्थितियों में प्रवणता वंश वैश्विक समाधान में परिवर्तित हो सकता है।

रैखिक प्रणाली का समाधान
रेखीय समीकरणों की प्रणाली को हल करने के लिए क्रमिक वंश का उपयोग किया जा सकता है।


 * $$A\mathbf{x}-\mathbf{b}=0$$

द्विघात न्यूनीकरण समस्या के रूप में सुधार किया गया।

यदि प्रणाली मैट्रिक्स $$A$$ वास्तविक सममित मैट्रिक्स और सकारात्मक-निश्चित मैट्रिक्स है। सकारात्मक-निश्चित, उद्देश्य फलन को द्विघात फलन के रूप में परिभाषित किया गया है, जिसमें न्यूनतम


 * $$F(\mathbf{x})=\mathbf{x}^T A\mathbf{x}-2\mathbf{x}^T\mathbf{b},$$

जिससे


 * $$\nabla F(\mathbf{x})=2(A\mathbf{x}-\mathbf{b}).$$

सामान्य वास्तविक मैट्रिक्स के लिए $$A$$, रैखिक कम से कम वर्ग परिभाषित करते हैं।


 * $$F(\mathbf{x})=\left\|A\mathbf{x}-\mathbf{b}\right\|^2.$$

वास्तविक के लिए पारंपरिक रैखिक कम से कम वर्ग में $$A$$ और $$\mathbf{b}$$ यूक्लिडियन मानदंड का उपयोग किस स्थितियों में किया जाता है।


 * $$\nabla F(\mathbf{x})=2A^T(A\mathbf{x}-\mathbf{b}).$$

स्थानीय रूप से इष्टतम चरण आकार खोजने के लिए लाइन खोज न्यूनीकरण $$\gamma$$ प्रत्येक पुनरावृत्ति पर, द्विघात कार्यों के लिए विश्लेषणात्मक रूप से प्रदर्शन किया जा सकता है, और स्थानीय रूप से इष्टतम के लिए स्पष्ट सूत्र $$\gamma$$ ज्ञात हैं।

उदाहरण के लिए, वास्तविक सममित मैट्रिक्स और सकारात्मक-निश्चित मैट्रिक्स सकारात्मक-निश्चित मैट्रिक्स के लिए $$A$$ साधारण कलन विधि निम्नानुसार हो सकता है, :$$\begin{align} & \text{repeat in the loop:} \\ & \qquad \mathbf{r} := \mathbf{b} - \mathbf{A x} \\ & \qquad \gamma := {\mathbf{r}^\mathsf{T} \mathbf{r}}/{\mathbf{r}^\mathsf{T} \mathbf{A r}} \\ & \qquad \mathbf{x} := \mathbf{x} + \gamma \mathbf{r} \\ & \qquad \hbox{if } \mathbf{r}^\mathsf{T} \mathbf{r} \text{ is sufficiently small, then exit loop} \\ & \text{end repeat loop} \\ & \text{return } \mathbf{x} \text{ as the result} \end{align}$$

से गुणा करने से बचने के लिए $$A$$ दो बार प्रति पुनरावृत्ति,

हमने ध्यान दिया कि $$\mathbf{x} := \mathbf{x} + \gamma \mathbf{r}$$ तात्पर्य $$\mathbf{r} := \mathbf{r} - \gamma \mathbf{A r}$$, जो पारंपरिक कलन विधि देता है।
 * $$\begin{align}

& \mathbf{r} := \mathbf{b} - \mathbf{A x} \\ & \text{repeat in the loop:} \\ & \qquad \gamma := {\mathbf{r}^\mathsf{T} \mathbf{r}}/{\mathbf{r}^\mathsf{T} \mathbf{A r}} \\ & \qquad \mathbf{x} := \mathbf{x} + \gamma \mathbf{r} \\ & \qquad \hbox{if } \mathbf{r}^\mathsf{T} \mathbf{r} \text{ is sufficiently small, then exit loop} \\ & \qquad \mathbf{r} := \mathbf{r} - \gamma \mathbf{A r} \\ & \text{end repeat loop} \\ & \text{return } \mathbf{x} \text{ as the result} \end{align}$$ रैखिक समीकरणों को हल करने के लिए विधि का उपयोग शायद ही कभी किया जाता है, संयुग्म प्रवणता विधि सबसे लोकप्रिय विकल्पों में से एक है। प्रवणता अवरोहण पुनरावृत्तियों की संख्या सामान्यतः वर्णक्रमीय स्थिति संख्या के समानुपाती होती है $$\kappa(A)$$ प्रणाली मैट्रिक्स का $$A$$ (अधिकतम से न्यूनतम आइजन वैल्यूज ​​​​का अनुपात $A^TA$), जबकि संयुग्म प्रवणता विधि का अभिसरण सामान्यतः स्थिति संख्या के वर्गमूल द्वारा निर्धारित किया जाता है, अर्थात, बहुत तेज़ है। दोनों विधियां पूर्व शर्त से लाभान्वित हो सकती हैं, जहां प्रवणता अवरोहण को प्रीकंडीशनर पर कम धारणा की आवश्यकता हो सकती है।

गैर-रैखिक प्रणाली का समाधान
प्रवणता अवरोहण का उपयोग गैर-रैखिक समीकरणों की प्रणाली को हल करने के लिए भी किया जा सकता है। नीचे उदाहरण दिया गया है जो दिखाता है कि तीन अज्ञात चर, x को हल करने के लिए प्रवणता अवरोहण का उपयोग कैसे करें x1, x2, और x3. यह उदाहरण प्रवणता अवरोहण का पुनरावृत्ति दिखाता है।

समीकरणों की अरेखीय प्रणाली पर विचार करें


 * $$ \begin{cases}

3x_1-\cos(x_2x_3)-\tfrac{3}{2} =0 \\ 4x_1^2-625x_2^2+2x_2-1 = 0 \\ \exp(-x_1x_2)+20x_3+\tfrac{10\pi-3}{3} =0 \end{cases}$$ आइए संबंधित फलन का परिचय दें


 * $$G(\mathbf{x}) = \begin{bmatrix}

3x_1-\cos(x_2x_3)-\tfrac{3}{2} \\ 4x_1^2-625x_2^2+2x_2-1 \\ \exp(-x_1x_2)+20x_3+\tfrac{10\pi-3}{3} \\ \end{bmatrix}, $$ जहाँ


 * $$ \mathbf{x} =\begin{bmatrix}

x_1 \\ x_2 \\ x_3 \\ \end{bmatrix}.$$ अब कोई वस्तुनिष्ठ फलन को परिभाषित कर सकता है।


 * $$\begin{align}F(\mathbf{x}) &= \frac{1}{2} G^\mathrm{T}(\mathbf{x}) G(\mathbf{x}) \\&=\frac{1}{2} \left[ \left (3x_1-\cos(x_2x_3)-\frac{3}{2} \right)^2 + \left(4x_1^2-625x_2^2+2x_2-1 \right)^2 +\right.\\

&{}\qquad\left. \left(\exp(-x_1x_2) + 20x_3 + \frac{10\pi-3}{3} \right)^2 \right],\end{align}$$ जिसे हम कम करने का प्रयास करेंगे। प्रारंभिक अनुमान के रूप में, आइए हम उपयोग करें


 * $$ \mathbf{x}^{(0)}= \mathbf{0} = \begin{bmatrix}

0 \\ 0 \\  0 \\ \end{bmatrix}.$$ हम वह जानते हैं।


 * $$\mathbf{x}^{(1)}=\mathbf{0}-\gamma_0 \nabla F(\mathbf{0}) = \mathbf{0}-\gamma_0 J_G(\mathbf{0})^\mathrm{T} G(\mathbf{0}),$$

जहां जैकबियन मैट्रिक्स $$J_G$$ द्वारा दिया गया है


 * $$J_G(\mathbf{x}) = \begin{bmatrix}

3 & \sin(x_2x_3)x_3 & \sin(x_2x_3)x_2  \\ 8x_1 & -1250x_2+2 & 0 \\ -x_2\exp{(-x_1x_2)} & -x_1\exp(-x_1x_2) & 20\\ \end{bmatrix}.$$ हम गणना करते हैं:


 * $$J_G(\mathbf{0}) = \begin{bmatrix}

3 & 0 & 0\\ 0 & 2 & 0\\  0 & 0 & 20 \end{bmatrix}, \qquad G(\mathbf{0}) = \begin{bmatrix} -2.5\\ -1\\  10.472 \end{bmatrix}.$$ इस प्रकार


 * $$\mathbf{x}^{(1)}= \mathbf{0}-\gamma_0 \begin{bmatrix}

-7.5\\ -2\\  209.44 \end{bmatrix},$$ और


 * $$F(\mathbf{0}) = 0.5 \left( (-2.5)^2 + (-1)^2 + (10.472)^2 \right) = 58.456.$$

अब, उपयुक्त $$\gamma_0$$ ऐसा पाया जाना चाहिए


 * $$F\left (\mathbf{x}^{(1)}\right ) \le F\left (\mathbf{x}^{(0)}\right ) = F(\mathbf{0}).$$

यह किसी भी तरह के लाइन सर्च कलन विधि के साथ किया जा सकता है। कोई अनुमान भी लगा सकता है $$\gamma_0=0.001,$$ जो देता है।


 * $$ \mathbf{x}^{(1)}=\begin{bmatrix}

0.0075 \\   0.002   \\  -0.20944 \\ \end{bmatrix}.$$ इस मान पर वस्तुनिष्ठ फलन का मूल्यांकन करने पर प्राप्त होता है।


 * $$F \left (\mathbf{x}^{(1)}\right ) = 0.5 \left ((-2.48)^2 + (-1.00)^2 + (6.28)^2 \right ) = 23.306.$$

से कमी $$F(\mathbf{0})=58.456$$ के अगले चरण के मान के लिए


 * $$ F\left (\mathbf{x}^{(1)}\right ) =23.306 $$

उद्देश्य फलन में बड़ी कमी है। आगे के कदम इसके मूल्य को और कम कर देंगे जब तक कि प्रणाली का अनुमानित समाधान नहीं मिल जाता।

टिप्पणियाँ
प्रवणता वंश किसी भी आयाम के रिक्त स्थान में काम करता है, यहां तक ​​कि अनंत-आयामी वाले में भी। बाद के स्थितियों में, खोज स्थान सामान्यतः फलन स्थान होता है, और वंश दिशा निर्धारित करने के लिए कम से कम किए जाने वाले कार्यात्मक के फ्रेचेट व्युत्पन्न की गणना करता है।

प्रवणता अवरोहण किसी भी संख्या में आयामों (कम से कम परिमित संख्या) में काम करता है, जिसे कॉची-श्वार्ज़ असमानता के परिणाम के रूप में देखा जा सकता है। वह लेख साबित करता है कि किसी भी आयाम के दो वैक्टरों के आंतरिक (डॉट) उत्पाद का परिमाण अधिकतम होता है जब वे कॉलिनियर होते हैं। प्रवणता अवरोहण के स्थितियों में, यह तब होगा जब स्वतंत्र चर समायोजन का वेक्टर आंशिक डेरिवेटिव के प्रवणता वेक्टर के समानुपाती होता है।

यदि दिए गए फलन के लिए अलग-अलग दिशाओं में वक्रता बहुत अलग है, तो आवश्यक सटीकता के साथ स्थानीय न्यूनतम की गणना करने के लिए प्रवणता वंश कई पुनरावृत्तियों को ले सकता है। ऐसे कार्यों के लिए, पूर्वानुकूलन, जो संकेंद्रित हलकों जैसे कार्य स्तर सेट को आकार देने के लिए अंतरिक्ष की ज्यामिति को बदलता है, धीमी अभिसरण को ठीक करता है। चूँकि, पूर्वानुकूलन का निर्माण और उसे प्रयुक्त करना कम्प्यूटेशनल रूप से महंगा हो सकता है।

स्थानीय रूप से इष्टतम चरण आकार खोजने के लिए प्रवणता वंश को पंक्ति खोज के साथ जोड़ा जा सकता है $$\gamma$$ प्रत्येक पुनरावृत्ति पर। लाइन खोज करने में समय लग सकता है। इसके विपरीत, निश्चित छोटे का उपयोग करना $$\gamma$$ खराब अभिसरण प्राप्त कर सकते हैं।

इष्टतमीकरण में न्यूटन की विधि पर आधारित विधियाँ | संयुग्मी प्रवणता तकनीकों का उपयोग करते हुए न्यूटन की विधि और हेसियन मैट्रिक्स का व्युत्क्रम बेहतर विकल्प हो सकते हैं। सामान्यतः, ऐसी विधियाँ कम पुनरावृत्तियों में परिवर्तित होती हैं, लेकिन प्रत्येक पुनरावृत्ति की लागत अधिक होती है। उदाहरण ब्रॉयडेन-फ्लेचर-गोल्डफर्ब-शन्नो कलनविधि है जिसमें प्रत्येक चरण पर मैट्रिक्स की गणना होती है जिसके द्वारा प्रवणता वेक्टर को अच्छी दिशा में जाने के लिए गुणा किया जाता है, अधिक परिष्कृत लाइन सर्च कलन विधि के साथ मिलकर, सर्वोत्तम मूल्य खोजने के लिए $$\gamma.$$ अत्यधिक बड़ी समस्याओं के लिए, जहां कंप्यूटर-मेमोरी मुद्दे हावी होते हैं, सीमित-मेमोरी विधि जैसे कि सीमित-मेमोरी बीएफजीएस | एल-बीएफजीएस का उपयोग बीएफजीएस या स्टीपेस्ट अवरोहण के अतिरिक्त किया जाना चाहिए।

सामान्य अंतर समीकरणों को हल करने के लिए यूलर की विधि को प्रयुक्त करने के रूप में क्रमिक वंश को देखा जा सकता है $$x'(t)=-\nabla f(x(t))$$ प्रवणता प्रवाह के लिए। बदले में, यह समीकरण इष्टतम नियंत्रक के रूप में प्राप्त किया जा सकता है नियंत्रण प्रणाली के लिए $$x'(t) = u(t)$$ साथ $$u(t)$$ फीडबैक फॉर्म में दिया गया $$u(t) = -\nabla f(x(t))$$.है।

यह दिखाया जा सकता है कि तंत्रिका विकास और प्रवणता अवरोहण के बीच पत्राचार है।

संशोधन
धीरे-धीरे वंश स्थानीय न्यूनतम में अभिसरण कर सकता है और काठी बिंदु के पड़ोस में धीमा हो सकता है। अप्रतिबंधित द्विघात न्यूनीकरण के लिए भी, क्रमिक वंश पुनरावृत्तियों की प्रगति के रूप में बाद के पुनरावृत्तियों का ज़िग-ज़ैग पैटर्न विकसित करता है, जिसके परिणामस्वरूप धीमी गति से अभिसरण होता है। इन कमियों को दूर करने के लिए प्रवणता अवरोहण के कई संशोधन प्रस्तावित किए गए हैं।

तेज प्रवणता के विधि
यूरी नेस्टरोव ने प्रस्तावित किया है साधारण संशोधन जो उत्तल समस्याओं के लिए तेजी से अभिसरण को सक्षम बनाता है और आगे सामान्यीकृत किया गया है। अप्रतिबंधित चिकनी समस्याओं के लिए विधि को तेज प्रवणता विधि (एफजीएम) या त्वरित प्रवणता विधि (एजीएम) कहा जाता है। विशेष रूप से, यदि अलग-अलग फलन $$F$$ उत्तल है और $$\nabla F$$ लिप्सचिट्ज़ निरंतरता है, और ऐसा नहीं माना जाता है $$F$$ उत्तल कार्य दृढ़ता से उत्तल कार्य है, फिर प्रत्येक चरण में उत्पन्न उद्देश्य मान में त्रुटि $$k$$ प्रवणता अवरोहण मेथड द्वारा बिग ओ नोटेशन होगा $\mathcal{O}\left(\tfrac{1}{k}\right)$. नेस्टरोव त्वरण तकनीक का उपयोग करते हुए, त्रुटि कम हो जाती है $\mathcal{O}\left(\tfrac{1}{k^{2}}\right)$. ज्ञात हो कि दर $$\mathcal{O}\left({k^{-2}}\right)$$ हानि फलन की कमी के लिए प्रथम क्रम अनुकूलन विधियों के लिए इष्टतम है। फिर भी, निरंतर कारक को कम करके कलनविधि में सुधार करने का अवसर है। अनुकूलित प्रवणता विधि (ओजीएम) उस स्थिरांक को दो के कारक से कम कर देता है और बड़े पैमाने की समस्याओं के लिए इष्टतम प्रथम-क्रम विधि है।

विवश या गैर-चिकनी समस्याओं के लिए, नेस्टरोव के एफजीएम को फास्ट समीपस्थ प्रवणता विधि (एफपीजीएम) कहा जाता हैतेजी से समीपस्थ प्रवणता विधि का त्वरण है।

मोमेंटम या हैवी बॉल विधि
प्रवणता अवरोहण के ज़िग-ज़ैग पैटर्न को तोड़ने की प्रयास करते हुए, संवेग या भारी बॉल विधि फलन के मूल्यों की सतह पर फिसलने वाली भारी गेंद के सादृश्य में संवेग शब्द का उपयोग करती है, जिसे कम से कम किया जा रहा है। या रूढ़िवादी बल क्षेत्र में चिपचिपा माध्यम के माध्यम से न्यूटोनियन गतिकी में जन आंदोलन के लिए। गति के साथ प्रवणता वंश प्रत्येक पुनरावृत्ति पर समाधान अद्यतन को याद रखता है, और अगले अद्यतन को प्रवणता और पिछले अद्यतन के रैखिक संयोजन के रूप में निर्धारित करता है। अप्रतिबंधित द्विघात न्यूनीकरण के लिए, भारी गेंद विधि से बंधी सैद्धांतिक अभिसरण दर विषम रूप से वही है जो इष्टतम संयुग्म प्रवणता विधि के लिए है।

इस तकनीक का उपयोग स्टोचैस्टिक प्रवणता अवरोहण मोमेंटम में किया जाता है और कृत्रिम तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए उपयोग किए जाने वाले बैकप्रोपैगेशन कलन विधि के विस्तार के रूप में किया जाता है। अद्यतन करने की दिशा में, स्टोचैस्टिक प्रवणता अवरोहण स्टोकेस्टिक गुण जोड़ता है। डेरिवेटिव की गणना के लिए वज़न का उपयोग किया जा सकता है।

एक्सटेंशन
बाधाओं के सेट पर प्रक्षेपण (रैखिक बीजगणित) को सम्मिलित करके बाधा (गणित) को संभालने के लिए प्रवणता वंश को बढ़ाया जा सकता है। यह विधि तभी संभव है जब कंप्यूटर पर प्रक्षेपण कुशलतापूर्वक गणना योग्य हो। उपयुक्त मान्यताओं के अंतर्गत, यह विधि अभिसरण करती है। यह विधि फ़ॉरवर्ड-बैकवर्ड कलनविधि | मोनोटोन समावेशन के लिए फ़ॉरवर्ड-बैकवर्ड कलनविधि का विशिष्ट स्थितियों है (जिसमें उत्तल प्रोग्रामिंग और भिन्नता असमानता सम्मिलित है)।

ग्रैडिएंट डीसेंट दिए गए ब्रेगमैन विचलन के रूप में स्क्वायर यूक्लिडियन दूरी का उपयोग करके दर्पण वंश का विशेष स्थिति है।

यह भी देखें

 * बैकट्रैकिंग लाइन सर्च
 * संयुग्म ढाल विधि
 * स्टोचैस्टिक ग्रेडिएंट डिसेंट
 * आरप्रॉप
 * डेल्टा नियम
 * वोल्फ की स्थिति
 * पूर्व शर्त
 * ब्रॉयडेन-फ्लेचर-गोल्डफार्ब-शन्नो एल्गोरिथम
 * डेविडॉन-फ्लेचर-पॉवेल सूत्र
 * नेल्डर-मीड विधि
 * गॉस-न्यूटन एल्गोरिथम
 * पहाड़ी की चढ़ाई
 * क्वांटम एनीलिंग
 * टीएफएनपी#सीएलएस

बाहरी संबंध

 * Using gradient descent in C++, Boost, Ublas for linear regression
 * Series of Khan Academy videos discusses gradient ascent
 * Online book teaching gradient descent in deep neural network context
 * Archived at Ghostarchive and the Wayback Machine:
 * Handbook of Convergence Theorems for (Stochastic) Gradient Methods