पश्चप्रचार

From Vigyanwiki
Revision as of 18:27, 16 May 2023 by Manidh (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

यंत्र अधिगम में, पश्चप्रचार व्यापक रूप से उपयोग किया जाने वाला कलन विधि है, जो फीडफॉरवर्ड न्यूरल नेटवर्क या अलग-अलग नोड्स के साथ अन्य पैरामीटरयुक्त नेटवर्क को प्रशिक्षित करता है।[1][2] यह ऐसे नेटवर्क के लिए गॉटफ्रीड विल्हेम लीबनिज श्रृंखला नियम (1673)[3] का कुशल अनुप्रयोग है।[4] सेप्पो लिनैनमा (1970) के कारण स्वत: विभेदन या रिवर्स संचयन के रिवर्स मोड के रूप में भी जाना जाता है।[5][6][7][8][9][10][11]

फ्रैंक रोसेनब्लैट द्वारा 1962 में बैक-प्रोपेगेटिंग एरर करेक्शन शब्द प्रस्तुत किया गया था।[12][4] किन्तु उन्हें यह नहीं पता था कि इसे कैसे प्रायुक्त किया जाए, चूंकि हेनरी जे. केली के पास नियंत्रण सिद्धांत के संदर्भ में 1960 में पहले से ही पश्चप्रचार का निरंतर अग्रदूत था[13][4]

पश्चप्रचार एकल इनपुट-आउटपुट उदाहरण के लिए नेटवर्क के भार के संबंध में एक लॉस फलन के ग्रेडिएंट की गणना करता है, और इतनी कुशलता (एल्गोरिथम दक्षता) से करता है, कि एक समय में ग्रेडिएंट की एक परत की गणना करता है, जो मध्यवर्ती शब्दों की अनावश्यक गणनाओं से बचने के लिए पिछली परत से पीछे की ओर जाता है। श्रृंखला नियम में; यह गतिशील प्रोग्रामिंग के माध्यम से प्राप्त किया जा सकता है।[13][14][15] ग्रेडिएंट डिसेंट , या वैरिएंट जैसे स्टोकेस्टिक ग्रेडिएंट डिसेंट[16] सामान्यतः उपयोग किए जाते हैं।

पश्चप्रचार शब्द केवल ग्रेडिएंट की गणना के लिए एल्गोरिथम को संदर्भित करता है, न कि कैसे ग्रेडिएंट का उपयोग किया जाता है; चूँकि, इस शब्द का उपयोग अक्सर संपूर्ण शिक्षण एल्गोरिथ्म को संदर्भित करने के लिए किया जाता है, जिसमें ग्रेडिएंट का उपयोग कैसे किया जाता है, जैसे कि स्टोकेस्टिक ग्रेडिएंट डिसेंट द्वारा।[17] 1985 में, डेविड ई. रुमेलहार्ट एट अल विधि का प्रायोगिक विश्लेषण प्रकाशित किया।[18] इसने पश्चप्रचार को लोकप्रिय बनाने में योगदान दिया और बहुपरत परसेप्ट्रॉन में अनुसंधान की सक्रिय अवधि प्रारंभ करने में सहायता की थी।

अवलोकन

पश्चप्रचार लॉस फलन के संबंध में फीडफॉरवर्ड न्यूरल नेटवर्क के पैरामीटर स्थान में ग्रेडिएंट की गणना करता है। निरूपित करें:

  • : इनपुट (सुविधाओं का सदिश)
  • : लक्ष्य आउटपुट
    वर्गीकरण के लिए, आउटपुट वर्ग संभावनाओं का सदिश होगा (उदाहरण के लिए, , और लक्ष्य आउटपुट विशिष्ट वर्ग है, जो वन-हॉट/डमी चर (सांख्यिकी) द्वारा एन्कोड किया गया है (उदाहरण के लिए, ).
  • : लॉस फलन या लागत फलन[lower-alpha 1]
    वर्गीकरण के लिए, यह सामान्यतः क्रॉस एन्ट्रापी (XC, लॉग लॉस) होता है, जबकि रिग्रेशन के लिए यह सामान्यतः स्क्वायर त्रुटि लॉस (एसईएल) होता है।
  • : परतों की संख्या
  • : परत और के बीच का भार, जहाँ -वें नोड के बीच का भार है परत में और -वें नोड परत में[lower-alpha 2]
  • : सक्रियण परत पर फलन करता है
    वर्गीकरण के लिए अंतिम परत सामान्यतः बाइनरी वर्गीकरण के लिए लॉजिस्टिक फलन है, और मल्टी-क्लास वर्गीकरण के लिए सॉफ्टमैक्स फलन (सॉफ्टरमैक्स) है, जबकि छिपी हुई परतों के लिए यह पारंपरिक रूप से प्रत्येक नोड (समन्वय) पर सिग्मॉइड फलन (लॉजिस्टिक फलन या अन्य) था ), किन्तु आज अधिक विविध है, जिसमें रेक्टिफायर (तंत्रिका नेटवर्क) (रैंप फलन, रेएलयू) सामान्य है।

पश्चप्रचार की व्युत्पत्ति में, अन्य मध्यवर्ती मात्राओं का उपयोग किया जाता है; उन्हें नीचे आवश्यकतानुसार प्रस्तुत किया गया है। पूर्वाग्रह की शर्तों को विशेष रूप से व्यवहार नहीं किया जाता है, क्योंकि वे 1 के निश्चित इनपुट के साथ भार के अनुरूप होते हैं। पश्चप्रचार के उद्देश्य के लिए, विशिष्ट लॉस फलन और सक्रियण फलन कोई अर्थ नहीं रखते हैं, जब तक कि उनका और उनके डेरिवेटिव का मूल्यांकन कुशलतापूर्वक किया जा सकता है। पारंपरिक सक्रियण फलनों में सिग्मॉइड, टैन और रेक्टिफायर (तंत्रिका नेटवर्क) सम्मिलित हैं, किन्तु इन तक सीमित नहीं हैं। चूंकि, स्विश फलन,[19] शुद्ध करनेवाला (तंत्रिका नेटवर्क) # मिश,[20] और अन्य सक्रियण फलन भी प्रस्तावित किए गए थे।

समग्र नेटवर्क फलन संरचना और आव्यूह गुणन का संयोजन है:

प्रशिक्षण सेट के लिए इनपुट-आउटपुट जोड़े का सेट होगा, प्रत्येक इनपुट-आउटपुट जोड़ी के लिए प्रशिक्षण सेट में, उस जोड़ी पर मॉडल का लॉस अनुमानित आउटपुट के बीच अंतर की लागत है और लक्ष्य आउटपुट :

अंतर पर ध्यान दें: मॉडल मूल्यांकन के समय, भार तय होते हैं, जबकि इनपुट भिन्न होते हैं (और लक्ष्य आउटपुट अज्ञात हो सकता है), और नेटवर्क आउटपुट परत के साथ समाप्त होता है (इसमें लॉस फलन सम्मिलित नहीं होता है)। मॉडल प्रशिक्षण के समय, इनपुट-आउटपुट जोड़ी तय हो जाती है, जबकि भार भिन्न-भिन्न होता है, और नेटवर्क लॉस फलन के साथ समाप्त होता है।

पश्चप्रचार निश्चित इनपुट-आउटपुट जोड़ी के लिए प्रवणता की गणना करता है, जहां भार भिन्न हो सकती है। प्रवणता के प्रत्येक व्यक्तिगत घटक, श्रृंखला नियम द्वारा गणना की जा सकती है; चूँकि, प्रत्येक भार के लिए इसे अलग से करना अक्षम है। पश्चप्रचार प्रत्येक परत के ग्रेडिएंट की गणना करके - विशेष रूप से, प्रत्येक परत के भारित इनपुट के ग्रेडिएंट की गणना करके, डुप्लिकेट गणनाओं से बचने और अनावश्यक मध्यवर्ती मानों की गणना नहीं करके कुशलता से ग्रेडिएंट की गणना करता है, जिसे द्वारा पीछे से सामने की ओर दर्शाया जाता है।

अनौपचारिक रूप से, मुख्य बिंदु यह है कि चूंकि में भार का एकमात्र विधि लॉस को प्रभावित करता है अगली परत पर इसके प्रभाव के माध्यम से होता है, और यह ऐसा रैखिक रूप से करता है, वे एकमात्र डेटा हैं जिनकी आपको परत पर भार के ग्रेडिएंट की गणना करने के लिए आवश्यकता होती है, और फिर आप पिछली परत की गणना कर सकते हैं और पुनरावर्ती रूप से दोहराएं। यह दो तरह से अक्षमता से बचा जाता है। सबसे पहले, यह दोहराव से बचा जाता है क्योंकि परत पर ग्रेडिएंट की गणना करते समय, आपको बाद की परतों पर सभी डेरिवेटिव की पुनर्गणना करने की आवश्यकता नहीं है। दूसरे, यह अनावश्यक मध्यवर्ती गणनाओं से बचता है क्योंकि प्रत्येक चरण में यह भार में परिवर्तन के संबंध में छिपी हुई परतों के मूल्यों के डेरिवेटिव की अनावश्यक रूप से गणना करने के अतिरिक्त अंतिम आउटपुट (लॉस) के संबंध में भार के प्रवणता की सीधे गणना करता है।

  1. आव्यूह गुणन के संदर्भ में, या अधिक सामान्यतः आसन्न ग्राफ़ के संदर्भ में सरल फ़ीडफ़ॉरवर्ड नेटवर्क के लिए पश्चप्रचार व्यक्त किया जा सकता है।

आव्यूह गुणन

फीडफॉरवर्ड नेटवर्क के मूल स्थिति के लिए, जहां प्रत्येक परत में नोड्स केवल तत्काल अगली परत (बिना किसी परत को छोड़े) में नोड्स से जुड़े होते हैं, और लॉस फलन होता है जो अंतिम आउटपुट के लिए स्केलर लॉस की गणना करता है, पश्चप्रचार हो सकता है आव्यूह गुणन द्वारा आसानी से समझा जा सकता है।[lower-alpha 3] अनिवार्य रूप से, पश्चप्रचार प्रत्येक परत के बीच डेरिवेटिव के उत्पाद के रूप में लागत फलन के व्युत्पन्न के लिए अभिव्यक्ति का मूल्यांकन करता है, प्रत्येक परत के बीच भार के प्रवणता के साथ दाएं से बाएं "पीछे की ओर" आंशिक उत्पादों ("पीछे की ओर प्रचारित" गलती") का एक साधारण संशोधन होता है।

इनपुट-आउटपुट जोड़ी दी गई है, लॉस है:

इसकी गणना करने के लिए, इनपुट के साथ प्रारंभ होता है और आगे काम करता है; प्रत्येक छिपी हुई परत के भारित इनपुट और छिपी हुई परत के आउटपुट को सक्रियण के रूप में निरूपित करें। पश्च प्रसार के लिए, सक्रियण के साथ ही डेरिवेटिव ( पर मूल्यांकन किया गया) बैकवर्ड पास के समय उपयोग के लिए कैश किया जाना चाहिए।

इनपुट के संदर्भ में लॉस का व्युत्पन्न श्रृंखला नियम द्वारा दिया गया है; ध्यान दें कि प्रत्येक शब्द कुल व्युत्पन्न है, जिसका मूल्यांकन इनपुट पर नेटवर्क (प्रत्येक नोड पर) के मान पर किया जाता है:

जहाँ हैडमार्ड उत्पाद (मैट्रिसेस) है, जो तत्व-वार उत्पाद है।

ये शब्द हैं: लॉस फलन का व्युत्पन्न;[lower-alpha 4] सक्रियण फलनों के डेरिवेटिव;[lower-alpha 5] और भार के आव्यूह:[lower-alpha 6]

प्रवणता इनपुट के संदर्भ में आउटपुट के व्युत्पन्न का स्थानान्तरण है, इसलिए मेट्रिसेस को मैट्रिक्स परिवर्तन किया जाता है और गुणन का क्रम उलट दिया जाता है, किन्तु प्रविष्टियाँ समान होती हैं:

पश्चप्रचार में अनिवार्य रूप से इस अभिव्यक्ति का दाएं से बाएं मूल्यांकन करना सम्मिलित है (समरूप रूप से, बाएं से दाएं व्युत्पन्न के लिए पिछली अभिव्यक्ति को गुणा करना), रास्ते में प्रत्येक परत पर प्रवणता की गणना करना; अतिरिक्त चरण है, क्योंकि भार का प्रवणता केवल उप-अभिव्यक्ति नहीं है: अतिरिक्त गुणन है।

सहायक मात्रा का परिचय आंशिक उत्पादों के लिए (दाएं से बाएं गुणा), स्तर पर त्रुटि के रूप में व्याख्या की गई और स्तर पर इनपुट मानों के ग्रेडिएंट के रूप में परिभाषित किया गया है:

ध्यान दें कि सदिश है, जिसकी लंबाई स्तर में नोड्स की संख्या के बराबर है; प्रत्येक घटक को उस नोड के लिए (के मूल्य) के कारण लागत के रूप में व्याख्या की जाती है।

परत में भार का प्रवणता तब है:

का कारक है क्योंकि भार स्तर और के बीच इनपुट (सक्रियता) के अनुपात में स्तर को प्रभावित करता है: इनपुट निश्चित होते हैं, वजन भिन्न होते हैं आसानी से पुनरावर्ती रूप से गणना की जा सकती है, दाएं से बाएं जा रही है, जैसे:

इस प्रकार प्रत्येक स्तर के लिए कुछ आव्यूह गुणन का उपयोग करके भार के ग्रेडियेंट की गणना की जा सकती है; यह पश्चप्रचार है।

भोले-भाले कंप्यूटिंग फॉरवर्ड की तुलना में ( उदाहरण के लिए):

पश्चप्रचार के साथ दो प्रमुख अंतर हैं:

  1. की गणना डेल्टा के संदर्भ में और उससे आगे की परतों के स्पष्ट डुप्लिकेट गुणन से बचा जाता है।
  2. से गुणा करना - त्रुटि को पीछे की ओर प्रचारित करना - इसका अर्थ है कि प्रत्येक चरण बस एक सदिश () को भार के आव्यूहों और सक्रियण के डेरिवेटिव से गुणा करता है। इसके विपरीत, आगे की ओर गुणा करना, पिछली परत में परिवर्तनों से शुरू करना, इसका अर्थ है कि प्रत्येक गुणन मैट्रिक्स द्वारा मैट्रिक्स को गुणा करता है। यह बहुत अधिक महंगा है, और परत को से गुणा करने के लिए) आगे एक परत में परिवर्तन के हर संभव पथ को ट्रैक करने के अनुरूप है। सक्रियण के डेरिवेटिव के लिए अतिरिक्त गुणन के साथ), जो अनावश्यक रूप से मध्यवर्ती मात्रा की गणना करता है कि कैसे भार परिवर्तन छिपे हुए नोड्स के मूल्यों को प्रभावित करता है।

संलग्न ग्राफ

अधिक सामान्य रेखांकन, और अन्य उन्नत विविधताओं के लिए, पश्चप्रचार को स्वचालित विभेदन के संदर्भ में समझा जा सकता है, जहां पश्चप्रचार रिवर्स संचय (या रिवर्स मोड) का विशेष स्थिति है।[11]


अंतर्ज्ञान

प्रेरणा

किसी भी पर्यवेक्षित शिक्षण एल्गोरिथ्म का लक्ष्य ऐसे फलन को खोजना है जो इनपुट के सेट को उनके सही आउटपुट के लिए सबसे अच्छा मैप करता है। पश्चप्रचार के लिए प्रेरणा बहु-स्तरित तंत्रिका नेटवर्क को प्रशिक्षित करना है, जिससे यह उचित आंतरिक अभ्यावेदन सीख सके जिससे यह इनपुट से आउटपुट के किसी भी स्वैच्छिक मानचित्रण को सीख सके।[21]


अनुकूलन समस्या के रूप में सीखना

पश्चप्रचार एल्गोरिदम की गणितीय व्युत्पत्ति को समझने के लिए, पहले न्यूरॉन के वास्तविक आउटपुट और किसी विशेष प्रशिक्षण उदाहरण के लिए सही आउटपुट के बीच संबंध के बारे में कुछ अंतर्ज्ञान विकसित करने में सहायता मिलती है। दो इनपुट इकाइयों, आउटपुट इकाई और कोई छिपी हुई इकाइयों के साथ साधारण तंत्रिका नेटवर्क पर विचार करें, और जिसमें प्रत्येक न्यूरॉन कृत्रिम न्यूरॉन रैखिक संयोजन (तंत्रिका नेटवर्क पर अधिकांश काम के विपरीत, जिसमें इनपुट से आउटपुट तक मैपिंग गैर-रैखिक है) का उपयोग करता है[lower-alpha 7] यह इसके इनपुट का भारित योग है।

दो इनपुट इकाइयों (प्रत्येक इनपुट के साथ) और आउटपुट इकाई (दो इनपुट के साथ) के साथ साधारण तंत्रिका नेटवर्क

प्रारंभ में, प्रशिक्षण से पहले, भार अव्यवस्थित विधि से निर्धारित किया जाएगा। फिर न्यूरॉन प्रशिक्षण सेट से सीखता है, जिसमें इस स्थिति में टुपल्स का सेट होता है जहाँ और नेटवर्क के लिए इनपुट हैं और t सही आउटपुट है (आउटपुट को उन इनपुटों को देखते हुए उत्पादन करना चाहिए, जब इसे प्रशिक्षित किया गया हो)। प्रारंभिक नेटवर्क, दिया गया और , आउटपुट की गणना करेगा y जो संभवतः इससे भिन्न t (यादृच्छिक भार दिया गया है) है। लॉस फलन लक्ष्य आउटपुट के बीच विसंगति को मापने के लिए t और परिकलित आउटपुट y उपयोग किया जाता है। प्रतिगमन विश्लेषण समस्याओं के लिए स्क्वायर त्रुटि का उपयोग लॉस फलन के रूप में किया जा सकता है, सांख्यिकीय वर्गीकरण के लिए क्रॉस एन्ट्रॉपी का उपयोग किया जा सकता है।

उदाहरण के रूप में लॉस के रूप में वर्ग त्रुटि का उपयोग करके प्रतिगमन समस्या पर विचार करें:

जहाँ E विसंगति या त्रुटि है।

एकल प्रशिक्षण स्थिति: पर नेटवर्क पर विचार करें। इस प्रकार, इनपुट और क्रमशः 1 और 1 हैं और सही आउटपुट, t 0 है। अब यदि नेटवर्क के आउटपुट के बीच संबंध प्लॉट किया जाता है y क्षैतिज अक्ष और त्रुटि पर E ऊर्ध्वाधर अक्ष पर, परिणाम परवलय है। पैराबोला का मैक्सिमा और मिनिमा आउटपुट y से मेल खाता है जो त्रुटि E को कम करता है. एकल प्रशिक्षण स्थिति के लिए, न्यूनतम भी क्षैतिज अक्ष को छूता है, जिसका अर्थ है कि त्रुटि शून्य होगी और नेटवर्क आउटपुट y उत्पन्न कर सकता है जो लक्ष्य आउटपुट t से बिल्कुल मेल खाता है। इसलिए, आउटपुट को मैपिंग इनपुट की समस्या को अनुकूलन समस्या में कम किया जा सकता है एक ऐसा फलन ढूंढना जो न्यूनतम त्रुटि उत्पन्न करेगा।

एकल प्रशिक्षण स्थिति के लिए रेखीय न्यूरॉन की त्रुटि सतह

चूँकि, न्यूरॉन का आउटपुट उसके सभी इनपुट के भारित योग पर निर्भर करता है:

जहाँ और इनपुट यूनिट से आउटपुट यूनिट तक कनेक्शन पर भार हैं। इसलिए, त्रुटि न्यूरॉन के आने वाले भार पर भी निर्भर करती है, जो अंततः सीखने को सक्षम करने के लिए नेटवर्क में बदलने की आवश्यकता होती है।

इस उदाहरण में, प्रशिक्षण डेटा को इंजेक्ट करने पर , लॉस फलन बन जाता है

फिर, लॉस फलन इसके आधार के साथ निर्देशित परवलयिक सिलेंडर का रूप लेता है. भार के सभी सेट जो संतुष्ट करते हैं लॉस फलन को कम करें, इस स्थिति में अद्वितीय समाधान में अभिसरण करने के लिए अतिरिक्त बाधाओं की आवश्यकता होती है। अतिरिक्त बाधाओं को या तो भार के लिए विशिष्ट शर्तों को निर्धारित करके या अतिरिक्त प्रशिक्षण डेटा को इंजेक्ट करके उत्पन्न किया जा सकता है।

त्रुटि को कम करने वाले भार के सेट को खोजने के लिए सामान्यतः उपयोग किया जाने वाला एल्गोरिथ्म ग्रेडिएंट डिसेंट है। पश्चप्रचार द्वारा, सबसे तेज वंश दिशा की गणना वर्तमान अन्तर्ग्रथनी भार बनाम लॉस फलन की की जाती है। फिर, भार को सबसे तेज वंश दिशा के साथ संशोधित किया जा सकता है, और त्रुटि को कुशल विधि से कम किया जाता है।

व्युत्पत्ति

ग्रेडिएंट डिसेंट मेथड में नेटवर्क के वेट के संबंध में लॉस फंक्शन के डेरिवेटिव की गणना करना सम्मिलित है। यह सामान्य रूप से पश्चप्रचार का उपयोग करके किया जाता है। आउटपुट न्यूरॉन मानते हुए,[lower-alpha 8] स्क्वायर त्रुटि फलन है

जहाँ

आउटपुट और लक्ष्य मान के लिए लॉस है,
एक प्रशिक्षण मानक के लिए लक्ष्य आउटपुट है,
आउटपुट न्यूरॉन का वास्तविक आउटपुट है।

प्रत्येक न्यूरॉन के लिए, इसका आउटपुट इस प्रकार परिभाषित किया जाता है

जहां सक्रियण फलन करता है सक्रियण क्षेत्र पर गैर-रैखिक और विभेदक फलन (ReLU बिंदु पर भिन्न नहीं है) है। ऐतिहासिक रूप से उपयोग किया जाने वाला सक्रियण फलन लॉजिस्टिक फलन है:

जिसका सुविधाजनक व्युत्पन्न है:

एक न्यूरॉन के लिए इनपुट पिछले न्यूरॉन्स के आउटपुट का भारित योग है। यदि न्यूरॉन इनपुट परत के बाद पहली परत में है, तो इनपुट परत का केवल नेटवर्क के इनपुट हैं। न्यूरॉन में इनपुट इकाइयों की संख्या है। चर पिछली परत के न्यूरॉन और वर्तमान परत के न्यूरॉन के बीच वजन को दर्शाता है।

त्रुटि का व्युत्पन्न ढूँढना

यहां प्रयुक्त अंकन को दर्शाने के लिए कृत्रिम तंत्रिका नेटवर्क का आरेख

भार के संबंध में त्रुटि के आंशिक व्युत्पन्न की गणना करना दो बार श्रृंखला नियम का उपयोग करके किया जाता है:

 

 

 

 

(Eq. 1)

उपर्युक्त के दाहिनी ओर के अंतिम कारक में योग में केवल एक पद पर निर्भर करता है, जिससे

 

 

 

 

(Eq. 2)

यदि इनपुट परत के बाद पहली परत में न्यूरॉन है, तो केवल है।

न्यूरॉन के आउटपुट का व्युत्पन्न इसके इनपुट के संबंध में केवल सक्रियण फलन का आंशिक व्युत्पन्न है:

 

 

 

 

(Eq. 3)

जो लॉजिस्टिक फलन के लिए

यही कारण है कि पश्चप्रचार के लिए जरूरी है कि एक्टिवेशन फंक्शन डिफरेंशियल फंक्शन हो। (फिर भी, ReLU सक्रियण फलन, जो 0 पर अविभेद्य है, काफी लोकप्रिय हो गया है, उदाहरण के लिए एलेक्सनेट में)

न्यूरॉन आउटपुट लेयर में है या नहीं, इसका मूल्यांकन करने के लिए पहला कारक सीधा है, क्योंकि तब और

 

 

 

 

(Eq. 4)

यदि आधे वर्ग त्रुटि का उपयोग लॉस फलन के रूप में किया जाता है, तो हम इसे फिर से लिख सकते हैं

चूंकि, यदि नेटवर्क की एक स्वैच्छिक आंतरिक परत में है, तो व्युत्पन्न को के संबंध में खोजना कम स्पष्ट है।

मानते हुए सभी न्यूरॉन्स होने वाले इनपुट के साथ फलन के रूप में न्यूरॉन से इनपुट प्राप्त करना,

और के संबंध में कुल व्युत्पन्न लेते हुए, व्युत्पन्न के लिए एक पुनरावर्ती अभिव्यक्ति प्राप्त की जाती है:

 

 

 

 

(Eq. 5)

इसलिए, के संबंध में व्युत्पन्न गणना की जा सकती है यदि आउटपुट के संबंध में सभी डेरिवेटिव अगली परत के - जो आउटपुट न्यूरॉन के निकट हैं - ज्ञात हैं। [ध्यान दें, यदि सेट में कोई भी न्यूरॉन्स न्यूरॉन से जुड़े नहीं थे, वे स्वतंत्र होंगे और समन के अंतर्गत संगत आंशिक अवकलज 0 पर लुप्त हो जाएगा।]

स्थानापन्न Eq. 2, Eq. 3 Eq.4 और Eq. 5 में Eq. 1 हमने प्राप्त:

साथ

यदि लॉजिस्टिक फलन है, और त्रुटि वर्ग त्रुटि है:

भार अपडेट करने के लिए ग्रेडिएंट डिसेंट का उपयोग करते हुए, सीखने की दर का चयन करना चाहिए, . भार में परिवर्तन को में वृद्धि या कमी के प्रभाव को प्रतिबिंबित करने की आवश्यकता है। यदि , में वृद्धि बढ़ती है ; इसके विपरीत, यदि , में वृद्धि कम हो जाती है . नई पुराने भार में जोड़ा जाता है, और सीखने की दर और ग्रेडिएंट के उत्पाद को गुणा किया जाता है इसकी गारंटी देता है तरह से बदलता है जो हमेशा घटता है . दूसरे शब्दों में, तुरंत नीचे समीकरण में, हमेशा बदलता है इस तरह से कि घटा है:


द्वितीय क्रम प्रवणता वंश

त्रुटि फलन के दूसरे-क्रम के डेरिवेटिव के हेसियन आव्यूह का उपयोग करते हुए, लेवेनबर्ग-मार्क्वार्ट एल्गोरिथम अक्सर पहले-क्रम प्रवणता वंश की तुलना में तेजी से अभिसरण करता है, खासकर जब त्रुटि फलन की टोपोलॉजी जटिल होती है।[22][23] यह छोटे नोड काउंट में भी समाधान ढूंढ सकता है जिसके लिए अन्य विधियां अभिसरण नहीं कर सकती हैं।[23]फिशर सूचना आव्यूह द्वारा हेसियन का अनुमान लगाया जा सकता है।[24]


लॉस फलन

लॉस फलन ऐसा फलन है जो या अधिक चर के मानों को वास्तविक संख्या पर मानचित्रित करता है जो उन मूल्यों से जुड़ी कुछ लागतों को सहजता से दर्शाता है। पश्चप्रचार के लिए, प्रशिक्षण उदाहरण नेटवर्क के माध्यम से प्रसारित होने के बाद, लॉस फलन नेटवर्क आउटपुट और उसके अपेक्षित आउटपुट के बीच अंतर की गणना करता है।

अनुमान

लॉस फलन की गणितीय अभिव्यक्ति को दो शर्तों को पूरा करना चाहिए जिससे इसे संभवत: पश्चप्रचार में उपयोग किया जा सके।[25] पहला यह है कि इसे औसत के रूप में लिखा जा सकता है त्रुटि फलनों पर , के लिए व्यक्तिगत प्रशिक्षण उदाहरण, . इस धारणा का कारण यह है कि पश्चप्रचार एल्गोरिथ्म एकल प्रशिक्षण उदाहरण के लिए त्रुटि फलन के ग्रेडिएंट की गणना करता है, जिसे समग्र त्रुटि फलन के लिए सामान्यीकृत करने की आवश्यकता होती है। दूसरी धारणा यह है कि इसे तंत्रिका नेटवर्क से आउटपुट के फलन के रूप में लिखा जा सकता है।

उदाहरण लॉस फलन

मान लीजिये में वैक्टर हो।

त्रुटि फलन का चयन करें दो आउटपुट के बीच अंतर को मापना। मानक विकल्प सदिशों और के बीच यूक्लिडियन दूरी का वर्ग है:

प्रशिक्षण उदाहरणों पर त्रुटि फलन तब व्यक्तिगत उदाहरणों पर नुकसान के औसत के रूप में लिखा जा सकता है:


सीमाएं

ग्रेडियेंट डिसेंट वैश्विक न्यूनतम के अतिरिक्त स्थानीय न्यूनतम पा सकता है।
  • वैश्विक न्यूनतम त्रुटि फलन को खोजने के लिए पश्चप्रचार के साथ ग्रेडिएंट डिसेंट की गारंटी नहीं है, किन्तु केवल एक स्थानीय न्यूनतम है; साथ ही, त्रुटि फलन परिदृश्य में पठारों (गणित) को पार करने में परेशानी होती है। तंत्रिका नेटवर्क में त्रुटि कार्यों की गैर-उत्तलता के कारण होने वाली इस समस्या को लंबे समय से एक बड़ी कमी माना जाता था, लेकिन वाई एन एल ईसीयू के अंदर एट अल तर्क देते हैं कि कई व्यावहारिक समस्याओं में, यह नहीं है।[26]
  • पश्चप्रचार सीखने के लिए इनपुट वैक्टर के सामान्यीकरण की आवश्यकता नहीं होती है; चूँकि, सामान्यीकरण प्रदर्शन में सुधार कर सकता है।[27]
  • पश्चप्रचार के लिए आवश्यक है कि सक्रियण फलनों के डेरिवेटिव को नेटवर्क डिज़ाइन समय पर जाना जाए।

इतिहास


नेस्टेड डिफरेंशियल फंक्शन फंक्शन के असतत कनेक्टेड नेटवर्क के लिए आधुनिक पश्चप्रचार सेप्पो लिन्नैनमा का रिवर्स मोड ऑफ ऑटोमैटिक डिफरेंशियल (1970) है।[5][6][9][10][7][8] यह इस तरह के नेटवर्क के लिए श्रृंखला नियम (1673[3][28] में गॉटफ्रीड विल्हेम लीबनिज द्वारा व्युत्पन्न) का एक कुशल अनुप्रयोग है।[4] शब्दावली पश्च-प्रसार त्रुटि सुधार 1962 में फ्रैंक रोसेनब्लैट द्वारा प्रस्तुत किया गया था,[29][4] किन्तु वह यह नहीं जानता था कि इसे कैसे प्रायुक्त किया जाए, चूंकि हेनरी जे. केली के पास नियंत्रण सिद्धांत के संदर्भ में[4] 1960 में पहले से ही बैकप्रॉपैगेशन का एक निरंतर अग्रदूत था।[13] स्टोचैस्टिक ग्रेडिएंट डिसेंट द्वारा प्रशिक्षित पहला डीप लर्निंग मल्टीलेयर परसेप्ट्रॉन (एमएलपी)[16] 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।[30][4] कंप्यूटर प्रयोगों में, दो परिवर्तनीय परतों के साथ उनके पांच परत एमएलपी ने गैर-रैखिक रूप से अलग-अलग प्रारूप वर्गों को वर्गीकृत करने के लिए आवश्यक ज्ञान प्रतिनिधित्व सीखा था।[4]1982 में, पॉल वर्बोस ने एमएलपी के लिए उस तरह से पश्चप्रचार प्रायुक्त किया जो मानक बन गया है।[31][32][4]

1985 में, डेविड ई. रुमेलहार्ट एट अल। विधि का प्रायोगिक विश्लेषण प्रकाशित किया।[18] इसने पश्चप्रचार को लोकप्रिय बनाने में योगदान दिया और बहुपरत परसेप्ट्रॉन में अनुसंधान की सक्रिय अवधि प्रारंभ करने में सहायता की थी।[21][33][34]

केली (1960)[13]और आर्थर ई. ब्रायसन (1961)[14] विधि के उपर्युक्त निरंतर अग्रदूत को प्राप्त करने के लिए गतिशील प्रोग्रामिंग के सिद्धांतों का उपयोग किया। 1962 में, स्टुअर्ट ड्रेफस ने केवल श्रृंखला नियम पर आधारित सरल व्युत्पत्ति प्रकाशित की।[35][36][37][9][10] 1973 में, उन्होंने त्रुटि ग्रेडिएंट्स के अनुपात में नियंत्रकों के मापदंडों को अनुकूलित किया।[38] लिनेनमा 1970 विधि के विपरीत,[5][7] इन अग्रदूतों ने मानक जैकबियन आव्यूह गणनाओं को चरण से पिछले तक उपयोग किया, न तो कई चरणों में सीधे लिंक को संबोधित किया और न ही नेटवर्क दुर्लभता के कारण संभावित अतिरिक्त दक्षता लाभ।[4]

1985 में, पार्कर द्वारा विधि का भी वर्णन किया गया था।[39][40] यान लेकन ने 1987 में अपनी पीएचडी थीसिस में तंत्रिका नेटवर्क के लिए पश्चप्रचार का वैकल्पिक रूप प्रस्तावित किया। 1993 में, एरिक वान ने पश्चप्रचार के माध्यम से अंतरराष्ट्रीय प्रारूप मान्यता प्रतियोगिता जीती थी।[9][41]

2000 के दशक के समय यह पक्ष से बाहर हो गया[citation needed], किन्तु 2010 के दशक में लौटा, सस्ते, शक्तिशाली जीपीयू-आधारित कंप्यूटिंग सिस्टम से लाभान्वित हुआ। यह विशेष रूप से वाक् पहचान, मशीन दृष्टि, प्राकृतिक भाषा प्रसंस्करण, और भाषा संरचना सीखने के अनुसंधान में ऐसा रहा है (जिसमें पहली[42] और दूसरी भाषा सीखने से संबंधित विभिन्न घटनाओं की व्याख्या करने के लिए इसका इस्तेमाल किया गया है।[43]).

मानव मस्तिष्क घटना से संबंधित संभावित घटकों जैसे N400 (न्यूरोसाइंस) और P600 (न्यूरोसाइंस) की व्याख्या करने के लिए त्रुटि पश्चप्रचार का सुझाव दिया गया है।[44]


यह भी देखें

टिप्पणियाँ

  1. Use for the loss function to allow to be used for the number of layers
  2. This follows Nielsen (2015), and means (left) multiplication by the matrix corresponds to converting output values of layer to input values of layer : columns correspond to input coordinates, rows correspond to output coordinates.
  3. This section largely follows and summarizes Nielsen (2015).
  4. The derivative of the loss function is a covector, since the loss function is a scalar-valued function of several variables.
  5. The activation function is applied to each node separately, so the derivative is just the diagonal matrix of the derivative on each node. This is often represented as the Hadamard product with the vector of derivatives, denoted by , which is mathematically identical but better matches the internal representation of the derivatives as a vector, rather than a diagonal matrix.
  6. Since matrix multiplication is linear, the derivative of multiplying by a matrix is just the matrix: .
  7. One may notice that multi-layer neural networks use non-linear activation functions, so an example with linear neurons seems obscure. However, even though the error surface of multi-layer networks are much more complicated, locally they can be approximated by a paraboloid. Therefore, linear neurons are used for simplicity and easier understanding.
  8. There can be multiple output neurons, in which case the error is the squared norm of the difference vector.


संदर्भ

  1. Goodfellow, Bengio & Courville 2016, p. 200, "Furthermore, back-propagation is often misunderstood as being specific to multi-layer neural networks, but in principle it can compute derivatives of any function"
  2. Graves, Alex; Wayne, Greg; Danihelka, Ivo (2014). "तंत्रिका ट्यूरिंग मशीनें". arXiv:1410.5401 [cs.NE].
  3. 3.0 3.1 Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (in English). Open court publishing Company.
  4. 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
  5. 5.0 5.1 5.2 Linnainmaa, Seppo (1970). स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व (Masters) (in suomi). University of Helsinki. pp. 6–7.
  6. 6.0 6.1 Linnainmaa, Seppo (1976). "संचित गोलाई त्रुटि का टेलर विस्तार". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
  7. 7.0 7.1 7.2 Griewank, Andreas (2012). "Who Invented the Reverse Mode of Differentiation?". अनुकूलन कहानियां. Documenta Matematica, Extra Volume ISMP. pp. 389–400. S2CID 15568746.
  8. 8.0 8.1 Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN 978-0-89871-776-1.
  9. 9.0 9.1 9.2 9.3 Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
  10. 10.0 10.1 10.2 Schmidhuber, Jürgen (2015). "ध्यान लगा के पढ़ना या सीखना". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
  11. 11.0 11.1 Goodfellow, Bengio & Courville (2016, p. 217–218), "The back-propagation algorithm described here is only one approach to automatic differentiation. It is a special case of a broader class of techniques called reverse mode accumulation."
  12. Rosenblatt, Frank (1962). Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms Cornell Aeronautical Laboratory. Report no. VG-1196-G-8 Report (Cornell Aeronautical Laboratory). Spartan. pp. Page XIII Table of contents, Page 292 "13.3 Back-Propagating Error Correction Procedures", Page 301 "figure 39 BACK-PROPAGATING ERROR-CORRECTION EXPERIMENTS".
  13. 13.0 13.1 13.2 13.3 Kelley, Henry J. (1960). "इष्टतम उड़ान पथों का क्रमिक सिद्धांत". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
  14. 14.0 14.1 Bryson, Arthur E. (1962). "A gradient method for optimizing multi-stage allocation processes". Proceedings of the Harvard Univ. Symposium on digital computers and their applications, 3–6 April 1961. Cambridge: Harvard University Press. OCLC 498866871.
  15. Goodfellow, Bengio & Courville 2016, p. 214, "This table-filling strategy is sometimes called dynamic programming."
  16. 16.0 16.1 Robbins, H.; Monro, S. (1951). "एक स्टोकेस्टिक सन्निकटन विधि". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
  17. Goodfellow, Bengio & Courville 2016, p. 200, "The term back-propagation is often misunderstood as meaning the whole learning algorithm for multilayer neural networks. Backpropagation refers only to the method for computing the gradient, while other algorithms, such as stochastic gradient descent, is used to perform learning using this gradient."
  18. 18.0 18.1 Rumelhart; Hinton; Williams (1986). "बैक-प्रोपेगेटिंग एरर द्वारा अभ्यावेदन सीखना" (PDF). Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.
  19. Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (2017-10-27). "सक्रियण कार्यों की खोज". arXiv:1710.05941 [cs.NE].
  20. Misra, Diganta (2019-08-23). "Mish: A Self Regularized Non-Monotonic Activation Function" (in English). arXiv:1908.08681 [cs.LG].
  21. 21.0 21.1 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). "बैक-प्रोपेगेटिंग एरर द्वारा अभ्यावेदन सीखना". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.
  22. Tan, Hong Hui; Lim, King Han (2019). "कृत्रिम तंत्रिका नेटवर्क बैकप्रोपैगेशन में दूसरे क्रम की अनुकूलन तकनीकों की समीक्षा". IOP Conference Series: Materials Science and Engineering. 495 (1): 012003. Bibcode:2019MS&E..495a2003T. doi:10.1088/1757-899X/495/1/012003. S2CID 208124487.
  23. 23.0 23.1 Wiliamowski, Bogdan; Yu, Hao (June 2010). "Improved Computation for Levenberg–Marquardt Training" (PDF). IEEE Transactions on Neural Networks and Learning Systems. 21 (6).
  24. Martens, James (August 2020). "प्राकृतिक ढाल पद्धति पर नई अंतर्दृष्टि और दृष्टिकोण". Journal of Machine Learning Research (21). arXiv:1412.1193.
  25. Nielsen (2015), "[W]hat assumptions do we need to make about our cost function ... in order that backpropagation can be applied? The first assumption we need is that the cost function can be written as an average ... over cost functions ... for individual training examples ... The second assumption we make about the cost is that it can be written as a function of the outputs from the neural network ..."
  26. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "ध्यान लगा के पढ़ना या सीखना". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
  27. Buckland, Matt; Collins, Mark (2002). गेम प्रोग्रामिंग के लिए एआई तकनीक. Boston: Premier Press. ISBN 1-931841-08-X.
  28. Rodríguez, Omar Hernández; López Fernández, Jorge M. (2010). "श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब". The Mathematics Enthusiast. 7 (2): 321–332. doi:10.54870/1551-3440.1191. S2CID 29739148. Retrieved 2019-08-04.
  29. Rosenblatt, Frank (1962). न्यूरोडायनामिक्स के सिद्धांत. Spartan, New York.
  30. Amari, Shun'ichi (1967). "अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत". IEEE Transactions. EC (16): 279–307.
  31. Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). सिस्टम मॉडलिंग और अनुकूलन. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
  32. Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6.
  33. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986b). "8. Learning Internal Representations by Error Propagation". In Rumelhart, David E.; McClelland, James L. (eds.). Parallel Distributed Processing : Explorations in the Microstructure of Cognition. Vol. 1 : Foundations. Cambridge: MIT Press. ISBN 0-262-18120-7.
  34. Alpaydin, Ethem (2010). मशीन लर्निंग का परिचय. MIT Press. ISBN 978-0-262-01243-0.
  35. Dreyfus, Stuart (1962). "परिवर्तनशील समस्याओं का संख्यात्मक समाधान". Journal of Mathematical Analysis and Applications. 5 (1): 30–45. doi:10.1016/0022-247x(62)90004-5.
  36. Dreyfus, Stuart E. (1990). "कृत्रिम तंत्रिका नेटवर्क, पश्च प्रसार, और केली-ब्रायसन ग्रेडिएंट प्रक्रिया". Journal of Guidance, Control, and Dynamics. 13 (5): 926–928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422.
  37. Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July 2000). "केली-ब्रायसन ऑप्टिमल-कंट्रोल ग्रेडिएंट फॉर्मूला और उसके अनुप्रयोग से एमएलपी बैकप्रॉपैगेशन की व्युत्पत्ति पर" (PDF). Proceedings of the IEEE International Joint Conference on Neural Networks.
  38. Dreyfus, Stuart (1973). "समय अंतराल के साथ इष्टतम नियंत्रण समस्याओं का कम्प्यूटेशनल समाधान". IEEE Transactions on Automatic Control. 18 (4): 383–385. doi:10.1109/tac.1973.1100330.
  39. Parker, D.B. (1985). "तर्क सीखना". Center for Computational Research in Economics and Management Science. Cambridge MA: Massachusetts Institute of Technology. {{cite journal}}: Cite journal requires |journal= (help)
  40. Hertz, John (1991). तंत्रिका संगणना के सिद्धांत का परिचय. Krogh, Anders., Palmer, Richard G. Redwood City, Calif.: Addison-Wesley. p. 8. ISBN 0-201-50395-6. OCLC 21522159.
  41. Wan, Eric A. (1994). "Time Series Prediction by Using a Connectionist Network with Internal Delay Lines". In Weigend, Andreas S.; Gershenfeld, Neil A. (eds.). Time Series Prediction : Forecasting the Future and Understanding the Past. Proceedings of the NATO Advanced Research Workshop on Comparative Time Series Analysis. Vol. 15. Reading: Addison-Wesley. pp. 195–217. ISBN 0-201-62601-2. S2CID 12652643.
  42. Chang, Franklin; Dell, Gary S.; Bock, Kathryn (2006). "वाक्यात्मक बनना।". Psychological Review. 113 (2): 234–272. doi:10.1037/0033-295x.113.2.234. PMID 16637761.
  43. Janciauskas, Marius; Chang, Franklin (2018). "Input and Age-Dependent Variation in Second Language Learning: A Connectionist Account". Cognitive Science. 42 (Suppl Suppl 2): 519–554. doi:10.1111/cogs.12519. PMC 6001481. PMID 28744901.
  44. Fitz, Hartmut; Chang, Franklin (2019). "भाषा ईआरपी भविष्यवाणी त्रुटि प्रसार के माध्यम से सीखने को दर्शाता है". Cognitive Psychology (in English). 111: 15–52. doi:10.1016/j.cogpsych.2019.03.002. hdl:21.11116/0000-0003-474D-8. PMID 30921626. S2CID 85501792.


अग्रिम पठन


बाहरी संबंध