बहुपरत परसेप्ट्रॉन

बहुपरत परसेप्ट्रॉन (एमएलपी) फीडफॉरवर्ड न्यूरल नेटवर्क कृत्रिम तंत्रिका नेटवर्क (एएनएन) का पूरी तरह से जुड़ा हुआ वर्ग है। एमएलपी शब्द का प्रयोग अस्पष्ट रूप से किया जाता है, कभी-कभी शिथिल रूप से किसी भी फीडफॉरवर्ड एएनएन का अर्थ होता है, कभी-कभी कड़ाई से परसेप्ट्रॉन की कई परतों से बने नेटवर्क को संदर्भित करने के लिए (प्रवेशद्वार सक्रियण के साथ); देखना । बहुपरत परसेप्ट्रॉन को कभी-कभी बोलचाल की भाषा में "वेनिला" तंत्रिका नेटवर्क के रूप में संदर्भित किया जाता है, विशेष रूप से जब उनके पास एक ही छिपी हुई परत होती है।

एमएलपी में नोड की कम से कम तीन परत होती हैं: निविष्ट परत, छिपी हुई परत और उत्पादन परत । निविष्ट नोड को छोड़कर प्रत्येक नोड न्यूरॉन है, जो गैर-रैखिक सक्रियण फलन का उपयोग करता है। एमएलपी श्रृंखला नियम का उपयोग करता है आधारित पर्यवेक्षित शिक्षण प्रविधि जिसे प्रशिक्षण के लिए पश्च प्रसारण या स्वचालित भेदभाव का उत्क्रम प्रणाली कहा जाता है। इसकी कई परतें और गैर-रैखिक सक्रियण एमएलपी को रेखीय परसेप्ट्रॉन से अलग करते हैं। यह ऐसे डेटा को अलग कर सकता है जो रैखिक रैखिक रूप से वियोज्य नहीं है।

सक्रियण फलन
यदि बहुपरत परसेप्ट्रॉन में सभी न्यूरॉन्स का रेखीय सक्रियण कार्य होता है, अर्थात, रेखीय कार्य जो भारित निविष्ट को प्रत्येक न्यूरॉन के उत्पादन में मैप करता है, तो रैखिक बीजगणित से पता चलता है कि किसी भी संख्या में परतों को दो-परत निविष्ट में घटाया जा सकता है- उत्पादन मॉडल। एमएलपी में कुछ न्यूरॉन गैर-रैखिक सक्रियण फलन का उपयोग करते हैं जिसे जैविक न्यूरॉन्स की संभावित कार्रवाई, या फायरिंग की आवृत्ति को मॉडल करने के लिए विकसित किया गया था।

दो ऐतिहासिक रूप से सामान्य सक्रियण कार्य दोनों अवग्रह हैं, और इनके द्वारा वर्णित हैं


 * $$y(v_i) = \tanh(v_i) \textrm{and}  y(v_i) = (1+e^{-v_i})^{-1}$$.

पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा तार्किक कार्य है, जो आकार में समान है किन्तु 0 से 1 तक है। यहां $$y_i$$ का उत्पादन है $$i$$वें नोड (न्यूरॉन) और $$v_i$$ निविष्ट संयोजन का भारित योग है। संशोधक (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य सम्मलित हैं (पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का अन्य वर्ग, रेडियल आधार नेटवर्क में उपयोग किया जाता है )।

गहन विद्वता के हालिया विकास में अवग्रह से संबंधित संख्यात्मक समस्याओं को दूर करने के संभावित विधियों के रूप में संशोधित रैखिक इकाई (ReLU) का अधिक बार उपयोग किया जाता है।

परतें
एमएलपी में तीन या अधिक परतें ( निविष्ट और या अधिक छिपी हुई परतों के साथ उत्पादन परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं, अगली परत में हर नोड के लिए $$w_{ij}$$ परत में प्रत्येक नोड निश्चित भार से जुड़ता है।

सीखना
अपेक्षित परिणाम की तुलना में उत्पादन में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद भारित संयोजन को बदलकर परसेप्ट्रॉन में सीखना होता है। यह पर्यवेक्षित सीखने का उदाहरण है, और इसे बैकप्रोपैजेशन के माध्यम से किया जाता है, रैखिक परसेप्ट्रॉन में कम से कम औसत वर्ग फ़िल्टर का सामान्यीकरण।

हम उत्पादन नोड में त्रुटि की डिग्री $$j$$ का प्रतिनिधित्व कर सकते हैं $$n$$वें डेटा बिंदु में (प्रशिक्षण उदाहरण) द्वारा $$e_j(n)=d_j(n)-y_j(n)$$, जहाँ $$d_j(n)$$ के लिए वांछित लक्ष्य मान है $$j$$ नोड पर $$n$$वें डेटा बिंदु और $$y_j(n)$$ नोड पर परसेप्ट्रॉन द्वारा उत्पादित मूल्य है $$j$$ जब $$n$$वें डेटा बिंदु को निविष्ट के रूप में दिया जाता है।

नोड भार तब सुधार के आधार पर समायोजित किया जा सकता है जो पूरे उत्पादन में त्रुटि को कम करता है $$n$$वें डेटा बिंदु, द्वारा दिया गया


 * $$\mathcal{E}(n)=\frac{1}{2}\sum_{\text{output node }j} e_j^2(n)$$.

प्रवणता अवरोहण का उपयोग करना, प्रत्येक भार में परिवर्तन $$w_{ij}$$ है


 * $$\Delta w_{ji} (n) = -\eta\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} y_i(n)$$

जहाँ $$y_i(n)$$ पिछले न्यूरॉन का उत्पादन है $$i$$, और $$\eta$$ सीखने की दर है, जिसे यह सुनिश्चित करने के लिए चुना जाता है कि भार रहित किसी दोलन के प्रतिक्रिया में जल्दी से परिवर्तित हो जाए। पिछले अभिव्यक्ति में, $$\frac{\partial\mathcal{E}(n)}{\partial v_j(n)}$$ न्यूरॉन $$i$$ के निविष्ट संयोजन की भारित योग $$\mathcal{E}(n)$$ केअनुसार त्रुटि $$v_j(n)$$ के आंशिक व्युत्पन्न को दर्शाता है

गणना की जाने वाली व्युत्पत्ति प्रेरित स्थानीय क्षेत्र $$v_j$$ पर निर्भर करती है, जो स्वयं भिन्न होता है। यह सिद्ध करना सरल है कि उत्पादन नोड के लिए इस व्युत्पन्न को सरल बनाया जा सकता है


 * $$-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = e_j(n)\phi^\prime (v_j(n))$$

जहाँ $$\phi^\prime$$ ऊपर वर्णित सक्रियण फलन का व्युत्पन्न है, जो स्वयं भिन्न नहीं होता है। भार में छिपे हुए नोड में परिवर्तन के लिए विश्लेषण अधिक कठिन है, किन्तु यह दिखाया जा सकता है कि प्रासंगिक व्युत्पन्न है


 * $$-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = \phi^\prime (v_j(n))\sum_k -\frac{\partial\mathcal{E}(n)}{\partial v_k(n)} w_{kj}(n)$$.

यह भार में बदलाव पर निर्भर करता है $$k$$वें नोड, जो उत्पादन परत का प्रतिनिधित्व करते हैं। इसलिए छिपी हुई परत भार को बदलने के लिए,सक्रियण फलन के व्युत्पन्न के अनुसार भारित उत्पादन परत में बदलाव होता है और इसलिए यह कलन विधि सक्रियण फलन के पश्च प्रसारण का प्रतिनिधित्व करता है।

शब्दावली
बहुपरत परसेप्ट्रॉन शब्द ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। जबकि, इसमें कई परसेप्ट्रॉन होते हैं जो परतों में व्यवस्थित होते हैं। विकल्प बहुपरत परसेप्ट्रॉन नेटवर्क है। इसके अतिरिक्त, एमएलपी परसेप्ट्रॉन सख्त संभव अर्थों में परसेप्ट्रॉन नहीं हैं। सही परसेप्ट्रॉन औपचारिक रूप से कृत्रिम न्यूरॉन्स का विशेष अवस्था है जो सीमा सक्रियण फलन जैसे हैवीसाइड स्टेप फलन का उपयोग करता है। एमएलपी परसेप्ट्रॉन निरंकुश ढंग से सक्रियण कार्यों को नियोजित कर सकते हैं। सच्चा परसेप्ट्रॉन द्विआधारी वर्गीकरण करता है, एमएलपी न्यूरॉन अपने सक्रियण कार्य के आधार पर या तो वर्गीकरण या प्रतिगमन करने के लिए स्वतंत्र है।

बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड / परतों की प्रकृति के संबंध में लागू किया गया था, जो निरंकुश ढंग से परिभाषित कृत्रिम न्यूरॉन्स से बना हो सकता है, न कि विशेष रूप से परसेप्ट्रॉन से। यह व्याख्या सामान्य रूप से कृत्रिम न्यूरॉन के अर्थ के लिए परसेप्ट्रॉन की परिभाषा को ढीला करने से बचाती है।

इतिहास
फ्रैंक रोसेनब्लैट, जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था, 3 परतों के साथ एमएलपी भी प्रस्तुत किया: निविष्ट परत, छिपी हुई परत जिसमें यादृच्छिक भार होते हैं जो सीखते नहीं थे और उत्पादन परत। चूँकि केवल उत्पादन परत में सीखना संयोजन था, यह अभी तक सीखना संयोजन नहीं था। इसे बाद में अत्यधिक सीखने की मशीन कहा जाने लगा।

डेटा प्रबंधन की समूह विधि के रूप में 1965 में एलेक्सी ग्रिगोरविच इवाखेंको और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।

प्रसंभात्य प्रवणता अवरोहण द्वारा प्रशिक्षित पहला सीखना संयोजन एमएलपी 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था। अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक आंतरिक अभ्यावेदन सीखने वाली दो परिवर्तनीय परतों के साथ एक पांच परत एमएलपी हैं।

1970 में, सेप्पो लिनैनमा ने नेस्टेड विभेदक कार्य फलन के असतत संयोजित नेटवर्क के स्वत: विभेदन के लिए सामान्य विधि प्रकाशित की। इसे पश्च प्रसारण स्वत: भेदभाव के उत्क्रम प्रणाली के रूप में जाना जाने लगा। यह 1673 में गॉटफ्रीड विल्हेम लीबनिज द्वारा प्राप्त श्रृंखला नियम का कुशल अनुप्रयोग है, अलग-अलग नोड के नेटवर्क के लिए। शब्दावली पश्च प्रसारण त्रुटि वास्तव में 1962 में वह स्वयं रोसेनब्लैट द्वारा प्रस्तुत की गई थी, किन्तु उसे नहीं पता था कि इसे कैसे लागू किया जाए, चूंकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था पहले से ही 1960 में नियंत्रण सिद्धांत के संदर्भ में। 1982 में, पॉल वर्बोस ने एमएलपी के लिए उस तरह से पश्चप्रचार लागू किया जो मानक बन गया है। 1985 में, डेविड ई. रुमेलहार्ट एट अल प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया। बाद के दशकों में कई सुधार लागू किए गए हैं।

2021 के अंत तक, स्किप संयोजन और परत सामान्यीकरण के साथ दो एमएलपी को मिलाकर बहुत ही सरल एनएन आर्किटेक्चर को रचना किया गया और एमएलपी-मिश्रण कहा गया। 19 से 431 मिलियन मापदंडों की विशेषता वाली इसकी प्राप्तियों को इमेज नेट और समान छवि वर्गीकरण कार्यों के समान आकार के दृश्य परिवर्तक के बराबर दिखाया गया था।

अनुप्रयोग
एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो अधिकांशतः उपयुक्तता सन्निकटन जैसी अत्यंत कम्प्यूटेशनल जटिलता सिद्धांत समस्याओं के लिए अनुमानित समाधान की अनुमति देता है।

एमएलपी सार्वभौमिक फलन सन्निकटन हैं जैसा कि सार्वभौमिक सन्निकटन प्रमेय द्वारा दिखाया गया है। साइबेंको की प्रमेय, इसलिए उनका उपयोग प्रतिगमन विश्लेषण द्वारा गणितीय मॉडल बनाने के लिए किया जा सकता है। जैसा कि सांख्यिकीय वर्गीकरण प्रतिगमन विश्लेषण का विशेष अवस्था है जब प्रतिक्रिया चर श्रेणीबद्ध चर होता है, एमएलपी अच्छे वर्गीकरणकर्ता एल्गोरिदम बनाते हैं।

एमएलपी 1980 के दशक में लोकप्रिय यंत्र अधिगम समाधान थे, जो वाक् पहचान, छवि पहचान और मशीन अनुवाद सॉफ़्टवेयर जैसे विविध क्षेत्रों में अनुप्रयोग खोजते थे। किन्तु उसके बाद बहुत सरल और संबंधित कड़ी से प्रतिस्पर्धा का सामना करना पड़ा समर्थन वेक्टर यंत्र अधिगम संयोजन की सफलताओं के कारण पश्च प्रसारण नेटवर्क में रुचि लौट आई।

बाहरी संबंध

 * Weka: Open source data mining software with multilayer perceptron implementation.
 * Neuroph Studio documentation, implements this algorithm and a few others.

Perzeptron