परसेप्ट्रॉन

यंत्र अधिगम में, परसेप्ट्रॉन (या मैककुलोच-पिट्स न्यूरॉन) बाइनरी वर्गीकरण के पर्यवेक्षित वर्गीकरण के लिए एक एल्गोरिदम है। द्विआधारी वर्गीकरण एक फ़ंक्शन है जो यह तय कर सकता है कि संख्याओं के वेक्टर द्वारा दर्शाया गया इनपुट किसी विशिष्ट वर्ग से संबंधित है या नहीं।^[1] यह एक प्रकार का रैखिक वर्गीकारक ियर है, यानी एक वर्गीकरण एल्गोरिदम जो फ़ीचर वेक्टर के साथ भार के एक सेट को मिलाकर एक रैखिक भविष्यवक्ता फ़ंक्शन के आधार पर अपनी भविष्यवाणियां करता है।

इतिहास

File:Mark I perceptron.jpeg

मार्क I परसेप्ट्रॉन मशीन, परसेप्ट्रॉन एल्गोरिदम का पहला कार्यान्वयन। 400-पिक्सेल छवि बनाने के लिए इसे 20×20 कैडमियम सल्फाइड फोटो सेल वाले कैमरे से जोड़ा गया था। मुख्य दृश्यमान विशेषता एक पैच पैनल है जो इनपुट सुविधाओं के विभिन्न संयोजन सेट करता है। दाईं ओर, तनाव नापने का यंत्र की सरणियाँ जो अनुकूली भार लागू करती हैं।^[2]^: 213

परसेप्ट्रॉन का आविष्कार 1943 में वॉरेन मैकुलोच और वाल्टर पिट्स द्वारा किया गया था।^[3] पहला कार्यान्वयन 1958 में कॉर्नेल एयरोनॉटिकल प्रयोगशाला में फ्रैंक रोसेनब्लैट द्वारा निर्मित एक मशीन थी,^[4] संयुक्त राज्य नौसेना अनुसंधान कार्यालय द्वारा वित्त पोषित।^[5]

File:330-PSA-80-60 (USN 710739) (20897323365).jpg

मार्क 1 परसेप्ट्रॉन का कैमरा सिस्टम।

परसेप्ट्रॉन का उद्देश्य एक प्रोग्राम के बजाय एक मशीन होना था, और जबकि इसका पहला कार्यान्वयन आईबीएम 704 के लिए सॉफ्टवेयर में था, बाद में इसे मार्क 1 परसेप्ट्रॉन के रूप में कस्टम-निर्मित हार्डवेयर में लागू किया गया था। इस मशीन को छवि पहचान के लिए डिज़ाइन किया गया था: इसमें 400 फोटोकल्स की एक श्रृंखला थी, जो बेतरतीब ढंग से न्यूरॉन्स से जुड़ी हुई थी। वज़न को पोटेंशियोमीटर में एन्कोड किया गया था, और सीखने के दौरान वज़न अपडेट इलेक्ट्रिक मोटर द्वारा किया गया था।^[2]^: 193

1958 में अमेरिकी नौसेना द्वारा आयोजित एक प्रेस कॉन्फ्रेंस में, रोसेनब्लैट ने परसेप्ट्रॉन के बारे में बयान दिया जिससे नवोदित कृत्रिम बुद्धिमत्ता समुदाय के बीच एक गर्म विवाद पैदा हो गया; रोसेनब्लैट के बयानों के आधार पर, न्यूयॉर्क टाइम्स ने परसेप्ट्रॉन को एक इलेक्ट्रॉनिक कंप्यूटर का भ्रूण बताया, जिससे [नौसेना] को उम्मीद है कि वह चलने, बात करने, देखने, लिखने, खुद को पुन: उत्पन्न करने और अपने अस्तित्व के प्रति सचेत रहने में सक्षम होगा।^[5]

हालाँकि परसेप्ट्रोन शुरू में आशाजनक लग रहा था, यह जल्दी ही साबित हो गया कि परसेप्ट्रोन को पैटर्न के कई वर्गों को पहचानने के लिए प्रशिक्षित नहीं किया जा सकता है। इसके कारण तंत्रिका नेटवर्क अनुसंधान का क्षेत्र कई वर्षों तक स्थिर रहा, इससे पहले यह माना जाता था कि दो या दो से अधिक परतों वाले एक फीडफॉरवर्ड न्यूरल नेटवर्क (जिसे मल्टीलेयर परसेप्ट्रॉन भी कहा जाता है) में एक परत वाले परसेप्ट्रोन की तुलना में अधिक प्रसंस्करण शक्ति होती है (जिसे फीडफॉरवर्ड न्यूरल भी कहा जाता है) नेटवर्क#सिंगल-लेयर परसेप्ट्रॉन|सिंगल-लेयर परसेप्ट्रॉन)।

सिंगल-लेयर परसेप्ट्रॉन केवल रैखिक रूप से अलग किए जाने योग्य पैटर्न सीखने में सक्षम हैं।^[6] कुछ चरण सक्रियण फ़ंक्शन के साथ वर्गीकरण कार्य के लिए, एक एकल नोड में पैटर्न बनाने वाले डेटा बिंदुओं को विभाजित करने वाली एक एकल रेखा होगी। अधिक नोड्स अधिक विभाजन रेखाएँ बना सकते हैं, लेकिन अधिक जटिल वर्गीकरण बनाने के लिए उन रेखाओं को किसी तरह संयोजित किया जाना चाहिए। परसेप्ट्रॉन की दूसरी परत, या यहां तक कि रैखिक नोड्स, कई अन्यथा गैर-वियोज्य समस्याओं को हल करने के लिए पर्याप्त हैं।

1969 में, मार्विन मिंस्की और सेमुर पैपर्ट की पर्सेप्ट्रॉन (पुस्तक) नामक एक प्रसिद्ध पुस्तक से पता चला कि नेटवर्क के इन वर्गों के लिए XOR फ़ंक्शन सीखना असंभव था। यह अक्सर माना जाता है (गलत तरीके से) कि उन्होंने यह भी अनुमान लगाया था कि एक समान परिणाम मल्टी-लेयर परसेप्ट्रॉन नेटवर्क के लिए होगा। हालाँकि, यह सच नहीं है, क्योंकि मिन्स्की और पैपर्ट दोनों पहले से ही जानते थे कि मल्टी-लेयर परसेप्ट्रॉन XOR फ़ंक्शन का उत्पादन करने में सक्षम थे। (अधिक जानकारी के लिए परसेप्ट्रॉन (पुस्तक) पर पेज देखें।) फिर भी, अक्सर गलत तरीके से प्रचारित किए जाने वाले मिन्स्की/पेपर पाठ ने तंत्रिका नेटवर्क अनुसंधान की रुचि और वित्त पोषण में महत्वपूर्ण गिरावट का कारण बना। 1980 के दशक में तंत्रिका नेटवर्क अनुसंधान के पुनरुत्थान का अनुभव होने में दस साल और लग गए।^[6] इस पाठ को 1987 में परसेप्ट्रॉन - विस्तारित संस्करण के रूप में पुनर्मुद्रित किया गया था जहां मूल पाठ में कुछ त्रुटियां दिखाई गई हैं और उन्हें ठीक किया गया है।

2022 के एक लेख में कहा गया है कि मार्क 1 परसेप्ट्रॉन इस एल्गोरिदम को फोटो-दुभाषियों के लिए एक उपयोगी उपकरण के रूप में विकसित करने के लिए 1963 से 1966 तक पहले गुप्त चार-वर्षीय एनपीआईसी [यूएस 'राष्ट्रीय फोटोग्राफिक व्याख्या केंद्र ] प्रयास का हिस्सा था।^[7] कर्नेल परसेप्ट्रॉन एल्गोरिदम पहले से ही 1964 में एज़रमैन एट अल द्वारा पेश किया गया था।^[8] सामान्य गैर-वियोज्य मामले में परसेप्ट्रॉन एल्गोरिदम के लिए मार्जिन सीमा की गारंटी सबसे पहले योव दोस्त और रॉबर्ट शापिरे (1998) द्वारा दी गई थी।^[1] और हाल ही में मेहरयर मोहरी और रोस्तामिज़ादेह (2013) द्वारा जो पिछले परिणामों को बढ़ाते हैं और नई एल1 सीमाएं देते हैं।^[9] परसेप्ट्रॉन एक जैविक न्यूरॉन का एक सरलीकृत मॉडल है। जबकि तंत्रिका संबंधी व्यवहार को पूरी तरह से समझने के लिए अक्सर जैविक न्यूरॉन मॉडल की जटिलता की आवश्यकता होती है, शोध से पता चलता है कि एक परसेप्ट्रॉन जैसा रैखिक मॉडल वास्तविक न्यूरॉन्स में देखे गए कुछ व्यवहार उत्पन्न कर सकता है।^[10]

परिभाषा

आधुनिक अर्थों में, परसेप्ट्रॉन एक बाइनरी क्लासिफायरियर सीखने के लिए एक एल्गोरिदम है जिसे लीनियर क्लासिफायर#डेफिनिशन कहा जाता है: एक फ़ंक्शन जो इसके इनपुट को मैप करता है $\mathbf {x}$ (एक वास्तविक-मूल्यवान सदिश स्थल) एक आउटपुट मान के लिए $f(\mathbf {x} )$ (एकल बाइनरी फ़ंक्शन मान):

f(\mathbf {x} )={\begin{cases}1&{\text{if }}\ \mathbf {w} \cdot \mathbf {x} +b>0,\\0&{\text{otherwise}}\end{cases}}

कहाँ $\mathbf {w}$ वास्तविक-मूल्यवान भार का एक वेक्टर है, $\mathbf {w} \cdot \mathbf {x}$ डॉट उत्पाद है $\sum _{i=1}^{m}w_{i}x_{i}$ , कहाँ $m$ परसेप्ट्रॉन में इनपुट की संख्या है, और $b$ पूर्वाग्रह है. पूर्वाग्रह निर्णय सीमा को मूल से दूर ले जाता है और किसी भी इनपुट मूल्य पर निर्भर नहीं करता है।

का मान है $f(\mathbf {x} )$ (0 या 1) का प्रयोग वर्गीकृत करने के लिए किया जाता है $\mathbf {x}$ बाइनरी वर्गीकरण समस्या के मामले में, सकारात्मक या नकारात्मक उदाहरण के रूप में। अगर $b$ नकारात्मक है, तो इनपुट के भारित संयोजन से अधिक सकारात्मक मान उत्पन्न होना चाहिए $|b|$ क्लासिफायरियर न्यूरॉन को 0 सीमा से ऊपर धकेलने के लिए। स्थानिक रूप से, पूर्वाग्रह निर्णय सीमा की स्थिति (हालांकि अभिविन्यास नहीं) को बदल देता है। यदि लर्निंग सेट रैखिक रूप से अलग करने योग्य नहीं है तो परसेप्ट्रॉन लर्निंग एल्गोरिदम समाप्त नहीं होता है। यदि वेक्टर रैखिक रूप से अलग-अलग नहीं हैं तो सीखना कभी भी उस बिंदु तक नहीं पहुंचेगा जहां सभी वैक्टर को ठीक से वर्गीकृत किया जाएगा। रैखिक रूप से अविभाज्य वैक्टर के साथ समस्याओं को हल करने में परसेप्ट्रॉन की असमर्थता का सबसे प्रसिद्ध उदाहरण बूलियन एकमात्र समस्या है। संदर्भ में सभी द्विआधारी कार्यों और सीखने के व्यवहारों के लिए निर्णय सीमाओं के समाधान स्थानों का अध्ययन किया जाता है।^[11] तंत्रिका नेटवर्क के संदर्भ में, एक परसेप्ट्रॉन एक कृत्रिम न्यूरॉन है जो सक्रियण फ़ंक्शन के रूप में हेविसाइड स्टेप फ़ंक्शन का उपयोग करता है। परसेप्ट्रॉन एल्गोरिथ्म को मल्टीलेयर परसेप्ट्रॉन से अलग करने के लिए सिंगल-लेयर परसेप्ट्रॉन भी कहा जाता है, जो कि अधिक जटिल तंत्रिका नेटवर्क के लिए एक मिथ्या नाम है। एक रैखिक क्लासिफायरियर के रूप में, सिंगल-लेयर परसेप्ट्रॉन सबसे सरल फीडफॉरवर्ड न्यूरल नेटवर्क है।

लर्निंग एल्गोरिदम

नीचे सिंगल-लेयर परसेप्ट्रॉन के लिए सीखने के एल्गोरिदम का एक उदाहरण दिया गया है। मल्टीलेयर परसेप्ट्रॉन के लिए, जहां एक छिपी हुई परत मौजूद होती है, पश्चप्रचार जैसे अधिक परिष्कृत एल्गोरिदम का उपयोग किया जाना चाहिए। यदि सक्रियण फ़ंक्शन या परसेप्ट्रॉन द्वारा मॉडलिंग की जा रही अंतर्निहित प्रक्रिया नॉनलाइनियर_सिस्टम है, तो वैकल्पिक शिक्षण एल्गोरिदम जैसे डेल्टा नियम का उपयोग तब तक किया जा सकता है जब तक सक्रियण फ़ंक्शन डिफरेंशियल_फ़ंक्शन है। फिर भी, नीचे दिए गए चरणों में वर्णित शिक्षण एल्गोरिदम अक्सर काम करेगा, यहां तक कि गैर-रेखीय सक्रियण कार्यों वाले बहुपरत परसेप्ट्रोन के लिए भी।

जब कई परसेप्ट्रॉन एक कृत्रिम तंत्रिका नेटवर्क में संयुक्त होते हैं, तो प्रत्येक आउटपुट न्यूरॉन अन्य सभी से स्वतंत्र रूप से संचालित होता है; इस प्रकार, प्रत्येक आउटपुट को सीखने पर अलगाव में विचार किया जा सकता है।

परिभाषाएँ

हम पहले कुछ चर परिभाषित करते हैं:

आर परसेप्ट्रॉन की सीखने की दर है। सीखने की दर 0 और 1 के बीच है। बड़े मान वजन परिवर्तन को अधिक अस्थिर बनाते हैं।
$y=f(\mathbf {z} )$ इनपुट वेक्टर के लिए परसेप्ट्रॉन से आउटपुट को दर्शाता है $\mathbf {z}$ .
$D=\{(\mathbf {x} _{1},d_{1}),\dots ,(\mathbf {x} _{s},d_{s})\}$ $D=\{(\mathbf {x} _{1},d_{1}),\dots ,(\mathbf {x} _{s},d_{s})\}$ का प्रशिक्षण सेट है $s$ $s$ नमूने, कहाँ:
- $\mathbf {x} _{j}$ है $n$ -आयामी इनपुट वेक्टर.
- $d_{j}$ उस इनपुट के लिए परसेप्ट्रॉन का वांछित आउटपुट मान है।

हम सुविधाओं के मान इस प्रकार दिखाते हैं:

$x_{j,i}$ का मान है $i$ की विशेषता $j$ वें प्रशिक्षण इनपुट वेक्टर.
$x_{j,0}=1$ .

वज़न दर्शाने के लिए:

$w_{i}$ है $i$ वज़न वेक्टर में वें मान को, के मान से गुणा किया जाना है $i$ वें इनपुट सुविधा.
क्योंकि $x_{j,0}=1$ , द $w_{0}$ प्रभावी रूप से एक पूर्वाग्रह है जिसका उपयोग हम पूर्वाग्रह स्थिरांक के बजाय करते हैं $b$ .

की समय-निर्भरता दर्शाने के लिए $\mathbf {w}$ , हम उपयोग करते हैं:

$w_{i}(t)$ वजन है $i$ समय पर $t$ .

चरण

Initialize the weights. Weights may be initialized to 0 or to a small random value. In the example below, we use 0.
For each example j in our training set D, perform the following steps over the input $\mathbf {x} _{j}$ $\mathbf {x} _{j}$ and desired output $d_{j}$ $d_{j}$ :
1. Calculate the actual output:
  ${\begin{aligned}y_{j}(t)&=f[\mathbf {w} (t)\cdot \mathbf {x} _{j}]\\&=f[w_{0}(t)x_{j,0}+w_{1}(t)x_{j,1}+w_{2}(t)x_{j,2}+\dotsb +w_{n}(t)x_{j,n}]\end{aligned}}$
2. Update the weights:
  $w_{i}(t+1)=w_{i}(t)\;{\boldsymbol {+}}\;r\cdot (d_{j}-y_{j}(t))x_{j,i}$ , for all features $0\leq i\leq n$ , $r$ is the learning rate.
For offline learning, the second step may be repeated until the iteration error ${\frac {1}{s}}\sum _{j=1}^{s}|d_{j}-y_{j}(t)|$ is less than a user-specified error threshold $\gamma$ , or a predetermined number of iterations have been completed, where s is again the size of the sample set.

एल्गोरिथ्म चरण 2 बी में प्रत्येक प्रशिक्षण नमूने के बाद वजन को अपडेट करता है।

Error creating thumbnail:

अधिक प्रशिक्षण उदाहरण जोड़े जाने पर एक परसेप्ट्रॉन अपनी रैखिक सीमा को अद्यतन करता हुआ एक आरेख दिखाता है

File:Perceptron.svg

उचित भार इनपुट पर लागू होते हैं, और परिणामी भारित योग एक फ़ंक्शन को पास कर दिया जाता है जो आउटपुट ओ उत्पन्न करता है।

अभिसरण

परसेप्ट्रॉन एक रैखिक क्लासिफायरियर है, इसलिए यदि प्रशिक्षण सेट सही ढंग से वर्गीकृत किया गया है तो यह कभी भी सभी इनपुट वैक्टर के साथ राज्य में नहीं पहुंचेगा $D$ रैखिक रूप से अलग करने योग्य नहीं है, अर्थात यदि सकारात्मक उदाहरणों को हाइपरप्लेन द्वारा नकारात्मक उदाहरणों से अलग नहीं किया जा सकता है। इस मामले में, मानक शिक्षण एल्गोरिदम के तहत धीरे-धीरे कोई अनुमानित समाधान नहीं निकाला जाएगा, बल्कि इसके बजाय, सीखना पूरी तरह से विफल हो जाएगा। इसलिए, यदि प्रशिक्षण सेट की रैखिक पृथक्करण प्राथमिकता से ज्ञात नहीं है, तो नीचे दिए गए प्रशिक्षण प्रकारों में से एक का उपयोग किया जाना चाहिए।

यदि प्रशिक्षण सेट रैखिक रूप से अलग करने योग्य है, तो परसेप्ट्रॉन के अभिसरण की गारंटी है।^[12] इसके अलावा, प्रशिक्षण के दौरान परसेप्ट्रॉन अपने वजन को कितनी बार समायोजित करेगा इसकी एक ऊपरी सीमा है।

मान लीजिए कि दो वर्गों के इनपुट वैक्टर को एक मार्जिन के साथ हाइपरप्लेन द्वारा अलग किया जा सकता है $\gamma$ , यानी एक वजन वेक्टर मौजूद है $\mathbf {w} ,||\mathbf {w} ||=1$ , और एक पूर्वाग्रह शब्द $b$ ऐसा है कि $\mathbf {w} \cdot \mathbf {x} _{j}>\gamma$ सभी के लिए $j$ साथ $d_{j}=1$ और $\mathbf {w} \cdot \mathbf {x} _{j}<-\gamma$ सभी के लिए $j$ साथ $d_{j}=0$ , कहाँ $d_{j}$ इनपुट के लिए परसेप्ट्रॉन का वांछित आउटपुट मान है $j$ . चलो भी $R$ किसी इनपुट वेक्टर के अधिकतम मानदंड को निरूपित करें। नोविकॉफ (1962) ने साबित किया कि इस मामले में परसेप्ट्रॉन एल्गोरिदम बनाने के बाद अभिसरण करता है $O(R^{2}/\gamma ^{2})$ अद्यतन. प्रमाण का विचार यह है कि वजन वेक्टर को हमेशा एक सीमाबद्ध राशि द्वारा उस दिशा में समायोजित किया जाता है जिसके साथ इसका नकारात्मक डॉट उत्पाद होता है, और इस प्रकार इसे ऊपर से सीमित किया जा सकता है $O (\sqrt t)$ , कहाँ $t$ भार वेक्टर में परिवर्तनों की संख्या है। हालाँकि, इसे नीचे भी सीमित किया जा सकता है $O (t)$ क्योंकि यदि कोई (अज्ञात) संतोषजनक भार वेक्टर मौजूद है, तो प्रत्येक परिवर्तन इस (अज्ञात) दिशा में सकारात्मक मात्रा में प्रगति करता है जो केवल इनपुट वेक्टर पर निर्भर करता है।

File:Perceptron cant choose.svg

बिंदुओं के दो वर्ग, और दो अनंत रैखिक सीमाएँ जो उन्हें अलग करती हैं। भले ही सीमाएँ एक दूसरे से लगभग समकोण पर हैं, परसेप्ट्रॉन एल्गोरिदम के पास उनके बीच चयन करने का कोई तरीका नहीं है।

जबकि परसेप्ट्रॉन एल्गोरिदम को रैखिक रूप से अलग किए जाने योग्य प्रशिक्षण सेट के मामले में कुछ समाधान पर एकत्रित होने की गारंटी दी जाती है, फिर भी यह कोई भी समाधान चुन सकता है और समस्याएं अलग-अलग गुणवत्ता के कई समाधान स्वीकार कर सकती हैं।^[13] इष्टतम स्थिरता का परसेप्ट्रॉन, जिसे आजकल लीनियर समर्थन वेक्टर यंत्र के रूप में जाना जाता है, इस समस्या को हल करने के लिए डिज़ाइन किया गया था (क्राउथ और मेजार्ड, 1987)।^[14]

वेरिएंट

रैचेट के साथ पॉकेट एल्गोरिदम (गैलेंट, 1990) अपनी जेब में अब तक देखे गए सबसे अच्छे समाधान को रखकर परसेप्ट्रॉन सीखने की स्थिरता की समस्या को हल करता है। पॉकेट एल्गोरिदम अंतिम समाधान के बजाय समाधान को पॉकेट में लौटा देता है। इसका उपयोग गैर-वियोज्य डेटा सेटों के लिए भी किया जा सकता है, जहां उद्देश्य कम संख्या में गलत वर्गीकरण के साथ एक परसेप्ट्रॉन ढूंढना है। हालाँकि, ये समाधान पूरी तरह से स्टोकेस्टिक रूप से दिखाई देते हैं और इसलिए पॉकेट एल्गोरिदम न तो सीखने के दौरान धीरे-धीरे उन तक पहुंचता है, और न ही उन्हें सीखने के चरणों की एक निश्चित संख्या के भीतर दिखाई देने की गारंटी है।

मैक्सओवर एल्गोरिथम (वेंडेमुथ, 1995) रोबस्टनेस (कंप्यूटर विज्ञान)| इस अर्थ में मजबूत कि यह डेटा सेट की रैखिक पृथक्करणता के (पूर्व) ज्ञान की परवाह किए बिना अभिसरण करेगा।^[15] रैखिक रूप से अलग करने योग्य मामले में, यह प्रशिक्षण समस्या को हल करेगा - यदि वांछित है, तो इष्टतम स्थिरता (कक्षाओं के बीच हाइपरप्लेन पृथक्करण प्रमेय) के साथ भी। गैर-वियोज्य डेटा सेट के लिए, यह कम संख्या में गलत वर्गीकरण के साथ एक समाधान लौटाएगा। सभी मामलों में, एल्गोरिथ्म धीरे-धीरे सीखने के दौरान समाधान तक पहुंचता है, पिछली स्थितियों को याद किए बिना और स्टोकेस्टिक जंप के बिना। अभिसरण अलग करने योग्य डेटा सेटों के लिए वैश्विक इष्टतमता और गैर-वियोज्य डेटा सेटों के लिए स्थानीय इष्टतमता के लिए है।

वोटेड परसेप्ट्रॉन (फ़्रायंड और शापिरे, 1999), एकाधिक भारित परसेप्ट्रॉन का उपयोग करने वाला एक प्रकार है। हर बार जब किसी उदाहरण को गलत तरीके से वर्गीकृत किया जाता है, तो एल्गोरिदम एक नया परसेप्ट्रॉन शुरू करता है, अंतिम परसेप्ट्रॉन के अंतिम वजन के साथ वेट वेक्टर को आरंभ करता है। प्रत्येक परसेप्ट्रॉन को एक अन्य भार भी दिया जाएगा, जो कि किसी एक को गलत तरीके से वर्गीकृत करने से पहले कितने उदाहरणों को सही ढंग से वर्गीकृत करता है, और अंत में आउटपुट सभी परसेप्ट्रॉन पर एक भारित वोट होगा।

अलग करने योग्य समस्याओं में, परसेप्ट्रॉन प्रशिक्षण का लक्ष्य कक्षाओं के बीच सबसे बड़ा पृथक्करण मार्जिन ढूंढना भी हो सकता है। इष्टतम स्थिरता के तथाकथित परसेप्ट्रॉन को पुनरावृत्त प्रशिक्षण और अनुकूलन योजनाओं के माध्यम से निर्धारित किया जा सकता है, जैसे कि मिन-ओवर एल्गोरिदम (क्राउथ और मेजार्ड, 1987)^[14] या AdaTron (Anlauf और Biehl, 1989))।^[16] AdaTron इस तथ्य का उपयोग करता है कि संबंधित द्विघात अनुकूलन समस्या उत्तल है। इष्टतम स्थिरता का परसेप्ट्रॉन, कर्नेल चाल के साथ, सपोर्ट-वेक्टर मशीन की वैचारिक नींव है। $\alpha$ वें>-परसेप्ट्रॉन ने थ्रेशोल्ड आउटपुट इकाइयों के साथ निश्चित यादृच्छिक भार की एक पूर्व-प्रसंस्करण परत का उपयोग किया। इसने परसेप्ट्रॉन को बाइनरी स्पेस विभाजन में प्रक्षेपित करके विक्षनरी:एनालॉग पैटर्न को वर्गीकृत करने में सक्षम बनाया। वास्तव में, पर्याप्त उच्च आयाम के प्रक्षेपण स्थान के लिए, पैटर्न रैखिक रूप से अलग हो सकते हैं।

एकाधिक परतों का उपयोग किए बिना गैर-रेखीय समस्याओं को हल करने का दूसरा तरीका उच्च क्रम नेटवर्क (सिग्मा-पीआई यूनिट) का उपयोग करना है। इस प्रकार के नेटवर्क में, इनपुट वेक्टर में प्रत्येक तत्व को गुणा किए गए इनपुट (दूसरे क्रम) के प्रत्येक जोड़ीदार संयोजन के साथ बढ़ाया जाता है। इसे एन-ऑर्डर नेटवर्क तक बढ़ाया जा सकता है।

हालाँकि, यह ध्यान में रखा जाना चाहिए कि सबसे अच्छा क्लासिफायरियर जरूरी नहीं है कि जो सभी प्रशिक्षण डेटा को पूरी तरह से वर्गीकृत करता है। वास्तव में, यदि हमारे पास पूर्व बाधा थी कि डेटा सम-संस्करण गाऊसी वितरण से आता है, तो इनपुट स्थान में रैखिक पृथक्करण इष्टतम है, और गैर-रेखीय समाधान ओवरफिटिंग है।

अन्य रैखिक वर्गीकरण एल्गोरिदम में विनोव (एल्गोरिदम), सपोर्ट-वेक्टर मशीन और संभार तन्त्र परावर्तन शामिल हैं।

मल्टीक्लास परसेप्ट्रॉन

रैखिक क्लासिफायरों के प्रशिक्षण के लिए अधिकांश अन्य तकनीकों की तरह, परसेप्ट्रॉन स्वाभाविक रूप से मल्टीक्लास वर्गीकरण को सामान्यीकृत करता है। यहाँ, इनपुट $x$ और आउटपुट $y$ मनमाने सेटों से तैयार किए गए हैं। एक सुविधा प्रतिनिधित्व समारोह $f(x,y)$ प्रत्येक संभावित इनपुट/आउटपुट जोड़ी को एक परिमित-आयामी वास्तविक-मूल्यवान फीचर वेक्टर में मैप करता है। पहले की तरह, फीचर वेक्टर को वेट वेक्टर से गुणा किया जाता है $w$ , लेकिन अब परिणामी स्कोर का उपयोग कई संभावित आउटपुट में से चुनने के लिए किया जाता है:

{\hat {y}}=\operatorname {argmax} _{y}f(x,y)\cdot w.

सीखना फिर से उदाहरणों को दोहराता है, प्रत्येक के लिए आउटपुट की भविष्यवाणी करता है, जब अनुमानित आउटपुट लक्ष्य से मेल खाता है तो वज़न को अपरिवर्तित छोड़ देता है, और जब ऐसा नहीं होता है तो उन्हें बदल देता है। अद्यतन बन जाता है:

w_{t+1}=w_{t}+f(x,y)-f(x,{\hat {y}}).

यह मल्टीक्लास फीडबैक फॉर्मूलेशन मूल परसेप्ट्रॉन को कम कर देता है जब $x$ एक वास्तविक-मूल्यवान वेक्टर है, $y$ से चुना जाता है $\{0,1\}$ , और $f(x,y)=yx$ .

कुछ समस्याओं के लिए, इनपुट/आउटपुट अभ्यावेदन और सुविधाओं को चुना जा सकता है $\mathrm {argmax} _{y}f(x,y)\cdot w$ यद्यपि कुशलतापूर्वक पाया जा सकता है $y$ बहुत बड़े या अनंत सेट से चुना जाता है।

2002 के बाद से, भाषण का भाग टैगिंग और वाक्यविन्यास विश्लेषण (कोलिन्स, 2002) जैसे कार्यों के लिए प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में परसेप्ट्रॉन प्रशिक्षण लोकप्रिय हो गया है। इसे वितरित कंप्यूटिंग सेटिंग में बड़े पैमाने पर मशीन सीखने की समस्याओं पर भी लागू किया गया है।^[17]

संदर्भ

↑ ^1.0 ^1.1 Freund, Y.; Schapire, R. E. (1999). "परसेप्ट्रॉन एल्गोरिथम का उपयोग करके बड़े मार्जिन का वर्गीकरण" (PDF). Machine Learning. 37 (3): 277–296. doi:10.1023/A:1007662407062. S2CID 5885617.
↑ ^2.0 ^2.1 Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. ISBN 0-387-31073-8.
↑ McCulloch, W; Pitts, W (1943). "तंत्रिका गतिविधि में निहित विचारों की एक तार्किक गणना". Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259.
↑ Rosenblatt, Frank (1957). "The Perceptron—a perceiving and recognizing automaton". Report 85-460-1. Cornell Aeronautical Laboratory.
↑ ^5.0 ^5.1 Olazaran, Mikel (1996). "परसेप्ट्रॉन विवाद के आधिकारिक इतिहास का एक समाजशास्त्रीय अध्ययन". Social Studies of Science. 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.
↑ ^6.0 ^6.1 Sejnowski, Terrence J. (2018). गहन शिक्षण क्रांति (in English). MIT Press. p. 47. ISBN 978-0-262-03803-4.
↑ O’Connor, Jack (2022-06-21). "Undercover Algorithm: A Secret Chapter in the Early History of Artificial Intelligence and Satellite Imagery". International Journal of Intelligence and CounterIntelligence (in English): 1–15. doi:10.1080/08850607.2022.2073542. ISSN 0885-0607. S2CID 249946000.
↑ Aizerman, M. A.; Braverman, E. M.; Rozonoer, L. I. (1964). "पैटर्न पहचान सीखने में संभावित फ़ंक्शन विधि की सैद्धांतिक नींव". Automation and Remote Control. 25: 821–837.
↑ Mohri, Mehryar; Rostamizadeh, Afshin (2013). "परसेप्ट्रॉन गलती सीमा". arXiv:1305.0208 [cs.LG].
↑ Cash, Sydney; Yuste, Rafael (1999). "CA1 पिरामिड न्यूरॉन्स द्वारा उत्तेजक इनपुट का रैखिक योग". Neuron. 22 (2): 383–394. doi:10.1016/S0896-6273(00)81098-3. PMID 10069343.
↑ Liou, D.-R.; Liou, J.-W.; Liou, C.-Y. (2013). परसेप्ट्रॉन का व्यवहार सीखना. iConcept Press. ISBN 978-1-477554-73-9.
↑ Novikoff, Albert J. (1963). "परसेप्ट्रॉन के लिए अभिसरण प्रमाण पर". Office of Naval Research.
↑ Bishop, Christopher M (2006-08-17). "Chapter 4. Linear Models for Classification". पैटर्न मान्यता और मशीन प्रवीणता. Springer Science+Business Media, LLC. p. 194. ISBN 978-0387-31073-2.
↑ ^14.0 ^14.1 Krauth, W.; Mezard, M. (1987). "तंत्रिका नेटवर्क में इष्टतम स्थिरता के साथ लर्निंग एल्गोरिदम". Journal of Physics A: Mathematical and General. 20 (11): L745–L752. Bibcode:1987JPhA...20L.745K. doi:10.1088/0305-4470/20/11/013.
↑ Wendemuth, A. (1995). "अनलर्नेबल को सीखना". Journal of Physics A: Mathematical and General. 28 (18): 5423–5436. Bibcode:1995JPhA...28.5423W. doi:10.1088/0305-4470/28/18/030.
↑ Anlauf, J. K.; Biehl, M. (1989). "The AdaTron: an Adaptive Perceptron algorithm". Europhysics Letters. 10 (7): 687–692. Bibcode:1989EL.....10..687A. doi:10.1209/0295-5075/10/7/014. S2CID 250773895.
↑ McDonald, R.; Hall, K.; Mann, G. (2010). "Distributed Training Strategies for the Structured Perceptron" (PDF). Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Association for Computational Linguistics. pp. 456–464.

अग्रिम पठन

Aizerman, M. A. and Braverman, E. M. and Lev I. Rozonoer. Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control, 25:821–837, 1964.
Rosenblatt, Frank (1958), The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386–408. doi:10.1037/h0042519.
Rosenblatt, Frank (1962), Principles of Neurodynamics. Washington, DC: Spartan Books.
Minsky, M. L. and Papert, S. A. 1969. Perceptrons. Cambridge, MA: MIT Press.
Gallant, S. I. (1990). Perceptron-based learning algorithms. IEEE Transactions on Neural Networks, vol. 1, no. 2, pp. 179–191.
Mohri, Mehryar and Rostamizadeh, Afshin (2013). Perceptron Mistake Bounds arXiv:1305.0208, 2013.
Novikoff, A. B. (1962). On convergence proofs on perceptrons. Symposium on the Mathematical Theory of Automata, 12, 615–622. Polytechnic Institute of Brooklyn.
Widrow, B., Lehr, M.A., "30 years of Adaptive Neural Networks: Perceptron, Madaline, and Backpropagation," Proc. IEEE, vol 78, no 9, pp. 1415–1442, (1990).
Collins, M. 2002. Discriminative training methods for hidden Markov models: Theory and experiments with the perceptron algorithm in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '02).
Yin, Hongfeng (1996), Perceptron-Based Algorithms and Analysis, Spectrum Library, Concordia University, Canada

बाहरी संबंध

A Perceptron implemented in MATLAB to learn binary NAND function
Chapter 3 Weighted networks - the perceptron and chapter 4 Perceptron learning of Neural Networks - A Systematic Introduction by Raúl Rojas (ISBN 978-3-540-60505-8)
History of perceptrons
Mathematics of multilayer perceptrons
Applying a perceptron model using scikit-learn - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

[largemargin-1] 1.0 ^1.1 Freund, Y.; Schapire, R. E. (1999). "परसेप्ट्रॉन एल्गोरिथम का उपयोग करके बड़े मार्जिन का वर्गीकरण" (PDF). Machine Learning. 37 (3): 277–296. doi:10.1023/A:1007662407062. S2CID 5885617.

[bishop-2] 2.0 ^2.1 Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. ISBN 0-387-31073-8.

[3] McCulloch, W; Pitts, W (1943). "तंत्रिका गतिविधि में निहित विचारों की एक तार्किक गणना". Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259.

[4] Rosenblatt, Frank (1957). "The Perceptron—a perceiving and recognizing automaton". Report 85-460-1. Cornell Aeronautical Laboratory.

[Olazaran-5] 5.0 ^5.1 Olazaran, Mikel (1996). "परसेप्ट्रॉन विवाद के आधिकारिक इतिहास का एक समाजशास्त्रीय अध्ययन". Social Studies of Science. 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.

[Sejnowski-6] 6.0 ^6.1 Sejnowski, Terrence J. (2018). गहन शिक्षण क्रांति (in English). MIT Press. p. 47. ISBN 978-0-262-03803-4.

[7] O’Connor, Jack (2022-06-21). "Undercover Algorithm: A Secret Chapter in the Early History of Artificial Intelligence and Satellite Imagery". International Journal of Intelligence and CounterIntelligence (in English): 1–15. doi:10.1080/08850607.2022.2073542. ISSN 0885-0607. S2CID 249946000.

[8] Aizerman, M. A.; Braverman, E. M.; Rozonoer, L. I. (1964). "पैटर्न पहचान सीखने में संभावित फ़ंक्शन विधि की सैद्धांतिक नींव". Automation and Remote Control. 25: 821–837.

[9] Mohri, Mehryar; Rostamizadeh, Afshin (2013). "परसेप्ट्रॉन गलती सीमा". arXiv:1305.0208 [cs.LG].

[10] Cash, Sydney; Yuste, Rafael (1999). "CA1 पिरामिड न्यूरॉन्स द्वारा उत्तेजक इनपुट का रैखिक योग". Neuron. 22 (2): 383–394. doi:10.1016/S0896-6273(00)81098-3. PMID 10069343.

[11] Liou, D.-R.; Liou, J.-W.; Liou, C.-Y. (2013). परसेप्ट्रॉन का व्यवहार सीखना. iConcept Press. ISBN 978-1-477554-73-9.

[12] Novikoff, Albert J. (1963). "परसेप्ट्रॉन के लिए अभिसरण प्रमाण पर". Office of Naval Research.

[13] Bishop, Christopher M (2006-08-17). "Chapter 4. Linear Models for Classification". पैटर्न मान्यता और मशीन प्रवीणता. Springer Science+Business Media, LLC. p. 194. ISBN 978-0387-31073-2.

[KrauthMezard87-14] 14.0 ^14.1 Krauth, W.; Mezard, M. (1987). "तंत्रिका नेटवर्क में इष्टतम स्थिरता के साथ लर्निंग एल्गोरिदम". Journal of Physics A: Mathematical and General. 20 (11): L745–L752. Bibcode:1987JPhA...20L.745K. doi:10.1088/0305-4470/20/11/013.

[15] Wendemuth, A. (1995). "अनलर्नेबल को सीखना". Journal of Physics A: Mathematical and General. 28 (18): 5423–5436. Bibcode:1995JPhA...28.5423W. doi:10.1088/0305-4470/28/18/030.

[16] Anlauf, J. K.; Biehl, M. (1989). "The AdaTron: an Adaptive Perceptron algorithm". Europhysics Letters. 10 (7): 687–692. Bibcode:1989EL.....10..687A. doi:10.1209/0295-5075/10/7/014. S2CID 250773895.

[17] McDonald, R.; Hall, K.; Mann, G. (2010). "Distributed Training Strategies for the Structured Perceptron" (PDF). Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Association for Computational Linguistics. pp. 456–464.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Anonymous

Search

परसेप्ट्रॉन

Namespaces

More

Page actions

Contents

इतिहास

परिभाषा

लर्निंग एल्गोरिदम

परिभाषाएँ

चरण

अभिसरण

वेरिएंट

मल्टीक्लास परसेप्ट्रॉन

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

परसेप्ट्रॉन

इतिहास

परिभाषा

लर्निंग एल्गोरिदम

परिभाषाएँ

चरण

अभिसरण

वेरिएंट

मल्टीक्लास परसेप्ट्रॉन

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories