कृत्रिम तंत्रिका नेटवर्क

कृत्रिम तंत्रिका नेटवर्क (एएनएन), सामान्यतः केवल तंत्रिका नेटवर्क (एनएन) या तंत्रिका जाल कहा जाता है, जैविक तंत्रिका नेटवर्क से प्रेरित कंप्यूटिंग प्रणाली हैं जो पशु मस्तिष्क का गठन करते हैं। एएनएन कनेक्टेड इकाइयों या कृत्रिम न्यूरॉन्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अशक्त रूप से मॉडल करते हैं। प्रत्येक कनेक्शन, जैविक मस्तिष्क में सिनैप्स की तरह, अन्य न्यूरॉन्स को संकेत प्रेषित कर सकता है। कृत्रिम न्यूरॉन संकेतों को प्राप्त करता है और फिर उन्हें संसाधित करता है और इससे जुड़े न्यूरॉन्स को संकेत दे सकता है। कनेक्शन पर "संकेत" वास्तविक संख्या है, और प्रत्येक न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है। कनेक्शन को किनारे कहा जाता है। न्यूरॉन्स और किनारों में सामान्यतः एक भार होता है, जो सीखने की आय के रूप में समायोजित होता है। कनेक्शन पर वजन संकेत की शक्ति को बढ़ाता या घटाता है। न्यूरॉन्स की सीमा हो सकती है जैसे कि संकेत केवल तभी भेजा जाता है जब कुल संकेत उस सीमा को पार कर जाता है।

सामान्यतः, न्यूरॉन्स परतों में एकत्रित होते हैं। अलग-अलग परतें अपने इनपुट पर अलग-अलग परिवर्तन कर सकती हैं। संकेत पहली परत (इनपुट परत) से अंतिम परत (आउटपुट परत) तक संभवतः कई बार परतों को पार करने के बाद जाते हैं।

प्रशिक्षण
तंत्रिका नेटवर्क उदाहरणों को संसाधित करके सीखते हैं (या प्रशिक्षित होते हैं), जिनमें से प्रत्येक में ज्ञात "इनपुट" और "परिणाम" होता है, जो दोनों के बीच संभाव्यता-भारित संघों का निर्माण करता है, जो नेट की डेटा संरचना के अन्दर संग्रहीत होते हैं। किसी दिए गए उदाहरण से तंत्रिका नेटवर्क का प्रशिक्षण सामान्यतः नेटवर्क के संसाधित आउटपुट (अधिकांशतः भविष्यवाणी) और लक्ष्य आउटपुट के बीच अंतर निर्धारित करके आयोजित किया जाता है। यह अंतर त्रुटि है। नेटवर्क तब सीखने के नियम के अनुसार और इस त्रुटि मान का उपयोग करके अपने भारित संघों को समायोजित करता है। निरंतर समायोजन तंत्रिका नेटवर्क को आउटपुट का उत्पादन करने का कारण बनता है, जो लक्ष्य आउटपुट के समान होता है। इन समायोजनों की पर्याप्त संख्या के बाद, कुछ मानदंडों के आधार पर प्रशिक्षण समाप्त किया जा सकता है। इसे पर्यवेक्षित शिक्षण के रूप में जाना जाता है।

ऐसी प्रणालियाँ सामान्यतः कार्य-विशिष्ट नियमों के साथ प्रोग्राम किए बिना उदाहरणों पर विचार करके कार्य करना "सीखती हैं"। उदाहरण के लिए, छवि पहचान में, वे उदाहरण छवियों का विश्लेषण करके उन छवियों की पहचान करना सीख सकते हैं जिनमें बिल्लियों सम्मिलित हैं, जिन्हें मैन्युअल रूप से "बिल्ली" या "कोई बिल्ली नहीं" के रूप में लेबल किया गया है और अन्य छवियों में बिल्लियों की पहचान करने के लिए परिणामों का उपयोग किया जाता है। वे बिल्लियों के बारे में किसी भी पूर्व ज्ञान के बिना ऐसा करते हैं, उदाहरण के लिए, कि उनके फर, पूंछ, मूंछें और बिल्ली जैसे चेहरे हैं। इसके अतिरिक्त, वे स्वचालित रूप से उन उदाहरणों से पहचान की विशेषताएँ उत्पन्न करते हैं, जिन्हें वे संसाधित करते हैं।

इतिहास
सबसे सरल प्रकार का फीडफॉरवर्ड न्यूरल नेटवर्क (एफएनएन) रैखिक नेटवर्क है, जिसमें आउटपुट नोड्स की परत होती है; इनपुट सीधे आउटपुट को वज़न की श्रृंखला के माध्यम से खिलाया जाता है। वजन और इनपुट के उत्पादों का योग प्रत्येक नोड में गणना की जाती है। इन परिकलित आउटपुट और दिए गए लक्ष्य मानों के बीच माध्य चुकता त्रुटियाँ भार में समायोजन करके न्यूनतम की जाती हैं। इस तकनीक को कम से कम वर्गों या रैखिक प्रतिगमन की विधि के रूप में दो सदियों से जाना जाता है। इसका उपयोग ग्रहों की चाल की भविष्यवाणी के लिए लीजेंड्रे (1805) और गॉस (1795) द्वारा बिंदुओं के एक सेट के लिए एक अच्छा मोटा रैखिक फिट खोजने के साधन के रूप में किया गया था।

विल्हेम लेन्ज़ और अर्न्स्ट इस्सिंग ने ईज़िंग मॉडल (1925) बनाया और उसका विश्लेषण किया, जो अनिवार्य रूप से एक गैर-सीखने वाला कृत्रिम आवर्तक तंत्रिका नेटवर्क (आरएनएन) है जिसमें न्यूरॉन जैसे थ्रेशोल्ड तत्व होते हैं। 1972 में, शुनिची अमारी ने इस वास्तुकला को अनुकूल बनाया। उनकी शिक्षा आरएनएन को 1982 में जॉन हॉपफील्ड द्वारा लोकप्रिय बनाया गया था।

वारेन मैककुलोच और वाल्टर पिट्स (1943) ने तंत्रिका नेटवर्क के लिए गैर-सीखने वाले कम्प्यूटेशनल मॉडल के रूप में भी माना जाता है। 1940 के अंत में, डी. ओ. हेब्ब ने तंत्रिका प्लास्टिसिटी के तंत्र के आधार पर एक सीखने की परिकल्पना बनाई जिसे हेब्बियन सीखने के रूप में जाना जाने लगा। फ़ार्ले और वेस्ली ए. क्लार्क (1954) ने पहली बार कम्प्यूटेशनल मशीनों क उपयोग हेबियन नेटवर्क का अनुकरण करने के लिए किया, जिसे बाद में "कैलकुलेटर" कहा जाता है। 1958 में, मनोवैज्ञानिक फ्रैंक रोसेनब्लैट ने परसेप्ट्रॉन का आविष्कार किया, पहला कृत्रिम तंत्रिका नेटवर्क,  संयुक्त राज्य नौसेना अनुसंधान कार्यालय द्वारा वित्त पोषित था।

कुछ लोगों का कहना है कि मार्विन मिंस्की और पैपर्ट (1969) के बाद शोध रुक गया, जिन्होंने पाया कि बेसिक परसेप्ट्रॉन एक्सक्लूसिव-या परिपथ को प्रोसेस करने में अक्षम थे और उपयोगी न्यूरल नेटवर्क को प्रोसेस करने के लिए कंप्यूटर में पर्याप्त शक्ति की कमी थी। चूँकि, जब तक यह पुस्तक सामने आई, तब तक मल्टीलेयर परसेप्ट्रॉन (एमएलपी) के प्रशिक्षण की विधि पहले से ही ज्ञात थी।

पहला डीप लर्निंग एमएलपी 1965 में एलेक्सी ग्रिगोरविच इवाखेंको और वैलेन्टिन लैपा द्वारा डेटा हैंडलिंग के ग्रुप मेथड के रूप में प्रकाशित किया गया था।  स्टोचैस्टिक ग्रेडिएंट डिसेंट द्वारा प्रशिक्षित पहला डीप लर्निंग एमएलपी 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।    अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, दो परिवर्तनीय परतों के साथ पांच परत एमएलपी ने गैर-रैखिक रूप से अलग करने योग्य पैटर्न कक्षाओं को वर्गीकृत करने के लिए उपयोगी आंतरिक प्रतिनिधित्व सीखा।

निरंतर बैकप्रोपैजेशन की मूल बातेंहेनरी जे. केली द्वारा नियंत्रण सिद्धांत के संदर्भ में व्युत्पन्न किए गए थे 1960 में और आर्थर ई. ब्रायसन द्वारा 1961 में, गतिशील प्रोग्रामिंग के सिद्धांतों का उपयोग करना।

1970 में, सेप्पो लिनैनमा ने नेस्टेड विभेदक कार्य फलनों के असतत कनेक्टेड नेटवर्क के स्वचालित विभेदन (एडी) के लिए सामान्य विधि प्रकाशित की। 1973 में, ड्रेफस ने त्रुटि प्रवणताओं के अनुपात में नियंत्रकों के मापदंडों को अनुकूलित करने के लिए पश्चप्रचार का उपयोग किया। पॉल वर्बोस (1975) के बैकप्रॉपेगेशन एल्गोरिथम ने मल्टी-लेयर नेटवर्क के व्यावहारिक प्रशिक्षण को सक्षम किया। 1982 में, उन्होंने लिनैनमा की एडी पद्धति को तंत्रिका नेटवर्क पर इस तरह से प्रयुक्त किया जो व्यापक रूप से उपयोग किया जाने लगा।

मेटल-ऑक्साइड-सेमीकंडक्टर (एमओएस) वेरी-लार्ज-स्केल इंटीग्रेशन (वीएलएसआई) का विकास, पूरक एमओएस (सीएमओएस) तकनीक के रूप में, डिजिटल इलेक्ट्रॉनिक्स में एमओएस ट्रांजिस्टर की संख्या बढ़ाने में सक्षम है। इसने 1980 के दशक में व्यावहारिक कृत्रिम तंत्रिका नेटवर्क के विकास के लिए अधिक प्रसंस्करण शक्ति प्रदान की।

1986 में डेविड रुमेलहार्ट, जेफ्री हिंटन और रोनाल्ड जे. विलियम्स ने दिखाया कि अनुक्रम में अगले शब्द की भविष्यवाणी करने के लिए प्रशिक्षित होने पर बैकप्रोपैजेशन ने फीचर वैक्टर के रूप में शब्दों के दिलचस्प आंतरिक प्रतिनिधित्व को सीखा।

1988 से, तंत्रिका नेटवर्क के उपयोग ने प्रोटीन संरचना भविष्यवाणी के क्षेत्र को परिवर्तित कर दिया, विशेष रूप से जब पहले कैस्केडिंग नेटवर्क को कई अनुक्रम संरेखण द्वारा निर्मित प्रोफाइल (मैट्रिसेस) पर प्रशिक्षित किया गया।

1992 में, कनवॉल्यूशनल न्यूरल नेटवर्क मैक्स-पूलिंग को 3डी वस्तु पहचान में सहायता के लिए न्यूनतम-शिफ्ट इनवैरियंस और विरूपण के प्रति सहनशीलता के साथ सहायता करने के लिए प्रस्तुत किया गया था।  जुरगेन श्मिधहुबर ने नेटवर्क के बहु-स्तरीय पदानुक्रम (1992) को एक समय में एक स्तर पर पूर्व-प्रशिक्षित शिक्षण और बैकप्रॉपैगेशन द्वारा ठीक-ठीक करके अपनाया।

तंत्रिका नेटवर्क की प्रारंभिकी सफलताओं में शेयर बाजार की भविष्यवाणी करना और 1995 में (अधिकतर) सेल्फ-ड्राइविंग कार सम्मिलित थी।

जेफ्री हिंटन एट अल. (2006) प्रतिबंधित बोल्ट्जमैन मशीन के साथ बाइनरी या वास्तविक-मूल्यवान अव्यक्त चर की क्रमिक परतों का उपयोग करके उच्च-स्तरीय प्रतिनिधित्व सीखने का प्रस्ताव दिया। प्रत्येक परत को मॉडल करने के लिए। 2012 में, एंड्रयू एनजी और जेफ डीन (कंप्यूटर वैज्ञानिक) ने नेटवर्क बनाया, जिसने उच्च-स्तरीय अवधारणाओं को पहचानना सीखा, जैसे कि बिल्लियाँ, केवल बिना लेबल वाली छवियों को देखकर। अनियंत्रित पूर्व-प्रशिक्षण और जीपीयू से बढ़ी हुई कंप्यूटिंग शक्ति और वितरित कंप्यूटिंग ने बड़े नेटवर्क के उपयोग की अनुमति दी, विशेष रूप से छवि और दृश्य पहचान की समस्याओं में, जिसे गहन शिक्षा के रूप में जाना जाता है।

सीरेसन और सहकर्मियों (2010) दिखाया गया है कि लुप्त हो रही ढाल की समस्या के अतिरिक्त, जीपीयू कई-स्तरित फीडफॉरवर्ड न्यूरल नेटवर्क के लिए बैकप्रोपैजेशन को संभव बनाता है। 2009 और 2012 के बीच, एएनएन ने छवि पहचान प्रतियोगिताओं में पुरस्कार जीतना प्रारंभ किया, विभिन्न कार्यों पर मानव स्तर के प्रदर्शन के निकट पहुंचकर, प्रारंभ में पैटर्न पहचान और लिखावट की पहचान में जीतना प्रारंभ किया। उदाहरण के लिए, द्वि-दिशात्मक और बहु-आयामी दीर्घकालिक अल्पकालिक स्मृति (एलएसटीएम) एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) एट अल। सीखी जाने वाली तीन भाषाओं के बारे में बिना किसी पूर्व ज्ञान के 2009 में कनेक्टेड हैंडराइटिंग रिकग्निशन में तीन प्रतियोगिताएं जीतीं।

सीरेसन और उनके सहयोगियों ने मानव-प्रतिस्पर्धी/अलौकिक प्रदर्शन प्राप्त करने के लिए पहला पैटर्न पहचानकर्ता बनाया ट्रैफिक साइन रिकग्निशन (आईजेसीएनएन 2012) जैसे बेंचमार्क पर।

मॉडल
एएनएन का प्रारंभ मानव मस्तिष्क की वास्तुकला का लाभ उठाने के प्रयास के रूप में हुई थी जिससे ऐसे कार्य किए जा सकें जिनमें पारंपरिक कलनविधि को बहुत कम सफलता मिली थी। वे जल्द ही अनुभवजन्य परिणामों को सुधारने की ओर उन्मुख हुए, अपने जैविक अग्रदूतों के प्रति सच्चे बने रहने के प्रयासों को छोड़ दिया। एएनएन में गैर-रैखिकताओं और जटिल संबंधों को सीखने और मॉडल करने की क्षमता है। यह विभिन्न पैटर्न में जुड़े हुए न्यूरॉन्स द्वारा प्राप्त किया जाता है, जिससे कुछ न्यूरॉन्स का आउटपुट दूसरों का इनपुट बन जाता है। नेटवर्क निर्देशित ग्राफ, भारित ग्राफ बनाता है। कृत्रिम तंत्रिका नेटवर्क में सिम्युलेटेड न्यूरॉन्स होते हैं। प्रत्येक न्यूरॉन जैविक अक्षतंतु-अन्तर्ग्रथन-डेंड्राइट कनेक्शन जैसे लिंक के माध्यम से अन्य नोड्स से जुड़ा होता है। लिंक से जुड़े सभी नोड कुछ डेटा लेते हैं और डेटा पर विशिष्ट संचालन और कार्य करने के लिए इसका उपयोग करते हैं। प्रत्येक लिंक का वजन होता है, जो एक नोड के दूसरे पर प्रभाव की शक्ति का निर्धारण करता है, वजन को न्यूरॉन्स के बीच संकेत चुनने की अनुमति देता है।

कृत्रिम न्यूरॉन्स
एएनएन कृत्रिम न्यूरॉन्स से बने होते हैं जो वैचारिक रूप से जैविक न्यूरॉन्स से प्राप्त होते हैं। प्रत्येक कृत्रिम न्यूरॉन में इनपुट होते हैं और एकल आउटपुट उत्पन्न करते हैं जिसे कई अन्य न्यूरॉन्स को भेजा जा सकता है। इनपुट बाहरी डेटा के नमूने के सुविधा मान हो सकते हैं, जैसे चित्र या दस्तावेज़, या वे अन्य न्यूरॉन्स के आउटपुट हो सकते हैं। तंत्रिका जाल के अंतिम आउटपुट न्यूरॉन्स के आउटपुट कार्य को पूरा करते हैं, जैसे किसी छवि में किसी वस्तु को पहचानना।

न्यूरॉन के आउटपुट को खोजने के लिए हम सभी इनपुट का भारित योग लेते हैं, इनपुट से न्यूरॉन के कनेक्शन के भार से भारित होते हैं। हम इस योग में पूर्वाग्रह शब्द जोड़ते हैं। इस भारित राशि को कभी-कभी सक्रियण कहा जाता है। यह भारित राशि तब आउटपुट उत्पन्न करने के लिए (सामान्यतः अरैखिक) सक्रियण फलन के माध्यम से पारित की जाती है। प्रारंभिक इनपुट बाहरी डेटा हैं, जैसे चित्र और दस्तावेज़। परम आउटपुट कार्य को पूरा करते हैं, जैसे किसी छवि में किसी वस्तु को पहचानना।

संगठन
न्यूरॉन्स सामान्यतः कई परतों में व्यवस्थित होते हैं, विशेष रूप से गहन शिक्षा में व्यवस्थित होते हैं। परत के न्यूरॉन्स केवल पूर्ववर्ती और तुरंत बाद की परतों के न्यूरॉन्स से जुड़ते हैं। बाहरी डेटा प्राप्त करने वाली परत इनपुट परत है। अंतिम परिणाम उत्पन्न करने वाली परत आउटपुट परत होती है। उनके बीच शून्य या अधिक छिपी हुई परतें हैं। सिंगल लेयर और अनलेयर नेटवर्क का भी उपयोग किया जाता है। दो परतों के बीच, एकाधिक कनेक्शन पैटर्न संभव हैं। वे 'पूरी तरह से जुड़े' हो सकते हैं, परत में हर न्यूरॉन अगली परत में हर न्यूरॉन से जुड़ सकता है। वे पूलिंग हो सकते हैं, जहां परत में न्यूरॉन्स का समूह अगली परत में न्यूरॉन से जुड़ता है, जिससे उस परत में न्यूरॉन्स की संख्या कम हो जाती है। केवल ऐसे कनेक्शन वाले न्यूरॉन्स निर्देशित विश्वकोश ग्राफ बनाते हैं और इसे फीडफॉरवर्ड न्यूरल नेटवर्क के रूप में जाना जाता है। वैकल्पिक रूप से, नेटवर्क जो समान या पिछली परतों में न्यूरॉन्स के बीच कनेक्शन की अनुमति देते हैं, उन्हें आवर्तक तंत्रिका नेटवर्क के रूप में जाना जाता है।

हाइपरपैरामीटर
हाइपरपैरामीटर स्थिर पैरामीटर है जिसका मान सीखने की प्रक्रिया प्रारंभ होने से पहले सेट किया जाता है। सीखने के माध्यम से मापदंडों के मूल्यों को प्राप्त किया जाता है। हाइपरपरमेटर्स के उदाहरणों में सीखने की दर, छिपी हुई परतों की संख्या और बैच आकार सम्मिलित हैं। कुछ हाइपरपैरामीटर के मान अन्य हाइपरपैरामीटर के मान पर निर्भर हो सकते हैं। उदाहरण के लिए, कुछ परतों का आकार परतों की कुल संख्या पर निर्भर कर सकता है।

सीखना
सीखना नमूना टिप्पणियों पर विचार करके कार्य को उत्तम ढंग से संभालने के लिए नेटवर्क का अनुकूलन है। सीखने में परिणाम की सटीकता में सुधार के लिए नेटवर्क के वजन (और वैकल्पिक थ्रेसहोल्ड) को समायोजित करना सम्मिलित है। यह देखी गई त्रुटियों को कम करके किया जाता है। सीखना तब पूरा होता है जब अतिरिक्त अवलोकनों की जांच करने से त्रुटि दर उपयोगी रूप से कम नहीं होती है। सीखने के बाद भी, त्रुटि दर सामान्यतः 0 तक नहीं पहुंचती है। यदि सीखने के बाद त्रुटि दर बहुत अधिक है, तो नेटवर्क को सामान्यतः फिर से डिज़ाइन किया जाना चाहिए। व्यावहारिक रूप से यह लॉस फंकशन को परिभाषित करके किया जाता है जिसका मूल्यांकन समय-समय पर सीखने के समय किया जाता है। जब तक इसका उत्पादन घटता रहता है, तब तक सीखना जारी रहता है। व्यय को अधिकांशतः आंकड़े के रूप में परिभाषित किया जाता है जिसका मूल्य केवल अनुमानित किया जा सकता है। आउटपुट वास्तव में संख्याएँ हैं, इसलिए जब त्रुटि कम होती है, तो आउटपुट (लगभग निश्चित रूप से बिल्ली) और सही उत्तर (बिल्ली) के बीच का अंतर छोटा होता है। सीखना अवलोकनों में कुल अंतर को कम करने का प्रयास करता है। अधिकांश सीखने के मॉडल को गणितीय अनुकूलन सिद्धांत और सांख्यिकीय अनुमान के सीधे अनुप्रयोग के रूप में देखा जा सकता है।

सीखने की दर
सीखने की दर उन सुधारात्मक चरणों के आकार को परिभाषित करती है जो मॉडल प्रत्येक अवलोकन में त्रुटियों को समायोजित करने के लिए लेता है। उच्च सीखने की दर प्रशिक्षण के समय को कम करती है, लेकिन कम अंतिम सटीकता के साथ, जबकि कम सीखने की दर में अधिक समय लगता है, लेकिन अधिक सटीकता की संभावना के साथ। क्विकप्रॉप जैसे अनुकूलन मुख्य रूप से त्रुटि न्यूनीकरण को तेज करने के उद्देश्य से हैं, जबकि अन्य सुधार मुख्य रूप से विश्वसनीयता बढ़ाने की प्रयास करते हैं। नेटवर्क के अंदर दोलन से बचने के लिए जैसे वैकल्पिक कनेक्शन भार, और अभिसरण की दर में सुधार करने के लिए, परिशोधन अनुकूली सीखने की दर का उपयोग करता है जो उपयुक्त के रूप में बढ़ता या घटता है। गति की अवधारणा ढाल और पिछले परिवर्तन के बीच संतुलन को भारित करने की अनुमति देती है जैसे वजन समायोजन पिछले परिवर्तन पर कुछ सीमा तक निर्भर करता है। 0 के निकट की गति ढाल पर जोर देती है, जबकि 1 के निकट का मान अंतिम परिवर्तन पर जोर देता है।

व्यय फलन
चूँकि व्यय फलन तदर्थ को परिभाषित करना संभव है, अधिकांशतः पसंद का निर्धारण फलन के वांछनीय गुणों (जैसे उत्तल फलन) द्वारा किया जाता है या क्योंकि यह मॉडल से उत्पन्न होता है (उदाहरण के लिए संभाव्य मॉडल में मॉडल की पश्च संभाव्यता को एक के रूप में उपयोग किया जा सकता है) उलटा खर्च)।

पश्चप्रचार
पश्चप्रचार विधि है, जिसका उपयोग सीखने के समय पाई गई प्रत्येक त्रुटि की भरपाई के लिए कनेक्शन के वजन को समायोजित करने के लिए किया जाता है। कनेक्शन के बीच त्रुटि राशि को प्रभावी ढंग से विभाजित किया गया है। तकनीकी रूप से, बैकप्रॉप वज़न के संबंध में किसी दिए गए राज्य से जुड़े हानि फलन के ढाल (व्युत्पन्न) की गणना करता है। वेट अपडेट स्टोचैस्टिक ग्रेडियेंट डिसेंट या अन्य तरीकों से किया जा सकता है, जैसे कि एक्सट्रीम लर्निंग मशीन, नो-प्रोप नेटवर्क, बिना पीछे हटे प्रशिक्षण, भार रहित नेटवर्क, गैर-संबंधवादी तंत्रिका नेटवर्क और होलोग्राफिक साहचर्य स्मृति।

सीखने के प्रतिमान
मशीन लर्निंग को सामान्यतः तीन मुख्य लर्निंग प्रतिमानों में विभाजित किया जाता है, सुपरवाइज्ड लर्निंग, अनसुपरवाइज्ड लर्निंग और रीइन्फोर्समेंट लर्निंग। प्रत्येक विशेष सीखने के कार्य से मेल खाता है।

पर्यवेक्षित शिक्षण
पर्यवेक्षित शिक्षण युग्मित इनपुट और वांछित आउटपुट के सेट का उपयोग करता है। सीखने का कार्य प्रत्येक इनपुट के लिए वांछित आउटपुट का उत्पादन करना है। इस स्थिति में, व्यय फलन गलत कटौतियों को समाप्त करने से संबंधित है। सामान्यतः उपयोग की जाने वाली व्यय माध्य-वर्ग त्रुटि है, जो नेटवर्क के आउटपुट और वांछित आउटपुट के बीच औसत वर्ग त्रुटि को कम करने की प्रयास करती है। पर्यवेक्षित सीखने के लिए उपयुक्त कार्य पैटर्न पहचान (वर्गीकरण के रूप में भी जाना जाता है) और प्रतिगमन विश्लेषण (कार्य सन्निकटन के रूप में भी जाना जाता है) हैं। पर्यवेक्षित शिक्षण अनुक्रमिक डेटा पर भी प्रयुक्त होता है (उदाहरण के लिए, हस्तलेखन, भाषण और इशारा पहचान के लिए)। इसे शिक्षक के साथ सीखने के रूप में माना जा सकता है, फलन के रूप में जो अब तक प्राप्त समाधानों की गुणवत्ता पर निरंतर प्रतिक्रिया प्रदान करता है।

अनियंत्रित शिक्षा
अनसुपरवाइज्ड लर्निंग में, इनपुट डेटा को कॉस्ट फलन, डेटा के कुछ फलन $$\textstyle x$$ और नेटवर्क का आउटपुट के साथ दिया जाता है। व्यय कार्य कार्य (मॉडल डोमेन) और किसी भी प्राथमिकता और पश्च धारणा (मॉडल के अंतर्निहित गुण, इसके पैरामीटर और देखे गए चर) पर निर्भर है। सामान्य उदाहरण के रूप में, मॉडल पर विचार करें $$\textstyle f(x) = a$$ जहाँ $$\textstyle a$$ स्थिर और $$\textstyle C=E[(x - f(x))^2]$$ व्यय है। इस व्यय को कम करने से $$\textstyle a$$ का मूल्य उत्पन्न होता है, यह डेटा के माध्य के बराबर है। व्यय फलन बहुत अधिक जटिल हो सकता है। इसका रूप अनुप्रयोग पर निर्भर करता है: उदाहरण के लिए, डेटा संपीड़न में यह आपसी सूचनाओं के बीच $$\textstyle x$$ और $$\textstyle f(x)$$ से संबंधित हो सकता है, जबकि सांख्यिकीय मॉडलिंग में, यह दिए गए डेटा के मॉडल की पिछली संभावना से संबंधित हो सकता है (ध्यान दें कि उन दोनों उदाहरणों में, उन मात्राओं को न्यूनतम करने के अतिरिक्त अधिकतम किया जाएगा)। कार्य जो अप्रशिक्षित शिक्षा के प्रतिमान के अंतर्गत आते हैं, वे सामान्य सन्निकटन समस्याएँ हैं; अनुप्रयोगों में डेटा क्लस्टरिंग, सांख्यिकीय वितरण का अनुमान, डेटा संपीड़न और बायेसियन स्पैम फ़िल्टरिंग सम्मिलित हैं।

सुदृढीकरण सीखना
वीडियो गेम खेलने जैसे अनुप्रयोगों में, अभिनेता कई क्रियाएं करता है, प्रत्येक के बाद पर्यावरण से सामान्यतः अप्रत्याशित प्रतिक्रिया प्राप्त करता है। लक्ष्य खेल जीतना है, अर्थात् सबसे सकारात्मक (न्यूनतम व्यय) प्रतिक्रियाएं उत्पन्न करना है। सुदृढीकरण सीखने में, उद्देश्य नेटवर्क को भारित करना (नीति तैयार करना) है जो लंबी अवधि (अपेक्षित संचयी) व्यय को कम करने वाले कार्यों को करने के लिए है। प्रत्येक बिंदु पर एजेंट क्रिया करता है और पर्यावरण कुछ (सामान्यतः अज्ञात) नियमों के अनुसार अवलोकन और तात्कालिक व्यय उत्पन्न करता है। नियम और लंबी अवधि की व्यय सामान्यतः केवल अनुमान लगाया जा सकता है। किसी भी मोड़ पर, एजेंट यह तय करता है कि अपनी व्ययों को प्रकट करने के लिए नए कार्यों का पता लगाना है या अधिक तेज़ी से आगे बढ़ने के लिए पूर्व सीखने का लाभ उठाना है।

औपचारिक रूप से पर्यावरण को अवस्थाओं के साथ मार्कोव निर्णय प्रक्रिया (एमडीपी) $$\textstyle {s_1,...,s_n}\in S $$ के रूप और क्रियाएं $$\textstyle {a_1,...,a_m} \in A$$ के रूप में तैयार की गयी है। क्योंकि राज्य परिवर्तन ज्ञात नहीं हैं, इसके अतिरिक्त संभाव्यता वितरण का उपयोग किया जाता है: तात्कालिक व्यय वितरण $$\textstyle P(c_t|s_t)$$, अवलोकन वितरण $$\textstyle P(x_t|s_t)$$ और संक्रमण वितरण $$\textstyle P(s_{t+1}|s_t, a_t)$$, जबकि नीति को दिए गए अवलोकनों के कार्यों पर सशर्त वितरण के रूप में परिभाषित किया गया है। साथ में, दोनों मार्कोव श्रृंखला (एमसी) को परिभाषित करते हैं। उद्देश्य सबसे कम व्यय वाली एमसी की खोज करना है।

एएनएन ऐसे अनुप्रयोगों में शिक्षण घटक के रूप में कार्य करता है। एएनएन के साथ गतिशील प्रोग्रामिंग युग्मित (तंत्रिका दोलन प्रोग्रामिंग दे रही है) वाहन रूटिंग में सम्मिलित समस्याओं पर प्रयुक्त किया गया है, वीडियो गेम, प्राकृतिक संसाधन प्रबंधन  और दवा नियंत्रण समस्याओं के संख्यात्मक रूप से अनुमानित समाधान के लिए विवेकाधीन ग्रिड घनत्व को कम करते हुए भी सटीकता के नुकसान को कम करने की एएनएन की क्षमता के कारण। सुदृढीकरण सीखने के प्रतिमान के अंतर्गत आने वाले कार्य नियंत्रण समस्याएं, खेल और अन्य क्रमिक निर्णय लेने वाले कार्य हैं।

स्वयं सीखना
तंत्रिका नेटवर्क में स्व-शिक्षण को 1982 में क्रॉसबार एडैप्टिव एरे (सीएए) नामक स्व-शिक्षण में सक्षम तंत्रिका नेटवर्क के साथ प्रस्तुत किया गया था। यह केवल इनपुट, स्थिति s, और केवल आउटपुट, क्रिया (या व्यवहार) a के साथ प्रणाली है। इसमें न तो बाहरी सलाह इनपुट है और न ही पर्यावरण से बाहरी सुदृढीकरण इनपुट। सीएए क्रॉसबार फैशन में, कार्यों के बारे में निर्णय और सामने आने वाली स्थितियों के बारे में भावनाओं (भावनाओं) दोनों की गणना करता है। प्रणाली अनुभूति और भावना के बीच बातचीत से संचालित होती है। मेमोरी मैट्रिक्स को देखते हुए, W =||w(a,s)||, प्रत्येक पुनरावृत्ति में क्रॉसबार स्व-शिक्षण कलनविधि निम्नलिखित संगणना करता है: स्थिति में कार्रवाई करें a; परिणाम की स्थिति प्राप्त करें '; परिणामी स्थिति v(s') में होने की भावना की गणना करें; क्रॉसबार मेमोरी w'(a,s) = w(a,s) + v(s') अपडेट करें।

पश्चप्रचारित मूल्य (द्वितीयक सुदृढीकरण) परिणामी स्थिति के प्रति भावना है। सीएए दो वातावरणों में उपस्थित है, व्यवहारिक वातावरण है जहां यह व्यवहार करता है, और दूसरा अनुवांशिक वातावरण है, जहां से यह प्रारंभ में और केवल एक बार व्यवहारिक वातावरण में स्थितियों का सामना करने के बारे में प्रारंभिक भावनाएं प्राप्त करता है। आनुवंशिक वातावरण से जीनोम वेक्टर (प्रजाति वेक्टर) प्राप्त करने के बाद, सीएए वांछित और अवांछनीय दोनों स्थितियों वाले व्यवहारिक वातावरण में लक्ष्य-प्राप्त व्यवहार सीखेगा।

तंत्रिका विकास
neuroevolution विकासवादी संगणना का उपयोग करके तंत्रिका नेटवर्क टोपोलॉजी और भार बना सकता है। यह परिष्कृत ग्रेडिएंट डिसेंट एप्रोच के साथ प्रतिस्पर्धी है। न्यूरोइवोल्यूशन का लाभ यह है कि डेड एंड्स में फंसने का खतरा कम हो सकता है।

स्टोकेस्टिक तंत्रिका नेटवर्क
स्पिन ग्लास# शेरिंगटन-किर्कपैट्रिक मॉडल से उत्पन्न होने वाले स्टोचैस्टिक न्यूरल नेटवर्क। शेरिंगटन-किर्कपैट्रिक मॉडल एक प्रकार का कृत्रिम न्यूरल नेटवर्क है जो नेटवर्क में यादृच्छिक विविधताओं को प्रस्तुत करके बनाया गया है, या तो नेटवर्क के कृत्रिम न्यूरॉन्स स्टोचैस्टिक प्रोसेस ट्रांसफर फलन देकर, या उन्हें स्टोकेस्टिक देकर वजन। यह उन्हें अनुकूलन (गणित) समस्याओं के लिए उपयोगी उपकरण बनाता है, क्योंकि यादृच्छिक उतार-चढ़ाव नेटवर्क को मैक्सिमा और मिनिमा से बचने में सहायता करते हैं। बायेसियन दृष्टिकोण का उपयोग करके प्रशिक्षित स्टोचैस्टिक न्यूरल नेटवर्क को बायेसियन न्यूरल नेटवर्क के रूप में जाना जाता है।

अन्य
बेयसियन संभाव्यता ढांचे में, व्यय को कम करने के लिए अनुमत मॉडल के सेट पर वितरण चुना जाता है। विकासवादी तरीके, जीन अभिव्यक्ति प्रोग्रामिंग, तैयार किए हुयी धातु पे पानी चढाने की कला, अपेक्षा-अधिकतमकरण, गैर-पैरामीट्रिक तरीके और कण झुंड अनुकूलन अन्य शिक्षण कलनविधि हैं। अभिसारी पुनरावर्तन अनुमस्तिष्क अनुमस्तिष्क मॉडल अभिव्यक्ति नियंत्रकCMAC) तंत्रिका नेटवर्क के लिए लर्निंग एल्गोरिथम है।

मोड
सीखने के दो तरीके उपलब्ध हैं: स्टोकेस्टिक ग्रेडिएंट डिसेंट और बैच। स्टोकेस्टिक लर्निंग में, प्रत्येक इनपुट वजन समायोजन बनाता है। बैच लर्निंग वेट में इनपुट के बैच के आधार पर समायोजित किया जाता है, बैच पर त्रुटियों को जमा करता है। स्टोचैस्टिक लर्निंग डेटा बिंदु से गणना की गई स्थानीय ढाल का उपयोग करके प्रक्रिया में शोर का परिचय देता है; इससे नेटवर्क के लोकल मिनिमा में फंसने की संभावना कम हो जाती है। चूँकि, बैच लर्निंग सामान्यतः स्थानीय न्यूनतम के लिए तेज़, अधिक स्थिर वंश उत्पन्न करता है, क्योंकि प्रत्येक अद्यतन बैच की औसत त्रुटि की दिशा में किया जाता है। सामान्य समझौता मिनी-बैचों का उपयोग करना है, प्रत्येक बैच में नमूने के साथ छोटे बैच पूरे डेटा सेट से यादृच्छिक रूप से चुने गए हैं।

प्रकार
एएनएन तकनीकों के व्यापक परिवार के रूप में विकसित हुए हैं जिन्होंने कई डोमेन में कला की स्थिति को उन्नत किया है। सबसे सरल प्रकारों में एक या अधिक स्थिर घटक होते हैं, जिनमें इकाइयों की संख्या, परतों की संख्या, इकाई भार और टोपोलॉजी सम्मिलित हैं। गतिशील प्रकार इनमें से एक या अधिक को सीखने के माध्यम से विकसित करने की अनुमति देते हैं। उत्तरार्द्ध बहुत अधिक जटिल हैं, लेकिन सीखने की अवधि को कम कर सकते हैं और उत्तम परिणाम दे सकते हैं। कुछ प्रकार सीखने की अनुमति देते हैं या ऑपरेटर द्वारा पर्यवेक्षण की आवश्यकता होती है, जबकि अन्य स्वतंत्र रूप से काम करते हैं। कुछ प्रकार विशुद्ध रूप से हार्डवेयर में काम करते हैं, जबकि अन्य विशुद्ध रूप से सॉफ्टवेयर हैं और सामान्य प्रयोजन के कंप्यूटर पर चलते हैं।

कुछ मुख्य सफलताओं में सम्मिलित हैं: दृढ़ तंत्रिका नेटवर्क जो दृश्य और अन्य द्वि-आयामी डेटा को संसाधित करने में विशेष रूप से सफल साबित हुए हैं; लंबी अवधि की स्मृति लुप्तप्राय ढाल समस्या से बचती है और उन संकेतों को संभाल सकता है जिनमें कम और उच्च आवृत्ति घटकों का मिश्रण होता है जो बड़ी-शब्दावली वाक् पहचान में सहायता करता है,  पाठ से वाक् संश्लेषण, और फोटो-वास्तविक बात करने वाले प्रमुख; प्रतिस्पर्धी नेटवर्क जैसे कि जनरेटिव प्रतिकूल नेटवर्क जिसमें कई नेटवर्क (अलग-अलग संरचना के) एक दूसरे के साथ प्रतिस्पर्धा करते हैं, जैसे कि गेम जीतना या किसी इनपुट की प्रामाणिकता के बारे में विरोधी को धोखा देने पर।

नेटवर्क डिजाइन
न्यूरल आर्किटेक्चर सर्च (एनएएस) एएनएन डिजाइन को स्वचालित करने के लिए मशीन लर्निंग का उपयोग करता है। NAS के विभिन्न दृष्टिकोणों ने ऐसे नेटवर्क डिज़ाइन किए हैं जो हाथ से डिज़ाइन किए गए प्रणाली के साथ अच्छी तरह से तुलना करते हैं। मूल खोज कलनविधि उम्मीदवार मॉडल का प्रस्ताव करना है, डेटासेट के खिलाफ इसका मूल्यांकन करना और NAS नेटवर्क को सिखाने के लिए परिणामों को प्रतिक्रिया के रूप में उपयोग करना है। उपलब्ध प्रणाली में स्वचालित मशीन लर्निंग और AutoKeras सम्मिलित हैं। डिज़ाइन के मुद्दों में नेटवर्क परतों की संख्या, प्रकार और जुड़ाव, साथ ही साथ प्रत्येक का आकार और कनेक्शन प्रकार (पूर्ण, पूलिंग, ...) तय करना सम्मिलित है।

हाइपरपरमेटर्स को डिजाइन के हिस्से के रूप में भी परिभाषित किया जाना चाहिए (वे सीखे नहीं जाते हैं), मामलों को नियंत्रित करते हैं जैसे कि प्रत्येक परत में कितने न्यूरॉन्स हैं, सीखने की दर, कदम, स्ट्राइड, गहराई, ग्रहणशील क्षेत्र और पैडिंग (सीएनएन के लिए), आदि।

प्रयोग
कृत्रिम तंत्रिका नेटवर्क का उपयोग करने के लिए उनकी विशेषताओं की समझ की आवश्यकता होती है। एएनएन क्षमताएं निम्नलिखित व्यापक श्रेणियों में आती हैं:
 * मॉडल का चुनाव: यह डेटा प्रस्तुति और अनुप्रयोग पर निर्भर करता है। अत्यधिक जटिल मॉडल धीमी गति से सीख रहे हैं।
 * लर्निंग कलनविधि: लर्निंग कलनविधि के बीच कई ट्रेड-ऑफ उपस्थित हैं। किसी विशेष डेटा सेट पर प्रशिक्षण के लिए लगभग कोई भी कलनविधि सही हाइपरपैरामीटर के साथ अच्छी तरह से काम करेगा। चूँकि, अनदेखे डेटा पर प्रशिक्षण के लिए कलनविधि का चयन और ट्यूनिंग करने के लिए महत्वपूर्ण प्रयोग की आवश्यकता होती है।
 * मजबूती: यदि मॉडल, व्यय कार्य और सीखने के कलनविधि को उचित रूप से चुना जाता है, तो परिणामी एएनएन मजबूत हो सकता है।
 * फलन सन्निकटन, या प्रतिगमन विश्लेषण, समय श्रृंखला # भविष्यवाणी और पूर्वानुमान, फिटनेस सन्निकटन और मॉडलिंग सहित।
 * पैटर्न पहचान और अनुक्रम पहचान, नवीनता पहचान और अनुक्रमिक निर्णय लेने सहित सांख्यिकीय वर्गीकरण।
 * डाटा प्रासेसिंग, जिसमें फ़िल्टरिंग, क्लस्टरिंग, अंधा स्रोत जुदाई और कम्प्रेशन सम्मिलित हैं।
 * रोबोटिक्स, मैनिपुलेटर्स और प्रोस्थेसिस को निर्देशित करने सहित।

अनुप्रयोग
गैर-रैखिक प्रक्रियाओं को पुन: प्रस्तुत करने और मॉडल करने की उनकी क्षमता के कारण, कृत्रिम तंत्रिका नेटवर्क ने कई विषयों में आवेदन पाया है। आवेदन क्षेत्रों में प्रणाली पहचान और नियंत्रण (वाहन नियंत्रण, प्रक्षेपवक्र भविष्यवाणी, प्रक्रिया नियंत्रण, प्राकृतिक संसाधन प्रबंधन), क्वांटम रसायन, पैटर्न पहचान (रडार प्रणाली, चेहरे की पहचान प्रणाली, संकेत वर्गीकरण, रेफरी> 3डी पुनर्निर्माण, रेफरी> चॉय, क्रिस्टोफर बी।, एट अल। 3d-r2n2: सिंगल और मल्टी-व्यू 3डी ऑब्जेक्ट पुनर्निर्माण के लिए एकीकृत दृष्टिकोण . कंप्यूटर दृष्टि पर यूरोपीय सम्मेलन। स्प्रिंगर, चाम, 2016।  वस्तु पहचान और अधिक), सेंसर डेटा विश्लेषण, रेफरी> अनुक्रम पहचान (इशारा, भाषण, लिखावट पहचान और मुद्रित पाठ पहचान रेफरी>), चिकित्सा निदान, वित्त (जैसे एल्गोरिथम व्यापार), डेटा खनन, विज़ुअलाइज़ेशन, मशीन अनुवाद, सोशल नेटवर्क फ़िल्टरिंग और ईमेल स्पैम फ़िल्टरिंग। कई प्रकार के कैंसर के निदान के लिए एएनएन का उपयोग किया गया है और केवल कोशिका आकार की जानकारी का उपयोग करके अत्यधिक आक्रामक कैंसर सेल लाइनों को कम आक्रामक लाइनों से अलग करने के लिए। प्राकृतिक आपदाओं के अधीन बुनियादी ढांचे के विश्वसनीयता विश्लेषण में तेजी लाने के लिए एएनएन का उपयोग किया गया है और नींव बस्तियों की भविष्यवाणी करने के लिए। एएनएन का उपयोग भू-विज्ञान में ब्लैक-बॉक्स मॉडल बनाने के लिए भी किया गया है: जल विज्ञान,  महासागर मॉडलिंग और तटीय इंजीनियरिंग,  और भू-आकृति विज्ञान। वैध गतिविधियों और दुर्भावनापूर्ण गतिविधियों के बीच भेदभाव करने के उद्देश्य से एएनएन को कंप्यूटर सुरक्षा में नियोजित किया गया है। उदाहरण के लिए, Android मैलवेयर को वर्गीकृत करने के लिए मशीन लर्निंग का उपयोग किया गया है, धमकी देने वालों से संबंधित डोमेन की पहचान करने और सुरक्षा संकट उत्पन्न करने वाले यूआरएल का पता लगाने के लिए। पैठ परीक्षण के लिए डिज़ाइन किए गए एएनएन प्रणाली पर अनुसंधान चल रहा है, बॉटनेट का पता लगाने के लिए, क्रेडिट कार्ड धोखाधड़ी और नेटवर्क घुसपैठ।

एएनएन को भौतिकी में आंशिक अंतर समीकरणों को हल करने के लिए उपकरण के रूप में प्रस्तावित किया गया है  और मल्टी-बॉडी ओपन क्वांटम प्रणाली के गुणों का अनुकरण करें।    मस्तिष्क अनुसंधान में एएनएन ने जैविक न्यूरॉन मॉडल के अल्पकालिक व्यवहार का अध्ययन किया है, न्यूरल परिपथरी की गतिशीलता अलग-अलग न्यूरॉन्स के बीच बातचीत से उत्पन्न होती है और अमूर्त न्यूरल मॉड्यूल से व्यवहार कैसे उत्पन्न हो सकता है जो पूर्ण उप-प्रणालियों का प्रतिनिधित्व करता है। अध्ययन ने तंत्रिका नेटवर्ककी लंबी और छोटी अवधि की प्लास्टिसिटी और व्यक्तिगत न्यूरॉन से प्रणाली स्तर तक सीखने और स्मृति के संबंध पर विचार किया।

कम्प्यूटेशनल शक्ति
बहुपरत परसेप्ट्रॉन यूटीएम प्रमेय सन्निकटन है, जैसा कि सार्वभौमिक सन्निकटन प्रमेय द्वारा सिद्ध किया गया है। चूँकि, आवश्यक न्यूरॉन्स की संख्या, नेटवर्क टोपोलॉजी, वज़न और सीखने के मापदंडों के बारे में प्रमाण रचनात्मक नहीं है।

तर्कसंगत संख्या-मूल्यवान भार (पूर्ण सटीक वास्तविक संख्या-मूल्यवान भार के विपरीत) के साथ विशिष्ट आवर्तक वास्तुकला में यूनिवर्सल ट्यूरिंग मशीन की शक्ति है, न्यूरॉन्स और मानक रैखिक कनेक्शन की सीमित संख्या का उपयोग करना। इसके अतिरिक्त, वजन के लिए अपरिमेय संख्या मानों का उपयोग हाइपरकंप्यूटेशन के साथ मशीन में होता है। सुपर-ट्यूरिंग शक्ति।

क्षमता
मॉडल की क्षमता संपत्ति किसी दिए गए फलन को मॉडल करने की क्षमता से मेल खाती है। यह जानकारी की मात्रा से संबंधित है जिसे नेटवर्क में और जटिलता की धारणा में संग्रहीत किया जा सकता है। समुदाय द्वारा क्षमता की दो धारणाओं को जाना जाता है। सूचना क्षमता और वीसी आयाम। सर डेविड मैके की किताब में परसेप्ट्रॉन की सूचना क्षमता पर गहन चर्चा की गई है जो थॉमस कवर के काम का सार प्रस्तुत करता है। मानक न्यूरॉन्स के नेटवर्क की क्षमता (दृढ़ नहीं) चार नियमों द्वारा प्राप्त की जा सकती है जो न्यूरॉन को एडलाइन के रूप में समझने से प्राप्त होता है। सूचना क्षमता किसी भी डेटा को इनपुट के रूप में दिए जाने पर नेटवर्क द्वारा मॉडल किए जा सकने वाले कार्यों को कैप्चर करती है। दूसरी धारणा, कुलपति आयाम है। वीसी आयाम माप सिद्धांत के सिद्धांतों का उपयोग करता है और सर्वोत्तम संभव परिस्थितियों में अधिकतम क्षमता पाता है। यह विशिष्ट रूप में दिया गया इनपुट डेटा है। जैसा कि उल्लेख किया गया है, मनमाना इनपुट के लिए वीसी आयाम परसेप्ट्रॉन की सूचना क्षमता का आधा है। मनमाने बिंदुओं के वीसी आयाम को कभी-कभी मेमोरी क्षमता के रूप में संदर्भित किया जाता है।

अभिसरण
मॉडल एक ही समाधान पर निरंतर अभिसरण नहीं कर सकते हैं, सबसे पहले क्योंकि व्यय फलन और मॉडल के आधार पर स्थानीय न्यूनतम उपस्थित हो सकते हैं। दूसरे, उपयोग की जाने वाली ऑप्टिमाइज़ेशन विधि किसी स्थानीय न्यूनतम से दूर प्रारंभ होने पर अभिसरण की गारंटी नहीं दे सकती है। तीसरा, पर्याप्त रूप से बड़े डेटा या पैरामीटर के लिए, कुछ विधियां अव्यावहारिक हो जाती हैं।

उल्लेख करने योग्य एक अन्य उद्देश्य यह है कि प्रशिक्षण कुछ सैडल बिंदु को पार कर सकता है जो अभिसरण को गलत दिशा में ले जा सकता है।

कुछ प्रकार के एएनएन आर्किटेक्चर के अभिसरण व्यवहार को दूसरों की तुलना में अधिक समझा जाता है। जब नेटवर्क की चौड़ाई अनंत तक पहुंचती है, तो प्रशिक्षण के समय एएनएन को उसके पहले क्रम के टेलर विस्तार द्वारा अच्छी तरह से वर्णित किया जाता है, और इसलिए रैखिक मॉडल के अभिसरण व्यवहार को विरासत में मिला है। एक और उदाहरण है जब पैरामीटर छोटे होते हैं, यह देखा गया है कि एएनएन अधिकांशतः लक्ष्य कार्यों को निम्न से उच्च आवृत्तियों में फिट करते हैं। इस व्यवहार को तंत्रिका नेटवर्क के वर्णक्रमीय पूर्वाग्रह या आवृत्ति सिद्धांत के रूप में जाना जाता है।    यह घटना कुछ अच्छी तरह से अध्ययन की गई पुनरावृत्त संख्यात्मक योजनाओं जैसे जैकोबी पद्धति के व्यवहार के विपरीत है। गहरा तंत्रिका नेटवर्क कम आवृत्ति कार्यों के प्रति अधिक पक्षपाती देखा गया है।

सामान्यीकरण और सांख्यिकी
जिन अनुप्रयोगों का लक्ष्य ऐसी प्रणाली बनाना है जो अनदेखी उदाहरणों को अच्छी तरह से सामान्यीकृत करता है, अति-प्रशिक्षण की संभावना का सामना करता है। यह जटिल या अति-निर्दिष्ट प्रणालियों में उत्पन्न होता है जब नेटवर्क क्षमता आवश्यक मुक्त मापदंडों से अत्यधिक अधिक हो जाती है। दो दृष्टिकोण अति-प्रशिक्षण को संबोधित करते हैं। सबसे पहले क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन और इसी तरह की तकनीकों का उपयोग ओवर-ट्रेनिंग की उपस्थिति की जांच करने और सामान्यीकरण त्रुटि को कम करने के लिए हाइपरपैरामीटर का चयन करने के लिए है।

दूसरा नियमितीकरण (गणित) के किसी रूप का उपयोग करना है। यह अवधारणा संभाव्य (बायेसियन) ढांचे में उभरती है, जहां सरल मॉडलों पर बड़ी पूर्व संभावना का चयन करके नियमितीकरण किया जा सकता है; लेकिन सांख्यिकीय शिक्षण सिद्धांत में भी, जहां लक्ष्य दो मात्राओं को कम करना है: 'अनुभवजन्य संकट' और 'संरचनात्मक संकट', जो मोटे तौर पर प्रशिक्षण सेट पर त्रुटि और ओवरफिटिंग के कारण अनदेखी डेटा में अनुमानित त्रुटि से मेल खाता है।

पर्यवेक्षित तंत्रिका नेटवर्क जो औसत चुकता त्रुटि (एमएसई) व्यय फलन का उपयोग करते हैं, प्रशिक्षित मॉडल के विश्वास को निर्धारित करने के लिए औपचारिक सांख्यिकीय विधियों का उपयोग कर सकते हैं। सत्यापन सेट पर एमएसई का उपयोग विचरण के अनुमान के रूप में किया जा सकता है। इस मान का उपयोग सामान्य वितरण मानते हुए नेटवर्क आउटपुट के विश्वास अंतराल की गणना के लिए किया जा सकता है। इस तरह से किया गया विश्वास विश्लेषण तब तक सांख्यिकीय रूप से मान्य होता है जब तक कि आउटपुट संभाव्यता वितरण समान रहता है और नेटवर्क संशोधित नहीं होता है।

श्रेणीबद्ध लक्ष्य चर के लिए तंत्रिका नेटवर्क (या घटक-आधारित नेटवर्क में सॉफ्टमैक्स घटक) की आउटपुट परत पर सॉफ्टमैक्स सक्रियण फलन, रसद फलन का सामान्यीकरण निर्दिष्ट करके, आउटपुट को पश्च संभावनाओं के रूप में व्याख्या किया जा सकता है। यह वर्गीकरण में उपयोगी है क्योंकि यह वर्गीकरण पर निश्चित माप प्रदान करता है।

सॉफ्टमैक्स सक्रियण फलन है:


 * $$y_i=\frac{e^{x_i}}{\sum_{j=1}^c e^{x_j}}$$

<अनुभाग अंत = सिद्धांत />

प्रशिक्षण
विशेष रूप से रोबोटिक्स में तंत्रिका नेटवर्क की सामान्य आलोचना यह है कि उन्हें वास्तविक विश्व के संचालन के लिए बहुत अधिक प्रशिक्षण की आवश्यकता होती है। संभावित समाधानों में संख्यात्मक अनुकूलन कलनविधि का उपयोग करके विचित्र ढंग से अदला-बदली प्रशिक्षण उदाहरण सम्मिलित हैं, जो उदाहरण के बाद नेटवर्क कनेक्शन पारिवार्तित करते समय बहुत बड़े कदम नहीं उठाते हैं, तथाकथित मिनी-बैचों में उदाहरणों को समूहीकृत करना और / या अनुमस्तिष्क के लिए पुनरावर्ती कम से कम वर्ग कलनविधि प्रारंभ करना मॉडल अभिव्यक्ति नियंत्रक।

सिद्धांत
केंद्रीय दावा एएनएन की संख्या यह है कि वे सूचना के प्रसंस्करण के लिए नए और शक्तिशाली सामान्य सिद्धांतों को अपनाते हैं। ये सिद्धांत खराब परिभाषित हैं। यह अधिकांशतः प्रमाणित किया जाता है कि वे नेटवर्क से ही उभरती संपत्ति हैं। यह सरल सांख्यिकीय संघ (कृत्रिम तंत्रिका नेटवर्क का मूल कार्य) को सीखने या मान्यता के रूप में वर्णित करने की अनुमति देता है। 1997 में, अलेक्जेंडर ड्यूडनी ने टिप्पणी की कि, परिणामस्वरूप, कृत्रिम तंत्रिका नेटवर्क में कुछ-के-लिए-कुछ गुणवत्ता होती है, जो आलस्य की विचित्र आभा प्रदान करती है और ये कंप्यूटिंग प्रणाली कितने अच्छे हैं, इस बारे में जिज्ञासा की अलग कमी है। कोई मानवीय हाथ (या मन) हस्तक्षेप नहीं करता; समाधान ऐसे मिलते हैं मानो चमत्कार से; और ऐसा लगता है कि किसी ने कुछ नहीं सीखा है। ड्यूडनी की प्रतिक्रिया यह है कि तंत्रिका नेटवर्क कई जटिल और विविध कार्यों को संभालते हैं, जिनमें स्वायत्त रूप से उड़ने वाले विमान सम्मिलित हैं क्रेडिट कार्ड धोखाधड़ी का पता लगाने से लेकर गो (खेल) के खेल में महारत प्राप्त करने तक।

प्रौद्योगिकी लेखक रोजर ब्रिजमैन ने टिप्पणी की:

"उदाहरण के लिए, तंत्रिका नेटवर्क, न केवल इसलिए कटघरे में हैं क्योंकि उन्हें उच्च स्वर्ग के लिए सम्मोहित किया गया है, (क्या नहीं है?) बल्कि इसलिए भी कि आप यह समझे बिना सफल नेटवर्क बना सकते हैं कि यह कैसे काम करता है: संख्याओं का गुच्छा जो इसे पकड़ लेता है व्यवहार सभी संभावनाओं में 'एक अपारदर्शी, अपठनीय तालिका ... एक वैज्ञानिक संसाधन के रूप में मूल्यहीन' होगा। अपनी जोरदार घोषणा के अतिरिक्त कि विज्ञान प्रौद्योगिकी नहीं है, ड्यूडनी यहाँ तंत्रिका नेटवर्क को खराब विज्ञान के रूप में देखते हैं, जब उनमें से अधिकांश लोग केवल अच्छे इंजीनियर बनने का प्रयास कर रहे हैं। एक अपठनीय तालिका जिसे एक उपयोगी मशीन पढ़ सकती है, अभी भी अच्छी तरह से योग्य होगी।"

जैसा कि मस्तिष्क शरीर रचना विज्ञान द्वारा सूचीबद्ध किया गया है, जैविक मस्तिष्क उथले और गहरे परिपथ दोनों का उपयोग करते हैं। व्यापक विविधता प्रदर्शित करता है। वेंग ने तर्क दिया कि मस्तिष्क बड़े पैमाने पर संकेत आँकड़ों के अनुसार स्वयं-तार करता है और इसलिए, सीरियल कैस्केड सभी प्रमुख सांख्यिकीय निर्भरता को नहीं पकड़ सकता है।

हार्डवेयर
बड़े और प्रभावी तंत्रिका नेटवर्क को अत्यधिक कंप्यूटिंग संसाधनों की आवश्यकता होती है। जबकि मस्तिष्क में न्यूरॉन्स के ग्राफ (असतत गणित) के माध्यम से संकेतों को संसाधित करने के कार्य के अनुरूप हार्डवेयर होता है, वॉन न्यूमैन आर्किटेक्चर पर सरलीकृत न्यूरॉन का अनुकरण भी बड़ी मात्रा में रैंडम-एक्सेस मेमोरी और स्टोरेज का उपभोग कर सकता है। इसके अतिरिक्त, डिजाइनर को अधिकांशतः इनमें से कई कनेक्शनों और उनसे जुड़े न्यूरॉन्स के माध्यम से संकेत प्रसारित करने की आवश्यकता होती है – जिसके लिए अत्यधिक सेंट्रल प्रोसेसिंग यूनिट शक्ति और समय की आवश्यकता होती है।

जुरगेन श्मिटहुबर ने कहा कि इक्कीसवीं सदी में तंत्रिका नेटवर्क का पुनरुत्थान अत्यधिक सीमा तक हार्डवेयर में प्रगति के लिए उतार्दायी है: 1991 से 2015 तक, कंप्यूटिंग शक्ति, विशेष रूप से ग्राफ़िक्स प्रोसेसिंग युनिट (ग्राफिक्स प्रोसेसिंग यूनिट पर) पर सामान्य-उद्देश्य कंप्यूटिंग द्वारा वितरित के रूप में, लगभग एक लाख गुना बढ़ गया है, जिससे प्रशिक्षण नेटवर्क के लिए मानक बैकप्रोपैजेशन एल्गोरिथम संभव हो गया है जो पहले की तुलना में कई परतें गहरी हैं। क्षेत्र में प्रोग्राम की जा सकने वाली द्वार श्रंखला और जीपीयू जैसे एक्सेलेरेटर का उपयोग प्रशिक्षण समय को महीनों से दिनों तक कम कर सकता है।

न्यूरोमॉर्फिक इंजीनियरिंग या भौतिक तंत्रिका नेटवर्क परिपथरी में तंत्रिका नेटवर्क को सीधे प्रयुक्त करने के लिए गैर-वॉन-न्यूमैन चिप्स का निर्माण करके हार्डवेयर कठिनाई को सीधे संबोधित करता है। तंत्रिका नेटवर्क प्रसंस्करण के लिए अनुकूलित अन्य प्रकार की चिप को टेन्सर प्रोसेसिंग यूनिट या टीपीयू कहा जाता है।

व्यावहारिक प्रति उदाहरण
जैविक तंत्रिका नेटवर्क द्वारा सीखी गई बातों का विश्लेषण करने की तुलना में एएनएन द्वारा सीखी गई बातों का विश्लेषण करना बहुत आसान है। इसके अतिरिक्त, तंत्रिका नेटवर्क के लिए सीखने के कलनविधि की खोज में सम्मिलित शोधकर्ता धीरे-धीरे सामान्य सिद्धांतों को प्रकट कर रहे हैं जो सीखने की मशीन को सफल होने की अनुमति देते हैं। उदाहरण के लिए, स्थानीय के विरुद्ध गैर-स्थानीय शिक्षा और उथली के विरुद्ध गहरी वास्तुकला।

हाइब्रिड दृष्टिकोण
हाइब्रिड तंत्रिका नेटवर्क मॉडल (तंत्रिका नेटवर्क और प्रतीकात्मक दृष्टिकोण के संयोजन) के अधिवक्ताओं का कहना है कि ऐसा मिश्रण मानव मन के नेटवर्क को उत्तम ढंग से पकड़ सकता है।

यह भी देखें

 * एडलाइन
 * ऑटो ऑटोएन्कोडर
 * जैव-प्रेरित कंप्यूटिंग
 * ब्लू ब्रेन प्रोजेक्ट
 * विपत्तिपूर्ण हस्तक्षेप
 * संज्ञानात्मक वास्तुकला
 * कनेक्शन विशेषज्ञ विशेषज्ञ प्रणाली
 * कनेक्टोमिक्स
 * तंत्रिका नेटवर्क की बड़ी चौड़ाई सीमा
 * मशीन सीखने की अवधारणाओं की सूची
 * तंत्रिका गैस
 * तंत्रिका नेटवर्क सॉफ्टवेयर
 * ऑप्टिकल तंत्रिका नेटवर्क
 * समानांतर वितरित प्रसंस्करण
 * कृत्रिम बुद्धि का दर्शन
 * आवर्तक तंत्रिका नेटवर्क
 * स्पाइकिंग न्यूरल नेटवर्क
 * टेंसर उत्पाद नेटवर्क

ग्रन्थसूची

 * PDF
 * created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.
 * PDF
 * created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.
 * created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.
 * created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.
 * created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.
 * created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.
 * created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.