डीप लर्निंग



डीप लर्निंग (डीप स्ट्रक्चर्ड लर्निंग के रूप में भी जाना जाता है) कृत्रिम तंत्रिका नेटवर्क पर आधारित मशीन लर्निंग विधियों के एक व्यापक परिवार का हिस्सा है, जिसमें सीखने का प्रतिनिधित्व होता है। लर्निंग पर्यवेक्षित अध्ययन, अर्ध-पर्यवेक्षित शिक्षा | सेमी-सुपरवाइज्ड या अनियंत्रित शिक्षा हो सकती है। डीप-लर्निंग आर्किटेक्चर जैसे #Deep_neural_networkss, गहरा विश्वास नेटवर्क, गहन सुदृढीकरण सीखना, आवर्तक तंत्रिका नेटवर्क, दृढ़ तंत्रिका नेटवर्क और ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) को कंप्यूटर दृष्टी, वाक् पहचान, प्राकृतिक भाषा प्रसंस्करण, मशीन अनुवाद सहित क्षेत्रों में लागू किया गया है। जैव सूचना विज्ञान, दवा डिजाइन, चिकित्सा छवि विश्लेषण, जलवायु विज्ञान, सामग्री निरीक्षण और विशेष प्रकार के बोर्ड या पट्टे के खेल जैसे शतरंज, साँप सीढ़ी आदि कार्यक्रम, जहां उन्होंने मानव विशेषज्ञ के प्रदर्शन के बराबर और कुछ मामलों में बेहतर परिणाम दिए हैं। कृत्रिम तंत्रिका नेटवर्क (एएनएन) जैविक प्रणालियों में सूचना प्रसंस्करण और वितरित संचार नोड्स से प्रेरित थे। एएनएन में जैविक दिमाग से विभिन्न अंतर हैं। विशेष रूप से, कृत्रिम तंत्रिका नेटवर्क स्थिर और प्रतीकात्मक होते हैं, जबकि अधिकांश जीवित जीवों का जैविक मस्तिष्क गतिशील (प्लास्टिक) और एनालॉग होता है। डीप लर्निंग में विशेषण नेटवर्क में कई परतों के उपयोग को संदर्भित करता है। प्रारंभिक कार्य से पता चला है कि एक रेखीय परसेप्ट्रॉन एक सार्वभौमिक क्लासिफायरियर नहीं हो सकता है, लेकिन यह कि एक गैर-बहुपद सक्रियण कार्य वाला नेटवर्क असीमित चौड़ाई की एक छिपी हुई परत के साथ हो सकता है। डीप लर्निंग एक आधुनिक भिन्नता है जो सीमित आकार की असीमित संख्या में परतों से संबंधित है, जो हल्के परिस्थितियों में सैद्धांतिक सार्वभौमिकता को बनाए रखते हुए व्यावहारिक अनुप्रयोग और अनुकूलित कार्यान्वयन की अनुमति देती है। गहरी शिक्षा में परतों को भी विषम होने की अनुमति दी जाती है और दक्षता, प्रशिक्षण और समझ के लिए जैविक रूप से सूचित संबंध मॉडल से व्यापक रूप से विचलित होने की अनुमति दी जाती है, इसलिए संरचित भाग।

परिभाषा
डीप लर्निंग मशीन लर्निंग कलन विधि का एक वर्ग है कच्चे इनपुट से उच्च-स्तरीय सुविधाओं को उत्तरोत्तर निकालने के लिए कई परतों का उपयोग करता है। उदाहरण के लिए, छवि प्रसंस्करण में, निचली परतें किनारों की पहचान कर सकती हैं, जबकि उच्च परतें मानव से संबंधित अवधारणाओं की पहचान कर सकती हैं जैसे अंक या अक्षर या चेहरे।

सिंहावलोकन
अधिकांश आधुनिक गहन शिक्षण मॉडल कृत्रिम तंत्रिका नेटवर्क, विशेष रूप से दृढ़ तंत्रिका नेटवर्क (सीएनएन) पर आधारित होते हैं, हालांकि वे गहन जनरेटिव मॉडल में प्रस्तावित सूत्र या अव्यक्त चर भी शामिल कर सकते हैं, जैसे गहन विश्वास नेटवर्क और गहरे बोल्ट्जमैन मशीन नोड्स। मशीनें। गहन शिक्षा में, प्रत्येक स्तर अपने इनपुट डेटा को थोड़ा अधिक अमूर्त और समग्र प्रतिनिधित्व में बदलना सीखता है। एक छवि पहचान अनुप्रयोग में, अपरिष्कृत इनपुट पिक्सेल का एक मैट्रिक्स (गणित) हो सकता है; पहली प्रतिनिधित्वात्मक परत पिक्सेल को अमूर्त कर सकती है और किनारों को सांकेतिक शब्दों में बदल सकती है; दूसरी परत किनारों की रचना और सांकेतिक शब्दों में बदलना कर सकती है; तीसरी परत नाक और आंखों को कूटबद्ध कर सकती है; और चौथी परत पहचान सकती है कि छवि में एक चेहरा है। महत्वपूर्ण रूप से, एक गहरी सीखने की प्रक्रिया सीख सकती है कि किस स्तर पर किस स्तर पर इष्टतम स्थान दिया जाए। यह हैंड-ट्यूनिंग की आवश्यकता को समाप्त नहीं करता है; उदाहरण के लिए, परतों की अलग-अलग संख्या और परत आकार अमूर्तता की अलग-अलग डिग्री प्रदान कर सकते हैं। डीप इन डीप लर्निंग शब्द उन परतों की संख्या को संदर्भित करता है जिनके माध्यम से डेटा को रूपांतरित किया जाता है। अधिक सटीक रूप से, डीप लर्निंग सिस्टम में पर्याप्त क्रेडिट असाइनमेंट पाथ (CAP) गहराई होती है। सीएपी इनपुट से आउटपुट में परिवर्तन की श्रृंखला है। सीएपी इनपुट और आउटपुट के बीच संभावित कारण कनेक्शन का वर्णन करते हैं। एक फीडफॉरवर्ड न्यूरल नेटवर्क के लिए, CAPs की गहराई नेटवर्क की होती है और छिपी हुई परतों की संख्या प्लस एक होती है (क्योंकि आउटपुट लेयर भी पैरामिट्रीकृत होती है)। आवर्ती तंत्रिका नेटवर्क के लिए, जिसमें एक से अधिक बार एक परत के माध्यम से एक संकेत प्रसारित हो सकता है, सीएपी गहराई संभावित रूप से असीमित है। गहराई की कोई सार्वभौमिक रूप से स्वीकृत सीमा गहरी शिक्षा से उथले सीखने को विभाजित नहीं करती है, लेकिन अधिकांश शोधकर्ता इस बात से सहमत हैं कि गहरी शिक्षा में सीएपी की गहराई 2 से अधिक होती है।. इसके अलावा, अधिक परतें नेटवर्क की फ़ंक्शन अनुमानित क्षमता में नहीं जोड़ती हैं। डीप मॉडल (CAP > 2) उथले मॉडल की तुलना में बेहतर फीचर निकालने में सक्षम होते हैं और इसलिए, अतिरिक्त परतें सुविधाओं को प्रभावी ढंग से सीखने में मदद करती हैं।

डीप लर्निंग आर्किटेक्चर का निर्माण एक लालची एल्गोरिथम परत-दर-परत विधि से किया जा सकता है। डीप लर्निंग इन अमूर्तताओं को दूर करने में मदद करता है और प्रदर्शन को बेहतर बनाने वाली विशेषताओं को चुनता है।

पर्यवेक्षित शिक्षण कार्यों के लिए, गहन शिक्षण विधियाँ प्रमुख घटक विश्लेषण के समान कॉम्पैक्ट मध्यवर्ती अभ्यावेदन में डेटा का अनुवाद करके, और प्रतिनिधित्व में अतिरेक को दूर करने वाली स्तरित संरचनाओं को प्राप्त करके, फीचर इंजीनियरिंग को समाप्त करती हैं।

डीप लर्निंग एल्गोरिदम को अनपर्यवाइज्ड लर्निंग टास्क पर लागू किया जा सकता है। यह एक महत्वपूर्ण लाभ है क्योंकि बिना लेबल वाला डेटा लेबल किए गए डेटा की तुलना में अधिक प्रचुर मात्रा में होता है। गहरी मान्यताओं के उदाहरण जिन्हें बिना पर्यवेक्षण के तरीके से प्रशिक्षित किया जा सकता है, वे गहरे विश्वास नेटवर्क हैं।

व्याख्या
गहरे तंत्रिका नेटवर्क की व्याख्या आम तौर पर सार्वभौमिक सन्निकटन प्रमेय के संदर्भ में की जाती है    या बायेसियन निष्कर्ष। क्लासिक सार्वभौमिक सन्निकटन प्रमेय निरंतर कार्यों को अनुमानित करने के लिए परिमित आकार की एक छिपी हुई परत के साथ फीडफॉर्वर्ड तंत्रिका नेटवर्क की क्षमता से संबंधित है।  1989 में, सिग्मॉइड फ़ंक्शन सक्रियण कार्यों के लिए जॉर्ज साइबेंको द्वारा पहला प्रमाण प्रकाशित किया गया था और कर्ट हॉर्निक द्वारा 1991 में फीड-फॉरवर्ड मल्टी-लेयर आर्किटेक्चर के लिए सामान्यीकृत किया गया था। हाल के काम से यह भी पता चला है कि सार्वभौमिक सन्निकटन गैर-बाध्य सक्रियण कार्यों जैसे कि सुधारित रैखिक इकाई के लिए भी लागू होता है। गहरे तंत्रिका नेटवर्क के लिए सार्वभौमिक सन्निकटन प्रमेय सीमित चौड़ाई वाले नेटवर्क की क्षमता से संबंधित है लेकिन गहराई को बढ़ने की अनुमति है। लू एट अल। साबित कर दिया कि यदि ReLU सक्रियण के साथ एक गहरे तंत्रिका नेटवर्क की चौड़ाई इनपुट आयाम से सख्ती से बड़ी है, तो नेटवर्क किसी भी Lebesgue एकीकरण का अनुमान लगा सकता है; यदि चौड़ाई छोटी या इनपुट आयाम के बराबर है, तो एक गहरा तंत्रिका नेटवर्क एक सार्वभौमिक सन्निकटन नहीं है।

संभाव्य व्याख्या मशीन सीखने के क्षेत्र से प्राप्त होता है। यह अनुमान की विशेषता है,     साथ ही क्रमशः फिटिंग और सामान्यीकरण से संबंधित प्रशिक्षण और परीक्षण (मूल्यांकन) की अनुकूलन अवधारणाएं। अधिक विशेष रूप से, संभाव्य व्याख्या सक्रियण गैर-रैखिकता को संचयी वितरण फ़ंक्शन के रूप में मानती है। संभाव्य व्याख्या ने तंत्रिका नेटवर्क में नियमितीकरण (गणित) के रूप में ड्रॉपआउट (तंत्रिका नेटवर्क) की शुरुआत की। संभाव्य व्याख्या जॉन हॉपफील्ड, बर्नार्ड विड्रो और कुम्पती एस नरेंद्र सहित शोधकर्ताओं द्वारा पेश की गई थी और क्रिस्टोफर बिशप जैसे सर्वेक्षणों में लोकप्रिय हुई थी।

इतिहास
कुछ स्रोत बताते हैं कि फ्रैंक रोसेनब्लैट ने आज की गहन शिक्षण प्रणालियों के सभी बुनियादी अवयवों का विकास और अन्वेषण किया है। <रेफरी नाम = डीप लर्निंग का जनक कौन है? > उन्होंने 1962 में कॉर्नेल एरोनॉटिकल लेबोरेटरी, इंक., कॉर्नेल विश्वविद्यालय द्वारा प्रकाशित अपनी पुस्तक प्रिंसिपल्स ऑफ़ न्यूरोडायनामिक्स: परसेप्ट्रॉन्स एंड द थ्योरी ऑफ़ ब्रेन मैकेनिज़्म में इसका वर्णन किया।

1967 में एलेक्सी इवाखेंको और लैपा द्वारा सुपरवाइज्ड, डीप, फीडफॉरवर्ड, मल्टीलेयर परसेप्ट्रॉन के लिए पहला सामान्य, वर्किंग लर्निंग एल्गोरिदम प्रकाशित किया गया था। रेफरी नाम = ivak1965 > 1971 के एक पेपर में डेटा प्रबंधन की समूह विधि द्वारा प्रशिक्षित आठ परतों के साथ एक गहरे नेटवर्क का वर्णन किया गया था। रेफरी नाम = ivak1971 > अन्य डीप लर्निंग वर्किंग आर्किटेक्चर, विशेष रूप से कंप्यूटर विजन के लिए बनाए गए, 1980 में कुनिहिको फुकुशिमा द्वारा पेश किए गए नियोकॉग्निट्रोन के साथ शुरू हुए। रेफरी नाम = फुकु1980 >

1986 में रीना डेक्टर द्वारा मशीन लर्निंग समुदाय के लिए डीप लर्निंग शब्द पेश किया गया था। रेफरी नाम = dechter1986> रीना Dechter (1986)। बाधा-संतुष्टि समस्याओं में खोज करते हुए सीखना। कैलिफोर्निया विश्वविद्यालय, कंप्यूटर विज्ञान विभाग, संज्ञानात्मक प्रणाली प्रयोगशाला। और 2000 में बूलियन नेटवर्क थ्रेशोल्ड न्यूरॉन्स के संदर्भ में इगोर एज़ेनबर्ग और उनके सहयोगियों द्वारा कृत्रिम तंत्रिका नेटवर्क के लिए। संदर्भ नाम = aizenberg2000 >इगोर Aizenberg, Naum N. Aizenberg, Joos P.L. वंदेवाले (2000)। बहु-मूल्यवान और सार्वभौमिक बाइनरी न्यूरॉन्स: सिद्धांत, सीखना और अनुप्रयोग। स्प्रिंगर साइंस एंड बिजनेस मीडिया। 1989 में, वाई एन एल ईसीयू के अंदर एट अल। मानक पश्चप्रचार एल्गोरिथम लागू किया, जो 1970 के बाद से स्वत: विभेदीकरण के रिवर्स मोड के रूप में था,   मेल पर लिखावट की पहचान के उद्देश्य से एक गहरे तंत्रिका नेटवर्क के लिए। जबकि एल्गोरिथ्म ने काम किया, प्रशिक्षण के लिए 3 दिनों की आवश्यकता थी। 1988 में स्वतंत्र रूप से, वी झांग एट अल। अक्षरों की पहचान के लिए कनवल्शनल न्यूरल नेटवर्क (इमेज फीचर लेयर्स और अंतिम पूरी तरह से कनेक्टेड लेयर के बीच केवल कनवल्शनल इंटरकनेक्शन को ध्यान में रखते हुए एक सरलीकृत नियोकोग्निट्रॉन) के लिए बैकप्रॉपैगेशन एल्गोरिथम लागू किया और ऑप्टिकल कंप्यूटिंग सिस्टम के साथ CNN के कार्यान्वयन का भी प्रस्ताव दिया।  इसके बाद, वी झांग, एट अल। अंतिम पूरी तरह से जुड़ी हुई परत को हटाकर मॉडल को संशोधित किया और 1991 में इसे मेडिकल इमेज ऑब्जेक्ट सेगमेंटेशन के लिए लागू किया और 1994 में मैमोग्राम में स्तन कैंसर का पता लगाना। 1994 में, आंद्रे डी कार्वाल्हो ने, माइक फेयरहर्स्ट और डेविड बिसेट के साथ, एक बहु-परत बूलियन तंत्रिका नेटवर्क के प्रायोगिक परिणाम प्रकाशित किए, जिसे एक भारहीन तंत्रिका नेटवर्क के रूप में भी जाना जाता है, जो 3-परतों के स्व-आयोजन सुविधा निष्कर्षण तंत्रिका नेटवर्क मॉड्यूल से बना है ( SOFT) के बाद एक बहु-परत वर्गीकरण तंत्रिका नेटवर्क मॉड्यूल (GSN), जो स्वतंत्र रूप से प्रशिक्षित थे। सुविधा निष्कर्षण मॉड्यूल में प्रत्येक परत पिछली परत के संबंध में बढ़ती जटिलता के साथ सुविधाओं को निकालती है। 1995 में, ब्रेंडन फ्रे ने प्रदर्शित किया कि पीटर डायन और जेफ्री हिंटन के साथ सह-विकसित वेक-स्लीप एल्गोरिथम का उपयोग करके छह पूरी तरह से जुड़ी हुई परतों और कई सौ छिपी हुई इकाइयों वाले नेटवर्क को प्रशिक्षित करना (दो दिनों में) संभव था। कई कारक धीमी गति में योगदान करते हैं, जिसमें 1991 में सेप होचराइटर द्वारा विश्लेषण की गई गायब होने वाली ढाल समस्या भी शामिल है। 1997 के बाद से, स्वेन बेन्के ने न्यूरल एब्स्ट्रक्शन पिरामिड में फीड-फॉरवर्ड पदानुक्रमित दृढ़ दृष्टिकोण का विस्तार किया निर्णयों में लचीले ढंग से संदर्भ को शामिल करने और स्थानीय अस्पष्टताओं को पुनरावृत्त रूप से हल करने के लिए पार्श्व और पिछड़े कनेक्शन द्वारा।

1990 और 2000 के दशक में गैबर फिल्टर और समर्थन वेक्टर यंत्र (एसवीएम) जैसे कार्य-विशिष्ट दस्तकारी सुविधाओं का उपयोग करने वाले सरल मॉडल कृत्रिम तंत्रिका नेटवर्क (एएनएन) की कम्प्यूटेशनल लागत और मस्तिष्क के तारों को समझने की कमी के कारण एक लोकप्रिय विकल्प थे। इसके जैविक नेटवर्क।

एएनएन के उथले और गहन शिक्षण (जैसे, आवर्तक जाल) दोनों का कई वर्षों से पता लगाया गया है। भेदभावपूर्ण ढंग से प्रशिक्षित भाषण के जनरेटिव मॉडल के आधार पर इन विधियों ने कभी भी गैर-समान आंतरिक-हैंडक्राफ्टिंग गॉसियन मिश्रण मॉडल / छिपा हुआ मार्कोव मॉडल (जीएमएम-एचएमएम) तकनीक से बेहतर प्रदर्शन नहीं किया। प्रमुख कठिनाइयों का विश्लेषण किया गया है, जिसमें ग्रेडिएंट ह्रासमान भी शामिल है और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना। अतिरिक्त कठिनाइयों में प्रशिक्षण डेटा और सीमित कंप्यूटिंग शक्ति की कमी थी।

जनरेटिव मॉडलिंग को आगे बढ़ाने के लिए अधिकांश भाषण मान्यता शोधकर्ता तंत्रिका जाल से दूर चले गए। 1990 के दशक के अंत में श्री इंटरनेशनल में एक अपवाद था। अमेरिकी सरकार की राष्ट्रीय सुरक्षा एजेंसी और DARPA द्वारा वित्त पोषित, SRI ने भाषण और वक्ता पहचान में गहरे तंत्रिका नेटवर्क का अध्ययन किया। लैरी हेक के नेतृत्व में स्पीकर रिकग्निशन टीम ने 1998 के मानक और प्रौद्योगिकी का राष्ट्रीय संस्थान वक्ता मान्यता इवैल्यूएशन में स्पीच प्रोसेसिंग में डीप न्यूरल नेटवर्क के साथ महत्वपूर्ण सफलता की सूचना दी। SRI डीप न्यूरल नेटवर्क को तब Nuance Verifier में तैनात किया गया था, जो डीप लर्निंग के पहले प्रमुख औद्योगिक अनुप्रयोग का प्रतिनिधित्व करता है। 1990 के दशक के अंत में कच्चे स्पेक्ट्रोग्राम या रैखिक फिल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर की वास्तुकला में पहली बार हाथ से तैयार किए गए अनुकूलन पर कच्चे सुविधाओं को ऊपर उठाने का सिद्धांत सफलतापूर्वक खोजा गया था। मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के चरण शामिल हैं। वाक्, तरंगों की कच्ची विशेषताएं, बाद में बड़े पैमाने पर उत्कृष्ट परिणाम उत्पन्न करती हैं। वाक् पहचान के कई पहलुओं को 1997 में होच्रेइटर और जुरगेन श्मिटुबर द्वारा प्रकाशित एक आवर्तक तंत्रिका नेटवर्क, लंबी अवधि की स्मृति (LSTM) नामक एक गहन शिक्षण पद्धति द्वारा लिया गया था। LSTM आवर्तक तंत्रिका नेटवर्क लुप्त हो रही ढाल की समस्या से बचते हैं और बहुत गहन शिक्षण कार्य सीख सकते हैं इसके लिए उन घटनाओं की यादों की आवश्यकता होती है जो हजारों असतत समय पहले घटित हुई थीं, जो भाषण के लिए महत्वपूर्ण है। 2003 में, LSTM ने कुछ कार्यों में पारंपरिक भाषण पहचानकर्ताओं के साथ प्रतिस्पर्धा करना शुरू कर दिया। बाद में इसे कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC) के साथ जोड़ दिया गया LSTM RNN के ढेर में। 2015 में, Google की वाक् पहचान ने कथित तौर पर CTC-प्रशिक्षित LSTM के माध्यम से 49% की एक नाटकीय प्रदर्शन छलांग का अनुभव किया, जिसे उन्होंने Google Voice Search के माध्यम से उपलब्ध कराया। 2006 में, जेफ्री हिंटन, रस सलखतदिनोव, ओसिन्देरो और यी व्हाई चाय द्वारा प्रकाशन ने दिखाया कि कैसे एक बहु-स्तरित फीडफॉरवर्ड न्यूरल नेटवर्क को एक समय में एक परत को प्रभावी ढंग से पूर्व-प्रशिक्षित किया जा सकता है, प्रत्येक परत को एक अनियंत्रित प्रतिबंधित बोल्ट्जमैन मशीन के रूप में माना जाता है, फिर पर्यवेक्षित बैकप्रॉपेगेशन का उपयोग करके इसे ठीक किया जाता है। गहन विश्वास जाल के लिए सीखने के लिए संदर्भित कागजात।

डीप लर्निंग विभिन्न विषयों, विशेष रूप से कंप्यूटर दृष्टि और स्वचालित वाक् पहचान (एएसआर) में अत्याधुनिक प्रणालियों का हिस्सा है। आमतौर पर उपयोग किए जाने वाले मूल्यांकन सेट जैसे TIMIT (ASR) और MNIST डेटाबेस (छवि वर्गीकरण), साथ ही साथ बड़े-शब्दावली वाक् पहचान कार्यों की एक श्रृंखला के परिणामों में लगातार सुधार हुआ है। CTC द्वारा ASR के लिए संवेदी तंत्रिका नेटवर्क (CNNs) को हटा दिया गया एलएसटीएम के लिए।  लेकिन कंप्यूटर दृष्टि में अधिक सफल होते हैं।

उद्योग में गहन शिक्षा का प्रभाव 2000 के दशक की शुरुआत में शुरू हुआ, जब यान लेकन के अनुसार, सीएनएन ने पहले ही यूएस में लिखे गए सभी चेकों का अनुमानित 10% से 20% संसाधित कर दिया था। बड़े पैमाने पर वाक् पहचान के लिए गहन शिक्षण का औद्योगिक अनुप्रयोग 2010 के आसपास शुरू हुआ।

वाक् पहचान के लिए डीप लर्निंग पर 2009 की एनआईपीएस कार्यशाला भाषण के गहन जनरेटिव मॉडल की सीमाओं से प्रेरित थी, और संभावना है कि अधिक सक्षम हार्डवेयर और बड़े पैमाने पर डेटा सेट दिए गए हैं जो डीप न्यूरल नेट (डीएनएन) व्यावहारिक हो सकते हैं। यह माना जाता था कि गहन विश्वास जाल (DBN) के जनरेटिव मॉडल का उपयोग करके DNN का पूर्व-प्रशिक्षण तंत्रिका जाल की मुख्य कठिनाइयों को दूर करेगा। हालांकि, यह पता चला कि बड़े, संदर्भ-निर्भर आउटपुट परतों के साथ DNNs का उपयोग करते समय सीधे बैकप्रोपैजेशन के लिए बड़ी मात्रा में प्रशिक्षण डेटा के साथ पूर्व-प्रशिक्षण को प्रतिस्थापित करने से तत्कालीन अत्याधुनिक गॉसियन मिश्रण मॉडल (GMM) की तुलना में नाटकीय रूप से कम त्रुटि दर उत्पन्न हुई। )/हिडन मार्कोव मॉडल (एचएमएम) और अधिक उन्नत जनरेटिव मॉडल-आधारित सिस्टम भी। दो प्रकार की प्रणालियों द्वारा उत्पन्न पहचान त्रुटियों की प्रकृति विशिष्ट रूप से भिन्न थी, सभी प्रमुख भाषण पहचान प्रणालियों द्वारा तैनात मौजूदा अत्यधिक कुशल, रन-टाइम भाषण डिकोडिंग प्रणाली में गहरी शिक्षा को एकीकृत करने के तरीके में तकनीकी अंतर्दृष्टि प्रदान करना। 2009-2010 के आसपास विश्लेषण, GMM (और अन्य जनरेटिव स्पीच मॉडल) बनाम DNN मॉडल के विपरीत, वाक् पहचान के लिए गहन शिक्षण में प्रारंभिक औद्योगिक निवेश को प्रेरित किया, अंततः उस उद्योग में व्यापक और प्रभावी उपयोग के लिए अग्रणी। यह विश्लेषण भेदभावपूर्ण DNN और जनरेटिव मॉडल के बीच तुलनीय प्रदर्शन (त्रुटि दर में 1.5% से कम) के साथ किया गया था। 2010 में, शोधकर्ताओं ने निर्णय पेड़ों द्वारा निर्मित संदर्भ-निर्भर एचएमएम राज्यों के आधार पर डीएनएन की बड़ी आउटपुट परतों को अपनाकर टीआईएमआईटी से बड़ी शब्दावली भाषण मान्यता तक गहन शिक्षा का विस्तार किया।

हार्डवेयर में प्रगति ने गहन शिक्षा में नए सिरे से रुचि पैदा की है। 2009 में, NVIDIA डीप लर्निंग के "बिग बैंग" में शामिल था, "डीप-लर्निंग न्यूरल नेटवर्क को एनवीडिया ग्राफ़िक्स प्रोसेसिंग युनिट (जीपीयू) के साथ प्रशिक्षित किया गया था।" उस वर्ष, एंड्रयू एनजी ने निर्धारित किया कि जीपीयू डीप-लर्निंग सिस्टम की गति को लगभग 100 गुना बढ़ा सकता है। विशेष रूप से, जीपीयू मशीन सीखने में शामिल मैट्रिक्स/वेक्टर कंप्यूटेशंस के लिए उपयुक्त हैं। जीपीयू प्रशिक्षण एल्गोरिदम को परिमाण के क्रम में गति देते हैं, सप्ताहों से दिनों तक चलने वाले समय को कम करते हैं। इसके अलावा, विशेष हार्डवेयर और एल्गोरिथम अनुकूलन का उपयोग गहन शिक्षण मॉडल के कुशल प्रसंस्करण के लिए किया जा सकता है।

गहरी सीखने की क्रांति
2012 में, जॉर्ज ई. डहल के नेतृत्व में एक टीम ने एक दवा के जैव-आणविक लक्ष्य की भविष्यवाणी करने के लिए मल्टी-टास्क डीप न्यूरल नेटवर्क का उपयोग करके मर्क मॉलिक्यूलर एक्टिविटी चैलेंज जीता। 2014 में, Hochreiter के समूह ने पोषक तत्वों, घरेलू उत्पादों और दवाओं में पर्यावरणीय रसायनों के ऑफ-टारगेट और विषाक्त प्रभावों का पता लगाने के लिए डीप लर्निंग का उपयोग किया और NIH, FDA और नेशनल सेंटर फॉर एडवांसिंग ट्रांसलेशनल साइंसेज का Tox21 डेटा चैलेंज जीता। छवि या वस्तु पहचान में महत्वपूर्ण अतिरिक्त प्रभाव 2011 से 2012 तक महसूस किए गए थे। हालांकि बैकप्रोपैजेशन द्वारा प्रशिक्षित सीएनएन दशकों से मौजूद थे, और सीएनएन सहित वर्षों से एनएन के जीपीयू कार्यान्वयन, कंप्यूटर दृष्टि पर प्रगति के लिए जीपीयू पर सीएनएन के तेजी से कार्यान्वयन की आवश्यकता थी।. 2011 में, इस दृष्टिकोण ने पहली बार दृश्य पैटर्न मान्यता प्रतियोगिता में अलौकिक प्रदर्शन हासिल किया। इसके अलावा 2011 में, इसने ICDAR चीनी लिखावट प्रतियोगिता जीती, और मई 2012 में, इसने ISBI छवि विभाजन प्रतियोगिता जीती। 2011 तक, CNNs ने कंप्यूटर विज़न सम्मेलनों में एक प्रमुख भूमिका नहीं निभाई, लेकिन जून 2012 में, Ciresan et al द्वारा एक पेपर। अग्रणी सम्मेलन सीवीपीआर में दिखाया गया है कि कैसे GPU पर अधिकतम-पूलिंग CNNs नाटकीय रूप से कई विज़न बेंचमार्क रिकॉर्ड में सुधार कर सकते हैं। अक्टूबर 2012 में, क्रिज़ेव्स्की एट अल द्वारा एक समान प्रणाली। उथले मशीन सीखने के तरीकों पर एक महत्वपूर्ण अंतर से बड़े पैमाने पर इमेजनेट प्रतियोगिता जीती। नवंबर 2012 में, Ciresan et al. के सिस्टम ने कैंसर का पता लगाने के लिए बड़ी चिकित्सा छवियों के विश्लेषण पर ICPR प्रतियोगिता भी जीती, और अगले वर्ष भी इसी विषय पर MICCAI ग्रैंड चैलेंज भी जीता। 2013 और 2014 में, बड़े पैमाने पर वाक् पहचान में समान प्रवृत्ति के बाद, गहन शिक्षा का उपयोग करके इमेजनेट कार्य पर त्रुटि दर को और कम कर दिया गया था।

छवि वर्गीकरण तब छवियों के लिए स्वचालित छवि एनोटेशन (कैप्शन) के अधिक चुनौतीपूर्ण कार्य तक बढ़ा दिया गया था, अक्सर सीएनएन और एलएसटीएम के संयोजन के रूप में। कुछ शोधकर्ताओं का कहना है कि अक्टूबर 2012 इमेजनेट की जीत ने गहन शिक्षण क्रांति की शुरुआत की जिसने एआई उद्योग को बदल दिया है। मार्च 2019 में, जोशुआ बेंगियो, जेफ्री हिंटन और यान लेकन को वैचारिक और इंजीनियरिंग सफलताओं के लिए ट्यूरिंग अवार्ड से सम्मानित किया गया, जिसने गहरे तंत्रिका नेटवर्क को कंप्यूटिंग का एक महत्वपूर्ण घटक बना दिया है।

कृत्रिम तंत्रिका नेटवर्क
कृत्रिम तंत्रिका नेटवर्क (एएनएन) या कनेक्शनिज्म सिस्टम जैविक तंत्रिका नेटवर्क से प्रेरित कंप्यूटिंग सिस्टम हैं जो पशु मस्तिष्क का गठन करते हैं। ऐसी प्रणालियाँ उदाहरणों पर विचार करके कार्य करने के लिए सीखती हैं (उत्तरोत्तर अपनी क्षमता में सुधार करती हैं), आमतौर पर कार्य-विशिष्ट प्रोग्रामिंग के बिना। उदाहरण के लिए, छवि पहचान में, वे उदाहरण छवियों का विश्लेषण करके उन छवियों की पहचान करना सीख सकते हैं जिनमें बिल्ली या बिल्ली नहीं के रूप में डेटा को मैन्युअल रूप से लेबल किया गया है और अन्य छवियों में बिल्लियों की पहचान करने के लिए विश्लेषणात्मक परिणामों का उपयोग किया गया है। उन्होंने नियम-आधारित प्रोग्रामिंग का उपयोग करते हुए एक पारंपरिक कंप्यूटर एल्गोरिथ्म के साथ व्यक्त करने में कठिन अनुप्रयोगों में सबसे अधिक उपयोग पाया है।

एएनएन कृत्रिम न्यूरॉन्स नामक जुड़ी इकाइयों के संग्रह पर आधारित है, (मस्तिष्क में जैविक न्यूरॉन्स के अनुरूप)। न्यूरॉन्स के बीच प्रत्येक कनेक्शन (सिनेप्स) दूसरे न्यूरॉन को एक संकेत भेज सकता है। प्राप्त करने वाला (पोस्टसिनेप्टिक) न्यूरॉन सिग्नल को प्रोसेस कर सकता है और फिर उससे जुड़े डाउनस्ट्रीम न्यूरॉन्स को सिग्नल कर सकता है। आमतौर पर 0 और 1 के बीच, न्यूरॉन्स में वास्तविक संख्या द्वारा दर्शाए गए राज्य हो सकते हैं। न्यूरॉन्स और निष्कर्ष का वजन भी हो सकता है जो सीखने की प्रक्रिया के रूप में बदलता रहता है, जो सिग्नल की ताकत को बढ़ा या घटा सकता है जो इसे नीचे की ओर भेजता है।

आमतौर पर, न्यूरॉन्स परतों में व्यवस्थित होते हैं। विभिन्न परतें अपने इनपुट पर विभिन्न प्रकार के परिवर्तन कर सकती हैं। सिग्नल पहली (इनपुट) से अंतिम (आउटपुट) परत तक यात्रा करते हैं, संभवतः कई बार परतों को पार करने के बाद।

तंत्रिका नेटवर्क दृष्टिकोण का मूल लक्ष्य समस्याओं को उसी तरह हल करना था जिस तरह से एक मानव मस्तिष्क करेगा। समय के साथ, विशिष्ट मानसिक क्षमताओं के मिलान पर ध्यान केंद्रित किया गया, जिससे जीव विज्ञान से विचलन जैसे बैकप्रोपैगेशन, या विपरीत दिशा में जानकारी पास करना और उस जानकारी को प्रतिबिंबित करने के लिए नेटवर्क को समायोजित करना।

न्यूरल नेटवर्क का उपयोग कंप्यूटर दृष्टि, वाक् पहचान, मशीन अनुवाद, सामाजिक जाल फ़िल्टरिंग, सामान्य गेम खेलने और चिकित्सा निदान सहित विभिन्न कार्यों पर किया गया है।

2017 तक, तंत्रिका नेटवर्क में आमतौर पर कुछ हज़ार से लेकर कुछ मिलियन यूनिट और लाखों कनेक्शन होते हैं। इस संख्या के मानव मस्तिष्क पर न्यूरॉन्स की संख्या से कम परिमाण के कई क्रम होने के बावजूद, ये नेटवर्क मनुष्यों से परे एक स्तर पर कई कार्य कर सकते हैं (जैसे, चेहरे को पहचानना, या गो खेलना ).

गहरे तंत्रिका नेटवर्क
एक गहरा तंत्रिका नेटवर्क (DNN) एक कृत्रिम तंत्रिका नेटवर्क (ANN) है जिसमें इनपुट और आउटपुट परतों के बीच कई परतें होती हैं। विभिन्न प्रकार के तंत्रिका नेटवर्क हैं लेकिन उनमें हमेशा समान घटक होते हैं: न्यूरॉन्स, सिनैप्स, वज़न, पूर्वाग्रह और कार्य। ये घटक संपूर्ण रूप से मानव मस्तिष्क के समान कार्य करते हैं, और इन्हें किसी भी अन्य एमएल एल्गोरिथम की तरह प्रशिक्षित किया जा सकता है। उदाहरण के लिए, एक डीएनएन जिसे कुत्तों की नस्लों को पहचानने के लिए प्रशिक्षित किया गया है, दी गई छवि पर जाएगा और संभावना की गणना करेगा कि छवि में कुत्ता एक निश्चित नस्ल है। उपयोगकर्ता परिणामों की समीक्षा कर सकता है और चयन कर सकता है कि नेटवर्क को कौन सी संभावनाओं को प्रदर्शित करना चाहिए (एक निश्चित सीमा से ऊपर, आदि) और प्रस्तावित लेबल वापस करें। प्रत्येक गणितीय हेरफेर को एक परत माना जाता है, और जटिल DNN में कई परतें होती हैं, इसलिए इसे डीप नेटवर्क कहा जाता है।

DNN जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। DNN आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं जहाँ वस्तु को आदिम डेटा प्रकार की स्तरित रचना के रूप में व्यक्त किया जाता है। अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, समान रूप से प्रदर्शन करने वाले उथले नेटवर्क की तुलना में कम इकाइयों के साथ संभावित मॉडलिंग जटिल डेटा। उदाहरण के लिए, यह साबित हो गया था कि विरल बहुभिन्नरूपी बहुपद डीएनएन के साथ उथले नेटवर्क की तुलना में अनुमानित रूप से आसान हैं। डीप आर्किटेक्चर में कुछ बुनियादी दृष्टिकोणों के कई रूप शामिल हैं। प्रत्येक आर्किटेक्चर को विशिष्ट डोमेन में सफलता मिली है। एकाधिक आर्किटेक्चर के प्रदर्शन की तुलना करना हमेशा संभव नहीं होता है, जब तक कि उनका मूल्यांकन एक ही डेटा सेट पर नहीं किया गया हो।

DNN आमतौर पर फीडफॉरवर्ड नेटवर्क होते हैं जिसमें डेटा इनपुट लेयर से आउटपुट लेयर तक बिना लूपिंग के प्रवाहित होता है। सबसे पहले, DNN आभासी न्यूरॉन्स का एक नक्शा बनाता है और उनके बीच के कनेक्शन के लिए यादृच्छिक संख्यात्मक मान, या भार प्रदान करता है। वज़न और इनपुट को गुणा किया जाता है और 0 और 1 के बीच एक आउटपुट देता है। यदि नेटवर्क किसी विशेष पैटर्न को सटीक रूप से नहीं पहचानता है, तो एक एल्गोरिथ्म वजन को समायोजित करेगा। इस तरह एल्गोरिथ्म कुछ मापदंडों को अधिक प्रभावशाली बना सकता है, जब तक कि यह डेटा को पूरी तरह से संसाधित करने के लिए सही गणितीय हेरफेर निर्धारित नहीं करता है।

आवर्ती तंत्रिका नेटवर्क (आरएनएन), जिसमें डेटा किसी भी दिशा में प्रवाहित हो सकता है, भाषा मॉडलिंग जैसे अनुप्रयोगों के लिए उपयोग किया जाता है।   इस उपयोग के लिए लंबी अवधि की स्मृति विशेष रूप से प्रभावी है। कन्वर्सेशनल न्यूरल नेटवर्क | कन्वर्सेशनल डीप न्यूरल नेटवर्क (CNNs) का उपयोग कंप्यूटर विज़न में किया जाता है। सीएनएन को स्वचालित वाक् पहचान (एएसआर) के लिए ध्वनिक मॉडलिंग पर भी लागू किया गया है।

चुनौतियां
जैसा कि एएनएन के साथ होता है, भोले-भाले प्रशिक्षित डीएनएन के साथ कई मुद्दे उत्पन्न हो सकते हैं। overfitting और गणना समय दो सामान्य मुद्दे हैं।

अमूर्तता की अतिरिक्त परतों के कारण DNN ओवरफिटिंग के लिए प्रवण हैं, जो उन्हें प्रशिक्षण डेटा में दुर्लभ निर्भरता को मॉडल करने की अनुमति देता है। नियमितीकरण (गणित) विधियाँ जैसे कि इवाखेंको की इकाई छंटाई या वजन क्षय ($$ \ell_2 $$-नियमन) या विरल मैट्रिक्स ($$ \ell_1 $$-नियमन) ओवरफिटिंग से निपटने के लिए प्रशिक्षण के दौरान लागू किया जा सकता है। वैकल्पिक रूप से ड्रॉपआउट नियमितकरण प्रशिक्षण के दौरान छिपी हुई परतों से इकाइयों को बेतरतीब ढंग से छोड़ देता है। यह दुर्लभ निर्भरताओं को बाहर करने में मदद करता है। अंत में, डेटा को क्रॉपिंग और रोटेटिंग जैसे तरीकों के माध्यम से संवर्धित किया जा सकता है ताकि ओवरफिटिंग की संभावना को कम करने के लिए छोटे प्रशिक्षण सेटों को आकार में बढ़ाया जा सके। DNN को कई प्रशिक्षण मापदंडों पर विचार करना चाहिए, जैसे कि आकार (परतों की संख्या और प्रति परत इकाइयों की संख्या), सीखने की दर और प्रारंभिक भार। हाइपरपरमीटर ऑप्टिमाइज़ेशन# समय और कम्प्यूटेशनल संसाधनों में लागत के कारण इष्टतम पैरामीटर के लिए ग्रिड खोज संभव नहीं है। विभिन्न तरकीबें, जैसे बैचिंग (व्यक्तिगत उदाहरणों के बजाय एक बार में कई प्रशिक्षण उदाहरणों पर ग्रेडिएंट की गणना करना) गणना तेज करें। मैट्रिक्स और वेक्टर संगणनाओं के लिए ऐसे प्रसंस्करण आर्किटेक्चर की उपयुक्तता के कारण, कई-कोर आर्किटेक्चर (जैसे जीपीयू या इंटेल झियोन फी) की बड़ी प्रसंस्करण क्षमताओं ने प्रशिक्षण में महत्वपूर्ण स्पीडअप का उत्पादन किया है। वैकल्पिक रूप से, इंजीनियर अधिक सरल और अभिसरण प्रशिक्षण एल्गोरिदम के साथ अन्य प्रकार के तंत्रिका नेटवर्क की तलाश कर सकते हैं। CMAC (अनुमस्तिष्क मॉडल अभिव्यक्ति नियंत्रक) एक ऐसा तंत्रिका नेटवर्क है। इसके लिए सीएमएसी के लिए सीखने की दर या यादृच्छिक प्रारंभिक भार की आवश्यकता नहीं है। प्रशिक्षण प्रक्रिया को डेटा के एक नए बैच के साथ एक चरण में अभिसरण करने की गारंटी दी जा सकती है, और प्रशिक्षण एल्गोरिदम की कम्प्यूटेशनल जटिलता शामिल न्यूरॉन्स की संख्या के संबंध में रैखिक है।

हार्डवेयर
2010 के बाद से, मशीन लर्निंग एल्गोरिदम और संगणक धातु सामग्री दोनों में प्रगति ने गहरे तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए अधिक कुशल तरीकों का नेतृत्व किया है जिसमें गैर-रैखिक छिपी इकाइयों की कई परतें और एक बहुत बड़ी आउटपुट परत होती है। 2019 तक, ग्राफिक प्रोसेसिंग यूनिट्स (जीपीयू), अक्सर एआई-विशिष्ट संवर्द्धन के साथ, बड़े पैमाने पर वाणिज्यिक क्लाउड एआई के प्रशिक्षण के प्रमुख तरीके के रूप में सीपीयू को विस्थापित कर दिया था। OpenAI ने अनुमान लगाया कि एलेक्सनेट (2012) से लेकर अल्फ़ाज़ेरो (2017) तक की सबसे बड़ी गहन शिक्षण परियोजनाओं में उपयोग की जाने वाली हार्डवेयर संगणना, और 3.4 महीने की दोहरीकरण-समय की प्रवृत्ति के साथ आवश्यक संगणना की मात्रा में 300,000 गुना वृद्धि पाई गई। डीप लर्निंग प्रोसेसर नामक विशेष विद्युत सर्किट को डीप लर्निंग एल्गोरिदम को गति देने के लिए डिज़ाइन किया गया था। डीप लर्निंग प्रोसेसर में हुवाई सेलफोन में न्यूरल प्रोसेसिंग यूनिट (एनपीयू) शामिल हैं और Google क्लाउड प्लेटफ़ॉर्म में क्लाउड कम्प्यूटिंग सर्वर जैसे टेंसर प्रसंस्करण इकाई (TPU)। दिमाग ने उद्योग में सबसे बड़े प्रोसेसर, दूसरी पीढ़ी के वेफर स्केल इंजन (WSE-2) पर आधारित बड़े डीप लर्निंग मॉडल, CS-2 को संभालने के लिए एक समर्पित प्रणाली भी बनाई है। परमाणु रूप से पतले अर्धचालकों को ऊर्जा-कुशल डीप लर्निंग हार्डवेयर के लिए आशाजनक माना जाता है, जहाँ तार्किक संचालन और डेटा भंडारण दोनों के लिए समान मूल उपकरण संरचना का उपयोग किया जाता है। 2020 में, मरेगा एट अल। चल-गेट फील्ड इफ़ेक्ट ट्रांजिस्टर (एफजीएफईटी) के आधार पर लॉजिक-इन-मेमोरी डिवाइस और सर्किट विकसित करने के लिए एक बड़े क्षेत्र सक्रिय चैनल सामग्री के साथ प्रकाशित प्रयोग। 2021 में, जे. फेल्डमैन एट अल। समांतर दृढ़ प्रसंस्करण के लिए एक एकीकृत फोटोनिक हार्डवेयर त्वरक प्रस्तावित किया। लेखक अपने इलेक्ट्रॉनिक समकक्षों पर एकीकृत फोटोनिक्स के दो प्रमुख लाभों की पहचान करते हैं: (1) तरंगदैर्घ्य डिवीजन बहुसंकेतन के माध्यम से आवृत्ति कॉम्ब्स के संयोजन के माध्यम से बड़े पैमाने पर समानांतर डेटा स्थानांतरण, और (2) अत्यंत उच्च डेटा मॉडुलन गति। उनकी प्रणाली प्रति सेकंड खरबों गुणा-संचय के संचालन को निष्पादित कर सकती है, जो डेटा-भारी एआई अनुप्रयोगों में फोटोनिक एकीकृत सर्किट फोटोनिक्स की क्षमता का संकेत देती है।

स्वचालित भाषण पहचान
बड़े पैमाने पर स्वचालित वाक् पहचान गहरी शिक्षा का पहला और सबसे ठोस सफल मामला है। LSTM RNN बहुत गहन शिक्षण कार्य सीख सकते हैं जिसमें हजारों अलग-अलग समय चरणों से अलग भाषण घटनाओं वाले बहु-सेकंड अंतराल शामिल होते हैं, जहां एक बार कदम लगभग 10 एमएस से मेल खाता है। भूल गेट्स के साथ LSTM कुछ कार्यों पर पारंपरिक भाषण पहचानकर्ताओं के साथ प्रतिस्पर्धी है।

वाक् पहचान में प्रारंभिक सफलता TIMIT पर आधारित लघु-स्तरीय पहचान कार्यों पर आधारित थी। डेटा सेट में अमेरिकी अंग्रेजी की आठ प्रमुख बोलियों के 630 वक्ता हैं, जहां प्रत्येक वक्ता 10 वाक्य पढ़ता है। इसका छोटा आकार कई कॉन्फ़िगरेशन को आज़माने देता है। इससे भी महत्वपूर्ण बात यह है कि TIMIT कार्य फ़ोन-अनुक्रम पहचान से संबंधित है, जो शब्द-अनुक्रम पहचान के विपरीत, कमजोर फ़ोन बाइग्राम भाषा मॉडल की अनुमति देता है। यह भाषण मान्यता के ध्वनिक मॉडलिंग पहलुओं की ताकत का अधिक आसानी से विश्लेषण करने देता है। नीचे सूचीबद्ध त्रुटि दर, इन शुरुआती परिणामों सहित और प्रतिशत फ़ोन त्रुटि दर (प्रति) के रूप में मापी गई, को 1991 से सारांशित किया गया है।

1990 के दशक के अंत में स्पीकर पहचान के लिए DNN की शुरुआत और 2009-2011 के आसपास भाषण मान्यता और 2003-2007 के आसपास LSTM, आठ प्रमुख क्षेत्रों में त्वरित प्रगति:


 * स्केल-अप/आउट और त्वरित DNN प्रशिक्षण और डिकोडिंग
 * अनुक्रम भेदभावपूर्ण प्रशिक्षण
 * अंतर्निहित तंत्र की ठोस समझ के साथ गहरे मॉडल द्वारा फ़ीचर प्रोसेसिंग
 * डीएनएन और संबंधित गहरे मॉडल का अनुकूलन
 * बहु-कार्य सीखना| डीएनएन और संबंधित डीप मॉडल्स द्वारा मल्टी-टास्क और सीखने को स्थानांतरित करें
 * संवादात्मक तंत्रिका नेटवर्क और भाषण के डोमेन ज्ञान का सर्वोत्तम उपयोग करने के लिए उन्हें कैसे डिज़ाइन किया जाए
 * आवर्तक तंत्रिका नेटवर्क और इसके समृद्ध LSTM संस्करण
 * अन्य प्रकार के गहरे मॉडल जिनमें टेंसर-आधारित मॉडल और एकीकृत गहन जनरेटिव/विभेदक मॉडल शामिल हैं।

सभी प्रमुख व्यावसायिक वाक् पहचान प्रणालियाँ (जैसे, Microsoft Cortana (सॉफ़्टवेयर), Xbox, Skype Translator, Amazon Alexa, Google Now, महोदय मै, Baidu और IFlytek ध्वनि खोज, और Nuance Communications वाक् उत्पादों की एक श्रृंखला, आदि) गहरे पर आधारित हैं सीख रहा हूँ।

छवि पहचान
छवि वर्गीकरण के लिए एक सामान्य मूल्यांकन सेट MNIST डेटाबेस डेटा सेट है। MNIST हस्तलिखित अंकों से बना है और इसमें 60,000 प्रशिक्षण उदाहरण और 10,000 परीक्षण उदाहरण शामिल हैं। TIMIT की तरह, इसका छोटा आकार उपयोगकर्ताओं को कई कॉन्फ़िगरेशन का परीक्षण करने देता है। इस सेट पर परिणामों की एक व्यापक सूची उपलब्ध है। गहरी शिक्षा-आधारित छवि पहचान मानव प्रतियोगियों की तुलना में अधिक सटीक परिणाम उत्पन्न करते हुए अलौकिक बन गई है। यह पहली बार 2011 में यातायात संकेतों की पहचान और 2014 में मानव चेहरों की पहचान के साथ हुआ था। डीप लर्निंग-प्रशिक्षित वाहन अब 360° कैमरा दृश्यों की व्याख्या करते हैं। एक अन्य उदाहरण फेशियल डिस्मॉर्फोलॉजी नॉवेल एनालिसिस (एफडीएनए) है जिसका उपयोग आनुवंशिक सिंड्रोम के एक बड़े डेटाबेस से जुड़े मानव विकृति के मामलों का विश्लेषण करने के लिए किया जाता है।

विजुअल आर्ट प्रोसेसिंग
छवि पहचान में की गई प्रगति से निकटता से संबंधित विभिन्न दृश्य कला कार्यों के लिए गहन शिक्षण तकनीकों का बढ़ता अनुप्रयोग है। डीएनएन ने खुद को सक्षम साबित कर दिया है, उदाहरण के लिए
 * किसी दिए गए पेंटिंग की शैली अवधि की पहचान करना * तंत्रिका शैली स्थानांतरण –  किसी दिए गए आर्टवर्क की शैली को कैप्चर करना और इसे मनमाना फोटोग्राफ या वीडियो के लिए दृष्टि से सुखद तरीके से लागू करना  * यादृच्छिक दृश्य इनपुट फ़ील्ड के आधार पर आकर्षक इमेजरी उत्पन्न करना।

प्राकृतिक भाषा प्रसंस्करण
2000 के दशक की शुरुआत से भाषा मॉडल को लागू करने के लिए तंत्रिका नेटवर्क का उपयोग किया गया है। LSTM ने मशीनी अनुवाद और भाषा मॉडलिंग को बेहतर बनाने में मदद की।

इस क्षेत्र की अन्य प्रमुख तकनीकें नकारात्मक नमूनाकरण हैं और शब्द एम्बेडिंग। वर्ड एम्बेडिंग, जैसे कि word2vec, को एक गहन शिक्षण वास्तुकला में एक प्रतिनिधित्वात्मक परत के रूप में माना जा सकता है जो एक परमाणु शब्द को डेटासेट में अन्य शब्दों के सापेक्ष शब्द के एक स्थितीय प्रतिनिधित्व में बदल देता है; स्थिति को वेक्टर अंतरिक्ष में एक बिंदु के रूप में दर्शाया गया है। आरएनएन इनपुट परत के रूप में शब्द एम्बेडिंग का उपयोग करने से नेटवर्क को एक प्रभावी रचनात्मक सदिश व्याकरण का उपयोग करके वाक्यों और वाक्यांशों को पार्स करने की अनुमति मिलती है। एक रचनात्मक सदिश व्याकरण को RNN द्वारा कार्यान्वित संभाव्य संदर्भ मुक्त व्याकरण (PCFG) के रूप में माना जा सकता है। शब्द एम्बेडिंग के ऊपर निर्मित पुनरावर्ती ऑटो-एनकोडर वाक्य समानता का आकलन कर सकते हैं और व्याख्या का पता लगा सकते हैं। डीप न्यूरल आर्किटेक्चर सांख्यिकीय विश्लेषण के लिए सर्वोत्तम परिणाम प्रदान करते हैं, भावनाओं का विश्लेषण, सूचना की पुनर्प्राप्ति, बोली जाने वाली भाषा समझ, मशीन अनुवाद,  प्रासंगिक इकाई लिंकिंग, लेखन शैली की पहचान, पाठ वर्गीकरण और अन्य। हाल के विकास शब्द एम्बेडिंग को वाक्य एम्बेडिंग में सामान्यीकृत करते हैं।

Google Translate (GT) एक बड़े एंड-टू-एंड लॉन्ग शॉर्ट-टर्म मेमोरी (LSTM) नेटवर्क का उपयोग करता है। Google Google तंत्रिका मशीन अनुवाद| Google न्यूरल मशीन ट्रांसलेशन (GNMT) एक उदाहरण-आधारित मशीन अनुवाद पद्धति का उपयोग करता है जिसमें सिस्टम लाखों उदाहरणों से सीखता है। यह टुकड़ों के बजाय पूरे वाक्यों का एक बार में अनुवाद करता है। Google अनुवाद एक सौ से अधिक भाषाओं का समर्थन करता है। नेटवर्क केवल वाक्यांश-से-वाक्यांश अनुवादों को याद करने के बजाय वाक्य के शब्दार्थ को कूटबद्ध करता है। जीटी अधिकांश भाषा युग्मों के बीच एक मध्यवर्ती के रूप में अंग्रेजी का उपयोग करता है।

दवा की खोज और विष विज्ञान
उम्मीदवार दवाओं का एक बड़ा प्रतिशत विनियामक अनुमोदन प्राप्त करने में विफल रहता है। ये विफलताएं अपर्याप्त प्रभावकारिता (ऑन-टारगेट इफेक्ट), अवांछित इंटरैक्शन (ऑफ-टारगेट इफेक्ट), या अप्रत्याशित विषाक्तता के कारण होती हैं। अनुसंधान ने जैव-आणविक लक्ष्यों की भविष्यवाणी करने के लिए गहन शिक्षा के उपयोग का पता लगाया है, लक्ष्य से दूर, और पोषक तत्वों, घरेलू उत्पादों और दवाओं में पर्यावरणीय रसायनों की विषाक्तता।

AtomNet संरचना-आधारित ड्रग डिज़ाइन के लिए एक गहन शिक्षण प्रणाली है। एटमनेट का उपयोग इबोला वायरस जैसे रोग लक्ष्यों के लिए उपन्यास उम्मीदवार बायोमोलेक्यूल्स की भविष्यवाणी करने के लिए किया गया था और मल्टीपल स्क्लेरोसिस 2017 में एक बड़े विष विज्ञान डेटा सेट में अणुओं के विभिन्न गुणों की भविष्यवाणी करने के लिए पहली बार ग्राफ तंत्रिका नेटवर्क का उपयोग किया गया था। 2019 में, जनरेटिव न्यूरल नेटवर्क का उपयोग अणुओं का उत्पादन करने के लिए किया गया था जो चूहों में प्रयोगात्मक रूप से मान्य थे।

ग्राहक संबंध प्रबंधन
RFM (ग्राहक मूल्य) चर के संदर्भ में परिभाषित संभावित प्रत्यक्ष विपणन क्रियाओं के मूल्य का अनुमान लगाने के लिए गहन सुदृढीकरण सीखने का उपयोग किया गया है। अनुमानित मूल्य फ़ंक्शन को ग्राहक आजीवन मूल्य के रूप में प्राकृतिक व्याख्या के रूप में दिखाया गया था।

अनुशंसा प्रणाली
अनुशंसा प्रणाली ने सामग्री-आधारित संगीत और जर्नल अनुशंसाओं के लिए एक अव्यक्त कारक मॉडल के लिए सार्थक विशेषताओं को निकालने के लिए गहन शिक्षण का उपयोग किया है। मल्टी-व्यू डीप लर्निंग को कई डोमेन से उपयोगकर्ता की प्राथमिकताओं को सीखने के लिए लागू किया गया है। मॉडल एक मिश्रित सहयोगी और सामग्री-आधारित दृष्टिकोण का उपयोग करता है और कई कार्यों में अनुशंसाओं को बढ़ाता है।

जैव सूचना विज्ञान
जीन ओन्टोलॉजी एनोटेशन और जीन-फ़ंक्शन संबंधों की भविष्यवाणी करने के लिए जैव सूचना विज्ञान में एक autoencoder एएनएन का उपयोग किया गया था। चिकित्सा सूचना विज्ञान में, पहनने योग्य डेटा के आधार पर नींद की गुणवत्ता की भविष्यवाणी करने के लिए गहन शिक्षा का उपयोग किया गया था और इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड डेटा से स्वास्थ्य जटिलताओं की भविष्यवाणी।

चिकित्सा छवि विश्लेषण
डीप लर्निंग को मेडिकल एप्लिकेशन जैसे कि कैंसर सेल वर्गीकरण, घाव का पता लगाने, अंग विभाजन और छवि वृद्धि में प्रतिस्पर्धी परिणाम उत्पन्न करने के लिए दिखाया गया है। आधुनिक गहन शिक्षण उपकरण विभिन्न रोगों का पता लगाने की उच्च सटीकता और निदान दक्षता में सुधार के लिए विशेषज्ञों द्वारा उनके उपयोग की सहायता को प्रदर्शित करते हैं।

मोबाइल विज्ञापन
मोबाइल विज्ञापन के लिए उपयुक्त मोबाइल ऑडियंस खोजना हमेशा चुनौतीपूर्ण होता है, क्योंकि किसी भी विज्ञापन सर्वर द्वारा लक्षित सेगमेंट बनाने और विज्ञापन प्रस्तुति में उपयोग करने से पहले कई डेटा बिंदुओं पर विचार और विश्लेषण किया जाना चाहिए। बड़े, कई-आयामी विज्ञापन डेटासेट की व्याख्या करने के लिए डीप लर्निंग का उपयोग किया गया है। अनुरोध/सेवा/क्लिक इंटरनेट विज्ञापन चक्र के दौरान कई डेटा बिंदु एकत्र किए जाते हैं। यह जानकारी विज्ञापन चयन को बेहतर बनाने के लिए मशीन लर्निंग का आधार बन सकती है।

छवि बहाली
डीनोइज़िंग, सुपर संकल्प, inpainting और फिल्म का रंगीकरण जैसी उलटी समस्याओं के लिए डीप लर्निंग को सफलतापूर्वक लागू किया गया है। इन अनुप्रयोगों में प्रभावी छवि बहाली के लिए श्रिंकेज फील्ड्स जैसे सीखने के तरीके शामिल हैं जो इमेज डेटासेट पर ट्रेन करता है, और डीप इमेज प्रायर, जो उस इमेज पर ट्रेन करता है जिसे रिस्टोर करने की जरूरत होती है।

वित्तीय धोखाधड़ी का पता लगाना
वित्तीय धोखाधड़ी का पता लगाने, कर चोरी का पता लगाने के लिए डीप लर्निंग को सफलतापूर्वक लागू किया जा रहा है। और एंटी-मनी लॉन्ड्रिंग। प्रशिक्षण डेटा का उत्पादन करने के लिए वित्तीय अपराध के अभियोजन के रूप में अप्रशिक्षित शिक्षा का एक संभावित प्रभावशाली प्रदर्शन आवश्यक है।

यह भी ध्यान देने योग्य बात है कि हालांकि स्वचालित वित्तीय अपराध का पता लगाने में कला मॉडल की स्थिति कुछ समय के लिए अस्तित्व में है, यहाँ पर संदर्भित गहरी शिक्षा के लिए आवेदन बहुत सरल सैद्धांतिक मॉडल के तहत नाटकीय रूप से प्रदर्शन करते हैं। ऐसा ही एक, अभी तक लागू किया जाने वाला मॉडल, वित्तीय अपराधों के लिए सेंसर लोकेशन ह्यूरिस्टिक एंड सिंपल एनी ह्यूमन डिटेक्शन (SLHSAHDFC), एक उदाहरण है।

मॉडल यह चुनने के सरल अनुमान के साथ काम करता है कि उसे अपना इनपुट डेटा कहाँ मिलता है। धन और शक्ति के बड़े संकेंद्रण वाले स्थानों पर सेंसर लगाकर और फिर किसी भी जीवित इंसान की पहचान करके, यह पता चलता है कि वित्तीय अपराध का स्वचालित पता लगाना बहुत उच्च सटीकता और बहुत उच्च आत्मविश्वास के स्तर पर पूरा किया जाता है। इससे भी बेहतर, यह मॉडल न केवल अपराध बल्कि बड़े, बहुत विनाशकारी और गंभीर अपराध की पहचान करने में बेहद प्रभावी साबित हुआ है। इस तरह के मॉडलों की प्रभावशीलता के कारण यह अत्यधिक संभावना है कि गहन शिक्षा द्वारा वित्तीय अपराध का पता लगाने के लिए आवेदन कभी भी प्रतिस्पर्धा करने में सक्षम नहीं होंगे।

छवि निर्माण
एआई इमेज जनरेटर कल्पनाओं को कला में बदल सकता है। एक शक्तिशाली एआई के साथ संचालित, यह सरल निर्देशों और ग्रंथों के आधार पर कला और चित्र बनाता है। 2022 में स्थिर प्रसार नामक डीप लर्निंग द्वारा समर्थित एक मॉडल के रूप में वायरल हुआ, आर्ट इमेज जनरेटिंग तकनीक ने डिजिटल इमेज प्रेमियों की बढ़ती संख्या को आकर्षित किया है। उसी समय, कई इमेज जेनरेटर टूल्स का जन्म हुआ। एआई आधारित इमेज जेनरेटर आमतौर पर जीपीटी-3 तकनीक के तहत काम करते हैं। आश्चर्यजनक कार्टून प्रभाव और अपेक्षित विवरण के साथ स्वचालित ड्राइंग बनाना काफी आसान है।

सैन्य
संयुक्त राज्य अमेरिका के रक्षा विभाग ने अवलोकन के माध्यम से रोबोटों को नए कार्यों में प्रशिक्षित करने के लिए गहन शिक्षा लागू की।

आंशिक अंतर समीकरण
भौतिकी से अवगत तंत्रिका नेटवर्क का उपयोग डेटा संचालित तरीके से आगे और उलटा दोनों समस्याओं में आंशिक अंतर समीकरणों को हल करने के लिए किया गया है। एक उदाहरण नेवियर-स्टोक्स समीकरणों|नेवियर-स्टोक्स समीकरणों द्वारा शासित पुनर्रचना द्रव प्रवाह है। भौतिकी सूचित तंत्रिका नेटवर्क का उपयोग करने के लिए अक्सर महंगी जाल पीढ़ी की आवश्यकता नहीं होती है, जो पारंपरिक कम्प्यूटेशनल द्रव गतिकी विधियों पर निर्भर करती है।

छवि पुनर्निर्माण
छवि पुनर्निर्माण छवि से संबंधित मापों से अंतर्निहित छवियों का पुनर्निर्माण है। कई कार्यों ने विभिन्न अनुप्रयोगों के लिए विश्लेषणात्मक तरीकों की तुलना में गहन शिक्षण विधियों के बेहतर और बेहतर प्रदर्शन को दिखाया, उदाहरण के लिए, स्पेक्ट्रल इमेजिंग और अल्ट्रासाउंड इमेजिंग। एपिजेनेटिक क्लॉक

अधिक जानकारी के लिए उम्र बढ़ने की घड़ी देखें।

एक एपिजेनेटिक क्लॉक उम्र बढ़ने का एक बायोमार्कर है जिसका उपयोग उम्र को मापने के लिए किया जा सकता है। गल्किन एट अल। >6,000 रक्त नमूनों का उपयोग करके अभूतपूर्व सटीकता की एपिजेनेटिक एजिंग क्लॉक को प्रशिक्षित करने के लिए डीप तंत्रिका नेटवर्क का उपयोग किया। घड़ी 1000 CpG साइटों से जानकारी का उपयोग करती है और स्वस्थ नियंत्रण से पुरानी कुछ स्थितियों वाले लोगों की भविष्यवाणी करती है: सूजन आंत्र रोग, मनोभ्रंश, डिम्बग्रंथि के कैंसर, मोटापा। एजिंग क्लॉक को 2021 में इंसिलिको मेडिसिन स्पिनऑफ़ कंपनी डीप लॉन्गवेटी द्वारा सार्वजनिक उपयोग के लिए जारी करने की योजना है।

मानव संज्ञानात्मक और मस्तिष्क के विकास से संबंध
1990 के दशक की शुरुआत में संज्ञानात्मक न्यूरोसाइंटिस्ट द्वारा प्रस्तावित मस्तिष्क विकास (विशेष रूप से, नियोकोर्टिकल विकास) के सिद्धांतों की एक श्रेणी से गहन शिक्षा निकटता से संबंधित है।   इन विकासात्मक सिद्धांतों को कम्प्यूटेशनल मॉडल में त्वरित किया गया, जिससे वे गहन शिक्षण प्रणालियों के पूर्ववर्ती बन गए। ये विकासात्मक मॉडल उस संपत्ति को साझा करते हैं जो मस्तिष्क में विभिन्न प्रस्तावित सीखने की गतिशीलता (जैसे, तंत्रिका विकास कारक की एक लहर) स्व-संगठन का समर्थन करती है जो कि गहन शिक्षण मॉडल में उपयोग किए जाने वाले तंत्रिका नेटवर्क के अनुरूप है। नियोकॉर्टेक्स की तरह, तंत्रिका नेटवर्क स्तरित फिल्टर के एक पदानुक्रम को नियोजित करते हैं जिसमें प्रत्येक परत एक पूर्व परत (या ऑपरेटिंग वातावरण) से जानकारी पर विचार करती है, और फिर इसके आउटपुट (और संभवतः मूल इनपुट) को अन्य परतों तक पहुंचाती है। यह प्रक्रिया ट्रांसड्यूसर के एक स्व-संगठित स्टैक का उत्पादन करती है, जो उनके ऑपरेटिंग वातावरण के लिए अच्छी तरह से तैयार है। 1995 के एक विवरण में कहा गया है, ... शिशु का मस्तिष्क तथाकथित ट्रॉफिक-कारकों की तरंगों के प्रभाव में खुद को व्यवस्थित करता है ... मस्तिष्क के विभिन्न क्षेत्र क्रमिक रूप से जुड़े होते हैं, ऊतक की एक परत दूसरे से पहले परिपक्व होती है और इसी तरह जब तक कि पूरा मस्तिष्क परिपक्व न हो जाए। न्यूरोबायोलॉजिकल दृष्टिकोण से गहन शिक्षण मॉडल की संभाव्यता की जांच के लिए कई तरह के दृष्टिकोणों का उपयोग किया गया है। एक ओर, इसके प्रसंस्करण यथार्थवाद को बढ़ाने के लिए बैकप्रॉपैगेशन एल्गोरिथम के कई वेरिएंट प्रस्तावित किए गए हैं। अन्य शोधकर्ताओं ने तर्क दिया है कि गहरी शिक्षा के अप्रशिक्षित रूप, जैसे कि पदानुक्रमित जनरेटिव मॉडल और गहरे विश्वास नेटवर्क पर आधारित, जैविक वास्तविकता के करीब हो सकते हैं।  इस संबंध में, जनरेटिव न्यूरल नेटवर्क मॉडल सेरेब्रल कॉर्टेक्स में सैंपलिंग-आधारित प्रसंस्करण के बारे में न्यूरोबायोलॉजिकल साक्ष्य से संबंधित हैं। हालांकि मानव मस्तिष्क संगठन और गहरे नेटवर्क में न्यूरोनल एन्कोडिंग के बीच एक व्यवस्थित तुलना अभी तक स्थापित नहीं हुई है, कई उपमाएं बताई गई हैं। उदाहरण के लिए, गहन शिक्षण इकाइयों द्वारा की जाने वाली संगणनाएँ वास्तविक न्यूरॉन्स के समान हो सकती हैं और तंत्रिका आबादी। इसी तरह, डीप लर्निंग मॉडल द्वारा विकसित अभ्यावेदन प्राइमेट विज़ुअल सिस्टम में मापे गए अभ्यावेदन के समान हैं दोनों एकल-इकाई पर और जनसंख्या पर स्तर।

वाणिज्यिक गतिविधि
फेसबुक की एआई लैब लोगों के नाम के साथ ऑटोमेटिक इमेज एनोटेशन जैसे काम करती है। Google की डीपमाइंड टेक्नोलॉजीज ने डेटा इनपुट के रूप में केवल पिक्सेल का उपयोग करके अटारी वीडियो गेम खेलने का तरीका सीखने में सक्षम एक प्रणाली विकसित की। 2015 में उन्होंने अपने AlphaGo सिस्टम का प्रदर्शन किया, जिसने गो (खेल) के खेल को अच्छी तरह से सीखा और एक पेशेवर गो खिलाड़ी को हरा दिया।  Google Translate 100 से अधिक भाषाओं के बीच अनुवाद करने के लिए तंत्रिका नेटवर्क का उपयोग करता है।

2017 में, Covariant.ai लॉन्च किया गया था, जो कारखानों में गहन शिक्षा को एकीकृत करने पर केंद्रित है। 2008 तक, ऑस्टिन (यूटी) में टेक्सास विश्वविद्यालय के शोधकर्ताओं ने एक मशीन सीखने की रूपरेखा विकसित की है जिसे मूल्यांकन सुदृढीकरण, या टैमर के माध्यम से मैन्युअल रूप से एक एजेंट का प्रशिक्षण कहा जाता है, जिसने मानव प्रशिक्षक के साथ बातचीत करके कार्य करने के तरीके सीखने के लिए रोबोट या कंप्यूटर प्रोग्राम के लिए नए तरीके प्रस्तावित किए। पहले TAMER के रूप में विकसित, डीप TAMER नामक एक नया एल्गोरिथ्म बाद में 2018 में अमेरिकी सेना अनुसंधान प्रयोगशाला (ARL) और UT शोधकर्ताओं के बीच सहयोग के दौरान पेश किया गया था। डीप टैमर ने रोबोट को अवलोकन के माध्यम से नए कार्यों को सीखने की क्षमता प्रदान करने के लिए गहन शिक्षण का उपयोग किया। डीप टैमर का उपयोग करते हुए, एक रोबोट ने एक मानव प्रशिक्षक के साथ एक कार्य सीखा, वीडियो स्ट्रीम देखना या मानव को व्यक्तिगत रूप से कार्य करते हुए देखना। रोबोट ने बाद में ट्रेनर से कुछ कोचिंग की मदद से कार्य का अभ्यास किया, जिन्होंने "अच्छी नौकरी" और "बुरी नौकरी" जैसी प्रतिक्रिया दी।

आलोचना और टिप्पणी
डीप लर्निंग ने आलोचना और टिप्पणी दोनों को आकर्षित किया है, कुछ मामलों में कंप्यूटर विज्ञान के क्षेत्र के बाहर से भी।

सिद्धांत
एक मुख्य आलोचना कुछ विधियों के आस-पास सिद्धांत की कमी से संबंधित है। सबसे आम गहरे आर्किटेक्चर में सीखना अच्छी तरह से समझे जाने वाले ग्रेडिएंट डिसेंट का उपयोग करके कार्यान्वित किया जाता है। हालांकि, अन्य एल्गोरिदम के आस-पास का सिद्धांत, जैसे विपरीत विचलन, कम स्पष्ट है। (उदाहरण के लिए, क्या यह अभिसरण करता है? यदि हां, तो कितनी तेजी से? यह क्या सन्निकटन कर रहा है?) गहन शिक्षण विधियों को अक्सर एक ब्लैक बॉक्स के रूप में देखा जाता है, जिसमें अधिकांश पुष्टि सैद्धांतिक रूप से नहीं बल्कि अनुभवजन्य रूप से की जाती है। दूसरों का कहना है कि गहरी शिक्षा को मजबूत एआई को साकार करने की दिशा में एक कदम के रूप में देखा जाना चाहिए, न कि एक व्यापक समाधान के रूप में। गहन शिक्षण विधियों की शक्ति के बावजूद, उनमें अभी भी इस लक्ष्य को पूरी तरह से साकार करने के लिए आवश्यक कार्यक्षमता का अभाव है। अनुसंधान मनोवैज्ञानिक गैरी मार्कस ने कहा:  वास्तविक रूप से, गहन शिक्षा बुद्धिमान मशीनों के निर्माण की बड़ी चुनौती का केवल एक हिस्सा है। इस तरह की तकनीकों में कार्य-कारण का प्रतिनिधित्व करने के तरीकों का अभाव है (...) के पास अनुमान लगाने का कोई स्पष्ट तरीका नहीं है, और वे अमूर्त ज्ञान को एकीकृत करने से अभी भी एक लंबा रास्ता तय करते हैं, जैसे कि वस्तुएं क्या हैं, वे किस लिए हैं, और वे कैसे हैं आम तौर पर इस्तेमाल किया। सबसे शक्तिशाली ए.आई. वॉटसन (कंप्यूटर) (...) जैसी प्रणालियां गहरी शिक्षा जैसी तकनीकों का उपयोग तकनीकों के एक बहुत ही जटिल समूह में केवल एक तत्व के रूप में करती हैं, जिसमें बायेसियन अनुमान की सांख्यिकीय तकनीक से लेकर निगमनात्मक तर्क शामिल हैं। 

इस विचार के आगे संदर्भ में कि कलात्मक संवेदनशीलता संज्ञानात्मक पदानुक्रम के अपेक्षाकृत निम्न स्तरों में निहित हो सकती है, गहरे (20-30 परतों) तंत्रिका नेटवर्क के आंतरिक राज्यों के ग्राफिक प्रतिनिधित्वों की एक प्रकाशित श्रृंखला अनिवार्य रूप से यादृच्छिक डेटा छवियों के भीतर विचार करने का प्रयास करती है। जिस पर उन्हें प्रशिक्षण दिया गया एक दृश्य अपील प्रदर्शित करें: मूल शोध नोटिस को 1,000 से अधिक टिप्पणियां प्राप्त हुईं, और वह विषय था जो एक समय के लिए अभिभावक के सबसे अधिक बार एक्सेस किया गया लेख था। वेबसाइट।

त्रुटियां
कुछ डीप लर्निंग आर्किटेक्चर समस्याग्रस्त व्यवहार प्रदर्शित करते हैं, जैसे सामान्य छवियों की एक परिचित श्रेणी (2014) से संबंधित अपरिचित छवियों को आत्मविश्वास से वर्गीकृत करना और सही ढंग से वर्गीकृत छवियों (2013) के लघु गड़बड़ी को गलत तरीके से वर्गीकृत करना। बेन गोएर्टज़ेल ने परिकल्पना की कि ये व्यवहार उनके आंतरिक अभ्यावेदन में सीमाओं के कारण हैं और ये सीमाएँ विषम बहु-घटक कृत्रिम सामान्य बुद्धिमत्ता (एजीआई) आर्किटेक्चर में एकीकरण को बाधित करेंगी। इन मुद्दों को संभवतः गहन शिक्षण आर्किटेक्चर द्वारा संबोधित किया जा सकता है जो आंतरिक रूप से छवि-व्याकरण के समरूप राज्यों का निर्माण करते हैं देखी गई संस्थाओं और घटनाओं का अपघटन। प्रशिक्षण डेटा से व्याकरण प्रेरण (दृश्य या भाषाई) सिस्टम को सामान्य ज्ञान तर्क तक सीमित करने के बराबर होगा जो व्याकरणिक उत्पादन (कंप्यूटर विज्ञान) के संदर्भ में अवधारणाओं पर काम करता है और मानव भाषा अधिग्रहण दोनों का मूल लक्ष्य है और कृत्रिम बुद्धि (एआई)।

साइबर खतरा
जैसे-जैसे गहरी सीख प्रयोगशाला से दुनिया में आती है, अनुसंधान और अनुभव बताते हैं कि कृत्रिम तंत्रिका नेटवर्क हैक और धोखे की चपेट में हैं। इन प्रणालियों द्वारा कार्य करने के लिए उपयोग किए जाने वाले पैटर्न की पहचान करके, हमलावर एएनएन में इनपुट को इस तरह से संशोधित कर सकते हैं कि एएनएन एक ऐसा मैच ढूंढता है जिसे मानव पर्यवेक्षक पहचान नहीं पाएंगे। उदाहरण के लिए, एक हमलावर एक छवि में सूक्ष्म परिवर्तन कर सकता है जैसे कि एएनएन एक मैच पाता है, भले ही छवि मानव को खोज लक्ष्य की तरह कुछ भी न लगे। इस तरह के हेरफेर को "प्रतिकूल हमला" कहा जाता है। 2016 में शोधकर्ताओं ने परीक्षण और त्रुटि फैशन में चिकित्सक छवियों के लिए एक एएनएन का उपयोग किया, दूसरे के फोकल बिंदुओं की पहचान की और इस तरह ऐसी छवियां उत्पन्न कीं जो इसे धोखा देती हैं। संशोधित छवियां मानव आंखों के लिए अलग नहीं दिखतीं। एक अन्य समूह ने दिखाया कि छेड़छाड़ की गई छवियों के प्रिंटआउट और फिर खींची गई तस्वीरों ने एक छवि वर्गीकरण प्रणाली को सफलतापूर्वक धोखा दिया। एक बचाव रिवर्स इमेज सर्च है, जिसमें टिनआई जैसी साइट पर एक संभावित नकली छवि सबमिट की जाती है, जो इसके अन्य उदाहरणों को ढूंढ सकती है। एक परिशोधन छवि के केवल भागों का उपयोग करके खोज करना है, उन छवियों की पहचान करना जिनसे वह टुकड़ा लिया गया हो सकता है। एक अन्य समूह ने दिखाया कि कुछ साइकेडेलिक कला चश्मा एक चेहरे की पहचान प्रणाली को मूर्ख बना सकते हैं, यह सोचकर कि आम लोग सेलिब्रिटी थे, संभावित रूप से एक व्यक्ति को दूसरे को प्रतिरूपित करने की अनुमति देता है। 2017 में शोधकर्ताओं ने संकेतों को रोकने के लिए स्टिकर जोड़े और एएनएन को उन्हें गलत वर्गीकृत करने के लिए प्रेरित किया।

हालांकि एएनएन को धोखे के प्रयासों का पता लगाने के लिए आगे प्रशिक्षित किया जा सकता है, संभावित रूप से अग्रणी हमलावरों और रक्षकों को हथियारों की दौड़ में उसी तरह से जोड़ा जाता है जो पहले से ही मैलवेयर रक्षा उद्योग को परिभाषित करता है। एएनएन को एएनएन-आधारित एंटी-मैलवेयर सॉफ़्टवेयर को पराजित करने के लिए प्रशिक्षित किया गया है, जो मैलवेयर के साथ एक रक्षा पर बार-बार हमला कर रहा है, जो एक आनुवंशिक एल्गोरिथ्म द्वारा लगातार बदल दिया गया था, जब तक कि यह लक्ष्य को नुकसान पहुंचाने की क्षमता को बनाए रखते हुए एंटी-मैलवेयर को धोखा नहीं देता।

2016 में, एक अन्य समूह ने प्रदर्शित किया कि कुछ ध्वनियाँ Google नाओ वॉयस कमांड सिस्टम को एक विशेष वेब पता खोल सकती हैं, और परिकल्पना की कि यह आगे के हमलों के लिए एक कदम के रूप में काम कर सकता है (जैसे, ड्राइव-बाय मालवेयर होस्ट करने वाला वेब पेज खोलना)।

"डेटा पॉइज़निंग" में, झूठे डेटा को लगातार मशीन लर्निंग सिस्टम के प्रशिक्षण सेट में महारत हासिल करने से रोकने के लिए तस्करी की जाती है।

मानव microwork पर निर्भरता
अधिकांश डीप लर्निंग सिस्टम प्रशिक्षण और सत्यापन डेटा पर भरोसा करते हैं जो मानव द्वारा उत्पन्न और/या एनोटेट किया जाता है। मीडिया अध्ययनों में यह तर्क दिया गया है कि इस उद्देश्य के लिए न केवल कम-वेतन वाले क्लिकवर्कर्स (जैसे अमेज़ॅन मैकेनिकल तुर्क पर) को नियमित रूप से तैनात किया जाता है, बल्कि मानव माइक्रोवर्क के निहित रूप भी होते हैं जिन्हें अक्सर इस तरह पहचाना नहीं जाता है। दार्शनिक रेनर मुहालहॉफ ने प्रशिक्षण डेटा उत्पन्न करने के लिए मानव माइक्रोवर्क के पांच प्रकार के मशीनी कैप्चर को अलग किया: (1) gamification (खेल के प्रवाह में एनोटेशन या गणना कार्यों का एम्बेडिंग), (2) ट्रैपिंग और ट्रैकिंग (उदाहरण के लिए छवि पहचान के लिए कॅप्चा) या Google खोज इंजन परिणाम पृष्ठ पर क्लिक-ट्रैकिंग), (3) सामाजिक प्रेरणाओं का शोषण (उदाहरण के लिए लेबल किए गए चेहरे की छवियों को प्राप्त करने के लिए फेसबुक पर टैग (फेसबुक), (4) सूचना खनन (जैसे परिमाणित स्व | क्वांटिफाइड-सेल्फ डिवाइस का लाभ उठाकर) जैसे गतिविधि ट्रैकर्स) और (5) क्लिकवर्कर्स।

Mühlhoff का तर्क है कि डीप लर्निंग के अधिकांश व्यावसायिक एंड-यूज़र एप्लिकेशन जैसे डीपफेस|फेसबुक की फेस रिकग्निशन सिस्टम में, एएनएन के प्रशिक्षित होने के बाद प्रशिक्षण डेटा की आवश्यकता बंद नहीं होती है। इसके बजाय, एएनएन को लगातार जांचने और अपडेट करने के लिए मानव-निर्मित सत्यापन डेटा की निरंतर मांग है। इस उद्देश्य के लिए फेसबुक ने यह सुविधा शुरू की कि एक बार जब उपयोगकर्ता किसी छवि में स्वचालित रूप से पहचाना जाता है, तो उन्हें एक सूचना प्राप्त होती है। वे चुन सकते हैं कि उन्हें छवि पर सार्वजनिक रूप से लेबल किया जाना पसंद है या नहीं, या फ़ेसबुक को बताएं कि यह तस्वीर में वे नहीं हैं। यह यूजर इंटरफेस सत्यापन डेटा की एक निरंतर धारा उत्पन्न करने के लिए एक तंत्र है वास्तविक समय में नेटवर्क को और प्रशिक्षित करने के लिए। जैसा कि मुहालहॉफ का तर्क है, प्रशिक्षण और सत्यापन डेटा उत्पन्न करने के लिए मानव उपयोगकर्ताओं की भागीदारी डीप लर्निंग के अधिकांश व्यावसायिक अंत-उपयोगकर्ता अनुप्रयोगों के लिए इतनी विशिष्ट है कि ऐसी प्रणालियों को मानव-सहायता प्राप्त कृत्रिम बुद्धिमत्ता कहा जा सकता है।

यह भी देखें

 * आर्टिफिशियल इंटेलिजेंस के अनुप्रयोग
 * डीप लर्निंग सॉफ्टवेयर की तुलना
 * संकुचित संवेदन
 * विभेदक प्रोग्रामिंग
 * इको स्टेट नेटवर्क
 * कृत्रिम बुद्धिमत्ता परियोजनाओं की सूची
 * तरल राज्य मशीन
 * मशीन-लर्निंग रिसर्च के लिए डेटासेट की सूची
 * जलाशय कंप्यूटिंग
 * स्केल स्पेस # डीप लर्निंग और स्केल स्पेस
 * विरल कोडिंग

इस पेज में लापता आंतरिक लिंक की सूची

 * प्रतिनिधित्व सीखना
 * जलवायुविज्ञानशास्र
 * बायोइनफॉरमैटिक्स
 * ट्रांसफार्मर (मशीन लर्निंग मॉडल)
 * जैविक प्रणाली
 * संबंधवाद
 * मूर्ति प्रोद्योगिकी
 * प्रस्तावक सूत्र
 * आवर्तक तंत्रिका नेटवर्क
 * लालची एल्गोरिदम
 * प्रमुख कंपोनेंट विश्लेषण
 * गहरा तंत्रिका नेटवर्क
 * लेबेसेग एकीकरण
 * सामान्यकरण
 * संचयी वितरण फलन
 * कृत्रिम तंत्रिका प्रसार
 * स्वचालित भेदभाव
 * backpropagation
 * हस्तलिपि अभिज्ञान
 * पीटर दयान
 * गायब ढाल समस्या
 * लंबी अल्पकालिक स्मृति
 * एमएनआईएसटी डेटाबेस
 * स्वचालित भाषण मान्यता
 * निर्णय वृक्ष
 * जैव आणविक लक्ष्य
 * लेबल किए गए डेटा
 * नियम आधारित प्रोग्रामिंग
 * सामान्य खेल खेल रहा है
 * आवृत्ति कंघी
 * तरंग दैर्ध्य
 * बोली
 * डोमेन की जानकारी
 * कोरटाना (सॉफ्टवेयर)
 * सदिश स्थल
 * उदाहरण-आधारित मशीनी अनुवाद
 * ग्राहक जीवन मूल्य
 * आरएफएम (ग्राहक मूल्य)
 * सीधा विपणन
 * उलटा समस्याएं
 * denoising
 * आंशिक विभेदक समीकरण
 * कम्प्यूटेशनल तरल सक्रिय
 * पागलपन
 * सूजा आंत्र रोग
 * उम्र बढ़ने के बायोमार्कर
 * संज्ञानात्मक तंत्रिका विज्ञानी
 * मस्तिष्क में वृद्धि
 * तंत्रिका वृद्धि कारक
 * आत्म संगठन
 * जाओ (खेल)
 * टेक्सास विश्वविद्यालय, ऑस्टिन
 * करणीय संबंध
 * वाटसन (कंप्यूटर)
 * कृत्रिम होशियारी
 * TinEye
 * रोकने का चिन्ह
 * जन्म प्रमेय
 * मशीन-शिक्षण अनुसंधान के लिए डेटासेट की सूची