फ़ीचर लर्निंग

From Vigyanwiki
डाउनस्ट्रीम कार्यों के लिए मशीन लर्निंगमें फ़ीचर लर्निंग प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या टेक्स्ट , या डेटा के लिए फ़ीचर (मशीन लर्निंग) के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर लर्निंग का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।[1]

मशीन लर्निंग में, फीचर लर्निंग या प्रतिनिधित्व लर्निंग[2] तकनीकों का सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह नियमावली फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर लर्निंग और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर लर्निंग इस तथ्य से प्रेरित है कि वर्गीकरण जैसे मशीन लर्निंग कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और संगणनात्मक रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिथम रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी फ़ीचर या अभ्यावेदन की खोज करना विकल्प है।

फीचर लर्निंग या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।

  • पर्यवेक्षित फ़ीचर लर्निंग में, लेबल किए गए इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े सम्मिलित होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।[3] इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में पर्यवेक्षित तंत्रिका तंत्र, मल्टीलेयर परसेप्ट्रॉन और (पर्यवेक्षित) शब्दकोश लर्निंग सम्मिलित हैं।
  • अपर्यवेक्षित फ़ीचर लर्निंग में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ फ़ीचर सीखा जाता है।[4] उदाहरणों में शब्दकोश लर्निंग, स्वतंत्र घटक विश्लेषण, मैट्रिक्स अपघटन [5] और क्लस्टर विश्लेषण के विभिन्न रूप सम्मिलित हैं।[6][7][8]
  • स्व-पर्यवेक्षित फ़ीचर लर्निंग में, विशेषताएँ को अपर्यवेक्षित लर्निंग जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ढतला हुआ वंश जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को लर्निंग में सक्षम बनाता है।[9] प्राचीन उदाहरणों में शब्द एम्बेडिंग और स्वतः कूटलेखन सम्मिलित हैं।[10][11] तब से एसएसएल को CNNs और ट्रांसफॉर्मर जैसे गहरे तंत्रिका तंत्र वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।[9]

पर्यवेक्षित

पर्यवेक्षित फ़ीचर लर्निंग लेबल किए गए डेटा से फ़ीचर लर्निंग है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में लर्निंग की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए प्रतिपुष्टि के रूप में उपयोग किया जा सकता है। दृष्टिकोण में सम्मिलित हैं:

पर्यवेक्षित शब्दकोश लर्निंग

शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारी योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए भार पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और भार पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य भार होते हैं)।

पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह[12] पर्यवेक्षित शब्दकोश लर्निंग की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए भार और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश लर्निंग को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण सम्मिलित होता है।

तंत्रिका तंत्र

तंत्रिका तंत्र लर्निंग के एल्गोरिदम का परिवार है जो "तंत्र" का उपयोग करता है। जिसमें अंतर-जुड़े नोड्स की कई परतों वाले यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध भार होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए संगणनात्मक नियमों को परिभाषित करता है। तंत्रिका तंत्र से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

बहुपरत तंत्रिका तंत्र का उपयोग फ़ीचर लर्निंग करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला सियामी नेटवर्क है।

अपर्यवेक्षित

अपर्यवेक्षित फ़ीचर लर्निंग, बिना लेबल वाले डेटा से फ़ीचर लर्निंग है। बिना पर्यवेक्षित फ़ीचर लर्निंग का लक्ष्य प्रायः कम-आयामी फ़ीचर की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फ़ीचर लर्निंग को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह अर्ध-पर्यवेक्षित शिक्षण के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई फ़ीचर को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।[13][14] निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

के- का अर्थ है क्लस्टरिंग

के-का अर्थ क्लस्टरिंग सदिश परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से वर्गीकृत करती है कि प्रत्येक सदिश निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या संगणनात्मक रूप से एनपी हार्ड है, तथापि उप-इष्टतम लालची एल्गोरिदम विकसित किए गए हैं।

के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर फ़ीचर का उत्पादन करने के लिए इन क्लस्टर के केन्द्रक का उपयोग किया जा सकता है। इन फ़ीचर को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फ़ीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।[6] क्लस्टर की दूरी को फ़ीचर के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (तकनीक जिसका उपयोग रेडियल आधार फ़ंक्शन नेटवर्क को प्रशिक्षित करने के लिए किया गया है[15]) k माध्यम से परिवर्तित करने के बाद कोट्स और एनजी ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार विरल कोडिंग एल्गोरिदम के समान व्यवहार करते हैं।[16]

बिना पर्यवेक्षित फ़ीचर लर्निंग के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो- एन्कोडर और आरबीएम से बेहतर प्रदर्शन करता है।[6] के- का अर्थ एनएलपी के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से नामित-इकाई पहचान के लिए,[17] वहां, यह ब्राउन क्लस्टरिंग के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।[14]

प्रमुख घटक विश्लेषण

प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के लेबल रहित सेट को देखते हुए, पीसीए डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की kth पंक्ति है kth इनपुट डेटा सदिश को नमूना माध्य और इनपुट के नमूना माध्य द्वारा स्थानांतरित किए गए है (अर्थात, डेटा सदिश से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनसदिश हैं। ये पी एकवचन सदिश इनपुट डेटा से सीखे गए फ़ीचर सदिश हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।

पीसीए रैखिक फ़ीचर लर्निंग का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें आइजन्सदिश पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन सदिश को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन सदिश के रूप में पाया जाता है।

पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।

स्थानीय रैखिक एम्बेडिंग

स्थानीय रैखिक एम्बेडिंग (एलएलई) उच्च-आयाम इनपुट (बिना लेबल लगा) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए गैर-रेखीय लर्निंग का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।[18][19] एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।

एलएलई में दो प्रमुख चरण होते हैं। पहला चरण "पड़ोसी-संरक्षण" के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (अर्थात, इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम भार पाया जाता है। इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े भार का योग एक तक होता है। दूसरा चरण "आयाम में कमी" के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित भार का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित भार के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।

पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के "आंतरिक ज्यामितीय गुणों" को कैप्चर करते हैं।[19] यह माना जाता है कि मूल डेटा चिकनी निम्न-आयामी कई गुना पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए "आंतरिक ज्यामितीय गुणों" के भी कई गुना पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।

स्वतंत्र घटक विश्लेषण

स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की तकनीक है।[20] गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक गाऊसी वितरण वितरण का पालन करते हैं तो भार विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।

अपर्यवेक्षित शब्दकोश लर्निंग

अपर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अपर्यवेक्षित शब्दकोश लर्निंग का एक उदाहरण विरल शब्दकोश लर्निंग है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को लर्निंग है। अधिक पूर्ण शब्दकोशों को लर्निंग के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।[21] अहरोन एट अल और अन्य तत्वों का एक शब्दकोश लर्निंग के लिए प्रस्तावित एल्गोरिथ्म K-SVD जो विरल प्रतिनिधित्व को सक्षम बनाता है।[22]

बहुपरत/गहरा वास्तुकला

जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला लर्निंग के नोड्स की कई परतों को ढेर करके फ़ीचर लर्निंग के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।[23] ये वास्तुकला प्रायः वितरित प्रतिनिधित्व की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है।

प्रतिबंधित बोल्ट्ज़मैन मशीन

प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग की जाती है।[6][24] आरबीएम को अप्रत्यक्ष द्विदलीय ग्राफ द्वारा दर्शाया जा सकता है जिसमें बाइनरी चर का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे सम्मिलित होते हैं। यह अधिक सामान्य बोल्ट्ज़मैन मशीनों का विशेष मामला है जिसमें इंट्रा-नोड संपर्क की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा भार से जुड़ा होता है। संपर्क के साथ भार ऊर्जा फ़ंक्शन को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का संयुक्त वितरण तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।[clarification needed] ऐसी सशर्त स्वतंत्रता गणना की फ़ीचर प्रदान करती है।

आरबीएम को बिना पर्यवेक्षित फ़ीचर लर्निंग के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फ़ीचर डिटेक्टरों के अनुरूप होते हैं। जेफ्री हिंटन के विरोधाभासी विचलन (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके भार को प्रशिक्षित किया जा सकता है।[24]

सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम[25] को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक नियमितीकरण शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है .

ऑटोएन्कोडर

एन्कोडर और डिकोडर से युक्त ऑटोएन्कोडर गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा उदाहरण प्रदान किया गया है[24] जहां एन्कोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फ़ीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एन्कोडर से निकाले गए फ़ीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में एन्कोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में सम्मिलित मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फ़ीचर डिटेक्टरों की परत लर्निंग के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः स्टोकेस्टिक ढाल चढ़ाई विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।

स्व-पर्यवेक्षित

स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण सूचना संकेत के लिए स्पष्ट लेबल पर निर्भर होने के बजाय गैर- लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा फ़ीचर को लर्निंग है। इस दृष्टिकोण ने गहरे फ़ीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका तंत्र वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।[9] प्रशिक्षण कार्य सामान्यतः या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।[26] विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा सामान्यतः आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।[9] जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।[26]

एक निश्चित डेटा प्रकार (जैसे टेक्स्ट , छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व लर्निंग के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।[11] संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका तंत्र प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी फ़