फ़ीचर लर्निंग

From Vigyanwiki
डाउनस्ट्रीम कार्यों के लिए मशीन लर्निंगमें फ़ीचर लर्निंग प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या टेक्स्ट , या डेटा के लिए फ़ीचर (मशीन लर्निंग) के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर लर्निंग का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।[1]

मशीन लर्निंग में, फीचर लर्निंग या प्रतिनिधित्व लर्निंग[2] तकनीकों का सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह नियमावली फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर लर्निंग और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर लर्निंग इस तथ्य से प्रेरित है कि वर्गीकरण जैसे मशीन लर्निंग कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और संगणनात्मक रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिथम रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी फ़ीचर या अभ्यावेदन की खोज करना विकल्प है।

फीचर लर्निंग या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।

  • पर्यवेक्षित फ़ीचर लर्निंग में, लेबल किए गए इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े सम्मिलित होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।[3] इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में पर्यवेक्षित तंत्रिका तंत्र, मल्टीलेयर परसेप्ट्रॉन और (पर्यवेक्षित) शब्दकोश लर्निंग सम्मिलित हैं।
  • अपर्यवेक्षित फ़ीचर लर्निंग में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ फ़ीचर सीखा जाता है।[4] उदाहरणों में शब्दकोश लर्निंग, स्वतंत्र घटक विश्लेषण, मैट्रिक्स अपघटन [5] और क्लस्टर विश्लेषण के विभिन्न रूप सम्मिलित हैं।[6][7][8]
  • स्व-पर्यवेक्षित फ़ीचर लर्निंग में, विशेषताएँ को अपर्यवेक्षित लर्निंग जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ढतला हुआ वंश जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को लर्निंग में सक्षम बनाता है।[9] प्राचीन उदाहरणों में शब्द एम्बेडिंग और स्वतः कूटलेखन सम्मिलित हैं।[10][11] तब से एसएसएल को CNNs और ट्रांसफॉर्मर जैसे गहरे तंत्रिका तंत्र वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।[9]

पर्यवेक्षित

पर्यवेक्षित फ़ीचर लर्निंग लेबल किए गए डेटा से फ़ीचर लर्निंग है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में लर्निंग की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए प्रतिपुष्टि के रूप में उपयोग किया जा सकता है। दृष्टिकोण में सम्मिलित हैं:

पर्यवेक्षित शब्दकोश लर्निंग

शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारी योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए भार पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और भार पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य भार होते हैं)।

पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह[12] पर्यवेक्षित शब्दकोश लर्निंग की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए भार और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश लर्निंग को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण सम्मिलित होता है।

तंत्रिका तंत्र

तंत्रिका तंत्र लर्निंग के एल्गोरिदम का परिवार है जो "तंत्र" का उपयोग करता है। जिसमें अंतर-जुड़े नोड्स की कई परतों वाले यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध भार होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए संगणनात्मक नियमों को परिभाषित करता है। तंत्रिका तंत्र से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

बहुपरत तंत्रिका तंत्र का उपयोग फ़ीचर लर्निंग करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला सियामी नेटवर्क है।

अपर्यवेक्षित

अपर्यवेक्षित फ़ीचर लर्निंग, बिना लेबल वाले डेटा से फ़ीचर लर्निंग है। बिना पर्यवेक्षित फ़ीचर लर्निंग का लक्ष्य प्रायः कम-आयामी फ़ीचर की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फ़ीचर लर्निंग को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह अर्ध-पर्यवेक्षित शिक्षण के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई फ़ीचर को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।[13][14] निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

के- का अर्थ है क्लस्टरिंग

के-का अर्थ क्लस्टरिंग सदिश परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से वर्गीकृत करती है कि प्रत्येक सदिश निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या संगणनात्मक रूप से एनपी हार्ड है, तथापि उप-इष्टतम लालची एल्गोरिदम विकसित किए गए हैं।

के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर फ़ीचर का उत्पादन करने के लिए इन क्लस्टर के केन्द्रक का उपयोग किया जा सकता है। इन फ़ीचर को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फ़ीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।[6] क्लस्टर की दूरी को फ़ीचर के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (तकनीक जिसका उपयोग रेडियल आधार फ़ंक्शन नेटवर्क को प्रशिक्षित करने के लिए किया गया है[15]) k माध्यम से परिवर्तित करने के बाद कोट्स और एनजी ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार विरल कोडिंग एल्गोरिदम के समान व्यवहार करते हैं।[16]

बिना पर्यवेक्षित फ़ीचर लर्निंग के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो- एन्कोडर और आरबीएम से बेहतर प्रदर्शन करता है।[6] के- का अर्थ एनएलपी के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से नामित-इकाई पहचान के लिए,[17] वहां, यह ब्राउन क्लस्टरिंग के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।[14]

प्रमुख घटक विश्लेषण

प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के लेबल रहित सेट को देखते हुए, पीसीए डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की kth पंक्ति है kth इनपुट डेटा सदिश को नमूना माध्य और इनपुट के नमूना माध्य द्वारा स्थानांतरित किए गए है (अर्थात, डेटा सदिश से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनसदिश हैं। ये पी एकवचन सदिश इनपुट डेटा से सीखे गए फ़ीचर सदिश हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।

पीसीए रैखिक फ़ीचर लर्निंग का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें आइजन्सदिश पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन सदिश को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन सदिश के रूप में पाया जाता है।

पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।

स्थानीय रैखिक एम्बेडिंग

स्थानीय रैखिक एम्बेडिंग (एलएलई) उच्च-आयाम इनपुट (बिना लेबल लगा) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए गैर-रेखीय लर्निंग का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।[18][19] एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।

एलएलई में दो प्रमुख चरण होते हैं। पहला चरण "पड़ोसी-संरक्षण" के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (अर्थात, इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम भार पाया जाता है। इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े भार का योग एक तक होता है। दूसरा चरण "आयाम में कमी" के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित भार का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित भार के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।

पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के "आंतरिक ज्यामितीय गुणों" को कैप्चर करते हैं।[19] यह माना जाता है कि मूल डेटा चिकनी निम्न-आयामी कई गुना पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए "आंतरिक ज्यामितीय गुणों" के भी कई गुना पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।

स्वतंत्र घटक विश्लेषण

स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की तकनीक है।[20] गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक गाऊसी वितरण वितरण का पालन करते हैं तो भार विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।

अपर्यवेक्षित शब्दकोश लर्निंग

अपर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अपर्यवेक्षित शब्दकोश लर्निंग का एक उदाहरण विरल शब्दकोश लर्निंग है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को लर्निंग है। अधिक पूर्ण शब्दकोशों को लर्निंग के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।[21] अहरोन एट अल और अन्य तत्वों का एक शब्दकोश लर्निंग के लिए प्रस्तावित एल्गोरिथ्म K-SVD जो विरल प्रतिनिधित्व को सक्षम बनाता है।[22]

बहुपरत/गहरा वास्तुकला

जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला लर्निंग के नोड्स की कई परतों को ढेर करके फ़ीचर लर्निंग के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।[23] ये वास्तुकला प्रायः वितरित प्रतिनिधित्व की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है।

प्रतिबंधित बोल्ट्ज़मैन मशीन

प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग की जाती है।[6][24] आरबीएम को अप्रत्यक्ष द्विदलीय ग्राफ द्वारा दर्शाया जा सकता है जिसमें बाइनरी चर का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे सम्मिलित होते हैं। यह अधिक सामान्य बोल्ट्ज़मैन मशीनों का विशेष मामला है जिसमें इंट्रा-नोड संपर्क की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा भार से जुड़ा होता है। संपर्क के साथ भार ऊर्जा फ़ंक्शन को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का संयुक्त वितरण तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।[clarification needed] ऐसी सशर्त स्वतंत्रता गणना की फ़ीचर प्रदान करती है।

आरबीएम को बिना पर्यवेक्षित फ़ीचर लर्निंग के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फ़ीचर डिटेक्टरों के अनुरूप होते हैं। जेफ्री हिंटन के विरोधाभासी विचलन (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके भार को प्रशिक्षित किया जा सकता है।[24]

सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम[25] को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक नियमितीकरण शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है .

ऑटोएन्कोडर

एन्कोडर और डिकोडर से युक्त ऑटोएन्कोडर गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा उदाहरण प्रदान किया गया है[24] जहां एन्कोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फ़ीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एन्कोडर से निकाले गए फ़ीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में एन्कोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में सम्मिलित मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फ़ीचर डिटेक्टरों की परत लर्निंग के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः स्टोकेस्टिक ढाल चढ़ाई विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।

स्व-पर्यवेक्षित

स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण सूचना संकेत के लिए स्पष्ट लेबल पर निर्भर होने के बजाय गैर- लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा फ़ीचर को लर्निंग है। इस दृष्टिकोण ने गहरे फ़ीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका तंत्र वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।[9] प्रशिक्षण कार्य सामान्यतः या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।[26] विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा सामान्यतः आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।[9] जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।[26]

एक निश्चित डेटा प्रकार (जैसे टेक्स्ट , छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व लर्निंग के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।[11] संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका तंत्र प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी फ़ीचर के एक सेट में परिवर्तित करने में सक्षम है।[9] किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।[11]

विभिन्न तौर-तरीकों के प्रतिनिधित्व लर्निंग में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले टेक्स्ट या छवि में सफल अनुप्रयोग दिखाती हैं।[9]

टेक्स्ट

Word2vec एक शब्द एम्बेडिंग तकनीक है जो टेक्स्ट के एक बड़े संग्रह में स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है।[27] मॉडल में शब्द सदिश अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव।[26] पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है।[27] दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है।[10] Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं।[9] जीपीटी संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द की भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित देता है,[28] जबकि बीईआरटी (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को पृथक करता है।[29]

अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में वाक्य एम्बेडिंग या पैराग्राफ जैसी बड़ी टेक्स्ट संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं।[9] Doc2Vec शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में सामान्य प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।[30]

छवि

छवि प्रतिनिधित्व लर्निंग के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है, जिनमें परिवर्तन,[31] चित्रकारी,[32] पैच भेदभाव[33] और क्लस्टरिंग सम्मिलित हैं।[34]

सामान्य दृष्टिकोण के उदाहरण प्रसंग एन्कोडर हैं, जो इनपुट के रूप में अप्रत्यक्ष छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए एलेक्सनेट सीएनएन वास्तुकला को प्रशिक्षित करते हैं,[32] और आईजीपीटी, जो छवि प्रस्ताव को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर जीपीटी-2 भाषा मॉडल वास्तुकला लागू करता है।[35]

कई अन्य स्व-पर्यवेक्षित विधियां सियामी नेटवर्क का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।[36] सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो रेसनेट सीएनएन के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।[33] बूटस्ट्रैप योर ओन लेटेंट (बीवाईओएल) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।[37]

ग्राफ़

कई ग्राफ़ प्रतिनिधित्व लर्निंग की तकनीकों का लक्ष्य समग्र नेटवर्क टोपोलॉजिकल ग्राफ़ सिद्धांत के आधार पर प्रत्येक नोड का एक एम्बेडेड प्रतिनिधित्व तैयार करना है।[38] नोड2वेक एसोसिएशन के माप के रूप में ग्राफ़ के माध्यम से यादृच्छिक चलने में सह-घटना का उपयोग करके वर्ड2वेक प्रशिक्षण तकनीक को ग्राफ़ में नोड्स तक विस्तारित करता है।[39] अन्य दृष्टिकोण ग्राफ़ के भीतर संबंधित संरचनाओं के प्रतिनिधित्व के बीच पारस्परिक जानकारी, समानता का एक उपाय, को अधिकतम करना है।[9] उदाहरण डीप ग्राफ इन्फोमैक्स है, जो प्रत्येक नोड के चारों ओर "पैच" के प्रतिनिधित्व और पूरे ग्राफ के सारांश प्रतिनिधित्व के बीच पारस्परिक जानकारी के आधार पर विरोधाभासी स्व-पर्यवेक्षण का उपयोग करता है। मल्टीग्राफ प्रशिक्षण सेटिंग में ग्राफ़ प्रतिनिधित्व को किसी अन्य ग्राफ़ के प्रतिनिधित्व के साथ जोड़कर, या एकल ग्राफ़ प्रशिक्षण में दूषित पैच प्रतिनिधित्व को जोड़कर नकारात्मक नमूने प्राप्त किए जाते हैं।[40]

वीडियो

अप्रत्यक्ष भविष्यवाणी[41] और क्लस्टरिंग में समान परिणामों के साथ,[42] वीडियो प्रतिनिधित्व लर्निंग के दृष्टिकोण प्रायः छवि तकनीकों के समान होते हैं परंतु अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी सम्मिलित है, जो वीडियो क्लिप को पृथक करता है और क्लिप विकल्पों के सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक अलग सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3डी-सीएनएन को प्रशिक्षित करते है।[43]

ऑडियो

स्व-पर्यवेक्षित प्रतिनिधित्व तकनीकों को कई ऑडियो डेटा प्रारूपों पर भी लागू किया गया है, विशेष रूप से भाषण प्रसंस्करण के लिए।[9] Wav2vec 2.0 अस्थायी कनवल्शन तंत्रिका तंत्र के माध्यम से ऑडियो तरंग को टाइमस्टेप में विभाजित करता है, और फिर विपरीत हानि का उपयोग करके यादृच्छिक टाइमस्टेप्स की छिपी हुई भविष्यवाणी पर ट्रांसफार्मर (मशीन लर्निंग मॉडल) को प्रशिक्षित करता है।[44] यह बीईआरटी भाषा मॉडल के समान है, वीडियो के लिए कई एसएसएल दृष्टिकोणों को छोड़कर, मॉडल संपूर्ण शब्द शब्दावली के बजाय विकल्पों के एक सेट में से चयन करता है।[29][44]

बहुविध

स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।[9] दृष्टिकोण सामान्यतः अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,[45] या छवियों का वर्णन करने के लिए लिखे गए कैप्शन। सीएलआईपी कंट्रास्टिव हानि का उपयोग करके शीर्षक जोड़े के बड़े डेटासेट से छवि और टेक्स्ट संकेतीकरण को संरेखित करने के लिए प्रशिक्षण द्वारा संयुक्त छवि-टेक्स्ट प्रतिनिधित्व स्थान का तैयार करता है। एमईआरएलओटी रिजर्व [46]3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए ट्रांसफार्मर-आधारित एन्कोडर को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी अप्रत्यक्ष भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, के साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण के साथ[45]

बहुविध प्रतिनिधित्व मॉडल सामान्यतः विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण प्रायः शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट  "कुत्ते" को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और इसलिए कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन दिया जा सकता है। स्वीरों के साथ जोड़ा जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि टेक्स्ट से छवि पीढ़ी के लिए DALL-E-2 में।[47]

गतिक प्रतिनिधित्व लर्निंग

गतिक प्रतिनिधित्व लर्निंग के तरीके[48] गतिक नेटवर्क जैसे गतिक प्रणालियों के लिए गुप्त एम्बेडिंग उत्पन्न करते हैं। चूँकि विशेष रैखिक परिवर्तनों के तहत विशेष दूरी के कार्य अपरिवर्तनीय होते हैं, एम्बेडिंग वैक्टर के विभिन्न सेट वास्तव में समान/समान जानकारी का प्रतिनिधित्व कर सकते हैं। इसलिए, गतिक प्रणाली के लिए, इसके एम्बेडिंग में अस्थायी अंतर को प्रणाली में मनमाने परिवर्तनों और/या वास्तविक परिवर्तनों के कारण एम्बेडिंग के गलत संरेखण द्वारा समझाया जा सकता है [49]। इसलिए, सामान्यतः बोलते हुए, गतिक प्रतिनिधित्व लर्निंग के तरीकों के माध्यम से सीखे गए अस्थायी एम्बेडिंग का किसी भी नकली परिवर्तन के लिए निरीक्षण किया जाना चाहिए और परिणामी गतिक विश्लेषण से पहले संरेखित किया जाना चाहिए।

यह भी देखें

संदर्भ

  1. Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. ISBN 0-262-03561-8. OCLC 955778308.
  2. Y. Bengio; A. Courville; P. Vincent (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
  3. Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 978-0-13-604259-4.
  4. Hinton, Geoffrey; Sejnowski, Terrence (1999). Unsupervised Learning: Foundations of Neural Computation. MIT Press. ISBN 978-0-262-58168-4.
  5. Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. NIPS.
  6. 6.0 6.1 6.2 6.3 Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). Int'l Conf. on AI and Statistics (AISTATS). Archived from the original (PDF) on 2017-08-13. Retrieved 2014-11-24.
  7. Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual categorization with bags of keypoints (PDF). ECCV Workshop on Statistical Learning in Computer Vision.
  8. Daniel Jurafsky; James H. Martin (2009). भाषण और भाषा प्रसंस्करण. Pearson Education International. pp. 145–146.
  9. 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 Ericsson, Linus; Gouk, Henry; Loy, Chen Change; Hospedales, Timothy M. (May 2022). "Self-Supervised Representation Learning: Introduction, advances, and challenges". IEEE Signal Processing Magazine. 39 (3): 42–62. arXiv:2110.09327. Bibcode:2022ISPM...39c..42E. doi:10.1109/MSP.2021.3134634. ISSN 1558-0792. S2CID 239017006.
  10. 10.0 10.1 Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S; Dean, Jeff (2013). "शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना". Advances in Neural Information Processing Systems. Curran Associates, Inc. 26. arXiv:1310.4546.
  11. 11.0 11.1 11.2 Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. ISBN 0-262-03561-8. OCLC 955778308.
  12. Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo; Zisserman, Andrew (2009). "पर्यवेक्षित शब्दकोश सीखना". Advances in Neural Information Processing Systems.
  13. Percy Liang (2005). प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण (PDF) (M. Eng.). MIT. pp. 44–52.
  14. 14.0 14.1 Joseph Turian; Lev Ratinov; Yoshua Bengio (2010). Word representations: a simple and general method for semi-supervised learning (PDF). Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Archived from the original (PDF) on 2014-02-26. Retrieved 2014-02-22.
  15. Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण". Neural Networks. 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312. doi:10.1016/s0893-6080(01)00027-2. PMID 11411631.
  16. Coates, Adam; Ng, Andrew Y. (2012). "K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व". In G. Montavon, G. B. Orr and K.-R. Müller (ed.). Neural Networks: Tricks of the Trade. Springer.
  17. Dekang Lin; Xiaoyun Wu (2009). भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग (PDF). Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP. pp. 1030–1038.
  18. Roweis, Sam T; Saul, Lawrence K (2000). "स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी". Science. New Series. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. JSTOR 3081722. PMID 11125150. S2CID 5987139.
  19. 19.0 19.1 Saul, Lawrence K; Roweis, Sam T (2000). "स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय". {{cite journal}}: Cite journal requires |journal= (help)
  20. Hyvärinen, Aapo; Oja, Erkki (2000). "Independent Component Analysis: Algorithms and Applications". Neural Networks. 13 (4): 411–430. doi:10.1016/s0893-6080(00)00026-5. PMID 10946390. S2CID 11959218.
  21. Lee, Honglak; Battle, Alexis; Raina, Rajat; Ng, Andrew Y (2007). "कुशल विरल कोडिंग एल्गोरिदम". Advances in Neural Information Processing Systems.
  22. Aharon, Michal; Elad, Michael; Bruckstein, Alfred (2006). "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation". IEEE Trans. Signal Process. 54 (11): 4311–4322. Bibcode:2006ITSP...54.4311A. doi:10.1109/TSP.2006.881199. S2CID 7477309.
  23. Bengio, Yoshua (2009). "एआई के लिए डीप आर्किटेक्चर सीखना". Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006. S2CID 207178999.
  24. 24.0 24.1 24.2 Hinton, G. E.; Salakhutdinov, R. R. (2006). "तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना" (PDF). Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
  25. Lee, Honglak; Ekanadham, Chaitanya; Andrew, Ng (2008). "Sparse deep belief net model for visual area V2". Advances in Neural Information Processing Systems.
  26. 26.0 26.1 26.2 Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie (2021). "Self-supervised Learning: Generative or Contrastive". IEEE Transactions on Knowledge and Data Engineering. 35 (1): 857–876. arXiv:2006.08218. doi:10.1109/TKDE.2021.3090866. ISSN 1558-2191. S2CID 219687051.
  27. 27.0 27.1 Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-09-06). "वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान". arXiv:1301.3781 [cs.CL].
  28. "Improving Language Understanding by Generative Pre-Training" (PDF). Retrieved October 10, 2022.
  29. 29.0 29.1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (June 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 4171–4186. doi:10.18653/v1/N19-1423. S2CID 52967399.
  30. Le, Quoc; Mikolov, Tomas (2014-06-18). "वाक्यों और दस्तावेज़ों का वितरित प्रतिनिधित्व". International Conference on Machine Learning (in English). PMLR: 1188–1196. arXiv:1405.4053.
  31. Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. In ICLR, 2018.
  32. 32.0 32.1 Pathak, Deepak; Krahenbuhl, Philipp; Donahue, Jeff; Darrell, Trevor; Efros, Alexei A. (2016). "Context Encoders: Feature Learning by Inpainting": 2536–2544. arXiv:1604.07379. {{cite journal}}: Cite journal requires |journal= (help)
  33. 33.0 33.1 Chen, Ting; Kornblith, Simon; Norouzi, Mohammad; Hinton, Geoffrey (2020-11-21). "दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा". International Conference on Machine Learning (in English). PMLR: 1597–1607.
  34. Mathilde, Caron; Ishan, Misra; Julien, Mairal; Priya, Goyal; Piotr, Bojanowski; Armand, Joulin (2020). "कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.09882.
  35. Chen, Mark; Radford, Alec; Child, Rewon; Wu, Jeffrey; Jun, Heewoo; Luan, David; Sutskever, Ilya (2020-11-21). "पिक्सेल से जेनरेटिव प्रीट्रेनिंग". International Conference on Machine Learning (in English). PMLR: 1691–1703.
  36. Chen, Xinlei; He, Kaiming (2021). "सरल स्याम देश प्रतिनिधित्व सीखने की खोज" (in English): 15750–15758. arXiv:2011.10566. {{cite journal}}: Cite journal requires |journal= (help)
  37. Jean-Bastien, Grill; Florian, Strub; Florent, Altché; Corentin, Tallec; Pierre, Richemond; Elena, Buchatskaya; Carl, Doersch; Bernardo, Avila Pires; Zhaohan, Guo; Mohammad, Gheshlaghi Azar; Bilal, Piot; koray, kavukcuoglu; Remi, Munos; Michal, Valko (2020). "बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण". Advances in Neural Information Processing Systems (in English). 33.
  38. Cai, HongYun; Zheng, Vincent W.; Chang, Kevin Chen-Chuan (September 2018). "A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications". IEEE Transactions on Knowledge and Data Engineering. 30 (9): 1616–1637. arXiv:1709.07604. doi:10.1109/TKDE.2018.2807452. ISSN 1558-2191. S2CID 13999578.
  39. Grover, Aditya; Leskovec, Jure (2016-08-13). "node2vec: Scalable Feature Learning for Networks". Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD '16. New York, NY, USA: Association for Computing Machinery. 2016: 855–864. doi:10.1145/2939672.2939754. ISBN 978-1-4503-4232-2. PMC 5108654. PMID 27853626.
  40. Velikovi, P., Fedus, W., Hamilton, W. L., Li, P., Bengio, Y., and Hjelm, R. D. Deep Graph InfoMax. In International Conference on Learning Representations (ICLR’2019), 2019.
  41. Luo, Dezhao; Liu, Chang; Zhou, Yu; Yang, Dongbao; Ma, Can; Ye, Qixiang; Wang, Weiping (2020-04-03). "स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया". Proceedings of the AAAI Conference on Artificial Intelligence (in English). 34 (7): 11701–11708. doi:10.1609/aaai.v34i07.6840. ISSN 2374-3468. S2CID 209531629.
  42. Humam, Alwassel; Dhruv, Mahajan; Bruno, Korbar; Lorenzo, Torresani; Bernard, Ghanem; Du, Tran (2020). "क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण". Advances in Neural Information Processing Systems (in English). 33. arXiv:1911.12667.
  43. Xu, Dejing; Xiao, Jun; Zhao, Zhou; Shao, Jian; Xie, Di; Zhuang, Yueting (June 2019). "Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction". 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 10326–10335. doi:10.1109/CVPR.2019.01058. ISBN 978-1-7281-3293-8. S2CID 195504152.
  44. 44.0 44.1 Alexei, Baevski; Yuhao, Zhou; Abdelrahman, Mohamed; Michael, Auli (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.11477.
  45. 45.0 45.1 Zellers, Rowan; Lu, Jiasen; Lu, Ximing; Yu, Youngjae; Zhao, Yanpeng; Salehi, Mohammadreza; Kusupati, Aditya; Hessel, Jack; Farhadi, Ali; Choi, Yejin (2022). "MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound" (in English): 16375–16387. arXiv:2201.02639. {{cite journal}}: Cite journal requires |journal= (help)
  46. Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela; Clark, Jack; Krueger, Gretchen; Sutskever, Ilya (2021-07-01). "Learning Transferable Visual Models From Natural Language Supervision". International Conference on Machine Learning (in English). PMLR: 8748–8763. arXiv:2103.00020.
  47. Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125 [cs.CV].