फ़ीचर लर्निंग

From Vigyanwiki
Revision as of 15:15, 5 August 2023 by alpha>Rani Kumari
डाउनस्ट्रीम कार्यों के लिए मशीन लर्निंग में फ़ीचर लर्निंग प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए फ़ीचर (मशीन लर्निंग) के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।[1]

यंत्र अधिगम में, फीचर लर्निंग या प्रतिनिधित्व लर्निंग[2] तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर लर्निंग इस तथ्य से प्रेरित है कि सांख्यिकीय वर्गीकरण जैसे मशीन लर्निंग कार्यों के लिए अक्सर ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है।

फीचर लर्निंग या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।


पर्यवेक्षित

पर्यवेक्षित फ़ीचर लर्निंग लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में शामिल हैं:

पर्यवेक्षित शब्दकोश सीखना

शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का एक सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर नियमितीकरण (गणित) के साथ शब्दकोश तत्व और वजन पाया जा सकता है (यानी, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)।

पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह[12] पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और क्लासिफायरियर के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, एक न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एक एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और क्लासिफायरियर के मापदंडों पर एक एल 2 नियमितीकरण शामिल होता है।

तंत्रिका नेटवर्क

कृत्रिम तंत्रिका नेटवर्क सीखने के एल्गोरिदम का एक परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले नेटवर्क का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का एक संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा एक नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

मल्टीलेयर न्यूरल नेटवर्क का उपयोग फीचर लर्निंग करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क आर्किटेक्चर स्याम देश का तंत्रिका नेटवर्क है।

अपर्यवेक्षित

अनसुपरवाइज़्ड फ़ीचर लर्निंग, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य अक्सर कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर लर्निंग को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह अर्ध-पर्यवेक्षित शिक्षण के एक रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल किए गए डेटा के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।[13][14]निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

के-मतलब क्लस्टरिंग

के-मीन्स क्लस्टरिंग|के-मीन्स क्लस्टरिंग वेक्टर परिमाणीकरण के लिए एक दृष्टिकोण है। विशेष रूप से, n वैक्टरों के एक सेट को देखते हुए, k-मीन्स क्लस्टरिंग उन्हें k क्लस्टर्स (यानी, सबसेट) में इस तरह से समूहित करती है कि प्रत्येक वेक्टर निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या कम्प्यूटेशनल रूप से एनपी कठिन है, हालांकि उप-इष्टतम लालची एल्गोरिदम विकसित किए गए हैं।

के-मीन्स क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को के क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के केन्द्रक का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक होता है यदि और केवल तभी जब k-मीन्स द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब हो।[6]क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन के माध्यम से परिवर्तित करने के बाद (एक तकनीक जिसका उपयोग रेडियल आधार फ़ंक्शन नेटवर्क को प्रशिक्षित करने के लिए किया गया है)[15]). कोट्स और एंड्रयू एनजी ने ध्यान दिया कि के-मीन्स के कुछ प्रकार विरल कोडिंग एल्गोरिदम के समान व्यवहार करते हैं।[16] बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि एक उपयुक्त परिवर्तन के साथ के-मीन्स क्लस्टरिंग एक छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो-एनकोडर और आरबीएम से बेहतर प्रदर्शन करता है।[6]के-मीन्स प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में भी प्रदर्शन में सुधार करता है, विशेष रूप से नामित-इकाई पहचान के लिए;[17] वहां, यह भूरा क्लस्टरिंग के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।[14]


प्रमुख घटक विश्लेषण

प्रमुख घटक विश्लेषण (पीसीए) का उपयोग अक्सर आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, पीसीए पी उत्पन्न करता है (जो इनपुट डेटा के आयाम से बहुत छोटा है) डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मूल्यों के अनुरूप एकवचन मूल्य अपघटन, जहां डेटा मैट्रिक्स की केटी पंक्ति नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए केटीएच इनपुट डेटा वेक्टर है (यानी, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर नमूना माध्य और इनपुट वैक्टर के नमूना सहप्रसरण के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।

पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें eigenvector पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।

पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि मामला नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के मोमेंट (गणित) का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।

स्थानीय रैखिक एम्बेडिंग

अरेखीय आयामीता में कमी (एलएलई) उच्च-आयाम इनपुट (अनलेबल) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए एक नॉनलाइनियर सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।[18][19] एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।

एलएलई में दो प्रमुख चरण होते हैं। पहला चरण पड़ोसी-संरक्षण के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिदम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (यानी, एक इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है, इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े वजन का योग एक तक होता है। दूसरा चरण आयाम में कमी के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।

पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के आंतरिक ज्यामितीय गुणों को कैप्चर करते हैं।[19]यह माना जाता है कि मूल डेटा एक चिकनी निम्न-आयामी कई गुना पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए आंतरिक ज्यामितीय गुणों के भी मैनिफोल्ड पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।

स्वतंत्र घटक विश्लेषण

स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की एक तकनीक है।[20] गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक सामान्य वितरण वितरण का पालन करते हैं तो वजन विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।

अप्रशिक्षित शब्दकोश सीखना

बिना पर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अनपर्यवेक्षित शब्दकोश सीखने का एक उदाहरण विरल शब्दकोश सीखना है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को सीखना है। अधिक पूर्ण शब्दकोशों को सीखने के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।[21] मीकल अहरोन और अन्य। तत्वों का एक शब्दकोश सीखने के लिए प्रस्तावित एल्गोरिथ्म K-SVD जो विरल प्रतिनिधित्व को सक्षम बनाता है।[22]


बहुपरत/गहरा आर्किटेक्चर

जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।[23] ये आर्किटेक्चर अक्सर वितरित प्रतिनिधित्व की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी सुविधा या प्रतिनिधित्व है।

प्रतिबंधित बोल्ट्ज़मैन मशीन

प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग अक्सर बहुपरत शिक्षण आर्किटेक्चर के लिए बिल्डिंग ब्लॉक के रूप में किया जाता है।[6][24] एक आरबीएम को एक अप्रत्यक्ष द्विदलीय ग्राफ द्वारा दर्शाया जा सकता है जिसमें बाइनरी वैरिएबल अव्यक्त वैरिएबल का एक समूह, दृश्यमान वैरिएबल का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे शामिल होते हैं। यह अधिक सामान्य बोल्ट्ज़मान मशीन का एक विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा एक वजन से जुड़ा होता है। कनेक्शन के साथ वजन एक ऊर्जा समारोह को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का संयुक्त वितरण तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।[clarification needed] ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।

आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए सिंगल लेयर आर्किटेक्चर के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। जेफ्री हिंटन के विरोधाभासी विचलन (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।[24]

सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम[25] विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक नियमितीकरण (गणित) शब्द जोड़ा जाए, जो एक छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है .

ऑटोएन्कोडर

एक एनकोडर और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण आर्किटेक्चर के लिए एक प्रतिमान है। एक उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है[24]जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए फीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। आर्किटेक्चर में शामिल मापदंडों को मूल रूप से एक लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था: फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण आमतौर पर स्टोकेस्टिक ग्रेडिएंट डिसेंट विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।

स्व-पर्यवेक्षित

स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण ढतला हुआ वंश के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क आर्किटेक्चर और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।[9]प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।[26] विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।[9]जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।[26]

एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।[11]संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।[9]किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता आमतौर पर पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।[11]

विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो अक्सर अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।[9]


पाठ

Word2vec एक शब्द एम्बेडिंग तकनीक है जो पाठ के एक बड़े संग्रह में एक स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है।[27] मॉडल में शब्द वेक्टर अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव।[26]पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है।[27]दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है।[10]Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं।[9]संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित ट्रांसफार्मर प्रीट्रेन,[28] जबकि BERT (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को मास्क करता है।[29] अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में वाक्य एम्बेडिंग या पैराग्राफ जैसी बड़ी पाठ संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं।[9]Doc2Vec शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में जेनेरिक प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।[30]


छवि

छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है,[31] चित्रकारी,[32] पैच भेदभाव[33] और क्लस्टरिंग.[34] जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए एलेक्सनेट कन्वोल्यूशनल न्यूरल नेटवर्क आर्किटेक्चर को प्रशिक्षित करते हैं।[32]और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर GPT-2 भाषा मॉडल आर्किटेक्चर लागू करता है।[35] कई अन्य स्व-पर्यवेक्षित विधियां स्याम देश के नेटवर्क का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।[36] सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो अवशिष्ट तंत्रिका नेटवर्क कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।[33]बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।[37]


ग्राफ़

कई ग्राफ़ (कंप्यूटर विज्ञान) प्रतिनिधित्व सीखने की तकनीकों का लक्ष्य समग्र टोपोलॉजिकल ग्राफ़ सिद्धांत के आधार पर प्रत्येक वर्टेक्स (ग्राफ़ सिद्धांत) का एक एम्बेडेड प्रतिनिधित्व तैयार करना है।[38] node2vec एसोसिएशन के माप के रूप में ग्राफ़ के माध्यम से यादृच्छिक चलने में सह-घटना का उपयोग करके Word2vec प्रशिक्षण तकनीक को ग्राफ़ में नोड्स तक विस्तारित करता है।[39] एक अन्य दृष्टिकोण ग्राफ़ के भीतर संबंधित संरचनाओं के प्रतिनिधित्व के बीच पारस्परिक जानकारी, समानता का एक उपाय, को अधिकतम करना है।[9]एक उदाहरण डीप ग्राफ इन्फोमैक्स है, जो प्रत्येक नोड के चारों ओर एक "पैच" के प्रतिनिधित्व और पूरे ग्राफ के सारांश प्रतिनिधित्व के बीच पारस्परिक जानकारी के आधार पर विरोधाभासी स्व-पर्यवेक्षण का उपयोग करता है। मल्टीग्राफ प्रशिक्षण सेटिंग में ग्राफ़ प्रतिनिधित्व को किसी अन्य ग्राफ़ के प्रतिनिधित्व के साथ जोड़कर, या एकल ग्राफ़ प्रशिक्षण में दूषित पैच प्रतिनिधित्व को जोड़कर नकारात्मक नमूने प्राप्त किए जाते हैं।[40]


वीडियो

नकाबपोश भविष्यवाणी में समान परिणामों के साथ[41] और क्लस्टरिंग,[42] वीडियो प्रतिनिधित्व सीखने के दृष्टिकोण अक्सर छवि तकनीकों के समान होते हैं लेकिन अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी शामिल है, जो वीडियो क्लिप को मास्क करता है और क्लिप विकल्पों के एक सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक फेरबदल सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3 डी-सीएनएन को प्रशिक्षित करता है।[43]


ऑडियो

स्व-पर्यवेक्षित प्रतिनिधित्व तकनीकों को कई ऑडियो डेटा प्रारूपों पर भी लागू किया गया है, विशेष रूप से भाषण प्रसंस्करण के लिए।[9]Wav2vec 2.0 टेम्पोरल कन्वोल्यूशनल न्यूरल नेटवर्क के माध्यम से तरंग को टाइमस्टेप्स में विभाजित करता है, और फिर एक विपरीत हानि का उपयोग करके यादृच्छिक टाइमस्टेप्स की छिपी हुई भविष्यवाणी पर एक ट्रांसफार्मर (मशीन लर्निंग मॉडल) को प्रशिक्षित करता है।[44] यह BERT (भाषा मॉडल) के समान है, वीडियो के लिए कई SSL दृष्टिकोणों को छोड़कर, मॉडल संपूर्ण शब्द शब्दावली के बजाय विकल्पों के एक सेट में से चयन करता है।[29][44]


मल्टीमॉडल

स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।[9]दृष्टिकोण आम तौर पर एक अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,[45] या छवियों का वर्णन करने के लिए लिखे गए कैप्शन।<रेफ नाम = रैडफोर्ड 8748-8763 >Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela; Clark, Jack; Krueger, Gretchen; Sutskever, Ilya (2021-07-01). "प्राकृतिक भाषा पर्यवेक्षण से हस्तांतरणीय दृश्य मॉडल सीखना". International Conference on Machine Learning (in English). PMLR: 8748–8763. arXiv:2103.00020.</ref> CLIP एक विपरीत हानि का उपयोग करके छवि-कैप्शन जोड़े के एक बड़े डेटासेट से छवि और पाठ एन्कोडिंग को संरेखित करने के लिए प्रशिक्षण द्वारा एक संयुक्त छवि-पाठ प्रतिनिधित्व स्थान का निर्माण करता है। Cite error: Invalid <ref> tag; invalid names, e.g. too many MERLOT रिजर्व 3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के एक बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए एक ट्रांसफार्मर-आधारित एनकोडर को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी नकाबपोश भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण।[45]

मल्टीमॉडल शिक्षण प्रतिनिधित्व मॉडल आम तौर पर विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण अक्सर शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट कुत्ते को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और तदनुसार एक कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन किया जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच एक अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि पाठ से छवि निर्माण के लिए DALL-E|DALLE-2 में।[46]


यह भी देखें

संदर्भ

  1. Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. ISBN 0-262-03561-8. OCLC 955778308.
  2. Y. Bengio; A. Courville; P. Vincent (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
  3. Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 978-0-13-604259-4.
  4. Hinton, Geoffrey; Sejnowski, Terrence (1999). Unsupervised Learning: Foundations of Neural Computation. MIT Press. ISBN 978-0-262-58168-4.
  5. Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. NIPS.
  6. 6.0 6.1 6.2 6.3 Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). Int'l Conf. on AI and Statistics (AISTATS). Archived from the original (PDF) on 2017-08-13. Retrieved 2014-11-24.
  7. Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual categorization with bags of keypoints (PDF). ECCV Workshop on Statistical Learning in Computer Vision.
  8. Daniel Jurafsky; James H. Martin (2009). भाषण और भाषा प्रसंस्करण. Pearson Education International. pp. 145–146.
  9. 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 Ericsson, Linus; Gouk, Henry; Loy, Chen Change; Hospedales, Timothy M. (May 2022). "Self-Supervised Representation Learning: Introduction, advances, and challenges". IEEE Signal Processing Magazine. 39 (3): 42–62. arXiv:2110.09327. Bibcode:2022ISPM...39c..42E. doi:10.1109/MSP.2021.3134634. ISSN 1558-0792. S2CID 239017006.
  10. 10.0 10.1 Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S; Dean, Jeff (2013). "शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना". Advances in Neural Information Processing Systems. Curran Associates, Inc. 26. arXiv:1310.4546.
  11. 11.0 11.1 11.2 Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. ISBN 0-262-03561-8. OCLC 955778308.
  12. Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo; Zisserman, Andrew (2009). "पर्यवेक्षित शब्दकोश सीखना". Advances in Neural Information Processing Systems.
  13. Percy Liang (2005). प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण (PDF) (M. Eng.). MIT. pp. 44–52.
  14. 14.0 14.1 Joseph Turian; Lev Ratinov; Yoshua Bengio (2010). Word representations: a simple and general method for semi-supervised learning (PDF). Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Archived from the original (PDF) on 2014-02-26. Retrieved 2014-02-22.
  15. Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण". Neural Networks. 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312. doi:10.1016/s0893-6080(01)00027-2. PMID 11411631.
  16. Coates, Adam; Ng, Andrew Y. (2012). "K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व". In G. Montavon, G. B. Orr and K.-R. Müller (ed.). Neural Networks: Tricks of the Trade. Springer.
  17. Dekang Lin; Xiaoyun Wu (2009). भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग (PDF). Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP. pp. 1030–1038.
  18. Roweis, Sam T; Saul, Lawrence K (2000). "स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी". Science. New Series. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. JSTOR 3081722. PMID 11125150. S2CID 5987139.
  19. 19.0 19.1 Saul, Lawrence K; Roweis, Sam T (2000). "स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय". {{cite journal}}: Cite journal requires |journal= (help)
  20. Hyvärinen, Aapo; Oja, Erkki (2000). "Independent Component Analysis: Algorithms and Applications". Neural Networks. 13 (4): 411–430. doi:10.1016/s0893-6080(00)00026-5. PMID 10946390. S2CID 11959218.
  21. Lee, Honglak; Battle, Alexis; Raina, Rajat; Ng, Andrew Y (2007). "कुशल विरल कोडिंग एल्गोरिदम". Advances in Neural Information Processing Systems.
  22. Aharon, Michal; Elad, Michael; Bruckstein, Alfred (2006). "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation". IEEE Trans. Signal Process. 54 (11): 4311–4322. Bibcode:2006ITSP...54.4311A. doi:10.1109/TSP.2006.881199. S2CID 7477309.
  23. Bengio, Yoshua (2009). "एआई के लिए डीप आर्किटेक्चर सीखना". Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006. S2CID 207178999.
  24. 24.0 24.1 24.2 Hinton, G. E.; Salakhutdinov, R. R. (2006). "तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना" (PDF). Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
  25. Lee, Honglak; Ekanadham, Chaitanya; Andrew, Ng (2008). "Sparse deep belief net model for visual area V2". Advances in Neural Information Processing Systems.
  26. 26.0 26.1 26.2 Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie (2021). "Self-supervised Learning: Generative or Contrastive". IEEE Transactions on Knowledge and Data Engineering. 35 (1): 857–876. arXiv:2006.08218. doi:10.1109/TKDE.2021.3090866. ISSN 1558-2191. S2CID 219687051.
  27. 27.0 27.1 Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-09-06). "वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान". arXiv:1301.3781 [cs.CL].
  28. "Improving Language Understanding by Generative Pre-Training" (PDF). Retrieved October 10, 2022.
  29. 29.0 29.1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (June 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 4171–4186. doi:10.18653/v1/N19-1423. S2CID 52967399.
  30. Le, Quoc; Mikolov, Tomas (2014-06-18). "वाक्यों और दस्तावेज़ों का वितरित प्रतिनिधित्व". International Conference on Machine Learning (in English). PMLR: 1188–1196. arXiv:1405.4053.
  31. Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. In ICLR, 2018.
  32. 32.0 32.1 Pathak, Deepak; Krahenbuhl, Philipp; Donahue, Jeff; Darrell, Trevor; Efros, Alexei A. (2016). "Context Encoders: Feature Learning by Inpainting": 2536–2544. arXiv:1604.07379. {{cite journal}}: Cite journal requires |journal= (help)
  33. 33.0 33.1 Chen, Ting; Kornblith, Simon; Norouzi, Mohammad; Hinton, Geoffrey (2020-11-21). "दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा". International Conference on Machine Learning (in English). PMLR: 1597–1607.
  34. Mathilde, Caron; Ishan, Misra; Julien, Mairal; Priya, Goyal; Piotr, Bojanowski; Armand, Joulin (2020). "कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.09882.
  35. Chen, Mark; Radford, Alec; Child, Rewon; Wu, Jeffrey; Jun, Heewoo; Luan, David; Sutskever, Ilya (2020-11-21). "पिक्सेल से जेनरेटिव प्रीट्रेनिंग". International Conference on Machine Learning (in English). PMLR: 1691–1703.
  36. Chen, Xinlei; He, Kaiming (2021). "सरल स्याम देश प्रतिनिधित्व सीखने की खोज" (in English): 15750–15758. arXiv:2011.10566. {{cite journal}}: Cite journal requires |journal= (help)
  37. Jean-Bastien, Grill; Florian, Strub; Florent, Altché; Corentin, Tallec; Pierre, Richemond; Elena, Buchatskaya; Carl, Doersch; Bernardo, Avila Pires; Zhaohan, Guo; Mohammad, Gheshlaghi Azar; Bilal, Piot; koray, kavukcuoglu; Remi, Munos; Michal, Valko (2020). "बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण". Advances in Neural Information Processing Systems (in English). 33.
  38. Cai, HongYun; Zheng, Vincent W.; Chang, Kevin Chen-Chuan (September 2018). "A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications". IEEE Transactions on Knowledge and Data Engineering. 30 (9): 1616–1637. arXiv:1709.07604. doi:10.1109/TKDE.2018.2807452. ISSN 1558-2191. S2CID 13999578.
  39. Grover, Aditya; Leskovec, Jure (2016-08-13). "node2vec: Scalable Feature Learning for Networks". Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD '16. New York, NY, USA: Association for Computing Machinery. 2016: 855–864. doi:10.1145/2939672.2939754. ISBN 978-1-4503-4232-2. PMC 5108654. PMID 27853626.
  40. Velikovi, P., Fedus, W., Hamilton, W. L., Li, P., Bengio, Y., and Hjelm, R. D. Deep Graph InfoMax. In International Conference on Learning Representations (ICLR’2019), 2019.
  41. Luo, Dezhao; Liu, Chang; Zhou, Yu; Yang, Dongbao; Ma, Can; Ye, Qixiang; Wang, Weiping (2020-04-03). "स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया". Proceedings of the AAAI Conference on Artificial Intelligence (in English). 34 (7): 11701–11708. doi:10.1609/aaai.v34i07.6840. ISSN 2374-3468. S2CID 209531629.
  42. Humam, Alwassel; Dhruv, Mahajan; Bruno, Korbar; Lorenzo, Torresani; Bernard, Ghanem; Du, Tran (2020). "क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण". Advances in Neural Information Processing Systems (in English). 33. arXiv:1911.12667.
  43. Xu, Dejing; Xiao, Jun; Zhao, Zhou; Shao, Jian; Xie, Di; Zhuang, Yueting (June 2019). "Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction". 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 10326–10335. doi:10.1109/CVPR.2019.01058. ISBN 978-1-7281-3293-8. S2CID 195504152.
  44. 44.0 44.1 Alexei, Baevski; Yuhao, Zhou; Abdelrahman, Mohamed; Michael, Auli (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.11477.
  45. 45.0 45.1 Zellers, Rowan; Lu, Jiasen; Lu, Ximing; Yu, Youngjae; Zhao, Yanpeng; Salehi, Mohammadreza; Kusupati, Aditya; Hessel, Jack; Farhadi, Ali; Choi, Yejin (2022). "MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound" (in English): 16375–16387. arXiv:2201.02639. {{cite journal}}: Cite journal requires |journal= (help)
  46. Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "सीएलआईपी लेटेंट्स के साथ पदानुक्रमित पाठ-सशर्त छवि निर्माण". arXiv:2204.06125 [cs.CV].