फ़ीचर लर्निंग

यंत्र अधिगम में, फीचर सीखना या प्रतिनिधित्व  सीखना तकनीकों का एक सेट है जो  प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर सीखना इस तथ्य से प्रेरित है कि सांख्यिकीय वर्गीकरण जैसे मशीन  सीखना कार्यों के लिए अक्सर ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो।  तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना  विकल्प है।

फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।
 * पर्यवेक्षित फ़ीचर सीखना में, लेबल इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े शामिल होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा। इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में कृत्रिम तंत्रिका नेटवर्क, मल्टीलेयर परसेप्ट्रॉन और (पर्यवेक्षित) शब्दकोश सीखना शामिल हैं।
 * अनपर्यवेक्षित फ़ीचर में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ सीखा जाता है। उदाहरणों में शब्दकोश सीखना, स्वतंत्र घटक विश्लेषण, मैट्रिक्स अपघटन और क्लस्टर विश्लेषण के विभिन्न रूप शामिल हैं।
 * स्व-पर्यवेक्षित फीचर सीखना में, फीचर को  अपर्यवेक्षित  सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है। शास्त्रीय उदाहरणों में शब्द एम्बेडिंग और  ऑटोएन्कोडर  शामिल हैं।  एसएसएल को तब से CNNs और ट्रांसफॉर्मर  जैसे गहरे तंत्रिका नेटवर्क  आर्किटेक्चर के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।

पर्यवेक्षित
पर्यवेक्षित फ़ीचर सीखना लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक  प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में शामिल हैं:

पर्यवेक्षित शब्दकोश सीखना
शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और वजन पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)।

पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण शामिल होता है।

तंत्रिका नेटवर्क
तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क आर्किटेक्चर सियामी नेटवर्क है।

अपर्यवेक्षित
अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य अक्सर कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह अर्ध-पर्यवेक्षित शिक्षण के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है। निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

के- का अर्थ है क्लस्टरिंग
के-का अर्थ क्लस्टरिंग वेक्टर परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से समूहित करती है कि प्रत्येक वेक्टर निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या कम्प्यूटेशनल रूप से एनपी हार्ड है, तथापि उप-इष्टतम लालची एल्गोरिदम विकसित किए गए हैं।

के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के केन्द्रक का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है। क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (एक तकनीक जिसका उपयोग रेडियल आधार फ़ंक्शन नेटवर्क को प्रशिक्षित करने के लिए किया गया है ) के माध्यम से परिवर्तित करने के बाद कोट्स और एनजी ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार विरल कोडिंग एल्गोरिदम के समान व्यवहार करते हैं।

बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो-एनकोडर और आरबीएम से बेहतर प्रदर्शन करता है। के- का अर्थ एनएलपी के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से नामित-इकाई पहचान के लिए, वहां, यह ब्राउन क्लस्टरिंग के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।

प्रमुख घटक विश्लेषण
प्रमुख घटक विश्लेषण (पीसीए) का उपयोग अक्सर आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।

पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें आइजन्वेक्टर पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।

पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।

स्थानीय रैखिक एम्बेडिंग
स्थानीय रैखिक एम्बेडिंग (एलएलई) उच्च-आयाम इनपुट (बिना लेबल लगा) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए एक नॉनलाइनियर सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था। एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।

एलएलई में दो प्रमुख चरण होते हैं। पहला चरण "पड़ोसी-संरक्षण" के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिदम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (अर्थात, इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है, इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े भार का योग एक तक होता है। दूसरा चरण "आयाम में कमी" के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।

पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के "आंतरिक ज्यामितीय गुणों" को कैप्चर करते हैं। यह माना जाता है कि मूल डेटा चिकनी निम्न-आयामी कई गुना पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए "आंतरिक ज्यामितीय गुणों" के भी मैनिफोल्ड पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।

स्वतंत्र घटक विश्लेषण
स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की तकनीक है। गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक गाऊसी वितरण वितरण का पालन करते हैं तो वजन विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।

अपर्यवेक्षित शब्दकोश सीखना
अपर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अपर्यवेक्षित शब्दकोश सीखने का एक उदाहरण विरल शब्दकोश सीखना है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को सीखना है। अधिक पूर्ण शब्दकोशों को सीखने के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है। अहरोन एट अल और अन्य तत्वों का एक शब्दकोश सीखने के लिए प्रस्तावित एल्गोरिथ्म K-SVD जो विरल प्रतिनिधित्व को सक्षम बनाता है।

बहुपरत/गहरा वास्तुकला
जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है। ये आर्किटेक्चर अक्सर वितरित प्रतिनिधित्व की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी सुविधा या प्रतिनिधित्व है।

प्रतिबंधित बोल्ट्ज़मैन मशीन
प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग अक्सर बहुपरत शिक्षण आर्किटेक्चर के लिए बिल्डिंग ब्लॉक के रूप में किया जाता है। एक आरबीएम को एक अप्रत्यक्ष द्विदलीय ग्राफ द्वारा दर्शाया जा सकता है जिसमें बाइनरी वैरिएबल अव्यक्त वैरिएबल का एक समूह, दृश्यमान वैरिएबल का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे शामिल होते हैं। यह अधिक सामान्य बोल्ट्ज़मान मशीन का एक विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा एक वजन से जुड़ा होता है। कनेक्शन के साथ वजन एक ऊर्जा समारोह को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का संयुक्त वितरण तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं। ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।

आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए सिंगल लेयर आर्किटेक्चर के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। जेफ्री हिंटन के विरोधाभासी विचलन (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।

सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक नियमितीकरण (गणित) शब्द जोड़ा जाए, जो एक छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है $$p$$.

ऑटोएन्कोडर
एक एनकोडर और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण आर्किटेक्चर के लिए एक प्रतिमान है। एक उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए फीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। आर्किटेक्चर में शामिल मापदंडों को मूल रूप से एक लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था: फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण आमतौर पर स्टोकेस्टिक ग्रेडिएंट डिसेंट विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।

स्व-पर्यवेक्षित
स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण ढतला हुआ वंश  के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क आर्किटेक्चर और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है। प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं। विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं। जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।

एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है। संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है। किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता आमतौर पर पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।

विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो अक्सर अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।

पाठ
Word2vec एक शब्द एम्बेडिंग तकनीक है जो पाठ के एक बड़े संग्रह में एक स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है। मॉडल में शब्द वेक्टर अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव। पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है। दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है। Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं। संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित ट्रांसफार्मर प्रीट्रेन, जबकि BERT (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को मास्क करता है। अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में वाक्य एम्बेडिंग या पैराग्राफ जैसी बड़ी पाठ संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं। Doc2Vec शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में जेनेरिक प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।

छवि
छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है, चित्रकारी, पैच भेदभाव और क्लस्टरिंग. जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए एलेक्सनेट कन्वोल्यूशनल तंत्रिका नेटवर्क आर्किटेक्चर को प्रशिक्षित करते हैं। और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर GPT-2 भाषा मॉडल आर्किटेक्चर लागू करता है। कई अन्य स्व-पर्यवेक्षित विधियां स्याम देश के नेटवर्क  का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है। सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो अवशिष्ट तंत्रिका नेटवर्क कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है। बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।

ग्राफ़
कई ग्राफ़ (कंप्यूटर विज्ञान) प्रतिनिधित्व सीखने की तकनीकों का लक्ष्य समग्र टोपोलॉजिकल ग्राफ़ सिद्धांत के आधार पर प्रत्येक वर्टेक्स (ग्राफ़ सिद्धांत) का एक एम्बेडेड प्रतिनिधित्व तैयार करना है। node2vec एसोसिएशन के माप के रूप में ग्राफ़ के माध्यम से यादृच्छिक चलने में सह-घटना का उपयोग करके Word2vec प्रशिक्षण तकनीक को ग्राफ़ में नोड्स तक विस्तारित करता है। एक अन्य दृष्टिकोण ग्राफ़ के भीतर संबंधित संरचनाओं के प्रतिनिधित्व के बीच पारस्परिक जानकारी, समानता का एक उपाय, को अधिकतम करना है। एक उदाहरण डीप ग्राफ इन्फोमैक्स है, जो प्रत्येक नोड के चारों ओर एक "पैच" के प्रतिनिधित्व और पूरे ग्राफ के सारांश प्रतिनिधित्व के बीच पारस्परिक जानकारी के आधार पर विरोधाभासी स्व-पर्यवेक्षण का उपयोग करता है। मल्टीग्राफ प्रशिक्षण सेटिंग में ग्राफ़ प्रतिनिधित्व को किसी अन्य ग्राफ़ के प्रतिनिधित्व के साथ जोड़कर, या एकल ग्राफ़ प्रशिक्षण में दूषित पैच प्रतिनिधित्व को जोड़कर नकारात्मक नमूने प्राप्त किए जाते हैं।

वीडियो
नकाबपोश भविष्यवाणी में समान परिणामों के साथ और क्लस्टरिंग, वीडियो प्रतिनिधित्व सीखने के दृष्टिकोण अक्सर छवि तकनीकों के समान होते हैं लेकिन अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी शामिल है, जो वीडियो क्लिप को मास्क करता है और क्लिप विकल्पों के एक सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक फेरबदल सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3 डी-सीएनएन को प्रशिक्षित करता है।

ऑडियो
स्व-पर्यवेक्षित प्रतिनिधित्व तकनीकों को कई ऑडियो डेटा प्रारूपों पर भी लागू किया गया है, विशेष रूप से भाषण प्रसंस्करण के लिए। Wav2vec 2.0 टेम्पोरल कन्वोल्यूशनल तंत्रिका नेटवर्क के माध्यम से  तरंग  को टाइमस्टेप्स में विभाजित करता है, और फिर एक विपरीत हानि का उपयोग करके यादृच्छिक टाइमस्टेप्स की छिपी हुई भविष्यवाणी पर एक ट्रांसफार्मर (मशीन  सीखना मॉडल) को प्रशिक्षित करता है। यह BERT (भाषा मॉडल) के समान है, वीडियो के लिए कई SSL दृष्टिकोणों को छोड़कर, मॉडल संपूर्ण शब्द शब्दावली के बजाय विकल्पों के एक सेट में से चयन करता है।

मल्टीमॉडल
स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है। दृष्टिकोण आम तौर पर एक अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप, या छवियों का वर्णन करने के लिए लिखे गए कैप्शन।<रेफ नाम = रैडफोर्ड 8748-8763 > CLIP एक विपरीत हानि का उपयोग करके छवि-कैप्शन जोड़े के एक बड़े डेटासेट से छवि और पाठ एन्कोडिंग को संरेखित करने के लिए प्रशिक्षण द्वारा एक संयुक्त छवि-पाठ प्रतिनिधित्व स्थान का निर्माण करता है। MERLOT रिजर्व 3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के एक बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए एक ट्रांसफार्मर-आधारित एनकोडर को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी नकाबपोश भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण।

मल्टीमॉडल शिक्षण प्रतिनिधित्व मॉडल आम तौर पर विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण अक्सर शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट कुत्ते को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और तदनुसार एक कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन किया जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच एक अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि पाठ से छवि निर्माण के लिए DALL-E|DALLE-2 में।

यह भी देखें

 * स्वचालित मशीन सीखना (ऑटोएमएल)
 * ध्यान लगा के पढ़ना या सीखना
 * फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
 * सुविधा निकालना
 * शब्द एम्बेडिंग
 * वेक्टर परिमाणीकरण
 * वैरिएशनल ऑटोएनकोडर