फ़ीचर लर्निंग: Difference between revisions

Line 3:

[[File:Feature Learning Diagram.png|thumb|354x354px|डाउनस्ट्रीम कार्यों के लिए मशीन सीखना में फ़ीचर सीखना प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए [[फ़ीचर (मशीन लर्निंग)|फ़ीचर (मशीन सीखना)]] के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।<ref>Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref>]][[ यंत्र अधिगम |यंत्र अधिगम]] में, फीचर सीखना या प्रतिनिधित्व सीखना<ref name="pami">{{cite journal |author1=Y. Bengio |author2=A. Courville |author3=P. Vincent |title=Representation Learning: A Review and New Perspectives |journal= IEEE Transactions on Pattern Analysis and Machine Intelligence|year=2013|doi=10.1109/tpami.2013.50 |pmid=23787338 |volume=35 |issue=8 |pages=1798–1828|arxiv=1206.5538 |s2cid=393948 }}</ref> तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल [[फ़ीचर इंजीनियरिंग]] की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर सीखना इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण]] जैसे मशीन सीखना कार्यों के लिए ~~अक्सर~~ ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है।

फ़ीचर सीखना इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण]] जैसे मशीन सीखना कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है।

फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।

Line 23:

|url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf

}}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref>

* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] शामिल हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क ~~आर्किटेक्चर~~ के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" />

* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] शामिल हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" />

== पर्यवेक्षित ==

Line 36:

तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क ~~आर्किटेक्चर~~ [[स्याम देश का तंत्रिका नेटवर्क|सियामी नेटवर्क]] है।

बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला [[स्याम देश का तंत्रिका नेटवर्क|सियामी नेटवर्क]] है।

==अपर्यवेक्षित==

अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य ~~अक्सर~~ कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य प्रायः कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

=== के- का अर्थ है क्लस्टरिंग ===

Line 49:

=== प्रमुख घटक विश्लेषण ===

प्रमुख घटक विश्लेषण (पीसीए) का उपयोग ~~अक्सर~~ आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।

प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।

पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें [[eigenvector|आइजन्वेक्टर]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।

Line 70:

== बहुपरत/गहरा वास्तुकला ==

~~'''~~जैविक तंत्रिका तंत्र की ~~पदानुक्र'''मित~~ वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये ~~आर्किटेक्चर अक्सर~~ [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी ~~सुविधा~~ या प्रतिनिधित्व है।

जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये वास्तुकला प्रायः [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है।

=== [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] ===

प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग ~~अक्सर~~ बहुपरत शिक्षण ~~आर्किटेक्चर~~ के लिए बिल्डिंग ब्लॉक के रूप में किया जाता है।<ref name="coates2011">{{cite conference

प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग किया जाता है।<ref name="coates2011">{{cite conference

|last1 = Coates

|first1 = Adam

Line 88:

|archive-date = 2017-08-13

|url-status = dead

}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662| url = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> एक आरबीएम को एक अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल]] ~~अव्यक्त वैरिएबल~~ का एक समूह, दृश्यमान ~~वैरिएबल~~ का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे शामिल होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन]] का एक विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं ~~है। आरबीएम~~ में प्रत्येक किनारा एक वजन से जुड़ा होता है। कनेक्शन के साथ वजन एक [[ऊर्जा समारोह]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।

}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662| url = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> आरबीएम को अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल|बाइनरी चर]] का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे '''शामिल''' होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन|बोल्ट्ज़मान मशीनों]] का विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं है।आरबीएम में प्रत्येक किनारा वजन से जुड़ा होता है। कनेक्शन के साथ वजन [[ऊर्जा समारोह|ऊर्जा फ़ंक्शन]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।

आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए ~~सिंगल~~ लेयर ~~आर्किटेक्चर~~ के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/>

आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/>

सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)]] शब्द जोड़ा जाए, जो एक छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है <math>p</math>.

सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)|नियमितीकरण]] शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है <math>p</math>.

=== ऑटोएन्कोडर ===

~~एक एनकोडर~~ और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण ~~आर्किटेक्चर~~ के लिए एक प्रतिमान है। एक उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है<ref name = Hinton2006/>जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए ~~फीचर~~ का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। ~~आर्किटेक्चर~~ में शामिल मापदंडों को मूल रूप से एक लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था: फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण ~~आमतौर पर~~ [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।

ऑटोएन्कोडर और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है<ref name = Hinton2006/> जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए सुविधा का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में '''शामिल''' मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।

== स्व-पर्यवेक्षित ==

स्व-पर्यवेक्षित ~~प्रतिनिधित्व~~ शिक्षण [[ ढतला हुआ वंश ]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क ~~आर्किटेक्चर~~ और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" />प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" />जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" />

स्व'''-पर्यवेक्षित प्रतिनि'''धित्व शिक्षण [[ ढतला हुआ वंश |सूचना संकेत]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" />प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" />जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" />

एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता ~~आमतौर पर~~ पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" />

एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" />

विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो ~~अक्सर~~ अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" />

विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" />

Line 113:

=== छवि ===

छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है,<ref>Spyros Gidaris, Praveer Singh, and Nikos Komodakis. [https://openreview.net/pdf?id=S1v4N2l0- Unsupervised representation learning by predicting image rotations.] In ICLR, 2018.</ref> चित्रकारी,<ref name=":5">{{Cite journal |last1=Pathak |first1=Deepak |last2=Krahenbuhl |first2=Philipp |last3=Donahue |first3=Jeff |last4=Darrell |first4=Trevor |last5=Efros |first5=Alexei A. |date=2016 |title=Context Encoders: Feature Learning by Inpainting |url=https://openaccess.thecvf.com/content_cvpr_2016/html/Pathak_Context_Encoders_Feature_CVPR_2016_paper.html |pages=2536–2544|arxiv=1604.07379 }}</ref> पैच भेदभाव<ref name=":6">{{Cite journal |last1=Chen |first1=Ting |last2=Kornblith |first2=Simon |last3=Norouzi |first3=Mohammad |last4=Hinton |first4=Geoffrey |date=2020-11-21 |title=दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा|url=https://proceedings.mlr.press/v119/chen20j.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1597–1607}}</ref> और क्लस्टरिंग.<ref>{{Cite journal |last1=Mathilde |first1=Caron |last2=Ishan |first2=Misra |last3=Julien |first3=Mairal |last4=Priya |first4=Goyal |last5=Piotr |first5=Bojanowski |last6=Armand |first6=Joulin |date=2020 |title=कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा|url=https://proceedings.neurips.cc/paper/2020/hash/70feb62b69f16e0238f741fab228fec2-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.09882 }}</ref>

जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] कन्वोल्यूशनल तंत्रिका नेटवर्क ~~आर्किटेक्चर~~ को प्रशिक्षित करते हैं।<ref name=":5" />और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2]] भाषा मॉडल ~~आर्किटेक्चर~~ लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref>

जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] कन्वोल्यूशनल तंत्रिका नेटवर्क वास्तुकला को प्रशिक्षित करते हैं।<ref name=":5" />और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2]] भाषा मॉडल वास्तुकला लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref>

कई अन्य स्व-पर्यवेक्षित विधियां [[ स्याम देश के नेटवर्क ]] का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।<ref>{{Cite journal |last1=Chen |first1=Xinlei |last2=He |first2=Kaiming |date=2021 |title=सरल स्याम देश प्रतिनिधित्व सीखने की खोज|url=https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.html |language=en |pages=15750–15758|arxiv=2011.10566 }}</ref> सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो [[अवशिष्ट तंत्रिका नेटवर्क]] कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।<ref name=":6" />बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।<ref>{{Cite journal |last1=Jean-Bastien |first1=Grill |last2=Florian |first2=Strub |last3=Florent |first3=Altché |last4=Corentin |first4=Tallec |last5=Pierre |first5=Richemond |last6=Elena |first6=Buchatskaya |last7=Carl |first7=Doersch |last8=Bernardo |first8=Avila Pires |last9=Zhaohan |first9=Guo |last10=Mohammad |first10=Gheshlaghi Azar |last11=Bilal |first11=Piot |last12=koray |first12=kavukcuoglu |last13=Remi |first13=Munos |last14=Michal |first14=Valko |date=2020 |title=बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण|url=https://proceedings.neurips.cc/paper/2020/hash/f3ada80d5c4ee70142b17b8192b2958e-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33}}</ref>

Line 122:

<

Anonymous

Search

फ़ीचर लर्निंग: Difference between revisions

Namespaces

More

Page actions

@@ Line 3: / Line 3: @@
 [[File:Feature Learning Diagram.png|thumb|354x354px|डाउनस्ट्रीम कार्यों के लिए मशीन  सीखना में फ़ीचर  सीखना प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए [[फ़ीचर (मशीन लर्निंग)|फ़ीचर (मशीन  सीखना)]] के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।<ref>Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref>]][[ यंत्र अधिगम |यंत्र अधिगम]] में, फीचर  सीखना या प्रतिनिधित्व  सीखना<ref name="pami">{{cite journal |author1=Y. Bengio |author2=A. Courville |author3=P. Vincent |title=Representation Learning: A Review and New Perspectives |journal= IEEE Transactions on Pattern Analysis and Machine Intelligence|year=2013|doi=10.1109/tpami.2013.50 |pmid=23787338 |volume=35 |issue=8 |pages=1798–1828|arxiv=1206.5538 |s2cid=393948 }}</ref> तकनीकों का एक सेट है जो  प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल [[फ़ीचर इंजीनियरिंग]] की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।
-फ़ीचर  सीखना इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण]] जैसे मशीन  सीखना कार्यों के लिए अक्सर ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो।  तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना  विकल्प है।
+फ़ीचर  सीखना इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण]] जैसे मशीन  सीखना कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो।  तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना  विकल्प है।
 फीचर  सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।
@@ Line 23: / Line 23: @@
 |url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf
 }}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref>
-* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर  सीखना में, फीचर को  अपर्यवेक्षित  सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] शामिल हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर  जैसे गहरे तंत्रिका नेटवर्क  आर्किटेक्चर के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" />
+* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर  सीखना में, फीचर को  अपर्यवेक्षित  सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] शामिल हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर  जैसे गहरे तंत्रिका नेटवर्क  वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" />
 == पर्यवेक्षित ==
@@ Line 36: / Line 36: @@
 तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।
-बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क आर्किटेक्चर [[स्याम देश का तंत्रिका नेटवर्क|सियामी नेटवर्क]] है।
+बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला [[स्याम देश का तंत्रिका नेटवर्क|सियामी नेटवर्क]] है।
 ==अपर्यवेक्षित==
-अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य अक्सर कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।
+अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य प्रायः कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।
 === के- का अर्थ है क्लस्टरिंग ===
@@ Line 49: / Line 49: @@
 === प्रमुख घटक विश्लेषण ===
-प्रमुख घटक विश्लेषण (पीसीए) का उपयोग अक्सर आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।
+प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।
 पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें [[eigenvector|आइजन्वेक्टर]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।
@@ Line 70: / Line 70: @@
 == बहुपरत/गहरा वास्तुकला ==
-'''जैविक तंत्रिका तंत्र की पदानुक्र'''मित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये आर्किटेक्चर अक्सर [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी सुविधा या प्रतिनिधित्व है।
+जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये वास्तुकला प्रायः [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है।
 === [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] ===
-प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग अक्सर बहुपरत शिक्षण आर्किटेक्चर के लिए बिल्डिंग ब्लॉक के रूप में किया जाता है।<ref name="coates2011">{{cite conference
+प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग किया जाता है।<ref name="coates2011">{{cite conference
 |last1 = Coates
 |first1 = Adam
@@ Line 88: / Line 88: @@
 |archive-date = 2017-08-13
 |url-status = dead
-}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid =  16873662| url  = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> एक आरबीएम को एक अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल]] अव्यक्त वैरिएबल का एक समूह, दृश्यमान वैरिएबल का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे शामिल होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन]] का एक विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा एक वजन से जुड़ा होता है। कनेक्शन के साथ वजन एक [[ऊर्जा समारोह]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।
+}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid =  16873662| url  = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> आरबीएम को अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल|बाइनरी चर]]  का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे '''शामिल''' होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन|बोल्ट्ज़मान मशीनों]] का विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं है।आरबीएम में प्रत्येक किनारा वजन से जुड़ा होता है। कनेक्शन के साथ वजन [[ऊर्जा समारोह|ऊर्जा फ़ंक्शन]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।
-आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए सिंगल लेयर आर्किटेक्चर के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/>
+आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/>
-सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)]] शब्द जोड़ा जाए, जो एक छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है <math>p</math>.
+सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)|नियमितीकरण]] शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है <math>p</math>.
 === ऑटोएन्कोडर ===
-एक एनकोडर और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण आर्किटेक्चर के लिए एक प्रतिमान है। एक उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है<ref name = Hinton2006/>जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए फीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। आर्किटेक्चर में शामिल मापदंडों को मूल रूप से एक लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था: फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण आमतौर पर [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।
+ऑटोएन्कोडर और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है<ref name = Hinton2006/> जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए सुविधा का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में '''शामिल''' मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।
 == स्व-पर्यवेक्षित ==
-स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण [[ ढतला हुआ वंश ]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क आर्किटेक्चर और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" />प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" />जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" />
+स्व'''-पर्यवेक्षित प्रतिनि'''धित्व शिक्षण [[ ढतला हुआ वंश |सूचना संकेत]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" />प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" />जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" />
-एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता आमतौर पर पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" />
+एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता  सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" />
-विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो अक्सर अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" />
+विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" />
@@ Line 113: / Line 113: @@
 === छवि ===
 छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है,<ref>Spyros Gidaris, Praveer Singh, and Nikos Komodakis. [https://openreview.net/pdf?id=S1v4N2l0- Unsupervised representation learning by predicting image rotations.] In ICLR, 2018.</ref> चित्रकारी,<ref name=":5">{{Cite journal |last1=Pathak |first1=Deepak |last2=Krahenbuhl |first2=Philipp |last3=Donahue |first3=Jeff |last4=Darrell |first4=Trevor |last5=Efros |first5=Alexei A. |date=2016 |title=Context Encoders: Feature Learning by Inpainting |url=https://openaccess.thecvf.com/content_cvpr_2016/html/Pathak_Context_Encoders_Feature_CVPR_2016_paper.html |pages=2536–2544|arxiv=1604.07379 }}</ref> पैच भेदभाव<ref name=":6">{{Cite journal |last1=Chen |first1=Ting |last2=Kornblith |first2=Simon |last3=Norouzi |first3=Mohammad |last4=Hinton |first4=Geoffrey |date=2020-11-21 |title=दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा|url=https://proceedings.mlr.press/v119/chen20j.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1597–1607}}</ref> और क्लस्टरिंग.<ref>{{Cite journal |last1=Mathilde |first1=Caron |last2=Ishan |first2=Misra |last3=Julien |first3=Mairal |last4=Priya |first4=Goyal |last5=Piotr |first5=Bojanowski |last6=Armand |first6=Joulin |date=2020 |title=कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा|url=https://proceedings.neurips.cc/paper/2020/hash/70feb62b69f16e0238f741fab228fec2-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.09882 }}</ref>
-जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] कन्वोल्यूशनल  तंत्रिका नेटवर्क आर्किटेक्चर को प्रशिक्षित करते हैं।<ref name=":5" />और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2]] भाषा मॉडल आर्किटेक्चर लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref>
+जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] कन्वोल्यूशनल  तंत्रिका नेटवर्क वास्तुकला को प्रशिक्षित करते हैं।<ref name=":5" />और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2]] भाषा मॉडल वास्तुकला लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref>
 कई अन्य स्व-पर्यवेक्षित विधियां [[ स्याम देश के नेटवर्क ]] का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।<ref>{{Cite journal |last1=Chen |first1=Xinlei |last2=He |first2=Kaiming |date=2021 |title=सरल स्याम देश प्रतिनिधित्व सीखने की खोज|url=https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.html |language=en |pages=15750–15758|arxiv=2011.10566 }}</ref> सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो [[अवशिष्ट तंत्रिका नेटवर्क]] कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।<ref name=":6" />बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।<ref>{{Cite journal |last1=Jean-Bastien |first1=Grill |last2=Florian |first2=Strub |last3=Florent |first3=Altché |last4=Corentin |first4=Tallec |last5=Pierre |first5=Richemond |last6=Elena |first6=Buchatskaya |last7=Carl |first7=Doersch |last8=Bernardo |first8=Avila Pires |last9=Zhaohan |first9=Guo |last10=Mohammad |first10=Gheshlaghi Azar |last11=Bilal |first11=Piot |last12=koray |first12=kavukcuoglu |last13=Remi |first13=Munos |last14=Michal |first14=Valko |date=2020 |title=बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण|url=https://proceedings.neurips.cc/paper/2020/hash/f3ada80d5c4ee70142b17b8192b2958e-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33}}</ref>
@@ Line 122: / Line 122: @@
 <