फ़ीचर लर्निंग: Difference between revisions
From Vigyanwiki
| Line 3: | Line 3: | ||
[[File:Feature Learning Diagram.png|thumb|354x354px|डाउनस्ट्रीम कार्यों के लिए मशीन सीखना में फ़ीचर सीखना प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए [[फ़ीचर (मशीन लर्निंग)|फ़ीचर (मशीन सीखना)]] के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।<ref>Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref>]][[ यंत्र अधिगम |यंत्र अधिगम]] में, फीचर सीखना या प्रतिनिधित्व सीखना<ref name="pami">{{cite journal |author1=Y. Bengio |author2=A. Courville |author3=P. Vincent |title=Representation Learning: A Review and New Perspectives |journal= IEEE Transactions on Pattern Analysis and Machine Intelligence|year=2013|doi=10.1109/tpami.2013.50 |pmid=23787338 |volume=35 |issue=8 |pages=1798–1828|arxiv=1206.5538 |s2cid=393948 }}</ref> तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल [[फ़ीचर इंजीनियरिंग]] की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है। | [[File:Feature Learning Diagram.png|thumb|354x354px|डाउनस्ट्रीम कार्यों के लिए मशीन सीखना में फ़ीचर सीखना प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए [[फ़ीचर (मशीन लर्निंग)|फ़ीचर (मशीन सीखना)]] के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।<ref>Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref>]][[ यंत्र अधिगम |यंत्र अधिगम]] में, फीचर सीखना या प्रतिनिधित्व सीखना<ref name="pami">{{cite journal |author1=Y. Bengio |author2=A. Courville |author3=P. Vincent |title=Representation Learning: A Review and New Perspectives |journal= IEEE Transactions on Pattern Analysis and Machine Intelligence|year=2013|doi=10.1109/tpami.2013.50 |pmid=23787338 |volume=35 |issue=8 |pages=1798–1828|arxiv=1206.5538 |s2cid=393948 }}</ref> तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल [[फ़ीचर इंजीनियरिंग]] की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है। | ||
फ़ीचर सीखना इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण]] जैसे मशीन सीखना कार्यों के लिए | फ़ीचर सीखना इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण]] जैसे मशीन सीखना कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है। | ||
फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है। | फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है। | ||
| Line 23: | Line 23: | ||
|url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf | |url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf | ||
}}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref> | }}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref> | ||
* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] शामिल हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क | * [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] शामिल हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" /> | ||
== पर्यवेक्षित == | == पर्यवेक्षित == | ||
| Line 36: | Line 36: | ||
तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं। | तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं। | ||
बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क | बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला [[स्याम देश का तंत्रिका नेटवर्क|सियामी नेटवर्क]] है। | ||
==अपर्यवेक्षित== | ==अपर्यवेक्षित== | ||
अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य | अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य प्रायः कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं। | ||
=== के- का अर्थ है क्लस्टरिंग === | === के- का अर्थ है क्लस्टरिंग === | ||
| Line 49: | Line 49: | ||
=== प्रमुख घटक विश्लेषण === | === प्रमुख घटक विश्लेषण === | ||
प्रमुख घटक विश्लेषण (पीसीए) का उपयोग | प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं। | ||
पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें [[eigenvector|आइजन्वेक्टर]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है। | पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें [[eigenvector|आइजन्वेक्टर]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है। | ||
| Line 70: | Line 70: | ||
== बहुपरत/गहरा वास्तुकला == | == बहुपरत/गहरा वास्तुकला == | ||
जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये वास्तुकला प्रायः [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है। | |||
=== [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] === | === [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] === | ||
प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग | प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग किया जाता है।<ref name="coates2011">{{cite conference | ||
|last1 = Coates | |last1 = Coates | ||
|first1 = Adam | |first1 = Adam | ||
| Line 88: | Line 88: | ||
|archive-date = 2017-08-13 | |archive-date = 2017-08-13 | ||
|url-status = dead | |url-status = dead | ||
}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662| url = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> | }}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662| url = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> आरबीएम को अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल|बाइनरी चर]] का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे '''शामिल''' होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन|बोल्ट्ज़मान मशीनों]] का विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं है।आरबीएम में प्रत्येक किनारा वजन से जुड़ा होता है। कनेक्शन के साथ वजन [[ऊर्जा समारोह|ऊर्जा फ़ंक्शन]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है। | ||
आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए | आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/> | ||
सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)]] शब्द जोड़ा जाए, जो | सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)|नियमितीकरण]] शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है <math>p</math>. | ||
=== ऑटोएन्कोडर === | === ऑटोएन्कोडर === | ||
ऑटोएन्कोडर और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है<ref name = Hinton2006/> जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए सुविधा का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में '''शामिल''' मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते। | |||
== स्व-पर्यवेक्षित == | == स्व-पर्यवेक्षित == | ||
स्व-पर्यवेक्षित | स्व'''-पर्यवेक्षित प्रतिनि'''धित्व शिक्षण [[ ढतला हुआ वंश |सूचना संकेत]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" />प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" />जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" /> | ||
एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता | एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" /> | ||
विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो | विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" /> | ||
| Line 113: | Line 113: | ||
=== छवि === | === छवि === | ||
छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है,<ref>Spyros Gidaris, Praveer Singh, and Nikos Komodakis. [https://openreview.net/pdf?id=S1v4N2l0- Unsupervised representation learning by predicting image rotations.] In ICLR, 2018.</ref> चित्रकारी,<ref name=":5">{{Cite journal |last1=Pathak |first1=Deepak |last2=Krahenbuhl |first2=Philipp |last3=Donahue |first3=Jeff |last4=Darrell |first4=Trevor |last5=Efros |first5=Alexei A. |date=2016 |title=Context Encoders: Feature Learning by Inpainting |url=https://openaccess.thecvf.com/content_cvpr_2016/html/Pathak_Context_Encoders_Feature_CVPR_2016_paper.html |pages=2536–2544|arxiv=1604.07379 }}</ref> पैच भेदभाव<ref name=":6">{{Cite journal |last1=Chen |first1=Ting |last2=Kornblith |first2=Simon |last3=Norouzi |first3=Mohammad |last4=Hinton |first4=Geoffrey |date=2020-11-21 |title=दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा|url=https://proceedings.mlr.press/v119/chen20j.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1597–1607}}</ref> और क्लस्टरिंग.<ref>{{Cite journal |last1=Mathilde |first1=Caron |last2=Ishan |first2=Misra |last3=Julien |first3=Mairal |last4=Priya |first4=Goyal |last5=Piotr |first5=Bojanowski |last6=Armand |first6=Joulin |date=2020 |title=कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा|url=https://proceedings.neurips.cc/paper/2020/hash/70feb62b69f16e0238f741fab228fec2-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.09882 }}</ref> | छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है,<ref>Spyros Gidaris, Praveer Singh, and Nikos Komodakis. [https://openreview.net/pdf?id=S1v4N2l0- Unsupervised representation learning by predicting image rotations.] In ICLR, 2018.</ref> चित्रकारी,<ref name=":5">{{Cite journal |last1=Pathak |first1=Deepak |last2=Krahenbuhl |first2=Philipp |last3=Donahue |first3=Jeff |last4=Darrell |first4=Trevor |last5=Efros |first5=Alexei A. |date=2016 |title=Context Encoders: Feature Learning by Inpainting |url=https://openaccess.thecvf.com/content_cvpr_2016/html/Pathak_Context_Encoders_Feature_CVPR_2016_paper.html |pages=2536–2544|arxiv=1604.07379 }}</ref> पैच भेदभाव<ref name=":6">{{Cite journal |last1=Chen |first1=Ting |last2=Kornblith |first2=Simon |last3=Norouzi |first3=Mohammad |last4=Hinton |first4=Geoffrey |date=2020-11-21 |title=दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा|url=https://proceedings.mlr.press/v119/chen20j.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1597–1607}}</ref> और क्लस्टरिंग.<ref>{{Cite journal |last1=Mathilde |first1=Caron |last2=Ishan |first2=Misra |last3=Julien |first3=Mairal |last4=Priya |first4=Goyal |last5=Piotr |first5=Bojanowski |last6=Armand |first6=Joulin |date=2020 |title=कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा|url=https://proceedings.neurips.cc/paper/2020/hash/70feb62b69f16e0238f741fab228fec2-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.09882 }}</ref> | ||
जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] कन्वोल्यूशनल तंत्रिका नेटवर्क | जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] कन्वोल्यूशनल तंत्रिका नेटवर्क वास्तुकला को प्रशिक्षित करते हैं।<ref name=":5" />और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2]] भाषा मॉडल वास्तुकला लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref> | ||
कई अन्य स्व-पर्यवेक्षित विधियां [[ स्याम देश के नेटवर्क ]] का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।<ref>{{Cite journal |last1=Chen |first1=Xinlei |last2=He |first2=Kaiming |date=2021 |title=सरल स्याम देश प्रतिनिधित्व सीखने की खोज|url=https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.html |language=en |pages=15750–15758|arxiv=2011.10566 }}</ref> सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो [[अवशिष्ट तंत्रिका नेटवर्क]] कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।<ref name=":6" />बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।<ref>{{Cite journal |last1=Jean-Bastien |first1=Grill |last2=Florian |first2=Strub |last3=Florent |first3=Altché |last4=Corentin |first4=Tallec |last5=Pierre |first5=Richemond |last6=Elena |first6=Buchatskaya |last7=Carl |first7=Doersch |last8=Bernardo |first8=Avila Pires |last9=Zhaohan |first9=Guo |last10=Mohammad |first10=Gheshlaghi Azar |last11=Bilal |first11=Piot |last12=koray |first12=kavukcuoglu |last13=Remi |first13=Munos |last14=Michal |first14=Valko |date=2020 |title=बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण|url=https://proceedings.neurips.cc/paper/2020/hash/f3ada80d5c4ee70142b17b8192b2958e-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33}}</ref> | कई अन्य स्व-पर्यवेक्षित विधियां [[ स्याम देश के नेटवर्क ]] का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।<ref>{{Cite journal |last1=Chen |first1=Xinlei |last2=He |first2=Kaiming |date=2021 |title=सरल स्याम देश प्रतिनिधित्व सीखने की खोज|url=https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.html |language=en |pages=15750–15758|arxiv=2011.10566 }}</ref> सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो [[अवशिष्ट तंत्रिका नेटवर्क]] कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।<ref name=":6" />बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।<ref>{{Cite journal |last1=Jean-Bastien |first1=Grill |last2=Florian |first2=Strub |last3=Florent |first3=Altché |last4=Corentin |first4=Tallec |last5=Pierre |first5=Richemond |last6=Elena |first6=Buchatskaya |last7=Carl |first7=Doersch |last8=Bernardo |first8=Avila Pires |last9=Zhaohan |first9=Guo |last10=Mohammad |first10=Gheshlaghi Azar |last11=Bilal |first11=Piot |last12=koray |first12=kavukcuoglu |last13=Remi |first13=Munos |last14=Michal |first14=Valko |date=2020 |title=बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण|url=https://proceedings.neurips.cc/paper/2020/hash/f3ada80d5c4ee70142b17b8192b2958e-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33}}</ref> | ||
| Line 122: | Line 122: | ||
| < | |||