फ़ीचर लर्निंग: Difference between revisions

From Vigyanwiki
Line 39: Line 39:


==अपर्यवेक्षित==
==अपर्यवेक्षित==
'''अनसुपरवाइज़्ड''' फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य अक्सर कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के एक रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल किए गए डेटा के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/>निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।
अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य अक्सर कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।


=== के-मतलब क्लस्टरिंग ===
=== के- का अर्थ है क्लस्टरिंग ===
के-मीन्स क्लस्टरिंग|के-मीन्स क्लस्टरिंग वेक्टर परिमाणीकरण के लिए एक दृष्टिकोण है। विशेष रूप से, n वैक्टरों के एक सेट को देखते हुए, k-मीन्स क्लस्टरिंग उन्हें k क्लस्टर्स (यानी, सबसेट) में इस तरह से समूहित करती है कि प्रत्येक वेक्टर निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या कम्प्यूटेशनल रूप से [[ एनपी कठिन ]] है, तथापि उप-इष्टतम [[लालची एल्गोरिदम]] विकसित किए गए हैं।
के-का अर्थ क्लस्टरिंग वेक्टर परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से समूहित करती है कि प्रत्येक वेक्टर निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या कम्प्यूटेशनल रूप से [[ एनपी कठिन | एनपी हार्ड]] है, तथापि उप-इष्टतम [[लालची एल्गोरिदम]] विकसित किए गए हैं।


के-मीन्स क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को के क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के [[केन्द्रक]] का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक होता है यदि और केवल तभी जब k-मीन्स द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब हो।<ref name="coates2011"/>क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन के माध्यम से परिवर्तित करने के बाद (एक तकनीक जिसका उपयोग [[रेडियल आधार फ़ंक्शन नेटवर्क]] को प्रशिक्षित करने के लिए किया गया है)<ref name="schwenker">{{cite journal |last1=Schwenker |first1=Friedhelm |last2=Kestler |first2=Hans A. |last3=Palm |first3=Günther |title=रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण|journal=Neural Networks |volume=14 |issue=4–5 |pages=439–458 |year=2001 |citeseerx = 10.1.1.109.312 |doi=10.1016/s0893-6080(01)00027-2|pmid=11411631 }}</ref>). कोट्स और [[एंड्रयू एनजी]] ने ध्यान दिया कि के-मीन्स के कुछ प्रकार [[विरल कोडिंग]] एल्गोरिदम के समान व्यवहार करते हैं।<ref name=Coates2012>{{cite encyclopedia |last1 = Coates |first1 = Adam |last2 = Ng |first2 = Andrew Y. |title=K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व|encyclopedia=Neural Networks: Tricks of the Trade |year = 2012 |publisher=Springer |editor=G. Montavon, G. B. Orr and [[Klaus-Robert Müller|K.-R. Müller]]}}</ref>
के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के [[केन्द्रक]] का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।<ref name="coates2011"/> क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (एक तकनीक जिसका उपयोग [[रेडियल आधार फ़ंक्शन नेटवर्क]] को प्रशिक्षित करने के लिए किया गया है<ref name="schwenker">{{cite journal |last1=Schwenker |first1=Friedhelm |last2=Kestler |first2=Hans A. |last3=Palm |first3=Günther |title=रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण|journal=Neural Networks |volume=14 |issue=4–5 |pages=439–458 |year=2001 |citeseerx = 10.1.1.109.312 |doi=10.1016/s0893-6080(01)00027-2|pmid=11411631 }}</ref>) के माध्यम से परिवर्तित करने के बाद कोट्स और [[एंड्रयू एनजी|एनजी]] ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार [[विरल कोडिंग]] एल्गोरिदम के समान व्यवहार करते हैं।<ref name=Coates2012>{{cite encyclopedia |last1 = Coates |first1 = Adam |last2 = Ng |first2 = Andrew Y. |title=K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व|encyclopedia=Neural Networks: Tricks of the Trade |year = 2012 |publisher=Springer |editor=G. Montavon, G. B. Orr and [[Klaus-Robert Müller|K.-R. Müller]]}}</ref>
बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि एक उपयुक्त परिवर्तन के साथ के-मीन्स क्लस्टरिंग एक छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो-एनकोडर और आरबीएम से बेहतर प्रदर्शन करता है।<ref name="coates2011"/>के-मीन्स [[प्राकृतिक भाषा प्रसंस्करण]] के क्षेत्र में भी प्रदर्शन में सुधार करता है, विशेष रूप से [[नामित-इकाई पहचान]] के लिए;<ref>{{cite conference |title=भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग|author1=Dekang Lin |author2=Xiaoyun Wu |conference=Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP |pages=1030–1038 |year=2009 |url=http://wmmks.csie.ncku.edu.tw/ACL-IJCNLP-2009/ACLIJCNLP/pdf/ACLIJCNLP116.pdf}}</ref> वहां, यह [[ भूरा क्लस्टरिंग ]] के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।<ref name="turian">{{cite conference |author1=Joseph Turian |author2=Lev Ratinov |author3=Yoshua Bengio |title=Word representations: a simple and general method for semi-supervised learning |conference=Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics |year=2010 |url=http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |access-date=2014-02-22 |archive-url=https://web.archive.org/web/20140226202823/http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |archive-date=2014-02-26 |url-status=dead }}</ref>


बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो-एनकोडर और आरबीएम से बेहतर प्रदर्शन करता है।<ref name="coates2011" /> के- का अर्थ [[प्राकृतिक भाषा प्रसंस्करण|एनएलपी]] के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से [[नामित-इकाई पहचान]] के लिए,<ref>{{cite conference |title=भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग|author1=Dekang Lin |author2=Xiaoyun Wu |conference=Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP |pages=1030–1038 |year=2009 |url=http://wmmks.csie.ncku.edu.tw/ACL-IJCNLP-2009/ACLIJCNLP/pdf/ACLIJCNLP116.pdf}}</ref> वहां, यह [[ भूरा क्लस्टरिंग |ब्राउन क्लस्टरिंग]] के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।<ref name="turian">{{cite conference |author1=Joseph Turian |author2=Lev Ratinov |author3=Yoshua Bengio |title=Word representations: a simple and general method for semi-supervised learning |conference=Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics |year=2010 |url=http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |access-date=2014-02-22 |archive-url=https://web.archive.org/web/20140226202823/http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |archive-date=2014-02-26 |url-status=dead }}</ref>


=== प्रमुख घटक विश्लेषण ===
=== प्रमुख घटक विश्लेषण ===
प्रमुख घटक विश्लेषण (पीसीए) का उपयोग अक्सर आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, पीसीए पी उत्पन्न करता है (जो इनपुट डेटा के आयाम से बहुत छोटा है) डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मूल्यों के अनुरूप एकवचन मूल्य अपघटन, जहां डेटा मैट्रिक्स की केटी पंक्ति नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए केटीएच इनपुट डेटा वेक्टर है (यानी, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर नमूना माध्य और इनपुट वैक्टर के नमूना सहप्रसरण के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।
प्रमुख घटक विश्लेषण (पीसीए) का उपयोग अक्सर आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।


पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें [[eigenvector]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।
पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें [[eigenvector|आइजन्वेक्टर]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।


पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि मामला नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के मोमेंट (गणित) का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।
पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।


=== स्थानीय रैखिक एम्बेडिंग ===
=== स्थानीय रैखिक एम्बेडिंग ===
[[अरेखीय आयामीता में कमी]] (एलएलई) उच्च-आयाम इनपुट (अनलेबल) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए एक नॉनलाइनियर सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।<ref name="RowSau00">{{cite journal|last1=Roweis|first1=Sam T|last2=Saul|first2=Lawrence K|title=स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी|journal=Science |series=New Series|date=2000|volume=290|issue=5500|pages=2323–2326|doi=10.1126/science.290.5500.2323|jstor=3081722|pmid=11125150|bibcode=2000Sci...290.2323R|s2cid=5987139 }}</ref><ref name="SauRow00">{{cite journal|last1=Saul|first1=Lawrence K|last2=Roweis|first2=Sam T|title=स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय|date=2000|url=http://www.cs.toronto.edu/~roweis/lle/publications.html}}</ref> एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।
[[अरेखीय आयामीता में कमी]] (एलएलई) उच्च-आयाम इनपुट (अनलेबल) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व '''उत्पन्न''' करने के लिए एक नॉनलाइनियर सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।<ref name="RowSau00">{{cite journal|last1=Roweis|first1=Sam T|last2=Saul|first2=Lawrence K|title=स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी|journal=Science |series=New Series|date=2000|volume=290|issue=5500|pages=2323–2326|doi=10.1126/science.290.5500.2323|jstor=3081722|pmid=11125150|bibcode=2000Sci...290.2323R|s2cid=5987139 }}</ref><ref name="SauRow00">{{cite journal|last1=Saul|first1=Lawrence K|last2=Roweis|first2=Sam T|title=स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय|date=2000|url=http://www.cs.toronto.edu/~roweis/lle/publications.html}}</ref> एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।


एलएलई में दो प्रमुख चरण होते हैं। पहला चरण पड़ोसी-संरक्षण के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिदम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (यानी, एक इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है, इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े वजन का योग एक तक होता है। दूसरा चरण आयाम में कमी के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।
एलएलई में दो प्रमुख चरण होते हैं। पहला चरण पड़ोसी-संरक्षण के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिदम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (यानी, एक इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है, इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े वजन का योग एक तक होता है। दूसरा चरण आयाम में कमी के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।

Revision as of 23:24, 5 August 2023

डाउनस्ट्रीम कार्यों के लिए मशीन सीखना में फ़ीचर सीखना प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए फ़ीचर (मशीन सीखना) के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।[1]

यंत्र अधिगम में, फीचर सीखना या प्रतिनिधित्व सीखना[2] तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर सीखना इस तथ्य से प्रेरित है कि सांख्यिकीय वर्गीकरण जैसे मशीन सीखना कार्यों के लिए अक्सर ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है।

फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।

  • पर्यवेक्षित फ़ीचर सीखना में, लेबल इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े शामिल होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।[3] इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में कृत्रिम तंत्रिका नेटवर्क, मल्टीलेयर परसेप्ट्रॉन और (पर्यवेक्षित) शब्दकोश सीखना शामिल हैं।
  • अनपर्यवेक्षित फ़ीचर में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ सीखा जाता है।[4] उदाहरणों में शब्दकोश सीखना, स्वतंत्र घटक विश्लेषण, मैट्रिक्स अपघटन [5] और क्लस्टर विश्लेषण के विभिन्न रूप शामिल हैं।[6][7][8]
  • स्व-पर्यवेक्षित फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।[9] शास्त्रीय उदाहरणों में शब्द एम्बेडिंग और ऑटोएन्कोडर शामिल हैं।[10][11] एसएसएल को तब से CNNs और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क आर्किटेक्चर के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।[9]

पर्यवेक्षित

पर्यवेक्षित फ़ीचर सीखना लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में शामिल हैं:

पर्यवेक्षित शब्दकोश सीखना

शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और वजन पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)।

पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह[12] पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण शामिल होता है।

तंत्रिका नेटवर्क

तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क आर्किटेक्चर