फ़ीचर लर्निंग: Difference between revisions

From Vigyanwiki
Line 56: Line 56:


=== स्थानीय रैखिक एम्बेडिंग ===
=== स्थानीय रैखिक एम्बेडिंग ===
[[अरेखीय आयामीता में कमी]] (एलएलई) उच्च-आयाम इनपुट (अनलेबल) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व '''उत्पन्न''' करने के लिए एक नॉनलाइनियर सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।<ref name="RowSau00">{{cite journal|last1=Roweis|first1=Sam T|last2=Saul|first2=Lawrence K|title=स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी|journal=Science |series=New Series|date=2000|volume=290|issue=5500|pages=2323–2326|doi=10.1126/science.290.5500.2323|jstor=3081722|pmid=11125150|bibcode=2000Sci...290.2323R|s2cid=5987139 }}</ref><ref name="SauRow00">{{cite journal|last1=Saul|first1=Lawrence K|last2=Roweis|first2=Sam T|title=स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय|date=2000|url=http://www.cs.toronto.edu/~roweis/lle/publications.html}}</ref> एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।
[[अरेखीय आयामीता में कमी|स्थानीय रैखिक एम्बेडिंग]] (एलएलई) उच्च-आयाम इनपुट (बिना लेबल लगा) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए एक नॉनलाइनियर सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।<ref name="RowSau00">{{cite journal|last1=Roweis|first1=Sam T|last2=Saul|first2=Lawrence K|title=स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी|journal=Science |series=New Series|date=2000|volume=290|issue=5500|pages=2323–2326|doi=10.1126/science.290.5500.2323|jstor=3081722|pmid=11125150|bibcode=2000Sci...290.2323R|s2cid=5987139 }}</ref><ref name="SauRow00">{{cite journal|last1=Saul|first1=Lawrence K|last2=Roweis|first2=Sam T|title=स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय|date=2000|url=http://www.cs.toronto.edu/~roweis/lle/publications.html}}</ref> एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।


एलएलई में दो प्रमुख चरण होते हैं। पहला चरण पड़ोसी-संरक्षण के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिदम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (यानी, एक इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है, इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े वजन का योग एक तक होता है। दूसरा चरण आयाम में कमी के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।
एलएलई में दो प्रमुख चरण होते हैं। पहला चरण "पड़ोसी-संरक्षण" के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिदम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (अर्थात, इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है, इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े भार का योग एक तक होता है। दूसरा चरण "आयाम में कमी" के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।


पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के आंतरिक ज्यामितीय गुणों को कैप्चर करते हैं।<ref name="SauRow00"/>यह माना जाता है कि मूल डेटा एक चिकनी निम्न-आयामी [[ कई गुना ]] पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए आंतरिक ज्यामितीय गुणों के भी मैनिफोल्ड पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।
पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के "आंतरिक ज्यामितीय गुणों" को कैप्चर करते हैं।<ref name="SauRow00"/> यह माना जाता है कि मूल डेटा चिकनी निम्न-आयामी [[ कई गुना |कई गुना]] पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए "आंतरिक ज्यामितीय गुणों" के भी मैनिफोल्ड पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।


=== स्वतंत्र घटक विश्लेषण ===
=== स्वतंत्र घटक विश्लेषण ===
स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की एक तकनीक है।<ref>{{cite journal|last1=Hyvärinen|first1=Aapo|last2=Oja|first2=Erkki|title=Independent Component Analysis: Algorithms and Applications|journal=Neural Networks|date=2000|volume=13|issue=4|pages=411–430|doi= 10.1016/s0893-6080(00)00026-5|pmid=10946390|s2cid=11959218 }}</ref> गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक [[सामान्य वितरण]] वितरण का पालन करते हैं तो वजन विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।
स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की तकनीक है।<ref>{{cite journal|last1=Hyvärinen|first1=Aapo|last2=Oja|first2=Erkki|title=Independent Component Analysis: Algorithms and Applications|journal=Neural Networks|date=2000|volume=13|issue=4|pages=411–430|doi= 10.1016/s0893-6080(00)00026-5|pmid=10946390|s2cid=11959218 }}</ref> गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक [[सामान्य वितरण|गाऊसी वितरण]] वितरण का पालन करते हैं तो वजन विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।


=== अप्रशिक्षित शब्दकोश सीखना ===
=== अपर्यवेक्षित शब्दकोश सीखना ===


बिना पर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अनपर्यवेक्षित शब्दकोश सीखने का एक उदाहरण [[विरल शब्दकोश सीखना]] है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को सीखना है। अधिक पूर्ण शब्दकोशों को सीखने के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।<ref>{{cite journal|last1=Lee|first1=Honglak|last2=Battle|first2=Alexis|last3=Raina|first3=Rajat|last4=Ng|first4=Andrew Y|title=कुशल विरल कोडिंग एल्गोरिदम|journal=Advances in Neural Information Processing Systems|date=2007}}</ref> [[मीकल अहरोन]] और अन्य। तत्वों का एक शब्दकोश सीखने के लिए प्रस्तावित एल्गोरिथ्म [[K-SVD]] जो विरल प्रतिनिधित्व को सक्षम बनाता है।<ref>{{cite journal|last1=Aharon|first1=Michal|author1-link=Michal Aharon|last2=Elad|first2=Michael|last3=Bruckstein|first3=Alfred|title=K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation|journal=IEEE Trans. Signal Process.|date=2006|volume=54|issue=11|pages=4311–4322|doi=10.1109/TSP.2006.881199|bibcode=2006ITSP...54.4311A|s2cid=7477309 }}</ref>
अपर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अपर्यवेक्षित शब्दकोश सीखने का एक उदाहरण [[विरल शब्दकोश सीखना]] है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को सीखना है। अधिक पूर्ण शब्दकोशों को सीखने के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।<ref>{{cite journal|last1=Lee|first1=Honglak|last2=Battle|first2=Alexis|last3=Raina|first3=Rajat|last4=Ng|first4=Andrew Y|title=कुशल विरल कोडिंग एल्गोरिदम|journal=Advances in Neural Information Processing Systems|date=2007}}</ref> [[मीकल अहरोन|अहरोन]] एट अल और अन्य तत्वों का एक शब्दकोश सीखने के लिए प्रस्तावित एल्गोरिथ्म [[K-SVD]] जो विरल प्रतिनिधित्व को सक्षम बनाता है।<ref>{{cite journal|last1=Aharon|first1=Michal|author1-link=Michal Aharon|last2=Elad|first2=Michael|last3=Bruckstein|first3=Alfred|title=K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation|journal=IEEE Trans. Signal Process.|date=2006|volume=54|issue=11|pages=4311–4322|doi=10.1109/TSP.2006.881199|bibcode=2006ITSP...54.4311A|s2cid=7477309 }}</ref>


 
== बहुपरत/गहरा वास्तुकला ==
== बहुपरत/गहरा आर्किटेक्चर ==
'''जैविक तंत्रिका तंत्र की पदानुक्र'''मित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये आर्किटेक्चर अक्सर [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी सुविधा या प्रतिनिधित्व है।
 
जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये आर्किटेक्चर अक्सर [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी सुविधा या प्रतिनिधित्व है।


=== [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] ===
=== [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] ===

Revision as of 23:52, 5 August 2023

डाउनस्ट्रीम कार्यों के लिए मशीन सीखना में फ़ीचर सीखना प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए फ़ीचर (मशीन सीखना) के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।[1]

यंत्र अधिगम में, फीचर सीखना या प्रतिनिधित्व सीखना[2] तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर सीखना इस तथ्य से प्रेरित है कि सांख्यिकीय वर्गीकरण जैसे मशीन सीखना कार्यों के लिए अक्सर ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है।

फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।

  • पर्यवेक्षित फ़ीचर सीखना में, लेबल इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े शामिल होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।[3] इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में कृत्रिम तंत्रिका नेटवर्क, मल्टीलेयर परसेप्ट्रॉन और (पर्यवेक्षित) शब्दकोश सीखना शामिल हैं।
  • अनपर्यवेक्षित फ़ीचर में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ सीखा जाता है।[4] उदाहरणों में शब्दकोश सीखना, स्वतंत्र घटक विश्लेषण, मैट्रिक्स अपघटन [5] और क्लस्टर विश्लेषण के विभिन्न रूप शामिल हैं।[6][7][8]
  • स्व-पर्यवेक्षित फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।[9] शास्त्रीय उदाहरणों में शब्द एम्बेडिंग और ऑटोएन्कोडर शामिल हैं।[10][11] एसएसएल को तब से CNNs और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क आर्किटेक्चर के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।[9]

पर्यवेक्षित

पर्यवेक्षित फ़ीचर सीखना लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में शामिल हैं:

पर्यवेक्षित शब्दकोश सीखना

शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और वजन पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)।

पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह[12] पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण शामिल होता है।

तंत्रिका नेटवर्क

तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क आर्किटेक्चर सियामी नेटवर्क है।

अपर्यवेक्षित

अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य अक्सर कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह अर्ध-पर्यवेक्षित शिक्षण के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।[13][14] निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

के- का अर्थ है क्लस्टरिंग

के-का अर्थ क्लस्टरिंग वेक्टर परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से समूहित करती है कि प्रत्येक वेक्टर निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या कम्प्यूटेशनल रूप से एनपी हार्ड है, तथापि उप-इष्टतम लालची एल्गोरिदम विकसित किए गए हैं।

के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के केन्द्रक का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।[6] क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (एक तकनीक जिसका उपयोग रेडियल आधार फ़ंक्शन नेटवर्क को प्रशिक्षित करने के लिए किया गया है[15]) के माध्यम से परिवर्तित करने के बाद कोट्स और एनजी ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार विरल कोडिंग एल्गोरिदम के समान व्यवहार करते हैं।[16]

बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो-एनकोडर और आरबीएम से बेहतर प्रदर्शन करता है।[6] के- का अर्थ एनएलपी के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से नामित-इकाई पहचान के लिए,[17] वहां, यह ब्राउन क्लस्टरिंग के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।[14]

प्रमुख घटक विश्लेषण

प्रमुख घटक विश्लेषण (पीसीए) का उपयोग अक्सर आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के