फीचर चयन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{short description|Procedure in machine learning and statistics}}
{{short description|Procedure in machine learning and statistics}}
{{machine learning bar}}
{{machine learning bar}}
[[ यंत्र अधिगम | यंत्र अधिगम]] और सांख्यिकी में, '''फीचर''' '''सिलेक्शन''' होता हैं, जिसे वैरिएबल सिलेक्शन , विशेषता सिलेक्शन या वैरिएबल सबसेट सिलेक्शन के रूप में भी जाना जाता है | यह मॉडल निर्माण में उपयोग के लिए प्रासंगिक [[ फ़ीचर (मशीन लर्निंग) |फीचर (मशीन लर्निंग)]] (वेरिएबल , प्रडिक्टर) के सबसेट का सिलेक्शन करने की प्रक्रिया है। फीचर सिलेक्शन तकनीकों का उपयोग अनेक कारणों से किया जाता है |
[[ यंत्र अधिगम | मशीन लर्निंग]] और सांख्यिकी में, '''फीचर''' '''सिलेक्शन''' होता हैं, जिसे वैरिएबल सिलेक्शन , विशेषता सिलेक्शन या वैरिएबल सबसेट सिलेक्शन के रूप में भी जाना जाता है | यह मॉडल निर्माण में उपयोग के लिए प्रासंगिक [[ फ़ीचर (मशीन लर्निंग) |फीचर (मशीन लर्निंग)]] (वेरिएबल , प्रडिक्टर) के सबसेट का सिलेक्शन करने की प्रक्रिया है। फीचर सिलेक्शन तकनीकों का उपयोग अनेक कारणों से किया जाता है |
:* शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना और उसको सरल बनाने के लिए मॉडलों का सरलीकरण,<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय शिक्षा का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |page=204}}</ref>
:* शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना और उसको सरल बनाने के लिए मॉडलों का सरलीकरण,<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय शिक्षा का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |page=204}}</ref>
:* कम समय में प्रशिक्षण,<ref>{{Citation|last1=Brank|first1=Janez|title=Feature Selection|date=2011|url=http://link.springer.com/10.1007/978-0-387-30164-8_306|encyclopedia=Encyclopedia of Machine Learning|pages=402–406|editor-last=Sammut|editor-first=Claude|place=Boston, MA|publisher=Springer US|language=en|doi=10.1007/978-0-387-30164-8_306|isbn=978-0-387-30768-8|access-date=2021-07-13|last2=Mladenić|first2=Dunja|last3=Grobelnik|first3=Marko|last4=Liu|first4=Huan|last5=Mladenić|first5=Dunja|last6=Flach|first6=Peter A.|last7=Garriga|first7=Gemma C.|last8=Toivonen|first8=Hannu|last9=Toivonen|first9=Hannu|editor2-last=Webb|editor2-first=Geoffrey I.}}</ref>
:* कम समय में प्रशिक्षण,<ref>{{Citation|last1=Brank|first1=Janez|title=Feature Selection|date=2011|url=http://link.springer.com/10.1007/978-0-387-30164-8_306|encyclopedia=Encyclopedia of Machine Learning|pages=402–406|editor-last=Sammut|editor-first=Claude|place=Boston, MA|publisher=Springer US|language=en|doi=10.1007/978-0-387-30164-8_306|isbn=978-0-387-30768-8|access-date=2021-07-13|last2=Mladenić|first2=Dunja|last3=Grobelnik|first3=Marko|last4=Liu|first4=Huan|last5=Mladenić|first5=Dunja|last6=Flach|first6=Peter A.|last7=Garriga|first7=Gemma C.|last8=Toivonen|first8=Hannu|last9=Toivonen|first9=Hannu|editor2-last=Webb|editor2-first=Geoffrey I.}}</ref>
Line 13: Line 13:
   |title=Optimization of data-driven filterbank for automatic speaker verification
   |title=Optimization of data-driven filterbank for automatic speaker verification
   |journal=Digital Signal Processing |date=September 2020 |volume=104  
   |journal=Digital Signal Processing |date=September 2020 |volume=104  
   |page=102795 |doi= 10.1016/j.dsp.2020.102795|arxiv=2007.10729|s2cid=220665533 }}</ref> फीचर निष्कर्षण मूल फीचर्स के कार्यों से नई सुविधाएँ बनाता है, जबकि फीचर सिलेक्शन फीचर्स का सबसेट लौटाता है। फीचर सिलेक्शन तकनीकों का उपयोग अधिकांशतः उन डोमेन में किया जाता है जहाँ अनेक सुविधाएँ और तुलनात्मक रूप से प्रतिरुप (या डेटा बिंदु) होते हैं। फीचर सिलेक्शन के अनुप्रयोग के लिए आदर्श स्तिथियों में [[स्टाइलोमेट्री]] और [[डीएनए माइक्रोएरे]] डेटा का विश्लेषण सम्मिलित होता है, जहां अनेक हजारों विशेषताएं होती हैं, और इसमें कुछ दसियों से सैकड़ों प्रतिरुप हैं।
   |page=102795 |doi= 10.1016/j.dsp.2020.102795|arxiv=2007.10729|s2cid=220665533 }}</ref> फीचर निष्कर्षण मूल फीचर्स के कार्यों से नई सुविधाएँ बनाता है, जबकि फीचर सिलेक्शन फीचर्स का सबसेट लौटाता है। फीचर सिलेक्शन तकनीकों का उपयोग अधिकांशतः उन डोमेन में किया जाता है जहाँ अनेक सुविधाएँ और तुलनात्मक रूप से प्रतिरुप (या डेटा बिंदु) होते हैं। फीचर सिलेक्शन के अनुप्रयोग के लिए आदर्श स्तिथियों में [[स्टाइलोमेट्री]] और [[डीएनए माइक्रोएरे]] डेटा का विश्लेषण सम्मिलित होता है, जहां अनेक हजारों विशेषताएं होती हैं, और इसमें कुछ दशको से सैकड़ों प्रतिरुप हैं।


==परिचय==
==परिचय==
फीचर सिलेक्शन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता है।यह सबसे सरल एल्गोरिदम फीचर्स के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह स्थान की विस्तृत खोज है, और यह लघु से लघु फीचर सेट को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को अधिक रूप से प्रभावित करता है, और यह मूल्यांकन मेट्रिक्स होता हैं जो फीचर सिलेक्शन एल्गोरिदम की तीन मुख्य श्रेणियों के मध्य अंतर करते हैं | इसमें रैपर, फिल्टर और एम्बेडेड विधियां होती हैं। <ref name="guyon-intro">{{cite journal |title=वेरिएबल और फ़ीचर चयन का एक परिचय|first1=Isabelle |last1=Guyon |first2=André |last2=Elisseeff |journal=[[Journal of Machine Learning Research|JMLR]] |volume=3 |year=2003 |url=http://jmlr.csail.mit.edu/papers/v3/guyon03a.html}}</ref>
फीचर सिलेक्शन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता है। यह सबसे सरल एल्गोरिदम फीचर्स के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह स्थान की विस्तृत खोज है, और यह लघु से लघु फीचर सेट को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को अधिक रूप से प्रभावित करता है, और यह मूल्यांकन मेट्रिक्स होता हैं जो फीचर सिलेक्शन एल्गोरिदम की तीन मुख्य श्रेणियों के मध्य अंतर करते हैं | इसमें रैपर, फिल्टर और एम्बेडेड विधियां होती हैं। <ref name="guyon-intro">{{cite journal |title=वेरिएबल और फ़ीचर चयन का एक परिचय|first1=Isabelle |last1=Guyon |first2=André |last2=Elisseeff |journal=[[Journal of Machine Learning Research|JMLR]] |volume=3 |year=2003 |url=http://jmlr.csail.mit.edu/papers/v3/guyon03a.html}}</ref>
* रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए सबसेट का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं।
* रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए सबसेट का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं।
* फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में [[आपसी जानकारी|म्यूच्यूअल इनफार्मेशन]] सम्मिलित होती है,<ref name="guyon-intro"/> यह पॉइंटवाइस म्यूच्यूअल इनफार्मेशन हैं ,<ref name="textcat"/> [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक|पियर्सन प्रोडक्ट-मोमेंट कॉरर्लशन कॉएफिसिएंट]], [[राहत (सुविधा चयन)|रिलीफ (फीचर सिलेक्शन )]] | रिलीफ-बेस्ड एल्गोरिदम हैं,<ref>{{Cite journal|last1=Urbanowicz|first1=Ryan J.|last2=Meeker|first2=Melissa|last3=LaCava|first3=William|last4=Olson|first4=Randal S.|last5=Moore|first5=Jason H.|title=Relief-Based Feature Selection: Introduction and Review|journal=Journal of Biomedical Informatics|volume=85|pages=189–203|arxiv=1711.08421|pmid=30031057|pmc=6299836|year=2018|doi=10.1016/j.jbi.2018.07.014}}</ref> और अंतर/अंतर क्लास दूरी या प्रत्येक वर्ग/फीचर संयोजन के लिए [[सांख्यिकीय परिकल्पना परीक्षण]] के स्कोर सम्मिलित हैं। <ref name="textcat">{{cite conference |last1=Yang |first1=Yiming |first2=Jan O. |last2=Pedersen |title=पाठ वर्गीकरण में फीचर चयन पर एक तुलनात्मक अध्ययन|conference=ICML |year=1997|url=http://www.surdeanu.info/mihai/teaching/ista555-spring15/readings/yang97comparative.pdf}}</ref><ref>{{cite journal |last1=Forman |first1=George |title=पाठ वर्गीकरण के लिए फीचर चयन मेट्रिक्स का एक व्यापक अनुभवजन्य अध्ययन|journal=Journal of Machine Learning Research |volume=3 |year=2003 |pages=1289–1305|url=http://www.jmlr.org/papers/volume3/forman03a/forman03a.pdf}}</ref> फ़िल्टर सामान्यतः रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, किन्तु वह फीचर सेट का उत्पादन करते हैं जो विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। <ref>{{cite journal|author1=Yishi Zhang|author2=Shujuan Li|author3=Teng Wang|author4=Zigang Zhang|title=अलग-अलग वर्गों के लिए विचलन-आधारित सुविधा चयन|journal=Neurocomputing|date=2013|volume=101|issue=4|pages=32–42|doi=10.1016/j.neucom.2012.06.036}}</ref> ट्यूनिंग की इस कमी का अर्थ है कि फ़िल्टर से सेट किया गया फीचर रैपर से सेट की तुलना में अधिक सामान्य है, सामान्यतः रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। चूँकि फीचर सेट में पूर्वानुमान मॉडल की धारणाएँ सम्मिलित नहीं हैं, और इसलिए यह फीचर्स के मध्य संबंधों को प्रदर्शित करने के लिए अधिक उपयोगी है। अनेक फ़िल्टर स्पष्ट सर्वोत्तम फीचर सबसेट के अतिरिक्त फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फीचर एलिमिनेशन एल्गोरिदम है, <ref>{{cite journal|author1=Guyon I.|author2=Weston J.|author3=Barnhill S.|author4=Vapnik V.|title=सपोर्ट वेक्टर मशीनों का उपयोग करके कैंसर वर्गीकरण के लिए जीन चयन|journal=Machine Learning|date=2002|volume=46|issue=1–3|pages=389–422|doi=10.1023/A:1012487302797|doi-access=free}}</ref> सामान्यतः मॉडल का निरंतर निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए [[ समर्थन वेक्टर मशीन |सपोर्ट सदिश मशीन]] के साथ उपयोग किया जाता है।
* फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में [[आपसी जानकारी|म्यूच्यूअल इनफार्मेशन]] सम्मिलित होती है,<ref name="guyon-intro"/> यह पॉइंटवाइस म्यूच्यूअल इनफार्मेशन हैं ,<ref name="textcat"/> [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक|पियर्सन प्रोडक्ट-मोमेंट कॉरर्लशन कॉएफिसिएंट]], [[राहत (सुविधा चयन)|रिलीफ (फीचर सिलेक्शन )]] | रिलीफ-बेस्ड एल्गोरिदम हैं,<ref>{{Cite journal|last1=Urbanowicz|first1=Ryan J.|last2=Meeker|first2=Melissa|last3=LaCava|first3=William|last4=Olson|first4=Randal S.|last5=Moore|first5=Jason H.|title=Relief-Based Feature Selection: Introduction and Review|journal=Journal of Biomedical Informatics|volume=85|pages=189–203|arxiv=1711.08421|pmid=30031057|pmc=6299836|year=2018|doi=10.1016/j.jbi.2018.07.014}}</ref> और अंतर/अंतर क्लास दूरी या प्रत्येक वर्ग/फीचर संयोजन के लिए [[सांख्यिकीय परिकल्पना परीक्षण]] के स्कोर सम्मिलित हैं। <ref name="textcat">{{cite conference |last1=Yang |first1=Yiming |first2=Jan O. |last2=Pedersen |title=पाठ वर्गीकरण में फीचर चयन पर एक तुलनात्मक अध्ययन|conference=ICML |year=1997|url=http://www.surdeanu.info/mihai/teaching/ista555-spring15/readings/yang97comparative.pdf}}</ref><ref>{{cite journal |last1=Forman |first1=George |title=पाठ वर्गीकरण के लिए फीचर चयन मेट्रिक्स का एक व्यापक अनुभवजन्य अध्ययन|journal=Journal of Machine Learning Research |volume=3 |year=2003 |pages=1289–1305|url=http://www.jmlr.org/papers/volume3/forman03a/forman03a.pdf}}</ref> फ़िल्टर सामान्यतः रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, किन्तु वह फीचर सेट का उत्पादन करते हैं जो विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। <ref>{{cite journal|author1=Yishi Zhang|author2=Shujuan Li|author3=Teng Wang|author4=Zigang Zhang|title=अलग-अलग वर्गों के लिए विचलन-आधारित सुविधा चयन|journal=Neurocomputing|date=2013|volume=101|issue=4|pages=32–42|doi=10.1016/j.neucom.2012.06.036}}</ref> ट्यूनिंग की इस कमी का अर्थ है कि फ़िल्टर से सेट किया गया फीचर रैपर से सेट की तुलना में अधिक सामान्य है, सामान्यतः रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। चूँकि फीचर सेट में पूर्वानुमान मॉडल की धारणाएँ सम्मिलित नहीं हैं, और इसलिए यह फीचर्स के मध्य संबंधों को प्रदर्शित करने के लिए अधिक उपयोगी है। अनेक फ़िल्टर स्पष्ट सर्वोत्तम फीचर सबसेट के अतिरिक्त फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी) या क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फीचर एलिमिनेशन एल्गोरिदम है, <ref>{{cite journal|author1=Guyon I.|author2=Weston J.|author3=Barnhill S.|author4=Vapnik V.|title=सपोर्ट वेक्टर मशीनों का उपयोग करके कैंसर वर्गीकरण के लिए जीन चयन|journal=Machine Learning|date=2002|volume=46|issue=1–3|pages=389–422|doi=10.1023/A:1012487302797|doi-access=free}}</ref> सामान्यतः मॉडल का निरंतर निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए [[ समर्थन वेक्टर मशीन |सपोर्ट वेक्टर मशीन]] के साथ उपयोग किया जाता है।
* एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर सिलेक्शन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'सिलेक्शन ित' किया जाता है। लैस्सो में सुधारों में बोलासो सम्मिलित है जो प्रतिरूपों को बूटस्ट्रैप करता है | <ref name=Bolasso>{{Cite book|last1=Bach|first1=Francis R|title=Bolasso: model consistent lasso estimation through the bootstrap|journal=Proceedings of the 25th International Conference on Machine Learning|date=2008|pages=33–40|doi=10.1145/1390156.1390161|isbn=9781605582054|s2cid=609778}}</ref> [[इलास्टिक नेट नियमितीकरण]], जो लैस्सो के L1 दंड को [[ रिज प्रतिगमन |रिज रिग्रेशन]] के L2 दंड के साथ जोड़ता है | और फ़ीआलेक्ट जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। <ref name=FeaLect>{{cite journal|last1=Zare|first1=Habil|title=लिंफोमा निदान के अनुप्रयोग के साथ लैस्सो के संयुक्त विश्लेषण के आधार पर सुविधाओं की प्रासंगिकता का स्कोरिंग|journal=BMC Genomics|date=2013|volume=14|issue=Suppl 1 |pages=S14|doi=10.1186/1471-2164-14-S1-S14|pmid=23369194|pmc=3549810}}</ref> एईएफएस आगे लैस्सो को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। <ref>{{cite conference |author1=Kai Han|author2=Yunhe Wang|author3=Chao Zhang|author4=Chao Li|author5=Chao Xu|title=ऑटोएन्कोडर ने बिना पर्यवेक्षित सुविधा चयन को प्रेरित किया|conference=IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) |year=2018}}</ref> कम्प्यूटेशनल सम्मिश्रता के संदर्भ में यह दृष्टिकोण फिल्टर और रैपर के मध्य होते हैं।
* एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर सिलेक्शन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'सिलेक्शन' किया जाता है। लैस्सो में सुधारों में बोलासो सम्मिलित है जो प्रतिरूपों को बूटस्ट्रैप करता है | <ref name=Bolasso>{{Cite book|last1=Bach|first1=Francis R|title=Bolasso: model consistent lasso estimation through the bootstrap|journal=Proceedings of the 25th International Conference on Machine Learning|date=2008|pages=33–40|doi=10.1145/1390156.1390161|isbn=9781605582054|s2cid=609778}}</ref> [[इलास्टिक नेट नियमितीकरण]], जो लैस्सो के L1 दंड को [[ रिज प्रतिगमन |रिज रिग्रेशन]] के L2 दंड के साथ जोड़ता है | और फ़ीआलेक्ट जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। <ref name=FeaLect>{{cite journal|last1=Zare|first1=Habil|title=लिंफोमा निदान के अनुप्रयोग के साथ लैस्सो के संयुक्त विश्लेषण के आधार पर सुविधाओं की प्रासंगिकता का स्कोरिंग|journal=BMC Genomics|date=2013|volume=14|issue=Suppl 1 |pages=S14|doi=10.1186/1471-2164-14-S1-S14|pmid=23369194|pmc=3549810}}</ref> एईएफएस आगे लैस्सो को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। <ref>{{cite conference |author1=Kai Han|author2=Yunhe Wang|author3=Chao Zhang|author4=Chao Li|author5=Chao Xu|title=ऑटोएन्कोडर ने बिना पर्यवेक्षित सुविधा चयन को प्रेरित किया|conference=IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) |year=2018}}</ref> कम्प्यूटेशनल सम्मिश्रता के संदर्भ में यह दृष्टिकोण फिल्टर और रैपर के मध्य होते हैं।


पारंपरिक [[प्रतिगमन विश्लेषण]] में, फीचर सिलेक्शन का सबसे लोकप्रिय रूप [[चरणबद्ध प्रतिगमन|'''वेरिएबल स्टेपवाइज रिग्रेशन''']] है, जो रैपर तकनीक होती है। यह [[लालची एल्गोरिदम|ग्रीडी एल्गोरिदम]] है जो प्रत्येक समय में सबसे अच्छी फीचर जोड़ता है | और (सबसे व्यर्थ फीचर को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं।
पारंपरिक [[प्रतिगमन विश्लेषण]] में, फीचर सिलेक्शन का सबसे लोकप्रिय रूप [[चरणबद्ध प्रतिगमन|'''वेरिएबल स्टेपवाइज रिग्रेशन''']] है, जो रैपर तकनीक होती है। यह [[लालची एल्गोरिदम|ग्रीडी एल्गोरिदम]] है जो प्रत्येक समय में सबसे अच्छी फीचर जोड़ता है | और (सबसे व्यर्थ फीचर को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं।


==सबसेट सिलेक्शन ==
==सबसेट सिलेक्शन ==
सबसेट सिलेक्शन उपयुक्तता के लिए समूह के रूप में फीचर्स के सबसेट का मूल्यांकन करता है। सबसेट [[खोज एल्गोरिथ्म|सर्च एल्गोरिथ्म]] को रैपर, फिल्टर और एम्बेडेड विधियों में विभाजित किया जा सकता है। रैपर्स संभावित फीचर्स के स्थान के माध्यम से खोज करने के लिए खोज एल्गोरिदम का उपयोग करते हैं और सबसेट पर मॉडल चलाकर प्रत्येक सबसेट का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से मूल्यवान हो सकते हैं और मॉडल में अधिक फिट होने पर कठिन परिस्थिति हो सकती है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, किन्तु यह किसी मॉडल के विरुद्ध मूल्यांकन करने के अतिरिक्त, सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें मॉडल में अंतर्निहित और विशिष्ट होती हैं।
सबसेट सिलेक्शन उपयुक्तता के लिए समूह के रूप में फीचर्स के सबसेट का मूल्यांकन करता है। सबसेट [[खोज एल्गोरिथ्म|सर्च एल्गोरिथ्म]] को रैपर, फिल्टर और एम्बेडेड विधियों में विभाजित किया जा सकता है। रैपर्स संभावित फीचर्स के स्थान के माध्यम से खोज करने के लिए खोज एल्गोरिदम का उपयोग करते हैं और सबसेट पर मॉडल चलाकर प्रत्येक सबसेट का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से मूल्यवान हो सकते हैं और मॉडल में अधिक फिट होने पर कठिन परिस्थिति हो सकती है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, किन्तु यह किसी मॉडल के विरुद्ध मूल्यांकन करने के अतिरिक्त, सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें मॉडल में अंतर्निहित और विशिष्ट होती हैं।


अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम [[पहाड़ी की चढ़ाई|हिल क्लिंबिंग]] का उपयोग करते हैं, जो फीचर्स के उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सही है। सबसेट के मूल्यांकन के लिए स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो फीचर्स के उपसमूह को ग्रेड करती है। व्यापक खोज सामान्यतः अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर होते हैं, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले फीचर्स के सबसेट को संतबषजनक फीचर सबसेट के रूप में चुना जाता है। इसको रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है |इस प्रकार यह संभावित मानदंडों में सम्मिलित हैं | सबसेट स्कोर सीमा से अधिक होता है | कार्य का अधिकतम अनुमत रन टाइम सरपास्ड हो गया है |
अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम [[पहाड़ी की चढ़ाई|हिल क्लिंबिंग]] का उपयोग करते हैं, जो फीचर्स के उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सही है। सबसेट के मूल्यांकन के लिए स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो फीचर्स के उपसमूह को ग्रेड करती है। व्यापक खोज सामान्यतः अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर होते हैं, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले फीचर्स के सबसेट को संतबषजनक फीचर सबसेट के रूप में चुना जाता है। इसको रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है | इस प्रकार यह संभावित मानदंडों में सम्मिलित हैं | सबसेट स्कोर सीमा से अधिक होता है | कार्य का अधिकतम अनुमत रन टाइम सरपास्ड हो गया है |


वैकल्पिक खोज-आधारित तकनीकें [[लक्षित प्रक्षेपण खोज]] पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का सिलेक्शन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं।
वैकल्पिक खोज-आधारित तकनीकें [[लक्षित प्रक्षेपण खोज]] पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का सिलेक्शन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं।
Line 43: Line 43:
</ref><ref>{{Cite book|chapter-url=https://dl.acm.org/doi/abs/10.1145/3449726.3459481|doi = 10.1145/3449726.3459481|chapter = Scatter search for high-dimensional feature selection using feature grouping|title = आनुवंशिक और विकासवादी संगणना सम्मेलन साथी की कार्यवाही|year = 2021|last1 = García-Torres|first1 = Miguel|last2 = Gómez-Vela|first2 = Francisco|last3 = Divina|first3 = Federico|last4 = Pinto-Roa|first4 = Diego P.|last5 = Noguera|first5 = José Luis Vázquez|last6 = Román|first6 = Julio C. Mello|pages = 149–150|isbn = 9781450383516|s2cid = 235770316}}</ref>
</ref><ref>{{Cite book|chapter-url=https://dl.acm.org/doi/abs/10.1145/3449726.3459481|doi = 10.1145/3449726.3459481|chapter = Scatter search for high-dimensional feature selection using feature grouping|title = आनुवंशिक और विकासवादी संगणना सम्मेलन साथी की कार्यवाही|year = 2021|last1 = García-Torres|first1 = Miguel|last2 = Gómez-Vela|first2 = Francisco|last3 = Divina|first3 = Federico|last4 = Pinto-Roa|first4 = Diego P.|last5 = Noguera|first5 = José Luis Vázquez|last6 = Román|first6 = Julio C. Mello|pages = 149–150|isbn = 9781450383516|s2cid = 235770316}}</ref>
* [[परिवर्तनीय पड़ोस खोज|वेरिएबल नेबरहुड सर्च]] <ref>F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. [https://web.archive.org/web/20190830132140/https://pdfs.semanticscholar.org/9428/2985d2c2ea4eb9f49846bedc12003a47db49.pdf Solving Feature Subset Selection Problem by a Hybrid Metaheuristic]. In ''First International Workshop on Hybrid Metaheuristics'', pp. 59–68, 2004.</ref><ref>M. Garcia-Torres, F. Gomez-Vela, B. Melian, J.M. Moreno-Vega. [https://www.researchgate.net/profile/Miguel_Garcia_Torres/publication/229763203_Parallel_Scatter_Search/links/5b2788a00f7e9be8bdaeb0d0/Parallel-Scatter-Search.pdf High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach], ''Information Sciences'', vol. 326, pp. 102-118, 2016.</ref>  
* [[परिवर्तनीय पड़ोस खोज|वेरिएबल नेबरहुड सर्च]] <ref>F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. [https://web.archive.org/web/20190830132140/https://pdfs.semanticscholar.org/9428/2985d2c2ea4eb9f49846bedc12003a47db49.pdf Solving Feature Subset Selection Problem by a Hybrid Metaheuristic]. In ''First International Workshop on Hybrid Metaheuristics'', pp. 59–68, 2004.</ref><ref>M. Garcia-Torres, F. Gomez-Vela, B. Melian, J.M. Moreno-Vega. [https://www.researchgate.net/profile/Miguel_Garcia_Torres/publication/229763203_Parallel_Scatter_Search/links/5b2788a00f7e9be8bdaeb0d0/Parallel-Scatter-Search.pdf High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach], ''Information Sciences'', vol. 326, pp. 102-118, 2016.</ref>  
वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार फीचर (या फीचर्स के सेट) और वांछित आउटपुट श्रेणी के मध्य की जाती है। चूँकि, यह ऐसे सत्य मेट्रिक्स होते हैं जो पारस्परिक सूचना का सरल कार्य करते हैं <ref>{{Cite journal|arxiv=q-bio/0311039|last1=Kraskov|first1=Alexander|title=पारस्परिक सूचना पर आधारित पदानुक्रमित क्लस्टरिंग|last2=Stögbauer|first2=Harald|last3=Andrzejak|first3=Ralph G|last4=Grassberger|first4=Peter|year=2003|bibcode=2003q.bio....11039K}}</ref> तथा म्यूच्यूअल इनफार्मेशन या मीट्रिक देखें।
वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार फीचर (या फीचर्स के सेट) और वांछित आउटपुट श्रेणी के मध्य की जाती है। चूँकि, यह ऐसे सत्य मेट्रिक्स होते हैं जो पारस्परिक सूचना का सरल कार्य करते हैं <ref>{{Cite journal|arxiv=q-bio/0311039|last1=Kraskov|first1=Alexander|title=पारस्परिक सूचना पर आधारित पदानुक्रमित क्लस्टरिंग|last2=Stögbauer|first2=Harald|last3=Andrzejak|first3=Ralph G|last4=Grassberger|first4=Peter|year=2003|bibcode=2003q.bio....11039K}}</ref> तथा म्यूच्यूअल इनफार्मेशन या मीट्रिक देखें।


अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं |
अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं |
Line 56: Line 56:


==अधिकतम मानदंड==
==अधिकतम मानदंड==
अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि फीचर सिलेक्शन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे सिलेक्शन ित फीचर्स की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ C<sub>p</sub> सम्मिलित हैं | जिनमें प्रत्येक अतिरिक्त फीचर के लिए 2 का दंड है। यह एआईसी [[सूचना सिद्धांत]] पर आधारित है, और प्रभावी रूप से [[अधिकतम एन्ट्रापी सिद्धांत|मैक्सिमम एन्ट्रापी सिद्धांत]] के माध्यम से प्राप्त होता है। <ref>{{Citation | first=H. |last=Akaike |author-link=Hirotugu Akaike | contribution = Prediction and entropy | pages=1–24 | title= A Celebration of Statistics | editor1-first= A. C. | editor1-last= Atkinson | editor2-first= S. E. | editor2-last= Fienberg | editor2-link= Stephen Fienberg | year = 1985 | publisher= Springer|url=https://apps.dtic.mil/dtic/tr/fulltext/u2/a120956.pdf|archive-url=https://web.archive.org/web/20190830132141/https://apps.dtic.mil/dtic/tr/fulltext/u2/a120956.pdf|url-status=live|archive-date=August 30, 2019}}.</ref><ref>{{Citation |last1=Burnham |first1=K. P. |last2=Anderson |first2=D. R. |year=2002 |title=Model Selection and Multimodel Inference: A practical information-theoretic approach |edition=2nd |publisher= [[Springer-Verlag]] |url=https://books.google.com/books?id=fT1Iu-h6E-oC|isbn=9780387953649 }}.</ref>
अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि फीचर सिलेक्शन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे सिलेक्शन फीचर्स की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ C<sub>p</sub> सम्मिलित हैं | जिनमें प्रत्येक अतिरिक्त फीचर के लिए 2 का दंड है। यह एआईसी [[सूचना सिद्धांत]] पर आधारित है, और प्रभावी रूप से [[अधिकतम एन्ट्रापी सिद्धांत|मैक्सिमम एन्ट्रापी सिद्धांत]] के माध्यम से प्राप्त होता है। <ref>{{Citation | first=H. |last=Akaike |author-link=Hirotugu Akaike | contribution = Prediction and entropy | pages=1–24 | title= A Celebration of Statistics | editor1-first= A. C. | editor1-last= Atkinson | editor2-first= S. E. | editor2-last= Fienberg | editor2-link= Stephen Fienberg | year = 1985 | publisher= Springer|url=https://apps.dtic.mil/dtic/tr/fulltext/u2/a120956.pdf|archive-url=https://web.archive.org/web/20190830132141/https://apps.dtic.mil/dtic/tr/fulltext/u2/a120956.pdf|url-status=live|archive-date=August 30, 2019}}.</ref><ref>{{Citation |last1=Burnham |first1=K. P. |last2=Anderson |first2=D. R. |year=2002 |title=Model Selection and Multimodel Inference: A practical information-theoretic approach |edition=2nd |publisher= [[Springer-Verlag]] |url=https://books.google.com/books?id=fT1Iu-h6E-oC|isbn=9780387953649 }}.</ref>


अन्य मानदंड [[बायेसियन सूचना मानदंड]] (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए <math>\sqrt{\log{n}}</math> के दंड का उपयोग करता है, [[न्यूनतम विवरण लंबाई]] (एमडीएल) जो असम्बद्ध रूप से <math>\sqrt{\log{n}}</math> का उपयोग करता है, [[बोनफेरोनी सुधार]] / आरआईसी जो <math>\sqrt{2\log{p}}</math> का उपयोग करता है, अधिकतम निर्भरता फीचर सिलेक्शन , और विभिन्न प्रकार के नए मानदंड जो [[झूठी खोज दर|फाल्स डिस्कवर रेट]] (एफडीआर) से प्रेरित हैं, जो <math>\sqrt{2\log{\frac{p}{q}}}</math> के समीप कुछ का उपयोग करते हैं। फीचर्स के सबसे प्रासंगिक उपसमूह का सिलेक्शन करने के लिए अधिकतम [[एन्ट्रापी दर]] मानदंड का भी उपयोग किया जा सकता है। <ref>{{cite journal |last1=Einicke |first1=G. A. |title=दौड़ने के दौरान घुटने और टखने की गतिशीलता में परिवर्तन को वर्गीकृत करने के लिए सुविधाओं का अधिकतम-एंट्रॉपी दर चयन|journal=IEEE Journal of Biomedical and Health Informatics |volume=28 |issue=4 |pages=1097–1103 |year=2018 |doi= 10.1109/JBHI.2017.2711487 |pmid=29969403 |s2cid=49555941 }}</ref>
अन्य मानदंड [[बायेसियन सूचना मानदंड]] (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए <math>\sqrt{\log{n}}</math> के दंड का उपयोग करता है, [[न्यूनतम विवरण लंबाई]] (एमडीएल) जो असम्बद्ध रूप से <math>\sqrt{\log{n}}</math> का उपयोग करता है, [[बोनफेरोनी सुधार]] / आरआईसी जो <math>\sqrt{2\log{p}}</math> का उपयोग करता है, अधिकतम निर्भरता फीचर सिलेक्शन , और विभिन्न प्रकार के नए मानदंड जो [[झूठी खोज दर|फाल्स डिस्कवर रेट]] (एफडीआर) से प्रेरित हैं, जो <math>\sqrt{2\log{\frac{p}{q}}}</math> के समीप कुछ का उपयोग करते हैं। फीचर्स के सबसे प्रासंगिक उपसमूह का सिलेक्शन करने के लिए अधिकतम [[एन्ट्रापी दर]] मानदंड का भी उपयोग किया जा सकता है। <ref>{{cite journal |last1=Einicke |first1=G. A. |title=दौड़ने के दौरान घुटने और टखने की गतिशीलता में परिवर्तन को वर्गीकृत करने के लिए सुविधाओं का अधिकतम-एंट्रॉपी दर चयन|journal=IEEE Journal of Biomedical and Health Informatics |volume=28 |issue=4 |pages=1097–1103 |year=2018 |doi= 10.1109/JBHI.2017.2711487 |pmid=29969403 |s2cid=49555941 }}</ref>






==संरचना सीखना==
==संरचना सीखना==
फ़िल्टर फीचर सिलेक्शन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे [[संरचित भविष्यवाणी|संरचित]] पूर्वानुमान कहा जाता है। फीचर सिलेक्शन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर सेट ढूंढता है जबकि संरचना शिक्षण सभी वेरिएबल के मध्य संबंधों को ढूंढता है, सामान्यतः इन सम्बन्धो को ग्राफ के रूप में व्यक्त करता हैं। यह सबसे सामान्य संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा [[बायेसियन नेटवर्क]] द्वारा उत्पन्न होता है, और इसलिए संरचना [[निर्देशित ग्राफ]] [[ चित्रमय मॉडल |चित्रमय मॉडल]] है। फ़िल्टर फीचर सिलेक्शन समस्या का अधिकतम समाधान लक्ष्य नोड का [[मार्कोव कंबल|मार्कोव ब्लंकेट]] है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए अद्वितीय मार्कोव ब्लंकेट है। <ref>{{cite journal|last1=Aliferis|first1=Constantin|title=Local causal and markov blanket induction for causal discovery and feature selection for classification part I: Algorithms and empirical evaluation|journal=Journal of Machine Learning Research|date=2010|volume=11|pages=171–234|url=http://jmlr.org/papers/volume11/aliferis10a/aliferis10a.pdf}}</ref>
फ़िल्टर फीचर सिलेक्शन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे [[संरचित भविष्यवाणी|संरचित]] पूर्वानुमान कहा जाता है। फीचर सिलेक्शन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर सेट खोजता है जबकि संरचना शिक्षण सभी वेरिएबल के मध्य संबंधों को खोजता है, सामान्यतः इन सम्बन्धो को ग्राफ के रूप में व्यक्त करता हैं। यह सबसे सामान्य संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा [[बायेसियन नेटवर्क]] द्वारा उत्पन्न होता है, और इसलिए संरचना [[निर्देशित ग्राफ|निर्देशित]] ग्राफिकल [[ चित्रमय मॉडल |मॉडल]] है। फ़िल्टर फीचर सिलेक्शन समस्या का अधिकतम समाधान लक्ष्य नोड का [[मार्कोव कंबल|मार्कोव ब्लंकेट]] है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए अद्वितीय मार्कोव ब्लंकेट है। <ref>{{cite journal|last1=Aliferis|first1=Constantin|title=Local causal and markov blanket induction for causal discovery and feature selection for classification part I: Algorithms and empirical evaluation|journal=Journal of Machine Learning Research|date=2010|volume=11|pages=171–234|url=http://jmlr.org/papers/volume11/aliferis10a/aliferis10a.pdf}}</ref>




==सूचना सिद्धांत आधारित फीचर सिलेक्शन तंत्र==
==सूचना सिद्धांत आधारित फीचर सिलेक्शन तंत्र==


चारों ओर विभिन्न फीचर सिलेक्शन तंत्र हैं जो विभिन्न फीचर्स को स्कोर करने के लिए पारस्परिक सूचना का उपयोग करते हैं। वह सामान्यतः सभी समान एल्गोरिदम का उपयोग करते हैं |
चारों ओर विभिन्न फीचर सिलेक्शन तंत्र हैं जो विभिन्न फीचर्स को स्कोर करने के लिए पारस्परिक सूचना का उपयोग करते हैं। वह सामान्यतः सभी समान एल्गोरिदम का उपयोग करते हैं |


#सभी फीचर्स (<math> f_{i} \in F </math>) और लक्ष्य वर्ग ({{mvar|c                                                                                                                            }}) के मध्य स्कोर के रूप में पारस्परिक सूचना की गणना करें
#सभी फीचर्स (<math> f_{i} \in F </math>) और लक्ष्य वर्ग ({{mvar|c                                                                                                                            }}) के मध्य स्कोर के रूप में पारस्परिक सूचना की गणना करें
# सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें (उदाहरण के लिए . <math>\underset{f_{i} \in F}\operatorname{argmax}(I(f_{i},c))</math>) और इसे सिलेक्शन ित फीचर्स ({{mvar|S                                                                                                          }}) के सेट में जोड़ें
# सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें (उदाहरण के लिए . <math>\underset{f_{i} \in F}\operatorname{argmax}(I(f_{i},c))</math>) और इसे सिलेक्शन फीचर्स ({{mvar|S                                                                                                          }}) के सेट में जोड़ें
# उस स्कोर की गणना करें जो पारस्परिक सूचना से प्राप्त किया जा सकता है
# उस स्कोर की गणना करें जो पारस्परिक सूचना से प्राप्त किया जा सकता है
# सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें और इसे चुनिंदा फीचर्स के सेट में जोड़ें (उदाहरण के लिए) <math>\underset{f_{i} \in F}\operatorname{argmax}(I_{derived}(f_{i},c))</math>)
# सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें और इसे सिलेक्शन फीचर्स के सेट में जोड़ें (उदाहरण के लिए) <math>\underset{f_{i} \in F}\operatorname{argmax}(I_{derived}(f_{i},c))</math>)
# 3. और 4. को तब तक दोहराएँ जब तक कि निश्चित संख्या में फीचर्स का सिलेक्शन न हो जाए (उदाहरण के लिए) <math>|S|=l</math>)
# 3. और 4. को तब तक दोहराएँ जब तक कि निश्चित संख्या में फीचर्स का सिलेक्शन न हो जाए (उदाहरण के लिए) <math>|S|=l</math>)


सबसे सरल दृष्टिकोण म्यूच्यूअल इनफार्मेशन को व्युत्पन्न स्कोर के रूप में उपयोग करता है।<ref name="Brown">{{cite journal |last1=Brown |first1=Gavin |last2=Pocock |first2=Adam |last3=Zhao |first3=Ming-Jie |last4=Luján |first4=Mikel |title=Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selection |journal= [[Journal of Machine Learning Research]] |date=2012 |volume=13 |pages=27–66 |url=http://dl.acm.org/citation.cfm?id=2188385.2188387}}[http://www.jmlr.org/papers/volume13/brown12a/brown12a.pdf]</ref>
सबसे सरल दृष्टिकोण म्यूच्यूअल इनफार्मेशन को व्युत्पन्न स्कोर के रूप में उपयोग करता है।<ref name="Brown">{{cite journal |last1=Brown |first1=Gavin |last2=Pocock |first2=Adam |last3=Zhao |first3=Ming-Jie |last4=Luján |first4=Mikel |title=Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selection |journal= [[Journal of Machine Learning Research]] |date=2012 |volume=13 |pages=27–66 |url=http://dl.acm.org/citation.cfm?id=2188385.2188387}}[http://www.jmlr.org/papers/volume13/brown12a/brown12a.pdf]</ref>


चूँकि, भिन्न-भिन्न दृष्टिकोण हैं, जो फीचर्स के मध्य अतिरेक को कम करने का प्रयास करते हैं।
चूँकि, भिन्न-भिन्न दृष्टिकोण हैं, जो फीचर्स के मध्य रिडंडेंसीय को कम करने का प्रयास करते हैं।


===न्यूनतम-अतिरेक-अधिकतम-प्रासंगिकता (एमआरएमआर) फीचर सिलेक्शन ===
===न्यूनतम-रिडंडेंसीय-अधिकतम-प्रासंगिकता (एमआरएमआर) फीचर सिलेक्शन ===
पेंग एट अल.<ref>{{cite journal |last1=Peng |first1=H. C. |last2=Long |first2=F. |last3=Ding |first3=C. |title=Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy |journal= [[IEEE Transactions on Pattern Analysis and Machine Intelligence]] |volume=27 |issue=8 |pages=1226–1238 |year=2005 |doi=10.1109/TPAMI.2005.159 |pmid=16119262|citeseerx=10.1.1.63.5765 |s2cid=206764015 }} [http://home.penglab.com/proj/mRMR/index.htm Program]</ref> फीचर सिलेक्शन विधि प्रस्तावित की गई जो फीचर्स का सिलेक्शन करने के लिए पारस्परिक सूचना , सहसंबंध, या दूरी/समानता स्कोर का उपयोग कर सकती है। इसका उद्देश्य अन्य सिलेक्शन ित फीचर्स की उपस्थिति में किसी फीचर की प्रासंगिकता को उसके अतिरेक द्वारा दंडित करना है। क्लास {{mvar|c                                                                                                      }} के लिए फीचर सम्मुचय {{mvar|S                                                                                                        }} की प्रासंगिकता को व्यक्तिगत फीचर {{math|''f<sub>i</sub>''                                                                                  }} और क्लास {{mvar|c                                                                                                          }} के मध्य सभी पारस्परिक सूचना मानों के औसत मान से द्वारा परिभाषित किया गया है |
पेंग एट अल.<ref>{{cite journal |last1=Peng |first1=H. C. |last2=Long |first2=F. |last3=Ding |first3=C. |title=Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy |journal= [[IEEE Transactions on Pattern Analysis and Machine Intelligence]] |volume=27 |issue=8 |pages=1226–1238 |year=2005 |doi=10.1109/TPAMI.2005.159 |pmid=16119262|citeseerx=10.1.1.63.5765 |s2cid=206764015 }} [http://home.penglab.com/proj/mRMR/index.htm Program]</ref> फीचर सिलेक्शन विधि प्रस्तावित की गई जो फीचर्स का सिलेक्शन करने के लिए पारस्परिक सूचना , सहसंबंध, या दूरी/समानता स्कोर का उपयोग कर सकती है। इसका उद्देश्य अन्य सिलेक्शन फीचर्स की उपस्थिति में किसी फीचर की प्रासंगिकता को उसके रिडंडेंसीय द्वारा दंडित करना है। क्लास {{mvar|c                                                                                                      }} के लिए फीचर सम्मुचय {{mvar|S                                                                                                        }} की प्रासंगिकता को व्यक्तिगत फीचर {{math|''f<sub>i</sub>''                                                                                  }} और क्लास {{mvar|c                                                                                                          }} के मध्य सभी पारस्परिक सूचना मानों के औसत मान से द्वारा परिभाषित किया गया है |


:<math> D(S,c) = \frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) </math>.
:<math> D(S,c) = \frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) </math>.


समुच्चय में सभी फीचर्स का अतिरेक {{mvar|S                                                                                                        }} फीचर के मध्य सभी पारस्परिक सूचना मानों का औसत मान {{math|''f<sub>i</sub>''                                                                                    }} और फीचर {{math|''f<sub>j</sub>''                                                                                }} है |
समुच्चय में सभी फीचर्स का रिडंडेंसीय {{mvar|S                                                                                                        }} फीचर के मध्य सभी पारस्परिक सूचना मानों का औसत मान {{math|''f<sub>i</sub>''                                                                                    }} और फीचर {{math|''f<sub>j</sub>''                                                                                }} है |


:<math> R(S) = \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})</math>
:<math> R(S) = \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})</math>
Line 99: Line 99:
\frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}}
\frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}}
{(\sum^{n}_{i=1}x_{i})^{2}}\right].</math>
{(\sum^{n}_{i=1}x_{i})^{2}}\right].</math>
एमआरएमआर एल्गोरिदम सैद्धांतिक रूप से अधिकतम-निर्भरता फीचर सिलेक्शन एल्गोरिदम का अनुमान होता है जो सिलेक्शन ित फीचर्स के संयुक्त वितरण और वर्गीकरण वेरिएबल के मध्य पारस्परिक सूचना को अधिकतम करता है। चूंकि एमआरएमआर बहुत लघु समस्याओं की श्रृंखला के साथ संयोजन अनुमान समस्या का अनुमान लगाता है, जिनमें से प्रत्येक में केवल दो वेरिएबल सम्मिलित होते हैं, इस प्रकार यह जोड़ीदार संयुक्त संभावनाओं का उपयोग करता है जो अधिक शक्तिशाली होते हैं। कुछ स्थितियों में एल्गोरिदम फीचर्स की उपयोगिता को कम समझ सकता है क्योंकि इसमें उन फीचर्स के मध्य इंटरैक्शन को मापने की कोई विधि नहीं है जो इसकी प्रासंगिकता को बढ़ा सकते हैं। इससे व्यर्थ प्रदर्शन हो सकता है <ref name="Brown" /> जब विशेषताएँ व्यक्तिगत रूप से व्यर्थ होती हैं, किन्तु संयुक्त होने पर यह उपयोगी होती हैं ( पैथोलॉजिकल स्थिति तब पायी जाती है जब वर्ग फीचर्स का समता कार्य होता है)। साम