फीचर चयन: Difference between revisions
From Vigyanwiki
No edit summary |
No edit summary |
||
| Line 1: | Line 1: | ||
{{short description|Procedure in machine learning and statistics}} | {{short description|Procedure in machine learning and statistics}} | ||
{{machine learning bar}} | {{machine learning bar}} | ||
[[ यंत्र अधिगम | | [[ यंत्र अधिगम | मशीन लर्निंग]] और सांख्यिकी में, '''फीचर''' '''सिलेक्शन''' होता हैं, जिसे वैरिएबल सिलेक्शन , विशेषता सिलेक्शन या वैरिएबल सबसेट सिलेक्शन के रूप में भी जाना जाता है | यह मॉडल निर्माण में उपयोग के लिए प्रासंगिक [[ फ़ीचर (मशीन लर्निंग) |फीचर (मशीन लर्निंग)]] (वेरिएबल , प्रडिक्टर) के सबसेट का सिलेक्शन करने की प्रक्रिया है। फीचर सिलेक्शन तकनीकों का उपयोग अनेक कारणों से किया जाता है | | ||
:* शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना और उसको सरल बनाने के लिए मॉडलों का सरलीकरण,<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय शिक्षा का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |page=204}}</ref> | :* शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना और उसको सरल बनाने के लिए मॉडलों का सरलीकरण,<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=सांख्यिकीय शिक्षा का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |page=204}}</ref> | ||
:* कम समय में प्रशिक्षण,<ref>{{Citation|last1=Brank|first1=Janez|title=Feature Selection|date=2011|url=http://link.springer.com/10.1007/978-0-387-30164-8_306|encyclopedia=Encyclopedia of Machine Learning|pages=402–406|editor-last=Sammut|editor-first=Claude|place=Boston, MA|publisher=Springer US|language=en|doi=10.1007/978-0-387-30164-8_306|isbn=978-0-387-30768-8|access-date=2021-07-13|last2=Mladenić|first2=Dunja|last3=Grobelnik|first3=Marko|last4=Liu|first4=Huan|last5=Mladenić|first5=Dunja|last6=Flach|first6=Peter A.|last7=Garriga|first7=Gemma C.|last8=Toivonen|first8=Hannu|last9=Toivonen|first9=Hannu|editor2-last=Webb|editor2-first=Geoffrey I.}}</ref> | :* कम समय में प्रशिक्षण,<ref>{{Citation|last1=Brank|first1=Janez|title=Feature Selection|date=2011|url=http://link.springer.com/10.1007/978-0-387-30164-8_306|encyclopedia=Encyclopedia of Machine Learning|pages=402–406|editor-last=Sammut|editor-first=Claude|place=Boston, MA|publisher=Springer US|language=en|doi=10.1007/978-0-387-30164-8_306|isbn=978-0-387-30768-8|access-date=2021-07-13|last2=Mladenić|first2=Dunja|last3=Grobelnik|first3=Marko|last4=Liu|first4=Huan|last5=Mladenić|first5=Dunja|last6=Flach|first6=Peter A.|last7=Garriga|first7=Gemma C.|last8=Toivonen|first8=Hannu|last9=Toivonen|first9=Hannu|editor2-last=Webb|editor2-first=Geoffrey I.}}</ref> | ||
| Line 13: | Line 13: | ||
|title=Optimization of data-driven filterbank for automatic speaker verification | |title=Optimization of data-driven filterbank for automatic speaker verification | ||
|journal=Digital Signal Processing |date=September 2020 |volume=104 | |journal=Digital Signal Processing |date=September 2020 |volume=104 | ||
|page=102795 |doi= 10.1016/j.dsp.2020.102795|arxiv=2007.10729|s2cid=220665533 }}</ref> फीचर निष्कर्षण मूल फीचर्स | |page=102795 |doi= 10.1016/j.dsp.2020.102795|arxiv=2007.10729|s2cid=220665533 }}</ref> फीचर निष्कर्षण मूल फीचर्स के कार्यों से नई सुविधाएँ बनाता है, जबकि फीचर सिलेक्शन फीचर्स का सबसेट लौटाता है। फीचर सिलेक्शन तकनीकों का उपयोग अधिकांशतः उन डोमेन में किया जाता है जहाँ अनेक सुविधाएँ और तुलनात्मक रूप से प्रतिरुप (या डेटा बिंदु) होते हैं। फीचर सिलेक्शन के अनुप्रयोग के लिए आदर्श स्तिथियों में [[स्टाइलोमेट्री]] और [[डीएनए माइक्रोएरे]] डेटा का विश्लेषण सम्मिलित होता है, जहां अनेक हजारों विशेषताएं होती हैं, और इसमें कुछ दशको से सैकड़ों प्रतिरुप हैं। | ||
==परिचय== | ==परिचय== | ||
फीचर सिलेक्शन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता | फीचर सिलेक्शन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता है। यह सबसे सरल एल्गोरिदम फीचर्स के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह स्थान की विस्तृत खोज है, और यह लघु से लघु फीचर सेट को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को अधिक रूप से प्रभावित करता है, और यह मूल्यांकन मेट्रिक्स होता हैं जो फीचर सिलेक्शन एल्गोरिदम की तीन मुख्य श्रेणियों के मध्य अंतर करते हैं | इसमें रैपर, फिल्टर और एम्बेडेड विधियां होती हैं। <ref name="guyon-intro">{{cite journal |title=वेरिएबल और फ़ीचर चयन का एक परिचय|first1=Isabelle |last1=Guyon |first2=André |last2=Elisseeff |journal=[[Journal of Machine Learning Research|JMLR]] |volume=3 |year=2003 |url=http://jmlr.csail.mit.edu/papers/v3/guyon03a.html}}</ref> | ||
* रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए सबसेट का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं। | * रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए सबसेट का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं। | ||
* फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में [[आपसी जानकारी|म्यूच्यूअल इनफार्मेशन]] | * फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में [[आपसी जानकारी|म्यूच्यूअल इनफार्मेशन]] सम्मिलित होती है,<ref name="guyon-intro"/> यह पॉइंटवाइस म्यूच्यूअल इनफार्मेशन हैं ,<ref name="textcat"/> [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक|पियर्सन प्रोडक्ट-मोमेंट कॉरर्लशन कॉएफिसिएंट]], [[राहत (सुविधा चयन)|रिलीफ (फीचर सिलेक्शन )]] | रिलीफ-बेस्ड एल्गोरिदम हैं,<ref>{{Cite journal|last1=Urbanowicz|first1=Ryan J.|last2=Meeker|first2=Melissa|last3=LaCava|first3=William|last4=Olson|first4=Randal S.|last5=Moore|first5=Jason H.|title=Relief-Based Feature Selection: Introduction and Review|journal=Journal of Biomedical Informatics|volume=85|pages=189–203|arxiv=1711.08421|pmid=30031057|pmc=6299836|year=2018|doi=10.1016/j.jbi.2018.07.014}}</ref> और अंतर/अंतर क्लास दूरी या प्रत्येक वर्ग/फीचर संयोजन के लिए [[सांख्यिकीय परिकल्पना परीक्षण]] के स्कोर सम्मिलित हैं। <ref name="textcat">{{cite conference |last1=Yang |first1=Yiming |first2=Jan O. |last2=Pedersen |title=पाठ वर्गीकरण में फीचर चयन पर एक तुलनात्मक अध्ययन|conference=ICML |year=1997|url=http://www.surdeanu.info/mihai/teaching/ista555-spring15/readings/yang97comparative.pdf}}</ref><ref>{{cite journal |last1=Forman |first1=George |title=पाठ वर्गीकरण के लिए फीचर चयन मेट्रिक्स का एक व्यापक अनुभवजन्य अध्ययन|journal=Journal of Machine Learning Research |volume=3 |year=2003 |pages=1289–1305|url=http://www.jmlr.org/papers/volume3/forman03a/forman03a.pdf}}</ref> फ़िल्टर सामान्यतः रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, किन्तु वह फीचर सेट का उत्पादन करते हैं जो विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। <ref>{{cite journal|author1=Yishi Zhang|author2=Shujuan Li|author3=Teng Wang|author4=Zigang Zhang|title=अलग-अलग वर्गों के लिए विचलन-आधारित सुविधा चयन|journal=Neurocomputing|date=2013|volume=101|issue=4|pages=32–42|doi=10.1016/j.neucom.2012.06.036}}</ref> ट्यूनिंग की इस कमी का अर्थ है कि फ़िल्टर से सेट किया गया फीचर रैपर से सेट की तुलना में अधिक सामान्य है, सामान्यतः रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। चूँकि फीचर सेट में पूर्वानुमान मॉडल की धारणाएँ सम्मिलित नहीं हैं, और इसलिए यह फीचर्स के मध्य संबंधों को प्रदर्शित करने के लिए अधिक उपयोगी है। अनेक फ़िल्टर स्पष्ट सर्वोत्तम फीचर सबसेट के अतिरिक्त फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी) या क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फीचर एलिमिनेशन एल्गोरिदम है, <ref>{{cite journal|author1=Guyon I.|author2=Weston J.|author3=Barnhill S.|author4=Vapnik V.|title=सपोर्ट वेक्टर मशीनों का उपयोग करके कैंसर वर्गीकरण के लिए जीन चयन|journal=Machine Learning|date=2002|volume=46|issue=1–3|pages=389–422|doi=10.1023/A:1012487302797|doi-access=free}}</ref> सामान्यतः मॉडल का निरंतर निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए [[ समर्थन वेक्टर मशीन |सपोर्ट वेक्टर मशीन]] के साथ उपयोग किया जाता है। | ||
* एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर सिलेक्शन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'सिलेक्शन | * एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर सिलेक्शन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'सिलेक्शन' किया जाता है। लैस्सो में सुधारों में बोलासो सम्मिलित है जो प्रतिरूपों को बूटस्ट्रैप करता है | <ref name=Bolasso>{{Cite book|last1=Bach|first1=Francis R|title=Bolasso: model consistent lasso estimation through the bootstrap|journal=Proceedings of the 25th International Conference on Machine Learning|date=2008|pages=33–40|doi=10.1145/1390156.1390161|isbn=9781605582054|s2cid=609778}}</ref> [[इलास्टिक नेट नियमितीकरण]], जो लैस्सो के L1 दंड को [[ रिज प्रतिगमन |रिज रिग्रेशन]] के L2 दंड के साथ जोड़ता है | और फ़ीआलेक्ट जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। <ref name=FeaLect>{{cite journal|last1=Zare|first1=Habil|title=लिंफोमा निदान के अनुप्रयोग के साथ लैस्सो के संयुक्त विश्लेषण के आधार पर सुविधाओं की प्रासंगिकता का स्कोरिंग|journal=BMC Genomics|date=2013|volume=14|issue=Suppl 1 |pages=S14|doi=10.1186/1471-2164-14-S1-S14|pmid=23369194|pmc=3549810}}</ref> एईएफएस आगे लैस्सो को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। <ref>{{cite conference |author1=Kai Han|author2=Yunhe Wang|author3=Chao Zhang|author4=Chao Li|author5=Chao Xu|title=ऑटोएन्कोडर ने बिना पर्यवेक्षित सुविधा चयन को प्रेरित किया|conference=IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) |year=2018}}</ref> कम्प्यूटेशनल सम्मिश्रता के संदर्भ में यह दृष्टिकोण फिल्टर और रैपर के मध्य होते हैं। | ||
पारंपरिक [[प्रतिगमन विश्लेषण]] में, फीचर सिलेक्शन का सबसे लोकप्रिय रूप [[चरणबद्ध प्रतिगमन|'''वेरिएबल स्टेपवाइज रिग्रेशन''']] है, जो रैपर तकनीक होती है। यह [[लालची एल्गोरिदम|ग्रीडी एल्गोरिदम]] है जो प्रत्येक समय में सबसे अच्छी फीचर जोड़ता है | और (सबसे व्यर्थ फीचर को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं। | पारंपरिक [[प्रतिगमन विश्लेषण]] में, फीचर सिलेक्शन का सबसे लोकप्रिय रूप [[चरणबद्ध प्रतिगमन|'''वेरिएबल स्टेपवाइज रिग्रेशन''']] है, जो रैपर तकनीक होती है। यह [[लालची एल्गोरिदम|ग्रीडी एल्गोरिदम]] है जो प्रत्येक समय में सबसे अच्छी फीचर जोड़ता है | और (सबसे व्यर्थ फीचर को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं। | ||
==सबसेट सिलेक्शन == | ==सबसेट सिलेक्शन == | ||
सबसेट सिलेक्शन उपयुक्तता के लिए समूह के रूप में फीचर्स | सबसेट सिलेक्शन उपयुक्तता के लिए समूह के रूप में फीचर्स के सबसेट का मूल्यांकन करता है। सबसेट [[खोज एल्गोरिथ्म|सर्च एल्गोरिथ्म]] को रैपर, फिल्टर और एम्बेडेड विधियों में विभाजित किया जा सकता है। रैपर्स संभावित फीचर्स के स्थान के माध्यम से खोज करने के लिए खोज एल्गोरिदम का उपयोग करते हैं और सबसेट पर मॉडल चलाकर प्रत्येक सबसेट का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से मूल्यवान हो सकते हैं और मॉडल में अधिक फिट होने पर कठिन परिस्थिति हो सकती है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, किन्तु यह किसी मॉडल के विरुद्ध मूल्यांकन करने के अतिरिक्त, सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें मॉडल में अंतर्निहित और विशिष्ट होती हैं। | ||
अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम [[पहाड़ी की चढ़ाई|हिल क्लिंबिंग]] का उपयोग करते हैं, जो फीचर्स | अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम [[पहाड़ी की चढ़ाई|हिल क्लिंबिंग]] का उपयोग करते हैं, जो फीचर्स के उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सही है। सबसेट के मूल्यांकन के लिए स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो फीचर्स के उपसमूह को ग्रेड करती है। व्यापक खोज सामान्यतः अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर होते हैं, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले फीचर्स के सबसेट को संतबषजनक फीचर सबसेट के रूप में चुना जाता है। इसको रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है | इस प्रकार यह संभावित मानदंडों में सम्मिलित हैं | सबसेट स्कोर सीमा से अधिक होता है | कार्य का अधिकतम अनुमत रन टाइम सरपास्ड हो गया है | | ||
वैकल्पिक खोज-आधारित तकनीकें [[लक्षित प्रक्षेपण खोज]] पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का सिलेक्शन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं। | वैकल्पिक खोज-आधारित तकनीकें [[लक्षित प्रक्षेपण खोज]] पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का सिलेक्शन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं। | ||
| Line 43: | Line 43: | ||
</ref><ref>{{Cite book|chapter-url=https://dl.acm.org/doi/abs/10.1145/3449726.3459481|doi = 10.1145/3449726.3459481|chapter = Scatter search for high-dimensional feature selection using feature grouping|title = आनुवंशिक और विकासवादी संगणना सम्मेलन साथी की कार्यवाही|year = 2021|last1 = García-Torres|first1 = Miguel|last2 = Gómez-Vela|first2 = Francisco|last3 = Divina|first3 = Federico|last4 = Pinto-Roa|first4 = Diego P.|last5 = Noguera|first5 = José Luis Vázquez|last6 = Román|first6 = Julio C. Mello|pages = 149–150|isbn = 9781450383516|s2cid = 235770316}}</ref> | </ref><ref>{{Cite book|chapter-url=https://dl.acm.org/doi/abs/10.1145/3449726.3459481|doi = 10.1145/3449726.3459481|chapter = Scatter search for high-dimensional feature selection using feature grouping|title = आनुवंशिक और विकासवादी संगणना सम्मेलन साथी की कार्यवाही|year = 2021|last1 = García-Torres|first1 = Miguel|last2 = Gómez-Vela|first2 = Francisco|last3 = Divina|first3 = Federico|last4 = Pinto-Roa|first4 = Diego P.|last5 = Noguera|first5 = José Luis Vázquez|last6 = Román|first6 = Julio C. Mello|pages = 149–150|isbn = 9781450383516|s2cid = 235770316}}</ref> | ||
* [[परिवर्तनीय पड़ोस खोज|वेरिएबल नेबरहुड सर्च]] <ref>F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. [https://web.archive.org/web/20190830132140/https://pdfs.semanticscholar.org/9428/2985d2c2ea4eb9f49846bedc12003a47db49.pdf Solving Feature Subset Selection Problem by a Hybrid Metaheuristic]. In ''First International Workshop on Hybrid Metaheuristics'', pp. 59–68, 2004.</ref><ref>M. Garcia-Torres, F. Gomez-Vela, B. Melian, J.M. Moreno-Vega. [https://www.researchgate.net/profile/Miguel_Garcia_Torres/publication/229763203_Parallel_Scatter_Search/links/5b2788a00f7e9be8bdaeb0d0/Parallel-Scatter-Search.pdf High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach], ''Information Sciences'', vol. 326, pp. 102-118, 2016.</ref> | * [[परिवर्तनीय पड़ोस खोज|वेरिएबल नेबरहुड सर्च]] <ref>F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. [https://web.archive.org/web/20190830132140/https://pdfs.semanticscholar.org/9428/2985d2c2ea4eb9f49846bedc12003a47db49.pdf Solving Feature Subset Selection Problem by a Hybrid Metaheuristic]. In ''First International Workshop on Hybrid Metaheuristics'', pp. 59–68, 2004.</ref><ref>M. Garcia-Torres, F. Gomez-Vela, B. Melian, J.M. Moreno-Vega. [https://www.researchgate.net/profile/Miguel_Garcia_Torres/publication/229763203_Parallel_Scatter_Search/links/5b2788a00f7e9be8bdaeb0d0/Parallel-Scatter-Search.pdf High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach], ''Information Sciences'', vol. 326, pp. 102-118, 2016.</ref> | ||
वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार फीचर (या फीचर्स | वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार फीचर (या फीचर्स के सेट) और वांछित आउटपुट श्रेणी के मध्य की जाती है। चूँकि, यह ऐसे सत्य मेट्रिक्स होते हैं जो पारस्परिक सूचना का सरल कार्य करते हैं <ref>{{Cite journal|arxiv=q-bio/0311039|last1=Kraskov|first1=Alexander|title=पारस्परिक सूचना पर आधारित पदानुक्रमित क्लस्टरिंग|last2=Stögbauer|first2=Harald|last3=Andrzejak|first3=Ralph G|last4=Grassberger|first4=Peter|year=2003|bibcode=2003q.bio....11039K}}</ref> तथा म्यूच्यूअल इनफार्मेशन या मीट्रिक देखें। | ||
अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं | | अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं | | ||
| Line 56: | Line 56: | ||
==अधिकतम मानदंड== | ==अधिकतम मानदंड== | ||
अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि फीचर सिलेक्शन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे सिलेक्शन | अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि फीचर सिलेक्शन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे सिलेक्शन फीचर्स की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ C<sub>p</sub> सम्मिलित हैं | जिनमें प्रत्येक अतिरिक्त फीचर के लिए 2 का दंड है। यह एआईसी [[सूचना सिद्धांत]] पर आधारित है, और प्रभावी रूप से [[अधिकतम एन्ट्रापी सिद्धांत|मैक्सिमम एन्ट्रापी सिद्धांत]] के माध्यम से प्राप्त होता है। <ref>{{Citation | first=H. |last=Akaike |author-link=Hirotugu Akaike | contribution = Prediction and entropy | pages=1–24 | title= A Celebration of Statistics | editor1-first= A. C. | editor1-last= Atkinson | editor2-first= S. E. | editor2-last= Fienberg | editor2-link= Stephen Fienberg | year = 1985 | publisher= Springer|url=https://apps.dtic.mil/dtic/tr/fulltext/u2/a120956.pdf|archive-url=https://web.archive.org/web/20190830132141/https://apps.dtic.mil/dtic/tr/fulltext/u2/a120956.pdf|url-status=live|archive-date=August 30, 2019}}.</ref><ref>{{Citation |last1=Burnham |first1=K. P. |last2=Anderson |first2=D. R. |year=2002 |title=Model Selection and Multimodel Inference: A practical information-theoretic approach |edition=2nd |publisher= [[Springer-Verlag]] |url=https://books.google.com/books?id=fT1Iu-h6E-oC|isbn=9780387953649 }}.</ref> | ||
अन्य मानदंड [[बायेसियन सूचना मानदंड]] (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए <math>\sqrt{\log{n}}</math> के दंड का उपयोग करता है, [[न्यूनतम विवरण लंबाई]] (एमडीएल) जो असम्बद्ध रूप से <math>\sqrt{\log{n}}</math> का उपयोग करता है, [[बोनफेरोनी सुधार]] / आरआईसी जो <math>\sqrt{2\log{p}}</math> का उपयोग करता है, अधिकतम निर्भरता फीचर सिलेक्शन , और विभिन्न प्रकार के नए मानदंड जो [[झूठी खोज दर|फाल्स डिस्कवर रेट]] (एफडीआर) से प्रेरित हैं, जो <math>\sqrt{2\log{\frac{p}{q}}}</math> के समीप कुछ का उपयोग करते हैं। फीचर्स | अन्य मानदंड [[बायेसियन सूचना मानदंड]] (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए <math>\sqrt{\log{n}}</math> के दंड का उपयोग करता है, [[न्यूनतम विवरण लंबाई]] (एमडीएल) जो असम्बद्ध रूप से <math>\sqrt{\log{n}}</math> का उपयोग करता है, [[बोनफेरोनी सुधार]] / आरआईसी जो <math>\sqrt{2\log{p}}</math> का उपयोग करता है, अधिकतम निर्भरता फीचर सिलेक्शन , और विभिन्न प्रकार के नए मानदंड जो [[झूठी खोज दर|फाल्स डिस्कवर रेट]] (एफडीआर) से प्रेरित हैं, जो <math>\sqrt{2\log{\frac{p}{q}}}</math> के समीप कुछ का उपयोग करते हैं। फीचर्स के सबसे प्रासंगिक उपसमूह का सिलेक्शन करने के लिए अधिकतम [[एन्ट्रापी दर]] मानदंड का भी उपयोग किया जा सकता है। <ref>{{cite journal |last1=Einicke |first1=G. A. |title=दौड़ने के दौरान घुटने और टखने की गतिशीलता में परिवर्तन को वर्गीकृत करने के लिए सुविधाओं का अधिकतम-एंट्रॉपी दर चयन|journal=IEEE Journal of Biomedical and Health Informatics |volume=28 |issue=4 |pages=1097–1103 |year=2018 |doi= 10.1109/JBHI.2017.2711487 |pmid=29969403 |s2cid=49555941 }}</ref> | ||
==संरचना सीखना== | ==संरचना सीखना== | ||
फ़िल्टर फीचर सिलेक्शन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे [[संरचित भविष्यवाणी|संरचित]] पूर्वानुमान कहा जाता है। फीचर सिलेक्शन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर सेट | फ़िल्टर फीचर सिलेक्शन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे [[संरचित भविष्यवाणी|संरचित]] पूर्वानुमान कहा जाता है। फीचर सिलेक्शन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर सेट खोजता है जबकि संरचना शिक्षण सभी वेरिएबल के मध्य संबंधों को खोजता है, सामान्यतः इन सम्बन्धो को ग्राफ के रूप में व्यक्त करता हैं। यह सबसे सामान्य संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा [[बायेसियन नेटवर्क]] द्वारा उत्पन्न होता है, और इसलिए संरचना [[निर्देशित ग्राफ|निर्देशित]] ग्राफिकल [[ चित्रमय मॉडल |मॉडल]] है। फ़िल्टर फीचर सिलेक्शन समस्या का अधिकतम समाधान लक्ष्य नोड का [[मार्कोव कंबल|मार्कोव ब्लंकेट]] है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए अद्वितीय मार्कोव ब्लंकेट है। <ref>{{cite journal|last1=Aliferis|first1=Constantin|title=Local causal and markov blanket induction for causal discovery and feature selection for classification part I: Algorithms and empirical evaluation|journal=Journal of Machine Learning Research|date=2010|volume=11|pages=171–234|url=http://jmlr.org/papers/volume11/aliferis10a/aliferis10a.pdf}}</ref> | ||
==सूचना सिद्धांत आधारित फीचर सिलेक्शन तंत्र== | ==सूचना सिद्धांत आधारित फीचर सिलेक्शन तंत्र== | ||
चारों ओर विभिन्न फीचर सिलेक्शन तंत्र हैं जो विभिन्न फीचर्स | चारों ओर विभिन्न फीचर सिलेक्शन तंत्र हैं जो विभिन्न फीचर्स को स्कोर करने के लिए पारस्परिक सूचना का उपयोग करते हैं। वह सामान्यतः सभी समान एल्गोरिदम का उपयोग करते हैं | | ||
#सभी फीचर्स | #सभी फीचर्स (<math> f_{i} \in F </math>) और लक्ष्य वर्ग ({{mvar|c }}) के मध्य स्कोर के रूप में पारस्परिक सूचना की गणना करें | ||
# सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें (उदाहरण के लिए . <math>\underset{f_{i} \in F}\operatorname{argmax}(I(f_{i},c))</math>) और इसे सिलेक्शन | # सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें (उदाहरण के लिए . <math>\underset{f_{i} \in F}\operatorname{argmax}(I(f_{i},c))</math>) और इसे सिलेक्शन फीचर्स ({{mvar|S }}) के सेट में जोड़ें | ||
# उस स्कोर की गणना करें जो पारस्परिक सूचना से प्राप्त किया जा सकता है | # उस स्कोर की गणना करें जो पारस्परिक सूचना से प्राप्त किया जा सकता है | ||
# सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें और इसे | # सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें और इसे सिलेक्शन फीचर्स के सेट में जोड़ें (उदाहरण के लिए) <math>\underset{f_{i} \in F}\operatorname{argmax}(I_{derived}(f_{i},c))</math>) | ||
# 3. और 4. को तब तक दोहराएँ जब तक कि निश्चित संख्या में फीचर्स | # 3. और 4. को तब तक दोहराएँ जब तक कि निश्चित संख्या में फीचर्स का सिलेक्शन न हो जाए (उदाहरण के लिए) <math>|S|=l</math>) | ||
सबसे सरल दृष्टिकोण म्यूच्यूअल इनफार्मेशन को व्युत्पन्न स्कोर के रूप में उपयोग करता है।<ref name="Brown">{{cite journal |last1=Brown |first1=Gavin |last2=Pocock |first2=Adam |last3=Zhao |first3=Ming-Jie |last4=Luján |first4=Mikel |title=Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selection |journal= [[Journal of Machine Learning Research]] |date=2012 |volume=13 |pages=27–66 |url=http://dl.acm.org/citation.cfm?id=2188385.2188387}}[http://www.jmlr.org/papers/volume13/brown12a/brown12a.pdf]</ref> | सबसे सरल दृष्टिकोण म्यूच्यूअल इनफार्मेशन को व्युत्पन्न स्कोर के रूप में उपयोग करता है।<ref name="Brown">{{cite journal |last1=Brown |first1=Gavin |last2=Pocock |first2=Adam |last3=Zhao |first3=Ming-Jie |last4=Luján |first4=Mikel |title=Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selection |journal= [[Journal of Machine Learning Research]] |date=2012 |volume=13 |pages=27–66 |url=http://dl.acm.org/citation.cfm?id=2188385.2188387}}[http://www.jmlr.org/papers/volume13/brown12a/brown12a.pdf]</ref> | ||
चूँकि, भिन्न-भिन्न दृष्टिकोण हैं, जो फीचर्स | चूँकि, भिन्न-भिन्न दृष्टिकोण हैं, जो फीचर्स के मध्य रिडंडेंसीय को कम करने का प्रयास करते हैं। | ||
===न्यूनतम- | ===न्यूनतम-रिडंडेंसीय-अधिकतम-प्रासंगिकता (एमआरएमआर) फीचर सिलेक्शन === | ||
पेंग एट अल.<ref>{{cite journal |last1=Peng |first1=H. C. |last2=Long |first2=F. |last3=Ding |first3=C. |title=Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy |journal= [[IEEE Transactions on Pattern Analysis and Machine Intelligence]] |volume=27 |issue=8 |pages=1226–1238 |year=2005 |doi=10.1109/TPAMI.2005.159 |pmid=16119262|citeseerx=10.1.1.63.5765 |s2cid=206764015 }} [http://home.penglab.com/proj/mRMR/index.htm Program]</ref> फीचर सिलेक्शन विधि प्रस्तावित की गई जो फीचर्स | पेंग एट अल.<ref>{{cite journal |last1=Peng |first1=H. C. |last2=Long |first2=F. |last3=Ding |first3=C. |title=Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy |journal= [[IEEE Transactions on Pattern Analysis and Machine Intelligence]] |volume=27 |issue=8 |pages=1226–1238 |year=2005 |doi=10.1109/TPAMI.2005.159 |pmid=16119262|citeseerx=10.1.1.63.5765 |s2cid=206764015 }} [http://home.penglab.com/proj/mRMR/index.htm Program]</ref> फीचर सिलेक्शन विधि प्रस्तावित की गई जो फीचर्स का सिलेक्शन करने के लिए पारस्परिक सूचना , सहसंबंध, या दूरी/समानता स्कोर का उपयोग कर सकती है। इसका उद्देश्य अन्य सिलेक्शन फीचर्स की उपस्थिति में किसी फीचर की प्रासंगिकता को उसके रिडंडेंसीय द्वारा दंडित करना है। क्लास {{mvar|c }} के लिए फीचर सम्मुचय {{mvar|S }} की प्रासंगिकता को व्यक्तिगत फीचर {{math|''f<sub>i</sub>'' }} और क्लास {{mvar|c }} के मध्य सभी पारस्परिक सूचना मानों के औसत मान से द्वारा परिभाषित किया गया है | | ||
:<math> D(S,c) = \frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) </math>. | :<math> D(S,c) = \frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) </math>. | ||
समुच्चय में सभी फीचर्स | समुच्चय में सभी फीचर्स का रिडंडेंसीय {{mvar|S }} फीचर के मध्य सभी पारस्परिक सूचना मानों का औसत मान {{math|''f<sub>i</sub>'' }} और फीचर {{math|''f<sub>j</sub>'' }} है | | ||
:<math> R(S) = \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})</math> | :<math> R(S) = \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})</math> | ||
| Line 99: | Line 99: | ||
\frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}} | \frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}} | ||
{(\sum^{n}_{i=1}x_{i})^{2}}\right].</math> | {(\sum^{n}_{i=1}x_{i})^{2}}\right].</math> | ||
एमआरएमआर एल्गोरिदम सैद्धांतिक रूप से अधिकतम-निर्भरता फीचर सिलेक्शन एल्गोरिदम का अनुमान होता है जो सिलेक्शन | |||