फीचर चयन: Difference between revisions
m (17 revisions imported from alpha:फीचर_चयन) |
No edit summary |
||
| Line 313: | Line 313: | ||
* [http://home.penglab.com/proj/mRMR/index.htm Minimum-redundancy-maximum-relevance (mRMR) feature selection program] | * [http://home.penglab.com/proj/mRMR/index.htm Minimum-redundancy-maximum-relevance (mRMR) feature selection program] | ||
* [http://mloss.org/software/view/386/ FEAST] (Open source Feature Selection algorithms in C and MATLAB) | * [http://mloss.org/software/view/386/ FEAST] (Open source Feature Selection algorithms in C and MATLAB) | ||
[[Category:CS1 English-language sources (en)]] | |||
[[Category:CS1 errors]] | |||
[[Category: | [[Category:CS1 français-language sources (fr)]] | ||
[[Category:Created On 25/07/2023]] | [[Category:Created On 25/07/2023]] | ||
[[Category:Vigyan Ready]] | [[Category:Lua-based templates]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Templates Translated in Hindi]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Webarchive template wayback links]] | |||
[[Category:आयाम में कमी]] | |||
[[Category:मॉडल चयन]] | |||
Latest revision as of 11:18, 14 August 2023
| Part of a series on |
| Machine learning and data mining |
|---|
मशीन लर्निंग और सांख्यिकी में, फीचर सिलेक्शन होता हैं, जिसे वैरिएबल सिलेक्शन , विशेषता सिलेक्शन या वैरिएबल सबसेट सिलेक्शन के रूप में भी जाना जाता है | यह मॉडल निर्माण में उपयोग के लिए प्रासंगिक फीचर (मशीन लर्निंग) (वेरिएबल , प्रडिक्टर) के सबसेट का सिलेक्शन करने की प्रक्रिया है। फीचर सिलेक्शन तकनीकों का उपयोग अनेक कारणों से किया जाता है |
फीचर सिलेक्शन तकनीक का उपयोग करते समय केंद्रीय आधार यह है कि डेटा में कुछ विशेषताएं सम्मिलित हैं जो तब अनावश्यक हैं या अप्रासंगिक हैं, और इस प्रकार सूचना को अधिक हानि के अतिरिक्त उन्हें हटाया जा सकता है। [9] यह निरर्थक और अप्रासंगिक दो भिन्न-भिन्न धारणाएँ होती हैं, क्योंकि प्रासंगिक विशेषता किसी अन्य प्रासंगिक विशेषता की उपस्थिति में निरर्थक हो सकती है जिसके साथ यह दृढ़ता से सहसंबद्ध होता है।[10]
फीचर सिलेक्शन तकनीकों को फीचर निष्कर्षण से भिन्न किया जाना चाहिए। [11] फीचर निष्कर्षण मूल फीचर्स के कार्यों से नई सुविधाएँ बनाता है, जबकि फीचर सिलेक्शन फीचर्स का सबसेट लौटाता है। फीचर सिलेक्शन तकनीकों का उपयोग अधिकांशतः उन डोमेन में किया जाता है जहाँ अनेक सुविधाएँ और तुलनात्मक रूप से प्रतिरुप (या डेटा बिंदु) होते हैं। फीचर सिलेक्शन के अनुप्रयोग के लिए आदर्श स्तिथियों में स्टाइलोमेट्री और डीएनए माइक्रोएरे डेटा का विश्लेषण सम्मिलित होता है, जहां अनेक हजारों विशेषताएं होती हैं, और इसमें कुछ दशको से सैकड़ों प्रतिरुप हैं।
परिचय
फीचर सिलेक्शन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता है। यह सबसे सरल एल्गोरिदम फीचर्स के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह स्थान की विस्तृत खोज है, और यह लघु से लघु फीचर सेट को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को अधिक रूप से प्रभावित करता है, और यह मूल्यांकन मेट्रिक्स होता हैं जो फीचर सिलेक्शन एल्गोरिदम की तीन मुख्य श्रेणियों के मध्य अंतर करते हैं | इसमें रैपर, फिल्टर और एम्बेडेड विधियां होती हैं। [10]
- रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए सबसेट का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं।
- फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में म्यूच्यूअल इनफार्मेशन सम्मिलित होती है,[10] यह पॉइंटवाइस म्यूच्यूअल इनफार्मेशन हैं ,[12] पियर्सन प्रोडक्ट-मोमेंट कॉरर्लशन कॉएफिसिएंट, रिलीफ (फीचर सिलेक्शन ) | रिलीफ-बेस्ड एल्गोरिदम हैं,[13] और अंतर/अंतर क्लास दूरी या प्रत्येक वर्ग/फीचर संयोजन के लिए सांख्यिकीय परिकल्पना परीक्षण के स्कोर सम्मिलित हैं। [12][14] फ़िल्टर सामान्यतः रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, किन्तु वह फीचर सेट का उत्पादन करते हैं जो विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। [15] ट्यूनिंग की इस कमी का अर्थ है कि फ़िल्टर से सेट किया गया फीचर रैपर से सेट की तुलना में अधिक सामान्य है, सामान्यतः रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। चूँकि फीचर सेट में पूर्वानुमान मॉडल की धारणाएँ सम्मिलित नहीं हैं, और इसलिए यह फीचर्स के मध्य संबंधों को प्रदर्शित करने के लिए अधिक उपयोगी है। अनेक फ़िल्टर स्पष्ट सर्वोत्तम फीचर सबसेट के अतिरिक्त फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी) या क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फीचर एलिमिनेशन एल्गोरिदम है, [16] सामान्यतः मॉडल का निरंतर निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए सपोर्ट वेक्टर मशीन के साथ उपयोग किया जाता है।
- एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर सिलेक्शन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'सिलेक्शन' किया जाता है। लैस्सो में सुधारों में बोलासो सम्मिलित है जो प्रतिरूपों को बूटस्ट्रैप करता है | [17] इलास्टिक नेट नियमितीकरण, जो लैस्सो के L1 दंड को रिज रिग्रेशन के L2 दंड के साथ जोड़ता है | और फ़ीआलेक्ट जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। [18] एईएफएस आगे लैस्सो को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। [19] कम्प्यूटेशनल सम्मिश्रता के संदर्भ में यह दृष्टिकोण फिल्टर और रैपर के मध्य होते हैं।
पारंपरिक प्रतिगमन विश्लेषण में, फीचर सिलेक्शन का सबसे लोकप्रिय रूप वेरिएबल स्टेपवाइज रिग्रेशन है, जो रैपर तकनीक होती है। यह ग्रीडी एल्गोरिदम है जो प्रत्येक समय में सबसे अच्छी फीचर जोड़ता है | और (सबसे व्यर्थ फीचर को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं।
सबसेट सिलेक्शन
सबसेट सिलेक्शन उपयुक्तता के लिए समूह के रूप में फीचर्स के सबसेट का मूल्यांकन करता है। सबसेट सर्च एल्गोरिथ्म को रैपर, फिल्टर और एम्बेडेड विधियों में विभाजित किया जा सकता है। रैपर्स संभावित फीचर्स के स्थान के माध्यम से खोज करने के लिए खोज एल्गोरिदम का उपयोग करते हैं और सबसेट पर मॉडल चलाकर प्रत्येक सबसेट का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से मूल्यवान हो सकते हैं और मॉडल में अधिक फिट होने पर कठिन परिस्थिति हो सकती है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, किन्तु यह किसी मॉडल के विरुद्ध मूल्यांकन करने के अतिरिक्त, सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें मॉडल में अंतर्निहित और विशिष्ट होती हैं।
अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम हिल क्लिंबिंग का उपयोग करते हैं, जो फीचर्स के उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सही है। सबसेट के मूल्यांकन के लिए स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो फीचर्स के उपसमूह को ग्रेड करती है। व्यापक खोज सामान्यतः अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर होते हैं, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले फीचर्स के सबसेट को संतबषजनक फीचर सबसेट के रूप में चुना जाता है। इसको रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है | इस प्रकार यह संभावित मानदंडों में सम्मिलित हैं | सबसेट स्कोर सीमा से अधिक होता है | कार्य का अधिकतम अनुमत रन टाइम सरपास्ड हो गया है |
वैकल्पिक खोज-आधारित तकनीकें लक्षित प्रक्षेपण खोज पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का सिलेक्शन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं।
खोज दृष्टिकोण में सम्मिलित हैं |
- एक्सहॉस्टइव [20]
- बेस्ट फर्स्ट
- सिम्युलेटेड एनीलिंग
- जेनेटिक एल्गोरिदम [21]
- ग्रीडी फॉरवर्ड सिलेक्शन [22][23][24]
- ग्रीडी बैकवर्ड एलिमिनेशन
- पार्टिकल स्वार्म ऑप्टिमाइजेशन [25]
- टार्गेटेड प्रोजेक्शन परसूट
- स्कैटर सर्च [26][27]
- वेरिएबल नेबरहुड सर्च [28][29]
वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार फीचर (या फीचर्स के सेट) और वांछित आउटपुट श्रेणी के मध्य की जाती है। चूँकि, यह ऐसे सत्य मेट्रिक्स होते हैं जो पारस्परिक सूचना का सरल कार्य करते हैं [30] तथा म्यूच्यूअल इनफार्मेशन या मीट्रिक देखें।
अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं |
- वर्ग पृथक्करण
- त्रुटि संभावना
- अंतर-वर्ग दूरी
- संभाव्य दूरी
- एन्ट्रॉपी (सूचना सिद्धांत)
- संगति-आधारित फीचर सिलेक्शन
- सहसंबंध-आधारित फीचर सिलेक्शन
अधिकतम मानदंड
अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि फीचर सिलेक्शन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे सिलेक्शन फीचर्स की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ Cp सम्मिलित हैं | जिनमें प्रत्येक अतिरिक्त फीचर के लिए 2 का दंड है। यह एआईसी सूचना सिद्धांत पर आधारित है, और प्रभावी रूप से मैक्सिमम एन्ट्रापी सिद्धांत के माध्यम से प्राप्त होता है। [31][32]
अन्य मानदंड बायेसियन सूचना मानदंड (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए के दंड का उपयोग करता है, न्यूनतम विवरण लंबाई (एमडीएल) जो असम्बद्ध रूप से का उपयोग करता है, बोनफेरोनी सुधार / आरआईसी जो का उपयोग करता है, अधिकतम निर्भरता फीचर सिलेक्शन , और विभिन्न प्रकार के नए मानदंड जो फाल्स डिस्कवर रेट (एफडीआर) से प्रेरित हैं, जो के समीप कुछ का उपयोग करते हैं। फीचर्स के सबसे प्रासंगिक उपसमूह का सिलेक्शन करने के लिए अधिकतम एन्ट्रापी दर मानदंड का भी उपयोग किया जा सकता है। [33]
संरचना सीखना
फ़िल्टर फीचर सिलेक्शन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे संरचित पूर्वानुमान कहा जाता है। फीचर सिलेक्शन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर सेट खोजता है जबकि संरचना शिक्षण सभी वेरिएबल के मध्य संबंधों को खोजता है, सामान्यतः इन सम्बन्धो को ग्राफ के रूप में व्यक्त करता हैं। यह सबसे सामान्य संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा बायेसियन नेटवर्क द्वारा उत्पन्न होता है, और इसलिए संरचना निर्देशित ग्राफिकल मॉडल है। फ़िल्टर फीचर सिलेक्शन समस्या का अधिकतम समाधान लक्ष्य नोड का मार्कोव ब्लंकेट है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए अद्वितीय मार्कोव ब्लंकेट है। [34]
सूचना सिद्धांत आधारित फीचर सिलेक्शन तंत्र
चारों ओर विभिन्न फीचर सिलेक्शन तंत्र हैं जो विभिन्न फीचर्स को स्कोर करने के लिए पारस्परिक सूचना का उपयोग करते हैं। वह सामान्यतः सभी समान एल्गोरिदम का उपयोग करते हैं |
- सभी फीचर्स () और लक्ष्य वर्ग (c ) के मध्य स्कोर के रूप में पारस्परिक सूचना की गणना करें
- सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें (उदाहरण के लिए .