फीचर चयन

मशीन लर्निंग और सांख्यिकी में, फीचर सिलेक्शन होता हैं, जिसे वैरिएबल सिलेक्शन, विशेषता सिलेक्शन या वैरिएबल सबसेट सिलेक्शन के रूप में भी जाना जाता है | यह मॉडल निर्माण में उपयोग के लिए प्रासंगिक फीचर (मशीन लर्निंग) (वेरिएबल , प्रडिक्टर) के सबसेट का सिलेक्शन करने की प्रक्रिया है। फीचर सिलेक्शन तकनीकों का उपयोग अनेक कारणों से किया जाता है |
 * शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना और उसको सरल बनाने के लिए मॉडलों का सरलीकरण,
 * कम समय में प्रशिक्षण,
 * आयामीता के कर्स से बचने के लिए,
 * लर्निंग मॉडल क्लास के साथ डेटा की अनुकूलता में सुधार,
 * इनपुट स्थान में उपस्थित अंतर्निहित सममित स्थान को एनकोड करें।

फीचर सिलेक्शन तकनीक का उपयोग करते समय केंद्रीय आधार यह है कि डेटा में कुछ विशेषताएं सम्मिलित हैं जो तब अनावश्यक हैं या अप्रासंगिक हैं, और इस प्रकार सूचना को अधिक हानि के अतिरिक्त उन्हें हटाया जा सकता है। यह निरर्थक और अप्रासंगिक दो भिन्न-भिन्न धारणाएँ होती हैं, क्योंकि प्रासंगिक विशेषता किसी अन्य प्रासंगिक विशेषता की उपस्थिति में निरर्थक हो सकती है जिसके साथ यह दृढ़ता से सहसंबद्ध होता है।

फीचर सिलेक्शन तकनीकों को फीचर निष्कर्षण से भिन्न किया जाना चाहिए। फीचर निष्कर्षण मूल फीचर्स के कार्यों से नई सुविधाएँ बनाता है, जबकि फीचर सिलेक्शन फीचर्स का सबसेट लौटाता है। फीचर सिलेक्शन तकनीकों का उपयोग अधिकांशतः उन डोमेन में किया जाता है जहाँ अनेक सुविधाएँ और तुलनात्मक रूप से प्रतिरुप (या डेटा बिंदु) होते हैं। फीचर सिलेक्शन के अनुप्रयोग के लिए आदर्श स्तिथियों में स्टाइलोमेट्री और डीएनए माइक्रोएरे डेटा का विश्लेषण सम्मिलित होता है, जहां अनेक हजारों विशेषताएं होती हैं, और इसमें कुछ दशको से सैकड़ों प्रतिरुप हैं।

परिचय
फीचर सिलेक्शन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता है। यह सबसे सरल एल्गोरिदम फीचर्स के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह स्थान की विस्तृत खोज है, और यह लघु से लघु फीचर सेट को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को अधिक रूप से प्रभावित करता है, और यह मूल्यांकन मेट्रिक्स होता हैं जो फीचर सिलेक्शन एल्गोरिदम की तीन मुख्य श्रेणियों के मध्य अंतर करते हैं | इसमें रैपर, फिल्टर और एम्बेडेड विधियां होती हैं।
 * रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए सबसेट का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं।
 * फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में म्यूच्यूअल इनफार्मेशन सम्मिलित होती है, यह पॉइंटवाइस म्यूच्यूअल इनफार्मेशन हैं, पियर्सन प्रोडक्ट-मोमेंट कॉरर्लशन कॉएफिसिएंट, रिलीफ (फीचर सिलेक्शन ) | रिलीफ-बेस्ड एल्गोरिदम हैं, और अंतर/अंतर क्लास दूरी या प्रत्येक वर्ग/फीचर संयोजन के लिए सांख्यिकीय परिकल्पना परीक्षण के स्कोर सम्मिलित हैं। फ़िल्टर सामान्यतः रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, किन्तु वह फीचर सेट का उत्पादन करते हैं जो विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। ट्यूनिंग की इस कमी का अर्थ है कि फ़िल्टर से सेट किया गया फीचर रैपर से सेट की तुलना में अधिक सामान्य है, सामान्यतः रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। चूँकि फीचर सेट में पूर्वानुमान मॉडल की धारणाएँ सम्मिलित नहीं हैं, और इसलिए यह फीचर्स के मध्य संबंधों को प्रदर्शित करने के लिए अधिक उपयोगी है। अनेक फ़िल्टर स्पष्ट सर्वोत्तम फीचर सबसेट के अतिरिक्त फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी) या क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फीचर एलिमिनेशन एल्गोरिदम है, सामान्यतः मॉडल का निरंतर निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए सपोर्ट वेक्टर मशीन के साथ उपयोग किया जाता है।
 * एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर सिलेक्शन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'सिलेक्शन' किया जाता है। लैस्सो में सुधारों में बोलासो सम्मिलित है जो प्रतिरूपों को बूटस्ट्रैप करता है | इलास्टिक नेट नियमितीकरण, जो लैस्सो के L1 दंड को रिज रिग्रेशन के L2 दंड के साथ जोड़ता है | और फ़ीआलेक्ट जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। एईएफएस आगे लैस्सो को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। कम्प्यूटेशनल सम्मिश्रता के संदर्भ में यह दृष्टिकोण फिल्टर और रैपर के मध्य होते हैं।

पारंपरिक प्रतिगमन विश्लेषण में, फीचर सिलेक्शन का सबसे लोकप्रिय रूप वेरिएबल स्टेपवाइज रिग्रेशन है, जो रैपर तकनीक होती है। यह ग्रीडी एल्गोरिदम है जो प्रत्येक समय में सबसे अच्छी फीचर जोड़ता है | और (सबसे व्यर्थ फीचर को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं।

सबसेट सिलेक्शन
सबसेट सिलेक्शन उपयुक्तता के लिए समूह के रूप में फीचर्स के सबसेट का मूल्यांकन करता है। सबसेट सर्च एल्गोरिथ्म को रैपर, फिल्टर और एम्बेडेड विधियों में विभाजित किया जा सकता है। रैपर्स संभावित फीचर्स के स्थान के माध्यम से खोज करने के लिए खोज एल्गोरिदम का उपयोग करते हैं और सबसेट पर मॉडल चलाकर प्रत्येक सबसेट का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से मूल्यवान हो सकते हैं और मॉडल में अधिक फिट होने पर कठिन परिस्थिति हो सकती है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, किन्तु यह किसी मॉडल के विरुद्ध मूल्यांकन करने के अतिरिक्त, सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें मॉडल में अंतर्निहित और विशिष्ट होती हैं।

अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम हिल क्लिंबिंग का उपयोग करते हैं, जो फीचर्स के उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सही है। सबसेट के मूल्यांकन के लिए स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो फीचर्स के उपसमूह को ग्रेड करती है। व्यापक खोज सामान्यतः अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर होते हैं, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले फीचर्स के सबसेट को संतबषजनक फीचर सबसेट के रूप में चुना जाता है। इसको रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है | इस प्रकार यह संभावित मानदंडों में सम्मिलित हैं | सबसेट स्कोर सीमा से अधिक होता है | कार्य का अधिकतम अनुमत रन टाइम सरपास्ड हो गया है |

वैकल्पिक खोज-आधारित तकनीकें लक्षित प्रक्षेपण खोज पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का सिलेक्शन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं।

खोज दृष्टिकोण में सम्मिलित हैं |

वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार फीचर (या फीचर्स के सेट) और वांछित आउटपुट श्रेणी के मध्य की जाती है। चूँकि, यह ऐसे सत्य मेट्रिक्स होते हैं जो पारस्परिक सूचना का सरल कार्य करते हैं तथा म्यूच्यूअल इनफार्मेशन या मीट्रिक देखें।
 * एक्सहॉस्टइव
 * बेस्ट फर्स्ट
 * सिम्युलेटेड एनीलिंग
 * जेनेटिक एल्गोरिदम
 * ग्रीडी फॉरवर्ड सिलेक्शन
 * ग्रीडी बैकवर्ड एलिमिनेशन
 * पार्टिकल स्वार्म ऑप्टिमाइजेशन
 * टार्गेटेड प्रोजेक्शन परसूट
 * स्कैटर सर्च
 * वेरिएबल नेबरहुड सर्च

अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं |


 * वर्ग पृथक्करण
 * त्रुटि संभावना
 * अंतर-वर्ग दूरी
 * संभाव्य दूरी
 * एन्ट्रॉपी (सूचना सिद्धांत)
 * संगति-आधारित फीचर सिलेक्शन
 * सहसंबंध-आधारित फीचर सिलेक्शन

अधिकतम मानदंड
अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि फीचर सिलेक्शन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे सिलेक्शन फीचर्स की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ Cp सम्मिलित हैं | जिनमें प्रत्येक अतिरिक्त फीचर के लिए 2 का दंड है। यह एआईसी सूचना सिद्धांत पर आधारित है, और प्रभावी रूप से मैक्सिमम एन्ट्रापी सिद्धांत के माध्यम से प्राप्त होता है।

अन्य मानदंड बायेसियन सूचना मानदंड (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए $$\sqrt{\log{n}}$$ के दंड का उपयोग करता है, न्यूनतम विवरण लंबाई (एमडीएल) जो असम्बद्ध रूप से $$\sqrt{\log{n}}$$ का उपयोग करता है, बोनफेरोनी सुधार / आरआईसी जो $$\sqrt{2\log{p}}$$ का उपयोग करता है, अधिकतम निर्भरता फीचर सिलेक्शन, और विभिन्न प्रकार के नए मानदंड जो फाल्स डिस्कवर रेट (एफडीआर) से प्रेरित हैं, जो $$\sqrt{2\log{\frac{p}{q}}}$$ के समीप कुछ का उपयोग करते हैं। फीचर्स के सबसे प्रासंगिक उपसमूह का सिलेक्शन करने के लिए अधिकतम एन्ट्रापी दर मानदंड का भी उपयोग किया जा सकता है।

संरचना सीखना
फ़िल्टर फीचर सिलेक्शन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे संरचित पूर्वानुमान कहा जाता है। फीचर सिलेक्शन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर सेट खोजता है जबकि संरचना शिक्षण सभी वेरिएबल के मध्य संबंधों को खोजता है, सामान्यतः इन सम्बन्धो को ग्राफ के रूप में व्यक्त करता हैं। यह सबसे सामान्य संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा बायेसियन नेटवर्क द्वारा उत्पन्न होता है, और इसलिए संरचना निर्देशित ग्राफिकल मॉडल है। फ़िल्टर फीचर सिलेक्शन समस्या का अधिकतम समाधान लक्ष्य नोड का मार्कोव ब्लंकेट है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए अद्वितीय मार्कोव ब्लंकेट है।

सूचना सिद्धांत आधारित फीचर सिलेक्शन तंत्र
चारों ओर विभिन्न फीचर सिलेक्शन तंत्र हैं जो विभिन्न फीचर्स को स्कोर करने के लिए पारस्परिक सूचना का उपयोग करते हैं। वह सामान्यतः सभी समान एल्गोरिदम का उपयोग करते हैं |


 * 1) सभी फीचर्स ($$ f_{i} \in F $$) और लक्ष्य वर्ग ($c$) के मध्य स्कोर के रूप में पारस्परिक सूचना की गणना करें
 * 2) सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें (उदाहरण के लिए . $$\underset{f_{i} \in F}\operatorname{argmax}(I(f_{i},c))$$) और इसे सिलेक्शन फीचर्स ($S$) के सेट में जोड़ें
 * 3) उस स्कोर की गणना करें जो पारस्परिक सूचना से प्राप्त किया जा सकता है
 * 4) सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें और इसे सिलेक्शन फीचर्स के सेट में जोड़ें (उदाहरण के लिए) $$\underset{f_{i} \in F}\operatorname{argmax}(I_{derived}(f_{i},c))$$)
 * 5) 3. और 4. को तब तक दोहराएँ जब तक कि निश्चित संख्या में फीचर्स का सिलेक्शन न हो जाए (उदाहरण के लिए) $$|S|=l$$)

सबसे सरल दृष्टिकोण म्यूच्यूअल इनफार्मेशन को व्युत्पन्न स्कोर के रूप में उपयोग करता है।

चूँकि, भिन्न-भिन्न दृष्टिकोण हैं, जो फीचर्स के मध्य रिडंडेंसीय को कम करने का प्रयास करते हैं।

न्यूनतम-रिडंडेंसीय-अधिकतम-प्रासंगिकता (एमआरएमआर) फीचर सिलेक्शन
पेंग एट अल. फीचर सिलेक्शन विधि प्रस्तावित की गई जो फीचर्स का सिलेक्शन करने के लिए पारस्परिक सूचना, सहसंबंध, या दूरी/समानता स्कोर का उपयोग कर सकती है। इसका उद्देश्य अन्य सिलेक्शन फीचर्स की उपस्थिति में किसी फीचर की प्रासंगिकता को उसके रिडंडेंसीय द्वारा दंडित करना है। क्लास $c$ के लिए फीचर सम्मुचय $S$ की प्रासंगिकता को व्यक्तिगत फीचर $f_{i}$ और क्लास $c$ के मध्य सभी पारस्परिक सूचना मानों के औसत मान से द्वारा परिभाषित किया गया है |


 * $$ D(S,c) = \frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) $$.

समुच्चय में सभी फीचर्स का रिडंडेंसीय $S$ फीचर के मध्य सभी पारस्परिक सूचना मानों का औसत मान $f_{i}$ और फीचर $f_{j}$ है |


 * $$ R(S) = \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})$$

एमआरएमआर मानदंड ऊपर दिए गए दो उपायों का संयोजन है और इसे निम्नानुसार परिभाषित किया गया है:


 * $$\mathrm{mRMR}= \max_{S}

\left[\frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) - \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})\right].$$ मान लीजिए कि $n$ पूर्ण-समुच्चय सुविधाएँ हैं। मान लीजिए $x_{i}$ फीचर $f_{i}$ के लिए सेट सदस्यता संकेतक फलन है, जिससे $x_{i}=1$ उपस्थिति को संकेत करे और $x_{i}=0$ वैश्विक स्तर पर अधिकतम फीचर सेट में फीचर $f_{i}$ की अनुपस्थिति को संकेत करे। मान लीजिए $$c_i=I(f_i;c)$$ और $$a_{ij}=I(f_i;f_j)$$ हैं। फिर उपरोक्त को अनुकूलन समस्या के रूप में लिखा जा सकता है


 * $$\mathrm{mRMR}= \max_{x\in \{0,1\}^{n}}

\left[\frac{\sum^{n}_{i=1}c_{i}x_{i}}{\sum^{n}_{i=1}x_{i}} - \frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}} {(\sum^{n}_{i=1}x_{i})^{2}}\right].$$ एमआरएमआर एल्गोरिदम सैद्धांतिक रूप से अधिकतम-निर्भरता फीचर सिलेक्शन एल्गोरिदम का अनुमान होता है जो सिलेक्शन फीचर्स के संयुक्त वितरण और वर्गीकरण वेरिएबल के मध्य पारस्परिक सूचना को अधिकतम करता है। चूंकि एमआरएमआर बहुत लघु समस्याओं की श्रृंखला के साथ संयोजन अनुमान समस्या का अनुमान लगाता है, जिनमें से प्रत्येक में केवल दो वेरिएबल सम्मिलित होते हैं, इस प्रकार यह जोड़ीदार संयुक्त संभावनाओं का उपयोग करता है जो अधिक शक्तिशाली होते हैं। कुछ स्थितियों में एल्गोरिदम फीचर्स की उपयोगिता को कम समझ सकता है क्योंकि इसमें उन फीचर्स के मध्य इंटरैक्शन को मापने की कोई विधि नहीं है जो इसकी प्रासंगिकता को बढ़ा सकते हैं। इससे व्यर्थ प्रदर्शन हो सकता है जब विशेषताएँ व्यक्तिगत रूप से व्यर्थ होती हैं, किन्तु संयुक्त होने पर यह उपयोगी होती हैं ( पैथोलॉजिकल स्थिति तब पायी जाती है जब वर्ग फीचर्स का समता कार्य होता है)। सामान्यतः एल्गोरिथ्म सैद्धांतिक रूप से अधिकतम-निर्भरता सिलेक्शन की तुलना में अधिक कुशल (आवश्यक डेटा की मात्रा के संदर्भ में) होता है, फिर भी कम जोड़ीदार रिडंडेंसीय के साथ फीचर सेट तैयार करता है।

एमआरएमआर फ़िल्टर विधियों के बड़े वर्ग का उदाहरण है जो विभिन्न विधियों से प्रासंगिकता और रिडंडेंसीय के मध्य व्यापार करता है।

क्वाद्रटिक प्रोग्रामिंग फीचर सिलेक्शन
एमआरएमआर फीचर सिलेक्शन के लिए वृद्धिशील ग्रीडी रणनीति का विशिष्ट उदाहरण है | इसमें फीचर का सिलेक्शन हो जाने के पश्चात् होते हैं, इसके पश्चात् चरण में असिलेक्शन नहीं किया जा सकता है। जबकि एमआरएमआर को कुछ फीचर्स को कम करने के लिए फ्लोटिंग सर्च का उपयोग करके अनुकूलित किया जा सकता है, इसे वैश्विक द्विघात प्रोग्रामिंग अनुकूलन समस्या के रूप में निम्नानुसार पुन: तैयार किया जा सकता है |

\mathrm{QPFS}: \min_\mathbf{x} \left\{ \alpha \mathbf{x}^T H \mathbf{x} -  \mathbf{x}^T F\right\} \quad \mbox{s.t.} \ \sum_{i=1}^n x_i=1, x_i\geq 0 $$ जहां $$F_{n\times1}=[I(f_1;c),\ldots, I(f_n;c)]^T$$ फीचर प्रासंगिकता का वेक्टर है, यह मानते हुए कि कुल मिलाकर $n$ फीचर हैं, तथा $$H_{n\times n}=[I(f_i;f_j)]_{i,j=1\ldots n}$$ फीचर जोड़ीदार रिडंडेंसीय का आव्युह है, और $$\mathbf{x}_{n\times 1}$$ सापेक्ष फीचर भार का प्रतिनिधित्व करता है। क्यूएफपीएस को द्विघात प्रोग्रामिंग के माध्यम से समाधान किया जाता है। वर्तमान में यह दिखाया गया है कि क्यूएफपीएस लघु एन्ट्रापी वाले फीचर्स के प्रति पक्षपाती है, इसकी लिए इसे फीचर सेल्फ रिडंडेंसी टर्म $$I(f_i;f_i)$$ को $H$ के विकर्ण पर रखा गया है।

नियमबद्ध पारस्परिक सूचना
पारस्परिक सूचना के लिए प्राप्त अन्य स्कोर नियमबद्ध प्रासंगिकता पर आधारित है

\mathrm{SPEC_{CMI}}: \max_{\mathbf{x}} \left\{\mathbf{x}^T Q \mathbf{x}\right\} \quad \mbox{s.t.}\ \|\mathbf{x}\|=1, x_i\geq 0 $$ जहाँ $$Q_{ii}=I(f_i;c)$$ और $$Q_{ij}=(I(f_i;c|f_j)+I(f_j;c|f_i))/2, i\ne j$$.

$SPEC_{CMI}$ का लाभ यह है कि इसे केवल $Q$ के प्रमुख आइजनवेक्टर को खोजकर समाधान किया जा सकता है, इस प्रकार यह बहुत स्केलेबल है। $SPEC_{CMI}$ दूसरे क्रम के फीचर इंटरैक्शन को भी संभालता है।

संयुक्त पारस्परिक सूचना
विभिन्न अंकों के अध्ययन में ब्राउन एट अल और अन्य ने संयुक्त पारस्परिक सूचना की अनुशंसा की हैं | यह फीचर सिलेक्शन के लिए अच्छे स्कोर के रूप में होता हैं। स्कोर उस फीचर को खोजने का प्रयास करता है, जो रिडंडेंसीय से बचने के लिए पहले से सिलेक्शन फीचर्स में सबसे नई सूचना को जोड़ता है। यह स्कोर इस प्रकार तैयार किया गया है



\begin{align} JMI(f_i) &= \sum_{f_j \in S} (I(f_i;c) + I(f_i;c|f_j)) \\ &= \sum_{f_j \in S} \bigl[ I (f_j;c) + I (f_i;c) - \bigl(I (f_i;f_j) - I (f_i;f_j|c)\bigr)\bigr] \end{align} $$ स्कोर पहले से सिलेक्शन फीचर्स ($$ f_j \in S $$) और जांच के अनुसार फीचर ($$f_i$$) के मध्य रिडंडेंसीय का अनुमान लगाने के लिए नियमबद्ध पारस्परिक सूचना और पारस्परिक सूचना का उपयोग करता है।

हिल्बर्ट-श्मिट स्वतंत्रता मानदंड लैस्सो आधारित फीचर सिलेक्शन
उच्च-आयामी और लघु प्रतिरूप डेटा के लिए (उदाहरण के लिए, आयामीता > और प्रतिरूपों की संख्या < ) हैं, हिल्बर्ट-श्मिट इंडिपेंडेंस क्राइटेरियन लासो (एचएसआईसी लासो) उपयोगी है। एचएसआईसी लासो अनुकूलन समस्या इस प्रकार दी गई है



\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\sum_{k,l = 1}^n x_k x_l {\mbox{HSIC}}(f_k,f_l) - \sum_{k = 1}^n x_k {\mbox{HSIC}}(f_k,c) + \lambda \|\mathbf{x}\|_1, \quad \mbox{s.t.} \ x_1,\ldots, x_n \geq 0, $$ जहाँ $${\mbox{HSIC}}(f_k,c) =\mbox{tr}(\bar{\mathbf{K}}^{(k)} \bar{\mathbf{L}})$$ कर्नेल-आधारित स्वतंत्रता माप है जिसे (अनुभवजन्य) हिल्बर्ट-श्मिट स्वतंत्रता मानदंड (एचएसआईसी) $$\mbox{tr}(\cdot)$$ कहा जाता है,

ट्रेस (रैखिक बीजगणित) $$\lambda$$ को दर्शाता है, नियमितीकरण $$\bar{\mathbf{K}}^{(k)} = \mathbf{\Gamma} \mathbf{K}^{(k)} \mathbf{\Gamma}$$ पैरामीटर है, और $$\bar{\mathbf{L}} = \mathbf{\Gamma} \mathbf{L} \mathbf{\Gamma}$$ इनपुट और आउटपुट केंद्रित ग्राम आव्युह हैं, यह

$$K^{(k)}_{i,j} = K(u_{k,i},u_{k,j})$$ और $$L_{i,j} = L(c_i,c_j)$$ ग्राम आव्युह होता हैं, यह $$K(u,u')$$ और $$L(c,c')$$ कर्नेल फलन हैं,और $$\mathbf{\Gamma} = \mathbf{I}_m - \frac{1}{m}\mathbf{1}_m \mathbf{1}_m^T$$ केन्द्रित आव्युह $$\mathbf{I}_m                                                                                                                                                                                                                $$ होता है, यह $m$-आयामी पहचान आव्युह ($m$: प्रतिरूपों की संख्या), $$\mathbf{1}_m                                                                                                                                                                                                          $$ है और $m$-सभी के साथ आयामी वेक्टर, और $$\|\cdot\|_{1}$$ $$\ell_1$$-मानदंड है। एचएसआईसी सदैव गैर-ऋणात्मक मान लेता है, और यदि शून्य है और केवल तभी जब दो यादृच्छिक वेरिएबल सांख्यिकीय रूप से स्वतंत्र होते हैं जब गाऊसी कर्नेल जैसे सार्वभौमिक पुनरुत्पादन कर्नेल का उपयोग किया जाता है।

एचएसआईसी लैस्सो को इस प्रकार लिखा जा सकता है



\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\left\|\bar{\mathbf{L}} - \sum_{k = 1}^{n} x_k \bar{\mathbf{K}}^{(k)} \right\|^2_{F} +  \lambda \|\mathbf{x}\|_1, \quad \mbox{s.t.} \ x_1,\ldots,x_n \geq 0, $$ जहाँ$$\|\cdot\|_{F}$$ फ्रोबेनियस मानदंड है इसकी अनुकूलन समस्या लैस्सो समस्या है, और इस प्रकार इसे दोहरी संवर्धित लैग्रेंजियन विधि जैसे अत्याधुनिक लैस्सो सॉल्वर के साथ कुशलतापूर्वक समाधान किया जा सकता है।

सहसंबंध फीचर सिलेक्शन
सहसंबंध फीचर सिलेक्शन (सीएफएस) माप निम्नलिखित परिकल्पना के आधार पर फीचर्स के सबसेट का मूल्यांकन करता है | और अच्छे फीचर सबसेट में वर्गीकरण के साथ अत्यधिक सहसंबद्ध विशेषताएं होती हैं, फिर भी दूसरे से असंबद्ध होती हैं। निम्नलिखित समीकरण k विशेषताओं से युक्त फीचर सबसेट S की योग्यता देता है |


 * $$ \mathrm{Merit}_{S_{k}} = \frac{k\overline{r_{cf}}}{\sqrt{k+k(k-1)\overline{r_{ff}}}}.$$

यहाँ, $$ \overline{r_{cf}} $$ सभी फीचर -वर्गीकरण सहसंबंधों का औसत मान है, और $$ \overline{r_{ff}} $$ सभी फीचर -फीचर सहसंबंधों का औसत मान है। सीएफएस मानदंड को इस प्रकार परिभाषित किया गया है |


 * $$\mathrm{CFS} = \max_{S_k}

\left[\frac{r_{c f_1}+r_{c f_2}+\cdots+r_{c f_k}} {\sqrt{k+2(r_{f_1 f_2}+\cdots+r_{f_i f_j}+ \cdots + r_{f_k f_{k-1} })}}\right].$$

$$r_{cf_{i}}$$और $$r_{f_{i}f_{j}}$$ वेरिएबल को सहसंबंध के रूप में संदर्भित किया जाता है, किन्तु आवश्यक नहीं कि यह पियर्सन सहसंबंध गुणांक या स्पीयरमैन के ρ होते हैं। हॉल का शोध प्रबंध इनमें से किसी का भी उपयोग नहीं करता है,किंतु संबंधितता के तीन भिन्न-भिन्न मापों में हैं, उपायों, न्यूनतम विवरण लंबाई (एमडीएल), सममित अनिश्चितता का उपयोग करता है और यह रिलीफ (फीचर सिलेक्शन ) का भी उपयोग करता है।

माना xi फीचर fi के लिए सेट सदस्यता संकेतक फलन होता हैं तब उपरोक्त को अनुकूलन समस्या के रूप में फिर से लिखा जा सकता है


 * $$\mathrm{CFS} = \max_{x\in \{0,1\}^{n}}

\left[\frac{(\sum^{n}_{i=1}a_{i}x_{i})^{2}} {\sum^{n}_{i=1}x_i + \sum_{i\neq j} 2b_{ij} x_i x_j }\right].$$ उपरोक्त संयोजनात्मक समस्याएं, वास्तव में, मिश्रित 0-1 रैखिक प्रोग्रामिंग समस्याएं हैं | जिन्हें शाखा-और-बाउंड एल्गोरिदम का उपयोग करके समाधान किया जा सकता है।

डिसिजन ट्री
डिसिजन ट्री या ट्री सामूहिक शिक्षा की विशेषताओं को निरर्थक दिखाया गया है। वर्तमान विधि जिसे नियमितीकृत ट्री कहा जाता है फीचर सबसेट सिलेक्शन के लिए उपयोग किया जा सकता है। नियमितीकृत ट्री वर्तमान नोड को विभाजित करने के लिए पूर्व ट्री नोड्स पर सिलेक्शन वेरिएबल के समान वेरिएबल का उपयोग करके दंडित करते हैं। नियमितीकृत ट्री को केवल ट्री मॉडल (या ट्री संयोजन मॉडल) बनाने की आवश्यकता होती है और इस प्रकार वह कम्प्यूटेशनल रूप से कुशल होते हैं।

नियमितीकृत ट्री स्वाभाविक रूप से संख्यात्मक और श्रेणीगत विशेषताओं, अंतःक्रियाओं और गैर-रैखिकताओं को संभालते हैं। वह विशेषता मापदंडो (इकाइयों) के लिए अपरिवर्तनीय हैं और यह आउटलेर्स के प्रति असंवेदनशील हैं, और इस प्रकार, सामान्यीकरण (सांख्यिकी) जैसे कम डेटा प्रीप्रोसेसिंग की आवश्यकता होती है। नियमित यादृच्छिक फॉरेस्ट (आरआरएफ) प्रकार का डिसिजन ट्री है। निर्देशित आरआरएफ उन्नत आरआरएफ होता है जो सामान्य यादृच्छिक फॉरेस्ट से महत्व स्कोर द्वारा निर्देशित होता है।

मेटाहेयुरिस्टिक्स विधियों पर अवलोकन
मेटाह्यूरिस्टिक कठिन (सामान्यतः एनपी-कठोरता एनपी-हार्ड समस्या) अनुकूलन समस्याओं को समाधान करने के लिए समर्पित एल्गोरिदम का सामान्य विवरण है जिसके लिए कोई मौलिक समाधान विधियां नहीं हैं। सामान्यतः, मेटाह्यूरिस्टिक स्टोकेस्टिक एल्गोरिदम है जो वैश्विक अधिकतम तक पहुंचने की प्रवृत्ति रखता है। सरल स्थानीय खोज से लेकर सम्मिश्र वैश्विक खोज एल्गोरिदम तक अनेक मेटाह्यूरिस्टिक्स हैं।

मुख्य सिद्धांत
फीचर सिलेक्शन विधियों को सामान्यतः तीन वर्गों में प्रस्तुत किया जाता है, जो इस पर आधारित होता है कि वह सिलेक्शन एल्गोरिदम और मॉडल बिल्डिंग को कैसे जोड़ते हैं।

फ़िल्टर विधि
फ़िल्टर प्रकार के विधियों मॉडल की चिंता किए बिना वेरिएबल का सिलेक्शन करते हैं। वह केवल पूर्वानुमान करने के लिए वेरिएबल के साथ सहसंबंध जैसी सामान्य विशेषताओं पर आधारित होते हैं। फ़िल्टर विधियाँ कम से कम आकर्षक वेरिएबल को दबा देती हैं। अन्य वेरिएबल वर्गीकरण या डेटा को वर्गीकृत करने या पूर्वानुमान करने के लिए उपयोग किए जाने वाले प्रतिगमन मॉडल का भाग होते हैं। यह विधियां समय की गणना करने में विशेष रूप से प्रभावी होती हैं और ओवरफिटिंग के लिए शक्तिशाली हैं। फ़िल्टर विधियाँ निरर्थक वेरिएबल का सिलेक्शन करती हैं जब वह वेरिएबल के मध्य संबंधों पर विचार नहीं करते हैं। चूँकि, अधिक विस्तृत सुविधाएँ एक-दूसरे से अत्यधिक सहसंबंधित वेरिएबल को हटाकर इस समस्या को कम करने का प्रयास करती हैं, जैसे कि फास्ट सहसंबंध आधारित फ़िल्टर (एफसीबीएफ) एल्गोरिथ्म हैं।

रैपर विधि
रैपर विधियां वेरिएबल्स के सबसेट का मूल्यांकन करती हैं जो फ़िल्टर दृष्टिकोण के विपरीत हैं, यह वेरिएबल्स के मध्य संभावित इंटरैक्शन का अनुमान लगाने की अनुमति देती हैं। इन विधियों की दो मुख्य हानि हैं
 * अवलोकनों की संख्या अपर्याप्त होने पर ओवरफिटिंग का विपत्ति बढ़ जाती है।
 * जब महत्वपूर्ण गणना समय में वेरिएबल की संख्या बड़ी होती हैं।

एम्बेडेड विधि
एंबेडेड विधियों वर्तमान में प्रस्तावित किए गए हैं जो पूर्व दोनों विधियों के लाभों को संयोजित करने का प्रयास करते हैं। शिक्षण एल्गोरिदम अपनी स्वयं की परिवर्तनीय सिलेक्शन प्रक्रिया का लाभ उठाता है और फीचर सिलेक्शन और वर्गीकरण के साथ करता है, जैसे एफआरएमटी एल्गोरिदम हैं।

फीचर सिलेक्शन मेटाह्यूरिस्टिक्स का अनुप्रयोग
यह साहित्य में वर्तमान में उपयोग किए गए फीचर सिलेक्शन मेटाह्यूरिस्टिक्स के अनुप्रयोग का सर्वेक्षण है। इस सर्वेक्षण को जे. हैमन ने अपनी 2013 की थीसिस में वास्तविक किया था।

लर्निंग एल्गोरिदम में अंतर्निहित फीचर सिलेक्शन
कुछ शिक्षण एल्गोरिदम अपने समग्र संचालन के भागों के रूप में फीचर सिलेक्शन करते हैं। इसमे सम्मिलित है:


 * $l_1$-नियमितीकरण तकनीकें, जैसे विरल प्रतिगमन, लैस्सो, और $l_1$-एसवीएम
 * डिसिजन ट्री, जैसे आरआरएफ पैकेज में नियमित यादृच्छिक फॉरेस्ट प्रयुक्त किया गया
 * डिसिजन ट्री
 * मेमेटिक एल्गोरिदम
 * रैंडम मल्टीनोमियल लॉगिट (आरएमएनएल)
 * ऑटोएनकोडर बॉटनेक-लेयर के साथ ऑटो-एनकोडिंग नेटवर्क
 * सबमॉड्यूलर सेट फलन फीचर सिलेक्शन
 * स्थानीय शिक्षण आधारित फीचर सिलेक्शन हैं पारंपरिक विधियों की तुलना में, इसमें कोई अनुमानी खोज सम्मिलित नहीं है, यह सरलता से बहु-वर्ग की समस्याओं को संभाल सकता है, यह रैखिक और गैर-रेखीय दोनों समस्याओं के लिए कार्य करता है। यह शक्तिशाली सैद्धांतिक आधार द्वारा भी समर्थित है। संख्यात्मक प्रयोगों से पता चला है कि यह विधि के समीप-से-अधिकतम समाधान प्राप्त कर सकती है, तथापि डेटा में >1M अप्रासंगिक विशेषताएं होती हैं।
 * फीचर सिलेक्शन के आधार पर अनुशंसा प्रणाली और फीचर सिलेक्शन विधियों को अनुशंसाकर्ता सिस्टम अनुसंधान में प्रस्तुत किया गया है।

यह भी देखें

 * क्लस्टर एनालिसिस
 * डेटा माइनिंग
 * आयामीता में कमी
 * फ़ीचर एक्सट्रेक्शन
 * हाइपरपैरामीटर ऑप्टिमाइजेशन
 * मॉडल सिलेक्शन
 * रिलीफ (फ़ीचर सिलेक्शन)

बाहरी संबंध

 * Feature Selection Package, Arizona State University (Matlab Code)
 * NIPS challenge 2003 (see also NIPS)
 * Naive Bayes implementation with feature selection in Visual Basic (includes executable and source code)
 * Minimum-redundancy-maximum-relevance (mRMR) feature selection program
 * FEAST (Open source Feature Selection algorithms in C and MATLAB)