फीचर चयन

यंत्र अधिगम और सांख्यिकी में, फीचर चयन होता हैं, जिसे वैरिएबल चयन, विशेषता चयन या वैरिएबल उपसमुच्चय चयन के रूप में भी जाना जाता है | यह मॉडल निर्माण में उपयोग के लिए प्रासंगिक फीचर (मशीन लर्निंग) (वेरिएबल, प्रडिक्टर) के उपसमुच्चय का चयन करने की प्रक्रिया है। फीचर चयन तकनीकों का उपयोग अनेक कारणों से किया जाता है |
 * शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना और उसको सरल बनाने के लिए मॉडलों का सरलीकरण,
 * कम समय में प्रशिक्षण,
 * आयामीता के कर्स से बचने के लिए,
 * लर्निंग मॉडल क्लास के साथ डेटा की अनुकूलता में सुधार,
 * इनपुट स्पेस में उपस्थित अंतर्निहित सममित स्थान को एनकोड करें।

फीचर चयन तकनीक का उपयोग करते समय केंद्रीय आधार यह है कि डेटा में कुछ विशेषताएं सम्मिलित हैं जो तब अनावश्यक हैं या अप्रासंगिक हैं, और इस प्रकार सूचना को अधिक हानि के अतिरिक्त उन्हें हटाया जा सकता है। यह निरर्थक और अप्रासंगिक दो भिन्न-भिन्न धारणाएँ होती हैं, क्योंकि प्रासंगिक विशेषता किसी अन्य प्रासंगिक विशेषता की उपस्थिति में निरर्थक हो सकती है जिसके साथ यह दृढ़ता से सहसंबद्ध होता है।

फीचर चयन तकनीकों को फीचर निष्कर्षण से भिन्न किया जाना चाहिए। फीचर निष्कर्षण मूल सुविधाओं के कार्यों से नई सुविधाएँ बनाता है, जबकि फीचर चयन सुविधाओं का उपसमुच्चय लौटाता है। फीचर चयन तकनीकों का उपयोग अधिकांशतः उन डोमेन में किया जाता है जहाँ अनेक सुविधाएँ और तुलनात्मक रूप से प्रतिरुप (या डेटा बिंदु) होते हैं। फीचर चयन के अनुप्रयोग के लिए आदर्श स्तिथियों में स्टाइलोमेट्री और डीएनए माइक्रोएरे डेटा का विश्लेषण सम्मिलित होता है, जहां अनेक हजारों विशेषताएं होती हैं, और इसमें कुछ दसियों से सैकड़ों प्रतिरुप हैं।

परिचय
फीचर चयन एल्गोरिथ्म को नए फीचर उपसमुच्चय के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर उपसमुच्चय को स्कोर करता है।यह सबसे सरल एल्गोरिदम सुविधाओं के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह स्पेस की विस्तृत खोज है, और यह लघु से लघु फीचर समुच्चय को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को अधिक रूप से प्रभावित करता है, और यह मूल्यांकन मेट्रिक्स होता हैं जो फीचर चयन एल्गोरिदम की तीन मुख्य श्रेणियों के मध्य अंतर करते हैं | इसमें रैपर, फिल्टर और एम्बेडेड विधियां होती हैं।
 * रैपर विधियाँ फीचर उपसमुच्चय को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए उपसमुच्चय का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट समुच्चय पर किया जाता है। उस होल्ड-आउट समुच्चय (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस उपसमुच्चय के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक उपसमुच्चय के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर समुच्चय प्रदान करती हैं।
 * फ़िल्टर विधियाँ फीचर उपसमुच्चय को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर समुच्चय की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में आपसी सूचना सम्मिलित होती है, यह बिंदुवार आपसी सूचना हैं, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक, रिलीफ (सुविधा चयन) | रिलीफ-आधारित एल्गोरिदम हैं, और अंतर/अंतर क्लास दूरी या प्रत्येक वर्ग/सुविधा संयोजन के लिए सांख्यिकीय परिकल्पना परीक्षण के स्कोर सम्मिलित हैं। फ़िल्टर सामान्यतः रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, किन्तु वह फीचर समुच्चय का उत्पादन करते हैं जो विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। ट्यूनिंग की इस कमी का अर्थ है कि फ़िल्टर से समुच्चय किया गया फीचर रैपर से समुच्चय की तुलना में अधिक सामान्य है, सामान्यतः रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। चूँकि फीचर समुच्चय में पूर्वानुमान मॉडल की धारणाएँ सम्मिलित नहीं हैं, और इसलिए यह सुविधाओं के मध्य संबंधों को प्रदर्शित करने के लिए अधिक उपयोगी है। अनेक फ़िल्टर स्पष्ट सर्वोत्तम फीचर उपसमुच्चय के अतिरिक्त फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फीचर एलिमिनेशन एल्गोरिदम है, सामान्यतः मॉडल का निरंतर निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए समर्थन सदिश मशीन के साथ उपयोग किया जाता है।
 * एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर चयन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'चयनित' किया जाता है। लैस्सो में सुधारों में बोलासो सम्मिलित है जो प्रतिरूपों को बूटस्ट्रैप करता है | इलास्टिक नेट नियमितीकरण, जो लैस्सो के L1 दंड को रिज रिग्रेशन के L2 दंड के साथ जोड़ता है | और फ़ीआलेक्ट जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। एईएफएस आगे लैस्सो को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। कम्प्यूटेशनल सम्मिश्रता के संदर्भ में यह दृष्टिकोण फिल्टर और रैपर के मध्य होते हैं।

पारंपरिक प्रतिगमन विश्लेषण में, फीचर चयन का सबसे लोकप्रिय रूप वेरिएबल चरणबद्ध प्रतिगमन है, जो रैपर तकनीक होती है। यह ग्रीडी एल्गोरिदम है जो प्रत्येक समय में सबसे अच्छी सुविधा जोड़ता है | और (सबसे व्यर्थ सुविधा को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं।

उपसमुच्चय चयन
उपसमुच्चय चयन उपयुक्तता के लिए समूह के रूप में सुविधाओं के उपसमुच्चय का मूल्यांकन करता है। उपसमुच्चय खोज एल्गोरिथ्म को रैपर, फिल्टर और एम्बेडेड विधियों में विभाजित किया जा सकता है। रैपर्स संभावित सुविधाओं के स्थान के माध्यम से खोज करने के लिए खोज एल्गोरिदम का उपयोग करते हैं और उपसमुच्चय पर मॉडल चलाकर प्रत्येक उपसमुच्चय का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से मूल्यवान हो सकते हैं और मॉडल में अधिक फिट होने पर कठिन परिस्थिति हो सकती है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, किन्तु यह किसी मॉडल के विरुद्ध मूल्यांकन करने के अतिरिक्त, सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें मॉडल में अंतर्निहित और विशिष्ट होती हैं।

अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम हिल क्लिंबिंग का उपयोग करते हैं, जो सुविधाओं के उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सही है। उपसमुच्चय के मूल्यांकन के लिए स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो सुविधाओं के उपसमूह को ग्रेड करती है। व्यापक खोज सामान्यतः अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर होते हैं, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले सुविधाओं के उपसमुच्चय को संतबषजनक सुविधा उपसमुच्चय के रूप में चुना जाता है। इसको रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है |इस प्रकार यह संभावित मानदंडों में सम्मिलित हैं | उपसमुच्चय स्कोर सीमा से अधिक होता है | कार्य का अधिकतम अनुमत रन टाइम सरपास्ड हो गया है |

वैकल्पिक खोज-आधारित तकनीकें लक्षित प्रक्षेपण खोज पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का चयन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं।

खोज दृष्टिकोण में सम्मिलित हैं |

वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार सुविधा (या सुविधाओं के समुच्चय) और वांछित आउटपुट श्रेणी के मध्य की जाती है। चूँकि, यह ऐसे सत्य मेट्रिक्स होते हैं जो पारस्परिक सूचना का सरल कार्य करते हैं तथा आपसी सूचना या मीट्रिक देखें।
 * संपूर्ण
 * सर्वोत्तम-पहली खोज
 * सिम्युलेटेड एनीलिंग
 * जेनेटिक एल्गोरिदम
 * ग्रीडी फॉरवर्ड सिलेक्शन
 * ग्रीडी बैकवर्ड एलिमिनेशन
 * कण झुंड अनुकूलन
 * लक्षित प्रक्षेपण खोज
 * स्कैटर सर्च
 * परिवर्तनीय निकटतम खोज

अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं |


 * वर्ग पृथक्करण
 * त्रुटि संभावना
 * अंतर-वर्ग दूरी
 * संभाव्य दूरी
 * एन्ट्रॉपी (सूचना सिद्धांत)
 * संगति-आधारित सुविधा चयन
 * सहसंबंध-आधारित सुविधा चयन

अधिकतम मानदंड
अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि सुविधा चयन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे चयनित सुविधाओं की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ Cp सम्मिलित हैं | जिनमें प्रत्येक अतिरिक्त सुविधा के लिए 2 का दंड है। यह एआईसी सूचना सिद्धांत पर आधारित है, और प्रभावी रूप से अधिकतम एन्ट्रापी सिद्धांत के माध्यम से प्राप्त होता है।

अन्य मानदंड बायेसियन सूचना मानदंड (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए $$\sqrt{\log{n}}$$ के दंड का उपयोग करता है, न्यूनतम विवरण लंबाई (एमडीएल) जो असम्बद्ध रूप से $$\sqrt{\log{n}}$$ का उपयोग करता है, बोनफेरोनी सुधार / आरआईसी जो $$\sqrt{2\log{p}}$$ का उपयोग करता है, अधिकतम निर्भरता सुविधा चयन, और विभिन्न प्रकार के नए मानदंड जो फाल्स डिस्कवर रेट (एफडीआर) से प्रेरित हैं, जो $$\sqrt{2\log{\frac{p}{q}}}$$ के समीप कुछ का उपयोग करते हैं। सुविधाओं के सबसे प्रासंगिक उपसमूह का चयन करने के लिए अधिकतम एन्ट्रापी दर मानदंड का भी उपयोग किया जा सकता है।

संरचना सीखना
फ़िल्टर सुविधा चयन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे संरचित पूर्वानुमान कहा जाता है। फीचर चयन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर समुच्चय ढूंढता है जबकि संरचना शिक्षण सभी वेरिएबल के मध्य संबंधों को ढूंढता है, सामान्यतः इन सम्बन्धो को ग्राफ के रूप में व्यक्त करता हैं। यह सबसे सामान्य संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा बायेसियन नेटवर्क द्वारा उत्पन्न होता है, और इसलिए संरचना निर्देशित ग्राफ चित्रमय मॉडल है। फ़िल्टर सुविधा चयन समस्या का अधिकतम समाधान लक्ष्य नोड का मार्कोव ब्लंकेट है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए अद्वितीय मार्कोव ब्लंकेट है।

सूचना सिद्धांत आधारित फीचर चयन तंत्र
चारों ओर विभिन्न फीचर चयन तंत्र हैं जो विभिन्न सुविधाओं को स्कोर करने के लिए पारस्परिक सूचना का उपयोग करते हैं। वह सामान्यतः सभी समान एल्गोरिदम का उपयोग करते हैं |


 * 1) सभी सुविधाओं ($$ f_{i} \in F $$) और लक्ष्य वर्ग ($c$) के मध्य स्कोर के रूप में पारस्परिक सूचना की गणना करें
 * 2) सबसे बड़े स्कोर वाली सुविधा का चयन करें (उदाहरण के लिए . $$\underset{f_{i} \in F}\operatorname{argmax}(I(f_{i},c))$$) और इसे चयनित सुविधाओं ($S$) के समुच्चय में जोड़ें
 * 3) उस स्कोर की गणना करें जो पारस्परिक सूचना से प्राप्त किया जा सकता है
 * 4) सबसे बड़े स्कोर वाली सुविधा का चयन करें और इसे चुनिंदा सुविधाओं के समुच्चय में जोड़ें (उदाहरण के लिए) $$\underset{f_{i} \in F}\operatorname{argmax}(I_{derived}(f_{i},c))$$)
 * 5) 3. और 4. को तब तक दोहराएँ जब तक कि निश्चित संख्या में सुविधाओं का चयन न हो जाए (उदाहरण के लिए) $$|S|=l$$)

सबसे सरल दृष्टिकोण आपसी सूचना को व्युत्पन्न स्कोर के रूप में उपयोग करता है।

चूँकि, भिन्न-भिन्न दृष्टिकोण हैं, जो सुविधाओं के मध्य अतिरेक को कम करने का प्रयास करते हैं।

न्यूनतम-अतिरेक-अधिकतम-प्रासंगिकता (एमआरएमआर) सुविधा चयन
पेंग एट अल. सुविधा चयन विधि प्रस्तावित की गई जो सुविधाओं का चयन करने के लिए पारस्परिक सूचना, सहसंबंध, या दूरी/समानता स्कोर का उपयोग कर सकती है। इसका उद्देश्य अन्य चयनित सुविधाओं की उपस्थिति में किसी सुविधा की प्रासंगिकता को उसके अतिरेक द्वारा दंडित करना है। क्लास $c$ के लिए फीचर सम्मुचय $S$ की प्रासंगिकता को व्यक्तिगत फीचर $f_{i}$ और क्लास $c$ के मध्य सभी पारस्परिक सूचना मानों के औसत मान से द्वारा परिभाषित किया गया है |


 * $$ D(S,c) = \frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) $$.

समुच्चय में सभी सुविधाओं का अतिरेक $S$ सुविधा के मध्य सभी पारस्परिक सूचना मानों का औसत मान $f_{i}$ और सुविधा $f_{j}$ है |


 * $$ R(S) = \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})$$

एमआरएमआर मानदंड ऊपर दिए गए दो उपायों का संयोजन है और इसे निम्नानुसार परिभाषित किया गया है:


 * $$\mathrm{mRMR}= \max_{S}

\left[\frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) - \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})\right].$$ मान लीजिए कि $n$ पूर्ण-समुच्चय सुविधाएँ हैं। मान लीजिए $x_{i}$ फीचर $f_{i}$ के लिए समुच्चय सदस्यता संकेतक फलन है, जिससे $x_{i}=1$ उपस्थिति को संकेत करे और $x_{i}=0$ वैश्विक स्तर पर अधिकतम फीचर समुच्चय में फीचर $f_{i}$ की अनुपस्थिति को संकेत करे। मान लीजिए $$c_i=I(f_i;c)$$ और $$a_{ij}=I(f_i;f_j)$$ हैं। फिर उपरोक्त को अनुकूलन समस्या के रूप में लिखा जा सकता है


 * $$\mathrm{mRMR}= \max_{x\in \{0,1\}^{n}}

\left[\frac{\sum^{n}_{i=1}c_{i}x_{i}}{\sum^{n}_{i=1}x_{i}} - \frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}} {(\sum^{n}_{i=1}x_{i})^{2}}\right].$$ एमआरएमआर एल्गोरिदम सैद्धांतिक रूप से अधिकतम-निर्भरता सुविधा चयन एल्गोरिदम का अनुमान होता है जो चयनित सुविधाओं के संयुक्त वितरण और वर्गीकरण वेरिएबल के मध्य पारस्परिक सूचना को अधिकतम करता है। चूंकि एमआरएमआर बहुत लघु समस्याओं की श्रृंखला के साथ संयोजन अनुमान समस्या का अनुमान लगाता है, जिनमें से प्रत्येक में केवल दो वेरिएबल सम्मिलित होते हैं, इस प्रकार यह जोड़ीदार संयुक्त संभावनाओं का उपयोग करता है जो अधिक शक्तिशाली होते हैं। कुछ स्थितियों में एल्गोरिदम सुविधाओं की उपयोगिता को कम समझ सकता है क्योंकि इसमें उन सुविधाओं के मध्य इंटरैक्शन को मापने की कोई विधि नहीं है जो इसकी प्रासंगिकता को बढ़ा सकते हैं। इससे व्यर्थ प्रदर्शन हो सकता है जब विशेषताएँ व्यक्तिगत रूप से व्यर्थ होती हैं, किन्तु संयुक्त होने पर यह उपयोगी होती हैं ( पैथोलॉजिकल स्थिति तब पायी जाती है जब वर्ग सुविधाओं का समता कार्य होता है)। सामान्यतः एल्गोरिथ्म सैद्धांतिक रूप से अधिकतम-निर्भरता चयन की तुलना में अधिक कुशल (आवश्यक डेटा की मात्रा के संदर्भ में) होता है, फिर भी कम जोड़ीदार अतिरेक के साथ फीचर समुच्चय तैयार करता है।

एमआरएमआर फ़िल्टर विधियों के बड़े वर्ग का उदाहरण है जो विभिन्न विधियों से प्रासंगिकता और अतिरेक के मध्य व्यापार करता है।

द्विघात प्रोग्रामिंग सुविधा चयन
एमआरएमआर सुविधा चयन के लिए वृद्धिशील ग्रीडी रणनीति का विशिष्ट उदाहरण है | इसमें सुविधा का चयन हो जाने के पश्चात् होते हैं, इसके पश्चात् चरण में अचयनित नहीं किया जा सकता है। जबकि एमआरएमआर को कुछ सुविधाओं को कम करने के लिए फ्लोटिंग सर्च का उपयोग करके अनुकूलित किया जा सकता है, इसे वैश्विक द्विघात प्रोग्रामिंग अनुकूलन समस्या के रूप में निम्नानुसार पुन: तैयार किया जा सकता है |

\mathrm{QPFS}: \min_\mathbf{x} \left\{ \alpha \mathbf{x}^T H \mathbf{x} -  \mathbf{x}^T F\right\} \quad \mbox{s.t.} \ \sum_{i=1}^n x_i=1, x_i\geq 0 $$ जहां $$F_{n\times1}=[I(f_1;c),\ldots, I(f_n;c)]^T$$ फीचर प्रासंगिकता का सदिश है, यह मानते हुए कि कुल मिलाकर $n$ फीचर हैं, तथा $$H_{n\times n}=[I(f_i;f_j)]_{i,j=1\ldots n}$$ फीचर जोड़ीदार अतिरेक का आव्युह है, और $$\mathbf{x}_{n\times 1}$$ सापेक्ष फीचर भार का प्रतिनिधित्व करता है। क्यूएफपीएस को द्विघात प्रोग्रामिंग के माध्यम से समाधान किया जाता है। वर्तमान में यह दिखाया गया है कि क्यूएफपीएस लघु एन्ट्रापी वाले फीचर्स के प्रति पक्षपाती है, इसकी लिए इसे फीचर सेल्फ रिडंडेंसी टर्म $$I(f_i;f_i)$$ को $H$ के विकर्ण पर रखा गया है।

सशर्त पारस्परिक सूचना
पारस्परिक सूचना के लिए प्राप्त अन्य स्कोर सशर्त प्रासंगिकता पर आधारित है

\mathrm{SPEC_{CMI}}: \max_{\mathbf{x}} \left\{\mathbf{x}^T Q \mathbf{x}\right\} \quad \mbox{s.t.}\ \|\mathbf{x}\|=1, x_i\geq 0 $$ जहाँ $$Q_{ii}=I(f_i;c)$$ और $$Q_{ij}=(I(f_i;c|f_j)+I(f_j;c|f_i))/2, i\ne j$$.

$SPEC_{CMI}$ का लाभ यह है कि इसे केवल $Q$ के प्रमुख आइजनवेक्टर को ढूंढकर समाधान किया जा सकता है, इस प्रकार यह बहुत स्केलेबल है। $SPEC_{CMI}$ दूसरे क्रम के फीचर इंटरैक्शन को भी संभालता है।

संयुक्त पारस्परिक सूचना
विभिन्न अंकों के अध्ययन में ब्राउन एट अल और अन्य ने संयुक्त पारस्परिक सूचना की अनुशंसा की हैं | यह फीचर चयन के लिए अच्छे स्कोर के रूप में होता हैं। स्कोर उस सुविधा को ढूंढने का प्रयास करता है, जो अतिरेक से बचने के लिए पहले से चयनित सुविधाओं में सबसे नई सूचना को जोड़ता है। यह स्कोर इस प्रकार तैयार किया गया है



\begin{align} JMI(f_i) &= \sum_{f_j \in S} (I(f_i;c) + I(f_i;c|f_j)) \\ &= \sum_{f_j \in S} \bigl[ I (f_j;c) + I (f_i;c) - \bigl(I (f_i;f_j) - I (f_i;f_j|c)\bigr)\bigr] \end{align} $$ स्कोर पहले से चयनित सुविधाओं ($$ f_j \in S $$) और जांच के अनुसार सुविधा ($$f_i$$) के मध्य अतिरेक का अनुमान लगाने के लिए सशर्त पारस्परिक सूचना और पारस्परिक सूचना का उपयोग करता है।

हिल्बर्ट-श्मिट स्वतंत्रता मानदंड लैस्सो आधारित सुविधा चयन
उच्च-आयामी और लघु प्रतिरूप डेटा के लिए (उदाहरण के लिए, आयामीता > और प्रतिरूपों की संख्या < ) हैं, हिल्बर्ट-श्मिट इंडिपेंडेंस क्राइटेरियन लासो (एचएसआईसी लासो) उपयोगी है। एचएसआईसी लासो अनुकूलन समस्या इस प्रकार दी गई है



\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\sum_{k,l = 1}^n x_k x_l {\mbox{HSIC}}(f_k,f_l) - \sum_{k = 1}^n x_k {\mbox{HSIC}}(f_k,c) + \lambda \|\mathbf{x}\|_1, \quad \mbox{s.t.} \ x_1,\ldots, x_n \geq 0, $$ जहाँ $${\mbox{HSIC}}(f_k,c) =\mbox{tr}(\bar{\mathbf{K}}^{(k)} \bar{\mathbf{L}})$$ कर्नेल-आधारित स्वतंत्रता माप है जिसे (अनुभवजन्य) हिल्बर्ट-श्मिट स्वतंत्रता मानदंड (एचएसआईसी) $$\mbox{tr}(\cdot)$$ कहा जाता है,

ट्रेस (रैखिक बीजगणित) $$\lambda$$ को दर्शाता है, नियमितीकरण $$\bar{\mathbf{K}}^{(k)} = \mathbf{\Gamma} \mathbf{K}^{(k)} \mathbf{\Gamma}$$ पैरामीटर है, और $$\bar{\mathbf{L}} = \mathbf{\Gamma} \mathbf{L} \mathbf{\Gamma}$$ इनपुट और आउटपुट केंद्रित ग्राम आव्युह हैं, यह

$$K^{(k)}_{i,j} = K(u_{k,i},u_{k,j})$$ और $$L_{i,j} = L(c_i,c_j)$$ ग्राम आव्युह होता हैं, यह $$K(u,u')$$ और $$L(c,c')$$ कर्नेल फलन हैं,और $$\mathbf{\Gamma} = \mathbf{I}_m - \frac{1}{m}\mathbf{1}_m \mathbf{1}_m^T$$ केन्द्रित आव्युह $$\mathbf{I}_m                                                                                                                                                                                                                $$ होता है, यह $m$-आयामी पहचान आव्युह ($m$: प्रतिरूपों की संख्या), $$\mathbf{1}_m                                                                                                                                                                                                          $$ है और $m$-सभी के साथ आयामी सदिश, और $$\|\cdot\|_{1}$$ $$\ell_1$$-मानदंड है। एचएसआईसी सदैव गैर-ऋणात्मक मान लेता है, और यदि शून्य है और केवल तभी जब दो यादृच्छिक वेरिएबल सांख्यिकीय रूप से स्वतंत्र होते हैं जब गाऊसी कर्नेल जैसे सार्वभौमिक पुनरुत्पादन कर्नेल का उपयोग किया जाता है।

एचएसआईसी लैस्सो को इस प्रकार लिखा जा सकता है



\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\left\|\bar{\mathbf{L}} - \sum_{k = 1}^{n} x_k \bar{\mathbf{K}}^{(k)} \right\|^2_{F} +  \lambda \|\mathbf{x}\|_1, \quad \mbox{s.t.} \ x_1,\ldots,x_n \geq 0, $$ जहाँ$$\|\cdot\|_{F}$$ फ्रोबेनियस मानदंड है इसकी अनुकूलन समस्या लैस्सो समस्या है, और इस प्रकार इसे दोहरी संवर्धित लैग्रेंजियन विधि जैसे अत्याधुनिक लैस्सो सॉल्वर के साथ कुशलतापूर्वक समाधान किया जा सकता है।

सहसंबंध सुविधा चयन
सहसंबंध सुविधा चयन (सीएफएस) माप निम्नलिखित परिकल्पना के आधार पर सुविधाओं के उपसमुच्चय का मूल्यांकन करता है | और अच्छे फीचर उपसमुच्चय में वर्गीकरण के साथ अत्यधिक सहसंबद्ध विशेषताएं होती हैं, फिर भी दूसरे से असंबद्ध होती हैं। निम्नलिखित समीकरण k विशेषताओं से युक्त सुविधा उपसमुच्चय S की योग्यता देता है |


 * $$ \mathrm{Merit}_{S_{k}} = \frac{k\overline{r_{cf}}}{\sqrt{k+k(k-1)\overline{r_{ff}}}}.$$

यहाँ, $$ \overline{r_{cf}} $$ सभी फीचर -वर्गीकरण सहसंबंधों का औसत मान है, और $$ \overline{r_{ff}} $$ सभी फीचर -फीचर सहसंबंधों का औसत मान है। सीएफएस मानदंड को इस प्रकार परिभाषित किया गया है |


 * $$\mathrm{CFS} = \max_{S_k}

\left[\frac{r_{c f_1}+r_{c f_2}+\cdots+r_{c f_k}} {\sqrt{k+2(r_{f_1 f_2}+\cdots+r_{f_i f_j}+ \cdots + r_{f_k f_{k-1} })}}\right].$$

$$r_{cf_{i}}$$और $$r_{f_{i}f_{j}}$$ वेरिएबल को सहसंबंध के रूप में संदर्भित किया जाता है, किन्तु आवश्यक नहीं कि यह पियर्सन सहसंबंध गुणांक या स्पीयरमैन के ρ होते हैं। हॉल का शोध प्रबंध इनमें से किसी का भी उपयोग नहीं करता है,किंतु संबंधितता के तीन भिन्न-भिन्न मापों में हैं, उपायों, न्यूनतम विवरण लंबाई (एमडीएल), सममित अनिश्चितता का उपयोग करता है और यह रिलीफ (सुविधा चयन) का भी उपयोग करता है।

चलो xi फीचर fi के लिए समुच्चय सदस्यता संकेतक फलन होता हैं तब उपरोक्त को अनुकूलन समस्या के रूप में फिर से लिखा जा सकता है


 * $$\mathrm{CFS} = \max_{x\in \{0,1\}^{n}}

\left[\frac{(\sum^{n}_{i=1}a_{i}x_{i})^{2}} {\sum^{n}_{i=1}x_i + \sum_{i\neq j} 2b_{ij} x_i x_j }\right].$$ उपरोक्त संयोजनात्मक समस्याएं, वास्तव में, मिश्रित 0-1 रैखिक प्रोग्रामिंग समस्याएं हैं | जिन्हें शाखा-और-बाउंड एल्गोरिदम का उपयोग करके समाधान किया जा सकता है।

डिसिजन ट्री
डिसिजन ट्री या ट्री सामूहिक शिक्षा की विशेषताओं को निरर्थक दिखाया गया है। वर्तमान विधि जिसे नियमितीकृत ट्री कहा जाता है फीचर उपसमुच्चय चयन के लिए उपयोग किया जा सकता है। नियमितीकृत ट्री वर्तमान नोड को विभाजित करने के लिए पूर्व ट्री नोड्स पर चयनित वेरिएबल के समान वेरिएबल का उपयोग करके दंडित करते हैं। नियमितीकृत ट्री को केवल ट्री मॉडल (या ट्री संयोजन मॉडल) बनाने की आवश्यकता होती है और इस प्रकार वह कम्प्यूटेशनल रूप से कुशल होते हैं।

नियमितीकृत ट्री स्वाभाविक रूप से संख्यात्मक और श्रेणीगत विशेषताओं, अंतःक्रियाओं और गैर-रैखिकताओं को संभालते हैं। वह विशेषता मापदंडो (इकाइयों) के लिए अपरिवर्तनीय हैं और यह आउटलेर्स के प्रति असंवेदनशील हैं, और इस प्रकार, सामान्यीकरण (सांख्यिकी) जैसे कम डेटा प्रीप्रोसेसिंग की आवश्यकता होती है। नियमित यादृच्छिक फॉरेस्ट (आरआरएफ) प्रकार का डिसिजन ट्री है। निर्देशित आरआरएफ उन्नत आरआरएफ होता है जो सामान्य यादृच्छिक फॉरेस्ट से महत्व स्कोर द्वारा निर्देशित होता है।

मेटाहेयुरिस्टिक्स विधियों पर अवलोकन
मेटाह्यूरिस्टिक कठिन (सामान्यतः एनपी-कठोरता एनपी-हार्ड समस्या) अनुकूलन समस्याओं को समाधान करने के लिए समर्पित एल्गोरिदम का सामान्य विवरण है जिसके लिए कोई मौलिक समाधान विधियां नहीं हैं। सामान्यतः, मेटाह्यूरिस्टिक स्टोकेस्टिक एल्गोरिदम है जो वैश्विक अधिकतम तक पहुंचने की प्रवृत्ति रखता है। सरल स्थानीय खोज से लेकर सम्मिश्र वैश्विक खोज एल्गोरिदम तक अनेक मेटाह्यूरिस्टिक्स हैं।

मुख्य सिद्धांत
फीचर चयन विधियों को सामान्यतः तीन वर्गों में प्रस्तुत किया जाता है, जो इस पर आधारित होता है कि वह चयन एल्गोरिदम और मॉडल बिल्डिंग को कैसे जोड़ते हैं।

फ़िल्टर विधि
फ़िल्टर प्रकार के विधियों मॉडल की चिंता किए बिना वेरिएबल का चयन करते हैं। वह केवल पूर्वानुमान करने के लिए वेरिएबल के साथ सहसंबंध जैसी सामान्य विशेषताओं पर आधारित होते हैं। फ़िल्टर विधियाँ कम से कम आकर्षक वेरिएबल को दबा देती हैं। अन्य वेरिएबल वर्गीकरण या डेटा को वर्गीकृत करने या पूर्वानुमान करने के लिए उपयोग किए जाने वाले प्रतिगमन मॉडल का भाग होते हैं। यह विधियां समय की गणना करने में विशेष रूप से प्रभावी होती हैं और ओवरफिटिंग के लिए शक्तिशाली हैं। फ़िल्टर विधियाँ निरर्थक वेरिएबल का चयन करती हैं जब वह वेरिएबल के मध्य संबंधों पर विचार नहीं करते हैं। चूँकि, अधिक विस्तृत सुविधाएँ एक-दूसरे से अत्यधिक सहसंबंधित वेरिएबल को हटाकर इस समस्या को कम करने का प्रयास करती हैं, जैसे कि फास्ट सहसंबंध आधारित फ़िल्टर (एफसीबीएफ) एल्गोरिथ्म हैं।

रैपर विधि
रैपर विधियां वेरिएबल्स के उपसमुच्चय का मूल्यांकन करती हैं जो फ़िल्टर दृष्टिकोण के विपरीत हैं, यह वेरिएबल्स के मध्य संभावित इंटरैक्शन का अनुमान लगाने की अनुमति देती हैं। इन विधियों की दो मुख्य हानि हैं
 * अवलोकनों की संख्या अपर्याप्त होने पर ओवरफिटिंग का विपत्ति बढ़ जाती है।
 * जब महत्वपूर्ण गणना समय में वेरिएबलों की संख्या बड़ी होती हैं।

एम्बेडेड विधि
एंबेडेड विधियों वर्तमान में प्रस्तावित किए गए हैं जो पूर्व दोनों विधियों के लाभों को संयोजित करने का प्रयास करते हैं। शिक्षण एल्गोरिदम अपनी स्वयं की परिवर्तनीय चयन प्रक्रिया का लाभ उठाता है और फीचर चयन और वर्गीकरण के साथ करता है, जैसे एफआरएमटी एल्गोरिदम हैं।

फीचर चयन मेटाह्यूरिस्टिक्स का अनुप्रयोग
यह साहित्य में वर्तमान में उपयोग किए गए फीचर चयन मेटाह्यूरिस्टिक्स के अनुप्रयोग का सर्वेक्षण है। इस सर्वेक्षण को जे. हैमन ने अपनी 2013 की थीसिस में साकार किया था।

लर्निंग एल्गोरिदम में अंतर्निहित सुविधा चयन
कुछ शिक्षण एल्गोरिदम अपने समग्र संचालन के भागों के रूप में फीचर चयन करते हैं। इसमे सम्मिलित है:


 * $l_1$-नियमितीकरण तकनीकें, जैसे विरल प्रतिगमन, लैस्सो, और $l_1$-एसवीएम
 * डिसिजन ट्री, जैसे आरआरएफ पैकेज में नियमित यादृच्छिक फॉरेस्ट प्रयुक्त किया गया *
 * डिसिजन ट्री
 * मेमेटिक एल्गोरिदम
 * रैंडम मल्टीनोमियल लॉगिट (आरएमएनएल)
 * ऑटोएनकोडर बॉटनेक-लेयर के साथ ऑटो-एनकोडिंग नेटवर्क
 * सबमॉड्यूलर समुच्चय फलन सुविधा चयन
 * स्थानीय शिक्षण आधारित सुविधा चयन हैं पारंपरिक विधियों की तुलना में, इसमें कोई अनुमानी खोज सम्मिलित नहीं है, यह सरलता से बहु-वर्ग की समस्याओं को संभाल सकता है, यह रैखिक और गैर-रेखीय दोनों समस्याओं के लिए काम करता है। यह शक्तिशाली सैद्धांतिक आधार द्वारा भी समर्थित है। संख्यात्मक प्रयोगों से पता चला है कि यह विधि के समीप-से-अधिकतम समाधान प्राप्त कर सकती है, तथापि डेटा में >1M अप्रासंगिक विशेषताएं होती हैं।
 * फीचर चयन के आधार पर अनुशंसा प्रणाली और फीचर चयन विधियों को अनुशंसाकर्ता सिस्टम अनुसंधान में प्रस्तुत किया गया है।

यह भी देखें

 * क्लस्टर एनालिसिस
 * डेटा माइनिंग
 * आयामीता में कमी
 * फ़ीचर एक्सट्रेक्शन
 * हाइपरपैरामीटर ऑप्टिमाइजेशन
 * मॉडल सिलेक्शन
 * रिलीफ (फ़ीचर सिलेक्शन)

बाहरी संबंध

 * Feature Selection Package, Arizona State University (Matlab Code)
 * NIPS challenge 2003 (see also NIPS)
 * Naive Bayes implementation with feature selection in Visual Basic (includes executable and source code)
 * Minimum-redundancy-maximum-relevance (mRMR) feature selection program
 * FEAST (Open source Feature Selection algorithms in C and MATLAB)