फीचर चयन

यंत्र अधिगम और सांख्यिकी में, फीचर चयन, जिसे वैरिएबल चयन, विशेषता चयन या वैरिएबल सबसेट चयन के रूप में भी जाना जाता है, मॉडल निर्माण में उपयोग के लिए प्रासंगिक  फ़ीचर (मशीन लर्निंग)  (चर, भविष्यवक्ता) के सबसेट का चयन करने की प्रक्रिया है। फ़ीचर चयन तकनीकों का उपयोग कई कारणों से किया जाता है:
 * शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना आसान बनाने के लिए मॉडलों का सरलीकरण,
 * कम प्रशिक्षण समय,
 * आयामीता के अभिशाप से बचने के लिए,
 * लर्निंग मॉडल क्लास के साथ डेटा की अनुकूलता में सुधार,
 * इनपुट स्पेस में मौजूद अंतर्निहित सममित स्थान को एनकोड करें।

फीचर चयन तकनीक का उपयोग करते समय केंद्रीय आधार यह है कि डेटा में कुछ विशेषताएं शामिल हैं जो या तो अनावश्यक या अप्रासंगिक हैं, और इस प्रकार जानकारी के अधिक नुकसान के बिना उन्हें हटाया जा सकता है। निरर्थक और अप्रासंगिक दो अलग-अलग धारणाएँ हैं, क्योंकि एक प्रासंगिक विशेषता किसी अन्य प्रासंगिक विशेषता की उपस्थिति में निरर्थक हो सकती है जिसके साथ यह दृढ़ता से सहसंबद्ध है।

फ़ीचर चयन तकनीकों को फ़ीचर निष्कर्षण से अलग किया जाना चाहिए। फ़ीचर निष्कर्षण मूल सुविधाओं के कार्यों से नई सुविधाएँ बनाता है, जबकि फ़ीचर चयन सुविधाओं का एक सबसेट लौटाता है। फ़ीचर चयन तकनीकों का उपयोग अक्सर उन डोमेन में किया जाता है जहाँ कई सुविधाएँ और तुलनात्मक रूप से कुछ नमूने (या डेटा बिंदु) होते हैं। फीचर चयन के अनुप्रयोग के लिए आदर्श मामलों में स्टाइलोमेट्री और डीएनए माइक्रोएरे डेटा का विश्लेषण शामिल है, जहां कई हजारों विशेषताएं हैं, और कुछ दसियों से सैकड़ों नमूने हैं।

परिचय
एक फीचर चयन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए एक खोज तकनीक के संयोजन के रूप में देखा जा सकता है, साथ ही एक मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता है। सबसे सरल एल्गोरिदम सुविधाओं के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह अंतरिक्ष की एक विस्तृत खोज है, और छोटे से छोटे फीचर सेट को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को भारी रूप से प्रभावित करता है, और ये मूल्यांकन मेट्रिक्स हैं जो फीचर चयन एल्गोरिदम की तीन मुख्य श्रेणियों के बीच अंतर करते हैं: रैपर, फिल्टर और एम्बेडेड तरीके।
 * रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए एक पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए उपसमुच्चय का उपयोग एक मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई गलतियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए एक नए मॉडल को प्रशिक्षित करती हैं, वे कम्प्यूटेशनल रूप से बहुत गहन होती हैं, लेकिन आमतौर पर उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं।
 * फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के बजाय प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तेज़ होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में आपसी जानकारी शामिल है, बिंदुवार आपसी जानकारी, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक, राहत (सुविधा चयन) | राहत-आधारित एल्गोरिदम, और अंतर/अंतर कक्षा दूरी या प्रत्येक वर्ग/सुविधा संयोजन के लिए सांख्यिकीय परिकल्पना परीक्षण के स्कोर। फ़िल्टर आमतौर पर रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, लेकिन वे एक फीचर सेट का उत्पादन करते हैं जो एक विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। ट्यूनिंग की इस कमी का मतलब है कि फ़िल्टर से सेट किया गया फीचर रैपर से सेट की तुलना में अधिक सामान्य है, आमतौर पर रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। हालाँकि फीचर सेट में भविष्यवाणी मॉडल की धारणाएँ शामिल नहीं हैं, और इसलिए यह सुविधाओं के बीच संबंधों को उजागर करने के लिए अधिक उपयोगी है। कई फ़िल्टर एक स्पष्ट सर्वोत्तम फीचर उपसमुच्चय के बजाय एक फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। एक अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फ़ीचर एलिमिनेशन एल्गोरिदम है, आमतौर पर एक मॉडल का बार-बार निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए समर्थन वेक्टर मशीन  के साथ उपयोग किया जाता है।
 * एंबेडेड विधियां तकनीकों का एक समूह है जो मॉडल निर्माण प्रक्रिया के हिस्से के रूप में फीचर चयन करती है। इस दृष्टिकोण का उदाहरण एक रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि है, जो प्रतिगमन गुणांक को एल 1 दंड के साथ दंडित करता है, उनमें से कई को शून्य तक सिकोड़ देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे LASSO एल्गोरिथ्म द्वारा 'चयनित' किया जाता है। LASSO में सुधारों में बोलासो शामिल है जो नमूनों को बूटस्ट्रैप करता है; इलास्टिक नेट नियमितीकरण, जो LASSO के L1 दंड को रिज प्रतिगमन  के L2 दंड के साथ जोड़ता है; और FeaLect जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। AEFS आगे LASSO को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। कम्प्यूटेशनल जटिलता के संदर्भ में ये दृष्टिकोण फिल्टर और रैपर के बीच होते हैं।

पारंपरिक प्रतिगमन विश्लेषण में, फीचर चयन का सबसे लोकप्रिय रूप चरणबद्ध प्रतिगमन है, जो एक रैपर तकनीक है। यह एक लालची एल्गोरिदम है जो प्रत्येक दौर में सबसे अच्छी सुविधा जोड़ता है (या सबसे खराब सुविधा हटा देता है)। मुख्य नियंत्रण मुद्दा यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह आम तौर पर क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे घोंसला बनाने की अंतर्निहित समस्या उत्पन्न होती है। अधिक मजबूत तरीकों का पता लगाया गया है, जैसे शाखा और बाउंड और टुकड़े-टुकड़े रैखिक नेटवर्क।

सबसेट चयन
सबसेट चयन उपयुक्तता के लिए एक समूह के रूप में सुविधाओं के सबसेट का मूल्यांकन करता है। सबसेट खोज एल्गोरिथ्म को रैपर, फिल्टर और एम्बेडेड तरीकों में विभाजित किया जा सकता है। रैपर्स संभावित सुविधाओं के स्थान के माध्यम से खोज करने के लिए एक खोज एल्गोरिदम का उपयोग करते हैं और सबसेट पर एक मॉडल चलाकर प्रत्येक सबसेट का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से महंगे हो सकते हैं और मॉडल में अधिक फिट होने का जोखिम हो सकता है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, लेकिन किसी मॉडल के विरुद्ध मूल्यांकन करने के बजाय, एक सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें एक मॉडल में अंतर्निहित और विशिष्ट होती हैं।

कई लोकप्रिय खोज दृष्टिकोण लालची एल्गोरिदम पहाड़ी की चढ़ाई का उपयोग करते हैं, जो सुविधाओं के एक उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सुधार है। उपसमुच्चय के मूल्यांकन के लिए एक स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो सुविधाओं के उपसमूह को ग्रेड करती है। व्यापक खोज आम तौर पर अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले सुविधाओं के सबसेट को संतोषजनक सुविधा सबसेट के रूप में चुना जाता है। रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है; संभावित मानदंडों में शामिल हैं: एक सबसेट स्कोर एक सीमा से अधिक है, एक प्रोग्राम का अधिकतम अनुमत रन समय पार हो गया है, आदि।

वैकल्पिक खोज-आधारित तकनीकें लक्षित प्रक्षेपण खोज पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं: फिर उन विशेषताओं का चयन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं।

खोज दृष्टिकोण में शामिल हैं:

वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक जानकारी हैं, हालांकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वे त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार सुविधा (या सुविधाओं के सेट) और वांछित आउटपुट श्रेणी के बीच की जाती है। हालाँकि, ऐसे सच्चे मेट्रिक्स हैं जो पारस्परिक जानकारी का एक सरल कार्य हैं; आपसी जानकारी देखें#मीट्रिक।
 * संपूर्ण
 * सर्वोत्तम-पहली खोज
 * तैयार किए हुयी धातु पे पानी चढाने की कला
 * जेनेटिक एल्गोरिद्म
 * लालची एल्गोरिथ्म आगे चयन
 * लालची पिछड़े उन्मूलन
 * कण झुंड अनुकूलन
 * लक्षित प्रक्षेपण खोज
 * तितर बितर खोज
 * परिवर्तनीय पड़ोस खोज

अन्य उपलब्ध फ़िल्टर मेट्रिक्स में शामिल हैं:


 * वर्ग पृथक्करण
 * त्रुटि संभावना
 * अंतर-वर्ग दूरी
 * संभाव्य दूरी
 * एन्ट्रॉपी (सूचना सिद्धांत)
 * संगति-आधारित सुविधा चयन
 * सहसंबंध-आधारित सुविधा चयन

इष्टतमता मानदंड
इष्टतमता मानदंड का चुनाव कठिन है क्योंकि सुविधा चयन कार्य में कई उद्देश्य होते हैं। कई सामान्य मानदंडों में सटीकता का एक माप शामिल होता है, जिसे चयनित सुविधाओं की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ सीपी|मैलोज़ सी शामिल हैंp, जिसमें प्रत्येक अतिरिक्त सुविधा के लिए 2 का जुर्माना है। एआईसी सूचना सिद्धांत पर आधारित है, और प्रभावी रूप से अधिकतम एन्ट्रापी सिद्धांत के माध्यम से प्राप्त होता है। अन्य मानदंड बायेसियन सूचना मानदंड (बीआईसी) हैं, जो दंड का उपयोग करता है $$\sqrt{\log{n}}$$ प्रत्येक जोड़ी गई सुविधा के लिए, न्यूनतम विवरण लंबाई (एमडीएल) जो असम्बद्ध रूप से उपयोग करती है $$\sqrt{\log{n}}$$, बोनफेरोनी सुधार / आरआईसी जो उपयोग करता है $$\sqrt{2\log{p}}$$, अधिकतम निर्भरता सुविधा चयन, और विभिन्न प्रकार के नए मानदंड जो झूठी खोज दर (एफडीआर) से प्रेरित होते हैं, जो करीब कुछ का उपयोग करते हैं $$\sqrt{2\log{\frac{p}{q}}}$$. सुविधाओं के सबसे प्रासंगिक उपसमूह का चयन करने के लिए अधिकतम एन्ट्रापी दर मानदंड का भी उपयोग किया जा सकता है।

संरचना सीखना
फ़िल्टर सुविधा चयन एक अधिक सामान्य प्रतिमान का एक विशिष्ट मामला है जिसे संरचित भविष्यवाणी कहा जाता है। फ़ीचर चयन एक विशिष्ट लक्ष्य चर के लिए प्रासंगिक फ़ीचर सेट ढूंढता है जबकि संरचना शिक्षण सभी चर के बीच संबंधों को ढूंढता है, आमतौर पर इन रिश्तों को एक ग्राफ के रूप में व्यक्त करके। सबसे आम संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा बायेसियन नेटवर्क द्वारा उत्पन्न होता है, और इसलिए संरचना एक निर्देशित ग्राफ चित्रमय मॉडल  है। फ़िल्टर सुविधा चयन समस्या का इष्टतम समाधान लक्ष्य नोड का मार्कोव कंबल है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए एक अद्वितीय मार्कोव कंबल है।

सूचना सिद्धांत आधारित फ़ीचर चयन तंत्र
चारों ओर विभिन्न फ़ीचर चयन तंत्र हैं जो विभिन्न सुविधाओं को स्कोर करने के लिए पारस्परिक जानकारी का उपयोग करते हैं। वे आम तौर पर सभी समान एल्गोरिदम का उपयोग करते हैं:


 * 1) सभी सुविधाओं के बीच स्कोर के रूप में पारस्परिक जानकारी की गणना करें ($$ f_{i} \in F $$) और लक्ष्य वर्ग ($c$)
 * 2) सबसे बड़े स्कोर वाली सुविधा का चयन करें (उदा. $$\underset{f_{i} \in F}\operatorname{argmax}(I(f_{i},c))$$) और इसे चयनित सुविधाओं के सेट में जोड़ें ($S$)
 * 3) उस स्कोर की गणना करें जो पारस्परिक जानकारी से प्राप्त किया जा सकता है
 * 4) सबसे बड़े स्कोर वाली सुविधा का चयन करें और इसे चुनिंदा सुविधाओं के सेट में जोड़ें (उदाहरण के लिए) $$\underset{f_{i} \in F}\operatorname{argmax}(I_{derived}(f_{i},c))$$)
 * 5) 3. और 4. को तब तक दोहराएँ जब तक कि एक निश्चित संख्या में सुविधाओं का चयन न हो जाए (उदाहरण के लिए) $$|S|=l$$)

सबसे सरल दृष्टिकोण आपसी जानकारी को व्युत्पन्न स्कोर के रूप में उपयोग करता है। हालाँकि, अलग-अलग दृष्टिकोण हैं, जो सुविधाओं के बीच अतिरेक को कम करने का प्रयास करते हैं।

न्यूनतम-अतिरेक-अधिकतम-प्रासंगिकता (एमआरएमआर) सुविधा चयन
पेंग एट अल. एक सुविधा चयन विधि प्रस्तावित की गई जो सुविधाओं का चयन करने के लिए पारस्परिक जानकारी, सहसंबंध, या दूरी/समानता स्कोर का उपयोग कर सकती है। इसका उद्देश्य अन्य चयनित सुविधाओं की उपस्थिति में किसी सुविधा की प्रासंगिकता को उसके अतिरेक द्वारा दंडित करना है। फीचर सेट की प्रासंगिकता $S$ कक्षा के लिए $c$ को व्यक्तिगत सुविधा के बीच सभी पारस्परिक सूचना मूल्यों के औसत मूल्य से परिभाषित किया गया है $f_{i}$ और कक्षा $c$ निम्नलिखित नुसार:


 * $$ D(S,c) = \frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) $$.

सेट में सभी सुविधाओं का अतिरेक $S$ सुविधा के बीच सभी पारस्परिक सूचना मूल्यों का औसत मूल्य है $f_{i}$ और सुविधा $f_{j}$:


 * $$ R(S) = \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})$$

एमआरएमआर मानदंड ऊपर दिए गए दो उपायों का एक संयोजन है और इसे निम्नानुसार परिभाषित किया गया है:


 * $$\mathrm{mRMR}= \max_{S}

\left[\frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) - \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})\right].$$ मान लीजिए कि वहाँ हैं $n$ पूर्ण-सेट सुविधाएँ। होने देना $x_{i}$ फीचर के लिए सेट सदस्यता संकेतक फ़ंक्शन बनें $f_{i}$, ताकि $x_{i}=1$ उपस्थिति को इंगित करता है और $x_{i}=0$ सुविधा की अनुपस्थिति को दर्शाता है $f_{i}$ विश्व स्तर पर इष्टतम सुविधा सेट में। होने देना $$c_i=I(f_i;c)$$ और $$a_{ij}=I(f_i;f_j)$$. फिर उपरोक्त को एक अनुकूलन समस्या के रूप में लिखा जा सकता है:


 * $$\mathrm{mRMR}= \max_{x\in \{0,1\}^{n}}

\left[\frac{\sum^{n}_{i=1}c_{i}x_{i}}{\sum^{n}_{i=1}x_{i}} - \frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}} {(\sum^{n}_{i=1}x_{i})^{2}}\right].$$ एमआरएमआर एल्गोरिदम सैद्धांतिक रूप से इष्टतम अधिकतम-निर्भरता सुविधा चयन एल्गोरिदम का एक अनुमान है जो चयनित सुविधाओं के संयुक्त वितरण और वर्गीकरण चर के बीच पारस्परिक जानकारी को अधिकतम करता है। चूंकि एमआरएमआर बहुत छोटी समस्याओं की एक श्रृंखला के साथ संयोजन अनुमान समस्या का अनुमान लगाता है, जिनमें से प्रत्येक में केवल दो चर शामिल होते हैं, इस प्रकार यह जोड़ीदार संयुक्त संभावनाओं का उपयोग करता है जो अधिक मजबूत होते हैं। कुछ स्थितियों में एल्गोरिदम सुविधाओं की उपयोगिता को कम आंक सकता है क्योंकि इसमें उन सुविधाओं के बीच इंटरैक्शन को मापने का कोई तरीका नहीं है जो प्रासंगिकता बढ़ा सकते हैं। इससे खराब प्रदर्शन हो सकता है जब विशेषताएँ व्यक्तिगत रूप से बेकार होती हैं, लेकिन संयुक्त होने पर उपयोगी होती हैं (एक पैथोलॉजिकल मामला तब पाया जाता है जब वर्ग सुविधाओं का समता कार्य होता है)। कुल मिलाकर एल्गोरिथ्म सैद्धांतिक रूप से इष्टतम अधिकतम-निर्भरता चयन की तुलना में अधिक कुशल (आवश्यक डेटा की मात्रा के संदर्भ में) है, फिर भी कम जोड़ीदार अतिरेक के साथ एक फीचर सेट तैयार करता है।

एमआरएमआर फ़िल्टर विधियों के एक बड़े वर्ग का एक उदाहरण है जो विभिन्न तरीकों से प्रासंगिकता और अतिरेक के बीच व्यापार करता है।

द्विघात प्रोग्रामिंग सुविधा चयन
एमआरएमआर सुविधा चयन के लिए वृद्धिशील लालची रणनीति का एक विशिष्ट उदाहरण है: एक बार एक सुविधा का चयन हो जाने के बाद, इसे बाद के चरण में अचयनित नहीं किया जा सकता है। जबकि एमआरएमआर को कुछ सुविधाओं को कम करने के लिए फ्लोटिंग सर्च का उपयोग करके अनुकूलित किया जा सकता है, इसे वैश्विक द्विघात प्रोग्रामिंग अनुकूलन समस्या के रूप में निम्नानुसार पुन: तैयार किया जा सकता है:

\mathrm{QPFS}: \min_\mathbf{x} \left\{ \alpha \mathbf{x}^T H \mathbf{x} -  \mathbf{x}^T F\right\} \quad \mbox{s.t.} \ \sum_{i=1}^n x_i=1, x_i\geq 0 $$ कहाँ $$F_{n\times1}=[I(f_1;c),\ldots, I(f_n;c)]^T$$ यह मानते हुए कि फीचर प्रासंगिकता का वेक्टर है $n$ कुल सुविधाएँ, $$H_{n\times n}=[I(f_i;f_j)]_{i,j=1\ldots n}$$ फीचर जोड़ीवार अतिरेक का मैट्रिक्स है, और $$\mathbf{x}_{n\times 1}$$ सापेक्ष सुविधा भार का प्रतिनिधित्व करता है। QPFS को द्विघात प्रोग्रामिंग के माध्यम से हल किया जाता है। हाल ही में यह दिखाया गया है कि QFPS छोटी एन्ट्रापी वाली सुविधाओं के प्रति पक्षपाती है, फ़ीचर सेल्फ रिडंडेंसी शब्द की नियुक्ति के कारण $$I(f_i;f_i)$$ के विकर्ण पर $H$.

सशर्त पारस्परिक जानकारी
पारस्परिक जानकारी के लिए प्राप्त एक अन्य स्कोर सशर्त प्रासंगिकता पर आधारित है:

\mathrm{SPEC_{CMI}}: \max_{\mathbf{x}} \left\{\mathbf{x}^T Q \mathbf{x}\right\} \quad \mbox{s.t.}\ \|\mathbf{x}\|=1, x_i\geq 0 $$ कहाँ $$Q_{ii}=I(f_i;c)$$ और $$Q_{ij}=(I(f_i;c|f_j)+I(f_j;c|f_i))/2, i\ne j$$.

का एक फायदा $SPEC_{CMI}$ यह है कि इसे केवल प्रमुख आइजनवेक्टर ढूंढकर हल किया जा सकता है $Q$, इस प्रकार बहुत स्केलेबल है। $SPEC_{CMI}$ दूसरे क्रम के फीचर इंटरैक्शन को भी संभालता है।

संयुक्त पारस्परिक जानकारी
विभिन्न अंकों के अध्ययन में ब्राउन एट अल। संयुक्त पारस्परिक जानकारी की अनुशंसा की फीचर चयन के लिए एक अच्छे स्कोर के रूप में। स्कोर उस सुविधा को ढूंढने का प्रयास करता है, जो अतिरेक से बचने के लिए पहले से चयनित सुविधाओं में सबसे नई जानकारी जोड़ता है। स्कोर इस प्रकार तैयार किया गया है:



\begin{align} JMI(f_i) &= \sum_{f_j \in S} (I(f_i;c) + I(f_i;c|f_j)) \\ &= \sum_{f_j \in S} \bigl[ I (f_j;c) + I (f_i;c) - \bigl(I (f_i;f_j) - I (f_i;f_j|c)\bigr)\bigr] \end{align} $$ स्कोर पहले से चयनित सुविधाओं के बीच अतिरेक का अनुमान लगाने के लिए सशर्त पारस्परिक जानकारी और पारस्परिक जानकारी का उपयोग करता है ($$ f_j \in S $$) और जांच के तहत सुविधा ($$f_i$$).

हिल्बर्ट-श्मिट स्वतंत्रता मानदंड लैस्सो आधारित सुविधा चयन
उच्च-आयामी और छोटे नमूना डेटा के लिए (उदाहरण के लिए, आयामीता > और नमूनों की संख्या < ), हिल्बर्ट-श्मिट इंडिपेंडेंस क्राइटेरियन लासो (एचएसआईसी लासो) उपयोगी है। एचएसआईसी लासो अनुकूलन समस्या इस प्रकार दी गई है



\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\sum_{k,l = 1}^n x_k x_l {\mbox{HSIC}}(f_k,f_l) - \sum_{k = 1}^n x_k {\mbox{HSIC}}(f_k,c) + \lambda \|\mathbf{x}\|_1, \quad \mbox{s.t.} \ x_1,\ldots, x_n \geq 0, $$ कहाँ $${\mbox{HSIC}}(f_k,c) =\mbox{tr}(\bar{\mathbf{K}}^{(k)} \bar{\mathbf{L}})$$ एक कर्नेल-आधारित स्वतंत्रता माप है जिसे (अनुभवजन्य) हिल्बर्ट-श्मिट स्वतंत्रता मानदंड (एचएसआईसी) कहा जाता है, $$\mbox{tr}(\cdot)$$ ट्रेस (रैखिक बीजगणित) को दर्शाता है, $$\lambda$$ नियमितीकरण पैरामीटर है, $$\bar{\mathbf{K}}^{(k)} = \mathbf{\Gamma} \mathbf{K}^{(k)} \mathbf{\Gamma}$$ और $$\bar{\mathbf{L}} = \mathbf{\Gamma} \mathbf{L} \mathbf{\Gamma}$$ इनपुट और आउटपुट केंद्रित ग्राम मैट्रिक्स हैं, $$K^{(k)}_{i,j} = K(u_{k,i},u_{k,j})$$ और $$L_{i,j} = L(c_i,c_j)$$ ग्राम मैट्रिक्स हैं, $$K(u,u')$$ और $$L(c,c')$$ कर्नेल फ़ंक्शन हैं, $$\mathbf{\Gamma} = \mathbf{I}_m - \frac{1}{m}\mathbf{1}_m \mathbf{1}_m^T$$ केन्द्रित मैट्रिक्स है, $$\mathbf{I}_m$$ है $m$-आयामी पहचान मैट्रिक्स ($m$: नमूनों की संख्या), $$\mathbf{1}_m$$ है $m$-सभी के साथ आयामी वेक्टर, और  $$\|\cdot\|_{1}$$ है $$\ell_1$$-मानदंड। एचएसआईसी हमेशा एक गैर-नकारात्मक मान लेता है, और शून्य है यदि और केवल तभी जब दो यादृच्छिक चर सांख्यिकीय रूप से स्वतंत्र होते हैं जब गाऊसी कर्नेल जैसे सार्वभौमिक पुनरुत्पादन कर्नेल का उपयोग किया जाता है।

HSIC Lasso को इस प्रकार लिखा जा सकता है



\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\left\|\bar{\mathbf{L}} - \sum_{k = 1}^{n} x_k \bar{\mathbf{K}}^{(k)} \right\|^2_{F} +  \lambda \|\mathbf{x}\|_1, \quad \mbox{s.t.} \ x_1,\ldots,x_n \geq 0, $$ कहाँ $$\|\cdot\|_{F}$$ फ्रोबेनियस मानदंड है. अनुकूलन समस्या एक लैस्सो समस्या है, और इस प्रकार इसे दोहरी संवर्धित लैग्रेंजियन विधि जैसे अत्याधुनिक लैस्सो सॉल्वर के साथ कुशलतापूर्वक हल किया जा सकता है।

सहसंबंध सुविधा चयन
सहसंबंध सुविधा चयन (सीएफएस) माप निम्नलिखित परिकल्पना के आधार पर सुविधाओं के सबसेट का मूल्यांकन करता है: अच्छे फीचर सबसेट में वर्गीकरण के साथ अत्यधिक सहसंबद्ध विशेषताएं होती हैं, फिर भी एक दूसरे से असंबद्ध होती हैं। निम्नलिखित समीकरण k विशेषताओं से युक्त एक सुविधा उपसमुच्चय S की योग्यता देता है:


 * $$ \mathrm{Merit}_{S_{k}} = \frac{k\overline{r_{cf}}}{\sqrt{k+k(k-1)\overline{r_{ff}}}}.$$

यहाँ, $$ \overline{r_{cf}} $$ सभी फ़ीचर-वर्गीकरण सहसंबंधों का औसत मूल्य है, और $$ \overline{r_{ff}} $$ सभी फ़ीचर-फ़ीचर सहसंबंधों का औसत मूल्य है। सीएफएस मानदंड को इस प्रकार परिभाषित किया गया है:


 * $$\mathrm{CFS} = \max_{S_k}

\left[\frac{r_{c f_1}+r_{c f_2}+\cdots+r_{c f_k}} {\sqrt{k+2(r_{f_1 f_2}+\cdots+r_{f_i f_j}+ \cdots + r_{f_k f_{k-1} })}}\right].$$

$$r_{cf_{i}}$$ एच> और $$r_{f_{i}f_{j}}$$ चर को सहसंबंध के रूप में संदर्भित किया जाता है, लेकिन जरूरी नहीं कि ये पियर्सन उत्पाद-क्षण सहसंबंध गुणांक हों|पियर्सन का सहसंबंध गुणांक या स्पीयरमैन का रैंक सहसंबंध गुणांक|स्पीयरमैन का ρ। हॉल का शोध प्रबंध इनमें से किसी का भी उपयोग नहीं करता है, बल्कि संबंधितता के तीन अलग-अलग मापों, न्यूनतम विवरण लंबाई (एमडीएल), पारस्परिक जानकारी # सामान्यीकृत वेरिएंट और राहत (सुविधा चयन) का उपयोग करता है।

चलो एक्सiफीचर एफ के लिए सेट सदस्यता संकेतक फ़ंक्शन बनेंi; तो उपरोक्त को अनुकूलन समस्या के रूप में फिर से लिखा जा सकता है:


 * $$\mathrm{CFS} = \max_{x\in \{0,1\}^{n}}

\left[\frac{(\sum^{n}_{i=1}a_{i}x_{i})^{2}} {\sum^{n}_{i=1}x_i + \sum_{i\neq j} 2b_{ij} x_i x_j }\right].$$ उपरोक्त संयोजनात्मक समस्याएं, वास्तव में, मिश्रित 0-1 रैखिक प्रोग्रामिंग समस्याएं हैं जिन्हें शाखा-और-बाउंड एल्गोरिदम का उपयोग करके हल किया जा सकता है।

नियमित पेड़
निर्णय वृक्ष या ट्री सामूहिक शिक्षा की विशेषताओं को निरर्थक दिखाया गया है। एक हालिया विधि जिसे नियमितीकृत वृक्ष कहा जाता है फीचर सबसेट चयन के लिए उपयोग किया जा सकता है। नियमितीकृत पेड़ वर्तमान नोड को विभाजित करने के लिए पिछले पेड़ नोड्स पर चयनित चर के समान एक चर का उपयोग करके दंडित करते हैं। नियमितीकृत पेड़ों को केवल एक पेड़ मॉडल (या एक पेड़ संयोजन मॉडल) बनाने की आवश्यकता होती है और इस प्रकार वे कम्प्यूटेशनल रूप से कुशल होते हैं।

नियमितीकृत पेड़ स्वाभाविक रूप से संख्यात्मक और श्रेणीगत विशेषताओं, अंतःक्रियाओं और गैर-रैखिकताओं को संभालते हैं। वे विशेषता पैमानों (इकाइयों) के लिए अपरिवर्तनीय हैं और आउटलेर्स के प्रति असंवेदनशील हैं, और इस प्रकार, सामान्यीकरण (सांख्यिकी) जैसे कम डेटा प्रीप्रोसेसिंग की आवश्यकता होती है। नियमित यादृच्छिक वन (आरआरएफ) एक प्रकार का नियमित वृक्ष है। निर्देशित आरआरएफ एक उन्नत आरआरएफ है जो एक सामान्य यादृच्छिक वन से महत्व स्कोर द्वारा निर्देशित होता है।

मेटाहेयुरिस्टिक्स विधियों पर अवलोकन
मेटाह्यूरिस्टिक कठिन (आमतौर पर एनपी-कठोरता | एनपी-हार्ड समस्या) अनुकूलन समस्याओं को हल करने के लिए समर्पित एल्गोरिदम का एक सामान्य विवरण है जिसके लिए कोई शास्त्रीय समाधान विधियां नहीं हैं। आम तौर पर, मेटाह्यूरिस्टिक एक स्टोकेस्टिक एल्गोरिदम है जो वैश्विक इष्टतम तक पहुंचने की प्रवृत्ति रखता है। सरल स्थानीय खोज से लेकर जटिल वैश्विक खोज एल्गोरिदम तक कई मेटाह्यूरिस्टिक्स हैं।

मुख्य सिद्धांत
फ़ीचर चयन विधियों को आम तौर पर तीन वर्गों में प्रस्तुत किया जाता है, जो इस पर आधारित होता है कि वे चयन एल्गोरिदम और मॉडल बिल्डिंग को कैसे जोड़ते हैं।

फ़िल्टर विधि
फ़िल्टर प्रकार के तरीके मॉडल की परवाह किए बिना चर का चयन करते हैं। वे केवल भविष्यवाणी करने के लिए चर के साथ सहसंबंध जैसी सामान्य विशेषताओं पर आधारित होते हैं। फ़िल्टर विधियाँ कम से कम दिलचस्प चर को दबा देती हैं। अन्य चर वर्गीकरण या डेटा को वर्गीकृत करने या भविष्यवाणी करने के लिए उपयोग किए जाने वाले प्रतिगमन मॉडल का हिस्सा होंगे। ये विधियां समय की गणना करने में विशेष रूप से प्रभावी हैं और ओवरफिटिंग के लिए मजबूत हैं। फ़िल्टर विधियाँ निरर्थक चर का चयन करती हैं जब वे चर के बीच संबंधों पर विचार नहीं करते हैं। हालाँकि, अधिक विस्तृत सुविधाएँ एक-दूसरे से अत्यधिक सहसंबंधित चर को हटाकर इस समस्या को कम करने का प्रयास करती हैं, जैसे कि फास्ट सहसंबंध आधारित फ़िल्टर (एफसीबीएफ) एल्गोरिथ्म।

रैपर विधि
रैपर विधियां वेरिएबल्स के सबसेट का मूल्यांकन करती हैं जो फ़िल्टर दृष्टिकोण के विपरीत, वेरिएबल्स के बीच संभावित इंटरैक्शन का पता लगाने की अनुमति देती हैं। इन विधियों के दो मुख्य नुकसान हैं:
 * अवलोकनों की संख्या अपर्याप्त होने पर ओवरफिटिंग का खतरा बढ़ जाता है।
 * महत्वपूर्ण गणना समय जब चरों की संख्या बड़ी हो।

एम्बेडेड विधि
एंबेडेड तरीके हाल ही में प्रस्तावित किए गए हैं जो पिछले दोनों तरीकों के फायदों को संयोजित करने का प्रयास करते हैं। एक शिक्षण एल्गोरिदम अपनी स्वयं की परिवर्तनीय चयन प्रक्रिया का लाभ उठाता है और फीचर चयन और वर्गीकरण एक साथ करता है, जैसे एफआरएमटी एल्गोरिदम।

फ़ीचर चयन मेटाह्यूरिस्टिक्स का अनुप्रयोग
यह साहित्य में हाल ही में उपयोग किए गए फीचर चयन मेटाह्यूरिस्टिक्स के अनुप्रयोग का एक सर्वेक्षण है। इस सर्वेक्षण को जे. हैमन ने अपनी 2013 की थीसिस में साकार किया था।

लर्निंग एल्गोरिदम में अंतर्निहित सुविधा चयन
कुछ शिक्षण एल्गोरिदम अपने समग्र संचालन के हिस्से के रूप में फीचर चयन करते हैं। इसमे शामिल है:


 * $l_1$-नियमितीकरण तकनीकें, जैसे विरल प्रतिगमन, LASSO, और $l_1$-एसवीएम
 * नियमित वृक्ष, जैसे आरआरएफ पैकेज में नियमित यादृच्छिक वन लागू किया गया * निर्णय वृक्ष सीखना
 * मेमेटिक एल्गोरिदम
 * यादृच्छिक बहुपद लॉगिट (आरएमएनएल)
 * ऑटोएनकोडर|बॉटनेक-लेयर के साथ ऑटो-एनकोडिंग नेटवर्क
 * सबमॉड्यूलर सेट फ़ंक्शन सुविधा चयन
 * स्थानीय शिक्षण आधारित सुविधा चयन। पारंपरिक तरीकों की तुलना में, इसमें कोई अनुमानी खोज शामिल नहीं है, यह आसानी से बहु-वर्ग की समस्याओं को संभाल सकता है, और रैखिक और गैर-रेखीय दोनों समस्याओं के लिए काम करता है। यह एक मजबूत सैद्धांतिक आधार द्वारा भी समर्थित है। संख्यात्मक प्रयोगों से पता चला है कि यह विधि करीब-से-इष्टतम समाधान प्राप्त कर सकती है, भले ही डेटा में >1M अप्रासंगिक विशेषताएं हों।
 * फीचर चयन के आधार पर अनुशंसा प्रणाली। फ़ीचर चयन विधियों को अनुशंसाकर्ता सिस्टम अनुसंधान में पेश किया गया है।

यह भी देखें

 * क्लस्टर विश्लेषण
 * डेटा खनन
 * आयामीता में कमी
 * सुविधा निकालना
 * हाइपरपैरामीटर अनुकूलन
 * मॉडल चयन
 * राहत (सुविधा चयन)

बाहरी संबंध

 * Feature Selection Package, Arizona State University (Matlab Code)
 * NIPS challenge 2003 (see also NIPS)
 * Naive Bayes implementation with feature selection in Visual Basic (includes executable and source code)
 * Minimum-redundancy-maximum-relevance (mRMR) feature selection program
 * FEAST (Open source Feature Selection algorithms in C and MATLAB)