फीचर चयन

From Vigyanwiki

यंत्र अधिगम और सांख्यिकी में, फीचर सिलेक्शन होता हैं, जिसे वैरिएबल सिलेक्शन , विशेषता सिलेक्शन या वैरिएबल सबसेट सिलेक्शन के रूप में भी जाना जाता है | यह मॉडल निर्माण में उपयोग के लिए प्रासंगिक फीचर (मशीन लर्निंग) (वेरिएबल , प्रडिक्टर) के सबसेट का सिलेक्शन करने की प्रक्रिया है। फीचर सिलेक्शन तकनीकों का उपयोग अनेक कारणों से किया जाता है |

  • शोधकर्ताओं/उपयोगकर्ताओं द्वारा व्याख्या करना और उसको सरल बनाने के लिए मॉडलों का सरलीकरण,[1]
  • कम समय में प्रशिक्षण,[2]
  • आयामीता के कर्स से बचने के लिए,[3]
  • लर्निंग मॉडल क्लास के साथ डेटा की अनुकूलता में सुधार,[4]
  • इनपुट स्थान में उपस्थित अंतर्निहित सममित स्थान को एनकोड करें। [5][6][7][8]

फीचर सिलेक्शन तकनीक का उपयोग करते समय केंद्रीय आधार यह है कि डेटा में कुछ विशेषताएं सम्मिलित हैं जो तब अनावश्यक हैं या अप्रासंगिक हैं, और इस प्रकार सूचना को अधिक हानि के अतिरिक्त उन्हें हटाया जा सकता है। [9] यह निरर्थक और अप्रासंगिक दो भिन्न-भिन्न धारणाएँ होती हैं, क्योंकि प्रासंगिक विशेषता किसी अन्य प्रासंगिक विशेषता की उपस्थिति में निरर्थक हो सकती है जिसके साथ यह दृढ़ता से सहसंबद्ध होता है।[10]

फीचर सिलेक्शन तकनीकों को फीचर निष्कर्षण से भिन्न किया जाना चाहिए। [11] फीचर निष्कर्षण मूल फीचर्स के कार्यों से नई सुविधाएँ बनाता है, जबकि फीचर सिलेक्शन फीचर्स का सबसेट लौटाता है। फीचर सिलेक्शन तकनीकों का उपयोग अधिकांशतः उन डोमेन में किया जाता है जहाँ अनेक सुविधाएँ और तुलनात्मक रूप से प्रतिरुप (या डेटा बिंदु) होते हैं। फीचर सिलेक्शन के अनुप्रयोग के लिए आदर्श स्तिथियों में स्टाइलोमेट्री और डीएनए माइक्रोएरे डेटा का विश्लेषण सम्मिलित होता है, जहां अनेक हजारों विशेषताएं होती हैं, और इसमें कुछ दसियों से सैकड़ों प्रतिरुप हैं।

परिचय

फीचर सिलेक्शन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए खोज तकनीक के संयोजन के रूप में देखा जा सकता है | इसके साथ ही मूल्यांकन उपाय जो विभिन्न फीचर सबसेट को स्कोर करता है।यह सबसे सरल एल्गोरिदम फीचर्स के प्रत्येक संभावित उपसमूह का परीक्षण करना है जो त्रुटि दर को कम करता है। यह स्थान की विस्तृत खोज है, और यह लघु से लघु फीचर सेट को छोड़कर सभी के लिए कम्प्यूटेशनल रूप से कठिन है। मूल्यांकन मेट्रिक का चुनाव एल्गोरिदम को अधिक रूप से प्रभावित करता है, और यह मूल्यांकन मेट्रिक्स होता हैं जो फीचर सिलेक्शन एल्गोरिदम की तीन मुख्य श्रेणियों के मध्य अंतर करते हैं | इसमें रैपर, फिल्टर और एम्बेडेड विधियां होती हैं। [10]

  • रैपर विधियाँ फीचर सबसेट को स्कोर करने के लिए पूर्वानुमानित मॉडल का उपयोग करती हैं। प्रत्येक नए सबसेट का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका परीक्षण होल्ड-आउट सेट पर किया जाता है। उस होल्ड-आउट सेट (मॉडल की त्रुटि दर) पर की गई त्रुटियों की संख्या की गणना करने से उस सबसेट के लिए स्कोर मिलता है। चूँकि रैपर विधियाँ प्रत्येक सबसेट के लिए नए मॉडल को प्रशिक्षित करती हैं, वह कम्प्यूटेशनल रूप से बहुत गहन होती हैं, किन्तु सामान्यतः यह उस विशेष प्रकार के मॉडल या विशिष्ट समस्या के लिए सबसे अच्छा प्रदर्शन करने वाला फीचर सेट प्रदान करती हैं।
  • फ़िल्टर विधियाँ फीचर सबसेट को स्कोर करने के लिए त्रुटि दर के अतिरिक्त प्रॉक्सी माप का उपयोग करती हैं। फीचर सेट की उपयोगिता को ध्यान में रखते हुए, गणना करने में तीव्र होने के लिए इस उपाय को चुना गया है। सामान्य उपायों में म्यूच्यूअल इनफार्मेशन सम्मिलित होती है,[10] यह पॉइंटवाइस म्यूच्यूअल इनफार्मेशन हैं ,[12] पियर्सन प्रोडक्ट-मोमेंट कॉरर्लशन कॉएफिसिएंट, रिलीफ (फीचर सिलेक्शन ) | रिलीफ-बेस्ड एल्गोरिदम हैं,[13] और अंतर/अंतर क्लास दूरी या प्रत्येक वर्ग/फीचर संयोजन के लिए सांख्यिकीय परिकल्पना परीक्षण के स्कोर सम्मिलित हैं। [12][14] फ़िल्टर सामान्यतः रैपर्स की तुलना में कम कम्प्यूटेशनल रूप से गहन होते हैं, किन्तु वह फीचर सेट का उत्पादन करते हैं जो विशिष्ट प्रकार के पूर्वानुमानित मॉडल के अनुरूप नहीं होता है। [15] ट्यूनिंग की इस कमी का अर्थ है कि फ़िल्टर से सेट किया गया फीचर रैपर से सेट की तुलना में अधिक सामान्य है, सामान्यतः रैपर की तुलना में कम पूर्वानुमान प्रदर्शन देता है। चूँकि फीचर सेट में पूर्वानुमान मॉडल की धारणाएँ सम्मिलित नहीं हैं, और इसलिए यह फीचर्स के मध्य संबंधों को प्रदर्शित करने के लिए अधिक उपयोगी है। अनेक फ़िल्टर स्पष्ट सर्वोत्तम फीचर सबसेट के अतिरिक्त फीचर रैंकिंग प्रदान करते हैं, और रैंकिंग में कट-ऑफ पॉइंट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन के माध्यम से चुना जाता है। फ़िल्टर विधियों का उपयोग रैपर विधियों के लिए प्रीप्रोसेसिंग चरण के रूप में भी किया गया है, जिससे बड़ी समस्याओं पर रैपर का उपयोग किया जा सकता है। अन्य लोकप्रिय दृष्टिकोण रिकर्सिव फीचर एलिमिनेशन एल्गोरिदम है, [16] सामान्यतः मॉडल का निरंतर निर्माण करने और कम वजन वाले फीचर्स को हटाने के लिए सपोर्ट सदिश मशीन के साथ उपयोग किया जाता है।
  • एंबेडेड विधियां तकनीकों का समूह होती है जो मॉडल निर्माण प्रक्रिया के भागों के रूप में फीचर सिलेक्शन करती है। इस दृष्टिकोण का उदाहरण रेखीय मॉडल के निर्माण के लिए लासो (सांख्यिकी) विधि होती है, जो प्रतिगमन गुणांक को L1 दंड के साथ दंडित करता है, उनमें से अनेक को शून्य तक संकुचित कर देता है। कोई भी विशेषता जिसमें गैर-शून्य प्रतिगमन गुणांक है, उसे लैस्सो एल्गोरिथ्म द्वारा 'सिलेक्शन ित' किया जाता है। लैस्सो में सुधारों में बोलासो सम्मिलित है जो प्रतिरूपों को बूटस्ट्रैप करता है | [17] इलास्टिक नेट नियमितीकरण, जो लैस्सो के L1 दंड को रिज रिग्रेशन के L2 दंड के साथ जोड़ता है | और फ़ीआलेक्ट जो प्रतिगमन गुणांक के संयुक्त विश्लेषण के आधार पर सभी विशेषताओं को स्कोर करता है। [18] एईएफएस आगे लैस्सो को ऑटोएन्कोडर्स के साथ नॉनलाइनियर परिदृश्य तक विस्तारित करता है। [19] कम्प्यूटेशनल सम्मिश्रता के संदर्भ में यह दृष्टिकोण फिल्टर और रैपर के मध्य होते हैं।

पारंपरिक प्रतिगमन विश्लेषण में, फीचर सिलेक्शन का सबसे लोकप्रिय रूप वेरिएबल स्टेपवाइज रिग्रेशन है, जो रैपर तकनीक होती है। यह ग्रीडी एल्गोरिदम है जो प्रत्येक समय में सबसे अच्छी फीचर जोड़ता है | और (सबसे व्यर्थ फीचर को हटा देता है)। मुख्य नियंत्रण उद्देश्य यह तय करना है कि एल्गोरिदम को कब रोकना है। मशीन लर्निंग में, यह सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा किया जाता है। आँकड़ों में, कुछ मानदंड अनुकूलित किए गए हैं। इससे श्रंखला बनाने की अंतर्निहित समस्या उत्पन्न होती है। इससे अधिक शक्तिशाली विधियों का अनुमान लगाया गया है, जैसे शाखा में बाउंड और पीसवाइस लीनियर नेटवर्क होते हैं।

सबसेट सिलेक्शन

सबसेट सिलेक्शन उपयुक्तता के लिए समूह के रूप में फीचर्स के सबसेट का मूल्यांकन करता है। सबसेट सर्च एल्गोरिथ्म को रैपर, फिल्टर और एम्बेडेड विधियों में विभाजित किया जा सकता है। रैपर्स संभावित फीचर्स के स्थान के माध्यम से खोज करने के लिए खोज एल्गोरिदम का उपयोग करते हैं और सबसेट पर मॉडल चलाकर प्रत्येक सबसेट का मूल्यांकन करते हैं। रैपर कम्प्यूटेशनल रूप से मूल्यवान हो सकते हैं और मॉडल में अधिक फिट होने पर कठिन परिस्थिति हो सकती है। खोज दृष्टिकोण में फ़िल्टर रैपर के समान होते हैं, किन्तु यह किसी मॉडल के विरुद्ध मूल्यांकन करने के अतिरिक्त, सरल फ़िल्टर का मूल्यांकन किया जाता है। एंबेडेड तकनीकें मॉडल में अंतर्निहित और विशिष्ट होती हैं।

अनेक लोकप्रिय खोज दृष्टिकोण ग्रीडी एल्गोरिदम हिल क्लिंबिंग का उपयोग करते हैं, जो फीचर्स के उम्मीदवार उपसमूह का पुनरावृत्तीय मूल्यांकन करता है, फिर उपसमूह को संशोधित करता है और मूल्यांकन करता है कि क्या नया उपसमूह पुराने की तुलना में सही है। सबसेट के मूल्यांकन के लिए स्कोरिंग मीट्रिक (गणित) की आवश्यकता होती है जो फीचर्स के उपसमूह को ग्रेड करती है। व्यापक खोज सामान्यतः अव्यावहारिक होती है, इसलिए कुछ कार्यान्वयनकर्ता (या ऑपरेटर) परिभाषित स्टॉपिंग बिंदु पर होते हैं, उस बिंदु तक खोजे गए उच्चतम स्कोर वाले फीचर्स के सबसेट को संतबषजनक फीचर सबसेट के रूप में चुना जाता है। इसको रोकने का मानदंड एल्गोरिथम के अनुसार भिन्न होता है |इस प्रकार यह संभावित मानदंडों में सम्मिलित हैं | सबसेट स्कोर सीमा से अधिक होता है | कार्य का अधिकतम अनुमत रन टाइम सरपास्ड हो गया है |

वैकल्पिक खोज-आधारित तकनीकें लक्षित प्रक्षेपण खोज पर आधारित होती हैं जो उच्च स्कोर वाले डेटा के निम्न-आयामी अनुमानों का पता लगाती हैं | फिर उन विशेषताओं का सिलेक्शन किया जाता है जिनके निचले-आयामी स्थान में सबसे बड़े प्रक्षेपण होते हैं।

खोज दृष्टिकोण में सम्मिलित हैं |

वर्गीकरण समस्याओं के लिए दो लोकप्रिय फ़िल्टर मेट्रिक्स सहसंबंध और पारस्परिक सूचना हैं,चूंकि गणितीय अर्थ में कोई भी वास्तविक मीट्रिक (गणित) या 'दूरी माप' नहीं है, क्योंकि वह त्रिकोण असमानता का पालन करने में विफल रहते हैं और इस प्रकार किसी भी वास्तविक 'दूरी' की गणना नहीं करते हैं - उन्हें 'स्कोर' के रूप में माना जाना चाहिए। इन अंकों की गणना उम्मीदवार फीचर (या फीचर्स के सेट) और वांछित आउटपुट श्रेणी के मध्य की जाती है। चूँकि, यह ऐसे सत्य मेट्रिक्स होते हैं जो पारस्परिक सूचना का सरल कार्य करते हैं [30] तथा म्यूच्यूअल इनफार्मेशन या मीट्रिक देखें।

अन्य उपलब्ध फ़िल्टर मेट्रिक्स में सम्मिलित हैं |

  • वर्ग पृथक्करण
  • संगति-आधारित फीचर सिलेक्शन
  • सहसंबंध-आधारित फीचर सिलेक्शन

अधिकतम मानदंड

अधिकतमत मानदंड का चुनाव कठिन होता है क्योंकि फीचर सिलेक्शन कार्य में अनेक उद्देश्य होते हैं। अनेक सामान्य मानदंडों में स्पष्टता की माप सम्मिलित होता है, जिसे सिलेक्शन ित फीचर्स की संख्या द्वारा दंडित किया जाता है। उदाहरणों में अकाइक सूचना मानदंड (एआईसी) और मैलोज़ Cp सम्मिलित हैं | जिनमें प्रत्येक अतिरिक्त फीचर के लिए 2 का दंड है। यह एआईसी सूचना सिद्धांत पर आधारित है, और प्रभावी रूप से मैक्सिमम एन्ट्रापी सिद्धांत के माध्यम से प्राप्त होता है। [31][32]

अन्य मानदंड बायेसियन सूचना मानदंड (बीआईसी) हैं, जो प्रत्येक जोड़े गए फीचर के लिए के दंड का उपयोग करता है, न्यूनतम विवरण लंबाई (एमडीएल) जो असम्बद्ध रूप से का उपयोग करता है, बोनफेरोनी सुधार / आरआईसी जो का उपयोग करता है, अधिकतम निर्भरता फीचर सिलेक्शन , और विभिन्न प्रकार के नए मानदंड जो फाल्स डिस्कवर रेट (एफडीआर) से प्रेरित हैं, जो के समीप कुछ का उपयोग करते हैं। फीचर्स के सबसे प्रासंगिक उपसमूह का सिलेक्शन करने के लिए अधिकतम एन्ट्रापी दर मानदंड का भी उपयोग किया जा सकता है। [33]


संरचना सीखना

फ़िल्टर फीचर सिलेक्शन अधिक सामान्य प्रतिमान का विशिष्ट स्थिति है जिसे संरचित पूर्वानुमान कहा जाता है। फीचर सिलेक्शन विशिष्ट लक्ष्य वेरिएबल के लिए प्रासंगिक फीचर सेट ढूंढता है जबकि संरचना शिक्षण सभी वेरिएबल के मध्य संबंधों को ढूंढता है, सामान्यतः इन सम्बन्धो को ग्राफ के रूप में व्यक्त करता हैं। यह सबसे सामान्य संरचना सीखने वाले एल्गोरिदम मानते हैं कि डेटा बायेसियन नेटवर्क द्वारा उत्पन्न होता है, और इसलिए संरचना निर्देशित ग्राफ चित्रमय मॉडल है। फ़िल्टर फीचर सिलेक्शन समस्या का अधिकतम समाधान लक्ष्य नोड का मार्कोव ब्लंकेट है, और बायेसियन नेटवर्क में, प्रत्येक नोड के लिए अद्वितीय मार्कोव ब्लंकेट है। [34]


सूचना सिद्धांत आधारित फीचर सिलेक्शन तंत्र

चारों ओर विभिन्न फीचर सिलेक्शन तंत्र हैं जो विभिन्न फीचर्स को स्कोर करने के लिए पारस्परिक सूचना का उपयोग करते हैं। वह सामान्यतः सभी समान एल्गोरिदम का उपयोग करते हैं |

  1. सभी फीचर्स () और लक्ष्य वर्ग (c ) के मध्य स्कोर के रूप में पारस्परिक सूचना की गणना करें
  2. सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें (उदाहरण के लिए . ) और इसे सिलेक्शन ित फीचर्स (S ) के सेट में जोड़ें
  3. उस स्कोर की गणना करें जो पारस्परिक सूचना से प्राप्त किया जा सकता है
  4. सबसे बड़े स्कोर वाली फीचर का सिलेक्शन करें और इसे चुनिंदा फीचर्स के सेट में जोड़ें (उदाहरण के लिए)