विशेषता निकर्ष (फ़ीचर एक्सट्रैक्शन)

मशीन लर्निंग, पैटर्न मान्यता और इमेज प्रोसेसिंग में, सुविधा निकालना मापे गए डेटा के प्रारंभिक सेट से प्रारम्भ होता है और व्युत्पन्न मूल्य (विशेषताएं) बनाता है। सूचनात्मक और गैर-निरर्थक होने का इरादा है, बाद के सीखने और सामान्यीकरण के चरणों को सुविधाजनक बनाने और कुछ मामलों में बेहतर मानवीय व्याख्याओं के लिए अग्रणी है। सुविधा निष्कर्षण आयामीता में कमी से संबंधित है।

जब एल्गोरिथ्म (कलन विधि) में इनपुट डेटा संसाधित होने के लिए बहुत बड़ा होता है और इसे अनावश्यक होने का संदेह होता है (उदाहरण के लिए पैरों और मीटर दोनों में समान माप, या पिक्सेल के रूप में प्रस्तुत छवियों की दोहराव), तो इसे सुविधाओं के एक कम सेट (जिसे विशेषता वेक्टर भी कहा जाता है) में परिवर्तित किया जा सकता है। आरंभिक विशेषताओं के एक सबसेट का निर्धारण करना विशेषता चयन कहलाता है। चयनित सुविधाओं में इनपुट डेटा से प्रासंगिक जानकारी सम्मिलित होने की उम्मीद है, ताकि वांछित कार्य पूर्ण प्रारंभिक डेटा के बजाय इस कम किए गए प्रतिनिधित्व का उपयोग करके किया जा सके।

सामान्य
सुविधा निकालना में डेटा के बड़े सेट का वर्णन करने के लिए आवश्यक संसाधनों की संख्या को कम करना सम्मिलित है। जटिल डेटा का विश्लेषण करते समय बड़ी समस्याओं में से एक सम्मिलित चरों की संख्या से उत्पन्न होती है। बड़ी संख्या में चर के साथ विश्लेषण के लिए सामान्यतः बड़ी मात्रा में स्मृति और गणना शक्ति की आवश्यकता होती है, साथ ही यह एक वर्गीकरण एल्गोरिथ्म को प्रशिक्षण के नमूनों के लिए अधिक से अधिक करने और नए नमूनों को खराब करने के लिए सामान्य बनाने का कारण बन सकता है। पर्याप्त सटीकता के साथ डेटा का वर्णन करते समय इन समस्याओं को हल करने के लिए चर के संयोजन के निर्माण के तरीकों के लिए विशेषता निष्कर्षण एक सामान्य शब्द है। कई मशीन लर्निंग व्यवसायियों का मानना है कि प्रभावी मॉडल निर्माण की कुंजी ठीक से अनुकूलित सुविधा निष्कर्षण है।

सामान्यतः एक विशेषज्ञ द्वारा बनाए गए एप्लिकेशन-निर्भर सुविधाओं के निर्मित सेट का उपयोग करके परिणामों में सुधार किया जा सकता है। ऐसी ही एक प्रक्रिया को विशेषता अभियांत्रिकी कहा जाता है। वैकल्पिक रूप से, सामान्य आयामी कमी तकनीकों का उपयोग किया जाता है जैसे कि:
 * स्वतंत्र घटक विश्लेषण
 * आइसोमैप
 * कर्नेल पीसीए
 * अव्यक्त शब्दार्थ विश्लेषण
 * आंशिक न्यूनतम वर्ग
 * प्रमुख कंपोनेंट विश्लेषण
 * मल्टीफैक्टर आयामीता में कमी
 * गैर रेखीय आयामीता में कमी
 * अर्ध निश्चित एम्बेडिंग
 * ऑटो ऑटोएन्कोडर

इमेज प्रोसेसिंग
अनुप्रयोग का एक बहुत ही महत्वपूर्ण क्षेत्र छवि प्रसंस्करण है, जिसमें एल्गोरिदम का उपयोग डिजीटल छवि या विडियो स्ट्रीम के विभिन्न वांछित भागों या आकृतियों (विशेषताओं) का पता लगाने और अलग करने के लिए किया जाता है। यह विशेष रूप से ऑप्टिकल कैरेक्टर रिकॉग्निशन के क्षेत्र में महत्वपूर्ण है।

कार्यान्वयन
कई डेटा विश्लेषण सॉफ्टवेयर पैकेज फीचर एक्सट्रैक्शन और डायमेंशन रिडक्शन के लिए उपलब्ध कराते हैं। मैटलैब, साइलैब, न्यूमपी, स्किकिट-लर्न एंड आर लैंग्वेज जैसे सामान्य संख्यात्मक प्रोग्रामिंग वातावरण बिल्ट-इन कमांड के माध्यम से कुछ सरल फीचर एक्सट्रैक्शन तकनीक (जैसे प्रमुख घटक विश्लेषण) प्रदान करते हैं। अधिक विशिष्ट एल्गोरिदम प्रायः सार्वजनिक रूप से उपलब्ध स्क्रिप्ट या तीसरे पक्ष के ऐड-ऑन के रूप में उपलब्ध होते हैं। विशिष्ट सॉफ़्टवेयर मशीन लर्निंग अनुप्रयोगों को लक्षित करने वाले सॉफ़्टवेयर पैकेज भी हैं जो फ़ीचर एक्सट्रैक्शन में विशेषज्ञ हैं।

यह भी देखें

 * क्लस्टर विश्लेषण
 * आयामीता में कमी
 * फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
 * विशेषता चयन
 * डेटा माइनिंग
 * कनेक्टेड-कंपोनेंट लेबलिंग
 * विभाजन (इमेज प्रोसेसिंग)
 * अंतरिक्ष मानचित्रण
 * गतिशील बनावट
 * रेडियोमिक्स

संदर्भ
Rustum, Rabee, Adebayo Adeloye, and Aurore Simala. "Kohonen self-organising map (KSOM) extracted features for enhancing MLP-ANN prediction models of BOD5." In International Symposium: Quantification and Reduction of Predictive Uncertainty for Sustainable Water Resources Management-24th General Assembly of the International Union of Geodesy and Geophysics (IUGG), pp. 181-187. 2007.