फ़ीचर इंजीनियरिंग

फ़ीचर इंजीनियरिंग या फ़ीचर निष्कर्षण या फ़ीचर खोज कच्चे आंकड़े से फ़ीचर (मशीन लर्निंग) (विशेषताएँ, गुण, विशेषताएँ) निकालने के लिए डोमेन ज्ञान का उपयोग करने की प्रक्रिया है। मशीन सीखने की प्रक्रिया में केवल कच्चे डेटा की आपूर्ति की तुलना में, मशीन सीखने की प्रक्रिया से परिणामों की गुणवत्ता में सुधार करने के लिए इन अतिरिक्त सुविधाओं का उपयोग करना प्रेरणा है।

प्रक्रिया
फ़ीचर इंजीनियरिंग प्रक्रिया है:
 * विचार-मंथन या सॉफ्टवेयर परीक्षण सुविधाएँ
 * निर्णय लेना कि कौन सी सुविधाएँ बनानी हैं
 * सुविधाएँ बनाना
 * कार्य पर पहचानी गई सुविधाओं के प्रभाव का परीक्षण करना
 * यदि आवश्यक हो तो अपनी सुविधाओं में सुधार करें
 * दोहराना

विशिष्ट इंजीनियर्ड विशेषताएं
निम्नलिखित सूची उपयोगी सुविधाओं को इंजीनियर करने के लिए कुछ विशिष्ट तरीके प्रदान करता है:
 * संख्यात्मक परिवर्तन (जैसे भिन्न लेना या स्केलिंग)
 * श्रेणी एनकोडर जैसे वन-हॉट या लक्ष्य एनकोडर (श्रेणीबद्ध चर के लिए)
 * क्लस्टरिंग
 * समूहित मान
 * प्रमुख घटक विश्लेषण (संख्यात्मक डेटा के लिए)
 * फ़ीचर निर्माण: समस्या के लिए प्रासंगिक नए भौतिक, ज्ञान-आधारित मापदंडों का निर्माण। उदाहरण के लिए, भौतिकी में, आयामहीन मात्रा का निर्माण जैसे द्रव गतिकी में रेनॉल्ड्स संख्या, गर्मी हस्तांतरण में नुसेल्ट संख्या, अवसादन में आर्किमिडीज संख्या, समाधान के पहले अनुमान का निर्माण जैसे यांत्रिकी में सामग्री समाधान की विश्लेषणात्मक ताकत आदि।

प्रासंगिकता
विशेषताएँ महत्व में भिन्न होती हैं। यहां तक ​​कि अपेक्षाकृत महत्वहीन विशेषताएं भी किसी मॉडल में योगदान दे सकती हैं। फ़ीचर चयन किसी मॉडल को प्रशिक्षण डेटा सेट (ओवरफिटिंग) के लिए बहुत विशिष्ट बनने से रोकने के लिए सुविधाओं की संख्या को कम कर सकता है।

विस्फोट
फ़ीचर विस्फोट तब होता है जब पहचाने गए फ़ीचर की संख्या अनुचित रूप से बढ़ती है। सामान्य कारणों में शामिल हैं:


 * फ़ीचर टेम्प्लेट - नई सुविधाओं को कोड करने के बजाय फ़ीचर टेम्प्लेट लागू करना
 * फ़ीचर संयोजन - ऐसे संयोजन जिन्हें एक रैखिक प्रणाली द्वारा प्रस्तुत नहीं किया जा सकता है

फ़ीचर विस्फोट को तकनीकों के माध्यम से सीमित किया जा सकता है जैसे: नियमितीकरण (गणित), कर्नेल विधियाँ, और फ़ीचर चयन।

स्वचालन
फीचर इंजीनियरिंग का स्वचालन एक शोध विषय है जो 1990 के दशक का है। स्वचालित फीचर इंजीनियरिंग को शामिल करने वाला मशीन लर्निंग सॉफ्टवेयर 2016 से व्यावसायिक रूप से उपलब्ध है। संबंधित अकादमिक साहित्य को मोटे तौर पर दो प्रकारों में विभाजित किया जा सकता है:


 * मल्टी-रिलेशनल निर्णय वृक्ष  लर्निंग (एमआरडीटीएल) एक पर्यवेक्षित एल्गोरिदम का उपयोग करता है जो डिसीजन ट्री के समान है।
 * डीप फ़ीचर सिंथेसिस सरल तरीकों का उपयोग करता है।

मल्टी-रिलेशनल डिसीजन ट्री लर्निंग (एमआरडीटीएल)
एमआरडीटीएल प्रश्नों में क्रमिक रूप से क्लॉज जोड़कर एसक्यूएल प्रश्नों के रूप में सुविधाएँ उत्पन्न करता है। उदाहरण के लिए, एल्गोरिथम की शुरुआत हो सकती है

फिर क्वेरी को WHERE t1.charge <= -0.392 जैसी शर्तें जोड़कर क्रमिक रूप से परिष्कृत किया जा सकता है।

हालाँकि, अधिकांश एमआरडीटीएल संबंधपरक डेटाबेस पर आधार कार्यान्वयन का अध्ययन करता है, जिसके परिणामस्वरूप कई अनावश्यक संचालन होते हैं। टपल आईडी प्रसार जैसी तकनीकों का उपयोग करके इन अतिरेक को कम किया जा सकता है। वृद्धिशील अद्यतनों का उपयोग करके दक्षता बढ़ाई जा सकती है, जो अतिरेक को समाप्त करती है।

ओपन-सोर्स कार्यान्वयन
ऐसे कई ओपन-सोर्स लाइब्रेरी और उपकरण हैं जो संबंधपरक डेटा और समय श्रृंखला पर फीचर इंजीनियरिंग को स्वचालित करते हैं:


 * फीचरटूल्स मशीन लर्निंग के लिए समय श्रृंखला और संबंधपरक डेटा को फीचर मैट्रिक्स में बदलने के लिए एक पायथन (प्रोग्रामिंग भाषा) लाइब्रेरी है।
 * वनबीएम या वन-बटन मशीन फीचर चयन तकनीकों के साथ रिलेशनल डेटा पर फीचर ट्रांसफॉर्मेशन और फीचर चयन को जोड़ती है।
 * गेटएमएल समुदाय समय श्रृंखला और संबंधपरक डेटा पर स्वचालित फीचर इंजीनियरिंग के लिए एक खुला स्रोत उपकरण है। इसे Python इंटरफ़ेस के साथ C (प्रोग्रामिंग भाषा)/C++ में कार्यान्वित किया गया है। इसे tsflex, tsfresh, tsfel, फीचरटूल्स या kats से कम से कम 60 गुना तेज़ दिखाया गया है।
 * tsfresh समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए एक पायथन लाइब्रेरी है। यह परिकल्पना परीक्षण का उपयोग करके सुविधाओं की गुणवत्ता का मूल्यांकन करता है।
 * tsflex समय श्रृंखला डेटा से सुविधाएँ निकालने के लिए एक खुला स्रोत पायथन लाइब्रेरी है। 100% पायथन में लिखे जाने के बावजूद, इसे tsfresh, seglearn या tsfel की तुलना में तेज़ और अधिक मेमोरी कुशल दिखाया गया है।
 * सेग्लर्न, स्किकिट-लर्न पायथन लाइब्रेरी के लिए बहुभिन्नरूपी, अनुक्रमिक समय श्रृंखला डेटा का एक विस्तार है।
 * tsfel समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए एक पायथन पैकेज है।
 * कैट्स समय श्रृंखला डेटा का विश्लेषण करने के लिए एक पायथन टूलकिट है।

गहन सुविधा संश्लेषण
डीप फ़ीचर सिंथेसिस (डीएफएस) एल्गोरिदम ने एक प्रतियोगिता में 906 मानव टीमों में से 615 को हराया।

फ़ीचर स्टोर
फ़ीचर स्टोर वह जगह है जहां सुविधाओं को मॉडल को प्रशिक्षित करने (डेटा वैज्ञानिकों द्वारा) या पूर्वानुमान बनाने (प्रशिक्षित मॉडल वाले अनुप्रयोगों द्वारा) के स्पष्ट उद्देश्य के लिए संग्रहीत और व्यवस्थित किया जाता है। यह एक केंद्रीय स्थान है जहां आप या तो कई अलग-अलग डेटा स्रोतों से बनाई गई सुविधाओं के समूह बना या अपडेट कर सकते हैं, या प्रशिक्षण मॉडल के लिए या उन अनुप्रयोगों में उपयोग के लिए उन फीचर समूहों से नए डेटासेट बना और अपडेट कर सकते हैं जो सुविधाओं की गणना नहीं करना चाहते हैं लेकिन बस जब उन्हें पूर्वानुमान लगाने की आवश्यकता हो तो उन्हें पुनः प्राप्त करें। एक फ़ीचर स्टोर में फ़ीचर उत्पन्न करने के लिए उपयोग किए जाने वाले कोड को संग्रहीत करने, कच्चे डेटा पर कोड लागू करने और अनुरोध पर उन सुविधाओं को मॉडलों को प्रदान करने की क्षमता शामिल होती है। उपयोगी क्षमताओं में फीचर संस्करण और उन परिस्थितियों को नियंत्रित करने वाली नीतियां शामिल हैं जिनके तहत सुविधाओं का उपयोग किया जा सकता है। फ़ीचर स्टोर स्टैंडअलोन सॉफ़्टवेयर टूल या मशीन लर्निंग प्लेटफ़ॉर्म में निर्मित हो सकते हैं।

विकल्प
फ़ीचर इंजीनियरिंग एक समय लेने वाली और त्रुटि-प्रवण प्रक्रिया हो सकती है, क्योंकि इसमें डोमेन विशेषज्ञता की आवश्यकता होती है और इसमें अक्सर परीक्षण और त्रुटि शामिल होती है। फीचर इंजीनियरिंग का सहारा लिए बिना बड़े कच्चे डेटासेट को संसाधित करने के लिए ध्यान लगा के पढ़ना या सीखना का उपयोग किया जा सकता है। हालाँकि, यह ध्यान रखना महत्वपूर्ण है कि गहन शिक्षण एल्गोरिदम को अभी भी इनपुट डेटा की सावधानीपूर्वक प्रीप्रोसेसिंग और सफाई की आवश्यकता होती है। इसके अलावा, गहरे तंत्रिका नेटवर्क के लिए सही आर्किटेक्चर, हाइपरपैरामीटर और अनुकूलन एल्गोरिदम चुनना एक चुनौतीपूर्ण और पुनरावृत्त प्रक्रिया हो सकती है।

यह भी देखें

 * सहसंयोजक
 * डेटा परिवर्तन (सांख्यिकी)
 * सुविधा निकालना
 * फ़ीचर सीखना
 * हैशिंग ट्रिक
 * कर्नेल विधि
 * मशीन लर्निंग अनुसंधान के लिए डेटासेट की सूची
 * अंतरिक्ष मानचित्रण
 * वाद्य चर अनुमान