फ़ीचर (कंप्यूटर विज़न)

कंप्यूटर दृष्टि और इमेज(इमेज) प्रसंस्करण में, फ़ीचर इमेज की सामग्री के विषय में जानकारी का एक अंश है सामान्यतः इमेज के विषय में कुछ क्षेत्र में कुछ गुण होते हैं। फीचर्स इमेज में विशिष्ट संरचनाएं जैसे बिंदु, किनारे या वस्तु हो सकती हैं। फीचर्स सामान्य प्रतिवेश ऑपरेशन इमेज का परिणाम हो सकती हैं या फ़ीचर का पता लगाने इमेज पर प्रयुक्त भी हो सकती हैं। फीचर्स के अन्य उदाहरण इमेज अनुक्रमों में गति से संबंधित हैं, या विभिन्न इमेज क्षेत्रों के बीच घटता या सीमाओं के रूप में परिभाषित आकृतियों से संबंधित हैं।

अधिक व्यापक रूप से सुविधा सूचना का कोई भाग है जो निश्चित अनुप्रयोग से संबंधित कम्प्यूटेशनल कार्य को हल करने के लिए प्रासंगिक है। यह सामान्य रूप से यंत्र अधिगम(मशीन लर्निंग) और पैटर्न रिकग्निशन (पैटर्न मान्यता) में  फ़ीचर के समान ही है, यद्यपि इमेज प्रोसेसिंग में फीचर्स का एक बहुत ही परिष्कृत संग्रह है। फ़ीचर अवधारणा बहुत सामान्य है और किसी विशेष कंप्यूटर दृष्टि सिस्टम में फीचर्स का चुनाव विशिष्ट समस्या पर अत्यधिक निर्भर हो सकता है।

परिभाषा
किसी फ़ीचर का गठन करने की कोई सार्वभौमिक या सटीक परिभाषा नहीं है, और सटीक परिभाषा प्रायः समस्या या अनुप्रयोग के प्रकार पर निर्भर करती है। फिर भी, एक फ़ीचर को सामान्यत: एक डिजिटल इमेज के एक दिलचस्प हिस्से के रूप में परिभाषित किया जाता है, और फीचर्स का उपयोग कई कंप्यूटर दृष्टि कलन विधि के लिए शुरुआती बिंदु के रूप में किया जाता है।

चूंकि फीचर्स का उपयोग बाद के कलन विधि के लिए शुरुआती बिंदु और मुख्य पुरातन के रूप में किया जाता है, इसलिए समग्र कलन विधि प्रायः इसके फीचर संसूचक जितना ही अच्छा होगा। परिणामस्वरूप, एक ही दृश्य के दो या दो से अधिक अलग-अलग इमेज में एक ही फ़ीचर का पता लगाया जाएगा या नहीं, फीचर संसूचक के लिए वांछनीय गुण आवृत्ति योग्यता है।

फ़ीचर अनुसन्धान एक निम्न-स्तरीय इमेज प्रोसेसिंग ऑपरेशन है। जो की, यह सामान्यत: इमेज पर पहले ऑपरेशन के रूप में किया जाता है, और यह देखने के लिए प्रत्येक पिक्सेल की जांच करता है कि उस पिक्सेल में कोई फ़ीचर मौजूद है या नहीं है। यदि यह बड़े कलन विधि का हिस्सा है, तो कलन विधि सामान्यत: केवल फीचर्स के क्षेत्र में इमेज की जांच करेगा। फीचर अनुसन्धान के लिए एक अंतर्निहित पूर्व-आवश्यकता के रूप में, इनपुट इमेज को सामान्यत: स्केल स्पेस में गौस्सियन कर्नेल द्वारा सुचारू रूप से किया जाता है। स्केल-स्पेस प्रतिनिधित्व और एक या कई फीचर इमेज की गणना की जाती है, जिसे प्रायः लोकल इमेज व्युत्पन्न संचालन के संदर्भ में व्यक्त किया जाता है।.

कभी-कभी, जब फीचर अनुसन्धान कम्प्यूटेशनल रूप से महंगा होता है और समय की कमी होती है, तो फीचर अनुसन्धान चरण को निर्देशित करने के लिए एक उच्च स्तरीय कलन विधि का उपयोग किया जा सकता है, जिससे इमेज के केवल कुछ हिस्सों को फीचर्स के लिए खोजा जा सके।

कई कंप्यूटर दृष्टि कलन विधि हैं जो प्रारंभिक चरण के रूप में फीचर अनुसन्धान का उपयोग करते हैं, इसलिए इसके परिणामस्वरूप, बहुत बड़ी संख्या में फीचर संसूचक विकसित किए गए हैं। ये फीचर, कम्प्यूटेशनल जटिलता और दोहराने योग्यता के प्रकार में व्यापक रूप से भिन्न होते हैं।

जब फीचर्स को एक इमेज पर प्रयुक्त लोकल प्रतिवेश के संचालन के संदर्भ में परिभाषित किया जाता है, तो एक प्रक्रिया जिसे सामान्यत: 'फीचर एक्सट्रैक्शन' कहा जाता है, कोई भी फीचर अनुसन्धान दृष्टिकोणों के बीच अंतर कर सकता है जो लोकल परिणाम उत्पन्न करता है कि किसी दिए गए इमेज बिंदु पर किसी दिए गए प्रकार की विशेषता है या नहीं, और जो परिणाम के रूप में अन्य-बाइनरी डेटा उत्पन्न करते हैं। विशिष्टता तब सुसंगत हो जाता है जब परिणामी खोजी गई फीचर्स अपेक्षाकृत विरल होती हैं। यद्यपि लोकल परिणाम किए जाते हैं, फीचर अनुसन्धान स्टेप से आउटपुट को बाइनरी इमेज होने की आवश्यकता नहीं है।कभी-कभी उप-पिक्सेल सटीकता के साथ, परिणाम प्रायः उन इमेज बिंदुओं के सेट (जुड़े या असंबद्ध) निर्देशांक के संदर्भ में प्रस्तुत किया जाता है जहां फीचर्स का पता लगाया गया है।

जब लोकल परिणाम लेने के बिना फीचर एक्सट्रैक्शन किया जाता है, तो परिणाम को प्रायः फीचर इमेज के रूप में संदर्भित किया जाता है। परिणामस्वरूप, एक फीचर इमेज को इमेज के रूप में देखा जा सकता है कि यह मूल इमेज के समान स्थानिक (या लौकिक) चर का एक कार्य है, लेकिन जहां पिक्सेल मान तीव्रता या रंग के स्थान पर इमेज फीचर्स के विषय में जानकारी रखते हैं। इसका तात्पर्य यह है कि एक फीचर इमेज को उसी तरह से प्रोसेस किया जा सकता है जैसे इमेज सेंसर द्वारा उत्पन्न एक साधारण इमेज हो। फीचर इमेज को प्रायः फीचर अनुसन्धान के लिए कलन विधि में एकीकृत कदम के रूप में गिना जाता है।

फीचर वैक्टर और फीचर स्पेस
कुछ अनुप्रयोगों में, इमेज डेटा से संबंधित जानकारी प्राप्त करने के लिए केवल एक प्रकार का फ़ीचर निकालना पर्याप्त नहीं है। इसके स्थान पर दो या दो से अधिक अलग-अलग फीचर्स को निकाला जाता है, जिसके परिणामस्वरूप प्रत्येक इमेज बिंदु पर दो या दो से अधिक फीचर वर्णनकर्ता होते हैं। एक सामान्य अभ्यास इन सभी विवरणों द्वारा प्रदान की गई जानकारी को एकल वेक्टर के तत्वों के रूप में व्यवस्थित करना है, जिसे सामान्यत: फीचर वेक्टर के रूप में संदर्भित किया जाता है। सभी संभावित फीचर वैक्टर का सेट एक फीचर स्पेस बनाता है।

फीचर वैक्टर का एक सामान्य उदाहरण तब प्रकट होता है जब प्रत्येक इमेज बिंदु को एक विशिष्ट वर्ग से संबंधित के रूप में वर्गीकृत किया जाता है। यह मानते हुए कि प्रत्येक इमेज बिंदु में फीचर्स के उपयुक्त सेट के आधार पर एक संबंधित फीचर वेक्टर होता है, जिसका अर्थ है कि प्रत्येक वर्ग को संबंधित फीचर स्पेस में अच्छी तरह से अलग किया जाता है, मानक वर्गीकरण पद्धति का उपयोग करके प्रत्येक इमेज बिंदु का वर्गीकरण किया जा सकता है।।

एक अन्य और संबंधित उदाहरण तब होता है जब कृत्रिम तंत्रिका नेटवर्क-आधारित प्रसंस्करण इमेज पर प्रयुक्त होता है। तंत्रिका नेटवर्क को सिंचित इनपुट डेटा प्रायः प्रत्येक इमेज बिंदु से फीचर वेक्टर के रूप में दिया जाता है, जहां वेक्टर इमेज डेटा से निकाले गए कई अलग-अलग फीचर्स से बना होता है। सीखने के चरण के दौरान, नेटवर्क स्वयं यह पता लगा सकता है कि समस्या को हल करने के लिए विभिन्न फीचर्स का कौन सा संयोजन उपयोगी है।

किनारों
किनारे वे बिंदु होते हैं जहां दो इमेज क्षेत्रों के बीच सीमा (या किनारा) होती है। सामान्यतः किनारा लगभग एकपक्षीय आकार का हो सकता है, और इसमें संयोजन सम्मिलित हो सकते हैं। व्यवहारतः, किनारों को सामान्यत: इमेज में बिंदुओं के सेट के रूप में परिभाषित किया जाता है, जिसमें एक सशक्त ढाल परिमाण होता है। इसके अलावा, कुछ सामान्य कलन विधि फिर एक किनारे का अधिक पूर्ण विवरण बनाने के लिए एक साथ उच्च ढाल वाले बिंदुओं को श्रृंखलाबद्ध करेंगे। ये कलन विधि सामान्यतः किनारे के गुणों पर कुछ बाधाएं डालते हैं, जैसे कि आकार, चिकनाई और ढाल मूल्य है।

लोकल रूप से, किनारों में एक आयामी संरचना होती है।

कोने / ब्याज अंक
शब्दों के कोनों और ब्याज बिंदुओं का उपयोग कुछ सीमा तक परस्पर विनिमय के लिए किया जाता है और एक इमेज में बिंदु जैसी फीचर्स को संदर्भित करता है, जिसमें एक लोकल दो आयामी संरचना होती है। "कॉर्नर" नाम की उत्पत्ति तब से हुई जब उत्पत्ति कलन विधि ने पहले किनारे का पता लगाया, और फिर दिशा (कोनों) में तेजी से बदलाव अन्वेषण के लिए किनारों का विश्लेषण किया। इन कलन विधि को तब विकसित किया गया था ताकि स्पष्ट किनारे का पता लगाने की आवश्यकता न हो, उदाहरण के लिए इमेज ढाल में वक्रता के उच्च स्तर की अनुसंधान करके। तब यह देखा गया कि इमेज के उन हिस्सों पर तथाकथित कोनों का भी पता लगाया जा रहा था जो पारंपरिक अर्थों में कोने नहीं थे (उदाहरण के लिए एक गहरे रंग की पृष्ठभूमि पर एक छोटा उज्ज्वल स्थान पाया जा सकता है)। इन बिंदुओं को प्रायः रुचि बिंदुओं के रूप में जाना जाता है, लेकिन शब्द का कोना परंपरा द्वारा उपयोग किया जाता है.

बूँदें / ब्याज बिंदुओं के क्षेत्र
ब्लॉब्स क्षेत्रों के संदर्भ में इमेज संरचनाओं का एक पूरक विवरण प्रदान करते हैं, जो कोनों के विपरीत अधिक बिंदु-समान होते हैं। फिर भी, ब्लॉब डिस्क्रिप्टर में प्रायः एक पसंदीदा बिंदु (ऑपरेटर प्रतिक्रिया का एक लोकल अधिकतम या गुरुत्वाकर्षण का केंद्र) हो सकता है, जिसका अर्थ है कि कई ब्लॉब संसूचकों को रुचि बिंदु ऑपरेटर के रूप में भी माना जा सकता है। बूँद  संसूचक एक इमेज में उन क्षेत्रों का पता लगा सकते हैं जो एक कोने वाले  संसूचक द्वारा पहचाने जाने के लिए बहुत चिकने हैं।

एक इमेज को सिकोड़ने और फिर कोने का पता लगाने पर विचार करें। संसूचक उन बिंदुओं पर प्रतिक्रिया देगा जो सिकुड़ी हुई इमेज में तेज हैं, लेकिन मूल इमेज में चिकने हो सकते हैं। यह इस बिंदु पर है कि कोने  संसूचक और बूँद  संसूचक के बीच का अंतर कुछ अस्पष्ट हो जाता है। काफी सीमा तक, पैमाने की उपयुक्त धारणा को सम्मिलित करके इस अंतर को दूर किया जा सकता है। फिर भी, विभिन्न पैमानों पर विभिन्न प्रकार की इमेज संरचनाओं के लिए उनकी प्रतिक्रिया गुणों के कारण,  कोने का पता लगाना  पर लेख में LoG और DoH  बूँद का पता लगाना  का भी उल्लेख किया गया है।

लकीरें
लम्बी वस्तुओं के लिए, लकीरों की धारणा एक प्राकृतिक उपकरण है। एक ग्रे-लेवल इमेज से गणना की गई एक रिज डिस्क्रिप्टर को औसत दर्जे की धुरी के सामान्यीकरण के रूप में देखा जा सकता है। एक व्यावहारिक दृष्टिकोण से, एक रिज को एक आयामी वक्र के रूप में माना जा सकता है जो समरूपता के अक्ष का प्रतिनिधित्व करता है, और इसके अतिरिक्त प्रत्येक रिज बिंदु से जुड़े लोकल रिज की चौड़ाई का एक गुण है। दुर्भाग्य से, हालांकि, किनारा-, कॉर्नर- या ब्लॉब फीचर्स की तुलना में ग्रे-लेवल इमेज के सामान्य वर्गों से रिज फीचर्स को निकालना कलन विधििक रूप से कठिन है। फिर भी, रिज डिस्क्रिप्टर का उपयोग प्रायः हवाई इमेजयों में सड़क निष्कर्षण और चिकित्सा इमेजयों में रक्त वाहिकाओं को निकालने के लिए किया जाता है -  रिज का पता लगाना  देखें।

पता लगाना
फ़ीचर अनुसन्धान में इमेज जानकारी के सार की गणना करने और प्रत्येक इमेज बिंदु पर लोकल परिणाम लेने के तरीके सम्मिलित हैं, चाहे उस बिंदु पर किसी दिए गए प्रकार की इमेज फ़ीचर हो या नहीं। परिणामी फीचर्स इमेज डोमेन के सबसेट होंगे, प्रायः अलग-अलग बिंदुओं, निरंतर घटता या जुड़े क्षेत्रों के रूप में।

फीचर्स का निष्कर्षण कभी-कभी कई स्केलिंग पर किया जाता है। इनमें से एक तरीका स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म (SIFT) है।

निष्कर्षण
एक बार फीचर्स का पता चलने के बाद, फ़ीचर के आसपास एक लोकल इमेज पैच निकाला जा सकता है। इस निष्कर्षण में काफी मात्रा में इमेज प्रोसेसिंग सम्मिलित हो सकती है। परिणाम को फीचर डिस्क्रिप्टर या फीचर वेक्टर के रूप में जाना जाता है। वर्णन करने के लिए उपयोग किए जाने वाले दृष्टिकोणों में, एन-जेट | एन-जेट और लोकल हिस्टोग्राम का उल्लेख किया जा सकता है (लोकल हिस्टोग्राम डिस्क्रिप्टर के एक उदाहरण के लिए स्केल-इनवेरिएंट फीचर ट्रांसफ़ॉर्म देखें)। इस तरह की फ़ीचर जानकारी के अलावा, फीचर अनुसन्धान स्टेप अपने आप में पूरक फ़ीचरएँ भी प्रदान कर सकता है, जैसे कि किनारा अभिविन्यास और  किनारा अनुसन्धान में ग्रेडिएंट परिमाण और ब्लॉब अनुसन्धान में पोलरिटी और ब्लॉब की ताकत।

निम्न स्तर

 * किनारे का पता लगाना
 * कोने का पता लगाना
 * बूँद का पता लगाना
 * रिज का पता लगाना
 * स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म

वक्रता

 * बढ़त की दिशा, बदलती तीव्रता, स्वतः संबंध।

इमेज गति

 * गति का पता लगाना। क्षेत्र आधारित, अंतर दृष्टिकोण। ऑप्टिकल प्रवाह।

आकार आधारित

 * थ्रेसहोल्डिंग (इमेज प्रोसेसिंग)
 * बूँद निष्कर्षण
 * टेम्पलेट मिलान
 * हफ़ ट्रांसफॉर्म
 * पंक्तियाँ
 * वृत्त/दीर्घवृत्त
 * एकपक्षीय आकार (सामान्यीकृत हफ़ ट्रांसफ़ॉर्म)
 * किसी भी पैरामीटर योग्य फ़ीचर के साथ काम करता है (वर्ग चर, क्लस्टर पहचान, आदि ..)
 * सामान्यीकृत हफ़ परिवर्तन

लचीले तरीके

 * विकृत, परिचालित आकार
 * सक्रिय आकृति (साँप)

प्रतिनिधित्व
इमेज डेटा में एक विशिष्ट संरचना के संदर्भ में परिभाषित एक विशिष्ट इमेज फ़ीचर को प्रायः विभिन्न तरीकों से प्रदर्शित किया जा सकता है। उदाहरण के लिए, एक किनारे को प्रत्येक इमेज बिंदु में एक बूलियन चर के रूप में दर्शाया जा सकता है जो बताता है कि उस बिंदु पर एक किनारा मौजूद है या नहीं। वैकल्पिक रूप से, हम इसके स्थान पर एक प्रतिनिधित्व का उपयोग कर सकते हैं जो किनारे के अस्तित्व के बूलियन बयान के स्थान पर मापन अनिश्चितता प्रदान करता है और इसे किनारे के अभिविन्यास (ज्यामिति) के विषय में जानकारी के साथ जोड़ देता है। इसी तरह, एक विशिष्ट क्षेत्र का रंग या तो औसत रंग (तीन स्केलर) या रंग हिस्टोग्राम (तीन कार्यों) के संदर्भ में प्रदर्शित किया जा सकता है।

जब एक कंप्यूटर दृष्टि सिस्टम या कंप्यूटर दृष्टि एल्गोरिथम डिज़ाइन किया जाता है तो फीचर प्रतिनिधित्व का विकल्प एक महत्वपूर्ण मुद्दा हो सकता है। कुछ मामलों में, समस्या को हल करने के लिए किसी फ़ीचर के विवरण में उच्च स्तर का विवरण आवश्यक हो सकता है, लेकिन यह अधिक डेटा और अधिक मांग वाले प्रसंस्करण से निपटने की कीमत पर आता है। नीचे, उपयुक्त प्रतिनिधित्व को चुनने के लिए प्रासंगिक कारकों में से कुछ पर चर्चा की गई है। इस चर्चा में, एक फीचर प्रतिनिधित्व के एक उदाहरण को कहा जाता है, या बस वर्णनकर्ता।

निश्चितता या विश्वास
इमेज फीचर्स के दो उदाहरण एक इमेज अनुक्रम में लोकल बढ़त अभिविन्यास और लोकल वेग हैं। अभिविन्यास के मामले में, इस फ़ीचर का मान अधिक या कम अपरिभाषित हो सकता है यदि संबंधित प्रतिवेश में एक से अधिक किनारे मौजूद हों। लोकल वेग अपरिभाषित है यदि संबंधित इमेज क्षेत्र में कोई स्थानिक भिन्नता नहीं है। इस अवलोकन के परिणामस्वरूप, फीचर प्रतिनिधित्व का उपयोग करना प्रासंगिक हो सकता है जिसमें फीचर वैल्यू के विषय में बयान से संबंधित निश्चितता या विश्वास का एक उपाय सम्मिलित है। अन्यथा, यह एक विशिष्ट स्थिति है कि एक ही विवरणक का उपयोग इस वर्णनकर्ता की व्याख्या में परिणामी अस्पष्टता के साथ, कम निश्चितता के फीचर मूल्यों और शून्य के निकट फ़ीचर मूल्यों का प्रतिनिधित्व करने के लिए किया जाता है। आवेदन के आधार पर, ऐसी अस्पष्टता स्वीकार्य हो भी सकती है और नहीं भी हो सकती है।

विशेष रूप से, यदि एक चित्रित इमेज का उपयोग बाद के प्रसंस्करण में किया जाएगा, तो निश्चितता या विश्वास के विषय में जानकारी सम्मिलित करने वाले फीचर प्रतिनिधित्व को नियोजित करना एक अच्छा विचार हो सकता है। यह एक नए फीचर डिस्क्रिप्टर को कई डिस्क्रिप्टर से गणना करने में सक्षम बनाता है, उदाहरण के लिए एक ही इमेज बिंदु पर गणना की जाती है, लेकिन अलग-अलग पैमानों पर, या अलग-अलग लेकिन प्रतिवेशी बिंदुओं से, भारित औसत के संदर्भ में जहां वजन संबंधित निश्चितताओं से प्राप्त होता है। सरलतम मामले में, संबंधित संगणना को चित्रित इमेज के निम्न-पास फ़िल्टरिंग के रूप में प्रयुक्त किया जा सकता है। परिणामी फीचर इमेज, सामान्य रूप से, शोर के प्रति अधिक स्थिर होगी।

औसतता
निरूपण में सम्मिलित निश्चित उपायों के अलावा, संबंधित फीचर मानों का निरूपण स्वयं एक औसत संचालन के लिए उपयुक्त हो सकता है या नहीं। अधिकांश फीचर प्रस्तुतियों को व्यवहार में औसत किया जा सकता है, लेकिन केवल कुछ मामलों में परिणामी विवरणक को फीचर मान के संदर्भ में सही व्याख्या दी जा सकती है। ऐसे अभ्यावेदन को औसत कहा जाता है।

उदाहरण के लिए, यदि किसी किनारे के अभिविन्यास को कोण के संदर्भ में दर्शाया गया है, तो इस प्रतिनिधित्व में एक अनुरक्ति होना चाहिए जहां कोण अपने अधिकतम मान से न्यूनतम मान तक आच्छादित है। परिणामस्वरूप, ऐसा हो सकता है कि दो समान अभिविन्यास कोणों द्वारा दर्शाए जाते हैं जिनका तात्पर्य है जो मूल कोणों में से किसी के निकट नहीं है और इसलिए, यह प्रतिनिधित्व औसत नहीं है। किनारा अभिविन्यास के अन्य प्रतिनिधित्व जैसे संरचना टेन्सर हैं, जो औसत हैं।

एक अन्य उदाहरण गति से संबंधित है, जहां कुछ मामलों में केवल कुछ किनारों के सापेक्ष सामान्य वेग निकाला जा सकता है। यदि ऐसी दो फीचर्स निकाली गई हैं और उन्हें एक ही वास्तविक वेग के रूप में माना जा सकता है, तो यह वेग सामान्य वेग सदिशों के औसत के रूप में नहीं दिया जाता है। इसलिए, सामान्य वेग वैक्टर औसत नहीं हैं। इसके स्थान पर, मैट्रिसेस या टेन्सर्स का उपयोग करते हुए गतियों के अन्य निरूपण हैं, जो सामान्य वेग वर्णनकर्ताओं के औसत संचालन के संदर्भ में सही वेग देते हैं।

मिलान
प्रत्येक इमेज में पाई गई फीचर्स को संबंधित बिंदुओं जैसे संबंधित फीचर्स को स्थापित करने के लिए कई इमेजयों से मिलान किया जा सकता है।

कलन विधि संदर्भ इमेज और लक्ष्य इमेज के बीच बिंदु पत्राचार की तुलना और विश्लेषण पर आधारित है। यदि अव्यवस्थित दृश्य का कोई भी हिस्सा प्रारंभ से अधिक पत्राचार साझा करता है, तो अव्यवस्थित दृश्य इमेज के उस हिस्से को लक्षित किया जाता है और वहां संदर्भ वस्तु को सम्मिलित करने पर विचार किया जाता है।

यह भी देखें

 * कंप्यूटर दृष्टि
 * स्वचालित इमेज एनोटेशन
 * फ़ीचर लर्निंग
 * फीचर चयन
 * अग्रभूमि पहचान
 * वैश्वीकरण (इमेज ट्रेसिंग)

अग्रिम पठन

 * (summary and review of a number of feature detectors formulated based on a scale-space operations)