फ़ीचर (कंप्यूटर विज़न)

कंप्यूटर दृष्टि और छवि प्रसंस्करण में, एक सुविधा छवि की सामग्री के बारे में जानकारी का एक टुकड़ा है; आम तौर पर छवि के एक निश्चित क्षेत्र में कुछ गुण हैं या नहीं, इसके बारे में। विशेषताएं छवि में विशिष्ट संरचनाएं हो सकती हैं जैसे बिंदु, किनारे या ऑब्जेक्ट। विशेषताएं एक सामान्य पड़ोस ऑपरेशन या छवि पर लागू फीचर डिटेक्शन का परिणाम भी हो सकती हैं। विशेषताओं के अन्य उदाहरण छवि अनुक्रमों में गति से संबंधित हैं, या विभिन्न छवि क्षेत्रों के बीच घटता या सीमाओं के रूप में परिभाषित आकृतियों से संबंधित हैं।

अधिक मोटे तौर पर एक विशेषता सूचना का कोई भी भाग है जो एक निश्चित अनुप्रयोग से संबंधित कम्प्यूटेशनल कार्य को हल करने के लिए प्रासंगिक है। यह यंत्र अधिगम  और पैटर्न मान्यता में  फ़ीचर (मशीन लर्निंग)  के समान ही है, हालांकि  मूर्ति प्रोद्योगिकी  में सुविधाओं का एक बहुत ही परिष्कृत संग्रह है। फ़ीचर अवधारणा बहुत सामान्य है और किसी विशेष कंप्यूटर विज़न सिस्टम में सुविधाओं का चुनाव विशिष्ट समस्या पर अत्यधिक निर्भर हो सकता है।

परिभाषा
किसी विशेषता का गठन करने की कोई सार्वभौमिक या सटीक परिभाषा नहीं है, और सटीक परिभाषा अक्सर समस्या या अनुप्रयोग के प्रकार पर निर्भर करती है। फिर भी, एक सुविधा को आमतौर पर एक डिजिटल छवि के एक दिलचस्प हिस्से के रूप में परिभाषित किया जाता है, और सुविधाओं का उपयोग कई कंप्यूटर विज़न एल्गोरिदम के लिए शुरुआती बिंदु के रूप में किया जाता है।

चूंकि बाद के एल्गोरिदम के लिए शुरुआती बिंदु और मुख्य आदिम के रूप में सुविधाओं का उपयोग किया जाता है, इसलिए समग्र एल्गोरिदम अक्सर इसके फीचर डिटेक्टर जितना ही अच्छा होगा। नतीजतन, फीचर डिटेक्टर के लिए वांछनीय संपत्ति दोहराने योग्यता है: एक ही दृश्य के दो या दो से अधिक अलग-अलग छवियों में एक ही सुविधा का पता लगाया जाएगा या नहीं।

फ़ीचर डिटेक्शन एक निम्न-स्तरीय इमेज प्रोसेसिंग ऑपरेशन है। यही है, यह आमतौर पर एक छवि पर पहले ऑपरेशन के रूप में किया जाता है, और यह देखने के लिए प्रत्येक पिक्सेल की जांच करता है कि उस पिक्सेल में कोई सुविधा मौजूद है या नहीं। यदि यह एक बड़े एल्गोरिथ्म का हिस्सा है, तो एल्गोरिथ्म आमतौर पर केवल सुविधाओं के क्षेत्र में छवि की जांच करेगा। फीचर डिटेक्शन के लिए एक अंतर्निहित पूर्व-आवश्यकता के रूप में, इनपुट इमेज को आमतौर पर स्केल स्पेस में गौस्सियन धुंधलापन  कर्नेल द्वारा स्मूथ किया जाता है। स्केल-स्पेस प्रतिनिधित्व और एक या कई फीचर इमेज की गणना की जाती है, जिसे अक्सर स्थानीय  छवि व्युत्पन्न  ऑपरेशंस के संदर्भ में व्यक्त किया जाता है।.

कभी-कभी, जब फीचर डिटेक्शन कम्प्यूटेशनल रूप से महंगा होता है और समय की कमी होती है, तो फीचर डिटेक्शन चरण को निर्देशित करने के लिए एक उच्च स्तरीय एल्गोरिदम का उपयोग किया जा सकता है, ताकि छवि के केवल कुछ हिस्सों को सुविधाओं के लिए खोजा जा सके।

कई कंप्यूटर विज़न एल्गोरिदम हैं जो प्रारंभिक चरण के रूप में फीचर डिटेक्शन का उपयोग करते हैं, इसलिए इसके परिणामस्वरूप, बहुत बड़ी संख्या में फीचर डिटेक्टर विकसित किए गए हैं। ये पता लगाए गए फीचर, कम्प्यूटेशनल जटिलता और दोहराने योग्यता के प्रकार में व्यापक रूप से भिन्न होते हैं।

जब सुविधाओं को एक छवि पर लागू स्थानीय पड़ोस के संचालन के संदर्भ में परिभाषित किया जाता है, तो एक प्रक्रिया जिसे आमतौर पर 'फीचर एक्सट्रैक्शन' कहा जाता है, कोई भी फीचर डिटेक्शन दृष्टिकोणों के बीच अंतर कर सकता है जो स्थानीय निर्णय लेते हैं कि क्या किसी दिए गए चित्र में किसी दिए गए प्रकार की विशेषता है या नहीं। बिंदु या नहीं, और जो परिणाम के रूप में गैर-बाइनरी डेटा उत्पन्न करते हैं। भेद तब प्रासंगिक हो जाता है जब परिणामी खोजी गई विशेषताएं अपेक्षाकृत विरल होती हैं। हालांकि स्थानीय निर्णय किए जाते हैं, फीचर डिटेक्शन स्टेप से आउटपुट को बाइनरी इमेज होने की आवश्यकता नहीं है। परिणाम अक्सर उन छवि बिंदुओं के सेट (जुड़े या असंबद्ध) निर्देशांक के संदर्भ में प्रस्तुत किया जाता है जहां विशेषताओं का पता लगाया गया है, कभी-कभी उप-पिक्सेल सटीकता के साथ।

जब स्थानीय निर्णय लेने के बिना फीचर एक्सट्रैक्शन किया जाता है, तो परिणाम को अक्सर फीचर इमेज के रूप में संदर्भित किया जाता है। नतीजतन, एक फीचर छवि को एक छवि के रूप में देखा जा सकता है कि यह मूल छवि के समान स्थानिक (या लौकिक) चर का एक कार्य है, लेकिन जहां पिक्सेल मान तीव्रता या रंग के बजाय छवि सुविधाओं के बारे में जानकारी रखते हैं। इसका मतलब यह है कि एक फीचर इमेज को उसी तरह से प्रोसेस किया जा सकता है जैसे इमेज सेंसर द्वारा उत्पन्न एक साधारण इमेज। फीचर छवियों को अक्सर फीचर डिटेक्शन के लिए एल्गोरिदम में एकीकृत कदम के रूप में गिना जाता है।

फीचर वैक्टर और फीचर स्पेस
कुछ अनुप्रयोगों में, छवि डेटा से संबंधित जानकारी प्राप्त करने के लिए केवल एक प्रकार की सुविधा निकालना पर्याप्त नहीं है। इसके बजाय दो या दो से अधिक अलग-अलग विशेषताओं को निकाला जाता है, जिसके परिणामस्वरूप प्रत्येक छवि बिंदु पर दो या दो से अधिक फीचर डिस्क्रिप्टर होते हैं। एक सामान्य अभ्यास इन सभी विवरणों द्वारा प्रदान की गई जानकारी को एक एकल वेक्टर के तत्वों के रूप में व्यवस्थित करना है, जिसे आमतौर पर फीचर वेक्टर के रूप में संदर्भित किया जाता है। सभी संभावित फीचर वैक्टर का सेट एक फीचर स्पेस बनाता है। फीचर वैक्टर का एक सामान्य उदाहरण तब प्रकट होता है जब प्रत्येक छवि बिंदु को एक विशिष्ट वर्ग से संबंधित के रूप में वर्गीकृत किया जाता है। यह मानते हुए कि प्रत्येक छवि बिंदु में सुविधाओं के उपयुक्त सेट के आधार पर एक संबंधित फीचर वेक्टर होता है, जिसका अर्थ है कि प्रत्येक वर्ग को संबंधित फीचर स्पेस में अच्छी तरह से अलग किया जाता है, प्रत्येक छवि बिंदु का वर्गीकरण मानक सांख्यिकीय वर्गीकरण पद्धति का उपयोग करके किया जा सकता है।

एक अन्य और संबंधित उदाहरण तब होता है जब कृत्रिम तंत्रिका नेटवर्क-आधारित प्रसंस्करण छवियों पर लागू होता है। तंत्रिका नेटवर्क को खिलाया गया इनपुट डेटा अक्सर प्रत्येक छवि बिंदु से फीचर वेक्टर के रूप में दिया जाता है, जहां वेक्टर छवि डेटा से निकाले गए कई अलग-अलग सुविधाओं से बना होता है। सीखने के चरण के दौरान, नेटवर्क स्वयं यह पता लगा सकता है कि समस्या को हल करने के लिए विभिन्न विशेषताओं का कौन सा संयोजन उपयोगी है।

किनारों
किनारे वे बिंदु होते हैं जहां दो छवि क्षेत्रों के बीच एक सीमा (या एक किनारा) होती है। सामान्य तौर पर, एक किनारा लगभग मनमाना आकार का हो सकता है, और इसमें जंक्शन शामिल हो सकते हैं। व्यवहार में, किनारों को आमतौर पर छवि में बिंदुओं के सेट के रूप में परिभाषित किया जाता है, जिसमें एक मजबूत ढाल परिमाण होता है। इसके अलावा, कुछ सामान्य एल्गोरिदम फिर एक किनारे का अधिक पूर्ण विवरण बनाने के लिए एक साथ उच्च ढाल वाले बिंदुओं को श्रृंखलाबद्ध करेंगे। ये एल्गोरिदम आम तौर पर किनारे के गुणों पर कुछ बाधाएं डालते हैं, जैसे कि आकार, चिकनाई और ढाल मूल्य।

स्थानीय रूप से, किनारों में एक आयामी संरचना होती है।

कोने / ब्याज अंक
शब्दों के कोनों और ब्याज बिंदुओं का उपयोग कुछ हद तक परस्पर विनिमय के लिए किया जाता है और एक छवि में बिंदु जैसी विशेषताओं को संदर्भित करता है, जिसमें एक स्थानीय दो आयामी संरचना होती है। कॉर्नर नाम की उत्पत्ति तब से हुई जब शुरुआती एल्गोरिदम ने पहले किनारे का पता लगाना  किया, और फिर दिशा (कोनों) में तेजी से बदलाव खोजने के लिए किनारों का विश्लेषण किया। इन एल्गोरिदम को तब विकसित किया गया था ताकि स्पष्ट किनारे का पता लगाने की आवश्यकता न हो, उदाहरण के लिए छवि ढाल में वक्रता के उच्च स्तर की तलाश करके। तब यह देखा गया कि छवि के उन हिस्सों पर तथाकथित कोनों का भी पता लगाया जा रहा था जो पारंपरिक अर्थों में कोने नहीं थे (उदाहरण के लिए एक गहरे रंग की पृष्ठभूमि पर एक छोटा उज्ज्वल स्थान पाया जा सकता है)। इन बिंदुओं को अक्सर रुचि बिंदुओं के रूप में जाना जाता है, लेकिन शब्द का कोना परंपरा द्वारा उपयोग किया जाता है.

बूँदें / ब्याज बिंदुओं के क्षेत्र
ब्लॉब्स क्षेत्रों के संदर्भ में छवि संरचनाओं का एक पूरक विवरण प्रदान करते हैं, जो कोनों के विपरीत अधिक बिंदु-समान होते हैं। फिर भी, ब्लॉब डिस्क्रिप्टर में अक्सर एक पसंदीदा बिंदु (ऑपरेटर प्रतिक्रिया का एक स्थानीय अधिकतम या गुरुत्वाकर्षण का केंद्र) हो सकता है, जिसका अर्थ है कि कई ब्लॉब डिटेक्टरों को रुचि बिंदु ऑपरेटर के रूप में भी माना जा सकता है। बूँद डिटेक्टर एक छवि में उन क्षेत्रों का पता लगा सकते हैं जो एक कोने वाले डिटेक्टर द्वारा पहचाने जाने के लिए बहुत चिकने हैं।

एक छवि को सिकोड़ने और फिर कोने का पता लगाने पर विचार करें। डिटेक्टर उन बिंदुओं पर प्रतिक्रिया देगा जो सिकुड़ी हुई छवि में तेज हैं, लेकिन मूल छवि में चिकने हो सकते हैं। यह इस बिंदु पर है कि कोने डिटेक्टर और बूँद डिटेक्टर के बीच का अंतर कुछ अस्पष्ट हो जाता है। काफी हद तक, पैमाने की उपयुक्त धारणा को शामिल करके इस अंतर को दूर किया जा सकता है। फिर भी, विभिन्न पैमानों पर विभिन्न प्रकार की छवि संरचनाओं के लिए उनकी प्रतिक्रिया गुणों के कारण, कोने का पता लगाना  पर लेख में LoG और DoH  बूँद का पता लगाना  का भी उल्लेख किया गया है।

लकीरें
लम्बी वस्तुओं के लिए, लकीरों की धारणा एक प्राकृतिक उपकरण है। एक ग्रे-लेवल छवि से गणना की गई एक रिज डिस्क्रिप्टर को औसत दर्जे की धुरी के सामान्यीकरण के रूप में देखा जा सकता है। एक व्यावहारिक दृष्टिकोण से, एक रिज को एक आयामी वक्र के रूप में माना जा सकता है जो समरूपता के अक्ष का प्रतिनिधित्व करता है, और इसके अतिरिक्त प्रत्येक रिज बिंदु से जुड़े स्थानीय रिज की चौड़ाई का एक गुण है। दुर्भाग्य से, हालांकि, एज-, कॉर्नर- या ब्लॉब फीचर्स की तुलना में ग्रे-लेवल इमेज के सामान्य वर्गों से रिज फीचर्स को निकालना एल्गोरिदमिक रूप से कठिन है। फिर भी, रिज डिस्क्रिप्टर का उपयोग अक्सर हवाई छवियों में सड़क निष्कर्षण और चिकित्सा छवियों में रक्त वाहिकाओं को निकालने के लिए किया जाता है - रिज का पता लगाना  देखें।

पता लगाना
फ़ीचर डिटेक्शन में छवि जानकारी के सार की गणना करने और प्रत्येक छवि बिंदु पर स्थानीय निर्णय लेने के तरीके शामिल हैं, चाहे उस बिंदु पर किसी दिए गए प्रकार की छवि सुविधा हो या नहीं। परिणामी विशेषताएं छवि डोमेन के सबसेट होंगे, अक्सर अलग-अलग बिंदुओं, निरंतर घटता या जुड़े क्षेत्रों के रूप में।

सुविधाओं का निष्कर्षण कभी-कभी कई स्केलिंग पर किया जाता है। इनमें से एक तरीका स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म (SIFT) है।

निष्कर्षण
एक बार विशेषताओं का पता चलने के बाद, सुविधा के आसपास एक स्थानीय छवि पैच निकाला जा सकता है। इस निष्कर्षण में काफी मात्रा में इमेज प्रोसेसिंग शामिल हो सकती है। परिणाम को फीचर डिस्क्रिप्टर या फीचर वेक्टर के रूप में जाना जाता है। वर्णन करने के लिए उपयोग किए जाने वाले दृष्टिकोणों में, एन-जेट | एन-जेट और स्थानीय हिस्टोग्राम का उल्लेख किया जा सकता है (स्थानीय हिस्टोग्राम डिस्क्रिप्टर के एक उदाहरण के लिए स्केल-इनवेरिएंट फीचर ट्रांसफ़ॉर्म देखें)। इस तरह की विशेषता जानकारी के अलावा, फीचर डिटेक्शन स्टेप अपने आप में पूरक विशेषताएँ भी प्रदान कर सकता है, जैसे कि एज ओरिएंटेशन और एज डिटेक्शन में ग्रेडिएंट परिमाण और ब्लॉब डिटेक्शन में पोलरिटी और ब्लॉब की ताकत।

निम्न स्तर

 * किनारे का पता लगाना
 * कोने का पता लगाना
 * बूँद का पता लगाना
 * रिज का पता लगाना
 * स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म

वक्रता

 * बढ़त की दिशा, बदलती तीव्रता, स्वतः संबंध।

छवि गति

 * गति का पता लगाना। क्षेत्र आधारित, अंतर दृष्टिकोण। ऑप्टिकल प्रवाह।

आकार आधारित

 * थ्रेसहोल्डिंग (इमेज प्रोसेसिंग)
 * बूँद निष्कर्षण
 * टेम्पलेट मिलान
 * हफ़ ट्रांसफॉर्म
 * पंक्तियाँ
 * वृत्त/दीर्घवृत्त
 * मनमाना आकार (सामान्यीकृत हफ़ ट्रांसफ़ॉर्म)
 * किसी भी पैरामीटर योग्य सुविधा के साथ काम करता है (वर्ग चर, क्लस्टर पहचान, आदि ..)
 * सामान्यीकृत हफ़ परिवर्तन

लचीले तरीके

 * विकृत, परिचालित आकार
 * सक्रिय आकृति (साँप)

प्रतिनिधित्व
छवि डेटा में एक विशिष्ट संरचना के संदर्भ में परिभाषित एक विशिष्ट छवि विशेषता को अक्सर विभिन्न तरीकों से प्रदर्शित किया जा सकता है। उदाहरण के लिए, एक किनारे को प्रत्येक छवि बिंदु में एक बूलियन चर के रूप में दर्शाया जा सकता है जो बताता है कि उस बिंदु पर एक किनारा मौजूद है या नहीं। वैकल्पिक रूप से, हम इसके बजाय एक प्रतिनिधित्व का उपयोग कर सकते हैं जो किनारे के अस्तित्व के बूलियन बयान के बजाय मापन अनिश्चितता प्रदान करता है और इसे किनारे के अभिविन्यास (ज्यामिति) के बारे में जानकारी के साथ जोड़ देता है। इसी तरह, एक विशिष्ट क्षेत्र का रंग या तो औसत रंग (तीन स्केलर) या रंग हिस्टोग्राम (तीन कार्यों) के संदर्भ में प्रदर्शित किया जा सकता है।

जब एक कंप्यूटर विज़न सिस्टम या कंप्यूटर विज़न एल्गोरिथम डिज़ाइन किया जाता है तो फीचर प्रतिनिधित्व का विकल्प एक महत्वपूर्ण मुद्दा हो सकता है। कुछ मामलों में, समस्या को हल करने के लिए किसी सुविधा के विवरण में उच्च स्तर का विवरण आवश्यक हो सकता है, लेकिन यह अधिक डेटा और अधिक मांग वाले प्रसंस्करण से निपटने की कीमत पर आता है। नीचे, उपयुक्त प्रतिनिधित्व को चुनने के लिए प्रासंगिक कारकों में से कुछ पर चर्चा की गई है। इस चर्चा में, एक फीचर प्रतिनिधित्व के एक उदाहरण को कहा जाता है, या बस वर्णनकर्ता।

निश्चितता या विश्वास
छवि सुविधाओं के दो उदाहरण एक छवि अनुक्रम में स्थानीय बढ़त ओरिएंटेशन और स्थानीय वेग हैं। अभिविन्यास के मामले में, इस विशेषता का मान अधिक या कम अपरिभाषित हो सकता है यदि संबंधित पड़ोस में एक से अधिक किनारे मौजूद हों। स्थानीय वेग अपरिभाषित है यदि संबंधित छवि क्षेत्र में कोई स्थानिक भिन्नता नहीं है। इस अवलोकन के परिणामस्वरूप, फीचर प्रतिनिधित्व का उपयोग करना प्रासंगिक हो सकता है जिसमें फीचर वैल्यू के बारे में बयान से संबंधित निश्चितता या विश्वास का एक उपाय शामिल है। अन्यथा, यह एक विशिष्ट स्थिति है कि एक ही विवरणक का उपयोग इस वर्णनकर्ता की व्याख्या में परिणामी अस्पष्टता के साथ, कम निश्चितता के फीचर मूल्यों और शून्य के करीब सुविधा मूल्यों का प्रतिनिधित्व करने के लिए किया जाता है। आवेदन के आधार पर, ऐसी अस्पष्टता स्वीकार्य हो भी सकती है और नहीं भी।

विशेष रूप से, यदि एक चित्रित छवि का उपयोग बाद के प्रसंस्करण में किया जाएगा, तो निश्चितता या विश्वास के बारे में जानकारी शामिल करने वाले फीचर प्रतिनिधित्व को नियोजित करना एक अच्छा विचार हो सकता है। यह एक नए फीचर डिस्क्रिप्टर को कई डिस्क्रिप्टर से गणना करने में सक्षम बनाता है, उदाहरण के लिए एक ही छवि बिंदु पर गणना की जाती है, लेकिन अलग-अलग पैमानों पर, या अलग-अलग लेकिन पड़ोसी बिंदुओं से, भारित औसत के संदर्भ में जहां वजन संबंधित निश्चितताओं से प्राप्त होता है। सरलतम मामले में, संबंधित संगणना को चित्रित छवि के निम्न-पास फ़िल्टरिंग के रूप में लागू किया जा सकता है। परिणामी फीचर छवि, सामान्य रूप से, शोर के प्रति अधिक स्थिर होगी।

औसतता
निरूपण में शामिल निश्चित उपायों के अलावा, संबंधित फीचर मानों का निरूपण स्वयं एक औसत संचालन के लिए उपयुक्त हो सकता है या नहीं। अधिकांश फीचर प्रस्तुतियों को व्यवहार में औसत किया जा सकता है, लेकिन केवल कुछ मामलों में परिणामी विवरणक को फीचर मान के संदर्भ में सही व्याख्या दी जा सकती है। ऐसे अभ्यावेदन को औसत कहा जाता है।

उदाहरण के लिए, यदि किसी किनारे के अभिविन्यास को कोण के संदर्भ में दर्शाया गया है, तो इस प्रतिनिधित्व में एक असंतोष होना चाहिए जहां कोण अपने अधिकतम मान से न्यूनतम मान तक लपेटता है। नतीजतन, ऐसा हो सकता है कि दो समान अभिविन्यास कोणों द्वारा दर्शाए जाते हैं जिनका एक मतलब है जो मूल कोणों में से किसी के करीब नहीं है और इसलिए, यह प्रतिनिधित्व औसत नहीं है। एज ओरिएंटेशन के अन्य प्रतिनिधित्व हैं, जैसे संरचना टेन्सर, जो औसत हैं।

एक अन्य उदाहरण गति से संबंधित है, जहां कुछ मामलों में केवल कुछ किनारों के सापेक्ष सामान्य वेग निकाला जा सकता है। यदि ऐसी दो विशेषताएं निकाली गई हैं और उन्हें एक ही वास्तविक वेग के रूप में माना जा सकता है, तो यह वेग सामान्य वेग सदिशों के औसत के रूप में नहीं दिया जाता है। इसलिए, सामान्य वेग वैक्टर औसत नहीं हैं। इसके बजाय, मैट्रिसेस या टेन्सर्स का उपयोग करते हुए गतियों के अन्य निरूपण हैं, जो सामान्य वेग वर्णनकर्ताओं के औसत संचालन के संदर्भ में सही वेग देते हैं।

मिलान
प्रत्येक छवि में पाई गई विशेषताओं को संबंधित बिंदुओं जैसे संबंधित सुविधाओं को स्थापित करने के लिए कई छवियों से मिलान किया जा सकता है।

एल्गोरिथ्म संदर्भ छवि और लक्ष्य छवि के बीच बिंदु पत्राचार की तुलना और विश्लेषण पर आधारित है। यदि अव्यवस्थित दृश्य का कोई भी हिस्सा दहलीज से अधिक पत्राचार साझा करता है, तो अव्यवस्थित दृश्य छवि के उस हिस्से को लक्षित किया जाता है और वहां संदर्भ वस्तु को शामिल करने पर विचार किया जाता है।

यह भी देखें

 * कंप्यूटर दृष्टि
 * स्वचालित छवि एनोटेशन
 * फ़ीचर लर्निंग
 * फीचर चयन
 * अग्रभूमि पहचान
 * वैश्वीकरण (इमेज ट्रेसिंग)

अग्रिम पठन

 * (summary and review of a number of feature detectors formulated based on a scale-space operations)