कंप्यूटर विज़न

कंप्यूटर  दृष्टि एक अंतःविषय वैज्ञानिक क्षेत्र है जो इस बात से संबंधित है कि कैसे कंप्यूटर  डिजिटल छवियों या  वीडियो  से उच्च-स्तरीय समझ प्राप्त कर सकते हैं।  अभियांत्रिकी  के दृष्टिकोण से, यह उन कार्यों को समझने और स्वचालित करने का प्रयास करता है जो  मानव दृश्य प्रणाली  कर सकती है। कंप्यूटर दृष्टि कार्यों में डिजिटल छवियों को प्राप्त करने, छवि प्रसंस्करण,  छवि विश्लेषण, डिजिटल छवियों को समझने, और संख्यात्मक या प्रतीकात्मक सूचना उत्पन्न करने के लिए वास्तविक संसार से उच्च-आयामी डेटा निकालने की विधियाँ सम्मिलित हैं, उदा। निर्णयों के रूपों में।    इस संदर्भ में समझ का अर्थ है दृश्य छवियों (रेटिना के इनपुट) को संसार के विवरणों में बदलना जो विचार प्रक्रियाओं के लिए समझ में आता है और जो उचित कार्रवाई कर सकता है। इस छवि समझ को ज्यामिति, भौतिकी, सांख्यिकी और सीखने के सिद्धांत की सहायता से निर्मित मॉडलों का उपयोग करके छवि डेटा से प्रतीकात्मक जानकारी को अलग करने के रूप में देखा जा सकता है।

कंप्यूटर दृष्टि का वैज्ञानिक अनुशासन  कृत्रिम प्रणालियों के पीछे के सिद्धांत से संबंधित है जो छवियों से जानकारी निकालता है। छवि डेटा कई रूप ले सकता है, जैसे वीडियो अनुक्रम, कई कैमरों से दृश्य, त्रि-आयामी स्कैनर से बहु-आयामी डेटा, या मेडिकल स्कैनिंग डिवाइस आदि। कंप्यूटर दृष्टि का तकनीकी अनुशासन कंप्यूटर दृष्टि सिस्टम के निर्माण के लिए अपने सिद्धांतों और मॉडलों को लागू करना चाहता है।

कंप्यूटर दृष्टि के उप-डोमेन में त्रि-आयामी पुनर्निर्माण, वस्तु का पता लगाना, इवेंट डिटेक्शन,  वीडियो ट्रैकिंग ,  वस्तु मान्यता , त्रि-आयामी पोज़ अनुमान, सीखना, इंडेक्स,  गति का अनुमान ,  दृश्य सर्विंग , त्रि-आयामी सीन मॉडलिंग और  छवि बहाली  सम्मिलित हैं।

परिभाषा
कंप्यूटर दृष्टि एक अंतःविषय क्षेत्र है जो इस बात से संबंधित है कि डिजिटल छवियों या वीडियो से उच्च-स्तरीय समझ प्राप्त करने के लिए कंप्यूटर कैसे बनाया जा सकता है। इंजीनियरिंग के दृष्टिकोण से, यह उन कार्यों को स्वचालित करना चाहता है जो मानव दृश्य प्रणाली कर सकती है।   कंप्यूटर दृष्टि का संबंध किसी एकल छवि या छवियों के अनुक्रम से स्वचालित निष्कर्षण, विश्लेषण और उपयोगी जानकारी की समझ से है। इसमें स्वचालित दृश्य समझ प्राप्त करने के लिए वैज्ञानिक अनुशासन के रूप में सैद्धांतिक और एल्गोरिथम आधार का विकास सम्मिलित है। कंप्यूटर दृष्टि कृत्रिम प्रणालियों के पीछे के सिद्धांत से संबंधित है जो छवियों से जानकारी निकालती है। छवि डेटा कई रूप ले सकता है, जैसे वीडियो अनुक्रम, एकाधिक कैमरों से दृश्य, या  चिकित्सा स्कैनर  से बहु-आयामी डेटा। एक तकनीकी अनुशासन के रूप में, कंप्यूटर दृष्टि कंप्यूटर दृष्टि सिस्टम के निर्माण के लिए अपने सिद्धांतों और मॉडलों को लागू करना चाहता है।

इतिहास
1960 के दशक के उत्तरार्ध में, कंप्यूटर दृष्टि उन विश्वविद्यालयों में प्रारंभ हुआ जो कृत्रिम बुद्धिमत्ता का नेतृत्व कर रहे थे। यह मानव दृश्य प्रणाली की नकल करने के लिए बुद्धिमान व्यवहार के साथ रोबोट को समाप्त करने के लिए एक कदम के रूप में था। 1966 में, यह माना गया था कि यह एक ग्रीष्मकालीन परियोजना के माध्यम से एक कंप्यूटर से एक कैमरा जोड़कर और "इसने जो देखा उसका वर्णन" करके प्राप्त किया जा सकता है।

उस समय डिजिटल इमेज प्रोसेसिंग  के प्रचलित क्षेत्र से अलग कंप्यूटर दृष्टि क्या था, पूर्ण दृश्य समझ प्राप्त करने के लक्ष्य के साथ छवियों से त्रि-आयामी संरचना निकालने की इच्छा थी। 1970 के दशक में किए गए अध्ययनों ने आज उपस्थित कई कंप्यूटर दृष्टि  कलन विधि  के लिए प्रारंभिक नींव तैयार की, जिसमें छवियों से  किनारे का पता लगाना, लाइनों की लेबलिंग, गैर-पॉलीहेड्रल और  पॉलीहेड्रॉन मॉडलिंग , छोटी संरचनाओं के इंटरकनेक्शन के रूप में वस्तुओं का प्रतिनिधित्व,  ऑप्टिकल प्रवाह  और गति अनुमान सम्मिलित हैं।

अगले दशक में अधिक कठोर गणितीय विश्लेषण और कंप्यूटर दृष्टि के मात्रात्मक पहलुओं पर आधारित अध्ययन हुए। इनमें स्केल स्पेस  अवधारणा, छायांकन, आकृति और फ़ोकस जैसे विभिन्न संकेतों से आकृति का अनुमान और  सक्रिय समोच्च मॉडल  सम्मिलित हैं। शोधकर्ताओं ने यह भी अनुभूत किया कि इनमें से कई गणितीय अवधारणाओं को उसी अनुकूलन संरचना के अन्दर  नियमितीकरण (गणित)  और  मार्कोव यादृच्छिक क्षेत्रों के रूप में माना जा सकता है।

1990 के दशक तक, पिछले कुछ शोध विषय दूसरों की तुलना में अधिक सक्रिय हो गए। प्रोजेक्टिव ज्यामिति त्रि-आयामी पुनर्निर्माण में अनुसंधान|त्रि-आयामी पुनर्निर्माण से कैमरा शोधन की बेहतर समझ उत्पन्न हुई। कैमरा अंशांकन के लिए अनुकूलन विधियों के आगमन के साथ, यह अनुभूत किया गया कि  फोटोग्राममेट्री  के क्षेत्र से  बंडल समायोजन सिद्धांत में पहले से ही बहुत सारे विचारों का पता लगाया गया था। इसने कई छवियों से विरल त्रि-आयामी पुनर्निर्माण के विधियों का नेतृत्व किया। कई छवियों से दृश्यों के त्रि-आयामी पुनर्निर्माण। सघन स्टीरियो पत्राचार समस्या और आगे बहु-दृश्य स्टीरियो तकनीकों पर प्रगति की गई। उसी समय,  छवि विभाजन का समाधान करने के लिए  कंप्यूटर दृष्टि में ग्राफ कटौती का उपयोग किया गया था। इस दशक में पहली बार छवियों में चेहरों को पहचानने के लिए अभ्यास में सांख्यिकीय शिक्षण तकनीकों का उपयोग किया गया था ( स्वयं का चेहरा देखें)। 1990 के दशक के अंत में,  कंप्यूटर ग्राफिक्स (कंप्यूटर विज्ञान) और कंप्यूटर दृष्टि के क्षेत्रों के बीच बढ़ती बातचीत के साथ एक महत्वपूर्ण परिवर्तन आया। इसमें इमेज-आधारित रेंडरिंग,  मॉर्फिंग, व्यू इंटरपोलेशन,  छवि सिलाई और अर्ली  प्रकाश क्षेत्र रेंडरिंग सम्मिलित हैं।

वर्त्तमान के काम में फ़ीचर (कंप्यूटर दृष्टि)-आधारित विधियों का पुनरुत्थान देखा गया है, जिनका उपयोग मशीन लर्निंग तकनीकों और जटिल अनुकूलन रूपरेखाओं के संयोजन में किया जाता है। डीप लर्निंग तकनीकों की उन्नति ने कंप्यूटर दृष्टि के क्षेत्र में और जान फूंक दी है। वर्गीकरण से लेकर कार्यों के लिए कई बेंचमार्क कंप्यूटर दृष्टि डेटा सेट पर सघन शिक्षण एल्गोरिदम की यथार्थता, विभाजन और ऑप्टिकल प्रवाह ने पिछले विधियों को पार कर लिया है।

ठोस-अवस्था भौतिकी
भौतिक विज्ञान की ठोस अवस्था एक अन्य क्षेत्र है जो कंप्यूटर दृष्टि से निकटता से संबंधित है। अधिकांश कंप्यूटर दृष्टि प्रणालियां छवि संवेदकों पर निर्भर करती हैं, जो  विद्युत चुम्बकीय विकिरण  का पता लगाती हैं, जो सामान्यतः  दृश्य प्रकाश  या अवरक्त प्रकाश के रूप में होता है। सेंसर को  क्वांटम भौतिकी  का उपयोग करके डिज़ाइन किया गया है। वह प्रक्रिया जिसके द्वारा प्रकाश सतहों के साथ परस्पर क्रिया करता है, भौतिकी का उपयोग करके समझाया गया है। भौतिकी  प्रकाशिकी  के व्यवहार की व्याख्या करती है जो अधिकांश इमेजिंग प्रणालियों का एक मुख्य भाग है। परिष्कृत छवि संवेदकों को छवि निर्माण प्रक्रिया की पूरी समझ प्रदान करने के लिए  क्वांटम यांत्रिकी  की भी आवश्यकता होती है। साथ ही, भौतिक विज्ञान में विभिन्न माप समस्याओं को कंप्यूटर दृष्टि का उपयोग करके संबोधित किया जा सकता है, उदाहरण के लिए, तरल पदार्थ में गति।

तंत्रिका जीव विज्ञान
न्यूरोबायोलॉजी ने कंप्यूटर दृष्टि एल्गोरिदम के विकास को बहुत प्रभावित किया है। पिछली शताब्दी में, मनुष्यों और विभिन्न जानवरों दोनों में प्रसंस्करण दृश्य उत्तेजनाओं के लिए समर्पित आंखों, न्यूरॉन्स और मस्तिष्क संरचनाओं का व्यापक अध्ययन किया गया है। इसने दृष्टि संबंधी कुछ कार्यों का समाधान करने के लिए प्राकृतिक दृष्टि प्रणाली कैसे संचालित होती है, इसका वर्णन एक मोटा, फिर भी जटिल है। इन परिणामों ने कंप्यूटर दृष्टि के अन्दर एक उप-क्षेत्र का नेतृत्व किया है जहां कृत्रिम प्रणालियों को जटिलता के विभिन्न स्तरों पर जैविक प्रणालियों के प्रसंस्करण और व्यवहार की नकल करने के लिए डिज़ाइन किया गया है। साथ ही, कंप्यूटर दृष्टि के अन्दर विकसित कुछ सीखने-आधारित विधियों (जैसे कृत्रिम तंत्रिका नेटवर्क  और सघन शिक्षा आधारित छवि और फीचर विश्लेषण और वर्गीकरण) की न्यूरोबायोलॉजी में उनकी पृष्ठभूमि है। 1970 के दशक में  कुनिहिको फुकुशिमा  द्वारा विकसित एक तंत्रिका नेटवर्क  नियोकॉग्निट्रोन, न्यूरोबायोलॉजी, विशेष रूप से प्राइमरी विज़ुअल कॉर्टेक्स (V1) से प्रत्यक्ष प्रेरणा लेते हुए कंप्यूटर दृष्टि का एक प्रारंभिक उदाहरण है।

कंप्यूटर दृष्टि अनुसंधान के कुछ युक्ति जैविक दृष्टि  के अध्ययन से निकटता से संबंधित हैं- वास्तविक में, एआई अनुसंधान के कई प्रकार मानव बुद्धि में अनुसंधान के साथ निकटता से जुड़े हुए हैं, और दृश्य जानकारी की व्याख्या, एकीकरण और उपयोग करने के लिए संग्रहीत ज्ञान का उपयोग करते हैं। जैविक दृष्टि का क्षेत्र मानव और अन्य जानवरों में दृश्य धारणा के पीछे शारीरिक प्रक्रियाओं का अध्ययन और मॉडल करता है। दूसरी ओर, कंप्यूटर दृष्टि, कृत्रिम दृष्टि प्रणालियों के पीछे सॉफ्टवेयर और हार्डवेयर में कार्यान्वित एल्गोरिदम का विकास और वर्णन करती है। जैविक और कंप्यूटर दृष्टि के बीच अंतःविषय आदान-प्रदान दोनों क्षेत्रों के लिए उपयोगी सिद्ध हुआ है।

संकेत प्रसंस्करण
फिर भी कंप्यूटर दृष्टि से संबंधित एक अन्य क्षेत्र सिग्नल प्रोसेसिंग है। एक-वेरिएबल संकेतों के प्रसंस्करण के लिए कई विधियाँ, सामान्यतः अस्थायी संकेत, कंप्यूटर दृष्टि में दो-वेरिएबल संकेतों या बहु-वेरिएबल संकेतों के प्रसंस्करण के लिए प्राकृतिक विधियों से बढ़ाए जा सकते हैं। चूँकि, छवियों की विशिष्ट प्रकृति के कारण, कंप्यूटर दृष्टि के अन्दर विकसित कई विधियाँ हैं जिनका एक-वेरिएबल संकेतों के प्रसंस्करण में कोई समकक्ष नहीं है। सिग्नल की बहु-आयामीता के साथ, यह कंप्यूटर दृष्टि के एक भाग के रूप में सिग्नल प्रोसेसिंग में एक उपक्षेत्र को परिभाषित करता है।

रोबोटिक नेविगेशन
रोबोट नेविगेशन कभी-कभी एक पर्यावरण के माध्यम से नेविगेट करने के लिए रोबोटिक सिस्टम के लिए स्वायत्त पथ योजना या विचार-विमर्श से संबंधित होता है। इन वातावरणों के माध्यम से नेविगेट करने के लिए इन परिवेशों की विस्तृत समझ आवश्यक है। पर्यावरण के बारे में जानकारी एक कंप्यूटर दृष्टि प्रणाली द्वारा प्रदान की जा सकती है, जो दृष्टि संवेदक के रूप में कार्य करती है और पर्यावरण और रोबोट के बारे में उच्च स्तरीय जानकारी प्रदान करती है।

अन्य क्षेत्र
कंप्यूटर दृष्टि पर उपर्युक्त विचारों के अतिरिक्त, कई संबंधित शोध विषयों का अध्ययन विशुद्ध रूप से गणितीय दृष्टिकोण से भी किया जा सकता है। उदाहरण के लिए, कंप्यूटर दृष्टि में कई विधियाँ सांख्यिकी, अनुकूलन (गणित)  या  ज्यामिति  पर आधारित हैं। अंत में, क्षेत्र का एक महत्वपूर्ण भाग कंप्यूटर  दृष्टि के कार्यान्वयन पहलू के लिए समर्पित है; सॉफ्टवेयर और हार्डवेयर के विभिन्न संयोजनों में वर्तमान विधियों को कैसे लागू किया जा सकता है, या बहुत अधिक प्रदर्शन खोए बिना प्रसंस्करण गति प्राप्त करने के लिए इन विधियों को कैसे संशोधित किया जा सकता है। कंप्यूटर दृष्टि का उपयोग फैशन ईकामर्स, इन्वेंट्री प्रबंधन, पेटेंट खोज, फर्नीचर  और सौंदर्य उद्योग में भी किया जाता है।

भेद
इमेज प्रोसेसिंग, इमेज एनालिसिस और मशीन दृष्टि  कंप्यूटर  दृष्टि से संबंधित क्षेत्र हैं। इनमें सम्मिलित तकनीकों और अनुप्रयोगों की श्रेणी में एक महत्वपूर्ण ओवरलैप है। इसका तात्पर्य यह है कि इन क्षेत्रों में उपयोग की जाने वाली और विकसित की जाने वाली मूलभूत तकनीकें समान हैं, कुछ ऐसा जिसकी व्याख्या की जा सकती है क्योंकि अलग-अलग नामों वाला केवल एक क्षेत्र है। दूसरी ओर, अनुसंधान समूहों, वैज्ञानिक पत्रिकाओं, सम्मेलनों और कंपनियों के लिए यह आवश्यक प्रतीत होता है कि वे इन क्षेत्रों में से किसी एक से संबंधित होने के सम्बन्ध में स्वयं को प्रस्तुत करें या बाजार में उतारें और इसलिए, विभिन्न लक्षण वर्णन जो प्रत्येक क्षेत्र को दूसरों से अलग करते हैं प्रस्तुत किया गया। छवि प्रसंस्करण में, इनपुट एक छवि है और आउटपुट भी एक छवि है, जबकि कंप्यूटर दृष्टि में, एक छवि या वीडियो को इनपुट के रूप में लिया जाता है और आउटपुट एक उन्नत छवि हो सकती है, एक छवि की सामग्री की समझ या ऐसी समझ के आधार पर कंप्यूटर सिस्टम का व्यवहार भी।

कंप्यूटर ग्राफिक्स 3D मॉडल से छवि डेटा उत्पन्न करता है, और कंप्यूटर दृष्टि अधिकांश छवि डेटा से 3D मॉडल बनाता है। दो विषयों के संयोजन की ओर झुकाव भी है, उदाहरण के लिए, जैसा कि  संवर्धित वास्तविकता  में खोजा गया है।

निम्नलिखित विशेषताएँ प्रासंगिक प्रतीत होती हैं लेकिन इन्हें सार्वभौमिक रूप से स्वीकार नहीं किया जाना चाहिए:


 * छवि प्रसंस्करण और छवि विश्लेषण 2डी छवियों पर ध्यान केंद्रित करते हैं, एक छवि को दूसरे में कैसे बदलना है, उदाहरण के लिए, पिक्सेल-वार संचालन जैसे कि कंट्रास्ट एन्हांसमेंट, स्थानीय संचालन जैसे किनारे निष्कर्षण या शोर निकालने, या ज्यामितीय परिवर्तन जैसे घूर्णन करना छवि। इस लक्षण वर्णन का अर्थ है कि छवि प्रसंस्करण/विश्लेषण के लिए न तो धारणाओं की आवश्यकता होती है और न ही छवि सामग्री के बारे में व्याख्याएं उत्पन्न होती हैं।
 * कंप्यूटर दृष्टि में 2डी छवियों से त्रि-आयामी विश्लेषण सम्मिलित है। यह एक या कई छवियों पर अनुमानित त्रि-आयामी दृश्य का विश्लेषण करता है, उदाहरण के लिए, एक या कई छवियों से त्रि-आयामी दृश्य के बारे में संरचना या अन्य जानकारी का पुनर्निर्माण कैसे करें। कंप्यूटर दृष्टि अधिकांश एक छवि में दर्शाए गए दृश्य के बारे में अधिक या कम जटिल धारणाओं पर निर्भर करती है।
 * मशीन दृष्टि औद्योगिक अनुप्रयोगों में इमेजिंग-आधारित स्वचालित निरीक्षण, प्रक्रिया नियंत्रण और रोबोट मार्गदर्शन प्रदान करने के लिए कई तकनीकों और विधियों को लागू करने की प्रक्रिया है। मशीन दृष्टि अनुप्रयोगों पर ध्यान केंद्रित करता है, मुख्य रूप से विनिर्माण में, उदाहरण के लिए, दृष्टि-आधारित रोबोट और दृष्टि-आधारित निरीक्षण, माप या पिकिंग के लिए सिस्टम (जैसे बिन पिकिंग ) . इसका तात्पर्य है कि छवि संवेदक प्रौद्योगिकियों और नियंत्रण सिद्धांत को अधिकांश रोबोट को नियंत्रित करने के लिए छवि डेटा के प्रसंस्करण के साथ एकीकृत किया जाता है और हार्डवेयर और सॉफ्टवेयर में कुशल कार्यान्वयन के माध्यम से रीयल-टाइम प्रसंस्करण पर जोर दिया जाता है। इसका तात्पर्य यह भी है कि प्रकाश जैसी बाहरी स्थितियाँ सामान्य कंप्यूटर दृष्टि की तुलना में मशीन दृष्टि में अधिकांश अधिक नियंत्रित हो सकती हैं और होती हैं, जो विभिन्न एल्गोरिदम के उपयोग को सक्षम कर सकती हैं।
 * इमेजिंग विज्ञान नामक एक क्षेत्र भी है जो मुख्य रूप से छवियों के निर्माण की प्रक्रिया पर ध्यान केंद्रित करता है, लेकिन कभी-कभी छवियों के प्रसंस्करण और विश्लेषण से भी संबंधित होता है। उदाहरण के लिए, चिकित्सा इमेजिंग में चिकित्सा अनुप्रयोगों में छवि डेटा के विश्लेषण पर पर्याप्त कार्य सम्मिलित है।
 * अंत में, पैटर्न पहचान एक ऐसा क्षेत्र है जो सामान्य रूप से संकेतों से जानकारी निकालने के लिए विभिन्न विधियों का उपयोग करता है, मुख्य रूप से सांख्यिकीय दृष्टिकोण और कृत्रिम तंत्रिका नेटवर्क पर आधारित है।  इस क्षेत्र का एक महत्वपूर्ण हिस्सा इन विधियों को छवि डेटा पर लागू करने के लिए समर्पित है।

फोटोग्रामेट्री कंप्यूटर विजन के साथ भी ओवरलैप करती है, उदाहरण के लिए, stereophotogrammetry  बनाम  कंप्यूटर स्टीरियो विजन ।

अनुप्रयोग
अनुप्रयोगों में औद्योगिक मशीन विजन सिस्टम जैसे कार्य शामिल हैं, जो कहते हैं, उत्पादन लाइन पर तेजी से बोतलों का निरीक्षण करते हैं, कृत्रिम बुद्धि और कंप्यूटर या रोबोट में शोध करने के लिए जो उनके आसपास की दुनिया को समझ सकते हैं। कंप्यूटर विज़न और मशीन विज़न फ़ील्ड में महत्वपूर्ण ओवरलैप है। कंप्यूटर दृष्टि स्वचालित छवि विश्लेषण की मुख्य तकनीक को शामिल करती है जिसका उपयोग कई क्षेत्रों में किया जाता है। मशीन दृष्टि आमतौर पर औद्योगिक अनुप्रयोगों में स्वचालित निरीक्षण और रोबोट मार्गदर्शन प्रदान करने के लिए अन्य तरीकों और तकनीकों के साथ स्वचालित छवि विश्लेषण के संयोजन की प्रक्रिया को संदर्भित करती है। कई कंप्यूटर-दृष्टि अनुप्रयोगों में, कंप्यूटर किसी विशेष कार्य को हल करने के लिए पूर्व-क्रमादेशित होते हैं, लेकिन सीखने पर आधारित तरीके अब तेजी से सामान्य होते जा रहे हैं। कंप्यूटर विज़न के अनुप्रयोगों के उदाहरणों में इसके लिए सिस्टम शामिल हैं:

* स्वचालित निरीक्षण, उदाहरण के लिए, विनिर्माण अनुप्रयोगों में;
 * पहचान कार्यों में मनुष्यों की सहायता करना, उदाहरण के लिए, एक स्वचालित प्रजाति पहचान प्रणाली;
 * प्रक्रियाओं को नियंत्रित करना, उदाहरण के लिए, एक औद्योगिक रोबोट ;
 * गतिविधि मान्यता, उदाहरण के लिए, वीडियो निगरानी या लोगों के काउंटर के लिए कृत्रिम बुद्धि के लिए, उदाहरण के लिए, प्रेस्टो (रेस्तरां प्रौद्योगिकी मंच)  में;
 * सहभागिता, उदाहरण के लिए, कंप्यूटर-मानव संपर्क  के लिए एक उपकरण के इनपुट के रूप में;
 * मॉडलिंग ऑब्जेक्ट या वातावरण, उदाहरण के लिए, चिकित्सा छवि विश्लेषण या स्थलाकृतिक मॉडलिंग;
 * नेविगेशन, उदाहरण के लिए, एक स्वायत्त वाहन  या  मोबाइल रोबोट  द्वारा;
 * सूचनाओं को व्यवस्थित करना, उदाहरण के लिए, छवियों और छवि अनुक्रमों के खोज इंजन अनुक्रमण  डेटाबेस के लिए।
 * संवर्धित वास्तविकता अनुभवों की अनुमति देने के लिए त्रि-आयामी निर्देशांक में सतहों या विमानों को ट्रैक करना।

दवा
सबसे प्रमुख अनुप्रयोग क्षेत्रों में से एक चिकित्सा कंप्यूटर दृष्टि, या चिकित्सा छवि प्रसंस्करण है, जो रोगी का कंप्यूटर की सहायता से निदान  करने के लिए छवि डेटा से जानकारी निकालने की विशेषता है। इसका  उदाहरण  ट्यूमर,  धमनीकाठिन्य  या अन्य घातक परिवर्तनों का पता लगाना है; अंग के आयाम, रक्त प्रवाह आदि का मापन एक और उदाहरण है। यह नई जानकारी प्रदान करके चिकित्सा अनुसंधान का भी समर्थन करता है: उदाहरण के लिए, मस्तिष्क की संरचना या चिकित्सा उपचार की गुणवत्ता के बारे में। चिकित्सा क्षेत्र में कंप्यूटर दृष्टि के अनुप्रयोगों में मनुष्यों द्वारा व्याख्या की गई छवियों में वृद्धि भी सम्मिलित है - अल्ट्रासोनिक छवियां या एक्स-रे छवियां, उदाहरण के लिए - शोर के प्रभाव को कम करने के लिए।

मशीन दृष्टि
कंप्यूटर दृष्टि में एक दूसरा अनुप्रयोग क्षेत्र उद्योग में है, जिसे कभी-कभी मशीन दृष्टि कहा जाता है, जहाँ उत्पादन प्रक्रिया का समर्थन करने के उद्देश्य से जानकारी निकाली जाती है। एक उदाहरण गुणवत्ता नियंत्रण है जहां दोष खोजने के लिए विवरण या अंतिम उत्पादों का स्वचालित रूप से निरीक्षण किया जा रहा है। इस तरह के निरीक्षण के लिए सबसे प्रचलित क्षेत्रों में से एक वेफर (इलेक्ट्रॉनिक्स)  उद्योग है जिसमें एक एकीकृत सर्किट को अनुपयोगी विधियों से बाजार में आने से रोकने के लिए अशुद्धियों या दोषों के लिए हर एक वेफर को मापा और निरीक्षण किया जाता है। एक अन्य उदाहरण रोबोट भुजा द्वारा उठाए जाने वाले विवरणों की स्थिति और अभिविन्यास का माप है। थोक सामग्री से अवांछित खाद्य सामग्री को निकालने के लिए कृषि प्रक्रियाओं में मशीन दृष्टि का भी भारी उपयोग किया जाता है, इस प्रक्रिया को  ऑप्टिकल छँटाई  कहा जाता है।

सैन्य
सैन्य अनुप्रयोग शायद कंप्यूटर दृष्टि के सबसे बड़े क्षेत्रों में से एक हैं. स्पष्ट उदाहरण दुश्मन सैनिकों या वाहनों और मिसाइल मार्गदर्शन  का पता लगाने हैं। मिसाइल मार्गदर्शन के लिए अधिक उन्नत प्रणालियां मिसाइल को एक विशिष्ट लक्ष्य के अतिरिक्त एक क्षेत्र में भेजती हैं, और लक्ष्य का चयन तब किया जाता है जब मिसाइल स्थानीय रूप से प्राप्त छवि डेटा के आधार पर क्षेत्र में पहुंचती है। आधुनिक सैन्य अवधारणाएं, जैसे कि युद्धक्षेत्र जागरूकता, का अर्थ है कि छवि सेंसर सहित विभिन्न सेंसर युद्ध के दृश्य के बारे में जानकारी का एक समृद्ध सेट प्रदान करते हैं जिसका उपयोग सामरिक निर्णयों का समर्थन करने के लिए किया जा सकता है। इस स्थितियों में, डेटा के स्वचालित प्रसंस्करण का उपयोग जटिलता को कम करने और विश्वसनीयता बढ़ाने के लिए कई सेंसरों से जानकारी को फ़्यूज़ करने के लिए किया जाता है।

स्वायत्त वाहन
नए आवेदन क्षेत्रों में से एक स्वायत्त वाहन है, जिसमें पनडुब्बी, भूमि आधारित वाहन (पहियों, कारों या ट्रकों के साथ छोटे रोबोट), हवाई वाहन और  मानव रहित हवाई वाहन  (मानव रहित हवाई वाहन) सम्मिलित हैं। स्वायत्तता का स्तर पूरी तरह से स्वायत्त (मानव रहित) वाहनों से लेकर वाहनों तक होता है जहां कंप्यूटर-दृष्टि-आधारित सिस्टम विभिन्न स्थितियों में ड्राइवर या पायलट का समर्थन करते हैं। पूरी तरह से स्वायत्त वाहन सामान्यतः नेविगेशन के लिए कंप्यूटर दृष्टि का उपयोग करते हैं, उदाहरण के लिए, बाधाओं का पता लगाने और/या स्वचालित रूप से नेविगेशनल सुरक्षा सुनिश्चित करने के लिए, वे कहां हैं या अपने पर्यावरण (एक साथ स्थानीयकरण और मैपिंग) को मैप करने के लिए जानते हैं। इसका उपयोग कुछ विशिष्ट कार्य-विशिष्ट घटनाओं का पता लगाने के लिए भी किया जा सकता है, उदाहरण के लिए, जंगल की आग की तलाश में यूएवी। सहायक प्रणालियों के उदाहरण कारों में बाधा चेतावनी प्रणाली और विमान की स्वायत्त लैंडिंग के लिए सिस्टम हैं। कई कार निर्माताओं ने  चालक रहित कार  के लिए सिस्टम का प्रदर्शन किया है, लेकिन यह तकनीक अभी भी उस स्तर तक नहीं पहुंची है जहां इसे बाजार में उतारा जा सके। पुनर्निर्माण मिशन या मिसाइल मार्गदर्शन के लिए उन्नत मिसाइलों से लेकर यूएवी तक सैन्य स्वायत्त वाहनों के पर्याप्त उदाहरण हैं। कंप्यूटर दृष्टि का उपयोग करके स्वायत्त वाहनों के साथ पहले से ही अंतरिक्ष की खोज की जा रही है, उदाहरण के लिए,  नासा  की क्यूरियोसिटी (रोवर) और चीन के राष्ट्रीय अंतरिक्ष प्रशासन के यूटू -2 रोवर।

स्पर्श प्रतिक्रिया
सूक्ष्म लहरदार सतहों के आकार के आकलन के लिए लचीली संरचना के साथ रबर की कृत्रिम त्वचा की परत

ऊपर एक सिलिकॉन मोल्ड है जिसके अंदर एक कैमरा है जिसमें कई अलग-अलग बिंदु मार्कर हैं। जब इस संवेदक को सतह के खिलाफ दबाया जाता है तो सिलिकॉन विकृत हो जाता है और बिंदु मार्करों की स्थिति बदल जाती है। एक कंप्यूटर तब यह डेटा ले सकता है और यह निर्धारित कर सकता है कि सतह के विरुद्ध मोल्ड को कैसे दबाया जाता है। इसका उपयोग यह सुनिश्चित करने के लिए रोबोटिक हाथों को जांचने के लिए किया जा सकता है कि वे वस्तुओं को प्रभावी ढंग से पकड़ सकें।

रबर और सिलिकॉन जैसी सामग्री का उपयोग सेंसर बनाने के लिए किया जा रहा है जो सूक्ष्म उतार-चढ़ाव का पता लगाने और रोबोटिक हाथों को कैलिब्रेट करने जैसे अनुप्रयोगों की अनुमति देता है। रबर का उपयोग एक साँचा बनाने के लिए किया जा सकता है जिसे एक उंगली पर रखा जा सकता है, इस साँचे के अंदर कई तनाव गेज होंगे। फ़िंगर मोल्ड और सेंसर को रबर की एक छोटी शीट के ऊपर रखा जा सकता है जिसमें रबर पिन की एक सरणी होती है। एक उपयोगकर्ता तब फिंगर मोल्ड पहन सकता है और एक सतह का पता लगा सकता है। एक कंप्यूटर तनाव गेज से डेटा पढ़ सकता है और माप सकता है कि क्या एक या अधिक पिन ऊपर की ओर धकेले जा रहे हैं। यदि एक पिन को ऊपर की ओर धकेला जा रहा है तो कंप्यूटर इसे सतह में अपूर्णता के रूप में पहचान सकता है। बहुत बड़ी सतह पर खामियों पर सटीक डेटा प्राप्त करने के लिए इस तरह की तकनीक उपयोगी है। इस फिंगर मोल्ड सेंसर की एक और भिन्नता सेंसर है जिसमें सिलिकॉन में निलंबित कैमरा होता है। सिलिकॉन कैमरे के बाहर चारों ओर एक गुंबद बनाता है और सिलिकॉन में एम्बेडेड पॉइंट मार्कर होते हैं जो समान दूरी पर होते हैं। कंप्यूटर को अत्यधिक सटीक स्पर्श डेटा प्राप्त करने की अनुमति देने के लिए इन कैमरों को रोबोटिक हाथों जैसे उपकरणों पर रखा जा सकता है।

अन्य आवेदन क्षेत्रों में सम्मिलित हैं:


 * सिनेमा और प्रसारण के लिए दृश्य प्रभाव निर्माण का समर्थन, उदाहरण के लिए, कैमरा ट्रैकिंग  (मैच मूविंग)।
 * निगरानी करना ।
 * चालक उनींदापन का पता लगाने
 * जैविक विज्ञान में जीवों पर नज़र रखना और उनकी गिनती करना

विशिष्ट कार्य
ऊपर वर्णित प्रत्येक अनुप्रयोग क्षेत्र कंप्यूटर दृष्टि कार्यों की एक श्रृंखला को नियोजित करता है; अधिक या कम अच्छी तरह से परिभाषित मापन समस्याएं या प्रसंस्करण समस्याएं, जिन्हें विभिन्न विधियों का उपयोग करके समाधान किया जा सकता है। विशिष्ट कंप्यूटर दृष्टि कार्यों के कुछ उदाहरण नीचे प्रस्तुत किए गए हैं।

कंप्यूटर दृष्टि कार्यों में छवि संवेदक, छवि प्रसंस्करण, छवि विश्लेषण और डिजिटल छवियों को समझना, और संख्यात्मक या प्रतीकात्मक जानकारी उत्पन्न करने के लिए वास्तविक संसार से उच्च-आयामी डेटा का निष्कर्षण सम्मिलित है, उदाहरण के लिए, निर्णयों के रूप में।   इस संदर्भ में समझ का अर्थ है दृश्य छवियों (रेटिना का इनपुट) को संसार के विवरणों में बदलना जो अन्य विचार प्रक्रियाओं के साथ इंटरफेस कर सकते हैं और उचित कार्रवाई कर सकते हैं। इस छवि समझ को ज्यामिति, भौतिकी, सांख्यिकी और सीखने के सिद्धांत की सहायता से निर्मित मॉडलों का उपयोग करके छवि डेटा से प्रतीकात्मक जानकारी को अलग करने के रूप में देखा जा सकता है।

मान्यता
कंप्यूटर दृष्टि, छवि प्रसंस्करण और मशीन दृष्टि में मौलिक समस्या यह निर्धारित करने की है कि छवि डेटा में कुछ विशिष्ट वस्तु, सुविधा या गतिविधि सम्मिलित है या नहीं। साहित्य में विभिन्न प्रकार की मान्यता समस्या का वर्णन किया गया है।
 * वस्तु पहचान (जिसे वस्तु वर्गीकरण भी कहा जाता है) – एक या कई पूर्व-निर्दिष्ट या सीखी गई वस्तुओं या वस्तु वर्गों को सामान्यतः छवि में उनकी 2डी स्थिति या दृश्य में 3डी मुद्रा के साथ पहचाना जा सकता है। ब्लिप्पर, गूगल गॉगल्स, और लाइक दैट स्टैंड-अलोन प्रोग्राम प्रदान करते हैं जो इस कार्यक्षमता का वर्णन करते हैं।
 * पहचान – किसी वस्तु का एक व्यक्तिगत उदाहरण पहचाना जाता है। उदाहरणों में किसी विशिष्ट व्यक्ति के चेहरे या फिंगरप्रिंट की पहचान, लिखावट की पहचान, या किसी विशिष्ट वाहन की पहचान सम्मिलित है।
 * वस्तु पहचान – छवि डेटा को एक विशिष्ट स्थिति के लिए स्कैन किया जाता है। उदाहरणों में चिकित्सा छवियों में संभावित असामान्य कोशिकाओं या ऊतकों का पता लगाना या स्वचालित सड़क टोल प्रणाली में वाहन का पता लगाना सम्मिलित है। अपेक्षाकृत सरल और तेज़ संगणनाओं पर आधारित जांच का उपयोग कभी-कभी रोचक छवि डेटा के छोटे क्षेत्रों को खोजने के लिए किया जाता है, जिसे सही व्याख्या करने के लिए अधिक कम्प्यूटेशनल रूप से मांग वाली तकनीकों द्वारा आगे विश्लेषण किया जा सकता है।

वर्तमान में, इस तरह के कार्यों के लिए सबसे अच्छा एल्गोरिदम दृढ़ तंत्रिका नेटवर्क  पर आधारित हैं। इमेजनेट चैलेंज द्वारा उनकी क्षमताओं का एक उदाहरण दिया गया है; यह वस्तु वर्गीकरण और पहचान में एक बेंचमार्क है, जिसमें प्रतियोगिता में लाखों छवियों और 1000 वस्तु वर्गों का उपयोग किया गया है। इमेजनेट परीक्षणों पर दृढ़ तंत्रिका नेटवर्क का प्रदर्शन अब मनुष्यों के प्रदर्शन के निकट है। सबसे अच्छा एल्गोरिदम अभी भी उन वस्तुओं के साथ संघर्ष करता है जो छोटी या पतली होती हैं, जैसे फूल के तने पर एक छोटी सी चींटी या हाथ में एक क्विल पकड़े हुए व्यक्ति। उन्हें उन छवियों से भी परेशानी होती है जिन्हें फिल्टर (आधुनिक डिजिटल कैमरों के साथ एक तेजी से सामान्य घटना) के साथ विकृत किया गया है। इसके विपरीत, इस प्रकार की छवियाँ विरले ही मनुष्य को परेशान करती हैं। चूँकि, मनुष्य को अन्य अभिप्रायों से परेशानी होती है। उदाहरण के लिए, वे वस्तुओं को ठीक-ठाक वर्गों में वर्गीकृत करने में अच्छे नहीं हैं, जैसे कि कुत्ते की विशेष नस्ल या पक्षी की प्रजातियाँ, जबकि दृढ़ तंत्रिका नेटवर्क इसे आसानी से संभालते हैं।

मान्यता पर आधारित कई विशिष्ट कार्य उपस्थित हैं, जैसे:


 * सामग्री आधारित छवि पुनर्प्राप्ति – छवियों के एक बड़े समूह में सभी छवियों को ढूँढना जिनमें एक विशिष्ट सामग्री है। सामग्री को अलग-अलग विधियों से निर्दिष्ट किया जा सकता है, उदाहरण के लिए रिवर्स इमेज सर्च  तकनीकों का उपयोग करके लक्ष्य छवि के सापेक्ष समानता के संदर्भ में (मुझे छवि एक्स के समान सभी छवियां दें), या पाठ इनपुट के रूप में दिए गए उच्च-स्तरीय खोज मानदंड के संदर्भ में (मुझे वे सभी चित्र दें जिनमें कई घर हैं, सर्दियों के दौरान लिए गए हैं और उनमें कोई कार नहीं है)।
 * मुद्रा (कंप्यूटर दृष्टि) – कैमरे के सापेक्ष किसी विशिष्ट वस्तु की स्थिति या अभिविन्यास का अनुमान लगाना। इस तकनीक के लिए एक उदाहरण अनुप्रयोग  समनुक्रम  की स्थिति में एक कन्वेयर बेल्ट से वस्तुओं को पुनः प्राप्त करने या बिन से भागों को चुनने में रोबोट भुजा की सहायता करेगा।
 * ऑप्टिकल कैरेक्टर पहचान (OCR) – मुद्रित या हस्तलिखित पाठ की छवियों में चरित्र (कंप्यूटिंग) की पहचान करना, सामान्यतः संपादन या खोज अनुक्रमणिका (जैसे  ASCII ) के लिए अधिक अनुकूल प्रारूप में पाठ को एन्कोड करने की दृष्टि से।
 * '2डी कोड रीडिंग' – डेटा मैट्रिक्स  और  क्यू आर संहिता  कोड जैसे 2डी कोड पढ़ना।
 * चेहरे की पहचान प्रणाली – एक ऐसी तकनीक जो डिजिटल इमेज या वीडियो फ्रेम में चेहरों के मिलान को फेस डेटाबेस में सक्षम बनाती है, जिसका अब व्यापक रूप से मोबाइल फोन फेसलॉक, स्मार्ट डोर लॉकिंग आदि के लिए उपयोग किया जाता है।
 * पीपल काउंटर सिस्टम्स में पैटर्न रिकॉग्निशन (SRT) मनुष्य को वस्तुओं से अलग करता है (सिर और कंधे के पैटर्न)।

गति विश्लेषण
कई कार्य गति अनुमान से संबंधित हैं जहां एक छवि अनुक्रम को छवि में या त्रि-आयामी दृश्य में या यहां तक ​​कि छवियों का उत्पादन करने वाले कैमरे के प्रत्येक बिंदु पर वेग का अनुमान लगाने के लिए संसाधित किया जाता है। ऐसे कार्यों के उदाहरण हैं:


 * इगोमोशन – कैमरे द्वारा निर्मित छवि अनुक्रम से कैमरे की त्रि-आयामी कठोर गति (रोटेशन और अनुवाद) का निर्धारण करना।
 * वीडियो ट्रैकिंग – छवि अनुक्रम में इंटरेस्ट बिंदुओं या वस्तुओं (जैसे, वाहन, वस्तुओं, मनुष्यों या अन्य जीवों) के एक (सामान्यतः) छोटे सेट के मूवमेंट्स का अनुसरण करना। इसमें विशाल उद्योग अनुप्रयोग हैं क्योंकि इस तरह से अधिकांश उच्च-चल रही मशीनरी की निगरानी की जा सकती है।
 * ऑप्टिकल प्रवाह – यह निर्धारित करने के लिए, छवि में प्रत्येक बिंदु के लिए, छवि के तल के सापेक्ष वह बिंदु कैसे चल रहा है, अर्थात, इसकी स्पष्ट गति। यह गति इस बात का परिणाम है कि संबंधित 3D बिंदु दृश्य में कैसे चल रहा है और कैमरा दृश्य के सापेक्ष कैसे चल रहा है।

दृश्य पुनर्निर्माण
एक दृश्य या एक वीडियो की एक या (सामान्यतः) अधिक छवियों को देखते हुए, दृश्य पुनर्निर्माण का उद्देश्य दृश्य के त्रि-आयामी पुनर्निर्माण का है। सरलतम स्थिति में, मॉडल 3D बिंदुओं का एक सेट हो सकता है। अधिक परिष्कृत विधियों एक पूर्ण त्रि-आयामी सतह मॉडल का निर्माण करते हैं। त्रि-आयामी इमेजिंग के आगमन के लिए गति या स्कैनिंग की आवश्यकता नहीं है, और संबंधित प्रसंस्करण एल्गोरिदम इस क्षेत्र में तेजी से प्रगति को सक्षम कर रहे हैं। ग्रिड-आधारित त्रि-आयामी सेंसिंग का उपयोग कई कोणों से त्रि-आयामी इमेज प्राप्त करने के लिए किया जा सकता है। एल्गोरिदम अब कई 3D छवियों को एक साथ पॉइंट क्लाउड और 3D मॉडल में सिलाई करने के लिए उपलब्ध हैं।

छवि बहाली
छवि बहाली का उद्देश्य छवियों से शोर (सेंसर शोर, मोशन ब्लर, आदि) को निकलना है। शोर निकालने के लिए सबसे सरल संभव विधि विभिन्न प्रकार के फिल्टर हैं जैसे लो-पास फिल्टर या मेडियन फिल्टर। शोर से अलग करने के लिए अधिक परिष्कृत विधियों स्थानीय छवि संरचनाओं को कैसे दिखते हैं, इसका एक मॉडल मानते हैं। स्थानीय छवि संरचनाओं, जैसे रेखाओं या किनारों के संदर्भ में पहले छवि डेटा का विश्लेषण करके, और फिर विश्लेषण चरण से स्थानीय जानकारी के आधार पर फ़िल्टरिंग को नियंत्रित करके, सरल दृष्टिकोणों की तुलना में सामान्यतः शोर निकालने का बेहतर स्तर प्राप्त होता है।

इस क्षेत्र में एक उदाहरण इनपेंटिंग है।

सिस्टम विधियाँ
कंप्यूटर दृष्टि सिस्टम का संगठन अत्यधिक अनुप्रयोग-निर्भर है। कुछ प्रणालियाँ स्टैंड-अलोन अनुप्रयोग हैं जो एक विशिष्ट माप या पता लगाने की समस्या का समाधान करती हैं, जबकि अन्य एक बड़े डिज़ाइन की उप-प्रणाली का गठन करती हैं, उदाहरण के लिए, मैकेनिकल एक्ट्यूएटर्स, योजना, सूचना डेटाबेस, मैन- मशीन इंटरफेस के नियंत्रण आदि के लिए उप-प्रणालियाँ भी सम्मिलित हैं। कंप्यूटर दृष्टि सिस्टम का विशिष्ट कार्यान्वयन इस बात पर भी निर्भर करता है कि इसकी कार्यक्षमता पूर्व-निर्दिष्ट है या इसके कुछ हिस्से को ऑपरेशन के दौरान सीखा या संशोधित किया जा सकता है। एप्लिकेशन के लिए कई कार्य अद्वितीय हैं। चूँकि, विशिष्ट कार्य हैं जो कई कंप्यूटर दृष्टि सिस्टम में पाए जाते हैं।


 * छवि अधिग्रहण - एक डिजिटल छवि एक या कई छवि सेंसर द्वारा निर्मित होती है, जिसमें विभिन्न प्रकार के प्रकाश-संवेदनशील कैमरों के अतिरिक्त, रेंजफाइंडर कैमरा, टोमोग्राफी डिवाइस, रडार, अल्ट्रा-सोनिक कैमरे आदि सम्मिलित होते हैं। सेंसर के प्रकार के आधार पर, परिणामी छवि डेटा एक साधारण 2D छवि, एक 3D वॉल्यूम या एक छवि अनुक्रम है। पिक्सेल मान सामान्यतः एक या कई वर्णक्रमीय बैंड (ग्रे छवियों या रंगीन छवियों) में प्रकाश की तीव्रता के अनुरूप होते हैं, लेकिन विभिन्न भौतिक उपायों से भी संबंधित हो सकते हैं, जैसे कि गहराई, अवशोषण या ध्वनि या विद्युत चुम्बकीय तरंगों का प्रतिबिंब, या चुंबकीय अनुनाद इमेजिंग।
 * पूर्व-प्रसंस्करण - सूचना के कुछ विशिष्ट टुकड़े को निकालने के लिए छवि डेटा पर एक कंप्यूटर दृष्टि विधि लागू करने से पहले, सामान्यतः यह सुनिश्चित करने के लिए डेटा को संसाधित करना आवश्यक होता है कि यह विधि द्वारा निहित कुछ मान्यताओं को पूरा करता है। उदाहरण हैं:
 * पुन: मानक यह सुनिश्चित करने के लिए कि छवि समन्वय प्रणाली सही है।
 * शोर में कमी यह सुनिश्चित करने के लिए कि सेंसर शोर झूठी सूचना प्रस्तुत नहीं करता है।
 * कंट्रास्ट एन्हांसमेंट यह सुनिश्चित करने के लिए कि प्रासंगिक जानकारी का पता लगाया जा सकता है।
 * स्थानीय रूप से उपयुक्त पैमानों पर छवि संरचनाओं को बढ़ाने के लिए स्केल स्पेस प्रतिनिधित्व।
 * फ़ीचर डिटेक्शन (कंप्यूटर दृष्टि) - जटिलता के विभिन्न स्तरों पर छवि सुविधाएँ छवि डेटा से निकाली जाती हैं। ऐसी विशेषताओं के विशिष्ट उदाहरण हैं:
 * लाइन्स, एज डिटेक्शन और रिज का पता लगाना ।
 * स्थानीय रुचि बिंदु का पता लगाना जैसे कोने का पता लगाना,  बूँद का पता लगाना  या बिंदु।
 * अधिक जटिल विशेषताएं आकृति, आकार या गति से संबंधित हो सकती हैं।


 * ऑब्जेक्ट डिटेक्शन / इमेज सेगमेंटेशन - प्रोसेसिंग के किसी बिंदु पर यह निर्णय लिया जाता है कि इमेज के कौन से इमेज पॉइंट या क्षेत्र आगे की प्रोसेसिंग के लिए प्रासंगिक हैं। उदाहरण हैं:
 * रुचि बिंदुओं के एक विशिष्ट सेट का चयन।
 * एक या एक से अधिक छवि क्षेत्रों का विभाजन जिसमें रुचि की एक विशिष्ट वस्तु होती है।
 * नेस्टेड दृश्य वास्तुकला में छवि का विभाजन जिसमें अग्रभूमि, वस्तु समूह, एकल वस्तु या प्रमुखता (तंत्रिका विज्ञान)  वस्तु सम्मिलित है भागों (स्थानिक-टैक्सोन दृश्य पदानुक्रम के रूप में भी जाना जाता है), जबकि प्रमुखता (तंत्रिका विज्ञान) को अधिकांश  दृश्य स्थानिक ध्यान  और दृश्य लौकिक ध्यान के रूप में लागू किया जाता है।
 * सेगमेंटेशन या वस्तु सह-विभाजन एक या एक से अधिक वीडियो का को-सेगमेंटेशन प्रति-फ़्रेम फ़ोरग्राउंड मास्क की एक श्रृंखला में, इसकी अस्थायी शब्दार्थ निरंतरता को बनाए रखते हुए।
 * उच्च-स्तरीय प्रसंस्करण - इस चरण में इनपुट सामान्यतः डेटा का एक छोटा सेट होता है, उदाहरण के लिए बिंदुओं का एक सेट या एक छवि क्षेत्र जिसमें एक विशिष्ट वस्तु सम्मिलित होती है। शेष प्रसंस्करण, उदाहरण के लिए:
 * सत्यापन कि डेटा मॉडल-आधारित और एप्लिकेशन-विशिष्ट मान्यताओं को पूरा करता है।
 * एप्लिकेशन-विशिष्ट पैरामीटर का अनुमान, जैसे ऑब्जेक्ट पोज़ या ऑब्जेक्ट आकार।
 * छवि पहचान - किसी वस्तु का पता लगाने को विभिन्न श्रेणियों में वर्गीकृत करना।
 * छवि पंजीकरण - एक ही वस्तु के दो अलग-अलग दृश्यों की तुलना और संयोजन।
 * निर्णय लेना आवेदन के लिए आवश्यक अंतिम निर्णय लेना, उदाहरण के लिए:
 * स्वत: निरीक्षण अनुप्रयोगों पर उत्तीर्ण / अनुत्तीर्ण।
 * मान्यता अनुप्रयोगों में मैच/नो-मैच।
 * चिकित्सा, सैन्य, सुरक्षा और मान्यता अनुप्रयोगों में आगे की मानवीय समीक्षा के लिए ध्वज।

छवि-समझ प्रणाली
इमेज-अंडरस्टैंडिंग सिस्टम्स (IUS) में एब्स्ट्रैक्शन के तीन स्तर निम्नानुसार सम्मिलित हैं: निम्न स्तर में किनारों, टेक्सचर एलिमेंट्स, या क्षेत्रों जैसे इमेज प्रिमिटिव सम्मिलित हैं; मध्यवर्ती स्तर में सीमाएं, सतहें और वॉल्यूम सम्मिलित हैं; और उच्च स्तर में वस्तुएँ, दृश्य या घटनाएँ सम्मिलित हैं। इनमें से कई आवश्यकताएं आगे के शोध के लिए पूरी तरह से विषय हैं।

इन स्तरों के लिए IUS के डिजाइन में प्रतिनिधित्व संबंधी आवश्यकताएं हैं: प्रोटोटाइपिकल अवधारणाओं का प्रतिनिधित्व, अवधारणा संगठन, स्थानिक ज्ञान, लौकिक ज्ञान, स्केलिंग, और तुलना और भेदभाव द्वारा विवरण।

जबकि अनुमान नए प्राप्त करने की प्रक्रिया को संदर्भित करता है, वर्तमान में ज्ञात तथ्यों से तथ्यों का स्पष्ट रूप से प्रतिनिधित्व नहीं करता है, नियंत्रण उस प्रक्रिया को संदर्भित करता है जो प्रसंस्करण के एक विशेष चरण में कई अनुमानों, खोज और मिलान तकनीकों में से किसे लागू किया जाना चाहिए। IUS के लिए निष्कर्ष और नियंत्रण आवश्यकताएं: खोज और परिकल्पना सक्रियण, मिलान और परिकल्पना परीक्षण, उम्मीदों का निर्माण और उपयोग, परिवर्तन और ध्यान का ध्यान, निश्चितता और विश्वास की शक्ति, अनुमान और लक्ष्य संतुष्टि हैं।

हार्डवेयर
कंप्यूटर दृष्टि सिस्टम कई प्रकार के होते हैं; चूँकि, उन सभी में ये मूल तत्व होते हैं: एक शक्ति स्रोत, कम से कम एक छवि अधिग्रहण उपकरण (कैमरा, सीसीडी, आदि), एक प्रोसेसर, और नियंत्रण और संचार केबल या किसी प्रकार का वायरलेस इंटरकनेक्शन तंत्र। इसके अतिरिक्त, एक व्यावहारिक दृष्टि प्रणाली में सॉफ्टवेयर होता है, साथ ही सिस्टम की निगरानी के लिए एक डिस्प्ले भी होता है। आंतरिक स्थानों के लिए दृष्टि सिस्टम, अधिकांश औद्योगिक लोगों के रूप में, एक रोशनी प्रणाली होती है और इसे नियंत्रित वातावरण में रखा जा सकता है। इसके अतिरिक्त, एक पूर्ण सिस्टम में कैमरा सपोर्ट, केबल और कनेक्टर जैसे कई सहायक उपकरण सम्मिलित होते हैं।

अधिकांश कंप्यूटर दृष्टि प्रणालियां दृश्य-प्रकाश कैमरों का उपयोग निष्क्रिय रूप से अधिकतम 60 फ्रेम प्रति सेकंड (सामान्यतः बहुत धीमी) की फ्रेम दर पर एक दृश्य को देखने के लिए करती हैं।

कुछ कंप्यूटर दृष्टि सिस्टम सक्रिय प्रकाश के साथ छवि-अधिग्रहण हार्डवेयर का उपयोग करते हैं या दृश्य प्रकाश या दोनों के अतिरिक्त कुछ, जैसे संरचित-प्रकाश त्रि-आयामी स्कैनर, थर्मोग्राफिक कैमरा,  हाइपरस्पेक्ट्रल इमेजरस,  रडार इमेजिंग ,  राडार  स्कैनर,  चुंबकीय अनुनाद छवि यां,  साइड-स्कैन सोनार  ,  सिंथेटिक एपर्चर सोनार , आदि। इस तरह के हार्डवेयर छवियों को कैप्चर करते हैं जिन्हें फिर उसी कंप्यूटर दृष्टि एल्गोरिदम का उपयोग करके संसाधित किया जाता है जो दृश्य-प्रकाश छवियों को संसाधित करने के लिए उपयोग किया जाता है।

जबकि पारंपरिक प्रसारण और उपभोक्ता वीडियो सिस्टम प्रति सेकंड 30 फ्रेम की दर से काम करते हैं, अंकीय संकेत प्रक्रिया  और  ग्राफ़िक्स प्रोसेसिंग युनिट  में प्रगति ने उच्च गति वाली छवि अधिग्रहण, प्रसंस्करण और प्रति सेकंड हजारों फ्रेम प्रदर्शन को वास्तविक समय प्रणालियों के लिए संभव बना दिया है। रोबोटिक्स में अनुप्रयोगों के लिए, तेज़, रीयल-टाइम वीडियो सिस्टम गंभीर रूप से महत्वपूर्ण हैं और अधिकांश कुछ एल्गोरिदम के लिए आवश्यक प्रसंस्करण को सरल बना सकते हैं। जब एक हाई-स्पीड प्रोजेक्टर के साथ जोड़ा जाता है, तो तेज छवि अधिग्रहण त्रि-आयामी माप और फीचर ट्रैकिंग को अनुभूत करने की अनुमति देता है।

इगोमोशन दृष्टि प्रणाली एक पहनने योग्य कैमरे से बनी होती है जो स्वचालित रूप से पहले व्यक्ति के दृष्टिकोण से तस्वीरें लेती है।

2016 तक, इस भूमिका में सीपीयू और ग्राफिक्स दृष्टि प्रसंस्करण इकाई जीपीयू) के पूरक के लिए दृष्टि प्रसंस्करण इकाइयां प्रोसेसर की एक नई श्रेणी के रूप में उत्थान हो रहा हैं।

यह भी देखें

 * कम्प्यूटेशनल इमेजिंग
 * कम्प्यूटेशनल फोटोग्राफी
 * कंप्यूटर ऑडिशन
 * अहंकारी दृष्टि
 * मशीन दृष्टि शब्दावली
 * अंतरिक्ष मानचित्रण
 * टेक्नोमो-फर्नांडीज एल्गोरिथम
 * दृष्टि विज्ञान
 * विजुअल एग्नोसिया
 * दृश्य बोध
 * दृश्य प्रणाली

सूची

 * कंप्यूटर दृष्टि की रूपरेखा
 * उभरती प्रौद्योगिकियों की सूची
 * कृत्रिम बुद्धि की रूपरेखा

आगे की पढाई




बाहरी कड़ियाँ

 * USC Iris computer vision conference list
 * Computer vision papers on the web A complete list of papers of the most relevant computer vision conferences.
 * Computer Vision Online News, source code, datasets and job offers related to computer vision.
 * CVonline Bob Fisher's Compendium of Computer Vision.
 * British Machine Vision Association Supporting computer vision research within the UK via the BMVC and MIUA conferences, Annals of the BMVA (open-source journal), BMVA Summer School and one-day meetings
 * Computer Vision Container, Joe Hoeller GitHub: Widely adopted open-source container for GPU accelerated computer vision applications. Used by researchers, universities, private companies as well as the U.S. Gov't.