ब्लॉब संसूचक

कंप्यूटर विज़न में, ब्लॉब डिटेक्शन विधियों का उद्देश्य डिजिटल छवि में उन क्षेत्रों का अनुमान लगाना है जो आस-पास के क्षेत्रों की तुलना में चमक या रंग जैसे गुणों में भिन्न होते हैं। अनौपचारिक रूप से, ब्लॉब छवि का क्षेत्र है जिसमें कुछ गुण स्थिर या लगभग स्थिर होते हैं; बूँद के सभी बिंदुओं को कुछ अर्थों में एक-दूसरे के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन है।

छवि पर स्थिति के फलन के रूप में व्यक्त की गई रुचि की कुछ संपत्ति को देखते हुए, ब्लॉब डिटेक्टरों के दो मुख्य वर्ग हैं: (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फलन के डेरिवेटिव पर आधारित हैं, और ( ii) स्थानीय मैक्सिमा और मिनिमा पर आधारित विधियां, जो फलन की स्थानीय मैक्सिमा और मिनिमा खोजने पर आधारित हैं। क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन डिटेक्टरों को रुचि बिंदु ऑपरेटर्स, या वैकल्पिक रूप से रुचि क्षेत्र ऑपरेटर्स ( रुचि बिंदु का अनुमान लगाना और कोने का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है।

ब्लॉब डिटेक्टरों के अध्ययन और विकास के लिए अनेक प्रेरणाएँ हैं। मुख्य कारण क्षेत्रों के बारे में पूरक जानकारी प्रदान करना है, जो किनारे का अनुमान लगाना या कोने का अनुमान लगाने से प्राप्त नहीं होती है। क्षेत्र में प्रारंभिक कार्य में, आगे की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब डिटेक्शन का उपयोग किया गया था। ये क्षेत्र ऑब्जेक्ट पहचान और/या ऑब्जेक्ट वीडियो ट्रैकिंग के अनुप्रयोग के साथ छवि डोमेन में ऑब्जेक्ट या ऑब्जेक्ट के हिस्सों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे छवि हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग विभाजन (छवि प्रसंस्करण) के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग बनावट (कंप्यूटर ग्राफिक्स) विश्लेषण और बनावट पहचान के लिए मुख्य प्राचीन के रूप में होता है। हाल के काम में, ब्लॉब डिस्क्रिप्टर को व्यापक बेसलाइन छवि पंजीकरण के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय छवि आंकड़ों के आधार पर उपस्थिति-आधारित ऑब्जेक्ट पहचान के लिए सूचनात्मक छवि सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी है।

गॉसियन का लाप्लासियन
सबसे पहले और सबसे साधारण ब्लॉब डिटेक्टरों में से गाऊसी फिल्टर (एलओजी) के लाप्लासियन पर आधारित है। इनपुट छवि दी गई है $$f(x, y)$$, यह छवि गॉसियन कर्नेल द्वारा संयोजित है |
 * $$g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}$$

एक निश्चित पैमाने पर $$t$$ स्केल स्पेस प्रतिनिधित्व देने के लिए $$L(x, y; t)\ = g(x, y, t) * f(x, y)$$. फिर, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम होता हैं |

गणना की जाती है, जिसके परिणामस्वरूप सामान्यतः त्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली सकारात्मक प्रतिक्रियाएं होती हैं। गणना की जाती है, जिसके परिणामस्वरूप सामान्यतःत्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली सकारात्मक प्रतिक्रियाएं होती हैं $r^2 = 2 t$  एक$r^2 = d t$  $d$  -आयामी छवि के लिए) और उज्ज्वल ब्लब्स के लिए शक्तिशाली नकारात्मक प्रतिक्रियाएं होती हैं समान आकार. चूँकि, इस ऑपरेटर को एकल पैमाने पर प्रयुक्त करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया छवि डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के मध्य संबंध पर दृढ़ता से निर्भर होती है। छवि डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से कैप्चर करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक है।
 * $$\nabla^2 L =L_{xx} + L_{yy}$$

स्वचालित स्केल चयन के साथ मल्टी-स्केल ब्लॉब डिटेक्टर प्राप्त करने का सीधा विधि स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है


 * $$\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})$$

और स्केल-स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, ये ऐसे बिंदु हैं जो स्पेस और स्केल दोनों के संबंध में साथ $$\nabla^2_\mathrm{norm} L$$ के स्थानीय मैक्सिमा/मिनिमा हैं (लिंडेबर्ग 1994, 1998)। इस प्रकार, असतत द्वि-आयामी इनपुट छवि $$f(x, y)$$ को देखते हुए त्रि-आयामी असतत स्केल-स्पेस वॉल्यूम $$L(x, y, t)$$ की गणना की जाती है और बिंदु को उज्ज्वल (अंधेरे) बूँद के रूप में माना जाता है यदि इस बिंदु पर मान अधिक (छोटा) है इसके सभी 26 पड़ोसियों के मूल्य से अधिक। इस प्रकार, ब्याज अंक $$(\hat{x}, \hat{y})$$और स्केल $$\hat{t}$$ का साथ चयन के अनुसार किया जाता है
 * $$(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))$$.

ध्यान दें कि ब्लॉब की यह धारणा "ब्लॉब" की धारणा की संक्षिप्त और गणितीय रूप से स्पष्ट परिचालन परिभाषा प्रदान करती है, जो सीधे ब्लॉब का पता लगाने के लिए कुशल और शक्तिशाली एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के स्केल-स्पेस मैक्सिमा से परिभाषित बूँदों के कुछ मूलभूत गुण यह हैं कि प्रतिक्रियाएँ छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होती हैं। इस प्रकार, यदि स्केल-स्पेस अधिकतम को बिंदु $$(x_0, y_0; t_0)$$ पर माना जाता है, तब स्केल फैक्टर $$s$$ द्वारा छवि के रीस्केलिंग के अनुसार, रीस्केल की गई छवि में $$\left(s x_0, s y_0; s^2 t_0\right)$$ पर स्केल-स्पेस अधिकतम होगा (लिंडेबर्ग 1998) ). व्यवहार में यह अत्यधिक उपयोगी संपत्ति का तात्पर्य है कि लाप्लासियन ब्लॉब डिटेक्शन के विशिष्ट विषय के अतिरिक्त, स्केल-सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में स्केल चयन के लिए भी किया जाता है, जैसे कि कोने का पता लगाना, स्केल-अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998), स्केल-अपरिवर्तनीय सुविधा परिवर्तन (लोव 2004) के साथ-साथ छवि मिलान और ऑब्जेक्ट पहचान के लिए अन्य छवि डिस्क्रिप्टर होता हैं।

लाप्लासियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)। (लिंडेबर्ग 2013बी, 2015) में यह दिखाया गया है कि अन्य स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टर उपस्थित हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जो लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से उत्तम प्रदर्शन करता है। स्थानीय SIFT-जैसे छवि वर्णनकर्ताओं का उपयोग करके छवि-आधारित मिलान के लिए।

गॉसियन दृष्टिकोण का अंतर
इस तथ्य से कि स्केल स्पेस प्रतिनिधित्व $$L(x, y, t)$$ प्रसार समीकरण को संतुष्ट करता है
 * $$\partial_t L = \frac{1}{2} \nabla^2 L$$

इससे पता चलता है कि गॉसियन ऑपरेटर $$\nabla^2 L(x, y, t)$$ के लाप्लासियन की गणना दो गॉसियन चिकनी छवियों (स्केल स्पेस प्रतिनिधित्व) के मध्य अंतर के सीमा स्थितियों के रूप में भी की जा सकती है।
 * $$\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) $$.

कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। चूँकि, सामान्य विधि के अतिरिक्त, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। लाप्लासियन ब्लॉब डिटेक्टर के समान ही, गॉसियन के अंतर के स्केल-स्पेस एक्स्ट्रेमा से ब्लॉब का पता लगाया जा सकता है - गॉसियन ऑपरेटर के अंतर के मध्य स्पष्ट संबंध के लिए देखें (लिंडेबर्ग 2012, 2015) और स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर। उदाहरण के लिए, इस दृष्टिकोण का उपयोग स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है - लोव (2004) देखें।

हेस्सियन का निर्धारक
हेस्सियन के स्केल-सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंज-एम्पीयर ऑपरेटर भी कहा जाता है | जहां $$H L$$ स्केल-स्पेस प्रतिनिधित्व $$L$$ के हेस्सियन आव्युह को दर्शाता है और फिर इस ऑपरेटर के स्केल-स्पेस मैक्सिमा का पता लगाता है, स्वचालित स्केल चयन के साथ और सीधा अंतर ब्लॉब डिटेक्टर प्राप्त करता है जो सैडल्स पर भी प्रतिक्रिया करता है (लिंडेबर्ग 1994, 1998)
 * $$\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)$$
 * $$(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))$$.

ब्लॉब पॉइंट्स $$(\hat{x}, \hat{y})$$ और स्केल्स $$\hat{t}$$ को ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो इमेज डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होते हैं। स्केल चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के स्केल-स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन एफाइन परिवर्तनों के अनुसार अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में थोड़ा उत्तम स्केल चयन गुण होते हैं। सरलीकृत रूप में, उसकी तरंगिका से गणना किए गए हेसियन के स्केल-सामान्यीकृत निर्धारक का उपयोग छवि मिलान और ऑब्जेक्ट पहचान के लिए एसयूआरएफ डिस्क्रिप्टर (बे एट अल 2006) में मूल रुचि बिंदु ऑपरेटर के रूप में किया जाता है।

हेसियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस ब्याज बिंदु डिटेक्टरों के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है [1] यह दर्शाता है कि हेसियन ऑपरेटर के निर्धारक में एफ़िन छवि परिवर्तनों के अनुसार उत्तम स्केल चयन गुण हैं लाप्लासियन ऑपरेटर की तुलना में। (लिंडेबर्ग 2013बी, 2015) में यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन की तुलना में अधिक उत्तम प्रदर्शन करता है, साथ ही हैरिस या हैरिस-लाप्लास से भी उत्तम प्रदर्शन करता है। ऑपरेटर, छवि-आधारित मिलान के लिए स्थानीय SIFT-जैसे या SURF-जैसे छवि वर्णनकर्ताओं का उपयोग करते हैं, जिससे उच्च दक्षता मान और कम 1-स्पष्ट स्कोर प्राप्त होते हैं।

संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)
लाप्लासियन और हेस्सियन ब्लॉब डिटेक्टरों के निर्धारक के मध्य हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और स्केल चयन स्केल-सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है:
 * $$(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))$$
 * $$\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))$$

इस ऑपरेटर का उपयोग छवि मिलान, वस्तु पहचान के साथ-साथ बनावट विश्लेषण के लिए किया गया है।

एफ़िन-अनुकूलित विभेदक ब्लॉब डिटेक्टर
स्वचालित स्केल चयन के साथ इन ब्लॉब डिटेक्टरों से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। चूँकि, जो छवियाँ कंप्यूटर विज़न प्रणाली के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक शक्तिशाली हैं, प्राकृतिक दृष्टिकोण ब्लॉब डिटेक्टर तैयार करना है जो एफाइन ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय है। व्यवहार में, ब्लॉब डिस्क्रिप्टर में एफाइन आकार अनुकूलन को प्रयुक्त करके एफाइन अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय छवि संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है, या समकक्ष रूप से स्थानीय छवि पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008)। इस तरह, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के एफ़िन-अनुकूलित संस्करणों को परिभाषित कर सकते हैं (हैरिस-एफ़िन और हेस्सियन-एफ़िन भी देखें)।

स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर
हेसियन ऑपरेटर के निर्धारक को विलेम्स एट अल द्वारा संयुक्त अंतरिक्ष-समय तक बढ़ा दिया गया है। और लिंडेबर्ग, निम्नलिखित पैमाने-सामान्यीकृत अंतर अभिव्यक्ति की ओर ले जाते हैं |



\det(H_{(x,y,t),\mathrm{norm}} L) = s^{2 \gamma_s} \tau^{\gamma_{\tau}} \left( L_{xx} L_{yy} L_{tt} + 2 L_{xy} L_{xt} L_{yt} - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right). $$

विलेम्स एट अल के काम में, $$\gamma_s = 1$$ और $$\gamma_{\tau} = 1$$ के अनुरूप सरल अभिव्यक्ति का उपयोग किया गया था। लिंडेबर्ग में, यह दिखाया गया था कि $$\gamma_s = 5/4$$ और $$\gamma_{\tau} = 5/4$$ इस अर्थ में उत्तम पैमाने के चयन गुणों को दर्शाते हैं कि चयनित पैमाने का स्तर स्थानिक सीमा $$s = s_0$$ और अस्थायी सीमा $$\tau = \tau_0$$ के साथ स्थानिक-अस्थायी गॉसियन ब्लॉब से प्राप्त होता है। अंतर अभिव्यक्ति के स्थानिक-अस्थायी स्केल-स्पेस एक्स्ट्रेमा का पता लगाकर किए गए स्केल चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाएगा।

लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा अनुपात-अस्थायी वीडियो डेटा तक विस्तारित किया गया है, जिससे निम्नलिखित दो अनुपात-अस्थायी ऑपरेटर बन गए हैं, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का गठन भी करते हैं:



\partial_{t,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}/2} (L_{xxt} + L_{yyt}), $$

\partial_{tt,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}} (L_{xxtt} + L_{yytt}). $$ पहले ऑपरेटर के लिए, स्केल चयन गुण $$\gamma_s = 1$$और $$\gamma_{\tau} = 1/2$$ का उपयोग करने के लिए कहते हैं, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक सीमा और अस्थायी अवधि को दर्शाते हुए स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक-अस्थायी पैमाने पर अपना अधिकतम मूल्य मान ले। आरंभिक गाऊसी बूँद। दूसरे ऑपरेटर के लिए, स्केल चयन गुणों में $$\gamma_s = 1$$ और $$\gamma_{\tau} = 3/4$$ का उपयोग करने की आवश्यकता होती है, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक सीमा और अस्थायी अवधि को दर्शाते हुए स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक-अस्थायी पैमाने पर अपना अधिकतम मान ग्रहण करे। चमकती गॉसियन बूँद।

ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और स्केल-स्पेस ब्लॉब्स
बूँदों का पता लगाने का प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथ उज्ज्वल (गहरा) बूँद जोड़ना है। चूँकि, इस तरह के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम ध्वनि के प्रति बहुत संवेदनशील होते हैं। इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने स्केल स्पेस में अनेक पैमानों पर विस्तार के साथ स्थानीय मैक्सिमा का पता लगाने की समस्या का अध्ययन किया। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अतिरिक्त, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ आगे बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर समुच्चयों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि छवि डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन। बढ़ते पैमाने के साथ ये संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, स्केल-स्पेस ब्लॉब्स की धारणा प्रस्तुत की गई थी। स्थानीय कंट्रास्ट और सीमा से परे, इन स्केल-स्पेस ब्लॉब्स ने अपने स्केल-स्पेस जीवनकाल को मापकर यह भी मापा कि स्केल-स्पेस में छवि संरचनाएं कितनी स्थिर हैं।

यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और स्केल डिस्क्रिप्टर, स्केल से परिभाषित संबंधित स्केल स्तरों के साथ, जिस पर ब्लॉब ताकत के सामान्यीकृत उपायों ने स्केल पर अपनी अधिकतम सीमा मान ली थी, अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और स्केल डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट विधि को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ अधिक सीमा तक सुधार किया जा सकता है, समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के पैमाने पर स्थानीय एक्स्ट्रेमा आजकल उपयोग किया जाता है अन्य दृश्य प्रक्रियाओं को पैमाने की जानकारी प्रदान करने के लिए।

लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब डिटेक्शन एल्गोरिदम
वाटरशेड सादृश्य से ग्रे-लेवल ब्लॉब्स (विस्तार के साथ स्थानीय चरम) का पता लगाने के उद्देश्य से, लिंडेबर्ग ने तीव्रता मूल्यों के घटते क्रम में, समान तीव्रता वाले वैकल्पिक रूप से जुड़े क्षेत्रों, पिक्सेल को पूर्व-सॉर्ट करने के आधार पर एल्गोरिदम विकसित किया। फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम पड़ोसियों के मध्य तुलना की गई।

सरलता के लिए, चमकीले ग्रे-लेवल ब्लॉब्स का पता लगाने के स्थितियों पर विचार करें और "उच्च निकटतम" का अर्थ "उच्च ग्रे-लेवल मान वाला निकटतम पिक्सेल" रखें। फिर, एल्गोरिथ्म में किसी भी स्तर पर (तीव्रता मूल्यों के घटते क्रम में किया गया) निम्नलिखित वर्गीकरण नियमों पर आधारित है |


 * 1) यदि किसी क्षेत्र में कोई उच्चतर निकटतम नहीं है, तब यह स्थानीय अधिकतम है और बूँद का बीज होगा। ध्वज समुच्चय करें जो बूँद को बढ़ने देता है।
 * 2) अन्यथा, यदि इसका कम से कम उच्चतर निकटतम है, जो पृष्ठभूमि है, तब यह किसी ब्लॉब का हिस्सा नहीं हो सकता है और पृष्ठभूमि होना चाहिए।
 * 3) अन्यथा, यदि इसके से अधिक उच्च निकटतम हैं और यदि वे उच्च निकटतम अलग-अलग ब्लॉब के हिस्से हैं, तब यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है, और पृष्ठभूमि होना चाहिए। यदि ऊंचे पड़ोसियों में से किसी को अभी भी बढ़ने की अनुमति है, तब उनके झंडे को हटा दें जो उन्हें बढ़ने की अनुमति देता है।
 * 4) अन्यथा, इसके या अधिक उच्चतर निकटतम हैं, जो सभी ही बूँद के भाग हैं। यदि उस बूँद को अभी भी बढ़ने दिया जाता है तब वर्तमान क्षेत्र को उस बूँद के भाग के रूप में सम्मिलित किया जाना चाहिए। अन्यथा क्षेत्र को पृष्ठभूमि में समुच्चय कर दिया जाना चाहिए।।

अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में बाढ़ तब रुक जाती है जब तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन काठी बिंदु के तीव्रता मूल्य से कम हो जाता है। चूँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना अधिक सरल है। उदाहरण के लिए, पहले परिसीमन काठी बिंदु से आगे बढ़कर "ग्रे-लेवल ब्लॉब ट्री" का निर्माण किया जा सकता है। इसके अतिरिक्त, ग्रे-लेवल ब्लॉब डिटेक्शन विधि को स्केल स्पेस प्रतिनिधित्व में एम्बेड किया गया था और स्केल के सभी स्तरों पर प्रदर्शन किया गया था, जिसके परिणामस्वरूप स्केल-स्पेस प्राइमल स्केच नामक प्रतिनिधित्व हुआ।

कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस [7] के साथ-साथ आंशिक रूप से उस काम पर आधारित स्केल-स्पेस सिद्धांत [8] पर मोनोग्राफ में अधिक विस्तार से वर्णित किया गया है। इस एल्गोरिथम की पिछली प्रस्तुतियाँ [9][10] में भी पाई जा सकती हैं। कंप्यूटर विज़न और मेडिकल इमेज विश्लेषण के लिए ग्रे-लेवल ब्लॉब डिटेक्शन और स्केल-स्पेस प्राइमल स्केच के अनुप्रयोगों के अधिक विस्तृत उपचार में दिए गए हैं।

अधिकतम स्थिर चरम क्षेत्र (एमएसईआर)
माटस एट अल. (2002) छवि वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे जो परिप्रेक्ष्य परिवर्तनों के अनुसार शक्तिशाली हैं। उन्होंने तीव्रता परिदृश्य में स्तर समुच्चयों का अध्ययन किया और मापा कि ये तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन छवि वर्णनकर्ताओं को कंप्यूटर स्टीरियो विज़न के लिए छवि सुविधाओं के रूप में उपयोग किया जा सकता है।

इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के मध्य घनिष्ठ संबंध हैं। अधिकतम स्थिर चरम क्षेत्रों को आगे की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है।

यह भी देखें

 * बूँद निष्कर्षण
 * कोने का अनुमान लगाना
 * एफ़िन आकार अनुकूलन
 * स्केल स्पेस
 * रिज का अनुमान लगाना
 * रुचि बिंदु का अनुमान लगाना
 * फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
 * हैरिस एफ़िन क्षेत्र डिटेक्टर
 * हेस्सियन एफ़िन क्षेत्र डिटेक्टर
 * प्रधान वक्रता-आधारित क्षेत्र डिटेक्टर