ब्लॉब संसूचक

कंप्यूटर विज़न में, ब्लॉब डिटेक्शन विधियों का उद्देश्य डिजिटल छवि में उन क्षेत्रों का अनुमान लगाना है जो आस-पास के क्षेत्रों की तुलना में चमक या रंग जैसे गुणों में भिन्न होते हैं। अनौपचारिक रूप से, ब्लॉब छवि का क्षेत्र है जिसमें कुछ गुण स्थिर या लगभग स्थिर होते हैं; बूँद के सभी बिंदुओं को कुछ अर्थों में एक-दूसरे के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन है।

छवि पर स्थिति के फ़ंक्शन के रूप में व्यक्त की गई रुचि की कुछ संपत्ति को देखते हुए, ब्लॉब डिटेक्टरों के दो मुख्य वर्ग हैं: (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फ़ंक्शन के डेरिवेटिव पर आधारित हैं, और ( ii) स्थानीय मैक्सिमा और मिनिमा पर आधारित विधियां, जो फ़ंक्शन की स्थानीय मैक्सिमा और मिनिमा खोजने पर आधारित हैं। क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन डिटेक्टरों को रुचि बिंदु ऑपरेटर्स, या वैकल्पिक रूप से रुचि क्षेत्र ऑपरेटर्स ( रुचि बिंदु का अनुमान लगाना और कोने का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है।

ब्लॉब डिटेक्टरों के अध्ययन और विकास के लिए कई प्रेरणाएँ हैं। मुख्य कारण क्षेत्रों के बारे में पूरक जानकारी प्रदान करना है, जो किनारे का अनुमान लगाना या कोने का अनुमान लगाने से प्राप्त नहीं होती है। क्षेत्र में प्रारंभिक कार्य में, आगे की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब डिटेक्शन का उपयोग किया गया था। ये क्षेत्र ऑब्जेक्ट पहचान और/या ऑब्जेक्ट वीडियो ट्रैकिंग के अनुप्रयोग के साथ छवि डोमेन में ऑब्जेक्ट या ऑब्जेक्ट के हिस्सों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे छवि हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग विभाजन (छवि प्रसंस्करण) के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग बनावट (कंप्यूटर ग्राफिक्स) विश्लेषण और बनावट पहचान के लिए मुख्य प्राचीन के रूप में होता है। हाल के काम में, ब्लॉब डिस्क्रिप्टर को व्यापक बेसलाइन छवि पंजीकरण के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय छवि आंकड़ों के आधार पर उपस्थिति-आधारित ऑब्जेक्ट पहचान के लिए सूचनात्मक छवि सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी है।

गॉसियन का लाप्लासियन
सबसे पहले और सबसे साधारण ब्लॉब डिटेक्टरों में से गाऊसी फिल्टर (एलओजी) के लाप्लासियन पर आधारित है। इनपुट छवि दी गई है $$f(x, y)$$, यह छवि गॉसियन कर्नेल द्वारा संयोजित है |
 * $$g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}$$

एक निश्चित पैमाने पर $$t$$ स्केल स्पेस प्रतिनिधित्व देने के लिए $$L(x, y; t)\ = g(x, y, t) * f(x, y)$$. फिर, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम


 * $$\nabla^2 L =L_{xx} + L_{yy}$$

की गणना की जाती है, जिसके परिणामस्वरूप साधारण तौर पर त्रिज्या के काले धब्बों के लिए मजबूत सकारात्मक प्रतिक्रिया होती है $r^2 = 2 t$ (द्वि-आयामी छवि के लिए, $r^2 = d t$  के लिए $d$ -आयामी छवि) और समान आकार की चमकदार बूँदों के लिए मजबूत नकारात्मक प्रतिक्रियाएँ। हालाँकि, इस ऑपरेटर को एकल पैमाने पर क्रियान्वित करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया छवि डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के बीच संबंध पर दृढ़ता से निर्भर होती है। छवि डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से कैप्चर करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक है।

स्वचालित स्केल चयन के साथ मल्टी-स्केल ब्लॉब डिटेक्टर प्राप्त करने का सीधा विधि स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है
 * $$\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})$$

और स्केल-स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, ये ऐसे बिंदु हैं जो साथ स्थानीय मैक्सिमा/मिनिमा हैं $$\nabla^2_\mathrm{norm} L$$ अंतरिक्ष और पैमाने दोनों के संबंध में (लिंडेबर्ग 1994, 1998)। इस प्रकार, असतत द्वि-आयामी इनपुट छवि दी गई है $$f(x, y)$$ त्रि-आयामी असतत स्केल-स्पेस वॉल्यूम $$L(x, y, t)$$ गणना की जाती है और बिंदु को उज्ज्वल (अंधेरे) बूँद के रूप में माना जाता है यदि इस बिंदु पर मूल्य उसके सभी 26 पड़ोसियों के मूल्य से अधिक (छोटा) है। इस प्रकार, रुचि बिंदुओं का साथ चयन $$(\hat{x}, \hat{y})$$ और तराजू $$\hat{t}$$ के अनुसार किया जाता है
 * $$(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))$$.

ध्यान दें कि बूँद की यह धारणा बूँद की धारणा की संक्षिप्त और गणितीय रूप से सटीक परिचालन परिभाषा प्रदान करती है, जो सीधे बूँद का अनुमान लगाने के लिए कुशल और मजबूत एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के स्केल-स्पेस मैक्सिमा से परिभाषित बूँदों के कुछ बुनियादी गुण यह हैं कि प्रतिक्रियाएँ छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होती हैं। इस प्रकार, यदि बिंदु पर स्केल-स्पेस अधिकतम मान लिया जाता है $$(x_0, y_0; t_0)$$ फिर स्केल फ़ैक्टर द्वारा छवि के पुनर्स्केलिंग के तहत $$s$$, वहां स्केल-स्पेस अधिकतम होगा $$\left(s x_0, s y_0; s^2 t_0\right)$$ पुनर्स्केल की गई छवि में (लिंडेबर्ग 1998)। व्यवहार में यह अत्यधिक उपयोगी संपत्ति का तात्पर्य है कि लाप्लासियन ब्लॉब डिटेक्शन के विशिष्ट विषय के अलावा, स्केल-सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में स्केल चयन के लिए भी किया जाता है, जैसे कि कोने का अनुमान लगाना, स्केल-अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998), स्केल-अपरिवर्तनीय सुविधा परिवर्तन (लोव 2004) के साथ-साथ छवि मिलान और ऑब्जेक्ट पहचान के लिए अन्य छवि डिस्क्रिप्टर।

लाप्लासियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)। में (लिंडेबर्ग 2013बी, 2015) यह दिखाया गया है कि अन्य स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टर मौजूद हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जो स्थानीय SIFT-जैसे इमेज डिस्क्रिप्टर का उपयोग करके छवि-आधारित मिलान के लिए लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से बेहतर प्रदर्शन करता है।

गॉसियन दृष्टिकोण का अंतर
इस तथ्य से कि स्केल अंतरिक्ष प्रतिनिधित्व $$L(x, y, t)$$ प्रसार समीकरण को संतुष्ट करता है
 * $$\partial_t L = \frac{1}{2} \nabla^2 L$$

यह गॉसियन ऑपरेटर के लाप्लासियन का अनुसरण करता है $$\nabla^2 L(x, y, t)$$ दो गाऊसी चिकनी छवियों (स्केल स्पेस प्रतिनिधित्व) के बीच अंतर के सीमा मामले के रूप में भी गणना की जा सकती है
 * $$\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) $$.

कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। हालाँकि, मामूली तकनीकीताओं के अलावा, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। लाप्लासियन ब्लॉब डिटेक्टर के समान ही, गॉसियन के अंतर के स्केल-स्पेस एक्स्ट्रेमा से ब्लॉब्स का अनुमान लगाया जा सकता है - देखें (लिंडेबर्ग 2012, 2015) गॉसियन ऑपरेटर के अंतर और स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के बीच स्पष्ट संबंध के लिए। उदाहरण के लिए, इस दृष्टिकोण का उपयोग स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है - लोव (2004) देखें।

हेस्सियन का निर्धारक
हेस्सियन के स्केल-सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंगे-एम्पीयर समीकरण भी कहा जाता है | मोंज-एम्पीयर ऑपरेटर,
 * $$\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)$$

कहाँ $$H L$$ स्केल-स्पेस प्रतिनिधित्व के हेस्सियन मैट्रिक्स को दर्शाता है $$L$$ और फिर इस ऑपरेटर के स्केल-स्पेस मैक्सिमा का अनुमान लगाने से स्वचालित स्केल चयन के साथ और सीधा अंतर ब्लॉब डिटेक्टर प्राप्त होता है जो सैडल्स पर भी प्रतिक्रिया करता है (लिंडेबर्ग 1994, 1998)
 * $$(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))$$.

बूँद बिंदु $$(\hat{x}, \hat{y})$$ और तराजू $$\hat{t}$$ इन्हें ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होते हैं। स्केल चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के स्केल-स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन एफाइन परिवर्तनों के तहत अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में थोड़ा बेहतर स्केल चयन गुण होते हैं।. सरलीकृत रूप में, उसकी तरंगिका ्स से गणना किए गए हेसियन के स्केल-सामान्यीकृत निर्धारक का उपयोग छवि मिलान और ऑब्जेक्ट पहचान के लिए स्पीड अप मजबूत फीचर्स डिस्क्रिप्टर (बे एट अल 2006) में मूल ब्याज बिंदु ऑपरेटर के रूप में किया जाता है।

हेसियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस ब्याज बिंदु डिटेक्टरों के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है। यह दर्शाता है कि हेस्सियन ऑपरेटर के निर्धारक में लाप्लासियन ऑपरेटर की तुलना में एफ़िन छवि परिवर्तनों के तहत बेहतर स्केल चयन गुण हैं। में (लिंडेबर्ग 2013बी, 2015) यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या उसके अंतर-गाऊसी सन्निकटन की तुलना में काफी बेहतर प्रदर्शन करता है, साथ ही स्थानीय SIFT-जैसे या का उपयोग करके छवि-आधारित मिलान के लिए हैरिस या हैरिस-लाप्लास ऑपरेटरों से भी बेहतर प्रदर्शन करता है। एसयूआरएफ-जैसे छवि डिस्क्रिप्टर, उच्च दक्षता मूल्यों और कम 1-सटीक स्कोर की ओर ले जाते हैं।

संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)
लाप्लासियन और हेस्सियन ब्लॉब डिटेक्टरों के निर्धारक के बीच हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और स्केल चयन स्केल-सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है:
 * $$(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))$$
 * $$\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))$$

इस ऑपरेटर का उपयोग छवि मिलान, वस्तु पहचान के साथ-साथ बनावट विश्लेषण के लिए किया गया है।

एफ़िन-अनुकूलित विभेदक ब्लॉब डिटेक्टर
स्वचालित स्केल चयन के साथ इन ब्लॉब डिटेक्टरों से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। हालाँकि, जो छवियाँ कंप्यूटर विज़न सिस्टम के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत हैं, प्राकृतिक दृष्टिकोण ब्लॉब डिटेक्टर तैयार करना है जो एफाइन ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय है। व्यवहार में, ब्लॉब डिस्क्रिप्टर में एफाइन आकार अनुकूलन को क्रियान्वित करके एफाइन अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय छवि संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है, या समकक्ष रूप से स्थानीय छवि पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008)। इस तरह, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के एफ़िन-अनुकूलित संस्करणों को परिभाषित कर सकते हैं (हैरिस-एफ़िन और हेस्सियन-एफ़िन भी देखें)।

स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर
हेसियन ऑपरेटर के निर्धारक को विलेम्स एट अल द्वारा संयुक्त अंतरिक्ष-समय तक बढ़ा दिया गया है। और लिंडेबर्ग, निम्नलिखित पैमाने-सामान्यीकृत विभेदक अभिव्यक्ति की ओर अग्रसर:



\det(H_{(x,y,t),\mathrm{norm}} L) = s^{2 \gamma_s} \tau^{\gamma_{\tau}} \left( L_{xx} L_{yy} L_{tt} + 2 L_{xy} L_{xt} L_{yt} - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right). $$ विलेम्स एट अल के काम में, के अनुरूप सरल अभिव्यक्ति $$\gamma_s = 1$$ और $$\gamma_{\tau} = 1$$ प्रयोग किया गया। लिंडेबर्ग में, ऐसा दिखाया गया $$\gamma_s = 5/4$$ और $$\gamma_{\tau} = 5/4$$ बेहतर पैमाने के चयन गुणों का तात्पर्य इस अर्थ में है कि चयनित पैमाने के स्तर स्थानिक सीमा के साथ स्थानिक-अस्थायी गाऊसी बूँद से प्राप्त होते हैं $$s = s_0$$ और अस्थायी सीमा $$\tau = \tau_0$$ अंतर अभिव्यक्ति के स्थानिक-अस्थायी स्केल-स्पेस एक्स्ट्रेमा का अनुमान लगाकर किए गए स्केल चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाएगा।

लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा स्थानिक-अस्थायी वीडियो डेटा तक विस्तारित किया गया है, निम्नलिखित दो अनुपात-अस्थायी ऑपरेटरों के लिए अग्रणी, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का भी गठन करते हैं:



\partial_{t,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}/2} (L_{xxt} + L_{yyt}), $$

\partial_{tt,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}} (L_{xxtt} + L_{yytt}). $$ पहले ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करना आवश्यक है $$\gamma_s = 1$$ और $$\gamma_{\tau} = 1/2$$, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक-अस्थायी पैमाने पर अपना अधिकतम मूल्य मान ले, जो शुरुआत गाऊसी ब्लॉब की स्थानिक सीमा और अस्थायी अवधि को दर्शाता है। दूसरे ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करने की आवश्यकता है $$\gamma_s = 1$$ और $$\gamma_{\tau} = 3/4$$, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक सीमा और पलक झपकते गॉसियन ब्लॉब की लौकिक अवधि को दर्शाते हुए अपने अधिकतम मूल्य को मान ले।

ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और स्केल-स्पेस ब्लॉब्स
बूँदों का अनुमान लगाने का प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथ उज्ज्वल (गहरा) बूँद जोड़ना है। हालाँकि, इस तरह के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम शोर के प्रति बहुत संवेदनशील होते हैं। इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने स्केल स्पेस में कई पैमानों पर विस्तार के साथ स्थानीय मैक्सिमा का अनुमान लगाने की समस्या का अध्ययन किया। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अलावा, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ आगे बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर सेटों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि छवि डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन। बढ़ते पैमाने के साथ ये संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, स्केल-स्पेस ब्लॉब्स की धारणा पेश की गई थी। स्थानीय कंट्रास्ट और सीमा से परे, इन स्केल-स्पेस ब्लॉब्स ने अपने स्केल-स्पेस जीवनकाल को मापकर यह भी मापा कि स्केल-स्पेस में छवि संरचनाएं कितनी स्थिर हैं।

यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और स्केल डिस्क्रिप्टर, स्केल से परिभाषित संबंधित स्केल स्तरों के साथ, जिस पर ब्लॉब ताकत के सामान्यीकृत उपायों ने स्केल पर अपनी अधिकतम सीमा मान ली थी, अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और स्केल डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट तकनीक को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ काफी हद तक सुधार किया जा सकता है, समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के पैमाने पर स्थानीय एक्स्ट्रेमा आजकल उपयोग किया जाता है अन्य दृश्य प्रक्रियाओं को पैमाने की जानकारी प्रदान करने के लिए।

लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब डिटेक्शन एल्गोरिदम
वाटरशेड सादृश्य से ग्रे-लेवल ब्लब्स (विस्तार के साथ स्थानीय चरम) का अनुमान लगाने के उद्देश्य से, लिंडेबर्ग ने पिक्सेल को पूर्व-सॉर्ट करने पर आधारित एल्गोरिदम विकसित किया, समान तीव्रता वाले वैकल्पिक रूप से जुड़े हुए क्षेत्र तीव्रता मूल्यों का घटता क्रम। फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम पड़ोसियों के बीच तुलना की गई।

सरलता के लिए, चमकीले ग्रे-स्तरीय ब्लब्स का अनुमान लगाने के मामले पर विचार करें उच्चतर पड़ोसी संकेतन को उच्च ग्रे-लेवल मान वाले पड़ोसी पिक्सेल के लिए खड़ा होने दें। फिर, एल्गोरिथम के किसी भी चरण में (तीव्रता मानों के घटते क्रम में किया गया) निम्नलिखित वर्गीकरण नियमों पर आधारित है:


 * 1) यदि किसी क्षेत्र का कोई उच्चतर पड़ोसी नहीं है, तो यह स्थानीय अधिकतम है और बूँद का बीज होगा। ध्वज सेट करें जो बूँद को बढ़ने देता है।
 * 2) अन्यथा, यदि इसमें कम से कम उच्चतर पड़ोसी है, जो पृष्ठभूमि है, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है और पृष्ठभूमि होना चाहिए।
 * 3) अन्यथा, यदि इसके से अधिक उच्च पड़ोसी हैं और यदि वे उच्च पड़ोसी अलग-अलग ब्लॉब के हिस्से हैं, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है, और पृष्ठभूमि होना चाहिए। यदि ऊंचे पड़ोसियों में से किसी को अभी भी बढ़ने की अनुमति है, तो उनके झंडे को हटा दें जो उन्हें बढ़ने की अनुमति देता है।
 * 4) अन्यथा, इसके या अधिक उच्च पड़ोसी हैं, जो सभी ही बूँद के भाग हैं। यदि उस बूँद को अभी भी बढ़ने दिया जाता है तो वर्तमान क्षेत्र को उस बूँद के भाग के रूप में शामिल किया जाना चाहिए। अन्यथा क्षेत्र को पृष्ठभूमि में सेट कर दिया जाना चाहिए।

अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में बाढ़ का भराव तब रुक जाता है जब तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन काठी बिंदु के तीव्रता मूल्य से नीचे गिर जाता है। हालाँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना काफी सरल है। उदाहरण के लिए, पहले परिसीमन सैडल बिंदु से आगे बढ़कर ग्रे-लेवल ब्लॉब ट्री का निर्माण किया जा सकता है। इसके अलावा, ग्रे-लेवल ब्लॉब डिटेक्शन विधि को स्केल स्पेस प्रतिनिधित्व में एम्बेड किया गया था और स्केल के सभी स्तरों पर प्रदर्शन किया गया था, जिसके परिणामस्वरूप स्केल-स्पेस प्राइमल स्केच नामक प्रतिनिधित्व हुआ।

कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस में अधिक विस्तार से वर्णित किया गया है साथ ही स्केल-स्पेस सिद्धांत पर मोनोग्राफ आंशिक रूप से आधारित उस काम पर. इस एल्गोरिथम की पिछली प्रस्तुतियाँ भी यहाँ पाई जा सकती हैं. कंप्यूटर विज़न और मेडिकल इमेज विश्लेषण के लिए ग्रे-लेवल ब्लॉब डिटेक्शन और स्केल-स्पेस प्राइमल स्केच के अनुप्रयोगों के अधिक विस्तृत उपचार दिए गए हैं।.

अधिकतम स्थिर चरम क्षेत्र (एमएसईआर)
माटस एट अल. (2002) ऐसे छवि वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे जो 3डी प्रक्षेपण#परिप्रेक्ष्य प्रक्षेपण के तहत मजबूत हों। उन्होंने तीव्रता परिदृश्य में स्तर सेटों का अध्ययन किया और मापा कि ये तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन छवि वर्णनकर्ताओं को कंप्यूटर स्टीरियो विज़न के लिए छवि सुविधाओं के रूप में उपयोग किया जा सकता है।

इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के बीच घनिष्ठ संबंध हैं। अधिकतम स्थिर चरम क्षेत्रों को आगे की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है।

यह भी देखें

 * बूँद निष्कर्षण
 * कोने का अनुमान लगाना
 * एफ़िन आकार अनुकूलन
 * स्केल स्पेस
 * रिज का अनुमान लगाना
 * रुचि बिंदु का अनुमान लगाना
 * फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
 * हैरिस एफ़िन क्षेत्र डिटेक्टर
 * हेस्सियन एफ़िन क्षेत्र डिटेक्टर
 * प्रधान वक्रता-आधारित क्षेत्र डिटेक्टर