ब्लॉब संसूचक: Difference between revisions
(Created page with "{{Technical|date=September 2009}} {{FeatureDetectionCompVisNavbox}} कंप्यूटर दृष्टि में, ब्लॉब डिटेक्शन वि...") |
No edit summary |
||
| Line 1: | Line 1: | ||
{{FeatureDetectionCompVisNavbox}} | {{FeatureDetectionCompVisNavbox}} | ||
[[कंप्यूटर दृष्टि|कंप्यूटर विज़न]] में, '''ब्लॉब डिटेक्शन''' विधियों का उद्देश्य [[डिजिटल छवि]] में उन क्षेत्रों का अनुमान लगाना है जो आस-पास के क्षेत्रों की तुलना में '''चमक''' '''या रंग''' जैसे गुणों में भिन्न होते हैं। अनौपचारिक रूप से, ब्लॉब छवि का क्षेत्र है जिसमें कुछ गुण स्थिर या लगभग स्थिर होते हैं; बूँद के सभी बिंदुओं को कुछ अर्थों में एक-दूसरे के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि [[कनवल्शन]] है। | |||
ब्लॉब डिटेक्टरों के अध्ययन और विकास के लिए कई प्रेरणाएँ हैं। | छवि पर स्थिति के फ़ंक्शन के रूप में व्यक्त की गई रुचि की कुछ संपत्ति को देखते हुए, ब्लॉब डिटेक्टरों के दो मुख्य वर्ग हैं: (i) ''विभेदक कैलकुलस विधियां'', जो स्थिति के संबंध में फ़ंक्शन के डेरिवेटिव पर आधारित हैं, और ( ii) ''स्थानीय [[मैक्सिमा और मिनिमा]] पर आधारित विधियां'', जो फ़ंक्शन की स्थानीय मैक्सिमा और मिनिमा खोजने पर आधारित हैं। क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन डिटेक्टरों को ''रुचि बिंदु ऑपरेटर्स'', या वैकल्पिक रूप से रुचि क्षेत्र ऑपरेटर्स ([[ रुचि बिंदु का पता लगाना | रुचि बिंदु का अनुमान लगाना]] और [[ कोने का पता लगाना |कोने का अनुमान लगाना]] भी देखें) के रूप में भी संदर्भित किया जा सकता है। | ||
ब्लॉब डिटेक्टरों के अध्ययन और विकास के लिए कई प्रेरणाएँ हैं। मुख्य कारण क्षेत्रों के बारे में पूरक जानकारी प्रदान करना है, जो [[किनारे का पता लगाना|किनारे का अनुमान लगाना]] या कोने का अनुमान लगाने से प्राप्त नहीं होती है। क्षेत्र में प्रारंभिक कार्य में, आगे की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब डिटेक्शन का उपयोग किया गया था। ये क्षेत्र ऑब्जेक्ट पहचान और/या ऑब्जेक्ट [[वीडियो ट्रैकिंग]] के अनुप्रयोग के साथ छवि डोमेन में ऑब्जेक्ट या ऑब्जेक्ट के हिस्सों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे [[ छवि हिस्टोग्राम |छवि हिस्टोग्राम]] विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग [[ विभाजन (छवि प्रसंस्करण) |विभाजन (छवि प्रसंस्करण)]] के अनुप्रयोग के साथ [[रिज का पता लगाना|शिखर का अनुमान लगाना]] के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग [[बनावट (कंप्यूटर ग्राफिक्स)]] विश्लेषण और बनावट पहचान के लिए मुख्य प्राचीन के रूप में होता है। हाल के काम में, ब्लॉब डिस्क्रिप्टर को व्यापक बेसलाइन [[छवि पंजीकरण]] के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय छवि आंकड़ों के आधार पर उपस्थिति-आधारित ऑब्जेक्ट पहचान के लिए सूचनात्मक छवि सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी है। | |||
==गॉसियन का [[लाप्लासियन]]== | ==गॉसियन का [[लाप्लासियन]]== | ||
सबसे पहले और सबसे | सबसे पहले और सबसे साधारण ब्लॉब डिटेक्टरों में से [[ गाऊसी फिल्टर |गाऊसी फिल्टर]] (एलओजी) के लाप्लासियन पर आधारित है। इनपुट छवि दी गई है <math>f(x, y)</math>, यह छवि गॉसियन कर्नेल द्वारा कन्वोल्यूशन है | ||
:<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math> | :<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math> | ||
एक निश्चित पैमाने पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. फिर, लाप्लासियन ऑपरेटर को लागू करने का परिणाम | एक निश्चित पैमाने पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. फिर, लाप्लासियन ऑपरेटर को लागू करने का परिणाम | ||
:<math>\nabla^2 L =L_{xx} + L_{yy}</math> | :<math>\nabla^2 L =L_{xx} + L_{yy}</math> | ||
की गणना की जाती है, जिसके परिणामस्वरूप | की गणना की जाती है, जिसके परिणामस्वरूप साधारण तौर पर त्रिज्या के काले धब्बों के लिए मजबूत सकारात्मक प्रतिक्रिया होती है <math display="inline">r^2 = 2 t</math> (द्वि-आयामी छवि के लिए, <math display="inline">r^2 = d t</math> के लिए <math display="inline">d</math>-आयामी छवि) और समान आकार की चमकदार बूँदों के लिए मजबूत नकारात्मक प्रतिक्रियाएँ। हालाँकि, इस ऑपरेटर को एकल पैमाने पर लागू करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया छवि डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के बीच संबंध पर दृढ़ता से निर्भर होती है। छवि डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से कैप्चर करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक है। | ||
स्वचालित स्केल चयन के साथ मल्टी-स्केल ब्लॉब डिटेक्टर प्राप्त करने का | स्वचालित स्केल चयन के साथ मल्टी-स्केल ब्लॉब डिटेक्टर प्राप्त करने का सीधा विधि स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है | ||
:<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math> | :<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math> | ||
और स्केल-स्पेस मैक्सिमा/मिनिमा का | और स्केल-स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, ये ऐसे बिंदु हैं जो साथ स्थानीय मैक्सिमा/मिनिमा हैं <math>\nabla^2_\mathrm{norm} L</math> अंतरिक्ष और पैमाने दोनों के संबंध में (लिंडेबर्ग 1994, 1998)। इस प्रकार, असतत द्वि-आयामी इनपुट छवि दी गई है <math>f(x, y)</math> त्रि-आयामी असतत स्केल-स्पेस वॉल्यूम <math>L(x, y, t)</math> गणना की जाती है और बिंदु को उज्ज्वल (अंधेरे) बूँद के रूप में माना जाता है यदि इस बिंदु पर मूल्य उसके सभी 26 पड़ोसियों के मूल्य से अधिक (छोटा) है। इस प्रकार, रुचि बिंदुओं का साथ चयन <math>(\hat{x}, \hat{y})</math> और तराजू <math>\hat{t}</math> के अनुसार किया जाता है | ||
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>. | :<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>. | ||
ध्यान दें कि बूँद की यह धारणा बूँद की धारणा की | ध्यान दें कि बूँद की यह धारणा बूँद की धारणा की संक्षिप्त और गणितीय रूप से सटीक परिचालन परिभाषा प्रदान करती है, जो सीधे बूँद का अनुमान लगाने के लिए कुशल और मजबूत एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के स्केल-स्पेस मैक्सिमा से परिभाषित बूँदों के कुछ बुनियादी गुण यह हैं कि प्रतिक्रियाएँ छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होती हैं। इस प्रकार, यदि बिंदु पर स्केल-स्पेस अधिकतम मान लिया जाता है <math>(x_0, y_0; t_0)</math> फिर स्केल फ़ैक्टर द्वारा छवि के पुनर्स्केलिंग के तहत <math>s</math>, वहां स्केल-स्पेस अधिकतम होगा <math>\left(s x_0, s y_0; s^2 t_0\right)</math> पुनर्स्केल की गई छवि में (लिंडेबर्ग 1998)। व्यवहार में यह अत्यधिक उपयोगी संपत्ति का तात्पर्य है कि लाप्लासियन ब्लॉब डिटेक्शन के विशिष्ट विषय के अलावा, स्केल-सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में स्केल चयन के लिए भी किया जाता है, जैसे कि कोने का अनुमान लगाना, स्केल-अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998), [[स्केल-अपरिवर्तनीय सुविधा परिवर्तन]] (लोव 2004) के साथ-साथ छवि मिलान और ऑब्जेक्ट पहचान के लिए अन्य छवि डिस्क्रिप्टर। | ||
लाप्लासियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name=Lin13JMIV>[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref> | लाप्लासियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name=Lin13JMIV>[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref> | ||
| Line 30: | Line 30: | ||
यह गॉसियन ऑपरेटर के लाप्लासियन का अनुसरण करता है <math>\nabla^2 L(x, y, t)</math> दो गाऊसी चिकनी छवियों (स्केल स्पेस प्रतिनिधित्व) के बीच अंतर के सीमा मामले के रूप में भी गणना की जा सकती है | यह गॉसियन ऑपरेटर के लाप्लासियन का अनुसरण करता है <math>\nabla^2 L(x, y, t)</math> दो गाऊसी चिकनी छवियों (स्केल स्पेस प्रतिनिधित्व) के बीच अंतर के सीमा मामले के रूप में भी गणना की जा सकती है | ||
:<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>. | :<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>. | ||
कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। हालाँकि, मामूली तकनीकीताओं के अलावा, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के | कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। हालाँकि, मामूली तकनीकीताओं के अलावा, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। लाप्लासियन ब्लॉब डिटेक्टर के समान ही, गॉसियन के अंतर के स्केल-स्पेस एक्स्ट्रेमा से ब्लॉब्स का अनुमान लगाया जा सकता है - देखें (लिंडेबर्ग 2012, 2015)<ref name=Lin15JMIV/><ref name=Lin12Schol>[http://www.scholarpedia.org/article/Scale_Invariant_Feature_Transform T. Lindeberg ``Scale invariant feature transform'', Scholarpedia, 7(5):10491, 2012.]</ref> गॉसियन ऑपरेटर के अंतर और स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के बीच स्पष्ट संबंध के लिए। उदाहरण के लिए, इस दृष्टिकोण का उपयोग स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है - लोव (2004) देखें। | ||
==हेस्सियन का निर्धारक== | ==हेस्सियन का निर्धारक== | ||
हेस्सियन के स्केल-सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंगे-एम्पीयर समीकरण भी कहा जाता है | मोंज-एम्पीयर ऑपरेटर, | हेस्सियन के स्केल-सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंगे-एम्पीयर समीकरण भी कहा जाता है | मोंज-एम्पीयर ऑपरेटर, | ||
:<math>\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)</math> | :<math>\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)</math> | ||
कहाँ <math>H L</math> स्केल-स्पेस प्रतिनिधित्व के [[ हेस्सियन मैट्रिक्स ]] को दर्शाता है <math>L</math> और फिर इस ऑपरेटर के स्केल-स्पेस मैक्सिमा का | कहाँ <math>H L</math> स्केल-स्पेस प्रतिनिधित्व के [[ हेस्सियन मैट्रिक्स |हेस्सियन मैट्रिक्स]] को दर्शाता है <math>L</math> और फिर इस ऑपरेटर के स्केल-स्पेस मैक्सिमा का अनुमान लगाने से स्वचालित स्केल चयन के साथ और सीधा अंतर ब्लॉब डिटेक्टर प्राप्त होता है जो सैडल्स पर भी प्रतिक्रिया करता है (लिंडेबर्ग 1994, 1998) | ||
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>. | :<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>. | ||
बूँद बिंदु <math>(\hat{x}, \hat{y})</math> और तराजू <math>\hat{t}</math> इन्हें | बूँद बिंदु <math>(\hat{x}, \hat{y})</math> और तराजू <math>\hat{t}</math> इन्हें ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होते हैं। स्केल चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के स्केल-स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन एफाइन परिवर्तनों के तहत अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में थोड़ा बेहतर स्केल चयन गुण होते हैं। .<ref name=Lin15JMIV/>सरलीकृत रूप में, [[ उसकी तरंगिका |उसकी तरंगिका]] ्स से गणना किए गए हेसियन के स्केल-सामान्यीकृत निर्धारक का उपयोग छवि मिलान और ऑब्जेक्ट पहचान के लिए स्पीड अप मजबूत फीचर्स डिस्क्रिप्टर (बे एट अल 2006) में मूल ब्याज बिंदु ऑपरेटर के रूप में किया जाता है। | ||
हेसियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस ब्याज बिंदु डिटेक्टरों के निर्धारक के चयन गुणों का | हेसियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस ब्याज बिंदु डिटेक्टरों के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है।<ref name=Lin13JMIV/>यह दर्शाता है कि हेस्सियन ऑपरेटर के निर्धारक में लाप्लासियन ऑपरेटर की तुलना में एफ़िन छवि परिवर्तनों के तहत बेहतर स्केल चयन गुण हैं। | ||
में (लिंडेबर्ग 2013बी, 2015)<ref name=Lin13SSVM/><ref name=Lin15JMIV>[https://link.springer.com/article/10.1007/s10851-014-0541-0 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.]</ref> यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या उसके अंतर-गाऊसी सन्निकटन की तुलना में काफी बेहतर प्रदर्शन करता है, साथ ही स्थानीय SIFT-जैसे या का उपयोग करके छवि-आधारित मिलान के लिए हैरिस या हैरिस-लाप्लास ऑपरेटरों से भी बेहतर प्रदर्शन करता है। एसयूआरएफ-जैसे छवि डिस्क्रिप्टर, उच्च दक्षता मूल्यों और कम 1-सटीक स्कोर की ओर ले जाते हैं। | में (लिंडेबर्ग 2013बी, 2015)<ref name=Lin13SSVM/><ref name=Lin15JMIV>[https://link.springer.com/article/10.1007/s10851-014-0541-0 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.]</ref> यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या उसके अंतर-गाऊसी सन्निकटन की तुलना में काफी बेहतर प्रदर्शन करता है, साथ ही स्थानीय SIFT-जैसे या का उपयोग करके छवि-आधारित मिलान के लिए हैरिस या हैरिस-लाप्लास ऑपरेटरों से भी बेहतर प्रदर्शन करता है। एसयूआरएफ-जैसे छवि डिस्क्रिप्टर, उच्च दक्षता मूल्यों और कम 1-सटीक स्कोर की ओर ले जाते हैं। | ||
==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)== | ==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)== | ||
लाप्लासियन और हेस्सियन ब्लॉब डिटेक्टरों के निर्धारक के बीच | लाप्लासियन और हेस्सियन ब्लॉब डिटेक्टरों के निर्धारक के बीच हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और स्केल चयन स्केल-सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है: | ||
:<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math> | :<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math> | ||
:<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math> | :<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math> | ||
| Line 49: | Line 49: | ||
==एफ़िन-अनुकूलित विभेदक ब्लॉब डिटेक्टर== | ==एफ़िन-अनुकूलित विभेदक ब्लॉब डिटेक्टर== | ||
स्वचालित स्केल चयन के साथ इन ब्लॉब डिटेक्टरों से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। हालाँकि, जो छवियाँ कंप्यूटर विज़न सिस्टम के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत हैं, | स्वचालित स्केल चयन के साथ इन ब्लॉब डिटेक्टरों से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। हालाँकि, जो छवियाँ कंप्यूटर विज़न सिस्टम के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत हैं, प्राकृतिक दृष्टिकोण ब्लॉब डिटेक्टर तैयार करना है जो एफाइन ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय है। व्यवहार में, ब्लॉब डिस्क्रिप्टर में एफाइन आकार अनुकूलन को लागू करके एफाइन अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय छवि संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है, या समकक्ष रूप से स्थानीय छवि पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008)। इस तरह, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के एफ़िन-अनुकूलित संस्करणों को परिभाषित कर सकते हैं ([[हैरिस-एफ़िन]] और [[हेस्सियन-एफ़िन]] भी देखें)। | ||
== स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर == | == स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर == | ||
| Line 84: | Line 84: | ||
- L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right). | - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right). | ||
</math> | </math> | ||
विलेम्स एट अल के काम में,<ref name="willems08"/>के अनुरूप | विलेम्स एट अल के काम में,<ref name="willems08"/>के अनुरूप सरल अभिव्यक्ति <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 1</math> प्रयोग किया गया। लिंडेबर्ग में,<ref name="lindeberg18"/>ऐसा दिखाया गया <math>\gamma_s = 5/4</math> और <math>\gamma_{\tau} = 5/4</math> बेहतर पैमाने के चयन गुणों का तात्पर्य इस अर्थ में है कि चयनित पैमाने के स्तर स्थानिक सीमा के साथ स्थानिक-अस्थायी गाऊसी बूँद से प्राप्त होते हैं <math>s = s_0</math> और अस्थायी सीमा <math>\tau = \tau_0</math> अंतर अभिव्यक्ति के स्थानिक-अस्थायी स्केल-स्पेस एक्स्ट्रेमा का अनुमान लगाकर किए गए स्केल चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाएगा। | ||
लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा स्थानिक-अस्थायी वीडियो डेटा तक विस्तारित किया गया है,<ref name="lindeberg18"/>निम्नलिखित दो अनुपात-अस्थायी ऑपरेटरों के लिए अग्रणी, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का भी गठन करते हैं: | लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा स्थानिक-अस्थायी वीडियो डेटा तक विस्तारित किया गया है,<ref name="lindeberg18"/>निम्नलिखित दो अनुपात-अस्थायी ऑपरेटरों के लिए अग्रणी, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का भी गठन करते हैं: | ||
| Line 94: | Line 94: | ||
\partial_{tt,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}} (L_{xxtt} + L_{yytt}). | \partial_{tt,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}} (L_{xxtt} + L_{yytt}). | ||
</math> | </math> | ||
पहले ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करना आवश्यक है <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 1/2</math>, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक-अस्थायी पैमाने पर अपना अधिकतम मूल्य मान ले, जो | पहले ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करना आवश्यक है <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 1/2</math>, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक-अस्थायी पैमाने पर अपना अधिकतम मूल्य मान ले, जो शुरुआत गाऊसी ब्लॉब की स्थानिक सीमा और अस्थायी अवधि को दर्शाता है। दूसरे ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करने की आवश्यकता है <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 3/4</math>, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक सीमा और पलक झपकते गॉसियन ब्लॉब की लौकिक अवधि को दर्शाते हुए अपने अधिकतम मूल्य को मान ले। | ||
==ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और स्केल-स्पेस ब्लॉब्स== | ==ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और स्केल-स्पेस ब्लॉब्स== | ||
बूँदों का | बूँदों का अनुमान लगाने का प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथ उज्ज्वल (गहरा) बूँद जोड़ना है। हालाँकि, इस तरह के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम शोर के प्रति बहुत संवेदनशील होते हैं। इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने [[स्केल स्पेस]] में कई पैमानों पर विस्तार के साथ स्थानीय मैक्सिमा का अनुमान लगाने की समस्या का अध्ययन किया। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अलावा, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ आगे बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर सेटों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि छवि डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन। बढ़ते पैमाने के साथ ये संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, स्केल-स्पेस ब्लॉब्स की धारणा पेश की गई थी। स्थानीय कंट्रास्ट और सीमा से परे, इन स्केल-स्पेस ब्लॉब्स ने अपने स्केल-स्पेस जीवनकाल को मापकर यह भी मापा कि स्केल-स्पेस में छवि संरचनाएं कितनी स्थिर हैं। | ||
यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और स्केल डिस्क्रिप्टर, स्केल से परिभाषित संबंधित स्केल स्तरों के साथ, जिस पर ब्लॉब ताकत के सामान्यीकृत उपायों ने स्केल पर अपनी अधिकतम सीमा मान ली थी, अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का | यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और स्केल डिस्क्रिप्टर, स्केल से परिभाषित संबंधित स्केल स्तरों के साथ, जिस पर ब्लॉब ताकत के सामान्यीकृत उपायों ने स्केल पर अपनी अधिकतम सीमा मान ली थी, अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और स्केल डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट तकनीक को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ काफी हद तक सुधार किया जा सकता है, समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के पैमाने पर स्थानीय एक्स्ट्रेमा आजकल उपयोग किया जाता है अन्य दृश्य प्रक्रियाओं को पैमाने की जानकारी प्रदान करने के लिए। | ||
===लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब डिटेक्शन एल्गोरिदम=== | ===लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब डिटेक्शन एल्गोरिदम=== | ||
वाटरशेड सादृश्य से ग्रे-लेवल ब्लब्स (विस्तार के साथ स्थानीय चरम) का | वाटरशेड सादृश्य से ग्रे-लेवल ब्लब्स (विस्तार के साथ स्थानीय चरम) का अनुमान लगाने के उद्देश्य से, | ||
लिंडेबर्ग ने पिक्सेल को पूर्व-सॉर्ट करने पर आधारित | लिंडेबर्ग ने पिक्सेल को पूर्व-सॉर्ट करने पर आधारित एल्गोरिदम विकसित किया, | ||
समान तीव्रता वाले वैकल्पिक रूप से जुड़े हुए क्षेत्र | समान तीव्रता वाले वैकल्पिक रूप से जुड़े हुए क्षेत्र | ||
तीव्रता मूल्यों का घटता क्रम। | तीव्रता मूल्यों का घटता क्रम। | ||
फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम पड़ोसियों के बीच तुलना की गई। | फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम पड़ोसियों के बीच तुलना की गई। | ||
सरलता के लिए, चमकीले ग्रे-स्तरीय ब्लब्स का | सरलता के लिए, चमकीले ग्रे-स्तरीय ब्लब्स का अनुमान लगाने के मामले पर विचार करें | ||
उच्चतर पड़ोसी संकेतन को उच्च ग्रे-लेवल मान वाले पड़ोसी पिक्सेल के लिए खड़ा होने दें। | उच्चतर पड़ोसी संकेतन को उच्च ग्रे-लेवल मान वाले पड़ोसी पिक्सेल के लिए खड़ा होने दें। | ||
फिर, एल्गोरिथम के किसी भी चरण में (तीव्रता मानों के घटते क्रम में किया गया) | फिर, एल्गोरिथम के किसी भी चरण में (तीव्रता मानों के घटते क्रम में किया गया) | ||
निम्नलिखित वर्गीकरण नियमों पर आधारित है: | निम्नलिखित वर्गीकरण नियमों पर आधारित है: | ||
# यदि किसी क्षेत्र का कोई उच्चतर पड़ोसी नहीं है, तो यह | # यदि किसी क्षेत्र का कोई उच्चतर पड़ोसी नहीं है, तो यह स्थानीय अधिकतम है और बूँद का बीज होगा। ध्वज सेट करें जो बूँद को बढ़ने देता है। | ||
# अन्यथा, यदि इसमें कम से कम | # अन्यथा, यदि इसमें कम से कम उच्चतर पड़ोसी है, जो पृष्ठभूमि है, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है और पृष्ठभूमि होना चाहिए। | ||
# अन्यथा, यदि इसके | # अन्यथा, यदि इसके से अधिक उच्च पड़ोसी हैं और यदि वे उच्च पड़ोसी अलग-अलग ब्लॉब के हिस्से हैं, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है, और पृष्ठभूमि होना चाहिए। यदि ऊंचे पड़ोसियों में से किसी को अभी भी बढ़ने की अनुमति है, तो उनके झंडे को हटा दें जो उन्हें बढ़ने की अनुमति देता है। | ||
# अन्यथा, इसके | # अन्यथा, इसके या अधिक उच्च पड़ोसी हैं, जो सभी ही बूँद के भाग हैं। यदि उस बूँद को अभी भी बढ़ने दिया जाता है तो वर्तमान क्षेत्र को उस बूँद के भाग के रूप में शामिल किया जाना चाहिए। अन्यथा क्षेत्र को पृष्ठभूमि में सेट कर दिया जाना चाहिए। | ||
अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में बाढ़ का भराव तब रुक जाता है जब तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन काठी बिंदु के तीव्रता मूल्य से नीचे गिर जाता है। हालाँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना काफी सरल है। उदाहरण के लिए, पहले परिसीमन सैडल बिंदु से आगे बढ़कर | अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में बाढ़ का भराव तब रुक जाता है जब तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन काठी बिंदु के तीव्रता मूल्य से नीचे गिर जाता है। हालाँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना काफी सरल है। उदाहरण के लिए, पहले परिसीमन सैडल बिंदु से आगे बढ़कर ग्रे-लेवल ब्लॉब ट्री का निर्माण किया जा सकता है। इसके अलावा, ग्रे-लेवल ब्लॉब डिटेक्शन विधि को स्केल स्पेस प्रतिनिधित्व में एम्बेड किया गया था और स्केल के सभी स्तरों पर प्रदर्शन किया गया था, जिसके परिणामस्वरूप स्केल-स्पेस प्राइमल स्केच नामक प्रतिनिधित्व हुआ। | ||
कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस में अधिक विस्तार से वर्णित किया गया है<ref>[http://www.csc.kth.se/~tony/abstracts/CVAP84.html Lindeberg, T. (1991) ''Discrete Scale-Space Theory and the Scale-Space Primal Sketch'', PhD thesis, Department of Numerical Analysis and Computing Science, Royal Institute of Technology, S-100 44 Stockholm, Sweden, May 1991. (ISSN 1101-2250. ISRN KTH NA/P--91/8--SE) (The grey-level blob detection algorithm is described in section 7.1)]</ref> साथ ही स्केल-स्पेस सिद्धांत पर मोनोग्राफ<ref>[http://www.csc.kth.se/~tony/book.html Lindeberg, Tony, ''Scale-Space Theory in Computer Vision'', Kluwer Academic Publishers, 1994] {{ISBN|0-7923-9418-6}}</ref> आंशिक रूप से आधारित | कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस में अधिक विस्तार से वर्णित किया गया है<ref>[http://www.csc.kth.se/~tony/abstracts/CVAP84.html Lindeberg, T. (1991) ''Discrete Scale-Space Theory and the Scale-Space Primal Sketch'', PhD thesis, Department of Numerical Analysis and Computing Science, Royal Institute of Technology, S-100 44 Stockholm, Sweden, May 1991. (ISSN 1101-2250. ISRN KTH NA/P--91/8--SE) (The grey-level blob detection algorithm is described in section 7.1)]</ref> साथ ही स्केल-स्पेस सिद्धांत पर मोनोग्राफ<ref>[http://www.csc.kth.se/~tony/book.html Lindeberg, Tony, ''Scale-Space Theory in Computer Vision'', Kluwer Academic Publishers, 1994] {{ISBN|0-7923-9418-6}}</ref> आंशिक रूप से आधारित | ||
| Line 127: | Line 127: | ||
माटस एट अल. (2002) ऐसे छवि वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे जो 3डी प्रक्षेपण#परिप्रेक्ष्य प्रक्षेपण के तहत मजबूत हों। उन्होंने तीव्रता परिदृश्य में स्तर सेटों का अध्ययन किया और मापा कि ये तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन छवि वर्णनकर्ताओं को [[कंप्यूटर स्टीरियो विज़न]] के लिए छवि सुविधाओं के रूप में उपयोग किया जा सकता है। | माटस एट अल. (2002) ऐसे छवि वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे जो 3डी प्रक्षेपण#परिप्रेक्ष्य प्रक्षेपण के तहत मजबूत हों। उन्होंने तीव्रता परिदृश्य में स्तर सेटों का अध्ययन किया और मापा कि ये तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन छवि वर्णनकर्ताओं को [[कंप्यूटर स्टीरियो विज़न]] के लिए छवि सुविधाओं के रूप में उपयोग किया जा सकता है। | ||
इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के बीच घनिष्ठ संबंध हैं। अधिकतम स्थिर चरम क्षेत्रों को आगे की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के | इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के बीच घनिष्ठ संबंध हैं। अधिकतम स्थिर चरम क्षेत्रों को आगे की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है। | ||
==यह भी देखें== | ==यह भी देखें== | ||
* बूँद निष्कर्षण | * बूँद निष्कर्षण | ||
* कोने का | * कोने का अनुमान लगाना | ||
* एफ़िन आकार अनुकूलन | * एफ़िन आकार अनुकूलन | ||
* स्केल स्पेस | * स्केल स्पेस | ||
* रिज का | * रिज का अनुमान लगाना | ||
* रुचि बिंदु का | * रुचि बिंदु का अनुमान लगाना | ||
* [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]] | * [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]] | ||
* [[हैरिस एफ़िन क्षेत्र डिटेक्टर]] | * [[हैरिस एफ़िन क्षेत्र डिटेक्टर]] | ||
Revision as of 20:09, 18 July 2023
| Feature detection |
|---|
| Edge detection |
| Corner detection |
| Blob detection |
| Ridge detection |
| Hough transform |
| Structure tensor |
| Affine invariant feature detection |
| Feature description |
| Scale space |
कंप्यूटर विज़न में, ब्लॉब डिटेक्शन विधियों का उद्देश्य डिजिटल छवि में उन क्षेत्रों का अनुमान लगाना है जो आस-पास के क्षेत्रों की तुलना में चमक या रंग जैसे गुणों में भिन्न होते हैं। अनौपचारिक रूप से, ब्लॉब छवि का क्षेत्र है जिसमें कुछ गुण स्थिर या लगभग स्थिर होते हैं; बूँद के सभी बिंदुओं को कुछ अर्थों में एक-दूसरे के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन है।
छवि पर स्थिति के फ़ंक्शन के रूप में व्यक्त की गई रुचि की कुछ संपत्ति को देखते हुए, ब्लॉब डिटेक्टरों के दो मुख्य वर्ग हैं: (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फ़ंक्शन के डेरिवेटिव पर आधारित हैं, और ( ii) स्थानीय मैक्सिमा और मिनिमा पर आधारित विधियां, जो फ़ंक्शन की स्थानीय मैक्सिमा और मिनिमा खोजने पर आधारित हैं। क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन डिटेक्टरों को रुचि बिंदु ऑपरेटर्स, या वैकल्पिक रूप से रुचि क्षेत्र ऑपरेटर्स ( रुचि बिंदु का अनुमान लगाना और कोने का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है।
ब्लॉब डिटेक्टरों के अध्ययन और विकास के लिए कई प्रेरणाएँ हैं। मुख्य कारण क्षेत्रों के बारे में पूरक जानकारी प्रदान करना है, जो किनारे का अनुमान लगाना या कोने का अनुमान लगाने से प्राप्त नहीं होती है। क्षेत्र में प्रारंभिक कार्य में, आगे की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब डिटेक्शन का उपयोग किया गया था। ये क्षेत्र ऑब्जेक्ट पहचान और/या ऑब्जेक्ट वीडियो ट्रैकिंग के अनुप्रयोग के साथ छवि डोमेन में ऑब्जेक्ट या ऑब्जेक्ट के हिस्सों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे छवि हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग विभाजन (छवि प्रसंस्करण) के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग बनावट (कंप्यूटर ग्राफिक्स) विश्लेषण और बनावट पहचान के लिए मुख्य प्राचीन के रूप में होता है। हाल के काम में, ब्लॉब डिस्क्रिप्टर को व्यापक बेसलाइन छवि पंजीकरण के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय छवि आंकड़ों के आधार पर उपस्थिति-आधारित ऑब्जेक्ट पहचान के लिए सूचनात्मक छवि सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी है।
गॉसियन का लाप्लासियन
सबसे पहले और सबसे साधारण ब्लॉब डिटेक्टरों में से गाऊसी फिल्टर (एलओजी) के लाप्लासियन पर आधारित है। इनपुट छवि दी गई है , यह छवि गॉसियन कर्नेल द्वारा कन्वोल्यूशन है
एक निश्चित पैमाने पर स्केल स्पेस प्रतिनिधित्व देने के लिए . फिर, लाप्लासियन ऑपरेटर को लागू करने का परिणाम
की गणना की जाती है, जिसके परिणामस्वरूप साधारण तौर पर त्रिज्या के काले धब्बों के लिए मजबूत सकारात्मक प्रतिक्रिया होती है (द्वि-आयामी छवि के लिए, के लिए -आयामी छवि) और समान आकार की चमकदार बूँदों के लिए मजबूत नकारात्मक प्रतिक्रियाएँ। हालाँकि, इस ऑपरेटर को एकल पैमाने पर लागू करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया छवि डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के बीच संबंध पर दृढ़ता से निर्भर होती है। छवि डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से कैप्चर करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक है।
स्वचालित स्केल चयन के साथ मल्टी-स्केल ब्लॉब डिटेक्टर प्राप्त करने का सीधा विधि स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है
और स्केल-स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, ये ऐसे बिंदु हैं जो साथ स्थानीय मैक्सिमा/मिनिमा हैं अंतरिक्ष और पैमाने दोनों के संबंध में (लिंडेबर्ग 1994, 1998)। इस प्रकार, असतत द्वि-आयामी इनपुट छवि दी गई है त्रि-आयामी असतत स्केल-स्पेस वॉल्यूम गणना की जाती है और बिंदु को उज्ज्वल (अंधेरे) बूँद के रूप में माना जाता है यदि इस बिंदु पर मूल्य उसके सभी 26 पड़ोसियों के मूल्य से अधिक (छोटा) है। इस प्रकार, रुचि बिंदुओं का साथ चयन और तराजू के अनुसार किया जाता है
- .
ध्यान दें कि बूँद की यह धारणा बूँद की धारणा की संक्षिप्त और गणितीय रूप से सटीक परिचालन परिभाषा प्रदान करती है, जो सीधे बूँद का अनुमान लगाने के लिए कुशल और मजबूत एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के स्केल-स्पेस मैक्सिमा से परिभाषित बूँदों के कुछ बुनियादी गुण यह हैं कि प्रतिक्रियाएँ छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होती हैं। इस प्रकार, यदि बिंदु पर स्केल-स्पेस अधिकतम मान लिया जाता है फिर स्केल फ़ैक्टर द्वारा छवि के पुनर्स्केलिंग के तहत , वहां स्केल-स्पेस अधिकतम होगा पुनर्स्केल की गई छवि में (लिंडेबर्ग 1998)। व्यवहार में यह अत्यधिक उपयोगी संपत्ति का तात्पर्य है कि लाप्लासियन ब्लॉब डिटेक्शन के विशिष्ट विषय के अलावा, स्केल-सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में स्केल चयन के लिए भी किया जाता है, जैसे कि कोने का अनुमान लगाना, स्केल-अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998), स्केल-अपरिवर्तनीय सुविधा परिवर्तन (लोव 2004) के साथ-साथ छवि मिलान और ऑब्जेक्ट पहचान के लिए अन्य छवि डिस्क्रिप्टर।
लाप्लासियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।[1] में (लिंडेबर्ग 2013बी, 2015)[2][3]यह दिखाया गया है कि अन्य स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टर मौजूद हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जो स्थानीय SIFT-जैसे इमेज डिस्क्रिप्टर का उपयोग करके छवि-आधारित मिलान के लिए लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से बेहतर प्रदर्शन करता है।
गॉसियन दृष्टिकोण का अंतर
इस तथ्य से कि स्केल अंतरिक्ष प्रतिनिधित्व प्रसार समीकरण को संतुष्ट करता है
यह गॉसियन ऑपरेटर के लाप्लासियन का अनुसरण करता है दो गाऊसी चिकनी छवियों (स्केल स्पेस प्रतिनिधित्व) के बीच अंतर के सीमा मामले के रूप में भी गणना की जा सकती है
- .
कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। हालाँकि, मामूली तकनीकीताओं के अलावा, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। लाप्लासियन ब्लॉब डिटेक्टर के समान ही, गॉसियन के अंतर के स्केल-स्पेस एक्स्ट्रेमा से ब्लॉब्स का अनुमान लगाया जा सकता है - देखें (लिंडेबर्ग 2012, 2015)[3][4] गॉसियन ऑपरेटर के अंतर और स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के बीच स्पष्ट संबंध के लिए। उदाहरण के लिए, इस दृष्टिकोण का उपयोग स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है - लोव (2004) देखें।
हेस्सियन का निर्धारक
हेस्सियन के स्केल-सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंगे-एम्पीयर समीकरण भी कहा जाता है | मोंज-एम्पीयर ऑपरेटर,
कहाँ स्केल-स्पेस प्रतिनिधित्व के हेस्सियन मैट्रिक्स को दर्शाता है और फिर इस ऑपरेटर के स्केल-स्पेस मैक्सिमा का अनुमान लगाने से स्वचालित स्केल चयन के साथ और सीधा अंतर ब्लॉब डिटेक्टर प्राप्त होता है जो सैडल्स पर भी प्रतिक्रिया करता है (लिंडेबर्ग 1994, 1998)
- .
बूँद बिंदु और तराजू इन्हें ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होते हैं। स्केल चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के स्केल-स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन एफाइन परिवर्तनों के तहत अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में थोड़ा बेहतर स्केल चयन गुण होते हैं। .[3]सरलीकृत रूप में, उसकी तरंगिका ्स से गणना किए गए हेसियन के स्केल-सामान्यीकृत निर्धारक का उपयोग छवि मिलान और ऑब्जेक्ट पहचान के लिए स्पीड अप मजबूत फीचर्स डिस्क्रिप्टर (बे एट अल 2006) में मूल ब्याज बिंदु ऑपरेटर के रूप में किया जाता है।
हेसियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस ब्याज बिंदु डिटेक्टरों के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है।[1]यह दर्शाता है कि हेस्सियन ऑपरेटर के निर्धारक में लाप्लासियन ऑपरेटर की तुलना में एफ़िन छवि परिवर्तनों के तहत बेहतर स्केल चयन गुण हैं। में (लिंडेबर्ग 2013बी, 2015)[2][3] यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या उसके अंतर-गाऊसी सन्निकटन की तुलना में काफी बेहतर प्रदर्शन करता है, साथ ही स्थानीय SIFT-जैसे या का उपयोग करके छवि-आधारित मिलान के लिए हैरिस या हैरिस-लाप्लास ऑपरेटरों से भी बेहतर प्रदर्शन करता है। एसयूआरएफ-जैसे छवि डिस्क्रिप्टर, उच्च दक्षता मूल्यों और कम 1-सटीक स्कोर की ओर ले जाते हैं।
संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)
लाप्लासियन और हेस्सियन ब्लॉब डिटेक्टरों के निर्धारक के बीच हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और स्केल चयन स्केल-सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है:
इस ऑपरेटर का उपयोग छवि मिलान, वस्तु पहचान के साथ-साथ बनावट विश्लेषण के लिए किया गया है।
एफ़िन-अनुकूलित विभेदक ब्लॉब डिटेक्टर
स्वचालित स्केल चयन के साथ इन ब्लॉब डिटेक्टरों से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। हालाँकि, जो छवियाँ कंप्यूटर विज़न सिस्टम के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत हैं, प्राकृतिक दृष्टिकोण ब्लॉब डिटेक्टर तैयार करना है जो एफाइन ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय है। व्यवहार में, ब्लॉब डिस्क्रिप्टर में एफाइन आकार अनुकूलन को लागू करके एफाइन अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय छवि संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है, या समकक्ष रूप से स्थानीय छवि पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008)। इस तरह, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के एफ़िन-अनुकूलित संस्करणों को परिभाषित कर सकते हैं (हैरिस-एफ़िन और हेस्सियन-एफ़िन भी देखें)।
स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर
हेसियन ऑपरेटर के निर्धारक को विलेम्स एट अल द्वारा संयुक्त अंतरिक्ष-समय तक बढ़ा दिया गया है। [5] और लिंडेबर्ग, [6] निम्नलिखित पैमाने-सामान्यीकृत विभेदक अभिव्यक्ति की ओर अग्रसर:
विलेम्स एट अल के काम में,[5]के अनुरूप सरल अभिव्यक्ति और प्रयोग किया गया। लिंडेबर्ग में,[6]ऐसा दिखाया गया और बेहतर पैमाने के चयन गुणों का तात्पर्य इस अर्थ में है कि चयनित पैमाने के स्तर स्थानिक सीमा के साथ स्थानिक-अस्थायी गाऊसी बूँद से प्राप्त होते हैं और अस्थायी सीमा अंतर अभिव्यक्ति के स्थानिक-अस्थायी स्केल-स्पेस एक्स्ट्रेमा का अनुमान लगाकर किए गए स्केल चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाएगा।
लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा स्थानिक-अस्थायी वीडियो डेटा तक विस्तारित किया गया है,[6]निम्नलिखित दो अनुपात-अस्थायी ऑपरेटरों के लिए अग्रणी, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का भी गठन करते हैं:
पहले ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करना आवश्यक है और , यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक-अस्थायी पैमाने पर अपना अधिकतम मूल्य मान ले, जो शुरुआत गाऊसी ब्लॉब की स्थानिक सीमा और अस्थायी अवधि को दर्शाता है। दूसरे ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करने की आवश्यकता है और , यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक सीमा और पलक झपकते गॉसियन ब्लॉब की लौकिक अवधि को दर्शाते हुए अपने अधिकतम मूल्य को मान ले।
ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और स्केल-स्पेस ब्लॉब्स
बूँदों का अनुमान लगाने का प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथ उज्ज्वल (गहरा) बूँद जोड़ना है। हालाँकि, इस तरह के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम शोर के प्रति बहुत संवेदनशील होते हैं। इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने स्केल स्पेस में कई पैमानों पर विस्तार के साथ स्थानीय मैक्सिमा का अनुमान लगाने की समस्या का अध्ययन किया। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अलावा, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ आगे बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर सेटों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि छवि डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन। बढ़ते पैमाने के साथ ये संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, स्केल-स्पेस ब्लॉब्स की धारणा पेश की गई थी। स्थानीय कंट्रास्ट और सीमा से परे, इन स्केल-स्पेस ब्लॉब्स ने अपने स्केल-स्पेस जीवनकाल को मापकर यह भी मापा कि स्केल-स्पेस में छवि संरचनाएं कितनी स्थिर हैं।
यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और स्केल डिस्क्रिप्टर, स्केल से परिभाषित संबंधित स्केल स्तरों के साथ, जिस पर ब्लॉब ताकत के सामान्यीकृत उपायों ने स्केल पर अपनी अधिकतम सीमा मान ली थी, अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और स्केल डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट तकनीक को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ काफी हद तक सुधार किया जा सकता है, समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के पैमाने पर स्थानीय एक्स्ट्रेमा आजकल उपयोग किया जाता है अन्य दृश्य प्रक्रियाओं को पैमाने की जानकारी प्रदान करने के लिए।
लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब डिटेक्शन एल्गोरिदम
वाटरशेड सादृश्य से ग्रे-लेवल ब्लब्स (विस्तार के साथ स्थानीय चरम) का अनुमान लगाने के उद्देश्य से, लिंडेबर्ग ने पिक्सेल को पूर्व-सॉर्ट करने पर आधारित एल्गोरिदम विकसित किया, समान तीव्रता वाले वैकल्पिक रूप से जुड़े हुए क्षेत्र तीव्रता मूल्यों का घटता क्रम। फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम पड़ोसियों के बीच तुलना की गई।
सरलता के लिए, चमकीले ग्रे-स्तरीय ब्लब्स का अनुमान लगाने के मामले पर विचार करें उच्चतर पड़ोसी संकेतन को उच्च ग्रे-लेवल मान वाले पड़ोसी पिक्सेल के लिए खड़ा होने दें। फिर, एल्गोरिथम के किसी भी चरण में (तीव्रता मानों के घटते क्रम में किया गया) निम्नलिखित वर्गीकरण नियमों पर आधारित है:
- यदि किसी क्षेत्र का कोई उच्चतर पड़ोसी नहीं है, तो यह स्थानीय अधिकतम है और बूँद का बीज होगा। ध्वज सेट करें जो बूँद को बढ़ने देता है।
- अन्यथा, यदि इसमें कम से कम उच्चतर पड़ोसी है, जो पृष्ठभूमि है, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है और पृष्ठभूमि होना चाहिए।
- अन्यथा, यदि इसके से अधिक उच्च पड़ोसी हैं और यदि वे उच्च पड़ोसी अलग-अलग ब्लॉब के हिस्से हैं, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है, और पृष्ठभूमि होना चाहिए। यदि ऊंचे पड़ोसियों में से किसी को अभी भी बढ़ने की अनुमति है, तो उनके झंडे को हटा दें जो उन्हें बढ़ने की अनुमति देता है।
- अन्यथा, इसके या अधिक उच्च पड़ोसी हैं, जो सभी ही बूँद के भाग हैं। यदि उस बूँद को अभी भी बढ़ने दिया जाता है तो वर्तमान क्षेत्र को उस बूँद के भाग के रूप में शामिल किया जाना चाहिए। अन्यथा क्षेत्र को पृष्ठभूमि में सेट कर दिया जाना चाहिए।
अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में बाढ़ का भराव तब रुक जाता है जब तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन काठी बिंदु के तीव्रता मूल्य से नीचे गिर जाता है। हालाँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना काफी सरल है। उदाहरण के लिए, पहले परिसीमन सैडल बिंदु से आगे बढ़कर ग्रे-लेवल ब्लॉब ट्री का निर्माण किया जा सकता है। इसके अलावा, ग्रे-लेवल ब्लॉब डिटेक्शन विधि को स्केल स्पेस प्रतिनिधित्व में एम्बेड किया गया था और स्केल के सभी स्तरों पर प्रदर्शन किया गया था, जिसके परिणामस्वरूप स्केल-स्पेस प्राइमल स्केच नामक प्रतिनिधित्व हुआ।
कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस में अधिक विस्तार से वर्णित किया गया है[7] साथ ही स्केल-स्पेस सिद्धांत पर मोनोग्राफ[8] आंशिक रूप से आधारित उस काम पर. इस एल्गोरिथम की पिछली प्रस्तुतियाँ भी यहाँ पाई जा सकती हैं[9][10]. कंप्यूटर विज़न और मेडिकल इमेज विश्लेषण के लिए ग्रे-लेवल ब्लॉब डिटेक्शन और स्केल-स्पेस प्राइमल स्केच के अनुप्रयोगों के अधिक विस्तृत उपचार दिए गए हैं।[11][12][13].
अधिकतम स्थिर चरम क्षेत्र (एमएसईआर)
माटस एट अल. (2002) ऐसे छवि वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे जो 3डी प्रक्षेपण#परिप्रेक्ष्य प्रक्षेपण के तहत मजबूत हों। उन्होंने तीव्रता परिदृश्य में स्तर सेटों का अध्ययन किया और मापा कि ये तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन छवि वर्णनकर्ताओं को कंप्यूटर स्टीरियो विज़न के लिए छवि सुविधाओं के रूप में उपयोग किया जा सकता है।
इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के बीच घनिष्ठ संबंध हैं। अधिकतम स्थिर चरम क्षेत्रों को आगे की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है।
यह भी देखें
- बूँद निष्कर्षण
- कोने का अनुमान लगाना
- एफ़िन आकार अनुकूलन
- स्केल स्पेस
- रिज का अनुमान लगाना
- रुचि बिंदु का अनुमान लगाना
- फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
- हैरिस एफ़िन क्षेत्र डिटेक्टर
- हेस्सियन एफ़िन क्षेत्र डिटेक्टर
- प्रधान वक्रता-आधारित क्षेत्र डिटेक्टर
संदर्भ
- ↑ 1.0 1.1 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.
- ↑ 2.0 2.1 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.
- ↑ 3.0 3.1 3.2 3.3 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.
- ↑ T. Lindeberg ``Scale invariant feature transform, Scholarpedia, 7(5):10491, 2012.
- ↑ 5.0 5.1 Geert Willems, Tinne Tuytelaars and Luc van Gool (2008). "An efficient dense and scale-invariant spatiotemporal-temporal interest point detector". European Conference on Computer Vision. Springer Lecture Notes in Computer Science. Vol. 5303. pp. 650–663. doi:10.1007/978-3-540-88688-4_48.
- ↑ 6.0 6.1 6.2 Tony Lindeberg (2018). "Spatio-temporal scale selection in video data". Journal of Mathematical Imaging and Vision. 60 (4): 525–562. doi:10.1007/s10851-017-0766-9. S2CID 4430109.
- ↑ Lindeberg, T. (1991) Discrete Scale-Space Theory and the Scale-Space Primal Sketch, PhD thesis, Department of Numerical Analysis and Computing Science, Royal Institute of Technology, S-100 44 Stockholm, Sweden, May 1991. (ISSN 1101-2250. ISRN KTH NA/P--91/8--SE) (The grey-level blob detection algorithm is described in section 7.1)
- ↑ Lindeberg, Tony, Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994 ISBN 0-7923-9418-6
- ↑ T. Lindeberg and J.-O. Eklundh, "Scale detection and region extraction from a scale-space primal sketch", in Proc. 3rd International Conference on Computer Vision, (Osaka, Japan), pp. 416--426, Dec. 1990. (See Appendix A.1 for the basic definitions for the watershed-based grey-level blob detection algorithm.)
- ↑ T. Lindeberg and J.-O. Eklundh, "On the computation of a scale-space primal sketch", Journal of Visual Communication and Image Representation, vol. 2, pp. 55--78, Mar. 1991.
- ↑ Lindeberg, T.: Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention, International Journal of Computer Vision, 11(3), 283--318, 1993.
- ↑ Lindeberg, T, Lidberg, Par and Roland, P. E..: "Analysis of Brain Activation Patterns Using a 3-D Scale-Space Primal Sketch", Human Brain Mapping, vol 7, no 3, pp 166--194, 1999.
- ↑ Jean-Francois Mangin, Denis Rivière, Olivier Coulon, Cyril Poupon, Arnaud Cachia, Yann Cointepas, Jean-Baptiste Poline, Denis Le Bihan, Jean Régis, Dimitri Papadopoulos-Orfanos: "Coordinate-based versus structural approaches to brain image analysis". Artificial Intelligence in Medicine 30(2): 177-197 (2004) Archived July 21, 2011, at the Wayback Machine
अग्रिम पठन
- H. Bay; T. Tuytelaars & L. van Gool (2006). "SURF: Speeded Up Robust Features". Proceedings of the 9th European Conference on Computer Vision, Springer LNCS volume 3951, part 1. pp. 404–417.
- L. Bretzner & T. Lindeberg (1998). "Feature Tracking with Automatic Selection of Spatial Scales" (abstract page). Computer Vision and Image Understanding. 71 (3): 385–392. doi:10.1006/cviu.1998.0650.
- T. Lindeberg (1993). "Detecting Salient Blob-Like Image Structures and Their Scales with a Scale-Space Primal Sketch: A Method for Focus-of-Attention" (abstract page). International Journal of Computer Vision. 11 (3): 283–318. doi:10.1007/BF01469346. S2CID 11998035.
- T. Lindeberg (1994). Scale-Space Theory in Computer Vision. Springer. ISBN 978-0-7923-9418-1.
- T. Lindeberg (1998). "Feature detection with automatic scale selection" (abstract page). International Journal of Computer Vision. 30 (2): 77–116. doi:10.1023/A:1008045108935. S2CID 723210.
- Lindeberg, T.; Garding, J. (1997). "Shape-adapted smoothing in estimation of 3-{D} depth cues from affine distortions of local 2-{D} structure". Image and Vision Computing. 15 (6): 415–434. doi:10.1016/S0262-8856(97)01144-X.
- Lindeberg, T. (2008). "Scale-space". In Wah, Benjamin (ed.). Encyclopedia of Computer Science and Engineering. Vol. IV. John Wiley and Sons. pp. 2495–2504. doi:10.1002/9780470050118.ecse609. ISBN 978-0-470-05011-8.
- D. G. Lowe (2004). "Distinctive Image Features from Scale-Invariant Keypoints". International Journal of Computer Vision. 60 (2): 91–110. CiteSeerX 10.1.1.73.2924. doi:10.1023/B:VISI.0000029664.99615.94. S2CID 221242327.
- J. Matas; O. Chum; M. Urban & T. Pajdla (2002). "Robust wide baseline stereo from maximally stable extremum regions" (PDF). British Machine Vision Conference. pp. 384–393.
- K. Mikolajczyk; C. Schmid (2004). "Scale and affine invariant interest point detectors" (PDF). International Journal of Computer Vision. 60 (1): 63–86. doi:10.1023/B:VISI.0000027790.02288.f2. S2CID 1704741.