ब्लॉब संसूचक: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(10 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{FeatureDetectionCompVisNavbox}}






[[कंप्यूटर दृष्टि|कंप्यूटर विज़न]] में, '''ब्लॉब डिटेक्शन''' विधियों का उद्देश्य [[डिजिटल छवि]] में उन क्षेत्रों का अनुमान लगाना है जो आस-पास के क्षेत्रों की तुलना में '''चमक''' '''या रंग''' जैसे गुणों में भिन्न होते हैं। अनौपचारिक रूप से, ब्लॉब छवि का क्षेत्र है जिसमें कुछ गुण स्थिर या लगभग स्थिर होते हैं; बूँद के सभी बिंदुओं को कुछ अर्थों में एक-दूसरे के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि [[कनवल्शन]] है।
कंप्यूटर विज़न में, '''ब्लॉब संसूचक''' विधियों का उद्देश्य [[डिजिटल छवि|डिजिटल इमेज]] में उन क्षेत्रों का अनुमान लगाना है जो समीप के क्षेत्रों की तुलना में ब्राइटनेस या कलर जैसे गुणों में भिन्न होते हैं। यह अनौपचारिक रूप से, ब्लॉब इमेज का क्षेत्र होता है जिसमें पूर्णतया गुण स्थिर या प्रायः स्थिर होते हैं | इसमें ब्लॉब के सभी बिंदुओं को पूर्णतया अर्थों में प्रत्येक के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन होती है।


छवि पर स्थिति के फ़ंक्शन के रूप में व्यक्त की गई रुचि की कुछ संपत्ति को देखते हुए, ब्लॉब डिटेक्टरों के दो मुख्य वर्ग हैं: (i) ''विभेदक कैलकुलस विधियां'', जो स्थिति के संबंध में फ़ंक्शन के डेरिवेटिव पर आधारित हैं, और ( ii) ''स्थानीय [[मैक्सिमा और मिनिमा]] पर आधारित विधियां'', जो फ़ंक्शन की स्थानीय मैक्सिमा और मिनिमा खोजने पर आधारित हैं। क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन डिटेक्टरों को ''रुचि बिंदु ऑपरेटर्स'', या वैकल्पिक रूप से रुचि क्षेत्र ऑपरेटर्स ([[ रुचि बिंदु का पता लगाना | रुचि बिंदु का अनुमान लगाना]] और [[ कोने का पता लगाना |कोने का अनुमान लगाना]] भी देखें) के रूप में भी संदर्भित किया जा सकता है।
इसमें इमेज पर स्थिति के फलन के रूप में व्यक्त की गई रुचि की पूर्णतया गुण को देखते हुए, ब्लॉब संसूचक के दो मुख्य वर्ग होते हैं | (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फलन के व्युत्पन्न पर आधारित होता हैं, और ( ii) स्थानीय [[मैक्सिमा और मिनिमा]] पर आधारित विधियां, जो फलन की स्थानीय मैक्सिमा और मिनिमा खोज पर आधारित होती हैं।इस प्रकार क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन संसूचक को रुचि बिंदु संचालक, या वैकल्पिक रूप से रुचि क्षेत्र संचालक (रुचि बिंदु का अनुमान लगाना और कोण का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है।


ब्लॉब डिटेक्टरों के अध्ययन और विकास के लिए कई प्रेरणाएँ हैं। मुख्य कारण क्षेत्रों के बारे में पूरक जानकारी प्रदान करना है, जो [[किनारे का पता लगाना|किनारे का अनुमान लगाना]] या कोने का अनुमान लगाने से प्राप्त नहीं होती है। क्षेत्र में प्रारंभिक कार्य में, आगे की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब डिटेक्शन का उपयोग किया गया था। ये क्षेत्र ऑब्जेक्ट पहचान और/या ऑब्जेक्ट [[वीडियो ट्रैकिंग]] के अनुप्रयोग के साथ छवि डोमेन में ऑब्जेक्ट या ऑब्जेक्ट के हिस्सों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे [[ छवि हिस्टोग्राम |छवि हिस्टोग्राम]] विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग [[ विभाजन (छवि प्रसंस्करण) |विभाजन (छवि प्रसंस्करण)]] के अनुप्रयोग के साथ [[रिज का पता लगाना|शिखर का अनुमान लगाना]] के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग [[बनावट (कंप्यूटर ग्राफिक्स)]] विश्लेषण और बनावट पहचान के लिए मुख्य प्राचीन के रूप में होता है। हाल के काम में, ब्लॉब डिस्क्रिप्टर को व्यापक बेसलाइन [[छवि पंजीकरण]] के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय छवि आंकड़ों के आधार पर उपस्थिति-आधारित ऑब्जेक्ट पहचान के लिए सूचनात्मक छवि सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी है।
ब्लॉब संसूचक के अध्ययन और विकास के लिए अनेक प्रेरणाएँ होती हैं। इसका मुख्य कारण क्षेत्रों के बारे में पूर्ण जानकारी प्रदान करना है, जिनको कोर संसूचक का अनुमान लगाना या कोण का अनुमान लगाने से प्राप्त नहीं होता है। इसके क्षेत्र में प्रारंभिक कार्य में, पूर्व की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब संसूचक  का उपयोग किया गया था। यह क्षेत्र वस्तु समानता और वस्तु [[वीडियो ट्रैकिंग]] के अनुप्रयोग के साथ इमेज डोमेन में वस्तु या वस्तु के भागों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे इमेज हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग [[ विभाजन (छवि प्रसंस्करण) |विभाजन (इमेज प्रसंस्करण)]] के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग [[बनावट (कंप्यूटर ग्राफिक्स)|प्रकृति (कंप्यूटर ग्राफिक्स)]] विश्लेषण और प्रकृति पहचान के लिए मुख्य प्राचीन रूप में होता है। वर्तमान के कार्य में, ब्लॉब डिस्क्रिप्टर को व्यापक आधारभूत [[छवि पंजीकरण|इमेज पंजीकरण]] के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय इमेज आंकड़ों के आधार पर उपस्थिति-आधारित वस्तु पहचान के लिए सूचनात्मक इमेज सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से इसमें लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी होती है।


==गॉसियन का [[लाप्लासियन]]==
==गॉसियन का लाप्लासियन==
सबसे पहले और सबसे साधारण ब्लॉब डिटेक्टरों में से [[ गाऊसी फिल्टर |गाऊसी फिल्टर]] (एलओजी) के लाप्लासियन पर आधारित है। इनपुट छवि दी गई है <math>f(x, y)</math>, यह छवि गॉसियन कर्नेल द्वारा संयोजित है |
सबसे प्रथम और सबसे साधारण ब्लॉब संसूचक में से [[ गाऊसी फिल्टर |गाऊसी फिल्टर]] (एलओजी) के लाप्लासियन पर आधारित होता है। इसमें इनपुट इमेज <math>f(x, y)</math>, दी गई  है यह इमेज गॉसियन कर्नेल द्वारा संयोजित है |
:<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math>
:<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math>
एक निश्चित पैमाने पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. फिर, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम
एक निश्चित मापदंड पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व|मापदंड स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. यह, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम होता हैं |


:<math>\nabla^2 L =L_{xx} + L_{yy}</math>
:<math>\nabla^2 L =L_{xx} + L_{yy}</math>
'''की गणना की जाती है, जिसके परिणामस्वरूप साधारण तौर पर त्रिज्या के काले धब्बों के लिए मजबूत सकारात्मक प्रतिक्रिया होती है <math display="inline">r^2 = 2 t</math> (द्वि-आयामी छवि के लिए, <math display="inline">r^2 = d t</math> के लिए <math display="inline">d</math>-आयामी छवि) और समान आकार की चमकदार बूँदों के लिए मजबूत नकारात्मक प्रतिक्रियाएँ। हालाँकि, इस ऑपरेटर को एकल पैमाने पर क्रियान्वित करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया छवि डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के बीच संबंध पर दृढ़ता से निर्भर होती है। छवि डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से कैप्चर करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक है।'''
:
इसमें गणना की जाती है, जिसके परिणामस्वरूप सामान्यतः त्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं। जिनकी गणना की जाती है, और जिसके परिणामस्वरूप सामान्यतःत्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं | यह '''<math display="inline">r^2 = 2 t</math>''' या '''<math display="inline">r^2 = d t</math>''' '''<math display="inline">d</math>''' -आयामी इमेज के लिए) और ब्राइट ब्लब्स के लिए शक्तिशाली ऋणात्मक प्रतिक्रियाएं होती हैं यह समान आकार की होती हैं | चूँकि, इस ऑपरेटर को एकल मापदंड पर प्रयुक्त करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया इमेज डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के मध्य संबंध पर दृढ़ता से निर्भर होती है। इमेज डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से आकर्षित करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक होता है।
 
स्वचालित मापदंड चयन के साथ मल्टी- मापदंड ब्लॉब संसूचक प्राप्त करने की सही विधि मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है |


स्वचालित स्केल चयन के साथ मल्टी-स्केल ब्लॉब डिटेक्टर प्राप्त करने का सीधा विधि स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है
:<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math>
:<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math>
और स्केल-स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, ये ऐसे बिंदु हैं जो साथ स्थानीय मैक्सिमा/मिनिमा हैं <math>\nabla^2_\mathrm{norm} L</math> अंतरिक्ष और पैमाने दोनों के संबंध में (लिंडेबर्ग 1994, 1998)इस प्रकार, असतत द्वि-आयामी इनपुट छवि दी गई है <math>f(x, y)</math> त्रि-आयामी असतत स्केल-स्पेस वॉल्यूम <math>L(x, y, t)</math> गणना की जाती है और बिंदु को उज्ज्वल (अंधेरे) बूँद के रूप में माना जाता है यदि इस बिंदु पर मूल्य उसके सभी 26 पड़ोसियों के मूल्य से अधिक (छोटा) है। इस प्रकार, रुचि बिंदुओं का साथ चयन <math>(\hat{x}, \hat{y})</math> और तराजू <math>\hat{t}</math> के अनुसार किया जाता है
और मापदंड -स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, यह ऐसे बिंदु होते हैं जो स्पेस और मापदंड दोनों के संबंध में साथ <math>\nabla^2_\mathrm{norm} L</math> के स्थानीय मैक्सिमा/मिनिमा होते हैं | और (लिंडेबर्ग 1994, 1998) में इस प्रकार, असतत द्वि-आयामी इनपुट इमेज <math>f(x, y)</math> को देखते हुए त्रि-आयामी असतत मापदंड -स्पेस वॉल्यूम <math>L(x, y, t)</math> की गणना की जाती है और बिंदु को ब्राइट (अंधेरे) ब्लॉब के रूप में माना जाता है यदि इस बिंदु पर मान अधिक (छोटा) है और इसके सभी 26 निकटतम के मूल्य से अधिक हैं । तब इस प्रकार, ब्याज अंक <math>(\hat{x}, \hat{y})</math> और मापदंड <math>\hat{t}</math> का साथ चयन के अनुसार किया जाता है |
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>.
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>.
ध्यान दें कि बूँद की यह धारणा बूँद की धारणा की संक्षिप्त और गणितीय रूप से सटीक परिचालन परिभाषा प्रदान करती है, जो सीधे बूँद का अनुमान लगाने के लिए कुशल और मजबूत एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के स्केल-स्पेस मैक्सिमा से परिभाषित बूँदों के कुछ बुनियादी गुण यह हैं कि प्रतिक्रियाएँ छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होती हैं। इस प्रकार, यदि बिंदु पर स्केल-स्पेस अधिकतम मान लिया जाता है <math>(x_0, y_0; t_0)</math> फिर स्केल फ़ैक्टर द्वारा छवि के पुनर्स्केलिंग के तहत <math>s</math>, वहां स्केल-स्पेस अधिकतम होगा <math>\left(s x_0, s y_0; s^2 t_0\right)</math> पुनर्स्केल की गई छवि में (लिंडेबर्ग 1998)। व्यवहार में यह अत्यधिक उपयोगी संपत्ति का तात्पर्य है कि लाप्लासियन ब्लॉब डिटेक्शन के विशिष्ट विषय के अलावा, स्केल-सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में स्केल चयन के लिए भी किया जाता है, जैसे कि कोने का अनुमान लगाना, स्केल-अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998), [[स्केल-अपरिवर्तनीय सुविधा परिवर्तन]] (लोव 2004) के साथ-साथ छवि मिलान और ऑब्जेक्ट पहचान के लिए अन्य छवि डिस्क्रिप्टर।


लाप्लासियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name=Lin13JMIV>[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref>
 
में (लिंडेबर्ग 2013बी, 2015)<ref name=Lin13SSVM>[http://www.dx.doi.org/10.1007/978-3-642-38267-3_30 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.]</ref><ref name=Lin15JMIV/>यह दिखाया गया है कि अन्य स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टर मौजूद हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जो स्थानीय SIFT-जैसे इमेज डिस्क्रिप्टर का उपयोग करके छवि-आधारित मिलान के लिए लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से बेहतर प्रदर्शन करता है।
 
मान लीजिए कि ब्लॉब की यह धारणा "ब्लॉब" की धारणा की संक्षिप्त और गणितीय रूप से स्पष्ट परिचालन परिभाषा प्रदान करती है, जिनका सीधे ब्लॉब का खोज करने के लिए कुशल और शक्तिशाली एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड -स्पेस मैक्सिमा से परिभाषित ब्लॉब के पूर्णतया मूलभूत गुण यह हैं कि प्रतिक्रियाएँ इमेज डोमेन में अनुवाद, परिक्रमण और पुनःमापदंड के साथ सहसंयोजक होती हैं। इस प्रकार, यदि मापदंड -स्पेस अधिकतम को बिंदु <math>(x_0, y_0; t_0)</math> पर माना जाता है, तब मापदंड कारक <math>s</math> द्वारा इमेज के पुनः मापदंड - के अनुसार , पुनःमापदंड की गई इमेज में <math>\left(s x_0, s y_0; s^2 t_0\right)</math> पर मापदंड -स्पेस अधिकतम होता हैं | और (लिंडेबर्ग 1998) ). वास्तव में यह अत्यधिक उपयोगी गुण का तात्पर्य है कि लाप्लासियन ब्लॉब संसूचक  के विशिष्ट विषय के अतिरिक्त, मापदंड -सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में मापदंड चयन के लिए भी किया जाता है, जैसे कि कोण की खोज लगाना, मापदंड -अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998) पर होता हैं | मापदंड -[[स्केल-अपरिवर्तनीय सुविधा परिवर्तन|अपरिवर्तनीय सुविधा परिवर्तन]] (लोव 2004) के साथ-साथ इमेज मिलान और वस्तु पहचान के लिए अन्य इमेज डिस्क्रिप्टर होता हैं।
 
लाप्लासियन ऑपरेटर और अन्य सूक्ष्‍म से मापदंड -स्पेस रूचि बिंदु संसूचक के मापदंड चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name="Lin13JMIV">[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref>(लिंडेबर्ग 2013बी, 2015) <ref name="Lin13SSVM">[http://www.dx.doi.org/10.1007/978-3-642-38267-3_30 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.]</ref> <ref name="Lin15JMIV" /> में यह दिखाया गया है कि अन्य मापदंड -स्पेस रूचि बिंदु संसूचक उपस्थित होते हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जिसमे लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से उत्तम प्रदर्शन करता है। इसका उपयोग स्थानीय सिफ्ट-जैसे इमेज वर्णनकर्ताओं का उपयोग करके इमेज-आधारित मिलान के लिए किया जाता हैं।


==गॉसियन दृष्टिकोण का अंतर==
==गॉसियन दृष्टिकोण का अंतर==
{{Main|Difference of Gaussians}}
{{Main|गाऊसी का अंतर}}
इस तथ्य से कि स्केल अंतरिक्ष प्रतिनिधित्व <math>L(x, y, t)</math> [[प्रसार समीकरण]] को संतुष्ट करता है
 
इस तथ्य से किसी मापदंड स्पेस प्रतिनिधित्व <math>L(x, y, t)</math> [[प्रसार समीकरण]] को संतुष्ट करता है |
:<math>\partial_t L = \frac{1}{2} \nabla^2 L</math>
:<math>\partial_t L = \frac{1}{2} \nabla^2 L</math>
यह गॉसियन ऑपरेटर के लाप्लासियन का अनुसरण करता है <math>\nabla^2 L(x, y, t)</math> दो गाऊसी चिकनी छवियों (स्केल स्पेस प्रतिनिधित्व) के बीच अंतर के सीमा मामले के रूप में भी गणना की जा सकती है
इससे खोज होती रहती है कि गॉसियन ऑपरेटर <math>\nabla^2 L(x, y, t)</math> के लाप्लासियन की गणना दो गॉसियन स्मूथ इमेजयों ( मापदंड स्पेस प्रतिनिधित्व) के मध्य अंतर के सीमा स्थितियों के रूप में भी की जा सकती है।
:<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>.
:<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>.
कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। हालाँकि, मामूली तकनीकीताओं के अलावा, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। लाप्लासियन ब्लॉब डिटेक्टर के समान ही, गॉसियन के अंतर के स्केल-स्पेस एक्स्ट्रेमा से ब्लॉब्स का अनुमान लगाया जा सकता है - देखें (लिंडेबर्ग 2012, 2015)<ref name=Lin15JMIV/><ref name=Lin12Schol>[http://www.scholarpedia.org/article/Scale_Invariant_Feature_Transform T. Lindeberg ``Scale invariant feature transform'', Scholarpedia, 7(5):10491, 2012.]</ref> गॉसियन ऑपरेटर के अंतर और स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के बीच स्पष्ट संबंध के लिए। उदाहरण के लिए, इस दृष्टिकोण का उपयोग स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है - लोव (2004) देखें।
कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। चूँकि, सामान्य विधि के अतिरिक्त, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। इस प्रकार लाप्लासियन ब्लॉब संसूचक के समान ही, गॉसियन के अंतर के मापदंड -स्पेस एक्स्ट्रेमा से ब्लॉब की खोज का अनुमान लगाया जा सकता है |कि गॉसियन ऑपरेटर के अंतर के मध्य स्पष्ट संबंध के लिए देखें (लिंडेबर्ग 2012, 2015) <ref name=Lin15JMIV/> <ref name=Lin12Schol>[http://www.scholarpedia.org/article/Scale_Invariant_Feature_Transform T. Lindeberg ``Scale invariant feature transform'', Scholarpedia, 7(5):10491, 2012.]</ref>और यह मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर होता हैं । उदाहरण के लिए, इस दृष्टिकोण का उपयोग मापदंड -इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है जिसको लोव (2004) देखें सकते हैं।


==हेस्सियन का निर्धारक==
==हेस्सियन का निर्धारक==
हेस्सियन के स्केल-सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंगे-एम्पीयर समीकरण भी कहा जाता है | मोंज-एम्पीयर ऑपरेटर,
हेस्सियन के मापदंड -सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंज-एम्पीयर ऑपरेटर भी कहा जाता है |
:<math>\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)</math>
:<math>\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)</math>
कहाँ <math>H L</math> स्केल-स्पेस प्रतिनिधित्व के [[ हेस्सियन मैट्रिक्स |हेस्सियन मैट्रिक्स]] को दर्शाता है <math>L</math> और फिर इस ऑपरेटर के स्केल-स्पेस मैक्सिमा का अनुमान लगाने से स्वचालित स्केल चयन के साथ और सीधा अंतर ब्लॉब डिटेक्टर प्राप्त होता है जो सैडल्स पर भी प्रतिक्रिया करता है (लिंडेबर्ग 1994, 1998)
:
जहां <math>H L</math> मापदंड -स्पेस प्रतिनिधित्व <math>L</math> के [[ हेस्सियन मैट्रिक्स |हेस्सियन आव्युह]] को दर्शाता है और फिर इस ऑपरेटर के मापदंड -स्पेस मैक्सिमा की खोज करता है, और स्वचालित मापदंड चयन के साथ और सीधा अंतर ब्लॉब संसूचक प्राप्त करता है जो सैडल्स पर भी प्रतिक्रिया करता है | यह (लिंडेबर्ग 1994, 1998) में देख सकते हैं |
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>.
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>.
बूँद बिंदु <math>(\hat{x}, \hat{y})</math> और तराजू <math>\hat{t}</math> इन्हें ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होते हैं। स्केल चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के स्केल-स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन एफाइन परिवर्तनों के तहत अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में थोड़ा बेहतर स्केल चयन गुण होते हैं। .<ref name=Lin15JMIV/>सरलीकृत रूप में, [[ उसकी तरंगिका |उसकी तरंगिका]] ्स से गणना किए गए हेसियन के स्केल-सामान्यीकृत निर्धारक का उपयोग छवि मिलान और ऑब्जेक्ट पहचान के लिए स्पीड अप मजबूत फीचर्स डिस्क्रिप्टर (बे एट अल 2006) में मूल ब्याज बिंदु ऑपरेटर के रूप में किया जाता है।
ब्लॉब बिंदु् <math>(\hat{x}, \hat{y})</math> और मापदंड <math>\hat{t}</math> को ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो इमेज डोमेन में अनुवाद, परिक्रमण और पुनः मापदंड - के साथ सहसंयोजक होते हैं। मापदंड चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के मापदंड -स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन सम्बद्ध परिवर्तनों के अनुसार अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में अल्प उत्तम मापदंड चयन गुण होते हैं। <ref name=Lin15JMIV/> सरलीकृत रूप में, [[ उसकी तरंगिका |उसकी तरंगिका]] से गणना किए गए हेसियन के मापदंड -सामान्यीकृत निर्धारक का उपयोग इमेज मिलान और वस्तु पहचान के लिए एसयूआरएफ डिस्क्रिप्टर (बे एट अल 2006) में मूल रुचि बिंदु ऑपरेटर के रूप में किया जाता है।


हेसियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस ब्याज बिंदु डिटेक्टरों के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है।<ref name=Lin13JMIV/>यह दर्शाता है कि हेस्सियन ऑपरेटर के निर्धारक में लाप्लासियन ऑपरेटर की तुलना में एफ़िन छवि परिवर्तनों के तहत बेहतर स्केल चयन गुण हैं।
हेसियन ऑपरेटर और अन्य सूक्ष्‍म से मापदंड -स्पेस ब्याज बिंदु संसूचक के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है | यह दर्शाता है कि हेसियन ऑपरेटर के निर्धारक में सम्बद्ध इमेज परिवर्तनों के अनुसार उत्तम मापदंड चयन का गुण हैं | जिसमे लाप्लासियन ऑपरेटर की तुलना में (लिंडेबर्ग 2013बी, 2015) <ref name=Lin13SSVM/> <ref name=Lin15JMIV>[https://link.springer.com/article/10.1007/s10851-014-0541-0 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.]</ref> में यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन की तुलना में अधिक उत्तम प्रदर्शन करता है, इसके साथ ही यह हैरिस या हैरिस-लाप्लास से भी उत्तम प्रदर्शन करता है। इसमें ऑपरेटर, इमेज-आधारित मिलान के लिए स्थानीय सिफ्ट-जैसे या सर्फ-जैसे इमेज वर्णनकर्ताओं का उपयोग करते हैं, जिससे उच्च दक्षता मान और कम 1-स्पष्ट स्कोर प्राप्त होते हैं।
में (लिंडेबर्ग 2013बी, 2015)<ref name=Lin13SSVM/><ref name=Lin15JMIV>[https://link.springer.com/article/10.1007/s10851-014-0541-0 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.]</ref> यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या उसके अंतर-गाऊसी सन्निकटन की तुलना में काफी बेहतर प्रदर्शन करता है, साथ ही स्थानीय SIFT-जैसे या का उपयोग करके छवि-आधारित मिलान के लिए हैरिस या हैरिस-लाप्लास ऑपरेटरों से भी बेहतर प्रदर्शन करता है। एसयूआरएफ-जैसे छवि डिस्क्रिप्टर, उच्च दक्षता मूल्यों और कम 1-सटीक स्कोर की ओर ले जाते हैं।


==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)==
==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)==
लाप्लासियन और हेस्सियन ब्लॉब डिटेक्टरों के निर्धारक के बीच हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और स्केल चयन स्केल-सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है:
लाप्लासियन और हेस्सियन ब्लॉब संसूचक के निर्धारक के मध्य हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और मापदंड चयन मापदंड -सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है |
:<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math>
:<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math>
:<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math>
:<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math>
इस ऑपरेटर का उपयोग छवि मिलान, वस्तु पहचान के साथ-साथ बनावट विश्लेषण के लिए किया गया है।
इस ऑपरेटर का उपयोग इमेज मिलान, वस्तु पहचान के साथ-साथ प्रकृति विश्लेषण के लिए किया गया है।


==एफ़िन-अनुकूलित विभेदक ब्लॉब डिटेक्टर==
==सम्बद्ध-अनुकूलित विभेदक ब्लॉब डिटेक्टर==
स्वचालित स्केल चयन के साथ इन ब्लॉब डिटेक्टरों से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। हालाँकि, जो छवियाँ कंप्यूटर विज़न सिस्टम के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत हैं, प्राकृतिक दृष्टिकोण ब्लॉब डिटेक्टर तैयार करना है जो एफाइन ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय है। व्यवहार में, ब्लॉब डिस्क्रिप्टर में एफाइन आकार अनुकूलन को क्रियान्वित करके एफाइन अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय छवि संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है, या समकक्ष रूप से स्थानीय छवि पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008)इस तरह, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के एफ़िन-अनुकूलित संस्करणों को परिभाषित कर सकते हैं ([[हैरिस-एफ़िन]] और [[हेस्सियन-एफ़िन]] भी देखें)।
स्वचालित मापदंड चयन के साथ इन ब्लॉब संसूचक से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, परिक्रमण और समान पूनः मापदंड के लिए अपरिवर्तनीय हैं। चूँकि, जो इमेजयाँ कंप्यूटर विज़न प्रणाली के लिए इनपुट का निर्माण करती हैं, वह भी परिप्रेक्ष्य विकृतियों के अधीन होती हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक शक्तिशाली हैं, वह प्राकृतिक दृष्टिकोण ब्लॉब संसूचक तैयार करना है जो सम्बद्ध ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय होता है। वास्तव में, ब्लॉब डिस्क्रिप्टर में सम्बद्ध आकार अनुकूलन को प्रयुक्त करके सम्बद्ध अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय इमेज संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है | इसमें समकक्ष रूप से स्थानीय इमेज पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है | यह (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008) में बताया गया हैं। इस प्रकार, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के सम्बद्ध-अनुकूलित संस्करणों को परिभाषित कर सकते हैं जिसको ([[हैरिस-एफ़िन|हैरिस-सम्बद्ध]] और [[हेस्सियन-एफ़िन|हेस्सियन-सम्बद्ध]] भी देख सकते हैं )।


== स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर ==
== स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर ==
Line 64: Line 68:
| pages = 650–663  
| pages = 650–663  
| doi = 10.1007/978-3-540-88688-4_48
| doi = 10.1007/978-3-540-88688-4_48
}}</ref> और लिंडेबर्ग,
}}</ref> और लिंडेबर्ग, <ref name="lindeberg18">
<ref name="lindeberg18">
{{cite journal
{{cite journal
| author = Tony Lindeberg
| author = Tony Lindeberg
Line 78: Line 81:
| doi-access = free
| doi-access = free
}}
}}
</ref> निम्नलिखित पैमाने-सामान्यीकृत विभेदक अभिव्यक्ति की ओर अग्रसर:
</ref> निम्नलिखित पैमाने-सामान्यीकृत अंतर अभिव्यक्ति की ओर ले जाते हैं |


:<math>
:<math>
Line 86: Line 89:
  - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right).
  - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right).
</math>
</math>
विलेम्स एट अल के काम में,<ref name="willems08"/>के अनुरूप सरल अभिव्यक्ति <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 1</math> प्रयोग किया गया। लिंडेबर्ग में,<ref name="lindeberg18"/>ऐसा दिखाया गया <math>\gamma_s = 5/4</math> और <math>\gamma_{\tau} = 5/4</math> बेहतर पैमाने के चयन गुणों का तात्पर्य इस अर्थ में है कि चयनित पैमाने के स्तर स्थानिक सीमा के साथ स्थानिक-अस्थायी गाऊसी बूँद से प्राप्त होते हैं <math>s = s_0</math> और अस्थायी सीमा <math>\tau = \tau_0</math> अंतर अभिव्यक्ति के स्थानिक-अस्थायी स्केल-स्पेस एक्स्ट्रेमा का अनुमान लगाकर किए गए स्केल चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाएगा।


लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा स्थानिक-अस्थायी वीडियो डेटा तक विस्तारित किया गया है,<ref name="lindeberg18"/>निम्नलिखित दो अनुपात-अस्थायी ऑपरेटरों के लिए अग्रणी, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का भी गठन करते हैं:
 
 
विलेम्स एट अल के कार्य में,<ref name="willems08" /> <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 1</math> के अनुरूप सरल अभिव्यक्ति का उपयोग किया गया था। लिंडेबर्ग में, यह दिखाया गया था कि <math>\gamma_s = 5/4</math> और <math>\gamma_{\tau} = 5/4</math> इस अर्थ में उत्तम मापदंड के चयन गुणों को दर्शाते हैं कि चयनित मापदंड का स्तर स्थानिक सीमा <math>s = s_0</math> और अस्थायी सीमा <math>\tau = \tau_0</math> के साथ स्थानिक-अस्थायी गॉसियन ब्लॉब से प्राप्त होता है। अंतर अभिव्यक्ति के स्थानिक-अस्थायी मापदंड -स्पेस एक्स्ट्रेमा खोज लगाकर किए गए मापदंड चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाता हैं ।
 
लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा अनुपात-अस्थायी वीडियो डेटा तक विस्तारित किया गया है,<ref name="lindeberg18" /> जिससे निम्नलिखित दो अनुपात-अस्थायी ऑपरेटर बन गए हैं, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का गठन भी करते हैं |


:<math>
:<math>
Line 96: Line 102:
\partial_{tt,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}} (L_{xxtt} + L_{yytt}).
\partial_{tt,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}} (L_{xxtt} + L_{yytt}).
</math>
</math>
पहले ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करना आवश्यक है <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 1/2</math>, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक-अस्थायी पैमाने पर अपना अधिकतम मूल्य मान ले, जो शुरुआत गाऊसी ब्लॉब की स्थानिक सीमा और अस्थायी अवधि को दर्शाता है। दूसरे ऑपरेटर के लिए, स्केल चयन गुणों का उपयोग करने की आवश्यकता है <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 3/4</math>, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक-अस्थायी पैमाने के स्तर पर स्थानिक सीमा और पलक झपकते गॉसियन ब्लॉब की लौकिक अवधि को दर्शाते हुए अपने अधिकतम मूल्य को मान ले।
प्रथम ऑपरेटर के लिए, मापदंड चयन गुण <math>\gamma_s = 1</math>और <math>\gamma_{\tau} = 1/2</math> का उपयोग करने के लिए कहते हैं, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक सीमा और अस्थायी अवधि को दर्शाते हुए स्थानिक-अस्थायी मापदंड के स्तर पर स्थानिक-अस्थायी मापदंड पर अपना अधिकतम मूल्य मान ले। तब आरंभिक गाऊसी ब्लॉब दूसरे ऑपरेटर के लिए, मापदंड चयन गुणों में <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 3/4</math> का उपयोग करने की आवश्यकता होती है, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक सीमा और अस्थायी अवधि को दर्शाते हुए स्थानिक-अस्थायी मापदंड के स्तर पर स्थानिक-अस्थायी मापदंड पर अपना अधिकतम मान ग्रहण करे। यह शाइन गॉसियन ब्लॉब होता हैं।


==ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और स्केल-स्पेस ब्लॉब्स==
==ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और मापदंड -स्पेस ब्लॉब्स==
बूँदों का अनुमान लगाने का प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथ उज्ज्वल (गहरा) बूँद जोड़ना है। हालाँकि, इस तरह के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम शोर के प्रति बहुत संवेदनशील होते हैं। इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने [[स्केल स्पेस]] में कई पैमानों पर विस्तार के साथ स्थानीय मैक्सिमा का अनुमान लगाने की समस्या का अध्ययन किया। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अलावा, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ आगे बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर सेटों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि छवि डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन। बढ़ते पैमाने के साथ ये संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, स्केल-स्पेस ब्लॉब्स की धारणा पेश की गई थी। स्थानीय कंट्रास्ट और सीमा से परे, इन स्केल-स्पेस ब्लॉब्स ने अपने स्केल-स्पेस जीवनकाल को मापकर यह भी मापा कि स्केल-स्पेस में छवि संरचनाएं कितनी स्थिर हैं।
ब्लॉब की खोज का अनुमान लगाने की प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथब्राइट(गहरा) ब्लॉब जोड़ना है। चूँकि, इस प्रकार के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम ध्वनि के प्रति बहुत संवेदनशील होते हैं। और इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने [[स्केल स्पेस|मापदंड स्पेस]] में अनेक मापदंडो पर विस्तार के साथ स्थानीय मैक्सिमा की खोज करने की समस्या का अध्ययन किया गया हैं। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, इसके साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अतिरिक्त, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ पूर्व बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर समुच्चयों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि इमेज डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन होता हैं। जिन्हें बढ़ते मापदंड के साथ यह संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, मापदंड -स्पेस ब्लॉब्स की धारणा प्रस्तुत की गई थी। स्थानीय कंट्रास्ट और सीमा से अलग, इन मापदंड -स्पेस ब्लॉब्स ने अपने मापदंड -स्पेस जीवनकाल को मापकर यह भी मापा कि मापदंड -स्पेस में इमेज संरचनाएं कितनी स्थिर हैं।


यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और स्केल डिस्क्रिप्टर, स्केल से परिभाषित संबंधित स्केल स्तरों के साथ, जिस पर ब्लॉब ताकत के सामान्यीकृत उपायों ने स्केल पर अपनी अधिकतम सीमा मान ली थी, अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और स्केल डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट तकनीक को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ काफी हद तक सुधार किया जा सकता है, समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के पैमाने पर स्थानीय एक्स्ट्रेमा आजकल उपयोग किया जाता है अन्य दृश्य प्रक्रियाओं को पैमाने की जानकारी प्रदान करने के लिए।
यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और मापदंड डिस्क्रिप्टर, मापदंड से परिभाषित संबंधित मापदंड स्तरों के साथ, जिस पर ब्लॉब शक्ति के सामान्यीकृत उपायों ने मापदंडो पर अपनी अधिकतम सीमा मान ली थी | और यह अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और मापदंड डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट विधि को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ अधिक सीमा तक सुधार किया जा सकता है | जिनमे समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड पर स्थानीय एक्स्ट्रेमा वर्तमान उपयोग किया जाता है | और अन्य दृश्य प्रक्रियाओं को मापदंड की जानकारी प्रदान करने के लिए होते हैं।


===लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब डिटेक्शन एल्गोरिदम===
===लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब संसूचक  एल्गोरिदम===
वाटरशेड सादृश्य से ग्रे-लेवल ब्लब्स (विस्तार के साथ स्थानीय चरम) का अनुमान लगाने के उद्देश्य से,
वाटरशेड सादृश्य से ग्रे-लेवल ब्लॉब्स (विस्तार के साथ स्थानीय चरम) की खोज करने के उद्देश्य से, लिंडेबर्ग ने तीव्रता मूल्यों के घटते क्रम में, समान तीव्रता वाले वैकल्पिक रूप से जुड़े क्षेत्रों, पिक्सेल को पूर्व-सॉर्ट करने के आधार पर एल्गोरिदम विकसित किया था। फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम नेबर के मध्य तुलना की गई।
लिंडेबर्ग ने पिक्सेल को पूर्व-सॉर्ट करने पर आधारित एल्गोरिदम विकसित किया,
समान तीव्रता वाले वैकल्पिक रूप से जुड़े हुए क्षेत्र
तीव्रता मूल्यों का घटता क्रम।
फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम पड़ोसियों के बीच तुलना की गई।


सरलता के लिए, चमकीले ग्रे-स्तरीय ब्लब्स का अनुमान लगाने के मामले पर विचार करें
सरलता के लिए, शाइंनिग ग्रे-लेवल ब्लॉब्स की खोज करने के स्थितियों पर विचार करें और "उच्च निकटतम" का अर्थ "उच्च ग्रे-लेवल मान वाला निकटतम पिक्सेल" रखते हैं। फिर, एल्गोरिथ्म में किसी भी स्तर पर (तीव्रता मूल्यों के घटते क्रम में किया गया) यह निम्नलिखित वर्गीकरण नियमों पर आधारित है |
उच्चतर पड़ोसी संकेतन को उच्च ग्रे-लेवल मान वाले पड़ोसी पिक्सेल के लिए खड़ा होने दें।
फिर, एल्गोरिथम के किसी भी चरण में (तीव्रता मानों के घटते क्रम में किया गया)
निम्नलिखित वर्गीकरण नियमों पर आधारित है:


# यदि किसी क्षेत्र का कोई उच्चतर पड़ोसी नहीं है, तो यह स्थानीय अधिकतम है और बूँद का बीज होगा। ध्वज सेट करें जो बूँद को बढ़ने देता है।
#यदि किसी क्षेत्र में कोई उच्चतर निकटतम नहीं है, तब यह स्थानीय अधिकतम है और ब्लॉब का बीज होता हैं । फ्लैग समुच्चय करें जो ब्लॉब को बढ़ने देता है।
# अन्यथा, यदि इसमें कम से कम उच्चतर पड़ोसी है, जो पृष्ठभूमि है, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है और पृष्ठभूमि होना चाहिए।
#अन्यथा, यदि इसका कम से कम उच्चतर निकटतम है, जो पृष्ठभूमि है, तब यह किसी ब्लॉब का भाग नहीं हो सकता है और इसमें पृष्ठभूमि होनी चाहिए।
# अन्यथा, यदि इसके से अधिक उच्च पड़ोसी हैं और यदि वे उच्च पड़ोसी अलग-अलग ब्लॉब के हिस्से हैं, तो यह किसी भी ब्लॉब का हिस्सा नहीं हो सकता है, और पृष्ठभूमि होना चाहिए। यदि ऊंचे पड़ोसियों में से किसी को अभी भी बढ़ने की अनुमति है, तो उनके झंडे को हटा दें जो उन्हें बढ़ने की अनुमति देता है।
#अन्यथा, यदि इसके से अधिक उच्च निकटतम हैं और यदि वह उच्च निकटतम अलग-अलग ब्लॉब के भाग हैं, तब यह किसी भी ब्लॉब का भाग नहीं हो सकता है, और पृष्ठभूमि होना चाहिए। यदि ऊंचे निकटतम में से किसी को अभी भी बढ़ने की अनुमति है, तब उनके फ्लैग को हटा दें जो उन्हें बढ़ने की अनुमति देता है।
# अन्यथा, इसके या अधिक उच्च पड़ोसी हैं, जो सभी ही बूँद के भाग हैं। यदि उस बूँद को अभी भी बढ़ने दिया जाता है तो वर्तमान क्षेत्र को उस बूँद के भाग के रूप में शामिल किया जाना चाहिए। अन्यथा क्षेत्र को पृष्ठभूमि में सेट कर दिया जाना चाहिए।
#अन्यथा, इसके या अधिक उच्चतर निकटतम हैं, जो सभी ही ब्लॉब के भाग हैं। यदि उस ब्लॉब को अभी भी बढ़ने दिया जाता है तब वर्तमान क्षेत्र को उस ब्लॉब के भाग के रूप में सम्मिलित किया जाना चाहिए। अन्यथा यह क्षेत्र को पृष्ठभूमि में समुच्चय कर दिया जाना चाहिए।।


अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में बाढ़ का भराव तब रुक जाता है जब तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन काठी बिंदु के तीव्रता मूल्य से नीचे गिर जाता है। हालाँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना काफी सरल है। उदाहरण के लिए, पहले परिसीमन सैडल बिंदु से आगे बढ़कर ग्रे-लेवल ब्लॉब ट्री का निर्माण किया जा सकता है। इसके अलावा, ग्रे-लेवल ब्लॉब डिटेक्शन विधि को स्केल स्पेस प्रतिनिधित्व में एम्बेड किया गया था और स्केल के सभी स्तरों पर प्रदर्शन किया गया था, जिसके परिणामस्वरूप स्केल-स्पेस प्राइमल स्केच नामक प्रतिनिधित्व हुआ।
अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में उत्पादन तब रुक जाता है जब तक तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन कार्यभार बिंदु के तीव्रता मूल्य से कम हो जाता है। चूँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना अधिक सरल है। उदाहरण के लिए, प्रथम परिसीमन कार्यभार बिंदु से पूर्व बढ़कर "ग्रे-लेवल ब्लॉब ट्री" का निर्माण किया जा सकता है। इसके अतिरिक्त, ग्रे-लेवल ब्लॉब संसूचक  विधि को मापदंड स्पेस प्रतिनिधित्व में एम्बेड किया गया था और मापदंड के सभी स्तरों पर प्रदर्शन किया गया था, जिसके परिणामस्वरूप मापदंड -स्पेस प्राइमल स्केच नामक प्रतिनिधित्व हुआ था।


कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस में अधिक विस्तार से वर्णित किया गया है<ref>[http://www.csc.kth.se/~tony/abstracts/CVAP84.html Lindeberg, T. (1991) ''Discrete Scale-Space Theory and the Scale-Space Primal Sketch'', PhD thesis, Department of Numerical Analysis and Computing Science, Royal Institute of Technology, S-100 44 Stockholm, Sweden, May 1991. (ISSN 1101-2250. ISRN KTH NA/P--91/8--SE) (The grey-level blob detection algorithm is described in section 7.1)]</ref> साथ ही स्केल-स्पेस सिद्धांत पर मोनोग्राफ<ref>[http://www.csc.kth.se/~tony/book.html Lindeberg, Tony, ''Scale-Space Theory in Computer Vision'', Kluwer Academic Publishers, 1994] {{ISBN|0-7923-9418-6}}</ref> आंशिक रूप से आधारित
कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस के साथ-साथ आंशिक रूप से उस कार्य पर आधारित मापदंड -स्पेस सिद्धांत पर मोनोग्राफ में अधिक विस्तार से वर्णित किया गया है। <ref>[http://www.csc.kth.se/~tony/abstracts/CVAP84.html Lindeberg, T. (1991) ''Discrete Scale-Space Theory and the Scale-Space Primal Sketch'', PhD thesis, Department of Numerical Analysis and Computing Science, Royal Institute of Technology, S-100 44 Stockholm, Sweden, May 1991. (ISSN 1101-2250. ISRN KTH NA/P--91/8--SE) (The grey-level blob detection algorithm is described in section 7.1)]</ref> इस एल्गोरिथम की पिछली प्रस्तुतियाँ में भी पाई जा सकती हैं। <ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A473392&dswid=6733 T. Lindeberg and J.-O. Eklundh, "Scale detection and region extraction from a scale-space primal sketch", in ''Proc. 3rd International Conference on Computer Vision'', (Osaka, Japan), pp. 416--426, Dec. 1990. (See Appendix A.1 for the basic definitions for the watershed-based grey-level blob detection algorithm.)]</ref> <ref>T. Lindeberg and J.-O. Eklundh, "On the computation of a scale-space primal sketch", ''Journal of Visual Communication and Image Representation'', vol. 2, pp. 55--78, Mar. 1991.</ref> कंप्यूटर विज़न और मेडिकल इमेज विश्लेषण के लिए ग्रे-लेवल ब्लॉब संसूचक  और मापदंड -स्पेस प्राइमल स्केच के अनुप्रयोगों के अधिक विस्तृत उपचार में दिए गए हैं। <ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A472969&dswid=-5063 Lindeberg, T.: Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention, ''International Journal of Computer Vision'', 11(3), 283--318, 1993.]</ref> <ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A441151&dswid=-6953 Lindeberg, T, Lidberg, Par and Roland, P. E..: "Analysis of Brain Activation Patterns Using a 3-D Scale-Space Primal Sketch", ''Human Brain Mapping'', vol 7, no 3, pp 166--194, 1999.]</ref> <ref>[http://brainvisa.info/pdf/mangin-AImed03.pdf Jean-Francois Mangin, Denis Rivière, Olivier Coulon, Cyril Poupon, Arnaud Cachia, Yann Cointepas, Jean-Baptiste Poline, Denis Le Bihan, Jean Régis, Dimitri Papadopoulos-Orfanos: "Coordinate-based versus structural approaches to brain image analysis". ''Artificial Intelligence in Medicine'' 30(2): 177-197 (2004)] {{webarchive |url=https://web.archive.org/web/20110721190213/http://brainvisa.info/pdf/mangin-AImed03.pdf |date=July 21, 2011 }}</ref>
उस काम पर. इस एल्गोरिथम की पिछली प्रस्तुतियाँ भी यहाँ पाई जा सकती हैं<ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A473392&dswid=6733 T. Lindeberg and J.-O. Eklundh, "Scale detection and region extraction from a scale-space primal sketch", in ''Proc. 3rd International Conference on Computer Vision'', (Osaka, Japan), pp. 416--426, Dec. 1990. (See Appendix A.1 for the basic definitions for the watershed-based grey-level blob detection algorithm.)]</ref><ref>T. Lindeberg and J.-O. Eklundh, "On the computation of a scale-space primal sketch", ''Journal of Visual Communication and Image Representation'', vol. 2, pp. 55--78, Mar. 1991.</ref>. कंप्यूटर विज़न और मेडिकल इमेज विश्लेषण के लिए ग्रे-लेवल ब्लॉब डिटेक्शन और स्केल-स्पेस प्राइमल स्केच के अनुप्रयोगों के अधिक विस्तृत उपचार दिए गए हैं।<ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A472969&dswid=-5063 Lindeberg, T.: Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention, ''International Journal of Computer Vision'', 11(3), 283--318, 1993.]</ref><ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A441151&dswid=-6953 Lindeberg, T, Lidberg, Par and Roland, P. E..: "Analysis of Brain Activation Patterns Using a 3-D Scale-Space Primal Sketch", ''Human Brain Mapping'', vol 7, no 3, pp 166--194, 1999.]</ref><ref>[http://brainvisa.info/pdf/mangin-AImed03.pdf Jean-Francois Mangin, Denis Rivière, Olivier Coulon, Cyril Poupon, Arnaud Cachia, Yann Cointepas, Jean-Baptiste Poline, Denis Le Bihan, Jean Régis, Dimitri Papadopoulos-Orfanos: "Coordinate-based versus structural approaches to brain image analysis". ''Artificial Intelligence in Medicine'' 30(2): 177-197 (2004)] {{webarchive |url=https://web.archive.org/web/20110721190213/http://brainvisa.info/pdf/mangin-AImed03.pdf |date=July 21, 2011 }}</ref>.


==अधिकतम स्थिर चरम क्षेत्र (एमएसईआर)==
==अधिकतम स्थिर चरम क्षेत्र (एमएसईआर)==
{{Main|Maximally stable extremal regions}}
{{Main|अधिकतम स्थिर चरम क्षेत्र}}
माटस एट अल. (2002) ऐसे छवि वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे जो 3डी प्रक्षेपण#परिप्रेक्ष्य प्रक्षेपण के तहत मजबूत हों। उन्होंने तीव्रता परिदृश्य में स्तर सेटों का अध्ययन किया और मापा कि ये तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन छवि वर्णनकर्ताओं को [[कंप्यूटर स्टीरियो विज़न]] के लिए छवि सुविधाओं के रूप में उपयोग किया जा सकता है।


इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के बीच घनिष्ठ संबंध हैं। अधिकतम स्थिर चरम क्षेत्रों को आगे की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है।
माटस एट अल. (2002) इमेज वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे | जो परिप्रेक्ष्य परिवर्तनों के अनुसार शक्तिशाली होते हैं। उन्होंने तीव्रता परिदृश्य में स्तर समुच्चयों का अध्ययन किया और मापा कि यह तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन इमेज वर्णनकर्ताओं को [[कंप्यूटर स्टीरियो विज़न]] के लिए इमेज सुविधाओं के रूप में उपयोग किया जा सकता है।
 
इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के मध्य घनिष्ठ संबंध होता हैं। इसमें अधिकतम स्थिर चरम क्षेत्रों को पूर्व की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है।


==यह भी देखें==
==यह भी देखें==
* बूँद निष्कर्षण
* ब्लॉब निष्कर्षण
* कोने का अनुमान लगाना
* कोण का अनुमान लगाना
* एफ़िन आकार अनुकूलन
* सम्बद्ध आकार अनुकूलन
* स्केल स्पेस
* मापदंड स्पेस
* रिज का अनुमान लगाना
* रिज का अनुमान लगाना
* रुचि बिंदु का अनुमान लगाना
* रुचि बिंदु का अनुमान लगाना
* [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]]
* [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)|फ़ीचर संसूचक  (कंप्यूटर विज़न)]]
* [[हैरिस एफ़िन क्षेत्र डिटेक्टर]]
* [[हैरिस एफ़िन क्षेत्र डिटेक्टर|हैरिस सम्बद्ध क्षेत्र डिटेक्टर]]
* [[हेस्सियन एफ़िन क्षेत्र डिटेक्टर]]
* [[हेस्सियन एफ़िन क्षेत्र डिटेक्टर|हेस्सियन सम्बद्ध क्षेत्र डिटेक्टर]]
* [[प्रधान वक्रता-आधारित क्षेत्र डिटेक्टर]]
* [[प्रधान वक्रता-आधारित क्षेत्र डिटेक्टर]]


Line 262: Line 261:
|s2cid=1704741 }}
|s2cid=1704741 }}


{{DEFAULTSORT:Blob Detection}}[[Category: फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]]
{{DEFAULTSORT:Blob Detection}}
 
 


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Blob Detection]]
[[Category:Created On 07/07/2023]]
[[Category:Created On 07/07/2023|Blob Detection]]
[[Category:Machine Translated Page|Blob Detection]]
[[Category:Pages with script errors|Blob Detection]]
[[Category:Templates Vigyan Ready|Blob Detection]]
[[Category:Webarchive template wayback links]]
[[Category:फ़ीचर डिटेक्शन (कंप्यूटर विज़न)|Blob Detection]]

Latest revision as of 14:54, 6 September 2023


कंप्यूटर विज़न में, ब्लॉब संसूचक विधियों का उद्देश्य डिजिटल इमेज में उन क्षेत्रों का अनुमान लगाना है जो समीप के क्षेत्रों की तुलना में ब्राइटनेस या कलर जैसे गुणों में भिन्न होते हैं। यह अनौपचारिक रूप से, ब्लॉब इमेज का क्षेत्र होता है जिसमें पूर्णतया गुण स्थिर या प्रायः स्थिर होते हैं | इसमें ब्लॉब के सभी बिंदुओं को पूर्णतया अर्थों में प्रत्येक के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन होती है।

इसमें इमेज पर स्थिति के फलन के रूप में व्यक्त की गई रुचि की पूर्णतया गुण को देखते हुए, ब्लॉब संसूचक के दो मुख्य वर्ग होते हैं | (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फलन के व्युत्पन्न पर आधारित होता हैं, और ( ii) स्थानीय मैक्सिमा और मिनिमा पर आधारित विधियां, जो फलन की स्थानीय मैक्सिमा और मिनिमा खोज पर आधारित होती हैं।इस प्रकार क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन संसूचक को रुचि बिंदु संचालक, या वैकल्पिक रूप से रुचि क्षेत्र संचालक (रुचि बिंदु का अनुमान लगाना और कोण का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है।

ब्लॉब संसूचक के अध्ययन और विकास के लिए अनेक प्रेरणाएँ होती हैं। इसका मुख्य कारण क्षेत्रों के बारे में पूर्ण जानकारी प्रदान करना है, जिनको कोर संसूचक का अनुमान लगाना या कोण का अनुमान लगाने से प्राप्त नहीं होता है। इसके क्षेत्र में प्रारंभिक कार्य में, पूर्व की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब संसूचक का उपयोग किया गया था। यह क्षेत्र वस्तु समानता और वस्तु वीडियो ट्रैकिंग के अनुप्रयोग के साथ इमेज डोमेन में वस्तु या वस्तु के भागों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे इमेज हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग विभाजन (इमेज प्रसंस्करण) के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग प्रकृति (कंप्यूटर ग्राफिक्स) विश्लेषण और प्रकृति पहचान के लिए मुख्य प्राचीन रूप में होता है। वर्तमान के कार्य में, ब्लॉब डिस्क्रिप्टर को व्यापक आधारभूत इमेज पंजीकरण के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय इमेज आंकड़ों के आधार पर उपस्थिति-आधारित वस्तु पहचान के लिए सूचनात्मक इमेज सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से इसमें लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी होती है।

गॉसियन का लाप्लासियन

सबसे प्रथम और सबसे साधारण ब्लॉब संसूचक में से गाऊसी फिल्टर (एलओजी) के लाप्लासियन पर आधारित होता है। इसमें इनपुट इमेज , दी गई है यह इमेज गॉसियन कर्नेल द्वारा संयोजित है |

एक निश्चित मापदंड पर मापदंड स्पेस प्रतिनिधित्व देने के लिए . यह, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम होता हैं |

इसमें गणना की जाती है, जिसके परिणामस्वरूप सामान्यतः त्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं। जिनकी गणना की जाती है, और जिसके परिणामस्वरूप सामान्यतःत्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं | यह या -आयामी इमेज के लिए) और ब्राइट ब्लब्स के लिए शक्तिशाली ऋणात्मक प्रतिक्रियाएं होती हैं यह समान आकार की होती हैं | चूँकि, इस ऑपरेटर को एकल मापदंड पर प्रयुक्त करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया इमेज डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के मध्य संबंध पर दृढ़ता से निर्भर होती है। इमेज डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से आकर्षित करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक होता है।

स्वचालित मापदंड चयन के साथ मल्टी- मापदंड ब्लॉब संसूचक प्राप्त करने की सही विधि मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है |

और मापदंड -स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, यह ऐसे बिंदु होते हैं जो स्पेस और मापदंड दोनों के संबंध में साथ के स्थानीय मैक्सिमा/मिनिमा होते हैं | और (लिंडेबर्ग 1994, 1998) में इस प्रकार, असतत द्वि-आयामी इनपुट इमेज को देखते हुए त्रि-आयामी असतत मापदंड -स्पेस वॉल्यूम की गणना की जाती है और बिंदु को ब्राइट (अंधेरे) ब्लॉब के रूप में माना जाता है यदि इस बिंदु पर मान अधिक (छोटा) है और इसके सभी 26 निकटतम के मूल्य से अधिक हैं । तब इस प्रकार, ब्याज अंक और मापदंड का साथ चयन के अनुसार किया जाता है |

.


मान लीजिए कि ब्लॉब की यह धारणा "ब्लॉब" की धारणा की संक्षिप्त और गणितीय रूप से स्पष्ट परिचालन परिभाषा प्रदान करती है, जिनका सीधे ब्लॉब का खोज करने के लिए कुशल और शक्तिशाली एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड -स्पेस मैक्सिमा से परिभाषित ब्लॉब के पूर्णतया मूलभूत गुण यह हैं कि प्रतिक्रियाएँ इमेज डोमेन में अनुवाद, परिक्रमण और पुनःमापदंड के साथ सहसंयोजक होती हैं। इस प्रकार, यदि मापदंड -स्पेस अधिकतम को बिंदु पर माना जाता है, तब मापदंड कारक द्वारा इमेज के पुनः मापदंड - के अनुसार , पुनःमापदंड की गई इमेज में पर मापदंड -स्पेस अधिकतम होता हैं | और (लिंडेबर्ग 1998) ). वास्तव में यह अत्यधिक उपयोगी गुण का तात्पर्य है कि लाप्लासियन ब्लॉब संसूचक के विशिष्ट विषय के अतिरिक्त, मापदंड -सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में मापदंड चयन के लिए भी किया जाता है, जैसे कि कोण की खोज लगाना, मापदंड -अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998) पर होता हैं | मापदंड -अपरिवर्तनीय सुविधा परिवर्तन (लोव 2004) के साथ-साथ इमेज मिलान और वस्तु पहचान के लिए अन्य इमेज डिस्क्रिप्टर होता हैं।

लाप्लासियन ऑपरेटर और अन्य सूक्ष्‍म से मापदंड -स्पेस रूचि बिंदु संसूचक के मापदंड चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।[1](लिंडेबर्ग 2013बी, 2015) [2] [3] में यह दिखाया गया है कि अन्य मापदंड -स्पेस रूचि बिंदु संसूचक उपस्थित होते हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जिसमे लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से उत्तम प्रदर्शन करता है। इसका उपयोग स्थानीय सिफ्ट-जैसे इमेज वर्णनकर्ताओं का उपयोग करके इमेज-आधारित मिलान के लिए किया जाता हैं।

गॉसियन दृष्टिकोण का अंतर

इस तथ्य से किसी मापदंड स्पेस प्रतिनिधित्व प्रसार समीकरण को संतुष्ट करता है |

इससे खोज होती रहती है कि गॉसियन ऑपरेटर के लाप्लासियन की गणना दो गॉसियन स्मूथ इमेजयों ( मापदंड स्पेस प्रतिनिधित्व) के मध्य अंतर के सीमा स्थितियों के रूप में भी की जा सकती है।

.

कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। चूँकि, सामान्य विधि के अतिरिक्त, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। इस प्रकार लाप्लासियन ब्लॉब संसूचक के समान ही, गॉसियन के अंतर के मापदंड -स्पेस एक्स्ट्रेमा से ब्लॉब की खोज का अनुमान लगाया जा सकता है |कि गॉसियन ऑपरेटर के अंतर के मध्य स्पष्ट संबंध के लिए देखें (लिंडेबर्ग 2012, 2015) [3] [4]और यह मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर होता हैं । उदाहरण के लिए, इस दृष्टिकोण का उपयोग मापदंड -इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है जिसको लोव (2004) देखें सकते हैं।

हेस्सियन का निर्धारक

हेस्सियन के मापदंड -सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंज-एम्पीयर ऑपरेटर भी कहा जाता है |

जहां मापदंड -स्पेस प्रतिनिधित्व के हेस्सियन आव्युह को दर्शाता है और फिर इस ऑपरेटर के मापदंड -स्पेस मैक्सिमा की खोज करता है, और स्वचालित मापदंड चयन के साथ और सीधा अंतर ब्लॉब संसूचक प्राप्त करता है जो सैडल्स पर भी प्रतिक्रिया करता है | यह (लिंडेबर्ग 1994, 1998) में देख सकते हैं |

.

ब्लॉब बिंदु् और मापदंड को ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो इमेज डोमेन में अनुवाद, परिक्रमण और पुनः मापदंड - के साथ सहसंयोजक होते हैं। मापदंड चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के मापदंड -स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन सम्बद्ध परिवर्तनों के अनुसार अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में अल्प उत्तम मापदंड चयन गुण होते हैं। [3] सरलीकृत रूप में, उसकी तरंगिका से गणना किए गए हेसियन के मापदंड -सामान्यीकृत निर्धारक का उपयोग इमेज मिलान और वस्तु पहचान के लिए एसयूआरएफ डिस्क्रिप्टर (बे एट अल 2006) में मूल रुचि बिंदु ऑपरेटर के रूप में किया जाता है।

हेसियन ऑपरेटर और अन्य सूक्ष्‍म से मापदंड -स्पेस ब्याज बिंदु संसूचक के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है | यह दर्शाता है कि हेसियन ऑपरेटर के निर्धारक में सम्बद्ध इमेज परिवर्तनों के अनुसार उत्तम मापदंड चयन का गुण हैं | जिसमे लाप्लासियन ऑपरेटर की तुलना में (लिंडेबर्ग 2013बी, 2015) [2] [3] में यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन की तुलना में अधिक उत्तम प्रदर्शन करता है, इसके साथ ही यह हैरिस या हैरिस-लाप्लास से भी उत्तम प्रदर्शन करता है। इसमें ऑपरेटर, इमेज-आधारित मिलान के लिए स्थानीय सिफ्ट-जैसे या सर्फ-जैसे इमेज वर्णनकर्ताओं का उपयोग करते हैं, जिससे उच्च दक्षता मान और कम 1-स्पष्ट स्कोर प्राप्त होते हैं।

संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)

लाप्लासियन और हेस्सियन ब्लॉब संसूचक के निर्धारक के मध्य हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और मापदंड चयन मापदंड -सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है |

इस ऑपरेटर का उपयोग इमेज मिलान, वस्तु पहचान के साथ-साथ प्रकृति विश्लेषण के लिए किया गया है।

सम्बद्ध-अनुकूलित विभेदक ब्लॉब डिटेक्टर

स्वचालित मापदंड चयन के साथ इन ब्लॉब संसूचक से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, परिक्रमण और समान पूनः मापदंड के लिए अपरिवर्तनीय हैं। चूँकि, जो इमेजयाँ कंप्यूटर विज़न प्रणाली के लिए इनपुट का निर्माण करती हैं, वह भी परिप्रेक्ष्य विकृतियों के अधीन होती हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक शक्तिशाली हैं, वह प्राकृतिक दृष्टिकोण ब्लॉब संसूचक तैयार करना है जो सम्बद्ध ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय होता है। वास्तव में, ब्लॉब डिस्क्रिप्टर में सम्बद्ध आकार अनुकूलन को प्रयुक्त करके सम्बद्ध अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय इमेज संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है | इसमें समकक्ष रूप से स्थानीय इमेज पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है | यह (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008) में बताया गया हैं। इस प्रकार, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के सम्बद्ध-अनुकूलित संस्करणों को परिभाषित कर सकते हैं जिसको (हैरिस-सम्बद्ध और हेस्सियन-सम्बद्ध भी देख सकते हैं )।

स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर

हेसियन ऑपरेटर के निर्धारक को विलेम्स एट अल द्वारा संयुक्त अंतरिक्ष-समय तक बढ़ा दिया गया है। [5] और लिंडेबर्ग, [6] निम्नलिखित पैमाने-सामान्यीकृत अंतर अभिव्यक्ति की ओर ले जाते हैं |


विलेम्स एट अल के कार्य में,[5] और के अनुरूप सरल अभिव्यक्ति का उपयोग किया गया था। लिंडेबर्ग में, यह दिखाया गया था कि और इस अर्थ में उत्तम मापदंड के चयन गुणों को दर्शाते हैं कि चयनित मापदंड का स्तर स्थानिक सीमा और अस्थायी सीमा के साथ स्थानिक-अस्थायी गॉसियन ब्लॉब से प्राप्त होता है। अंतर अभिव्यक्ति के स्थानिक-अस्थायी मापदंड -स्पेस एक्स्ट्रेमा खोज लगाकर किए गए मापदंड चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाता हैं ।

लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा अनुपात-अस्थायी वीडियो डेटा तक विस्तारित किया गया है,[6] जिससे निम्नलिखित दो अनुपात-अस्थायी ऑपरेटर बन गए हैं, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का गठन भी करते हैं |

प्रथम ऑपरेटर के लिए, मापदंड चयन गुण और का उपयोग करने के लिए कहते हैं, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक सीमा और अस्थायी अवधि को दर्शाते हुए स्थानिक-अस्थायी मापदंड के स्तर पर स्थानिक-अस्थायी मापदंड पर अपना अधिकतम मूल्य मान ले। तब आरंभिक गाऊसी ब्लॉब दूसरे ऑपरेटर के लिए, मापदंड चयन गुणों में और का उपयोग करने की आवश्यकता होती है, यदि हम चाहते हैं कि यह ऑपरेटर स्थानिक सीमा और अस्थायी अवधि को दर्शाते हुए स्थानिक-अस्थायी मापदंड के स्तर पर स्थानिक-अस्थायी मापदंड पर अपना अधिकतम मान ग्रहण करे। यह शाइन गॉसियन ब्लॉब होता हैं।

ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और मापदंड -स्पेस ब्लॉब्स

ब्लॉब की खोज का अनुमान लगाने की प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथब्राइट(गहरा) ब्लॉब जोड़ना है। चूँकि, इस प्रकार के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम ध्वनि के प्रति बहुत संवेदनशील होते हैं। और इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने मापदंड स्पेस में अनेक मापदंडो पर विस्तार के साथ स्थानीय मैक्सिमा की खोज करने की समस्या का अध्ययन किया गया हैं। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, इसके साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अतिरिक्त, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ पूर्व बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर समुच्चयों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि इमेज डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन होता हैं। जिन्हें बढ़ते मापदंड के साथ यह संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, मापदंड -स्पेस ब्लॉब्स की धारणा प्रस्तुत की गई थी। स्थानीय कंट्रास्ट और सीमा से अलग, इन मापदंड -स्पेस ब्लॉब्स ने अपने मापदंड -स्पेस जीवनकाल को मापकर यह भी मापा कि मापदंड -स्पेस में इमेज संरचनाएं कितनी स्थिर हैं।

यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और मापदंड डिस्क्रिप्टर, मापदंड से परिभाषित संबंधित मापदंड स्तरों के साथ, जिस पर ब्लॉब शक्ति के सामान्यीकृत उपायों ने मापदंडो पर अपनी अधिकतम सीमा मान ली थी | और यह अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और मापदंड डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट विधि को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ अधिक सीमा तक सुधार किया जा सकता है | जिनमे समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड पर स्थानीय एक्स्ट्रेमा वर्तमान उपयोग किया जाता है | और अन्य दृश्य प्रक्रियाओं को मापदंड की जानकारी प्रदान करने के लिए होते हैं।

लिंडेबर्ग का वाटरशेड-आधारित ग्रे-लेवल ब्लॉब संसूचक एल्गोरिदम

वाटरशेड सादृश्य से ग्रे-लेवल ब्लॉब्स (विस्तार के साथ स्थानीय चरम) की खोज करने के उद्देश्य से, लिंडेबर्ग ने तीव्रता मूल्यों के घटते क्रम में, समान तीव्रता वाले वैकल्पिक रूप से जुड़े क्षेत्रों, पिक्सेल को पूर्व-सॉर्ट करने के आधार पर एल्गोरिदम विकसित किया था। फिर, पिक्सेल या जुड़े क्षेत्रों के निकटतम नेबर के मध्य तुलना की गई।

सरलता के लिए, शाइंनिग ग्रे-लेवल ब्लॉब्स की खोज करने के स्थितियों पर विचार करें और "उच्च निकटतम" का अर्थ "उच्च ग्रे-लेवल मान वाला निकटतम पिक्सेल" रखते हैं। फिर, एल्गोरिथ्म में किसी भी स्तर पर (तीव्रता मूल्यों के घटते क्रम में किया गया) यह निम्नलिखित वर्गीकरण नियमों पर आधारित है |

  1. यदि किसी क्षेत्र में कोई उच्चतर निकटतम नहीं है, तब यह स्थानीय अधिकतम है और ब्लॉब का बीज होता हैं । फ्लैग समुच्चय करें जो ब्लॉब को बढ़ने देता है।
  2. अन्यथा, यदि इसका कम से कम उच्चतर निकटतम है, जो पृष्ठभूमि है, तब यह किसी ब्लॉब का भाग नहीं हो सकता है और इसमें पृष्ठभूमि होनी चाहिए।
  3. अन्यथा, यदि इसके से अधिक उच्च निकटतम हैं और यदि वह उच्च निकटतम अलग-अलग ब्लॉब के भाग हैं, तब यह किसी भी ब्लॉब का भाग नहीं हो सकता है, और पृष्ठभूमि होना चाहिए। यदि ऊंचे निकटतम में से किसी को अभी भी बढ़ने की अनुमति है, तब उनके फ्लैग को हटा दें जो उन्हें बढ़ने की अनुमति देता है।
  4. अन्यथा, इसके या अधिक उच्चतर निकटतम हैं, जो सभी ही ब्लॉब के भाग हैं। यदि उस ब्लॉब को अभी भी बढ़ने दिया जाता है तब वर्तमान क्षेत्र को उस ब्लॉब के भाग के रूप में सम्मिलित किया जाना चाहिए। अन्यथा यह क्षेत्र को पृष्ठभूमि में समुच्चय कर दिया जाना चाहिए।।

अन्य वाटरशेड विधियों की तुलना में, इस एल्गोरिदम में उत्पादन तब रुक जाता है जब तक तीव्रता का स्तर स्थानीय अधिकतम से जुड़े तथाकथित परिसीमन कार्यभार बिंदु के तीव्रता मूल्य से कम हो जाता है। चूँकि, इस दृष्टिकोण को अन्य प्रकार के वाटरशेड निर्माणों तक विस्तारित करना अधिक सरल है। उदाहरण के लिए, प्रथम परिसीमन कार्यभार बिंदु से पूर्व बढ़कर "ग्रे-लेवल ब्लॉब ट्री" का निर्माण किया जा सकता है। इसके अतिरिक्त, ग्रे-लेवल ब्लॉब संसूचक विधि को मापदंड स्पेस प्रतिनिधित्व में एम्बेड किया गया था और मापदंड के सभी स्तरों पर प्रदर्शन किया गया था, जिसके परिणामस्वरूप मापदंड -स्पेस प्राइमल स्केच नामक प्रतिनिधित्व हुआ था।

कंप्यूटर विज़न में इसके अनुप्रयोगों के साथ इस एल्गोरिदम को लिंडेबर्ग की थीसिस के साथ-साथ आंशिक रूप से उस कार्य पर आधारित मापदंड -स्पेस सिद्धांत पर मोनोग्राफ में अधिक विस्तार से वर्णित किया गया है। [7] इस एल्गोरिथम की पिछली प्रस्तुतियाँ में भी पाई जा सकती हैं। [8] [9] कंप्यूटर विज़न और मेडिकल इमेज विश्लेषण के लिए ग्रे-लेवल ब्लॉब संसूचक और मापदंड -स्पेस प्राइमल स्केच के अनुप्रयोगों के अधिक विस्तृत उपचार में दिए गए हैं। [10] [11] [12]

अधिकतम स्थिर चरम क्षेत्र (एमएसईआर)

माटस एट अल. (2002) इमेज वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे | जो परिप्रेक्ष्य परिवर्तनों के अनुसार शक्तिशाली होते हैं। उन्होंने तीव्रता परिदृश्य में स्तर समुच्चयों का अध्ययन किया और मापा कि यह तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन इमेज वर्णनकर्ताओं को कंप्यूटर स्टीरियो विज़न के लिए इमेज सुविधाओं के रूप में उपयोग किया जा सकता है।

इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के मध्य घनिष्ठ संबंध होता हैं। इसमें अधिकतम स्थिर चरम क्षेत्रों को पूर्व की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है।

यह भी देखें

संदर्भ

  1. Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.
  2. 2.0 2.1 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.
  3. 3.0 3.1 3.2 3.3 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.
  4. T. Lindeberg ``Scale invariant feature transform, Scholarpedia, 7(5):10491, 2012.
  5. 5.0 5.1 Geert Willems, Tinne Tuytelaars and Luc van Gool (2008). "An efficient dense and scale-invariant spatiotemporal-temporal interest point detector". European Conference on Computer Vision. Springer Lecture Notes in Computer Science. Vol. 5303. pp. 650–663. doi:10.1007/978-3-540-88688-4_48.
  6. 6.0 6.1 Tony Lindeberg (2018). "Spatio-temporal scale selection in video data". Journal of Mathematical Imaging and Vision. 60 (4): 525–562. doi:10.1007/s10851-017-0766-9. S2CID 4430109.
  7. Lindeberg, T. (1991) Discrete Scale-Space Theory and the Scale-Space Primal Sketch, PhD thesis, Department of Numerical Analysis and Computing Science, Royal Institute of Technology, S-100 44 Stockholm, Sweden, May 1991. (ISSN 1101-2250. ISRN KTH NA/P--91/8--SE) (The grey-level blob detection algorithm is described in section 7.1)
  8. T. Lindeberg and J.-O. Eklundh, "Scale detection and region extraction from a scale-space primal sketch", in Proc. 3rd International Conference on Computer Vision, (Osaka, Japan), pp. 416--426, Dec. 1990. (See Appendix A.1 for the basic definitions for the watershed-based grey-level blob detection algorithm.)
  9. T. Lindeberg and J.-O. Eklundh, "On the computation of a scale-space primal sketch", Journal of Visual Communication and Image Representation, vol. 2, pp. 55--78, Mar. 1991.
  10. Lindeberg, T.: Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention, International Journal of Computer Vision, 11(3), 283--318, 1993.
  11. Lindeberg, T, Lidberg, Par and Roland, P. E..: "Analysis of Brain Activation Patterns Using a 3-D Scale-Space Primal Sketch", Human Brain Mapping, vol 7, no 3, pp 166--194, 1999.
  12. Jean-Francois Mangin, Denis Rivière, Olivier Coulon, Cyril Poupon, Arnaud Cachia, Yann Cointepas, Jean-Baptiste Poline, Denis Le Bihan, Jean Régis, Dimitri Papadopoulos-Orfanos: "Coordinate-based versus structural approaches to brain image analysis". Artificial Intelligence in Medicine 30(2): 177-197 (2004) Archived July 21, 2011, at the Wayback Machine


अग्रिम पठन