ब्लॉब संसूचक: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(11 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{FeatureDetectionCompVisNavbox}}




[[कंप्यूटर दृष्टि|कंप्यूटर विज़न]] में, '''ब्लॉब डिटेक्शन''' विधियों का उद्देश्य [[डिजिटल छवि]] में उन क्षेत्रों का अनुमान लगाना है जो आस-पास के क्षेत्रों की तुलना में '''चमक''' '''या रंग''' जैसे गुणों में भिन्न होते हैं। अनौपचारिक रूप से, ब्लॉब छवि का क्षेत्र है जिसमें कुछ गुण स्थिर या लगभग स्थिर होते हैं; बूँद के सभी बिंदुओं को कुछ अर्थों में एक-दूसरे के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि [[कनवल्शन]] है।


छवि पर स्थिति के फ़ंक्शन के रूप में व्यक्त की गई रुचि की कुछ संपत्ति को देखते हुए, ब्लॉब डिटेक्टरों के दो मुख्य वर्ग हैं: (i) ''विभेदक कैलकुलस विधियां'', जो स्थिति के संबंध में फ़ंक्शन के डेरिवेटिव पर आधारित हैं, और ( ii) ''स्थानीय [[मैक्सिमा और मिनिमा]] पर आधारित विधियां'', जो फ़ंक्शन की स्थानीय मैक्सिमा और मिनिमा खोजने पर आधारित हैं। क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन डिटेक्टरों को ''रुचि बिंदु ऑपरेटर्स'', या वैकल्पिक रूप से रुचि क्षेत्र ऑपरेटर्स ([[ रुचि बिंदु का पता लगाना | रुचि बिंदु का अनुमान लगाना]] और [[ कोने का पता लगाना |कोने का अनुमान लगाना]] भी देखें) के रूप में भी संदर्भित किया जा सकता है।
कंप्यूटर विज़न में, '''ब्लॉब संसूचक''' विधियों का उद्देश्य [[डिजिटल छवि|डिजिटल इमेज]] में उन क्षेत्रों का अनुमान लगाना है जो समीप के क्षेत्रों की तुलना में ब्राइटनेस या कलर जैसे गुणों में भिन्न होते हैं। यह अनौपचारिक रूप से, ब्लॉब इमेज का क्षेत्र होता है जिसमें पूर्णतया गुण स्थिर या प्रायः स्थिर होते हैं | इसमें ब्लॉब के सभी बिंदुओं को पूर्णतया अर्थों में प्रत्येक के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन होती है।


ब्लॉब डिटेक्टरों के अध्ययन और विकास के लिए कई प्रेरणाएँ हैं। मुख्य कारण क्षेत्रों के बारे में पूरक जानकारी प्रदान करना है, जो [[किनारे का पता लगाना|किनारे का अनुमान लगाना]] या कोने का अनुमान लगाने से प्राप्त नहीं होती है। क्षेत्र में प्रारंभिक कार्य में, आगे की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब डिटेक्शन का उपयोग किया गया था। ये क्षेत्र ऑब्जेक्ट पहचान और/या ऑब्जेक्ट [[वीडियो ट्रैकिंग]] के अनुप्रयोग के साथ छवि डोमेन में ऑब्जेक्ट या ऑब्जेक्ट के हिस्सों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे [[ छवि हिस्टोग्राम |छवि हिस्टोग्राम]] विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग [[ विभाजन (छवि प्रसंस्करण) |विभाजन (छवि प्रसंस्करण)]] के अनुप्रयोग के साथ [[रिज का पता लगाना|शिखर का अनुमान लगाना]] के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग [[बनावट (कंप्यूटर ग्राफिक्स)]] विश्लेषण और बनावट पहचान के लिए मुख्य प्राचीन के रूप में होता है। हाल के काम में, ब्लॉब डिस्क्रिप्टर को व्यापक बेसलाइन [[छवि पंजीकरण]] के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय छवि आंकड़ों के आधार पर उपस्थिति-आधारित ऑब्जेक्ट पहचान के लिए सूचनात्मक छवि सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी है।
इसमें इमेज पर स्थिति के फलन के रूप में व्यक्त की गई रुचि की पूर्णतया गुण को देखते हुए, ब्लॉब संसूचक के दो मुख्य वर्ग होते हैं | (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फलन के व्युत्पन्न पर आधारित होता हैं, और ( ii) स्थानीय [[मैक्सिमा और मिनिमा]] पर आधारित विधियां, जो फलन की स्थानीय मैक्सिमा और मिनिमा खोज पर आधारित होती हैं।इस प्रकार क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन संसूचक को रुचि बिंदु संचालक, या वैकल्पिक रूप से रुचि क्षेत्र संचालक (रुचि बिंदु का अनुमान लगाना और कोण का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है।


==गॉसियन का [[लाप्लासियन]]==
ब्लॉब संसूचक के अध्ययन और विकास के लिए अनेक प्रेरणाएँ होती हैं। इसका मुख्य कारण क्षेत्रों के बारे में पूर्ण जानकारी प्रदान करना है, जिनको कोर संसूचक का अनुमान लगाना या कोण का अनुमान लगाने से प्राप्त नहीं होता है। इसके क्षेत्र में प्रारंभिक कार्य में, पूर्व की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब संसूचक  का उपयोग किया गया था। यह क्षेत्र वस्तु समानता और वस्तु [[वीडियो ट्रैकिंग]] के अनुप्रयोग के साथ इमेज डोमेन में वस्तु या वस्तु के भागों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे इमेज हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग [[ विभाजन (छवि प्रसंस्करण) |विभाजन (इमेज प्रसंस्करण)]] के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग [[बनावट (कंप्यूटर ग्राफिक्स)|प्रकृति (कंप्यूटर ग्राफिक्स)]] विश्लेषण और प्रकृति पहचान के लिए मुख्य प्राचीन रूप में होता है। वर्तमान के कार्य में, ब्लॉब डिस्क्रिप्टर को व्यापक आधारभूत [[छवि पंजीकरण|इमेज पंजीकरण]] के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय इमेज आंकड़ों के आधार पर उपस्थिति-आधारित वस्तु पहचान के लिए सूचनात्मक इमेज सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से इसमें लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी होती है।
सबसे पहले और सबसे साधारण ब्लॉब डिटेक्टरों में से [[ गाऊसी फिल्टर |गाऊसी फिल्टर]] (एलओजी) के लाप्लासियन पर आधारित है। इनपुट छवि दी गई है <math>f(x, y)</math>, यह छवि गॉसियन कर्नेल द्वारा कन्वोल्यूशन है
 
==गॉसियन का लाप्लासियन==
सबसे प्रथम और सबसे साधारण ब्लॉब संसूचक में से [[ गाऊसी फिल्टर |गाऊसी फिल्टर]] (एलओजी) के लाप्लासियन पर आधारित होता है। इसमें इनपुट इमेज <math>f(x, y)</math>, दी गई  है यह इमेज गॉसियन कर्नेल द्वारा संयोजित है |
:<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math>
:<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math>
एक निश्चित पैमाने पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. फिर, लाप्लासियन ऑपरेटर को लागू करने का परिणाम
एक निश्चित मापदंड पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व|मापदंड स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. यह, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम होता हैं |
 
:<math>\nabla^2 L =L_{xx} + L_{yy}</math>
:<math>\nabla^2 L =L_{xx} + L_{yy}</math>
की गणना की जाती है, जिसके परिणामस्वरूप साधारण तौर पर त्रिज्या के काले धब्बों के लिए मजबूत सकारात्मक प्रतिक्रिया होती है <math display="inline">r^2 = 2 t</math> (द्वि-आयामी छवि के लिए, <math display="inline">r^2 = d t</math> के लिए <math display="inline">d</math>-आयामी छवि) और समान आकार की चमकदार बूँदों के लिए मजबूत नकारात्मक प्रतिक्रियाएँ। हालाँकि, इस ऑपरेटर को एकल पैमाने पर लागू करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया छवि डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के बीच संबंध पर दृढ़ता से निर्भर होती है। छवि डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से कैप्चर करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक है।
:
इसमें गणना की जाती है, जिसके परिणामस्वरूप सामान्यतः त्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं। जिनकी गणना की जाती है, और जिसके परिणामस्वरूप सामान्यतःत्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं | यह '''<math display="inline">r^2 = 2 t</math>''' या '''<math display="inline">r^2 = d t</math>''' '''<math display="inline">d</math>''' -आयामी इमेज के लिए) और ब्राइट ब्लब्स के लिए शक्तिशाली ऋणात्मक प्रतिक्रियाएं होती हैं यह समान आकार की होती हैं | चूँकि, इस ऑपरेटर को एकल मापदंड पर प्रयुक्त करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया इमेज डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के मध्य संबंध पर दृढ़ता से निर्भर होती है। इमेज डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से आकर्षित करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक होता है।
 
स्वचालित मापदंड चयन के साथ मल्टी- मापदंड ब्लॉब संसूचक प्राप्त करने की सही विधि मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है |


स्वचालित स्केल चयन के साथ मल्टी-स्केल ब्लॉब डिटेक्टर प्राप्त करने का सीधा विधि स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है
:<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math>
:<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math>
और स्केल-स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, ये ऐसे बिंदु हैं जो साथ स्थानीय मैक्सिमा/मिनिमा हैं <math>\nabla^2_\mathrm{norm} L</math> अंतरिक्ष और पैमाने दोनों के संबंध में (लिंडेबर्ग 1994, 1998)इस प्रकार, असतत द्वि-आयामी इनपुट छवि दी गई है <math>f(x, y)</math> त्रि-आयामी असतत स्केल-स्पेस वॉल्यूम <math>L(x, y, t)</math> गणना की जाती है और बिंदु को उज्ज्वल (अंधेरे) बूँद के रूप में माना जाता है यदि इस बिंदु पर मूल्य उसके सभी 26 पड़ोसियों के मूल्य से अधिक (छोटा) है। इस प्रकार, रुचि बिंदुओं का साथ चयन <math>(\hat{x}, \hat{y})</math> और तराजू <math>\hat{t}</math> के अनुसार किया जाता है
और मापदंड -स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, यह ऐसे बिंदु होते हैं जो स्पेस और मापदंड दोनों के संबंध में साथ <math>\nabla^2_\mathrm{norm} L</math> के स्थानीय मैक्सिमा/मिनिमा होते हैं | और (लिंडेबर्ग 1994, 1998) में इस प्रकार, असतत द्वि-आयामी इनपुट इमेज <math>f(x, y)</math> को देखते हुए त्रि-आयामी असतत मापदंड -स्पेस वॉल्यूम <math>L(x, y, t)</math> की गणना की जाती है और बिंदु को ब्राइट (अंधेरे) ब्लॉब के रूप में माना जाता है यदि इस बिंदु पर मान अधिक (छोटा) है और इसके सभी 26 निकटतम के मूल्य से अधिक हैं । तब इस प्रकार, ब्याज अंक <math>(\hat{x}, \hat{y})</math> और मापदंड <math>\hat{t}</math> का साथ चयन के अनुसार किया जाता है |
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>.
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>.
ध्यान दें कि बूँद की यह धारणा बूँद की धारणा की संक्षिप्त और गणितीय रूप से सटीक परिचालन परिभाषा प्रदान करती है, जो सीधे बूँद का अनुमान लगाने के लिए कुशल और मजबूत एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के स्केल-स्पेस मैक्सिमा से परिभाषित बूँदों के कुछ बुनियादी गुण यह हैं कि प्रतिक्रियाएँ छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होती हैं। इस प्रकार, यदि बिंदु पर स्केल-स्पेस अधिकतम मान लिया जाता है <math>(x_0, y_0; t_0)</math> फिर स्केल फ़ैक्टर द्वारा छवि के पुनर्स्केलिंग के तहत <math>s</math>, वहां स्केल-स्पेस अधिकतम होगा <math>\left(s x_0, s y_0; s^2 t_0\right)</math> पुनर्स्केल की गई छवि में (लिंडेबर्ग 1998)। व्यवहार में यह अत्यधिक उपयोगी संपत्ति का तात्पर्य है कि लाप्लासियन ब्लॉब डिटेक्शन के विशिष्ट विषय के अलावा, स्केल-सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में स्केल चयन के लिए भी किया जाता है, जैसे कि कोने का अनुमान लगाना, स्केल-अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998), [[स्केल-अपरिवर्तनीय सुविधा परिवर्तन]] (लोव 2004) के साथ-साथ छवि मिलान और ऑब्जेक्ट पहचान के लिए अन्य छवि डिस्क्रिप्टर।


लाप्लासियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name=Lin13JMIV>[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref>
 
में (लिंडेबर्ग 2013बी, 2015)<ref name=Lin13SSVM>[http://www.dx.doi.org/10.1007/978-3-642-38267-3_30 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.]</ref><ref name=Lin15JMIV/>यह दिखाया गया है कि अन्य स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टर मौजूद हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जो स्थानीय SIFT-जैसे इमेज डिस्क्रिप्टर का उपयोग करके छवि-आधारित मिलान के लिए लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से बेहतर प्रदर्शन करता है।
 
मान लीजिए कि ब्लॉब की यह धारणा "ब्लॉब" की धारणा की संक्षिप्त और गणितीय रूप से स्पष्ट परिचालन परिभाषा प्रदान करती है, जिनका सीधे ब्लॉब का खोज करने के लिए कुशल और शक्तिशाली एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड -स्पेस मैक्सिमा से परिभाषित ब्लॉब के पूर्णतया मूलभूत गुण यह हैं कि प्रतिक्रियाएँ इमेज डोमेन में अनुवाद, परिक्रमण और पुनःमापदंड के साथ सहसंयोजक होती हैं। इस प्रकार, यदि मापदंड -स्पेस अधिकतम को बिंदु <math>(x_0, y_0; t_0)</math> पर माना जाता है, तब मापदंड कारक <math>s</math> द्वारा इमेज के पुनः मापदंड - के अनुसार , पुनःमापदंड की गई इमेज में <math>\left(s x_0, s y_0; s^2 t_0\right)</math> पर मापदंड -स्पेस अधिकतम होता हैं | और (लिंडेबर्ग 1998) ). वास्तव में यह अत्यधिक उपयोगी गुण का तात्पर्य है कि लाप्लासियन ब्लॉब संसूचक  के विशिष्ट विषय के अतिरिक्त, मापदंड -सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में मापदंड चयन के लिए भी किया जाता है, जैसे कि कोण की खोज लगाना, मापदंड -अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998) पर होता हैं | मापदंड -[[स्केल-अपरिवर्तनीय सुविधा परिवर्तन|अपरिवर्तनीय सुविधा परिवर्तन]] (लोव 2004) के साथ-साथ इमेज मिलान और वस्तु पहचान के लिए अन्य इमेज डिस्क्रिप्टर होता हैं।
 
लाप्लासियन ऑपरेटर और अन्य सूक्ष्‍म से मापदंड -स्पेस रूचि बिंदु संसूचक के मापदंड चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name="Lin13JMIV">[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref>(लिंडेबर्ग 2013बी, 2015) <ref name="Lin13SSVM">[http://www.dx.doi.org/10.1007/978-3-642-38267-3_30 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.]</ref> <ref name="Lin15JMIV" /> में यह दिखाया गया है कि अन्य मापदंड -स्पेस रूचि बिंदु संसूचक उपस्थित होते हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जिसमे लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से उत्तम प्रदर्शन करता है। इसका उपयोग स्थानीय सिफ्ट-जैसे इमेज वर्णनकर्ताओं का उपयोग करके इमेज-आधारित मिलान के लिए किया जाता हैं।


==गॉसियन दृष्टिकोण का अंतर==
==गॉसियन दृष्टिकोण का अंतर==
{{Main|Difference of Gaussians}}
{{Main|गाऊसी का अंतर}}
इस तथ्य से कि स्केल अंतरिक्ष प्रतिनिधित्व <math>L(x, y, t)</math> [[प्रसार समीकरण]] को संतुष्ट करता है
 
इस तथ्य से किसी मापदंड स्पेस प्रतिनिधित्व <math>L(x, y, t)</math> [[प्रसार समीकरण]] को संतुष्ट करता है |
:<math>\partial_t L = \frac{1}{2} \nabla^2 L</math>
:<math>\partial_t L = \frac{1}{2} \nabla^2 L</math>
यह गॉसियन ऑपरेटर के लाप्लासियन का अनुसरण करता है <math>\nabla^2 L(x, y, t)</math> दो गाऊसी चिकनी छवियों (स्केल स्पेस प्रतिनिधित्व) के बीच अंतर के सीमा मामले के रूप में भी गणना की जा सकती है
इससे खोज होती रहती है कि गॉसियन ऑपरेटर <math>\nabla^2 L(x, y, t)</math> के लाप्लासियन की गणना दो गॉसियन स्मूथ इमेजयों ( मापदंड स्पेस प्रतिनिधित्व) के मध्य अंतर के सीमा स्थितियों के रूप में भी की जा सकती है।
:<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>.
:<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>.
कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। हालाँकि, मामूली तकनीकीताओं के अलावा, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। लाप्लासियन ब्लॉब डिटेक्टर के समान ही, गॉसियन के अंतर के स्केल-स्पेस एक्स्ट्रेमा से ब्लॉब्स का अनुमान लगाया जा सकता है - देखें (लिंडेबर्ग 2012, 2015)<ref name=Lin15JMIV/><ref name=Lin12Schol>[http://www.scholarpedia.org/article/Scale_Invariant_Feature_Transform T. Lindeberg ``Scale invariant feature transform'', Scholarpedia, 7(5):10491, 2012.]</ref> गॉसियन ऑपरेटर के अंतर और स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के बीच स्पष्ट संबंध के लिए। उदाहरण के लिए, इस दृष्टिकोण का उपयोग स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है - लोव (2004) देखें।
कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। चूँकि, सामान्य विधि के अतिरिक्त, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। इस प्रकार लाप्लासियन ब्लॉब संसूचक के समान ही, गॉसियन के अंतर के मापदंड -स्पेस एक्स्ट्रेमा से ब्लॉब की खोज का अनुमान लगाया जा सकता है |कि गॉसियन ऑपरेटर के अंतर के मध्य स्पष्ट संबंध के लिए देखें (लिंडेबर्ग 2012, 2015) <ref name=Lin15JMIV/> <ref name=Lin12Schol>[http://www.scholarpedia.org/article/Scale_Invariant_Feature_Transform T. Lindeberg ``Scale invariant feature transform'', Scholarpedia, 7(5):10491, 2012.]</ref>और यह मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर होता हैं । उदाहरण के लिए, इस दृष्टिकोण का उपयोग मापदंड -इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है जिसको लोव (2004) देखें सकते हैं।


==हेस्सियन का निर्धारक==
==हेस्सियन का निर्धारक==
हेस्सियन के स्केल-सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंगे-एम्पीयर समीकरण भी कहा जाता है | मोंज-एम्पीयर ऑपरेटर,
हेस्सियन के मापदंड -सामान्यीकृत निर्धारक पर विचार करके, जिसे मोंज-एम्पीयर ऑपरेटर भी कहा जाता है |
:<math>\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)</math>
:<math>\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)</math>
कहाँ <math>H L</math> स्केल-स्पेस प्रतिनिधित्व के [[ हेस्सियन मैट्रिक्स |हेस्सियन मैट्रिक्स]] को दर्शाता है <math>L</math> और फिर इस ऑपरेटर के स्केल-स्पेस मैक्सिमा का अनुमान लगाने से स्वचालित स्केल चयन के साथ और सीधा अंतर ब्लॉब डिटेक्टर प्राप्त होता है जो सैडल्स पर भी प्रतिक्रिया करता है (लिंडेबर्ग 1994, 1998)
:
जहां <math>H L</math> मापदंड -स्पेस प्रतिनिधित्व <math>L</math> के [[ हेस्सियन मैट्रिक्स |हेस्सियन आव्युह]] को दर्शाता है और फिर इस ऑपरेटर के मापदंड -स्पेस मैक्सिमा की खोज करता है, और स्वचालित मापदंड चयन के साथ और सीधा अंतर ब्लॉब संसूचक प्राप्त करता है जो सैडल्स पर भी प्रतिक्रिया करता है | यह (लिंडेबर्ग 1994, 1998) में देख सकते हैं |
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>.
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>.
बूँद बिंदु <math>(\hat{x}, \hat{y})</math> और तराजू <math>\hat{t}</math> इन्हें ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो छवि डोमेन में अनुवाद, रोटेशन और रीस्केलिंग के साथ सहसंयोजक होते हैं। स्केल चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के स्केल-स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन एफाइन परिवर्तनों के तहत अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में थोड़ा बेहतर स्केल चयन गुण होते हैं। .<ref name=Lin15JMIV/>सरलीकृत रूप में, [[ उसकी तरंगिका |उसकी तरंगिका]] ्स से गणना किए गए हेसियन के स्केल-सामान्यीकृत निर्धारक का उपयोग छवि मिलान और ऑब्जेक्ट पहचान के लिए स्पीड अप मजबूत फीचर्स डिस्क्रिप्टर (बे एट अल 2006) में मूल ब्याज बिंदु ऑपरेटर के रूप में किया जाता है।
ब्लॉब बिंदु् <math>(\hat{x}, \hat{y})</math> और मापदंड <math>\hat{t}</math> को ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो इमेज डोमेन में अनुवाद, परिक्रमण और पुनः मापदंड - के साथ सहसंयोजक होते हैं। मापदंड चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के मापदंड -स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन सम्बद्ध परिवर्तनों के अनुसार अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में अल्प उत्तम मापदंड चयन गुण होते हैं। <ref name=Lin15JMIV/> सरलीकृत रूप में, [[ उसकी तरंगिका |उसकी तरंगिका]] से गणना किए गए हेसियन के मापदंड -सामान्यीकृत निर्धारक का उपयोग इमेज मिलान और वस्तु पहचान के लिए एसयूआरएफ डिस्क्रिप्टर (बे एट अल 2006) में मूल रुचि बिंदु ऑपरेटर के रूप में किया जाता है।


हेसियन ऑपरेटर और अन्य बारीकी से स्केल-स्पेस ब्याज बिंदु डिटेक्टरों के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है।<ref name=Lin13JMIV/>यह दर्शाता है कि हेस्सियन ऑपरेटर के निर्धारक में लाप्लासियन ऑपरेटर की तुलना में एफ़िन छवि परिवर्तनों के तहत बेहतर स्केल चयन गुण हैं।
हेसियन ऑपरेटर और अन्य सूक्ष्‍म से मापदंड -स्पेस ब्याज बिंदु संसूचक के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है | यह दर्शाता है कि हेसियन ऑपरेटर के निर्धारक में सम्बद्ध इमेज परिवर्तनों के अनुसार उत्तम मापदंड चयन का गुण हैं | जिसमे लाप्लासियन ऑपरेटर की तुलना में (लिंडेबर्ग 2013बी, 2015) <ref name=Lin13SSVM/> <ref name=Lin15JMIV>[https://link.springer.com/article/10.1007/s10851-014-0541-0 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.]</ref> में यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन की तुलना में अधिक उत्तम प्रदर्शन करता है, इसके साथ ही यह हैरिस या हैरिस-लाप्लास से भी उत्तम प्रदर्शन करता है। इसमें ऑपरेटर, इमेज-आधारित मिलान के लिए स्थानीय सिफ्ट-जैसे या सर्फ-जैसे इमेज वर्णनकर्ताओं का उपयोग करते हैं, जिससे उच्च दक्षता मान और कम 1-स्पष्ट स्कोर प्राप्त होते हैं।
में (लिंडेबर्ग 2013बी, 2015)<ref name=Lin13SSVM/><ref name=Lin15JMIV>[https://link.springer.com/article/10.1007/s10851-014-0541-0 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.]</ref> यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या उसके अंतर-गाऊसी सन्निकटन की तुलना में काफी बेहतर प्रदर्शन करता है, साथ ही स्थानीय SIFT-जैसे या का उपयोग करके छवि-आधारित मिलान के लिए हैरिस या हैरिस-लाप्लास ऑपरेटरों से भी बेहतर प्रदर्शन करता है। एसयूआरएफ-जैसे छवि डिस्क्रिप्टर, उच्च दक्षता मूल्यों और कम 1-सटीक स्कोर की ओर ले जाते हैं।


==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)==
==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)==
लाप्लासियन और हेस्सियन ब्लॉब डिटेक्टरों के निर्धारक के बीच हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और स्केल चयन स्केल-सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है:
लाप्लासियन और हेस्सियन ब्लॉब संसूचक के निर्धारक के मध्य हाइब्रिड ऑपरेटर भी प्रस्तावित किया गया है, जहां स्थानिक चयन हेस्सियन के निर्धारक द्वारा किया जाता है और मापदंड चयन मापदंड -सामान्यीकृत लाप्लासियन (मिकोलाज्स्की और श्मिट 2004) के साथ किया जाता है |
:<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math>
:<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math>
:<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math>
:<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math>
इस ऑपरेटर का उपयोग छवि मिलान, वस्तु पहचान के साथ-साथ बनावट विश्लेषण के लिए किया गया है।
इस ऑपरेटर का उपयोग इमेज मिलान, वस्तु पहचान के साथ-साथ प्रकृति विश्लेषण के लिए किया गया है।


==एफ़िन-अनुकूलित विभेदक ब्लॉब डिटेक्टर==
==सम्बद्ध-अनुकूलित विभेदक ब्लॉब डिटेक्टर==
स्वचालित स्केल चयन के साथ इन ब्लॉब डिटेक्टरों से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। हालाँकि, जो छवियाँ कंप्यूटर विज़न सिस्टम के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत हैं, प्राकृतिक दृष्टिकोण ब्लॉब डिटेक्टर तैयार करना है जो एफाइन ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय है। व्यवहार में, ब्लॉब डिस्क्रिप्टर में एफाइन आकार अनुकूलन को लागू करके एफाइन अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय छवि संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है, या समकक्ष रूप से स्थानीय छवि पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008)इस तरह, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के एफ़िन-अनुकूलित संस्करणों को परिभाषित कर सकते हैं ([[हैरिस-एफ़िन]] और [[हेस्सियन-एफ़िन]] भी देखें)।
स्वचालित मापदंड चयन के साथ इन ब्लॉब संसूचक से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, परिक्रमण और समान पूनः मापदंड के लिए अपरिवर्तनीय हैं। चूँकि, जो इमेजयाँ कंप्यूटर विज़न प्रणाली के लिए इनपुट का निर्माण करती हैं, वह भी परिप्रेक्ष्य विकृतियों के अधीन होती हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक शक्तिशाली हैं, वह प्राकृतिक दृष्टिकोण ब्लॉब संसूचक तैयार करना है जो सम्बद्ध ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय होता है। वास्तव में, ब्लॉब डिस्क्रिप्टर में सम्बद्ध आकार अनुकूलन को प्रयुक्त करके सम्बद्ध अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय इमेज संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है | इसमें समकक्ष रूप से स्थानीय इमेज पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है | यह (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008) में बताया गया हैं। इस प्रकार, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के सम्बद्ध-अनुकूलित संस्करणों को परिभाषित कर सकते हैं जिसको ([[हैरिस-एफ़िन|हैरिस-सम्बद्ध]] और [[हेस्सियन-एफ़िन|हेस्सियन-सम्बद्ध]] भी देख सकते हैं )।


== स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर ==
== स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर ==
Line 62: Line 68:
| pages = 650–663  
| pages = 650–663  
| doi = 10.1007/978-3-540-88688-4_48
| doi = 10.1007/978-3-540-88688-4_48
}}</ref> और लिंडेबर्ग,
}}</ref> और लिंडेबर्ग, <ref name="lindeberg18">
<ref name="lindeberg18">
{{cite journal
{{cite journal
| author = Tony Lindeberg
| author = Tony Lindeberg
Line 76: Line 81:
| doi-access = free
| doi-access = free
}}
}}
</ref> निम्नलिखित पैमाने-सामान्यीकृत विभेदक अभिव्यक्ति की ओर अग्रसर:
</ref> निम्नलिखित पैमाने-सामान्यीकृत अंतर अभिव्यक्ति की ओर ले जाते हैं |


:<math>
:<math>
Line 84: Line 89:
  - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right).
  - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right).
</math>
</math>
विलेम्स एट अल के काम में,<ref name="willems08"/>के अनुरूप सरल अभिव्यक्ति <math>\gamma_s = 1</math> और <math>\gamma_{\tau} = 1</math> प्रयोग किया गया। लिंडेबर्ग में,<ref name="lindeberg18"/>ऐसा दिखाया गया <math>\gamma_s = 5/4</math> और <math>\gamma_{\tau} = 5/4</math> बेहतर पैमाने के चयन गुणों का तात्पर्य इस अर्थ में है कि चयनित पैमाने के स्तर स्थानिक सीमा के साथ स्थानिक-अस्थायी गाऊसी बूँद से प्राप्त होते हैं <math>s = s_0</math> और अस्थायी सीमा <math>\tau = \tau_0</math> अंतर अभिव्यक्ति के स्थानिक-अस्थायी स्केल-स्पेस एक्स्ट्रेमा का अनुमान लगाकर किए गए स्केल चयन के साथ, ब्लॉब की स्थानिक सीमा और अस्थायी अवधि से पूरी तरह मेल खाएगा।


लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा स्थानिक-अस्थायी वीडियो डेटा तक विस्तारित किया गया है,<ref name="lindeberg18"/>निम्नलिखित दो अनुपात-अस्थायी ऑपरेटरों के लिए अग्रणी, जो एलजीएन में गैर-लैग्ड बनाम लैग्ड न्यूरॉन्स के ग्रहणशील क्षेत्रों के मॉडल का भी गठन करते हैं:
 
 
विलेम्स एट अल के कार्य में,<ref name="willems08" /> <math>\gamma_s = 1</math> और <math>\gamma