ब्लॉब संसूचक: Difference between revisions
No edit summary |
No edit summary |
||
| Line 1: | Line 1: | ||
कंप्यूटर विज़न में, '''ब्लॉब संसूचक''' विधियों का उद्देश्य [[डिजिटल छवि|डिजिटल इमेज]] में उन क्षेत्रों का अनुमान लगाना है जो समीप के क्षेत्रों की तुलना में ब्राइटनेस या कलर जैसे गुणों में भिन्न होते हैं। यह अनौपचारिक रूप से, ब्लॉब इमेज का क्षेत्र होता है जिसमें पूर्णतया गुण स्थिर या प्रायः स्थिर होते हैं | इसमें ब्लॉब के सभी बिंदुओं को पूर्णतया अर्थों में प्रत्येक के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन होती है। | |||
इसमें | इसमें इमेज पर स्थिति के फलन के रूप में व्यक्त की गई रुचि की पूर्णतया गुण को देखते हुए, ब्लॉब संसूचक के दो मुख्य वर्ग होते हैं | (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फलन के व्युत्पन्न पर आधारित होता हैं, और ( ii) स्थानीय [[मैक्सिमा और मिनिमा]] पर आधारित विधियां, जो फलन की स्थानीय मैक्सिमा और मिनिमा खोज पर आधारित होती हैं।इस प्रकार क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन संसूचक को रुचि बिंदु संचालक, या वैकल्पिक रूप से रुचि क्षेत्र संचालक (रुचि बिंदु का अनुमान लगाना और कोण का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है। | ||
ब्लॉब संसूचक के अध्ययन और विकास के लिए अनेक प्रेरणाएँ होती हैं। इसका मुख्य कारण क्षेत्रों के बारे में पूर्ण जानकारी प्रदान करना है, जिनको | ब्लॉब संसूचक के अध्ययन और विकास के लिए अनेक प्रेरणाएँ होती हैं। इसका मुख्य कारण क्षेत्रों के बारे में पूर्ण जानकारी प्रदान करना है, जिनको कोर संसूचक का अनुमान लगाना या कोण का अनुमान लगाने से प्राप्त नहीं होता है। इसके क्षेत्र में प्रारंभिक कार्य में, पूर्व की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब संसूचक का उपयोग किया गया था। यह क्षेत्र वस्तु समानता और वस्तु [[वीडियो ट्रैकिंग]] के अनुप्रयोग के साथ इमेज डोमेन में वस्तु या वस्तु के भागों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे इमेज हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग [[ विभाजन (छवि प्रसंस्करण) |विभाजन (इमेज प्रसंस्करण)]] के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग [[बनावट (कंप्यूटर ग्राफिक्स)|प्रकृति (कंप्यूटर ग्राफिक्स)]] विश्लेषण और प्रकृति पहचान के लिए मुख्य प्राचीन रूप में होता है। वर्तमान के कार्य में, ब्लॉब डिस्क्रिप्टर को व्यापक आधारभूत [[छवि पंजीकरण|इमेज पंजीकरण]] के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय इमेज आंकड़ों के आधार पर उपस्थिति-आधारित वस्तु पहचान के लिए सूचनात्मक इमेज सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से इसमें लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी होती है। | ||
==गॉसियन का | ==गॉसियन का लाप्लासियन== | ||
सबसे प्रथम और सबसे साधारण ब्लॉब संसूचक में से [[ गाऊसी फिल्टर |गाऊसी फिल्टर]] (एलओजी) के लाप्लासियन पर आधारित होता है। इसमें इनपुट | सबसे प्रथम और सबसे साधारण ब्लॉब संसूचक में से [[ गाऊसी फिल्टर |गाऊसी फिल्टर]] (एलओजी) के लाप्लासियन पर आधारित होता है। इसमें इनपुट इमेज <math>f(x, y)</math>, दी गई है यह इमेज गॉसियन कर्नेल द्वारा संयोजित है | | ||
:<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math> | :<math>g(x, y, t) = \frac{1}{2\pi t} e^{-\frac{x^2 + y^2}{2 t}}</math> | ||
एक निश्चित मापदंड पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व|मापदंड स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. यह, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम होता हैं | | एक निश्चित मापदंड पर <math>t</math> [[स्केल स्पेस प्रतिनिधित्व|मापदंड स्पेस प्रतिनिधित्व]] देने के लिए <math>L(x, y; t)\ = g(x, y, t) * f(x, y)</math>. यह, लाप्लासियन ऑपरेटर को क्रियान्वित करने का परिणाम होता हैं | | ||
| Line 16: | Line 15: | ||
:<math>\nabla^2 L =L_{xx} + L_{yy}</math> | :<math>\nabla^2 L =L_{xx} + L_{yy}</math> | ||
: | : | ||
इसमें गणना की जाती है, जिसके परिणामस्वरूप सामान्यतः त्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं। जिनकी गणना की जाती है, और जिसके परिणामस्वरूप सामान्यतःत्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं | यह '''<math display="inline">r^2 = 2 t</math>''' या '''<math display="inline">r^2 = d t</math>''' '''<math display="inline">d</math>''' -आयामी | इसमें गणना की जाती है, जिसके परिणामस्वरूप सामान्यतः त्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं। जिनकी गणना की जाती है, और जिसके परिणामस्वरूप सामान्यतःत्रिज्या के अंधेरे ब्लब्स के लिए शक्तिशाली धनात्मक प्रतिक्रियाएं होती हैं | यह '''<math display="inline">r^2 = 2 t</math>''' या '''<math display="inline">r^2 = d t</math>''' '''<math display="inline">d</math>''' -आयामी इमेज के लिए) और ब्राइट ब्लब्स के लिए शक्तिशाली ऋणात्मक प्रतिक्रियाएं होती हैं यह समान आकार की होती हैं | चूँकि, इस ऑपरेटर को एकल मापदंड पर प्रयुक्त करते समय मुख्य समस्या यह है कि ऑपरेटर की प्रतिक्रिया इमेज डोमेन में ब्लॉब संरचनाओं के आकार और प्री-स्मूथिंग के लिए उपयोग किए जाने वाले गॉसियन कर्नेल के आकार के मध्य संबंध पर दृढ़ता से निर्भर होती है। इमेज डोमेन में विभिन्न (अज्ञात) आकार के ब्लॉब्स को स्वचालित रूप से आकर्षित करने के लिए, बहु-स्तरीय दृष्टिकोण आवश्यक होता है। | ||
स्वचालित मापदंड चयन के साथ मल्टी- मापदंड ब्लॉब संसूचक प्राप्त करने की सही विधि मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है | | स्वचालित मापदंड चयन के साथ मल्टी- मापदंड ब्लॉब संसूचक प्राप्त करने की सही विधि मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर पर विचार करना है | | ||
:<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math> | :<math>\nabla^2_\mathrm{norm} L = t \, (L_{xx} + L_{yy})</math> | ||
और मापदंड -स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, यह ऐसे बिंदु होते हैं जो स्पेस और मापदंड दोनों के संबंध में साथ <math>\nabla^2_\mathrm{norm} L</math> के स्थानीय मैक्सिमा/मिनिमा होते हैं | और (लिंडेबर्ग 1994, 1998) में इस प्रकार, असतत द्वि-आयामी इनपुट | और मापदंड -स्पेस मैक्सिमा/मिनिमा का अनुमान लगाने के लिए, यह ऐसे बिंदु होते हैं जो स्पेस और मापदंड दोनों के संबंध में साथ <math>\nabla^2_\mathrm{norm} L</math> के स्थानीय मैक्सिमा/मिनिमा होते हैं | और (लिंडेबर्ग 1994, 1998) में इस प्रकार, असतत द्वि-आयामी इनपुट इमेज <math>f(x, y)</math> को देखते हुए त्रि-आयामी असतत मापदंड -स्पेस वॉल्यूम <math>L(x, y, t)</math> की गणना की जाती है और बिंदु को ब्राइट (अंधेरे) ब्लॉब के रूप में माना जाता है यदि इस बिंदु पर मान अधिक (छोटा) है और इसके सभी 26 निकटतम के मूल्य से अधिक हैं । तब इस प्रकार, ब्याज अंक <math>(\hat{x}, \hat{y})</math> और मापदंड <math>\hat{t}</math> का साथ चयन के अनुसार किया जाता है | | ||
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>. | :<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxminlocal}_{(x, y; t)}((\nabla^2_\mathrm{norm} L)(x, y; t))</math>. | ||
मान लीजिए कि ब्लॉब की यह धारणा "ब्लॉब" की धारणा की संक्षिप्त और गणितीय रूप से स्पष्ट परिचालन परिभाषा प्रदान करती है, जिनका सीधे ब्लॉब का खोज करने के लिए कुशल और शक्तिशाली एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड -स्पेस मैक्सिमा से परिभाषित ब्लॉब के पूर्णतया मूलभूत गुण यह हैं कि प्रतिक्रियाएँ | मान लीजिए कि ब्लॉब की यह धारणा "ब्लॉब" की धारणा की संक्षिप्त और गणितीय रूप से स्पष्ट परिचालन परिभाषा प्रदान करती है, जिनका सीधे ब्लॉब का खोज करने के लिए कुशल और शक्तिशाली एल्गोरिदम की ओर ले जाती है। सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड -स्पेस मैक्सिमा से परिभाषित ब्लॉब के पूर्णतया मूलभूत गुण यह हैं कि प्रतिक्रियाएँ इमेज डोमेन में अनुवाद, परिक्रमण और पुनःमापदंड के साथ सहसंयोजक होती हैं। इस प्रकार, यदि मापदंड -स्पेस अधिकतम को बिंदु <math>(x_0, y_0; t_0)</math> पर माना जाता है, तब मापदंड कारक <math>s</math> द्वारा इमेज के पुनः मापदंड - के अनुसार , पुनःमापदंड की गई इमेज में <math>\left(s x_0, s y_0; s^2 t_0\right)</math> पर मापदंड -स्पेस अधिकतम होता हैं | और (लिंडेबर्ग 1998) ). वास्तव में यह अत्यधिक उपयोगी गुण का तात्पर्य है कि लाप्लासियन ब्लॉब संसूचक के विशिष्ट विषय के अतिरिक्त, मापदंड -सामान्यीकृत लाप्लासियन की स्थानीय मैक्सिमा/मिनिमा का उपयोग अन्य संदर्भों में मापदंड चयन के लिए भी किया जाता है, जैसे कि कोण की खोज लगाना, मापदंड -अनुकूली सुविधा ट्रैकिंग (ब्रेटज़नर) और लिंडेबर्ग 1998) पर होता हैं | मापदंड -[[स्केल-अपरिवर्तनीय सुविधा परिवर्तन|अपरिवर्तनीय सुविधा परिवर्तन]] (लोव 2004) के साथ-साथ इमेज मिलान और वस्तु पहचान के लिए अन्य इमेज डिस्क्रिप्टर होता हैं। | ||
लाप्लासियन ऑपरेटर और अन्य सूक्ष्म से मापदंड -स्पेस रूचि बिंदु संसूचक के मापदंड चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name="Lin13JMIV">[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref>(लिंडेबर्ग 2013बी, 2015) <ref name="Lin13SSVM">[http://www.dx.doi.org/10.1007/978-3-642-38267-3_30 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.]</ref> <ref name="Lin15JMIV" /> में यह दिखाया गया है कि अन्य मापदंड -स्पेस रूचि बिंदु संसूचक उपस्थित होते हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जिसमे लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से उत्तम प्रदर्शन करता है। इसका उपयोग स्थानीय सिफ्ट-जैसे | लाप्लासियन ऑपरेटर और अन्य सूक्ष्म से मापदंड -स्पेस रूचि बिंदु संसूचक के मापदंड चयन गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013ए)।<ref name="Lin13JMIV">[http://www.dx.doi.org/10.1007/s10851-012-0378-3 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210.]</ref>(लिंडेबर्ग 2013बी, 2015) <ref name="Lin13SSVM">[http://www.dx.doi.org/10.1007/978-3-642-38267-3_30 Lindeberg (2013) "Image Matching Using Generalized Scale-Space Interest Points", Scale Space and Variational Methods in Computer Vision, Springer Lecture Notes in Computer Science Volume 7893, 2013, pp 355-367.]</ref> <ref name="Lin15JMIV" /> में यह दिखाया गया है कि अन्य मापदंड -स्पेस रूचि बिंदु संसूचक उपस्थित होते हैं, जैसे कि हेसियन ऑपरेटर का निर्धारक, जिसमे लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन से उत्तम प्रदर्शन करता है। इसका उपयोग स्थानीय सिफ्ट-जैसे इमेज वर्णनकर्ताओं का उपयोग करके इमेज-आधारित मिलान के लिए किया जाता हैं। | ||
==गॉसियन दृष्टिकोण का अंतर== | ==गॉसियन दृष्टिकोण का अंतर== | ||
| Line 35: | Line 34: | ||
इस तथ्य से किसी मापदंड स्पेस प्रतिनिधित्व <math>L(x, y, t)</math> [[प्रसार समीकरण]] को संतुष्ट करता है | | इस तथ्य से किसी मापदंड स्पेस प्रतिनिधित्व <math>L(x, y, t)</math> [[प्रसार समीकरण]] को संतुष्ट करता है | | ||
:<math>\partial_t L = \frac{1}{2} \nabla^2 L</math> | :<math>\partial_t L = \frac{1}{2} \nabla^2 L</math> | ||
इससे खोज होती रहती है कि गॉसियन ऑपरेटर <math>\nabla^2 L(x, y, t)</math> के लाप्लासियन की गणना दो गॉसियन स्मूथ | इससे खोज होती रहती है कि गॉसियन ऑपरेटर <math>\nabla^2 L(x, y, t)</math> के लाप्लासियन की गणना दो गॉसियन स्मूथ इमेजयों ( मापदंड स्पेस प्रतिनिधित्व) के मध्य अंतर के सीमा स्थितियों के रूप में भी की जा सकती है। | ||
:<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>. | :<math>\nabla^2_\mathrm{norm} L(x, y; t) \approx \frac{t}{\Delta t} \left( L(x, y; t+\Delta t) - L(x, y; t) \right) </math>. | ||
कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। चूँकि, सामान्य विधि के अतिरिक्त, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। इस प्रकार लाप्लासियन ब्लॉब संसूचक के समान ही, गॉसियन के अंतर के मापदंड -स्पेस एक्स्ट्रेमा से ब्लॉब की खोज का अनुमान लगाया जा सकता है |कि गॉसियन ऑपरेटर के अंतर के मध्य स्पष्ट संबंध के लिए देखें (लिंडेबर्ग 2012, 2015) <ref name=Lin15JMIV/> <ref name=Lin12Schol>[http://www.scholarpedia.org/article/Scale_Invariant_Feature_Transform T. Lindeberg ``Scale invariant feature transform'', Scholarpedia, 7(5):10491, 2012.]</ref>और यह मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर होता हैं । उदाहरण के लिए, इस दृष्टिकोण का उपयोग मापदंड -इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है जिसको लोव (2004) देखें सकते हैं। | कंप्यूटर विज़न साहित्य में, इस दृष्टिकोण को गॉसियन्स (डीओजी) दृष्टिकोण के अंतर के रूप में जाना जाता है। चूँकि, सामान्य विधि के अतिरिक्त, यह ऑपरेटर मूलतः लाप्लासियन के समान है और इसे लाप्लासियन ऑपरेटर के अनुमान के रूप में देखा जा सकता है। इस प्रकार लाप्लासियन ब्लॉब संसूचक के समान ही, गॉसियन के अंतर के मापदंड -स्पेस एक्स्ट्रेमा से ब्लॉब की खोज का अनुमान लगाया जा सकता है |कि गॉसियन ऑपरेटर के अंतर के मध्य स्पष्ट संबंध के लिए देखें (लिंडेबर्ग 2012, 2015) <ref name=Lin15JMIV/> <ref name=Lin12Schol>[http://www.scholarpedia.org/article/Scale_Invariant_Feature_Transform T. Lindeberg ``Scale invariant feature transform'', Scholarpedia, 7(5):10491, 2012.]</ref>और यह मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर होता हैं । उदाहरण के लिए, इस दृष्टिकोण का उपयोग मापदंड -इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (एसआईएफटी) एल्गोरिदम में किया जाता है जिसको लोव (2004) देखें सकते हैं। | ||
| Line 45: | Line 44: | ||
जहां <math>H L</math> मापदंड -स्पेस प्रतिनिधित्व <math>L</math> के [[ हेस्सियन मैट्रिक्स |हेस्सियन आव्युह]] को दर्शाता है और फिर इस ऑपरेटर के मापदंड -स्पेस मैक्सिमा की खोज करता है, और स्वचालित मापदंड चयन के साथ और सीधा अंतर ब्लॉब संसूचक प्राप्त करता है जो सैडल्स पर भी प्रतिक्रिया करता है | यह (लिंडेबर्ग 1994, 1998) में देख सकते हैं | | जहां <math>H L</math> मापदंड -स्पेस प्रतिनिधित्व <math>L</math> के [[ हेस्सियन मैट्रिक्स |हेस्सियन आव्युह]] को दर्शाता है और फिर इस ऑपरेटर के मापदंड -स्पेस मैक्सिमा की खोज करता है, और स्वचालित मापदंड चयन के साथ और सीधा अंतर ब्लॉब संसूचक प्राप्त करता है जो सैडल्स पर भी प्रतिक्रिया करता है | यह (लिंडेबर्ग 1994, 1998) में देख सकते हैं | | ||
:<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>. | :<math>(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argmaxlocal}_{(x, y; t)}((\det H_\mathrm{norm} L)(x, y; t))</math>. | ||
ब्लॉब बिंदु् <math>(\hat{x}, \hat{y})</math> और मापदंड <math>\hat{t}</math> को ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो इमेज डोमेन में अनुवाद, परिक्रमण और पुनः मापदंड - के साथ सहसंयोजक होते हैं। मापदंड चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के मापदंड -स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन सम्बद्ध परिवर्तनों के अनुसार अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में अल्प उत्तम मापदंड चयन गुण होते हैं। <ref name=Lin15JMIV/> सरलीकृत रूप में, [[ उसकी तरंगिका |उसकी तरंगिका]] से गणना किए गए हेसियन के मापदंड -सामान्यीकृत निर्धारक का उपयोग | ब्लॉब बिंदु् <math>(\hat{x}, \hat{y})</math> और मापदंड <math>\hat{t}</math> को ऑपरेशनल डिफरेंशियल ज्यामितीय परिभाषाओं से भी परिभाषित किया जाता है जो ब्लॉब डिस्क्रिप्टर की ओर ले जाता है जो इमेज डोमेन में अनुवाद, परिक्रमण और पुनः मापदंड - के साथ सहसंयोजक होते हैं। मापदंड चयन के संदर्भ में, हेसियन (डीओएच) के निर्धारक के मापदंड -स्पेस एक्स्ट्रेमा से परिभाषित ब्लॉब्स में गैर-यूक्लिडियन सम्बद्ध परिवर्तनों के अनुसार अधिक सामान्यतः उपयोग किए जाने वाले लाप्लासियन ऑपरेटर (लिंडेबर्ग 1994, 1998, 2015) की तुलना में अल्प उत्तम मापदंड चयन गुण होते हैं। <ref name=Lin15JMIV/> सरलीकृत रूप में, [[ उसकी तरंगिका |उसकी तरंगिका]] से गणना किए गए हेसियन के मापदंड -सामान्यीकृत निर्धारक का उपयोग इमेज मिलान और वस्तु पहचान के लिए एसयूआरएफ डिस्क्रिप्टर (बे एट अल 2006) में मूल रुचि बिंदु ऑपरेटर के रूप में किया जाता है। | ||
हेसियन ऑपरेटर और अन्य सूक्ष्म से मापदंड -स्पेस ब्याज बिंदु संसूचक के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है | यह दर्शाता है कि हेसियन ऑपरेटर के निर्धारक में सम्बद्ध | हेसियन ऑपरेटर और अन्य सूक्ष्म से मापदंड -स्पेस ब्याज बिंदु संसूचक के निर्धारक के चयन गुणों का विस्तृत विश्लेषण (लिंडेबर्ग 2013 ए) में दिया गया है | यह दर्शाता है कि हेसियन ऑपरेटर के निर्धारक में सम्बद्ध इमेज परिवर्तनों के अनुसार उत्तम मापदंड चयन का गुण हैं | जिसमे लाप्लासियन ऑपरेटर की तुलना में (लिंडेबर्ग 2013बी, 2015) <ref name=Lin13SSVM/> <ref name=Lin15JMIV>[https://link.springer.com/article/10.1007/s10851-014-0541-0 T. Lindeberg ``Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.]</ref> में यह दिखाया गया है कि हेसियन ऑपरेटर का निर्धारक लाप्लासियन ऑपरेटर या इसके अंतर-गॉसियन सन्निकटन की तुलना में अधिक उत्तम प्रदर्शन करता है, इसके साथ ही यह हैरिस या हैरिस-लाप्लास से भी उत्तम प्रदर्शन करता है। इसमें ऑपरेटर, इमेज-आधारित मिलान के लिए स्थानीय सिफ्ट-जैसे या सर्फ-जैसे इमेज वर्णनकर्ताओं का उपयोग करते हैं, जिससे उच्च दक्षता मान और कम 1-स्पष्ट स्कोर प्राप्त होते हैं। | ||
==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)== | ==संकर लाप्लासियन और हेसियन ऑपरेटर का निर्धारक (हेसियन-लाप्लास)== | ||
| Line 53: | Line 52: | ||
:<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math> | :<math>(\hat{x}, \hat{y}) = \operatorname{argmaxlocal}_{(x, y)}((\det H L)(x, y; t))</math> | ||
:<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math> | :<math>\hat{t} = \operatorname{argmaxminlocal}_{t}((\nabla^2_\mathrm{norm} L)(\hat{x}, \hat{y}; t))</math> | ||
इस ऑपरेटर का उपयोग | इस ऑपरेटर का उपयोग इमेज मिलान, वस्तु पहचान के साथ-साथ प्रकृति विश्लेषण के लिए किया गया है। | ||
==सम्बद्ध-अनुकूलित विभेदक ब्लॉब डिटेक्टर== | ==सम्बद्ध-अनुकूलित विभेदक ब्लॉब डिटेक्टर== | ||
स्वचालित मापदंड चयन के साथ इन ब्लॉब संसूचक से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, परिक्रमण और समान पूनः मापदंड के लिए अपरिवर्तनीय हैं। चूँकि, जो | स्वचालित मापदंड चयन के साथ इन ब्लॉब संसूचक से प्राप्त ब्लॉब डिस्क्रिप्टर स्थानिक डोमेन में अनुवाद, परिक्रमण और समान पूनः मापदंड के लिए अपरिवर्तनीय हैं। चूँकि, जो इमेजयाँ कंप्यूटर विज़न प्रणाली के लिए इनपुट का निर्माण करती हैं, वह भी परिप्रेक्ष्य विकृतियों के अधीन होती हैं। ब्लॉब डिस्क्रिप्टर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक शक्तिशाली हैं, वह प्राकृतिक दृष्टिकोण ब्लॉब संसूचक तैयार करना है जो सम्बद्ध ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय होता है। वास्तव में, ब्लॉब डिस्क्रिप्टर में सम्बद्ध आकार अनुकूलन को प्रयुक्त करके सम्बद्ध अपरिवर्तनीय रुचि बिंदु प्राप्त किए जा सकते हैं, जहां ब्लॉब के चारों ओर स्थानीय इमेज संरचना से मेल खाने के लिए स्मूथिंग कर्नेल के आकार को पुनरावृत्त रूप से विकृत किया जाता है | इसमें समकक्ष रूप से स्थानीय इमेज पैच को पुनरावृत्त रूप से विकृत किया जाता है। स्मूथिंग कर्नेल का आकार घूर्णी रूप से सममित रहता है | यह (लिंडेबर्ग और गार्डिंग 1997; बॉमबर्ग 2000; मिकोलाज्ज़िक और श्मिट 2004, लिंडेबर्ग 2008) में बताया गया हैं। इस प्रकार, हम हेसियन और हेसियन-लाप्लास ऑपरेटर के निर्धारक, लाप्लासियन/गॉसियन ऑपरेटर के अंतर के सम्बद्ध-अनुकूलित संस्करणों को परिभाषित कर सकते हैं जिसको ([[हैरिस-एफ़िन|हैरिस-सम्बद्ध]] और [[हेस्सियन-एफ़िन|हेस्सियन-सम्बद्ध]] भी देख सकते हैं )। | ||
== स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर == | == स्पैटियो-टेम्पोरल ब्लॉब डिटेक्टर == | ||
| Line 106: | Line 105: | ||
==ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और मापदंड -स्पेस ब्लॉब्स== | ==ग्रे-लेवल ब्लॉब्स, ग्रे-लेवल ब्लॉब पेड़ और मापदंड -स्पेस ब्लॉब्स== | ||
ब्लॉब की खोज का अनुमान लगाने की प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथब्राइट(गहरा) ब्लॉब जोड़ना है। चूँकि, इस प्रकार के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम ध्वनि के प्रति बहुत संवेदनशील होते हैं। और इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने [[स्केल स्पेस|मापदंड स्पेस]] में अनेक मापदंडो पर विस्तार के साथ स्थानीय मैक्सिमा की खोज करने की समस्या का अध्ययन किया गया हैं। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, इसके साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अतिरिक्त, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ पूर्व बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर समुच्चयों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि | ब्लॉब की खोज का अनुमान लगाने की प्राकृतिक विधि तीव्रता परिदृश्य में प्रत्येक स्थानीय अधिकतम (न्यूनतम) के साथब्राइट(गहरा) ब्लॉब जोड़ना है। चूँकि, इस प्रकार के दृष्टिकोण के साथ मुख्य समस्या यह है कि स्थानीय चरम ध्वनि के प्रति बहुत संवेदनशील होते हैं। और इस समस्या का समाधान करने के लिए, लिंडेबर्ग (1993, 1994) ने [[स्केल स्पेस|मापदंड स्पेस]] में अनेक मापदंडो पर विस्तार के साथ स्थानीय मैक्सिमा की खोज करने की समस्या का अध्ययन किया गया हैं। वाटरशेड सादृश्य से परिभाषित स्थानिक सीमा वाला क्षेत्र प्रत्येक स्थानीय अधिकतम के साथ जुड़ा हुआ था, इसके साथ ही तथाकथित परिसीमन सैडल बिंदु से परिभाषित स्थानीय विरोधाभास भी था। इस तरह से परिभाषित सीमा वाले स्थानीय चरम को ग्रे-लेवल ब्लॉब के रूप में संदर्भित किया गया था। इसके अतिरिक्त, परिसीमन काठी बिंदु से परे वाटरशेड सादृश्य के साथ पूर्व बढ़ते हुए, ग्रे-लेवल ब्लॉब ट्री को तीव्रता परिदृश्य में स्तर समुच्चयों की नेस्टेड टोपोलॉजिकल संरचना को पकड़ने के लिए परिभाषित किया गया था, जो कि इमेज डोमेन में विकृति को प्रभावित करने के लिए अपरिवर्तनीय है और मोनोटोन तीव्रता परिवर्तन होता हैं। जिन्हें बढ़ते मापदंड के साथ यह संरचनाएं कैसे विकसित होती हैं, इसका अध्ययन करके, मापदंड -स्पेस ब्लॉब्स की धारणा प्रस्तुत की गई थी। स्थानीय कंट्रास्ट और सीमा से अलग, इन मापदंड -स्पेस ब्लॉब्स ने अपने मापदंड -स्पेस जीवनकाल को मापकर यह भी मापा कि मापदंड -स्पेस में इमेज संरचनाएं कितनी स्थिर हैं। | ||
यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और मापदंड डिस्क्रिप्टर, मापदंड से परिभाषित संबंधित मापदंड स्तरों के साथ, जिस पर ब्लॉब शक्ति के सामान्यीकृत उपायों ने मापदंडो पर अपनी अधिकतम सीमा मान ली थी | और यह अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और मापदंड डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट विधि को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ अधिक सीमा तक सुधार किया जा सकता है | जिनमे समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड पर स्थानीय एक्स्ट्रेमा वर्तमान उपयोग किया जाता है | और अन्य दृश्य प्रक्रियाओं को मापदंड की जानकारी प्रदान करने के लिए होते हैं। | यह प्रस्तावित किया गया था कि इस तरह से प्राप्त रुचि के क्षेत्र और मापदंड डिस्क्रिप्टर, मापदंड से परिभाषित संबंधित मापदंड स्तरों के साथ, जिस पर ब्लॉब शक्ति के सामान्यीकृत उपायों ने मापदंडो पर अपनी अधिकतम सीमा मान ली थी | और यह अन्य प्रारंभिक दृश्य प्रसंस्करण को निर्देशित करने के लिए उपयोग किया जा सकता है। सरलीकृत दृष्टि प्रणालियों का प्रारंभिक प्रोटोटाइप विकसित किया गया था जहां सक्रिय दृष्टि प्रणाली के फोकस-ऑफ-ध्यान को निर्देशित करने के लिए रुचि के ऐसे क्षेत्रों और मापदंड डिस्क्रिप्टर का उपयोग किया गया था। जबकि इन प्रोटोटाइपों में उपयोग की जाने वाली विशिष्ट विधि को कंप्यूटर विज़न में वर्तमान ज्ञान के साथ अधिक सीमा तक सुधार किया जा सकता है | जिनमे समग्र सामान्य दृष्टिकोण अभी भी मान्य है, उदाहरण के लिए जिस तरह से मापदंड -सामान्यीकृत लाप्लासियन ऑपरेटर के मापदंड पर स्थानीय एक्स्ट्रेमा वर्तमान उपयोग किया जाता है | और अन्य दृश्य प्रक्रियाओं को मापदंड की जानकारी प्रदान करने के लिए होते हैं। | ||
| Line 127: | Line 126: | ||
{{Main|अधिकतम स्थिर चरम क्षेत्र}} | {{Main|अधिकतम स्थिर चरम क्षेत्र}} | ||
माटस एट अल. (2002) | माटस एट अल. (2002) इमेज वर्णनकर्ताओं को परिभाषित करने में रुचि रखते थे | जो परिप्रेक्ष्य परिवर्तनों के अनुसार शक्तिशाली होते हैं। उन्होंने तीव्रता परिदृश्य में स्तर समुच्चयों का अध्ययन किया और मापा कि यह तीव्रता आयाम के साथ कितने स्थिर थे। इस विचार के आधार पर, उन्होंने अधिकतम स्थिर चरम क्षेत्रों की धारणा को परिभाषित किया और दिखाया कि कैसे इन इमेज वर्णनकर्ताओं को [[कंप्यूटर स्टीरियो विज़न]] के लिए इमेज सुविधाओं के रूप में उपयोग किया जा सकता है। | ||
इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के मध्य घनिष्ठ संबंध होता हैं। इसमें अधिकतम स्थिर चरम क्षेत्रों को पूर्व की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है। | इस धारणा और ग्रे-लेवल ब्लॉब ट्री की उपर्युक्त धारणा के मध्य घनिष्ठ संबंध होता हैं। इसमें अधिकतम स्थिर चरम क्षेत्रों को पूर्व की प्रक्रिया के लिए ग्रे-स्तरीय ब्लॉब ट्री के विशिष्ट उपसमूह को स्पष्ट करने के रूप में देखा जा सकता है। | ||
Latest revision as of 14:54, 6 September 2023
कंप्यूटर विज़न में, ब्लॉब संसूचक विधियों का उद्देश्य डिजिटल इमेज में उन क्षेत्रों का अनुमान लगाना है जो समीप के क्षेत्रों की तुलना में ब्राइटनेस या कलर जैसे गुणों में भिन्न होते हैं। यह अनौपचारिक रूप से, ब्लॉब इमेज का क्षेत्र होता है जिसमें पूर्णतया गुण स्थिर या प्रायः स्थिर होते हैं | इसमें ब्लॉब के सभी बिंदुओं को पूर्णतया अर्थों में प्रत्येक के समान माना जा सकता है। ब्लॉब का अनुमान लगाने के लिए सबसे साधारण विधि कनवल्शन होती है।
इसमें इमेज पर स्थिति के फलन के रूप में व्यक्त की गई रुचि की पूर्णतया गुण को देखते हुए, ब्लॉब संसूचक के दो मुख्य वर्ग होते हैं | (i) विभेदक कैलकुलस विधियां, जो स्थिति के संबंध में फलन के व्युत्पन्न पर आधारित होता हैं, और ( ii) स्थानीय मैक्सिमा और मिनिमा पर आधारित विधियां, जो फलन की स्थानीय मैक्सिमा और मिनिमा खोज पर आधारित होती हैं।इस प्रकार क्षेत्र में उपयोग की जाने वाली नवीनतम शब्दावली के साथ, इन संसूचक को रुचि बिंदु संचालक, या वैकल्पिक रूप से रुचि क्षेत्र संचालक (रुचि बिंदु का अनुमान लगाना और कोण का अनुमान लगाना भी देखें) के रूप में भी संदर्भित किया जा सकता है।
ब्लॉब संसूचक के अध्ययन और विकास के लिए अनेक प्रेरणाएँ होती हैं। इसका मुख्य कारण क्षेत्रों के बारे में पूर्ण जानकारी प्रदान करना है, जिनको कोर संसूचक का अनुमान लगाना या कोण का अनुमान लगाने से प्राप्त नहीं होता है। इसके क्षेत्र में प्रारंभिक कार्य में, पूर्व की प्रक्रिया के लिए रुचि के क्षेत्रों को प्राप्त करने के लिए ब्लॉब संसूचक का उपयोग किया गया था। यह क्षेत्र वस्तु समानता और वस्तु वीडियो ट्रैकिंग के अनुप्रयोग के साथ इमेज डोमेन में वस्तु या वस्तु के भागों की उपस्थिति का संकेत दे सकते हैं। अन्य डोमेन में, जैसे इमेज हिस्टोग्राम विश्लेषण, ब्लॉब डिस्क्रिप्टर का उपयोग विभाजन (इमेज प्रसंस्करण) के अनुप्रयोग के साथ शिखर का अनुमान लगाना के लिए भी किया जा सकता है। ब्लॉब डिस्क्रिप्टर का अन्य सामान्य उपयोग प्रकृति (कंप्यूटर ग्राफिक्स) विश्लेषण और प्रकृति पहचान के लिए मुख्य प्राचीन रूप में होता है। वर्तमान के कार्य में, ब्लॉब डिस्क्रिप्टर को व्यापक आधारभूत इमेज पंजीकरण के लिए रुचि बिंदु का अनुमान लगाने और स्थानीय इमेज आंकड़ों के आधार पर उपस्थिति-आधारित वस्तु पहचान के लिए सूचनात्मक इमेज सुविधाओं की उपस्थिति का संकेत देने के लिए तीव्रता से इसमें लोकप्रिय उपयोग मिला है। लम्बी वस्तुओं की उपस्थिति का संकेत देने के लिए रिज का अनुमान लगाने की संबंधित धारणा भी होती है।