कॉर्नर डिटेक्शन

From Vigyanwiki
विशिष्ट कोने का पता लगाने वाले एल्गोरिदम का आउटपुट ऐसा होता है।

कॉर्नर डिटेक्शन दृष्टिकोण है जिसका उपयोग कंप्यूटर दृष्टि प्रणाली के भीतर कुछ प्रकार के फ़ीचर डिटेक्शन (कंप्यूटर विज़न) को निकालने और छवि की सामग्री का अनुमान लगाने के लिए किया जाता है। कॉर्नर डिटेक्शन का उपयोग अधिकांशतः गति पहचान, छवि पंजीकरण, वीडियो ट्रैकिंग, फोटोग्राफिक मोज़ेक, पैनोरमा सिलाई, 3 डी पुनर्निर्माण और ऑब्जेक्ट पहचान में अधिकांशतः किया जाता है। कॉर्नर डिटेक्शन अंतर्गत आपूर्ति बिंदु डिटेक्शन के विषय के साथ संघुषित होता है।

औपचारिकीकरण

इस प्रकार कोने को दो किनारों के प्रतिच्छेदन के रूप में परिभाषित किया जा सकता है। कोने को बिंदु के रूप में भी परिभाषित किया जा सकता है जिसके लिए स्थानीय पड़ोस में दो प्रमुख और भिन्न धारा दिशाएं होती हैं।

रुचि बिंदु छवि में बिंदु है जिसकी छवि में अच्छी प्रकार से परिभाषित स्थान होता है और इसे मजबूती से पहचाना जा सकता है। इसका अर्थ यह है कि इंटरेस्ट पॉइंट कोना हो सकता है,किन्तु इसके अतिरिक्त यह मात्र कोना नहीं हो सकता है, उदाहरण के लिए, स्थानीय तीव्रता के अधिकतम या न्यूनतम स्थानीय बहुत्तर, रेखा के अंत, या कर्व पर बिंदु जहां की कर्वता स्थानीय अधिकतम होती हैं।

व्यावहारिक रूप में, अधिकांश तथाकथित कोने का पता लगाने के तरीके सामान्य रूप से रुचि बिंदुओं का पता लगाते हैं, और वास्तव में, कोने और रुचि और बिंदु शब्द का उपयोग प्रायः साहित्य के माध्यम से कमोबेश दूसरे के स्थान पर किया जाता है।[1]परिणामस्वरूप, यदि केवल कोनों का पता लगाने में किया जाता है तो यह निर्धारित करने के लिए पता लगाए गए रुचि बिंदुओं का स्थानीय विश्लेषण करना आवश्यक है कि इनमें से कौन सा वास्तविक कोने हैं। किनारों का पता लगाने के उदाहरण जिनका उपयोग पोस्ट-प्रोसेसिंग के साथ कोनों का पता लगाने के लिए किया जा सकता है, किर्श संचालक और फ़्री-चेन मास्किंग सेट हैं।[2]

कोने, रुचि बिंदु और फीचर का साहित्य में परस्पर उपयोग किया जाता है, जिससे समस्या भ्रमित हो जाती है। विशेष रूप से, ऐसे कई बूँद का पता लगाना हैं जिन्हें रुचि बिंदु ऑपरेटर के रूप में संदर्भित किया जा सकता है, किन्तु जिन्हें कभी-कभी गलती से कॉर्नर डिटेक्टर के रूप में संदर्भित किया जाता है। इसके अतिरिक्त , लम्बी वस्तुओं की उपस्थिति को पकड़ने के लिए रिज का पता लगाने की धारणा उपस्थित है।

कॉर्नर डिटेक्टर सामान्यतः बहुत मजबूत नहीं होते हैं और पहचान कार्य पर व्यक्तिगत त्रुटियों के प्रभाव को हावी होने से रोकने के लिए अधिकांशतः बड़े अतिरेक की आवश्यकता होती है।

कोने डिटेक्टर की गुणवत्ता का निर्धारण विभिन्न प्रकाश व्यवस्था, अनुवाद, रोटेशन और अन्य परिवर्तनों की स्थितियों के अनुसार कई समान छवियों में ही कोने का पता लगाने की क्षमता है।

छवियों में कोने का पता लगाने का सरल विधि सहसंबंध का उपयोग करना है, किन्तु यह कम्प्यूटेशनल रूप से बहुत महंगा और उप-इष्टतम हो जाता है। अधिकांशतः उपयोग किया जाने वाला वैकल्पिक दृष्टिकोण हैरिस और स्टीफंस (नीचे) द्वारा प्रस्तावित विधि पर आधारित है, जो बदले में मोरावेक द्वारा विधि का सुधार है।

मोरवेक कॉर्नर डिटेक्शन एल्गोरिदम

यह सबसे शुरुआती कोने का पता लगाने वाले एल्गोरिदम में से है और कोने को कम आत्म-समानता वाले बिंदु के रूप में परिभाषित करता है।[3]एल्गोरिदम यह देखने के लिए छवि में प्रत्येक पिक्सेल का परीक्षण करता है कि कोई कोना उपस्थित है या नहीं, यह विचार करके कि पिक्सेल पर केंद्रित पैच पास के, बड़े पैमाने पर ओवरलैपिंग पैच के समान है। समानता को दो पैच के संबंधित पिक्सेल के बीच वर्ग अंतर (एसएसडी) का योग लेकर मापा जाता है। कम संख्या अधिक समानता दर्शाती है.

यदि पिक्सेल एकसमान तीव्रता के क्षेत्र में है, तो आस-पास के पैच समान दिखेंगे। यदि पिक्सेल किनारे पर है, तो किनारे के लंबवत दिशा में पास के पैच अत्यधिक अलग दिखेंगे, किन्तु किनारे के समानांतर दिशा में पास के पैच के परिणामस्वरूप केवल छोटा सा बदलाव होगा। यदि पिक्सेल सभी दिशाओं में भिन्नता वाले फीचर पर है, तो आस-पास का कोई भी पैच समान नहीं दिखेगा।

कोने की ताकत को पैच और उसके पड़ोसियों (क्षैतिज, ऊर्ध्वाधर और दो विकर्णों पर) के बीच सबसे छोटे एसएसडी के रूप में परिभाषित किया गया है। कारण यह है कि यदि यह संख्या अधिक है, तो सभी बदलावों में भिन्नता या तो इसके बराबर होती है या इससे बड़ी होती है, इसलिए कैप्चरिंग से आस-पास के सभी पैच अलग दिखते हैं।

यदि सभी स्थानों के लिए कोने की ताकत संख्या की गणना की जाती है, तो यह स्थान के लिए स्थानीय रूप से अधिकतम है, यह दर्शाता है कि इसमें रुचि की विशेषता उपस्थित है।

जैसा कि मोरावेक ने बताया है, इस ऑपरेटर के साथ मुख्य समस्याओं में से यह है कि यह समदैशिक नहीं है: यदि कोई किनारा उपस्थित है जो पड़ोसियों (क्षैतिज, ऊर्ध्वाधर या विकर्ण) की दिशा में नहीं है, तो सबसे छोटा एसएसडी होगा बड़ा और किनारे को गलत तरीके से रुचि बिंदु के रूप में चुना जाएगा।[4]

हैरिस और स्टीफेंस / शि-तोमासी कोने का पता लगाने वाले एल्गोरिदम

हैरिस और स्टीफंस[5]स्थानांतरित पैच का उपयोग करने के अतिरिक्त , सीधे दिशा के संबंध में कोने के स्कोर के अंतर पर विचार करके मोरावेक के कोने डिटेक्टर में सुधार किया गया। (इस कोने के स्कोर को अधिकांशतः ऑटोसहसंबंध के रूप में जाना जाता है, क्योंकि इस शब्द का उपयोग उस पेपर में किया जाता है जिसमें इस डिटेक्टर का वर्णन किया गया है। हालांकि, पेपर में गणित स्पष्ट रूप से इंगित करता है कि वर्ग अंतर के योग का उपयोग किया जाता है।)

व्यापकता की हानि के बिना, हम मान लेंगे कि ग्रेस्केल 2-आयामी छवि का उपयोग किया जाता है। बता दें कि यह छवि दी गई है . क्षेत्र पर छवि पैच लेने पर विचार करें और इसे स्थानांतरित करना . इन दो पैच के बीच वर्ग अंतर (एसएसडी) का भारित योग दर्शाया गया है , द्वारा दिया गया है:

टेलर श्रृंखला द्वारा अनुमान लगाया जा सकता है। होने देना और की आंशिक छवि व्युत्पन्न हो , ऐसा है कि

इससे सन्निकटन उत्पन्न होता है

जिसे आव्यूह रूप में लिखा जा सकता है:

जहां ए संरचना टेंसर है,

शब्दों में, हम छवि तीव्रता के आंशिक व्युत्पन्न का सहप्रसरण पाते हैं के प्रति सम्मान के साथ और कुल्हाड़ियाँ

कोण कोष्ठक औसत को दर्शाते हैं (अर्थात् संक्षेपण)। ). छवि पर स्लाइड करने वाली विंडो के प्रकार को दर्शाता है। यदि बॉक्स ब्लर का उपयोग किया जाता है तो प्रतिक्रिया एनिसोट्रॉपिक होगी, किन्तु यदि गॉसियन फ़ंक्शन का उपयोग किया जाता है, तो प्रतिक्रिया आइसोट्रोपिक होगी।

कोने (या सामान्य तौर पर रुचि बिंदु) की विशेषता बड़ी विविधता है वेक्टर की सभी दिशाओं में . के आइगेनमूल्य ​​का विश्लेषण करके , इस लक्षण वर्णन को निम्नलिखित तरीके से व्यक्त किया जा सकता है: रुचि बिंदु के लिए दो बड़े आइगेनमूल्य ​​​​होने चाहिए। स्वदेशी मूल्यों के परिमाण के आधार पर, इस तर्क के आधार पर निम्नलिखित अनुमान लगाए जा सकते हैं:

  1. यदि और फिर यह पिक्सेल रुचि की कोई विशेषता नहीं है.
  2. यदि और कुछ बड़ा धनात्मक मूल्य है, तो बढ़त पाई जाती है।
  3. यदि और बड़े धनात्मक मान हैं, तो कोना मिल जाता है।

हैरिस और स्टीफंस ने ध्यान दिया कि आइगेनवैल्यू की सटीक गणना कम्प्यूटेशनल रूप से महंगी है, क्योंकि इसके लिए वर्गमूल की गणना की आवश्यकता होती है, और इसके अतिरिक्त सुझाव देते हैं निम्नलिखित फ़ंक्शन , यहाँ ट्यून करने योग्य संवेदनशीलता पैरामीटर है:

इसलिए, एल्गोरिथ्म[6]वास्तव में आव्यूह के eigenvalue अपघटन की गणना करने की आवश्यकता नहीं है और इसके अतिरिक्त यह निर्धारक और ट्रेस (रैखिक बीजगणित) का मूल्यांकन करने के लिए पर्याप्त है ढूँढ़ने के लिए कोने, या सामान्यतः रुचि बिंदु।

शि-तोमासी[7]कॉर्नर डिटेक्टर सीधे गणना करता है क्योंकि कुछ मान्यताओं के तहत, ट्रैकिंग के लिए कोने अधिक स्थिर होते हैं। ध्यान दें कि इस विधि को कभी-कभी कनाडे-टोमासी कॉर्नर डिटेक्टर के रूप में भी जाना जाता है।

का मान है अनुभवजन्य रूप से निर्धारित किया जाना है, और साहित्य में 0.04-0.15 की सीमा में मूल्यों को व्यवहार्य बताया गया है।

कोई भी पैरामीटर सेट करने से बच सकता है नोबल का उपयोग करके[8]कोने का माप जो आइगेनमूल्य ​​​​के अनुकूल माध्य के बराबर है:

छोटा सा धनात्मक स्थिरांक होना।

यदि कोने की स्थिति के लिए सटीक आव्यूह के रूप में व्याख्या की जा सकती है, कोने की स्थिति के लिए परिशुद्धता आव्यूह है , अर्थात।

के आइगेनमूल्य ​​का योग , जिसे उस मामले में कोने की स्थिति के सामान्यीकृत विचरण (या कुल अनिश्चितता) के रूप में व्याख्या किया जा सकता है, नोबल के कोने के माप से संबंधित है निम्नलिखित समीकरण द्वारा:

फोरस्टनर कॉर्नर डिटेक्टर

फ़ॉर्स्टनर एल्गोरिथम का उपयोग करके कोने का पता लगाना

कुछ स्थितियों में, कोई उपपिक्सेल सटीकता के साथ कोने के स्थान की गणना करना चाह सकता है। अनुमानित समाधान प्राप्त करने के लिए, फ़ोरस्टनर[9] एल्गोरिदम किसी दिए गए विंडो में कोने की सभी स्पर्शरेखा रेखाओं के निकटतम बिंदु को हल करता है और यह न्यूनतम-वर्ग समाधान है। एल्गोरिदम इस तथ्य पर निर्भर करता है कि आदर्श कोने के लिए, स्पर्शरेखा रेखाएं ही बिंदु पर प्रतिच्छेद करती हैं।

स्पर्श रेखा का समीकरण पिक्सेल पर द्वारा दिया गया है:

यहाँ छवि का ग्रेडिएंट वेक्टर है पर .

बिंदु विंडो में सभी स्पर्शरेखा रेखाओं के सबसे निकट है:

से दूरी स्पर्शरेखा रेखाओं के लिए ग्रेडिएंट परिमाण द्वारा भारित किया जाता है, इस प्रकार मजबूत ग्रेडिएंट वाले पिक्सेल से गुजरने वाली स्पर्शरेखाओं को अधिक महत्व दिया जाता है।

के लिए समाधान :

के रूप में परिभाषित किया गया है:

के संबंध में विभेदन करके इस समीकरण को न्यूनतम किया जा सकता है और इसे 0 के बराबर सेट करना:

ध्यान दें कि संरचना टेंसर है. समीकरण का हल पाने के लिए, उलटा होना चाहिए, जिसका तात्पर्य यह है पूर्ण रैंक (रैंक 2) होना चाहिए। इस प्रकार, समाधान

केवल वहीं उपस्थित है जहां विंडो में वास्तविक कोना उपस्थित है .

इस कोने के स्थानीयकरण विधि के लिए स्वचालित पैमाने का चयन करने की पद्धति लिंडेबर्ग द्वारा प्रस्तुत की गई है[10][11]सामान्यीकृत अवशिष्ट को कम करके

तराजू के ऊपर. इस प्रकार, विधि में शोर छवि डेटा के लिए मोटे पैमाने के स्तर और आदर्श कोने जैसी संरचनाओं के लिए उत्तम पैमाने के स्तर का चयन करके, छवि डेटा में शोर स्तर के लिए छवि ग्रेडिएंट्स की गणना के लिए स्केल स्तरों को स्वचालित रूप से अनुकूलित करने की क्षमता होती है।

टिप्पणियाँ:

  • न्यूनतम-वर्ग समाधान गणना में अवशिष्ट के रूप में देखा जा सकता है: यदि , तो कोई त्रुटि नहीं थी.
  • इस एल्गोरिदम को स्पर्शरेखा रेखाओं को सामान्य रेखाओं में बदलकर वृत्ताकार विशेषताओं के केंद्रों की गणना करने के लिए संशोधित किया जा सकता है।

मल्टी-स्केल हैरिस ऑपरेटर

दूसरे क्षण आव्यूह की गणना (कभी-कभी इसे संरचना टेंसर भी कहा जाता है) हैरिस ऑपरेटर में, छवि डेरिवेटिव की गणना की आवश्यकता होती है छवि डोमेन के साथ-साथ स्थानीय पड़ोस पर इन डेरिवेटिव के गैर-रेखीय संयोजनों का योग। चूंकि डेरिवेटिव की गणना में सामान्यतः स्केल-स्पेस स्मूथिंग का चरण सम्मलित होता है, हैरिस ऑपरेटर की परिचालन परिभाषा के लिए दो स्केल पैरामीटर की आवश्यकता होती है: (i) इमेज डेरिवेटिव की गणना से पहले स्मूथिंग के लिए स्थानीय स्केल, और (ii) एकीकरण स्केल एकीकृत छवि डिस्क्रिप्टर में व्युत्पन्न ऑपरेटरों पर गैर-रेखीय संचालन को संचित करने के लिए।

साथ मूल छवि तीव्रता को दर्शाते हुए, आइए के स्केल स्पेस प्रतिनिधित्व को निरूपित करें गॉसियन कर्नेल के साथ कनवल्शन द्वारा प्राप्त किया गया

स्थानीय पैमाने के पैरामीटर के साथ :

और जाने और के आंशिक व्युत्पन्न को निरूपित करें . इसके अतिरिक्त , गाऊसी विंडो फ़ंक्शन का परिचय दें एकीकरण स्केल पैरामीटर के साथ . फिर, स्ट्रक्चर टेंसर मल्टी-स्केल स्ट्रक्चर टेंसर|मल्टी-स्केल सेकेंड-मोमेंट मैट्रिक्स[12][13][14]के रूप में परिभाषित किया जा सकता है

फिर, हम आइगेनमूल्य ​​​​की गणना कर सकते हैं के आइगेनमूल्य ​​​​के समान तरीके से और मल्टी-स्केल हैरिस कॉर्नर माप को इस प्रकार परिभाषित करें

स्थानीय पैमाने के पैरामीटर के चयन के संबंध में और एकीकरण स्केल पैरामीटर , ये स्केल पैरामीटर सामान्यतः सापेक्ष एकीकरण स्केल पैरामीटर द्वारा युग्मित होते हैं ऐसा है कि , यहाँ सामान्यतः अंतराल में चुना जाता है .[12][13]इस प्रकार, हम बहु-स्तरीय हैरिस कॉर्नर माप की गणना कर सकते हैं किसी भी पैमाने पर मल्टी-स्केल कॉर्नर डिटेक्टर प्राप्त करने के लिए स्केल-स्पेस में, जो इमेज डोमेन में विभिन्न आकारों की कॉर्नर संरचनाओं पर प्रतिक्रिया करता है।

व्यवहार में, इस मल्टी-स्केल कॉर्नर डिटेक्टर को अधिकांशतः स्केल चयन चरण द्वारा पूरक किया जाता है, जहां स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर[11][12]: स्केल-स्पेस में हर पैमाने पर गणना की जाती है और स्वचालित स्केल चयन (हैरिस-लाप्लास ऑपरेटर) के साथ स्केल अनुकूलित कोने बिंदुओं की गणना उन बिंदुओं से की जाती है जो साथ हैं:[15]

  • मल्टी-स्केल कोने माप की स्थानिक मैक्सिमा
  • स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के पैमाने पर स्थानीय मैक्सिमा या मिनिमा[11] :

स्तर वक्र वक्रता दृष्टिकोण

कोने का पता लगाने का पुराना विधि उन बिंदुओं का पता लगाना है जहां आइसोलिन्स की वक्रता और ढाल परिमाण साथ उच्च हैं।[16][17] ऐसे बिंदुओं का पता लगाने का अलग विधि पुनर्स्केल स्तर वक्र वक्रता (स्तर वक्र वक्रता का उत्पाद और तीन की शक्ति तक बढ़ाए गए ढाल परिमाण) की गणना करना है।

और कुछ पैमाने पर इस अंतर अभिव्यक्ति के धनात्मक मैक्सिमा और नकारात्मक मिनिमा का पता लगाने के लिए स्केल स्पेस प्रतिनिधित्व में मूल छवि का.[10][11]

चूँकि , एकल पैमाने पर पुनर्स्केल स्तर वक्र वक्रता इकाई की गणना करते समय मुख्य समस्या यह है कि यह शोर और स्केल स्तर की पसंद के प्रति संवेदनशील हो सकता है। की गणना करना उत्तम विधि है-सामान्यीकृत पुनर्स्केल्ड स्तर वक्र वक्रता

साथ और इस अभिव्यक्ति के हस्ताक्षरित स्केल-स्पेस एक्स्ट्रेमा का पता लगाने के लिए, ये ऐसे बिंदु और स्केल हैं जो स्पेस और स्केल दोनों के संबंध में धनात्मक मैक्सिमा और नकारात्मक मिनिमा हैं।

मोटे पैमाने पर स्थानीयकरण त्रुटि में वृद्धि को संभालने के लिए पूरक स्थानीयकरण कदम के साथ संयोजन में।[10][11][12]इस प्रकार , बड़े पैमाने के मूल्य बड़े स्थानिक विस्तार वाले गोल कोनों से जुड़े होंगे जबकि छोटे पैमाने के मूल्य छोटे स्थानिक विस्तार वाले तेज कोनों से जुड़े होंगे। यह दृष्टिकोण स्वचालित स्केल चयन वाला पहला कॉर्नर डिटेक्टर है (ऊपर हैरिस-लाप्लास ऑपरेटर से पहले) और इसका उपयोग छवि डोमेन में बड़े पैमाने पर बदलाव के अनुसार कोनों को ट्रैक करने के लिए किया गया है।[18]और जियोन (मनोविज्ञान)-आधारित वस्तु पहचान के लिए संरचनात्मक छवि सुविधाओं की गणना करने के लिए किनारों से कोने की प्रतिक्रियाओं का मिलान करने के लिए।[19]

गॉसियन का लाप्लासियन, गॉसियन के अंतर और हेसियन स्केल-स्पेस ब्याज बिंदुओं के निर्धारक

लकड़ी का लट्ठा[11][12][15]गॉसियन, DoG के लाप्लासियन का संक्षिप्त रूप है[20]गॉसियन के अंतर के लिए संक्षिप्त शब्द है (DoG LoG का अनुमान है), और DoH हेसियन के निर्धारक के लिए संक्षिप्त शब्द है।[11]ये सभी स्केल-अपरिवर्तनीय ब्याज बिंदु स्केल-सामान्यीकृत अंतर अभिव्यक्तियों के स्केल-स्पेस एक्स्ट्रेमा का पता लगाकर निकाले जाते हैं, यानी, स्केल-स्पेस में बिंदु जहां संबंधित स्केल-सामान्यीकृत अंतर अभिव्यक्तियां अंतरिक्ष और स्केल दोनों के संबंध में स्थानीय एक्स्स्ट्रेमा मानती हैं।[11]:

यहाँ उपयुक्त पैमाने-सामान्यीकृत अंतर इकाई को दर्शाता है (नीचे परिभाषित)।

इन डिटेक्टरों को ब्लॉब डिटेक्शन में अधिक पूरी प्रकार से वर्णित किया गया है। गॉसियन का स्केल-सामान्यीकृत लाप्लासियन और गॉसियन विशेषताओं का अंतर (लिंडेबर्ग 1994, 1998; लोव 2004)[11][12][20]

जरूरी नहीं कि अत्यधिक चयनात्मक विशेषताएं बनाएं, क्योंकि ये ऑपरेटर किनारों के पास भी प्रतिक्रियाएं दे सकते हैं। गॉसियन डिटेक्टर के अंतर की कोने का पता लगाने की क्षमता में सुधार करने के लिए, स्केल-अपरिवर्तनीय सुविधा परिवर्तन में उपयोग किए जाने वाले फ़ीचर डिटेक्टर[20]इसलिए प्रणाली अतिरिक्त पोस्ट-प्रोसेसिंग चरण का उपयोग करता है, जहां डिटेक्शन स्केल पर छवि के हेस्सियन आव्यूह के आइगेनवैल्यू की जांच हैरिस ऑपरेटर की प्रकार ही की जाती है। यदि आइगेनमूल्य ​​​​का अनुपात बहुत अधिक है, तो स्थानीय छवि को बहुत किनारे जैसा माना जाता है, इसलिए सुविधा को अस्वीकार कर दिया जाता है। इसके अतिरिक्त गॉसियन फ़ीचर डिटेक्टर के लिंडेबर्ग के लाप्लासियन को किनारों के पास प्रतिक्रियाओं को दबाने के लिए पूरक अंतर अपरिवर्तनीय पर पूरक थ्रेशोल्डिंग सम्मलित करने के लिए परिभाषित किया जा सकता है।[21]

हेसियन ऑपरेटर का स्केल-सामान्यीकृत निर्धारक (लिंडेबर्ग 1994, 1998)[11][12]: दूसरी ओर, अच्छी प्रकार से स्थानीयकृत छवि सुविधाओं के लिए अत्यधिक चयनात्मक है और केवल तभी प्रतिक्रिया करता है जब दो छवि दिशाओं में महत्वपूर्ण ग्रे-स्तर भिन्नताएं होती हैं[11][14]और इस और अन्य स्थितियों में गॉसियन के लाप्लासियन की समानता में उत्तम रुचि बिंदु डिटेक्टर है। हेसियन का निर्धारक एफ़िन सहसंयोजक विभेदक अभिव्यक्ति है और इसमें लाप्लासियन ऑपरेटर की समानता में एफ़िन छवि परिवर्तनों के अनुसार उत्तम पैमाने पर चयन गुण हैं।

(लिंडेबर्ग 2013, 2015)।[21][22] प्रयोगात्मक रूप से इसका तात्पर्य यह है कि हेसियन रुचि बिंदुओं के निर्धारक में लाप्लासियन रुचि बिंदुओं की समानता में स्थानीय छवि विरूपण के अनुसार उत्तम दोहराव गुण होते हैं, जिसके परिणामस्वरूप उच्च दक्षता स्कोर और कम 1-परिशुद्धता (सूचना पुनर्प्राप्ति) स्कोर के संदर्भ में छवि-आधारित मिलान का उत्तम प्रदर्शन होता है। .[21]

इन और अन्य स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों, एफ़िन ट्रांसफ़ॉर्मेशन गुणों और प्रयोगात्मक गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013, 2015)।[21][22]

लिंडेबर्ग हेसियन फीचर ताकत उपायों के आधार पर स्केल-स्पेस रुचि बिंदु

हेसियन आव्यूह के संरचनात्मक रूप से समान गुणों से प्रेरित समारोह का और दूसरे क्षण का आव्यूह (संरचना टेंसर) , जैसे कि कर सकते हैं एफ़िन छवि विकृतियों के अनुसार उनके समान परिवर्तन गुणों के संदर्भ में प्रकट होना[13][21]:,

,

लिंडेबर्ग (2013, 2015)[21][22]हेस्सियन आव्यूह से संबंधित तरीकों से चार फीचर ताकत उपायों को परिभाषित करने का प्रस्ताव किया गया है क्योंकि हैरिस और शि-एंड-टोमासी ऑपरेटरों को संरचना टेंसर (दूसरे-पल मैट्रिक्स) से परिभाषित किया गया है। विशेष रूप से, उन्होंने निम्नलिखित अहस्ताक्षरित और हस्ताक्षरित हेस्सियन सुविधा शक्ति उपायों को परिभाषित किया:

  • अहस्ताक्षरित हेसियन सुविधा शक्ति माप I:
  • हस्ताक्षरित हेस्सियन सुविधा शक्ति माप I:
  • अहस्ताक्षरित हेसियन सुविधा शक्ति माप II:
  • हस्ताक्षरित हेस्सियन सुविधा शक्ति माप II:

यहाँ और हेसियन आव्यूह के ट्रेस और निर्धारक को निरूपित करें स्केल-स्पेस प्रतिनिधित्व का किसी भी पैमाने पर ,

जबकि

हेसियन आव्यूह के आइगेनमूल्य ​​​​को निरूपित करें।[23]

अहस्ताक्षरित हेसियन सुविधा शक्ति माप धनात्मक मूल्यों द्वारा स्थानीय चरम सीमा पर प्रतिक्रिया करता है और काठी बिंदुओं के प्रति संवेदनशील नहीं है, जबकि हस्ताक्षरित हेसियन सुविधा शक्ति मापती है नकारात्मक मूल्यों द्वारा सैडल बिंदुओं पर अतिरिक्त प्रतिक्रिया करता है। अहस्ताक्षरित हेसियन सुविधा शक्ति माप सिग्नल की स्थानीय ध्रुवीयता के प्रति असंवेदनशील है, जबकि हस्ताक्षरित हेसियन सुविधा शक्ति मापती है सिग्नल की स्थानीय ध्रुवता पर उसके आउटपुट के संकेत द्वारा प्रतिक्रिया करता है।

लिंडेबर्ग में (2015)[21]इन चार विभेदक संस्थाओं को स्केल-स्पेस एक्स्ट्रेमा डिटेक्शन के आधार पर स्थानीय पैमाने के चयन के साथ जोड़ा गया था

या स्केल लिंकिंग। इसके अतिरिक्त , हस्ताक्षरित और अहस्ताक्षरित हेसियन में ताकत के उपाय हैं और पूरक थ्रेशोल्डिंग के साथ जोड़ा गया था .

12 पोस्टर वाले पोस्टर डेटासेट पर स्केलिंग ट्रांसफॉर्मेशन के अनुसार छवि मिलान पर प्रयोगों द्वारा, 6 के स्केलिंग कारक तक स्केलिंग ट्रांसफॉर्मेशन पर मल्टी-व्यू मिलान और स्थानीय छवि डिस्क्रिप्टर के साथ 45 डिग्री के तिरछे कोण तक दिशा भिन्नता को देखने के लिए। स्केल-इनवेरिएंट फीचर में शुद्ध छवि डिस्क्रिप्टर छवि पिरामिड या मूल एसयूआरएफ से परिभाषित मूल एसआईएफटी के अतिरिक्त गाऊसी व्युत्पन्न ऑपरेटरों (गॉस-एसआईएफटी और गॉस-एसयूआरएफ) के संदर्भ में छवि माप के लिए मजबूत फीचर ऑपरेटरों को बदलते हैं और तेज करते हैं। हार वेवलेट्स से, यह दिखाया गया कि अहस्ताक्षरित हेसियन सुविधा शक्ति माप के आधार पर स्केल-स्पेस ब्याज बिंदु का पता लगाना हेसियन के निर्धारक से प्राप्त स्केल-स्पेस ब्याज बिंदुओं की समानता में सर्वोत्तम प्रदर्शन और उत्तम प्रदर्शन की अनुमति दी गई . दोनों अहस्ताक्षरित हेस्सियन सुविधा शक्ति माप , हस्ताक्षरित हेसियन सुविधा शक्ति माप और हेस्सियन का निर्धारक गॉसियन के लाप्लासियन की समानता में उत्तम प्रदर्शन की अनुमति दी गई . जब स्केल लिंकिंग और पूरक थ्रेशोल्डिंग के साथ जोड़ा जाता है , हस्ताक्षरित हेसियन सुविधा शक्ति माप इसके अतिरिक्त गॉसियन के लाप्लासियन की समानता में उत्तम प्रदर्शन की अनुमति दी गई .

इसके अतिरिक्त , यह दिखाया गया कि हेसियन आव्यूह से परिभाषित ये सभी विभेदक स्केल-स्पेस ब्याज बिंदु डिटेक्टर संरचना से परिभाषित हैरिस और शि-एंड-टोमासी ऑपरेटरों की समानता में बड़ी संख्या में ब्याज बिंदुओं का पता लगाने और उत्तम मिलान प्रदर्शन की अनुमति देते हैं। टेंसर (दूसरे क्षण का मैट्रिक्स)।

इन चार हेसियन फीचर शक्ति उपायों और स्केल-स्पेस ब्याज बिंदुओं का पता लगाने के लिए अन्य अंतर इकाइयों के स्केल चयन गुणों का सैद्धांतिक विश्लेषण, जिसमें गॉसियन के लाप्लासियन और हेसियन के निर्धारक सम्मलित हैं, लिंडेबर्ग (2013) में दिया गया है।[22]और लिंडेबर्ग (2015) में उनके एफ़िन परिवर्तन गुणों के साथ-साथ प्रयोगात्मक गुणों का विश्लेषण होता है।[21]

एफ़िन-अनुकूलित ब्याज बिंदु ऑपरेटर

स्वचालित स्केल चयन के साथ मल्टी-स्केल हैरिस ऑपरेटर से प्राप्त ब्याज बिंदु स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। चूँकि , जो छवियाँ कंप्यूटर विज़न प्रणाली के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। रुचि बिंदु ऑपरेटर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत है, प्राकृतिक दृष्टिकोण फीचर डिटेक्टर तैयार करना है जो कि परिवर्तनों को प्रभावित करने के लिए अपरिवर्तनीय है। व्यवहार में, एफ़िन अपरिवर्तनीय रुचि बिंदुओं को एफ़िन आकार अनुकूलन लागू करके प्राप्त किया जा सकता है जहां स्मूथिंग कर्नेल का आकार रुचि बिंदु के आसपास स्थानीय छवि संरचना से मेल खाने के लिए पुनरावृत्त रूप से विकृत होता है या समकक्ष रूप से स्थानीय छवि पैच पुनरावृत्त रूप से विकृत होता है जबकि स्मूथिंग का आकार होता है कर्नेल घूर्णी रूप से सममित रहता है (लिंडेबर्ग 1993, 2008; लिंडेबर्ग और गार्डिंग 1997; मिकोलाजस्क और श्मिट 2004)।[12][13][14][15]इसलिए, सामान्यतः उपयोग किए जाने वाले मल्टी-स्केल हैरिस ऑपरेटर के अतिरिक्त , इस आलेख में सूचीबद्ध अन्य कोने डिटेक्टरों के साथ-साथ ब्लॉब डिटेक्शन जैसे गॉसियन ऑपरेटर के लाप्लासियन/अंतर, हेसियन के निर्धारक, पर एफ़िन आकार अनुकूलन लागू किया जा सकता है।[14]और हेस्सियन-लाप्लास ऑपरेटर होता है।

वैंग और ब्रैडी कॉर्नर डिटेक्शन एल्गोरिदम

वैंग और ब्रैडी[24]डिटेक्टर छवि को सतह मानता है, और उन स्थानों की अविष्कार करता है जहां छवि किनारे पर बड़ी वक्रता होती है। दूसरे शब्दों में, एल्गोरिदम उन स्थानों की अविष्कार करता है जहां किनारा तेजी से दिशा बदलता है। कोने का स्कोर, , द्वारा दिया गया है:

यहाँ ग्रेडिएंट के लंबवत इकाई वेक्टर है, और यह निर्धारित करता है कि डिटेक्टर कितना एज-फ़ोबिक है। लेखक यह भी ध्यान देते हैं कि शोर को कम करने के लिए स्मूथिंग (गॉसियन का सुझाव दिया गया है) की आवश्यकता है।

स्मूथिंग भी कोनों के विस्थापन का कारण बनती है, इसलिए लेखक 90 डिग्री के कोने के विस्थापन के लिए अभिव्यक्ति प्राप्त करते हैं, और इसे पहचाने गए कोनों पर सुधार कारक के रूप में लागू करते हैं।

सुसान कॉर्नर डिटेक्टर

सुसान[25]यह संक्षिप्त शब्द है जो नाभिक को आत्मसात करने वाले सबसे छोटे एकमूल्य खंड के लिए खड़ा है। यह विधि 1994 के यूके पेटेंट का विषय है जो अब लागू नहीं है।[26]

सुविधा का पता लगाने के लिए, सुसान परीक्षण किए जाने वाले पिक्सेल (नाभिक) के ऊपर गोलाकार मास्क लगाता है। मुखौटे का क्षेत्र है , और इस मास्क में पिक्सेल का प्रतिनिधित्व किया जाता है . केन्द्रक पर है . समानता फ़ंक्शन का उपयोग करके प्रत्येक पिक्सेल की समानता नाभिक से की जाती है:

यहाँ चमक अंतर सीमा है,[27] पिक्सेल की चमक है और घातांक की शक्ति अनुभवजन्य रूप से निर्धारित की गई है। इस फ़ंक्शन में चिकने आयताकार फ़ंक्शन | टॉप-हैट या आयताकार फ़ंक्शन की उपस्थिति होती है। सुसान का क्षेत्रफल इस प्रकार दिया गया है:

यदि तो, आयताकार फलन है मास्क में पिक्सेल की संख्या है जो अंदर हैं नाभिक का. सुसान ऑपरेटर की प्रतिक्रिया इस प्रकार दी गई है:

यहाँ को 'ज्यामितीय सीमा' नाम दिया गया है। दूसरे शब्दों में, सुसान ऑपरेटर का स्कोर केवल तभी धनात्मक होता है जब क्षेत्र अत्यधिक छोटा हो। स्थानीय स्तर पर सबसे छोटा सुसान गैर-अधिकतम दमन का उपयोग करके पाया जा सकता है, और यह संपूर्ण सुसान ऑपरेटर है।

मूल्य यह निर्धारित करता है कि यूनीवैल्यू सेगमेंट का भाग माने जाने से पहले नाभिक के समान बिंदु कितने समान होने चाहिए। का मान है यूनीवैल्यू सेगमेंट का न्यूनतम आकार निर्धारित करता है। यदि अत्यधिक बड़ा है, तो यह किनारे का पता लगाना बन जाता है।

कोने का पता लगाने के लिए, दो और चरणों का उपयोग किया जाता है। सबसे पहले सुसान का केन्द्रक पाया जाता है। उचित कोने में केन्द्रक नाभिक से दूर होगा। दूसरा चरण इस बात पर जोर देता है कि नाभिक से केन्द्रक के माध्यम से मास्क के किनारे तक की रेखा पर सभी बिंदु सुसान में हैं।

ट्रैजकोविक और हेडली कॉर्नर डिटेक्टर

सुसान के प्रकार की विधि , यह डिटेक्टर[28]सीधे यह जांचता है कि क्या पिक्सेल के नीचे पैच स्व-समान है, निकटतम पिक्सेलों की जांच करके। विचार किए जाने वाला पिक्सेल है, और पृष्ठ पर बिंदु है जो बिंदु के चारों ओर केंद्रित वृत्त . के चारों ओर रहता है। बिंदु विषमता वाले सिरे के लिए के विपरीत बिंदु है।

प्रतिक्रिया फ़ंक्शन को इस प्रकार परिभाषित किया गया है:

यह तब बड़ा होगा जब ऐसी कोई दिशा नहीं होगी जिसमें केंद्र पिक्सेल व्यास के साथ दो निकटवर्ती पिक्सेल के समान हो। पृथक वृत्त ( मध्यबिंदु वृत्त एल्गोरिथ्म) है, इसलिए अधिक आइसोट्रोपिक प्रतिक्रिया देने के लिए मध्यवर्ती व्यास के लिए प्रक्षेप का उपयोग किया जाता है। चूँकि कोई भी गणना के ऊपरी सीमा दी जाती है, इसलिए पहले यह देखा जाता है कि क्या सम्पूर्ण की गणना पूरी करने में लायक है, इसके लिए संयोजनात्मक और लंबवत दिशाओं की जांच की जाती है।

एएसटी-आधारित फीचर डिटेक्टर

इस प्रकार एएसटी त्वरित खंड परीक्षण का संक्षिप्त रूप है। यह परीक्षण सुसान कॉर्नर मानदंड का संविहित संस्करण है। परीक्षण में, गोलाकार वट की जगह, केवल उम्मीदवार बिंदु के चारों ओर के ब्रेजेनहम वृत्त में पिक्सेल को मान्यता दी जाती है। यदि संचित पिक्सेल सभी न्यूक्लियस से कम से कम या सभी न्यूक्लियस से अधिक के रूप में धुंधले हों, तो न्यूक्लियस के नीचे पिक्सेल को विशेषता माना जाता है। इस परीक्षण की सुचारू रूप से स्थिर विशेषताएं उत्पन्न की जाती हैं।[29]जिस क्रम में पिक्सेल का परीक्षण किया जाता है उसका चुनाव तथाकथित बीस प्रश्न है। इस समस्या के लिए छोटे निर्णय पेड़ बनाने से सबसे अधिक गणनात्मक रूप से दक्ष विशेषता डिटेक्टर प्राप्त होते हैं।

इस प्रकार एएसटी पर आधारित पहला कॉर्नर डिटेक्शन एल्गोरिदम फास्ट (एकीकृत सेगमेंट परीक्षण से विशेषताएं) है।[29]यद्यपि, सिद्धांत में किसी भी मान को ले सकता है, FAST केवल 3 का मान (16 पिक्सेल परिधि का वृत्त के समान) का उपयोग करता है, और परीक्षण से पता चलता है कि सबसे अच्छा परिणाम के साथ प्राप्त किया जाता है। यह मान वह सबसे निम्न मान है जिस पर किनारों का पता नहीं चलता है। पिक्सेलों की परीक्षा की क्रमबद्धता प्रशिक्षण सेट से ID3 एल्गोरिदम द्वारा निर्धारित की जाती है। संदिग्धतापूर्ण रूप से, इस डिटेक्टर का नाम प्रकाशित करने वाले पेपर के नाम से कुछ समान होता है जो तराजकोविक और हेडली के डिटेक्टर का वर्णन करता है।

डिटेक्टरों का स्वचालित संश्लेषण

त्रुहिलो और ओलाग्यू[30] ने विधि प्रस्तुत की है जिसमें आनुवंशिक प्रोग्रामिंग का उपयोग करके स्वचालित रूप से छवि ऑपरेटर संश्लेषण किया जाता है जो रुचि बिंदुओं को पता लगा सकते हैं। टर्मिनल और फंक्शन सेट में प्राथमिक आपरेशन सम्मलित हैं जो पहले से प्रस्तावित मन-निर्मित डिज़ाइन में सामान्य रूप से पाए जाते हैं। फिटनेस मापक प्रत्येक ऑपरेटर की स्थिरता को अवरुद्धता दरदी माध्यम से मापता है, और छवि तस्वीर प्लेन में पाये गए बिंदुओं के विन्यास में समान वितरण को बढ़ावा देता है। विकसित ऑपरेटर्स के प्रदर्शन को प्रयोगात्मक रूप से प्रमाणित किया गया है जब आदेशित और परीक्षण श्रृंखलाओं का उपयोग करके प्रगतिशील रूप से परिवर्तित छवियों के लिए किया गया है। इसलिए, प्रस्तावित जीपी एल्गोरिदम को रुचि बिंदु डिटेक्शन की समस्या के लिए मानव-प्रतियोगी माना जाता है।

स्थानिक-अस्थायी रुचि बिंदु डिटेक्टर

इस प्रकार स्थान-समय में हैरिस ऑपरेटर को लपटेव और लिन्डबर्ग द्वारा स्थान-समय तक विस्तारित किया गया है।[31]होने देना स्थान-समय द्वितीय-मोमेंट आव्यूह को प्रतिनिधित्व करने वाला समकालिक संबंधी आव्यूह के द्वारा चित्रित करें