कॉर्नर डिटेक्शन



कॉर्नर डिटेक्शन दृष्टिकोण है जिसका उपयोग कंप्यूटर दृष्टि प्रणाली के भीतर कुछ प्रकार के फ़ीचर डिटेक्शन (कंप्यूटर विज़न) को निकालने और छवि की सामग्री का अनुमान लगाने के लिए किया जाता है। कॉर्नर डिटेक्शन का उपयोग अधिकांशतः गति पहचान, छवि पंजीकरण, वीडियो ट्रैकिंग, फोटोग्राफिक मोज़ेक, पैनोरमा सिलाई, 3 डी पुनर्निर्माण और ऑब्जेक्ट पहचान में अधिकांशतः किया जाता है। कॉर्नर डिटेक्शन अंतर्गत आपूर्ति बिंदु डिटेक्शन के विषय के साथ संघुषित होता है।

औपचारिकीकरण
इस प्रकार कोने को दो किनारों के प्रतिच्छेदन के रूप में परिभाषित किया जा सकता है। कोने को बिंदु के रूप में भी परिभाषित किया जा सकता है जिसके लिए स्थानीय पड़ोस में दो प्रमुख और भिन्न धारा दिशाएं होती हैं।

रुचि बिंदु छवि में बिंदु है जिसकी छवि में अच्छी प्रकार से परिभाषित स्थान होता है और इसे मजबूती से पहचाना जा सकता है। इसका अर्थ यह है कि इंटरेस्ट पॉइंट कोना हो सकता है,किन्तु इसके अतिरिक्त यह मात्र कोना नहीं हो सकता है, उदाहरण के लिए, स्थानीय तीव्रता के अधिकतम या न्यूनतम स्थानीय बहुत्तर, रेखा के अंत, या कर्व पर बिंदु जहां की कर्वता स्थानीय अधिकतम होती हैं।

व्यावहारिक रूप में, अधिकांश तथाकथित कोने का पता लगाने के तरीके सामान्य रूप से रुचि बिंदुओं का पता लगाते हैं, और वास्तव में, कोने और रुचि और बिंदु शब्द का उपयोग प्रायः साहित्य के माध्यम से कमोबेश दूसरे के स्थान पर किया जाता है। परिणामस्वरूप, यदि केवल कोनों का पता लगाने में किया जाता है तो यह निर्धारित करने के लिए पता लगाए गए रुचि बिंदुओं का स्थानीय विश्लेषण करना आवश्यक है कि इनमें से कौन सा वास्तविक कोने हैं। किनारों का पता लगाने के उदाहरण जिनका उपयोग पोस्ट-प्रोसेसिंग के साथ कोनों का पता लगाने के लिए किया जा सकता है, किर्श संचालक और फ़्री-चेन मास्किंग सेट हैं।

कोने, रुचि बिंदु और फीचर का साहित्य में परस्पर उपयोग किया जाता है, जिससे समस्या भ्रमित हो जाती है। विशेष रूप से, ऐसे कई बूँद का पता लगाना हैं जिन्हें रुचि बिंदु ऑपरेटर के रूप में संदर्भित किया जा सकता है, किन्तु जिन्हें कभी-कभी गलती से कॉर्नर डिटेक्टर के रूप में संदर्भित किया जाता है। इसके अतिरिक्त, लम्बी वस्तुओं की उपस्थिति को पकड़ने के लिए रिज का पता लगाने की धारणा उपस्थित है।

कॉर्नर डिटेक्टर सामान्यतः बहुत मजबूत नहीं होते हैं और पहचान कार्य पर व्यक्तिगत त्रुटियों के प्रभाव को हावी होने से रोकने के लिए अधिकांशतः बड़े अतिरेक की आवश्यकता होती है।

कोने डिटेक्टर की गुणवत्ता का निर्धारण विभिन्न प्रकाश व्यवस्था, अनुवाद, रोटेशन और अन्य परिवर्तनों की स्थितियों के अनुसार कई समान छवियों में ही कोने का पता लगाने की क्षमता है।

छवियों में कोने का पता लगाने का सरल विधि सहसंबंध का उपयोग करना है, किन्तु यह कम्प्यूटेशनल रूप से बहुत महंगा और उप-इष्टतम हो जाता है। अधिकांशतः उपयोग किया जाने वाला वैकल्पिक दृष्टिकोण हैरिस और स्टीफंस (नीचे) द्वारा प्रस्तावित विधि पर आधारित है, जो बदले में मोरावेक द्वारा विधि का सुधार है।

मोरवेक कॉर्नर डिटेक्शन एल्गोरिदम
यह सबसे शुरुआती कोने का पता लगाने वाले एल्गोरिदम में से है और कोने को कम आत्म-समानता वाले बिंदु के रूप में परिभाषित करता है। एल्गोरिदम यह देखने के लिए छवि में प्रत्येक पिक्सेल का परीक्षण करता है कि कोई कोना उपस्थित है या नहीं, यह विचार करके कि पिक्सेल पर केंद्रित पैच पास के, बड़े पैमाने पर ओवरलैपिंग पैच के समान है। समानता को दो पैच के संबंधित पिक्सेल के बीच वर्ग अंतर (एसएसडी) का योग लेकर मापा जाता है। कम संख्या अधिक समानता दर्शाती है.

यदि पिक्सेल एकसमान तीव्रता के क्षेत्र में है, तो आस-पास के पैच समान दिखेंगे। यदि पिक्सेल किनारे पर है, तो किनारे के लंबवत दिशा में पास के पैच अत्यधिक अलग दिखेंगे, किन्तु किनारे के समानांतर दिशा में पास के पैच के परिणामस्वरूप केवल छोटा सा बदलाव होगा। यदि पिक्सेल सभी दिशाओं में भिन्नता वाले फीचर पर है, तो आस-पास का कोई भी पैच समान नहीं दिखेगा।

कोने की ताकत को पैच और उसके पड़ोसियों (क्षैतिज, ऊर्ध्वाधर और दो विकर्णों पर) के बीच सबसे छोटे एसएसडी के रूप में परिभाषित किया गया है। कारण यह है कि यदि यह संख्या अधिक है, तो सभी बदलावों में भिन्नता या तो इसके बराबर होती है या इससे बड़ी होती है, इसलिए कैप्चरिंग से आस-पास के सभी पैच अलग दिखते हैं।

यदि सभी स्थानों के लिए कोने की ताकत संख्या की गणना की जाती है, तो यह स्थान के लिए स्थानीय रूप से अधिकतम है, यह दर्शाता है कि इसमें रुचि की विशेषता उपस्थित है।

जैसा कि मोरावेक ने बताया है, इस ऑपरेटर के साथ मुख्य समस्याओं में से यह है कि यह समदैशिक नहीं है: यदि कोई किनारा उपस्थित है जो पड़ोसियों (क्षैतिज, ऊर्ध्वाधर या विकर्ण) की दिशा में नहीं है, तो सबसे छोटा एसएसडी होगा बड़ा और किनारे को गलत तरीके से रुचि बिंदु के रूप में चुना जाएगा।

हैरिस और स्टीफेंस / शि-तोमासी कोने का पता लगाने वाले एल्गोरिदम
हैरिस और स्टीफंस स्थानांतरित पैच का उपयोग करने के अतिरिक्त, सीधे दिशा के संबंध में कोने के स्कोर के अंतर पर विचार करके मोरावेक के कोने डिटेक्टर में सुधार किया गया। (इस कोने के स्कोर को अधिकांशतः ऑटोसहसंबंध के रूप में जाना जाता है, क्योंकि इस शब्द का उपयोग उस पेपर में किया जाता है जिसमें इस डिटेक्टर का वर्णन किया गया है। हालांकि, पेपर में गणित स्पष्ट रूप से इंगित करता है कि वर्ग अंतर के योग का उपयोग किया जाता है।)

व्यापकता की हानि के बिना, हम मान लेंगे कि ग्रेस्केल 2-आयामी छवि का उपयोग किया जाता है। बता दें कि यह छवि दी गई है $$I$$. क्षेत्र पर छवि पैच लेने पर विचार करें $$(u, v)$$ और इसे स्थानांतरित करना $$(x, y)$$. इन दो पैच के बीच वर्ग अंतर (एसएसडी) का भारित योग दर्शाया गया है $$S$$, द्वारा दिया गया है:


 * $$ S(x,y) = \sum_u \sum_v w(u,v) \, \left( I(u+x,v+y) - I(u,v)\right)^2 $$

$$I(u+x,v+y)$$ टेलर श्रृंखला द्वारा अनुमान लगाया जा सकता है। होने देना $$ I_x$$ और $$ I_y$$ की आंशिक छवि व्युत्पन्न हो $$ I$$, ऐसा है कि
 * $$ I(u+x,v+y) \approx I(u,v) + I_x(u,v)x+I_y(u,v)y $$

इससे सन्निकटन उत्पन्न होता है
 * $$ S(x,y) \approx \sum_u \sum_v w(u,v) \, \left( I_x(u,v)x + I_y(u,v)y \right)^2, $$

जिसे आव्यूह रूप में लिखा जा सकता है:
 * $$ S(x,y) \approx \begin{bmatrix} x & y \end{bmatrix} A \begin{bmatrix} x \\ y \end{bmatrix}, $$

जहां ए संरचना टेंसर है,



A = \sum_u \sum_v w(u,v) \begin{bmatrix} I_x(u,v)^2 & I_x(u,v) I_y(u,v) \\ I_x(u,v) I_y(u,v) & I_y(u,v)^2 \end{bmatrix} = \begin{bmatrix} \langle I_x^2 \rangle & \langle I_x I_y \rangle\\ \langle I_x I_y \rangle & \langle I_y^2 \rangle \end{bmatrix} $$ शब्दों में, हम छवि तीव्रता के आंशिक व्युत्पन्न का सहप्रसरण पाते हैं $$I$$ के प्रति सम्मान के साथ $$x$$ और $$y$$ कुल्हाड़ियाँ

कोण कोष्ठक औसत को दर्शाते हैं (अर्थात् संक्षेपण)। $$(u,v)$$). $$ w(u,v)$$ छवि पर स्लाइड करने वाली विंडो के प्रकार को दर्शाता है। यदि बॉक्स ब्लर का उपयोग किया जाता है तो प्रतिक्रिया एनिसोट्रॉपिक होगी, किन्तु यदि गॉसियन फ़ंक्शन का उपयोग किया जाता है, तो प्रतिक्रिया आइसोट्रोपिक होगी।

कोने (या सामान्य तौर पर रुचि बिंदु) की विशेषता बड़ी विविधता है $$ S $$ वेक्टर की सभी दिशाओं में $$ \begin{bmatrix} x & y \end{bmatrix} $$. के आइगेनमूल्य ​​का विश्लेषण करके $$ A $$, इस लक्षण वर्णन को निम्नलिखित तरीके से व्यक्त किया जा सकता है: $$ A $$ रुचि बिंदु के लिए दो बड़े आइगेनमूल्य ​​​​होने चाहिए। स्वदेशी मूल्यों के परिमाण के आधार पर, इस तर्क के आधार पर निम्नलिखित अनुमान लगाए जा सकते हैं:
 * 1) यदि $$\lambda_1 \approx 0$$ और $$\lambda_2 \approx 0$$ फिर यह पिक्सेल $$(x,y)$$ रुचि की कोई विशेषता नहीं है.
 * 2) यदि $$\lambda_1 \approx 0$$ और $$\lambda_2$$ कुछ बड़ा धनात्मक मूल्य है, तो बढ़त पाई जाती है।
 * 3) यदि $$ \lambda_1$$ और $$ \lambda_2$$ बड़े धनात्मक मान हैं, तो कोना मिल जाता है।

हैरिस और स्टीफंस ने ध्यान दिया कि आइगेनवैल्यू की सटीक गणना कम्प्यूटेशनल रूप से महंगी है, क्योंकि इसके लिए वर्गमूल की गणना की आवश्यकता होती है, और इसके अतिरिक्त सुझाव देते हैं निम्नलिखित फ़ंक्शन $$M_c$$, यहाँ $$\kappa$$ ट्यून करने योग्य संवेदनशीलता पैरामीटर है:


 * $$ M_c = \lambda_1 \lambda_2 - \kappa \left(\lambda_1 + \lambda_2\right)^2

= \det(A) - \kappa \operatorname{trace}^2(A) $$ इसलिए, एल्गोरिथ्म वास्तव में आव्यूह के eigenvalue अपघटन की गणना करने की आवश्यकता नहीं है $$A$$ और इसके अतिरिक्त यह निर्धारक और ट्रेस (रैखिक बीजगणित) का मूल्यांकन करने के लिए पर्याप्त है $$A$$ ढूँढ़ने के लिए कोने, या सामान्यतः रुचि बिंदु।

शि-तोमासी कॉर्नर डिटेक्टर सीधे गणना करता है $$\min(\lambda_1, \lambda_2)$$ क्योंकि कुछ मान्यताओं के तहत, ट्रैकिंग के लिए कोने अधिक स्थिर होते हैं। ध्यान दें कि इस विधि को कभी-कभी कनाडे-टोमासी कॉर्नर डिटेक्टर के रूप में भी जाना जाता है।

का मान है $$\kappa$$ अनुभवजन्य रूप से निर्धारित किया जाना है, और साहित्य में 0.04-0.15 की सीमा में मूल्यों को व्यवहार्य बताया गया है।

कोई भी पैरामीटर सेट करने से बच सकता है $$\kappa$$ नोबल का उपयोग करके कोने का माप $$M_c'$$ जो आइगेनमूल्य ​​​​के अनुकूल माध्य के बराबर है:
 * $$ M_c' = 2 \frac{\det(A)}{\operatorname{trace}(A) + \epsilon}, $$

$$\epsilon$$ छोटा सा धनात्मक स्थिरांक होना।

यदि $$A$$ कोने की स्थिति के लिए सटीक आव्यूह के रूप में व्याख्या की जा सकती है, कोने की स्थिति के लिए परिशुद्धता आव्यूह है $$ A^{-1}$$, अर्थात।



\frac{1}{\langle I_x^2 \rangle \langle I_y^2 \rangle - \langle I_x I_y \rangle^2} \begin{bmatrix} \langle I_y^2 \rangle & -\langle I_x I_y \rangle\\ -\langle I_x I_y \rangle & \langle I_x^2 \rangle \end{bmatrix}. $$ के आइगेनमूल्य ​​का योग $$ A^{-1}$$, जिसे उस मामले में कोने की स्थिति के सामान्यीकृत विचरण (या कुल अनिश्चितता) के रूप में व्याख्या किया जा सकता है, नोबल के कोने के माप से संबंधित है $$M_c'$$ निम्नलिखित समीकरण द्वारा:


 * $$\lambda_1(A^{-1}) + \lambda_2(A^{-1}) = \frac{\operatorname{trace}(A)}{\det(A)} \approx \frac{2}{M_c'}.$$

फोरस्टनर कॉर्नर डिटेक्टर
कुछ स्थितियों में, कोई उपपिक्सेल सटीकता के साथ कोने के स्थान की गणना करना चाह सकता है। अनुमानित समाधान प्राप्त करने के लिए, फ़ोरस्टनर एल्गोरिदम किसी दिए गए विंडो में कोने की सभी स्पर्शरेखा रेखाओं के निकटतम बिंदु को हल करता है और यह न्यूनतम-वर्ग समाधान है। एल्गोरिदम इस तथ्य पर निर्भर करता है कि आदर्श कोने के लिए, स्पर्शरेखा रेखाएं ही बिंदु पर प्रतिच्छेद करती हैं।

स्पर्श रेखा का समीकरण $$T_{\mathbf{x}'}(\mathbf{x})$$ पिक्सेल पर $$\mathbf{x}'$$ द्वारा दिया गया है:


 * $$T_\mathbf{x'}(\mathbf x) = \nabla I(\mathbf{x'})^{\top}(\mathbf{x}-\mathbf{x'}) = 0$$

यहाँ $$\nabla I(\mathbf{x'}) = \begin{bmatrix} I_{\mathbf{x}} & I_{\mathbf{y}} \end{bmatrix}^{\top}$$ छवि का ग्रेडिएंट वेक्टर है $$I$$ पर $$\mathbf{x'}$$.

बिंदु $$\mathbf{x}_{0}$$ विंडो में सभी स्पर्शरेखा रेखाओं के सबसे निकट $$N$$ है:


 * $$\mathbf{x}_{0}=\underset{\mathbf{x}\in \mathbb{R}^{2\times 1}}{\operatorname{argmin}}\int_{\mathbf{x'}\in N}T_{\mathbf{x'}}(\mathbf{x})^{2}d\mathbf{x'}$$

से दूरी $$\mathbf{x}_{0}$$ स्पर्शरेखा रेखाओं के लिए $$T_{\mathbf{x'}}$$ ग्रेडिएंट परिमाण द्वारा भारित किया जाता है, इस प्रकार मजबूत ग्रेडिएंट वाले पिक्सेल से गुजरने वाली स्पर्शरेखाओं को अधिक महत्व दिया जाता है।

के लिए समाधान $$\mathbf{x}_{0}$$:



\begin{align} \mathbf{x}_{0}&=\underset{\mathbf{x}\in \mathbb{R}^{2\times 1}}{\operatorname{argmin}} \int_{\mathbf{x'}\in N} \left(\nabla I\left(\mathbf{x'}\right)^{\top} \left(\mathbf{x}-\mathbf{x'}\right)\right)^{2} d\mathbf{x'}\\ &=\underset{\mathbf{x}\in \mathbb{R}^{2\times 1}}{\operatorname{argmin}}\int_{\mathbf{x'}\in N}(\mathbf{x}-\mathbf{x'})^{\top}\nabla I(\mathbf{x'})\nabla I(\mathbf{x'})^{\top}(\mathbf{x}-\mathbf{x'})d\mathbf{x'}\\ &=\underset{\mathbf{x}\in \mathbb{R}^{2\times 1}}{\operatorname{argmin}} \left(\mathbf{x}^{\top}A\mathbf{x}-2\mathbf{x}^{\top}\mathbf{b}+c\right) \end{align} $$

$$A\in\mathbb{R}^{2\times 2},\textbf{b}\in\mathbb{R}^{2\times 1},c\in\mathbb{R}$$ के रूप में परिभाषित किया गया है:



\begin{align} A&=\int \nabla I(\mathbf{x'})\nabla I(\mathbf{x'})^{\top}d\mathbf{x'}\\ \mathbf{b}&=\int \nabla I(\mathbf{x'})\nabla I(\mathbf{x'})^{\top}\mathbf{x'}d\mathbf{x'}\\ c&=\int \mathbf{x'}^{\top}\nabla I(\mathbf{x'})\nabla I(\mathbf{x'})^{\top}\mathbf{x'}d\mathbf{x'}\\ \end{align} $$ के संबंध में विभेदन करके इस समीकरण को न्यूनतम किया जा सकता है $$x$$ और इसे 0 के बराबर सेट करना:


 * $$2A\mathbf{x}-2\mathbf{b}=0 \Rightarrow A\mathbf{x}=\mathbf{b}$$

ध्यान दें कि $$A\in\mathbb{R}^{2\times 2}$$ संरचना टेंसर है. समीकरण का हल पाने के लिए, $$A$$ उलटा होना चाहिए, जिसका तात्पर्य यह है $$A$$ पूर्ण रैंक (रैंक 2) होना चाहिए। इस प्रकार, समाधान


 * $$x_{0}=A^{-1}\mathbf{b}$$

केवल वहीं उपस्थित है जहां विंडो में वास्तविक कोना उपस्थित है $$N$$.

इस कोने के स्थानीयकरण विधि के लिए स्वचालित पैमाने का चयन करने की पद्धति लिंडेबर्ग द्वारा प्रस्तुत की गई है सामान्यीकृत अवशिष्ट को कम करके


 * $$\tilde{d}_{\min} = \frac{c - b^T A^{-1} b}{\operatorname{trace} A}$$

तराजू के ऊपर. इस प्रकार, विधि में शोर छवि डेटा के लिए मोटे पैमाने के स्तर और आदर्श कोने जैसी संरचनाओं के लिए उत्तम पैमाने के स्तर का चयन करके, छवि डेटा में शोर स्तर के लिए छवि ग्रेडिएंट्स की गणना के लिए स्केल स्तरों को स्वचालित रूप से अनुकूलित करने की क्षमता होती है।

टिप्पणियाँ:


 * $$c$$ न्यूनतम-वर्ग समाधान गणना में अवशिष्ट के रूप में देखा जा सकता है: यदि $$c=0$$, तो कोई त्रुटि नहीं थी.
 * इस एल्गोरिदम को स्पर्शरेखा रेखाओं को सामान्य रेखाओं में बदलकर वृत्ताकार विशेषताओं के केंद्रों की गणना करने के लिए संशोधित किया जा सकता है।

मल्टी-स्केल हैरिस ऑपरेटर
दूसरे क्षण आव्यूह की गणना (कभी-कभी इसे संरचना टेंसर भी कहा जाता है) $$A$$ हैरिस ऑपरेटर में, छवि डेरिवेटिव की गणना की आवश्यकता होती है $$I_x, I_y$$ छवि डोमेन के साथ-साथ स्थानीय पड़ोस पर इन डेरिवेटिव के गैर-रेखीय संयोजनों का योग। चूंकि डेरिवेटिव की गणना में सामान्यतः स्केल-स्पेस स्मूथिंग का चरण सम्मलित होता है, हैरिस ऑपरेटर की परिचालन परिभाषा के लिए दो स्केल पैरामीटर की आवश्यकता होती है: (i) इमेज डेरिवेटिव की गणना से पहले स्मूथिंग के लिए स्थानीय स्केल, और (ii) एकीकरण स्केल एकीकृत छवि डिस्क्रिप्टर में व्युत्पन्न ऑपरेटरों पर गैर-रेखीय संचालन को संचित करने के लिए।

साथ $$I$$ मूल छवि तीव्रता को दर्शाते हुए, आइए $$L$$ के स्केल स्पेस प्रतिनिधित्व को निरूपित करें $$I$$ गॉसियन कर्नेल के साथ कनवल्शन द्वारा प्राप्त किया गया
 * $$g(x, y, t) = \frac {1}{2{\pi} t} e^{-\left(x^2+y^2\right)/2t}$$

स्थानीय पैमाने के पैरामीटर के साथ $$t$$:
 * $$L(x, y, t)\ = g(x, y, t) * I(x, y)$$

और जाने $$L_x = \partial_x L$$ और $$L_y = \partial_y L$$ के आंशिक व्युत्पन्न को निरूपित करें $$L$$. इसके अतिरिक्त, गाऊसी विंडो फ़ंक्शन का परिचय दें $$g(x, y, s)$$ एकीकरण स्केल पैरामीटर के साथ $$s$$. फिर, स्ट्रक्चर टेंसर मल्टी-स्केल स्ट्रक्चर टेंसर|मल्टी-स्केल सेकेंड-मोमेंट मैट्रिक्स के रूप में परिभाषित किया जा सकता है

\mu(x, y; t, s) = \int_{\xi = -\infty}^{\infty} \int_{\eta = -\infty}^{\infty} \begin{bmatrix} L_x^2(x-\xi, y-\eta; t)                       & L_x(x-\xi, y-\eta; t) \, L_y(x-\xi, y-\eta; t) \\ L_x(x-\xi, y-\eta; t) \, L_y(x-\xi, y-\eta; t) & L_y^2(x-\xi, y-\eta; t) \end{bmatrix} g(\xi, \eta; s) \, d\xi \, d\eta. $$ फिर, हम आइगेनमूल्य ​​​​की गणना कर सकते हैं $$\mu$$ के आइगेनमूल्य ​​​​के समान तरीके से $$A$$ और मल्टी-स्केल हैरिस कॉर्नर माप को इस प्रकार परिभाषित करें
 * $$M_c(x, y; t, s) = \det (\mu(x, y; t, s)) - \kappa \, \operatorname{trace}^2(\mu(x, y; t, s)) .$$

स्थानीय पैमाने के पैरामीटर के चयन के संबंध में $$t$$ और एकीकरण स्केल पैरामीटर $$s$$, ये स्केल पैरामीटर सामान्यतः सापेक्ष एकीकरण स्केल पैरामीटर द्वारा युग्मित होते हैं $$\gamma$$ ऐसा है कि $$s = \gamma^2 t$$, यहाँ $$\gamma$$ सामान्यतः अंतराल में चुना जाता है $$[1, 2]$$. इस प्रकार, हम बहु-स्तरीय हैरिस कॉर्नर माप की गणना कर सकते हैं $$M_c(x, y; t, \gamma^2 t)$$ किसी भी पैमाने पर $$t$$ मल्टी-स्केल कॉर्नर डिटेक्टर प्राप्त करने के लिए स्केल-स्पेस में, जो इमेज डोमेन में विभिन्न आकारों की कॉर्नर संरचनाओं पर प्रतिक्रिया करता है।

व्यवहार में, इस मल्टी-स्केल कॉर्नर डिटेक्टर को अधिकांशतः स्केल चयन चरण द्वारा पूरक किया जाता है, जहां स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर :$$\nabla^2_\mathrm{norm} L(x, y; t)\ = t \nabla^2 L(x, y, t) = t (L_{xx}(x, y, t) + L_{yy}(x, y, t))$$ स्केल-स्पेस में हर पैमाने पर गणना की जाती है और स्वचालित स्केल चयन (हैरिस-लाप्लास ऑपरेटर) के साथ स्केल अनुकूलित कोने बिंदुओं की गणना उन बिंदुओं से की जाती है जो साथ हैं:


 * मल्टी-स्केल कोने माप की स्थानिक मैक्सिमा $$M_c(x, y; t, \gamma^2 t)$$
 * $$(\hat{x}, \hat{y}; t) = \operatorname{argmaxlocal}_{(x, y)} M_c \left(x, y; t, \gamma^2 t\right)$$
 * स्केल-सामान्यीकृत लाप्लासियन ऑपरेटर के पैमाने पर स्थानीय मैक्सिमा या मिनिमा $$\nabla^2_\mathrm{norm}(x, y, t)$$:
 * $$\hat{t} = \operatorname{argmaxminlocal}_{t} \nabla^2_\mathrm{norm}L(\hat{x}, \hat{y}; t)$$

स्तर वक्र वक्रता दृष्टिकोण
कोने का पता लगाने का पुराना विधि उन बिंदुओं का पता लगाना है जहां आइसोलिन्स की वक्रता और ढाल परिमाण साथ उच्च हैं। ऐसे बिंदुओं का पता लगाने का अलग विधि पुनर्स्केल स्तर वक्र वक्रता (स्तर वक्र वक्रता का उत्पाद और तीन की शक्ति तक बढ़ाए गए ढाल परिमाण) की गणना करना है।
 * $$\tilde{\kappa}(x, y;t) = L_x^2 L_{yy} + L_y^2 L_{xx} - 2 L_x L_y L_{xy}$$

और कुछ पैमाने पर इस अंतर अभिव्यक्ति के धनात्मक मैक्सिमा और नकारात्मक मिनिमा का पता लगाने के लिए $$t$$ स्केल स्पेस प्रतिनिधित्व में $$L$$ मूल छवि का.

चूँकि, एकल पैमाने पर पुनर्स्केल स्तर वक्र वक्रता इकाई की गणना करते समय मुख्य समस्या यह है कि यह शोर और स्केल स्तर की पसंद के प्रति संवेदनशील हो सकता है। की गणना करना उत्तम विधि है$$\gamma$$-सामान्यीकृत पुनर्स्केल्ड स्तर वक्र वक्रता
 * $$\tilde{\kappa}_\mathrm{norm}(x, y;t) = t^{2 \gamma} (L_x^2 L_{yy} + L_y^2 L_{xx} - 2 L_x L_y L_{xy})$$

साथ $$\gamma = 7/8$$ और इस अभिव्यक्ति के हस्ताक्षरित स्केल-स्पेस एक्स्ट्रेमा का पता लगाने के लिए, ये ऐसे बिंदु और स्केल हैं जो स्पेस और स्केल दोनों के संबंध में धनात्मक मैक्सिमा और नकारात्मक मिनिमा हैं।
 * $$(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argminmaxlocal}_{(x, y; t)} \tilde{\kappa}_\mathrm{norm}(x, y; t)$$

मोटे पैमाने पर स्थानीयकरण त्रुटि में वृद्धि को संभालने के लिए पूरक स्थानीयकरण कदम के साथ संयोजन में।  इस प्रकार, बड़े पैमाने के मूल्य बड़े स्थानिक विस्तार वाले गोल कोनों से जुड़े होंगे जबकि छोटे पैमाने के मूल्य छोटे स्थानिक विस्तार वाले तेज कोनों से जुड़े होंगे। यह दृष्टिकोण स्वचालित स्केल चयन वाला पहला कॉर्नर डिटेक्टर है (ऊपर हैरिस-लाप्लास ऑपरेटर से पहले) और इसका उपयोग छवि डोमेन में बड़े पैमाने पर बदलाव के अनुसार कोनों को ट्रैक करने के लिए किया गया है। और जियोन (मनोविज्ञान)-आधारित वस्तु पहचान के लिए संरचनात्मक छवि सुविधाओं की गणना करने के लिए किनारों से कोने की प्रतिक्रियाओं का मिलान करने के लिए।

गॉसियन का लाप्लासियन, गॉसियन के अंतर और हेसियन स्केल-स्पेस ब्याज बिंदुओं के निर्धारक
लकड़ी का लट्ठा  गॉसियन, DoG के लाप्लासियन का संक्षिप्त रूप है गॉसियन के अंतर के लिए संक्षिप्त शब्द है (DoG LoG का अनुमान है), और DoH हेसियन के निर्धारक के लिए संक्षिप्त शब्द है। ये सभी स्केल-अपरिवर्तनीय ब्याज बिंदु स्केल-सामान्यीकृत अंतर अभिव्यक्तियों के स्केल-स्पेस एक्स्ट्रेमा का पता लगाकर निकाले जाते हैं, यानी, स्केल-स्पेस में बिंदु जहां संबंधित स्केल-सामान्यीकृत अंतर अभिव्यक्तियां अंतरिक्ष और स्केल दोनों के संबंध में स्थानीय एक्स्स्ट्रेमा मानती हैं। :

$$(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argminmaxlocal}_{(x, y; t)} (D_\mathrm{norm} L)(x, y; t)$$

यहाँ $$D_{norm} L$$ उपयुक्त पैमाने-सामान्यीकृत अंतर इकाई को दर्शाता है (नीचे परिभाषित)।

इन डिटेक्टरों को ब्लॉब डिटेक्शन में अधिक पूरी प्रकार से वर्णित किया गया है। गॉसियन का स्केल-सामान्यीकृत लाप्लासियन और गॉसियन विशेषताओं का अंतर (लिंडेबर्ग 1994, 1998; लोव 2004)
 * $$\begin{align}

\nabla^2_\mathrm{norm} L(x, y; t) & = t \, (L_{xx} + L_{yy})\\ &\approx \frac{t \left( L(x, y; t+\Delta t) - L(x, y; t) \right)}{\Delta t} \end{align}$$ जरूरी नहीं कि अत्यधिक चयनात्मक विशेषताएं बनाएं, क्योंकि ये ऑपरेटर किनारों के पास भी प्रतिक्रियाएं दे सकते हैं। गॉसियन डिटेक्टर के अंतर की कोने का पता लगाने की क्षमता में सुधार करने के लिए, स्केल-अपरिवर्तनीय सुविधा परिवर्तन में उपयोग किए जाने वाले फ़ीचर डिटेक्टर इसलिए प्रणाली अतिरिक्त पोस्ट-प्रोसेसिंग चरण का उपयोग करता है, जहां डिटेक्शन स्केल पर छवि के हेस्सियन आव्यूह के आइगेनवैल्यू की जांच हैरिस ऑपरेटर की प्रकार ही की जाती है। यदि आइगेनमूल्य ​​​​का अनुपात बहुत अधिक है, तो स्थानीय छवि को बहुत किनारे जैसा माना जाता है, इसलिए सुविधा को अस्वीकार कर दिया जाता है। इसके अतिरिक्त गॉसियन फ़ीचर डिटेक्टर के लिंडेबर्ग के लाप्लासियन को किनारों के पास प्रतिक्रियाओं को दबाने के लिए पूरक अंतर अपरिवर्तनीय पर पूरक थ्रेशोल्डिंग सम्मलित करने के लिए परिभाषित किया जा सकता है।

हेसियन ऑपरेटर का स्केल-सामान्यीकृत निर्धारक (लिंडेबर्ग 1994, 1998) :$$\det H_\mathrm{norm} L = t^2 (L_{xx} L_{yy} - L_{xy}^2)$$ दूसरी ओर, अच्छी प्रकार से स्थानीयकृत छवि सुविधाओं के लिए अत्यधिक चयनात्मक है और केवल तभी प्रतिक्रिया करता है जब दो छवि दिशाओं में महत्वपूर्ण ग्रे-स्तर भिन्नताएं होती हैं और इस और अन्य स्थितियों में गॉसियन के लाप्लासियन की समानता में उत्तम रुचि बिंदु डिटेक्टर है। हेसियन का निर्धारक एफ़िन सहसंयोजक विभेदक अभिव्यक्ति है और इसमें लाप्लासियन ऑपरेटर की समानता में एफ़िन छवि परिवर्तनों के अनुसार उत्तम पैमाने पर चयन गुण हैं।

(लिंडेबर्ग 2013, 2015)। प्रयोगात्मक रूप से इसका तात्पर्य यह है कि हेसियन रुचि बिंदुओं के निर्धारक में लाप्लासियन रुचि बिंदुओं की समानता में स्थानीय छवि विरूपण के अनुसार उत्तम दोहराव गुण होते हैं, जिसके परिणामस्वरूप उच्च दक्षता स्कोर और कम 1-परिशुद्धता (सूचना पुनर्प्राप्ति) स्कोर के संदर्भ में छवि-आधारित मिलान का उत्तम प्रदर्शन होता है।.

इन और अन्य स्केल-स्पेस इंटरेस्ट पॉइंट डिटेक्टरों के स्केल चयन गुणों, एफ़िन ट्रांसफ़ॉर्मेशन गुणों और प्रयोगात्मक गुणों का विस्तार से विश्लेषण किया गया है (लिंडेबर्ग 2013, 2015)।

लिंडेबर्ग हेसियन फीचर ताकत उपायों के आधार पर स्केल-स्पेस रुचि बिंदु
हेसियन आव्यूह के संरचनात्मक रूप से समान गुणों से प्रेरित $$H f$$ समारोह का $$f$$ और दूसरे क्षण का आव्यूह (संरचना टेंसर) $$\mu$$, जैसे कि कर सकते हैं एफ़िन छवि विकृतियों के अनुसार उनके समान परिवर्तन गुणों के संदर्भ में प्रकट होना :$$(H f') = A^{-T} \, (H f) \, A^{-1}$$,
 * $$\mu' = A^{-T} \, \mu \, A^{-1}$$,

लिंडेबर्ग (2013, 2015) हेस्सियन आव्यूह से संबंधित तरीकों से चार फीचर ताकत उपायों को परिभाषित करने का प्रस्ताव किया गया है क्योंकि हैरिस और शि-एंड-टोमासी ऑपरेटरों को संरचना टेंसर (दूसरे-पल मैट्रिक्स) से परिभाषित किया गया है। विशेष रूप से, उन्होंने निम्नलिखित अहस्ताक्षरित और हस्ताक्षरित हेस्सियन सुविधा शक्ति उपायों को परिभाषित किया: \begin{cases} t^2 \, (\det H L - k \, \operatorname{trace}^2 H L)        & \mbox{if} \, \det H L - k \, \operatorname{trace}^2 H L > 0 \\ 0 & \mbox{otherwise} \end{cases} $$   \begin{cases} t^2 \, (\det H L - k \, \operatorname{trace}^2 H L)        & \mbox{if} \, \det H L - k \, \operatorname{trace}^2 H L > 0 \\ t^2 \, (\det H L + k \, \operatorname{trace}^2 H L)        & \mbox{if} \, \det H L + k \, \operatorname{trace}^2 H L < 0 \\ 0 & \mbox{otherwise} \end{cases} $$   \begin{cases} t \, \lambda_1(H L)       & \mbox{if} \, |\lambda_1(H L)| < |\lambda_2(H L)| \\ t \, \lambda_2(H L)       & \mbox{if} \, |\lambda_2(H L)| < |\lambda_1(H L)| \\ t \, (\lambda_1(H L) + \lambda_2(H L))/2 & \mbox{otherwise} \end{cases} $$ यहाँ $$\operatorname{trace} H L = L_{xx} + L_{yy}$$ और $$\det H L = L_{xx} L_{yy} - L_{xy}^2$$ हेसियन आव्यूह के ट्रेस और निर्धारक को निरूपित करें $$H L$$ स्केल-स्पेस प्रतिनिधित्व का $$L$$ किसी भी पैमाने पर $$t$$,
 * अहस्ताक्षरित हेसियन सुविधा शक्ति माप I:
 * $$D_{1,\mathrm{norm}} L =
 * हस्ताक्षरित हेस्सियन सुविधा शक्ति माप I:
 * $$\tilde{D}_{1,\mathrm{norm}} L =
 * अहस्ताक्षरित हेसियन सुविधा शक्ति माप II:
 * $$D_{2,\mathrm{norm}} L = t \, \min(|\lambda_1(H L)|, |\lambda_2(H L)|)$$
 * हस्ताक्षरित हेस्सियन सुविधा शक्ति माप II:
 * $$\tilde{D}_{2,\mathrm{norm}} L =

जबकि
 * $$\lambda_1(H L) = L_{pp} = \frac{1}{2} \left( L_{xx}+L_{yy} - \sqrt{(L_{xx}-L_{yy})^2 + 4 L_{xy}^2} \right)$$
 * $$\lambda_2(H L) = L_{qq} = \frac{1}{2} \left( L_{xx}+L_{yy} + \sqrt{(L_{xx}-L_{yy})^2 + 4 L_{xy}^2} \right)$$ हेसियन आव्यूह के आइगेनमूल्य ​​​​को निरूपित करें।

अहस्ताक्षरित हेसियन सुविधा शक्ति माप $$D_{1,\mathrm{norm}} L$$ धनात्मक मूल्यों द्वारा स्थानीय चरम सीमा पर प्रतिक्रिया करता है और काठी बिंदुओं के प्रति संवेदनशील नहीं है, जबकि हस्ताक्षरित हेसियन सुविधा शक्ति मापती है $$\tilde{D}_{1,\mathrm{norm}} L$$ नकारात्मक मूल्यों द्वारा सैडल बिंदुओं पर अतिरिक्त प्रतिक्रिया करता है। अहस्ताक्षरित हेसियन सुविधा शक्ति माप $$D_{2,\mathrm{norm}} L$$ सिग्नल की स्थानीय ध्रुवीयता के प्रति असंवेदनशील है, जबकि हस्ताक्षरित हेसियन सुविधा शक्ति मापती है $$\tilde{D}_{2,\mathrm{norm}} L$$ सिग्नल की स्थानीय ध्रुवता पर उसके आउटपुट के संकेत द्वारा प्रतिक्रिया करता है।

लिंडेबर्ग में (2015) इन चार विभेदक संस्थाओं को स्केल-स्पेस एक्स्ट्रेमा डिटेक्शन के आधार पर स्थानीय पैमाने के चयन के साथ जोड़ा गया था
 * $$(\hat{x}, \hat{y}; \hat{t}) = \operatorname{argminmaxlocal}_{(x, y; t)} (D_\mathrm{norm} L)(x, y; t)$$

या स्केल लिंकिंग। इसके अतिरिक्त, हस्ताक्षरित और अहस्ताक्षरित हेसियन में ताकत के उपाय हैं $$D_{2,\mathrm{norm}} L$$ और $$\tilde{D}_{2,\mathrm{norm}} L$$ पूरक थ्रेशोल्डिंग के साथ जोड़ा गया था $$D_{1,\mathrm{norm}} L > 0$$.

12 पोस्टर वाले पोस्टर डेटासेट पर स्केलिंग ट्रांसफॉर्मेशन के अनुसार छवि मिलान पर प्रयोगों द्वारा, 6 के स्केलिंग कारक तक स्केलिंग ट्रांसफॉर्मेशन पर मल्टी-व्यू मिलान और स्थानीय छवि डिस्क्रिप्टर के साथ 45 डिग्री के तिरछे कोण तक दिशा भिन्नता को देखने के लिए। स्केल-इनवेरिएंट फीचर में शुद्ध छवि डिस्क्रिप्टर छवि पिरामिड या मूल एसयूआरएफ से परिभाषित मूल एसआईएफटी के अतिरिक्त गाऊसी व्युत्पन्न ऑपरेटरों (गॉस-एसआईएफटी और गॉस-एसयूआरएफ) के संदर्भ में छवि माप के लिए मजबूत फीचर ऑपरेटरों को बदलते हैं और तेज करते हैं। हार वेवलेट्स से, यह दिखाया गया कि अहस्ताक्षरित हेसियन सुविधा शक्ति माप के आधार पर स्केल-स्पेस ब्याज बिंदु का पता लगाना $$D_{1,\mathrm{norm}} L$$ हेसियन के निर्धारक से प्राप्त स्केल-स्पेस ब्याज बिंदुओं की समानता में सर्वोत्तम प्रदर्शन और उत्तम प्रदर्शन की अनुमति दी गई $$\det H_\mathrm{norm} L = t^2 \left(L_{xx} L_{yy} - L_{xy}^2\right)$$. दोनों अहस्ताक्षरित हेस्सियन सुविधा शक्ति माप $$D_{1,\mathrm{norm}} L$$, हस्ताक्षरित हेसियन सुविधा शक्ति माप $$\tilde{D}_{1,norm} L$$ और हेस्सियन का निर्धारक $$\det H_{norm} L$$ गॉसियन के लाप्लासियन की समानता में उत्तम प्रदर्शन की अनुमति दी गई $$\nabla_\mathrm{norm}^2 L = t \, (L_{xx} + L_{yy})$$. जब स्केल लिंकिंग और पूरक थ्रेशोल्डिंग के साथ जोड़ा जाता है $$D_{1,\mathrm{norm}} L > 0$$, हस्ताक्षरित हेसियन सुविधा शक्ति माप $$\tilde{D}_{2,\mathrm{norm}} L$$ इसके अतिरिक्त गॉसियन के लाप्लासियन की समानता में उत्तम प्रदर्शन की अनुमति दी गई $$\nabla_{\mathrm{norm}}^2 L$$.

इसके अतिरिक्त, यह दिखाया गया कि हेसियन आव्यूह से परिभाषित ये सभी विभेदक स्केल-स्पेस ब्याज बिंदु डिटेक्टर संरचना से परिभाषित हैरिस और शि-एंड-टोमासी ऑपरेटरों की समानता में बड़ी संख्या में ब्याज बिंदुओं का पता लगाने और उत्तम मिलान प्रदर्शन की अनुमति देते हैं। टेंसर (दूसरे क्षण का मैट्रिक्स)।

इन चार हेसियन फीचर शक्ति उपायों और स्केल-स्पेस ब्याज बिंदुओं का पता लगाने के लिए अन्य अंतर इकाइयों के स्केल चयन गुणों का सैद्धांतिक विश्लेषण, जिसमें गॉसियन के लाप्लासियन और हेसियन के निर्धारक सम्मलित हैं, लिंडेबर्ग (2013) में दिया गया है। और लिंडेबर्ग (2015) में उनके एफ़िन परिवर्तन गुणों के साथ-साथ प्रयोगात्मक गुणों का विश्लेषण होता है।

एफ़िन-अनुकूलित ब्याज बिंदु ऑपरेटर
स्वचालित स्केल चयन के साथ मल्टी-स्केल हैरिस ऑपरेटर से प्राप्त ब्याज बिंदु स्थानिक डोमेन में अनुवाद, रोटेशन और समान पुनर्स्केलिंग के लिए अपरिवर्तनीय हैं। चूँकि, जो छवियाँ कंप्यूटर विज़न प्रणाली के लिए इनपुट का निर्माण करती हैं, वे भी परिप्रेक्ष्य विकृतियों के अधीन हैं। रुचि बिंदु ऑपरेटर प्राप्त करने के लिए जो परिप्रेक्ष्य परिवर्तनों के लिए अधिक मजबूत है, प्राकृतिक दृष्टिकोण फीचर डिटेक्टर तैयार करना है जो कि परिवर्तनों को प्रभावित करने के लिए अपरिवर्तनीय है। व्यवहार में, एफ़िन अपरिवर्तनीय रुचि बिंदुओं को एफ़िन आकार अनुकूलन लागू करके प्राप्त किया जा सकता है जहां स्मूथिंग कर्नेल का आकार रुचि बिंदु के आसपास स्थानीय छवि संरचना से मेल खाने के लिए पुनरावृत्त रूप से विकृत होता है या समकक्ष रूप से स्थानीय छवि पैच पुनरावृत्त रूप से विकृत होता है जबकि स्मूथिंग का आकार होता है कर्नेल घूर्णी रूप से सममित रहता है (लिंडेबर्ग 1993, 2008; लिंडेबर्ग और गार्डिंग 1997; मिकोलाजस्क और श्मिट 2004)। इसलिए, सामान्यतः उपयोग किए जाने वाले मल्टी-स्केल हैरिस ऑपरेटर के अतिरिक्त , इस आलेख में सूचीबद्ध अन्य कोने डिटेक्टरों के साथ-साथ ब्लॉब डिटेक्शन जैसे गॉसियन ऑपरेटर के लाप्लासियन/अंतर, हेसियन के निर्धारक, पर एफ़िन आकार अनुकूलन लागू किया जा सकता है। और हेस्सियन-लाप्लास ऑपरेटर होता है।

वैंग और ब्रैडी कॉर्नर डिटेक्शन एल्गोरिदम
वैंग और ब्रैडी डिटेक्टर छवि को सतह मानता है, और उन स्थानों की अविष्कार करता है जहां छवि किनारे पर बड़ी वक्रता होती है। दूसरे शब्दों में, एल्गोरिदम उन स्थानों की अविष्कार करता है जहां किनारा तेजी से दिशा बदलता है। कोने का स्कोर, $$C$$, द्वारा दिया गया है:



C = \left(\frac{\delta^2 I}{\delta \mathbf{t}^2}\right)^2 - c|\nabla I|^2, $$ यहाँ $$\bf{t}$$ ग्रेडिएंट के लंबवत इकाई वेक्टर है, और $$c$$ यह निर्धारित करता है कि डिटेक्टर कितना एज-फ़ोबिक है। लेखक यह भी ध्यान देते हैं कि शोर को कम करने के लिए स्मूथिंग (गॉसियन का सुझाव दिया गया है) की आवश्यकता है।

स्मूथिंग भी कोनों के विस्थापन का कारण बनती है, इसलिए लेखक 90 डिग्री के कोने के विस्थापन के लिए अभिव्यक्ति प्राप्त करते हैं, और इसे पहचाने गए कोनों पर सुधार कारक के रूप में लागू करते हैं।

सुसान कॉर्नर डिटेक्टर
सुसान यह संक्षिप्त शब्द है जो नाभिक को आत्मसात करने वाले सबसे छोटे एकमूल्य खंड के लिए खड़ा है। यह विधि 1994 के यूके पेटेंट का विषय है जो अब लागू नहीं है।

सुविधा का पता लगाने के लिए, सुसान परीक्षण किए जाने वाले पिक्सेल (नाभिक) के ऊपर गोलाकार मास्क लगाता है। मुखौटे का क्षेत्र है $$M$$, और इस मास्क में पिक्सेल का प्रतिनिधित्व किया जाता है $$\vec{m} \in M$$. केन्द्रक पर है $$\vec{m}_0$$. समानता फ़ंक्शन का उपयोग करके प्रत्येक पिक्सेल की समानता नाभिक से की जाती है:



c(\vec{m}) = e^{-\left(\frac{I(\vec{m}) - I(\vec{m}_0)}{t}\right)^6} $$ यहाँ $$t$$ चमक अंतर सीमा है, $$I$$ पिक्सेल की चमक है और घातांक की शक्ति अनुभवजन्य रूप से निर्धारित की गई है। इस फ़ंक्शन में चिकने आयताकार फ़ंक्शन | टॉप-हैट या आयताकार फ़ंक्शन की उपस्थिति होती है। सुसान का क्षेत्रफल इस प्रकार दिया गया है:



n(M) = \sum_{\vec{m}\in M} c(\vec{m}) $$ यदि $$c$$ तो, आयताकार फलन है $$n$$ मास्क में पिक्सेल की संख्या है जो अंदर हैं $$t$$ नाभिक का. सुसान ऑपरेटर की प्रतिक्रिया इस प्रकार दी गई है:



R(M) =    \begin{cases} g - n(M) & \mbox{if}\ n(M) < g\\ 0       & \mbox{otherwise,} \end{cases} $$ यहाँ $$g$$ को 'ज्यामितीय सीमा' नाम दिया गया है। दूसरे शब्दों में, सुसान ऑपरेटर का स्कोर केवल तभी धनात्मक होता है जब क्षेत्र अत्यधिक छोटा हो। स्थानीय स्तर पर सबसे छोटा सुसान गैर-अधिकतम दमन का उपयोग करके पाया जा सकता है, और यह संपूर्ण सुसान ऑपरेटर है।

मूल्य $$t$$ यह निर्धारित करता है कि यूनीवैल्यू सेगमेंट का भाग माने जाने से पहले नाभिक के समान बिंदु कितने समान होने चाहिए। का मान है $$g$$ यूनीवैल्यू सेगमेंट का न्यूनतम आकार निर्धारित करता है। यदि $$g$$ अत्यधिक बड़ा है, तो यह किनारे का पता लगाना बन जाता है।

कोने का पता लगाने के लिए, दो और चरणों का उपयोग किया जाता है। सबसे पहले सुसान का केन्द्रक पाया जाता है। उचित कोने में केन्द्रक नाभिक से दूर होगा। दूसरा चरण इस बात पर जोर देता है कि नाभिक से केन्द्रक के माध्यम से मास्क के किनारे तक की रेखा पर सभी बिंदु सुसान में हैं।

ट्रैजकोविक और हेडली कॉर्नर डिटेक्टर
सुसान के प्रकार की विधि, यह डिटेक्टर सीधे यह जांचता है कि क्या पिक्सेल के नीचे पैच स्व-समान है, निकटतम पिक्सेलों की जांच करके। $$\vec{c}$$ विचार किए जाने वाला पिक्सेल है, और $$\vec{p} \in P$$ पृष्ठ पर बिंदु है जो बिंदु $$\vec{c}$$ के चारों ओर केंद्रित वृत्त $$P$$. के चारों ओर रहता है। बिंदु $$\vec{p}'$$ विषमता वाले सिरे के लिए $$\vec{p}$$ के विपरीत बिंदु है।

प्रतिक्रिया फ़ंक्शन को इस प्रकार परिभाषित किया गया है:



r(\vec{c}) = \min_{\vec{p} \in P} \left(\left(I(\vec{p}) - I(\vec{c})\right)^2 + \left(I(\vec{p}') - I(\vec{c})\right) ^2\right) $$ यह तब बड़ा होगा जब ऐसी कोई दिशा नहीं होगी जिसमें केंद्र पिक्सेल व्यास के साथ दो निकटवर्ती पिक्सेल के समान हो। $$P$$ पृथक वृत्त ( मध्यबिंदु वृत्त एल्गोरिथ्म) है, इसलिए अधिक आइसोट्रोपिक प्रतिक्रिया देने के लिए मध्यवर्ती व्यास के लिए प्रक्षेप का उपयोग किया जाता है। चूँकि कोई भी गणना $$\min$$ के ऊपरी सीमा दी जाती है, इसलिए पहले यह देखा जाता है कि क्या सम्पूर्ण $$c$$ की गणना पूरी करने में लायक है, इसके लिए संयोजनात्मक और लंबवत दिशाओं की जांच की जाती है।

एएसटी-आधारित फीचर डिटेक्टर
इस प्रकार एएसटी त्वरित खंड परीक्षण का संक्षिप्त रूप है। यह परीक्षण सुसान कॉर्नर मानदंड का संविहित संस्करण है। परीक्षण में, गोलाकार वट की जगह, केवल उम्मीदवार बिंदु के चारों ओर $$r$$ के ब्रेजेनहम वृत्त में पिक्सेल को मान्यता दी जाती है। यदि $$n$$ संचित पिक्सेल सभी न्यूक्लियस से कम से कम $$t$$ या सभी न्यूक्लियस से अधिक के रूप में धुंधले हों, तो न्यूक्लियस के नीचे पिक्सेल को विशेषता माना जाता है। इस परीक्षण की सुचारू रूप से स्थिर विशेषताएं उत्पन्न की जाती हैं। जिस क्रम में पिक्सेल का परीक्षण किया जाता है उसका चुनाव तथाकथित बीस प्रश्न है। इस समस्या के लिए छोटे निर्णय पेड़ बनाने से सबसे अधिक गणनात्मक रूप से दक्ष विशेषता डिटेक्टर प्राप्त होते हैं।

इस प्रकार एएसटी पर आधारित पहला कॉर्नर डिटेक्शन एल्गोरिदम फास्ट (एकीकृत सेगमेंट परीक्षण से विशेषताएं) है। यद्यपि, सिद्धांत में $$r$$ किसी भी मान को ले सकता है, FAST केवल 3 का मान (16 पिक्सेल परिधि का वृत्त के समान) का उपयोग करता है, और परीक्षण से पता चलता है कि सबसे अच्छा परिणाम $$n$$ के साथ प्राप्त किया जाता है। यह मान $$n$$ वह सबसे निम्न मान है जिस पर किनारों का पता नहीं चलता है। पिक्सेलों की परीक्षा की क्रमबद्धता प्रशिक्षण सेट से ID3 एल्गोरिदम द्वारा निर्धारित की जाती है। संदिग्धतापूर्ण रूप से, इस डिटेक्टर का नाम प्रकाशित करने वाले पेपर के नाम से कुछ समान होता है जो तराजकोविक और हेडली के डिटेक्टर का वर्णन करता है।

डिटेक्टरों का स्वचालित संश्लेषण
त्रुहिलो और ओलाग्यू ने विधि प्रस्तुत की है जिसमें आनुवंशिक प्रोग्रामिंग का उपयोग करके स्वचालित रूप से छवि ऑपरेटर संश्लेषण किया जाता है जो रुचि बिंदुओं को पता लगा सकते हैं। टर्मिनल और फंक्शन सेट में प्राथमिक आपरेशन सम्मलित हैं जो पहले से प्रस्तावित मन-निर्मित डिज़ाइन में सामान्य रूप से पाए जाते हैं। फिटनेस मापक प्रत्येक ऑपरेटर की स्थिरता को अवरुद्धता दरदी माध्यम से मापता है, और छवि तस्वीर प्लेन में पाये गए बिंदुओं के विन्यास में समान वितरण को बढ़ावा देता है। विकसित ऑपरेटर्स के प्रदर्शन को प्रयोगात्मक रूप से प्रमाणित किया गया है जब आदेशित और परीक्षण श्रृंखलाओं का उपयोग करके प्रगतिशील रूप से परिवर्तित छवियों के लिए किया गया है। इसलिए, प्रस्तावित जीपी एल्गोरिदम को रुचि बिंदु डिटेक्शन की समस्या के लिए मानव-प्रतियोगी माना जाता है।

स्थानिक-अस्थायी रुचि बिंदु डिटेक्टर
इस प्रकार स्थान-समय में हैरिस ऑपरेटर को लपटेव और लिन्डबर्ग द्वारा स्थान-समय तक विस्तारित किया गया है। होने देना $$\mu$$ स्थान-समय द्वितीय-मोमेंट आव्यूह को प्रतिनिधित्व करने वाला समकालिक संबंधी आव्यूह के द्वारा चित्रित करें



A = \sum_u \sum_v \sum_w h(u,v, w) \begin{bmatrix} L_x(u,v,w)^2 & L_x(u,v,w) L_y(u,v,w) & L_x(u,v,w) L_t(u,v,w) \\ L_x(u,v,w) L_y(u,v,w) & L_y(u,v,w)^2 & L_y(u,v,w) L_t(u,v,w) \\ L_x(u,v,w) L_t(u,v,w) & L_y(u,v,w) L_t(u,v,w) & L_t(u,v,w)^2 \\ \end{bmatrix} = \begin{bmatrix} \langle L_x^2 \rangle & \langle L_x L_y \rangle & \langle L_x L_t \rangle\\ \langle L_x L_y \rangle & \langle L_y^2 \rangle & \langle L_y L_t \rangle\\ \langle L_x L_t \rangle & \langle L_y L_t \rangle & \langle L_t^2 \rangle\\ \end{bmatrix} $$ फिर, $$k < 1/27$$ उचित चयन के लिए है। स्थान-समय रुचि बिंदुओं की खोज निम्नलिखित स्थान-समय हैरिस माप के स्थान-समय अधिकतमों से होती है:



H = \det(\mu) - \kappa \, \operatorname{trace}^2(\mu). $$ हेसियन ऑपरेटर का निर्णय संयोजन अंतर्दृष्टि जगत के विलेम्स एट अल और लिंडेबर्ग, द्वारा स्थान-समय में किया गया है, जिससे निम्नलिखित स्केल-मानकीकरण विभेदक अभिव्यक्ति में प्रवेश हुआ है:



\det(H_{(x,y,t),\mathrm{norm}} L)    = \, s^{2 \gamma_s} \tau^{\gamma_{\tau}} \left( L_{xx} L_{yy} L_{tt} + 2 L_{xy} L_{xt} L_{yt}       - L_{xx} L_{yt}^2 - L_{yy} L_{xt}^2 - L_{tt} L_{xy}^2 \right). $$ विलेम्स एट अल के काम में, $$\gamma_s = 1$$ और $$\gamma_{\tau} = 1$$ के लिए सरल अभिव्यक्ति का प्रयोग किया गया था। लिंडेबर्ग में, दिखाया कि $$\gamma_s = 5/4$$ और $$\gamma_{\tau} = 5/4$$ स्थान-समय माप परम्पराओं के चयन के गुणवत्ता में उत्तम परिणाम देता है, जिसका अर्थ है कि स्थान-समय गौसियन ब्लॉब के साथ स्थानिक परिस्थिति $$s = s_0$$ और कालिक परिस्थिति $$\tau = \tau_0$$ के सही मेल करेंगे, जहां स्थानिक चयन स्थान-समय तकनीकी अधिकताओं को पकड़कर किया जाता है।

लाप्लासियन ऑपरेटर को लिंडेबर्ग द्वारा स्थान-समय वीडियो डेटा तक विस्तारित किया गया है, जिससे निम्नलिखित दो स्थान-समय ऑपरेटर भी उत्पन्न हुए हैं, जो पार्श्व जीनिकुलेट नाभिक में पिछले न्यूरॉन के बिना और लैग्ड न्यूरॉन के ग्रहक के मॉडल भी हैं:



\partial_{t,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}/2} (L_{xxt} + L_{yyt}), $$

\partial_{tt,\mathrm{norm}} (\nabla_{(x,y),\mathrm{norm}}^2 L) = s^{\gamma_s} \tau^{\gamma_{\tau}} (L_{xxtt} + L_{yytt}). $$ पहले ऑपरेटर के लिए, स्केल चयन गुणों के लिए, $$\gamma_s = 1$$ और $$\gamma_{\tau} = 1/2$$, का प्रयोग करना चाहिए, यदि हम चाहते हैं कि इस ऑपरेटर को अपनी अधिकतम मानकीकरण स्थान-समय पर स्थान-समय स्तरों पर उचित चयन करें, जो प्रारंभिक गॉसियन ब्लॉब की स्थानिक विस्तार और कालिक अवधि को अभिव्यक्त करते हैं। दूसरे ऑपरेटर के लिए, स्केल चयन गुणों के लिए, $$\gamma_s = 1$$ और $$\gamma_{\tau} = 3/4$$, का प्रयोग करना चाहिए, यदि हम चाहते हैं कि इस ऑपरेटर को अपनी अधिकतम मानकीकरण स्थान-समय पर स्थान-समय स्तरों पर उचित चयन करें, जो झपकते हुए गॉसियन ब्लॉब की स्थानिक विस्तार और कालिक अवधि को अभिव्यक्त करते हैं।

स्थान-समय रुचि बिंदु डिटेक्टरों के रंगीन विस्तार का अध्ययन एवर्ट्स एट अल द्वारा की गई है।

संदर्भ कार्यान्वयन
यह अनुभाग ऊपर वर्णित कुछ डिटेक्टरों के संदर्भ कार्यान्वयन के लिए बाहरी लिंक प्रदान करता है। ये संदर्भ कार्यान्वयन उस पेपर के लेखकों द्वारा प्रदान किए गए हैं जिसमें डिटेक्टर का पहली बार वर्णन किया गया है। इनमें ऐसे विवरण सम्मलित हो सकते हैं जो विशेषताओं का वर्णन करने वाले कागजात में उपस्थित या स्पष्ट नहीं हैं।
 * DoG डिटेक्शन (स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म प्रणाली के भाग के रूप में), Microsoft Windows और x86 Linux निष्पादनयोग्य
 * हैरिस-लाप्लेस, स्थिर लिनक्स निष्पादन योग्य। इसमें DoG और LoG डिटेक्टर और सभी डिटेक्टरों के लिए एफ़िन अनुकूलन भी सम्मलित है।
 * फास्ट डिटेक्टर, C, C++, MATLAB स्रोत कोड और विभिन्न ऑपरेटिंग प्रणाली और आर्किटेक्चर के लिए निष्पादन योग्य।
 * लिप-विरियो, [LoG, DoG, हैरिस-लाप्लासियन, हेसियन और हेसियन-लाप्लासियन], [SIFT, फ्लिप इनवेरिएंट SIFT, पीसीए-एसआईएफटी, पीएसआईएफटी, स्टीयरेबल फिल्टर, स्पिन] [लिनक्स, विंडोज और सनओएस] निष्पादन योग्य।
 * सुसान लो लेवल इमेज प्रोसेसिंग, सी सोर्स कोड।
 * हैरिस कॉर्नर डिटेक्टर का ऑनलाइन कार्यान्वयन - IPOL

यह भी देखें

 * बूँद का पता लगाना
 * एफ़िन आकार अनुकूलन
 * स्केल स्पेस
 * रिज का पता लगाना
 * रुचि बिंदु का पता लगाना
 * सुविधा का पता लगाना (कंप्यूटर विज़न)
 * छवि व्युत्पन्न

बाहरी संबंध

 * Brostow, "Corner Detection -- UCL Computer Science"
 * Brostow, "Corner Detection -- UCL Computer Science"