निकटतम नेबर सर्च (एनएनएस)

निकटतम पड़ोसी खोज (एनएनएस), निकटता खोज के रूप के रूप में, किसी दिए गए सेट में उस बिंदु को खोजने की अनुकूलन समस्या है जो किसी दिए गए बिंदु के सबसे करीब (या सबसे समान) है। निकटता को आम तौर पर असमानता फ़ंक्शन के संदर्भ में व्यक्त किया जाता है: जितनी कम समानता वस्तुओं को मापती है, फ़ंक्शन मान उतना ही बड़ा होता है।

औपचारिक रूप से, निकटतम-पड़ोसी (एनएन) खोज समस्या को इस प्रकार परिभाषित किया गया है: स्थान एम में बिंदुओं का सेट एस और क्वेरी बिंदु क्यू ∈ एम दिया गया है, S से q में निकटतम बिंदु खोजें। वॉल्यूम में डोनाल्ड नुथ। कंप्यूटर प्रोग्रामिंग की कला (1973) के 3 में इसे डाकघर की समस्या कहा गया है, जिसमें निकटतम डाकघर के लिए निवास आवंटित करने के आवेदन का जिक्र है। इस समस्या का प्रत्यक्ष सामान्यीकरण k-NN खोज है, जहां हमें k निकटतम बिंदु खोजने की आवश्यकता होती है।

आमतौर पर एम मीट्रिक स्थान है और असमानता को दूरी मीट्रिक के रूप में व्यक्त किया जाता है, जो सममित है और त्रिकोण असमानता को संतुष्ट करता है। इससे भी अधिक सामान्य, एम को डी-आयामी सदिश स्थल के रूप में लिया जाता है जहां असमानता को यूक्लिडियन दूरी, टैक्सीकैब ज्यामिति या अन्य सांख्यिकीय दूरी का उपयोग करके मापा जाता है। हालाँकि, असमानता फ़ंक्शन मनमाना हो सकता है। उदाहरण असममित ब्रेगमैन विचलन है, जिसके लिए त्रिभुज असमानता लागू नहीं होती है।

अनुप्रयोग
निकटतम पड़ोसी खोज समस्या अनुप्रयोग के कई क्षेत्रों में उत्पन्न होती है, जिनमें शामिल हैं:
 * पैटर्न पहचान - विशेष रूप से ऑप्टिकल कैरेक्टर पहचान के लिए
 * सांख्यिकीय वर्गीकरण - के-निकटतम पड़ोसी एल्गोरिदम देखें
 * कंप्यूटर दृष्टि - पॉइंट क्लाउड पंजीकरण के लिए
 * कम्प्यूटेशनल ज्यामिति - बिंदुओं की निकटतम जोड़ी समस्या देखें
 * डेटाबेस - उदा. सामग्री-आधारित छवि पुनर्प्राप्ति
 * कोडिंग सिद्धांत - डिकोडिंग विधियां देखें
 * सिमेंटिक खोज
 * डेटा संपीड़न - MPEG-2 मानक देखें
 * रोबोटिक सेंसिंग
 * अनुशंसा प्रणाली, उदा. सहयोगात्मक फ़िल्टरिंग देखें
 * इंटरनेट विपणन - प्रासंगिक विज्ञापन और व्यवहारिक लक्ष्यीकरण देखें
 * डीएनए श्रृंखला बनाना
 * वर्तनी जाँच - सही वर्तनी का सुझाव देना
 * साहित्यिक चोरी का पता लगाना
 * पेशेवर एथलीटों के करियर पथ की भविष्यवाणी के लिए समानता स्कोर।
 * क्लस्टर विश्लेषण - अवलोकनों के सेट को उपसमूहों (जिन्हें क्लस्टर कहा जाता है) में असाइन करना ताकि ही क्लस्टर में अवलोकन कुछ अर्थों में समान हों, आमतौर पर यूक्लिडियन दूरी पर आधारित होते हैं
 * रासायनिक समानता
 * मोशन प्लानिंग#सैंपलिंग-आधारित एल्गोरिदम|सैंपलिंग-आधारित मोशन प्लानिंग

तरीके
एनएनएस समस्या के विभिन्न समाधान प्रस्तावित किए गए हैं। एल्गोरिदम की गुणवत्ता और उपयोगिता प्रश्नों की समय जटिलता के साथ-साथ किसी भी खोज डेटा संरचना की स्थान जटिलता द्वारा निर्धारित की जाती है जिसे बनाए रखा जाना चाहिए। अनौपचारिक अवलोकन जिसे आमतौर पर आयामीता के अभिशाप के रूप में जाना जाता है, बताता है कि बहुपद प्रीप्रोसेसिंग और पॉलीलॉगरिदमिक खोज समय का उपयोग करके उच्च-आयामी यूक्लिडियन अंतरिक्ष में एनएनएस के लिए कोई सामान्य-उद्देश्य सटीक समाधान नहीं है।

रैखिक खोज
एनएनएस समस्या का सबसे सरल समाधान अब तक के सर्वश्रेष्ठ का ट्रैक रखते हुए, डेटाबेस में क्वेरी बिंदु से हर दूसरे बिंदु तक की दूरी की गणना करना है। यह एल्गोरिदम, जिसे कभी-कभी अनुभवहीन दृष्टिकोण के रूप में जाना जाता है, का चलने का समय O(dN) है, जहां N, S की प्रमुखता है और d, S की आयामीता है। बनाए रखने के लिए कोई खोज डेटा संरचनाएं नहीं हैं, इसलिए रैखिक खोज है डेटाबेस के भंडारण से परे कोई स्थान जटिलता नहीं। सामान्य खोज, औसतन, उच्च आयामी स्थानों पर अंतरिक्ष विभाजन दृष्टिकोण से बेहतर प्रदर्शन कर सकती है। दूरी की तुलना के लिए पूर्ण दूरी की आवश्यकता नहीं है, केवल सापेक्ष दूरी की आवश्यकता है। ज्यामितीय समन्वय प्रणालियों में दो निर्देशांकों के बीच की दूरी की गणना से वर्गमूल गणना को हटाकर दूरी की गणना में काफी तेजी लाई जा सकती है। दूरी की तुलना अभी भी समान परिणाम देगी।

अंतरिक्ष विभाजन
1970 के दशक से, शाखा और बाध्य पद्धति को समस्या पर लागू किया गया है। यूक्लिडियन अंतरिक्ष के मामले में, यह दृष्टिकोण स्थानिक सूचकांक या स्थानिक पहुंच विधियों को शामिल करता है। एनएनएस समस्या को हल करने के लिए कई अंतरिक्ष विभाजन|अंतरिक्ष-विभाजन विधियां विकसित की गई हैं। शायद सबसे सरल के-डी पेड़ है, जो खोज स्थान को मूल क्षेत्र के आधे बिंदुओं वाले दो क्षेत्रों में पुनरावृत्त रूप से विभाजित करता है। प्रत्येक विभाजन पर क्वेरी बिंदु का मूल्यांकन करके क्वेरी को जड़ से पत्ती तक पेड़ के ट्रैवर्सल के माध्यम से निष्पादित किया जाता है। क्वेरी में निर्दिष्ट दूरी के आधार पर, पड़ोसी शाखाओं जिनमें हिट हो सकती हैं, का भी मूल्यांकन करने की आवश्यकता हो सकती है। निरंतर आयाम क्वेरी समय के लिए, औसत जटिलता O(लॉग एन) है बेतरतीब ढंग से वितरित बिंदुओं के मामले में, सबसे खराब स्थिति जटिलता O(kN^(1-1/k)) है वैकल्पिक रूप से आर-वृक्ष डेटा संरचना को गतिशील संदर्भ में निकटतम पड़ोसी खोज का समर्थन करने के लिए डिज़ाइन किया गया था, क्योंकि इसमें आर* पेड़ जैसे सम्मिलन और विलोपन के लिए कुशल एल्गोरिदम हैं। आर-पेड़ न केवल यूक्लिडियन दूरी के लिए निकटतम पड़ोसी प्रदान कर सकते हैं, बल्कि अन्य दूरियों के साथ भी इसका उपयोग किया जा सकता है।

सामान्य मीट्रिक स्थान के मामले में, शाखा-और-बाउंड दृष्टिकोण को मीट्रिक पेड़ दृष्टिकोण के रूप में जाना जाता है। विशेष उदाहरणों में वीपी-वृक्ष और बीके-वृक्ष विधियां शामिल हैं।

3-आयामी स्थान से लिए गए बिंदुओं के सेट का उपयोग करके और बाइनरी स्पेस विभाजन में डालकर, और उसी स्थान से लिया गया क्वेरी बिंदु दिया गया, क्वेरी बिंदु के निकटतम बिंदु-क्लाउड बिंदु को खोजने की समस्या का संभावित समाधान है एल्गोरिदम के निम्नलिखित विवरण में दिया गया है।

(सख्ती से कहें तो, ऐसा कोई बिंदु मौजूद नहीं हो सकता है, क्योंकि यह अद्वितीय नहीं हो सकता है। लेकिन व्यवहार में, आमतौर पर हम केवल सभी बिंदु-क्लाउड बिंदुओं के सबसेट में से किसी को खोजने की परवाह करते हैं जो किसी दिए गए क्वेरी बिंदु से सबसे कम दूरी पर मौजूद होते हैं .) विचार यह है कि, पेड़ की प्रत्येक शाखा के लिए, अनुमान लगाएं कि बादल में निकटतम बिंदु क्वेरी बिंदु वाले आधे स्थान में रहता है। यह मामला नहीं हो सकता है, लेकिन यह अच्छा अनुमान है। अनुमानित अर्ध-स्थान के लिए समस्या को हल करने की सभी परेशानियों से गुजरने के बाद, अब इस परिणाम द्वारा लौटाई गई दूरी की तुलना क्वेरी बिंदु से विभाजन तल तक की सबसे छोटी दूरी से करें। यह बाद वाली दूरी क्वेरी बिंदु और निकटतम संभावित बिंदु के बीच की दूरी है जो खोजे न गए आधे स्थान में मौजूद हो सकती है। यदि यह दूरी पिछले परिणाम में दी गई दूरी से अधिक है, तो स्पष्ट रूप से अन्य आधे स्थान की खोज करने की कोई आवश्यकता नहीं है। यदि ऐसी कोई आवश्यकता है, तो आपको अन्य आधे स्थान के लिए समस्या को हल करने की परेशानी से गुजरना होगा, और फिर उसके परिणाम की तुलना पिछले परिणाम से करनी होगी, और फिर उचित परिणाम लौटाना होगा। इस एल्गोरिदम का प्रदर्शन रैखिक समय की तुलना में लॉगरिदमिक समय के करीब होता है जब क्वेरी बिंदु क्लाउड के नजदीक होता है, क्योंकि क्वेरी बिंदु और निकटतम बिंदु-क्लाउड बिंदु के बीच की दूरी शून्य के करीब होती है, एल्गोरिदम को केवल लुक-अप का उपयोग करने की आवश्यकता होती है सही परिणाम प्राप्त करने के लिए क्वेरी बिंदु को कुंजी के रूप में उपयोग करें।

सन्निकटन विधियाँ
एक अनुमानित निकटतम पड़ोसी खोज एल्गोरिदम को उन बिंदुओं को वापस करने की अनुमति है जिनकी क्वेरी से दूरी अधिकतम है $$c$$ क्वेरी से उसके निकटतम बिंदुओं की दूरी का गुना। इस दृष्टिकोण की अपील यह है कि, कई मामलों में, अनुमानित निकटतम पड़ोसी लगभग उतना ही अच्छा होता है जितना कि सटीक पड़ोसी। विशेष रूप से, यदि दूरी माप उपयोगकर्ता की गुणवत्ता की धारणा को सटीक रूप से पकड़ लेता है, तो दूरी में छोटे अंतर से कोई फर्क नहीं पड़ना चाहिए।

निकटता पड़ोस ग्राफ़ में लालची खोज
निकटता ग्राफ़ विधियाँ (जैसे HNSW ) को निकटतम पड़ोसियों की खोज के लिए वर्तमान अत्याधुनिक माना जाता है। विधियाँ निकटता पड़ोस ग्राफ़ में लालची ट्रैवर्सिंग पर आधारित हैं $$G(V,E)$$ जिसमें हर बिंदु $$x_i \in S $$ शिखर के साथ विशिष्ट रूप से जुड़ा हुआ है $$v_i \in V $$. सेट S में क्वेरी q के निकटतम पड़ोसियों की खोज ग्राफ़ में शीर्ष की खोज का रूप लेती है $$G(V,E)$$. मूल एल्गोरिदम - लालची खोज - निम्नानुसार काम करती है: खोज प्रवेश-बिंदु शीर्ष से शुरू होती है $$v_i \in V $$ क्वेरी q से उसके पड़ोस के प्रत्येक शीर्ष तक की दूरी की गणना करके $$\{v_j:(v_i,v_j) \in E\}$$, और फिर न्यूनतम दूरी मान वाला शीर्ष ढूँढता है। यदि क्वेरी और चयनित शीर्ष के बीच की दूरी का मान क्वेरी और वर्तमान तत्व के बीच की दूरी से छोटा है, तो एल्गोरिदम चयनित शीर्ष पर चला जाता है, और यह नया प्रवेश-बिंदु बन जाता है। एल्गोरिदम तब रुक जाता है जब यह स्थानीय न्यूनतम तक पहुंच जाता है: शीर्ष जिसके पड़ोस में शीर्ष नहीं होता है जो शीर्ष की तुलना में क्वेरी के करीब होता है।

निकटता पड़ोस ग्राफ़ के विचार का कई प्रकाशनों में उपयोग किया गया, जिसमें आर्य और माउंट का मौलिक पेपर भी शामिल है, विमान के लिए वोरोनेट प्रणाली में, के लिए RayNet प्रणाली में $$\mathbb{E}^n$$, और मेट्रिज़्ड स्मॉल वर्ल्ड में और एचएनएसडब्ल्यू दूरी फ़ंक्शन वाले रिक्त स्थान के सामान्य मामले के लिए एल्गोरिदम। इन कार्यों से पहले टूसेंट का अग्रणी पेपर प्रकाशित हुआ था, जिसमें उन्होंने सापेक्ष पड़ोस ग्राफ की अवधारणा पेश की थी।

स्थानीय संवेदनशील हैशिंग
स्थानीयता संवेदनशील हैशिंग (एलएसएच) बिंदुओं पर संचालित कुछ दूरी मीट्रिक के आधार पर अंतरिक्ष में बिंदुओं को 'बाल्टी' में समूहीकृत करने की तकनीक है। चुने गए मीट्रिक के तहत एक-दूसरे के करीब आने वाले बिंदुओं को उच्च संभावना के साथ ही बकेट में मैप किया जाता है।

छोटे आंतरिक आयाम वाले स्थानों में निकटतम पड़ोसी की खोज
वृक्ष को ढकें में सैद्धांतिक सीमा होती है जो डेटासेट के दोहरीकरण स्थिरांक पर आधारित होती है। खोज समय की सीमा O(c) है12लॉग एन) जहां सी डेटासेट की विस्तारशीलता स्थिरांक है।

प्रक्षेपित रेडियल खोज
विशेष मामले में जहां डेटा ज्यामितीय बिंदुओं का सघन 3डी मानचित्र है, सेंसिंग तकनीक की प्रक्षेपण ज्यामिति का उपयोग खोज समस्या को नाटकीय रूप से सरल बनाने के लिए किया जा सकता है। इस दृष्टिकोण के लिए आवश्यक है कि 3डी डेटा को दो-आयामी ग्रिड के प्रक्षेपण द्वारा व्यवस्थित किया जाए और यह माना जाए कि डेटा ऑब्जेक्ट सीमाओं के अपवाद के साथ पड़ोसी ग्रिड कोशिकाओं में स्थानिक रूप से सुचारू है। सर्वेक्षण, रोबोटिक्स और स्टीरियो विज़न जैसे अनुप्रयोगों में 3डी सेंसर डेटा से निपटने के दौरान ये धारणाएँ मान्य हैं, लेकिन सामान्य तौर पर असंगठित डेटा के लिए ये मान्य नहीं हो सकती हैं। व्यवहार में इस तकनीक को वास्तविक विश्व स्टीरियो विज़न डेटा पर लागू करने पर k-निकटतम पड़ोसी समस्या के लिए औसत खोज समय O(1) या O(K) होता है।

वेक्टर सन्निकटन फ़ाइलें
उच्च-आयामी स्थानों में, वृक्ष अनुक्रमण संरचनाएं बेकार हो जाती हैं क्योंकि नोड्स के बढ़ते प्रतिशत की वैसे भी जांच करने की आवश्यकता होती है। रैखिक खोज को तेज़ करने के लिए, रैम में संग्रहीत फ़ीचर वैक्टर के संपीड़ित संस्करण का उपयोग पहली बार में डेटासेट को प्रीफ़िल्टर करने के लिए किया जाता है। दूरी की गणना के लिए डिस्क से असम्पीडित डेटा का उपयोग करके दूसरे चरण में अंतिम उम्मीदवारों का निर्धारण किया जाता है।

संपीड़न/क्लस्टरिंग आधारित खोज
वीए-फ़ाइल दृष्टिकोण संपीड़न आधारित खोज का विशेष मामला है, जहां प्रत्येक फीचर घटक समान रूप से और स्वतंत्र रूप से संपीड़ित होता है। बहुआयामी स्थानों में इष्टतम संपीड़न तकनीक वेक्टर परिमाणीकरण (वीक्यू) है, जिसे क्लस्टरिंग के माध्यम से कार्यान्वित किया जाता है। डेटाबेस को क्लस्टर किया गया है और सबसे आशाजनक क्लस्टर पुनर्प्राप्त किए गए हैं। वीए-फ़ाइल, ट्री-आधारित इंडेक्स और अनुक्रमिक स्कैन पर भारी लाभ देखा गया है। क्लस्टरिंग और एलएसएच के बीच समानताएं भी नोट करें।

वेरिएंट
एनएनएस समस्या के कई प्रकार हैं और दो सबसे प्रसिद्ध हैं के-निकटतम पड़ोसी एल्गोरिदम|के-निकटतम पड़ोसी खोज और ε-अनुमानित निकटतम पड़ोसी खोज।

 k-निकटतम पड़ोसी
K-निकटतम पड़ोसी एल्गोरिथ्म|k-निकटतम पड़ोसी खोज क्वेरी के शीर्ष k निकटतम पड़ोसियों की पहचान करती है। इस तकनीक का उपयोग आमतौर पर अपने पड़ोसियों की सहमति के आधार पर किसी बिंदु का अनुमान लगाने या वर्गीकृत करने के लिए पूर्वानुमानित विश्लेषण में किया जाता है। k-निकटतम पड़ोसी ग्राफ़ वे ग्राफ़ होते हैं जिनमें प्रत्येक बिंदु अपने k निकटतम पड़ोसियों से जुड़ा होता है।

अनुमानित निकटतम पड़ोसी
कुछ अनुप्रयोगों में निकटतम पड़ोसी का अच्छा अनुमान प्राप्त करना स्वीकार्य हो सकता है। उन मामलों में, हम एल्गोरिदम का उपयोग कर सकते हैं जो बेहतर गति या मेमोरी बचत के बदले में हर मामले में वास्तविक निकटतम पड़ोसी को वापस करने की गारंटी नहीं देता है। अक्सर ऐसा एल्गोरिदम अधिकांश मामलों में निकटतम पड़ोसी ढूंढ लेगा, लेकिन यह पूछताछ किए जा रहे डेटासेट पर दृढ़ता से निर्भर करता है।

अनुमानित निकटतम पड़ोसी खोज का समर्थन करने वाले एल्गोरिदम में निकटतम पड़ोसी खोज के लिए स्थानीयता-संवेदनशील हैशिंग#एलएसएच एल्गोरिदम शामिल है|स्थानीयता-संवेदनशील हैशिंग, सर्वोत्तम बिन प्रथम और संतुलित बॉक्स-अपघटन वृक्ष आधारित खोज।

निकटतम पड़ोसी दूरी अनुपात
निकटतम पड़ोसी दूरी अनुपात मूल बिंदु से चुनौती देने वाले पड़ोसी तक की सीधी दूरी पर सीमा लागू नहीं करता है, बल्कि पिछले पड़ोसी से दूरी के आधार पर इसके अनुपात पर लागू होता है। इसका उपयोग सामग्री-आधारित छवि पुनर्प्राप्ति में स्थानीय सुविधाओं के बीच समानता का उपयोग करके उदाहरण के माध्यम से चित्रों को पुनः प्राप्त करने के लिए किया जाता है। आम तौर पर यह कई पैटर्न मिलान समस्याओं में शामिल होता है।

पड़ोसियों के पास निश्चित-त्रिज्या
पड़ोसियों के पास निश्चित-त्रिज्या वह समस्या है जहां कोई निर्दिष्ट बिंदु से निश्चित दूरी के भीतर यूक्लिडियन अंतरिक्ष में दिए गए सभी बिंदुओं को कुशलतापूर्वक ढूंढना चाहता है। दूरी निश्चित मानी जाती है, लेकिन प्रश्न बिंदु मनमाना है।

सभी निकटतम पड़ोसी
कुछ अनुप्रयोगों (जैसे एन्ट्रापी अनुमान) के लिए, हमारे पास एन डेटा-पॉइंट हो सकते हैं और हम जानना चाहते हैं कि उन एन पॉइंट्स में से प्रत्येक के लिए निकटतम पड़ोसी कौन सा है। यह, निश्चित रूप से, प्रत्येक बिंदु के लिए बार निकटतम-पड़ोसी खोज चलाकर हासिल किया जा सकता है, लेकिन बेहतर रणनीति एल्गोरिदम होगी जो अधिक कुशल खोज उत्पन्न करने के लिए इन एन प्रश्नों के बीच सूचना अतिरेक का फायदा उठाती है। सरल उदाहरण के रूप में: जब हम बिंदु X से बिंदु Y तक की दूरी पाते हैं, तो वह हमें बिंदु Y से बिंदु

एक निश्चित आयाम को देखते हुए, अर्ध-निश्चित सकारात्मक मानदंड (जिससे प्रत्येक एलपी स्पेस|एल शामिल हैp मानदंड), और इस स्थान में n बिंदु, प्रत्येक बिंदु का निकटतम पड़ोसी O(n log n) समय में पाया जा सकता है और प्रत्येक बिंदु का m निकटतम पड़ोसी O(mn log n) समय में पाया जा सकता है। समय।

यह भी देखें

 * गेंद का पेड़
 * अंकों की निकटतम जोड़ी की समस्या
 * क्लस्टर विश्लेषण
 * सामग्री-आधारित छवि पुनर्प्राप्ति
 * परिमाणिकता का अभिशाप
 * अंकीय संकेत प्रक्रिया
 * आयाम में कमी
 * पड़ोसियों के पास निश्चित-त्रिज्या
 * फूरियर विश्लेषण
 * उदाहरण-आधारित शिक्षा
 * k-निकटतम पड़ोसी एल्गोरिथम|k-निकटतम पड़ोसी एल्गोरिथम
 * रैखिक न्यूनतम वर्ग (गणित)
 * स्थानीयता संवेदनशील हैशिंग
 * अधिकतम आंतरिक-उत्पाद खोज
 * मिनहैश
 * बहुआयामी विश्लेषण
 * निकटतम-पड़ोसी प्रक्षेप
 * पड़ोसी का जुड़ना
 * प्रमुख कंपोनेंट विश्लेषण
 * रेंज खोज
 * समानता सीखना
 * विलक्षण मान अपघटन
 * विरल वितरित स्मृति
 * सांख्यिकीय दूरी
 * समय श्रृंखला
 * वोरोनोई आरेख
 * तरंगिका

बाहरी संबंध

 * Nearest Neighbors and Similarity Search – a website dedicated to educational materials, software, literature, researchers, open problems and events related to NN searching. Maintained by Yury Lifshits
 * Similarity Search Wiki – a collection of links, people, ideas, keywords, papers, slides, code and data sets on nearest neighbours