निकटतम नेबर सर्च (एनएनएस)

निकटतम निकटतम खोज (एनएनएस), निकटता खोज के रूप के रूप में, किसी दिए गए समुच्चय में उस बिंदु को खोजने की अनुकूलन समस्या है जो किसी दिए गए बिंदु के सबसे करीब (या सबसे समान) है। निकटता को सामान्यतः असमानता फलन के संदर्भ में व्यक्त किया जाता है: जितनी कम समानता वस्तुओं को मापती है, फलन मान उतना ही बड़ा होता है।

औपचारिक रूप से, निकटतम-निकटतम (एनएन) खोज समस्या को इस प्रकार परिभाषित किया गया है: स्थान एम में बिंदुओं का समुच्चय एस और क्वेरी बिंदु क्यू ∈ एम दिया गया है, S से q में निकटतम बिंदु खोजें। वॉल्यूम में डोनाल्ड नुथ। कंप्यूटर प्रोग्रामिंग की कला (1973) के 3 में इसे डाकघर की समस्या कहा गया है, जिसमें निकटतम डाकघर के लिए निवास आवंटित करने के आवेदन का जिक्र है। इस समस्या का प्रत्यक्ष सामान्यीकरण k-NN खोज है, जहां हमें k निकटतम बिंदु खोजने की आवश्यकता होती है।

सामान्यतः एम मीट्रिक स्थान है और असमानता को दूरी मीट्रिक के रूप में व्यक्त किया जाता है, जो सममित है और त्रिकोण असमानता को संतुष्ट करता है। इससे भी अधिक सामान्य, एम को डी-आयामी सदिश स्थल के रूप में लिया जाता है जहां असमानता को यूक्लिडियन दूरी, टैक्सीकैब ज्यामिति या अन्य सांख्यिकीय दूरी का उपयोग करके मापा जाता है। चूँकि, असमानता फलन इच्छानुसार हो सकता है। उदाहरण असममित ब्रेगमैन विचलन है, जिसके लिए त्रिभुज असमानता प्रयुक्त नहीं होती है।

अनुप्रयोग
निकटतम निकटतम खोज समस्या अनुप्रयोग के अनेक क्षेत्रों में उत्पन्न होती है, जिनमें सम्मिलित हैं:
 * पैटर्न पहचान - विशेष रूप से ऑप्टिकल कैरेक्टर पहचान के लिए
 * सांख्यिकीय वर्गीकरण - के-निकटतम निकटतम एल्गोरिदम देखें
 * कंप्यूटर दृष्टि - पॉइंट क्लाउड पंजीकरण के लिए
 * कम्प्यूटेशनल ज्यामिति - बिंदुओं की निकटतम जोड़ी समस्या देखें
 * डेटाबेस - उदा. सामग्री-आधारित छवि पुनर्प्राप्ति
 * कोडिंग सिद्धांत - डिकोडिंग विधियां देखें
 * सिमेंटिक खोज
 * डेटा संपीड़न - MPEG-2 मानक देखें
 * रोबोटिक सेंसिंग
 * अनुशंसा प्रणाली, उदा. सहयोगात्मक फ़िल्टरिंग देखें
 * इंटरनेट विपणन - प्रासंगिक विज्ञापन और व्यवहारिक लक्ष्यीकरण देखें
 * डीएनए श्रृंखला बनाना
 * वर्तनी जाँच - सही वर्तनी का सुझाव देना
 * साहित्यिक चोरी का पता लगाना
 * प्रस्तुतेवर एथलीटों के करियर पथ की भविष्यवाणी के लिए समानता स्कोर।
 * क्लस्टर विश्लेषण - अवलोकनों के समुच्चय को उपसमूहों (जिन्हें क्लस्टर कहा जाता है) में असाइन करना जिससे ही क्लस्टर में अवलोकन कुछ अर्थों में समान हों, सामान्यतः यूक्लिडियन दूरी पर आधारित होते हैं
 * रासायनिक समानता
 * मोशन प्लानिंग#सैंपलिंग-आधारित एल्गोरिदम|सैंपलिंग-आधारित मोशन प्लानिंग

तरीके
एनएनएस समस्या के विभिन्न समाधान प्रस्तावित किए गए हैं। एल्गोरिदम की गुणवत्ता और उपयोगिता प्रश्नों की समय जटिलता के साथ-साथ किसी भी खोज डेटा संरचना की स्थान जटिलता द्वारा निर्धारित की जाती है जिसे बनाए रखा जाना चाहिए। अनौपचारिक अवलोकन जिसे सामान्यतः आयामीता के अभिशाप के रूप में जाना जाता है, बताता है कि बहुपद प्रीप्रोसेसिंग और पॉलीलॉगरिदमिक खोज समय का उपयोग करके उच्च-आयामी यूक्लिडियन अंतरिक्ष में एनएनएस के लिए कोई सामान्य-उद्देश्य स्पष्ट समाधान नहीं है।

रैखिक खोज
एनएनएस समस्या का सबसे सरल समाधान अब तक के सर्वश्रेष्ठ का ट्रैक रखते हुए, डेटाबेस में क्वेरी बिंदु से हर दूसरे बिंदु तक की दूरी की गणना करना है। यह एल्गोरिदम, जिसे कभी-कभी अनुभवहीन दृष्टिकोण के रूप में जाना जाता है, का चलने का समय O(dN) है, जहां N, S की प्रमुखता है और d, S की आयामीता है। बनाए रखने के लिए कोई खोज डेटा संरचनाएं नहीं हैं, इसलिए रैखिक खोज है डेटाबेस के भंडारण से परे कोई स्थान जटिलता नहीं। सामान्य खोज, औसतन, उच्च आयामी स्थानों पर अंतरिक्ष विभाजन दृष्टिकोण से उत्तम प्रदर्शन कर सकती है। दूरी की तुलना के लिए पूर्ण दूरी की आवश्यकता नहीं है, केवल सापेक्ष दूरी की आवश्यकता है। ज्यामितीय समन्वय प्रणालियों में दो निर्देशांकों के मध्य की दूरी की गणना से वर्गमूल गणना को हटाकर दूरी की गणना में अधिक तेजी लाई जा सकती है। दूरी की तुलना अभी भी समान परिणाम देगी।

अंतरिक्ष विभाजन
1970 के दशक से, शाखा और बाध्य पद्धति को समस्या पर प्रयुक्त किया गया है। यूक्लिडियन अंतरिक्ष के मामले में, यह दृष्टिकोण स्थानिक सूचकांक या स्थानिक पहुंच विधियों को सम्मिलित करता है। एनएनएस समस्या को हल करने के लिए अनेक अंतरिक्ष विभाजन|अंतरिक्ष-विभाजन विधियां विकसित की गई हैं। संभवतः सबसे सरल के-डी पेड़ है, जो खोज स्थान को मूल क्षेत्र के आधे बिंदुओं वाले दो क्षेत्रों में पुनरावृत्त रूप से विभाजित करता है। प्रत्येक विभाजन पर क्वेरी बिंदु का मूल्यांकन करके क्वेरी को जड़ से पत्ती तक पेड़ के ट्रैवर्सल के माध्यम से निष्पादित किया जाता है। क्वेरी में निर्दिष्ट दूरी के आधार पर, निकटतम शाखाओं जिनमें हिट हो सकती हैं, का भी मूल्यांकन करने की आवश्यकता हो सकती है। निरंतर आयाम क्वेरी समय के लिए, औसत जटिलता O(लॉग एन) है बेतरतीब ढंग से वितरित बिंदुओं के मामले में, सबसे खराब स्थिति जटिलता O(kN^(1-1/k)) है वैकल्पिक रूप से आर-वृक्ष डेटा संरचना को गतिशील संदर्भ में निकटतम निकटतम खोज का समर्थन करने के लिए डिज़ाइन किया गया था, क्योंकि इसमें आर* पेड़ जैसे सम्मिलन और विलोपन के लिए कुशल एल्गोरिदम हैं। आर-पेड़ न केवल यूक्लिडियन दूरी के लिए निकटतम निकटतम प्रदान कर सकते हैं, किंतु अन्य दूरियों के साथ भी इसका उपयोग किया जा सकता है।

सामान्य मीट्रिक स्थान के मामले में, शाखा-और-बाउंड दृष्टिकोण को मीट्रिक पेड़ दृष्टिकोण के रूप में जाना जाता है। विशेष उदाहरणों में वीपी-वृक्ष और बीके-वृक्ष विधियां सम्मिलित हैं।

3-आयामी स्थान से लिए गए बिंदुओं के समुच्चय का उपयोग करके और बाइनरी स्पेस विभाजन में डालकर, और उसी स्थान से लिया गया क्वेरी बिंदु दिया गया, क्वेरी बिंदु के निकटतम बिंदु-क्लाउड बिंदु को खोजने की समस्या का संभावित समाधान है एल्गोरिदम के निम्नलिखित विवरण में दिया गया है।

(सख्ती से कहें तब, ऐसा कोई बिंदु उपस्थितनहीं हो सकता है, क्योंकि यह अद्वितीय नहीं हो सकता है। किन्तु व्यवहार में, सामान्यतः हम केवल सभी बिंदु-क्लाउड बिंदुओं के सबसमुच्चय में से किसी को खोजने की परवाह करते हैं जो किसी दिए गए क्वेरी बिंदु से सबसे कम दूरी पर उपस्थितहोते हैं .) विचार यह है कि, पेड़ की प्रत्येक शाखा के लिए, अनुमान लगाएं कि पश्चात्ल में निकटतम बिंदु क्वेरी बिंदु वाले आधे स्थान में रहता है। यह मामला नहीं हो सकता है, किन्तु यह अच्छा अनुमान है। अनुमानित अर्ध-स्थान के लिए समस्या को हल करने की सभी परेशानियों से गुजरने के पश्चात्, अब इस परिणाम द्वारा लौटाई गई दूरी की तुलना क्वेरी बिंदु से विभाजन तल तक की सबसे छोटी दूरी से करें। यह पश्चात् वाली दूरी क्वेरी बिंदु और निकटतम संभावित बिंदु के मध्य की दूरी है जो खोजे न गए आधे स्थान में उपस्थितहो सकती है। यदि यह दूरी पिछले परिणाम में दी गई दूरी से अधिक है, तब स्पष्ट रूप से अन्य आधे स्थान की खोज करने की कोई आवश्यकता नहीं है। यदि ऐसी कोई आवश्यकता है, तब आपको अन्य आधे स्थान के लिए समस्या को हल करने की परेशानी से निकलना होगा, और फिर उसके परिणाम की तुलना पिछले परिणाम से करनी होगी, और फिर उचित परिणाम लौटाना होगा। इस एल्गोरिदम का प्रदर्शन रैखिक समय की तुलना में लॉगरिदमिक समय के करीब होता है जब क्वेरी बिंदु क्लाउड के नजदीक होता है, क्योंकि क्वेरी बिंदु और निकटतम बिंदु-क्लाउड बिंदु के मध्य की दूरी शून्य के करीब होती है, एल्गोरिदम को केवल लुक-अप का उपयोग करने की आवश्यकता होती है सही परिणाम प्राप्त करने के लिए क्वेरी बिंदु को कुंजी के रूप में उपयोग करें।

सन्निकटन विधियाँ
एक अनुमानित निकटतम निकटतम खोज एल्गोरिदम को उन बिंदुओं को वापस करने की अनुमति है जिनकी क्वेरी से दूरी अधिकतम है $$c$$ क्वेरी से उसके निकटतम बिंदुओं की दूरी का गुना। इस दृष्टिकोण की अपील यह है कि, अनेक स्थितियों में, अनुमानित निकटतम निकटतम लगभग उतना ही अच्छा होता है जितना कि स्पष्ट निकटतम। विशेष रूप से, यदि दूरी माप उपयोगकर्ता की गुणवत्ता की धारणा को स्पष्ट रूप से पकड़ लेता है, तब दूरी में छोटे अंतर से कोई फर्क नहीं पड़ना चाहिए।

निकटता पड़ोस ग्राफ़ में लालची खोज
निकटता ग्राफ़ विधियाँ (जैसे HNSW ) को निकटतम पड़ोसियों की खोज के लिए वर्तमान अत्याधुनिक माना जाता है। विधियाँ निकटता पड़ोस ग्राफ़ में लालची ट्रैवर्सिंग पर आधारित हैं $$G(V,E)$$ जिसमें हर बिंदु $$x_i \in S $$ शिखर के साथ विशिष्ट रूप से जुड़ा हुआ है $$v_i \in V $$. समुच्चय S में क्वेरी q के निकटतम पड़ोसियों की खोज ग्राफ़ में शीर्ष की खोज का रूप लेती है $$G(V,E)$$. मूल एल्गोरिदम - लालची खोज - निम्नानुसार काम करती है: खोज प्रवेश-बिंदु शीर्ष से प्रारंभिक होती है $$v_i \in V $$ क्वेरी q से उसके पड़ोस के प्रत्येक शीर्ष तक की दूरी की गणना करके $$\{v_j:(v_i,v_j) \in E\}$$, और फिर न्यूनतम दूरी मान वाला शीर्ष ढूँढता है। यदि क्वेरी और चयनित शीर्ष के मध्य की दूरी का मान क्वेरी और वर्तमान तत्व के मध्य की दूरी से छोटा है, तब एल्गोरिदम चयनित शीर्ष पर चला जाता है, और यह नया प्रवेश-बिंदु बन जाता है। एल्गोरिदम तब रुक जाता है जब यह स्थानीय न्यूनतम तक पहुंच जाता है: शीर्ष जिसके पड़ोस में शीर्ष नहीं होता है जो शीर्ष की तुलना में क्वेरी के करीब होता है।

निकटता पड़ोस ग्राफ़ के विचार का अनेक प्रकाशनों में उपयोग किया गया, जिसमें आर्य और माउंट का मौलिक पेपर भी सम्मिलित है, विमान के लिए वोरोनेट प्रणाली में, के लिए RayNet प्रणाली में $$\mathbb{E}^n$$, और मेट्रिज़्ड स्मॉल वर्ल्ड में और एचएनएसडब्ल्यू दूरी फलन वाले रिक्त स्थान के सामान्य मामले के लिए एल्गोरिदम। इन कार्यों से पहले टूसेंट का अग्रणी पेपर प्रकाशित हुआ था, जिसमें उन्होंने सापेक्ष पड़ोस ग्राफ की अवधारणा प्रस्तुत की थी।

स्थानीय संवेदनशील हैशिंग
स्थानीयता संवेदनशील हैशिंग (एलएसएच) बिंदुओं पर संचालित कुछ दूरी मीट्रिक के आधार पर अंतरिक्ष में बिंदुओं को 'बाल्टी' में समूहीकृत करने की विधि है। चुने गए मीट्रिक के अनुसार एक-दूसरे के करीब आने वाले बिंदुओं को उच्च संभावना के साथ ही बकेट में मानचित्र किया जाता है।

छोटे आंतरिक आयाम वाले स्थानों में निकटतम निकटतम की खोज
वृक्ष को ढकें में सैद्धांतिक सीमा होती है जो डेटासमुच्चय के दोहरीकरण स्थिरांक पर आधारित होती है। खोज समय की सीमा O(c) है12लॉग एन) जहां सी डेटासमुच्चय की विस्तारशीलता स्थिरांक है।

प्रक्षेपित रेडियल खोज
विशेष मामले में जहां डेटा ज्यामितीय बिंदुओं का सघन 3डी मानचित्र है, सेंसिंग विधि की प्रक्षेपण ज्यामिति का उपयोग खोज समस्या को नाटकीय रूप से सरल बनाने के लिए किया जा सकता है। इस दृष्टिकोण के लिए आवश्यक है कि 3डी डेटा को दो-आयामी ग्रिड के प्रक्षेपण द्वारा व्यवस्थित किया जाए और यह माना जाए कि डेटा ऑब्जेक्ट सीमाओं के अपवाद के साथ निकटतम ग्रिड कोशिकाओं में स्थानिक रूप से सुचारू है। सर्वेक्षण, रोबोटिक्स और स्टीरियो विज़न जैसे अनुप्रयोगों में 3डी सेंसर डेटा से निपटने के समय ये धारणाएँ मान्य हैं, किन्तु सामान्यतः असंगठित डेटा के लिए ये मान्य नहीं हो सकती हैं। व्यवहार में इस विधि को वास्तविक विश्व स्टीरियो विज़न डेटा पर प्रयुक्त करने पर k-निकटतम निकटतम समस्या के लिए औसत खोज समय O(1) या O(K) होता है।

सदिश सन्निकटन फ़ाइलें
उच्च-आयामी स्थानों में, वृक्ष अनुक्रमण संरचनाएं व्यर्थ हो जाती हैं क्योंकि नोड्स के बढ़ते प्रतिशत की वैसे भी जांच करने की आवश्यकता होती है। रैखिक खोज को तेज़ करने के लिए, रैम में संग्रहीत फ़ीचर वैक्टर के संपीड़ित संस्करण का उपयोग पहली बार में डेटासमुच्चय को प्रीफ़िल्टर करने के लिए किया जाता है। दूरी की गणना के लिए डिस्क से असम्पीडित डेटा का उपयोग करके दूसरे चरण में अंतिम उम्मीदवारों का निर्धारण किया जाता है।

संपीड़न/क्लस्टरिंग आधारित खोज
वीए-फ़ाइल दृष्टिकोण संपीड़न आधारित खोज का विशेष मामला है, जहां प्रत्येक फीचर घटक समान रूप से और स्वतंत्र रूप से संपीड़ित होता है। बहुआयामी स्थानों में इष्टतम संपीड़न विधि सदिश परिमाणीकरण (वीक्यू) है, जिसे क्लस्टरिंग के माध्यम से कार्यान्वित किया जाता है। डेटाबेस को क्लस्टर किया गया है और सबसे आशाजनक क्लस्टर पुनर्प्राप्त किए गए हैं। वीए-फ़ाइल, ट्री-आधारित इंडेक्स और अनुक्रमिक स्कैन पर भारी लाभ देखा गया है। क्लस्टरिंग और एलएसएच के मध्य समानताएं भी नोट करें।

वेरिएंट
एनएनएस समस्या के अनेक प्रकार हैं और दो सबसे प्रसिद्ध हैं के-निकटतम निकटतम एल्गोरिदम|के-निकटतम निकटतम खोज और ε-अनुमानित निकटतम निकटतम खोज।

 k-निकटतम निकटतम
K-निकटतम निकटतम एल्गोरिथ्म|k-निकटतम निकटतम खोज क्वेरी के शीर्ष k निकटतम पड़ोसियों की पहचान करती है। इस विधि का उपयोग सामान्यतः अपने पड़ोसियों की सहमति के आधार पर किसी बिंदु का अनुमान लगाने या वर्गीकृत करने के लिए पूर्वानुमानित विश्लेषण में किया जाता है। k-निकटतम निकटतम ग्राफ़ वे ग्राफ़ होते हैं जिनमें प्रत्येक बिंदु अपने k निकटतम पड़ोसियों से जुड़ा होता है।

अनुमानित निकटतम निकटतम
कुछ अनुप्रयोगों में निकटतम निकटतम का अच्छा अनुमान प्राप्त करना स्वीकार्य हो सकता है। उन स्थितियों में, हम एल्गोरिदम का उपयोग कर सकते हैं जो उत्तम गति या मेमोरी बचत के बदले में हर मामले में वास्तविक निकटतम निकटतम को वापस करने की गारंटी नहीं देता है। अधिकांशतः  ऐसा एल्गोरिदम अधिकांश स्थितियों में निकटतम निकटतम ढूंढ लेगा, किन्तु यह पूछताछ किए जा रहे डेटासमुच्चय पर दृढ़ता से निर्भर करता है।

अनुमानित निकटतम निकटतम खोज का समर्थन करने वाले एल्गोरिदम में निकटतम निकटतम खोज के लिए स्थानीयता-संवेदनशील हैशिंग#एलएसएच एल्गोरिदम सम्मिलित है|स्थानीयता-संवेदनशील हैशिंग, सर्वोत्तम बिन प्रथम और संतुलित बॉक्स-अपघटन वृक्ष आधारित खोज।

निकटतम निकटतम दूरी अनुपात
निकटतम निकटतम दूरी अनुपात मूल बिंदु से चुनौती देने वाले निकटतम तक की सीधी दूरी पर सीमा प्रयुक्त नहीं करता है, किंतु पिछले निकटतम से दूरी के आधार पर इसके अनुपात पर प्रयुक्त होता है। इसका उपयोग सामग्री-आधारित छवि पुनर्प्राप्ति में स्थानीय सुविधाओं के मध्य समानता का उपयोग करके उदाहरण के माध्यम से चित्रों को पुनः प्राप्त करने के लिए किया जाता है। सामान्यतः यह अनेक पैटर्न मिलान समस्याओं में सम्मिलित होता है।

पड़ोसियों के पास निश्चित-त्रिज्या
पड़ोसियों के पास निश्चित-त्रिज्या वह समस्या है जहां कोई निर्दिष्ट बिंदु से निश्चित दूरी के अंदर यूक्लिडियन अंतरिक्ष में दिए गए सभी बिंदुओं को कुशलतापूर्वक ढूंढना चाहता है। दूरी निश्चित मानी जाती है, किन्तु प्रश्न बिंदु इच्छानुसार है।

सभी निकटतम निकटतम
कुछ अनुप्रयोगों (जैसे एन्ट्रापी अनुमान) के लिए, हमारे पास एन डेटा-पॉइंट हो सकते हैं और हम जानना चाहते हैं कि उन एन पॉइंट्स में से प्रत्येक के लिए निकटतम निकटतम कौन सा है। यह, निश्चित रूप से, प्रत्येक बिंदु के लिए बार निकटतम-निकटतम खोज चलाकर प्राप्त किया जा सकता है, किन्तु उत्तम रणनीति एल्गोरिदम होगी जो अधिक कुशल खोज उत्पन्न करने के लिए इन एन प्रश्नों के मध्य सूचना अतिरेक का लाभ उठाती है। सरल उदाहरण के रूप में: जब हम बिंदु X से बिंदु Y तक की दूरी पाते हैं, तब वह हमें बिंदु Y से बिंदु

एक निश्चित आयाम को देखते हुए, अर्ध-निश्चित सकारात्मक मानदंड (जिससे प्रत्येक एलपी स्पेस|एल सम्मिलित हैp मानदंड), और इस स्थान में n बिंदु, प्रत्येक बिंदु का निकटतम निकटतम O(n log n) समय में पाया जा सकता है और प्रत्येक बिंदु का m निकटतम निकटतम O(mn log n) समय में पाया जा सकता है। समय।

यह भी देखें

 * गेंद का पेड़
 * अंकों की निकटतम जोड़ी की समस्या
 * क्लस्टर विश्लेषण
 * सामग्री-आधारित छवि पुनर्प्राप्ति
 * परिमाणिकता का अभिशाप
 * अंकीय संकेत प्रक्रिया
 * आयाम में कमी
 * पड़ोसियों के पास निश्चित-त्रिज्या
 * फूरियर विश्लेषण
 * उदाहरण-आधारित शिक्षा
 * k-निकटतम पड़ोसी एल्गोरिथम|k-निकटतम पड़ोसी एल्गोरिथम
 * रैखिक न्यूनतम वर्ग (गणित)
 * स्थानीयता संवेदनशील हैशिंग
 * अधिकतम आंतरिक-उत्पाद खोज
 * मिनहैश
 * बहुआयामी विश्लेषण
 * निकटतम-पड़ोसी प्रक्षेप
 * पड़ोसी का जुड़ना
 * प्रमुख कंपोनेंट विश्लेषण
 * रेंज खोज
 * समानता सीखना
 * विलक्षण मान अपघटन
 * विरल वितरित स्मृति
 * सांख्यिकीय दूरी
 * समय श्रृंखला
 * वोरोनोई आरेख
 * तरंगिका

बाहरी संबंध

 * Nearest Neighbors and Similarity Search – a website dedicated to educational materials, software, literature, researchers, open problems and events related to NN searching. Maintained by Yury Lifshits
 * Similarity Search Wiki – a collection of links, people, ideas, keywords, papers, slides, code and data sets on nearest neighbours