डीप वेब: Difference between revisions
No edit summary |
No edit summary |
||
| Line 16: | Line 16: | ||
}} | }} | ||
</ref> | </ref> | ||
डीप वेब साइटों तक सीधे [[URL]] या IP पते द्वारा पहुँचा जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी | डीप वेब साइटों तक सीधे [[URL]] या IP पते द्वारा पहुँचा जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।<ref>Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.</ref><ref>{{cite web |url= https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |title= How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web |url-access= |newspaper= [[Sunday Mail (Scotland)|Sunday Mail]] |date= June 8, 2014 |first= Sam |last= Shedden |access-date= |archive-date= March 1, 2020 |archive-url= https://web.archive.org/web/20200301174912/https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |url-status= dead }}</ref> ऐसी साइटों में [[ वेबमेल ]], [[ऑनलाइन बैंकिंग]], [[ घन संग्रहण ]], प्रतिबंधित-एक्सेस [[ सामाजिक मीडिया ]] पेज और प्रोफाइल, कुछ [[वेब मंचों]] और कोड भाषा जैसे उपयोग होते हैं जिन्हें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें [[प्रचलित विडियो]] और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान वाली सेवाएं भी सम्मलित हैं। | ||
== शब्दावली == | == शब्दावली == | ||
[[डार्क वेब]] के साथ डीप वेब का पहला सम्मिश्रण 2009 के | [[डार्क वेब]] के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ जब डीप वेब सर्च शब्दावली पर [[फ्रीनेट]] और [[डार्कनेट]] पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई।<ref>{{cite news|last1=Beckett|first1=Andy|title=इंटरनेट का काला पक्ष|url=https://www.theguardian.com/technology/2009/nov/26/dark-side-internet-freenet |date=November 26, 2009 |access-date=August 9, 2015}}</ref> उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, [[आग्नेयास्त्रों]] और [[बाल अश्लीलता]] का व्यापार सम्मलित है।<ref>{{cite video|url=https://www.youtube.com/watch?v=GEwmYk15ZcU| archive-url=https://ghostarchive.org/varchive/youtube/20211113/GEwmYk15ZcU| archive-date=November 13, 2021 | url-status=live|author=D. Day|title=Easiest Catch: Don't Be Another Fish in the Dark Net|publisher=[[TEDx Talks]]|location=Wake Forest University}}{{cbignore}}</ref> | ||
तब से, ब्लैक-मार्केट वेबसाइट [[ सिल्क रोड (बाजार) ]] पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने सामान्यतः डार्क वेब या डार्कनेट के साथ 'डीप वेब' [[ कंजूस शब्द ]] का उपयोग किया है, एक तुलना को कुछ लोग गलत मानते हैं।<ref name="confusion">{{cite web|url=http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/|title=Clearing Up Confusion – Deep Web vs. Dark Web|publisher=BrightPlanet|date=March 27, 2014}}</ref> और फलस्वरूप भ्रम का एक निरंतर स्रोत बन गया है।<ref>{{cite news|last1=Solomon|first1=Jane|title=डीप वेब बनाम डार्क वेब|url=http://blog.dictionary.com/dark-web/ |date=May 6, 2015 |access-date=May 26, 2015}}</ref> [[वायर्ड (वेबसाइट)]] रिपोर्टर की [[ किम ज़ेटर ]]<ref>{{cite news|last1=NPR Staff|title=Going Dark: The Internet Behind The Internet|url=https://www.npr.org/sections/alltechconsidered/2014/05/25/315821415/going-dark-the-internet-behind-the-internet|access-date=May 29, 2015|date=May 25, 2014}}</ref> और [[एंडी ग्रीनबर्ग]]<ref>{{cite news|last1=Greenberg|first1=Andy|title=Hacker Lexicon: What Is the Dark Web?|url=https://www.wired.com/2014/11/hacker-lexicon-whats-dark-web/ |date=November 19, 2014 |access-date=June 6, 2015}}</ref> अनुशंसा करते हैं कि शब्दों का | तब से, ब्लैक-मार्केट वेबसाइट [[ सिल्क रोड (बाजार) ]] पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने सामान्यतः डार्क वेब या डार्कनेट के साथ 'डीप वेब' [[ कंजूस शब्द ]] का उपयोग किया है, एक तुलना को कुछ लोग गलत मानते हैं।<ref name="confusion">{{cite web|url=http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/|title=Clearing Up Confusion – Deep Web vs. Dark Web|publisher=BrightPlanet|date=March 27, 2014}}</ref> और फलस्वरूप भ्रम का एक निरंतर स्रोत बन गया है।<ref>{{cite news|last1=Solomon|first1=Jane|title=डीप वेब बनाम डार्क वेब|url=http://blog.dictionary.com/dark-web/ |date=May 6, 2015 |access-date=May 26, 2015}}</ref> [[वायर्ड (वेबसाइट)]] रिपोर्टर की [[ किम ज़ेटर ]]<ref>{{cite news|last1=NPR Staff|title=Going Dark: The Internet Behind The Internet|url=https://www.npr.org/sections/alltechconsidered/2014/05/25/315821415/going-dark-the-internet-behind-the-internet|access-date=May 29, 2015|date=May 25, 2014}}</ref> और [[एंडी ग्रीनबर्ग]]<ref>{{cite news|last1=Greenberg|first1=Andy|title=Hacker Lexicon: What Is the Dark Web?|url=https://www.wired.com/2014/11/hacker-lexicon-whats-dark-web/ |date=November 19, 2014 |access-date=June 6, 2015}}</ref> अनुशंसा करते हैं कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है जिसे पारंपरिक खोज इंजन द्वारा एक्सेस नहीं किया जा सकता है, डार्क वेब डीप वेब का एक भाग है जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम है।<ref>{{cite web|title=इंटरनेट गवर्नेंस और साइबर सुरक्षा पर डार्क वेब का प्रभाव|date=January 20, 2014|url=https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|access-date=January 15, 2017|archive-date=January 16, 2017|archive-url=https://web.archive.org/web/20170116173141/https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|url-status=dead}}</ref><ref>{{cite book|last1=Lam|first1=Kwok-Yan|last2=Chi|first2=Chi-Hung|last3=Qing|first3=Sihan|title=Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings|publisher=Springer|isbn=9783319500119|url=https://books.google.com/books?id=uraVDQAAQBAJ&pg=PA174 |language=en |date=November 23, 2016 |access-date=January 15, 2017}}</ref><ref>{{cite web|title=The Deep Web vs. The Dark Web {{!}} Dictionary.com Blog|url=http://blog.dictionary.com/dark-web/|publisher=Dictionary Blog |date=May 6, 2015 |access-date=January 15, 2017}}</ref><ref>{{cite book|last1=Akhgar|first1=Babak|last2=Bayerl|first2=P. Saskia|last3=Sampson|first3=Fraser|title=Open Source Intelligence Investigation: From Strategy to Implementation|publisher=Springer|isbn=9783319476711|url=https://books.google.com/books?id=39zTDQAAQBAJ&pg=PA112 |language=en |date=January 1, 2017 |access-date=January 15, 2017}}</ref><ref>{{cite news|title=What is the dark web and who uses it?|url=https://www.theglobeandmail.com/technology/tech-news/what-is-the-dark-web-and-who-uses-it/article26026082/|newspaper=The Globe and Mail|access-date=January 15, 2017}}</ref> | ||
| Line 43: | Line 43: | ||
== इंडेक्सिंग के | == इंडेक्सिंग के विधि == | ||
ऐसे | ऐसे विधि जो वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है: | ||
# प्रासंगिक वेब: | # प्रासंगिक वेब: भिन्न-भिन्न एक्सेस संदर्भों के लिए भिन्न-भिन्न सामग्री वाले पेज (उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज)। | ||
# डायनेमिक कंटेंट: [[गतिशील वेब पेज]], जो एक सबमिट की गई क्वेरी के | # डायनेमिक कंटेंट: [[गतिशील वेब पेज]], जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए एक्सेस किए जाते हैं, खासकर यदि ओपन-डोमेन इनपुट एलिमेंट्स (जैसे टेक्स्ट फील्ड्स) का उपयोग किया जाता है; डोमेन ज्ञान के बिना ऐसे क्षेत्रों में नेविगेट करना कठिन होता है। | ||
# सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी | # सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं (उदाहरण के लिए, [[रोबोट बहिष्करण मानक]] या [[ कॅप्चा ]], या नो-स्टोर निर्देश का उपयोग करना, जो खोज इंजनों को उन्हें ब्राउज़ करने और वेब [[कैश]] कॉपी बनाने से रोकते हैं)।<ref>{{cite journal|title=Hypertext Transfer Protocol (HTTP/1.1): Caching|publisher=[[Internet Engineering Task Force]]|year=2014|doi=10.17487/RFC7234 |url=http://tools.ietf.org/html/rfc7234#section-5.2.2.3|access-date=July 30, 2014|editor-last1=Fielding |editor-last2=Nottingham |editor-last3=Reschke |editor-first1=R. |editor-first2=M. |editor-first3=J. |last1=Fielding |first1=R. |last2=Nottingham |first2=M. |last3=Reschke |first3=J. }}</ref> साइटों में ऐसे पृष्ठों की खोज के लिए एक आंतरिक खोज इंजन हो सकता है।<ref>[[Special:Search]]</ref><ref>{{Cite web|url=https://archive.org/search.php|title=Internet Archive Search}}</ref> | ||
# गैर-एचटीएमएल/पाठ सामग्री: मल्टीमीडिया (छवि या वीडियो) फ़ाइलों या विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड पाठ्य सामग्री खोज इंजन द्वारा मान्यता प्राप्त नहीं है। | # गैर-एचटीएमएल/पाठ सामग्री: मल्टीमीडिया (छवि या वीडियो) फ़ाइलों या विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड पाठ्य सामग्री खोज इंजन द्वारा मान्यता प्राप्त नहीं है। | ||
# निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन (पासवर्ड-सुरक्षित संसाधन) की आवश्यकता होती है। | # निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन (पासवर्ड-सुरक्षित संसाधन) की आवश्यकता होती है। | ||
# स्क्रिप्टेड सामग्री: वे पृष्ठ जो | # स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र [[जावास्क्रिप्ट]] द्वारा निर्मित लिंक के साथ-साथ [[एडोब फ्लैश]] या [[अजाक्स (प्रोग्रामिंग)]] समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं। | ||
# सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, | # सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, मात्र विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), [[I2P]], या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से .onion सर्वर पते का उपयोग करके वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है। | ||
# अनलिंक की गई सामग्री: वे पृष्ठ जो अन्य पृष्ठों से लिंक नहीं हैं, जो [[वेब क्रॉलिंग]] प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना [[बैकलिंक]] वाले पेज कहा जाता है (इनलिंक के रूप में भी जाना जाता है)। साथ ही, सर्च इंजन | # अनलिंक की गई सामग्री: वे पृष्ठ जो अन्य पृष्ठों से लिंक नहीं हैं, जो [[वेब क्रॉलिंग]] प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना [[बैकलिंक]] वाले पेज कहा जाता है (इनलिंक के रूप में भी जाना जाता है)। साथ ही, सर्च इंजन निरंतर खोजे गए वेब पेजों से सभी बैकलिंक्स का पता नहीं लगाते हैं। | ||
# वेब संग्रह: वेब अभिलेखीय सेवाएं जैसे कि [[वेबैक मशीन]] उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें | # वेब संग्रह: वेब अभिलेखीय सेवाएं जैसे कि [[वेबैक मशीन]] उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें सम्मलित हैं जो दुर्गम हो गई हैं और Google जैसे खोज इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को डीप वेब देखने के लिए एक कार्यक्रम कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को खोज द्वारा देखना असंभव है। सभी वेबसाइटों को कभी न कभी अपडेट किया जाता है, यही कारण है कि वेब संग्रह को डीप वेब सामग्री माना जाता है।<ref>{{cite web|last1=Wiener-Bronner|first1=Danielle|title=Google मानव जाति को वह दिखाने के लिए 'डीप वेब' को अनुक्रमित कर रहा है जो Google नहीं करेगा|url=http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|publisher=Fusion|date=June 10, 2015|access-date=June 27, 2015|quote=There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said [[Chris Mattmann]].|archive-date=June 30, 2015|archive-url=https://web.archive.org/web/20150630010143/http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|url-status=dead}}</ref> | ||
== सामग्री प्रकार == | == सामग्री प्रकार == | ||
चूंकि एक विशिष्ट वेब सर्वर की सामग्री को सीधे खोजना निरंतर संभव नहीं होता है जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से एक्सेस किया जा सकता है ([[भेद्यता (कंप्यूटिंग)]] के कारण)। | |||
वेब पर सामग्री खोजने के लिए, खोज इंजन [[वेब क्रॉलर]] का उपयोग करते हैं जो ज्ञात प्रोटोकॉल वर्चुअल [[पोर्ट (कंप्यूटर नेटवर्किंग)]] के माध्यम से हाइपरलिंक का अनुसरण करते हैं। यह तकनीक सरफेस वेब पर सामग्री खोजने के लिए आदर्श है लेकिन डीप वेब सामग्री खोजने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं।<ref name="wright2009">{{cite news | वेब पर सामग्री खोजने के लिए, खोज इंजन [[वेब क्रॉलर]] का उपयोग करते हैं जो ज्ञात प्रोटोकॉल वर्चुअल [[पोर्ट (कंप्यूटर नेटवर्किंग)]] के माध्यम से हाइपरलिंक का अनुसरण करते हैं। यह तकनीक सरफेस वेब पर सामग्री खोजने के लिए आदर्श है लेकिन डीप वेब सामग्री खोजने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं।<ref name="wright2009">{{cite news | ||
| Line 70: | Line 70: | ||
[[DeepPeep]], [[Intute]], [[Deep Web Technologies]], [[Scirus]], और Ahmia.fi कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब तक पहुंच बनाई है। Intute की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है।<ref>{{cite web | url=http://www.intute.ac.uk/faq.html | title=इंट्यूट एफएक्यू, डेड लिंक| access-date=October 13, 2012}}</ref> साइरस जनवरी 2013 के अंत में सेवानिवृत्त हुए।<ref>{{cite web|title=एल्सेवियर लोकप्रिय विज्ञान खोज इंजन को सेवानिवृत्त करेगा|url=http://library.bldrdoc.gov/newsarc/201312.html|website=library.bldrdoc.gov|date=December 2013|access-date=June 22, 2015|quote=by end of January 2014, Elsevier will be discontinuing Scirus, its free science search engine. Scirus has been a wide-ranging research tool, with over 575 million items indexed for searching, including webpages, pre-print articles, patents, and repositories.|archive-url=https://web.archive.org/web/20150623002452/http://library.bldrdoc.gov/newsarc/201312.html|archive-date=June 23, 2015|url-status=dead}}</ref> | [[DeepPeep]], [[Intute]], [[Deep Web Technologies]], [[Scirus]], और Ahmia.fi कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब तक पहुंच बनाई है। Intute की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है।<ref>{{cite web | url=http://www.intute.ac.uk/faq.html | title=इंट्यूट एफएक्यू, डेड लिंक| access-date=October 13, 2012}}</ref> साइरस जनवरी 2013 के अंत में सेवानिवृत्त हुए।<ref>{{cite web|title=एल्सेवियर लोकप्रिय विज्ञान खोज इंजन को सेवानिवृत्त करेगा|url=http://library.bldrdoc.gov/newsarc/201312.html|website=library.bldrdoc.gov|date=December 2013|access-date=June 22, 2015|quote=by end of January 2014, Elsevier will be discontinuing Scirus, its free science search engine. Scirus has been a wide-ranging research tool, with over 575 million items indexed for searching, including webpages, pre-print articles, patents, and repositories.|archive-url=https://web.archive.org/web/20150623002452/http://library.bldrdoc.gov/newsarc/201312.html|archive-date=June 23, 2015|url-status=dead}}</ref> | ||
शोधकर्ता इस बात की खोज कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी | शोधकर्ता इस बात की खोज कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर (गुमनामी नेटवर्क) द्वारा एक्सेस किया जा सकता है। 2001 में, श्रीराम राघवन और हेक्टर गार्सिया-मोलिना (स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी)<ref name=raghavan2000>{{cite journal | ||
| author = Sriram Raghavan | | author = Sriram Raghavan | ||
| first2 = Hector | last2 = Garcia-Molina | | first2 = Hector | last2 = Garcia-Molina | ||
| Line 77: | Line 77: | ||
| year = 2000 | | year = 2000 | ||
| url = http://ilpubs.stanford.edu:8090/456/1/2000-36.pdf | | url = http://ilpubs.stanford.edu:8090/456/1/2000-36.pdf | ||
| access-date = December 27, 2008}}</ref><ref>{{cite conference |first=Sriram |last=Raghavan |author2=Garcia-Molina, Hector | year=2001 | title=छिपे हुए वेब को क्रॉल करना| book-title=Proceedings of the 27th International Conference on Very Large Data Bases (VLDB) | pages=129–38 | url=http://www.dia.uniroma3.it/~vldbproc/017_129.pdf }}</ref> एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प | | access-date = December 27, 2008}}</ref><ref>{{cite conference |first=Sriram |last=Raghavan |author2=Garcia-Molina, Hector | year=2001 | title=छिपे हुए वेब को क्रॉल करना| book-title=Proceedings of the 27th International Conference on Very Large Data Bases (VLDB) | pages=129–38 | url=http://www.dia.uniroma3.it/~vldbproc/017_129.pdf }}</ref> एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब सामग्री को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से खोज प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है।<ref>{{cite journal | ||
| first1 = Ntoulas | | first1 = Ntoulas | ||
| last1 = Alexandros | | last1 = Alexandros | ||
| Line 95: | Line 95: | ||
| doi = 10.1016/S0169-023X(04)00107-7 | | doi = 10.1016/S0169-023X(04)00107-7 | ||
| url = http://www.inf.ufsc.br/~r.mello/deepWeb/querying/DKE2005-Sourav.pdf | | url = http://www.inf.ufsc.br/~r.mello/deepWeb/querying/DKE2005-Sourav.pdf | ||
}}</ref>) प्रस्तावित किया गया है कि, क्वेरी जारी करने के | }}</ref>) प्रस्तावित किया गया है कि, क्वेरी जारी करने के अतिरिक्त, परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति दें। एक और प्रयास डीपपीप है, जो [[ राष्ट्रीय विज्ञान संस्था ]] द्वारा प्रायोजित [[यूटा विश्वविद्यालय]] की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर तकनीकों के आधार पर विभिन्न डोमेन में छिपे हुए वेब स्रोत (वेब फॉर्म) एकत्र किए।<ref>{{cite journal | ||
| first1 = Luciano | | first1 = Luciano | ||
| last1 = Barbosa | | last1 = Barbosa | ||
| Line 124: | Line 124: | ||
| url-status = dead | | url-status = dead | ||
}}</ref> | }}</ref> | ||
वाणिज्यिक खोज इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक | वाणिज्यिक खोज इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की खोज प्रारंभ कर दी है। [[साइटमैप प्रोटोकॉल]] (पहली बार 2005 में Google द्वारा विकसित और प्रस्तुत किया गया) और [[मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल]]|OAI-PMH ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर गहरे वेब संसाधनों की खोज करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं जो उन पर पहुंच योग्य हैं, जिससे उन संसाधनों की स्वत: खोज की अनुमति मिलती है जो सीधे सतही वेब से जुड़े नहीं हैं। Google का डीप वेब सरफेसिंग सिस्टम प्रत्येक HTML फॉर्म के लिए सबमिशन की गणना करता है और परिणामी HTML पेजों को Google सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम गहरी वेब सामग्री के प्रति सेकंड एक हजार प्रश्नों के लिए खाते हैं।<ref>{{cite journal | ||
| first1 = Jayant | | first1 = Jayant | ||
| last1 = Madhavan | | last1 = Madhavan | ||
| Line 134: | Line 134: | ||
| access-date = April 17, 2009}}</ref> इस प्रणाली में, प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है: | | access-date = April 17, 2009}}</ref> इस प्रणाली में, प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है: | ||
# कीवर्ड स्वीकार करने वाले पाठ खोज इनपुट के लिए इनपुट मानों का चयन करना, | # कीवर्ड स्वीकार करने वाले पाठ खोज इनपुट के लिए इनपुट मानों का चयन करना, | ||
# उन इनपुट की पहचान करना जो | # उन इनपुट की पहचान करना जो मात्र एक विशिष्ट प्रकार (जैसे, दिनांक) के मान स्वीकार करते हैं और | ||
# वेब सर्च इंडेक्स में | # वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या का चयन करना। | ||
2008 में, Tor (गुमनामी नेटवर्क) #छिपी सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और एक छिपे हुए .onion प्रत्यय की खोज में सुविधा के लिए, [[हारून स्वार्ट्ज]] ने [[Tor2web]] को डिजाइन किया- एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है।<ref name=RELEASE>{{cite web|last=Aaron|first=Swartz|title=गुमनामी की रक्षा में|url=http://www.aaronsw.com/weblog/tor2web|access-date=February 4, 2014}}</ref> इस एप्लिकेशन का उपयोग करते हुए, गहरे वेब लिंक .onion [[शीर्ष-स्तरीय डोमेन]] के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं। | 2008 में, Tor (गुमनामी नेटवर्क) #छिपी सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और एक छिपे हुए .onion प्रत्यय की खोज में सुविधा के लिए, [[हारून स्वार्ट्ज]] ने [[Tor2web]] को डिजाइन किया- एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है।<ref name=RELEASE>{{cite web|last=Aaron|first=Swartz|title=गुमनामी की रक्षा में|url=http://www.aaronsw.com/weblog/tor2web|access-date=February 4, 2014}}</ref> इस एप्लिकेशन का उपयोग करते हुए, गहरे वेब लिंक .onion [[शीर्ष-स्तरीय डोमेन]] के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं। | ||
Revision as of 11:56, 25 June 2023
डीप वेब,[1] अदृश्य वेब,[2] या छिपा हुआ वेब[3] वर्ल्ड वाइड वेब के हिस्से हैं जिनकी सामग्री मानक वेब खोज इंजन|वेब सर्च-इंजन प्रोग्राम द्वारा खोज इंजन अनुक्रमण नहीं है। यह सतह का जाल के विपरीत है, जो इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ है।[4] कंप्यूटर विज्ञान | कंप्यूटर-वैज्ञानिक माइकल के. बर्गमैन को 2001 में खोज-अनुक्रमण शब्द के रूप में शब्द का आविष्कार करने का श्रेय दिया जाता है।[5] डीप वेब साइटों तक सीधे URL या IP पते द्वारा पहुँचा जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।[6][7] ऐसी साइटों में वेबमेल , ऑनलाइन बैंकिंग, घन संग्रहण , प्रतिबंधित-एक्सेस सामाजिक मीडिया पेज और प्रोफाइल, कुछ वेब मंचों और कोड भाषा जैसे उपयोग होते हैं जिन्हें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान वाली सेवाएं भी सम्मलित हैं।
शब्दावली
डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई।[8] उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और बाल अश्लीलता का व्यापार सम्मलित है।[9] तब से, ब्लैक-मार्केट वेबसाइट सिल्क रोड (बाजार) पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने सामान्यतः डार्क वेब या डार्कनेट के साथ 'डीप वेब' कंजूस शब्द का उपयोग किया है, एक तुलना को कुछ लोग गलत मानते हैं।[10] और फलस्वरूप भ्रम का एक निरंतर स्रोत बन गया है।[11] वायर्ड (वेबसाइट) रिपोर्टर की किम ज़ेटर [12] और एंडी ग्रीनबर्ग[13] अनुशंसा करते हैं कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है जिसे पारंपरिक खोज इंजन द्वारा एक्सेस नहीं किया जा सकता है, डार्क वेब डीप वेब का एक भाग है जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम है।[14][15][16][17][18]
गैर-अनुक्रमित सामग्री
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक पब्लिशिंग में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है कि जिल एल्सवर्थ ने 1994 में अदृश्य वेब शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं।[19] बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया:[20] <ब्लॉककोट> यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई हो, लेकिन उन्होंने इसे किसी भी खोज इंजन के साथ पंजीकृत करने की जहमत नहीं उठाई। तो, कोई उन्हें ढूंढ नहीं सकता! तुम छिपे हो। मैं उसे अदृश्य वेब कहता हूं। </ब्लॉककोट>
दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर 1 डीप वेब प्रोग्राम के विवरण में ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।[21] विशिष्ट शब्द डीप वेब का पहला प्रयोग, जिसे अब सामान्यतः स्वीकार किया जाता है, उपर्युक्त 2001 बर्गमैन अध्ययन में हुआ।[19]
इंडेक्सिंग के विधि
ऐसे विधि जो वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:
- प्रासंगिक वेब: भिन्न-भिन्न एक्सेस संदर्भों के लिए भिन्न-भिन्न सामग्री वाले पेज (उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज)।
- डायनेमिक कंटेंट: गतिशील वेब पेज, जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए एक्सेस किए जाते हैं, खासकर यदि ओपन-डोमेन इनपुट एलिमेंट्स (जैसे टेक्स्ट फील्ड्स) का उपयोग किया जाता है; डोमेन ज्ञान के बिना ऐसे क्षेत्रों में नेविगेट करना कठिन होता है।
- सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं (उदाहरण के लिए, रोबोट बहिष्करण मानक या कॅप्चा , या नो-स्टोर निर्देश का उपयोग करना, जो खोज इंजनों को उन्हें ब्राउज़ करने और वेब कैश कॉपी बनाने से रोकते हैं)।[22] साइटों में ऐसे पृष्ठों की खोज के लिए एक आंतरिक खोज इंजन हो सकता है।[23][24]
- गैर-एचटीएमएल/पाठ सामग्री: मल्टीमीडिया (छवि या वीडियो) फ़ाइलों या विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड पाठ्य सामग्री खोज इंजन द्वारा मान्यता प्राप्त नहीं है।
- निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन (पासवर्ड-सुरक्षित संसाधन) की आवश्यकता होती है।
- स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं।
- सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, मात्र विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से .onion सर्वर पते का उपयोग करके वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है।
- अनलिंक की गई सामग्री: वे पृष्ठ जो अन्य पृष्ठों से लिंक नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना बैकलिंक वाले पेज कहा जाता है (इनलिंक के रूप में भी जाना जाता है)। साथ ही, सर्च इंजन निरंतर खोजे गए वेब पेजों से सभी बैकलिंक्स का पता नहीं लगाते हैं।
- वेब संग्रह: वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें सम्मलित हैं जो दुर्गम हो गई