डीप वेब: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(7 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Content of the World Wide Web that is not indexed by search engines}}
{{short description|Content of the World Wide Web that is not indexed by search engines}}
{{About | यह लेख वर्ल्ड वाइड वेब के उस भाग के बारे में है,जिसकी अनुक्रमित पारंपरिक खोज इंजन नहीं है।अन्य उपयोगों के लिए गहरी वेब असंबद्धता देखें}}
{{About | यह लेख वर्ल्ड वाइड वेब के उस भाग के बारे में है,जिसकी अनुक्रमित पारंपरिक सर्च इंजन के रूप में नहीं है। अन्य उपयोगों के लिए गहरी वेब असंबद्धता में दिखया गया है }}


[[Index.php?title=अंधेरे जाल|अंधेरे  वेब]] के साथ भ्रमित न हों।
[[Index.php?title=अंधेरे जाल|डीप वेब]] के साथ भ्रमित न हों।


{{Use mdy dates|date=May 2022}}


'''डीप वेब''',<ref>{{cite book |citeseerx= 10.1.1.90.5847 |chapter-url= http://www.iadisportal.org/digital-library/the-mechanics-of-a-deep-net-metasearch-engine |chapter=The Mechanics of a Deep Net Metasearch Engine |pages=1034–6 |last= Hamilton |first= Nigel |year= 2019–2020 |editor1-first= Pedro |editor1-last= Isaías |editor2-first= António |editor2-last= Palma dos Reis |title= ई-सोसायटी पर IADIS अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|isbn= 978-972-98947-0-1 }}</ref> '''अदृश्य   वेब''',<ref>{{cite journal |last1= Devine |first1= Jane |last2= Egger-Sider |first2= Francine |title= Beyond google: the invisible web in the academic library |journal= The Journal of Academic Librarianship |date= August 2021 |volume= 30 |issue= 4 |pages= 265–269 |doi= 10.1016/j.acalib.2004.04.010 }}</ref> या '''छिपा हुआ  वेब'''<ref name="cthw">{{cite journal|title= छिपे हुए वेब को क्रॉल करना|journal= 27th International Conference on Very Large Data Bases|date= September 11–14, 2001|first1= Sriram|last1= Raghavan|first2= Hector|last2= Garcia-Molina|url=http://ilpubs.stanford.edu:8090/725/}}</ref> [[वर्ल्ड वाइड वेब]] के हिस्से हैं, जिनकी सामग्री मानक   [[वेब खोज इंजन]]  वेब सर्च-इंजन प्रोग्राम द्वारा [[खोज इंजन अनुक्रमण]] के रूप में नहीं है। यह [[ सतह का जाल | सतह के  वेब]] के विपरीत है, जो इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ होता है।<ref>{{cite web |title= भूतल वेब|url= https://www.computerhope.com/jargon/s/surface-web.htm |publisher= Computer Hope |access-date= June 20, 2018}}</ref> [[कंप्यूटर विज्ञान]] माइकल के. बर्गमैन को 2001 में खोज-अनुक्रमण शब्द के रूप में आविष्कार करने का श्रेय दिया गया है।<ref>
'''डीप वेब''',<ref>{{cite book |citeseerx= 10.1.1.90.5847 |chapter-url= http://www.iadisportal.org/digital-library/the-mechanics-of-a-deep-net-metasearch-engine |chapter=The Mechanics of a Deep Net Metasearch Engine |pages=1034–6 |last= Hamilton |first= Nigel |year= 2019–2020 |editor1-first= Pedro |editor1-last= Isaías |editor2-first= António |editor2-last= Palma dos Reis |title= ई-सोसायटी पर IADIS अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|isbn= 978-972-98947-0-1 }}</ref> '''अदृश्य वेब''',<ref>{{cite journal |last1= Devine |first1= Jane |last2= Egger-Sider |first2= Francine |title= Beyond google: the invisible web in the academic library |journal= The Journal of Academic Librarianship |date= August 2021 |volume= 30 |issue= 4 |pages= 265–269 |doi= 10.1016/j.acalib.2004.04.010 }}</ref> या '''हिडन वेब'''<ref name="cthw">{{cite journal|title= छिपे हुए वेब को क्रॉल करना|journal= 27th International Conference on Very Large Data Bases|date= September 11–14, 2001|first1= Sriram|last1= Raghavan|first2= Hector|last2= Garcia-Molina|url=http://ilpubs.stanford.edu:8090/725/}}</ref> [[वर्ल्ड वाइड वेब]] के भाग के रूप में होते है, जिसके कंटेंट मानक [[वेब सर्च-इंजन प्रोग्राम]] द्वारा [[अनुक्रमित]] नहीं हैं। यह [[ सतह का जाल |सतह वेब]] के विपरीत होते है, जिसकी पहुंच इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ हो सकती है।<ref>{{cite web |title= भूतल वेब|url= https://www.computerhope.com/jargon/s/surface-web.htm |publisher= Computer Hope |access-date= June 20, 2018}}</ref> [[कंप्यूटर विज्ञान]] माइकल के. बर्गमैन को 2001 में सर्च -इंडेक्सिंग शब्द के रूप में सर्च करने का श्रेय दिया गया है।<ref>
{{cite news
{{cite news
  | last = Wright
  | last = Wright
Line 19: Line 18:
</ref>
</ref>


डीप वेब साइटों का सीधे [[URL|यूआरएल]] या आईपी पते के द्वारा किया जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।<ref>Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.</ref><ref>{{cite web |url= https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |title= How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web |url-access=  |newspaper= [[Sunday Mail (Scotland)|Sunday Mail]] |date= June 8, 2014 |first= Sam |last= Shedden |access-date=  |archive-date= March 1, 2020 |archive-url= https://web.archive.org/web/20200301174912/https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |url-status= dead }}</ref> ऐसी साइटों में [[ वेबमेल |   वेब मेल]] , [[ऑनलाइन बैंकिंग]], [[ घन संग्रहण | घन संग्रहण]] , प्रतिबंधित-अभिगम [[ सामाजिक मीडिया | सामाजिक मीडिया]] पेज और प्रोफाइल, कुछ [[वेब मंचों]] और कोड भाषा के रूप में उपयोग होते हैं, जिसमें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें [[प्रचलित विडियो]] और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान के रूप में सेवाएं भी सम्मलित हैं।
डीप वेब साइटों का प्रत्यक्ष [[URL|यूआरएल]] या आईपी एड्रेस के द्वारा किया जा सकता है, लेकिन वास्तविक कंटेंट तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।<ref>Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.</ref><ref>{{cite web |url= https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |title= How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web |url-access=  |newspaper= [[Sunday Mail (Scotland)|Sunday Mail]] |date= June 8, 2014 |first= Sam |last= Shedden |access-date=  |archive-date= March 1, 2020 |archive-url= https://web.archive.org/web/20200301174912/https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |url-status= dead }}</ref> ऐसी साइटों में [[ वेबमेल |वेब मेल]], [[ऑनलाइन बैंकिंग]], [[ घन संग्रहण |क्लाउड स्टोरेज]], सीमित पहुंच वाले [[ सामाजिक मीडिया |सामाजिक मीडिया]] पेज और प्रोफाइल कुछ [[वेब मंचों|वेब फ़ोरम्स]] और कोड लैंग्वेज के रूप में उपयोग किया जाता है, जिसमें कंटेंट देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें [[प्रचलित विडियो]] और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी मांग के रूप में सेवाएं भी सम्मलित होती है।
== शब्दावली ==
== शब्दावली ==


[[डार्क वेब]] के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ जब डीप वेब सर्च शब्दावली पर [[फ्रीनेट]] और [[डार्कनेट]] पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई।<ref>{{cite news|last1=Beckett|first1=Andy|title=इंटरनेट का काला पक्ष|url=https://www.theguardian.com/technology/2009/nov/26/dark-side-internet-freenet |date=November 26, 2009 |access-date=August 9, 2015}}</ref> उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, [[आग्नेयास्त्रों]] और [[बाल अश्लीलता]] का व्यापार के रूप में सम्मलित किया गया है।<ref>{{cite video|url=https://www.youtube.com/watch?v=GEwmYk15ZcU| archive-url=https://ghostarchive.org/varchive/youtube/20211113/GEwmYk15ZcU| archive-date=November 13, 2021 | url-status=live|author=D. Day|title=Easiest Catch: Don't Be Another Fish in the Dark Net|publisher=[[TEDx Talks]]|location=Wake Forest University}}{{cbignore}}</ref>
[[डार्क वेब]] के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ था, जब डीप वेब सर्च शब्दावली पर [[फ्रीनेट]] और [[डार्कनेट]] पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई थी।<ref>{{cite news|last1=Beckett|first1=Andy|title=इंटरनेट का काला पक्ष|url=https://www.theguardian.com/technology/2009/nov/26/dark-side-internet-freenet |date=November 26, 2009 |access-date=August 9, 2015}}</ref> उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, [[आग्नेयास्त्रों]] और [[बाल अश्लीलता|चाइल्ड पोनोग्राफी]] का व्यापार के रूप में सम्मलित किया गया है।<ref>{{cite video|url=https://www.youtube.com/watch?v=GEwmYk15ZcU| archive-url=https://ghostarchive.org/varchive/youtube/20211113/GEwmYk15ZcU| archive-date=November 13, 2021 | url-status=live|author=D. Day|title=Easiest Catch: Don't Be Another Fish in the Dark Net|publisher=[[TEDx Talks]]|location=Wake Forest University}}{{cbignore}}</ref>


तब से, ब्लैक-मार्केट वेबसाइट [[ सिल्क रोड (बाजार) | सिल्क रोड (बाजार)]] पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने सामान्यतः डार्क वेब या डार्कनेट के साथ ' डीप वेब' [[ कंजूस शब्द | कंजूस शब्द]] के रूप में उपयोग किया है, इस तुलना को कुछ लोग गलत मानते हैं।<ref name="confusion">{{cite web|url=http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/|title=Clearing Up Confusion – Deep Web vs. Dark Web|publisher=BrightPlanet|date=March 27, 2014}}</ref> और फलस्वरूप भ्रम के रूप का एक निरंतर स्रोत बन गया है।<ref>{{cite news|last1=Solomon|first1=Jane|title=डीप वेब बनाम डार्क वेब|url=http://blog.dictionary.com/dark-web/ |date=May 6, 2015 |access-date=May 26, 2015}}</ref> [[वायर्ड (वेबसाइट)|वायर्ड (  वेबसाइट)]] रिपोर्टर की [[ किम ज़ेटर | किम ज़ेटर]] <ref>{{cite news|last1=NPR Staff|title=Going Dark: The Internet Behind The Internet|url=https://www.npr.org/sections/alltechconsidered/2014/05/25/315821415/going-dark-the-internet-behind-the-internet|access-date=May 29, 2015|date=May 25, 2014}}</ref> और [[एंडी ग्रीनबर्ग]]<ref>{{cite news|last1=Greenberg|first1=Andy|title=Hacker Lexicon: What Is the Dark Web?|url=https://www.wired.com/2014/11/hacker-lexicon-whats-dark-web/ |date=November 19, 2014 |access-date=June 6, 2015}}</ref> अनुशंसा करते हैं कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक खोज इंजन द्वारा अभिगम नहीं किया जा सकता है। डार्क वेब ,डीप वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम होता है।<ref>{{cite web|title=इंटरनेट गवर्नेंस और साइबर सुरक्षा पर डार्क वेब का प्रभाव|date=January 20, 2014|url=https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|access-date=January 15, 2017|archive-date=January 16, 2017|archive-url=https://web.archive.org/web/20170116173141/https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|url-status=dead}}</ref><ref>{{cite book|last1=Lam|first1=Kwok-Yan|last2=Chi|first2=Chi-Hung|last3=Qing|first3=Sihan|title=Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings|publisher=Springer|isbn=9783319500119|url=https://books.google.com/books?id=uraVDQAAQBAJ&pg=PA174 |language=en |date=November 23, 2016 |access-date=January 15, 2017}}</ref><ref>{{cite web|title=The Deep Web vs. The Dark Web {{!}} Dictionary.com Blog|url=http://blog.dictionary.com/dark-web/|publisher=Dictionary Blog |date=May 6, 2015 |access-date=January 15, 2017}}</ref><ref>{{cite book|last1=Akhgar|first1=Babak|last2=Bayerl|first2=P. Saskia|last3=Sampson|first3=Fraser|title=Open Source Intelligence Investigation: From Strategy to Implementation|publisher=Springer|isbn=9783319476711|url=https://books.google.com/books?id=39zTDQAAQBAJ&pg=PA112 |language=en |date=January 1, 2017 |access-date=January 15, 2017}}</ref><ref>{{cite news|title=What is the dark web and who uses it?|url=https://www.theglobeandmail.com/technology/tech-news/what-is-the-dark-web-and-who-uses-it/article26026082/|newspaper=The Globe and Mail|access-date=January 15, 2017}}</ref>
ब्लैक मार्केट [[सिल्क रोड]] पर मीडिया द्वारा रिपोर्ट करने के बाद से मीडिया आउटलेट्स ने सामान्य रूप से डीप वेब का प्रयोग किया है, जो कि सामान्यतः डार्क वेब या डार्कनेट के रूप में उपयोग किया जाता है, इस तुलना को कुछ लोग गलत समझते हैं।<ref name="confusion">{{cite web|url=http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/|title=Clearing Up Confusion – Deep Web vs. Dark Web|publisher=BrightPlanet|date=March 27, 2014}}</ref> और इसके परिणामस्वरूप लगातार असमंजित के रूप में एक निरंतर स्रोत बन गया है।<ref>{{cite news|last1=Solomon|first1=Jane|title=डीप वेब बनाम डार्क वेब|url=http://blog.dictionary.com/dark-web/ |date=May 6, 2015 |access-date=May 26, 2015}}</ref> [[वायर्ड (वेबसाइट)]] रिपोर्टर[[ किम ज़ेटर | किम ज़ेटर]] <ref>{{cite news|last1=NPR Staff|title=Going Dark: The Internet Behind The Internet|url=https://www.npr.org/sections/alltechconsidered/2014/05/25/315821415/going-dark-the-internet-behind-the-internet|access-date=May 29, 2015|date=May 25, 2014}}</ref> और [[एंडी ग्रीनबर्ग]]<ref>{{cite news|last1=Greenberg|first1=Andy|title=Hacker Lexicon: What Is the Dark Web?|url=https://www.wired.com/2014/11/hacker-lexicon-whats-dark-web/ |date=November 19, 2014 |access-date=June 6, 2015}}</ref> ने अनुशंसा करते हुए कहा कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाता है। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक सर्च इंजन द्वारा एक्सेस नहीं किया जा सकता है। लेकिन डार्क वेब ,डीप वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा द्वारा एक्सेस किया जाता है।<ref>{{cite web|title=इंटरनेट गवर्नेंस और साइबर सुरक्षा पर डार्क वेब का प्रभाव|date=January 20, 2014|url=https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|access-date=January 15, 2017|archive-date=January 16, 2017|archive-url=https://web.archive.org/web/20170116173141/https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|url-status=dead}}</ref><ref>{{cite book|last1=Lam|first1=Kwok-Yan|last2=Chi|first2=Chi-Hung|last3=Qing|first3=Sihan|title=Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings|publisher=Springer|isbn=9783319500119|url=https://books.google.com/books?id=uraVDQAAQBAJ&pg=PA174 |language=en |date=November 23, 2016 |access-date=January 15, 2017}}</ref><ref>{{cite web|title=The Deep Web vs. The Dark Web {{!}} Dictionary.com Blog|url=http://blog.dictionary.com/dark-web/|publisher=Dictionary Blog |date=May 6, 2015 |access-date=January 15, 2017}}</ref><ref>{{cite book|last1=Akhgar|first1=Babak|last2=Bayerl|first2=P. Saskia|last3=Sampson|first3=Fraser|title=Open Source Intelligence Investigation: From Strategy to Implementation|publisher=Springer|isbn=9783319476711|url=https://books.google.com/books?id=39zTDQAAQBAJ&pg=PA112 |language=en |date=January 1, 2017 |access-date=January 15, 2017}}</ref><ref>{{cite news|title=What is the dark web and who uses it?|url=https://www.theglobeandmail.com/technology/tech-news/what-is-the-dark-web-and-who-uses-it/article26026082/|newspaper=The Globe and Mail|access-date=January 15, 2017}}</ref>
== गैर-अनुक्रमित सामग्री ==
== गैर-अनुक्रमित सामग्री ==
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में [[ अदृश्य वेब | अदृश्य वेब]] शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं।<ref name="bergman2001">{{cite journal |first= Michael K | last= Bergman | title=The Deep Web: Surfacing Hidden Value | journal=The Journal of Electronic Publishing |date=August 2001 | volume=7 | issue=1 | url=http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 |doi=10.3998/3336451.0007.104| doi-access=free }}</ref> बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया:<ref>{{cite journal
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में [[ अदृश्य वेब |अदृश्य वेब]] शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं।<ref name="bergman2001">{{cite journal |first= Michael K | last= Bergman | title=The Deep Web: Surfacing Hidden Value | journal=The Journal of Electronic Publishing |date=August 2001 | volume=7 | issue=1 | url=http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 |doi=10.3998/3336451.0007.104| doi-access=free }}</ref> और इस प्रकार बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया था।<ref>{{cite journal
  | last = Garcia
  | last = Garcia
  | first = Frank
  | first = Frank
Line 37: Line 36:
  | access-date=February 24, 2009 |archive-url=https://web.archive.org/web/19961205083117/http://tcp.ca/Jan96/BusandMark.html |archive-date=December 5, 1996}}</ref>
  | access-date=February 24, 2009 |archive-url=https://web.archive.org/web/19961205083117/http://tcp.ca/Jan96/BusandMark.html |archive-date=December 5, 1996}}</ref>


यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी खोज इंजन के साथ पंजीकृत करने की परेशानी नहीं उठाई। इसलिए कोई उन्हें ढूंढ नहीं सकता। तुम छिपे हो। मैं इसे अदृश्य वेब कहता हूं।
यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी सर्च इंजन के साथ पंजीकृत करने की परेशानी नहीं उठाई थीं। इसलिए कोई उन्हें ढूंढ नहीं सकता था और वे छिपे हुए होते है और इसे अदृश्य वेब के रूप में जाना जाता है।


दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर1  डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और [[पर्सनल लाइब्रेरी सॉफ्टवेयर]] के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।<ref name="PLS">@1 started with 5.7 terabytes of content, estimated to be 30 times the size of the nascent World Wide Web; PLS was acquired by AOL in 1998 and @1 was abandoned. {{cite press release |title=PLS introduces AT1, the first 'second generation' Internet search service |publisher=Personal Library Software |date=December 1996 |url=http://www.pls.com/news/pr961212_at1.html |access-date=February 24, 2009 |url-status=dead |archive-url=https://web.archive.org/web/19971021232057/http://www.pls.com/news/pr961212_at1.html |archive-date=October 21, 1997 }}</ref>
दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर 1 डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और [[पर्सनल लाइब्रेरी सॉफ्टवेयर]] के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।<ref name="PLS">@1 started with 5.7 terabytes of content, estimated to be 30 times the size of the nascent World Wide Web; PLS was acquired by AOL in 1998 and @1 was abandoned. {{cite press release |title=PLS introduces AT1, the first 'second generation' Internet search service |publisher=Personal Library Software |date=December 1996 |url=http://www.pls.com/news/pr961212_at1.html |access-date=February 24, 2009 |url-status=dead |archive-url=https://web.archive.org/web/19971021232057/http://www.pls.com/news/pr961212_at1.html |archive-date=October 21, 1997 }}</ref>


विशिष्ट शब्द डीप वेब का पहला प्रयोग, जिसे अब सामान्यतः स्वीकार किया जाता है, उपर्युक्त 2001 बर्गमैन के अध्ययन  रूप में होता है।<ref name="bergman2001" />
उपर्युक्त 2001 बर्गमैन के अध्ययन में, विशेष 'डीप वेब' का पहला प्रयोग किया गया था, जिसे सामान्यतः रूप में स्वीकार किया जाता है।<ref name="bergman2001" />
== इंडेक्सिंग के विधि ==
== इंडेक्सिंग के विधि ==
ऐसे विधि जो   वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:
ऐसे विधि जो वेब पेजों को पारंपरिक सर्च इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:


# '''प्रासंगिक वेब''': विभिन्न अभिगम संदर्भों के लिए भिन्न-भिन्न सामग्री वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है।
# '''प्रासंगिक वेब''': विभिन्न एक्सेस संदर्भों के लिए भिन्न-भिन्न कंटेंट वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है।
# '''डायनेमिक कंटेंट''': [[गतिशील   वेब पेज]], जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए अभिगम किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.।
# '''डायनेमिक कंटेंट''': [[गतिशील वेब पेज]], जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए एक्सेस किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.।
# '''सीमित पहुंच वाली सामग्री''': ऐसी साइटें जो तकनीकी विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए [[रोबोट बहिष्करण मानक]] या [[ कॅप्चा ]],किसी स्टोर निर्देश का उपयोग नहीं करता है, जो खोज इंजनों को उन्हें ब्राउज़ करने और वेब [[कैश]] प्रतियां बनाने से रोकता हैं।<ref>{{cite journal|title=Hypertext Transfer Protocol (HTTP/1.1): Caching|publisher=[[Internet Engineering Task Force]]|year=2014|doi=10.17487/RFC7234 |url=http://tools.ietf.org/html/rfc7234#section-5.2.2.3|access-date=July 30, 2014|editor-last1=Fielding |editor-last2=Nottingham |editor-last3=Reschke |editor-first1=R. |editor-first2=M. |editor-first3=J. |last1=Fielding |first1=R. |last2=Nottingham |first2=M. |last3=Reschke |first3=J. }}</ref> ऐसे पृष्ठों की खोज के लिए साइटों में एक आंतरिक खोज इंजन के रूप में सुविधा हो सकती है।<ref>[[Special:Search]]</ref><ref>{{Cite web|url=https://archive.org/search.php|title=Internet Archive Search}}</ref>
# '''सीमित पहुंच वाली सामग्री''': ऐसी साइटें जो प्रौद्योगिकीय विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए [[रोबोट बहिष्करण मानक]] या [[ कॅप्चा |कॅप्चा]] ,किसी स्टोर निर्देश का उपयोग नहीं करता है, जो सर्च इंजनों को उन्हें ब्राउज़ करने और वेब [[कैश]] प्रतियां बनाने से रोकता हैं।<ref>{{cite journal|title=Hypertext Transfer Protocol (HTTP/1.1): Caching|publisher=[[Internet Engineering Task Force]]|year=2014|doi=10.17487/RFC7234 |url=http://tools.ietf.org/html/rfc7234#section-5.2.2.3|access-date=July 30, 2014|editor-last1=Fielding |editor-last2=Nottingham |editor-last3=Reschke |editor-first1=R. |editor-first2=M. |editor-first3=J. |last1=Fielding |first1=R. |last2=Nottingham |first2=M. |last3=Reschke |first3=J. }}</ref> ऐसे पृष्ठों की सर्च के लिए साइटों में एक आंतरिक सर्च इंजन के रूप में सुविधा हो सकती है।<ref>[[Special:Search]]</ref><ref>{{Cite web|url=https://archive.org/search.php|title=Internet Archive Search}}</ref>
# '''गैर-एचटीएमएल/पाठ सामग्री''': पाठ सामग्री जो मल्टीमीडिया छवि या वीडियो विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को खोज इंजन के रूप में मान्यता प्राप्त नहीं है।
# '''गैर-एचटीएमएल/पाठ सामग्री''': पाठ कंटेंट जो मल्टीमीडिया छवि या वीडियो विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को सर्च इंजन के रूप में मान्यता प्राप्त नहीं है।
#'''निजी वेब''': वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है।
#'''प्राइवेट वेब''': वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है।
# '''स्क्रिप्टेड सामग्री''': वे पृष्ठ जो मात्र [[जावास्क्रिप्ट]] द्वारा निर्मित लिंक के साथ-साथ [[एडोब फ्लैश]] या [[अजाक्स (प्रोग्रामिंग)]] समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं।
# '''स्क्रिप्टेड सामग्री''': वे पृष्ठ जो मात्र [[जावास्क्रिप्ट]] द्वारा निर्मित लिंक के साथ-साथ [[एडोब फ्लैश]] या [[अजाक्स (प्रोग्रामिंग)]] समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली कंटेंट तक पहुंच योग्य हैं।
# '''सॉफ़्टवेयर''': नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), [[I2P]], या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही अभिगम की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर पते का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है।
# '''सॉफ़्टवेयर''': नियमित इंटरनेट से कुछ कंटेंट जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), [[I2P]], या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर एड्रेस का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी एड्रेस को छुपाता है।
# '''अनलिंक की गई सामग्री''': ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो [[वेब क्रॉलिंग]] प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना [[बैकलिंक]] वाले पेज कहा जाता है, जिसे इनलिंक्स के रूप में भी जाना जाता है। खोज इंजन हमेशा खोजे गए वेब पृष्ठों में से सभी बैकलिंक नहीं खोज पाते हैं।
# '''अनलिंक की गई सामग्री''': ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो [[वेब क्रॉलिंग]] प्रोग्राम को कंटेंट तक पहुँचने से रोक सकते हैं। इस कंटेंट को बिना [[बैकलिंक]] वाले पेज कहा जाता है, जिसे इनलिंक्स के रूप में भी जाना जाता है। सर्च इंजन हमेशा सर्च े गए वेब पृष्ठों में से सभी बैकलिंक नहीं सर्च पाते हैं।
# '''वेब संग्रह''': वेब अभिलेखीय सेवाएं जैसे कि [[वेबैक मशीन]] उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे खोज इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को खोज द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को वेब सामग्री माना जाता है।<ref>{{cite web|last1=Wiener-Bronner|first1=Danielle|title=Google मानव जाति को वह दिखाने के लिए 'डीप वेब' को अनुक्रमित कर रहा है जो Google नहीं करेगा|url=http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|publisher=Fusion|date=June 10, 2015|access-date=June 27, 2015|quote=There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said [[Chris Mattmann]].|archive-date=June 30, 2015|archive-url=https://web.archive.org/web/20150630010143/http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|url-status=dead}}</ref>  
# '''वेब संग्रह''': वेब अभिलेखीय सेवाएं जैसे कि [[वेबैक मशीन]] उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे सर्च इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को सर्च द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को वेब कंटेंट माना जाता है।<ref>{{cite web|last1=Wiener-Bronner|first1=Danielle|title=Google मानव जाति को वह दिखाने के लिए 'डीप वेब' को अनुक्रमित कर रहा है जो Google नहीं करेगा|url=http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|publisher=Fusion|date=June 10, 2015|access-date=June 27, 2015|quote=There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said [[Chris Mattmann]].|archive-date=June 30, 2015|archive-url=https://web.archive.org/web/20150630010143/http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|url-status=dead}}</ref>  
== सामग्री प्रकार ==
== कंटेंट प्रकार ==
चूंकि एक विशिष्ट वेब सर्वर की सामग्री को सीधे खोजना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से अभिगम किया जा सकता है ([[भेद्यता (कंप्यूटिंग)]] के कारण होता है।
चूंकि एक विशिष्ट वेब सर्वर की कंटेंट को सीधे सर्च ना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से एक्सेस किया जा सकता है और इस प्रकार ये [[कंप्यूटर]] [[भेद्यता (कंप्यूटिंग)|वल्नेरेबिलिटी]] के कारण होता है।


वेब पर सामग्री खोजने के लिए, खोज इंजन [[वेब क्रॉलर]] का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल [[पोर्ट (कंप्यूटर नेटवर्किंग)]] के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह तकनीक सरफेस वेब पर सामग्री खोजने के लिए आदर्श है, लेकिन अक्सर डीप वेब सामग्री खोजने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं।<ref name="wright2009">{{cite news
वेब पर कंटेंट सर्च ने के लिए, सर्च इंजन [[वेब क्रॉलर]] का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल [[पोर्ट (कंप्यूटर नेटवर्किंग)]] के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह प्रौद्योगिकीय सतह वेब पर कंटेंट सर्च ने के लिए आदर्श है, लेकिन अक्सर डीप वेब कंटेंट सर्च ने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को सर्च ने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं।<ref name="wright2009">{{cite news
  | last = Wright
  | last = Wright
  | first = Alex
  | first = Alex
Line 64: Line 63:
  | date = February 22, 2009
  | date = February 22, 2009
  | url = https://www.nytimes.com/2009/02/23/technology/internet/23search.html?th&emc=th
  | url = https://www.nytimes.com/2009/02/23/technology/internet/23search.html?th&emc=th
  | access-date = February 23, 2009}}</ref> यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।
  | access-date = February 23, 2009}}</ref> यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।


[[DeepPeep|डीपपीप,]], [[इंटुटे]],[[डीप वेब टेक्नोलॉजीज]], [[Scirus|साइरस]], और अहमिया.एफ कुछ ऐसे खोज इंजन हैं, जिन्होंने डीप वेब के रूप में पहुंच बनाई है। इनटूट की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है।<ref>{{cite web | url=http://www.intute.ac.uk/faq.html | title=इंट्यूट एफएक्यू, डेड लिंक| access-date=October 13, 2012}}</ref> जनवरी 2013 के अंत में साइरस सेवानिवृत्त हुए।।<ref>{{cite web|title=एल्सेवियर लोकप्रिय विज्ञान खोज इंजन को सेवानिवृत्त करेगा|url=http://library.bldrdoc.gov/newsarc/201312.html|website=library.bldrdoc.gov|date=December 2013|access-date=June 22, 2015|quote=by end of January 2014, Elsevier will be discontinuing Scirus, its free science search engine. Scirus has been a wide-ranging research tool, with over 575 million items indexed for searching, including webpages, pre-print articles, patents, and repositories.|archive-url=https://web.archive.org/web/20150623002452/http://library.bldrdoc.gov/newsarc/201312.html|archive-date=June 23, 2015|url-status=dead}}</ref>शोधकर्ता इस बात की खोज कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर गुमनामी नेटवर्क द्वारा अभिगम किया जा सकता है। 2001 में श्रीराम राघवन और हेक्टर गार्सिया-मोलिना स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी होती है।<ref name="raghavan2000">{{cite journal
[[DeepPeep|डीपपीप,]], [[इंटुटे]],[[डीप वेब टेक्नोलॉजीज]], [[Scirus|साइरस]], और अहमिया.एफ कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब के रूप में पहुंच बनाई है। इनटूट की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है।<ref>{{cite web | url=http://www.intute.ac.uk/faq.html | title=इंट्यूट एफएक्यू, डेड लिंक| access-date=October 13, 2012}}</ref> जनवरी 2013 के अंत में साइरस सेवानिवृत्त हुए।।<ref>{{cite web|title=एल्सेवियर लोकप्रिय विज्ञान खोज इंजन को सेवानिवृत्त करेगा|url=http://library.bldrdoc.gov/newsarc/201312.html|website=library.bldrdoc.gov|date=December 2013|access-date=June 22, 2015|quote=by end of January 2014, Elsevier will be discontinuing Scirus, its free science search engine. Scirus has been a wide-ranging research tool, with over 575 million items indexed for searching, including webpages, pre-print articles, patents, and repositories.|archive-url=https://web.archive.org/web/20150623002452/http://library.bldrdoc.gov/newsarc/201312.html|archive-date=June 23, 2015|url-status=dead}}</ref>शोधकर्ता इस बात की सर्च कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी कंटेंट भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर गुमनामी नेटवर्क द्वारा एक्सेस किया जा सकता है। 2001 में श्रीराम राघवन और हेक्टर गार्सिया-मोलिना स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी होती है।<ref name="raghavan2000">{{cite journal
  | author = Sriram Raghavan
  | author = Sriram Raghavan
  | first2 = Hector | last2 = Garcia-Molina
  | first2 = Hector | last2 = Garcia-Molina
Line 73: Line 72:
  | year = 2000
  | year = 2000
  | url = http://ilpubs.stanford.edu:8090/456/1/2000-36.pdf
  | url = http://ilpubs.stanford.edu:8090/456/1/2000-36.pdf
  | access-date = December 27, 2008}}</ref><ref>{{cite conference |first=Sriram |last=Raghavan |author2=Garcia-Molina, Hector | year=2001 | title=छिपे हुए वेब को क्रॉल करना| book-title=Proceedings of the 27th International Conference on Very Large Data Bases (VLDB) | pages=129–38 | url=http://www.dia.uniroma3.it/~vldbproc/017_129.pdf }}</ref> एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब सामग्री को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से खोज प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है।<ref>{{cite journal
  | access-date = December 27, 2008}}</ref><ref>{{cite conference |first=Sriram |last=Raghavan |author2=Garcia-Molina, Hector | year=2001 | title=छिपे हुए वेब को क्रॉल करना| book-title=Proceedings of the 27th International Conference on Very Large Data Bases (VLDB) | pages=129–38 | url=http://www.dia.uniroma3.it/~vldbproc/017_129.pdf }}</ref> एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब कंटेंट को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से सर्च प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है।<ref>{{cite journal
  | first1 = Ntoulas
  | first1 = Ntoulas
  | last1 = Alexandros
  | last1 = Alexandros
Line 81: Line 80:
  | year = 2005
  | year = 2005
  | url = http://oak.cs.ucla.edu/~cho/papers/ntoulas-hidden.pdf
  | url = http://oak.cs.ucla.edu/~cho/papers/ntoulas-hidden.pdf
  | access-date = February 24, 2009}}</ref> कई प्रपत्र क्वेरी भाषा अर्थात, शेष<ref>{{cite journal
  | access-date = February 24, 2009}}</ref> कई प्रपत्र क्वेरी लैंग्वेज अर्थात, शेष<ref>{{cite journal
  | first1 = Denis
  | first1 = Denis
  | last1 = Shestakov
  | last1 = Shestakov
Line 91: Line 90:
  | doi = 10.1016/S0169-023X(04)00107-7
  | doi = 10.1016/S0169-023X(04)00107-7
  | url = http://www.inf.ufsc.br/~r.mello/deepWeb/querying/DKE2005-Sourav.pdf
  | url = http://www.inf.ufsc.br/~r.mello/deepWeb/querying/DKE2005-Sourav.pdf
  }}</ref> के रूप में प्रस्तावित किया गया है, कि, क्वेरी जारी करने के अतिरिक्त परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति भी दी जाती है। एक और प्रयास डीपपीप है, जो [[ राष्ट्रीय विज्ञान संस्था | राष्ट्रीय विज्ञान संस्था]] द्वारा प्रायोजित [[यूटा विश्वविद्यालय]] की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर तकनीकों के आधार पर विभिन्न डोमेन में छिपे हुए होते है , वेब स्रोत (वेब ​​फॉर्म) के रूप में एकत्र किए गए ।<ref>{{cite journal
  }}</ref> के रूप में प्रस्तावित किया गया है, कि, क्वेरी जारी करने के अतिरिक्त परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति भी दी जाती है। एक और प्रयास डीपपीप है, जो [[ राष्ट्रीय विज्ञान संस्था |राष्ट्रीय विज्ञान संस्था]] द्वारा प्रायोजित [[यूटा विश्वविद्यालय]] की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर प्रौद्योगिकीय के आधार पर विभिन्न डोमेन में छिपे हुए होते है , वेब स्रोत (वेब ​​फॉर्म) के रूप में एकत्र किए गए ।<ref>{{cite journal
  | first1 = Luciano
  | first1 = Luciano
  | last1 = Barbosa
  | last1 = Barbosa
Line 121: Line 120:
  }}</ref>
  }}</ref>


वाणिज्यिक खोज इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की खोज प्रारंभ कर दी है। [[साइटमैप प्रोटोकॉल]] पहली बार 2005 में गूगल द्वारा विकसित और प्रस्तुत किया गया और [[मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल]] ओएई-पीएचएच ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर डीप वेब संसाधनों की खोज करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं, जो उनके लिए सुलभ होते हैं, जिससे उन संसाधनों की स्वत: खोज की अनुमति मिलती है, जो सीधे सतही वेब से जुड़े नहीं हैं। गूगल का डीप वेब सरफेसिंग सिस्टम प्रत्येक एचटीएमएल फॉर्म के लिए सबमिशन की गणना करता है और परिणामी एचटीएमएल पेजों को गूगल सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम डीप वेब सामग्री के प्रति सेकंड एक हजार प्रश्नों के लिए खाते के रूप में होते है। <ref>{{cite journal
वाणिज्यिक सर्च इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की सर्च प्रारंभ कर दी है। [[साइटमैप प्रोटोकॉल]] पहली बार 2005 में गूगल द्वारा विकसित और प्रस्तुत किया गया और [[मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल]] ओएई-पीएचएच ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर डीप वेब संसाधनों की सर्च करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं, जो उनके लिए सुलभ होते हैं, जिससे उन संसाधनों की स्वत: सर्च की अनुमति मिलती है, जो सीधे सतही वेब से जुड़े नहीं हैं। गूगल का डीप वेब सतह सिस्टम प्रत्येक एचटीएमएल फॉर्म के लिए सबमिशन की गणना करता है और परिणामी एचटीएमएल पेजों को गूगल सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम डीप वेब कंटेंट के प्रति सेकंड एक हजार प्रश्नों के लिए खाते के रूप में होते है। <ref>{{cite journal
  | first1 = Jayant
  | first1 = Jayant
  | last1 = Madhavan
  | last1 = Madhavan
Line 129: Line 128:
  | year = 2008
  | year = 2008
  | url = https://homes.cs.washington.edu/~alon/files/vldb08deepweb.pdf
  | url = https://homes.cs.washington.edu/~alon/files/vldb08deepweb.pdf
  | access-date = April 17, 2009}}</ref> इस प्रणाली में प्