डीप वेब

अंधेरे वेब के साथ भ्रमित न हों।

डीप वेब, अदृश्य  वेब, या छिपा हुआ  वेब वर्ल्ड वाइड वेब के हिस्से हैं, जिनकी सामग्री मानक   वेब खोज इंजन  वेब सर्च-इंजन प्रोग्राम द्वारा खोज इंजन अनुक्रमण  के रूप में नहीं है। यह  सतह के  वेब के विपरीत है, जो इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ होता है। कंप्यूटर विज्ञान | कंप्यूटर-वैज्ञानिक माइकल के. बर्गमैन को 2001 में खोज-अनुक्रमण शब्द के रूप में आविष्कार करने का श्रेय दिया गया है।

डीप वेब साइटों का सीधे यूआरएल या आईपी पते के द्वारा किया जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।  ऐसी साइटों में    वेब मेल, ऑनलाइन बैंकिंग,  घन संग्रहण , प्रतिबंधित-अभिगम  सामाजिक मीडिया पेज और प्रोफाइल, कुछ  वेब मंचों और कोड भाषा के रूप में  उपयोग होते हैं,  जिसमें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान के रूप में सेवाएं भी सम्मलित हैं।

शब्दावली
डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई। उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और बाल अश्लीलता का व्यापार के रूप में सम्मलित किया गया है।

तब से, ब्लैक-मार्केट वेबसाइट  सिल्क रोड (बाजार) पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने सामान्यतः डार्क वेब या डार्कनेट के साथ ' डीप वेब'  कंजूस शब्द के रूप में उपयोग किया है, इस तुलना को कुछ लोग गलत मानते हैं। और फलस्वरूप भ्रम के रूप का एक निरंतर स्रोत बन गया है। वायर्ड (  वेबसाइट) रिपोर्टर की  किम ज़ेटर और एंडी ग्रीनबर्ग अनुशंसा करते हैं कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक खोज इंजन द्वारा अभिगम नहीं किया जा सकता है। डार्क वेब ,डीप  वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम होता है।

गैर-अनुक्रमित सामग्री
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में अदृश्य  वेब शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं। बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया:

यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी खोज इंजन के साथ पंजीकृत करने की जहमत नहीं उठाई। इसलिए कोई उन्हें ढूंढ नहीं सकता। तुम छिपे हो। मैं इसे अदृश्य वेब कहता हूं।

दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर1 डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।

विशिष्ट शब्द डीप वेब का पहला प्रयोग, जिसे अब सामान्यतः स्वीकार किया जाता है, उपर्युक्त 2001 बर्गमैन अध्ययन में हुआ।

इंडेक्सिंग के विधि
ऐसे विधि जो  वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:


 * 1) प्रासंगिक  वेब: विभिन्न अभिगम संदर्भों के लिए भिन्न-भिन्न सामग्री वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है।
 * 2) डायनेमिक कंटेंट: गतिशील   वेब पेज, जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए अभिगम किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.।
 * 3) सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए रोबोट बहिष्करण मानक या  कॅप्चा ,किसी स्टोर निर्देश का उपयोग नहीं करता है, जो खोज इंजनों को उन्हें ब्राउज़ करने और  वेब कैश प्रतियां बनाने से रोकता हैं।  ऐसे पृष्ठों की खोज के लिए साइटों में एक आंतरिक खोज इंजन के रूप में सुविधा हो सकती है।
 * 4) गैर-एचटीएमएल/पाठ सामग्री: पाठ सामग्री जो मल्टीमीडिया छवि या वीडियो  विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को  खोज इंजन के रूप में  मान्यता प्राप्त नहीं है।
 * 5) निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है।
 * 6) स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से  वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं।
 * 7) सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही अभिगम की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर पते का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है।
 * 8) अनलिंक की गई सामग्री: ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना बैकलिंक वाले पेज कहा जाता है, जिसे  इनलिंक्स के रूप में भी जाना जाता है। खोज इंजन हमेशा खोजे गए वेब पृष्ठों में से सभी बैकलिंक नहीं खोज पाते हैं।
 * 9) वेब संग्रह:  वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें  सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे खोज इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को खोज द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को  वेब सामग्री माना जाता है।

सामग्री प्रकार
चूंकि एक विशिष्ट वेब सर्वर की सामग्री को सीधे खोजना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से अभिगम किया जा सकता है (भेद्यता (कंप्यूटिंग) के कारण होता है।

वेब पर सामग्री खोजने के लिए, खोज इंजन वेब क्रॉलर का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल पोर्ट (कंप्यूटर नेटवर्किंग) के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह तकनीक सरफेस वेब पर सामग्री खोजने के लिए आदर्श है, लेकिन अक्सर डीप वेब सामग्री खोजने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं। यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।

डीपपीप,, इंटुटे,डीप वेब टेक्नोलॉजीज, साइरस, और अहमिया.एफ कुछ ऐसे खोज इंजन हैं, जिन्होंने डीप वेब के रूप में पहुंच बनाई है। इनटूट की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है। जनवरी 2013 के अंत में साइरस सेवानिवृत्त हुए।। शोधकर्ता इस बात की खोज कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर गुमनामी नेटवर्क द्वारा अभिगम किया जा सकता है। 2001 में श्रीराम राघवन और हेक्टर गार्सिया-मोलिना स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी होती है। एक छिपे हुए  वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब सामग्री को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से खोज प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है। कई प्रपत्र क्वेरी भाषा अर्थात,  शेष के रूप में प्रस्तावित किया गया है, कि, क्वेरी जारी करने के अतिरिक्त परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति भी दी जाती है। एक और प्रयास डीपपीप है, जो  राष्ट्रीय विज्ञान संस्था द्वारा प्रायोजित यूटा विश्वविद्यालय की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर तकनीकों के आधार पर विभिन्न डोमेन में छिपे हुए होते है, वेब स्रोत (वेब ​​फॉर्म) के रूप में एकत्र किए गए ।

वाणिज्यिक खोज इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की खोज प्रारंभ कर दी है। साइटमैप प्रोटोकॉल पहली बार 2005 में गूगल द्वारा विकसित और प्रस्तुत किया गया और मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल| ओएई-पीएचएच ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर डीप वेब संसाधनों की खोज करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं, जो उनके लिए सुलभ होते हैं, जिससे उन संसाधनों की स्वत: खोज की अनुमति मिलती है, जो सीधे सतही वेब से जुड़े नहीं हैं। गूगल का डीप वेब सरफेसिंग सिस्टम प्रत्येक एचटीएमएल फॉर्म के लिए सबमिशन की गणना करता है और परिणामी एचटीएमएल पेजों को गूगल सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम गहरी  वेब सामग्री के प्रति सेकंड एक हजार प्रश्नों के लिए खाते हैं। इस प्रणाली में, प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है:

वाणिज्यिक खोज इंजन ने डीप वेब के क्रॉल करने के लिए वैकल्पिक तरीकों को तलाशना शुरू कर दिया है।साइटमैप प्रोटोकॉल (पहले विकसित और गूगल द्वारा 2005 में प्रारंभ किया गया) और ओएई-पीएचएच तंत्र है, जो खोज इंजन और अन्य इच्छुक पक्षों को विशेष वेब सर्वर पर गहन वेब संसाधनों की खोज करने की अनुमति देते हैं.दोनों तंत्र वेब सर्वर उन URL का विज्ञापन करने देते हैं जो उनके लिए सुलभ होते हैं, और इस प्रकार उन संसाधनों की स्वचालित खोज की अनुमति देते हैं जो सीधे सतह वेब से जुड़े नहीं हैं.गूगल का डीप वेब सरफेसिंग सिस्टम हर एचटीएमएल प्रपत्र के प्रस्तुतीकरण को कंप्यूटरीकृत करता है और परिणामी एचटीएमएल पृष्ठ Google खोज इंजन सूचकांक में जोड़ता है।सतह के परिणाम एक हजार प्रश्नों के लिए प्रति सेकंड गहरी वेब सामग्री के लिए खाते। [35]इस प्रणाली में, प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग कर की जाती है:


 * 1) कीवर्ड स्वीकार करने वाले पाठ खोज इनपुट के लिए इनपुट मानों का चयन करना,
 * 2) उन इनपुट की पहचान करना जो मात्र एक विशिष्ट प्रकार (जैसे, दिनांक) के मान स्वीकार करते हैं और
 * 3) वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या का चयन करना।

2008 में, Tor (गुमनामी नेटवर्क) #छिपी सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और एक छिपे हुए .onion प्रत्यय की खोज में सुविधा के लिए, हारून स्वार्ट्ज ने Tor2web को डिजाइन किया- एक प्रॉक्सी एप्लिकेशन जो आम  वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है। इस एप्लिकेशन का उपयोग करते हुए, गहरे   वेब लिंक .onion शीर्ष-स्तरीय डोमेन के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं।

यह भी देखें

 * DARPA का मेमेक्स कार्यक्रम
 * वेबलिंकिंग

अग्रिम पठन

 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku