डीप वेब

अंधेरे वेब के साथ भ्रमित न हों।

डीप वेब, अदृश्य  वेब, या छिपा हुआ  वेब वर्ल्ड वाइड वेब के हिस्से हैं, जिनकी सामग्री मानक   वेब खोज इंजन  वेब सर्च-इंजन प्रोग्राम द्वारा खोज इंजन अनुक्रमण  के रूप में नहीं है। यह  सतह के  वेब के विपरीत है, जो इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ होता है। कंप्यूटर विज्ञान | कंप्यूटर-वैज्ञानिक माइकल के. बर्गमैन को 2001 में खोज-अनुक्रमण शब्द के रूप में आविष्कार करने का श्रेय दिया गया है।

डीप वेब साइटों का सीधे यूआरएल या आईपी पते के द्वारा किया जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।  ऐसी साइटों में    वेब मेल, ऑनलाइन बैंकिंग,  घन संग्रहण , प्रतिबंधित-अभिगम  सामाजिक मीडिया पेज और प्रोफाइल, कुछ  वेब मंचों और कोड भाषा के रूप में  उपयोग होते हैं,  जिसमें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान के रूप में सेवाएं भी सम्मलित हैं।

शब्दावली
डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई। उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और बाल अश्लीलता का व्यापार के रूप में सम्मलित किया गया है।

तब से, ब्लैक-मार्केट वेबसाइट  सिल्क रोड (बाजार) पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने सामान्यतः डार्क वेब या डार्कनेट के साथ ' डीप वेब'  कंजूस शब्द के रूप में उपयोग किया है, इस तुलना को कुछ लोग गलत मानते हैं। और फलस्वरूप भ्रम के रूप का एक निरंतर स्रोत बन गया है। वायर्ड (  वेबसाइट) रिपोर्टर की  किम ज़ेटर और एंडी ग्रीनबर्ग अनुशंसा करते हैं कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक खोज इंजन द्वारा अभिगम नहीं किया जा सकता है। डार्क वेब ,डीप  वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम होता है।

गैर-अनुक्रमित सामग्री
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में अदृश्य  वेब शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं। बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया:

यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी खोज इंजन के साथ पंजीकृत करने की जहमत नहीं उठाई। इसलिए कोई उन्हें ढूंढ नहीं सकता। तुम छिपे हो। मैं इसे अदृश्य वेब कहता हूं।

दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर1 डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।

विशिष्ट शब्द डीप वेब का पहला प्रयोग, जिसे अब सामान्यतः स्वीकार किया जाता है, उपर्युक्त 2001 बर्गमैन अध्ययन में हुआ।

इंडेक्सिंग के विधि
ऐसे विधि जो  वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:


 * 1) प्रासंगिक  वेब: विभिन्न अभिगम संदर्भों के लिए भिन्न-भिन्न सामग्री वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है।
 * 2) डायनेमिक कंटेंट: गतिशील   वेब पेज, जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए अभिगम किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.।
 * 3) सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए रोबोट बहिष्करण मानक या  कॅप्चा ,किसी स्टोर निर्देश का उपयोग नहीं करता है, जो खोज इंजनों को उन्हें ब्राउज़ करने और  वेब कैश प्रतियां बनाने से रोकता हैं।  ऐसे पृष्ठों की खोज के लिए साइटों में एक आंतरिक खोज इंजन के रूप में सुविधा हो सकती है।
 * 4) गैर-एचटीएमएल/पाठ सामग्री: पाठ सामग्री जो मल्टीमीडिया छवि या वीडियो  विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को  खोज इंजन के रूप में  मान्यता प्राप्त नहीं है।
 * 5) निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है।
 * 6) स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से  वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं।
 * 7) सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही अभिगम की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर पते का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है।
 * 8) अनलिंक की गई सामग्री: ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना बैकलिंक वाले पेज कहा जाता है, जिसे  इनलिंक्स के रूप में भी जाना जाता है। खोज इंजन हमेशा खोजे गए वेब पृष्ठों में से सभी बैकलिंक नहीं खोज पाते हैं।
 * 9) वेब संग्रह:  वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें  सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे खोज इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को खोज द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को  वेब सामग्री माना जाता है।

सामग्री प्रकार
चूंकि एक विशिष्ट वेब सर्वर की सामग्री को सीधे खोजना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से अभिगम किया जा सकता है (भेद्यता (कंप्यूटिंग) के कारण होता है।

वेब पर सामग्री खोजने के लिए, खोज इंजन वेब क्रॉलर का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल पोर्ट (कंप्यूटर नेटवर्किंग) के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह तकनीक सरफेस वेब पर सामग्री खोजने के लिए आदर्श है, लेकिन अक्सर डीप वेब सामग्री खोजने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं। यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।

DeepPeep, Intute, Deep Web Technologies, Scirus, और Ahmia.fi कुछ ऐसे सर्च इंजन हैं, जिन्होंने  वेब  वेब तक पहुंच बनाई है। Intute की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है। साइरस जनवरी 2013 के अंत में सेवानिवृत्त हुए। शोधकर्ता इस बात की खोज कर रहे हैं कि  वेब  वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर (गुमनामी नेटवर्क) द्वारा अभिगम किया जा सकता है। 2001 में, श्रीराम राघवन और हेक्टर गार्सिया-मोलिना (स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी) एक छिपे हुए   वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या   वेब फॉर्म को क्वेरी करने और   वेब  वेब सामग्री को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए   वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से खोज प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है। कई प्रपत्र क्वेरी भाषा (अर्थात, SEQUEL ) प्रस्तावित किया गया है कि, क्वेरी जारी करने के अतिरिक्त, परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति दें। एक और प्रयास डीपपीप है, जो  राष्ट्रीय विज्ञान संस्था  द्वारा प्रायोजित यूटा विश्वविद्यालय की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर तकनीकों के आधार पर विभिन्न डोमेन में छिपे हुए   वेब स्रोत (  वेब ​​फॉर्म) एकत्र किए। वाणिज्यिक खोज इंजनों ने  वेब  वेब को क्रॉल करने के लिए वैकल्पिक विधियों की खोज प्रारंभ कर दी है। साइटमैप प्रोटोकॉल (पहली बार 2005 में Google द्वारा विकसित और प्रस्तुत किया गया) और मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल|OAI-PMH ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष   वेब सर्वर पर गहरे   वेब संसाधनों की खोज करने की अनुमति देते हैं। दोनों तंत्र   वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं जो उन पर पहुंच योग्य हैं, जिससे उन संसाधनों की स्वत: खोज की अनुमति मिलती है जो सीधे सतही   वेब से जुड़े नहीं हैं। Google का   वेब  वेब सरफेसिंग सिस्टम प्रत्येक HTML फॉर्म के लिए सबमिशन की गणना करता है और परिणामी HTML पेजों को Google सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम गहरी   वेब सामग्री के प्रति सेकंड एक हजार प्रश्नों के लिए खाते हैं। इस प्रणाली में, प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है:
 * 1) कीवर्ड स्वीकार करने वाले पाठ खोज इनपुट के लिए इनपुट मानों का चयन करना,
 * 2) उन इनपुट की पहचान करना जो मात्र एक विशिष्ट प्रकार (जैसे, दिनांक) के मान स्वीकार करते हैं और
 * 3) वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या का चयन करना।

2008 में, Tor (गुमनामी नेटवर्क) #छिपी सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और एक छिपे हुए .onion प्रत्यय की खोज में सुविधा के लिए, हारून स्वार्ट्ज ने Tor2web को डिजाइन किया- एक प्रॉक्सी एप्लिकेशन जो आम  वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है। इस एप्लिकेशन का उपयोग करते हुए, गहरे   वेब लिंक .onion शीर्ष-स्तरीय डोमेन के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं।

यह भी देखें

 * DARPA का मेमेक्स कार्यक्रम
 * वेबलिंकिंग

अग्रिम पठन

 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku