डीप वेब

डीप वेब, अदृश्य वेब, या छिपा हुआ वेब वर्ल्ड वाइड वेब के हिस्से हैं जिनकी सामग्री मानक वेब खोज इंजन|वेब सर्च-इंजन प्रोग्राम द्वारा खोज इंजन अनुक्रमण नहीं है। यह सतह का जाल  के विपरीत है, जो इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ है। कंप्यूटर विज्ञान | कंप्यूटर-वैज्ञानिक माइकल के. बर्गमैन को 2001 में खोज-अनुक्रमण शब्द के रूप में शब्द का आविष्कार करने का श्रेय दिया जाता है। डीप वेब साइटों तक सीधे URL या IP पते द्वारा पहुँचा जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी दर्ज करने की आवश्यकता हो सकती है। ऐसी साइटों में  वेबमेल, ऑनलाइन बैंकिंग,  घन संग्रहण , प्रतिबंधित-एक्सेस  सामाजिक मीडिया  पेज और प्रोफाइल, कुछ वेब मंचों और कोड भाषा जैसे उपयोग होते हैं जिन्हें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान वाली सेवाएं भी शामिल हैं।

शब्दावली
डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के दौरान हुआ जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई। उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और बाल अश्लीलता का व्यापार शामिल है। तब से, ब्लैक-मार्केट वेबसाइट सिल्क रोड (बाजार)  पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने आमतौर पर डार्क वेब या डार्कनेट के साथ 'डीप वेब'  कंजूस शब्द  का इस्तेमाल किया है, एक तुलना को कुछ लोग गलत मानते हैं। और फलस्वरूप भ्रम का एक निरंतर स्रोत बन गया है। वायर्ड (वेबसाइट) रिपोर्टर की  किम ज़ेटर  और एंडी ग्रीनबर्ग अनुशंसा करते हैं कि शब्दों का अलग-अलग तरीके से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है जिसे पारंपरिक खोज इंजन द्वारा एक्सेस नहीं किया जा सकता है, डार्क वेब डीप वेब का एक हिस्सा है जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम है।

गैर-अनुक्रमित सामग्री
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक पब्लिशिंग में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है कि जिल एल्सवर्थ ने 1994 में अदृश्य वेब  शब्द का इस्तेमाल उन वेबसाइटों को संदर्भित करने के लिए किया था जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं। बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया:  यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई हो, लेकिन उन्होंने इसे किसी भी खोज इंजन के साथ पंजीकृत करने की जहमत नहीं उठाई। तो, कोई उन्हें ढूंढ नहीं सकता! तुम छिपे हो। मैं उसे अदृश्य वेब कहता हूं। 

दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर 1 डीप वेब प्रोग्राम के विवरण में ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था। विशिष्ट शब्द डीप वेब का पहला प्रयोग, जिसे अब आम तौर पर स्वीकार किया जाता है, उपर्युक्त 2001 बर्गमैन अध्ययन में हुआ।

इंडेक्सिंग के तरीके
ऐसे तरीके जो वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:


 * 1) प्रासंगिक वेब: अलग-अलग एक्सेस संदर्भों के लिए अलग-अलग सामग्री वाले पेज (उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज)।
 * 2) डायनेमिक कंटेंट: गतिशील वेब पेज, जो एक सबमिट की गई क्वेरी के जवाब में लौटाए जाते हैं या केवल एक फॉर्म के जरिए एक्सेस किए जाते हैं, खासकर अगर ओपन-डोमेन इनपुट एलिमेंट्स (जैसे टेक्स्ट फील्ड्स) का इस्तेमाल किया जाता है; डोमेन ज्ञान के बिना ऐसे क्षेत्रों में नेविगेट करना कठिन होता है।
 * 3) सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी तरीके से अपने पृष्ठों तक पहुंच को सीमित करती हैं (उदाहरण के लिए, रोबोट बहिष्करण मानक या  कॅप्चा, या नो-स्टोर निर्देश का उपयोग करना, जो खोज इंजनों को उन्हें ब्राउज़ करने और वेब कैश कॉपी बनाने से रोकते हैं)। साइटों में ऐसे पृष्ठों की खोज के लिए एक आंतरिक खोज इंजन हो सकता है।
 * 4) गैर-एचटीएमएल/पाठ सामग्री: मल्टीमीडिया (छवि या वीडियो) फ़ाइलों या विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड पाठ्य सामग्री खोज इंजन द्वारा मान्यता प्राप्त नहीं है।
 * 5) निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन (पासवर्ड-सुरक्षित संसाधन) की आवश्यकता होती है।
 * 6) स्क्रिप्टेड सामग्री: वे पृष्ठ जो केवल जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं।
 * 7) सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, केवल विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से .onion सर्वर पते का उपयोग करके वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है।
 * 8) अनलिंक की गई सामग्री: वे पृष्ठ जो अन्य पृष्ठों से लिंक नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना बैकलिंक वाले पेज कहा जाता है (इनलिंक के रूप में भी जाना जाता है)। साथ ही, सर्च इंजन हमेशा खोजे गए वेब पेजों से सभी बैकलिंक्स का पता नहीं लगाते हैं।
 * 9) वेब संग्रह: वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें शामिल हैं जो दुर्गम हो गई हैं और Google जैसे खोज इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को डीप वेब देखने के लिए एक कार्यक्रम कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को खोज द्वारा देखना असंभव है। सभी वेबसाइटों को कभी न कभी अपडेट किया जाता है, यही कारण है कि वेब संग्रह को डीप वेब सामग्री माना जाता है।

सामग्री प्रकार
हालांकि एक विशिष्ट वेब सर्वर की सामग्री को सीधे खोजना हमेशा संभव नहीं होता है ताकि इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से एक्सेस किया जा सकता है (भेद्यता (कंप्यूटिंग) के कारण)।

वेब पर सामग्री खोजने के लिए, खोज इंजन वेब क्रॉलर का उपयोग करते हैं जो ज्ञात प्रोटोकॉल वर्चुअल पोर्ट (कंप्यूटर नेटवर्किंग) के माध्यम से हाइपरलिंक का अनुसरण करते हैं। यह तकनीक सरफेस वेब पर सामग्री खोजने के लिए आदर्श है लेकिन डीप वेब सामग्री खोजने में अक्सर अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं। यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे (आंशिक रूप से) दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।

DeepPeep, Intute, Deep Web Technologies, Scirus, और Ahmia.fi कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब तक पहुंच बनाई है। Intute की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है। साइरस जनवरी 2013 के अंत में सेवानिवृत्त हुए। शोधकर्ता इस बात की खोज कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी शामिल है जिसे केवल विशेष सॉफ़्टवेयर जैसे टोर (गुमनामी नेटवर्क) द्वारा एक्सेस किया जा सकता है। 2001 में, श्रीराम राघवन और हेक्टर गार्सिया-मोलिना (स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी) एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प मॉडल प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब सामग्री को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से खोज प्रपत्रों के खिलाफ जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है। कई प्रपत्र क्वेरी भाषा (यानी, SEQUEL ) प्रस्तावित किया गया है कि, क्वेरी जारी करने के अलावा, परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति दें। एक और प्रयास डीपपीप है, जो राष्ट्रीय विज्ञान संस्था  द्वारा प्रायोजित यूटा विश्वविद्यालय की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर तकनीकों के आधार पर विभिन्न डोमेन में छिपे हुए वेब स्रोत (वेब ​​फॉर्म) एकत्र किए। वाणिज्यिक खोज इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक तरीकों की खोज शुरू कर दी है। साइटमैप प्रोटोकॉल (पहली बार 2005 में Google द्वारा विकसित और पेश किया गया) और मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल|OAI-PMH ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर गहरे वेब संसाधनों की खोज करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं जो उन पर पहुंच योग्य हैं, जिससे उन संसाधनों की स्वत: खोज की अनुमति मिलती है जो सीधे सतही वेब से जुड़े नहीं हैं। Google का डीप वेब सरफेसिंग सिस्टम प्रत्येक HTML फॉर्म के लिए सबमिशन की गणना करता है और परिणामी HTML पेजों को Google सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम गहरी वेब सामग्री के प्रति सेकंड एक हजार प्रश्नों के लिए खाते हैं। इस प्रणाली में, प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है:
 * 1) कीवर्ड स्वीकार करने वाले पाठ खोज इनपुट के लिए इनपुट मानों का चयन करना,
 * 2) उन इनपुट की पहचान करना जो केवल एक विशिष्ट प्रकार (जैसे, दिनांक) के मान स्वीकार करते हैं और
 * 3) वेब सर्च इंडेक्स में शामिल करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या का चयन करना।

2008 में, Tor (गुमनामी नेटवर्क) #छिपी सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और एक छिपे हुए .onion प्रत्यय की खोज में सुविधा के लिए, हारून स्वार्ट्ज ने Tor2web को डिजाइन किया- एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है। इस एप्लिकेशन का उपयोग करते हुए, गहरे वेब लिंक .onion शीर्ष-स्तरीय डोमेन के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं।

यह भी देखें

 * DARPA का मेमेक्स कार्यक्रम
 * डीप लिंकिंग

अग्रिम पठन

 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku