डीप वेब

अंधेरे वेब के साथ भ्रमित न हों।

डीप वेब, अदृश्य  वेब, या छिपा हुआ  वेब वर्ल्ड वाइड वेब के हिस्से हैं, जिनकी सामग्री मानक   वेब खोज इंजन  वेब सर्च-इंजन प्रोग्राम द्वारा खोज इंजन अनुक्रमण  के रूप में नहीं है। यह  सतह के  वेब के विपरीत है, जो इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ होता है। कंप्यूटर विज्ञान माइकल के. बर्गमैन को 2001 में खोज-अनुक्रमण शब्द के रूप में आविष्कार करने का श्रेय दिया गया है।

डीप वेब साइटों का सीधे यूआरएल या आईपी पते के द्वारा किया जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।  ऐसी साइटों में    वेब मेल, ऑनलाइन बैंकिंग,  घन संग्रहण , प्रतिबंधित-अभिगम  सामाजिक मीडिया पेज और प्रोफाइल, कुछ  वेब मंचों और कोड भाषा के रूप में  उपयोग होते हैं,  जिसमें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान के रूप में सेवाएं भी सम्मलित हैं।

शब्दावली
डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई। उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और बाल अश्लीलता का व्यापार के रूप में सम्मलित किया गया है।

तब से, ब्लैक-मार्केट वेबसाइट  सिल्क रोड (बाजार) पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने सामान्यतः डार्क वेब या डार्कनेट के साथ ' डीप वेब'  कंजूस शब्द के रूप में उपयोग किया है, इस तुलना को कुछ लोग गलत मानते हैं। और फलस्वरूप भ्रम के रूप का एक निरंतर स्रोत बन गया है। वायर्ड (  वेबसाइट) रिपोर्टर की  किम ज़ेटर और एंडी ग्रीनबर्ग अनुशंसा करते हैं कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक खोज इंजन द्वारा अभिगम नहीं किया जा सकता है। डार्क वेब ,डीप  वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम होता है।

गैर-अनुक्रमित सामग्री
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में अदृश्य  वेब शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं। बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया:

यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी खोज इंजन के साथ पंजीकृत करने की परेशानी नहीं उठाई। इसलिए कोई उन्हें ढूंढ नहीं सकता। तुम छिपे हो। मैं इसे अदृश्य वेब कहता हूं।

दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर1 डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।

विशिष्ट शब्द डीप वेब का पहला प्रयोग, जिसे अब सामान्यतः स्वीकार किया जाता है, उपर्युक्त 2001 बर्गमैन के अध्ययन रूप में होता है।

इंडेक्सिंग के विधि
ऐसे विधि जो  वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:


 * 1) प्रासंगिक  वेब: विभिन्न अभिगम संदर्भों के लिए भिन्न-भिन्न सामग्री वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है।
 * 2) डायनेमिक कंटेंट: गतिशील   वेब पेज, जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए अभिगम किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.।
 * 3) सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए रोबोट बहिष्करण मानक या  कॅप्चा ,किसी स्टोर निर्देश का उपयोग नहीं करता है, जो खोज इंजनों को उन्हें ब्राउज़ करने और  वेब कैश प्रतियां बनाने से रोकता हैं।  ऐसे पृष्ठों की खोज के लिए साइटों में एक आंतरिक खोज इंजन के रूप में सुविधा हो सकती है।
 * 4) गैर-एचटीएमएल/पाठ सामग्री: पाठ सामग्री जो मल्टीमीडिया छवि या वीडियो  विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को  खोज इंजन के रूप में  मान्यता प्राप्त नहीं है।
 * 5) निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है।
 * 6) स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से  वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं।
 * 7) सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही अभिगम की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर पते का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है।
 * 8) अनलिंक की गई सामग्री: ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना बैकलिंक वाले पेज कहा जाता है, जिसे  इनलिंक्स के रूप में भी जाना जाता है। खोज इंजन हमेशा खोजे गए वेब पृष्ठों में से सभी बैकलिंक नहीं खोज पाते हैं।
 * 9) वेब संग्रह:  वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें  सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे खोज इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को खोज द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को  वेब सामग्री माना जाता है।

सामग्री प्रकार
चूंकि एक विशिष्ट वेब सर्वर की सामग्री को सीधे खोजना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से अभिगम किया जा सकता है,भेद्यता (कंप्यूटिंग) के कारण होता है।

वेब पर सामग्री खोजने के लिए, खोज इंजन वेब क्रॉलर का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल पोर्ट (कंप्यूटर नेटवर्किंग) के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह तकनीक सतह वेब पर सामग्री खोजने के लिए आदर्श है, लेकिन अक्सर डीप वेब सामग्री खोजने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं। यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।

डीपपीप,, इंटुटे,डीप वेब टेक्नोलॉजीज, साइरस, और अहमिया.एफ कुछ ऐसे खोज इंजन हैं, जिन्होंने डीप वेब के रूप में पहुंच बनाई है। इनटूट की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है। जनवरी 2013 के अंत में साइरस सेवानिवृत्त हुए।। शोधकर्ता इस बात की खोज कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर गुमनामी नेटवर्क द्वारा अभिगम किया जा सकता है। 2001 में श्रीराम राघवन और हेक्टर गार्सिया-मोलिना स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी होती है। एक छिपे हुए  वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब सामग्री को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से खोज प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है। कई प्रपत्र क्वेरी भाषा अर्थात,  शेष के रूप में प्रस्तावित किया गया है, कि, क्वेरी जारी करने के अतिरिक्त परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति भी दी जाती है। एक और प्रयास डीपपीप है, जो  राष्ट्रीय विज्ञान संस्था द्वारा प्रायोजित यूटा विश्वविद्यालय की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर तकनीकों के आधार पर विभिन्न डोमेन में छिपे हुए होते है, वेब स्रोत (वेब ​​फॉर्म) के रूप में एकत्र किए गए ।

वाणिज्यिक खोज इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की खोज प्रारंभ कर दी है। साइटमैप प्रोटोकॉल पहली बार 2005 में गूगल द्वारा विकसित और प्रस्तुत किया गया और मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल ओएई-पीएचएच ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर डीप वेब संसाधनों की खोज करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं, जो उनके लिए सुलभ होते हैं, जिससे उन संसाधनों की स्वत: खोज की अनुमति मिलती है, जो सीधे सतही वेब से जुड़े नहीं हैं। गूगल का डीप वेब सतह सिस्टम प्रत्येक एचटीएमएल फॉर्म के लिए सबमिशन की गणना करता है और परिणामी एचटीएमएल पेजों को गूगल सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम डीप वेब सामग्री के प्रति सेकंड एक हजार प्रश्नों के लिए खाते के रूप में होते है। इस प्रणाली में प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है।


 * 1) कीवर्ड स्वीकार करने वाले पाठ खोज इनपुट के लिए इनपुट मानों का चयन के रूप में होते है।
 * 2) सी विशिष्ट प्रकार (जैसे, तिथि) के मान स्वीकार करने वाले इनपुट की पहचान करना होते है।
 * 3) वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या के रूप में चयन करना होता है।

वर्ष 2008 में टोर हिडन सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और इन्हें खोजने में मदद करने के लिए अनियन प्रत्यय की खोज में सुविधा के लिए, हारून स्वार्ट्ज ने टोर2वेब को इस तरह डिजाइन किया गया हैं। एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है। इस एप्लिकेशन का उपयोग करते हुए, डीप वेब लिंक अनियन शीर्ष-स्तरीय डोमेन के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं।

यह भी देखें

 * डारपा का मेमेक्स कार्यक्रम
 * वेबलिंकिंग

अग्रिम पठन

 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku