डीप वेब

डीप वेब के साथ भ्रमित न हों।

डीप वेब, अदृश्य वेब, या हिडन वेब वर्ल्ड वाइड वेब के भाग के रूप में होते है, जिसके कंटेंट मानक वेब सर्च-इंजन प्रोग्राम द्वारा अनुक्रमित नहीं हैं। यह सतह वेब के विपरीत होते है, जिसकी पहुंच इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ हो सकती है। कंप्यूटर विज्ञान माइकल के. बर्गमैन को 2001 में सर्च -इंडेक्सिंग शब्द के रूप में सर्च करने का श्रेय दिया गया है।

डीप वेब साइटों का प्रत्यक्ष यूआरएल या आईपी एड्रेस के द्वारा किया जा सकता है, लेकिन वास्तविक कंटेंट तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है। ऐसी साइटों में वेब मेल, ऑनलाइन बैंकिंग, क्लाउड स्टोरेज, सीमित पहुंच वाले सामाजिक मीडिया पेज और प्रोफाइल कुछ वेब फ़ोरम्स और कोड लैंग्वेज के रूप में उपयोग किया जाता है, जिसमें कंटेंट देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी मांग के रूप में सेवाएं भी सम्मलित होती है।

शब्दावली
डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ था, जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई थी। उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और चाइल्ड पोनोग्राफी का व्यापार के रूप में सम्मलित किया गया है।

ब्लैक मार्केट सिल्क रोड पर मीडिया द्वारा रिपोर्ट करने के बाद से मीडिया आउटलेट्स ने सामान्य रूप से डीप वेब का प्रयोग किया है, जो कि सामान्यतः डार्क वेब या डार्कनेट के रूप में उपयोग किया जाता है, इस तुलना को कुछ लोग गलत समझते हैं। और इसके परिणामस्वरूप लगातार असमंजित के रूप में एक निरंतर स्रोत बन गया है। वायर्ड (वेबसाइट) रिपोर्टर किम ज़ेटर और एंडी ग्रीनबर्ग ने अनुशंसा करते हुए कहा कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाता है। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक सर्च इंजन द्वारा एक्सेस नहीं किया जा सकता है। लेकिन डार्क वेब ,डीप वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा द्वारा एक्सेस किया जाता है।

गैर-अनुक्रमित सामग्री
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में अदृश्य वेब शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं। और इस प्रकार बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया था।

यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी सर्च इंजन के साथ पंजीकृत करने की परेशानी नहीं उठाई थीं। इसलिए कोई उन्हें ढूंढ नहीं सकता था और वे छिपे हुए होते है और इसे अदृश्य वेब के रूप में जाना जाता है।

दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर 1 डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।

उपर्युक्त 2001 बर्गमैन के अध्ययन में, विशेष 'डीप वेब' का पहला प्रयोग किया गया था, जिसे सामान्यतः रूप में स्वीकार किया जाता है।

इंडेक्सिंग के विधि
ऐसे विधि जो वेब पेजों को पारंपरिक सर्च इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:


 * 1) प्रासंगिक वेब: विभिन्न एक्सेस संदर्भों के लिए भिन्न-भिन्न कंटेंट वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है।
 * 2) डायनेमिक कंटेंट: गतिशील वेब पेज, जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए एक्सेस किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.।
 * 3) सीमित पहुंच वाली सामग्री: ऐसी साइटें जो प्रौद्योगिकीय विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए रोबोट बहिष्करण मानक या कॅप्चा ,किसी स्टोर निर्देश का उपयोग नहीं करता है, जो सर्च इंजनों को उन्हें ब्राउज़ करने और वेब कैश प्रतियां बनाने से रोकता हैं। ऐसे पृष्ठों की सर्च के लिए साइटों में एक आंतरिक सर्च इंजन के रूप में सुविधा हो सकती है।
 * 4) गैर-एचटीएमएल/पाठ सामग्री: पाठ कंटेंट जो मल्टीमीडिया छवि या वीडियो विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को सर्च इंजन के रूप में मान्यता प्राप्त नहीं है।
 * 5) प्राइवेट वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है।
 * 6) स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली कंटेंट तक पहुंच योग्य हैं।
 * 7) सॉफ़्टवेयर: नियमित इंटरनेट से कुछ कंटेंट जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर एड्रेस का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी एड्रेस को छुपाता है।
 * 8) अनलिंक की गई सामग्री: ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को कंटेंट तक पहुँचने से रोक सकते हैं। इस कंटेंट को बिना बैकलिंक वाले पेज कहा जाता है, जिसे इनलिंक्स के रूप में भी जाना जाता है। सर्च इंजन हमेशा सर्च े गए वेब पृष्ठों में से सभी बैकलिंक नहीं सर्च पाते हैं।
 * 9) वेब संग्रह: वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे सर्च इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को सर्च द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को वेब कंटेंट माना जाता है।

कंटेंट प्रकार
चूंकि एक विशिष्ट वेब सर्वर की कंटेंट को सीधे सर्च ना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से एक्सेस किया जा सकता है और इस प्रकार ये कंप्यूटर वल्नेरेबिलिटी के कारण होता है।

वेब पर कंटेंट सर्च ने के लिए, सर्च इंजन वेब क्रॉलर का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल पोर्ट (कंप्यूटर नेटवर्किंग) के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह प्रौद्योगिकीय सतह वेब पर कंटेंट सर्च ने के लिए आदर्श है, लेकिन अक्सर डीप वेब कंटेंट सर्च ने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को सर्च ने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं। यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।

डीपपीप,, इंटुटे,डीप वेब टेक्नोलॉजीज, साइरस, और अहमिया.एफ कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब के रूप में पहुंच बनाई है। इनटूट की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है। जनवरी 2013 के अंत में साइरस सेवानिवृत्त हुए।। शोधकर्ता इस बात की सर्च कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी कंटेंट भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर गुमनामी नेटवर्क द्वारा एक्सेस किया जा सकता है। 2001 में श्रीराम राघवन और हेक्टर गार्सिया-मोलिना स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी होती है। एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब कंटेंट को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से सर्च प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है। कई प्रपत्र क्वेरी लैंग्वेज अर्थात, शेष के रूप में प्रस्तावित किया गया है, कि, क्वेरी जारी करने के अतिरिक्त परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति भी दी जाती है। एक और प्रयास डीपपीप है, जो राष्ट्रीय विज्ञान संस्था द्वारा प्रायोजित यूटा विश्वविद्यालय की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर प्रौद्योगिकीय के आधार पर विभिन्न डोमेन में छिपे हुए होते है, वेब स्रोत (वेब ​​फॉर्म) के रूप में एकत्र किए गए ।

वाणिज्यिक सर्च इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की सर्च प्रारंभ कर दी है। साइटमैप प्रोटोकॉल पहली बार 2005 में गूगल द्वारा विकसित और प्रस्तुत किया गया और मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल ओएई-पीएचएच ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर डीप वेब संसाधनों की सर्च करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं, जो उनके लिए सुलभ होते हैं, जिससे उन संसाधनों की स्वत: सर्च की अनुमति मिलती है, जो सीधे सतही वेब से जुड़े नहीं हैं। गूगल का डीप वेब सतह सिस्टम प्रत्येक एचटीएमएल फॉर्म के लिए सबमिशन की गणना करता है और परिणामी एचटीएमएल पेजों को गूगल सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम डीप वेब कंटेंट के प्रति सेकंड एक हजार प्रश्नों के लिए खाते के रूप में होते है। इस प्रणाली में प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है।


 * 1) कीवर्ड स्वीकार करने वाले पाठ सर्च इनपुट के लिए इनपुट मानों का चयन के रूप में होते है।
 * 2) सी विशिष्ट प्रकार (जैसे, तिथि) के मान स्वीकार करने वाले इनपुट की पहचान करना होते है।
 * 3) वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या के रूप में चयन करना होता है।

वर्ष 2008 में टोर हिडन सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और इन्हें सर्च ने में मदद करने के लिए अनियन प्रत्यय की सर्च में सुविधा के लिए, हारून स्वार्ट्ज ने टोर2वेब को इस तरह डिजाइन किया गया हैं। एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है। इस एप्लिकेशन का उपयोग करते हुए, डीप वेब लिंक अनियन शीर्ष-स्तरीय डोमेन के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं।

यह भी देखें

 * डारपा का मेमेक्स कार्यक्रम
 * वेबलिंकिंग

अग्रिम पठन

 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
 * Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku