बिग डेटा
यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।
बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निर्धारित किए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत जांच दर का कारण बन सकते हैं।[2] हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम सिर्फ छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।[3]
बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, जांच, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था।[4] बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले सिर्फ अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।[5]
बिग डेटा शब्द का वर्तमान उपयोग भविष्यसूचक विश्लेषण, उपयोगकर्ता गतिविधि विश्लेषण या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बिग डेटा से मूल्य निकालते हैं और संभव्यता ही कभी डेटा सेट के किसी विशेष आकार के होते हैं। "इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा पारिस्थितिकी तंत्र की सबसे प्रासंगिक विशेषता नहीं है।[6] डेटा सेट के विश्लेषण से "स्पॉट बिजनेस ट्रेंड्स प्रिवेंट डिजीज कॉम्बैट क्राइम'' से रोकते हैं और इसी तरह के लिए नए सहसंबंध मिल सकते हैं।[7] इंटरनेट जांच, फिनटेक, स्वास्थ्य सेवा विश्लेषक, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकार समान रूप से नियमित रूप से बिग डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिकों को मौसम विज्ञान, जीनोमिक्स,[8] कनेक्टोमिक्स, जटिल भौतिकी सिमुलेशन, जीव विज्ञान, और पर्यावरण अनुसंधान सहित ई-विज्ञान कार्य में सीमाओं का सामना करना पड़ता है।[9]
उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।[10][11] 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;[12]2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।[13] अंतर्राष्ट्रीय डेटा निगम की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।[14] अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।[15][16] स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा विक्रय के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।[17] 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।[18] यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में संशोधन के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।[18] और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।[18] बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।[19]
संबंधपरक डेटाबेस प्रबंधन प्रणाली और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर पैरेलल सॉफ़्टवेयर संचालन की आवश्यकता हो सकती है।[20] बिग डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बिग डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।[21]
परिभाषा
बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय जॉन मैशे को दिया है।[22][23] बिग डेटा में सामान्य रूप से डेटा अधिग्रहण, डेटा क्यूरेशन, प्रबंधन और डेटा को सहन करने योग्य समय के अंदर संसाधित करने के लिए सामान्य रूप से उपयोग किए जाने वाले सॉफ़्टवेयर उपकरण की क्षमता से अधिक आकार वाले डेटा सेट सम्मिलित होते हैं।[24] बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा सम्मिलित हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है।[25] बिग डेटा "आकार" एक सतत गतिशील लक्ष्य है, जिसमें कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स सम्मिलित हैं।[26] डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बिग डेटा को डेटा एकीकरण के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।[27]
विविधता", "सत्यता", और कई अन्य "वीएस" कुछ संगठनों द्वारा इसे कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई संशोधन का वर्णन करने के लिए जोड़ा जाता है।[28] बिग डेटा के वीएस को प्रायः तीन वीएस, चार वीएस और पाँच वीएस के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, गति, सत्यता और मूल्य में बिग डेटा के गुणों का प्रतिनिधित्व करते हैं।[4] परिवर्तनशीलता को प्रायः बिग डेटा की अतिरिक्त गुणवत्ता के रूप में सम्मिलित किया जाता है।
2018 की परिभाषा में कहा गया है, "बिग डेटा वह जगह है जहां डेटा को संभालने के लिए पैरेलल कंप्यूटिंग टूल की आवश्यकता होती है", और नोट करता है, "यह पैरेलल प्रोग्रामिंग सिद्धांतों और कुछ गारंटी (प्रत्याभूति) और क्षमताओं के नुकसान के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक अलग और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है। कॉड के संबंधपरक मॉडल द्वारा बनाया गया है।[29]
बड़े डेटासेट के एक तुलनात्मक अध्ययन में, किचिन और मैकआर्डल ने पाया कि बिग डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी स्थितियों में निरंतर दिखाई नहीं देता है।[30] इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की जांच में सामर्थ्य गतिकी की पुनर्परिभाषा की पहचान की।[31] बिग डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के अतिरिक्त, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है।
बिग डेटा बनाम व्यापारिक इंटेलिजेंस
अवधारणा की बढ़ती परिपक्वता बिग डेटा और व्यावसायिक इंटेलिजेंस के बीच के अंतर को और अधिक स्पष्ट रूप से चित्रित करती है:[32]
- व्यवसाय इंटेलिजेंस वस्तुओ को मापने, प्रवृत्तियों का पता लगाने आदि के लिए उच्च सूचना घनत्व वाले डेटा के साथ प्रयुक्त गणित उपकरण और वर्णनात्मक आंकड़ों का उपयोग करता है।
- बिग डेटा गणितीय विश्लेषण, अनुकूलन, आगमनात्मक सांख्यिकी और[33] कम सूचना घनत्व वाले डेटा के बड़े सेट से कानून (प्रतिगमन, गैर-रैखिक संबंध और कारण प्रभाव) का अनुमान लगाने के लिए[34] संबंधों और निर्भरताओं को प्रकट करने के लिए, या परिणामों और व्यवहारों की भविष्यवाणी करने के लिए गैर-रैखिक प्रणाली पहचान से अवधारणाओं का उपयोग करता है।[33][35][promotional source?]
विशेषताएं
बिग डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:
- मात्रा
- उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बिग डेटा माना जा सकता है या नहीं माना जा सकता है। बिग डेटा का आकार सामान्य रूप से टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।[36]
- विविधता
- डेटा का प्रकार और प्रकृति। आरडीबीएमएस जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी रूप से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (गति), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को प्रग्रहण करने, संग्रहीत करने और संसाधित करने के मुख्य विचार से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की जांच की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए अधिकतम था। अंततः, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बिग डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में सहायता करता है। बिग डेटा टेक्स्ट, छवियों, ऑडियो, वीडियो से आकर्षित होता है; और साथ ही यह डेटा संलयन के माध्यम से नष्ट टुकड़ों को पूरा करता है।
- गति
- वह गति जिस पर विकास और विकास के मार्ग में आने वाली अपेक्षाओ और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बिग डेटा प्रायः वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बिग डेटा अधिक निरंतर उत्पन्न होता है। बिग डेटा से संबंधित दो प्रकार के गति उत्पादन की आवृत्ति और प्रबंधन, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।[37]
सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।[38] बिग डेटा न सिर्फ आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। प्रग्रहण किए गए डेटा की डेटा गुणवत्ता एक परिशुद्ध विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।[39]
- मूल्य
- सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बिग डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है।[40] मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बिग डेटा के विश्लेषण से प्राप्त किया गया है।
- परिवर्तनशीलता
- बिग डेटा के परिवर्तित प्रारूप, संरचना या स्रोतों की विशेषता। बिग डेटा में संरचित, असंरचित, या संरचित और असंरचित डेटा का संयोजन सम्मिलित हो सकता है। बिग डेटा विश्लेषण कई स्रोतों से असंसाधित डेटा को एकीकृत कर सकता है। असंसाधित डेटा के प्रसंस्करण में असंरचित डेटा को संरचित डेटा में परिवर्तित करना भी सम्मिलित हो सकता है।
बिग डेटा की अन्य संभावित विशेषताएं हैं:[41]
विस्तृत:
क्या संपूर्ण प्रणाली (अर्थात, =all) प्रग्रहण या रिकॉर्ड किया गया है या नहीं किया गया है। बिग डेटा में स्रोतों से उपलब्ध सभी डेटा सम्मिलित हो सकते हैं या नहीं भी हो सकते हैं।
- सुक्ष्म और विशिष्ट शाब्दिक
- क्रमशः, एकत्र किए गए प्रत्येक तत्व के विशिष्ट डेटा का अनुपात और यदि तत्व और इसकी विशेषताओं को सही से अनुक्रमित या पहचाना जाता है।
- संबंधपरक
- यदि एकत्र किए गए डेटा में सामान्य क्षेत्र हैं जो विभिन्न डेटा सेटों के संयोजन, या मेटा-विश्लेषण को सक्षम करेगा।
- एक्सटेंशन
- यदि एकत्र किए गए डेटा के प्रत्येक तत्व में नए क्षेत्र आसानी से जोड़े या बदले जा सकते हैं।
- मापनीयता
- यदि बिग डेटा भंडारण सिस्टम का आकार शीघ्रता से विस्तार कर सकता है।
संरचना
बिग डेटा भंडार कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। व्यवसायिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बिग डेटा के लिए पैरेलल डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।[42][promotional source?]
टेराडाटा निगम ने 1984 में पैरेलल प्रसंस्करण डीबीसी 1012 प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बिग डेटा की परिभाषा निरंतर विकसित होती है। टेराडाटा ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। 2017 तक, कुछ दर्जन पेटाबाइट क्लास टेराडाटा संबंधपरक डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, टेराडाटा ने एक्सएमएल, जेएसओएन, और एवरो सहित असंरचित डेटा प्रकारों को जोड़ा है।
2000 में, सीसिंट इंक. (अब लेक्सिसनेक्सिस जोखिम समाधान) ने एचपीसीसी सिस्टम प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और प्रश्न करने के लिए एक सी ++ -आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटा-संचार प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके अतिरिक्त वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, लेक्सिसनेक्सिस ने सीसिंट इंक. का अधिग्रहण किया।[43] और उनके उच्च-गति पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट (वरण बिंदु) इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।[44] 2011 में, अपाचे v2.0 लाइसेंस के अंतर्गत एचपीसीसी सिस्टम प्लेटफॉर्म मुक्त-स्त्रोत किया गया था।
सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बिग डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बिग डेटा गतिविधि द्वारा सामान्य रूप से मानचित्र-कम संरचना के अतिरिक्त उच्च-उच्च कालबद्ध निर्गम कंप्यूटिंग के माध्यम से विश्लेषण किया जाता है।
2004 में, गूगल ने मैपरिड्यूस नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही,[45] इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के कार्यान्वयन को अपाचे हडूप नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा स्वीकार किया गया था।[46] अपाचे स्पार्क को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह इन-मेमोरी प्रोसेसिंग (न कि सिर्फ मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है।
माइक2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा समाधान प्रस्ताव शीर्षक वाले लेख में पहचाने गए बिग डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।[47] कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रमपरिवर्तन, अंतर्संबंधों में जटिलता और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बिग डेटा को संभालने का समाधान करती है।[48]
2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से संशोधन कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।[49]
डेटा लेक एक संगठन को सूचना प्रबंधन की परिवर्तित गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की स्वीकृति देता है। यह डेटा लेक में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।[50][51]
प्रौद्योगिकियां
2011 की मैकिन्से वैश्विक संस्थान रिपोर्ट बिग डेटा के मुख्य घटकों और पारिस्थितिकी तंत्र की विशेषता बताती है:[52]
- डेटा का विश्लेषण करने की तकनीक, जैसे A/B परीक्षण, यंत्र अधिगम और प्राकृतिक भाषा प्रसंस्करण
- बिग डेटा प्रौद्योगिकियां, जैसे बिजनेस इंटेलिजेंस, क्लाउड कम्प्यूटिंग और डेटाबेस
- आभासीकरण, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले
बहुआयामी बिग डेटा को ऑनलाइन विश्लेषणात्मक प्रक्रिया डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में,[53] जैसे कि बहुरेखीय उप-समष्टि अधिगम,[54] बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, जांच -आधारित एप्लीकेशन, डेटा माइनिंग,[55] वितरित फ़ाइल सिस्टम, वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), वितरित डेटाबेस, क्लाउड कंप्यूटिंग और सुपर कंप्यूटर एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),[56] और इंटरनेट सक्षम टेन्सर-आधारित संगणना सम्मिलित है।[citation needed] हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ यंत्र अधिगम को पूरा करना अभी भी कठिन होता है।[57]
कुछ विशाल पैरेलल प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित आरडीबीएमएस में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।[58][promotional source?]
रक्षा उन्नत अनुसंधान परियोजना संस्था का टोपोलॉजिकल डेटा विश्लेषण प्रोग्राम बड़े पैमाने पर डेटा सेट की मूलभूत संरचना की जांच करता है और 2008 में अयास्दी नामक कंपनी के लॉन्च के साथ तकनीक सार्वजनिक हो गई।[59][third-party source needed]
बिग डेटा विश्लेषण प्रक्रियाओं के व्यवसायी सामान्य रूप से मंद साझा भंडारण के प्रति विपरीत होते हैं,[60] प्रत्यक्ष-संलग्न भंडारण (डीएएस) को इसके विभिन्न रूपों (एसएसडी) से उच्च क्षमता वाले क्रमिक उन्नत प्रौद्योगिकी अनुलग्नक डिस्क में पैरेलल प्रसंस्करण नोड्स के अंदर निर्धारित करना पसंद करते हैं। साझा भंडारण संरचना- भंडारण क्षेत्र नेटवर्क (एसएएन) और नेटवर्क से जुड़ा संग्रहण (एनएएस) की धारणा यह है कि वे अपेक्षाकृत धीमे, जटिल और कीमती हैं। ये गुण बिग डेटा विश्लेषिकी सिस्टम के अनुरूप नहीं हैं जो सिस्टम के प्रदर्शन, कमोडिटी आधारिक संरचना और कम कीमत पर वृद्धि करते हैं।
वास्तविक या निकट-वास्तविक समय सूचना वितरण बिग डेटा विश्लेषण की परिभाषित विशेषताओं में से एक है। इसलिए जब भी और जहां भी संभव हो विलंबता से बचा जाता है। प्रत्यक्ष संलग्न मेमोरी या डिस्क में डेटा अच्छा है—एफसी-भंडारण क्षेत्र नेटवर्क के दूसरे सिरे पर मेमोरी या डिस्क पर डेटा भंडारण क्षेत्र नेटवर्क संपर्क नहीं है। विश्लेषिकी एप्लिकेशन के लिए आवश्यक पैमाने पर भंडारण क्षेत्र नेटवर्क की कीमत अन्य भंडारण तकनीकों की तुलना में बहुत अधिक है।
एप्लीकेशन
बिग डेटा ने सूचना प्रबंधन विशेषज्ञों की मांग इतनी बढ़ा दी है कि सॉफ्टवेयर इंक, ओरेकल निगम, अंतरराष्ट्रीय व्यवसाय मशीन, माइक्रोसॉफ्ट, एसएपी, ईएमसी, एचपी और डेल ने डेटा प्रबंधन और विश्लेषण में विशेषज्ञता रखने वाली सॉफ्टवेयर फर्मों पर 15 बिलियन डॉलर से अधिक खर्च किए हैं। 2010 में, यह उद्योग $100 बिलियन से अधिक मूल्य का था और प्रति वर्ष लगभग 10 प्रतिशत की दर से बढ़ रहा था, जो पूरे सॉफ्टवेयर व्यवसाय से लगभग दोगुना था।[7]
विकसित अर्थव्यवस्थाएँ शीघ्रता से डेटा-गहन तकनीकों का उपयोग कर रही हैं। विश्व में 4.6 बिलियन मोबाइल-फोन सब्सक्रिप्शन हैं, और 1 बिलियन से 2 बिलियन के बीच लोग इंटरनेट का उपयोग कर रहे हैं।[7] 1990 और 2005 के बीच, विश्व में 1 अरब से अधिक लोगों ने मध्यम वर्ग में प्रवेश किया, जिसका अर्थ है कि अधिक लोग अधिक साक्षर हो गए, जिसके परिणामस्वरूप सूचना वृद्धि हुई। दूरसंचार नेटवर्क के माध्यम से सूचनाओं के आदान-प्रदान की विश्व की प्रभावी क्षमता 1986 में 281 पेटाबाइट, 1993 में 471 पेटाबाइट, 2000 में 2.2 एक्साबाइट, 2007 में 65 एक्साबाइट थी।[12] और पूर्वानुमान ने 2014 तक प्रति वर्ष 667 एक्साबाइट्स पर इंटरनेट ट्रैफिक की मात्रा रखी।[7] एक अनुमान के अनुसार, विश्व स्तर पर संग्रहीत जानकारी का एक तिहाई अल्फ़ान्यूमेरिक (अक्षरसांख्यिक) टेक्स्ट और स्थिर छवि डेटा के रूप में है,[61] जो अधिकांश बिग डेटा एप्लिकेशन के लिए सर्वाधिक उपयोगी प्रारूप है। यह अभी तक अप्रयुक्त डेटा (अर्थात वीडियो और ऑडियो सामग्री के रूप में) की क्षमता को भी दर्शाता है।
जबकि कई विक्रेता बिग डेटा के लिए उद्यत उत्पादों की प्रस्तुति करते हैं, यदि कंपनी के पास पर्याप्त तकनीकी क्षमताएं हैं, तो विशेषज्ञ इन-हाउस कस्टम-टेलर्ड सिस्टम के विकास को बढ़ावा देते हैं।[62]
सरकार
सरकारी प्रक्रियाओं के अंदर बिग डेटा का उपयोग और स्वीकृत करने से कीमत, उत्पादकता और नवीनता के संदर्भ में दक्षता प्राप्त होती है,[63] लेकिन इसके दोषों के बिना नहीं आता है। डेटा विश्लेषण के लिए प्रायः सरकार के कई हिस्सों (केंद्रीय और स्थानीय) के सहयोग से काम करने और वांछित परिणाम देने के लिए नई और अभिनव प्रक्रियाएं बनाने की आवश्यकता होती है। सामान्य सरकारी संगठन जो बिग डेटा का उपयोग करता है, वह है राष्ट्रीय सुरक्षा प्रशासन (राष्ट्रीय सुरक्षा संस्था), जो संदिग्ध या अवैध गतिविधियों के संभावित पैटर्न की जानकारी में निरंतर इंटरनेट की गतिविधियों पर परिवीक्षक रखता है, जो उनका सिस्टम पुनः प्रारंभ कर सकता है।
नागरिक पंजीकरण और महत्वपूर्ण डेटा (सीआरवीएस) उत्पन्न से लेकर मृत्यु तक सभी प्रमाणपत्रों की स्थिति एकत्र करता है। सीआरवीएस सरकारों के लिए बिग डेटा का एक स्रोत है।
अंतर्राष्ट्रीय विकास
विकास के लिए सूचना और संचार प्रौद्योगिकियों के प्रभावी उपयोग पर शोध (जिसे आईसीटी4डी के रूप में भी जाना जाता है) से पता चलता है कि बड़ी डेटा तकनीक महत्वपूर्ण योगदान दे सकती है, लेकिन अंतर्राष्ट्रीय विकास के लिए अद्वितीय चुनौतियाँ भी प्रस्तुत करती है।[64][65] बिग डेटा विश्लेषण में प्रगति स्वास्थ्य सेवा, नियोजन, आर्थिक उत्पादकता, अपराध, सुरक्षा और प्राकृतिक आपदा और संसाधन प्रबंधन जैसे महत्वपूर्ण विकास क्षेत्रों में निर्णय लेने में संशोधन के लिए कीमत प्रभावी अवसर प्रदान करती है।[66][67][68] इसके अतिरिक्त, उपयोगकर्ता-जनित डेटा अस्पष्ट प्रयोग के नए अवसर प्रदान करता है।[69] हालाँकि, विकासशील क्षेत्रों के लिए लंबे समय से चली आ रही चुनौतियाँ जैसे कि अपर्याप्त तकनीकी आधारभूत संरचना और आर्थिक और मानव संसाधन की कमी, बिग डेटा जैसे गोपनीयता, अपूर्ण कार्यप्रणाली और अंतर्संचालनीयता के समस्याओ के साथ सम्मिलित समस्याओ को बढ़ाती है।[66] विकास के लिए बिग डेटा की चुनौती[66]वर्तमान में यंत्र अधिगम के माध्यम से इस डेटा के एप्लीकेशन की ओर विकसित हो रहा है, जिसे विकास के लिए कृत्रिम बुद्धिमत्ता (एआई4डी) के रूप में जाना जाता है।[70]
लाभ
विकास के लिए बिग डेटा का एक प्रमुख व्यावहारिक एप्लीकेशन डेटा के साथ अभाव से सामना करता रहा है।[71] 2015 में, ब्लुमेनस्टॉक और उनके सहयोगियों ने अनुमान लगाया कि मोबाइल फोन मेटाडेटा से अभाव और वित्त की भविष्यवाणी की गई है [72] और 2016 में जीन और उनके सहयोगियों ने अभाव की भविष्यवाणी करने के लिए उपग्रह प्रतिबिंब चित्र और यंत्र अधिगम को मिलाया।[73] श्रम व्यवसाय और लैटिन अमेरिका, हिल्बर्ट और सहयोगियों में डिजिटल अर्थव्यवस्था का अध्ययन करने के लिए डिजिटल अनुरेख डेटा का उपयोग करना [74][75] तर्क देते हैं कि डिजिटल अनुरेख डेटा के कई लाभ हैं जैसे:
- विषयगत कवरेज: उन क्षेत्रों सहित जिन्हें मापना पहले कठिन या असंभव था
- भौगोलिक विस्तृत सूचना: हमारे अंतरराष्ट्रीय स्रोतों ने लगभग सभी देशों के लिए बड़े आकार का और तुलनीय डेटा प्रदान किया, जिसमें कई छोटे देश सम्मिलित हैं जो सामान्य रूप से अंतरराष्ट्रीय सूची में सम्मिलित नहीं होते हैं
- विस्तार का स्तर: कई परस्पर संबंधित वेरिएबल, और नए स्वरूपों, जैसे नेटवर्क संपर्क के साथ सूक्ष्म डेटा प्रदान करना
- समयबद्धता और समय-श्रृंखला: ग्राफ़ एकत्र किए जाने के दिनों के अंदर तैयार किए जा सकते हैं
चुनौतियां
साथ ही, पारंपरिक सर्वेक्षण डेटा के अतिरिक्त डिजिटल अनुरेख डेटा के साथ काम करना अंतरराष्ट्रीय मात्रात्मक विश्लेषण के क्षेत्र में काम करते समय सम्मिलित पारंपरिक चुनौतियों को समाप्त नहीं करता है। प्राथमिकताएं परिवर्तित हो जाती हैं, लेकिन मौलिक चर्चा वही रहती है। मुख्य चुनौतियों में से हैं:
- प्रतिनिधित्व- जबकि पारंपरिक विकास डेटा मुख्य रूप से यादृच्छिक सर्वेक्षण नमूनों की प्रतिनिधित्वशीलता से संबंधित हैं, डिजिटल अनुरेख डेटा कभी भी यादृच्छिक प्रतिदर्श नहीं होता है।[76]
- सामान्यता- जबकि अवलोकन संबंधी डेटा सदैव इस स्रोत का बहुत अच्छी तरह से प्रतिनिधित्व करता है, यह सिर्फ वही दर्शाता है जो यह दर्शाता है, और कुछ नहीं दर्शाता है। हालांकि यह एक प्लैटफ़ॉर्म की विशिष्ट टिप्पणियों से लेकर व्यापक संस्थापन तक सामान्यीकरण करने के लिए आकर्षक है, यह प्रायः बहुत भ्रामक (डिसेप्टिव) होता है।
- समानीकरण- डिजिटल अनुरेख डेटा को अभी भी संकेतकों के अंतर्राष्ट्रीय सामंजस्य की आवश्यकता है। यह तथाकथित डेटा-संलयन, विभिन्न स्रोतों के सामंजस्य की चुनौती को जोड़ता है।
- डेटा ओवरलोड (अधिभार)- बड़ी संख्या में चरों से प्रभावी रूप से विभाजन के लिए विश्लेषकों और संस्थानों का उपयोग नहीं किया जाता है, जो कि अंतःक्रियात्मक डैशबोर्ड के साथ परिशुद्धता से किया जाता है। चिकित्सकों के पास अभी भी एक मानक कार्य-संचार का अभ