बिग डेटा

यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निर्धारित किए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत जांच दर का कारण बन सकते हैं। हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम सिर्फ छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं। बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, जांच, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था। बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले सिर्फ अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।

बिग डेटा शब्द का वर्तमान उपयोग भविष्यसूचक विश्लेषण, उपयोगकर्ता गतिविधि विश्लेषण या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बिग डेटा से मूल्य निकालते हैं और संभव्यता ही कभी डेटा सेट के किसी विशेष आकार के होते हैं। "इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा पारिस्थितिकी तंत्र की सबसे प्रासंगिक विशेषता नहीं है। डेटा सेट के विश्लेषण से "स्पॉट बिजनेस ट्रेंड्स प्रिवेंट डिजीज कॉम्बैट क्राइम '' से रोकते हैं और इसी तरह के लिए नए सहसंबंध मिल सकते हैं। इंटरनेट जांच, फिनटेक, स्वास्थ्य सेवा विश्‍लेषक, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकार समान रूप से नियमित रूप से बिग डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिकों को मौसम विज्ञान, जीनोमिक्स, कनेक्टोमिक्स, जटिल भौतिकी सिमुलेशन, जीव विज्ञान, और पर्यावरण अनुसंधान सहित ई-विज्ञान कार्य में सीमाओं का सामना करना पड़ता है।

उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है। 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है; 2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है। अंतर्राष्ट्रीय डेटा निगम की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे। अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।  स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा विक्रय के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है। 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है। यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में संशोधन के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं। और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं। बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।

संबंधपरक डेटाबेस प्रबंधन प्रणाली और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर पैरेलल सॉफ़्टवेयर संचालन की आवश्यकता हो सकती है। बिग डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बिग डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।

परिभाषा
बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय जॉन मैशे को दिया है। बिग डेटा में सामान्य रूप से डेटा अधिग्रहण, डेटा क्यूरेशन, प्रबंधन और डेटा को सहन करने योग्य समय के अंदर संसाधित करने के लिए सामान्य रूप से उपयोग किए जाने वाले सॉफ़्टवेयर उपकरण की क्षमता से अधिक आकार वाले डेटा सेट सम्मिलित होते हैं। बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा सम्मिलित हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है। बिग डेटा "आकार" एक सतत गतिशील लक्ष्य है, जिसमें कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स सम्मिलित हैं। डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बिग डेटा को डेटा एकीकरण के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।

विविधता", "सत्यता", और कई अन्य "वीएस" कुछ संगठनों द्वारा इसे कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई संशोधन का वर्णन करने के लिए जोड़ा जाता है। बिग डेटा के वीएस को प्रायः तीन वीएस, चार वीएस और पाँच वीएस के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, गति, सत्यता और मूल्य में बिग डेटा के गुणों का प्रतिनिधित्व करते हैं। परिवर्तनशीलता को प्रायः बिग डेटा की अतिरिक्त गुणवत्ता के रूप में सम्मिलित किया जाता है।

2018 की परिभाषा में कहा गया है, "बिग डेटा वह जगह है जहां डेटा को संभालने के लिए पैरेलल कंप्यूटिंग टूल की आवश्यकता होती है", और नोट करता है, "यह पैरेलल प्रोग्रामिंग सिद्धांतों और कुछ गारंटी (प्रत्याभूति) और क्षमताओं के नुकसान के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक अलग और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है। कॉड के संबंधपरक मॉडल द्वारा बनाया गया है।

बड़े डेटासेट के एक तुलनात्मक अध्ययन में, किचिन और मैकआर्डल ने पाया कि बिग डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी स्थितियों में निरंतर दिखाई नहीं देता है। इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की जांच में सामर्थ्य गतिकी की पुनर्परिभाषा की पहचान की। बिग डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के अतिरिक्त, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है।

बिग डेटा बनाम व्यापारिक इंटेलिजेंस
अवधारणा की बढ़ती परिपक्वता बिग डेटा और व्यावसायिक इंटेलिजेंस के बीच के अंतर को और अधिक स्पष्ट रूप से चित्रित करती है:
 * व्यवसाय इंटेलिजेंस वस्तुओ को मापने, प्रवृत्तियों का पता लगाने आदि के लिए उच्च सूचना घनत्व वाले डेटा के साथ प्रयुक्त गणित उपकरण और वर्णनात्मक आंकड़ों का उपयोग करता है।
 * बिग डेटा गणितीय विश्लेषण, अनुकूलन, आगमनात्मक सांख्यिकी और कम सूचना घनत्व वाले डेटा के बड़े सेट से कानून (प्रतिगमन, गैर-रैखिक संबंध और कारण प्रभाव) का अनुमान लगाने के लिए संबंधों और निर्भरताओं को प्रकट करने के लिए, या परिणामों और व्यवहारों की भविष्यवाणी करने के लिए गैर-रैखिक प्रणाली पहचान से अवधारणाओं का उपयोग करता है।

विशेषताएं
बिग डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:


 * मात्रा: उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बिग डेटा माना जा सकता है या नहीं माना जा सकता है। बिग डेटा का आकार सामान्य रूप से टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।
 * विविधता: डेटा का प्रकार और प्रकृति। आरडीबीएमएस जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी रूप से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (गति), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को प्रग्रहण करने, संग्रहीत करने और संसाधित करने के मुख्य विचार से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की जांच की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए अधिकतम था। अंततः, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बिग डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में सहायता करता है। बिग डेटा टेक्स्ट, छवियों, ऑडियो, वीडियो से आकर्षित होता है; और साथ ही यह डेटा संलयन के माध्यम से नष्ट टुकड़ों को पूरा करता है।

सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है। बिग डेटा न सिर्फ आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। प्रग्रहण किए गए डेटा की डेटा गुणवत्ता एक परिशुद्ध विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।
 * गति: वह गति जिस पर विकास और विकास के मार्ग में आने वाली अपेक्षाओ और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बिग डेटा प्रायः वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बिग डेटा अधिक निरंतर उत्पन्न होता है। बिग डेटा से संबंधित दो प्रकार के गति उत्पादन की आवृत्ति और प्रबंधन, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।
 * मूल्य: सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बिग डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है। मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बिग डेटा के विश्लेषण से प्राप्त किया गया है।


 * परिवर्तनशीलता: बिग डेटा के परिवर्तित प्रारूप, संरचना या स्रोतों की विशेषता। बिग डेटा में संरचित, असंरचित, या संरचित और असंरचित डेटा का संयोजन सम्मिलित हो सकता है। बिग डेटा विश्लेषण कई स्रोतों से असंसाधित डेटा को एकीकृत कर सकता है। असंसाधित डेटा के प्रसंस्करण में असंरचित डेटा को संरचित डेटा में परिवर्तित करना भी सम्मिलित हो सकता है।

बिग डेटा की अन्य संभावित विशेषताएं हैं:

विस्तृत:
क्या संपूर्ण प्रणाली (अर्थात, $n$ =all) प्रग्रहण या रिकॉर्ड किया गया है या नहीं किया गया है। बिग डेटा में स्रोतों से उपलब्ध सभी डेटा सम्मिलित हो सकते हैं या नहीं भी हो सकते हैं।


 * सुक्ष्म और विशिष्ट शाब्दिक: क्रमशः, एकत्र किए गए प्रत्येक तत्व के विशिष्ट डेटा का अनुपात और यदि तत्व और इसकी विशेषताओं को सही से अनुक्रमित या पहचाना जाता है।


 * संबंधपरक: यदि एकत्र किए गए डेटा में सामान्य क्षेत्र हैं जो विभिन्न डेटा सेटों के संयोजन, या मेटा-विश्लेषण को सक्षम करेगा।


 * एक्सटेंशन: यदि एकत्र किए गए डेटा के प्रत्येक तत्व में नए क्षेत्र आसानी से जोड़े या बदले जा सकते हैं।


 * मापनीयता: यदि बिग डेटा भंडारण सिस्टम का आकार शीघ्रता से विस्तार कर सकता है।

संरचना
बिग डेटा भंडार कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। व्यवसायिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बिग डेटा के लिए पैरेलल डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।

टेराडाटा निगम ने 1984 में पैरेलल प्रसंस्करण डीबीसी 1012 प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बिग डेटा की परिभाषा निरंतर विकसित होती है। टेराडाटा ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। 2017 तक, कुछ दर्जन पेटाबाइट क्लास टेराडाटा संबंधपरक डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, टेराडाटा ने एक्सएमएल, जेएसओएन, और एवरो सहित असंरचित डेटा प्रकारों को जोड़ा है।

2000 में, सीसिंट इंक. (अब लेक्सिसनेक्सिस जोखिम समाधान) ने एचपीसीसी सिस्टम प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और प्रश्न करने के लिए एक सी ++ -आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटा-संचार प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके अतिरिक्त वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, लेक्सिसनेक्सिस ने सीसिंट इंक. का अधिग्रहण किया। और उनके उच्च-गति पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट (वरण बिंदु) इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया। 2011 में, अपाचे v2.0 लाइसेंस के अंतर्गत एचपीसीसी सिस्टम प्लेटफॉर्म मुक्त-स्त्रोत किया गया था।

सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बिग डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बिग डेटा गतिविधि द्वारा सामान्य रूप से मानचित्र-कम संरचना के अतिरिक्त उच्च-उच्च कालबद्ध निर्गम कंप्यूटिंग के माध्यम से विश्लेषण किया जाता है।

2004 में, गूगल ने मैपरिड्यूस नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही, इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के कार्यान्वयन को अपाचे हडूप नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा स्वीकार किया गया था। अपाचे स्पार्क को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह इन-मेमोरी प्रोसेसिंग (न कि सिर्फ मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है।

माइक2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा समाधान प्रस्ताव शीर्षक वाले लेख में पहचाने गए बिग डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है। कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रमपरिवर्तन, अंतर्संबंधों में जटिलता और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बिग डेटा को संभालने का समाधान करती है।

2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से संशोधन कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।

डेटा लेक एक संगठन को सूचना प्रबंधन की परिवर्तित गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की स्वीकृति देता है। यह डेटा लेक में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।

प्रौद्योगिकियां
2011 की मैकिन्से वैश्विक संस्थान रिपोर्ट बिग डेटा के मुख्य घटकों और पारिस्थितिकी तंत्र की विशेषता बताती है:
 * डेटा का विश्लेषण करने की तकनीक, जैसे A/B परीक्षण, यंत्र अधिगम और प्राकृतिक भाषा प्रसंस्करण
 * बिग डेटा प्रौद्योगिकियां, जैसे बिजनेस इंटेलिजेंस, क्लाउड कम्प्यूटिंग और डेटाबेस
 * आभासीकरण, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले

बहुआयामी बिग डेटा को ऑनलाइन विश्लेषणात्मक प्रक्रिया डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में, जैसे कि बहुरेखीय उप-समष्टि अधिगम, बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, जांच -आधारित एप्लीकेशन, डेटा माइनिंग, वितरित फ़ाइल सिस्टम, वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), वितरित डेटाबेस, क्लाउड कंप्यूटिंग और सुपर कंप्यूटर एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन), और इंटरनेट सक्षम टेन्सर-आधारित संगणना सम्मिलित है। हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ यंत्र अधिगम को पूरा करना अभी भी कठिन होता है।

कुछ विशाल पैरेलल प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित आरडीबीएमएस में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।

रक्षा उन्नत अनुसंधान परियोजना संस्था का टोपोलॉजिकल डेटा विश्लेषण प्रोग्राम बड़े पैमाने पर डेटा सेट की मूलभूत संरचना की जांच करता है और 2008 में अयास्दी नामक कंपनी के लॉन्च के साथ तकनीक सार्वजनिक हो गई।

बिग डेटा विश्लेषण प्रक्रियाओं के व्यवसायी सामान्य रूप से मंद साझा भंडारण के प्रति विपरीत होते हैं, प्रत्यक्ष-संलग्न भंडारण (डीएएस) को इसके विभिन्न रूपों (एसएसडी) से उच्च क्षमता वाले क्रमिक उन्नत प्रौद्योगिकी अनुलग्नक डिस्क में पैरेलल प्रसंस्करण नोड्स के अंदर निर्धारित करना पसंद करते हैं। साझा भंडारण संरचना- भंडारण क्षेत्र नेटवर्क (एसएएन) और नेटवर्क से जुड़ा संग्रहण (एनएएस) की धारणा यह है कि वे अपेक्षाकृत धीमे, जटिल और कीमती हैं। ये गुण बिग डेटा विश्लेषिकी सिस्टम के अनुरूप नहीं हैं जो सिस्टम के प्रदर्शन, कमोडिटी आधारिक संरचना और कम कीमत पर वृद्धि करते हैं।

वास्तविक या निकट-वास्तविक समय सूचना वितरण बिग डेटा विश्लेषण की परिभाषित विशेषताओं में से एक है। इसलिए जब भी और जहां भी संभव हो विलंबता से बचा जाता है। प्रत्यक्ष संलग्न मेमोरी या डिस्क में डेटा अच्छा है—एफसी-भंडारण क्षेत्र नेटवर्क के दूसरे सिरे पर मेमोरी या डिस्क पर डेटा भंडारण क्षेत्र नेटवर्क संपर्क नहीं है। विश्लेषिकी एप्लिकेशन के लिए आवश्यक पैमाने पर भंडारण क्षेत्र नेटवर्क की कीमत अन्य भंडारण तकनीकों की तुलना में बहुत अधिक है।

एप्लीकेशन
बिग डेटा ने सूचना प्रबंधन विशेषज्ञों की मांग इतनी बढ़ा दी है कि सॉफ्टवेयर इंक, ओरेकल निगम, अंतरराष्ट्रीय व्यवसाय मशीन, माइक्रोसॉफ्ट, एसएपी, ईएमसी, एचपी और डेल ने डेटा प्रबंधन और विश्लेषण में विशेषज्ञता रखने वाली सॉफ्टवेयर फर्मों पर 15 बिलियन डॉलर से अधिक खर्च किए हैं। 2010 में, यह उद्योग $100 बिलियन से अधिक मूल्य का था और प्रति वर्ष लगभग 10 प्रतिशत की दर से बढ़ रहा था, जो पूरे सॉफ्टवेयर व्यवसाय से लगभग दोगुना था।

विकसित अर्थव्यवस्थाएँ शीघ्रता से डेटा-गहन तकनीकों का उपयोग कर रही हैं। विश्व में 4.6 बिलियन मोबाइल-फोन सब्सक्रिप्शन हैं, और 1 बिलियन से 2 बिलियन के बीच लोग इंटरनेट का उपयोग कर रहे हैं। 1990 और 2005 के बीच, विश्व में 1 अरब से अधिक लोगों ने मध्यम वर्ग में प्रवेश किया, जिसका अर्थ है कि अधिक लोग अधिक साक्षर हो गए, जिसके परिणामस्वरूप सूचना वृद्धि हुई। दूरसंचार नेटवर्क के माध्यम से सूचनाओं के आदान-प्रदान की विश्व की प्रभावी क्षमता 1986 में 281 पेटाबाइट, 1993 में 471 पेटाबाइट, 2000 में 2.2 एक्साबाइट, 2007 में 65 एक्साबाइट थी। और पूर्वानुमान ने 2014 तक प्रति वर्ष 667 एक्साबाइट्स पर इंटरनेट ट्रैफिक की मात्रा रखी। एक अनुमान के अनुसार, विश्व स्तर पर संग्रहीत जानकारी का एक तिहाई अल्फ़ान्यूमेरिक (अक्षरसांख्यिक) टेक्स्ट और स्थिर छवि डेटा के रूप में है, जो अधिकांश बिग डेटा एप्लिकेशन के लिए सर्वाधिक उपयोगी प्रारूप है। यह अभी तक अप्रयुक्त डेटा (अर्थात वीडियो और ऑडियो सामग्री के रूप में) की क्षमता को भी दर्शाता है।

जबकि कई विक्रेता बिग डेटा के लिए उद्यत उत्पादों की प्रस्तुति करते हैं, यदि कंपनी के पास पर्याप्त तकनीकी क्षमताएं हैं, तो विशेषज्ञ इन-हाउस कस्टम-टेलर्ड सिस्टम के विकास को बढ़ावा देते हैं।

सरकार
सरकारी प्रक्रियाओं के अंदर बिग डेटा का उपयोग और स्वीकृत करने से कीमत, उत्पादकता और नवीनता के संदर्भ में दक्षता प्राप्त होती है, लेकिन इसके दोषों के बिना नहीं आता है। डेटा विश्लेषण के लिए प्रायः सरकार के कई हिस्सों (केंद्रीय और स्थानीय) के सहयोग से काम करने और वांछित परिणाम देने के लिए नई और अभिनव प्रक्रियाएं बनाने की आवश्यकता होती है। सामान्य सरकारी संगठन जो बिग डेटा का उपयोग करता है, वह है राष्ट्रीय सुरक्षा प्रशासन (राष्ट्रीय सुरक्षा संस्था), जो संदिग्ध या अवैध गतिविधियों के संभावित पैटर्न की जानकारी में निरंतर इंटरनेट की गतिविधियों पर परिवीक्षक रखता है, जो उनका सिस्टम पुनः प्रारंभ कर सकता है।

नागरिक पंजीकरण और महत्वपूर्ण डेटा (सीआरवीएस) उत्पन्न से लेकर मृत्यु तक सभी प्रमाणपत्रों की स्थिति एकत्र करता है। सीआरवीएस सरकारों के लिए बिग डेटा का एक स्रोत है।

अंतर्राष्ट्रीय विकास
विकास के लिए सूचना और संचार प्रौद्योगिकियों के प्रभावी उपयोग पर शोध (जिसे आईसीटी4डी के रूप में भी जाना जाता है) से पता चलता है कि बड़ी डेटा तकनीक महत्वपूर्ण योगदान दे सकती है, लेकिन अंतर्राष्ट्रीय विकास के लिए अद्वितीय चुनौतियाँ भी प्रस्तुत करती है। बिग डेटा विश्लेषण में प्रगति स्वास्थ्य सेवा, नियोजन, आर्थिक उत्पादकता, अपराध, सुरक्षा और प्राकृतिक आपदा और संसाधन प्रबंधन जैसे महत्वपूर्ण विकास क्षेत्रों में निर्णय लेने में संशोधन के लिए कीमत प्रभावी अवसर प्रदान करती है।  इसके अतिरिक्त, उपयोगकर्ता-जनित डेटा अस्पष्ट प्रयोग के नए अवसर प्रदान करता है। हालाँकि, विकासशील क्षेत्रों के लिए लंबे समय से चली आ रही चुनौतियाँ जैसे कि अपर्याप्त तकनीकी आधारभूत संरचना और आर्थिक और मानव संसाधन की कमी, बिग डेटा जैसे गोपनीयता, अपूर्ण कार्यप्रणाली और अंतर्संचालनीयता के समस्याओ के साथ सम्मिलित समस्याओ को बढ़ाती है। विकास के लिए बिग डेटा की चुनौती वर्तमान में यंत्र अधिगम के माध्यम से इस डेटा के एप्लीकेशन की ओर विकसित हो रहा है, जिसे विकास के लिए कृत्रिम बुद्धिमत्ता (एआई4डी) के रूप में जाना जाता है।

लाभ
विकास के लिए बिग डेटा का एक प्रमुख व्यावहारिक एप्लीकेशन डेटा के साथ अभाव से सामना करता रहा है। 2015 में, ब्लुमेनस्टॉक और उनके सहयोगियों ने अनुमान लगाया कि मोबाइल फोन मेटाडेटा से अभाव और वित्त की भविष्यवाणी की गई है और 2016 में जीन और उनके सहयोगियों ने अभाव की भविष्यवाणी करने के लिए उपग्रह प्रतिबिंब चित्र और यंत्र अधिगम को मिलाया। श्रम व्यवसाय और लैटिन अमेरिका, हिल्बर्ट और सहयोगियों में डिजिटल अर्थव्यवस्था का अध्ययन करने के लिए डिजिटल अनुरेख डेटा का उपयोग करना तर्क देते हैं कि डिजिटल अनुरेख डेटा के कई लाभ हैं जैसे:
 * विषयगत कवरेज: उन क्षेत्रों सहित जिन्हें मापना पहले कठिन या असंभव था
 * भौगोलिक विस्तृत सूचना: हमारे अंतरराष्ट्रीय स्रोतों ने लगभग सभी देशों के लिए बड़े आकार का और तुलनीय डेटा प्रदान किया, जिसमें कई छोटे देश सम्मिलित हैं जो सामान्य रूप से अंतरराष्ट्रीय सूची में सम्मिलित नहीं होते हैं
 * विस्तार का स्तर: कई परस्पर संबंधित वेरिएबल, और नए स्वरूपों, जैसे नेटवर्क संपर्क के साथ सूक्ष्म डेटा प्रदान करना
 * समयबद्धता और समय-श्रृंखला: ग्राफ़ एकत्र किए जाने के दिनों के अंदर तैयार किए जा सकते हैं

चुनौतियां
साथ ही, पारंपरिक सर्वेक्षण डेटा के अतिरिक्त डिजिटल अनुरेख डेटा के साथ काम करना अंतरराष्ट्रीय मात्रात्मक विश्लेषण के क्षेत्र में काम करते समय सम्मिलित पारंपरिक चुनौतियों को समाप्त नहीं करता है। प्राथमिकताएं परिवर्तित हो जाती हैं, लेकिन मौलिक चर्चा वही रहती है। मुख्य चुनौतियों में से हैं:
 * प्रतिनिधित्व- जबकि पारंपरिक विकास डेटा मुख्य रूप से यादृच्छिक सर्वेक्षण नमूनों की प्रतिनिधित्वशीलता से संबंधित हैं, डिजिटल अनुरेख डेटा कभी भी यादृच्छिक प्रतिदर्श नहीं होता है।
 * सामान्यता- जबकि अवलोकन संबंधी डेटा सदैव इस स्रोत का बहुत अच्छी तरह से प्रतिनिधित्व करता है, यह सिर्फ वही दर्शाता है जो यह दर्शाता है, और कुछ नहीं दर्शाता है। हालांकि यह एक प्लैटफ़ॉर्म की विशिष्ट टिप्पणियों से लेकर व्यापक संस्थापन तक सामान्यीकरण करने के लिए आकर्षक है, यह प्रायः बहुत भ्रामक (डिसेप्टिव) होता है।
 * समानीकरण- डिजिटल अनुरेख डेटा को अभी भी संकेतकों के अंतर्राष्ट्रीय सामंजस्य की आवश्यकता है। यह तथाकथित डेटा-संलयन, विभिन्न स्रोतों के सामंजस्य की चुनौती को जोड़ता है।
 * डेटा ओवरलोड (अधिभार)- बड़ी संख्या में चरों से प्रभावी रूप से विभाजन के लिए विश्लेषकों और संस्थानों का उपयोग नहीं किया जाता है, जो कि अंतःक्रियात्मक डैशबोर्ड के साथ परिशुद्धता से किया जाता है। चिकित्सकों के पास अभी भी एक मानक कार्य-संचार का अभाव है जो शोधकर्ताओं, उपयोगकर्ताओं और नीति निर्माताओं को कुशलतापूर्वक और प्रभावी रूप से करने की स्वीकृति देगा।

वित्त
बिग डेटा को वित्त में तीव्रता से स्वीकृत किया जा रहा है 1) प्रसंस्करण में तीव्रता लाने के लिए और 2) आंतरिक रूप से और वित्तीय संस्थानों के ग्राहकों के लिए अपेक्षाकृत अधिक अच्छे, अधिक सूचित संदर्भ प्रदान करता है। .. बिग डेटा के वित्तीय एप्लिकेशन में निवेश के निर्णय और व्यापार (उपलब्ध मूल्य डेटा की प्रसंस्करण मात्रा, सीमा क्रमित पुस्तिका, आर्थिक डेटा और अधिक, सभी एक ही समय में), पोर्टफोलियो प्रबंधन (वित्तीय उपकरणों की एक बड़ी बड़ी सरणी पर अनुकूलन) सम्मिलित हैं। संभावित रूप से विभिन्न गुण वर्गों से चयनित), जोखिम प्रबंधन (विस्तारित जानकारी के आधार पर क्रेडिट रेटिंग), और कोई अन्य स्वरूप जहां डेटा इनपुट बड़े हैं।

स्वास्थ्य सेवा
बिग डेटा विश्लेषिकी का उपयोग व्यक्तिगत दवा और निर्देशात्मक विश्लेषण, नैदानिक ​​जोखिम अंतःक्षेप और भविष्यसूचक विश्लेषण, अपशिष्ट और सेवा परिवर्तनशीलता में कमी, रोगी डेटा की स्वचालित बाहरी और आंतरिक रिपोर्टिंग, मानकीकृत चिकित्सा शर्तों और रोगी पंजीकरण को प्रदान करके स्वास्थ्य सेवा में किया गया था।  संशोधन के कुछ क्षेत्र वास्तव में कार्यान्वित किए जाने की तुलना में अधिक उपयुक्त हैं। स्वास्थ्य प्रणाली के अंदर उत्पन्न डेटा का स्तर सामान्य नहीं है। एमहेल्थ, ईहेल्थ और धारण करने योग्य तकनीकों को स्वीकृत से डेटा की मात्रा में वृद्धि जारी रहेगी। इसमें इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड डेटा, प्रतिबिम्बन डेटा, रोगी जनित डेटा, सेंसर डेटा और डेटा को प्रसंस्करण करने में कठिन के अन्य रूप सम्मिलित हैं। डेटा और सूचना की गुणवत्ता पर अधिक ध्यान देने के लिए ऐसे वातावरण की वर्तमान मे और भी अधिक आवश्यकता है। बिग डेटा का अर्थ प्रायः 'विकृत डेटा' होता है और डेटा की मात्रा में वृद्धि के साथ डेटा की अशुद्धियों का अंश बढ़ जाता है। बिग डेटा पैमाने पर मानव निरीक्षण असंभव है और परिशुद्धता और विश्वसनीयता नियंत्रण और प्रबंधन सूचना सेवा जानकारी को संभालने के लिए अभिज्ञ उपकरणों के लिए स्वास्थ्य सेवा में अधिक आवश्यकता है। जबकि स्वास्थ्य सेवा में व्यापक जानकारी अब इलेक्ट्रॉनिक है, यह बिग डेटा अम्ब्रेला के अंदर निर्धारित होता है क्योंकि अधिकांश असंरचित और उपयोग करने में कठिन है। स्वास्थ्य सेवा में बिग डेटा के उपयोग ने व्यक्तिगत अधिकारों, गोपनीयता और स्वायत्तता के जोखिमों से लेकर पारदर्शिता और विश्वास तक की महत्वपूर्ण नैतिक चुनौतियाँ निर्दिष्ट की हैं।

स्वास्थ्य अनुसंधान में बिग डेटा विशेष रूप से खोजपूर्ण जैव चिकित्सा अनुसंधान के संदर्भ में आशाजनक है, क्योंकि डेटा-संचालित विश्लेषण परिकल्पना-संचालित अनुसंधान की तुलना में अधिक तेज़ी से आगे बढ़ सकता है। फिर, डेटा विश्लेषण में देखे गए प्रवृत्ति का परीक्षण पारंपरिक, परिकल्पना-चालित अनुवर्ती जैविक अनुसंधान और अंततः नैदानिक ​​अनुसंधान में किया जा सकता है।

संबंधित एप्लीकेशन उप-क्षेत्र, जो स्वास्थ्य सेवा क्षेत्र के अंदर बिग डेटा पर बहुत अधिक निर्भर करता है, चिकित्सा में कम्प्यूटर सहायता प्राप्त निदान है। इंस्टेंस के लिए, मिर्गी की सर्वेक्षण के लिए प्रतिदिन 5 से 10 जीबी डेटा बनाने की प्रचलित है। इसी तरह, स्तन टोमोसिंथेसिस की एक असम्पीडित छवि का औसत 450 एमबी डेटा है। ये ऐसे कई उदाहरणों में से कुछ जहां कंप्यूटर-एडेड डायग्नोसिस बिग डेटा का उपयोग करता है। इस कारण से, बिग डेटा को उन सात प्रमुख चुनौतियों में से एक के रूप में पहचाना गया है, जिन्हें प्रदर्शन के अगले स्तर तक पहुँचने के लिए कंप्यूटर-एडेड डायग्नोसिस सिस्टम को दूर करने की आवश्यकता है।

शिक्षा
मैकिन्से वैश्विक संस्थान के एक अध्ययन में 1.5 मिलियन उच्च प्रशिक्षित डेटा पेशेवरों और प्रबंधकों की कमी पाई गई और कई विश्वविद्यालय टेनेसी विश्वविद्यालय और यूसी बर्कले सहित, ने इस मांग को पूरा करने के लिए मास्टर्स प्रोग्राम बनाए हैं। निजी बूट शिविरों ने उस मांग को पूरा करने के लिए प्रोग्राम भी विकसित किए हैं, जिसमें द डेटा इनक्यूबेटर जैसे मुफ्त प्रोग्राम या सामान्य असेम्बली (सभा) जैसे भुगतान प्रोग्राम सम्मिलित हैं। विपणन के विशिष्ट क्षेत्र में, वेसल और कन्नन द्वारा जोर दी गई समस्याओं में से एक है यह है कि व्यवसाय के कई उप प्रक्षेत्र (जैसे, विज्ञापन, प्रचार,उत्पाद विकास, ब्रांडिंग) हैं, जो सभी विभिन्न प्रकार के डेटा का उपयोग करते हैं।

मीडिया
यह समझने के लिए कि मीडिया बिग डेटा का उपयोग कैसे करता है, मीडिया प्रक्रिया के लिए उपयोग किए जाने वाले तंत्र में कुछ संदर्भ प्रदान करना सबसे पहले आवश्यक है। निक कैनरी और जोसेफ टुरो द्वारा यह सुझाव दिया गया है कि मीडिया और विज्ञापन में व्यवसायी लाखों व्यक्तियों के बारे में जानकारी के कई प्रक्रिया योग्य बिंदुओं के रूप में बिग डेटा का दृष्टिकोण रखते हैं। ऐसा प्रतीत होता है कि उद्योग समाचार पत्रों, पत्रिकाओं, या टेलीविज़न शो जैसे विशिष्ट मीडिया परिवेशों का उपयोग करने के पारंपरिक दृष्टिकोण से दूर जा रहा है और इसके अतिरिक्त उन तकनीकों के साथ उपभोक्ताओं में टैप करता है जो सर्वोत्तम स्थानों पर लक्षित लोगों तक पहुँचते हैं। अंतिम उद्देश्य उपभोक्ता की मानसिकता के अनुरूप (सांख्यिकीय रूप से कथन) एक संदेश या सामग्री की सेवा या संदेश देना है। उदाहरण के लिए, प्रकाशन वातावरण उपभोक्ताओं के लिए पुनर्विचार करने के लिए संदेशों (विज्ञापनों) और सामग्री (लेखों) को शीघ्रता से तैयार कर रहा है जो विभिन्न डेटा माइनिंग गतिविधियों के माध्यम से विशेष रूप से एकत्र किए गए हैं।
 * उपभोक्ताओं का लक्ष्यीकरण (विक्रय द्वारा विज्ञापन के लिए)
 * डेटा प्रग्रहण
 * डेटा पत्रकारिता: अद्वितीय और अभिनव अंतर्दृष्टि और इंफ़ोग्राफ़िक ( सूचना या डेटा का एक दृश्य निरूपण एक चार्ट या आरेख के रूप में) प्रदान करने के लिए प्रकाशक और पत्रकार बिग डेटा उपकरण का उपयोग करते हैं।

चैनल 4, ब्रिटिश सार्वजनिक सेवा टेलीविजन प्रसारक, बड़े डेटा और डेटा विश्लेषण के क्षेत्र में अग्रणी है।

बीमा
स्वास्थ्य बीमा प्रदाता स्वास्थ्य के सामाजिक निर्धारकों जैसे कि भोजन और टेलीविजन का उपभोग, वैवाहिक स्थिति, कपड़ों के आकार और खरीदारी की आदतों पर डेटा एकत्र कर रहे हैं, जिससे वे अपने ग्राहकों में स्वास्थ्य संबंधी समस्याओं का पता लगाने के लिए स्वास्थ्य कीमतों का अनुमान लगाते हैं। यह विवादास्पद है कि वर्तमान में मूल्य निर्धारण के लिए इन भविष्यवाणियों का उपयोग किया जा रहा है या नहीं किया जा रहा है।

वस्तुओ का इंटरनेट (आईओटी)
बिग डेटा और आईओटी संयोजन में काम करते हैं। आईओटी डिवाइस से निकाला गया डेटा डिवाइस अंतः-संबंध की मैपिंग प्रदान करता है। इस तरह के मैपिंग का उपयोग मीडिया उद्योग, कंपनियों और सरकारों द्वारा अपने दर्शकों को अधिक परिशुद्ध रूप से लक्षित करने और मीडिया दक्षता बढ़ाने के लिए किया गया है। संवेदी डेटा एकत्र करने के साधन के रूप में आईओटी को भी शीघ्रता से स्वीकार किया जा रहा है, और इस संवेदी डेटा का उपयोग चिकित्सा में, उत्पादन और परिवहन संदर्भ मे किया गया है।

डिजिटल आविष्करण विशेषज्ञ केविन एश्टन, जिन्हें इस शब्द को देने का श्रेय दिया जाता है, इस उद्धरण में वस्तुओ के इंटरनेट को परिभाषित करता है: यदि हमारे पास ऐसे कंप्यूटर होते जो वस्तुओ के बारे में जानने के लिए सब कुछ जानते थे—डेटा का उपयोग करके जो उन्होंने हमारी सहायता के बिना एकत्र किया—हम सब कुछ पता लगाने और गिनने में सक्षम होते, और विकृति, हानि, और कीमत को बहुत कम कर पाएंगे। हमें पता चल जाएगा कि कब वस्तुओ को परिवर्तित करने मे, सुधार करने या पुनर्प्राप्ति की आवश्यकता है, और क्या वे नवीन थे या सबसे अच्छे थे।

सूचना प्रौद्योगिकी
विशेष रूप से 2015 के बाद से, कर्मचारियों को अधिक कुशलता से काम करने और सूचना प्रौद्योगिकी (आईटी) के संग्रह और वितरण को सुव्यवस्थित करने में सहायता करने के लिए एक उपकरण के रूप में बिग डेटा को व्यवसाय संचालन के अंदर प्रमुखता मिली है। एक उद्यम के अंदर सूचना प्रौद्योगिकी और डेटा संग्रह के समस्याओ को संशोधित करने के लिए बिग डेटा के उपयोग को सूचना प्रौद्योगिकी संचालन विश्लेषिकी (आईटीओए) कहा जाता है। मशीन इंटेलिजेंस और गहन कंप्यूटिंग की अवधारणाओं में बिग डेटा सिद्धांतों को प्रयुक्त करके, सूचना प्रौद्योगिकी विभाग संभावित समस्याओ की भविष्यवाणी कर सकते हैं और उन्हें रोक सकते हैं। सूचना प्रौद्योगिकी संचालन विश्लेषिकी व्यवसाय सिस्टम प्रबंधन के लिए प्लेटफ़ॉर्म प्रदान करते हैं जो डेटा साइलो को एक साथ लाते हैं और डेटा के अलग-अलग पॉकेट्स के अतिरिक्त पूरे सिस्टम से अंतर्दृष्टि उत्पन्न करते हैं।

चीन

 * एकीकृत संयुक्त संचालन प्लेटफॉर्म (आईजेओपी, 一体化联合作战平台) का उपयोग सरकार द्वारा आबादी, विशेष रूप से उइगरों के संरक्षण के लिए किया जाता है। बॉयोमेट्रिक्स, जिसमें डीएनए नमूने भी सम्मिलित हैं, निː शुल्क भौतिक के एक प्रोग्राम के माध्यम से एकत्र किए जाते हैं।
 * 2020 तक, चीन अपने सभी नागरिकों को उनके गतिविधि के आधार पर एक व्यक्तिगत समाज द्वारा उत्पादित क्रय शक्ति गणना देने की योजना बना रहा है। सामाजिक क्रेडिट सिस्टम, जिसे अब कई चीनी शहरों में संचालित किया जा रहा है, इसको चीन में बड़े पैमाने पर सर्वेक्षण का एक रूप माना जाता है जो बिग डेटा विश्लेषण तकनीक का उपयोग करता है।

भारत

 * 2014 भारतीय सामान्य चुनाव जीतने के लिए भारतीय जनता पार्टी के लिए बिग डेटा विश्लेषण करने का प्रयास किया गया था।
 * भारत सरकार यह पता लगाने के लिए कई तकनीकों का उपयोग करती है कि भारतीय मतदाता सरकारी प्रक्रिया के साथ-साथ नीतिगत वृद्धि के लिए कैसे प्रतिक्रिया दे रहे हैं।

इसराइल

 * ग्लूकोमे के बिग डेटा समाधान के माध्यम से व्यक्तिगत मधुमेह उपचार बनाया जा सकता है।

यूनाइटेड किंगडम
सार्वजनिक सेवाओं में बिग डेटा के उपयोग के उदाहरण:


 * निर्धारित औषधि पर डेटा: मूल, स्थान और प्रत्येक उपाय के समय को जोड़कर, एक शोध इकाई किसी भी दवा के निस्तारण और राष्ट्रीय स्वास्थ्य संस्थान के यूके-व्यापी अनुकूलन के बीच अपेक्षाकृत अधिक विलंबता को स्पष्ट करने और सेवा उत्कृष्टता दिशानिर्देश जांच करने में सक्षम थी। इससे पता चलता है कि नई या सबसे आधुनिक दवाएं सामान्य रोगी के माध्यम से फ़िल्टर करने में कुछ समय लेती हैं।
 * डेटा को जोड़ना: एक स्थानीय प्राधिकरण सेवाओं के बारे में डेटा सम्मिश्रण करता है, जैसे कि रोड ग्रिटिंग रोटा, जोखिम वाले लोगों के लिए सेवाओं के साथ, जैसे कि भोजन वितरण। डेटा के संपर्क ने स्थानीय प्राधिकरण को मौसम संबंधी किसी भी विलंबता से बचने की स्वीकृति दी।

संयुक्त राज्य अमेरिका
रेफरी>
 * 2012 में, ओबामा प्रशासन ने बिग डेटा अनुसंधान और विकास प्रस्ताव की घोषणा की, यह पता लगाने के लिए कि सरकार द्वारा सामना की जाने वाली महत्वपूर्ण समस्याओं का समाधान करने के लिए बिग डेटा का उपयोग कैसे किया जा सकता है। प्रस्ताव छह विभागों में विस्तृत 84 विभिन्न बिग डेटा प्रोग्रामो से बनी है। रेफरी>
 * बिग डेटा विश्लेषण ने बराक ओबामा के 2012 के सफल पुनर्निर्वाचन अभियान में एक बड़ी भूमिका निभाई।
 * संयुक्त राज्य संघीय सरकार विश्व के दस सबसे शक्तिशाली सुपर कंप्यूटरों में से पांच की स्वामित्व है।
 * यूटा डेटा केंद्र का निर्माण संयुक्त राज्य अमेरिका की राष्ट्रीय सुरक्षा संस्था द्वारा किया गया है। समाप्त होने पर, सुविधा एनएसए द्वारा इंटरनेट पर एकत्रित की गई बड़ी मात्रा में जानकारी को संभालने में सक्षम होगी। भंडारण स्थान की परिशुद्ध मात्रा अज्ञात है, लेकिन हाल के सूत्रों का दावा है कि यह कुछ एक्साबाइट्स के क्रम पर होगा।  इसने एकत्र किए गए डेटा की अज्ञातता के संबंध में सुरक्षा समस्याओ को उत्पन्न किया है।

रीटेल (खुदरा)

 * वॉल-मार्ट हर घंटे 1 मिलियन से अधिक ग्राहक लेनदेन संभालता है, जो डेटाबेस में आयात किए जाते हैं, जिसमें 2.5 पेटाबाइट्स (2560 टेराबाइट्स) से अधिक डेटा होने का अनुमान - कांग्रेस के अमेरिकी पुस्तकालय में सभी पुस्तकों में निहित जानकारी के 167 गुना के बराबर है।
 * विंडरमेयर रियल एस्टेट लगभग 100 मिलियन संचालकों से स्थान की जानकारी का उपयोग करता है ताकि नए घर खरीदारों को दिन के विभिन्न समयों में काम करने के लिए और उनके विशिष्ट ड्राइव समय का निर्धारण करने में सहायता मिल सके।
 * एफआईसीओ कार्ड पहचान प्रणाली विश्व में खातों की सुरक्षा करता है।

विज्ञान

 * बड़े हैड्रान कोलाइडर प्रयोग लगभग 150 मिलियन सेंसर का प्रतिनिधित्व करते हैं जो प्रति सेकंड 40 मिलियन बार डेटा वितरित करते हैं। प्रति सेकंड लगभग 600 मिलियन संघट्‍टन होते हैं। फ़िल्टर करने और 99.99995% से अधिक रिकॉर्ड करने से बचने के बाद इन स्ट्री में प्रति सेकंड लाभ के 1,000 संघट्‍टन होते हैं।
 * परिणामस्वरूप, सेंसर स्ट्रीम डेटा के सिर्फ 0.001% से कम के साथ काम करते हुए, सभी चार एलएचसी प्रयोगों से डेटा संचार प्रतिकृति से पहले 25 पेटाबाइट वार्षिक दर का प्रतिनिधित्व करता है . प्रतिकृति के बाद यह लगभग 200 पेटाबाइट हो जाता है।
 * यदि सभी सेंसर डेटा एलएचसी में प्रकाशित किए गए थे, तो डेटा संचार के साथ काम करना अधिक कठिन होगा। प्रतिकृति से पहले डेटा संचार 150 मिलियन पेटाबाइट वार्षिक दर, या लगभग 500 एक्साबाइट प्रति दिन से अधिक होगा। संख्या को परिप्रेक्ष्य में रखने के लिए, यह 500 क्विंटिलियन (5×1020) प्रति दिन बाइट्स, विश्व में संयुक्त सभी अन्य स्रोतों की तुलना में लगभग 200 गुना अधिक है।
 * वर्ग किलोमीटर सरणी एक रेडियो टेलीस्कोप है जो हजारों एंटेना से बना है। इसके 2024 तक सक्रिय होने की उपेक्षा है। सामूहिक रूप से, इन एंटेना के 14 एक्साबाइट एकत्र करने और प्रति दिन एक पेटाबाइट संग्रह करने की उपेक्षा है। इसे अब तक की गई सबसे महत्वाकांक्षी वैज्ञानिक परियोजनाओं में से एक माना जाता है।
 * जब स्लोन डिजिटल आकाशीय सर्वेक्षण (एसडीएसएस) ने 2000 में खगोलीय डेटा एकत्र करना प्रारंभ किया, तो इसने पहले कुछ सप्ताह में खगोल विज्ञान के इतिहास में एकत्र किए गए सभी डेटा की तुलना में अधिक एकत्र किया। लगभग 200 GB प्रति रात की दर से जारी रखते हुए, स्लोन डिजिटल आकाशीय सर्वेक्षण ने 140 टेराबाइट से अधिक जानकारी एकत्र की है। जब स्लोन डिजिटल आकाशीय सर्वेक्षण का अधिकारक बड़े सामयिक सर्वेक्षण टेलीस्कोप, 2020 में ऑनलाइन आता है, तो इसके डिजाइनरों को उपेक्षा है कि यह हर पांच दिनों में उस डेटा की मात्रा प्राप्त कर लेगा।
 * मानव जीनोम परियोजना को मूल रूप से संसाधित होने में 10 वर्ष लगे; वर्तमान मे इसे एक दिन से भी कम समय में प्राप्त किया जा सकता है। डीएनए अनुक्रमकों ने पिछले दस वर्षों में अनुक्रमण कीमत को 10,000 से विभाजित किया है, जो मूर के नियम द्वारा अनुमानित कीमत में कमी से 100 गुना सस्ता है।
 * जलवायु सिमुलेशन के लिए नासा केंद्र (एनसीसीएस) सुपरकंप्यूटिंग क्लस्टर के अन्वेषण पर 32 पेटाबाइट्स जलवायु अवलोकन और सिमुलेशन संग्रह करता है।
 * गूगल का डीएनएस्टैक रोगों और अन्य चिकित्सा दोषों की पहचान करने के लिए विश्व से आनुवंशिक डेटा के डीएनए नमूनों को संकलित और व्यवस्थित करता है। ये तेज़ और परिशुद्ध गणना किसी भी घर्षण बिंदु या मानवीय त्रुटियों को समाप्त करती हैं जो डीएनए के साथ काम करने वाले कई विज्ञान और जीव विज्ञान विशेषज्ञों में से एक द्वारा की जा सकती हैं। डीएनएस्टैक, गूगल जीनोमिक्स का एक भाग, वैज्ञानिकों को गूगल के जांच सर्वर से संसाधनों के विशाल नमूने का उपयोग करने की स्वीकृति देता है ताकि सामाजिक प्रयोगों को मापन किया जा सके जिसमें सामान्य रूप से वर्षों लग जाते हैं।
 * 23एंडमी डीएनए डेटाबेस में विश्व में 1,000,000 से अधिक लोगों की आनुवंशिक जानकारी सम्मिलित है। यदि रोगी अपनी सहमति देते हैं तो कंपनी अनुसंधान उद्देश्यों के लिए अन्य शोधकर्ताओं और दवा कंपनियों को अज्ञात एकत्रित आनुवंशिक डेटा बेचने की जांच करती है।   ड्यूक विश्वविद्यालय में मनोविज्ञान और तंत्रिका विज्ञान के प्रोफेसर अहमद हरीरी, जो 2009 से अपने शोध में 23एंडमी का उपयोग कर रहे हैं, कहते हैं कि कंपनी की नई सेवा का सबसे महत्वपूर्ण स्वरूप यह है कि यह आनुवंशिक अनुसंधान को वैज्ञानिकों के लिए सक्षम और अपेक्षाकृत आसान बनाती है। एक अध्ययन जिसने 23एंडमी के डेटाबेस में अवसाद से जुड़ी 15 जीनोम साइटों की पहचान की, पेपर के प्रकाशन के बाद दो सप्ताह में अवसाद डेटा तक पहुंचने के लिए लगभग 20 अनुरोधों के साथ 23एंडमी क्षेत्रों के साथ भंडार तक पहुंचने की मांग में वृद्धि हुई।
 * कम्प्यूटेशनल द्रव गतिकी (सीएफडी) और द्रवगतिकीय विक्षोभ अनुसंधान बड़े पैमाने पर डेटा सेट उत्पन्न करते हैं। जॉन्स हॉपकिन्स टर्बुलेंस डेटाबेस (जेएचटीडीबी) में विभिन्न विक्षोभ संचार के प्रत्यक्ष संख्यात्मक सिमुलेशन से 350 से अधिक टेराबाइट्स स्थानकालिक क्षेत्र सम्मिलित हैं। समतल सिमुलेशन आउटपुट फ़ाइलों को डाउनलोड करने जैसे पारंपरिक तरीकों का उपयोग करके इस तरह के डेटा को साझा करना कठिन हो गया है। जेएचटीडीबी के अंदर डेटा को विभिन्न अभिगम्य मोड के साथ वर्चुअल सेंसर का उपयोग करके अभिगम्य किया जा सकता है, जिसमें प्रत्यक्ष वेब-ब्राउज़र प्रश्न, मैटलैब, पायथन, फोरट्रान और ग्राहकों के प्लेटफॉर्म पर निष्पादित C प्रोग्राम के माध्यम से अभिगम्य, असंसाधित डेटा को डाउनलोड करने के लिए सेवाओं को कम करना सम्मिलित है। डेटा का उपयोग 150 से अधिक वैज्ञानिक प्रकाशनों में किया गया है।

खेल
स्पोर्ट सेंसर का उपयोग करके प्रतियोगियों को प्रशिक्षण और समझने में संशोधन करने के लिए बिग डेटा का उपयोग किया जा सकता है। बिग डेटा विश्लेषिकी का उपयोग करके मैच में विजेताओं की भविष्यवाणी करना भी संभव है। खिलाड़ियों के भविष्य के प्रदर्शन की भी भविष्यवाणी की जा सकती है। इस प्रकार, खिलाड़ियों का मूल्य और वेतन पूरे सीज़न में एकत्र किए गए डेटा द्वारा निर्धारित किया जाता है।

सूत्रों के एक प्रभेद में, सैकड़ों सेंसर वाली रेस कारें टेराबाइट डेटा उत्पन्न करती हैं। ये सेंसर टायर दबाव से लेकर ईंधन जलाने की दक्षता तक के डेटा विंदु एकत्रित करते हैं। डेटा के आधार पर, इंजीनियर और डेटा विश्लेषक निर्धारित करते हैं कि रेस (दौड़) जीतने के लिए समायोजन किया जाना चाहिए या नहीं किया जाना चाहिए। इसके अतिरिक्त, बिग डेटा का उपयोग करते हुए, रेस टीमें सीज़न में एकत्र किए गए डेटा का उपयोग करके सिमुलेशन के आधार पर रेस को पहले ही पूरा करने की भविष्यवाणी करने का प्रयास करती हैं।

प्रौद्योगिकी

 * eBay.com 7.5 पेटाबाइट्स और 40पेटाबाइट्स पर दो डेटा वेयरहाउस (भंडार) के साथ-साथ जांच, उपभोक्ता अनुशंसाओं और बिक्री के लिए 40पेटाबाइट्स हडूप क्लस्टर का उपयोग करता है।
 * Amazon.com हर दिन लाखों बैक-एंड संचालन को नियंत्रण करता है, साथ ही आधे मिलियन से अधिक तृतीय-पक्ष विक्रेता के प्रश्नों को भी नियंत्रण करता है। मुख्य तकनीक जो अमेज़न को सक्रिय रखती है वह लिनक्स आधारित है और 2005 तक, उनके पास 7.8 TB, 18.5 TB, और 24.7 TB की क्षमता वाले विश्व के तीन सबसे बड़े लिनक्स डेटाबेस थे।
 * फेसबुक अपने उपयोगकर्ता आधार से 50 अरब तस्वीरें प्रबंधित करता है। जून 2017 तक, फेसबुक 2 अरब मासिक सक्रिय उपयोगकर्ताओं तक पहुंच गया।
 * अगस्त 2012 तक Google प्रति माह लगभग 100 अरब खोजों को प्रबंधित कर रहा था।

कोविड-19
कोविड-19 महामारी के समय, बीमारी के प्रभाव को कम करने के तरीके के रूप में बिग डेटा स्थापित किया गया था। बिग डेटा के महत्वपूर्ण एप्लिकेशन में वायरस के प्रसार को कम करना, स्थिति की पहचान और चिकित्सा उपचार का विकास सम्मिलित है।

प्रसार को कम करने के लिए सरकारों ने संक्रमित लोगों को पता करने के लिए बिग डेटा का उपयोग किया। प्रारम्भिक स्वीकृत करने वालों में चीन, ताइवान, दक्षिण कोरिया और इज़राइल सम्मिलित थे।

अनुसंधान गतिविधियां
अमेरिकन सोसायटी ऑफ इंजीनियरिंग एजुकेशन में मार्च 2014 में बिग डेटा में एन्क्रिप्टेड जांच और क्लस्टर गठन का प्रदर्शन किया गया था। एमआईटी कंप्यूटर विज्ञान और कृत्रिम इंटेलिजेंस प्रयोगशाला द्वारा बिग डेटा की चुनौतियों के प्रबंधन में लगे गौतम सिवाच और यूएनएच अनुसंधान ग्रुप में आमिर एस्मेलपोर ने क्लस्टर्स के गठन और उनके अन्तः संबंध के रूप में बिग डेटा की प्रमुख विशेषताओं की जांच की। उन्होंने बिग डेटा की सुरक्षा पर ध्यान केंद्रित किया और प्रौद्योगिकी के अंदर अपरिष्कृत परिभाषाएं और वास्तविक समय के उदाहरण प्रदान करके क्लाउड इंटरफ़ेस पर एन्क्रिप्टेड रूप में विभिन्न प्रकार के डेटा की उपस्थिति की ओर उन्मुखीकरण किया। इसके अतिरिक्त, उन्होंने बिग डेटा में सुरक्षा संवर्द्धन के लिए अग्रणी एन्क्रिप्टेड टेक्स्ट पर एक त्वरित जांच की दिशा में आगे बढ़ने के लिए एन्कोडिंग तकनीक की पहचान करने के लिए एक दृष्टिकोण प्रस्तावित किया।

मार्च 2012 में, व्हाइट हाउस ने एक राष्ट्रीय बिग डेटा प्रस्ताव की घोषणा की, जिसमें छह संघीय विभाग और संस्थाएं ​​सम्मिलित थीं, जो बिग डेटा अनुसंधान परियोजनाओं के लिए $200 मिलियन से अधिक की प्रतिबद्धता प्रकाशित करती हैं।

इस प्रस्ताव में कैलिफोर्निया विश्वविद्यालय, बर्कले में एएमपीलैब को राष्ट्रीय विज्ञान संस्था "कम्प्यूटिंग में अभियान" के अंतर्गत पांच वर्षों में $10 मिलियन का अनुदान सम्मिलित था। एएमपीलैब को रक्षा उन्नत अनुसंधान परियोजना संस्था, और एक दर्जन से अधिक औद्योगिक प्रायोजकों से भी वित्त प्राप्त हुआ है और ट्रैफ़िक संकुलन की भविष्यवाणी करने से लेकर कैंसर से लड़ने तक की समस्याओं की एक विस्तृत श्रृंखला पर आक्षेप करने के लिए किया।

व्हाइट हाउस बिग डेटा प्रस्ताव में मापनी डेटा प्रबंधन, विश्लेषण और आभासीकरण (एसडीएवी) संस्थान की स्थापना के लिए पाँच वर्षों में $25 मिलियन का वित्त पोषण प्रदान करने के लिए ऊर्जा विभाग द्वारा प्रतिबद्धता भी सम्मिलित है। ऊर्जा विभाग के लॉरेंस बर्कले राष्ट्रीय प्रयोगशाला के नेतृत्व में एसडीएवी संस्थान का लक्ष्य छह राष्ट्रीय प्रयोगशालाओं और सात विश्वविद्यालयों की विशेषज्ञता को एक साथ लाना है ताकि वैज्ञानिकों को विभाग के सुपर कंप्यूटरों पर डेटा का प्रबंधन और कल्पना करने में सहायता करने के लिए नए उपकरण विकसित किए जा सकें।

अमेरिकी राज्य मैसाचुसेट्स ने मई 2012 में मैसाचुसेट्स बिग डेटा प्रस्ताव की घोषणा की, जो राज्य सरकार और निजी कंपनियों से विभिन्न शोध संस्थानों को वित्त उपलब्ध कराता है। मैसाचुसेट्स की तकनीकी संस्था एमआईटी कंप्यूटर विज्ञान और कृत्रिम इंटेलिजेंस प्रयोगशाला में बिग डेटा के लिए इंटेल विज्ञान और तकनीक केंद्र को होस्ट करता है, जो सरकार, निगमित और संस्थागत वित्त पोषण और अनुसंधान प्रयासों का संयोजन करता है।

यूरोपीय आयोग बिग डेटा समस्याओ पर चर्चा करने के लिए कंपनियों, शिक्षाविदों और अन्य हितधारकों को सम्मिलित करने के लिए अपने सातवें रूपरेखा प्रोग्राम के माध्यम से दो वर्ष लंबे बिग डेटा सार्वजनिक निजी फोरम को वित्तपोषित कर रहा है। परियोजना का उद्देश्य बड़ी डेटा अर्थव्यवस्था के सफल कार्यान्वयन में यूरोपीय आयोग से सहायक कार्यों को निर्देशित करने के लिए अनुसंधान और नवीनता के संदर्भ में एक योजना को परिभाषित करना है। इस परियोजना के परिणामों का उपयोग होराइजन 2020 के लिए इनपुट के रूप में किया जाएगा, जो अनुसंधान और तकनीकी विकास के लिए उनका अगला रूपरेखा प्रोग्राम है।

ब्रिटिश सरकार ने मार्च 2014 में कंप्यूटर पायनियर और कोड-ब्रेकर के नाम पर एलन ट्यूरिंग संस्थान की स्थापना की घोषणा की, जो बिग डेटा सेट एकत्र करने और विश्लेषण करने के नए तरीकों पर ध्यान केंद्रित करेगा।

वाटरलू स्ट्रैटफ़ोर्ड कैंपस विश्वविद्यालय कैनेडियन मुक्त डेटा अनुभव (कोड) प्रवेश दिवस में, प्रतिभागियों ने प्रदर्शित किया कि कैसे डेटा आभासीकरण का उपयोग करके बिग डेटा सेटों की समझ और समर्थन को बढ़ाया जा सकता है और उनकी कहानी को विश्व तक पहुँचाया जा सकता है।

कम्प्यूटेशनल सामाजिक विज्ञान - कोई भी बिग डेटा धारकों, जैसे कि गूगल और ट्विटर द्वारा प्रदान किए गए एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) का उपयोग सामाजिक और गतिविधि विज्ञान में शोध करने के लिए कर सकता है। प्रायः ये एप्लिकेशन प्रोग्रामिंग इंटरफेस मुफ्त में उपलब्ध कराए जाते हैं। टोबियास प्राइस एट अल गूगल ट्रेंड्स डेटा का उपयोग यह प्रदर्शित करने के लिए किया कि उच्च प्रति व्यक्ति सकल घरेलू उत्पाद (जीडीपी) वाले देशों के इंटरनेट उपयोगकर्ताओं द्वारा पूर्व के बारे में जानकारी की तुलना में भविष्य के बारे में जानकारी खोजने की अधिक संभावना है। निष्कर्ष बताते हैं कि ऑनलाइन गतिविधि और वास्तविक विश्व के आर्थिक संकेतकों के बीच एक संबंध हो सकता है।  अध्ययन के लेखकों ने आने वाले वर्ष (2011) की खोजों की मात्रा के पिछले वर्ष (2009) की खोजों की मात्रा के अनुपात द्वारा बनाए गए गूगल प्रश्नों के लॉग की जांच की, जिसे वे भविष्य उन्मुखीकरण सूचकांक कहते हैं। उन्होंने भविष्य के उन्मुखीकरण सूचकांक की तुलना प्रत्येक देश के प्रति व्यक्ति सकल घरेलू उत्पाद से की, और उन देशों के लिए एक प्रबल प्रवृत्ति पाई, जहां गूगल उपयोगकर्ता भविष्य के बारे में अधिक प्रश्न करने करते हैं ताकि उच्च सकल घरेलू उत्पाद हो।

टोबियास प्रीस और उनके सहयोगियों हेलेन सुसन्नाह मोट और एच. यूजीन स्टेनली ने गूगल ट्रेंड द्वारा प्रदान किए गए जांच मात्रा डेटा के आधार पर ट्रेडिंग योजनाओ का उपयोग करके शेयर मार्केट के लिए ऑनलाइन प्रणेता की पहचान करने के लिए एक विधि के प्रारंभ की। अलग-अलग वित्तीय प्रासंगिकता के 98 शब्दों के लिए गूगल जांच मात्रा का उनका विश्लेषण, वैज्ञानिक रिपोर्ट में प्रकाशित, सुझाव देता है कि वित्तीय रूप से प्रासंगिक जांच शब्दों के लिए जांच मात्रा में वृद्धि वित्तीय विक्रयों में बड़ी हानि से पहले होती है।

बिग डेटा सेट एल्गोरिथम चुनौतियों के साथ आते हैं जो पहले सम्मिलित नहीं थे। इसलिए, कुछ लोगों द्वारा प्रसंस्करण के तरीकों को मूलभूत रूप से परिवर्तित करने की आवश्यकता देखी गई है।

आधुनिक बड़े पैमाने पर डेटा सेट (एमएमडीएस) के लिए एल्गोरिथम पर वर्कशॉप बिग डेटा की एल्गोरिथम चुनौतियों पर चर्चा करने के लिए कंप्यूटर वैज्ञानिकों, सांख्यिकीविदों, गणितज्ञों और डेटा विश्लेषण चिकित्सकों को एक साथ लाती है। बिग डेटा के संबंध में, परिमाण की ऐसी अवधारणाएँ सापेक्ष होती हैं। जैसा कि कहा गया है कि यदि पूर्व किसी मार्गदर्शन का है, तो आज के बड़े आंकड़ों को निकट भविष्य में ऐसा नहीं माना जाएगा।

बिग डेटा नमूनाकरण
बिग डेटा सेट के बारे में पूछा जाने वाला एक शोध प्रश्न यह है कि क्या डेटा के गुणों के बारे में कुछ निष्कर्ष निकालने के लिए पूर्ण डेटा को देखना आवश्यक है या यदि प्रतिदर्श पर्याप्त है। बिग डेटा नाम में ही आकार से संबंधित एक शब्द होता है और यह बिग डेटा की एक महत्वपूर्ण विशेषता है। लेकिन नमूनाकरण (सांख्यिकी) संपूर्ण जनसंख्या की विशेषताओं का अनुमान लगाने के लिए बिग डेटा सेट के अंदर से सही डेटा बिंदुओं के चयन को सक्षम बनाता है। विभिन्न प्रकार के संवेदी डेटा जैसे ध्वनिकी, कंपन, दबाव, करंट, वोल्टेज और नियंत्रक डेटा के निर्माण में कम समय के अंतराल पर उपलब्ध होते हैं। डाउनटाइम की भविष्यवाणी करने के लिए सभी डेटा को देखना आवश्यक नहीं हो सकता है लेकिन एक प्रतिदर्श पर्याप्त हो सकता है। बिग डेटा को विभिन्न डेटा बिंदु श्रेणियों जैसे कि जनसांख्यिकीय, मनोवैज्ञानिक, व्यवहारिक और विनिमय संबंधी डेटा द्वारा नष्ट किया जा सकता है। डेटा बिंदुओं के बड़े सेट के साथ, विपणक अधिक रणनीतिक लक्ष्यीकरण के लिए उपभोक्ताओं के अधिक अनुकूलित भाग बनाने और उपयोग करने में सक्षम हैं।

बिग डेटा के लिए प्रतिदर्शकरण एल्गोरिदम में कुछ काम किया गया है। ट्विटर डेटा के नमूने के लिए एक सैद्धांतिक सूत्रीकरण विकसित किया गया है।

समालोचना
बिग डेटा प्रतिमान की समालोचना दो रूपों में आती है: वे जो स्वयं दृष्टिकोण के निहितार्थ पर सवाल करती हैं, और वे जो वर्तमान में किए जाने वाले तरीके पर सवाल करती हैं। इस समीक्षा का एक दृष्टिकोण महत्वपूर्ण डेटा अध्ययनो का क्षेत्र है।

बिग डेटा प्रतिमान की समीक्षा
एक महत्वपूर्ण समस्या यह है कि हम अंतर्निहित अनुभवजन्य सूक्ष्म-प्रक्रियाओं के बारे में अधिक नहीं जानते हैं जो बिग डेटा की [से] विशिष्ट नेटवर्क विशेषताओं के उद्भव की ओर ले जाती हैं। अपनी समालोचना में, स्निजडर्स, मैटज़ैट, और उल्फ-डिट्रिच रिप्स बताते हैं कि प्रायः गणितीय गुणों के बारे में बहुत प्रबल धारणाएं बनाई जाती हैं जो सूक्ष्म प्रक्रियाओं के स्तर पर वास्तव में क्या हो रहा है, यह प्रतिबिंबित नहीं कर सकता है। मार्क ग्राहम ने क्रिस एंडरसन (लेखक) के इस दावे पर व्यापक समीक्षा की है कि बिग डेटा सिद्धांत के अंत का संकेत देगा: विशेष रूप से इस धारणा पर ध्यान केंद्रित करते हुए कि बिग डेटा को सदैव उनके सामाजिक, आर्थिक और राजनीतिक संदर्भों में प्रासंगिक होना चाहिए। तथापि कंपनियां आपूर्तिकर्ताओं और ग्राहकों से जानकारी स्ट्रीमिंग से अंतर्दृष्टि प्राप्त करने के लिए आठ और नौ अंकों का योग का निवेश करती हैं, लेकिन 40% से कम कर्मचारियों के पास ऐसा करने के लिए पर्याप्त परिपक्व प्रक्रियाएं और सक्षम हैं। हार्वर्ड व्यापार की समीक्षा में एक लेख के अनुसार, इस अंतर्दृष्टि की कमी को दूर करने के लिए, बिग डेटा, चाहे कितना व्यापक या अच्छी तरह से विश्लेषण किया गया हो, बड़े निर्णय से पूरक होना चाहिए।

इसी क्रम में, यह बताया गया है कि बिग डेटा के विश्लेषण के आधार पर निर्णय अनिवार्य रूप से विश्व द्वारा सूचित किए जाते हैं जैसा कि पूर्व में था, या, सबसे अच्छा, जैसा कि वर्तमान में है। पिछले अनुभवों पर बड़ी संख्या में डेटा द्वारा पोषित, एल्गोरिदम भविष्य के विकास की भविष्यवाणी कर सकते हैं यदि भविष्य पूर्व के समान है। यदि सिस्टम की भविष्य की गतिशीलता परिवर्तित हो जाती है (यदि यह एक स्थिर प्रक्रिया नहीं है), तो पूर्व भविष्य के बारे में बहुत कम कह सकता है। बदलते परिवेश में भविष्यवाणियां करने के लिए, गतिशील प्रणालियों की गहन समझ होना आवश्यक होगा, जिसके लिए सिद्धांत की आवश्यकता होती है। इस समालोचना की प्रतिक्रिया के रूप में एलेमनी ओलिवर और वायरे ने उपभोक्ताओं के डिजिटल अंशों के संदर्भ में लाने और नए सिद्धांतों को उभरने के लिए अनुसंधान प्रक्रिया में पहले चरण के रूप में अपघटन का उपयोग करने का सुझाव दिया। इसके अतिरिक्त, कंप्यूटर सिमुलेशन, जैसे एजेंट-आधारित मॉडल और जटिल प्रणालियों के साथ बड़े डेटा दृष्टिकोण को संयोजित करने का सुझाव दिया गया है। कंप्यूटर सिमुलेशन के माध्यम से अज्ञात भविष्य के परिदृश्यों की सामाजिक जटिलताओं के परिणाम की भविष्यवाणी करने में एजेंट-आधारित मॉडल शीघ्रता से अच्छे हो रहे हैं जो पारस्परिक रूप से अन्योन्याश्रित एल्गोरिदम के संग्रह पर आधारित हैं। अंत में, बहुभिन्नरूपी तरीकों का उपयोग जो डेटा की गुप्त संरचना की जांच करता है, जैसे कि कारक विश्लेषण और क्लस्टर विश्लेषण, विश्लेषणात्मक दृष्टिकोण के रूप में उपयोगी प्रमाणित हुए हैं जो द्वि-चर दृष्टिकोणों (जैसे आकस्मिक तालिकाओं) से अधिक जाते हैं जो सामान्य रूप से छोटे डेटा सेट के साथ नियोजित होते हैं।

स्वास्थ्य और जीव विज्ञान में पारंपरिक वैज्ञानिक दृष्टिकोण प्रयोग पर आधारित हैं। इन दृष्टिकोणों के लिए, सीमित कारक प्रासंगिक डेटा है जो प्रारंभिक परिकल्पना की पुष्टि या खंडन कर सकता है। जीवविज्ञान में अब एक नई अभिधारणा स्वीकार की जाती है: पूर्व परिकल्पना के बिना बड़ी मात्रा में डेटा (ओमिक्स ) द्वारा प्रदान की गई जानकारी पूरक है और कभी-कभी प्रयोग के आधार पर पारंपरिक दृष्टिकोणों के लिए आवश्यक है। बड़े पैमाने पर दृष्टिकोण में यह सीमित कारक है जो डेटा की व्याख्या करने के लिए एक प्रासंगिक परिकल्पना का निर्माण है। जांच तर्क को प्रतिवर्त कर दिया गया है और प्रवेश की सीमा (विज्ञान और दर्शनशास्त्र की निन्दा, सी. डी. ब्रॉड, 1926) पर विचार किया जाना है।

उपभोक्ता गोपनीयता अधिवक्ता व्यक्तिगत रूप से पहचान योग्य जानकारी के बढ़ते भंडारण और एकीकरण द्वारा प्रस्तुत गोपनीयता के जोखिम के बारे में चिंतित हैं; विशेषज्ञ पैनल ने गोपनीयता की अपेक्षाओं के अनुरूप अभ्यास करने के लिए विभिन्न नीतिगत सिफारिशें जारी की हैं। मीडिया, कंपनियों और यहां तक ​​कि सरकार द्वारा कई स्थितियों में बिग डेटा के दुरुपयोग ने समाज को धारण करने वाली लगभग हर मूलभूत संस्था में विश्वास को समाप्त करने की स्वीकृति दी है।

नायेफ अल-रोधन का तर्क है कि बिग डेटा और विशाल निगमों के संदर्भ में व्यक्तिगत स्वतंत्रता की रक्षा के लिए एक नए प्रकार के सामाजिक अनुबंध की आवश्यकता होगी, जो कि बड़ी मात्रा में जानकारी रखते हैं, और यह कि बिग डेटा के उपयोग की सर्वेक्षण की जानी चाहिए और इसे राष्ट्रीय और अंतरराष्ट्रीय स्तर पर अधिकतम विनियमित किया जाना चाहिए। बरोकास और निसानबाम का तर्क है कि व्यक्तिगत उपयोगकर्ताओं की सुरक्षा का एक तरीका यह है कि किस प्रकार की जानकारी एकत्र की जा रही है, किसके साथ इसे साझा किया जाता है, किन बाधाओं के अंतर्गत और किन उद्देश्यों के लिए सूचित किया जाता है।

वी मॉडल की समीक्षा
बिग डेटा का वी मॉडल संबंधित है क्योंकि यह कम्प्यूटेशनल विस्‍तार क्षमता के आसपास केंद्रित है और सूचना की धारणा और समझ के आसपास हानि की कमी है। इसने संज्ञानात्मक बिग डेटा के रूपरेखा को उत्पन्न किया, जो बिग डेटा एप्लिकेशन की विशेषता है:
 * डेटा पूर्णता: डेटा से गैर-स्पष्ट की समझ
 * डेटा सहसंबंध, कार्य-कारण और पूर्वानुमेयता: पूर्वानुमेयता प्राप्त करने के लिए कार्य-कारण (कॉसलिटी) आवश्यकता नहीं है
 * स्पष्टीकरण और व्याख्यात्मकता: मनुष्य जो कुछ भी समझते हैं उसे समझने और स्वीकार करने की इच्छा रखते हैं, जहां एल्गोरिदम इसका सामना नहीं कर पाते हैं
 * स्वचालित निर्णय लेने का स्तर: एल्गोरिदम जो स्वचालित निर्णय लेने और एल्गोरिथम स्व-शिक्षण का समर्थन करते हैं

नवीनता की समीक्षा
शताब्दी से भी अधिक समय से कंप्यूटिंग मशीनों द्वारा बिग डेटा सेट का विश्लेषण किया गया है, जिसमें अंतरराष्ट्रीय व्यवसाय मशीन की पंच-कार्ड मशीनों द्वारा किए गए अमेरिकी जनगणना विश्लेषण सम्मिलित हैं, जो पूरे महाद्वीप में आबादी के साधनों और भिन्नताओं सहित आँकड़ों की गणना करते हैं। हाल के दशकों में, सीईआरएन जैसे विज्ञान प्रयोगों ने वर्तमान व्यवसायिक बिग डेटा के समान पैमाने पर डेटा का उत्पादन किया है। हालांकि, विज्ञान के प्रयोगों ने अपने डेटा का विश्लेषण करने के लिए विशिष्ट कस्टम-निर्मित उच्च-प्रदर्शन कंप्यूटिंग (सुपर-कंप्यूटिंग) क्लस्टर और ग्रिड का उपयोग किया है, अतिरिक्त वर्तमान व्यवसायिक संचार के रूप में सस्ते कमोडिटी कंप्यूटर के क्लाउड के अतिरिक्त, संस्कृति और प्रौद्योगिकी विस्तार दोनों में अंतर को दर्शाता है।

बिग डेटा कार्यान्वयन की समीक्षा
उल्फ-डाइट्रिच रिप्स और उवे मातज़त ने 2014 में लिखा था कि वैज्ञानिक अनुसंधान में बिग डेटा एक सनक बन गया था। शोधकर्ता दानह बॉयड ने विज्ञान में बिग डेटा के उपयोग के बारे में चिंता व्यक्त की है, जैसे डेटा की भारी मात्रा को संभालने के लिए बहुत अधिक चिंतित होने के कारण नमूनाकरण (सांख्यिकी) चयन करने जैसे सिद्धांतों की उपेक्षा करना। यह दृष्टिकोण उन परिणामों को उत्पन्न कर सकता है जिनमें एक या दूसरे तरीके से एक पूर्वाग्रह (सांख्यिकी) है। विषम डेटा संसाधनों में एकीकरण - कुछ जिन्हें बिग डेटा माना जा सकता है और अन्य नहीं - दुर्जेय तार्किक और साथ ही विश्लेषणात्मक चुनौतियों को प्रस्तुत करते हैं, लेकिन कई शोधकर्ताओं का तर्क है कि इस तरह के एकीकरण विज्ञान में सबसे आशाजनक नई सीमाओं का प्रतिनिधित्व करने की संभावना है। आकर्षक लेख में बिग डेटा के लिए महत्वपूर्ण प्रश्न, लेखक बिग डेटा को पौराणिक कथाओं का एक हिस्सा कहते हैं: बिग डेटा सेट सच्चाई, निष्पक्षता और परिशुद्धता की आभा के साथ बुद्धि और ज्ञान [...] का एक उच्च रूप प्रदान करते हैं। बिग डेटा के उपयोगकर्ता प्रायः संख्याओं की विशाल मात्रा में नष्ट हो जाते हैं, और बिग डेटा के साथ काम करना अभी भी व्यक्तिपरक है, और यह जो परिमाणित करता है, वह अनिवार्य रूप से वस्तुगत सत्य पर एक निकटतम दावा नहीं करता है। बीआई डोमेन में हाल के विकास, जैसे कि सक्रिय रिपोर्टिंग विशेष रूप से बिग डेटा की उपयोगिता में संशोधन को प्रयोजन करती है, बड़ी संरचनाएं अनुकरण सहसंबंधों से भरी होती हैं या तो गैर-कारण संयोग (वास्तव में बड़ी संख्या का नियम), बड़ी यादृच्छिकता की प्रकृति (रामसे सिद्धांत), या गैर-सम्मिलित कारकों के स्थिति के कारण संख्या के बड़े डेटाबेस बनाने के प्रारम्भिक प्रयोगकर्ताओं ने "स्वयं के लिए बोलते हैं" और वैज्ञानिक पद्धति में क्रांतिकारी परिवर्तन किया, इस पर सवाल किया गया है। कैथरीन टकर ने बिग डेटा के प्रतिवेश प्रचार करने की ओर संकेत किया है, लिखते हुए, बिग डेटा मान होने की संभावना नहीं है। लेख समझाता है: कई संदर्भ जहां डेटा इसे संसाधित करने के लिए प्रतिभा को बनाए रखने की कीमत के सापेक्ष सस्ता है, यह सुझाव देता है कि एक स्थिर के लिए मूल्य बनाने में डेटा की तुलना में प्रसंस्करण कुशलता अधिक महत्वपूर्ण हैं।

छोटे डेटा सेट के विश्लेषण की तुलना में बिग डेटा विश्लेषण प्रायः उथला होता है। कई बड़ी डेटा परियोजनाओं में, कोई बिग डेटा विश्लेषण नहीं हो रहा है, लेकिन चुनौती डेटा पूर्व-प्रसंस्करण के हिस्से को निकालना, परिवर्तित करना, लोड करना है।

बिग डेटा एक प्रचलित शब्द और एक अस्पष्ट शब्द है, लेकिन साथ ही एक मनोग्रस्ति उद्यमियों, सलाहकारों, वैज्ञानिकों और मीडिया के साथ बिग डेटा प्रदर्शन जैसे कि गूगल फ़्लू ट्रेंड हाल के वर्षों में अच्छी भविष्यवाणियां देने में विफल रहा, फ़्लू के प्रकोप को दो गुना बढ़ा दिया। इसी तरह, ट्विटर पर आधारित अकादमी पुरस्कार और भविष्यवाणियां प्रायः लक्ष्य से अधिक दूर थीं। बिग डेटा प्रायः छोटे डेटा के समान ही चुनौतियाँ प्रस्तुत करता है; अधिक डेटा जोड़ने से पक्षपात की समस्या का समाधान नहीं होता है, लेकिन अन्य समस्याओं पर जोर दिया जा सकता है। विशेष रूप से डेटा स्रोत जैसे कि ट्विटर समग्र जनसंख्या का प्रतिनिधित्व नहीं करते हैं, और ऐसे स्रोतों से निकाले गए परिणाम गलत निष्कर्ष निकाल सकते हैं। गूगल अनुवाद—जो टेक्स्ट के बिग डेटा सांख्यिकीय विश्लेषण पर आधारित है—वेब पेजों के अनुवाद में अच्छा काम करता है। हालाँकि, विशिष्ट प्रक्षेत्र से परिणाम प्रभावशाली तरीके से विषम हो सकते हैं। दूसरी ओर, बिग डेटा नई समस्याओं को भी प्रस्तुत कर सकता है, जैसे कि कई तुलनाओं की समस्या: एक साथ परिकल्पनाओं के एक बड़े सेट का परीक्षण करने से कई गलत परिणाम उत्पन्न होने की संभावना है जो गलती से महत्वपूर्ण दिखाई देते हैं। आयोनिडिस ने तर्क दिया कि अधिकांश प्रकाशित शोध निष्कर्ष असत्य हैं अनिवार्य रूप से एक ही प्रभाव के कारण: जब कई वैज्ञानिक समूह और शोधकर्ता प्रत्येक कई प्रयोग करते हैं (अर्थात बड़ी मात्रा में वैज्ञानिक डेटा को संसाधित करते हैं; हालांकि बड़ी डेटा तकनीक के साथ नहीं), एक महत्वपूर्ण परिणाम के गलत होने की संभावना शीघ्रता से बढ़ती है - इससे भी अधिक, जब सिर्फ सकारात्मक परिणाम प्रकाशित होते हैं।

इसके अतिरिक्त, बिग डेटा विश्लेषिकी के परिणाम सिर्फ उतने ही अच्छे होते हैं जितने मॉडल पर वे समर्पित होते हैं। एक उदाहरण में, बिग डेटा ने 2016 के अमेरिकी राष्ट्रपति निर्वाचन के के परिणामों की अलग-अलग सफलता के साथ भविष्यवाणी करने के प्रयास में भाग लिया।

बिग डेटा पुलिसिंग और सर्वेक्षण की समीक्षा
संयुक्त राज्य अमेरिका में कानून प्रवर्तन और निगमों जैसी संस्थाओं द्वारा पुलिसिंग (पुलिसव्यवस्था) और सर्विलांस (सर्वेक्षण) में बिग डेटा का उपयोग किया गया है। पुलिसिंग के पारंपरिक तरीकों की तुलना में डेटा-आधारित सर्वेक्षण की प्रकृति कम दिखाई देने के कारण, बिग डेटा पुलिसिंग पर आपत्तियां उत्पन्न होने की संभावना कम होती है। सारा ब्रायन की बिग डेटा सर्वेक्षण: पुलिसिंग स्थिति के अनुसार, बिग डेटा पुलिसिंग सम्मिलित सामाजिक असमानता को तीन तरीकों से पुन: प्रस्तुत कर सकती है:


 * एक गणितीय और इसलिए निष्पक्ष एल्गोरिथम के समर्थन का उपयोग करके लोगों को अधिक सुरक्षा में रखना
 * उन लोगों के क्षेत्र और संख्या में वृद्धि करना जो कानून प्रवर्तन अनुसरण के अधीन हैं और संयुक्त राज्य अमेरिका की आपराधिक न्याय प्रणाली में सम्मिलित नस्लीय अतिप्रतिनिधित्व को बढ़ा रहे हैं
 * समाज के सदस्यों को उन संस्थानों के साथ परस्पर क्रिया छोड़ने के लिए प्रोत्साहित करना जो एक डिजिटल अनुरेख बनाते हैं, इस प्रकार सामाजिक समावेशन में बाधाएं उत्पन्न करते हैं

यदि इन संभावित समस्याओं को सही या विनियमित नहीं किया जाता है, तो बिग डेटा पुलिसिंग के प्रभाव सामाजिक वर्गीकरण को आकार देना निरंतर रख सकते हैं। बिग डेटा पुलिसिंग के अंतर्विवेकशील उपयोग से व्यक्तिगत स्तर के पक्षपात को संस्थागत पक्षपात बनने से रोका जा सकता है, अतः ब्राएन भी टिप्पणी करते हैं।

यह भी देखें
कंपनियों और उपकरणों की सूची के लिए, यह भी देखें: श्रेणी:बिग डेटा • बिग डेटा नैतिकता

• बिग डेटा परिपक्वता मॉडल

• बिग मेमोरी

• डेटा क्यूरेशन

• डेटा परिभाषित संग्रहण

• डेटा अभियांत्रिकी

• डाटा वंशावली

• डेटा फिलैंथ्रॉपी

• डेटा विज्ञान

• डेटाकरण

• दस्तावेज़-उन्मुख डेटाबेस

• बिग डेटा कंपनियों की सूची

• बहुत बड़ा डेटाबेस

• एक्सएलडीबी