बिग डेटा

बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डाटा प्रासेसिंग | डेटा-प्रोसेसिंग अनुप्रयोग प्रक्रिया सामग्री द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय शक्ति प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च झूठी खोज दर का कारण बन सकते हैं। हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं। बड़ी डेटा विश्लेषण चुनौतियों में स्वचालित पहचान और डेटा कैप्चर, कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, डेटा ट्रांसमिशन, डेटा विज़ुअलाइज़ेशन, क्वेरी भाषा, अद्यतन, सूचना गोपनीयता और डेटा स्रोत शामिल हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग। बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की अनुमति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है। बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, उपयोगकर्ता व्यवहार विश्लेषण, या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से डेटा मूल्यांकन निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है। डेटा सेट के विश्लेषण से व्यापार के रुझान को पहचानने, बीमारियों को रोकने, अपराध से निपटने आदि के लिए नए सहसंबंध मिल सकते हैं। वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकारी डेटाबेस नियमित रूप से वेब सर्च इंजन, फिनटेक, हेल्थकेयर एनालिटिक्स, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में बड़े डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिक मौसम विज्ञान, जीनोमिक्स, सहित ई-विज्ञान कार्य में सीमाओं का सामना करते हैं। संयोजी, जटिल भौतिकी सिमुलेशन, जीव विज्ञान और पर्यावरण अनुसंधान। उपलब्ध डेटा सेट का आकार और संख्या तेजी से बढ़ी है क्योंकि डेटा मोबाइल डिवाइस, सस्ते और कई सूचना-संवेदी चीजों की इंटरनेट डिवाइस, एरियल (रिमोट सेंसिंग), सॉफ्टवेयर लॉग, डिजिटल कैमरा, माइक्रोफोन, रेडियो-फ्रीक्वेंसी जैसे उपकरणों द्वारा एकत्र किया जाता है। पहचान (आरएफआईडी) पाठक और वायरलेस सेंसर नेटवर्क। 1980 के दशक के बाद से दुनिया की तकनीकी प्रति व्यक्ति सूचना भंडारण की क्षमता लगभग हर 40 महीने में दोगुनी हो गई है;, प्रतिदिन 2.5 एक्साबाइट (2.5×260 बाइट) डेटा उत्पन्न होता है। अंतर्राष्ट्रीय डेटा निगम की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा वॉल्यूम 2013 और 2020 के बीच 4.4 zettabyte से 44 ज़ेटाबाइट्स तक तेजी से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, आईडीसी भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे। आईडीसी के अनुसार, बिग डेटा और बिजनेस एनालिटिक्स (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।   राजनेता  की रिपोर्ट के अनुसार, वैश्विक बड़ा डेटा बाजार 2027 तक बढ़कर 103 अरब डॉलर तक पहुंचने का अनुमान है। 2011 में मैकिन्से एंड कंपनी ने बताया, अगर अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को चलाने के लिए बड़े डेटा का रचनात्मक और प्रभावी ढंग से उपयोग करती है, तो यह क्षेत्र हर साल $300 बिलियन से अधिक का मूल्य बना सकता है। यूरोप की विकसित अर्थव्यवस्थाओं में, बड़े डेटा का उपयोग करके अकेले परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं। और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं। बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा पहलों का स्वामी कौन होना चाहिए। संबंधपरक डेटाबेस प्रबंधन प्रणाली और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में अक्सर बड़े डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बड़े डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर समानांतर सॉफ़्टवेयर चलाने की आवश्यकता हो सकती है। बड़े डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अलावा, क्षमताओं का विस्तार बड़े डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।

परिभाषा
बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय जनवरी मास को दिया है। बड़े डेटा में आम तौर पर डेटा अधिग्रहण, डेटा क्यूरेशन, प्रबंधन और डेटा को सहन करने योग्य समय के भीतर संसाधित करने के लिए आमतौर पर उपयोग किए जाने वाले सॉफ़्टवेयर टूल की क्षमता से परे आकार वाले डेटा सेट शामिल होते हैं। बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा शामिल हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है। बड़ा डेटा आकार एक सतत गतिमान लक्ष्य है; कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स तक। डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बड़े डेटा को डेटा एकीकरण के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं। कुछ संगठनों द्वारा इसका वर्णन करने के लिए विविधता, सत्यता और कई अन्य बनाम जोड़े जाते हैं, कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई एक संशोधन। बड़े डेटा के Vs को अक्सर तीन Vs, चार Vs और पाँच Vs के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, वेग, सत्यता और मूल्य में बड़े डेटा के गुणों का प्रतिनिधित्व करते हैं। परिवर्तनशीलता को अक्सर बड़े डेटा की अतिरिक्त गुणवत्ता के रूप में शामिल किया जाता है।

2018 की परिभाषा में कहा गया है कि बिग डेटा वह है जहां डेटा और नोट्स को संभालने के लिए समानांतर कंप्यूटिंग टूल की आवश्यकता होती है, यह समानांतर प्रोग्रामिंग सिद्धांतों के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक विशिष्ट और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है, और कुछ गारंटी और क्षमताओं का नुकसान होता है। संबंधपरक डेटाबेस | Codd का संबंधपरक मॉडल। बड़े डेटासेट के एक तुलनात्मक अध्ययन में, रोब किचिन और मैकआर्डल ने पाया कि बड़े डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी मामलों में लगातार दिखाई नहीं देता है। इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की खोज में शक्ति गतिकी की पुनर्परिभाषा की पहचान की। बड़े डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के बजाय, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है।

बिग डेटा बनाम व्यापारिक सूचना
अवधारणा की बढ़ती परिपक्वता बड़े डेटा और व्यावसायिक बुद्धिमत्ता के बीच के अंतर को और अधिक स्पष्ट रूप से चित्रित करती है:
 * व्यापार खुफिया चीजों को मापने, प्रवृत्तियों का पता लगाने आदि के लिए उच्च सूचना घनत्व वाले डेटा के साथ लागू गणित उपकरण और वर्णनात्मक आंकड़ों का उपयोग करता है।
 * बड़ा डेटा गणितीय विश्लेषण, अनुकूलन, आगमनात्मक सांख्यिकी और गैर-रैखिक प्रणाली पहचान से अवधारणाओं का उपयोग करता है कम सूचना घनत्व वाले डेटा के बड़े सेट से कानून (प्रतिगमन, गैर-रैखिक संबंध और कारण प्रभाव) का अनुमान लगाने के लिए संबंधों और निर्भरताओं को प्रकट करने के लिए, या परिणामों और व्यवहारों की भविष्यवाणी करने के लिए।

विशेषताएं
बड़े डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:


 * आयतन: उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बड़ा डेटा माना जा सकता है या नहीं। बड़े डेटा का आकार आमतौर पर टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।
 * विविधता: डेटा का प्रकार और प्रकृति। RDBMSs जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी ढंग से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने मौजूदा उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (वेग), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को पकड़ने, संग्रहीत करने और संसाधित करने के मुख्य इरादे से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए बेहतर था। आखिरकार, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बड़े डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में मदद करता है। बड़ा डेटा पाठ, छवियों, ऑडियो, वीडियो से आकर्षित होता है; साथ ही यह डेटा फ्यूजन के माध्यम से लापता टुकड़ों को पूरा करता है।

सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है। बड़ा डेटा न केवल आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। कैप्चर किए गए डेटा की डेटा गुणवत्ता एक सटीक विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।
 * वेग: वह गति जिस पर विकास और विकास के मार्ग में आने वाली मांगों और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बड़ा डेटा अक्सर वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बड़ा डेटा अधिक लगातार उत्पन्न होता है। बड़े डेटा से संबंधित दो प्रकार के वेग पीढ़ी की आवृत्ति और हैंडलिंग, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।
 * मूल्य: सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बड़े डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है। मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बड़े डेटा के विश्लेषण से प्राप्त किया गया है।


 * परिवर्तनशीलता: बड़े डेटा के बदलते प्रारूप, संरचना या स्रोतों की विशेषता। बड़े डेटा में संरचित, असंरचित, या संरचित और असंरचित डेटा का संयोजन शामिल हो सकता है। बिग डेटा विश्लेषण कई स्रोतों से कच्चे डेटा को एकीकृत कर सकता है। कच्चे डेटा के प्रसंस्करण में असंरचित डेटा को संरचित डेटा में बदलना भी शामिल हो सकता है।

बड़े डेटा की अन्य संभावित विशेषताएं हैं: संपूर्ण: क्या संपूर्ण प्रणाली (अर्थात, $n$ =all) कैप्चर या रिकॉर्ड किया गया है या नहीं। बड़े डेटा में स्रोतों से उपलब्ध सभी डेटा शामिल हो सकते हैं या नहीं भी हो सकते हैं।


 * फाइन-ग्रेन्ड और यूनीक लेक्सिकल: क्रमशः, एकत्र किए गए प्रत्येक तत्व के विशिष्ट डेटा का अनुपात और यदि तत्व और इसकी विशेषताओं को ठीक से अनुक्रमित या पहचाना जाता है।


 * संबंधपरक: यदि एकत्र किए गए डेटा में सामान्य फ़ील्ड हैं जो विभिन्न डेटा सेटों के संयोजन, या मेटा-विश्लेषण को सक्षम करेगा।


 * विस्तृत: यदि एकत्र किए गए डेटा के प्रत्येक तत्व में नए फ़ील्ड आसानी से जोड़े या बदले जा सकते हैं।


 * स्केलेबिलिटी: यदि बड़े डेटा स्टोरेज सिस्टम का आकार तेजी से विस्तार कर सकता है।

आर्किटेक्चर
बड़े डेटा रिपॉजिटरी कई रूपों में मौजूद हैं, जिन्हें अक्सर निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। वाणिज्यिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बड़े डेटा के लिए समानांतर डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।

Teradata Corporation ने 1984 में समानांतर प्रसंस्करण DBC 1012 प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को स्टोर और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बड़े डेटा की परिभाषा लगातार विकसित होती है। टेराडाटा ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया।, कुछ दर्जन पेटाबाइट क्लास टेराडाटा रिलेशनल डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, Teradata ने XML, JSON, और Avro सहित असंरचित डेटा प्रकारों को जोड़ा है।

2000 में, सीसिंट इंक. (अब लेक्सिसनेक्सिस रिस्क सॉल्यूशंस) ने एचपीसीसी सिस्टम्स प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और पूछताछ के लिए एक सी ++ -आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटाफ्लो प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके बजाय वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, LexisNexis ने Seisint Inc. का अधिग्रहण किया। और उनके हाई-स्पीड पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया। 2011 में, Apache v2.0 लाइसेंस के तहत HPCC सिस्टम प्लेटफॉर्म ओपन-सोर्स किया गया था।

सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बड़े डेटा सेट एकत्र किए हैं, आमतौर पर वर्तमान बड़े डेटा आंदोलन द्वारा आमतौर पर मानचित्र-कम आर्किटेक्चर के बजाय उच्च-थ्रूपुट कंप्यूटिंग के माध्यम से विश्लेषण किया जाता है।

2004 में, Google ने MapReduce नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान आर्किटेक्चर का उपयोग करता है। MapReduce अवधारणा एक समानांतर प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। MapReduce के साथ, प्रश्नों को विभाजित किया जाता है और समांतर नोड्स में वितरित किया जाता है और समांतर (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और वितरित किए जाते हैं (कम चरण)। ढांचा बहुत सफल रहा, इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, MapReduce ढांचे के कार्यान्वयन को Apache Hadoop नामक एक Apache ओपन-सोर्स प्रोजेक्ट द्वारा अपनाया गया था। Apache Spark को 2012 में MapReduce प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह इन-मेमोरी प्रोसेसिंग और कई ऑपरेशन सेट करने की क्षमता जोड़ता है (न कि केवल मानचित्र को कम करके)।

MIKE2.0 कार्यप्रणाली|MIKE2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा सॉल्यूशन ऑफ़रिंग शीर्षक वाले लेख में पहचाने गए बड़े डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है। कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रमपरिवर्तन, अंतर्संबंधों में जटिलता और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बड़े डेटा को संभालने का समाधान करती है। 2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले मुद्दों को हल करने के लिए एक बहु-परत वास्तुकला एक विकल्प था। फाइल सिस्टम की एक सूची # वितरित समांतर फाइल सिस्टम आर्किटेक्चर कई सर्वरों में डेटा वितरित करता है; ये समानांतर निष्पादन वातावरण डेटा प्रोसेसिंग गति में नाटकीय रूप से सुधार कर सकते हैं। इस प्रकार का आर्किटेक्चर डेटा को एक समानांतर DBMS में सम्मिलित करता है, जो MapReduce और Hadoop फ्रेमवर्क के उपयोग को लागू करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण शक्ति को एंड-यूज़र के लिए पारदर्शी बनाती है। डेटा लेक एक संगठन को सूचना प्रबंधन की बदलती गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की अनुमति देता है। यह डेटा झील में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।

टेक्नोलॉजीज
2011 की मैकिन्से एंड कंपनी की रिपोर्ट बड़े डेटा के मुख्य घटकों और पारिस्थितिकी तंत्र की विशेषता बताती है:
 * डेटा का विश्लेषण करने की तकनीक, जैसे ए/बी टेस्टिंग, यंत्र अधिगम  और प्राकृतिक भाषा प्रसंस्करण
 * बिग डेटा प्रौद्योगिकियां, जैसे बिजनेस इंटेलिजेंस, क्लाउड कम्प्यूटिंग  और डेटाबेस
 * विज़ुअलाइज़ेशन, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले

बहुआयामी बड़े डेटा को OLAP डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी DBMS इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय क्वेरी समर्थन प्रदान करने के लिए निर्धारित किया गया है। बड़े डेटा पर लागू की जा रही अतिरिक्त तकनीकों में कुशल टेन्सर-आधारित संगणना शामिल है, जैसे कि बहुरेखीय उप-अंतरिक्ष अधिगम, बड़े पैमाने पर समानांतर-प्रसंस्करण (विशाल समानांतर प्रसंस्करण) डेटाबेस, खोज-आधारित अनुप्रयोग, डेटा खनन, वितरित फ़ाइल सिस्टम, वितरित कैश (जैसे, फट बफर  और मेमेकैच्ड), वितरित डेटाबेस, क्लाउड कंप्यूटिंग और  सुपर कंप्यूटर  | एचपीसी-आधारित बुनियादी ढाँचा (अनुप्रयोग, भंडारण और कंप्यूटिंग संसाधन), और इंटरनेट। हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बड़े डेटा के साथ मशीन लर्निंग को पूरा करना अभी भी मुश्किल है। कुछ विशाल समांतर प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को स्टोर और प्रबंधित करने की क्षमता होती है। अंतर्निहित आरडीबीएमएस में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।

DARPA का टोपोलॉजिकल डेटा विश्लेषण प्रोग्राम बड़े पैमाने पर डेटा सेट की मूलभूत संरचना की तलाश करता है और 2008 में अयास्दी नामक कंपनी के लॉन्च के साथ तकनीक सार्वजनिक हो गई।

बड़े डेटा विश्लेषण प्रक्रियाओं के व्यवसायी आम तौर पर धीमे साझा भंडारण के प्रति शत्रुतापूर्ण होते हैं, सॉलिड स्टेट ड्राइव (SSD) से लेकर समानांतर प्रोसेसिंग नोड्स के अंदर दफन उच्च क्षमता वाले सीरियल ATA डिस्क तक इसके विभिन्न रूपों में डायरेक्ट-अटैच्ड स्टोरेज (डायरेक्ट-अटैच्ड स्टोरेज) को प्राथमिकता देना। साझा स्टोरेज आर्किटेक्चर- संरक्षण क्षेत्र नियंत्रण कार्य (SAN) और नेटवर्क से जुड़ा संग्रहण  (NAS) की धारणा यह है कि वे अपेक्षाकृत धीमे, जटिल और महंगे हैं। ये गुण बड़े डेटा एनालिटिक्स सिस्टम के अनुरूप नहीं हैं जो सिस्टम के प्रदर्शन, कमोडिटी इन्फ्रास्ट्रक्चर और कम लागत पर फलते-फूलते हैं।

वास्तविक या निकट-वास्तविक समय सूचना वितरण बड़े डेटा विश्लेषण की परिभाषित विशेषताओं में से एक है। इसलिए जब भी और जहां भी संभव हो विलंबता से बचा जाता है। डायरेक्ट-अटैच्ड मेमोरी या डिस्क में डेटा अच्छा है—फाइबर कनेक्टर के दूसरे छोर पर मेमोरी या डिस्क पर डेटा स्टोरेज एरिया नेटवर्क कनेक्शन नहीं है। एनालिटिक्स एप्लिकेशन के लिए आवश्यक पैमाने पर स्टोरेज एरिया नेटवर्क की लागत अन्य स्टोरेज तकनीकों की तुलना में बहुत अधिक है।

अनुप्रयोग
बिग डेटा ने सूचना प्रबंधन विशेषज्ञों की मांग इतनी बढ़ा दी है कि सॉफ्टवेयर इंक, ओरेकल कॉर्पोरेशन, आईबीएम, माइक्रोसॉफ्ट, एसएपी एजी, ईएमसी निगम,  हेवलेट पैकर्ड  और  गड्ढा  ने डेटा प्रबंधन में विशेषज्ञता रखने वाली सॉफ्टवेयर फर्मों पर $15 बिलियन से अधिक खर्च किया है। विश्लेषिकी। 2010 में, यह उद्योग $100 बिलियन से अधिक मूल्य का था और प्रति वर्ष लगभग 10 प्रतिशत की दर से बढ़ रहा था, जो पूरे सॉफ्टवेयर व्यवसाय से लगभग दोगुना था।

विकसित अर्थव्यवस्थाएँ तेजी से डेटा-गहन तकनीकों का उपयोग कर रही हैं। दुनिया भर में 4.6 बिलियन मोबाइल-फोन सब्सक्रिप्शन हैं, और 1 बिलियन से 2 बिलियन के बीच लोग इंटरनेट का उपयोग कर रहे हैं। 1990 और 2005 के बीच, दुनिया भर में 1 अरब से अधिक लोगों ने मध्यम वर्ग में प्रवेश किया, जिसका अर्थ है कि अधिक लोग अधिक साक्षर हो गए, जिसके परिणामस्वरूप सूचना वृद्धि हुई। दूरसंचार नेटवर्क के माध्यम से सूचनाओं के आदान-प्रदान की दुनिया की प्रभावी क्षमता 1986 में 281 पेटाबाइट, 1993 में 471 पेटाबाइट, 2000 में 2.2 एक्साबाइट, 2007 में 65 एक्साबाइट थी। और भविष्यवाणियों ने 2014 तक सालाना 667 एक्साबाइट्स पर इंटरनेट यातायात की मात्रा रखी। एक अनुमान के अनुसार, विश्व स्तर पर संग्रहीत जानकारी का एक तिहाई अल्फ़ान्यूमेरिक पाठ और स्थिर छवि डेटा के रूप में है, जो अधिकांश बड़े डेटा अनुप्रयोगों के लिए सर्वाधिक उपयोगी प्रारूप है। यह अभी तक अप्रयुक्त डेटा (अर्थात वीडियो और ऑडियो सामग्री के रूप में) की क्षमता को भी दर्शाता है।

जबकि कई विक्रेता बड़े डेटा के लिए ऑफ-द-शेल्फ उत्पादों की पेशकश करते हैं, अगर कंपनी के पास पर्याप्त तकनीकी क्षमताएं हैं, तो विशेषज्ञ इन-हाउस कस्टम-सिलवाया सिस्टम के विकास को बढ़ावा देते हैं।

सरकार
सरकारी प्रक्रियाओं के भीतर बड़े डेटा का उपयोग और अपनाने से लागत, उत्पादकता और नवाचार के संदर्भ में दक्षता प्राप्त होती है, लेकिन इसके दोषों के बिना नहीं आता है। डेटा विश्लेषण के लिए अक्सर सरकार के कई हिस्सों (केंद्रीय और स्थानीय) के सहयोग से काम करने और वांछित परिणाम देने के लिए नई और अभिनव प्रक्रियाएं बनाने की आवश्यकता होती है। एक सामान्य सरकारी संगठन जो बड़े डेटा का उपयोग करता है, वह है राष्ट्रीय सुरक्षा प्रशासन (राष्ट्रीय सुरक्षा एजेंसी), जो संदिग्ध या अवैध गतिविधियों के संभावित पैटर्न की तलाश में लगातार इंटरनेट की गतिविधियों पर नज़र रखता है, जो उनका सिस्टम उठा सकता है।

नागरिक पंजीकरण और महत्वपूर्ण आँकड़े (CRVS) जन्म से लेकर मृत्यु तक सभी प्रमाणपत्रों की स्थिति एकत्र करता है। CRVS सरकारों के लिए बड़े डेटा का एक स्रोत है।

अंतर्राष्ट्रीय विकास
विकास के लिए सूचना और संचार प्रौद्योगिकियों के प्रभावी उपयोग पर शोध (जिसे ICT4D के रूप में भी जाना जाता है) से पता चलता है कि बड़ी डेटा तकनीक महत्वपूर्ण योगदान दे सकती है, लेकिन अंतर्राष्ट्रीय विकास के लिए अनूठी चुनौतियाँ भी पेश करती है। बड़े डेटा विश्लेषण में प्रगति स्वास्थ्य देखभाल, रोजगार, आर्थिक उत्पादकता, अपराध, सुरक्षा और प्राकृतिक आपदा और संसाधन प्रबंधन जैसे महत्वपूर्ण विकास क्षेत्रों में निर्णय लेने में सुधार के लिए लागत प्रभावी अवसर प्रदान करती है।  इसके अतिरिक्त, उपयोगकर्ता-जनित डेटा अनसुनी आवाज़ देने के नए अवसर प्रदान करता है। हालाँकि, विकासशील क्षेत्रों के लिए लंबे समय से चली आ रही चुनौतियाँ जैसे कि अपर्याप्त तकनीकी बुनियादी ढाँचा और आर्थिक और मानव संसाधन की कमी, बड़े डेटा जैसे गोपनीयता, अपूर्ण कार्यप्रणाली और अंतर्संचालनीयता के मुद्दों के साथ मौजूदा चिंताओं को बढ़ाती है। विकास के लिए बड़े डेटा की चुनौती वर्तमान में मशीन लर्निंग के माध्यम से इस डेटा के अनुप्रयोग की ओर विकसित हो रहा है, जिसे आर्टिफिशियल इंटेलिजेंस फॉर डेवलपमेंट (AI4D) के रूप में जाना जाता है।

लाभ
विकास के लिए बड़े डेटा का एक प्रमुख व्यावहारिक अनुप्रयोग डेटा के साथ गरीबी से लड़ना रहा है। 2015 में, ब्लुमेनस्टॉक और उनके सहयोगियों ने अनुमान लगाया कि मोबाइल फोन मेटाडेटा से गरीबी और धन की भविष्यवाणी की गई है और 2016 में जीन और उनके सहयोगियों ने गरीबी की भविष्यवाणी करने के लिए सैटेलाइट इमेजरी और मशीन लर्निंग को मिलाया। श्रम बाजार और लैटिन अमेरिका, हिल्बर्ट और सहयोगियों में डिजिटल अर्थव्यवस्था का अध्ययन करने के लिए डिजिटल ट्रेस डेटा का उपयोग करना तर्क देते हैं कि डिजिटल ट्रेस डेटा के कई लाभ हैं जैसे:
 * विषयगत कवरेज: उन क्षेत्रों सहित जिन्हें मापना पहले कठिन या असंभव था
 * भौगोलिक कवरेज: हमारे अंतरराष्ट्रीय स्रोतों ने लगभग सभी देशों के लिए बड़े आकार का और तुलनीय डेटा प्रदान किया, जिसमें कई छोटे देश शामिल हैं जो आमतौर पर अंतरराष्ट्रीय सूची में शामिल नहीं होते हैं
 * विस्तार का स्तर: कई परस्पर संबंधित चर, और नए पहलुओं, जैसे नेटवर्क कनेक्शन के साथ ठीक-ठाक डेटा प्रदान करना
 * समयबद्धता और समय-श्रृंखला: ग्राफ़ एकत्र किए जाने के दिनों के भीतर तैयार किए जा सकते हैं

चुनौतियां
साथ ही, पारंपरिक सर्वेक्षण डेटा के बजाय डिजिटल ट्रेस डेटा के साथ काम करना अंतरराष्ट्रीय मात्रात्मक विश्लेषण के क्षेत्र में काम करते समय शामिल पारंपरिक चुनौतियों को खत्म नहीं करता है। प्राथमिकताएं बदल जाती हैं, लेकिन बुनियादी चर्चा वही रहती है। मुख्य चुनौतियों में से हैं:
 * प्रतिनिधित्व। जबकि पारंपरिक विकास आँकड़े मुख्य रूप से यादृच्छिक सर्वेक्षण नमूनों की प्रतिनिधित्वशीलता से संबंधित हैं, डिजिटल ट्रेस डेटा कभी भी यादृच्छिक नमूना नहीं होता है।
 * सामान्यता। जबकि अवलोकन संबंधी डेटा हमेशा इस स्रोत का बहुत अच्छी तरह से प्रतिनिधित्व करता है, यह केवल वही दर्शाता है जो यह दर्शाता है, और कुछ नहीं। हालांकि यह एक मंच की विशिष्ट टिप्पणियों से लेकर व्यापक सेटिंग्स तक सामान्यीकरण करने के लिए आकर्षक है, यह अक्सर बहुत भ्रामक होता है।
 * समानीकरण। डिजिटल ट्रेस डेटा को अभी भी संकेतकों के अंतर्राष्ट्रीय सामंजस्य की आवश्यकता है। यह तथाकथित डेटा-फ्यूजन, विभिन्न स्रोतों के सामंजस्य की चुनौती को जोड़ता है।
 * डेटा अधिभार। बड़ी संख्या में चरों से प्रभावी ढंग से निपटने के लिए विश्लेषकों और संस्थानों का उपयोग नहीं किया जाता है, जो कि इंटरैक्टिव डैशबोर्ड के साथ कुशलता से किया जाता है। चिकित्सकों के पास अभी भी एक मानक कार्यप्रवाह का अभाव है जो शोधकर्ताओं, उपयोगकर्ताओं और नीति निर्माताओं को कुशलतापूर्वक और प्रभावी ढंग से करने की अनुमति देगा।

वित्त
1) प्रसंस्करण में तेजी लाने और 2) आंतरिक रूप से और वित्तीय संस्थानों के ग्राहकों के लिए बेहतर, अधिक सूचित संदर्भ प्रदान करने के लिए बिग डेटा को वित्त में तेजी से अपनाया जा रहा है। .. बिग डेटा के वित्तीय अनुप्रयोगों में निवेश के फैसले और व्यापार (उपलब्ध मूल्य डेटा की प्रसंस्करण मात्रा, सीमित ऑर्डर बुक, आर्थिक डेटा और अधिक, सभी एक ही समय में), पोर्टफोलियो प्रबंधन (वित्तीय उपकरणों की एक बड़ी बड़ी सरणी पर अनुकूलन) शामिल हैं।, संभावित रूप से विभिन्न परिसंपत्ति वर्गों से चयनित), जोखिम प्रबंधन (विस्तारित जानकारी के आधार पर क्रेडिट रेटिंग), और कोई अन्य पहलू जहां डेटा इनपुट बड़े हैं।

हेल्थकेयर
बिग डेटा एनालिटिक्स का उपयोग व्यक्तिगत दवा और निर्देशात्मक विश्लेषण, नैदानिक ​​जोखिम हस्तक्षेप और भविष्य कहनेवाला विश्लेषण, अपशिष्ट और देखभाल परिवर्तनशीलता में कमी, रोगी डेटा की स्वचालित बाहरी और आंतरिक रिपोर्टिंग, मानकीकृत चिकित्सा शर्तों और रोगी रजिस्ट्रियों को प्रदान करके स्वास्थ्य सेवा में किया गया था।  सुधार के कुछ क्षेत्र वास्तव में कार्यान्वित किए जाने की तुलना में अधिक आकांक्षी हैं। स्वास्थ्य प्रणाली के भीतर उत्पन्न डेटा का स्तर तुच्छ नहीं है। एमहेल्थ, ईहेल्थ और पहनने योग्य तकनीकों को अपनाने से डेटा की मात्रा में वृद्धि जारी रहेगी। इसमें इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड डेटा, इमेजिंग डेटा, रोगी जनित डेटा, सेंसर डेटा और डेटा को प्रोसेस करने में मुश्किल के अन्य रूप शामिल हैं। डेटा और सूचना की गुणवत्ता पर अधिक ध्यान देने के लिए ऐसे वातावरण की अब और भी अधिक आवश्यकता है। बड़े डेटा का अर्थ अक्सर 'गंदा डेटा' होता है और डेटा की मात्रा में वृद्धि के साथ डेटा की अशुद्धियों का अंश बढ़ जाता है। बड़े डेटा पैमाने पर मानव निरीक्षण असंभव है और सटीकता और विश्वसनीयता नियंत्रण और छूटी हुई जानकारी को संभालने के लिए बुद्धिमान उपकरणों के लिए स्वास्थ्य सेवा में सख्त आवश्यकता है। जबकि स्वास्थ्य सेवा में व्यापक जानकारी अब इलेक्ट्रॉनिक है, यह बड़े डेटा छत्र के नीचे फिट बैठता है क्योंकि अधिकांश असंरचित और उपयोग करने में कठिन है। स्वास्थ्य सेवा में बड़े डेटा के उपयोग ने व्यक्तिगत अधिकारों, गोपनीयता और स्वायत्तता के जोखिमों से लेकर पारदर्शिता और विश्वास तक की महत्वपूर्ण नैतिक चुनौतियाँ खड़ी की हैं। स्वास्थ्य अनुसंधान में बड़ा डेटा विशेष रूप से खोजपूर्ण जैव चिकित्सा अनुसंधान के संदर्भ में आशाजनक है, क्योंकि डेटा-संचालित विश्लेषण परिकल्पना-संचालित अनुसंधान की तुलना में अधिक तेज़ी से आगे बढ़ सकता है। फिर, डेटा विश्लेषण में देखे गए रुझानों का परीक्षण पारंपरिक, परिकल्पना-चालित अनुवर्ती जैविक अनुसंधान और अंततः नैदानिक ​​अनुसंधान में किया जा सकता है।

एक संबंधित अनुप्रयोग उप-क्षेत्र, जो स्वास्थ्य सेवा क्षेत्र के भीतर बड़े डेटा पर बहुत अधिक निर्भर करता है, चिकित्सा में कंप्यूटर एडेड निदान है। उदाहरण के लिए, मिर्गी की निगरानी के लिए रोजाना 5 से 10 जीबी डेटा बनाने की प्रथा है। इसी तरह, स्तन टोमोसिंथेसिस की एक असम्पीडित छवि का औसत 450 एमबी डेटा है। ये ऐसे कई उदाहरणों में से कुछ हैं जहां कंप्यूटर-एडेड डायग्नोसिस बड़े डेटा का उपयोग करता है। इस कारण से, बड़े डेटा को उन सात प्रमुख चुनौतियों में से एक के रूप में पहचाना गया है, जिन्हें प्रदर्शन के अगले स्तर तक पहुँचने के लिए कंप्यूटर-एडेड डायग्नोसिस सिस्टम को दूर करने की आवश्यकता है।

शिक्षा
मैकिन्से एंड कंपनी के एक अध्ययन में 1.5 मिलियन उच्च प्रशिक्षित डेटा पेशेवरों और प्रबंधकों की कमी पाई गई और कई विश्वविद्यालय टेनेसी विश्वविद्यालय और यूसी बर्कले सहित, ने इस मांग को पूरा करने के लिए मास्टर्स प्रोग्राम बनाए हैं। निजी बूट शिविरों ने उस मांग को पूरा करने के लिए कार्यक्रम भी विकसित किए हैं, जिसमें द डेटा इनक्यूबेटर जैसे मुफ्त कार्यक्रम या साधारण सभा जैसे भुगतान कार्यक्रम शामिल हैं। विपणन के विशिष्ट क्षेत्र में, वेसल और कन्नन द्वारा बल दी गई समस्याओं में से एक है यह है कि मार्केटिंग के कई उप डोमेन हैं (जैसे, विज्ञापन, प्रचार, उत्पाद विकास, ब्रांडिंग) जो सभी विभिन्न प्रकार के डेटा का उपयोग करते हैं।

मीडिया
यह समझने के लिए कि मीडिया बड़े डेटा का उपयोग कैसे करता है, मीडिया प्रक्रिया के लिए उपयोग किए जाने वाले तंत्र में कुछ संदर्भ प्रदान करना सबसे पहले आवश्यक है। निक कैनरी और जोसेफ टुरो द्वारा यह सुझाव दिया गया है कि मीडिया और विज्ञापन में व्यवसायी लाखों व्यक्तियों के बारे में जानकारी के कई कार्रवाई योग्य बिंदुओं के रूप में बड़े डेटा का दृष्टिकोण रखते हैं। ऐसा प्रतीत होता है कि उद्योग समाचार पत्रों, पत्रिकाओं, या टेलीविज़न शो जैसे विशिष्ट मीडिया परिवेशों का उपयोग करने के पारंपरिक दृष्टिकोण से दूर जा रहा है और इसके बजाय उन तकनीकों के साथ उपभोक्ताओं में टैप करता है जो इष्टतम स्थानों पर लक्षित लोगों तक पहुँचते हैं। अंतिम उद्देश्य उपभोक्ता की मानसिकता के अनुरूप (सांख्यिकीय रूप से बोलना) एक संदेश या सामग्री की सेवा या संदेश देना है। उदाहरण के लिए, प्रकाशन वातावरण उपभोक्ताओं के लिए अपील करने के लिए संदेशों (विज्ञापनों) और सामग्री (लेखों) को तेजी से दर्ज कर रहा है जो विभिन्न डेटा खनन गतिविधियों के माध्यम से विशेष रूप से एकत्र किए गए हैं।
 * उपभोक्ताओं का लक्ष्यीकरण (विपणक द्वारा विज्ञापन के लिए)
 * डेटा कैप्चर
 * डेटा पत्रकारिता: अद्वितीय और अभिनव अंतर्दृष्टि और इंफ़ोग्राफ़िक ्स प्रदान करने के लिए प्रकाशक और पत्रकार बड़े डेटा टूल का उपयोग करते हैं।

चैनल 4, यूनाइटेड किंगडम में ब्रिटिश पब्लिक सर्विस ब्रॉडकास्टिंग | पब्लिक-सर्विस टेलीविज़न ब्रॉडकास्टर, बड़े डेटा और डेटा विश्लेषण के क्षेत्र में अग्रणी है।

बीमा
स्वास्थ्य बीमा प्रदाता स्वास्थ्य के सामाजिक निर्धारकों जैसे कि भोजन और टेलीविजन की खपत, वैवाहिक स्थिति, कपड़ों के आकार और खरीदारी की आदतों पर डेटा एकत्र कर रहे हैं, जिससे वे अपने ग्राहकों में स्वास्थ्य संबंधी समस्याओं का पता लगाने के लिए स्वास्थ्य लागतों का अनुमान लगाते हैं। यह विवादास्पद है कि वर्तमान में मूल्य निर्धारण के लिए इन भविष्यवाणियों का उपयोग किया जा रहा है या नहीं।

इंटरनेट ऑफ थिंग्स (IoT)
बिग डेटा और आईओटी संयोजन में काम करते हैं। IoT डिवाइस से निकाला गया डेटा डिवाइस इंटर-कनेक्टिविटी की मैपिंग प्रदान करता है। इस तरह के मैपिंग का उपयोग मीडिया उद्योग, कंपनियों और सरकारों द्वारा अपने दर्शकों को अधिक सटीक रूप से लक्षित करने और मीडिया दक्षता बढ़ाने के लिए किया गया है। संवेदी डेटा एकत्र करने के साधन के रूप में IoT को भी तेजी से अपनाया जा रहा है, और इस संवेदी डेटा का उपयोग चिकित्सा में किया गया है, उत्पादन और परिवहन संदर्भ।

डिजिटल इनोवेशन विशेषज्ञ केविन एश्टन, जिन्हें इस शब्द को गढ़ने का श्रेय दिया जाता है, इस उद्धरण में इंटरनेट ऑफ थिंग्स को परिभाषित करता है: यदि हमारे पास ऐसे कंप्यूटर होते जो चीजों के बारे में जानने के लिए सब कुछ जानते थे—डेटा का उपयोग करके जो उन्होंने हमारी सहायता के बिना एकत्र किया—हम सब कुछ ट्रैक और गिनने में सक्षम होते, और अपशिष्ट, हानि, और लागत। हमें पता चल जाएगा कि कब चीजों को बदलने, मरम्मत करने या वापस बुलाने की जरूरत है, और क्या वे ताजा थे या अपना सर्वश्रेष्ठ अतीत।

सूचना प्रौद्योगिकी
विशेष रूप से 2015 के बाद से, कर्मचारियों को अधिक कुशलता से काम करने और सूचना प्रौद्योगिकी (आईटी) के संग्रह और वितरण को सुव्यवस्थित करने में मदद करने के लिए एक उपकरण के रूप में बड़े डेटा को व्यवसाय संचालन के भीतर प्रमुखता मिली है। एक उद्यम के भीतर आईटी और डेटा संग्रह के मुद्दों को हल करने के लिए बड़े डेटा के उपयोग को आईटी ऑपरेशंस एनालिटिक्स (आईटीओए) कहा जाता है। मशीन बुद्धि  और डीप कंप्यूटिंग की अवधारणाओं में बड़े डेटा सिद्धांतों को लागू करके, आईटी विभाग संभावित मुद्दों की भविष्यवाणी कर सकते हैं और उन्हें रोक सकते हैं। ITOA व्यवसाय सिस्टम प्रबंधन के लिए प्लेटफ़ॉर्म प्रदान करते हैं जो डेटा साइलो को एक साथ लाते हैं और डेटा के अलग-अलग पॉकेट्स के बजाय पूरे सिस्टम से अंतर्दृष्टि उत्पन्न करते हैं।

चीन

 * इंटीग्रेटेड जॉइंट ऑपरेशंस प्लेटफॉर्म (IJOP, इंटीग्रेटेड जॉइंट ऑपरेशंस प्लेटफॉर्म) का इस्तेमाल सरकार द्वारा आबादी, खासकर उइगरों पर नजर रखने के लिए किया जाता है। बॉयोमेट्रिक्स, जिसमें डीएनए नमूने भी शामिल हैं, मुफ्त फिजिक्स के एक कार्यक्रम के माध्यम से एकत्र किए जाते हैं।
 * 2020 तक, चीन अपने सभी नागरिकों को उनके व्यवहार के आधार पर एक व्यक्तिगत सामाजिक क्रेडिट स्कोर देने की योजना बना रहा है। सोशल क्रेडिट सिस्टम, जिसे अब कई चीनी शहरों में संचालित किया जा रहा है, को चीन में बड़े पैमाने पर निगरानी का एक रूप माना जाता है जो बड़े डेटा विश्लेषण तकनीक का उपयोग करता है।

भारत

 * 2014 भारतीय आम चुनाव जीतने के लिए भारतीय जनता पार्टी के लिए बड़े डेटा विश्लेषण की कोशिश की गई थी।
 * भारत सरकार यह पता लगाने के लिए कई तकनीकों का उपयोग करती है कि भारतीय मतदाता सरकारी कार्रवाई के साथ-साथ नीतिगत वृद्धि के लिए कैसे प्रतिक्रिया दे रहे हैं।

इसराइल

 * ग्लूकोमे के बड़े डेटा समाधान के माध्यम से व्यक्तिगत मधुमेह उपचार बनाया जा सकता है।

यूनाइटेड किंगडम
सार्वजनिक सेवाओं में बड़े डेटा के उपयोग के उदाहरण:


 * प्रिस्क्रिप्शन दवाओं पर डेटा: मूल, स्थान और प्रत्येक नुस्खे के समय को जोड़कर, एक शोध इकाई किसी भी दवा की रिहाई और राष्ट्रीय स्वास्थ्य संस्थान के यूके-व्यापी अनुकूलन के बीच काफी देरी का उदाहरण और जांच करने में सक्षम थी। और देखभाल उत्कृष्टता दिशानिर्देश। इससे पता चलता है कि नई या सबसे अद्यतित दवाएं सामान्य रोगी के माध्यम से फ़िल्टर करने में कुछ समय लेती हैं।
 * डेटा को जोड़ना: एक स्थानीय प्राधिकरण सेवाओं के बारे में डेटा सम्मिश्रण करता है, जैसे कि रोड ग्रिटिंग रोटा, जोखिम वाले लोगों के लिए सेवाओं के साथ, जैसे कि मील ऑन व्हील्स। डेटा के कनेक्शन ने स्थानीय प्राधिकरण को मौसम संबंधी किसी भी देरी से बचने की अनुमति दी।

संयुक्त राज्य अमेरिका
रेफरी>
 * 2012 में, बराक ओबामा की अध्यक्षता ने बिग डेटा रिसर्च एंड डेवलपमेंट इनिशिएटिव की घोषणा की, यह पता लगाने के लिए कि सरकार द्वारा सामना की जाने वाली महत्वपूर्ण समस्याओं का समाधान करने के लिए बड़े डेटा का उपयोग कैसे किया जा सकता है। पहल छह विभागों में फैले 84 विभिन्न बड़े डेटा कार्यक्रमों से बनी है। रेफरी>
 * बिग डेटा विश्लेषण ने बराक ओबामा के सफल बराक ओबामा राष्ट्रपति अभियान, 2012|2012 के पुनर्निर्वाचन अभियान में एक बड़ी भूमिका निभाई।
 * संयुक्त राज्य संघीय सरकार दुनिया के दस सबसे शक्तिशाली सुपर कंप्यूटरों में से पांच की मालिक है।
 * यूटा डेटा सेंटर का निर्माण संयुक्त राज्य अमेरिका की राष्ट्रीय सुरक्षा एजेंसी द्वारा किया गया है। समाप्त होने पर, सुविधा NSA द्वारा इंटरनेट पर एकत्रित की गई बड़ी मात्रा में जानकारी को संभालने में सक्षम होगी। भंडारण स्थान की सटीक मात्रा अज्ञात है, लेकिन हाल के सूत्रों का दावा है कि यह कुछ एक्साबाइट्स के क्रम पर होगा।  इसने एकत्र किए गए डेटा की गुमनामी के संबंध में सुरक्षा चिंताओं को उत्पन्न किया है।

खुदरा

 * वॉल-मार्ट हर घंटे 1 मिलियन से अधिक ग्राहक लेनदेन संभालता है, जो डेटाबेस में आयात किए जाते हैं, जिसमें 2.5 पेटाबाइट्स (2560 टेराबाइट्स) से अधिक डेटा होने का अनुमान है - यूएस कांग्रेस के पुस्तकालय में सभी पुस्तकों में निहित जानकारी के 167 गुना के बराबर।
 * Windermere Real Estate लगभग 100 मिलियन ड्राइवरों से स्थान की जानकारी का उपयोग करता है ताकि नए घर खरीदारों को दिन के विभिन्न समयों में काम करने के लिए और उनके विशिष्ट ड्राइव समय का निर्धारण करने में मदद मिल सके।
 * FICO कार्ड डिटेक्शन सिस्टम दुनिया भर में खातों की सुरक्षा करता है।

विज्ञान

 * लार्ज हैड्रान कोलाइडर प्रयोग लगभग 150 मिलियन सेंसर का प्रतिनिधित्व करते हैं जो प्रति सेकंड 40 मिलियन बार डेटा वितरित करते हैं। प्रति सेकंड लगभग 600 मिलियन टकराव होते हैं। फ़िल्टर करने और 99.99995% से अधिक रिकॉर्ड करने से बचने के बाद इन धाराओं में प्रति सेकंड रुचि के 1,000 टकराव होते हैं।
 * नतीजतन, सेंसर स्ट्रीम डेटा के केवल 0.001% से कम के साथ काम करते हुए, सभी चार एलएचसी प्रयोगों से डेटा प्रवाह प्रतिकृति से पहले 25 पेटाबाइट वार्षिक दर का प्रतिनिधित्व करता है . प्रतिकृति के बाद यह लगभग 200 पेटाबाइट हो जाता है।
 * यदि सभी सेंसर डेटा एलएचसी में दर्ज किए गए थे, तो डेटा प्रवाह के साथ काम करना बेहद कठिन होगा। प्रतिकृति से पहले डेटा प्रवाह 150 मिलियन पेटाबाइट वार्षिक दर, या लगभग 500 एक्साबाइट प्रति दिन से अधिक होगा। संख्या को परिप्रेक्ष्य में रखने के लिए, यह 500 क्विंटिलियन (5×1020) प्रति दिन बाइट्स, दुनिया में संयुक्त सभी अन्य स्रोतों की तुलना में लगभग 200 गुना अधिक है।
 * वर्ग किलोमीटर सरणी एक रेडियो टेलीस्कोप है जो हजारों एंटेना से बना है। इसके 2024 तक चालू होने की उम्मीद है। सामूहिक रूप से, इन एंटेना के 14 एक्साबाइट इकट्ठा करने और प्रति दिन एक पेटाबाइट स्टोर करने की उम्मीद है। इसे अब तक की गई सबसे महत्वाकांक्षी वैज्ञानिक परियोजनाओं में से एक माना जाता है।
 * जब स्लोन डिजिटल स्काई सर्वे (SDSS) ने 2000 में खगोलीय डेटा एकत्र करना शुरू किया, तो इसने पहले कुछ हफ्तों में खगोल विज्ञान के इतिहास में एकत्र किए गए सभी डेटा की तुलना में अधिक एकत्र किया। लगभग 200 GB प्रति रात की दर से जारी रखते हुए, SDSS ने 140 टेराबाइट से अधिक जानकारी एकत्र की है। जब SDSS का उत्तराधिकारी लार्ज सिनॉप्टिक सर्वे टेलीस्कोप 2020 में ऑनलाइन आता है, तो इसके डिजाइनरों को उम्मीद है कि यह हर पांच दिनों में उस डेटा की मात्रा हासिल कर लेगा।
 * मानव जीनोम परियोजना को मूल रूप से संसाधित होने में 10 वर्ष लगे; अब इसे एक दिन से भी कम समय में हासिल किया जा सकता है। डीएनए अनुक्रमकों ने पिछले दस वर्षों में अनुक्रमण लागत को 10,000 से विभाजित किया है, जो मूर के कानून द्वारा अनुमानित लागत में कमी से 100 गुना सस्ता है।
 * नासा सेंटर फॉर क्लाइमेट सिमुलेशन (एनसीसीएस) डिस्कवर सुपरकंप्यूटिंग क्लस्टर पर 32 पेटाबाइट्स जलवायु अवलोकन और सिमुलेशन स्टोर करता है।
 * Google का DNAStack रोगों और अन्य चिकित्सा दोषों की पहचान करने के लिए दुनिया भर से आनुवंशिक डेटा के DNA नमूनों को संकलित और व्यवस्थित करता है। ये तेज़ और सटीक गणना किसी भी घर्षण बिंदु या मानवीय त्रुटियों को समाप्त करती हैं जो डीएनए के साथ काम करने वाले कई विज्ञान और जीव विज्ञान विशेषज्ञों में से एक द्वारा की जा सकती हैं। DNAStack, Google जीनोमिक्स का एक भाग, वैज्ञानिकों को Google के खोज सर्वर से संसाधनों के विशाल नमूने का उपयोग करने की अनुमति देता है ताकि सामाजिक प्रयोगों को स्केल किया जा सके जिसमें आमतौर पर वर्षों लग जाते हैं।
 * 23andme डीएनए डेटाबेस में दुनिया भर में 1,000,000 से अधिक लोगों की आनुवंशिक जानकारी शामिल है। यदि रोगी अपनी सहमति देते हैं तो कंपनी अनुसंधान उद्देश्यों के लिए अन्य शोधकर्ताओं और दवा कंपनियों को गुमनाम एकत्रित आनुवंशिक डेटा बेचने की पड़ताल करती है।   ड्यूक विश्वविद्यालय में मनोविज्ञान और तंत्रिका विज्ञान के प्रोफेसर अहमद हरीरी, जो 2009 से अपने शोध में 23andMe का उपयोग कर रहे हैं, कहते हैं कि कंपनी की नई सेवा का सबसे महत्वपूर्ण पहलू यह है कि यह आनुवंशिक अनुसंधान को वैज्ञानिकों के लिए सुलभ और अपेक्षाकृत सस्ता बनाती है। एक अध्ययन जिसने 23andMe के डेटाबेस में डिप्रेशन से जुड़ी 15 जीनोम साइटों की पहचान की, पेपर के प्रकाशन के बाद दो सप्ताह में डिप्रेशन डेटा तक पहुंचने के लिए लगभग 20 अनुरोधों के साथ 23andMe फील्डिंग के साथ रिपॉजिटरी तक पहुंचने की मांग में वृद्धि हुई।
 * कम्प्यूटेशनल तरल सक्रिय (कम्प्यूटेशनल फ्लुइड डायनेमिक्स) और हाइड्रोडायनामिक अशांति  रिसर्च बड़े पैमाने पर डेटा सेट उत्पन्न करते हैं। जॉन्स हॉपकिन्स टर्बुलेंस डेटाबेस (JHTDB) में विभिन्न अशांत प्रवाहों के प्रत्यक्ष संख्यात्मक सिमुलेशन से 350 से अधिक टेराबाइट्स स्पोटियोटेम्पोरल फ़ील्ड शामिल हैं। फ्लैट सिमुलेशन आउटपुट फ़ाइलों को डाउनलोड करने जैसे पारंपरिक तरीकों का उपयोग करके इस तरह के डेटा को साझा करना मुश्किल हो गया है। JHTDB के भीतर डेटा को विभिन्न एक्सेस मोड के साथ वर्चुअल सेंसर का उपयोग करके एक्सेस किया जा सकता है, जिसमें डायरेक्ट वेब-ब्राउज़र क्वेरीज़, मैटलैब, पायथन, फोरट्रान और ग्राहकों के प्लेटफॉर्म पर निष्पादित सी प्रोग्राम के माध्यम से एक्सेस, कच्चे डेटा को डाउनलोड करने के लिए सेवाओं को कम करना शामिल है। डेटा का उपयोग 150 से अधिक वैज्ञानिक प्रकाशनों में किया गया है।

खेल
स्पोर्ट सेंसर का उपयोग करके प्रतियोगियों को प्रशिक्षण और समझने में सुधार करने के लिए बड़े डेटा का उपयोग किया जा सकता है। बिग डेटा एनालिटिक्स का उपयोग करके मैच में विजेताओं की भविष्यवाणी करना भी संभव है। खिलाड़ियों के भविष्य के प्रदर्शन की भी भविष्यवाणी की जा सकती है। इस प्रकार, खिलाड़ियों का मूल्य और वेतन पूरे सीज़न में एकत्र किए गए डेटा द्वारा निर्धारित किया जाता है। फ़ॉर्मूला वन रेस में, सैकड़ों सेंसर वाली रेस कारें टेराबाइट डेटा उत्पन्न करती हैं। ये सेंसर टायर प्रेशर से लेकर फ्यूल बर्न एफिशिएंसी तक डेटा पॉइंट कलेक्ट करते हैं। डेटा के आधार पर, इंजीनियर और डेटा विश्लेषक तय करते हैं कि दौड़ जीतने के लिए समायोजन किया जाना चाहिए या नहीं। इसके अलावा, बड़े डेटा का उपयोग करते हुए, रेस टीमें सीज़न में एकत्र किए गए डेटा का उपयोग करके सिमुलेशन के आधार पर दौड़ को पहले ही पूरा करने की भविष्यवाणी करने की कोशिश करती हैं।

प्रौद्योगिकी

 * eBay.com 7.5 पेटाबाइट्स और 40PB पर दो डेटा वेयरहाउस के साथ-साथ खोज, उपभोक्ता अनुशंसाओं और बिक्री के लिए 40PB Hadoop क्लस्टर का उपयोग करता है।
 * Amazon.com हर दिन लाखों बैक-एंड ऑपरेशंस को हैंडल करता है, साथ ही आधे मिलियन से अधिक थर्ड-पार्टी सेलर्स के प्रश्नों को भी हैंडल करता है। मुख्य तकनीक जो अमेज़न को चालू रखती है वह लिनक्स आधारित है और उनके पास 7.8 TB, 18.5 TB, और 24.7 TB की क्षमता वाले विश्व के तीन सबसे बड़े Linux डेटाबेस थे।
 * Facebook अपने उपयोगकर्ता आधार से 50 अरब फ़ोटो प्रबंधित करता है।, फेसबुक 2 अरब मासिक सक्रिय उपयोगकर्ताओं तक पहुंच गया।
 * Google प्रति माह लगभग 100 अरब खोजों को प्रबंधित कर रहा था.

कोविड-19
COVID-19 महामारी के दौरान, बीमारी के प्रभाव को कम करने के तरीके के रूप में बड़ा डेटा उठाया गया था। बड़े डेटा के महत्वपूर्ण अनुप्रयोगों में वायरस के प्रसार को कम करना, मामले की पहचान और चिकित्सा उपचार का विकास शामिल है। प्रसार को कम करने के लिए सरकारों ने संक्रमित लोगों को ट्रैक करने के लिए बड़े डेटा का उपयोग किया। शुरुआती गोद लेने वालों में चीन, ताइवान, दक्षिण कोरिया और इज़राइल शामिल थे।

अनुसंधान गतिविधियां
अमेरिकन सोसायटी ऑफ इंजीनियरिंग एजुकेशन में मार्च 2014 में बड़े डेटा में एन्क्रिप्टेड खोज और क्लस्टर गठन का प्रदर्शन किया गया था। एमआईटी कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी द्वारा बिग डेटा की चुनौतियों से निपटने में लगे गौतम सिवाच और यूएनएच रिसर्च ग्रुप में आमिर एस्मेलपोर ने क्लस्टर्स के गठन और उनके इंटरकनेक्शन के रूप में बिग डेटा की प्रमुख विशेषताओं की जांच की। उन्होंने बड़े डेटा की सुरक्षा पर ध्यान केंद्रित किया और प्रौद्योगिकी के भीतर कच्ची परिभाषाएं और वास्तविक समय के उदाहरण प्रदान करके क्लाउड इंटरफ़ेस पर एन्क्रिप्टेड रूप में विभिन्न प्रकार के डेटा की उपस्थिति की ओर उन्मुखीकरण किया। इसके अलावा, उन्होंने बड़े डेटा में सुरक्षा संवर्द्धन के लिए अग्रणी एन्क्रिप्टेड पाठ पर एक त्वरित खोज की दिशा में आगे बढ़ने के लिए एन्कोडिंग तकनीक की पहचान करने के लिए एक दृष्टिकोण प्रस्तावित किया। मार्च 2012 में, व्हाइट हाउस ने एक राष्ट्रीय बिग डेटा पहल की घोषणा की, जिसमें छह संघीय विभाग और एजेंसियां ​​शामिल थीं, जो बड़े डेटा अनुसंधान परियोजनाओं के लिए $200 मिलियन से अधिक की प्रतिबद्धता जताती हैं। इस पहल में एएमपीलैब को पांच वर्षों में $10 मिलियन के कम्प्यूटिंग अनुदान में एक राष्ट्रीय विज्ञान फाउंडेशन अभियान शामिल था। कैलिफोर्निया विश्वविद्यालय, बर्कले में। AMPLab को DARPA, और एक दर्जन से अधिक औद्योगिक प्रायोजकों से भी धन प्राप्त हुआ है और ट्रैफ़िक भीड़ की भविष्यवाणी करने से लेकर समस्याओं की एक विस्तृत श्रृंखला पर हमला करने के लिए बड़े डेटा का उपयोग करता है। कैंसर से लड़ने के लिए। व्हाइट हाउस बिग डेटा इनिशिएटिव में स्केलेबल डेटा मैनेजमेंट, एनालिसिस एंड विज़ुअलाइज़ेशन (एसडीएवी) संस्थान की स्थापना के लिए पाँच वर्षों में $25 मिलियन का वित्त पोषण प्रदान करने के लिए ऊर्जा विभाग द्वारा प्रतिबद्धता भी शामिल है। ऊर्जा विभाग के लॉरेंस बर्कले राष्ट्रीय प्रयोगशाला के नेतृत्व में। SDAV संस्थान का लक्ष्य छह राष्ट्रीय प्रयोगशालाओं और सात विश्वविद्यालयों की विशेषज्ञता को एक साथ लाना है ताकि वैज्ञानिकों को विभाग के सुपर कंप्यूटरों पर डेटा का प्रबंधन और कल्पना करने में मदद करने के लिए नए उपकरण विकसित किए जा सकें।

अमेरिकी राज्य मैसाचुसेट्स ने मई 2012 में मैसाचुसेट्स बिग डेटा इनिशिएटिव की घोषणा की, जो राज्य सरकार और निजी कंपनियों से विभिन्न शोध संस्थानों को धन मुहैया कराता है। मैसाचुसेट्स की तकनीकी संस्था एमआईटी कंप्यूटर साइंस और आर्टिफिशियल इंटेलिजेंस लेबोरेटरी में बिग डेटा के लिए इंटेल साइंस एंड टेक्नोलॉजी सेंटर की मेजबानी करता है, जो सरकार, कॉर्पोरेट और संस्थागत वित्त पोषण और अनुसंधान प्रयासों का संयोजन करता है। यूरोपीय आयोग बड़े डेटा मुद्दों पर चर्चा करने के लिए कंपनियों, शिक्षाविदों और अन्य हितधारकों को शामिल करने के लिए अपने सातवें फ्रेमवर्क प्रोग्राम के माध्यम से दो साल लंबे बिग डेटा पब्लिक प्राइवेट फोरम को वित्तपोषित कर रहा है। परियोजना का उद्देश्य बड़ी डेटा अर्थव्यवस्था के सफल कार्यान्वयन में यूरोपीय आयोग से सहायक कार्यों को निर्देशित करने के लिए अनुसंधान और नवाचार के संदर्भ में एक रणनीति को परिभाषित करना है। इस परियोजना के परिणामों का उपयोग क्षितिज 2020 के लिए इनपुट के रूप में किया जाएगा, जो अनुसंधान और तकनीकी विकास के लिए उनका अगला फ्रेमवर्क प्रोग्राम है। ब्रिटिश सरकार ने मार्च 2014 में कंप्यूटर पायनियर और कोड-ब्रेकर के नाम पर एलन ट्यूरिंग संस्थान की स्थापना की घोषणा की, जो बड़े डेटा सेट एकत्र करने और विश्लेषण करने के नए तरीकों पर ध्यान केंद्रित करेगा। वाटरलू स्ट्रैटफ़ोर्ड कैंपस विश्वविद्यालय कैनेडियन ओपन डेटा एक्सपीरियंस (CODE) प्रेरणा दिवस में, प्रतिभागियों ने प्रदर्शित किया कि कैसे डेटा विज़ुअलाइज़ेशन का उपयोग करके बड़े डेटा सेटों की समझ और अपील को बढ़ाया जा सकता है और उनकी कहानी को दुनिया तक पहुँचाया जा सकता है। कम्प्यूटेशनल सामाजिक विज्ञान - कोई भी बड़े डेटा धारकों, जैसे कि Google और Twitter द्वारा प्रदान किए गए एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) का उपयोग सामाजिक और व्यवहार विज्ञान में शोध करने के लिए कर सकता है। अक्सर ये एपीआई मुफ्त में उपलब्ध कराए जाते हैं। टोबियास प्राइस एट अल। गूगल ट्रेंड्स डेटा का उपयोग यह प्रदर्शित करने के लिए किया कि उच्च प्रति व्यक्ति सकल घरेलू उत्पाद (जीडीपी) वाले देशों के इंटरनेट उपयोगकर्ताओं द्वारा अतीत के बारे में जानकारी की तुलना में भविष्य के बारे में जानकारी खोजने की अधिक संभावना है। निष्कर्ष बताते हैं कि ऑनलाइन व्यवहार और वास्तविक दुनिया के आर्थिक संकेतकों के बीच एक संबंध हो सकता है।  अध्ययन के लेखकों ने आने वाले वर्ष (2011) की खोजों की मात्रा के पिछले वर्ष (2009) की खोजों की मात्रा के अनुपात द्वारा बनाए गए Google प्रश्नों के लॉग की जांच की, जिसे वे भविष्य उन्मुखीकरण सूचकांक कहते हैं। उन्होंने फ्यूचर ओरिएंटेशन इंडेक्स की तुलना प्रत्येक देश के प्रति व्यक्ति जीडीपी से की, और उन देशों के लिए एक मजबूत प्रवृत्ति पाई, जहां Google उपयोगकर्ता भविष्य के बारे में अधिक पूछताछ करते हैं ताकि उच्च जीडीपी हो।

Tobias Preis और उनके सहयोगियों Helen Susannah Moat और H. Eugene Stanley ने Google Trends द्वारा प्रदान किए गए खोज मात्रा डेटा के आधार पर ट्रेडिंग रणनीतियों का उपयोग करके स्टॉक मार्केट चाल के लिए ऑनलाइन अग्रदूतों की पहचान करने के लिए एक विधि की शुरुआत की। अलग-अलग वित्तीय प्रासंगिकता के 98 शब्दों के लिए Google खोज मात्रा का उनका विश्लेषण, वैज्ञानिक रिपोर्ट में प्रकाशित, सुझाव देता है कि वित्तीय रूप से प्रासंगिक खोज शब्दों के लिए खोज मात्रा में वृद्धि वित्तीय बाजारों में बड़े नुकसान से पहले होती है। बड़े डेटा सेट एल्गोरिथम चुनौतियों के साथ आते हैं जो पहले मौजूद नहीं थे। इसलिए, कुछ लोगों द्वारा प्रसंस्करण के तरीकों को मूलभूत रूप से बदलने की आवश्यकता देखी गई है। मॉडर्न मैसिव डेटा सेट्स (MMDS) के लिए एल्गोरिथम पर वर्कशॉप बड़े डेटा की एल्गोरिथम चुनौतियों पर चर्चा करने के लिए कंप्यूटर वैज्ञानिकों, सांख्यिकीविदों, गणितज्ञों और डेटा विश्लेषण चिकित्सकों को एक साथ लाती है। बड़े डेटा के संबंध में, परिमाण की ऐसी अवधारणाएँ सापेक्ष होती हैं। जैसा कि कहा गया है कि यदि अतीत किसी मार्गदर्शन का है, तो आज के बड़े आंकड़ों को निकट भविष्य में ऐसा नहीं माना जाएगा।

बड़ा डेटा नमूनाकरण
बड़े डेटा सेट के बारे में पूछा जाने वाला एक शोध प्रश्न यह है कि क्या डेटा के गुणों के बारे में कुछ निष्कर्ष निकालने के लिए पूर्ण डेटा को देखना आवश्यक है या यदि नमूना पर्याप्त है। बड़े डेटा नाम में ही आकार से संबंधित एक शब्द होता है और यह बड़े डेटा की एक महत्वपूर्ण विशेषता है। लेकिन नमूनाकरण (सांख्यिकी) संपूर्ण जनसंख्या की विशेषताओं का अनुमान लगाने के लिए बड़े डेटा सेट के भीतर से सही डेटा बिंदुओं के चयन को सक्षम बनाता है। विभिन्न प्रकार के संवेदी डेटा जैसे ध्वनिकी, कंपन, दबाव, करंट, वोल्टेज और नियंत्रक डेटा के निर्माण में कम समय के अंतराल पर उपलब्ध होते हैं। डाउनटाइम की भविष्यवाणी करने के लिए सभी डेटा को देखना आवश्यक नहीं हो सकता है लेकिन एक नमूना पर्याप्त हो सकता है। बड़े डेटा को विभिन्न डेटा बिंदु श्रेणियों जैसे कि जनसांख्यिकीय, मनोवैज्ञानिक, व्यवहारिक और लेन-देन संबंधी डेटा द्वारा तोड़ा जा सकता है। डेटा बिंदुओं के बड़े सेट के साथ, विपणक अधिक रणनीतिक लक्ष्यीकरण के लिए उपभोक्ताओं के अधिक अनुकूलित खंड बनाने और उपयोग करने में सक्षम हैं।

बड़े डेटा के लिए सैंपलिंग एल्गोरिदम में कुछ काम किया गया है। Twitter डेटा के नमूने के लिए एक सैद्धांतिक सूत्रीकरण विकसित किया गया है।

समालोचना
बड़े डेटा प्रतिमान की समालोचना दो रूपों में आती है: वे जो स्वयं दृष्टिकोण के निहितार्थ पर सवाल उठाती हैं, और वे जो वर्तमान में किए जाने वाले तरीके पर सवाल उठाती हैं। इस आलोचना का एक दृष्टिकोण महत्वपूर्ण डेटा अध्ययनों का क्षेत्र है।

बड़े डेटा प्रतिमान की आलोचना
एक महत्वपूर्ण समस्या यह है कि हम अंतर्निहित अनुभवजन्य सूक्ष्म-प्रक्रियाओं के बारे में ज्यादा नहीं जानते हैं जो बड़े डेटा की [से] विशिष्ट नेटवर्क विशेषताओं के उद्भव की ओर ले जाती हैं। अपनी समालोचना में, स्निजडर्स, मैटज़ैट, और उल्फ-डिट्रिच रिप्स बताते हैं कि अक्सर गणितीय गुणों के बारे में बहुत मजबूत धारणाएं बनाई जाती हैं जो सूक्ष्म प्रक्रियाओं के स्तर पर वास्तव में क्या हो रहा है, यह प्रतिबिंबित नहीं कर सकता है। मार्क ग्राहम ने क्रिस एंडरसन (लेखक) के इस दावे पर व्यापक आलोचना की है कि बड़ा डेटा सिद्धांत के अंत का संकेत देगा: विशेष रूप से इस धारणा पर ध्यान केंद्रित करते हुए कि बड़े डेटा को हमेशा उनके सामाजिक, आर्थिक और राजनीतिक संदर्भों में प्रासंगिक होना चाहिए। भले ही कंपनियां आपूर्तिकर्ताओं और ग्राहकों से जानकारी स्ट्रीमिंग से अंतर्दृष्टि प्राप्त करने के लिए आठ और नौ-आंकड़े रकम का निवेश करती हैं, लेकिन 40% से कम कर्मचारियों के पास ऐसा करने के लिए पर्याप्त परिपक्व प्रक्रियाएं और कौशल हैं। हार्वर्ड बिजनेस रिव्यू में एक लेख के मुताबिक, इस अंतर्दृष्टि घाटे को दूर करने के लिए, बड़ा डेटा, चाहे कितना व्यापक या अच्छी तरह से विश्लेषण किया गया हो, बड़े फैसले से पूरक होना चाहिए। इसी क्रम में, यह बताया गया है कि बड़े डेटा के विश्लेषण के आधार पर निर्णय अनिवार्य रूप से दुनिया द्वारा सूचित किए जाते हैं जैसा कि अतीत में था, या, सबसे अच्छा, जैसा कि वर्तमान में है। पिछले अनुभवों पर बड़ी संख्या में डेटा द्वारा फेड, एल्गोरिदम भविष्य के विकास की भविष्यवाणी कर सकते हैं यदि भविष्य अतीत के समान है। यदि सिस्टम की भविष्य की गतिशीलता बदल जाती है (यदि यह एक स्थिर प्रक्रिया नहीं है), तो अतीत भविष्य के बारे में बहुत कम कह सकता है। बदलते परिवेश में भविष्यवाणियां करने के लिए, गतिशील प्रणालियों की गहन समझ होना आवश्यक होगा, जिसके लिए सिद्धांत की आवश्यकता होती है। इस समालोचना की प्रतिक्रिया के रूप में एलेमनी ओलिवर और वायरे ने उपभोक्ताओं के डिजिटल अंशों के संदर्भ में लाने और नए सिद्धांतों को उभरने के लिए अनुसंधान प्रक्रिया में पहले कदम के रूप में अपहरण तर्क का उपयोग करने का सुझाव दिया। इसके अतिरिक्त, कंप्यूटर सिमुलेशन, जैसे एजेंट-आधारित मॉडल के साथ बड़े डेटा दृष्टिकोण को संयोजित करने का सुझाव दिया गया है और जटिल प्रणाली। कंप्यूटर सिमुलेशन के माध्यम से अज्ञात भविष्य के परिदृश्यों की सामाजिक जटिलताओं के परिणाम की भविष्यवाणी करने में एजेंट-आधारित मॉडल तेजी से बेहतर हो रहे हैं जो पारस्परिक रूप से अन्योन्याश्रित एल्गोरिदम के संग्रह पर आधारित हैं। अंत में, बहुभिन्नरूपी तरीकों का उपयोग जो डेटा की गुप्त संरचना की जांच करता है, जैसे कि कारक विश्लेषण और क्लस्टर विश्लेषण, विश्लेषणात्मक दृष्टिकोण के रूप में उपयोगी साबित हुए हैं जो द्वि-चर दृष्टिकोणों (जैसे आकस्मिक तालिकाओं) से परे जाते हैं जो आमतौर पर छोटे डेटा के साथ नियोजित होते हैं। सेट।

स्वास्थ्य और जीव विज्ञान में पारंपरिक वैज्ञानिक दृष्टिकोण प्रयोग पर आधारित हैं। इन दृष्टिकोणों के लिए, सीमित कारक प्रासंगिक डेटा है जो प्रारंभिक परिकल्पना की पुष्टि या खंडन कर सकता है। बायोसाइंसेस में अब एक नया अभिधारणा स्वीकार किया जाता है: पूर्व परिकल्पना के बिना बड़ी मात्रा में डेटा ( omics ) द्वारा प्रदान की गई जानकारी पूरक है और कभी-कभी प्रयोग के आधार पर पारंपरिक दृष्टिकोणों के लिए आवश्यक है। बड़े पैमाने पर दृष्टिकोण में यह सीमित कारक है जो डेटा की व्याख्या करने के लिए एक प्रासंगिक परिकल्पना का निर्माण है। खोज तर्क को उलट दिया गया है और प्रेरण की सीमा (विज्ञान और दर्शनशास्त्र कांड की महिमा, सी. डी. ब्रॉड, 1926) पर विचार किया जाना है।

उपभोक्ता गोपनीयता अधिवक्ता व्यक्तिगत रूप से पहचान योग्य जानकारी के बढ़ते भंडारण और एकीकरण द्वारा प्रस्तुत गोपनीयता के खतरे के बारे में चिंतित हैं; विशेषज्ञ पैनल ने गोपनीयता की अपेक्षाओं के अनुरूप अभ्यास करने के लिए विभिन्न नीतिगत सिफारिशें जारी की हैं। मीडिया, कंपनियों और यहां तक ​​कि सरकार द्वारा कई मामलों में बड़े डेटा के दुरुपयोग ने समाज को धारण करने वाली लगभग हर मूलभूत संस्था में विश्वास को समाप्त करने की अनुमति दी है। नायेफ अल-रोधन का तर्क है कि बड़े डेटा और विशाल निगमों के संदर्भ में व्यक्तिगत स्वतंत्रता की रक्षा के लिए एक नए प्रकार के सामाजिक अनुबंध की आवश्यकता होगी, जो कि बड़ी मात्रा में जानकारी रखते हैं, और यह कि बड़े डेटा के उपयोग की निगरानी की जानी चाहिए और इसे बेहतर विनियमित किया जाना चाहिए। राष्ट्रीय और अंतरराष्ट्रीय स्तर। Barocas और Nissenbaum का तर्क है कि व्यक्तिगत उपयोगकर्ताओं की सुरक्षा का एक तरीका यह है कि किस प्रकार की जानकारी एकत्र की जा रही है, किसके साथ इसे साझा किया जाता है, किन बाधाओं के तहत और किन उद्देश्यों के लिए सूचित किया जाता है।

वी मॉडल की आलोचना
बड़े डेटा का वी मॉडल संबंधित है क्योंकि यह कम्प्यूटेशनल स्केलेबिलिटी के आसपास केंद्रित है और सूचना की धारणा और समझ के आसपास नुकसान की कमी है। इसने संज्ञानात्मक बड़े डेटा के ढांचे को जन्म दिया, जो बड़े डेटा अनुप्रयोगों की विशेषता है:
 * डेटा पूर्णता: डेटा से गैर-स्पष्ट की समझ
 * डेटा सहसंबंध, कार्य-कारण और पूर्वानुमेयता: पूर्वानुमेयता प्राप्त करने के लिए कार्य-कारण आवश्यक आवश्यकता नहीं है
 * स्पष्टीकरण और व्याख्यात्मकता: मनुष्य जो कुछ भी समझते हैं उसे समझने और स्वीकार करने की इच्छा रखते हैं, जहां एल्गोरिदम इसका सामना नहीं कर पाते हैं
 * स्वचालित निर्णय लेने का स्तर: एल्गोरिदम जो स्वचालित निर्णय लेने और एल्गोरिथम स्व-शिक्षण का समर्थन करते हैं

नवीनता की आलोचना
एक शताब्दी से भी अधिक समय से कंप्यूटिंग मशीनों द्वारा बड़े डेटा सेट का विश्लेषण किया गया है, जिसमें आईबीएम की पंच-कार्ड मशीनों द्वारा किए गए अमेरिकी जनगणना विश्लेषण शामिल हैं, जो पूरे महाद्वीप में आबादी के साधनों और भिन्नताओं सहित आँकड़ों की गणना करते हैं। हाल के दशकों में, CERN जैसे विज्ञान प्रयोगों ने वर्तमान वाणिज्यिक बड़े डेटा के समान पैमाने पर डेटा का उत्पादन किया है। हालांकि, विज्ञान के प्रयोगों ने अपने डेटा का विश्लेषण करने के लिए विशिष्ट कस्टम-निर्मित उच्च-प्रदर्शन कंप्यूटिंग (सुपर-कंप्यूटिंग) क्लस्टर और ग्रिड का उपयोग किया है, बजाय वर्तमान वाणिज्यिक लहर के रूप में सस्ते कमोडिटी कंप्यूटर के बादलों के बजाय, संस्कृति और प्रौद्योगिकी दोनों में अंतर को दर्शाता है। ढेर।

बड़े डेटा निष्पादन की आलोचना
Ulf-Dietrich Reips और Uwe Matzat ने 2014 में लिखा था कि वैज्ञानिक अनुसंधान में बड़ा डेटा एक सनक बन गया था। शोधकर्ता दानह बॉयड ने विज्ञान में बड़े डेटा के उपयोग के बारे में चिंता जताई है, जैसे डेटा की भारी मात्रा को संभालने के लिए बहुत अधिक चिंतित होने के कारण नमूनाकरण (सांख्यिकी) चुनने जैसे सिद्धांतों की उपेक्षा करना। यह दृष्टिकोण उन परिणामों को जन्म दे सकता है जिनमें एक या दूसरे तरीके से एक पूर्वाग्रह (सांख्यिकी) है। विषम डेटा संसाधनों में एकीकरण - कुछ जिन्हें बड़ा डेटा माना जा सकता है और अन्य नहीं - दुर्जेय तार्किक और साथ ही विश्लेषणात्मक चुनौतियों को प्रस्तुत करते हैं, लेकिन कई शोधकर्ताओं का तर्क है कि इस तरह के एकीकरण विज्ञान में सबसे आशाजनक नई सीमाओं का प्रतिनिधित्व करने की संभावना है। उत्तेजक लेख में बिग डेटा के लिए महत्वपूर्ण प्रश्न, लेखक बड़े डेटा को पौराणिक कथाओं का एक हिस्सा कहते हैं: बड़े डेटा सेट सच्चाई, निष्पक्षता और सटीकता की आभा के साथ बुद्धि और ज्ञान [...] का एक उच्च रूप प्रदान करते हैं। बड़े डेटा के उपयोगकर्ता अक्सर संख्याओं की विशाल मात्रा में खो जाते हैं, और बिग डेटा के साथ काम करना अभी भी व्यक्तिपरक है, और यह जो परिमाणित करता है, वह अनिवार्य रूप से वस्तुगत सत्य पर एक करीबी दावा नहीं करता है। बीआई डोमेन में हाल के विकास, जैसे कि प्रो-एक्टिव रिपोर्टिंग विशेष रूप से बड़े डेटा की उपयोगिता में सुधार को लक्षित करती है, नकली संबंध के स्वचालित फ़िल्टर (सॉफ्टवेयर) के माध्यम से। गैर-उपयोगी डेटा और सहसंबंध। बड़ी संरचनाएं नकली सहसंबंधों से भरी होती हैं या तो गैर-कारण संयोग (वास्तव में बड़ी संख्या का कानून) के कारण, केवल बड़ी यादृच्छिकता की प्रकृति (रामसे सिद्धांत), या जटिल कारक का अस्तित्व | गैर-शामिल कारक इसलिए आशा, शुरुआती प्रयोगकर्ताओं की संख्या के बड़े डेटाबेस को स्वयं के लिए बोलने और वैज्ञानिक पद्धति में क्रांति लाने के लिए, पूछताछ की जाती है। कैथरीन टकर ने बड़े डेटा के इर्द-गिर्द प्रचार करने की ओर इशारा किया है, लिखते हुए, बड़ा डेटा मूल्यवान होने की संभावना नहीं है। लेख समझाता है: कई संदर्भ जहां डेटा इसे संसाधित करने के लिए प्रतिभा को बनाए रखने की लागत के सापेक्ष सस्ता है, यह सुझाव देता है कि एक फर्म के लिए मूल्य बनाने में डेटा की तुलना में प्रसंस्करण कौशल अधिक महत्वपूर्ण हैं। छोटे डेटा सेट के विश्लेषण की तुलना में बिग डेटा विश्लेषण अक्सर उथला होता है। कई बड़ी डेटा परियोजनाओं में, कोई बड़ा डेटा विश्लेषण नहीं हो रहा है, लेकिन चुनौती डेटा पूर्व-प्रसंस्करण के हिस्से को निकालना, बदलना, लोड करना है।

बड़ा डेटा एक भनभनाहट और एक अस्पष्ट शब्द है, लेकिन साथ ही एक जुनून उद्यमियों, सलाहकारों, वैज्ञानिकों और मीडिया के साथ। बिग डेटा शोकेस जैसे कि Google फ़्लू ट्रेंड हाल के वर्षों में अच्छी भविष्यवाणियां देने में विफल रहा, फ़्लू के प्रकोप को दो गुना बढ़ा दिया। इसी तरह, ट्विटर पर आधारित अकादमी पुरस्कार और चुनावी भविष्यवाणियां अक्सर लक्ष्य से अधिक दूर थीं। बड़ा डेटा अक्सर छोटे डेटा के समान ही चुनौतियाँ पेश करता है; अधिक डेटा जोड़ने से पक्षपात की समस्या का समाधान नहीं होता है, लेकिन अन्य समस्याओं पर जोर दिया जा सकता है। विशेष रूप से डेटा स्रोत जैसे कि ट्विटर समग्र जनसंख्या का प्रतिनिधित्व नहीं करते हैं, और ऐसे स्रोतों से निकाले गए परिणाम गलत निष्कर्ष निकाल सकते हैं। Google Translate—जो टेक्स्ट के बड़े डेटा सांख्यिकीय विश्लेषण पर आधारित है—वेब पेजों के अनुवाद में अच्छा काम करता है। हालाँकि, विशिष्ट डोमेन से परिणाम नाटकीय रूप से विषम हो सकते हैं। दूसरी ओर, बड़ा डेटा नई समस्याओं को भी पेश कर सकता है, जैसे कि कई तुलनाओं की समस्या: एक साथ परिकल्पनाओं के एक बड़े सेट का परीक्षण करने से कई गलत परिणाम उत्पन्न होने की संभावना है जो गलती से महत्वपूर्ण दिखाई देते हैं। आयोनिडिस ने तर्क दिया कि अधिकांश प्रकाशित शोध निष्कर्ष झूठे हैं अनिवार्य रूप से एक ही प्रभाव के कारण: जब कई वैज्ञानिक दल और शोधकर्ता प्रत्येक कई प्रयोग करते हैं (अर्थात बड़ी मात्रा में वैज्ञानिक डेटा को संसाधित करते हैं; हालांकि बड़ी डेटा तकनीक के साथ नहीं), एक महत्वपूर्ण परिणाम के गलत होने की संभावना तेजी से बढ़ती है - इससे भी ज्यादा, जब केवल सकारात्मक परिणाम प्रकाशित होते हैं।

इसके अलावा, बड़े डेटा एनालिटिक्स के परिणाम केवल उतने ही अच्छे होते हैं जितने मॉडल पर वे समर्पित होते हैं। एक उदाहरण में, बिग डेटा ने 2016 के अमेरिकी राष्ट्रपति चुनाव के परिणामों की भविष्यवाणी करने के प्रयास में भाग लिया सफलता की अलग-अलग डिग्री के साथ।

बड़े डेटा पुलिसिंग और निगरानी की आलोचना
संयुक्त राज्य अमेरिका में कानून प्रवर्तन और कॉर्पोरेट निगरानी जैसी संस्थाओं द्वारा पुलिसिंग और निगरानी में बड़े डेटा का उपयोग किया गया है। पुलिसिंग के पारंपरिक तरीकों की तुलना में डेटा-आधारित निगरानी की प्रकृति कम दिखाई देने के कारण, बड़े डेटा पुलिसिंग पर आपत्तियां उत्पन्न होने की संभावना कम होती है। सारा ब्रेन की बिग डेटा सर्विलांस: द केस ऑफ पुलिसिंग के अनुसार, बिग डेटा पुलिसिंग मौजूदा सामाजिक असमानता को तीन तरीकों से पुन: पेश कर सकती है:


 * एक गणितीय और इसलिए निष्पक्ष एल्गोरिथम के औचित्य का उपयोग करके लोगों को अधिक निगरानी में रखना
 * उन लोगों के दायरे और संख्या में वृद्धि करना जो कानून प्रवर्तन ट्रैकिंग के अधीन हैं और संयुक्त राज्य अमेरिका की आपराधिक न्याय प्रणाली में मौजूदा नस्ल को बढ़ा रहे हैं#आपराधिक न्याय प्रणाली में क़ैद में नस्लीय असमानता
 * समाज के सदस्यों को उन संस्थानों के साथ बातचीत छोड़ने के लिए प्रोत्साहित करना जो एक डिजिटल ट्रेस बनाते हैं, इस प्रकार सामाजिक समावेशन में बाधाएं पैदा करते हैं

यदि इन संभावित समस्याओं को ठीक या विनियमित नहीं किया जाता है, तो बिग डेटा पुलिसिंग के प्रभाव सामाजिक पदानुक्रमों को आकार देना जारी रख सकते हैं। बड़े डेटा पुलिसिंग के कर्तव्यनिष्ठ उपयोग से व्यक्तिगत स्तर के पक्षपात को संस्थागत पक्षपात बनने से रोका जा सकता है, ब्रेन भी नोट करते हैं।

यह भी देखें
• Big data ethics

• Big data maturity model

• Big memory

• Data curation

• Data defined storage

• Data engineering

• Data lineage

• Data philanthropy

• Data science

• Datafication

• Document-oriented database

• List of big data companies

• Very large database

• XLDB