बिग डेटा
बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डाटा प्रासेसिंग | डेटा-प्रोसेसिंग अनुप्रयोग प्रक्रिया सामग्री द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय शक्ति प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च झूठी खोज दर का कारण बन सकते हैं।[2] हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।[3]
बड़ी डेटा विश्लेषण चुनौतियों में स्वचालित पहचान और डेटा कैप्चर, कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, डेटा ट्रांसमिशन, डेटा विज़ुअलाइज़ेशन, क्वेरी भाषा, अद्यतन, सूचना गोपनीयता और डेटा स्रोत शामिल हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।[4]बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की अनुमति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।[5] बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, उपयोगकर्ता व्यवहार विश्लेषण, या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से डेटा मूल्यांकन निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।[6] डेटा सेट के विश्लेषण से व्यापार के रुझान को पहचानने, बीमारियों को रोकने, अपराध से निपटने आदि के लिए नए सहसंबंध मिल सकते हैं।[7] वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकारी डेटाबेस नियमित रूप से वेब सर्च इंजन, फिनटेक, हेल्थकेयर एनालिटिक्स, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में बड़े डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिक मौसम विज्ञान, जीनोमिक्स, सहित ई-विज्ञान कार्य में सीमाओं का सामना करते हैं।[8] संयोजी, जटिल भौतिकी सिमुलेशन, जीव विज्ञान और पर्यावरण अनुसंधान।[9] उपलब्ध डेटा सेट का आकार और संख्या तेजी से बढ़ी है क्योंकि डेटा मोबाइल डिवाइस, सस्ते और कई सूचना-संवेदी चीजों की इंटरनेट डिवाइस, एरियल (रिमोट सेंसिंग), सॉफ्टवेयर लॉग, डिजिटल कैमरा, माइक्रोफोन, रेडियो-फ्रीक्वेंसी जैसे उपकरणों द्वारा एकत्र किया जाता है। पहचान (आरएफआईडी) पाठक और वायरलेस सेंसर नेटवर्क।[10][11] 1980 के दशक के बाद से दुनिया की तकनीकी प्रति व्यक्ति सूचना भंडारण की क्षमता लगभग हर 40 महीने में दोगुनी हो गई है;[12] as of 2012[update], प्रतिदिन 2.5 एक्साबाइट (2.5×260 बाइट) डेटा उत्पन्न होता है।[13] अंतर्राष्ट्रीय डेटा निगम की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा वॉल्यूम 2013 और 2020 के बीच 4.4 zettabyte से 44 ज़ेटाबाइट्स तक तेजी से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, आईडीसी भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।[14] आईडीसी के अनुसार, बिग डेटा और बिजनेस एनालिटिक्स (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।[15][16] राजनेता की रिपोर्ट के अनुसार, वैश्विक बड़ा डेटा बाजार 2027 तक बढ़कर 103 अरब डॉलर तक पहुंचने का अनुमान है।[17] 2011 में मैकिन्से एंड कंपनी ने बताया, अगर अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को चलाने के लिए बड़े डेटा का रचनात्मक और प्रभावी ढंग से उपयोग करती है, तो यह क्षेत्र हर साल $300 बिलियन से अधिक का मूल्य बना सकता है।[18]यूरोप की विकसित अर्थव्यवस्थाओं में, बड़े डेटा का उपयोग करके अकेले परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।[18]और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।[18] बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा पहलों का स्वामी कौन होना चाहिए।[19] संबंधपरक डेटाबेस प्रबंधन प्रणाली और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में अक्सर बड़े डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बड़े डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर समानांतर सॉफ़्टवेयर चलाने की आवश्यकता हो सकती है।[20] बड़े डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अलावा, क्षमताओं का विस्तार बड़े डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।[21]
परिभाषा
बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय जनवरी मास को दिया है।[22][23] बड़े डेटा में आम तौर पर डेटा अधिग्रहण, डेटा क्यूरेशन, प्रबंधन और डेटा को सहन करने योग्य समय के भीतर संसाधित करने के लिए आमतौर पर उपयोग किए जाने वाले सॉफ़्टवेयर टूल की क्षमता से परे आकार वाले डेटा सेट शामिल होते हैं।[24] बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा शामिल हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है।[25] बड़ा डेटा आकार एक सतत गतिमान लक्ष्य है; as of 2012[update] कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स तक।[26] डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बड़े डेटा को डेटा एकीकरण के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।[27] कुछ संगठनों द्वारा इसका वर्णन करने के लिए विविधता, सत्यता और कई अन्य बनाम जोड़े जाते हैं, कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई एक संशोधन।[28] बड़े डेटा के Vs को अक्सर तीन Vs, चार Vs और पाँच Vs के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, वेग, सत्यता और मूल्य में बड़े डेटा के गुणों का प्रतिनिधित्व करते हैं।[4] परिवर्तनशीलता को अक्सर बड़े डेटा की अतिरिक्त गुणवत्ता के रूप में शामिल किया जाता है।
2018 की परिभाषा में कहा गया है कि बिग डेटा वह है जहां डेटा और नोट्स को संभालने के लिए समानांतर कंप्यूटिंग टूल की आवश्यकता होती है, यह समानांतर प्रोग्रामिंग सिद्धांतों के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक विशिष्ट और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है, और कुछ गारंटी और क्षमताओं का नुकसान होता है। संबंधपरक डेटाबेस | Codd का संबंधपरक मॉडल।[29] बड़े डेटासेट के एक तुलनात्मक अध्ययन में, रोब किचिन और मैकआर्डल ने पाया कि बड़े डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी मामलों में लगातार दिखाई नहीं देता है।[30] इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की खोज में शक्ति गतिकी की पुनर्परिभाषा की पहचान की।[31] बड़े डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के बजाय, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है।
बिग डेटा बनाम व्यापारिक सूचना
अवधारणा की बढ़ती परिपक्वता बड़े डेटा और व्यावसायिक बुद्धिमत्ता के बीच के अंतर को और अधिक स्पष्ट रूप से चित्रित करती है:[32]
- व्यापार खुफिया चीजों को मापने, प्रवृत्तियों का पता लगाने आदि के लिए उच्च सूचना घनत्व वाले डेटा के साथ लागू गणित उपकरण और वर्णनात्मक आंकड़ों का उपयोग करता है।
- बड़ा डेटा गणितीय विश्लेषण, अनुकूलन, आगमनात्मक सांख्यिकी और गैर-रैखिक प्रणाली पहचान से अवधारणाओं का उपयोग करता है[33] कम सूचना घनत्व वाले डेटा के बड़े सेट से कानून (प्रतिगमन, गैर-रैखिक संबंध और कारण प्रभाव) का अनुमान लगाने के लिए[34] संबंधों और निर्भरताओं को प्रकट करने के लिए, या परिणामों और व्यवहारों की भविष्यवाणी करने के लिए।[33][35][promotional source?]
विशेषताएं
बड़े डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:
- आयतन
- उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बड़ा डेटा माना जा सकता है या नहीं। बड़े डेटा का आकार आमतौर पर टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।[36]
- विविधता
- डेटा का प्रकार और प्रकृति। RDBMSs जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी ढंग से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने मौजूदा उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (वेग), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को पकड़ने, संग्रहीत करने और संसाधित करने के मुख्य इरादे से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए बेहतर था। आखिरकार, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बड़े डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में मदद करता है। बड़ा डेटा पाठ, छवियों, ऑडियो, वीडियो से आकर्षित होता है; साथ ही यह डेटा फ्यूजन के माध्यम से लापता टुकड़ों को पूरा करता है।
- वेग
- वह गति जिस पर विकास और विकास के मार्ग में आने वाली मांगों और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बड़ा डेटा अक्सर वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बड़ा डेटा अधिक लगातार उत्पन्न होता है। बड़े डेटा से संबंधित दो प्रकार के वेग पीढ़ी की आवृत्ति और हैंडलिंग, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।[37]
सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।[38] बड़ा डेटा न केवल आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। कैप्चर किए गए डेटा की डेटा गुणवत्ता एक सटीक विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।[39]
- मूल्य
- सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बड़े डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है।[40] मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बड़े डेटा के विश्लेषण से प्राप्त किया गया है।
- परिवर्तनशीलता
- बड़े डेटा के बदलते प्रारूप, संरचना या स्रोतों की विशेषता। बड़े डेटा में संरचित, असंरचित, या संरचित और असंरचित डेटा का संयोजन शामिल हो सकता है। बिग डेटा विश्लेषण कई स्रोतों से कच्चे डेटा को एकीकृत कर सकता है। कच्चे डेटा के प्रसंस्करण में असंरचित डेटा को संरचित डेटा में बदलना भी शामिल हो सकता है।
बड़े डेटा की अन्य संभावित विशेषताएं हैं:[41] संपूर्ण: क्या संपूर्ण प्रणाली (अर्थात, =all) कैप्चर या रिकॉर्ड किया गया है या नहीं। बड़े डेटा में स्रोतों से उपलब्ध सभी डेटा शामिल हो सकते हैं या नहीं भी हो सकते हैं।
- फाइन-ग्रेन्ड और यूनीक लेक्सिकल
- क्रमशः, एकत्र किए गए प्रत्येक तत्व के विशिष्ट डेटा का अनुपात और यदि तत्व और इसकी विशेषताओं को ठीक से अनुक्रमित या पहचाना जाता है।
- संबंधपरक
- यदि एकत्र किए गए डेटा में सामान्य फ़ील्ड हैं जो विभिन्न डेटा सेटों के संयोजन, या मेटा-विश्लेषण को सक्षम करेगा।
- विस्तृत
- यदि एकत्र किए गए डेटा के प्रत्येक तत्व में नए फ़ील्ड आसानी से जोड़े या बदले जा सकते हैं।
- स्केलेबिलिटी
- यदि बड़े डेटा स्टोरेज सिस्टम का आकार तेजी से विस्तार कर सकता है।
आर्किटेक्चर
बड़े डेटा रिपॉजिटरी कई रूपों में मौजूद हैं, जिन्हें अक्सर निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। वाणिज्यिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बड़े डेटा के लिए समानांतर डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।[42][promotional source?]
Teradata Corporation ने 1984 में समानांतर प्रसंस्करण DBC 1012 प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को स्टोर और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बड़े डेटा की परिभाषा लगातार विकसित होती है। टेराडाटा ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। As of 2017[update], कुछ दर्जन पेटाबाइट क्लास टेराडाटा रिलेशनल डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, Teradata ने XML, JSON, और Avro सहित असंरचित डेटा प्रकारों को जोड़ा है।
2000 में, सीसिंट इंक. (अब लेक्सिसनेक्सिस रिस्क सॉल्यूशंस) ने एचपीसीसी सिस्टम्स प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और पूछताछ के लिए एक सी ++ -आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटाफ्लो प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके बजाय वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, LexisNexis ने Seisint Inc. का अधिग्रहण किया।[43] और उनके हाई-स्पीड पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।[44] 2011 में, Apache v2.0 लाइसेंस के तहत HPCC सिस्टम प्लेटफॉर्म ओपन-सोर्स किया गया था।
सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बड़े डेटा सेट एकत्र किए हैं, आमतौर पर वर्तमान बड़े डेटा आंदोलन द्वारा आमतौर पर मानचित्र-कम आर्किटेक्चर के बजाय उच्च-थ्रूपुट कंप्यूटिंग के माध्यम से विश्लेषण किया जाता है।
2004 में, Google ने MapReduce नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान आर्किटेक्चर का उपयोग करता है। MapReduce अवधारणा एक समानांतर प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। MapReduce के साथ, प्रश्नों को विभाजित किया जाता है और समांतर नोड्स में वितरित किया जाता है और समांतर (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और वितरित किए जाते हैं (कम चरण)। ढांचा बहुत सफल रहा,[45] इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, MapReduce ढांचे के कार्यान्वयन को Apache Hadoop नामक एक Apache ओपन-सोर्स प्रोजेक्ट द्वारा अपनाया गया था।[46] Apache Spark को 2012 में MapReduce प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह इन-मेमोरी प्रोसेसिंग और कई ऑपरेशन सेट करने की क्षमता जोड़ता है (न कि केवल मानचित्र को कम करके)।
MIKE2.0 कार्यप्रणाली|MIKE2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा सॉल्यूशन ऑफ़रिंग शीर्षक वाले लेख में पहचाने गए बड़े डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।[47] कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रमपरिवर्तन, अंतर्संबंधों में जटिलता और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बड़े डेटा को संभालने का समाधान करती है।[48] 2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले मुद्दों को हल करने के लिए एक बहु-परत वास्तुकला एक विकल्प था। फाइल सिस्टम की एक सूची # वितरित समांतर फाइल सिस्टम आर्किटेक्चर कई सर्वरों में डेटा वितरित करता है; ये समानांतर निष्पादन वातावरण डेटा प्रोसेसिंग गति में नाटकीय रूप से सुधार कर सकते हैं। इस प्रकार का आर्किटेक्चर डेटा को एक समानांतर DBMS में सम्मिलित करता है, जो MapReduce और Hadoop फ्रेमवर्क के उपयोग को लागू करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण शक्ति को एंड-यूज़र के लिए पारदर्शी बनाती है।[49] डेटा लेक एक संगठन को सूचना प्रबंधन की बदलती गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की अनुमति देता है। यह डेटा झील में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।[50][51]
टेक्नोलॉजीज
2011 की मैकिन्से एंड कंपनी की रिपोर्ट बड़े डेटा के मुख्य घटकों और पारिस्थितिकी तंत्र की विशेषता बताती है:[52]
- डेटा का विश्लेषण करने की तकनीक, जैसे ए/बी टेस्टिंग, यंत्र अधिगम और प्राकृतिक भाषा प्रसंस्करण
- बिग डेटा प्रौद्योगिकियां, जैसे बिजनेस इंटेलिजेंस, क्लाउड कम्प्यूटिंग और डेटाबेस
- विज़ुअलाइज़ेशन, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले
बहुआयामी बड़े डेटा को OLAP डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी DBMS इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय क्वेरी समर्थन प्रदान करने के लिए निर्धारित किया गया है। बड़े डेटा पर लागू की जा रही अतिरिक्त तकनीकों में कुशल टेन्सर-आधारित संगणना शामिल है,[53] जैसे कि बहुरेखीय उप-अंतरिक्ष अधिगम,[54] बड़े पैमाने पर समानांतर-प्रसंस्करण (विशाल समानांतर प्रसंस्करण) डेटाबेस, खोज-आधारित अनुप्रयोग, डेटा खनन,[55] वितरित फ़ाइल सिस्टम, वितरित कैश (जैसे, फट बफर और मेमेकैच्ड), वितरित डेटाबेस, क्लाउड कंप्यूटिंग और सुपर कंप्यूटर | एचपीसी-आधारित बुनियादी ढाँचा (अनुप्रयोग, भंडारण और कंप्यूटिंग संसाधन),[56] और इंटरनेट।[citation needed] हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बड़े डेटा के साथ मशीन लर्निंग को पूरा करना अभी भी मुश्किल है।[57] कुछ विशाल समांतर प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को स्टोर और प्रबंधित करने की क्षमता होती है। अंतर्निहित आरडीबीएमएस में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।[58][promotional source?]
DARPA का टोपोलॉजिकल डेटा विश्लेषण प्रोग्राम बड़े पैमाने पर डेटा सेट की मूलभूत संरचना की तलाश करता है और 2008 में अयास्दी नामक कंपनी के लॉन्च के साथ तकनीक सार्वजनिक हो गई।[59][third-party source needed]
बड़े डेटा विश्लेषण प्रक्रियाओं के व्यवसायी आम तौर पर धीमे साझा भंडारण के प्रति शत्रुतापूर्ण होते हैं,[60] सॉलिड स्टेट ड्राइव (SSD) से लेकर समानांतर प्रोसेसिंग नोड्स के अंदर दफन उच्च क्षमता वाले सीरियल ATA डिस्क तक इसके विभिन्न रूपों में डायरेक्ट-अटैच्ड स्टोरेज (डायरेक्ट-अटैच्ड स्टोरेज) को प्राथमिकता देना। साझा स्टोरेज आर्किटेक्चर- संरक्षण क्षेत्र नियंत्रण कार्य (SAN) और नेटवर्क से जुड़ा संग्रहण (NAS) की धारणा यह है कि वे अपेक्षाकृत धीमे, जटिल और महंगे हैं। ये गुण बड़े डेटा एनालिटिक्स सिस्टम के अनुरूप नहीं हैं जो सिस्टम के प्रदर्शन, कमोडिटी इन्फ्रास्ट्रक्चर और कम लागत पर फलते-फूलते हैं।
वास्तविक या निकट-वास्तविक समय सूचना वितरण बड़े डेटा विश्लेषण की परिभाषित विशेषताओं में से एक है। इसलिए जब भी और जहां भी संभव हो विलंबता से बचा जाता है। डायरेक्ट-अटैच्ड मेमोरी या डिस्क में डेटा अच्छा है—फाइबर कनेक्टर के दूसरे छोर पर मेमोरी या डिस्क पर डेटा स्टोरेज एरिया नेटवर्क कनेक्शन नहीं है। एनालिटिक्स एप्लिकेशन के लिए आवश्यक पैमाने पर स्टोरेज एरिया नेटवर्क की लागत अन्य स्टोरेज तकनीकों की तुलना में बहुत अधिक है।
अनुप्रयोग
बिग डेटा ने सूचना प्रबंधन विशेषज्ञों की मांग इतनी बढ़ा दी है कि सॉफ्टवेयर इंक , ओरेकल कॉर्पोरेशन, आईबीएम, माइक्रोसॉफ्ट, एसएपी एजी, ईएमसी निगम, हेवलेट पैकर्ड और गड्ढा ने डेटा प्रबंधन में विशेषज्ञता रखने वाली सॉफ्टवेयर फर्मों पर $15 बिलियन से अधिक खर्च किया है। विश्लेषिकी। 2010 में, यह उद्योग $100 बिलियन से अधिक मूल्य का था और प्रति वर्ष लगभग 10 प्रतिशत की दर से बढ़ रहा था, जो पूरे सॉफ्टवेयर व्यवसाय से लगभग दोगुना था।[7]
विकसित अर्थव्यवस्थाएँ तेजी से डेटा-गहन तकनीकों का उपयोग कर रही हैं। दुनिया भर में 4.6 बिलियन मोबाइल-फोन सब्सक्रिप्शन हैं, और 1 बिलियन से 2 बिलियन के बीच लोग इंटरनेट का उपयोग कर रहे हैं।[7] 1990 और 2005 के बीच, दुनिया भर में 1 अरब से अधिक लोगों ने मध्यम वर्ग में प्रवेश किया, जिसका अर्थ है कि अधिक लोग अधिक साक्षर हो गए, जिसके परिणामस्वरूप सूचना वृद्धि हुई। दूरसंचार नेटवर्क के माध्यम से सूचनाओं के आदान-प्रदान की दुनिया की प्रभावी क्षमता 1986 में 281 पेटाबाइट, 1993 में 471 पेटाबाइट, 2000 में 2.2 एक्साबाइट, 2007 में 65 एक्साबाइट थी।[12]और भविष्यवाणियों ने 2014 तक सालाना 667 एक्साबाइट्स पर इंटरनेट यातायात की मात्रा रखी।[7] एक अनुमान के अनुसार, विश्व स्तर पर संग्रहीत जानकारी का एक तिहाई अल्फ़ान्यूमेरिक पाठ और स्थिर छवि डेटा के रूप में है,[61] जो अधिकांश बड़े डेटा अनुप्रयोगों के लिए सर्वाधिक उपयोगी प्रारूप है। यह अभी तक अप्रयुक्त डेटा (अर्थात वीडियो और ऑडियो सामग्री के रूप में) की क्षमता को भी दर्शाता है।
जबकि कई विक्रेता बड़े डेटा के लिए ऑफ-द-शेल्फ उत्पादों की पेशकश करते हैं, अगर कंपनी के पास पर्याप्त तकनीकी क्षमताएं हैं, तो विशेषज्ञ इन-हाउस कस्टम-सिलवाया सिस्टम के विकास को बढ़ावा देते हैं।[62]
सरकार
सरकारी प्रक्रियाओं के भीतर बड़े डेटा का उपयोग और अपनाने से लागत, उत्पादकता और नवाचार के संदर्भ में दक्षता प्राप्त होती है,[63] लेकिन इसके दोषों के बिना नहीं आता है। डेटा विश्लेषण के लिए अक्सर सरकार के कई हिस्सों (केंद्रीय और स्थानीय) के सहयोग से काम करने और वांछित परिणाम देने के लिए नई और अभिनव प्रक्रियाएं बनाने की आवश्यकता होती है। एक सामान्य सरकारी संगठन जो बड़े डेटा का उपयोग करता है, वह है राष्ट्रीय सुरक्षा प्रशासन (राष्ट्रीय सुरक्षा एजेंसी), जो संदिग्ध या अवैध गतिविधियों के संभावित पैटर्न की तलाश में लगातार इंटरनेट की गतिविधियों पर नज़र रखता है, जो उनका सिस्टम उठा सकता है।
नागरिक पंजीकरण और महत्वपूर्ण आँकड़े (CRVS) जन्म से लेकर मृत्यु तक सभी प्रमाणपत्रों की स्थिति एकत्र करता है। CRVS सरकारों के लिए बड़े डेटा का एक स्रोत है।
अंतर्राष्ट्रीय विकास
विकास के लिए सूचना और संचार प्रौद्योगिकियों के प्रभावी उपयोग पर शोध (जिसे ICT4D के रूप में भी जाना जाता है) से पता चलता है कि बड़ी डेटा तकनीक महत्वपूर्ण योगदान दे सकती है, लेकिन अंतर्राष्ट्रीय विकास के लिए अनूठी चुनौतियाँ भी पेश करती है।[64][65] बड़े डेटा विश्लेषण में प्रगति स्वास्थ्य देखभाल, रोजगार, आर्थिक उत्पादकता, अपराध, सुरक्षा और प्राकृतिक आपदा और संसाधन प्रबंधन जैसे महत्वपूर्ण विकास क्षेत्रों में नि