बिग डेटा: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{Short description|Information assets characterized by high volume, velocity, and variety}}
{{Short description|Information assets characterized by high volume, velocity, and variety}}{{Use dmy dates|date=January 2020}}
{{About|large collections of data|the band|Big Data (band)|the practice of buying and selling of personal and consumer data|Surveillance capitalism}}
[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे [[डेटा सेट]] को संदर्भित करता है जो पारंपरिक [[डाटा प्रासेसिंग]], [[अनुप्रयोग प्रक्रिया सामग्री|एप्लीकेशन प्रक्रिया सामग्री]] द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक [[सांख्यिकीय शक्ति]] प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च [[झूठी खोज दर]] का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
 
{{Use dmy dates|date=January 2020}}
[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे [[डेटा सेट]] को संदर्भित करता है जो पारंपरिक [[डाटा प्रासेसिंग]] | डेटा-प्रोसेसिंग [[अनुप्रयोग प्रक्रिया सामग्री|एप्लीकेशन प्रक्रिया सामग्री]] द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक [[सांख्यिकीय शक्ति]] प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च [[झूठी खोज दर]] का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
बड़ी [[डेटा विश्लेषण]] चुनौतियों में [[स्वचालित पहचान और डेटा कैप्चर]], कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, [[डेटा ट्रांसमिशन]], [[डेटा विज़ुअलाइज़ेशन]], क्वेरी भाषा, अद्यतन, [[सूचना गोपनीयता]] और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।<ref name=":0" />बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
बड़ी [[डेटा विश्लेषण]] चुनौतियों में [[स्वचालित पहचान और डेटा कैप्चर]], कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, [[डेटा ट्रांसमिशन]], [[डेटा विज़ुअलाइज़ेशन]], क्वेरी भाषा, अद्यतन, [[सूचना गोपनीयता]] और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।<ref name=":0" />बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, [[उपयोगकर्ता व्यवहार विश्लेषण]], या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से [[डेटा मूल्यांकन]] निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref>
बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, [[उपयोगकर्ता व्यवहार विश्लेषण]], या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से [[डेटा मूल्यांकन]] निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref>

Revision as of 14:51, 22 March 2023

File:Hilbert InfoGrowth.png
डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना[1]

बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डाटा प्रासेसिंग, एप्लीकेशन प्रक्रिया सामग्री द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय शक्ति प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च झूठी खोज दर का कारण बन सकते हैं।[2] हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।[3]

बड़ी डेटा विश्लेषण चुनौतियों में स्वचालित पहचान और डेटा कैप्चर, कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, डेटा ट्रांसमिशन, डेटा विज़ुअलाइज़ेशन, क्वेरी भाषा, अद्यतन, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।[4]बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।[5] बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, उपयोगकर्ता व्यवहार विश्लेषण, या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से डेटा मूल्यांकन निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।[6] डेटा सेट के विश्लेषण से व्यापार के रुझान को पहचानने, बीमारियों को रोकने, अपराध से निपटने आदि के लिए नए सहसंबंध मिल सकते हैं।[7] वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकारी डेटाबेस नियमित रूप से वेब सर्च इंजन, फिनटेक, हेल्थकेयर एनालिटिक्स, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में बड़े डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिक मौसम विज्ञान, जीनोमिक्स, सहित ई-विज्ञान कार्य में सीमाओं का सामना करते हैं।[8] संयोजी, जटिल भौतिकी सिमुलेशन, जीव विज्ञान और पर्यावरण अनुसंधान।[9] उपलब्ध डेटा सेट का आकार और संख्या तेजी से बढ़ी है क्योंकि डेटा मोबाइल डिवाइस, सस्ते और कई सूचना-संवेदी चीजों की इंटरनेट डिवाइस, एरियल (रिमोट सेंसिंग), सॉफ्टवेयर लॉग, डिजिटल कैमरा, माइक्रोफोन, रेडियो-फ्रीक्वेंसी जैसे उपकरणों द्वारा एकत्र किया जाता है। पहचान (आरएफआईडी) पाठक और वायरलेस सेंसर नेटवर्क[10][11] 1980 के दशक के बाद से दुनिया की तकनीकी प्रति व्यक्ति सूचना भंडारण की क्षमता लगभग हर 40 महीने में दोगुनी हो गई है;[12] as of 2012, प्रतिदिन 2.5 एक्साबाइट (2.5×260 बाइट) डेटा उत्पन्न होता है।[13] अंतर्राष्ट्रीय डेटा निगम की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा वॉल्यूम 2013 और 2020 के बीच 4.4 zettabyte से 44 ज़ेटाबाइट्स तक तेजी से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, आईडीसी भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।[14] आईडीसी के अनुसार, बिग डेटा और बिजनेस एनालिटिक्स (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।[15][16] राजनेता की रिपोर्ट के अनुसार, वैश्विक बड़ा डेटा बाजार 2027 तक बढ़कर 103 अरब डॉलर तक पहुंचने का अनुमान है।[17] 2011 में मैकिन्से एंड कंपनी ने बताया, अगर अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को चलाने के लिए बड़े डेटा का रचनात्मक और प्रभावी ढंग से उपयोग करती है, तो यह क्षेत्र हर साल $300 बिलियन से अधिक का मूल्य बना सकता है।[18]यूरोप की विकसित अर्थव्यवस्थाओं में, बड़े डेटा का उपयोग करके अकेले परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।[18]और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।[18] बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा पहलों का स्वामी कौन होना चाहिए।[19] संबंधपरक डेटाबेस प्रबंधन प्रणाली और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बड़े डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बड़े डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर समानांतर सॉफ़्टवेयर चलाने की आवश्यकता हो सकती है।[20] बड़े डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बड़े डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।[21]


परिभाषा

बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय जनवरी मास को दिया है।[22][23] बड़े डेटा में सामान्य रूप से डेटा अधिग्रहण, डेटा क्यूरेशन, प्रबंधन और डेटा को सहन करने योग्य समय के भीतर संसाधित करने के लिए सामान्य रूप से उपयोग किए जाने वाले सॉफ़्टवेयर टूल की क्षमता से परे आकार वाले डेटा सेट सम्मिलित होते हैं।[24] बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा सम्मिलित हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है।[25] बड़ा डेटा आकार एक सतत गतिमान लक्ष्य है; as of 2012 कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स तक।[26] डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बड़े डेटा को डेटा एकीकरण के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।[27] कुछ संगठनों द्वारा इसका वर्णन करने के लिए विविधता, सत्यता और कई अन्य बनाम जोड़े जाते हैं, कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई एक संशोधन।[28] बड़े डेटा के Vs को प्रायः तीन Vs, चार Vs और पाँच Vs के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, वेग, सत्यता और मूल्य में बड़े डेटा के गुणों का प्रतिनिधित्व करते हैं।[4] परिवर्तनशीलता को प्रायः बड़े डेटा की अतिरिक्त गुणवत्ता के रूप में सम्मिलित किया जाता है।

2018 की परिभाषा में कहा गया है कि बिग डेटा वह है जहां डेटा और नोट्स को संभालने के लिए समानांतर कंप्यूटिंग टूल की आवश्यकता होती है, यह समानांतर प्रोग्रामिंग सिद्धांतों के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक विशिष्ट और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है, और कुछ गारंटी और क्षमताओं का नुकसान होता है। संबंधपरक डेटाबेस | Codd का संबंधपरक मॉडल।[29] बड़े डेटासेट के एक तुलनात्मक अध्ययन में, रोब किचिन और मैकआर्डल ने पाया कि बड़े डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी मामलों में लगातार दिखाई नहीं देता है।[30] इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की खोज में शक्ति गतिकी की पुनर्परिभाषा की पहचान की।[31] बड़े डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के बजाय, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है।

बिग डेटा बनाम व्यापारिक सूचना

अवधारणा की बढ़ती परिपक्वता बड़े डेटा और व्यावसायिक बुद्धिमत्ता के बीच के अंतर को और अधिक स्पष्ट रूप से चित्रित करती है:[32]

  • व्यापार खुफिया चीजों को मापने, प्रवृत्तियों का पता लगाने आदि के लिए उच्च सूचना घनत्व वाले डेटा के साथ लागू गणित उपकरण और वर्णनात्मक आंकड़ों का उपयोग करता है।
  • बड़ा डेटा गणितीय विश्लेषण, अनुकूलन, आगमनात्मक सांख्यिकी और गैर-रैखिक प्रणाली पहचान से अवधारणाओं का उपयोग करता है[33] कम सूचना घनत्व वाले डेटा के बड़े सेट से कानून (प्रतिगमन, गैर-रैखिक संबंध और कारण प्रभाव) का अनुमान लगाने के लिए[34] संबंधों और निर्भरताओं को प्रकट करने के लिए, या परिणामों और व्यवहारों की भविष्यवाणी करने के लिए।[33][35][promotional source?]

विशेषताएं

File:Big Data.png
बड़े डेटा की मात्रा, वेग और विविधता की प्राथमिक विशेषताओं के विकास को दर्शाता है।

बड़े डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:

आयतन
उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बड़ा डेटा माना जा सकता है या नहीं। बड़े डेटा का आकार सामान्य रूप से टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।[36]
विविधता
डेटा का प्रकार और प्रकृति। RDBMSs जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी ढंग से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (वेग), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को पकड़ने, संग्रहीत करने और संसाधित करने के मुख्य इरादे से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए बेहतर था। आखिरकार, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बड़े डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में मदद करता है। बड़ा डेटा पाठ, छवियों, ऑडियो, वीडियो से आकर्षित होता है; साथ ही यह डेटा फ्यूजन के माध्यम से लापता टुकड़ों को पूरा करता है।
वेग
वह गति जिस पर विकास और विकास के मार्ग में आने वाली मांगों और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बड़ा डेटा प्रायः वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बड़ा डेटा अधिक लगातार उत्पन्न होता है। बड़े डेटा से संबंधित दो प्रकार के वेग पीढ़ी की आवृत्ति और हैंडलिंग, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।[37]

सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।[38] बड़ा डेटा न केवल आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। कैप्चर किए गए डेटा की डेटा गुणवत्ता एक सटीक विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।[39]

मूल्य
सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बड़े डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है।[40] मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बड़े डेटा के विश्लेषण से प्राप्त किया गया है।
परिवर्तनशीलता
बड़े डेटा के बदलते प्रारूप, संरचना या स्रोतों की विशेषता। बड़े डेटा में संरचित, असंरचित, या संरचित और असंरचित डेटा का संयोजन सम्मिलित हो सकता है। बिग डेटा विश्लेषण कई स्रोतों से कच्चे डेटा को एकीकृत कर सकता है। कच्चे डेटा के प्रसंस्करण में असंरचित डेटा को संरचित डेटा में बदलना भी सम्मिलित हो सकता है।

बड़े डेटा की अन्य संभावित विशेषताएं हैं:[41] संपूर्ण: क्या संपूर्ण प्रणाली (अर्थात, =all) कैप्चर या रिकॉर्ड किया गया है या नहीं। बड़े डेटा में स्रोतों से उपलब्ध सभी डेटा सम्मिलित हो सकते हैं या नहीं भी हो सकते हैं।

फाइन-ग्रेन्ड और यूनीक लेक्सिकल
क्रमशः, एकत्र किए गए प्रत्येक तत्व के विशिष्ट डेटा का अनुपात और यदि तत्व और इसकी विशेषताओं को ठीक से अनुक्रमित या पहचाना जाता है।
संबंधपरक
यदि एकत्र किए गए डेटा में सामान्य फ़ील्ड हैं जो विभिन्न डेटा सेटों के संयोजन, या मेटा-विश्लेषण को सक्षम करेगा।
विस्तृत
यदि एकत्र किए गए डेटा के प्रत्येक तत्व में नए फ़ील्ड आसानी से जोड़े या बदले जा सकते हैं।
स्केलेबिलिटी
यदि बड़े डेटा भंडारण सिस्टम का आकार तेजी से विस्तार कर सकता है।

आर्किटेक्चर

बड़े डेटा रिपॉजिटरी कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। वाणिज्यिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बड़े डेटा के लिए समानांतर डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।[42][promotional source?]

Teradata Corporation ने 1984 में समानांतर प्रसंस्करण DBC 1012 प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बड़े डेटा की परिभाषा लगातार विकसित होती है। टेराडाटा ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। As of 2017, कुछ दर्जन पेटाबाइट क्लास टेराडाटा रिलेशनल डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, Teradata ने XML, JSON, और Avro सहित असंरचित डेटा प्रकारों को जोड़ा है।

2000 में, सीसिंट इंक. (अब लेक्सिसनेक्सिस रिस्क सॉल्यूशंस) ने एचपीसीसी सिस्टम्स प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और पूछताछ के लिए एक सी ++ -आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटाफ्लो प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके बजाय वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, LexisNexis ने Seisint Inc. का अधिग्रहण किया।[43] और उनके हाई-स्पीड पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।[44] 2011 में, Apache v2.0 लाइसेंस के तहत HPCC सिस्टम प्लेटफॉर्म ओपन-सोर्स किया गया था।

सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बड़े डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बड़े डेटा आंदोलन द्वारा सामान्य रूप से मानचित्र-कम आर्किटेक्चर के बजाय उच्च-थ्रूपुट कंप्यूटिंग के माध्यम से विश्लेषण किया जाता है।

2004 में, गूगल ने MapReduce नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान आर्किटेक्चर का उपयोग करता है। MapReduce अवधारणा एक समानांतर प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। MapReduce के साथ, प्रश्नों को विभाजित किया जाता है और समांतर नोड्स में वितरित किया जाता है और समांतर (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और वितरित किए जाते हैं (कम चरण)। ढांचा बहुत सफल रहा,[45] इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, MapReduce ढांचे के कार्यान्वयन को Apache Hadoop नामक एक Apache ओपन-सोर्स प्रोजेक्ट द्वारा अपनाया गया था।[46] Apache Spark को 2012 में MapReduce प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह इन-मेमोरी प्रोसेसिंग और कई ऑपरेशन सेट करने की क्षमता जोड़ता है (न कि केवल मानचित्र को कम करके)।

MIKE2.0 कार्यप्रणाली|MIKE2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा सॉल्यूशन ऑफ़रिंग शीर्षक वाले लेख में पहचाने गए बड़े डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।[47] कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रमपरिवर्तन, अंतर्संबंधों में जटिलता और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बड़े डेटा को संभालने का समाधान करती है।[48] 2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले मुद्दों को हल करने के लिए एक बहु-परत वास्तुकला एक विकल्प था। फाइल सिस्टम की एक सूची # वितरित समांतर फाइल सिस्टम आर्किटेक्चर कई सर्वरों में डेटा वितरित करता है; ये समानांतर निष्पादन वातावरण डेटा प्रोसेसिंग गति में नाटकीय रूप से सुधार कर सकते हैं। इस प्रकार का आर्किटेक्चर डेटा को एक समानांतर DBMS में सम्मिलित करता है, जो MapReduce और Hadoop फ्रेमवर्क के उपयोग को लागू करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण शक्ति को एंड-यूज़र के लिए पारदर्शी बनाती है।[49] डेटा लेक एक संगठन को सूचना प्रबंधन की बदलती गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की स्वीकृति देता है। यह डेटा झील में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।[50][51]


टेक्नोलॉजीज

2011 की मैकिन्से एंड कंपनी की रिपोर्ट बड़े डेटा के मुख्य घटकों और पारिस्थितिकी तंत्र की विशेषता बताती है:[52]

बहुआयामी बड़े डेटा को OLAP डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी DBMS इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय क्वेरी समर्थन प्रदान करने के लिए निर्धारित किया गया है। बड़े डेटा पर लागू की जा रही अतिरिक्त तकनीकों में कुशल टेन्सर-आधारित संगणना सम्मिलित है,[53] जैसे कि बहुरेखीय उप-अंतरिक्ष अधिगम,[54] बड़े पैमाने पर समानांतर-प्रसंस्करण (विशाल समानांतर प्रसंस्करण) डेटाबेस, खोज-आधारित एप्लीकेशन, डेटा खनन,[55] वितरित फ़ाइल सिस्टम, वितरित कैश (जैसे, फट बफर और मेमेकैच्ड), वितरित डेटाबेस, क्लाउड कंप्यूटिंग और सुपर कंप्यूटर | एचपीसी-आधारित बुनियादी ढाँचा (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),[56] और इंटरनेट।[citation needed] हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बड़े डेटा के साथ मशीन लर्निंग को पूरा करना अभी भी मुश्किल है।[57] कुछ विशाल समांतर प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित आरडीबीएमएस में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।[58][promotional source?]

DARPA का टोपोलॉजिकल डेटा विश्लेषण प्रोग्राम बड़े पैमाने पर डेटा सेट की मूलभूत संरचना की तलाश करता है और 2008 में अयास्दी नामक कंपनी के लॉन्च के साथ तकनीक सार्वजनिक हो गई।[59][third-party source needed]

बड़े डेटा विश्लेषण प्रक्रियाओं के व्यवसायी सामान्य रूप से धीमे साझा भंडारण के प्रति शत्रुतापूर्ण होते हैं,[60] सॉलिड स्टेट ड्राइव (SSD) से लेकर समानांतर प्रोसेसिंग नोड्स के अंदर दफन उच्च क्षमता वाले सीरियल ATA डिस्क तक इसके विभिन्न रूपों में