बिग डेटा: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{Short description|Information assets characterized by high volume, velocity, and variety}}{{Use dmy dates|date=January 2020}}
{{Short description|Information assets characterized by high volume, velocity, and variety}}[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे [[डेटा सेट]] को संदर्भित करता है जो पारंपरिक [[डाटा प्रासेसिंग]], [[अनुप्रयोग प्रक्रिया सामग्री|एप्लीकेशन प्रक्रिया सामग्री]] द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक [[सांख्यिकीय शक्ति]] प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च [[झूठी खोज दर]] का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे [[डेटा सेट]] को संदर्भित करता है जो पारंपरिक [[डाटा प्रासेसिंग]], [[अनुप्रयोग प्रक्रिया सामग्री|एप्लीकेशन प्रक्रिया सामग्री]] द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक [[सांख्यिकीय शक्ति]] प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च [[झूठी खोज दर]] का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
बड़ी [[डेटा विश्लेषण]] चुनौतियों में [[स्वचालित पहचान और डेटा कैप्चर]], कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, [[डेटा ट्रांसमिशन]], [[डेटा विज़ुअलाइज़ेशन]], क्वेरी भाषा, अद्यतन, [[सूचना गोपनीयता]] और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।<ref name=":0" />बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
बड़ी [[डेटा विश्लेषण]] चुनौतियों में [[स्वचालित पहचान और डेटा कैप्चर]], कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, [[डेटा ट्रांसमिशन]], [[डेटा विज़ुअलाइज़ेशन]], क्वेरी भाषा, अद्यतन, [[सूचना गोपनीयता]] और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।<ref name=":0" />बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, [[उपयोगकर्ता व्यवहार विश्लेषण]], या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से [[डेटा मूल्यांकन]] निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref>
बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, [[उपयोगकर्ता व्यवहार विश्लेषण]], या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से [[डेटा मूल्यांकन]] निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref>
Line 48: Line 47:
बड़े डेटा रिपॉजिटरी कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। वाणिज्यिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बड़े डेटा के लिए समानांतर डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।<ref>{{cite web |url=http://www.eweek.com/database/survey-biggest-databases-approach-30-terabytes|title=Survey: Biggest Databases Approach 30 Terabytes|website=Eweek.com|date=8 November 2003|access-date=8 October 2017}}</ref>{{promotional source|date=December 2018}}
बड़े डेटा रिपॉजिटरी कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। वाणिज्यिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बड़े डेटा के लिए समानांतर डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।<ref>{{cite web |url=http://www.eweek.com/database/survey-biggest-databases-approach-30-terabytes|title=Survey: Biggest Databases Approach 30 Terabytes|website=Eweek.com|date=8 November 2003|access-date=8 October 2017}}</ref>{{promotional source|date=December 2018}}


Teradata Corporation ने 1984 में समानांतर प्रसंस्करण [[DBC 1012]] प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बड़े डेटा की परिभाषा लगातार विकसित होती है। [[टेराडाटा]] ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। {{as of|2017}}, कुछ दर्जन पेटाबाइट क्लास टेराडाटा रिलेशनल डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, Teradata ने [[XML]], [[JSON]], और Avro सहित असंरचित डेटा प्रकारों को जोड़ा है।
टेराडाटा निगम  ने 1984 में समानांतर प्रसंस्करण [[DBC 1012]] प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बड़े डेटा की परिभाषा लगातार विकसित होती है। [[टेराडाटा]] ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। {{as of|2017}}, कुछ दर्जन पेटाबाइट क्लास टेराडाटा रिलेशनल डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, टेराडाटा ने [[XML|एक्सएमएल]], [[JSON]], और Avro सहित असंरचित डेटा प्रकारों को जोड़ा है।


2000 में, सीसिंट इंक. (अब [[लेक्सिसनेक्सिस रिस्क सॉल्यूशंस]]) ने [[एचपीसीसी सिस्टम]]्स प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और पूछताछ के लिए एक [[ सी ++ ]]-आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटाफ्लो प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके बजाय वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, LexisNexis ने Seisint Inc. का अधिग्रहण किया।<ref>{{cite news|url=https://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|title=LexisNexis To Buy Seisint For $775 Million|newspaper=[[The Washington Post]]|access-date=15 July 2004|archive-date=24 July 2008|archive-url=https://web.archive.org/web/20080724195717/http://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|url-status=live}}</ref> और उनके हाई-स्पीड पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।<ref>{{Cite news |url=https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html |title=वाशिंगटन पोस्ट|newspaper=[[The Washington Post]] |access-date=24 August 2017 |archive-date=19 October 2016 |archive-url=https://web.archive.org/web/20161019022657/http://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html |url-status=live }}</ref> 2011 में, Apache v2.0 लाइसेंस के तहत HPCC सिस्टम प्लेटफॉर्म ओपन-सोर्स किया गया था।
2000 में, सीसिंट इंक. (अब [[लेक्सिसनेक्सिस रिस्क सॉल्यूशंस]]) ने [[एचपीसीसी सिस्टम]]्स प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और पूछताछ के लिए एक [[ सी ++ ]]-आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटाफ्लो प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके बजाय वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, LexisNexis ने Seisint Inc. का अधिग्रहण किया।<ref>{{cite news|url=https://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|title=LexisNexis To Buy Seisint For $775 Million|newspaper=[[The Washington Post]]|access-date=15 July 2004|archive-date=24 July 2008|archive-url=https://web.archive.org/web/20080724195717/http://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|url-status=live}}</ref> और उनके हाई-स्पीड पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।<ref>{{Cite news |url=https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html |title=वाशिंगटन पोस्ट|newspaper=[[The Washington Post]] |access-date=24 August 2017 |archive-date=19 October 2016 |archive-url=https://web.archive.org/web/20161019022657/http://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html |url-status=live }}</ref> 2011 में, Apache v2.0 लाइसेंस के तहत HPCC सिस्टम प्लेटफॉर्म ओपन-सोर्स किया गया था।

Revision as of 16:09, 24 March 2023

File:Hilbert InfoGrowth.png
डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना[1]

बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डाटा प्रासेसिंग, एप्लीकेशन प्रक्रिया सामग्री द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय शक्ति प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च झूठी खोज दर का कारण बन सकते हैं।[2] हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।[3]

बड़ी डेटा विश्लेषण चुनौतियों में स्वचालित पहचान और डेटा कैप्चर, कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, डेटा ट्रांसमिशन, डेटा विज़ुअलाइज़ेशन, क्वेरी भाषा, अद्यतन, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।[4]बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।[5] बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, उपयोगकर्ता व्यवहार विश्लेषण, या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से डेटा मूल्यांकन निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।[6] डेटा सेट के विश्लेषण से व्यापार के रुझान को पहचानने, बीमारियों को रोकने, अपराध से निपटने आदि के लिए नए सहसंबंध मिल सकते हैं।[7] वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकारी डेटाबेस नियमित रूप से वेब सर्च इंजन, फिनटेक, हेल्थकेयर एनालिटिक्स, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में बड़े डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिक मौसम विज्ञान, जीनोमिक्स, सहित ई-विज्ञान कार्य में सीमाओं का सामना करते हैं।[8] संयोजी, जटिल भौतिकी सिमुलेशन, जीव विज्ञान और पर्यावरण अनुसंधान।[9] उपलब्ध डेटा सेट का आकार और संख्या तेजी से बढ़ी है क्योंकि डेटा मोबाइल डिवाइस, सस्ते और कई सूचना-संवेदी चीजों की इंटरनेट डिवाइस, एरियल (रिमोट सेंसिंग), सॉफ्टवेयर लॉग, डिजिटल कैमरा, माइक्रोफोन, रेडियो-फ्रीक्वेंसी जैसे उपकरणों द्वारा एकत्र किया जाता है। पहचान (आरएफआईडी) पाठक और वायरलेस सेंसर नेटवर्क[10][11] 1980 के दशक के बाद से दुनिया की तकनीकी प्रति व्यक्ति सूचना भंडारण की क्षमता लगभग हर 40 महीने में दोगुनी हो गई है;[12] as of 2012, प्रतिदिन 2.5 एक्साबाइट (2.5×260 बाइट) डेटा उत्पन्न होता है।[13] अंतर्राष्ट्रीय डेटा निगम की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा वॉल्यूम 2013 और 2020 के बीच 4.4 zettabyte से 44 ज़ेटाबाइट्स तक तेजी से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, आईडीसी भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।[14] आईडीसी के अनुसार, बिग डेटा और बिजनेस एनालिटिक्स (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।[15][16] राजनेता की रिपोर्ट के अनुसार, वैश्विक बड़ा डेटा बाजार 2027 तक बढ़कर 103 अरब डॉलर तक पहुंचने का अनुमान है।[17] 2011 में मैकिन्से एंड कंपनी ने बताया, अगर अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को चलाने के लिए बड़े डेटा का रचनात्मक और प्रभावी ढंग से उपयोग करती है, तो यह क्षेत्र हर साल $300 बिलियन से अधिक का मूल्य बना सकता है।[18]यूरोप की विकसित अर्थव्यवस्थाओं में, बड़े डेटा का उपयोग करके अकेले परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।[18]और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।[18] बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा पहलों का स्वामी कौन होना चाहिए।[19] संबंधपरक डेटाबेस प्रबंधन प्रणाली और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बड़े डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बड़े डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर समानांतर सॉफ़्टवेयर चलाने की आवश्यकता हो सकती है।[20] बड़े डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बड़े डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।[21]


परिभाषा

बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय जनवरी मास को दिया है।[22][23] बड़े डेटा में सामान्य रूप से डेटा अधिग्रहण, डेटा क्यूरेशन, प्रबंधन और डेटा को सहन करने योग्य समय के भीतर संसाधित करने के लिए सामान्य रूप से उपयोग किए जाने वाले सॉफ़्टवेयर टूल की क्षमता से परे आकार वाले डेटा सेट सम्मिलित होते हैं।[24] बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा सम्मिलित हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है।[25] बड़ा डेटा आकार एक सतत गतिमान लक्ष्य है; as of 2012 कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स तक।[26] डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बड़े डेटा को डेटा एकीकरण के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।[27] कुछ संगठनों द्वारा इसका वर्णन करने के लिए विविधता, सत्यता और कई अन्य बनाम जोड़े जाते हैं, कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई एक संशोधन।[28] बड़े डेटा के Vs को प्रायः तीन Vs, चार Vs और पाँच Vs के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, वेग, सत्यता और मूल्य में बड़े डेटा के गुणों का प्रतिनिधित्व करते हैं।[4] परिवर्तनशीलता को प्रायः बड़े डेटा की अतिरिक्त गुणवत्ता के रूप में सम्मिलित किया जाता है।

2018 की परिभाषा में कहा गया है कि बिग डेटा वह है जहां डेटा और नोट्स को संभालने के लिए समानांतर कंप्यूटिंग टूल की आवश्यकता होती है, यह समानांतर प्रोग्रामिंग सिद्धांतों के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक विशिष्ट और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है, और कुछ गारंटी और क्षमताओं का नुकसान होता है। संबंधपरक डेटाबेस | Codd का संबंधपरक मॉडल।[29] बड़े डेटासेट के एक तुलनात्मक अध्ययन में, रोब किचिन और मैकआर्डल ने पाया कि बड़े डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी मामलों में लगातार दिखाई नहीं देता है।[30] इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की खोज में शक्ति गतिकी की पुनर्परिभाषा की पहचान की।[31] बड़े डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के बजाय, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है।

बिग डेटा बनाम व्यापारिक सूचना

अवधारणा की बढ़ती परिपक्वता बड़े डेटा और व्यावसायिक बुद्धिमत्ता के बीच के अंतर को और अधिक स्पष्ट रूप से चित्रित करती है:[32]

  • व्यापार खुफिया चीजों को मापने, प्रवृत्तियों का पता लगाने आदि के लिए उच्च सूचना घनत्व वाले डेटा के साथ लागू गणित उपकरण और वर्णनात्मक आंकड़ों का उपयोग करता है।
  • बड़ा डेटा गणितीय विश्लेषण, अनुकूलन, आगमनात्मक सांख्यिकी और गैर-रैखिक प्रणाली पहचान से अवधारणाओं का उपयोग करता है[33] कम सूचना घनत्व वाले डेटा के बड़े सेट से कानून (प्रतिगमन, गैर-रैखिक संबंध और कारण प्रभाव) का अनुमान लगाने के लिए[34] संबंधों और निर्भरताओं को प्रकट करने के लिए, या परिणामों और व्यवहारों की भविष्यवाणी करने के लिए।[33][35][promotional source?]

विशेषताएं

File:Big Data.png
बड़े डेटा की मात्रा, वेग और विविधता की प्राथमिक विशेषताओं के विकास को दर्शाता है।

बड़े डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:

आयतन
उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बड़ा डेटा माना जा सकता है या नहीं। बड़े डेटा का आकार सामान्य रूप से टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।[36]
विविधता
डेटा का प्रकार और प्रकृति। RDBMSs जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी ढंग से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (वेग), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को पकड़ने, संग्रहीत करने और संसाधित करने के मुख्य इरादे से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए बेहतर था। आखिरकार, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बड़े डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में मदद करता है। बड़ा डेटा पाठ, छवियों, ऑडियो, वीडियो से आकर्षित होता है; साथ ही यह डेटा फ्यूजन के माध्यम से लापता टुकड़ों को पूरा करता है।
वेग
वह गति जिस पर विकास और विकास के मार्ग में आने वाली मांगों और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बड़ा डेटा प्रायः वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बड़ा डेटा अधिक लगातार उत्पन्न होता है। बड़े डेटा से संबंधित दो प्रकार के वेग पीढ़ी की आवृत्ति और हैंडलिंग, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।[37]

सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।[38] बड़ा डेटा न केवल आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। कैप्चर किए गए डेटा की डेटा गुणवत्ता एक सटीक विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।[39]

मूल्य
सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बड़े डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है।[40] मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बड़े डेटा के विश्लेषण से प्राप्त किया गया है।
परिवर्तनशीलता
बड़े डेटा के बदलते प्रारूप, संरचना या स्रोतों की विशेषता। बड़े डेटा में संरचित, असंरचित, या संरचित और असंरचित डेटा का संयोजन सम्मिलित हो सकता है। बिग डेटा विश्लेषण कई स्रोतों से कच्चे डेटा को एकीकृत कर सकता है। कच्चे डेटा के प्रसंस्करण में असंरचित डेटा को संरचित डेटा में बदलना भी सम्मिलित हो सकता है।

बड़े डेटा की अन्य संभावित विशेषताएं हैं:[41] संपूर्ण: क्या संपूर्ण प्रणाली (अर्थात, =all) कैप्चर या रिकॉर्ड किया गया है या नहीं। बड़े डेटा में स्रोतों से उपलब्ध सभी डेटा सम्मिलित हो सकते हैं या नहीं भी हो सकते हैं।

फाइन-ग्रेन्ड और यूनीक लेक्सिकल
क्रमशः, एकत्र किए गए प्रत्येक तत्व के विशिष्ट डेटा का अनुपात और यदि तत्व और इसकी विशेषताओं को ठीक से अनुक्रमित या पहचाना जाता है।
संबंधपरक
यदि एकत्र किए गए डेटा में सामान्य फ़ील्ड हैं जो विभिन्न डेटा सेटों के संयोजन, या मेटा-विश्लेषण को सक्षम करेगा।
विस्तृत
यदि एकत्र किए गए डेटा के प्रत्येक तत्व में नए फ़ील्ड आसानी से जोड़े या बदले जा सकते हैं।
स्केलेबिलिटी
यदि बड़े डेटा भंडारण सिस्टम का आकार तेजी से विस्तार कर सकता है।

आर्किटेक्चर

बड़े डेटा रिपॉजिटरी कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। वाणिज्यिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बड़े डेटा के लिए समानांतर डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।[42][promotional source?]

टेराडाटा निगम ने 1984 में समानांतर प्रसंस्करण DBC 1012 प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बड़े डेटा की परिभाषा लगातार विकसित होती है। टेराडाटा ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। As of 2017, कुछ दर्जन पेटाबाइट क्लास टेराडाटा रिलेशनल डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, टेराडाटा ने एक्सएमएल, JSON, और Avro सहित असंरचित डेटा प्रकारों को जोड़ा है।

2000 में, सीसिंट इंक. (अब लेक्सिसनेक्सिस रिस्क सॉल्यूशंस) ने एचपीसीसी सिस्टम्स प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और पूछताछ के लिए एक सी ++ -आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटाफ्लो प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके बजाय वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, LexisNexis ने Seisint Inc. का अधिग्रहण किया।[43] और उनके हाई-स्पीड पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।[44] 2011 में, Apache v2.0 लाइसेंस के तहत HPCC सिस्टम प्लेटफॉर्म ओपन-सोर्स किया गया था।

सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बड़े डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बड़े डेटा आंदोलन द्वारा सामान्य रूप से मानचित्र-कम आर्किटेक्चर के बजाय उच्च-थ्रूपुट कंप्यूटिंग के माध्यम से विश्लेषण किया जाता है।

2004 में, गूगल ने MapReduce नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान आर्किटेक्चर का उपयोग करता है। MapReduce अवधारणा एक समानांतर प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। MapReduce के साथ, प्रश्नों को विभाजित किया जाता है और समांतर नोड्स में वितरित किया जाता है और समांतर (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और वितरित किए जाते हैं (कम चरण)। ढांचा बहुत सफल रहा,[45] इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, MapReduce ढांचे के कार्यान्वयन को Apache Hadoop नामक एक Apache ओपन-सोर्स प्रोजेक्ट द्वारा अपनाया गया था।[46] Apache Spark को 2012 में MapReduce प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह इन-मेमोरी प्रोसेसिंग और कई ऑपरेशन सेट करने की क्षमता जोड़ता है (न कि केवल मानचित्र को कम करके)।

MIKE2.0 कार्यप्रणाली|MIKE2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा सॉल्यूशन ऑफ़रिंग शीर्षक वाले लेख में पहचाने गए बड़े डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।[47] कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रमपरिवर्तन, अंतर्संबंधों में जटिलता और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बड़े डेटा को संभालने का समाधान करती है।[48] 2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले मुद्दों को हल करने के लिए एक बहु-परत वास्तुकला एक विकल्प था। फाइल सिस्टम की एक सूची # वितरित समांतर फाइल सिस्टम आर्किटेक्चर कई सर्वरों में डेटा वितरित करता है; ये समानांतर निष्पादन वातावरण डेटा प्रोसेसिंग गति में नाटकीय रूप से सुधार कर सकते हैं। इस प्रकार का आर्किटेक्चर डेटा को एक समानांत