बिग डेटा: Difference between revisions

From Vigyanwiki
m (Abhishek moved page बड़ा डेटा to बिग डाटा without leaving a redirect)
No edit summary
 
(13 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{Short description|Information assets characterized by high volume, velocity, and variety}}
''यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।''{{Short description|Information assets characterized by high volume, velocity, and variety}}[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]'''''बिग डेटा'''''  मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निर्धारित किए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत जांच दर का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम सिर्फ छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
{{About|large collections of data|the band|Big Data (band)|the practice of buying and selling of personal and consumer data|Surveillance capitalism}}
बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, जांच, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था।<ref name=":0" /> बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले सिर्फ अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
 
बिग डेटा शब्द का वर्तमान उपयोग भविष्यसूचक विश्लेषण, उपयोगकर्ता गतिविधि विश्लेषण या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बिग डेटा से मूल्य निकालते हैं और संभव्यता ही कभी डेटा सेट के किसी विशेष आकार के होते हैं। "इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा पारिस्थितिकी तंत्र की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref> डेटा सेट के विश्लेषण से "स्पॉट बिजनेस ट्रेंड्स प्रिवेंट डिजीज कॉम्बैट क्राइम<nowiki>''</nowiki> से रोकते हैं और इसी तरह के लिए नए सहसंबंध मिल सकते हैं।{{r|Economist}} इंटरनेट जांच, फिनटेक, स्वास्थ्य सेवा विश्‍लेषक, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकार समान रूप से नियमित रूप से बिग डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिकों को मौसम विज्ञान, जीनोमिक्स,<ref>{{cite journal | title = सामुदायिक चतुराई की आवश्यकता है| journal = Nature | volume = 455 | issue = 7209 | pages = 1 | date = September 2008 | pmid = 18769385 | doi = 10.1038/455001a | bibcode = 2008Natur.455....1. | doi-access = free }}</ref> कनेक्टोमिक्स, जटिल भौतिकी सिमुलेशन, जीव विज्ञान, और पर्यावरण अनुसंधान सहित ई-विज्ञान कार्य में सीमाओं का सामना करना पड़ता है।<ref>{{cite journal | vauthors = Reichman OJ, Jones MB, Schildhauer MP | title = पारिस्थितिकी में खुले डेटा की चुनौतियाँ और अवसर| journal = Science | volume = 331 | issue = 6018 | pages = 703–5 | date = February 2011 | pmid = 21311007 | doi = 10.1126/science.1197962 | bibcode = 2011Sci...331..703R | s2cid = 22686503 | url = https://escholarship.org/uc/item/7627s45z | access-date = 12 July 2019 | archive-date = 19 October 2020 | archive-url = https://web.archive.org/web/20201019060839/https://escholarship.org/uc/item/7627s45z | url-status = live }}</ref>
 
उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref>2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा विक्रय के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011" /> यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में संशोधन के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011" /> और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>
 
[[संबंधपरक डेटाबेस प्रबंधन प्रणाली]] और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर पैरेलल सॉफ़्टवेयर संचालन की आवश्यकता हो सकती है।<ref>{{cite web |author= Jacobs, A. |title= बिग डेटा की पैथोलॉजी|date= 6 July 2009 |work= ACMQueue |url= http://queue.acm.org/detail.cfm?id=1563874 |access-date= 21 April 2010 |archive-date= 8 December 2015 |archive-url= https://web.archive.org/web/20151208072827/http://queue.acm.org/detail.cfm?id=1563874 |url-status= live }}</ref> बिग डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बिग डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों [[गीगाबाइट]] डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।<ref>{{cite journal|last1=Magoulas|first1=Roger|last2=Lorica|first2=Ben|date=February 2009|title=बिग डेटा का परिचय|url=https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|journal=Release 2.0|location=Sebastopol CA|publisher=O'Reilly Media|issue=11|access-date=26 February 2021|archive-date=2 November 2021|archive-url=https://web.archive.org/web/20211102185002/https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|url-status=live}}</ref>
 


{{Use dmy dates|date=January 2020}}
[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग स्टोरेज का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे [[डेटा सेट]] को संदर्भित करता है जो पारंपरिक [[डाटा प्रासेसिंग]] | डेटा-प्रोसेसिंग [[अनुप्रयोग प्रक्रिया सामग्री]] द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक [[सांख्यिकीय शक्ति]] प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च [[झूठी खोज दर]] का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बड़े डेटा का सबसे अच्छा वर्णन करती है, वह बड़ी मात्रा में जानकारी से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
बड़ी [[डेटा विश्लेषण]] चुनौतियों में [[स्वचालित पहचान और डेटा कैप्चर]], कंप्यूटर डेटा संग्रहण, डेटा विश्लेषण, खोज, डेटा साझाकरण, [[डेटा ट्रांसमिशन]], [[डेटा विज़ुअलाइज़ेशन]], क्वेरी भाषा, अद्यतन, [[सूचना गोपनीयता]] और डेटा स्रोत शामिल हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं से जुड़ा था: आयतन, विविधता और वेग।<ref name=":0" />बड़े डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की अनुमति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता लागत और जोखिम उत्पन्न कर सकती है जो बड़े डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
बड़े डेटा शब्द का वर्तमान उपयोग भविष्य कहनेवाला विश्लेषण, [[उपयोगकर्ता व्यवहार विश्लेषण]], या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बड़े डेटा से [[डेटा मूल्यांकन]] निकालते हैं, और शायद ही कभी डेटा सेट के एक विशेष आकार के लिए। इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा इकोसिस्टम की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref>
डेटा सेट के विश्लेषण से व्यापार के रुझान को पहचानने, बीमारियों को रोकने, अपराध से निपटने आदि के लिए नए सहसंबंध मिल सकते हैं।{{r|Economist}} वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और [[सरकारी डेटाबेस]] नियमित रूप से [[वेब सर्च इंजन]], [[फिनटेक]], हेल्थकेयर एनालिटिक्स, भौगोलिक सूचना प्रणाली, [[शहरी सूचना विज्ञान]] और व्यापार सूचना विज्ञान सहित क्षेत्रों में बड़े डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिक मौसम विज्ञान, [[जीनोमिक्स]], सहित [[ई-विज्ञान]] कार्य में सीमाओं का सामना करते हैं।<ref>{{cite journal | title = सामुदायिक चतुराई की आवश्यकता है| journal = Nature | volume = 455 | issue = 7209 | pages = 1 | date = September 2008 | pmid = 18769385 | doi = 10.1038/455001a | bibcode = 2008Natur.455....1. | doi-access = free }}</ref> संयोजी, जटिल भौतिकी सिमुलेशन, जीव विज्ञान और पर्यावरण अनुसंधान।<ref>{{cite journal | vauthors = Reichman OJ, Jones MB, Schildhauer MP | title = पारिस्थितिकी में खुले डेटा की चुनौतियाँ और अवसर| journal = Science | volume = 331 | issue = 6018 | pages = 703–5 | date = February 2011 | pmid = 21311007 | doi = 10.1126/science.1197962 | bibcode = 2011Sci...331..703R | s2cid = 22686503 | url = https://escholarship.org/uc/item/7627s45z | access-date = 12 July 2019 | archive-date = 19 October 2020 | archive-url = https://web.archive.org/web/20201019060839/https://escholarship.org/uc/item/7627s45z | url-status = live }}</ref>
उपलब्ध डेटा सेट का आकार और संख्या तेजी से बढ़ी है क्योंकि डेटा [[मोबाइल डिवाइस]], सस्ते और कई सूचना-संवेदी [[चीजों की इंटरनेट]] डिवाइस, एरियल ([[रिमोट सेंसिंग]]), सॉफ्टवेयर लॉग, [[डिजिटल कैमरा]], माइक्रोफोन, रेडियो-फ्रीक्वेंसी जैसे उपकरणों द्वारा एकत्र किया जाता है। पहचान (आरएफआईडी) पाठक और [[वायरलेस सेंसर नेटवर्क]]।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से दुनिया की तकनीकी प्रति व्यक्ति सूचना भंडारण की क्षमता लगभग हर 40 महीने में दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref> {{As of|2012|lc=on}}, प्रतिदिन 2.5 [[एक्साबाइट]] (2.5×2<sup>60</sup> बाइट) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा वॉल्यूम 2013 और 2020 के बीच 4.4 [[zettabyte]] से 44 ज़ेटाबाइट्स तक तेजी से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, आईडीसी भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> आईडीसी के अनुसार, बिग डेटा और बिजनेस एनालिटिक्स (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> [[ राजनेता ]] की रिपोर्ट के अनुसार, वैश्विक बड़ा डेटा बाजार 2027 तक बढ़कर 103 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने बताया, अगर अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को चलाने के लिए बड़े डेटा का रचनात्मक और प्रभावी ढंग से उपयोग करती है, तो यह क्षेत्र हर साल $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011"/>यूरोप की विकसित अर्थव्यवस्थाओं में, बड़े डेटा का उपयोग करके अकेले परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011"/>और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा पहलों का स्वामी कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>
[[संबंधपरक डेटाबेस प्रबंधन प्रणाली]] और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में अक्सर बड़े डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बड़े डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर समानांतर सॉफ़्टवेयर चलाने की आवश्यकता हो सकती है।<ref>{{cite web |author= Jacobs, A. |title= बिग डेटा की पैथोलॉजी|date= 6 July 2009 |work= ACMQueue |url= http://queue.acm.org/detail.cfm?id=1563874 |access-date= 21 April 2010 |archive-date= 8 December 2015 |archive-url= https://web.archive.org/web/20151208072827/http://queue.acm.org/detail.cfm?id=1563874 |url-status= live }}</ref> बड़े डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अलावा, क्षमताओं का विस्तार बड़े डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों [[गीगाबाइट]] डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।<ref>{{cite journal|last1=Magoulas|first1=Roger|last2=Lorica|first2=Ben|date=February 2009|title=बिग डेटा का परिचय|url=https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|journal=Release 2.0|location=Sebastopol CA|publisher=O'Reilly Media|issue=11|access-date=26 February 2021|archive-date=2 November 2021|archive-url=https://web.archive.org/web/20211102185002/https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|url-status=live}}</ref>




== परिभाषा ==
== परिभाषा ==
बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय [[जनवरी मास]] को दिया है।<ref>{{Cite web |title= बिग डेटा ... और इन्फ्रास्ट्रेस की अगली लहर|author= John R. Mashey |date= 25 April 1998 |publisher= Usenix |work= Slides from invited talk |url= http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf |access-date= 28 September 2016 |archive-date= 12 October 2016 |archive-url= https://web.archive.org/web/20161012095743/http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf |url-status= live }}</ref><ref>{{cite news |title=The Origins of 'Big Data': An Etymological Detective Story |author=Steve Lohr |date=1 February 2013 |url=http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/ |work=[[The New York Times]] |access-date=28 September 2016 |archive-date=6 March 2016 |archive-url=https://web.archive.org/web/20160306042217/http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/ |url-status=live }}</ref>
बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय [[जनवरी मास|जॉन मैशे]] को दिया है।<ref>{{Cite web |title= बिग डेटा ... और इन्फ्रास्ट्रेस की अगली लहर|author= John R. Mashey |date= 25 April 1998 |publisher= Usenix |work= Slides from invited talk |url= http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf |access-date= 28 September 2016 |archive-date= 12 October 2016 |archive-url= https://web.archive.org/web/20161012095743/http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf |url-status= live }}</ref><ref>{{cite news |title=The Origins of 'Big Data': An Etymological Detective Story |author=Steve Lohr |date=1 February 2013 |url=http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/ |work=[[The New York Times]] |access-date=28 September 2016 |archive-date=6 March 2016 |archive-url=https://web.archive.org/web/20160306042217/http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/ |url-status=live }}</ref> बिग डेटा में सामान्य रूप से डेटा अधिग्रहण, [[डेटा क्यूरेशन]], प्रबंधन और डेटा को सहन करने योग्य समय के अंदर संसाधित करने के लिए सामान्य रूप से उपयोग किए जाने वाले सॉफ़्टवेयर उपकरण की क्षमता से अधिक आकार वाले डेटा सेट सम्मिलित होते हैं।<ref name="Editorial">{{cite journal | last1 = Snijders | first1 = C. | last2 = Matzat | first2 = U. | last3 = Reips | first3 = U.-D. | year = 2012 | title = 'Big Data': Big gaps of knowledge in the field of Internet | url = http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | journal = International Journal of Internet Science | volume = 7 | pages = 1–5 | access-date = 13 April 2013 | archive-date = 23 November 2019 | archive-url = https://web.archive.org/web/20191123051001/http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | url-status = live }}</ref> बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा सम्मिलित हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है।<ref name="Springer 2017">{{cite book |chapter=Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery |last1=Dedić |first1=N. |title=उद्यम सूचना प्रणाली प्रबंधन और इंजीनियरिंग में नवाचार|last2=Stanier |first2=C. |issn=1865-1356 |oclc=909580101 |publisher=Springer International Publishing |location=Berlin; Heidelberg |year=2017 |volume=285 |pages=114–122 |doi=10.1007/978-3-319-58801-8_10 |series=Lecture Notes in Business Information Processing |isbn=978-3-319-58800-1 |chapter-url=http://eprints.staffs.ac.uk/3551/1/Towards%20Differentiating%20Business%20Intelligence%20Big%20Data%20Data%20Analytics%20and%20Knowldge%20Discovery.docx |access-date=7 September 2019 |archive-date=27 November 2020 |archive-url=https://web.archive.org/web/20201127065236/http://eprints.staffs.ac.uk/3551/1/Towards%20Differentiating%20Business%20Intelligence%20Big%20Data%20Data%20Analytics%20and%20Knowldge%20Discovery.docx |url-status=live }}</ref> बिग डेटा "आकार" एक सतत गतिशील लक्ष्य है, जिसमें कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स सम्मिलित हैं।<ref name="Everts">{{cite magazine |last1=Everts |first1=Sarah |title=बहंत अधिक जानकारी|magazine=[[Distillations (magazine)|Distillations]] |date=2016 |volume=2 |issue=2 |pages=26–33 |url=https://www.sciencehistory.org/distillations/magazine/information-overload |access-date=22 March 2018 |archive-date=3 April 2019 |archive-url=https://web.archive.org/web/20190403133511/https://www.sciencehistory.org/distillations/magazine/information-overload |url-status=live }}</ref> डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बिग डेटा को [[डेटा एकीकरण]] के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।<ref>{{cite journal | last1 = Ibrahim | last2 = Targio Hashem | first2 = Abaker | last3 = Yaqoob | first3 = Ibrar | last4 = Badrul Anuar | first4 = Nor | last5 = Mokhtar | first5 = Salimah | last6 = Gani | first6 = Abdullah | last7 = Ullah Khan | first7 = Samee | year = 2015 | title = big data" on cloud computing: Review and open research issues | journal = Information Systems | volume = 47 | pages = 98–115 | doi = 10.1016/j.is.2014.07.006 }}</ref>
बड़े डेटा में आम तौर पर डेटा अधिग्रहण, [[डेटा क्यूरेशन]], प्रबंधन और डेटा को सहन करने योग्य समय के भीतर संसाधित करने के लिए आमतौर पर उपयोग किए जाने वाले सॉफ़्टवेयर टूल की क्षमता से परे आकार वाले डेटा सेट शामिल होते हैं।<ref name="Editorial">{{cite journal | last1 = Snijders | first1 = C. | last2 = Matzat | first2 = U. | last3 = Reips | first3 = U.-D. | year = 2012 | title = 'Big Data': Big gaps of knowledge in the field of Internet | url = http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | journal = International Journal of Internet Science | volume = 7 | pages = 1–5 | access-date = 13 April 2013 | archive-date = 23 November 2019 | archive-url = https://web.archive.org/web/20191123051001/http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | url-status = live }}</ref> बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा शामिल हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है।<ref name="Springer 2017">{{cite book |chapter=Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery |last1=Dedić |first1=N. |title=उद्यम सूचना प्रणाली प्रबंधन और इंजीनियरिंग में नवाचार|last2=Stanier |first2=C. |issn=1865-1356 |oclc=909580101 |publisher=Springer International Publishing |location=Berlin; Heidelberg |year=2017 |volume=285 |pages=114–122 |doi=10.1007/978-3-319-58801-8_10 |series=Lecture Notes in Business Information Processing |isbn=978-3-319-58800-1 |chapter-url=http://eprints.staffs.ac.uk/3551/1/Towards%20Differentiating%20Business%20Intelligence%20Big%20Data%20Data%20Analytics%20and%20Knowldge%20Discovery.docx |access-date=7 September 2019 |archive-date=27 November 2020 |archive-url=https://web.archive.org/web/20201127065236/http://eprints.staffs.ac.uk/3551/1/Towards%20Differentiating%20Business%20Intelligence%20Big%20Data%20Data%20Analytics%20and%20Knowldge%20Discovery.docx |url-status=live }}</ref> बड़ा डेटा आकार एक सतत गतिमान लक्ष्य है; {{As of|2012|lc=on}} कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स तक।<ref name="Everts">{{cite magazine |last1=Everts |first1=Sarah |title=बहंत अधिक जानकारी|magazine=[[Distillations (magazine)|Distillations]] |date=2016 |volume=2 |issue=2 |pages=26–33 |url=https://www.sciencehistory.org/distillations/magazine/information-overload |access-date=22 March 2018 |archive-date=3 April 2019 |archive-url=https://web.archive.org/web/20190403133511/https://www.sciencehistory.org/distillations/magazine/information-overload |url-status=live }}</ref>
डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बड़े डेटा को [[डेटा एकीकरण]] के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।<ref>{{cite journal | last1 = Ibrahim | last2 = Targio Hashem | first2 = Abaker | last3 = Yaqoob | first3 = Ibrar | last4 = Badrul Anuar | first4 = Nor | last5 = Mokhtar | first5 = Salimah | last6 = Gani | first6 = Abdullah | last7 = Ullah Khan | first7 = Samee | year = 2015 | title = big data" on cloud computing: Review and open research issues | journal = Information Systems | volume = 47 | pages = 98–115 | doi = 10.1016/j.is.2014.07.006 }}</ref>
कुछ संगठनों द्वारा इसका वर्णन करने के लिए विविधता, सत्यता और कई अन्य बनाम जोड़े जाते हैं, कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई एक संशोधन।<ref>{{cite magazine|last=Grimes|first=Seth|title=Big Data: Avoid 'Wanna V' Confusion|url=http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|magazine=[[InformationWeek]]|access-date=5 January 2016|archive-date=23 December 2015|archive-url=https://web.archive.org/web/20151223185813/http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|url-status=live}}</ref> बड़े डेटा के Vs को अक्सर तीन Vs, चार Vs और पाँच Vs के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, वेग, सत्यता और मूल्य में बड़े डेटा के गुणों का प्रतिनिधित्व करते हैं।<ref name=":0">{{Cite web|date=2016-09-17|title=The 5 V's of big data|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|access-date=2021-01-20|website=Watson Health Perspectives|language=en-US|archive-date=18 January 2021|archive-url=https://web.archive.org/web/20210118085939/https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|url-status=live}}</ref> परिवर्तनशीलता को अक्सर बड़े डेटा की अतिरिक्त गुणवत्ता के रूप में शामिल किया जाता है।