बिग डेटा: Difference between revisions

Line 1:

''यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।''{{Short description|Information assets characterized by high volume, velocity, and variety}}[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत खोज दर का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम ~~केवल~~ छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>

''यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।''{{Short description|Information assets characterized by high volume, velocity, and variety}}[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत खोज दर का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम सिर्फ छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>

बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, खोज, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था।<ref name=":0" /> बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले ~~केवल~~ अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>

बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, खोज, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था।<ref name=":0" /> बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले सिर्फ अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>

बिग डेटा शब्द का वर्तमान उपयोग भविष्यसूचक विश्लेषण, उपयोगकर्ता व्यवहार विश्लेषण या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बिग डेटा से मूल्य निकालते हैं और संभव्यता ही कभी डेटा सेट के किसी विशेष आकार के होते हैं। "इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा पारिस्थितिकी तंत्र की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref> डेटा सेट के विश्लेषण से "स्पॉट बिजनेस ट्रेंड्स प्रिवेंट डिजीज कॉम्बैट क्राइम<nowiki>''</nowiki> से रोकते हैं और इसी तरह के लिए नए सहसंबंध मिल सकते हैं।{{r|Economist}} इंटरनेट खोज, फिनटेक, स्वास्थ्य सेवा विश्‍लेषक, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकार समान रूप से नियमित रूप से बिग डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिकों को मौसम विज्ञान, जीनोमिक्स,<ref>{{cite journal | title = सामुदायिक चतुराई की आवश्यकता है| journal = Nature | volume = 455 | issue = 7209 | pages = 1 | date = September 2008 | pmid = 18769385 | doi = 10.1038/455001a | bibcode = 2008Natur.455....1. | doi-access = free }}</ref> कनेक्टोमिक्स, जटिल भौतिकी सिमुलेशन, जीव विज्ञान, और पर्यावरण अनुसंधान सहित ई-विज्ञान कार्य में सीमाओं का सामना करना पड़ता है।<ref>{{cite journal | vauthors = Reichman OJ, Jones MB, Schildhauer MP | title = पारिस्थितिकी में खुले डेटा की चुनौतियाँ और अवसर| journal = Science | volume = 331 | issue = 6018 | pages = 703–5 | date = February 2011 | pmid = 21311007 | doi = 10.1126/science.1197962 | bibcode = 2011Sci...331..703R | s2cid = 22686503 | url = https://escholarship.org/uc/item/7627s45z | access-date = 12 July 2019 | archive-date = 19 October 2020 | archive-url = https://web.archive.org/web/20201019060839/https://escholarship.org/uc/item/7627s45z | url-status = live }}</ref>

उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref>2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा ~~बाजार~~ के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011" /> यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में ~~सुधार~~ के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011" /> और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>

उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref>2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा विक्रय के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011" /> यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में संशोधन के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011" /> और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>

[[संबंधपरक डेटाबेस प्रबंधन प्रणाली]] और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर पैरेलल सॉफ़्टवेयर संचालन की आवश्यकता हो सकती है।<ref>{{cite web |author= Jacobs, A. |title= बिग डेटा की पैथोलॉजी|date= 6 July 2009 |work= ACMQueue |url= http://queue.acm.org/detail.cfm?id=1563874 |access-date= 21 April 2010 |archive-date= 8 December 2015 |archive-url= https://web.archive.org/web/20151208072827/http://queue.acm.org/detail.cfm?id=1563874 |url-status= live }}</ref> बिग डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बिग डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों [[गीगाबाइट]] डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।<ref>{{cite journal|last1=Magoulas|first1=Roger|last2=Lorica|first2=Ben|date=February 2009|title=बिग डेटा का परिचय|url=https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|journal=Release 2.0|location=Sebastopol CA|publisher=O'Reilly Media|issue=11|access-date=26 February 2021|archive-date=2 November 2021|archive-url=https://web.archive.org/web/20211102185002/https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|url-status=live}}</ref>

Line 29:

; मात्रा: उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बिग डेटा माना जा सकता है या नहीं माना जा सकता है। बिग डेटा का आकार सामान्य रूप से टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।<ref>{{cite journal |last1=Sagiroglu |first1=Seref |title=Big data: A review |journal=2013 International Conference on Collaboration Technologies and Systems (CTS) |date=2013 |pages=42–47 |doi=10.1109/CTS.2013.6567202|isbn=978-1-4673-6404-1 |s2cid=5724608 }}</ref>

; विविधता: डेटा का प्रकार और प्रकृति। आरडीबीएमएस जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी रूप से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (गति), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को प्रग्रहण करने, संग्रहीत करने और संसाधित करने के मुख्य विचार से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए अधिकतम था। अंततः, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बिग डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में सहायता करता है। बिग डेटा ~~पाठ~~, छवियों, ऑडियो, वीडियो से आकर्षित होता है; और साथ ही यह डेटा संलयन के माध्यम से नष्ट टुकड़ों को पूरा करता है।

; विविधता: डेटा का प्रकार और प्रकृति। आरडीबीएमएस जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी रूप से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (गति), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को प्रग्रहण करने, संग्रहीत करने और संसाधित करने के मुख्य विचार से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए अधिकतम था। अंततः, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बिग डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में सहायता करता है। बिग डेटा टेक्स्ट, छवियों, ऑडियो, वीडियो से आकर्षित होता है; और साथ ही यह डेटा संलयन के माध्यम से नष्ट टुकड़ों को पूरा करता है।

; गति: वह गति जिस पर विकास और विकास के मार्ग में आने वाली अपेक्षाओ और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बिग डेटा प्रायः वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बिग डेटा अधिक निरंतर उत्पन्न होता है। बिग डेटा से संबंधित दो प्रकार के गति उत्पादन की आवृत्ति और प्रबंधन, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।<ref>{{cite journal |last1=Kitchin |first1=Rob |last2=McArdle |first2=Gavin |title=What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets |journal=Big Data & Society |date=17 February 2016 |volume=3 |issue=1 |pages=205395171663113 |doi=10.1177/2053951716631130|doi-access=free }}</ref>

सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।<ref>{{Cite journal|last1=Onay|first1=Ceylan|last2=Öztürk|first2=Elif|date=2018|title=बिग डेटा के युग में क्रेडिट स्कोरिंग अनुसंधान की समीक्षा|journal=Journal of Financial Regulation and Compliance|volume=26|issue=3|pages=382–405|doi=10.1108/JFRC-06-2017-0054|s2cid=158895306}}</ref> बिग डेटा न ~~केवल~~ आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। प्रग्रहण किए गए डेटा की डेटा गुणवत्ता एक परिशुद्ध विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।<ref>[https://web.archive.org/web/20180731105912/https://spotlessdata.com/blog/big-datas-fourth-v Big Data's Fourth V]</ref>

सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।<ref>{{Cite journal|last1=Onay|first1=Ceylan|last2=Öztürk|first2=Elif|date=2018|title=बिग डेटा के युग में क्रेडिट स्कोरिंग अनुसंधान की समीक्षा|journal=Journal of Financial Regulation and Compliance|volume=26|issue=3|pages=382–405|doi=10.1108/JFRC-06-2017-0054|s2cid=158895306}}</ref> बिग डेटा न सिर्फ आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। प्रग्रहण किए गए डेटा की डेटा गुणवत्ता एक परिशुद्ध विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।<ref>[https://web.archive.org/web/20180731105912/https://spotlessdata.com/blog/big-datas-fourth-v Big Data's Fourth V]</ref>

; मूल्य: सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बिग डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है।<ref>{{Cite web|title=Measuring the Business Value of Big Data {{!}} IBM Big Data & Analytics Hub|url=https://www.ibmbigdatahub.com/blog/measuring-business-value-big-data|access-date=2021-01-20|website=www.ibmbigdatahub.com|archive-date=28 January 2021|archive-url=https://web.archive.org/web/20210128191754/https://www.ibmbigdatahub.com/blog/measuring-business-value-big-data|url-status=live}}</ref> मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बिग डेटा के विश्लेषण से प्राप्त किया गया है।

Line 59:

सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बिग डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बिग डेटा गतिविधि द्वारा सामान्य रूप से मानचित्र-कम संरचना के अतिरिक्त [[उच्च-थ्रूपुट कंप्यूटिंग|उच्च-उच्च कालबद्ध निर्गम कंप्यूटिंग]] के माध्यम से विश्लेषण किया जाता है।

2004 में, [[Google|गूगल]] ने [[MapReduce|मैपरिड्यूस]] नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 "Hadoop: From Experiment To Leading Big Data Platform"] {{Webarchive|url=https://web.archive.org/web/20201123153924/https://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 |date=23 November 2020 }}, "Information Week", 2013. Retrieved on 14 November 2013.</ref> इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के [[कार्यान्वयन]] को [[Apache Hadoop|अपाचे हडूप]] नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा अपनाया गया था।<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"] {{Webarchive|url=https://web.archive.org/web/20091214180106/http://research.google.com/archive/mapreduce-osdi04.pdf |date=14 December 2009 }}, "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark|अपाचे स्पार्क]] को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह [[इन-मेमोरी प्रोसेसिंग]] (न कि ~~केवल~~ मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है।

2004 में, [[Google|गूगल]] ने [[MapReduce|मैपरिड्यूस]] नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 "Hadoop: From Experiment To Leading Big Data Platform"] {{Webarchive|url=https://web.archive.org/web/20201123153924/https://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 |date=23 November 2020 }}, "Information Week", 2013. Retrieved on 14 November 2013.</ref> इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के [[कार्यान्वयन]] को [[Apache Hadoop|अपाचे हडूप]] नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा अपनाया गया था।<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"] {{Webarchive|url=https://web.archive.org/web/20091214180106/http://research.google.com/archive/mapreduce-osdi04.pdf |date=14 December 2009 }}, "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark|अपाचे स्पार्क]] को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह [[इन-मेमोरी प्रोसेसिंग]] (न कि सिर्फ मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है।

माइक2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा समाधान प्रस्ताव शीर्षक वाले लेख में पहचाने गए बिग डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।<ref>{{cite web| url=http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| title=बिग डेटा समाधान की पेशकश| publisher=MIKE2.0| access-date=8 December 2013| archive-date=16 March 2013| archive-url=https://web.archive.org/web/20130316050909/http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| url-status=live}}</ref> कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रम[[परिवर्तन]], अंतर्संबंधों में [[जटिलता]] और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बिग डेटा को संभालने का समाधान करती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Big_Data_Definition|title=बिग डेटा परिभाषा|publisher=MIKE2.0|access-date=9 March 2013|archive-date=25 September 2018|archive-url=https://web.archive.org/web/20180925030939/http://mike2.openmethodology.org/wiki/Big_Data_Definition|url-status=live}}</ref>

2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से ~~सुधार~~ कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=बड़े डेटा के लिए वितरित समानांतर वास्तुकला|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>

2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से संशोधन कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=बड़े डेटा के लिए वितरित समानांतर वास्तुकला|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>

डेटा लेक एक संगठन को सूचना प्रबंधन की परिवर्तित गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की स्वीकृति देता है। यह [[डेटा झील|डेटा लेक]] में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।<ref>{{cite web|url=http://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|title=बिग डेटा लेक के साथ प्रमुख व्यावसायिक चुनौतियों का समाधान|date=August 2014|website=Hcltech.com|access-date=8 October 2017|archive-date=3 July 2017|archive-url=https://web.archive.org/web/20170703074658/https://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|url-status=live}}</ref><ref>{{cite web | url= https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | title= MapReduce चौखटे की दोष सहिष्णुता के परीक्षण के लिए विधि| publisher= Computer Networks | year= 2015 | access-date= 13 April 2016 | archive-date= 22 July 2016 | archive-url= https://web.archive.org/web/20160722133706/https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | url-status= live }}</ref>

Line 75:

* आभासीकरण, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले

बहुआयामी बिग डेटा को [[OLAP|ऑनलाइन विश्लेषणात्मक प्रक्रिया]] डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में,<ref>{{cite web|title=टेन्सर-आधारित संगणना और मॉडलिंग में भविष्य की दिशाएँ|date=May 2009|url=http://www.cs.cornell.edu/cv/tenwork/finalreport.pdf|access-date=4 January 2013|archive-date=17 April 2018|archive-url=https://web.archive.org/web/20180417231223/http://www.cs.cornell.edu/CV/TenWork/FinalReport.pdf|url-status=live}}</ref> जैसे कि बहुरेखीय उप-समष्टि अधिगम,<ref name="MSLsurvey">{{cite journal | first1 = Haiping | last1 = Lu | first2 = K.N. | last2 = Plataniotis | first3 = A.N. | last3 = Venetsanopoulos | url = http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | title = टेन्सर डेटा के लिए मल्टीलीनियर सबस्पेस लर्निंग का एक सर्वेक्षण| journal = Pattern Recognition | volume = 44 | number = 7 | pages = 1540–1551 | year = 2011 | doi = 10.1016/j.patcog.2011.01.004 | bibcode = 2011PatRe..44.1540L | access-date = 21 January 2013 | archive-date = 10 July 2019 | archive-url = https://web.archive.org/web/20190710225429/http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | url-status = live }}</ref> बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, [[खोज-आधारित अनुप्रयोग|खोज-आधारित एप्लीकेशन]], [[डेटा खनन|डेटा माइनिंग]],<ref>{{cite book|last1=Pllana|first1=Sabri|title=2011 14th International Conference on Network-Based Information Systems|pages=341–348|last2=Janciak|first2=Ivan|last3=Brezany|first3=Peter|last4=Wöhrer|first4=Alexander|chapter=A Survey of the State of the Art in Data Mining and Integration Query Languages |website=2011 International Conference on Network-Based Information Systems (NBIS 2011)|publisher=IEEE Computer Society|bibcode=2016arXiv160301113P|year=2016|arxiv=1603.01113|doi=10.1109/NBiS.2011.58|isbn=978-1-4577-0789-6|s2cid=9285984}}</ref> [[वितरित फ़ाइल सिस्टम]], वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), [[वितरित डेटाबेस]], क्लाउड कंप्यूटिंग और [[ सुपर कंप्यूटर | सुपर कंप्यूटर]] एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),<ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28th International Parallel and Distributed Processing Symposium|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|s2cid=11157612|isbn=978-1-4799-3800-1}}</ref> और इंटरनेट सक्षम [[टेन्सर]]-आधारित संगणना सम्मिलित है।{{Citation needed|date=September 2011}} हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ ~~मशीन~~ अधिगम को पूरा करना अभी भी कठिन होता है।<ref>{{Cite journal|last1=L'Heureux|first1=A.|last2=Grolinger|first2=K.|last3=Elyamany|first3=H. F.|last4=Capretz|first4=M. A. M.|date=2017|title=Machine Learning With Big Data: Challenges and Approaches|journal=IEEE Access|volume=5|pages=7776–7797|doi=10.1109/ACCESS.2017.2696365|issn=2169-3536|doi-access=free}}</ref>

बहुआयामी बिग डेटा को [[OLAP|ऑनलाइन विश्लेषणात्मक प्रक्रिया]] डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में,<ref>{{cite web|title=टेन्सर-आधारित संगणना और मॉडलिंग में भविष्य की दिशाएँ|date=May 2009|url=http://www.cs.cornell.edu/cv/tenwork/finalreport.pdf|access-date=4 January 2013|archive-date=17 April 2018|archive-url=https://web.archive.org/web/20180417231223/http://www.cs.cornell.edu/CV/TenWork/FinalReport.pdf|url-status=live}}</ref> जैसे कि बहुरेखीय उप-समष्टि अधिगम,<ref name="MSLsurvey">{{cite journal | first1 = Haiping | last1 = Lu | first2 = K.N. | last2 = Plataniotis | first3 = A.N. | last3 = Venetsanopoulos | url = http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | title = टेन्सर डेटा के लिए मल्टीलीनियर सबस्पेस लर्निंग का एक सर्वेक्षण| journal = Pattern Recognition | volume = 44 | number = 7 | pages = 1540–1551 | year = 2011 | doi = 10.1016/j.patcog.2011.01.004 | bibcode = 2011PatRe..44.1540L | access-date = 21 January 2013 | archive-date = 10 July 2019 | archive-url = https://web.archive.org/web/20190710225429/http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | url-status = live }}</ref> बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, [[खोज-आधारित अनुप्रयोग|खोज-आधारित एप्लीकेशन]], [[डेटा खनन|डेटा माइनिंग]],<ref>{{cite book|last1=Pllana|first1=Sabri|title=2011 14th International Conference on Network-Based Information Systems|pages=341–348|last2=Janciak|first2=Ivan|last3=Brezany|first3=Peter|last4=Wöhrer|first4=Alexander|chapter=A Survey of the State of the Art in Data Mining and Integration Query Languages |website=2011 International Conference on Network-Based Information Systems (NBIS 2011)|publisher=IEEE Computer Society|bibcode=2016arXiv160301113P|year=2016|arxiv=1603.01113|doi=10.1109/NBiS.2011.58|isbn=978-1-4577-0789-6|s2cid=9285984}}</ref> [[वितरित फ़ाइल सिस्टम]], वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), [[वितरित डेटाबेस]], क्लाउड कंप्यूटिंग और [[ सुपर कंप्यूटर | सुपर कंप्यूटर]] एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),<ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28th International Parallel and Distributed Processing Symposium|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|s2cid=11157612|isbn=978-1-4799-3800-1}}</ref> और इंटरनेट सक्षम [[टेन्सर]]-आधारित संगणना सम्मिलित है।{{Citation needed|date=September 2011}} हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ यंत्र अधिगम को पूरा करना अभी भी कठिन होता है।<ref>{{Cite journal|last1=L'Heureux|first1=A.|last2=Grolinger|first2=K.|last3=Elyamany|first3=H. F.|last4=Capretz|first4=M. A. M.|date=2017|title=Machine Learning With Big Data: Challenges and Approaches|journal=IEEE Access|volume=5|pages=7776–7797|doi=10.1109/ACCESS.2017.2696365|issn=2169-3536|doi-access=free}}</ref>

कुछ विशाल पैरेलल प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित [[आरडीबीएमएस]] में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।<ref>{{cite web |author=Monash, Curt |title=ईबे के दो विशाल डेटा वेयरहाउस|date=30 April 2009 |url=http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/20190331110659/http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |url-status=live }}<br />{{cite web |author=Monash, Curt |title=eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more |date=6 October 2010 |url=http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/20190331133707/http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/ |url-status=live }}</ref>{{promotional source|date=December 2018}}

कुछ विशाल पैरेलल प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित [[आरडीबीएमएस]] में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।<ref>{{cite web |author=Monash, Curt |title=ईबे के दो विशाल डेटा वेयरहाउस|date=30 April 2009 |url=http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/20190331110659/http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |url-status=live }}<br />{{cite web |author=Monash, Curt |title=eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more |date=6 October 2010 |url=http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/2019033

Anonymous

Search

बिग डेटा: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
-''यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।''{{Short description|Information assets characterized by high volume, velocity, and variety}}[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत खोज दर का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम केवल छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
+''यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।''{{Short description|Information assets characterized by high volume, velocity, and variety}}[[File:Hilbert InfoGrowth.png|thumb|right|400px|डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना<ref>{{cite journal|url= http://www.martinhilbert.net/WorldInfoCapacity.html|title= स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता|volume= 332|issue= 6025|pages= 60–65|journal= Science|access-date= 13 April 2016|bibcode= 2011Sci...332...60H|last1= Hilbert|first1= Martin|last2= López|first2= Priscila|year= 2011|doi= 10.1126/science.1200970|pmid= 21310967|s2cid= 206531385|archive-date= 14 April 2016|archive-url= https://web.archive.org/web/20160414233810/http://www.martinhilbert.net/WorldInfoCapacity.html/|url-status= live}}</ref>]]बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निपटाए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत खोज दर का कारण बन सकते हैं।<ref>{{Cite journal|last=Breur|first=Tom|date=July 2016|title=सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"|journal=Journal of Marketing Analytics |publisher=[[Palgrave Macmillan]]|location=London, England|volume=4 |issue=2–3 |pages=61–65 |doi=10.1057/s41270-016-0001-3 |issn=2050-3318|doi-access=free}}</ref> हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम सिर्फ छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।<ref>{{Cite thesis|last=Mahdavi-Damghani|first=Babak|date=2019|title=Data-Driven Models & Mathematical Finance: Apposition or Opposition?|type=DPhil thesis |publisher=[[University of Oxford]]|location=Oxford, England|url=https://ora.ox.ac.uk/objects/uuid:052f01aa-3f27-4144-87b6-200b7efbb4fa|ssrn=3521933|page=21}}</ref>
-बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, खोज, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था।<ref name=":0" /> बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले केवल अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
+बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, खोज, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था।<ref name=":0" /> बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले सिर्फ अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।<ref>{{Cite journal |last1=Cappa |first1=Francesco |last2=Oriani |first2=Raffaele |last3=Peruffo |first3=Enzo |last4=McCarthy |first4=Ian |date=2021 |title=Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance* |url=https://onlinelibrary.wiley.com/doi/10.1111/jpim.12545 |journal=Journal of Product Innovation Management |language=en |volume=38 |issue=1 |pages=49–67 |doi=10.1111/jpim.12545 |s2cid=225209179 |issn=0737-6782}}</ref>
 बिग डेटा शब्द का वर्तमान उपयोग  भविष्यसूचक विश्लेषण, उपयोगकर्ता व्यवहार विश्लेषण या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बिग डेटा से मूल्य निकालते हैं और संभव्यता ही कभी डेटा सेट के किसी विशेष आकार के होते हैं। "इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा पारिस्थितिकी तंत्र की सबसे प्रासंगिक विशेषता नहीं है।<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=बिग डेटा के लिए छह प्रोवोकेशंस|journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi=10.2139/ssrn.1926431 |s2cid=148610111 |url=http://osf.io/nrjhn/ |access-date=12 July 2019 |archive-date=28 February 2020 |archive-url=https://web.archive.org/web/20200228015558/https://osf.io/nrjhn/ |url-status=live }}</ref> डेटा सेट के विश्लेषण से "स्पॉट बिजनेस ट्रेंड्स प्रिवेंट डिजीज कॉम्बैट क्राइम<nowiki>''</nowiki> से रोकते हैं और इसी तरह के लिए नए सहसंबंध मिल सकते हैं।{{r|Economist}} इंटरनेट खोज, फिनटेक, स्वास्थ्य सेवा  विश्‍लेषक, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकार समान रूप से नियमित रूप से बिग डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिकों को मौसम विज्ञान, जीनोमिक्स,<ref>{{cite journal | title = सामुदायिक चतुराई की आवश्यकता है| journal = Nature | volume = 455 | issue = 7209 | pages = 1 | date = September 2008 | pmid = 18769385 | doi = 10.1038/455001a | bibcode = 2008Natur.455....1. | doi-access = free }}</ref> कनेक्टोमिक्स, जटिल भौतिकी सिमुलेशन, जीव विज्ञान, और पर्यावरण अनुसंधान सहित ई-विज्ञान कार्य में सीमाओं का सामना करना पड़ता है।<ref>{{cite journal | vauthors = Reichman OJ, Jones MB, Schildhauer MP | title = पारिस्थितिकी में खुले डेटा की चुनौतियाँ और अवसर| journal = Science | volume = 331 | issue = 6018 | pages = 703–5 | date = February 2011 | pmid = 21311007 | doi = 10.1126/science.1197962 | bibcode = 2011Sci...331..703R | s2cid = 22686503 | url = https://escholarship.org/uc/item/7627s45z | access-date = 12 July 2019 | archive-date = 19 October 2020 | archive-url = https://web.archive.org/web/20201019060839/https://escholarship.org/uc/item/7627s45z | url-status = live }}</ref>
-उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref>2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा बाजार के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011" /> यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011" /> और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>
+उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref>2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा विक्रय के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011" /> यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में संशोधन के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011" /> और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>
 [[संबंधपरक डेटाबेस प्रबंधन प्रणाली]] और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर पैरेलल सॉफ़्टवेयर संचालन की आवश्यकता हो सकती है।<ref>{{cite web |author= Jacobs, A. |title= बिग डेटा की पैथोलॉजी|date= 6 July 2009 |work= ACMQueue |url= http://queue.acm.org/detail.cfm?id=1563874 |access-date= 21 April 2010 |archive-date= 8 December 2015 |archive-url= https://web.archive.org/web/20151208072827/http://queue.acm.org/detail.cfm?id=1563874 |url-status= live }}</ref> बिग डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बिग डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों [[गीगाबाइट]] डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।<ref>{{cite journal|last1=Magoulas|first1=Roger|last2=Lorica|first2=Ben|date=February 2009|title=बिग डेटा का परिचय|url=https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|journal=Release 2.0|location=Sebastopol CA|publisher=O'Reilly Media|issue=11|access-date=26 February 2021|archive-date=2 November 2021|archive-url=https://web.archive.org/web/20211102185002/https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|url-status=live}}</ref>
@@ Line 29: / Line 29: @@
 ; मात्रा: उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बिग डेटा माना जा सकता है या नहीं माना जा सकता है। बिग डेटा का आकार सामान्य रूप से टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।<ref>{{cite journal |last1=Sagiroglu |first1=Seref |title=Big data: A review |journal=2013 International Conference on Collaboration Technologies and Systems (CTS) |date=2013 |pages=42–47 |doi=10.1109/CTS.2013.6567202|isbn=978-1-4673-6404-1 |s2cid=5724608 }}</ref>
-; विविधता: डेटा का प्रकार और प्रकृति। आरडीबीएमएस जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी रूप से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (गति), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को प्रग्रहण करने, संग्रहीत करने और संसाधित करने के मुख्य विचार से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए अधिकतम था। अंततः, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बिग डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में सहायता करता है। बिग डेटा पाठ, छवियों, ऑडियो, वीडियो से आकर्षित होता है; और साथ ही यह डेटा संलयन के माध्यम से नष्ट टुकड़ों को पूरा करता है।
+; विविधता: डेटा का प्रकार और प्रकृति। आरडीबीएमएस जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी रूप से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (गति), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को प्रग्रहण करने, संग्रहीत करने और संसाधित करने के मुख्य विचार से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की खोज की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए अधिकतम था। अंततः, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बिग डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में सहायता करता है। बिग डेटा टेक्स्ट, छवियों, ऑडियो, वीडियो से आकर्षित होता है; और साथ ही यह डेटा संलयन के माध्यम से नष्ट टुकड़ों को पूरा करता है।
 ; गति: वह गति जिस पर विकास और विकास के मार्ग में आने वाली अपेक्षाओ और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बिग डेटा प्रायः वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बिग डेटा अधिक निरंतर उत्पन्न होता है। बिग डेटा से संबंधित दो प्रकार के गति उत्पादन की आवृत्ति और प्रबंधन, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।<ref>{{cite journal |last1=Kitchin |first1=Rob |last2=McArdle |first2=Gavin |title=What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets |journal=Big Data & Society |date=17 February 2016 |volume=3 |issue=1 |pages=205395171663113 |doi=10.1177/2053951716631130|doi-access=free }}</ref>
-सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।<ref>{{Cite journal|last1=Onay|first1=Ceylan|last2=Öztürk|first2=Elif|date=2018|title=बिग डेटा के युग में क्रेडिट स्कोरिंग अनुसंधान की समीक्षा|journal=Journal of Financial Regulation and Compliance|volume=26|issue=3|pages=382–405|doi=10.1108/JFRC-06-2017-0054|s2cid=158895306}}</ref> बिग डेटा न केवल आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। प्रग्रहण किए गए डेटा की डेटा गुणवत्ता एक परिशुद्ध विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।<ref>[https://web.archive.org/web/20180731105912/https://spotlessdata.com/blog/big-datas-fourth-v Big Data's Fourth V]</ref>
+सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।<ref>{{Cite journal|last1=Onay|first1=Ceylan|last2=Öztürk|first2=Elif|date=2018|title=बिग डेटा के युग में क्रेडिट स्कोरिंग अनुसंधान की समीक्षा|journal=Journal of Financial Regulation and Compliance|volume=26|issue=3|pages=382–405|doi=10.1108/JFRC-06-2017-0054|s2cid=158895306}}</ref> बिग डेटा न सिर्फ आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। प्रग्रहण किए गए डेटा की डेटा गुणवत्ता एक परिशुद्ध विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।<ref>[https://web.archive.org/web/20180731105912/https://spotlessdata.com/blog/big-datas-fourth-v Big Data's Fourth V]</ref>
 ; मूल्य: सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बिग डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है।<ref>{{Cite web|title=Measuring the Business Value of Big Data {{!}} IBM Big Data & Analytics Hub|url=https://www.ibmbigdatahub.com/blog/measuring-business-value-big-data|access-date=2021-01-20|website=www.ibmbigdatahub.com|archive-date=28 January 2021|archive-url=https://web.archive.org/web/20210128191754/https://www.ibmbigdatahub.com/blog/measuring-business-value-big-data|url-status=live}}</ref> मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बिग डेटा के विश्लेषण से प्राप्त किया गया है।
@@ Line 59: / Line 59: @@
 सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बिग डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बिग डेटा गतिविधि द्वारा सामान्य रूप से मानचित्र-कम संरचना के अतिरिक्त [[उच्च-थ्रूपुट कंप्यूटिंग|उच्च-उच्च कालबद्ध निर्गम कंप्यूटिंग]] के माध्यम से विश्लेषण किया जाता है।
-में, [[Google|गूगल]] ने [[MapReduce|मैपरिड्यूस]] नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और  (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 "Hadoop: From Experiment To Leading Big Data Platform"] {{Webarchive|url=https://web.archive.org/web/20201123153924/https://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 |date=23 November 2020 }}, "Information Week", 2013. Retrieved on 14 November 2013.</ref> इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के [[कार्यान्वयन]] को [[Apache Hadoop|अपाचे हडूप]] नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा अपनाया गया था।<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"] {{Webarchive|url=https://web.archive.org/web/20091214180106/http://research.google.com/archive/mapreduce-osdi04.pdf |date=14 December 2009 }}, "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark|अपाचे स्पार्क]] को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह [[इन-मेमोरी प्रोसेसिंग]]  (न कि केवल मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है।
+में, [[Google|गूगल]] ने [[MapReduce|मैपरिड्यूस]] नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और  (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 "Hadoop: From Experiment To Leading Big Data Platform"] {{Webarchive|url=https://web.archive.org/web/20201123153924/https://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 |date=23 November 2020 }}, "Information Week", 2013. Retrieved on 14 November 2013.</ref> इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के [[कार्यान्वयन]] को [[Apache Hadoop|अपाचे हडूप]] नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा अपनाया गया था।<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"] {{Webarchive|url=https://web.archive.org/web/20091214180106/http://research.google.com/archive/mapreduce-osdi04.pdf |date=14 December 2009 }}, "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark|अपाचे स्पार्क]] को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह [[इन-मेमोरी प्रोसेसिंग]]  (न कि सिर्फ मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है।
 माइक2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा समाधान प्रस्ताव शीर्षक वाले लेख में पहचाने गए बिग डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।<ref>{{cite web| url=http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| title=बिग डेटा समाधान की पेशकश| publisher=MIKE2.0| access-date=8 December 2013| archive-date=16 March 2013| archive-url=https://web.archive.org/web/20130316050909/http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| url-status=live}}</ref> कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रम[[परिवर्तन]], अंतर्संबंधों में [[जटिलता]] और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बिग डेटा को संभालने का समाधान करती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Big_Data_Definition|title=बिग डेटा परिभाषा|publisher=MIKE2.0|access-date=9 March 2013|archive-date=25 September 2018|archive-url=https://web.archive.org/web/20180925030939/http://mike2.openmethodology.org/wiki/Big_Data_Definition|url-status=live}}</ref>
-में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची  वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से सुधार कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=बड़े डेटा के लिए वितरित समानांतर वास्तुकला|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>
+में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची  वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से संशोधन कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=बड़े डेटा के लिए वितरित समानांतर वास्तुकला|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>
 डेटा लेक एक संगठन को सूचना प्रबंधन की परिवर्तित गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की स्वीकृति देता है। यह [[डेटा झील|डेटा लेक]] में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।<ref>{{cite web|url=http://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|title=बिग डेटा लेक के साथ प्रमुख व्यावसायिक चुनौतियों का समाधान|date=August 2014|website=Hcltech.com|access-date=8 October 2017|archive-date=3 July 2017|archive-url=https://web.archive.org/web/20170703074658/https://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|url-status=live}}</ref><ref>{{cite web | url= https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | title= MapReduce चौखटे की दोष सहिष्णुता के परीक्षण के लिए विधि| publisher= Computer Networks | year= 2015 | access-date= 13 April 2016 | archive-date= 22 July 2016 | archive-url= https://web.archive.org/web/20160722133706/https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | url-status= live }}</ref>
@@ Line 75: / Line 75: @@
 * आभासीकरण, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले
-बहुआयामी बिग डेटा को [[OLAP|ऑनलाइन विश्लेषणात्मक प्रक्रिया]] डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में,<ref>{{cite web|title=टेन्सर-आधारित संगणना और मॉडलिंग में भविष्य की दिशाएँ|date=May 2009|url=http://www.cs.cornell.edu/cv/tenwork/finalreport.pdf|access-date=4 January 2013|archive-date=17 April 2018|archive-url=https://web.archive.org/web/20180417231223/http://www.cs.cornell.edu/CV/TenWork/FinalReport.pdf|url-status=live}}</ref> जैसे कि बहुरेखीय उप-समष्टि अधिगम,<ref name="MSLsurvey">{{cite journal | first1 = Haiping | last1 = Lu | first2 = K.N. | last2 = Plataniotis | first3 = A.N. | last3 = Venetsanopoulos | url = http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | title = टेन्सर डेटा के लिए मल्टीलीनियर सबस्पेस लर्निंग का एक सर्वेक्षण| journal = Pattern Recognition | volume = 44 | number = 7 | pages = 1540–1551 | year = 2011 | doi = 10.1016/j.patcog.2011.01.004 | bibcode = 2011PatRe..44.1540L | access-date = 21 January 2013 | archive-date = 10 July 2019 | archive-url = https://web.archive.org/web/20190710225429/http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | url-status = live }}</ref> बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, [[खोज-आधारित अनुप्रयोग|खोज-आधारित एप्लीकेशन]], [[डेटा खनन|डेटा माइनिंग]],<ref>{{cite book|last1=Pllana|first1=Sabri|title=2011 14th International Conference on Network-Based Information Systems|pages=341–348|last2=Janciak|first2=Ivan|last3=Brezany|first3=Peter|last4=Wöhrer|first4=Alexander|chapter=A Survey of the State of the Art in Data Mining and Integration Query Languages |website=2011 International Conference on Network-Based Information Systems (NBIS 2011)|publisher=IEEE Computer Society|bibcode=2016arXiv160301113P|year=2016|arxiv=1603.01113|doi=10.1109/NBiS.2011.58|isbn=978-1-4577-0789-6|s2cid=9285984}}</ref> [[वितरित फ़ाइल सिस्टम]], वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), [[वितरित डेटाबेस]], क्लाउड कंप्यूटिंग और [[ सुपर कंप्यूटर | सुपर कंप्यूटर]] एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),<ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28th International Parallel and Distributed Processing Symposium|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|s2cid=11157612|isbn=978-1-4799-3800-1}}</ref> और इंटरनेट सक्षम [[टेन्सर]]-आधारित संगणना सम्मिलित है।{{Citation needed|date=September 2011}} हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ मशीन अधिगम को पूरा करना अभी भी कठिन होता है।<ref>{{Cite journal|last1=L'Heureux|first1=A.|last2=Grolinger|first2=K.|last3=Elyamany|first3=H. F.|last4=Capretz|first4=M. A. M.|date=2017|title=Machine Learning With Big Data: Challenges and Approaches|journal=IEEE Access|volume=5|pages=7776–7797|doi=10.1109/ACCESS.2017.2696365|issn=2169-3536|doi-access=free}}</ref>
+बहुआयामी बिग डेटा को [[OLAP|ऑनलाइन विश्लेषणात्मक प्रक्रिया]] डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में,<ref>{{cite web|title=टेन्सर-आधारित संगणना और मॉडलिंग में भविष्य की दिशाएँ|date=May 2009|url=http://www.cs.cornell.edu/cv/tenwork/finalreport.pdf|access-date=4 January 2013|archive-date=17 April 2018|archive-url=https://web.archive.org/web/20180417231223/http://www.cs.cornell.edu/CV/TenWork/FinalReport.pdf|url-status=live}}</ref> जैसे कि बहुरेखीय उप-समष्टि अधिगम,<ref name="MSLsurvey">{{cite journal | first1 = Haiping | last1 = Lu | first2 = K.N. | last2 = Plataniotis | first3 = A.N. | last3 = Venetsanopoulos | url = http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | title = टेन्सर डेटा के लिए मल्टीलीनियर सबस्पेस लर्निंग का एक सर्वेक्षण| journal = Pattern Recognition | volume = 44 | number = 7 | pages = 1540–1551 | year = 2011 | doi = 10.1016/j.patcog.2011.01.004 | bibcode = 2011PatRe..44.1540L | access-date = 21 January 2013 | archive-date = 10 July 2019 | archive-url = https://web.archive.org/web/20190710225429/http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | url-status = live }}</ref> बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, [[खोज-आधारित अनुप्रयोग|खोज-आधारित एप्लीकेशन]], [[डेटा खनन|डेटा माइनिंग]],<ref>{{cite book|last1=Pllana|first1=Sabri|title=2011 14th International Conference on Network-Based Information Systems|pages=341–348|last2=Janciak|first2=Ivan|last3=Brezany|first3=Peter|last4=Wöhrer|first4=Alexander|chapter=A Survey of the State of the Art in Data Mining and Integration Query Languages |website=2011 International Conference on Network-Based Information Systems (NBIS 2011)|publisher=IEEE Computer Society|bibcode=2016arXiv160301113P|year=2016|arxiv=1603.01113|doi=10.1109/NBiS.2011.58|isbn=978-1-4577-0789-6|s2cid=9285984}}</ref> [[वितरित फ़ाइल सिस्टम]], वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), [[वितरित डेटाबेस]], क्लाउड कंप्यूटिंग और [[ सुपर कंप्यूटर | सुपर कंप्यूटर]] एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),<ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28th International Parallel and Distributed Processing Symposium|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|s2cid=11157612|isbn=978-1-4799-3800-1}}</ref> और इंटरनेट सक्षम [[टेन्सर]]-आधारित संगणना सम्मिलित है।{{Citation needed|date=September 2011}} हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ यंत्र अधिगम को पूरा करना अभी भी कठिन होता है।<ref>{{Cite journal|last1=L'Heureux|first1=A.|last2=Grolinger|first2=K.|last3=Elyamany|first3=H. F.|last4=Capretz|first4=M. A. M.|date=2017|title=Machine Learning With Big Data: Challenges and Approaches|journal=IEEE Access|volume=5|pages=7776–7797|doi=10.1109/ACCESS.2017.2696365|issn=2169-3536|doi-access=free}}</ref>
 कुछ विशाल पैरेलल प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित [[आरडीबीएमएस]] में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।<ref>{{cite web |author=Monash, Curt |title=ईबे के दो विशाल डेटा वेयरहाउस|date=30 April 2009 |url=http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/20190331110659/http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |url-status=live }}<br />{{cite web |author=Monash, Curt |title=eBay followup&nbsp;– Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more |date=6 October 2010 |url=http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/2019033