बिग डेटा: Difference between revisions
From Vigyanwiki
No edit summary |
No edit summary |
||
| Line 6: | Line 6: | ||
उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref>2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा बाजार के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011" /> यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011" /> और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref> | उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।<ref>{{cite web |author= Hellerstein, Joe |title= बड़े डेटा के युग में समानांतर प्रोग्रामिंग|date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |access-date= 21 April 2010 |archive-date= 7 October 2012 |archive-url= https://web.archive.org/web/20121007033928/http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ |url-status= live }}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257 |access-date= 31 December 2015 |archive-date= 12 May 2016 |archive-url= https://web.archive.org/web/20160512110157/https://books.google.com/books?id=zxNglqU1FKgC |url-status= live }}</ref> 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता| journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 | access-date = 11 May 2019 | archive-date = 19 August 2019 | archive-url = https://web.archive.org/web/20190819122943/http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | url-status = live }}</ref>2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।<ref>{{cite web |url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013 |archive-date= 24 August 2013 |archive-url= https://web.archive.org/web/20130824213031/http://www.ibm.com/big-data/us/en/ |url-status= live }}</ref> [[अंतर्राष्ट्रीय डेटा निगम]] की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।<ref>{{Cite web|url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John|archive-date=8 December 2017|archive-url=https://web.archive.org/web/20171208010603/https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf|url-status=live}}</ref> अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।<ref>{{cite web | url=https://www.idc.com/getdoc.jsp?containerId=prUS48165721 | title=Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide }}</ref><ref>{{cite web | url=https://www.statista.com/statistics/551501/worldwide-big-data-business-analytics-revenue/ | title=Big data and business analytics revenue 2022 }}</ref> स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा बाजार के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।<ref>{{cite web | url=https://www.statista.com/statistics/254266/global-big-data-market-forecast/ | title=Global big data industry market size 2011-2027 }}</ref> 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।<ref name="McKinsey2011" /> यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में सुधार के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।<ref name="McKinsey2011" /> और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।<ref name="McKinsey2011">[https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf Big data: The next frontier for innovation, competition, and productivity] McKinsey Global Institute May 2011</ref> बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref> | ||
[[संबंधपरक डेटाबेस प्रबंधन प्रणाली]] और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर | [[संबंधपरक डेटाबेस प्रबंधन प्रणाली]] और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर पैरेलल सॉफ़्टवेयर संचालन की आवश्यकता हो सकती है।<ref>{{cite web |author= Jacobs, A. |title= बिग डेटा की पैथोलॉजी|date= 6 July 2009 |work= ACMQueue |url= http://queue.acm.org/detail.cfm?id=1563874 |access-date= 21 April 2010 |archive-date= 8 December 2015 |archive-url= https://web.archive.org/web/20151208072827/http://queue.acm.org/detail.cfm?id=1563874 |url-status= live }}</ref> बिग डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बिग डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों [[गीगाबाइट]] डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।<ref>{{cite journal|last1=Magoulas|first1=Roger|last2=Lorica|first2=Ben|date=February 2009|title=बिग डेटा का परिचय|url=https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|journal=Release 2.0|location=Sebastopol CA|publisher=O'Reilly Media|issue=11|access-date=26 February 2021|archive-date=2 November 2021|archive-url=https://web.archive.org/web/20211102185002/https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|url-status=live}}</ref> | ||
| Line 16: | Line 16: | ||
विविधता", "सत्यता", और कई अन्य "वीएस" कुछ संगठनों द्वारा इसे कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई संशोधन का वर्णन करने के लिए जोड़ा जाता है।<ref>{{cite magazine|last=Grimes|first=Seth|title=Big Data: Avoid 'Wanna V' Confusion|url=http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|magazine=[[InformationWeek]]|access-date=5 January 2016|archive-date=23 December 2015|archive-url=https://web.archive.org/web/20151223185813/http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|url-status=live}}</ref> बिग डेटा के वीएस को प्रायः तीन वीएस, चार वीएस और पाँच वीएस के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, गति, सत्यता और मूल्य में बिग डेटा के गुणों का प्रतिनिधित्व करते हैं।<ref name=":0">{{Cite web|date=2016-09-17|title=The 5 V's of big data|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|access-date=2021-01-20|website=Watson Health Perspectives|language=en-US|archive-date=18 January 2021|archive-url=https://web.archive.org/web/20210118085939/https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|url-status=live}}</ref> परिवर्तनशीलता को प्रायः बिग डेटा की अतिरिक्त गुणवत्ता के रूप में सम्मिलित किया जाता है। | विविधता", "सत्यता", और कई अन्य "वीएस" कुछ संगठनों द्वारा इसे कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई संशोधन का वर्णन करने के लिए जोड़ा जाता है।<ref>{{cite magazine|last=Grimes|first=Seth|title=Big Data: Avoid 'Wanna V' Confusion|url=http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|magazine=[[InformationWeek]]|access-date=5 January 2016|archive-date=23 December 2015|archive-url=https://web.archive.org/web/20151223185813/http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|url-status=live}}</ref> बिग डेटा के वीएस को प्रायः तीन वीएस, चार वीएस और पाँच वीएस के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, गति, सत्यता और मूल्य में बिग डेटा के गुणों का प्रतिनिधित्व करते हैं।<ref name=":0">{{Cite web|date=2016-09-17|title=The 5 V's of big data|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|access-date=2021-01-20|website=Watson Health Perspectives|language=en-US|archive-date=18 January 2021|archive-url=https://web.archive.org/web/20210118085939/https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|url-status=live}}</ref> परिवर्तनशीलता को प्रायः बिग डेटा की अतिरिक्त गुणवत्ता के रूप में सम्मिलित किया जाता है। | ||
2018 की परिभाषा में कहा गया है, "बिग डेटा वह जगह है जहां डेटा को संभालने के लिए | 2018 की परिभाषा में कहा गया है, "बिग डेटा वह जगह है जहां डेटा को संभालने के लिए पैरेलल कंप्यूटिंग टूल की आवश्यकता होती है", और नोट करता है, "यह पैरेलल प्रोग्रामिंग सिद्धांतों और कुछ गारंटी (प्रत्याभूति) और क्षमताओं के नुकसान के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक अलग और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है। कॉड के संबंधपरक मॉडल द्वारा बनाया गया है।<ref>{{Cite book|last=Fox|first=Charles|date=25 March 2018|title=परिवहन के लिए डेटा विज्ञान|url=https://www.springer.com/us/book/9783319729527|publisher=Springer|isbn=9783319729527|series=Springer Textbooks in Earth Sciences, Geography and Environment|access-date=31 March 2018|archive-date=1 April 2018|archive-url=https://web.archive.org/web/20180401144520/https://www.springer.com/us/book/9783319729527|url-status=live}}</ref> | ||
बड़े डेटासेट के एक तुलनात्मक अध्ययन में, [[रोब किचिन|किचिन]] और मैकआर्डल ने पाया कि बिग डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी स्थितियों में निरंतर दिखाई नहीं देता है।<ref>{{cite journal | last1 = Kitchin | first1 = Rob | last2 = McArdle | first2 = Gavin | year = 2016 | title = What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets | journal = Big Data & Society | volume = 3 | pages = 1–10 | doi = 10.1177/2053951716631130 | s2cid = 55539845 | doi-access = free }}</ref> इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की खोज में सामर्थ्य गतिकी की पुनर्परिभाषा की पहचान की।<ref>{{cite journal | last1 = Balazka | first1 = Dominik | last2 = Rodighiero | first2 = Dario | year = 2020 | title = Big Data and the Little Big Bang: An Epistemological (R)evolution | journal = Frontiers in Big Data | volume = 3 | page = 31 | doi = 10.3389/fdata.2020.00031 | pmid = 33693404 | pmc = 7931920 | hdl = 1721.1/128865 | hdl-access = free | doi-access = free }}</ref> बिग डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के अतिरिक्त, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है। | बड़े डेटासेट के एक तुलनात्मक अध्ययन में, [[रोब किचिन|किचिन]] और मैकआर्डल ने पाया कि बिग डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी स्थितियों में निरंतर दिखाई नहीं देता है।<ref>{{cite journal | last1 = Kitchin | first1 = Rob | last2 = McArdle | first2 = Gavin | year = 2016 | title = What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets | journal = Big Data & Society | volume = 3 | pages = 1–10 | doi = 10.1177/2053951716631130 | s2cid = 55539845 | doi-access = free }}</ref> इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की खोज में सामर्थ्य गतिकी की पुनर्परिभाषा की पहचान की।<ref>{{cite journal | last1 = Balazka | first1 = Dominik | last2 = Rodighiero | first2 = Dario | year = 2020 | title = Big Data and the Little Big Bang: An Epistemological (R)evolution | journal = Frontiers in Big Data | volume = 3 | page = 31 | doi = 10.3389/fdata.2020.00031 | pmid = 33693404 | pmc = 7931920 | hdl = 1721.1/128865 | hdl-access = free | doi-access = free }}</ref> बिग डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के अतिरिक्त, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है। | ||
| Line 51: | Line 51: | ||
== संरचना == | == संरचना == | ||
बिग डेटा | बिग डेटा भंडार कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। वाणिज्यिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बिग डेटा के लिए पैरेलल डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।<ref>{{cite web |url=http://www.eweek.com/database/survey-biggest-databases-approach-30-terabytes|title=Survey: Biggest Databases Approach 30 Terabytes|website=Eweek.com|date=8 November 2003|access-date=8 October 2017}}</ref>{{promotional source|date=December 2018}} | ||
टेराडाटा निगम ने 1984 में | टेराडाटा निगम ने 1984 में पैरेलल प्रसंस्करण [[DBC 1012|डीबीसी 1012]] प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बिग डेटा की परिभाषा निरंतर विकसित होती है। [[टेराडाटा]] ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। 2017 तक, कुछ दर्जन पेटाबाइट क्लास टेराडाटा संबंधपरक डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, टेराडाटा ने [[XML|एक्सएमएल]], [[JSON|जेएसओएन]], और एवरो सहित असंरचित डेटा प्रकारों को जोड़ा है। | ||
2000 में, सीसिंट इंक. (अब [[लेक्सिसनेक्सिस रिस्क सॉल्यूशंस]]) ने [[एचपीसीसी सिस्टम]] | 2000 में, सीसिंट इंक. (अब [[लेक्सिसनेक्सिस रिस्क सॉल्यूशंस|लेक्सिसनेक्सिस जोखिम समाधान]]) ने [[एचपीसीसी सिस्टम]] प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और प्रश्न करने के लिए एक [[ सी ++ ]]-आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटा-संचार प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके अतिरिक्त वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, [[लेक्सिसनेक्सिस रिस्क सॉल्यूशंस|लेक्सिसनेक्सिस]] ने सीसिंट इंक. का अधिग्रहण किया।<ref>{{cite news|url=https://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|title=LexisNexis To Buy Seisint For $775 Million|newspaper=[[The Washington Post]]|access-date=15 July 2004|archive-date=24 July 2008|archive-url=https://web.archive.org/web/20080724195717/http://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|url-status=live}}</ref> और उनके उच्च-गति पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट (वरण बिंदु) इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।<ref>{{Cite news |url=https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html |title=वाशिंगटन पोस्ट|newspaper=[[The Washington Post]] |access-date=24 August 2017 |archive-date=19 October 2016 |archive-url=https://web.archive.org/web/20161019022657/http://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html |url-status=live }}</ref> 2011 में, अपाचे v2.0 लाइसेंस के अंतर्गत एचपीसीसी सिस्टम प्लेटफॉर्म मुक्त-स्त्रोत किया गया था। | ||
सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बिग डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बिग डेटा | सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बिग डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बिग डेटा गतिविधि द्वारा सामान्य रूप से मानचित्र-कम संरचना के अतिरिक्त [[उच्च-थ्रूपुट कंप्यूटिंग|उच्च-उच्च कालबद्ध निर्गम कंप्यूटिंग]] के माध्यम से विश्लेषण किया जाता है। | ||
2004 में, [[Google|गूगल]] ने [[MapReduce]] नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। | 2004 में, [[Google|गूगल]] ने [[MapReduce|मैपरिड्यूस]] नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 "Hadoop: From Experiment To Leading Big Data Platform"] {{Webarchive|url=https://web.archive.org/web/20201123153924/https://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491 |date=23 November 2020 }}, "Information Week", 2013. Retrieved on 14 November 2013.</ref> इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के [[कार्यान्वयन]] को [[Apache Hadoop|अपाचे हडूप]] नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा अपनाया गया था।<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"] {{Webarchive|url=https://web.archive.org/web/20091214180106/http://research.google.com/archive/mapreduce-osdi04.pdf |date=14 December 2009 }}, "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark|अपाचे स्पार्क]] को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह [[इन-मेमोरी प्रोसेसिंग]] (न कि केवल मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है। | ||
माइक2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा समाधान प्रस्ताव शीर्षक वाले लेख में पहचाने गए बिग डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।<ref>{{cite web| url=http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| title=बिग डेटा समाधान की पेशकश| publisher=MIKE2.0| access-date=8 December 2013| archive-date=16 March 2013| archive-url=https://web.archive.org/web/20130316050909/http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| url-status=live}}</ref> कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रम[[परिवर्तन]], अंतर्संबंधों में [[जटिलता]] और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बिग डेटा को संभालने का समाधान करती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Big_Data_Definition|title=बिग डेटा परिभाषा|publisher=MIKE2.0|access-date=9 March 2013|archive-date=25 September 2018|archive-url=https://web.archive.org/web/20180925030939/http://mike2.openmethodology.org/wiki/Big_Data_Definition|url-status=live}}</ref> | |||
2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से सुधार कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=बड़े डेटा के लिए वितरित समानांतर वास्तुकला|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref> | |||
== | डेटा लेक एक संगठन को सूचना प्रबंधन की परिवर्तित गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की स्वीकृति देता है। यह [[डेटा झील|डेटा लेक]] में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।<ref>{{cite web|url=http://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|title=बिग डेटा लेक के साथ प्रमुख व्यावसायिक चुनौतियों का समाधान|date=August 2014|website=Hcltech.com|access-date=8 October 2017|archive-date=3 July 2017|archive-url=https://web.archive.org/web/20170703074658/https://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|url-status=live}}</ref><ref>{{cite web | url= https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | title= MapReduce चौखटे की दोष सहिष्णुता के परीक्षण के लिए विधि| publisher= Computer Networks | year= 2015 | access-date= 13 April 2016 | archive-date= 22 July 2016 | archive-url= https://web.archive.org/web/20160722133706/https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | url-status= live }}</ref> | ||
2011 की मैकिन्से | |||
* डेटा का विश्लेषण करने की तकनीक, जैसे | |||
== प्रौद्योगिकियां == | |||
2011 की मैकिन्से वैश्विक संस्थान रिपोर्ट बिग डेटा के मुख्य घटकों और पारिस्थितिकी तंत्र की विशेषता बताती है:<ref name="McKinsey">{{cite journal | last1 = Manyika | first1 = James | first2 = Michael | last2 = Chui | first3 = Jaques | last3 = Bughin | first4 = Brad | last4 = Brown | first5 = Richard | last5 = Dobbs | first6 = Charles | last6 = Roxburgh | first7 = Angela Hung | last7 = Byers | title = Big Data: The next frontier for innovation, competition, and productivity | publisher = McKinsey Global Institute | date = May 2011 | url = https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_full_report.pdf | access-date = 22 May 2021 | journal = | archive-date = 25 July 2021 | archive-url = https://web.archive.org/web/20210725123303/https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_full_report.pdf | url-status = live }}</ref> | |||
* डेटा का विश्लेषण करने की तकनीक, जैसे A/B परीक्षण, [[ यंत्र अधिगम ]] और [[प्राकृतिक भाषा प्रसंस्करण]] | |||
* बिग डेटा प्रौद्योगिकियां, जैसे बिजनेस इंटेलिजेंस, [[ क्लाउड कम्प्यूटिंग ]] और [[डेटाबेस]] | * बिग डेटा प्रौद्योगिकियां, जैसे बिजनेस इंटेलिजेंस, [[ क्लाउड कम्प्यूटिंग ]] और [[डेटाबेस]] | ||
* आभासीकरण, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले | * आभासीकरण, जैसे चार्ट, ग्राफ़ और डेटा के अन्य डिस्प्ले | ||
बहुआयामी बिग डेटा को [[OLAP]] डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी | बहुआयामी बिग डेटा को [[OLAP|ऑनलाइन विश्लेषणात्मक प्रक्रिया]] डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में,<ref>{{cite web|title=टेन्सर-आधारित संगणना और मॉडलिंग में भविष्य की दिशाएँ|date=May 2009|url=http://www.cs.cornell.edu/cv/tenwork/finalreport.pdf|access-date=4 January 2013|archive-date=17 April 2018|archive-url=https://web.archive.org/web/20180417231223/http://www.cs.cornell.edu/CV/TenWork/FinalReport.pdf|url-status=live}}</ref> जैसे कि बहुरेखीय उप-समष्टि अधिगम,<ref name="MSLsurvey">{{cite journal | first1 = Haiping | last1 = Lu | first2 = K.N. | last2 = Plataniotis | first3 = A.N. | last3 = Venetsanopoulos | url = http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | title = टेन्सर डेटा के लिए मल्टीलीनियर सबस्पेस लर्निंग का एक सर्वेक्षण| journal = Pattern Recognition | volume = 44 | number = 7 | pages = 1540–1551 | year = 2011 | doi = 10.1016/j.patcog.2011.01.004 | bibcode = 2011PatRe..44.1540L | access-date = 21 January 2013 | archive-date = 10 July 2019 | archive-url = https://web.archive.org/web/20190710225429/http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | url-status = live }}</ref> बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, [[खोज-आधारित अनुप्रयोग|खोज-आधारित एप्लीकेशन]], [[डेटा खनन|डेटा माइनिंग]],<ref>{{cite book|last1=Pllana|first1=Sabri|title=2011 14th International Conference on Network-Based Information Systems|pages=341–348|last2=Janciak|first2=Ivan|last3=Brezany|first3=Peter|last4=Wöhrer|first4=Alexander|chapter=A Survey of the State of the Art in Data Mining and Integration Query Languages |website=2011 International Conference on Network-Based Information Systems (NBIS 2011)|publisher=IEEE Computer Society|bibcode=2016arXiv160301113P|year=2016|arxiv=1603.01113|doi=10.1109/NBiS.2011.58|isbn=978-1-4577-0789-6|s2cid=9285984}}</ref> [[वितरित फ़ाइल सिस्टम]], वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), [[वितरित डेटाबेस]], क्लाउड कंप्यूटिंग और [[ सुपर कंप्यूटर | सुपर कंप्यूटर]] एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),<ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28th International Parallel and Distributed Processing Symposium|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|s2cid=11157612|isbn=978-1-4799-3800-1}}</ref> और इंटरनेट सक्षम [[टेन्सर]]-आधारित संगणना सम्मिलित है।{{Citation needed|date=September 2011}} हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ मशीन अधिगम को पूरा करना अभी भी कठिन होता है।<ref>{{Cite journal|last1=L'Heureux|first1=A.|last2=Grolinger|first2=K.|last3=Elyamany|first3=H. F.|last4=Capretz|first4=M. A. M.|date=2017|title=Machine Learning With Big Data: Challenges and Approaches|journal=IEEE Access|volume=5|pages=7776–7797|doi=10.1109/ACCESS.2017.2696365|issn=2169-3536|doi-access=free}}</ref> | ||
बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में | |||
कुछ विशाल | कुछ विशाल पैरेलल प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित [[आरडीबीएमएस]] में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।<ref>{{cite web |author=Monash, Curt |title=ईबे के दो विशाल डेटा वेयरहाउस|date=30 April 2009 |url=http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/20190331110659/http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/ |url-status=live }}<br />{{cite web |author=Monash, Curt |title=eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more |date=6 October 2010 |url=http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/ |access-date=11 November 2010 |archive-date=31 March 2019 |archive-url=https://web.archive.org/web/20190331133707/http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/ |url-status=live }}</ref>{{promotional source|date=December 2018}} | ||
[[DARPA]] का [[टोपोलॉजिकल डेटा विश्लेषण]] प्रोग्राम बड़े पैमाने पर डेटा सेट की मूलभूत संरचना की | |||