अपाचे हडूप: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(8 intermediate revisions by 4 users not shown)
Line 27: Line 27:
| website = {{Official URL}}
| website = {{Official URL}}
}}
}}
अपाचे हडूप ({{IPAc-en|pron|h|ə|ˈ|d|u:|p}}) [[ खुला स्रोत सॉफ्टवेयर ]] उपयोगिताओं का एक संग्रह है | जो बड़ी मात्रा में डेटा और संगणना से जुड़ी समस्याओं को हल करने के लिए कई संगणकों के नेटवर्क का उपयोग करने की सुविधा प्रदान करता है। यह [[ MapReduce | मानचित्र छोटा करना]] [[ प्रोग्रामिंग मॉडल ]] का उपयोग करके और बड़े डेटा के [[ क्लस्टर फ़ाइल सिस्टम | वितरित भंडारण]] और प्रसंस्करण के लिए एक [[ सॉफ्टवेयर ढांचा | सॉफ्टवेयर संरचना]] प्रदान करता है। हडूप को मूल रूप से [[ लोहे की उपयोगी वस्तुएं ]] से निर्मित [[ कंप्यूटर क्लस्टर | संगणक क्लस्टर]] के लिए डिज़ाइन किया गया था, जो अभी भी सामान्य उपयोग है।<ref>{{cite web |url=http://www.silicon.co.uk/workspace/doug-cutting-big-data-is-not-a-bubble-96694 |title=डॉग कटिंग: बिग डेटा इज़ नो बबल|last=Judge |first=Peter |date=2012-10-22 |website=silicon.co.uk |access-date=2018-03-11}}</ref> इसके बाद से उच्च अंत हार्डवेयर के समूहों पर भी इसका उपयोग पाया गया है।<ref>{{cite web |url=https://www.datanami.com/2014/05/12/hadoop-ibm-power/ |title=IBM Power पर Hadoop क्यों|last=Woodie |first=Alex |date=2014-05-12 |website=datanami.com |publisher=Datanami |access-date=2018-03-11}}</ref><ref>{{cite web |url=https://www.hpcwire.com/2014/10/15/cray-launches-hadoop-hpc-airspace/ |title=क्रे ने हडूप को एचपीसी एयरस्पेस में लॉन्च किया|last=Hemsoth |first=Nicole |date=2014-10-15 |website=hpcwire.com |access-date=2018-03-11}}</ref> हडूप में सभी अनुखंड एक मौलिक धारणा के साथ डिज़ाइन किए गए हैं कि हार्डवेयर विफलताएँ सामान्य घटनाएँ हैं और इन्हें फ्रेमवर्क द्वारा स्वचालित रूप से नियंत्रित किया जाना चाहिए।<ref name="homepage">{{Cite web|title= अपाचे हडूप में आपका स्वागत है!|url= http://hadoop.apache.org|website= hadoop.apache.org|access-date = 2016-08-25}}</ref>
'''अपाचे हडूप''' ({{IPAc-en|pron|h|ə|ˈ|d|u:|p}}) [[ खुला स्रोत सॉफ्टवेयर |खुला स्रोत सॉफ्टवेयर]] उपयोगिताओं का संग्रह है | जो बड़ी मात्रा में डेटा और संगणना से जुड़ी समस्याओं को हल करने के लिए कई संगणकों के नेटवर्क का उपयोग करने की सुविधा प्रदान करता है। यह [[ MapReduce |मानचित्र छोटा करना]] [[ प्रोग्रामिंग मॉडल |प्रोग्रामिंग मॉडल]] का उपयोग करके और बड़े डेटा के [[ क्लस्टर फ़ाइल सिस्टम |वितरित भंडारण]] और प्रसंस्करण के लिए [[ सॉफ्टवेयर ढांचा |सॉफ्टवेयर संरचना]] प्रदान करता है। हडूप को मूल रूप से [[ लोहे की उपयोगी वस्तुएं |लोहे की उपयोगी वस्तुएं]] से निर्मित [[ कंप्यूटर क्लस्टर |संगणक क्लस्टर]] के लिए डिज़ाइन किया गया था, जो अभी भी सामान्य उपयोग है।<ref>{{cite web |url=http://www.silicon.co.uk/workspace/doug-cutting-big-data-is-not-a-bubble-96694 |title=डॉग कटिंग: बिग डेटा इज़ नो बबल|last=Judge |first=Peter |date=2012-10-22 |website=silicon.co.uk |access-date=2018-03-11}}</ref> इसके बाद से उच्च अंत हार्डवेयर के समूहों पर भी इसका उपयोग पाया गया है।<ref>{{cite web |url=https://www.datanami.com/2014/05/12/hadoop-ibm-power/ |title=IBM Power पर Hadoop क्यों|last=Woodie |first=Alex |date=2014-05-12 |website=datanami.com |publisher=Datanami |access-date=2018-03-11}}</ref><ref>{{cite web |url=https://www.hpcwire.com/2014/10/15/cray-launches-hadoop-hpc-airspace/ |title=क्रे ने हडूप को एचपीसी एयरस्पेस में लॉन्च किया|last=Hemsoth |first=Nicole |date=2014-10-15 |website=hpcwire.com |access-date=2018-03-11}}</ref> हडूप में सभी अनुखंड मौलिक धारणा के साथ डिज़ाइन किए गए हैं कि हार्डवेयर विफलताएँ सामान्य घटनाएँ हैं और इन्हें फ्रेमवर्क द्वारा स्वचालित रूप से नियंत्रित किया जाना चाहिए।<ref name="homepage">{{Cite web|title= अपाचे हडूप में आपका स्वागत है!|url= http://hadoop.apache.org|website= hadoop.apache.org|access-date = 2016-08-25}}</ref>


अपाचे हडूप के मूल में एक स्टोरेज पार्ट होता है, जिसे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) के रूप में जाना जाता है, और एक प्रोसेसिंग पार्ट जो कि मैपरेडुस प्रोग्रामिंग मॉडल है। हडूप फ़ाइलों को बड़े ब्लॉक में विभाजित करता है और उन्हें एक क्लस्टर में नोड्स में वितरित करता है। यह तब डेटा को समानांतर में संसाधित करने के लिए पैक किए गए कोड को नोड्स में स्थानांतरित करता है। यह दृष्टिकोण [[ डेटा स्थानीयता | डेटा स्थानीयता]] का लाभ उठाता है,<ref>{{cite web|title=Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) क्या है? <!--|author=Staff writer(s); no by-line.-->|url=https://www.ibm.com/analytics/hadoop/hdfs|url-status=live|access-date=2021-04-12|website=ibm.com|publisher=[[IBM]]}}</ref> जहां नोड्स उस डेटा में हेरफेर करते हैं, जिस तक उनकी पहुंच है। यह डेटासेट को एक अधिक पारंपरिक [[ सुपर कंप्यूटर आर्किटेक्चर | सुपरसंगणक आर्किटेक्चर]] की तुलना में तेजी से और अधिक कुशलता से प्रसंस्करण वितरित करने की अनुमति देता है जो एक समानांतर फाइल सिस्टम पर निर्भर करता है जहां उच्च गति नेटवर्किंग के माध्यम से गणना और डेटा वितरित किया जाता है।<ref>{{cite web |url=http://www.datascienceassn.org/content/data-locality-hpc-vs-hadoop-vs-spark |title=डेटा स्थानीयता: एचपीसी बनाम हडूप बनाम स्पार्क|last1=Malak |first1=Michael |date=2014-09-19 |website=datascienceassn.org |publisher=Data Science Association |access-date=2014-10-30 }}</ref><ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28वीं अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|isbn=978-1-4799-3800-1|s2cid=11157612}}</ref>
अपाचे हडूप के मूल में स्टोरेज पार्ट होता है, जिसे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफएस) के रूप में जाना जाता है, और प्रोसेसिंग पार्ट जो कि मैपरेडुस प्रोग्रामिंग मॉडल है। हडूप फ़ाइलों को बड़े ब्लॉक में विभाजित करता है और उन्हें क्लस्टर में नोड्स में वितरित करता है। यह तब डेटा को समानांतर में संसाधित करने के लिए पैक किए गए कोड को नोड्स में स्थानांतरित करता है। यह दृष्टिकोण [[ डेटा स्थानीयता |डेटा स्थानीयता]] का लाभ उठाता है,<ref>{{cite web|title=Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) क्या है? <!--|author=Staff writer(s); no by-line.-->|url=https://www.ibm.com/analytics/hadoop/hdfs|url-status=live|access-date=2021-04-12|website=ibm.com|publisher=[[IBM]]}}</ref> जहां नोड्स उस डेटा में हेरफेर करते हैं, जिस तक उनकी पहुंच है। यह डेटासेट को एक अधिक पारंपरिक [[ सुपर कंप्यूटर आर्किटेक्चर |सुपरसंगणक आर्किटेक्चर]] की तुलना में तेजी से और अधिक कुशलता से प्रसंस्करण वितरित करने की अनुमति देता है जो समानांतर फाइल सिस्टम पर निर्भर करता है जहां उच्च गति नेटवर्किंग के माध्यम से गणना और डेटा वितरित किया जाता है।<ref>{{cite web |url=http://www.datascienceassn.org/content/data-locality-hpc-vs-hadoop-vs-spark |title=डेटा स्थानीयता: एचपीसी बनाम हडूप बनाम स्पार्क|last1=Malak |first1=Michael |date=2014-09-19 |website=datascienceassn.org |publisher=Data Science Association |access-date=2014-10-30 }}</ref><ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28वीं अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|isbn=978-1-4799-3800-1|s2cid=11157612}}</ref>


आधार अपाचे हडूप रूपरेखा निम्नलिखित अनुखंड से बना है:
आधार अपाचे हडूप रूपरेखा निम्नलिखित अनुखंड से बना है:


* हडूप कॉमन - में अन्य हडूप अनुखंड के लिए आवश्यक लाइब्रेरी और सुविधाएं शामिल हैं;
* हडूप कॉमन - में अन्य हडूप अनुखंड के लिए आवश्यक लाइब्रेरी और सुविधाएं सम्मिलित हैं;
* हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) - एक वितरित फाइल-सिस्टम जो कमोडिटी मशीनों पर डेटा स्टोर करता है, क्लस्टर में बहुत अधिक समग्र बैंडविड्थ प्रदान करता है;
* हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम (एचडीएफएस) - एक वितरित फाइल-सिस्टम जो कमोडिटी मशीनों पर डेटा स्टोर करता है, क्लस्टर में बहुत अधिक समग्र बैंडविड्थ प्रदान करता है;
* हडूप YARN - (2012 में पेश किया गया) क्लस्टर में कंप्यूटिंग संसाधनों के प्रबंधन और उपयोगकर्ताओं के अनुप्रयोगों को शेड्यूल करने के लिए उनका उपयोग करने के लिए जिम्मेदार एक मंच;<ref>{{cite web |url=http://hadoop.apache.org/docs/r2.5.1/api/org/apache/hadoop/yarn/api/records/Resource.html#newInstance(int,%20int) |title=संसाधन (Apache Hadoop Main 2.5.1 API) <!--|author=Staff writer(s); no by-line.--> |date=2014-09-12 |website=apache.org |publisher=Apache Software Foundation |access-date=2014-09-30 |archive-url=https://web.archive.org/web/20141006090717/http://hadoop.apache.org/docs/r2.5.1/api/org/apache/hadoop/yarn/api/records/Resource.html#newInstance(int,%20int) |archive-date=2014-10-06 |url-status=dead }}</ref><ref>{{cite web |url=http://hortonworks.com/blog/apache-hadoop-yarn-concepts-and-applications/ |title=अपाचे हडूप यार्न - अवधारणाएं और अनुप्रयोग|last1=Murthy |first1=Arun |date=2012-08-15 |website=hortonworks.com |publisher=Hortonworks |access-date=2014-09-30 }}</ref>
* हडूप YARN - (2012 में पेश किया गया) क्लस्टर में कंप्यूटिंग संसाधनों के प्रबंधन और उपयोगकर्ताओं के अनुप्रयोगों को शेड्यूल करने के लिए उनका उपयोग करने के लिए उत्तरदायी मंच;<ref>{{cite web |url=http://hadoop.apache.org/docs/r2.5.1/api/org/apache/hadoop/yarn/api/records/Resource.html#newInstance(int,%20int) |title=संसाधन (Apache Hadoop Main 2.5.1 API) <!--|author=Staff writer(s); no by-line.--> |date=2014-09-12 |website=apache.org |publisher=Apache Software Foundation |access-date=2014-09-30 |archive-url=https://web.archive.org/web/20141006090717/http://hadoop.apache.org/docs/r2.5.1/api/org/apache/hadoop/yarn/api/records/Resource.html#newInstance(int,%20int) |archive-date=2014-10-06 |url-status=dead }}</ref><ref>{{cite web |url=http://hortonworks.com/blog/apache-hadoop-yarn-concepts-and-applications/ |title=अपाचे हडूप यार्न - अवधारणाएं और अनुप्रयोग|last1=Murthy |first1=Arun |date=2012-08-15 |website=hortonworks.com |publisher=Hortonworks |access-date=2014-09-30 }}</ref>
* हडूप मैपरेडुस - बड़े पैमाने पर डेटा प्रोसेसिंग के लिए मैपरेडुस प्रोग्रामिंग मॉडल का कार्यान्वयन।
* हडूप मैपरेडुस - बड़े पैमाने पर डेटा प्रोसेसिंग के लिए मैपरेडुस प्रोग्रामिंग मॉडल का कार्यान्वयन।
* हडूप ओजोन - (2020 में पेश किया गया) हडूप के लिए एक ऑब्जेक्ट स्टोर
* हडूप ओजोन - (2020 में पेश किया गया) हडूप के लिए एक ऑब्जेक्ट स्टोर


हडूप शब्द का प्रयोग अधिकांश आधार अनुखंड और उप-अनुखंड दोनों के लिए और पारिस्थितिकी तंत्र के लिए भी किया जाता है,<ref>{{cite web |url=https://finance.yahoo.com/news/continuuity-raises-10-million-series-120500471.html |title=हडूप ईकोसिस्टम के भीतर बड़े डेटा अनुप्रयोग विकास को प्रज्वलित करने के लिए निरंतरता $10 मिलियन सीरीज़ ए राउंड बढ़ाती है <!--|author=Staff writer(s); no by-line.--> |date=2012-11-14 |website=finance.yahoo.com |publisher=[[Marketwired]] |access-date=2014-10-30 }}</ref> या अतिरिक्त सॉफ़्टवेयर पैकेजों का संग्रह जो हडूप के ऊपर या उसके साथ स्थापित किया जा सकता है, जैसे कि [[ सुअर (प्रोग्रामिंग उपकरण) | अपाचे पीआईजी (प्रोग्रामिंग उपकरण)]] , [[ Apache Hive | अपाचे हीवे]] , [[ Apache HBase | अपाचे ह्बसे]] , अपाचे फीनिक्स, [[ Apache Spark | अपाचे स्पार्क]], [[ Apache ZooKeeper | अपाचे जूकीपेर]] , [[ Cloudera Impala | क्लौदेर इम्पाला]] , [[ Apache Flume | अपाचे फ्लुमे]] , [[ Apache Sqoop | अपाचे स्कूप]], [[ Apache Flume |अपाचे ओजी]], और [[ अपाचे तूफान | अपाचे स्टॉर्म]] ।<ref>{{cite web |url=http://hadoop.apache.org/ |title=Hadoop से संबंधित परियोजनाओं पर|publisher=Hadoop.apache.org |access-date=2013-10-17 }}</ref>
हडूप शब्द का प्रयोग अधिकांश आधार अनुखंड और उप-अनुखंड दोनों के लिए और पारिस्थितिकी तंत्र के लिए भी किया जाता है,<ref>{{cite web |url=https://finance.yahoo.com/news/continuuity-raises-10-million-series-120500471.html |title=हडूप ईकोसिस्टम के भीतर बड़े डेटा अनुप्रयोग विकास को प्रज्वलित करने के लिए निरंतरता $10 मिलियन सीरीज़ ए राउंड बढ़ाती है <!--|author=Staff writer(s); no by-line.--> |date=2012-11-14 |website=finance.yahoo.com |publisher=[[Marketwired]] |access-date=2014-10-30 }}</ref> या अतिरिक्त सॉफ़्टवेयर पैकेजों का संग्रह जो हडूप के ऊपर या उसके साथ स्थापित किया जा सकता है, जैसे कि [[ सुअर (प्रोग्रामिंग उपकरण) |अपाचे पीआईजी (प्रोग्रामिंग उपकरण)]], [[ Apache Hive |अपाचे हीवे]], [[ Apache HBase |अपाचे ह्बसे]], अपाचे फीनिक्स, [[ Apache Spark |अपाचे स्पार्क]], [[ Apache ZooKeeper |अपाचे जूकीपेर]], [[ Cloudera Impala |क्लौदेर इम्पाला]], [[ Apache Flume |अपाचे फ्लुमे]], [[ Apache Sqoop |अपाचे स्कूप]], [[ Apache Flume |अपाचे ओजी]], और [[ अपाचे तूफान |अपाचे स्टॉर्म]] ।<ref>{{cite web |url=http://hadoop.apache.org/ |title=Hadoop से संबंधित परियोजनाओं पर|publisher=Hadoop.apache.org |access-date=2013-10-17 }}</ref>


अपाचे हडूप के मैपरेडुस और HDFS घटक मैपरेडुस और[[ Google | गूगल]] फाइल सिस्टम पर गूगल पेपर्स से प्रेरित थे।<ref>{{cite book <!-- |author=Staff writer(s); no by-line.--> |title=डेटा साइंस और बिग डेटा एनालिटिक्स: डिस्कवरिंग, एनालिसिस, विज़ुअलाइज़िंग एंड प्रेजेंटिंग डेटा|url=https://books.google.com/books?id=axruBQAAQBAJ&pg=PA300|publisher=John Wiley & Sons |page=300 |date=2014-12-19 |isbn=9781118876220 |access-date=2015-01-29 }}</ref>
अपाचे हडूप के मैपरेडुस और एचडीएफएस घटक मैपरेडुस और[[ Google | गूगल]] फाइल सिस्टम पर गूगल पेपर्स से प्रेरित थे।<ref>{{cite book <!-- |author=Staff writer(s); no by-line.--> |title=डेटा साइंस और बिग डेटा एनालिटिक्स: डिस्कवरिंग, एनालिसिस, विज़ुअलाइज़िंग एंड प्रेजेंटिंग डेटा|url=https://books.google.com/books?id=axruBQAAQBAJ&pg=PA300|publisher=John Wiley & Sons |page=300 |date=2014-12-19 |isbn=9781118876220 |access-date=2015-01-29 }}</ref>


हडूप रुपरेखा स्वयं ज्यादातर [[ जावा (प्रोग्रामिंग भाषा) | जावा (प्रोग्रामिंग भाषा)]] में लिखा जाता है, C (प्रोग्रामिंग लैंग्वेज) में कुछ देशी कोड और [[ कमांड लाइन इंटरफेस | कमांड लाइन इंटरफेस]] उपयोगिताओं को [[ शेल स्क्रिप्ट्स | शेल स्क्रिप्ट्स]] के रूप में लिखा जाता है। चूंकि मैपरेडुस जावा कोड सामान्य है, मानचित्र को लागू करने और उपयोगकर्ता के प्रोग्राम के कुछ हिस्सों को कम करने के लिए हडूप स्ट्रीमिंग के साथ किसी [[ सी (प्रोग्रामिंग भाषा) | सी (प्रोग्रामिंग भाषा)]] का उपयोग किया जा सकता है।<ref>{{cite web |url=http://www.mail-archive.com/nlpatumd@yahoogroups.com/msg00570.html |title=[nlpatumd] हडूप और पर्ल के साथ रोमांच|publisher=Mail-archive.com |date=2010-05-02 |access-date=2013-04-05 }}</ref> हडूप पारिस्थितिकी तंत्र में अन्य परियोजनाएं समृद्ध उपयोगकर्ता इंटरफेस को उजागर करती हैं।
हडूप रुपरेखा स्वयं ज्यादातर [[ जावा (प्रोग्रामिंग भाषा) |जावा (प्रोग्रामिंग भाषा)]] में लिखा जाता है, C (प्रोग्रामिंग लैंग्वेज) में कुछ देशी कोड और [[ कमांड लाइन इंटरफेस |कमांड लाइन इंटरफेस]] उपयोगिताओं को [[ शेल स्क्रिप्ट्स |शेल स्क्रिप्ट्स]] के रूप में लिखा जाता है। चूंकि मैपरेडुस जावा कोड सामान्य है, मानचित्र को लागू करने और उपयोगकर्ता के प्रोग्राम के कुछ हिस्सों को कम करने के लिए हडूप स्ट्रीमिंग के साथ किसी [[ सी (प्रोग्रामिंग भाषा) |सी (प्रोग्रामिंग भाषा)]] का उपयोग किया जा सकता है।<ref>{{cite web |url=http://www.mail-archive.com/nlpatumd@yahoogroups.com/msg00570.html |title=[nlpatumd] हडूप और पर्ल के साथ रोमांच|publisher=Mail-archive.com |date=2010-05-02 |access-date=2013-04-05 }}</ref> हडूप पारिस्थितिकी तंत्र में अन्य परियोजनाएं समृद्ध उपयोगकर्ता इंटरफेस को उजागर करती हैं।


== इतिहास ==
== इतिहास ==
इसके सह-संस्थापकों, [[ डॉग कटिंग ]] और [[ माइक कैफेरेला ]] के अनुसार, हडूप की उत्पत्ति गूगल फ़ाइल सिस्टम पेपर थी जो अक्टूबर 2003 में प्रकाशित किया गया था।<ref>{{Cite news|url=https://www.oreilly.com/ideas/the-next-10-years-of-apache-hadoop|title=Apache Hadoop के अगले 10 साल|last1=Cutting|first1=Mike|last2=Cafarella|first2=Ben|last3=Lorica|first3=Doug|date=2016-03-31|work=O'Reilly Media|access-date=2017-10-12|language=en}}</ref><ref>{{cite web|url=http://research.google.com/archive/gfs.html|title=Google फाइल सिस्टम|first1=Sanjay|last1=Ghemawat|first2=Howard|last2=Gobioff|first3=Shun-Tak|last3=Leung|year=2003|pages=20–43}}</ref> इस पेपर ने गूगल के एक और पेपर को जन्म दिया{{snd}} मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग।<ref>{{cite web|url=http://research.google.com/archive/mapreduce.html|title=MapReduce: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग|first1=Jeffrey|last1=Dean|first2=Sanjay|last2=Ghemawat|year=2004|pages=137–150}}</ref> विकास [[ अपाचे नच ]] परियोजना पर प्रारंभ हुआ, लेकिन जनवरी 2006 में इसे नए हडूप उपप्रोजेक्ट में स्थानांतरित कर दिया गया।<ref>{{cite web|url=https://issues.apache.org/jira/browse/INFRA-700|title=नई मेलिंग सूचियों का अनुरोध: Hadoop|last=Cutting|first=Doug|date=28 Jan 2006|website=issues.apache.org|quote=Lucene PMC ने Nutch के हिस्से को Hadoop नाम की एक नई उप-परियोजना में विभाजित करने के लिए मतदान किया है}}</ref> डौग कटिंग, जो याहू! उस समय, इसका नाम अपने बेटे के खिलौने हाथी के नाम पर रखा था।<ref>{{cite news |title=हडूप, एक नि:शुल्क सॉफ्टवेयर प्रोग्राम, खोज से परे उपयोग पाता है|first=Ashlee |last=Vance |newspaper=The New York Times |date=2009-03-17 |url=https://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html |access-date=2010-01-20 | archive-url= https://web.archive.org/web/20110830130350/http://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html|archive-date=30 August 2011| url-status=live }}</ref> नच से निकाले गए प्रारंभिक कोड में HDFS के लिए कोड की लगभग 5,000 लाइनें और मैपरेडुस के लिए कोड की लगभग 6,000 लाइनें शामिल थीं।
इसके सह-संस्थापकों, [[ डॉग कटिंग |डॉग कटिंग]] और [[ माइक कैफेरेला |माइक कैफेरेला]] के अनुसार, हडूप की उत्पत्ति गूगल फ़ाइल सिस्टम पेपर थी जो अक्टूबर 2003 में प्रकाशित किया गया था।<ref>{{Cite news|url=https://www.oreilly.com/ideas/the-next-10-years-of-apache-hadoop|title=Apache Hadoop के अगले 10 साल|last1=Cutting|first1=Mike|last2=Cafarella|first2=Ben|last3=Lorica|first3=Doug|date=2016-03-31|work=O'Reilly Media|access-date=2017-10-12|language=en}}</ref><ref>{{cite web|url=http://research.google.com/archive/gfs.html|title=Google फाइल सिस्टम|first1=Sanjay|last1=Ghemawat|first2=Howard|last2=Gobioff|first3=Shun-Tak|last3=Leung|year=2003|pages=20–43}}</ref> इस पेपर ने गूगल के और पेपर को जन्म दिया{{snd}} मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग।<ref>{{cite web|url=http://research.google.com/archive/mapreduce.html|title=MapReduce: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग|first1=Jeffrey|last1=Dean|first2=Sanjay|last2=Ghemawat|year=2004|pages=137–150}}</ref> विकास [[ अपाचे नच |अपाचे नच]] परियोजना पर प्रारंभ हुआ, लेकिन जनवरी 2006 में इसे नए हडूप उपप्रोजेक्ट में स्थानांतरित कर दिया गया।<ref>{{cite web|url=https://issues.apache.org/jira/browse/INFRA-700|title=नई मेलिंग सूचियों का अनुरोध: Hadoop|last=Cutting|first=Doug|date=28 Jan 2006|website=issues.apache.org|quote=Lucene PMC ने Nutch के हिस्से को Hadoop नाम की एक नई उप-परियोजना में विभाजित करने के लिए मतदान किया है}}</ref> डौग कटिंग, जो याहू! उस समय, इसका नाम अपने बेटे के खिलौने हाथी के नाम पर रखा था।<ref>{{cite news |title=हडूप, एक नि:शुल्क सॉफ्टवेयर प्रोग्राम, खोज से परे उपयोग पाता है|first=Ashlee |last=Vance |newspaper=The New York Times |date=2009-03-17 |url=https://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html |access-date=2010-01-20 | archive-url= https://web.archive.org/web/20110830130350/http://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html|archive-date=30 August 2011| url-status=live }}</ref> नच से निकाले गए प्रारंभिक कोड में एचडीएफएस के लिए कोड की लगभग 5,000 लाइनें और मैपरेडुस के लिए कोड की लगभग 6,000 लाइनें सम्मिलित थीं।


मार्च 2006 में, ओवेन ओ'माल्ली हडूप प्रोजेक्ट में शामिल होने वाले पहले कमिटर थे;<ref>{{cite mailing list|first=Doug|last=Cutting|author-link=Doug Cutting|title=[परिणाम] वोट: हडूप कमिटर के रूप में ओवेन ओ'माल्ली को जोड़ें|mailing-list=hadoop-common-dev|date=30 March 2006|url=http://mail-archives.apache.org/mod_mbox/hadoop-common-dev/200603.mbox/%3C442B27A6.8080500@apache.org%3E}}</ref> हडूप 0.1.0 को अप्रैल 2006 में रिलीज़ किया गया था।<ref>{{cite web|url=https://archive.apache.org/dist/hadoop/core/|title=/dist/hadoop/core|website=archive.apache.org|access-date=11 December 2017}}</ref> यह परियोजना में किए जा रहे योगदान के माध्यम से विकसित होना जारी है।<ref>{{cite web|url=https://hadoop.apache.org/who.html|title=हम कौन हैं|website=hadoop.apache.org|access-date=11 December 2017}}</ref> हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम के लिए सबसे पहला डिज़ाइन दस्तावेज़ ध्रुबा बोरठाकुर द्वारा 2007 में लिखा गया था।<ref>{{Cite web|last=Borthakur|first=Dhruba|date=2006|title=द हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम: आर्किटेक्चर एंड डिजाइन|url=http://svn.apache.org/repos/asf/hadoop/common/tags/release-0.10.0/docs/hdfs_design.pdf|website=Apache Hadoop Code Repository}}</ref>
मार्च 2006 में, ओवेन ओ'माल्ली हडूप प्रोजेक्ट में सम्मिलित होने वाले पहले कमिटर थे;<ref>{{cite mailing list|first=Doug|last=Cutting|author-link=Doug Cutting|title=[परिणाम] वोट: हडूप कमिटर के रूप में ओवेन ओ'माल्ली को जोड़ें|mailing-list=hadoop-common-dev|date=30 March 2006|url=http://mail-archives.apache.org/mod_mbox/hadoop-common-dev/200603.mbox/%3C442B27A6.8080500@apache.org%3E}}</ref> हडूप 0.1.0 को अप्रैल 2006 में रिलीज़ किया गया था।<ref>{{cite web|url=https://archive.apache.org/dist/hadoop/core/|title=/dist/hadoop/core|website=archive.apache.org|access-date=11 December 2017}}</ref> यह परियोजना में किए जा रहे योगदान के माध्यम से विकसित होना जारी है।<ref>{{cite web|url=https://hadoop.apache.org/who.html|title=हम कौन हैं|website=hadoop.apache.org|access-date=11 December 2017}}</ref> हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम के लिए सबसे पहला डिज़ाइन दस्तावेज़ ध्रुबा बोरठाकुर द्वारा 2007 में लिखा गया था।<ref>{{Cite web|last=Borthakur|first=Dhruba|date=2006|title=द हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम: आर्किटेक्चर एंड डिजाइन|url=http://svn.apache.org/repos/asf/hadoop/common/tags/release-0.10.0/docs/hdfs_design.pdf|website=Apache Hadoop Code Repository}}</ref>




Line 54: Line 54:
{{See also|#हडूप_वितरित_फ़ाइल_सिस्टम|अपाचे एचबेस|मापरेडूस|l1=हडूप वितरित  सिस्फाटमइल}}
{{See also|#हडूप_वितरित_फ़ाइल_सिस्टम|अपाचे एचबेस|मापरेडूस|l1=हडूप वितरित  सिस्फाटमइल}}


हडूप में हडूप कॉमन पैकेज शामिल है, जो फ़ाइल सिस्टम और ऑपरेटिंग सिस्टम स्तर का सार प्रदान करता है, एक मैपरेडुस इंजन (या तो मैपरेडस/एमआर1 या यार्न/एमआर2) और हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफएस)<ref>{{cite web |url=http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |title=MR2 और यार्न संक्षेप में समझाया|first=Harsh |last=Chouraria |date=21 October 2012 |website=Cloudera.com |access-date=23 October 2013 |archive-url=https://web.archive.org/web/20131022080058/http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |archive-date=22 October 2013 |url-status=dead }}</ref> और हडूप कॉमन पैकेज में जावा आर्काइव (जेएआर) फाइलें और हडूप शुरू करने के लिए आवश्यक स्क्रिप्ट शामिल हैं।
हडूप में हडूप कॉमन पैकेज सम्मिलित है, जो फ़ाइल सिस्टम और ऑपरेटिंग सिस्टम स्तर का सार प्रदान करता है, मैपरेडुस इंजन (या तो मैपरेडस/एमआर1 या यार्न/एमआर2) और हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफएस)<ref>{{cite web |url=http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |title=MR2 और यार्न संक्षेप में समझाया|first=Harsh |last=Chouraria |date=21 October 2012 |website=Cloudera.com |access-date=23 October 2013 |archive-url=https://web.archive.org/web/20131022080058/http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |archive-date=22 October 2013 |url-status=dead }}</ref> और हडूप कॉमन पैकेज में जावा आर्काइव (जेएआर) फाइलें और हडूप शुरू करने के लिए आवश्यक स्क्रिप्ट सम्मिलित हैं।


काम के प्रभावी शेड्यूलिंग के लिए, प्रत्येक हडूप-संगत फाइल सिस्टम को स्थान जागरूकता प्रदान करनी चाहिए, जो कि रैक का नाम है, विशेष रूप से नेटवर्क स्विच जहां वर्कर नोड है। हडूप एप्लिकेशन इस जानकारी का उपयोग उस नोड पर कोड निष्पादित करने के लिए कर सकते हैं जहां डेटा है, और, विफल होने पर, उसी रैक/स्विच पर बैकबोन ट्रैफ़िक को कम करने के लिए। कई रैक में डेटा रिडंडेंसी के लिए डेटा की प्रतिकृति बनाते समय HDFS इस विधि का उपयोग करता है। यह दृष्टिकोण रैक पावर आउटेज या स्विच विफलता के प्रभाव को कम करता है; यदि इनमें से कोई हार्डवेयर विफलता होती है, तो डेटा उपलब्ध रहेगा।<ref>{{cite web |url=http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html |title=एचडीएफएस उपयोगकर्ता गाइड|publisher=Hadoop.apache.org |access-date=2014-09-04 }}</ref>
काम के प्रभावी शेड्यूलिंग के लिए, प्रत्येक हडूप-संगत फाइल सिस्टम को स्थान जागरूकता प्रदान करनी चाहिए, जो कि रैक का नाम है, विशेष रूप से नेटवर्क स्विच जहां वर्कर नोड है। हडूप एप्लिकेशन इस जानकारी का उपयोग उस नोड पर कोड निष्पादित करने के लिए कर सकते हैं जहां डेटा है, और, विफल होने पर, उसी रैक/स्विच पर बैकबोन ट्रैफ़िक को कम करने के लिए। कई रैक में डेटा रिडंडेंसी के लिए डेटा की प्रतिकृति बनाते समय एचडीएफएस इस विधि का उपयोग करता है। यह दृष्टिकोण रैक पावर आउटेज या स्विच विफलता के प्रभाव को कम करता है; यदि इनमें से कोई हार्डवेयर विफलता होती है, तो डेटा उपलब्ध रहेगा।<ref>{{cite web |url=http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html |title=एचडीएफएस उपयोगकर्ता गाइड|publisher=Hadoop.apache.org |access-date=2014-09-04 }}</ref>
[[File:Hadoop 1.png|thumb|upright=1.2|right|alt=Hadoop cluster|एक बहु-नोड हडूप क्लस्टर]]एक छोटे हडूप क्लस्टर में एक मास्टर और कई वर्कर नोड शामिल होते हैं। मास्टर नोड में एक जॉब ट्रैकर, टास्क ट्रैकर, नेमनोड और डेटानोड होते हैं। एक दास या कार्यकर्ता नोड डेटानोड और टास्कट्रैकर दोनों के रूप में कार्य करता है, चूंकि डेटा-ओनली और कंप्यूट-ओनली वर्कर नोड्स होना संभव है। ये सामान्यतः केवल गैर-मानक अनुप्रयोगों में उपयोग किए जाते हैं।<ref name="michael-noll.com_2">{{cite web |title=उबंटू लिनक्स सिस्टम (मल्टी-नोड क्लस्टर) पर हडूप चलाना|url=http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/ }}</रेफरी>
[[File:Hadoop 1.png|thumb|upright=1.2|right|alt=Hadoop cluster|एक बहु-नोड हडूप क्लस्टर]]छोटे हडूप क्लस्टर में एक मास्टर और कई वर्कर नोड सम्मिलित होते हैं। मास्टर नोड में एक जॉब ट्रैकर, टास्क ट्रैकर, नेमनोड और डेटानोड होते हैं। एक दास या कार्यकर्ता नोड डेटानोड और टास्कट्रैकर दोनों के रूप में कार्य करता है, चूंकि डेटा-ओनली और कंप्यूट-ओनली वर्कर नोड्स होना संभव है। ये सामान्यतः केवल गैर-मानक अनुप्रयोगों में उपयोग किए जाते हैं।<ref name="michael-noll.com_2">{{cite web |title=उबंटू लिनक्स सिस्टम (मल्टी-नोड क्लस्टर) पर हडूप चलाना|url=http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/ }}</ref>


Hadoop को Java [[ जावा क्रम पर्यावरण ]]JRE) 1.6 या उच्चतर की आवश्यकता है। मानक स्टार्टअप और शटडाउन स्क्रिप्ट के लिए आवश्यक है कि क्लस्टर में नोड्स के बीच [[ सुरक्षित खोल ]] (SSH) स्थापित किया जाए।<ref name="michael-noll.com_1">{{cite web |title=उबंटू लिनक्स (सिंगल-नोड क्लस्टर) पर हडूप चलाना|url=http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/#prerequisites |access-date=6 June 2013 }}</रेफरी>
Hadoop को Java [[ जावा क्रम पर्यावरण ]]JRE) 1.6 या उच्चतर की आवश्यकता है। मानक स्टार्टअप और शटडाउन स्क्रिप्ट के लिए आवश्यक है कि क्लस्टर में नोड्स के बीच [[ सुरक्षित खोल ]] (SSH) स्थापित किया जाए।<ref name="michael-noll.com_1">{{cite web |title=उबंटू लिनक्स (सिंगल-नोड क्लस्टर) पर हडूप चलाना|url=http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/#prerequisites |access-date=6 June 2013 }}</ref>


एक बड़े क्लस्टर में, HDFS नोड्स फ़ाइल सिस्टम इंडेक्स को होस्ट करने के लिए समर्पित NameNode सर्वर के माध्यम से प्रबंधित किए जाते हैं, और एक द्वितीयक NameNode जो नामेनोड की मेमोरी संरचनाओं के स्नैपशॉट उत्पन्न कर सकता है, जिससे फ़ाइल-सिस्टम भ्रष्टाचार और डेटा की हानि को रोका जा सकता है। इसी तरह, एक स्टैंडअलोन जॉबट्रैकर सर्वर नोड्स में जॉब शेड्यूलिंग का प्रबंधन कर सकता है। जब Hadoop MapReduce का उपयोग एक वैकल्पिक फ़ाइल सिस्टम के साथ किया जाता है, तो HDFS के NameNode, द्वितीयक NameNode और DataNode आर्किटेक्चर को फ़ाइल-सिस्टम-विशिष्ट समकक्षों द्वारा प्रतिस्थापित किया जाता है।
एक बड़े क्लस्टर में, HDFS नोड्स फ़ाइल सिस्टम इंडेक्स को होस्ट करने के लिए समर्पित NameNode सर्वर के माध्यम से प्रबंधित किए जाते हैं, और एक द्वितीयक NameNode जो नामेनोड की मेमोरी संरचनाओं के स्नैपशॉट उत्पन्न कर सकता है, जिससे फ़ाइल-सिस्टम भ्रष्टाचार और डेटा की हानि को रोका जा सकता है। इसी तरह, एक स्टैंडअलोन जॉबट्रैकर सर्वर नोड्स में जॉब शेड्यूलिंग का प्रबंधन कर सकता है। जब Hadoop MapReduce का उपयोग एक वैकल्पिक फ़ाइल सिस्टम के साथ किया जाता है, तो HDFS के NameNode, द्वितीयक NameNode और DataNode आर्किटेक्चर को फ़ाइल-सिस्टम-विशिष्ट समकक्षों द्वारा प्रतिस्थापित किया जाता है।
Line 66: Line 66:


===={{Anchor|HDFS}}Hadoop वितरित फाइल सिस्टम ====
===={{Anchor|HDFS}}Hadoop वितरित फाइल सिस्टम ====
Hadoop [[ वितरित फ़ाइल सिस्टम ]] (HDFS) एक वितरित, स्केलेबल और पोर्टेबल वितरित फ़ाइल सिस्टम है, जिसे Hadoop फ्रेमवर्क के लिए Java में लिखा गया है। [[ POSIX ]] अनुपालन की कमी के कारण कुछ लोग इसे एक [[ वितरित डेटा स्टोर ]] मानते हैं,<ref>{{cite web |url=http://www.computerweekly.com/feature/Big-data-storage-Hadoop-storage-basics |title=बिग डेटा स्टोरेज: Hadoop स्टोरेज बेसिक्स|last1=Evans |first1=Chris |date=Oct 2013 |website=computerweekly.com |publisher=[[Computer Weekly]] |access-date=21 June 2016 |quote=एचडीएफएस पारंपरिक अर्थों में एक फ़ाइल सिस्टम नहीं है और आमतौर पर उपयोगकर्ता के देखने के लिए सीधे माउंट नहीं किया जाता है} </ref> लेकिन यह शेल कमांड और जावा एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) विधि (संगणक प्रोग्रामिंग) प्रदान करता है जो अन्य फाइल सिस्टम के समान हैं।<ref>{{cite web |url=http://www.dummies.com/how-to/content/managing-files-with-the-hadoop-file-system-command.html |title=Hadoop फ़ाइल सिस्टम कमांड के साथ फ़ाइलें प्रबंधित करना|last1=deRoos |first1=Dirk |website=dummies.com |publisher=[[For Dummies]] |access-date=21 June 2016}}</ref> एक हडूप उदाहरण को HDFS और मैपरेडुस में विभाजित किया गया है। HDFS का उपयोग डेटा को स्टोर करने के लिए किया जाता है और मैपरेडुस का उपयोग डेटा को प्रोसेस करने के लिए किया जाता है।
Hadoop [[ वितरित फ़ाइल सिस्टम ]] (HDFS) एक वितरित, स्केलेबल और पोर्टेबल वितरित फ़ाइल सिस्टम है, जिसे Hadoop फ्रेमवर्क के लिए Java में लिखा गया है। [[ POSIX ]] अनुपालन की कमी के कारण कुछ लोग इसे एक [[ वितरित डेटा स्टोर ]] मानते हैं,<ref>{{cite web |url=http://www.computerweekly.com/feature/Big-data-storage-Hadoop-storage-basics |title=बिग डेटा स्टोरेज: Hadoop स्टोरेज बेसिक्स|last1=Evans |first1=Chris |date=Oct 2013 |website=computerweekly.com |publisher=[[Computer Weekly]] |access-date=21 June 2016 |quote=एचडीएफएस पारंपरिक अर्थों में एक फ़ाइल सिस्टम नहीं है और आमतौर पर उपयोगकर्ता के देखने के लिए सीधे माउंट नहीं किया जाता है} </ref> लेकिन यह शेल कमांड और जावा एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) विधि (संगणक प्रोग्रामिंग) प्रदान करता है जो अन्य फाइल सिस्टम के समान हैं।<ref>{{cite web |url=http://www.dummies.com/how-to/content/managing-files-with-the-hadoop-file-system-command.html |title=Hadoop फ़ाइल सिस्टम कमांड के साथ फ़ाइलें प्रबंधित करना|last1=deRoos |first1=Dirk |website=dummies.com |publisher=[[For Dummies]] |access-date=21 June 2016}}</ref> एक हडूप उदाहरण को एचडीएफएस और मैपरेडुस में विभाजित किया गया है। एचडीएफएस का उपयोग डेटा को स्टोर करने के लिए किया जाता है और मैपरेडुस का उपयोग डेटा को प्रोसेस करने के लिए किया जाता है।
एचडीएफएस की पांच सेवाएं इस प्रकार हैं:
एचडीएफएस की पांच सेवाएं इस प्रकार हैं:
# नेम नोड
# नेम नोड
Line 76: Line 76:
शीर्ष तीन मास्टर सेवाएं/डेमन्स/नोड्स हैं और नीचे दो दास सेवाएं हैं। मास्टर सेवाएं एक दूसरे के साथ संवाद कर सकती हैं और उसी तरह दास सेवाएं भी एक दूसरे के साथ संवाद कर सकती हैं। नेम नोड एक मास्टर नोड है और डेटा नोड इसका संबंधित स्लेव नोड है और जो एक दूसरे के साथ बात कर सकते है।
शीर्ष तीन मास्टर सेवाएं/डेमन्स/नोड्स हैं और नीचे दो दास सेवाएं हैं। मास्टर सेवाएं एक दूसरे के साथ संवाद कर सकती हैं और उसी तरह दास सेवाएं भी एक दूसरे के साथ संवाद कर सकती हैं। नेम नोड एक मास्टर नोड है और डेटा नोड इसका संबंधित स्लेव नोड है और जो एक दूसरे के साथ बात कर सकते है।


==== नेम नोड : ====
==== नेम नोड: ====
एचडीएफएस में केवल एक नेम नोड होता है जिसे मास्टर नोड कहा जाता है। मास्टर नोड फाइलों को ट्रैक कर सकता है, फाइल सिस्टम का प्रबंधन कर सकता है और इसमें सभी संग्रहीत डेटा का [[ मेटा डेटा | मेटा डेटा]] है। विशेष रूप से, नेम नोड में ब्लॉक की संख्या, डेटा नोड के स्थान जिसमें डेटा संग्रहीत किया जाता है, जहां प्रतिकृति संग्रहीत की जाती है, और अन्य विवरण शामिल हैं। नेम नोड का क्लाइंट के साथ सीधा संपर्क है।
एचडीएफएस में केवल एक नेम नोड होता है जिसे मास्टर नोड कहा जाता है। मास्टर नोड फाइलों को ट्रैक कर सकता है, फाइल सिस्टम का प्रबंधन कर सकता है और इसमें सभी संग्रहीत डेटा का [[ मेटा डेटा |मेटा डेटा]] है। विशेष रूप से, नेम नोड में ब्लॉक की संख्या, डेटा नोड के स्थान जिसमें डेटा संग्रहीत किया जाता है, जहां प्रतिकृति संग्रहीत की जाती है, और अन्य विवरण सम्मिलित हैं। नेम नोड का क्लाइंट के साथ सीधा संपर्क है।


==== डेटा नोड: ====
==== डेटा नोड: ====
एक डेटा नोड इसमें डेटा को ब्लॉक के रूप में संग्रहीत करता है। इसे दास नोड के रूप में भी जाना जाता है और यह वास्तविक डेटा को एचडीएफएस में संग्रहीत करता है जो क्लाइंट को पढ़ने और लिखने के लिए जिम्मेदार होता है। ये गुलाम दानव हैं। प्रत्येक डेटा नोड हर 3 सेकंड में नेम नोड को एक हार्टबीट संदेश भेजता है और बताता है कि यह जीवित है। इस तरह जब नेम नोड को 2 मिनट के लिए डेटा नोड से दिल की धड़कन नहीं मिलती है, तो यह उस डेटा नोड को मृत मान लेगा और किसी अन्य डेटा नोड पर ब्लॉक प्रतिकृति की प्रक्रिया प्रारंभ कर देगा।
डेटा नोड इसमें डेटा को ब्लॉक के रूप में संग्रहीत करता है। इसे दास नोड के रूप में भी जाना जाता है और यह वास्तविक डेटा को एचडीएफएस में संग्रहीत करता है जो क्लाइंट को पढ़ने और लिखने के लिए उत्तरदायी होता है। ये गुलाम दानव हैं। प्रत्येक डेटा नोड हर 3 सेकंड में नेम नोड को एक हार्टबीट संदेश भेजता है और बताता है कि यह जीवित है। इस तरह जब नेम नोड को 2 मिनट के लिए डेटा नोड से दिल की धड़कन नहीं मिलती है, तो यह उस डेटा नोड को मृत मान लेगा और किसी अन्य डेटा नोड पर ब्लॉक प्रतिकृति की प्रक्रिया प्रारंभ कर देगा।


===== द्वितीयक नेम नोड: =====
===== द्वितीयक नेम नोड: =====
Line 91: Line 91:
यह जॉब ट्रैकर के लिए स्लेव नोड है और यह जॉब ट्रैकर से टास्क लेगा। यह जॉब ट्रैकर से कोड भी प्राप्त करता है। टास्क ट्रैकर कोड लेगा और फाइल पर लागू होगा। उस कोड को फाइल पर लगाने की प्रक्रिया को मैपर के नाम से जाना जाता है।<ref>{{Cite web |url=https://hadoop.apache.org/DOCS/R2.7.5/HADOOP-PROJECT-DIST/HADOOP-HDFS/HDFSUSERGUIDE.HTML |title=Apache Hadoop 2.7.5 - HDFS उपयोगकर्ता गाइड|access-date=19 June 2020 |archive-url=https://web.archive.org/web/20191023001222/http://hadoop.apache.org/docs/r2.7.5/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html |archive-date=23 October 2019 |url-status=dead }}</ref>
यह जॉब ट्रैकर के लिए स्लेव नोड है और यह जॉब ट्रैकर से टास्क लेगा। यह जॉब ट्रैकर से कोड भी प्राप्त करता है। टास्क ट्रैकर कोड लेगा और फाइल पर लागू होगा। उस कोड को फाइल पर लगाने की प्रक्रिया को मैपर के नाम से जाना जाता है।<ref>{{Cite web |url=https://hadoop.apache.org/DOCS/R2.7.5/HADOOP-PROJECT-DIST/HADOOP-HDFS/HDFSUSERGUIDE.HTML |title=Apache Hadoop 2.7.5 - HDFS उपयोगकर्ता गाइड|access-date=19 June 2020 |archive-url=https://web.archive.org/web/20191023001222/http://hadoop.apache.org/docs/r2.7.5/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html |archive-date=23 October 2019 |url-status=dead }}</ref>


हडूप क्लस्टर में मुख्य रूप से एक एकल नेमनोड और डेटानोड्स का एक समूह होता है, चूंकि इसकी गंभीरता के कारण नेमनोड के लिए [[ अतिरेक (इंजीनियरिंग) | अतिरेक (इंजीनियरिंग)]] विकल्प उपलब्ध हैं। प्रत्येक डेटानोड एचडीएफएस के लिए विशिष्ट ब्लॉक प्रोटोकॉल का उपयोग करके नेटवर्क पर डेटा के ब्लॉक की सेवा करता है। फाइल सिस्टम संचार के लिए टीसीपी/आईपी [[ इंटरनेट सॉकेट | इंटरनेट सॉकेट]] का उपयोग करता है। ग्राहक एक दूसरे के साथ संवाद करने के लिए दूरस्थ प्रक्रिया कॉल (RPC) का उपयोग करते हैं।
हडूप क्लस्टर में मुख्य रूप से एक एकल नेमनोड और डेटानोड्स का एक समूह होता है, चूंकि इसकी गंभीरता के कारण नेमनोड के लिए [[ अतिरेक (इंजीनियरिंग) |अतिरेक (इंजीनियरिंग)]] विकल्प उपलब्ध हैं। प्रत्येक डेटानोड एचडीएफएस के लिए विशिष्ट ब्लॉक प्रोटोकॉल का उपयोग करके नेटवर्क पर डेटा के ब्लॉक की सेवा करता है। फाइल सिस्टम संचार के लिए टीसीपी/आईपी [[ इंटरनेट सॉकेट |इंटरनेट सॉकेट]] का उपयोग करता है। ग्राहक एक दूसरे के साथ संवाद करने के लिए दूरस्थ प्रक्रिया कॉल (RPC) का उपयोग करते हैं।


एचडीएफएस बड़ी फाइलों (सामान्यतः गीगाबाइट्स से टेराबाइट्स की रेंज में<ref>{{cite web |title=एचडीएफएस आर्किटेक्चर|url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Large_Data_Sets |access-date=1 September 2013 }}</ref>) को स्टोर करता है। यह कई मेजबानों में डेटा की [[ प्रतिकृति (कंप्यूटर विज्ञान) | प्रतिकृति (संगणक विज्ञान)]] द्वारा विश्वसनीयता प्राप्त करता है, और इसलिए सैद्धांतिक रूप से मेजबानों पर स्वतंत्र डिस्क ([[ RAID | RAID]] ) भंडारण (लेकिन इनपुट-आउटपुट (I/O) प्रदर्शन को बढ़ाने के लिए कुछ RAID कॉन्फ़िगरेशन अभी भी उपयोगी हैं) की अनावश्यक सरणी की आवश्यकता नहीं होती है। डिफ़ॉल्ट प्रतिकृति मान, 3 के साथ, डेटा तीन नोड्स पर संग्रहीत होता है: दो एक ही रैक पर, और एक अलग रैक पर। डेटा नोड्स एक दूसरे से डेटा को पुनर्संतुलित करने, प्रतियों को इधर-उधर ले जाने और डेटा की प्रतिकृति को उच्च रखने के लिए बात कर सकते हैं। HDFS पूरी तरह से POSIX- संगत नहीं है, क्योंकि POSIX फाइल-सिस्टम की आवश्यकताएं हडूप एप्लिकेशन के लक्ष्य लक्ष्यों से भिन्न होती हैं। पूरी तरह से POSIX-अनुपालन फ़ाइल-सिस्टम नहीं होने का ट्रेड-ऑफ़ डेटा [[ throughput | थ्रूपुट]] के लिए बढ़ा हुआ प्रदर्शन है और गैर-POSIX संचालन जैसे संलग्न के लिए समर्थन है।<ref name="openlibrary1">{{Cite journal|first = Yaniv |last = Pessach|title = वितरित भंडारण|edition = वितरित भंडारण: Concepts, Algorithms, and Implementations|date = 2013
एचडीएफएस बड़ी फाइलों (सामान्यतः गीगाबाइट्स से टेराबाइट्स की रेंज में<ref>{{cite web |title=एचडीएफएस आर्किटेक्चर|url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Large_Data_Sets |access-date=1 September 2013 }}</ref>) को स्टोर करता है। यह कई मेजबानों में डेटा की [[ प्रतिकृति (कंप्यूटर विज्ञान) |प्रतिकृति (संगणक विज्ञान)]] द्वारा विश्वसनीयता प्राप्त करता है, और इसलिए सैद्धांतिक रूप से मेजबानों पर स्वतंत्र डिस्क ([[ RAID |RAID]]) भंडारण (लेकिन इनपुट-आउटपुट (I/O) प्रदर्शन को बढ़ाने के लिए कुछ RAID कॉन्फ़िगरेशन अभी भी उपयोगी हैं) की अनावश्यक सरणी की आवश्यकता नहीं होती है। डिफ़ॉल्ट प्रतिकृति मान, 3 के साथ, डेटा तीन नोड्स पर संग्रहीत होता है: दो एक ही रैक पर, और एक अलग रैक पर। डेटा नोड्स एक दूसरे से डेटा को पुनर्संतुलित करने, प्रतियों को इधर-उधर ले जाने और डेटा की प्रतिकृति को उच्च रखने के लिए बात कर सकते हैं। एचडीएफएस पूरी तरह से POSIX- संगत नहीं है, क्योंकि POSIX फाइल-सिस्टम की आवश्यकताएं हडूप एप्लिकेशन के लक्ष्य लक्ष्यों से भिन्न होती हैं। पूरी तरह से POSIX-अनुपालन फ़ाइल-सिस्टम नहीं होने का ट्रेड-ऑफ़ डेटा [[ throughput |थ्रूपुट]] के लिए बढ़ा हुआ प्रदर्शन है और गैर-POSIX संचालन जैसे संलग्न के लिए समर्थन है।<ref name="openlibrary1">{{Cite journal|first = Yaniv |last = Pessach|title = वितरित भंडारण|edition = वितरित भंडारण: Concepts, Algorithms, and Implementations|date = 2013
|ol = 25423189M }}</ref>
|ol = 25423189M }}</ref>


मई 2012 में, एचडीएफएस में उच्च-उपलब्धता क्षमताओं को जोड़ा गया,<ref name="failover">{{cite web |title=संस्करण 2.0 मैनुअल फेलओवर प्रदान करता है और वे स्वचालित फेलओवर पर काम कर रहे हैं|url=https://hadoop.apache.org/releases.html#23+May%2C+2012%3A+Release+2.0.0-alpha+available  |access-date= 30 July 2013 |publisher=Hadoop.apache.org }}</ref> जिससे मुख्य मेटाडेटा सर्वर जिसे नेमनोड कहा जाता है, मैन्युअल रूप से बैकअप पर विफल हो जाता है। परियोजना ने स्वचालित विफलता-ओवरों का विकास भी प्रारंभ कर दिया है।


मई 2012 में, HDFS में उच्च-उपलब्धता क्षमताओं को जोड़ा गया,<ref name="failover">{{cite web |title=संस्करण 2.0 मैनुअल फेलओवर प्रदान करता है और वे स्वचालित फेलओवर पर काम कर रहे हैं|url=https://hadoop.apache.org/releases.html#23+May%2C+2012%3A+Release+2.0.0-alpha+available  |access-date= 30 July 2013 |publisher=Hadoop.apache.org }}</ref>  जिससे मुख्य मेटाडेटा सर्वर जिसे नेमनोड कहा जाता है, मैन्युअल रूप से बैकअप पर विफल हो जाता है। परियोजना ने स्वचालित विफलता-ओवरों का विकास भी प्रारंभ कर दिया है।
एचडीएफएस फाइल सिस्टम में एक तथाकथित द्वितीयक नेमनोड सम्मिलित है, एक भ्रामक शब्द है कि प्राथमिक नेमनोड के ऑफ़लाइन होने पर कुछ गलत विधियों से बैकअप नेमनोड के रूप में व्याख्या कर सकते हैं। वास्तविक में, द्वितीयक नेमनोड नियमित रूप से प्राथमिक नेमनोड से जुड़ता है और प्राथमिक नेमनोड की निर्देशिका जानकारी का स्नैपशॉट बनाता है, जिसे सिस्टम तब स्थानीय या दूरस्थ निर्देशिकाओं में सहेजता है। इन चेकपॉइंट छवियों का उपयोग फ़ाइल-सिस्टम क्रियाओं के पूरे जर्नल को फिर से चलाने के बिना एक असफल प्राथमिक नेमनोड को पुनरारंभ करने के लिए किया जा सकता है, फिर एक अप-टू-डेट निर्देशिका संरचना बनाने के लिए लॉग को संपादित करने के लिए। क्योंकि मेटाडेटा के भंडारण और प्रबंधन के लिए नेमनोड एकल बिंदु है, यह बड़ी संख्या में फ़ाइलों, विशेष रूप से बड़ी संख्या में छोटी फ़ाइलों का समर्थन करने के लिए एक बाधा बन सकता है। एचडीएफएस फेडरेशन, एक नया अतिरिक्त, अलग-अलग नेमनोड्स द्वारा कई नामस्थानों की अनुमति देकर इस समस्या से कुछ हद तक निपटने का लक्ष्य रखता है। इसके अतिरिक्त, एचडीएफएस में कुछ समस्याएँ हैं जैसे छोटी फ़ाइल समस्याएँ, मापनीयता समस्याएँ, एकल बिंदु विफलता (SPoF), और विशाल मेटाडेटा अनुरोधों में बाधा है।
 
एचडीएफएस फाइल सिस्टम में एक तथाकथित द्वितीयक नेमनोड शामिल है, एक भ्रामक शब्द है कि प्राथमिक नेमनोड के ऑफ़लाइन होने पर कुछ गलत तरीके से बैकअप नेमनोड के रूप में व्याख्या कर सकते हैं। वास्तविक में, द्वितीयक नेमनोड नियमित रूप से प्राथमिक नेमनोड से जुड़ता है और प्राथमिक नेमनोड की निर्देशिका जानकारी का स्नैपशॉट बनाता है, जिसे सिस्टम तब स्थानीय या दूरस्थ निर्देशिकाओं में सहेजता है। इन चेकपॉइंट छवियों का उपयोग फ़ाइल-सिस्टम क्रियाओं के पूरे जर्नल को फिर से चलाने के बिना एक असफल प्राथमिक नेमनोड को पुनरारंभ करने के लिए किया जा सकता है, फिर एक अप-टू-डेट निर्देशिका संरचना बनाने के लिए लॉग को संपादित करने के लिए। क्योंकि मेटाडेटा के भंडारण और प्रबंधन के लिए नेमनोड एकल बिंदु है, यह बड़ी संख्या में फ़ाइलों, विशेष रूप से बड़ी संख्या में छोटी फ़ाइलों का समर्थन करने के लिए एक बाधा बन सकता है। एचडीएफएस फेडरेशन, एक नया अतिरिक्त, अलग-अलग नेमनोड्स द्वारा कई नामस्थानों की अनुमति देकर इस समस्या से कुछ हद तक निपटने का लक्ष्य रखता है। इसके अतिरिक्त, HDFS में कुछ समस्याएँ हैं जैसे छोटी फ़ाइल समस्याएँ, मापनीयता समस्याएँ, एकल बिंदु विफलता (SPoF), और विशाल मेटाडेटा अनुरोधों में बाधा है।


एचडीएफएस का उपयोग करने का एक फायदा जॉब ट्रैकर और टास्क ट्रैकर के बीच डेटा जागरूकता है। जॉब ट्रैकर डेटा स्थान के बारे में जागरूकता के साथ टास्क ट्रैकर्स को मैप या जॉब को कम करता है। उदाहरण के लिए: यदि नोड A में डेटा (a, b, c) और नोड X में डेटा (x, y, z) है, तो जॉब ट्रैकर नोड A को मैप करने या (a, b, c) और नोड पर कार्यों को कम करने के लिए शेड्यूल करता है। X को मानचित्र निष्पादित करने या (x, y, z) पर कार्य कम करने के लिए निर्धारित किया जाएगा। यह नेटवर्क पर जाने वाले ट्रैफ़िक की मात्रा को कम करता है और अनावश्यक डेटा स्थानांतरण को रोकता है। जब हडूप का उपयोग अन्य फाइल सिस्टम के साथ किया जाता है, तो यह लाभ हमेशा उपलब्ध नहीं होता है। यह कार्य-पूर्णता के समय पर महत्वपूर्ण प्रभाव डाल सकता है जैसा कि डेटा-गहन नौकरियों के साथ प्रदर्शित किया गया है।<ref>{{cite web |url=http://www.eng.auburn.edu/~xqin/pubs/hcw10.pdf |title= विषम Hadoop समूहों में डेटा प्लेसमेंट के माध्यम से MapReduce के प्रदर्शन में सुधार|date=April 2010 |publisher=Eng.auburn.ed }}</ref>
एचडीएफएस का उपयोग करने का एक फायदा जॉब ट्रैकर और टास्क ट्रैकर के बीच डेटा जागरूकता है। जॉब ट्रैकर डेटा स्थान के बारे में जागरूकता के साथ टास्क ट्रैकर्स को मैप या जॉब को कम करता है। उदाहरण के लिए: यदि नोड A में डेटा (a, b, c) और नोड X में डेटा (x, y, z) है, तो जॉब ट्रैकर नोड A को मैप करने या (a, b, c) और नोड पर कार्यों को कम करने के लिए शेड्यूल करता है। X को मानचित्र निष्पादित करने या (x, y, z) पर कार्य कम करने के लिए निर्धारित किया जाएगा। यह नेटवर्क पर जाने वाले ट्रैफ़िक की मात्रा को कम करता है और अनावश्यक डेटा स्थानांतरण को रोकता है। जब हडूप का उपयोग अन्य फाइल सिस्टम के साथ किया जाता है, तो यह लाभ हमेशा उपलब्ध नहीं होता है। यह कार्य-पूर्णता के समय पर महत्वपूर्ण प्रभाव डाल सकता है जैसा कि डेटा-गहन नौकरियों के साथ प्रदर्शित किया गया है।<ref>{{cite web |url=http://www.eng.auburn.edu/~xqin/pubs/hcw10.pdf |title= विषम Hadoop समूहों में डेटा प्लेसमेंट के माध्यम से MapReduce के प्रदर्शन में सुधार|date=April 2010 |publisher=Eng.auburn.ed }}</ref>
Line 105: Line 104:
एचडीएफएस अधिकतर अपरिवर्तनीय फाइलों के लिए डिज़ाइन किया गया था और समवर्ती लेखन संचालन की आवश्यकता वाले सिस्टम के लिए उपयुक्त नहीं हो सकता है।<ref name="openlibrary1" />
एचडीएफएस अधिकतर अपरिवर्तनीय फाइलों के लिए डिज़ाइन किया गया था और समवर्ती लेखन संचालन की आवश्यकता वाले सिस्टम के लिए उपयुक्त नहीं हो सकता है।<ref name="openlibrary1" />


[[ लिनक्स ]] और कुछ अन्य [[ यूनिक्स ]] [[ यूजरस्पेस में फाइलसिस्टम ]] (FUSE) [[ वर्चुअल फाइल सिस्टम ]] में फाइलसिस्टम के साथ HDFS को सीधे [[ माउंट (कंप्यूटिंग) ]] किया जा सकता है।
[[ लिनक्स | लिनक्स]] और कुछ अन्य [[ यूनिक्स |यूनिक्स]] [[ यूजरस्पेस में फाइलसिस्टम |यूजरस्पेस में फाइलसिस्टम]] (FUSE) [[ वर्चुअल फाइल सिस्टम |वर्चुअल फाइल सिस्टम]] में फाइलसिस्टम के साथ एचडीएफएस को सीधे [[ माउंट (कंप्यूटिंग) |माउंट (कंप्यूटिंग)]] किया जा सकता है।


मूल जावा एपीआई, [[ थ्रिफ्ट (प्रोटोकॉल) ]] एपीआई के माध्यम से फ़ाइल का उपयोग प्राप्त किया जा सकता है (कई भाषाओं में क्लाइंट उत्पन्न करता है जैसे सी ++, जावा, पायथन, पीएचपी, रूबी, एरलांग, पर्ल, हास्केल, सी , [[ कोको (एपीआई) ]], स्मॉलटॉक, और [[ OCaml | ओकैमल]]), कमांड-लाइन इंटरफ़ेस, [[ HTTP ]] पर HDFS-UI [[ वेब अनुप्रयोग ]], या तृतीय-पक्ष नेटवर्क क्लाइंट लाइब्रेरी के माध्यम से इसका उपयोग किया जाता है।<ref>{{cite web |url=https://wiki.apache.org/hadoop/MountableHDFS |title=बढ़ते एचडीएफएस|access-date=2016-08-05 }}</ref>
मूल जावा एपीआई, [[ थ्रिफ्ट (प्रोटोकॉल) |थ्रिफ्ट (प्रोटोकॉल)]] एपीआई के माध्यम से फ़ाइल का उपयोग प्राप्त किया जा सकता है (कई भाषाओं में क्लाइंट उत्पन्न करता है जैसे सी ++, जावा, पायथन, पीएचपी, रूबी, एरलांग, पर्ल, हास्केल, सी, [[ कोको (एपीआई) |कोको (एपीआई)]], स्मॉलटॉक, और [[ OCaml |ओकैमल]]), कमांड-लाइन इंटरफ़ेस, [[ HTTP |एचटीटीपी]] पर एचडीएफएस-UI [[ वेब अनुप्रयोग |वेब अनुप्रयोग]], या तृतीय-पक्ष नेटवर्क क्लाइंट लाइब्रेरी के माध्यम से इसका उपयोग किया जाता है।<ref>{{cite web |url=https://wiki.apache.org/hadoop/MountableHDFS |title=बढ़ते एचडीएफएस|access-date=2016-08-05 }}</ref>


एचडीएफएस को विभिन्न हार्डवेयर प्लेटफार्मों में पोर्टेबिलिटी के लिए और विभिन्न अंतर्निहित ऑपरेटिंग सिस्टम के साथ संगतता के लिए डिज़ाइन किया गया है। HDFS डिज़ाइन पोर्टेबिलिटी की सीमाओं का परिचय देता है जिसके परिणामस्वरूप कुछ प्रदर्शन अड़चनें होती हैं, क्योंकि जावा कार्यान्वयन उन सुविधाओं का उपयोग नहीं कर सकता है जो उस प्लेटफॉर्म के लिए अनन्य हैं जिस पर HDFS चल रहा है।<ref>{{cite web |url=http://www.jeffshafer.com/publications/papers/shafer_ispass10.pdf |title=द हडूप डिस्ट्रीब्यूटेड फाइलसिस्टम: बैलेंसिंग पोर्टेबिलिटी एंड परफॉर्मेंस|last1=Shafer |first1=Jeffrey |last2=Rixner |first2=Scott |last3=Cox |first3=Alan |publisher=Rice University| access-date=2016-09-19 }}</ref> उद्यम स्तर के बुनियादी ढांचे में इसके व्यापक एकीकरण के कारण, बड़े पैमाने पर एचडीएफएस के प्रदर्शन की निगरानी एक महत्वपूर्ण मुद्दा बन गया है। एंड-टू-एंड प्रदर्शन की निगरानी के लिए डेटानोड्स, नेमनोड्स और अंतर्निहित ऑपरेटिंग सिस्टम से मेट्रिक्स को ट्रैक करने की आवश्यकता होती है।<ref>{{cite web |url=https://www.datadoghq.com/blog/monitor-hadoop-metrics/#toc-hdfs-metrics2 |title=Hadoop प्रदर्शन मेट्रिक्स कैसे एकत्रित करें|last1=Mouzakitis |first1=Evan| access-date=2016-10-24 |date=21 July 2016 }}</ref> HDFS के प्रदर्शन को ट्रैक करने के लिए वर्तमान में हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म (HDP), [[ क्लाउडेरा | क्लाउडेरा]] और [[ डाटाडॉग | डाटाडॉग]] सहित कई निगरानी प्लेटफ़ॉर्म हैं।
एचडीएफएस को विभिन्न हार्डवेयर प्लेटफार्मों में पोर्टेबिलिटी के लिए और विभिन्न अंतर्निहित ऑपरेटिंग सिस्टम के साथ संगतता के लिए डिज़ाइन किया गया है। एचडीएफएस डिज़ाइन पोर्टेबिलिटी की सीमाओं का परिचय देता है जिसके परिणामस्वरूप कुछ प्रदर्शन अड़चनें होती हैं, क्योंकि जावा कार्यान्वयन उन सुविधाओं का उपयोग नहीं कर सकता है जो उस प्लेटफॉर्म के लिए अनन्य हैं जिस पर एचडीएफएस चल रहा है।<ref>{{cite web |url=http://www.jeffshafer.com/publications/papers/shafer_ispass10.pdf |title=द हडूप डिस्ट्रीब्यूटेड फाइलसिस्टम: बैलेंसिंग पोर्टेबिलिटी एंड परफॉर्मेंस|last1=Shafer |first1=Jeffrey |last2=Rixner |first2=Scott |last3=Cox |first3=Alan |publisher=Rice University| access-date=2016-09-19 }}</ref> उद्यम स्तर के बुनियादी ढांचे में इसके व्यापक एकीकरण के कारण, बड़े पैमाने पर एचडीएफएस के प्रदर्शन की निगरानी एक महत्वपूर्ण मुद्दा बन गया है। एंड-टू-एंड प्रदर्शन की निगरानी के लिए डेटानोड्स, नेमनोड्स और अंतर्निहित ऑपरेटिंग सिस्टम से मेट्रिक्स को ट्रैक करने की आवश्यकता होती है।<ref>{{cite web |url=https://www.datadoghq.com/blog/monitor-hadoop-metrics/#toc-hdfs-metrics2 |title=Hadoop प्रदर्शन मेट्रिक्स कैसे एकत्रित करें|last1=Mouzakitis |first1=Evan| access-date=2016-10-24 |date=21 July 2016 }}</ref> एचडीएफएस के प्रदर्शन को ट्रैक करने के लिए वर्तमान में हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म (HDP), [[ क्लाउडेरा |क्लाउडेरा]] और [[ डाटाडॉग |डाटाडॉग]] सहित कई निगरानी प्लेटफ़ॉर्म हैं।


==== अन्य फाइल सिस्टम ====
==== अन्य फाइल सिस्टम ====
Line 116: Line 115:
मई 2011 में, अपाचे हडूप के साथ बंडल किए गए समर्थित फ़ाइल सिस्टम की सूची थी:
मई 2011 में, अपाचे हडूप के साथ बंडल किए गए समर्थित फ़ाइल सिस्टम की सूची थी:


* HDFS: हडूप का अपना रैक-अवेयर फ़ाइल सिस्टम।<ref>{{cite web |url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html#Rack_Awareness |title=एचडीएफएस उपयोगकर्ता गाइड - रैक जागरूकता|publisher=Hadoop.apache.org |access-date=2013-10-17 }}</ref> यह स्टोरेज के दसियों पेटाबाइट्स को स्केल करने के लिए डिज़ाइन किया गया है और अंतर्निहित [[ ऑपरेटिंग सिस्टम ]] के फ़ाइल सिस्टम के शीर्ष पर चलता है।
* एचडीएफएस: हडूप का अपना रैक-अवेयर फ़ाइल सिस्टम।<ref>{{cite web |url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html#Rack_Awareness |title=एचडीएफएस उपयोगकर्ता गाइड - रैक जागरूकता|publisher=Hadoop.apache.org |access-date=2013-10-17 }}</ref> यह स्टोरेज के दसियों पेटाबाइट्स को स्केल करने के लिए डिज़ाइन किया गया है और अंतर्निहित [[ ऑपरेटिंग सिस्टम |ऑपरेटिंग सिस्टम]] के फ़ाइल सिस्टम के शीर्ष पर चलता है।
* अपाचे हडूप ओजोन: अरबों छोटी फाइलों के लिए अनुकूलित एचडीएफएस-संगत ऑब्जेक्ट स्टोर लक्ष्यीकरण।
* अपाचे हडूप ओजोन: अरबों छोटी फाइलों के लिए अनुकूलित एचडीएफएस-संगत ऑब्जेक्ट स्टोर लक्ष्यीकरण।
* [[ एफ़टीपी ]] फाइल सिस्टम: यह अपने सभी डेटा को दूरस्थ रूप से सुलभ एफ़टीपी सर्वरों पर संग्रहीत करता है।
* [[ एफ़टीपी | एफ़टीपी]] फाइल सिस्टम: यह अपने सभी डेटा को दूरस्थ रूप से सुलभ एफ़टीपी सर्वरों पर संग्रहीत करता है।
* [[ Amazon Simple Storage Service ]]|Amazon S3 (Simple Storage Service) ऑब्जेक्ट स्टोरेज: यह [[ Amazon Elastic Compute Cloud ]] सर्वर-ऑन-डिमांड इंफ्रास्ट्रक्चर पर होस्ट किए गए क्लस्टर पर लक्षित है। इस फाइल सिस्टम में कोई रैक-जागरूकता नहीं है, क्योंकि यह सब रिमोट है।
* [[ Amazon Simple Storage Service |अमेज़न सिंपल स्टोरेज सर्विस]] |अमेज़न S3 (साधारण संग्रहण सेवा) ऑब्जेक्ट स्टोरेज: यह [[ Amazon Elastic Compute Cloud |अमेज़न इलास्टिक कंप्यूट क्लाउड]] सर्वर-ऑन-डिमांड इंफ्रास्ट्रक्चर पर होस्ट किए गए क्लस्टर पर लक्षित है। इस फाइल सिस्टम में कोई रैक-जागरूकता नहीं है, क्योंकि यह सब रिमोट है।
* Windows Azure स्टोरेज ब्लॉब्स (WASB) फ़ाइल सिस्टम: यह HDFS का एक विस्तार है जो हडूप के वितरण को Azure ब्लॉब स्टोर्स में डेटा को स्थायी रूप से क्लस्टर में स्थानांतरित किए बिना एक्सेस करने की अनुमति देता है।
* विंडोज़ एज़ूर स्टोरेज ब्लॉब्स (WASB) फ़ाइल सिस्टम: यह एचडीएफएस का एक विस्तार है जो हडूप के वितरण को Azure ब्लॉब स्टोर्स में डेटा को स्थायी रूप से क्लस्टर में स्थानांतरित किए बिना एक्सेस करने की अनुमति देता है।


कई तृतीय-पक्ष फ़ाइल सिस्टम ब्रिज भी लिखे गए हैं, जिनमें से कोई भी वर्तमान में हडूप वितरण में नहीं है। चूँकि, हडूप के कुछ व्यावसायिक वितरण डिफ़ॉल्ट के रूप में वैकल्पिक फ़ाइल सिस्टम के साथ शिप होते हैं{{snd}}विशेष रूप से [[ आईबीएम ]] और [[ मैपआर ]]।
कई तृतीय-पक्ष फ़ाइल सिस्टम ब्रिज भी लिखे गए हैं, जिनमें से कोई भी वर्तमान में हडूप वितरण में नहीं है। चूँकि, हडूप के कुछ व्यावसायिक वितरण डिफ़ॉल्ट के रूप में वैकल्पिक फ़ाइल सिस्टम के साथ शिप होते हैं{{snd}}विशेष रूप से [[ आईबीएम |आईबीएम]] और [[ मैपआर |मैपआर]] ।


* 2009 में, IBM ने [[ आईबीएम जनरल समानांतर फाइल सिस्टम ]] पर हडूप को चलाने पर चर्चा की।<ref>{{cite web |url=http://www.usenix.org/events/hotcloud09/tech/full_papers/ananthanarayanan.pdf |title= क्लाउड एनालिटिक्स: क्या हमें वास्तव में स्टोरेज स्टैक को फिर से बनाने की जरूरत है?|date=June 2009 |publisher=IBM }}</ref> स्रोत कोड अक्टूबर 2009 में प्रकाशित हुआ था।<ref>{{cite web |url=https://issues.apache.org/jira/browse/HADOOP-6330 |title=HADOOP-6330: Hadoop फाइलसिस्टम इंटरफेस के IBM जनरल पैरेलल फाइल सिस्टम कार्यान्वयन को एकीकृत करना|date=2009-10-23 |publisher=IBM }}</ref>
* 2009 में, IBM ने [[ आईबीएम जनरल समानांतर फाइल सिस्टम |आईबीएम जनरल समानांतर फाइल सिस्टम]] पर हडूप को चलाने पर चर्चा की।<ref>{{cite web |url=http://www.usenix.org/events/hotcloud09/tech/full_papers/ananthanarayanan.pdf |title= क्लाउड एनालिटिक्स: क्या हमें वास्तव में स्टोरेज स्टैक को फिर से बनाने की जरूरत है?|date=June 2009 |publisher=IBM }}</ref> स्रोत कोड अक्टूबर 2009 में प्रकाशित हुआ था।<ref>{{cite web |url=https://issues.apache.org/jira/browse/HADOOP-6330 |title=HADOOP-6330: Hadoop फाइलसिस्टम इंटरफेस के IBM जनरल पैरेलल फाइल सिस्टम कार्यान्वयन को एकीकृत करना|date=2009-10-23 |publisher=IBM }}</ref>
* अप्रैल 2010 में, Parascale ने हडूप को Parascale फ़ाइल सिस्टम के विरुद्ध चलाने के लिए स्रोत कोड प्रकाशित किया।<ref>{{cite web |url=https://issues.apache.org/jira/browse/HADOOP-6704 |title=HADOOP-6704: पैरास्केल फ़ाइल सिस्टम के लिए समर्थन जोड़ें|date=2010-04-14 |publisher=Parascale }}</ref>
* अप्रैल 2010 में, पैरास्केल ने हडूप को पैरास्केल फ़ाइल सिस्टम के विरुद्ध चलाने के लिए स्रोत कोड प्रकाशित किया।<ref>{{cite web |url=https://issues.apache.org/jira/browse/HADOOP-6704 |title=HADOOP-6704: पैरास्केल फ़ाइल सिस्टम के लिए समर्थन जोड़ें|date=2010-04-14 |publisher=Parascale }}</ref>
* अप्रैल 2010 में, ऐपिस्ट्री ने अपने CloudIQ स्टोरेज उत्पाद के साथ उपयोग के लिए एक हडूप फ़ाइल सिस्टम ड्राइवर जारी किया।<ref>{{cite web |url=http://resources.appistry.com/news-and-events/press/06072010-appistry-cloudiq-storage-now-generally-available |title=CloudIQ स्टोरेज के साथ HDFS|date=2010-07-06 |publisher=Appistry,Inc. |access-date=2013-12-10 |archive-url=https://web.archive.org/web/20140405044536/http://resources.appistry.com/news-and-events/press/06072010-appistry-cloudiq-storage-now-generally-available |archive-date=2014-04-05 |url-status=dead }}</ref>
* अप्रैल 2010 में, ऐपिस्ट्री ने अपने CloudIQ स्टोरेज उत्पाद के साथ उपयोग के लिए एक हडूप फ़ाइल सिस्टम ड्राइवर जारी किया।<ref>{{cite web |url=http://resources.appistry.com/news-and-events/press/06072010-appistry-cloudiq-storage-now-generally-available |title=CloudIQ स्टोरेज के साथ HDFS|date=2010-07-06 |publisher=Appistry,Inc. |access-date=2013-12-10 |archive-url=https://web.archive.org/web/20140405044536/http://resources.appistry.com/news-and-events/press/06072010-appistry-cloudiq-storage-now-generally-available |archive-date=2014-04-05 |url-status=dead }}</ref>
* जून 2010 में, [[ Hewlett-Packard ]] ने एक स्थान-जागरूक [[ IBRIX Fusion ]] फ़ाइल सिस्टम ड्राइवर पर चर्चा की।<ref>{{cite web |url=http://www.slideshare.net/steve_l/high-availability-hadoop |title=उच्च उपलब्धता हडूप|date=2010-06-09 |publisher=HP }}</ref>
* जून 2010 में, हेवलेट पैकर्ड ने एक स्थान-जागरूक [[ IBRIX Fusion |IBRIX Fusion]] फ़ाइल सिस्टम ड्राइवर पर चर्चा की।<ref>{{cite web |url=http://www.slideshare.net/steve_l/high-availability-hadoop |title=उच्च उपलब्धता हडूप|date=2010-06-09 |publisher=HP }}</ref>
* मई 2011 में, MapR|MapR Technologies Inc. ने हडूप, [[ MapR FS ]] के लिए एक वैकल्पिक फ़ाइल सिस्टम की उपलब्धता की घोषणा की, जिसने HDFS फ़ाइल सिस्टम को पूर्ण रैंडम-एक्सेस रीड/राइट फ़ाइल सिस्टम से बदल दिया।
* मई 2011 में, MapR|MapR Technologies Inc. ने हडूप, [[ MapR FS |MapR FS]] के लिए एक वैकल्पिक फ़ाइल सिस्टम की उपलब्धता की घोषणा की, जिसने एचडीएफएस फ़ाइल सिस्टम को पूर्ण रैंडम-एक्सेस रीड/राइट फ़ाइल सिस्टम से बदल दिया।


=== जॉबट्रैकर और टास्कट्रैकर: मैपरेडस इंजन ===
=== जॉबट्रैकर और टास्कट्रैकर: मैपरेडस इंजन ===
{{Main|मैपरेडुस}}
{{Main|मैपरेडुस}}


फाइल सिस्टम के ऊपर मैपरेडुस इंजन आता है, जिसमें एक JobTracker होता है, जिसके लिए क्लाइंट एप्लिकेशन मैपरेडुस जॉब सबमिट करते हैं। जॉबट्रैकर काम को क्लस्टर में उपलब्ध टास्कट्रैकर नोड्स पर धकेलता है, काम को यथासंभव डेटा के निकट रखने का प्रयास करता है। रैक-अवेयर फाइल सिस्टम के साथ, जॉबट्रैकर जानता है कि किस नोड में डेटा है, और कौन सी अन्य मशीनें पास में हैं। यदि कार्य को वास्तविक नोड पर होस्ट नहीं किया जा सकता है जहां डेटा रहता है, उसी रैक में नोड्स को प्राथमिकता दी जाती है। यह मुख्य बैकबोन नेटवर्क पर नेटवर्क ट्रैफिक को कम करता है। यदि कोई टास्कट्रैक विफल हो जाता है या समय समाप्त हो जाता है, तो कार्य का वह भाग पुनर्निर्धारित किया जाता है। प्रत्येक नोड पर टास्कट्रैकर एक अलग [[ जावा वर्चुअल मशीन ]] (जेवीएम) प्रक्रिया को जन्म देता है ताकि टास्कट्रैकर को विफल होने से रोका जा सके यदि रनिंग जॉब अपने जेवीएम को क्रैश कर देता है। उसकी स्थिति की जांच करने के लिए हर कुछ मिनटों में टास्कट्रैकर से जॉबट्रैकर को एक दिल की धड़कन भेजी जाती है। जॉब ट्रैकर और टास्कट्रैकर की स्थिति और जानकारी [[ जेटी (वेब ​​​​सर्वर) ]] द्वारा प्रदर्शित की जाती है और इसे वेब ब्राउज़र से देखा जा सकता है।
फाइल सिस्टम के ऊपर मैपरेडुस इंजन आता है, जिसमें एक JobTracker होता है, जिसके लिए क्लाइंट एप्लिकेशन मैपरेडुस जॉब सबमिट करते हैं। जॉबट्रैकर काम को क्लस्टर में उपलब्ध टास्कट्रैकर नोड्स पर धकेलता है, काम को यथासंभव डेटा के निकट रखने का प्रयास करता है। रैक-अवेयर फाइल सिस्टम के साथ, जॉबट्रैकर जानता है कि किस नोड में डेटा है, और कौन सी अन्य मशीनें पास में हैं। यदि कार्य को वास्तविक नोड पर होस्ट नहीं किया जा सकता है जहां डेटा रहता है, उसी रैक में नोड्स को प्राथमिकता दी जाती है। यह मुख्य बैकबोन नेटवर्क पर नेटवर्क ट्रैफिक को कम करता है। यदि कोई टास्कट्रैक विफल हो जाता है या समय समाप्त हो जाता है, तो कार्य का वह भाग पुनर्निर्धारित किया जाता है। प्रत्येक नोड पर टास्कट्रैकर एक अलग [[ जावा वर्चुअल मशीन |जावा वर्चुअल मशीन]] (जेवीएम) प्रक्रिया को जन्म देता है ताकि टास्कट्रैकर को विफल होने से रोका जा सके यदि रनिंग जॉब अपने जेवीएम को क्रैश कर देता है। उसकी स्थिति की जांच करने के लिए हर कुछ मिनटों में टास्कट्रैकर से जॉबट्रैकर को एक दिल की धड़कन भेजी जाती है। जॉब ट्रैकर और टास्कट्रैकर की स्थिति और जानकारी [[ जेटी (वेब ​​​​सर्वर) |जेटी (वेब ​​​​सर्वर)]] द्वारा प्रदर्शित की जाती है और इसे वेब ब्राउज़र से देखा जा सकता है।


इस दृष्टिकोण की ज्ञात सीमाएँ हैं:
इस दृष्टिकोण की ज्ञात सीमाएँ हैं:


# टास्कट्रैकर्स को काम का आवंटन बहुत आसान है। प्रत्येक टास्कट्रैकर में कई उपलब्ध स्लॉट होते हैं (जैसे 4 स्लॉट)। प्रत्येक सक्रिय नक्शा या कम कार्य एक स्लॉट लेता है। जॉब ट्रैकर उपलब्ध स्लॉट के साथ डेटा के निकटतम ट्रैकर को कार्य आवंटित करता है। आवंटित मशीन के वर्तमान भार (कंप्यूटिंग) पर कोई विचार नहीं है, और इसलिए इसकी वास्तविक उपलब्धता है।
# टास्कट्रैकर्स को काम का आवंटन बहुत आसान है। प्रत्येक टास्कट्रैकर में कई उपलब्ध स्लॉट होते हैं (जैसे 4 स्लॉट)। प्रत्येक सक्रिय नक्शा या कम कार्य स्लॉट लेता है। जॉब ट्रैकर उपलब्ध स्लॉट के साथ डेटा के निकटतम ट्रैकर को कार्य आवंटित करता है। आवंटित मशीन के वर्तमान भार (कंप्यूटिंग) पर कोई विचार नहीं है, और इसलिए इसकी वास्तविक उपलब्धता है।
# यदि एक टास्कट्रैकर बहुत धीमा है, तो यह पूरे मैपरेडुस कार्य में देरी कर सकता है{{snd}} विशेष रूप से अंत की ओर, जब सब कुछ सबसे धीमे कार्य की प्रतीक्षा में समाप्त हो सकता है। सट्टा निष्पादन सक्षम होने के साथ, चूंकि, एक ही कार्य को कई स्लेव नोड्स पर निष्पादित किया जा सकता है।
# यदि टास्कट्रैकर बहुत धीमा है, तो यह पूरे मैपरेडुस कार्य में देरी कर सकता है{{snd}} विशेष रूप से अंत की ओर, जब सब कुछ सबसे धीमे कार्य की प्रतीक्षा में समाप्त हो सकता है। सट्टा निष्पादन सक्षम होने के साथ, चूंकि, ही कार्य को कई स्लेव नोड्स पर निष्पादित किया जा सकता है।
 
 
 
 
 
 
 


==== निर्धारण ==
डिफ़ॉल्ट रूप से हडूप FIFO (कंप्यूटिंग और इलेक्ट्रॉनिक्स) शेड्यूलिंग का उपयोग करता है, और वैकल्पिक रूप से 5 शेड्यूलिंग प्राथमिकताओं को कार्य कतार से कार्य शेड्यूल करने के लिए उपयोग करता है।<ref>{{cite web|url=http://hadoop.apache.org/common/docs/current/commands_manual.html|title=कमांड गाइड|date=17 August 2011|access-date=11 December 2017|url-status=bot: unknown|archive-url=https://web.archive.org/web/20110817053520/http://hadoop.apache.org/common/docs/current/commands_manual.html#job|archive-date=17 August 2011}}</ref> संस्करण 0.19 में जॉब शेड्यूलर को वैकल्पिक शेड्यूलर (जैसे कि फेयर शेड्यूलर या कैपेसिटी शेड्यूलर, आगे वर्णित है) का उपयोग करने की क्षमता को जोड़ते हुए, जॉबट्रैकर से रिफैक्टर किया गया था।<ref>{{cite web |title=शेड्यूलर को जॉबट्रैकर से रिफलेक्टर करें|url=https://issues.apache.org/jira/browse/HADOOP-3412 |work=Hadoop Common |publisher=Apache Software Foundation |access-date=9 June 2012 }}</ref>




==निर्धारण ==
डिफ़ॉल्ट रूप से हडूप FIFO (कंप्यूटिंग और इलेक्ट्रॉनिक्स) शेड्यूलिंग का उपयोग करता है, और वैकल्पिक रूप से 5 शेड्यूलिंग प्राथमिकताओं को कार्य कतार से कार्य शेड्यूल करने के लिए उपयोग करता है।<ref>{{cite web|url=http://hadoop.apache.org/common/docs/current/commands_manual.html|title=कमांड गाइड|date=17 August 2011|access-date=11 December 2017|url-status=bot: unknown|archive-url=https://web.archive.org/web/20110817053520/http://hadoop.apache.org/common/docs/current/commands_manual.html#job|archive-date=17 August 2011}}</ref> संस्करण 0.19 में जॉब शेड्यूलर को वैकल्पिक शेड्यूलर (जैसे कि फेयर शेड्यूलर या कैपेसिटी शेड्यूलर, आगे वर्णित है) का उपयोग करने की क्षमता को जोड़ते हुए, जॉबट्रैकर से रिफैक्टर किया गया था।<ref>{{cite web |title=शेड्यूलर को जॉबट्रैकर से रिफलेक्टर करें|url=https://issues.apache.org/jira/browse/HADOOP-3412 |work=Hadoop Common |publisher=Apache Software Foundation |access-date=9 June 2012 }}</ref>
===फेयर शेड्यूलर ===
===फेयर शेड्यूलर ===
फेयर शेड्यूलर [[ फेसबुक ]] द्वारा विकसित किया गया था।<ref>{{cite web |url=http://www.ibm.com/developerworks/library/os-hadoop-scheduling/ |title=हडूप में निर्धारण|first=M. Tim |last=Jones |date=6 December 2011 |website=ibm.com |publisher=[[IBM]] |access-date=20 November 2013 }}</ref> फेयर शेड्यूलर का लक्ष्य उत्पादन कार्यों के लिए छोटी नौकरियों और [[ सेवा की गुणवत्ता ]] (क्यूओएस) के लिए तेजी से प्रतिक्रिया समय प्रदान करना है। फेयर शेड्यूलर की तीन बुनियादी अवधारणाएँ हैं।<ref>{{cite web|url=https://svn.apache.org/repos/asf/hadoop/common/branches/MAPREDUCE-233/src/contrib/fairscheduler/designdoc/fair_scheduler_design_doc.pdf|title=Hadoop फेयर शेड्यूलर डिज़ाइन दस्तावेज़|website=apache.org|access-date=12 October 2017}}</ref>
फेयर शेड्यूलर [[ फेसबुक |फेसबुक]] द्वारा विकसित किया गया था।<ref>{{cite web |url=http://www.ibm.com/developerworks/library/os-hadoop-scheduling/ |title=हडूप में निर्धारण|first=M. Tim |last=Jones |date=6 December 2011 |website=ibm.com |publisher=[[IBM]] |access-date=20 November 2013 }}</ref> फेयर शेड्यूलर का लक्ष्य उत्पादन कार्यों के लिए छोटी नौकरियों और [[ सेवा की गुणवत्ता |सेवा की गुणवत्ता]] (क्यूओएस) के लिए तेजी से प्रतिक्रिया समय प्रदान करना है। फेयर शेड्यूलर की तीन बुनियादी अवधारणाएँ हैं।<ref>{{cite web|url=https://svn.apache.org/repos/asf/hadoop/common/branches/MAPREDUCE-233/src/contrib/fairscheduler/designdoc/fair_scheduler_design_doc.pdf|title=Hadoop फेयर शेड्यूलर डिज़ाइन दस्तावेज़|website=apache.org|access-date=12 October 2017}}</ref>
# नौकरियों को पूल (संगणक साइंस) में बांटा गया है।
# नौकरियों को पूल (संगणक साइंस) में बांटा गया है।
# प्रत्येक पूल को एक गारंटीकृत न्यूनतम शेयर दिया जाता है।
# प्रत्येक पूल को गारंटीकृत न्यूनतम शेयर दिया जाता है।
# अतिरिक्त क्षमता को नौकरियों के बीच विभाजित किया गया है।
# अतिरिक्त क्षमता को नौकरियों के बीच विभाजित किया गया है।


डिफ़ॉल्ट रूप से, अवर्गीकृत कार्य डिफ़ॉल्ट पूल में जाते हैं। पूल को मैप स्लॉट की न्यूनतम संख्या निर्दिष्ट करनी होती है, स्लॉट को कम करना होता है, साथ ही रनिंग जॉब की संख्या पर एक सीमा होती है।
डिफ़ॉल्ट रूप से, अवर्गीकृत कार्य डिफ़ॉल्ट पूल में जाते हैं। पूल को मैप स्लॉट की न्यूनतम संख्या निर्दिष्ट करनी होती है, स्लॉट को कम करना होता है, साथ ही रनिंग जॉब की संख्या पर सीमा होती है।


===क्षमता अनुसूचक ===
===क्षमता अनुसूचक ===
क्षमता अनुसूचक याहू द्वारा विकसित किया गया था। क्षमता अनुसूचक कई सुविधाओं का समर्थन करता है जो निष्पक्ष अनुसूचक के समान हैं।<ref>{{cite web|url=http://hadoop.apache.org/docs/stable1/capacity_scheduler.html|title=क्षमता अनुसूचक गाइड|website=Hadoop.apache.org|access-date=31 December 2015}}</ref>
क्षमता अनुसूचक याहू द्वारा विकसित किया गया था। क्षमता अनुसूचक कई सुविधाओं का समर्थन करता है जो निष्पक्ष अनुसूचक के समान हैं।<ref>{{cite web|url=http://hadoop.apache.org/docs/stable1/capacity_scheduler.html|title=क्षमता अनुसूचक गाइड|website=Hadoop.apache.org|access-date=31 December 2015}}</ref>
# कतारों को कुल संसाधन क्षमता का एक अंश आवंटित किया जाता है।
# कतारों को कुल संसाधन क्षमता का अंश आवंटित किया जाता है।
# कतारों को उनकी कुल क्षमता से अधिक मुफ्त संसाधन आवंटित किए जाते हैं।
# कतारों को उनकी कुल क्षमता से अधिक मुफ्त संसाधन आवंटित किए जाते हैं।
# एक कतार के भीतर, उच्च स्तर की प्राथमिकता वाली नौकरी की कतार के संसाधनों तक पहुंच होती है।
# कतार के भीतर, उच्च स्तर की प्राथमिकता वाली नौकरी की कतार के संसाधनों तक पहुंच होती है।


नौकरी चलने के बाद कोई पूर्वक्रय अधिकार (कंप्यूटिंग) नहीं है।
नौकरी चलने के बाद कोई पूर्वक्रय अधिकार (कंप्यूटिंग) नहीं है।


=== हडूप 1 और हडूप 2 (YARN) === के बीच अंतर
== हडूप 1 और हडूप 2 (YARN) के बीच अंतर ==
 
हडूप 1 और हडूप 2 के बीच सबसे बड़ा अंतर YARN (फिर भी अन्य संसाधन वार्ताकार) का जोड़ है, जिसने हडूप के पहले संस्करण में मैपरेडुस इंजन को बदल दिया।
हडूप 1 और हडूप 2 के बीच सबसे बड़ा अंतर YARN (फिर भी एक अन्य संसाधन वार्ताकार) का जोड़ है, जिसने हडूप के पहले संस्करण में मैपरेडुस इंजन को बदल दिया।


यार्न प्रभावी ढंग से विभिन्न अनुप्रयोगों के लिए संसाधन आवंटित करने का प्रयास करता है। यह दो डेमॉन चलाता है, जो दो अलग-अलग कार्यों का ख्याल रखता है: संसाधन प्रबंधक, जो जॉब ट्रैकिंग करता है और अनुप्रयोगों को संसाधन आवंटन करता है, एप्लिकेशन मास्टर, जो निष्पादन की प्रगति की निगरानी करता है।
यार्न प्रभावी ढंग से विभिन्न अनुप्रयोगों के लिए संसाधन आवंटित करने का प्रयास करता है। यह दो डेमॉन चलाता है, जो दो अलग-अलग कार्यों का ख्याल रखता है: संसाधन प्रबंधक, जो जॉब ट्रैकिंग करता है और अनुप्रयोगों को संसाधन आवंटन करता है, एप्लिकेशन मास्टर, जो निष्पादन की प्रगति की निगरानी करता है।


=== हडूप 2 और हडूप 3 === के बीच अंतर
== हडूप 2 और हडूप 3 के बीच अंतर ==
हडूप 3 द्वारा प्रदान की जाने वाली महत्वपूर्ण विशेषताएं हैं। उदाहरण के लिए, जबकि हडूप 2 में एक ही नेमेनोड है, हडूप 3 कई नेम नोड्स को सक्षम बनाता है, जो विफलता की समस्या के एकल बिंदु को हल करता है।
हडूप 3 द्वारा प्रदान की जाने वाली महत्वपूर्ण विशेषताएं हैं। उदाहरण के लिए, जबकि हडूप 2 में ही नेमेनोड है, हडूप 3 कई नेम नोड्स को सक्षम बनाता है, जो विफलता की समस्या के एकल बिंदु को हल करता है।


हडूप 3 में, डॉकटर (सॉफ्टवेयर) के सिद्धांत पर काम करने वाले कंटेनर हैं, जो एप्लिकेशन डेवलपमेंट पर लगने वाले समय को कम करते हैं।
हडूप 3 में, डॉकटर (सॉफ्टवेयर) के सिद्धांत पर काम करने वाले कंटेनर हैं, जो एप्लिकेशन डेवलपमेंट पर लगने वाले समय को कम करते हैं।


सबसे बड़े परिवर्तनों में से एक यह है कि हडूप 3 [[ विलोपन कोड ]] के साथ स्टोरेज ओवरहेड को कम करता है।
सबसे बड़े परिवर्तनों में से एक यह है कि हडूप 3 [[ विलोपन कोड |विलोपन कोड]] के साथ स्टोरेज ओवरहेड को कम करता है।


इसके अतिरिक्त, हडूप 3 क्लस्टर के भीतर GPU हार्डवेयर के उपयोग की अनुमति देता है, जो कि हडूप क्लस्टर पर गहन शिक्षण एल्गोरिदम को निष्पादित करने के लिए एक बहुत बड़ा लाभ है।<ref>{{cite web |url=https://it.hortonworks.com/blog/hadoop-3-adds-value-hadoop-2/ |title=कैसे Apache Hadoop 3 Apache Hadoop 2 से अधिक मूल्य जोड़ता है|website=hortonworks.com |access-date=2018-06-11|date=7 February 2018 }}</ref>
इसके अतिरिक्त, हडूप 3 क्लस्टर के भीतर GPU हार्डवेयर के उपयोग की अनुमति देता है, जो कि हडूप क्लस्टर पर गहन शिक्षण एल्गोरिदम को निष्पादित करने के लिए एक बहुत बड़ा लाभ है।<ref>{{cite web |url=https://it.hortonworks.com/blog/hadoop-3-adds-value-hadoop-2/ |title=कैसे Apache Hadoop 3 Apache Hadoop 2 से अधिक मूल्य जोड़ता है|website=hortonworks.com |access-date=2018-06-11|date=7 February 2018 }}</ref>
=== अन्य अनुप्रयोग ===
=== अन्य अनुप्रयोग ===
HDFS मैपरेडुस नौकरियों तक ही सीमित नहीं है। इसका उपयोग अन्य अनुप्रयोगों के लिए किया जा सकता है, जिनमें से कई अपाचे में विकास के अधीन हैं। सूची में [[ HBase ]] डेटाबेस, [[ Apache Mahout | अपाचे Mahout]] [[ मशीन लर्निंग ]] सिस्टम और अपाचे Hive [[ डेटा वेयरहाउस ]] शामिल हैं। सैद्धांतिक रूप से, हडूप का उपयोग किसी भी ऐसे कार्यभार के लिए किया जा सकता है जो वास्तविक समय के अतिरिक्त बैच-उन्मुख है, बहुत डेटा-गहन है, और [[ समानांतर कंप्यूटिंग ]] से लाभान्वित होता है। इसका उपयोग [[ लैम्ब्डा वास्तुकला ]], अपाचे स्टॉर्म, [[ अपाचे फ्लैश ]] और अपाचे स्पार्क जैसे रीयल-टाइम सिस्टम के पूरक के लिए भी किया जा सकता है।<ref>{{cite book |chapter= Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming |date=May 2016 |publisher=IEEE |doi=10.1109/IPDPSW.2016.138 |title=2016 IEEE अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी कार्यशालाएँ (IPDPSW)|pages=1789–1792 |last1=Chintapalli |first1=Sanket |last2=Dagit |first2=Derek |last3=Evans |first3=Bobby |last4=Farivar |first4=Reza |last5=Graves |first5=Thomas |last6=Holderbaugh |first6=Mark |last7=Liu |first7=Zhuo |last8=Nusbaum |first8=Kyle |last9=Patil |first9=Kishorkumar |last10=Peng |first10=Boyang Jerry |last11=Poulosky |first11=Paul |isbn=978-1-5090-3682-0 |s2cid=2180634 }}</ref>
एचडीएफएस मैपरेडुस नौकरियों तक ही सीमित नहीं है। इसका उपयोग अन्य अनुप्रयोगों के लिए किया जा सकता है, जिनमें से कई अपाचे में विकास के अधीन हैं। सूची में [[ HBase |एचबेस]] डेटाबेस, [[ Apache Mahout |अपाचे मेहाउट]] [[ मशीन लर्निंग |मशीन लर्निंग]] सिस्टम और अपाचे Hive [[ डेटा वेयरहाउस |डेटा वेयरहाउस]] सम्मिलित हैं। सैद्धांतिक रूप से, हडूप का उपयोग किसी भी ऐसे कार्यभार के लिए किया जा सकता है जो वास्तविक समय के अतिरिक्त बैच-उन्मुख है, बहुत डेटा-गहन है, और [[ समानांतर कंप्यूटिंग |समानांतर कंप्यूटिंग]] से लाभान्वित होता है। इसका उपयोग [[ लैम्ब्डा वास्तुकला |लैम्ब्डा वास्तुकला]], अपाचे स्टॉर्म, [[ अपाचे फ्लैश |अपाचे फ्लैश]] और अपाचे स्पार्क जैसे रीयल-टाइम सिस्टम के पूरक के लिए भी किया जा सकता है।<ref>{{cite book |chapter= Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming |date=May 2016 |publisher=IEEE |doi=10.1109/IPDPSW.2016.138 |title=2016 IEEE अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी कार्यशालाएँ (IPDPSW)|pages=1789–1792 |last1=Chintapalli |first1=Sanket |last2=Dagit |first2=Derek |last3=Evans |first3=Bobby |last4=Farivar |first4=Reza |last5=Graves |first5=Thomas |last6=Holderbaugh |first6=Mark |last7=Liu |first7=Zhuo |last8=Nusbaum |first8=Kyle |last9=Patil |first9=Kishorkumar |last10=Peng |first10=Boyang Jerry |last11=Poulosky |first11=Paul |isbn=978-1-5090-3682-0 |s2cid=2180634 }}</ref>


हडूप के व्यावसायिक अनुप्रयोगों में शामिल हैं:<ref>{{cite web |date=10 October 2009 |url=http://www.dbms2.com/2009/10/10/enterprises-using-hadoo/ |title=DBMS2 में "कैसे 30+ उद्यम Hadoop का उपयोग कर रहे हैं"|publisher=Dbms2.com |access-date=2013-10-17 }}</ref>
हडूप के व्यावसायिक अनुप्रयोगों में सम्मिलित हैं:<ref>{{cite web |date=10 October 2009 |url=http://www.dbms2.com/2009/10/10/enterprises-using-hadoo/ |title=DBMS2 में "कैसे 30+ उद्यम Hadoop का उपयोग कर रहे हैं"|publisher=Dbms2.com |access-date=2013-10-17 }}</ref>
* लॉग या [[ clickstream | क्लिकस्ट्रीम]] विश्लेषण
* लॉग या [[ clickstream |क्लिकस्ट्रीम]] विश्लेषण
* मार्केटिंग एनालिटिक्स
* मार्केटिंग एनालिटिक्स
* मशीन लर्निंग और [[ डेटा माइनिंग | डेटा माइनिंग]]
* मशीन लर्निंग और [[ डेटा माइनिंग |डेटा माइनिंग]]
* मूर्ति प्रोद्योगिकी
* मूर्ति प्रोद्योगिकी
* [[ एक्सएमएल | एक्सएमएल]] संदेश प्रसंस्करण
* [[ एक्सएमएल |एक्सएमएल]] संदेश प्रसंस्करण
* [[ वेब क्रॉलिंग | वेब क्रॉलिंग]]
* [[ वेब क्रॉलिंग | वेब क्रॉलिंग]]
* संबंधपरक और सारणीबद्ध डेटा सहित अनुपालन के लिए अभिलेखीय कार्य
* संबंधपरक और सारणीबद्ध डेटा सहित अनुपालन के लिए अभिलेखीय कार्य


== प्रमुख उपयोग के मामले ==
== प्रमुख उपयोग के स्थितियां ==
19 फरवरी 2008 को याहू! Inc. ने लॉन्च किया जो उन्होंने दावा किया कि यह दुनिया का सबसे बड़ा हडूप प्रोडक्शन एप्लिकेशन था। याहू! सर्च वेबमैप एक हडूप एप्लिकेशन है जो 10,000 से अधिक [[ मल्टी कोर ]] वाले लिनक्स क्लस्टर पर उत्पादित डेटा के साथ चलता है जो प्रत्येक याहू! वेब खोज क्वेरी याहू! में उपयोग किया गया था ।<ref>{{cite web|url=https://developer.yahoo.com/blogs/hadoop/yahoo-launches-world-largest-hadoop-production-application-398.html|title=याहू! दुनिया का सबसे बड़ा Hadoop प्रोडक्शन एप्लिकेशन लॉन्च किया|date=19 February 2008|work=Yahoo|access-date=31 December 2015|archive-url=https://web.archive.org/web/20160307081144/https://developer.yahoo.com/blogs/hadoop/yahoo-launches-world-largest-hadoop-production-application-398.html|archive-date=7 March 2016|url-status=dead}}</ref> में कई हडूप क्लस्टर हैं। और कोई भी HDFS फ़ाइल सिस्टम या मैपरेडुस जॉब कई डेटा केंद्रों में विभाजित नहीं है। प्रत्येक हडूप क्लस्टर नोडलिनक्स छवि को बूटस्ट्रैप करता है, जिसमें हडूप वितरण भी शामिल है। कार्य जो क्लस्टर करते हैं वह याहू! के लिए सूचकांक गणनाओं को शामिल करने के लिए जाना जाता है खोज इंजन जून 2009 में, याहू! अपने हडूप वर्जन के सोर्स कोड को ओपन-सोर्स कम्युनिटी के लिए उपलब्ध कराया।<ref>{{cite web |url=http://developer.yahoo.com/hadoop/ |title=Yahoo! पर Hadoop और वितरित कंप्यूटिंग|publisher=Yahoo! |date=2011-04-20 |access-date=2013-10-17 }}</ref>
19 फरवरी 2008 को याहू!इंक ने लॉन्च किया जो उन्होंने दावा किया कि यह दुनिया का सबसे बड़ा हडूप प्रोडक्शन एप्लिकेशन था। याहू! सर्च वेबमैप एक हडूप एप्लिकेशन है जो 10,000 से अधिक [[ मल्टी कोर |मल्टी कोर]] वाले लिनक्स क्लस्टर पर उत्पादित डेटा के साथ चलता है जो प्रत्येक याहू! वेब खोज क्वेरी याहू! में उपयोग किया गया था ।<ref>{{cite web|url=https://developer.yahoo.com/blogs/hadoop/yahoo-launches-world-largest-hadoop-production-application-398.html|title=याहू! दुनिया का सबसे बड़ा Hadoop प्रोडक्शन एप्लिकेशन लॉन्च किया|date=19 February 2008|work=Yahoo|access-date=31 December 2015|archive-url=https://web.archive.org/web/20160307081144/https://developer.yahoo.com/blogs/hadoop/yahoo-launches-world-largest-hadoop-production-application-398.html|archive-date=7 March 2016|url-status=dead}}</ref> में कई हडूप क्लस्टर हैं। और कोई भी एचडीएफएस फ़ाइल सिस्टम या मैपरेडुस जॉब कई डेटा केंद्रों में विभाजित नहीं है। प्रत्येक हडूप क्लस्टर नोडलिनक्स छवि को बूटस्ट्रैप करता है, जिसमें हडूप वितरण भी सम्मिलित है। कार्य जो क्लस्टर करते हैं वह याहू! के लिए सूचकांक गणनाओं को सम्मिलित करने के लिए जाना जाता है खोज इंजन जून 2009 में, याहू! अपने हडूप वर्जन के सोर्स कोड को ओपन-सोर्स कम्युनिटी के लिए उपलब्ध कराया।<ref>{{cite web |url=http://developer.yahoo.com/hadoop/ |title=Yahoo! पर Hadoop और वितरित कंप्यूटिंग|publisher=Yahoo! |date=2011-04-20 |access-date=2013-10-17 }}</ref>


2010 में, फेसबुक ने दावा किया कि उनके पास 21 [[ पेटाबाइट | पेटाबाइट]] स्टोरेज के साथ विश्व का सबसे बड़ा हडूप क्लस्टर है।<ref>{{cite web |url=http://hadoopblog.blogspot.com/2010/05/facebook-has-worlds-largest-hadoop.html |title=HDFS: Facebook के पास दुनिया का सबसे बड़ा Hadoop क्लस्टर है!|publisher=Hadoopblog.blogspot.com |date=2010-05-09 |access-date=2012-05-23 }}</ref> जून 2012 में, उन्होंने घोषणा की कि डेटा 100 पीबी तक बढ़ गया है<ref>{{cite web |url=http://www.facebook.com/notes/facebook-engineering/under-the-hood-hadoop-distributed-filesystem-reliability-with-namenode-and-avata/10150888759153920 |title=हुड के तहत: Hadoop ने Namenode और Avatarnode के साथ फ़ाइल सिस्टम विश्वसनीयता वितरित की|publisher=Facebook |access-date=2012-09-13 }}</ref> और बाद में उस वर्ष उन्होंने घोषणा की कि डेटा प्रति दिन लगभग आधा पीबी बढ़ रहा था।<ref>{{cite web |url=https://www.facebook.com/notes/facebook-engineering/under-the-hood-scheduling-mapreduce-jobs-more-efficiently-with-corona/10151142560538920 |title=हुड के तहत: शेड्यूलिंग मानचित्र कोरोना के साथ नौकरियों को अधिक कुशलता से कम करें|publisher=Facebook |access-date=2012-11-09 }}</ref>
2010 में, फेसबुक ने दावा किया कि उनके पास 21 [[ पेटाबाइट |पेटाबाइट]] स्टोरेज के साथ विश्व का सबसे बड़ा हडूप क्लस्टर है।<ref>{{cite web |url=http://hadoopblog.blogspot.com/2010/05/facebook-has-worlds-largest-hadoop.html |title=HDFS: Facebook के पास दुनिया का सबसे बड़ा Hadoop क्लस्टर है!|publisher=Hadoopblog.blogspot.com |date=2010-05-09 |access-date=2012-05-23 }}</ref> जून 2012 में, उन्होंने घोषणा की कि डेटा 100 पीबी तक बढ़ गया है<ref>{{cite web |url=http://www.facebook.com/notes/facebook-engineering/under-the-hood-hadoop-distributed-filesystem-reliability-with-namenode-and-avata/10150888759153920 |title=हुड के तहत: Hadoop ने Namenode और Avatarnode के साथ फ़ाइल सिस्टम विश्वसनीयता वितरित की|publisher=Facebook |access-date=2012-09-13 }}</ref> और बाद में उस वर्ष उन्होंने घोषणा की कि डेटा प्रति दिन लगभग आधा पीबी बढ़ रहा था।<ref>{{cite web |url=https://www.facebook.com/notes/facebook-engineering/under-the-hood-scheduling-mapreduce-jobs-more-efficiently-with-corona/10151142560538920 |title=हुड के तहत: शेड्यूलिंग मानचित्र कोरोना के साथ नौकरियों को अधिक कुशलता से कम करें|publisher=Facebook |access-date=2012-11-09 }}</ref>


{{As of|2013}}, हडूप को अपनाना व्यापक हो गया था: फॉर्च्यून 50 कंपनियों में से आधे से अधिक ने हडूप का उपयोग किया।<ref>{{cite press release <!-- |author=Staff writer(s); no by-line.--> |title=Altior का AltraSTAR - Hadoop स्टोरेज एक्सेलेरेटर और ऑप्टिमाइज़र अब CDH4 पर प्रमाणित है (Cloudera का वितरण Apache Hadoop संस्करण 4 सहित)|url=http://www.prnewswire.com/news-releases/altiors-altrastar---hadoop-storage-accelerator-and-optimizer-now-certified-on-cdh4-clouderas-distribution-including-apache-hadoop-version-4-183906141.html |location=Eatontown, NJ |publisher=Altior Inc. |date=2012-12-18 |access-date=2013-10-30 }}</ref>
{{As of|2013}}, हडूप को अपनाना व्यापक हो गया था: फॉर्च्यून 50 कंपनियों में से आधे से अधिक ने हडूप का उपयोग किया।<ref>{{cite press release <!-- |author=Staff writer(s); no by-line.--> |title=Altior का AltraSTAR - Hadoop स्टोरेज एक्सेलेरेटर और ऑप्टिमाइज़र अब CDH4 पर प्रमाणित है (Cloudera का वितरण Apache Hadoop संस्करण 4 सहित)|url=http://www.prnewswire.com/news-releases/altiors-altrastar---hadoop-storage-accelerator-and-optimizer-now-certified-on-cdh4-clouderas-distribution-including-apache-hadoop-version-4-183906141.html |location=Eatontown, NJ |publisher=Altior Inc. |date=2012-12-18 |access-date=2013-10-30 }}</ref>
== क्लाउड में हडूप होस्टिंग ==
== क्लाउड में हडूप होस्टिंग ==
हडूप को पारंपरिक ऑनसाइट डेटासेंटर के साथ-साथ [[ क्लाउड कम्प्यूटिंग ]] में भी तैनात किया जा सकता है।<ref>{{cite web|url=http://azure.microsoft.com/en-us/solutions/hadoop/|title=Hadoop - Microsoft Azure|website=azure.microsoft.com|access-date=11 December 2017}}</ref> क्लाउड संगठनों को हार्डवेयर या विशिष्ट सेटअप विशेषज्ञता प्राप्त करने की आवश्यकता के बिना हडूप को परिनियोजित करने की अनुमति देता है।<ref>{{cite web |url=http://azure.microsoft.com/en-us/solutions/hadoop/ |title=हडूप|publisher=Azure.microsoft.com |access-date=2014-07-22 }}</ref>
हडूप को पारंपरिक ऑनसाइट डेटासेंटर के साथ-साथ [[ क्लाउड कम्प्यूटिंग |क्लाउड कम्प्यूटिंग]] में भी तैनात किया जा सकता है।<ref>{{cite web|url=http://azure.microsoft.com/en-us/solutions/hadoop/|title=Hadoop - Microsoft Azure|website=azure.microsoft.com|access-date=11 December 2017}}</ref> क्लाउड संगठनों को हार्डवेयर या विशिष्ट सेटअप विशेषज्ञता प्राप्त करने की आवश्यकता के बिना हडूप को परिनियोजित करने की अनुमति देता है।<ref>{{cite web |url=http://azure.microsoft.com/en-us/solutions/hadoop/ |title=हडूप|publisher=Azure.microsoft.com |access-date=2014-07-22 }}</ref>
 
 
== वाणिज्यिक समर्थन ==
== वाणिज्यिक समर्थन ==
<!--
Please don't go overboard in marketing here, as it will only be edited out. Use external citations rather than press releases, and be aware of Wikipedia's rules regarding conflict of interest and external links, WP:COI and WP:EL specifically
-->
कई कंपनियां हडूप के लिए व्यावसायिक कार्यान्वयन या समर्थन प्रदान करती हैं।<ref>{{cite web |url=http://gigaom.com/cloud/why-we-need-more-hadoop-innovation/ |title=हडूप इनोवेशन की गति क्यों तेज होनी चाहिए|publisher=Gigaom.com |date=2011-04-25 |access-date=2013-10-17 }}</ref>
कई कंपनियां हडूप के लिए व्यावसायिक कार्यान्वयन या समर्थन प्रदान करती हैं।<ref>{{cite web |url=http://gigaom.com/cloud/why-we-need-more-hadoop-innovation/ |title=हडूप इनोवेशन की गति क्यों तेज होनी चाहिए|publisher=Gigaom.com |date=2011-04-25 |access-date=2013-10-17 }}</ref>
=== ब्रांडिंग ===
=== ब्रांडिंग ===
अपाचे सॉफ्टवेयर फाउंडेशन ने कहा है कि अपाचे हडूप प्रोजेक्ट द्वारा आधिकारिक तौर पर जारी किए गए सॉफ़्टवेयर को ही अपाचे हडूप या अपाचे हडूप के वितरण कहा जा सकता है।<ref>{{cite web |url=http://wiki.apache.org/hadoop/Defining%20Hadoop |title=हडूप को परिभाषित करना|publisher=Wiki.apache.org |date=2013-03-30 |access-date=2013-10-17 }}</ref> उत्पादों का नामकरण और अन्य विक्रेताओं से व्युत्पन्न कार्य और संगत शब्द हडूप डेवलपर समुदाय के भीतर कुछ हद तक विवादास्पद हैं।<ref>{{cite web |url=http://mail-archives.apache.org/mod_mbox/hadoop-general/201105.mbox/%3C4DC91392.2010308@apache.org%3E |title=Hadoop संगतता को परिभाषित करना: दोबारा गौर किया गया|publisher=Mail-archives.apache.org |date=2011-05-10 |access-date=2013-10-17 }}</ref>
अपाचे सॉफ्टवेयर फाउंडेशन ने कहा है कि अपाचे हडूप प्रोजेक्ट द्वारा आधिकारिक तौर पर जारी किए गए सॉफ़्टवेयर को ही अपाचे हडूप या अपाचे हडूप के वितरण कहा जा सकता है।<ref>{{cite web |url=http://wiki.apache.org/hadoop/Defining%20Hadoop |title=हडूप को परिभाषित करना|publisher=Wiki.apache.org |date=2013-03-30 |access-date=2013-10-17 }}</ref> उत्पादों का नामकरण और अन्य विक्रेताओं से व्युत्पन्न कार्य और संगत शब्द हडूप डेवलपर समुदाय के भीतर कुछ हद तक विवादास्पद हैं।<ref>{{cite web |url=http://mail-archives.apache.org/mod_mbox/hadoop-general/201105.mbox/%3C4DC91392.2010308@apache.org%3E |title=Hadoop संगतता को परिभाषित करना: दोबारा गौर किया गया|publisher=Mail-archives.apache.org |date=2011-05-10 |access-date=2013-10-17 }}</ref>
== पेपर ==
== पेपर ==
कुछ पेपर्स ने हडूप और बिग डेटा प्रोसेसिंग के जन्म और विकास को प्रभावित किया। इनमें से कुछ हैं:
कुछ पेपर्स ने हडूप और बिग डेटा प्रोसेसिंग के जन्म और विकास को प्रभावित किया। इनमें से कुछ हैं:
* जेफरी डीन, संजय घेमावत (2004) [https://www.usenix.org/legacy/publications/library/proceedings/osdi04/tech/full_papers/dean/dean_html/index.html मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग] , गूगल। इस पेपर ने डॉग कटिंग को मैप-रिड्यूस फ्रेमवर्क के ओपन-सोर्स कार्यान्वयन को विकसित करने के लिए प्रेरित किया। उन्होंने अपने बेटे के खिलौने वाले हाथी के नाम पर इसका नाम हडूप रखा।
* जेफरी डीन, संजय घेमावत (2004) [https://www.usenix.org/legacy/publications/library/proceedings/osdi04/tech/full_papers/dean/dean_html/index.html मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग], गूगल। इस पेपर ने डॉग कटिंग को मैप-रिड्यूस फ्रेमवर्क के ओपन-सोर्स कार्यान्वयन को विकसित करने के लिए प्रेरित किया। उन्होंने अपने बेटे के खिलौने वाले हाथी के नाम पर इसका नाम हडूप रखा।
* माइकल फ्रैंकलिन, एलोन हैलेवी, डेविड मैयर (2005) [http://www.eecs.berkeley.edu/~franklin/Papers/dataspaceSR.pdf डेटाबेस से डेटास्पेस तक: सूचना प्रबंधन के लिए एक नया सार]। लेखक सभी डेटा स्वरूपों को स्वीकार करने और डेटा एक्सेस के लिए एपीआई प्रदान करने के लिए स्टोरेज सिस्टम की आवश्यकता पर प्रकाश डालते हैं जो डेटा की स्टोरेज सिस्टम की समझ के आधार पर विकसित होते हैं।
* माइकल फ्रैंकलिन, एलोन हैलेवी, डेविड मैयर (2005) [http://www.eecs.berkeley.edu/~franklin/Papers/dataspaceSR.pdf डेटाबेस से डेटास्पेस तक: सूचना प्रबंधन के लिए एक नया सार]। लेखक सभी डेटा स्वरूपों को स्वीकार करने और डेटा ्सेस के लिए एपीआई प्रदान करने के लिए स्टोरेज सिस्टम की आवश्यकता पर प्रकाश डालते हैं जो डेटा की स्टोरेज सिस्टम की समझ के आधार पर विकसित होते हैं।
* फे चांग एट अल।<!-- Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, Robert E. Gruber --> (2006) [http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/bigtable-osdi06.pdf बिगटेबल: संरचित डेटा के लिए एक वितरित संग्रहण प्रणाली], गूगल।
* फे चांग एट अल। (2006) [http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/bigtable-osdi06.pdf बिगटेबल: संरचित डेटा के लिए वितरित संग्रहण प्रणाली], गूगल।
* रॉबर्ट कल्मन एट अल।<!-- Hideaki Kimura, Jonathan Natkins, Andrew Pavlo, Alexander Rasin, Stanley Zdonik, Evan P. C. Jones, Samuel Madden, Michael Stonebraker, Yang Zhang, John Hugg, Daniel J. Abadi --> (2008) [http://www.vldb.org/pvldb/vol1/1454211.pdf एच-स्टोर: एक उच्च-प्रदर्शन, वितरित मुख्य मेमोरी लेनदेन प्रसंस्करण प्रणाली]
* रॉबर्ट कल्मन एट अल। (2008) [http://www.vldb.org/pvldb/vol1/1454211.pdf एच-स्टोर: उच्च-प्रदर्शन, वितरित मुख्य मेमोरी लेनदेन प्रसंस्करण प्रणाली]


== यह भी देखें ==
== यह भी देखें{{Portal|Free and open-source software}}==
{{Portal|Free and open-source software}}
* [[ अपाचे संचय | अपाचे संचय]] - सुरक्षित [[ बड़ी मेज |बड़ी मेज]] <ref>{{cite web |url=https://accumulo.apache.org/1.4/user_manual/Security.html |title=Apache Accumulo उपयोगकर्ता पुस्तिका: सुरक्षा <!--|author=Staff writer(s); no by-line.--> |website=apache.org |publisher=Apache Software Foundation |access-date=2014-12-03 }}</ref>
* [[ अपाचे संचय ]] - सुरक्षित [[ बड़ी मेज ]]<ref>{{cite web |url=https://accumulo.apache.org/1.4/user_manual/Security.html |title=Apache Accumulo उपयोगकर्ता पुस्तिका: सुरक्षा <!--|author=Staff writer(s); no by-line.--> |website=apache.org |publisher=Apache Software Foundation |access-date=2014-12-03 }}</ref>
* [[ Apache Cassandra | अपाचे कैसेन्ड्रा]], स्तंभ-उन्मुख डेटाबेस जो हडूप से पहुँच का समर्थन करता है
* [[ Apache Cassandra | अपाचे Cassandra]] , एक स्तंभ-उन्मुख डेटाबेस जो हडूप से पहुँच का समर्थन करता है
* [[ Apache CouchDB | अपाचे काउचDB]], डेटाबेस जो दस्तावेज़ों के लिए जेसान का उपयोग करता है, मैपरेडुस प्रश्नों के लिए जावा स्क्रिप्ट, और एपीआई के लिए नियमित एचटीटीपी
* [[ Apache CouchDB | अपाचे CouchDB]] , एक डेटाबेस जो दस्तावेज़ों के लिए JSON का उपयोग करता है, मैपरेडुस प्रश्नों के लिए JavaScript, और API के लिए नियमित HTTP
* अपाचे Hकैटेलाग, हडूप के लिए टेबल और स्टोरेज मैनेजमेंट लेयर
* अपाचे HCatalog, हडूप के लिए एक टेबल और स्टोरेज मैनेजमेंट लेयर
* बड़ा डेटा
* बड़ा डेटा
*[[ डेटा गहन कंप्यूटिंग ]]
*[[ डेटा गहन कंप्यूटिंग ]]
* [[ एचपीसीसी ]] - [[ लेक्सिसनेक्सिस ]] रिस्क सॉल्यूशंस हाई परफॉर्मेंस कंप्यूटिंग क्लस्टर
* [[ एचपीसीसी | एचपीसीसी]] - [[ लेक्सिसनेक्सिस |लेक्सिसनेक्सिस]] रिस्क सॉल्यूशंस हाई परफॉर्मेंस कंप्यूटिंग क्लस्टर
* [[ हाइपरटेबल ]] - एचबेस विकल्प
* [[ हाइपरटेबल | हाइपरटेबल]] - एचबेस विकल्प
* क्षेत्र/क्षेत्र - खुला स्रोत वितरित भंडारण और प्रसंस्करण
* क्षेत्र/क्षेत्र - खुला स्रोत वितरित भंडारण और प्रसंस्करण
* [[ संसाधन प्रबंधन के लिए सरल लिनक्स उपयोगिता ]]
* [[ संसाधन प्रबंधन के लिए सरल लिनक्स उपयोगिता ]]
Line 290: Line 280:
{{Refend}}
{{Refend}}


*


==बाहरी संबंध==
* {{Official website}}
{{Apache Software Foundation}}
{{File systems}}
{{Authority control}}
{{Authority control}}
{{Use dmy dates|date=June 2019}}
{{Use dmy dates|date=June 2019}}


{{DEFAULTSORT:Hadoop}}[[Category:Apache सॉफ्टवेयर फाउंडेशन परियोजनाएं|Hadoop]]
{{DEFAULTSORT:Hadoop}}
[[Category:बिग डेटा उत्पाद]]
 
[[Category: वितरित फाइल सिस्टम]]
[[Category:All articles containing potentially dated statements|Hadoop]]
[[Category:क्लाउड कंप्यूटिंग के लिए मुफ्त सॉफ्टवेयर]]
[[Category:Apache सॉफ्टवेयर फाउंडेशन परियोजनाएं|Hadoop]]
[[Category: जावा में प्रोग्राम किया गया मुफ्त सॉफ्टवेयर (प्रोग्रामिंग भाषा)]]
[[Category:Articles containing potentially dated statements from 2013|Hadoop]]
[[Category:मुफ्त सिस्टम सॉफ्टवेयर]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Hadoop]]
[[Category:Articles with invalid date parameter in template|Hadoop]]
[[Category:Articles with short description|Hadoop]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 errors|Hadoop]]
[[Category:CS1 français-language sources (fr)]]
[[Category:CS1 maint|Hadoop]]
[[Category:CS1 Ελληνικά-language sources (el)]]
[[Category:Citation Style 1 templates|W]]
[[Category:Collapse templates]]
[[Category:Created On 22/11/2022|Hadoop]]
[[Category:Machine Translated Page|Hadoop]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with empty portal template|Hadoop]]
[[Category:Pages with script errors|Hadoop]]
[[Category:Portal templates with redlinked portals|Hadoop]]
[[Category:Short description with empty Wikidata description|Hadoop]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Hadoop]]
[[Category:Templates based on the Citation/CS1 Lua module]]
[[Category:Templates generating COinS|Cite web]]
[[Category:Templates generating microformats]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates used by AutoWikiBrowser|Cite web]]
[[Category:Templates using TemplateData]]
[[Category:Use dmy dates from June 2019|Hadoop]]
[[Category:Wikipedia fully protected templates|Cite web]]
[[Category:Wikipedia metatemplates]]
[[Category:अपाचे लाइसेंस का प्रयोग करने वाला सॉफ्टवेयर|Hadoop]]
[[Category:क्लाउड कंप्यूटिंग के लिए मुफ्त सॉफ्टवेयर|Hadoop]]
[[Category:जावा में प्रोग्राम किया गया मुफ्त सॉफ्टवेयर (प्रोग्रामिंग भाषा)|Hadoop]]
[[Category:बिग डेटा उत्पाद|Hadoop]]
[[Category:मुफ्त सिस्टम सॉफ्टवेयर|Hadoop]]
[[Category:वितरित फाइल सिस्टम|Hadoop]]
[[Category:हडूप| ]]
[[Category:हडूप| ]]
[[Category:अपाचे लाइसेंस का प्रयोग करने वाला सॉफ्टवेयर]]
[[Category: Machine Translated Page]]
[[Category:Created On 22/11/2022]]

Latest revision as of 10:21, 3 January 2023

Apache Hadoop
Original author(s)Doug Cutting, Mike Cafarella
Developer(s)Apache Software Foundation
Initial releaseApril 1, 2006; 18 years ago (2006-04-01)[1]
Stable release
2.10.x2.10.2 / May 31, 2022; 23 months ago (2022-05-31)[2]
3.2.x3.2.4 / July 22, 2022; 21 months ago (2022-07-22)[2]
3.3.x3.3.4 / August 8, 2022; 21 months ago (2022-08-08)[2]
RepositoryHadoop Repository
Written inJava
Operating systemCross-platform
TypeDistributed file system
LicenseApache License 2.0

अपाचे हडूप ( /həˈdp/) खुला स्रोत सॉफ्टवेयर उपयोगिताओं का संग्रह है | जो बड़ी मात्रा में डेटा और संगणना से जुड़ी समस्याओं को हल करने के लिए कई संगणकों के नेटवर्क का उपयोग करने की सुविधा प्रदान करता है। यह मानचित्र छोटा करना प्रोग्रामिंग मॉडल का उपयोग करके और बड़े डेटा के वितरित भंडारण और प्रसंस्करण के लिए सॉफ्टवेयर संरचना प्रदान करता है। हडूप को मूल रूप से लोहे की उपयोगी वस्तुएं से निर्मित संगणक क्लस्टर के लिए डिज़ाइन किया गया था, जो अभी भी सामान्य उपयोग है।[3] इसके बाद से उच्च अंत हार्डवेयर के समूहों पर भी इसका उपयोग पाया गया है।[4][5] हडूप में सभी अनुखंड मौलिक धारणा के साथ डिज़ाइन किए गए हैं कि हार्डवेयर विफलताएँ सामान्य घटनाएँ हैं और इन्हें फ्रेमवर्क द्वारा स्वचालित रूप से नियंत्रित किया जाना चाहिए।[6]

अपाचे हडूप के मूल में स्टोरेज पार्ट होता है, जिसे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफएस) के रूप में जाना जाता है, और प्रोसेसिंग पार्ट जो कि मैपरेडुस प्रोग्रामिंग मॉडल है। हडूप फ़ाइलों को बड़े ब्लॉक में विभाजित करता है और उन्हें क्लस्टर में नोड्स में वितरित करता है। यह तब डेटा को समानांतर में संसाधित करने के लिए पैक किए गए कोड को नोड्स में स्थानांतरित करता है। यह दृष्टिकोण डेटा स्थानीयता का लाभ उठाता है,[7] जहां नोड्स उस डेटा में हेरफेर करते हैं, जिस तक उनकी पहुंच है। यह डेटासेट को एक अधिक पारंपरिक सुपरसंगणक आर्किटेक्चर की तुलना में तेजी से और अधिक कुशलता से प्रसंस्करण वितरित करने की अनुमति देता है जो समानांतर फाइल सिस्टम पर निर्भर करता है जहां उच्च गति नेटवर्किंग के माध्यम से गणना और डेटा वितरित किया जाता है।[8][9]

आधार अपाचे हडूप रूपरेखा निम्नलिखित अनुखंड से बना है:

  • हडूप कॉमन - में अन्य हडूप अनुखंड के लिए आवश्यक लाइब्रेरी और सुविधाएं सम्मिलित हैं;
  • हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम (एचडीएफएस) - एक वितरित फाइल-सिस्टम जो कमोडिटी मशीनों पर डेटा स्टोर करता है, क्लस्टर में बहुत अधिक समग्र बैंडविड्थ प्रदान करता है;
  • हडूप YARN - (2012 में पेश किया गया) क्लस्टर में कंप्यूटिंग संसाधनों के प्रबंधन और उपयोगकर्ताओं के अनुप्रयोगों को शेड्यूल करने के लिए उनका उपयोग करने के लिए उत्तरदायी मंच;[10][11]
  • हडूप मैपरेडुस - बड़े पैमाने पर डेटा प्रोसेसिंग के लिए मैपरेडुस प्रोग्रामिंग मॉडल का कार्यान्वयन।
  • हडूप ओजोन - (2020 में पेश किया गया) हडूप के लिए एक ऑब्जेक्ट स्टोर

हडूप शब्द का प्रयोग अधिकांश आधार अनुखंड और उप-अनुखंड दोनों के लिए और पारिस्थितिकी तंत्र के लिए भी किया जाता है,[12] या अतिरिक्त सॉफ़्टवेयर पैकेजों का संग्रह जो हडूप के ऊपर या उसके साथ स्थापित किया जा सकता है, जैसे कि अपाचे पीआईजी (प्रोग्रामिंग उपकरण), अपाचे हीवे, अपाचे ह्बसे, अपाचे फीनिक्स, अपाचे स्पार्क, अपाचे जूकीपेर, क्लौदेर इम्पाला, अपाचे फ्लुमे, अपाचे स्कूप, अपाचे ओजी, और अपाचे स्टॉर्म[13]

अपाचे हडूप के मैपरेडुस और एचडीएफएस घटक मैपरेडुस और गूगल फाइल सिस्टम पर गूगल पेपर्स से प्रेरित थे।[14]

हडूप रुपरेखा स्वयं ज्यादातर जावा (प्रोग्रामिंग भाषा) में लिखा जाता है, C (प्रोग्रामिंग लैंग्वेज) में कुछ देशी कोड और कमांड लाइन इंटरफेस उपयोगिताओं को शेल स्क्रिप्ट्स के रूप में लिखा जाता है। चूंकि मैपरेडुस जावा कोड सामान्य है, मानचित्र को लागू करने और उपयोगकर्ता के प्रोग्राम के कुछ हिस्सों को कम करने के लिए हडूप स्ट्रीमिंग के साथ किसी सी (प्रोग्रामिंग भाषा) का उपयोग किया जा सकता है।[15] हडूप पारिस्थितिकी तंत्र में अन्य परियोजनाएं समृद्ध उपयोगकर्ता इंटरफेस को उजागर करती हैं।

इतिहास

इसके सह-संस्थापकों, डॉग कटिंग और माइक कैफेरेला के अनुसार, हडूप की उत्पत्ति गूगल फ़ाइल सिस्टम पेपर थी जो अक्टूबर 2003 में प्रकाशित किया गया था।[16][17] इस पेपर ने गूगल के और पेपर को जन्म दिया – मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग।[18] विकास अपाचे नच परियोजना पर प्रारंभ हुआ, लेकिन जनवरी 2006 में इसे नए हडूप उपप्रोजेक्ट में स्थानांतरित कर दिया गया।[19] डौग कटिंग, जो याहू! उस समय, इसका नाम अपने बेटे के खिलौने हाथी के नाम पर रखा था।[20] नच से निकाले गए प्रारंभिक कोड में एचडीएफएस के लिए कोड की लगभग 5,000 लाइनें और मैपरेडुस के लिए कोड की लगभग 6,000 लाइनें सम्मिलित थीं।

मार्च 2006 में, ओवेन ओ'माल्ली हडूप प्रोजेक्ट में सम्मिलित होने वाले पहले कमिटर थे;[21] हडूप 0.1.0 को अप्रैल 2006 में रिलीज़ किया गया था।[22] यह परियोजना में किए जा रहे योगदान के माध्यम से विकसित होना जारी है।[23] हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम के लिए सबसे पहला डिज़ाइन दस्तावेज़ ध्रुबा बोरठाकुर द्वारा 2007 में लिखा गया था।[24]


आर्किटेक्चर

हडूप में हडूप कॉमन पैकेज सम्मिलित है, जो फ़ाइल सिस्टम और ऑपरेटिंग सिस्टम स्तर का सार प्रदान करता है, मैपरेडुस इंजन (या तो मैपरेडस/एमआर1 या यार्न/एमआर2) और हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफएस)[25] और हडूप कॉमन पैकेज में जावा आर्काइव (जेएआर) फाइलें और हडूप शुरू करने के लिए आवश्यक स्क्रिप्ट सम्मिलित हैं।

काम के प्रभावी शेड्यूलिंग के लिए, प्रत्येक हडूप-संगत फाइल सिस्टम को स्थान जागरूकता प्रदान करनी चाहिए, जो कि रैक का नाम है, विशेष रूप से नेटवर्क स्विच जहां वर्कर नोड है। हडूप एप्लिकेशन इस जानकारी का उपयोग उस नोड पर कोड निष्पादित करने के लिए कर सकते हैं जहां डेटा है, और, विफल होने पर, उसी रैक/स्विच पर बैकबोन ट्रैफ़िक को कम करने के लिए। कई रैक में डेटा रिडंडेंसी के लिए डेटा की प्रतिकृति बनाते समय एचडीएफएस इस विधि का उपयोग करता है। यह दृष्टिकोण रैक पावर आउटेज या स्विच विफलता के प्रभाव को कम करता है; यदि इनमें से कोई हार्डवेयर विफलता होती है, तो डेटा उपलब्ध रहेगा।[26]

Hadoop cluster
एक बहु-नोड हडूप क्लस्टर

छोटे हडूप क्लस्टर में एक मास्टर और कई वर्कर नोड सम्मिलित होते हैं। मास्टर नोड में एक जॉब ट्रैकर, टास्क ट्रैकर, नेमनोड और डेटानोड होते हैं। एक दास या कार्यकर्ता नोड डेटानोड और टास्कट्रैकर दोनों के रूप में कार्य करता है, चूंकि डेटा-ओनली और कंप्यूट-ओनली वर्कर नोड्स होना संभव है। ये सामान्यतः केवल गैर-मानक अनुप्रयोगों में उपयोग किए जाते हैं।[27]

Hadoop को Java जावा क्रम पर्यावरण JRE) 1.6 या उच्चतर की आवश्यकता है। मानक स्टार्टअप और शटडाउन स्क्रिप्ट के लिए आवश्यक है कि क्लस्टर में नोड्स के बीच सुरक्षित खोल (SSH) स्थापित किया जाए।[28]

एक बड़े क्लस्टर में, HDFS नोड्स फ़ाइल सिस्टम इंडेक्स को होस्ट करने के लिए समर्पित NameNode सर्वर के माध्यम से प्रबंधित किए जाते हैं, और एक द्वितीयक NameNode जो नामेनोड की मेमोरी संरचनाओं के स्नैपशॉट उत्पन्न कर सकता है, जिससे फ़ाइल-सिस्टम भ्रष्टाचार और डेटा की हानि को रोका जा सकता है। इसी तरह, एक स्टैंडअलोन जॉबट्रैकर सर्वर नोड्स में जॉब शेड्यूलिंग का प्रबंधन कर सकता है। जब Hadoop MapReduce का उपयोग एक वैकल्पिक फ़ाइल सिस्टम के साथ किया जाता है, तो HDFS के NameNode, द्वितीयक NameNode और DataNode आर्किटेक्चर को फ़ाइल-सिस्टम-विशिष्ट समकक्षों द्वारा प्रतिस्थापित किया जाता है।

फाइल सिस्टम

Hadoop वितरित फाइल सिस्टम

Hadoop वितरित फ़ाइल सिस्टम (HDFS) एक वितरित, स्केलेबल और पोर्टेबल वितरित फ़ाइल सिस्टम है, जिसे Hadoop फ्रेमवर्क के लिए Java में लिखा गया है। POSIX अनुपालन की कमी के कारण कुछ लोग इसे एक वितरित डेटा स्टोर मानते हैं,[29] लेकिन यह शेल कमांड और जावा एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) विधि (संगणक प्रोग्रामिंग) प्रदान करता है जो अन्य फाइल सिस्टम के समान हैं।[30] एक हडूप उदाहरण को एचडीएफएस और मैपरेडुस में विभाजित किया गया है। एचडीएफएस का उपयोग डेटा को स्टोर करने के लिए किया जाता है और मैपरेडुस का उपयोग डेटा को प्रोसेस करने के लिए किया जाता है। एचडीएफएस की पांच सेवाएं इस प्रकार हैं:

  1. नेम नोड
  2. द्वितीयक नेम नोड
  3. जॉब ट्रैकर
  4. डेटा नोड
  5. टास्क ट्रैकर

शीर्ष तीन मास्टर सेवाएं/डेमन्स/नोड्स हैं और नीचे दो दास सेवाएं हैं। मास्टर सेवाएं एक दूसरे के साथ संवाद कर सकती हैं और उसी तरह दास सेवाएं भी एक दूसरे के साथ संवाद कर सकती हैं। नेम नोड एक मास्टर नोड है और डेटा नोड इसका संबंधित स्लेव नोड है और जो एक दूसरे के साथ बात कर सकते है।

नेम नोड:

एचडीएफएस में केवल एक नेम नोड होता है जिसे मास्टर नोड कहा जाता है। मास्टर नोड फाइलों को ट्रैक कर सकता है, फाइल सिस्टम का प्रबंधन कर सकता है और इसमें सभी संग्रहीत डेटा का मेटा डेटा है। विशेष रूप से, नेम नोड में ब्लॉक की संख्या, डेटा नोड के स्थान जिसमें डेटा संग्रहीत किया जाता है, जहां प्रतिकृति संग्रहीत की जाती है, और अन्य विवरण सम्मिलित हैं। नेम नोड का क्लाइंट के साथ सीधा संपर्क है।

डेटा नोड:

डेटा नोड इसमें डेटा को ब्लॉक के रूप में संग्रहीत करता है। इसे दास नोड के रूप में भी जाना जाता है और यह वास्तविक डेटा को एचडीएफएस में संग्रहीत करता है जो क्लाइंट को पढ़ने और लिखने के लिए उत्तरदायी होता है। ये गुलाम दानव हैं। प्रत्येक डेटा नोड हर 3 सेकंड में नेम नोड को एक हार्टबीट संदेश भेजता है और बताता है कि यह जीवित है। इस तरह जब नेम नोड को 2 मिनट के लिए डेटा नोड से दिल की धड़कन नहीं मिलती है, तो यह उस डेटा नोड को मृत मान लेगा और किसी अन्य डेटा नोड पर ब्लॉक प्रतिकृति की प्रक्रिया प्रारंभ कर देगा।

द्वितीयक नेम नोड:

यह केवल फ़ाइल सिस्टम मेटाडेटा की चौकियों का ध्यान रखने के लिए है जो नेम नोड में है। इसे चेकपॉइंट नोड के रूप में भी जाना जाता है। यह नेम नोड के लिए सहायक नोड है। द्वितीयक नेम नोड नेम नोड को fsimage और editlog फ़ाइल बनाने और भेजने का निर्देश देता है, जिस पर द्वितीयक नेम नोड द्वारा संकुचित fsimage फ़ाइल बनाई जाती है।[31]

जॉब ट्रैकर:

जॉब ट्रैकर क्लाइंट से मैप रिड्यूस निष्पादन के लिए अनुरोध प्राप्त करता है। जॉब ट्रैकर डेटा के स्थान के बारे में जानने के लिए नेम नोड से बात करता है जिसका उपयोग प्रसंस्करण में किया जाएगा। नेम नोड आवश्यक प्रसंस्करण डेटा के मेटाडेटा के साथ प्रतिक्रिया करता है।

टास्क ट्रैकर:

यह जॉब ट्रैकर के लिए स्लेव नोड है और यह जॉब ट्रैकर से टास्क लेगा। यह जॉब ट्रैकर से कोड भी प्राप्त करता है। टास्क ट्रैकर कोड लेगा और फाइल पर लागू होगा। उस कोड को फाइल पर लगाने की प्रक्रिया को मैपर के नाम से जाना जाता है।[32]

हडूप क्लस्टर में मुख्य रूप से एक एकल नेमनोड और डेटानोड्स का एक समूह होता है, चूंकि इसकी गंभीरता के कारण नेमनोड के लिए अतिरेक (इंजीनियरिंग) विकल्प उपलब्ध हैं। प्रत्येक डेटानोड एचडीएफएस के लिए विशिष्ट ब्लॉक प्रोटोकॉल का उपयोग करके नेटवर्क पर डेटा के ब्लॉक की सेवा करता है। फाइल सिस्टम संचार के लिए टीसीपी/आईपी इंटरनेट सॉकेट का उपयोग करता है। ग्राहक एक दूसरे के साथ संवाद करने के लिए दूरस्थ प्रक्रिया कॉल (RPC) का उपयोग करते हैं।

एचडीएफएस बड़ी फाइलों (सामान्यतः गीगाबाइट्स से टेराबाइट्स की रेंज में[33]) को स्टोर करता है। यह कई मेजबानों में डेटा की प्रतिकृति (संगणक विज्ञान) द्वारा विश्वसनीयता प्राप्त करता है, और इसलिए सैद्धांतिक रूप से मेजबानों पर स्वतंत्र डिस्क (RAID) भंडारण (लेकिन इनपुट-आउटपुट (I/O) प्रदर्शन को बढ़ाने के लिए कुछ RAID कॉन्फ़िगरेशन अभी भी उपयोगी हैं) की अनावश्यक सरणी की आवश्यकता नहीं होती है। डिफ़ॉल्ट प्रतिकृति मान, 3 के साथ, डेटा तीन नोड्स पर संग्रहीत होता है: दो एक ही रैक पर, और एक अलग रैक पर। डेटा नोड्स एक दूसरे से डेटा को पुनर्संतुलित करने, प्रतियों को इधर-उधर ले जाने और डेटा की प्रतिकृति को उच्च रखने के लिए बात कर सकते हैं। एचडीएफएस पूरी तरह से POSIX- संगत नहीं है, क्योंकि POSIX फाइल-सिस्टम की आवश्यकताएं हडूप एप्लिकेशन के लक्ष्य लक्ष्यों से भिन्न होती हैं। पूरी तरह से POSIX-अनुपालन फ़ाइल-सिस्टम नहीं होने का ट्रेड-ऑफ़ डेटा थ्रूपुट के लिए बढ़ा हुआ प्रदर्शन है और गैर-POSIX संचालन जैसे संलग्न के लिए समर्थन है।[34]

मई 2012 में, एचडीएफएस में उच्च-उपलब्धता क्षमताओं को जोड़ा गया,[35] जिससे मुख्य मेटाडेटा सर्वर जिसे नेमनोड कहा जाता है, मैन्युअल रूप से बैकअप पर विफल हो जाता है। परियोजना ने स्वचालित विफलता-ओवरों का विकास भी प्रारंभ कर दिया है।

एचडीएफएस फाइल सिस्टम में एक तथाकथित द्वितीयक नेमनोड सम्मिलित है, एक भ्रामक शब्द है कि प्राथमिक नेमनोड के ऑफ़लाइन होने पर कुछ गलत विधियों से बैकअप नेमनोड के रूप में व्याख्या कर सकते हैं। वास्तविक में, द्वितीयक नेमनोड नियमित रूप से प्राथमिक नेमनोड से जुड़ता है और प्राथमिक नेमनोड की निर्देशिका जानकारी का स्नैपशॉट बनाता है, जिसे सिस्टम तब स्थानीय या दूरस्थ निर्देशिकाओं में सहेजता है। इन चेकपॉइंट छवियों का उपयोग फ़ाइल-सिस्टम क्रियाओं के पूरे जर्नल को फिर से चलाने के बिना एक असफल प्राथमिक नेमनोड को पुनरारंभ करने के लिए किया जा सकता है, फिर एक अप-टू-डेट निर्देशिका संरचना बनाने के लिए लॉग को संपादित करने के लिए। क्योंकि मेटाडेटा के भंडारण और प्रबंधन के लिए नेमनोड एकल बिंदु है, यह बड़ी संख्या में फ़ाइलों, विशेष रूप से बड़ी संख्या में छोटी फ़ाइलों का समर्थन करने के लिए एक बाधा बन सकता है। एचडीएफएस फेडरेशन, एक नया अतिरिक्त, अलग-अलग नेमनोड्स द्वारा कई नामस्थानों की अनुमति देकर इस समस्या से कुछ हद तक निपटने का लक्ष्य रखता है। इसके अतिरिक्त, एचडीएफएस में कुछ समस्याएँ हैं जैसे छोटी फ़ाइल समस्याएँ, मापनीयता समस्याएँ, एकल बिंदु विफलता (SPoF), और विशाल मेटाडेटा अनुरोधों में बाधा है।

एचडीएफएस का उपयोग करने का एक फायदा जॉब ट्रैकर और टास्क ट्रैकर के बीच डेटा जागरूकता है। जॉब ट्रैकर डेटा स्थान के बारे में जागरूकता के साथ टास्क ट्रैकर्स को मैप या जॉब को कम करता है। उदाहरण के लिए: यदि नोड A में डेटा (a, b, c) और नोड X में डेटा (x, y, z) है, तो जॉब ट्रैकर नोड A को मैप करने या (a, b, c) और नोड पर कार्यों को कम करने के लिए शेड्यूल करता है। X को मानचित्र निष्पादित करने या (x, y, z) पर कार्य कम करने के लिए निर्धारित किया जाएगा। यह नेटवर्क पर जाने वाले ट्रैफ़िक की मात्रा को कम करता है और अनावश्यक डेटा स्थानांतरण को रोकता है। जब हडूप का उपयोग अन्य फाइल सिस्टम के साथ किया जाता है, तो यह लाभ हमेशा उपलब्ध नहीं होता है। यह कार्य-पूर्णता के समय पर महत्वपूर्ण प्रभाव डाल सकता है जैसा कि डेटा-गहन नौकरियों के साथ प्रदर्शित किया गया है।[36]

एचडीएफएस अधिकतर अपरिवर्तनीय फाइलों के लिए डिज़ाइन किया गया था और समवर्ती लेखन संचालन की आवश्यकता वाले सिस्टम के लिए उपयुक्त नहीं हो सकता है।[34]

लिनक्स और कुछ अन्य यूनिक्स यूजरस्पेस में फाइलसिस्टम (FUSE) वर्चुअल फाइल सिस्टम में फाइलसिस्टम के साथ एचडीएफएस को सीधे माउंट (कंप्यूटिंग) किया जा सकता है।

मूल जावा एपीआई, थ्रिफ्ट (प्रोटोकॉल) एपीआई के माध्यम से फ़ाइल का उपयोग प्राप्त किया जा सकता है (कई भाषाओं में क्लाइंट उत्पन्न करता है जैसे सी ++, जावा, पायथन, पीएचपी, रूबी, एरलांग, पर्ल, हास्केल, सी, कोको (एपीआई), स्मॉलटॉक, और ओकैमल), कमांड-लाइन इंटरफ़ेस, एचटीटीपी पर एचडीएफएस-UI वेब अनुप्रयोग, या तृतीय-पक्ष नेटवर्क क्लाइंट लाइब्रेरी के माध्यम से इसका उपयोग किया जाता है।[37]

एचडीएफएस को विभिन्न हार्डवेयर प्लेटफार्मों में पोर्टेबिलिटी के लिए और विभिन्न अंतर्निहित ऑपरेटिंग सिस्टम के साथ संगतता के लिए डिज़ाइन किया गया है। एचडीएफएस डिज़ाइन पोर्टेबिलिटी की सीमाओं का परिचय देता है जिसके परिणामस्वरूप कुछ प्रदर्शन अड़चनें होती हैं, क्योंकि जावा कार्यान्वयन उन सुविधाओं का उपयोग नहीं कर सकता है जो उस प्लेटफॉर्म के लिए अनन्य हैं जिस पर एचडीएफएस चल रहा है।[38] उद्यम स्तर के बुनियादी ढांचे में इसके व्यापक एकीकरण के कारण, बड़े पैमाने पर एचडीएफएस के प्रदर्शन की निगरानी एक महत्वपूर्ण मुद्दा बन गया है। एंड-टू-एंड प्रदर्शन की निगरानी के लिए डेटानोड्स, नेमनोड्स और अंतर्निहित ऑपरेटिंग सिस्टम से मेट्रिक्स को ट्रैक करने की आवश्यकता होती है।[39] एचडीएफएस के प्रदर्शन को ट्रैक करने के लिए वर्तमान में हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म (HDP), क्लाउडेरा और डाटाडॉग सहित कई निगरानी प्लेटफ़ॉर्म हैं।

अन्य फाइल सिस्टम

हडूप सीधे किसी भी वितरित फ़ाइल सिस्टम के साथ काम करता है जिसे अंतर्निहित ऑपरेटिंग सिस्टम द्वारा file:// यूआरएल; एक का उपयोग करके माउंट किया जा सकता है चूँकि, यह एक मूल्य पर आता है - स्थानीयता का नुकसान। नेटवर्क ट्रैफ़िक को कम करने के लिए, हडूप को यह जानना होगा कि कौन से सर्वर डेटा के सबसे करीब हैं, जानकारी जो हडूप-विशिष्ट फ़ाइल सिस्टम ब्रिज प्रदान कर सकते हैं।

मई 2011 में, अपाचे हडूप के साथ बंडल किए गए समर्थित फ़ाइल सिस्टम की सूची थी:

  • एचडीएफएस: हडूप का अपना रैक-अवेयर फ़ाइल सिस्टम।[40] यह स्टोरेज के दसियों पेटाबाइट्स को स्केल करने के लिए डिज़ाइन किया गया है और अंतर्निहित ऑपरेटिंग सिस्टम के फ़ाइल सिस्टम के शीर्ष पर चलता है।
  • अपाचे हडूप ओजोन: अरबों छोटी फाइलों के लिए अनुकूलित एचडीएफएस-संगत ऑब्जेक्ट स्टोर लक्ष्यीकरण।
  • एफ़टीपी फाइल सिस्टम: यह अपने सभी डेटा को दूरस्थ रूप से सुलभ एफ़टीपी सर्वरों पर संग्रहीत करता है।
  • अमेज़न सिंपल स्टोरेज सर्विस |अमेज़न S3 (साधारण संग्रहण सेवा) ऑब्जेक्ट स्टोरेज: यह अमेज़न इलास्टिक कंप्यूट क्लाउड सर्वर-ऑन-डिमांड इंफ्रास्ट्रक्चर पर होस्ट किए गए क्लस्टर पर लक्षित है। इस फाइल सिस्टम में कोई रैक-जागरूकता नहीं है, क्योंकि यह सब रिमोट है।
  • विंडोज़ एज़ूर स्टोरेज ब्लॉब्स (WASB) फ़ाइल सिस्टम: यह एचडीएफएस का एक विस्तार है जो हडूप के वितरण को Azure ब्लॉब स्टोर्स में डेटा को स्थायी रूप से क्लस्टर में स्थानांतरित किए बिना एक्सेस करने की अनुमति देता है।

कई तृतीय-पक्ष फ़ाइल सिस्टम ब्रिज भी लिखे गए हैं, जिनमें से कोई भी वर्तमान में हडूप वितरण में नहीं है। चूँकि, हडूप के कुछ व्यावसायिक वितरण डिफ़ॉल्ट के रूप में वैकल्पिक फ़ाइल सिस्टम के साथ शिप होते हैं – विशेष रूप से आईबीएम और मैपआर

  • 2009 में, IBM ने आईबीएम जनरल समानांतर फाइल सिस्टम पर हडूप को चलाने पर चर्चा की।[41] स्रोत कोड अक्टूबर 2009 में प्रकाशित हुआ था।[42]
  • अप्रैल 2010 में, पैरास्केल ने हडूप को पैरास्केल फ़ाइल सिस्टम के विरुद्ध चलाने के लिए स्रोत कोड प्रकाशित किया।[43]
  • अप्रैल 2010 में, ऐपिस्ट्री ने अपने CloudIQ स्टोरेज उत्पाद के साथ उपयोग के लिए एक हडूप फ़ाइल सिस्टम ड्राइवर जारी किया।[44]
  • जून 2010 में, हेवलेट पैकर्ड ने एक स्थान-जागरूक IBRIX Fusion फ़ाइल सिस्टम ड्राइवर पर चर्चा की।[45]
  • मई 2011 में, MapR|MapR Technologies Inc. ने हडूप, MapR FS के लिए एक वैकल्पिक फ़ाइल सिस्टम की उपलब्धता की घोषणा की, जिसने एचडीएफएस फ़ाइल सिस्टम को पूर्ण रैंडम-एक्सेस रीड/राइट फ़ाइल सिस्टम से बदल दिया।

जॉबट्रैकर और टास्कट्रैकर: मैपरेडस इंजन

फाइल सिस्टम के ऊपर मैपरेडुस इंजन आता है, जिसमें एक JobTracker होता है, जिसके लिए क्लाइंट एप्लिकेशन मैपरेडुस जॉब सबमिट करते हैं। जॉबट्रैकर काम को क्लस्टर में उपलब्ध टास्कट्रैकर नोड्स पर धकेलता है, काम को यथासंभव डेटा के निकट रखने का प्रयास करता है। रैक-अवेयर फाइल सिस्टम के साथ, जॉबट्रैकर जानता है कि किस नोड में डेटा है, और कौन सी अन्य मशीनें पास में हैं। यदि कार्य को वास्तविक नोड पर होस्ट नहीं किया जा सकता है जहां डेटा रहता है, उसी रैक में नोड्स को प्राथमिकता दी जाती है। यह मुख्य बैकबोन नेटवर्क पर नेटवर्क ट्रैफिक को कम करता है। यदि कोई टास्कट्रैक विफल हो जाता है या समय समाप्त हो जाता है, तो कार्य का वह भाग पुनर्निर्धारित किया जाता है। प्रत्येक नोड पर टास्कट्रैकर एक अलग जावा वर्चुअल मशीन (जेवीएम) प्रक्रिया को जन्म देता है ताकि टास्कट्रैकर को विफल होने से रोका जा सके यदि रनिंग जॉब अपने जेवीएम को क्रैश कर देता है। उसकी स्थिति की जांच करने के लिए हर कुछ मिनटों में टास्कट्रैकर से जॉबट्रैकर को एक दिल की धड़कन भेजी जाती है। जॉब ट्रैकर और टास्कट्रैकर की स्थिति और जानकारी जेटी (वेब ​​​​सर्वर) द्वारा प्रदर्शित की जाती है और इसे वेब ब्राउज़र से देखा जा सकता है।

इस दृष्टिकोण की ज्ञात सीमाएँ हैं:

  1. टास्कट्रैकर्स को काम का आवंटन बहुत आसान है। प्रत्येक टास्कट्रैकर में कई उपलब्ध स्लॉट होते हैं (जैसे 4 स्लॉट)। प्रत्येक सक्रिय नक्शा या कम कार्य स्लॉट लेता है। जॉब ट्रैकर उपलब्ध स्लॉट के साथ डेटा के निकटतम ट्रैकर को कार्य आवंटित करता है। आवंटित मशीन के वर्तमान भार (कंप्यूटिंग) पर कोई विचार नहीं है, और इसलिए इसकी वास्तविक उपलब्धता है।
  2. यदि टास्कट्रैकर बहुत धीमा है, तो यह पूरे मैपरेडुस कार्य में देरी कर सकता है – विशेष रूप से अंत की ओर, जब सब कुछ सबसे धीमे कार्य की प्रतीक्षा में समाप्त हो सकता है। सट्टा निष्पादन सक्षम होने के साथ, चूंकि, ही कार्य को कई स्लेव नोड्स पर निष्पादित किया जा सकता है।






निर्धारण

डिफ़ॉल्ट रूप से हडूप FIFO (कंप्यूटिंग और इलेक्ट्रॉनिक्स) शेड्यूलिंग का उपयोग करता है, और वैकल्पिक रूप से 5 शेड्यूलिंग प्राथमिकताओं को कार्य कतार से कार्य शेड्यूल करने के लिए उपयोग करता है।[46] संस्करण 0.19 में जॉब शेड्यूलर को वैकल्पिक शेड्यूलर (जैसे कि फेयर शेड्यूलर या कैपेसिटी शेड्यूलर, आगे वर्णित है) का उपयोग करने की क्षमता को जोड़ते हुए, जॉबट्रैकर से रिफैक्टर किया गया था।[47]

फेयर शेड्यूलर

फेयर शेड्यूलर फेसबुक द्वारा विकसित किया गया था।[48] फेयर शेड्यूलर का लक्ष्य उत्पादन कार्यों के लिए छोटी नौकरियों और सेवा की गुणवत्ता (क्यूओएस) के लिए तेजी से प्रतिक्रिया समय प्रदान करना है। फेयर शेड्यूलर की तीन बुनियादी अवधारणाएँ हैं।[49]

  1. नौकरियों को पूल (संगणक साइंस) में बांटा गया है।
  2. प्रत्येक पूल को गारंटीकृत न्यूनतम शेयर दिया जाता है।
  3. अतिरिक्त क्षमता को नौकरियों के बीच विभाजित किया गया है।

डिफ़ॉल्ट रूप से, अवर्गीकृत कार्य डिफ़ॉल्ट पूल में जाते हैं। पूल को मैप स्लॉट की न्यूनतम संख्या निर्दिष्ट करनी होती है, स्लॉट को कम करना होता है, साथ ही रनिंग जॉब की संख्या पर सीमा होती है।

क्षमता अनुसूचक

क्षमता अनुसूचक याहू द्वारा विकसित किया गया था। क्षमता अनुसूचक कई सुविधाओं का समर्थन करता है जो निष्पक्ष अनुसूचक के समान हैं।[50]

  1. कतारों को कुल संसाधन क्षमता का अंश आवंटित किया जाता है।
  2. कतारों को उनकी कुल क्षमता से अधिक मुफ्त संसाधन आवंटित किए जाते हैं।
  3. कतार के भीतर, उच्च स्तर की प्राथमिकता वाली नौकरी की कतार के संसाधनों तक पहुंच होती है।

नौकरी चलने के बाद कोई पूर्वक्रय अधिकार (कंप्यूटिंग) नहीं है।

हडूप 1 और हडूप 2 (YARN) के बीच अंतर

हडूप 1 और हडूप 2 के बीच सबसे बड़ा अंतर YARN (फिर भी अन्य संसाधन वार्ताकार) का जोड़ है, जिसने हडूप के पहले संस्करण में मैपरेडुस इंजन को बदल दिया।

यार्न प्रभावी ढंग से विभिन्न अनुप्रयोगों के लिए संसाधन आवंटित करने का प्रयास करता है। यह दो डेमॉन चलाता है, जो दो अलग-अलग कार्यों का ख्याल रखता है: संसाधन प्रबंधक, जो जॉब ट्रैकिंग करता है और अनुप्रयोगों को संसाधन आवंटन करता है, एप्लिकेशन मास्टर, जो निष्पादन की प्रगति की निगरानी करता है।

हडूप 2 और हडूप 3 के बीच अंतर

हडूप 3 द्वारा प्रदान की जाने वाली महत्वपूर्ण विशेषताएं हैं। उदाहरण के लिए, जबकि हडूप 2 में ही नेमेनोड है, हडूप 3 कई नेम नोड्स को सक्षम बनाता है, जो विफलता की समस्या के एकल बिंदु को हल करता है।

हडूप 3 में, डॉकटर (सॉफ्टवेयर) के सिद्धांत पर काम करने वाले कंटेनर हैं, जो एप्लिकेशन डेवलपमेंट पर लगने वाले समय को कम करते हैं।

सबसे बड़े परिवर्तनों में से एक यह है कि हडूप 3 विलोपन कोड के साथ स्टोरेज ओवरहेड को कम करता है।

इसके अतिरिक्त, हडूप 3 क्लस्टर के भीतर GPU हार्डवेयर के उपयोग की अनुमति देता है, जो कि हडूप क्लस्टर पर गहन शिक्षण एल्गोरिदम को निष्पादित करने के लिए एक बहुत बड़ा लाभ है।[51]

अन्य अनुप्रयोग

एचडीएफएस मैपरेडुस नौकरियों तक ही सीमित नहीं है। इसका उपयोग अन्य अनुप्रयोगों के लिए किया जा सकता है, जिनमें से कई अपाचे में विकास के अधीन हैं। सूची में एचबेस डेटाबेस, अपाचे मेहाउट मशीन लर्निंग सिस्टम और अपाचे Hive डेटा वेयरहाउस सम्मिलित हैं। सैद्धांतिक रूप से, हडूप का उपयोग किसी भी ऐसे कार्यभार के लिए किया जा सकता है जो वास्तविक समय के अतिरिक्त बैच-उन्मुख है, बहुत डेटा-गहन है, और समानांतर कंप्यूटिंग से लाभान्वित होता है। इसका उपयोग लैम्ब्डा वास्तुकला, अपाचे स्टॉर्म, अपाचे फ्लैश और अपाचे स्पार्क जैसे रीयल-टाइम सिस्टम के पूरक के लिए भी किया जा सकता है।[52]

हडूप के व्यावसायिक अनुप्रयोगों में सम्मिलित हैं:[53]

प्रमुख उपयोग के स्थितियां

19 फरवरी 2008 को याहू!इंक ने लॉन्च किया जो उन्होंने दावा किया कि यह दुनिया का सबसे बड़ा हडूप प्रोडक्शन एप्लिकेशन था। याहू! सर्च वेबमैप एक हडूप एप्लिकेशन है जो 10,000 से अधिक मल्टी कोर वाले लिनक्स क्लस्टर पर उत्पादित डेटा के साथ चलता है जो प्रत्येक याहू! वेब खोज क्वेरी याहू! में उपयोग किया गया था ।[54] में कई हडूप क्लस्टर हैं। और कोई भी एचडीएफएस फ़ाइल सिस्टम या मैपरेडुस जॉब कई डेटा केंद्रों में विभाजित नहीं है। प्रत्येक हडूप क्लस्टर नोडलिनक्स छवि को बूटस्ट्रैप करता है, जिसमें हडूप वितरण भी सम्मिलित है। कार्य जो क्लस्टर करते हैं वह याहू! के लिए सूचकांक गणनाओं को सम्मिलित करने के लिए जाना जाता है खोज इंजन जून 2009 में, याहू! अपने हडूप वर्जन के सोर्स कोड को ओपन-सोर्स कम्युनिटी के लिए उपलब्ध कराया।[55]

2010 में, फेसबुक ने दावा किया कि उनके पास 21 पेटाबाइट स्टोरेज के साथ विश्व का सबसे बड़ा हडूप क्लस्टर है।[56] जून 2012 में, उन्होंने घोषणा की कि डेटा 100 पीबी तक बढ़ गया है[57] और बाद में उस वर्ष उन्होंने घोषणा की कि डेटा प्रति दिन लगभग आधा पीबी बढ़ रहा था।[58]

As of 2013, हडूप को अपनाना व्यापक हो गया था: फॉर्च्यून 50 कंपनियों में से आधे से अधिक ने हडूप का उपयोग किया।[59]

क्लाउड में हडूप होस्टिंग

हडूप को पारंपरिक ऑनसाइट डेटासेंटर के साथ-साथ क्लाउड कम्प्यूटिंग में भी तैनात किया जा सकता है।[60] क्लाउड संगठनों को हार्डवेयर या विशिष्ट सेटअप विशेषज्ञता प्राप्त करने की आवश्यकता के बिना हडूप को परिनियोजित करने की अनुमति देता है।[61]

वाणिज्यिक समर्थन

कई कंपनियां हडूप के लिए व्यावसायिक कार्यान्वयन या समर्थन प्रदान करती हैं।[62]

ब्रांडिंग

अपाचे सॉफ्टवेयर फाउंडेशन ने कहा है कि अपाचे हडूप प्रोजेक्ट द्वारा आधिकारिक तौर पर जारी किए गए सॉफ़्टवेयर को ही अपाचे हडूप या अपाचे हडूप के वितरण कहा जा सकता है।[63] उत्पादों का नामकरण और अन्य विक्रेताओं से व्युत्पन्न कार्य और संगत शब्द हडूप डेवलपर समुदाय के भीतर कुछ हद तक विवादास्पद हैं।[64]

पेपर

कुछ पेपर्स ने हडूप और बिग डेटा प्रोसेसिंग के जन्म और विकास को प्रभावित किया। इनमें से कुछ हैं:

यह भी देखें

संदर्भ

  1. "Hadoop Releases". apache.org. Apache Software Foundation. Retrieved 28 April 2019.
  2. 2.0 2.1 2.2 "Apache Hadoop". Retrieved 27 September 2022.
  3. Judge, Peter (22 October 2012). "डॉग कटिंग: बिग डेटा इज़ नो बबल". silicon.co.uk. Retrieved 11 March 2018.
  4. Woodie, Alex (12 May 2014). "IBM Power पर Hadoop क्यों". datanami.com. Datanami. Retrieved 11 March 2018.
  5. Hemsoth, Nicole (15 October 2014). "क्रे ने हडूप को एचपीसी एयरस्पेस में लॉन्च किया". hpcwire.com. Retrieved 11 March 2018.
  6. "अपाचे हडूप में आपका स्वागत है!". hadoop.apache.org. Retrieved 25 August 2016.
  7. "Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) क्या है?". ibm.com. IBM. Retrieved 12 April 2021.{{cite web}}: CS1 maint: url-status (link)
  8. Malak, Michael (19 September 2014). "डेटा स्थानीयता: एचपीसी बनाम हडूप बनाम स्पार्क". datascienceassn.org. Data Science Association. Retrieved 30 October 2014.
  9. Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28वीं अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
  10. "संसाधन (Apache Hadoop Main 2.5.1 API)". apache.org. Apache Software Foundation. 12 September 2014. Archived from the original on 6 October 2014. Retrieved 30 September 2014.
  11. Murthy, Arun (15 August 2012). "अपाचे हडूप यार्न - अवधारणाएं और अनुप्रयोग". hortonworks.com. Hortonworks. Retrieved 30 September 2014.
  12. "हडूप ईकोसिस्टम के भीतर बड़े डेटा अनुप्रयोग विकास को प्रज्वलित करने के लिए निरंतरता $10 मिलियन सीरीज़ ए राउंड बढ़ाती है". finance.yahoo.com. Marketwired. 14 November 2012. Retrieved 30 October 2014.
  13. "Hadoop से संबंधित परियोजनाओं पर". Hadoop.apache.org. Retrieved 17 October 2013.
  14. डेटा साइंस और बिग डेटा एनालिटिक्स: डिस्कवरिंग, एनालिसिस, विज़ुअलाइज़िंग एंड प्रेजेंटिंग डेटा. John Wiley & Sons. 19 December 2014. p. 300. ISBN 9781118876220. Retrieved 29 January 2015.
  15. "[nlpatumd] हडूप और पर्ल के साथ रोमांच". Mail-archive.com. 2 May 2010. Retrieved 5 April 2013.
  16. Cutting, Mike; Cafarella, Ben; Lorica, Doug (31 March 2016). "Apache Hadoop के अगले 10 साल". O'Reilly Media (in English). Retrieved 12 October 2017.
  17. Ghemawat, Sanjay; Gobioff, Howard; Leung, Shun-Tak (2003). "Google फाइल सिस्टम". pp. 20–43.
  18. Dean, Jeffrey; Ghemawat, Sanjay (2004). "MapReduce: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग". pp. 137–150.
  19. Cutting, Doug (28 January 2006). "नई मेलिंग सूचियों का अनुरोध: Hadoop". issues.apache.org. Lucene PMC ने Nutch के हिस्से को Hadoop नाम की एक नई उप-परियोजना में विभाजित करने के लिए मतदान किया है
  20. Vance, Ashlee (17 March 2009). "हडूप, एक नि:शुल्क सॉफ्टवेयर प्रोग्राम, खोज से परे उपयोग पाता है". The New York Times. Archived from the original on 30 August 2011. Retrieved 20 January 2010.
  21. Cutting, Doug (30 March 2006). "[परिणाम] वोट: हडूप कमिटर के रूप में ओवेन ओ'माल्ली को जोड़ें". hadoop-common-dev (Mailing list).
  22. "/dist/hadoop/core". archive.apache.org. Retrieved 11 December 2017.
  23. "हम कौन हैं". hadoop.apache.org. Retrieved 11 December 2017.
  24. Borthakur, Dhruba (2006). "द हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम: आर्किटेक्चर एंड डिजाइन" (PDF). Apache Hadoop Code Repository.
  25. Chouraria, Harsh (21 October 2012). "MR2 और यार्न संक्षेप में समझाया". Cloudera.com. Archived from the original on 22 October 2013. Retrieved 23 October 2013.
  26. "एचडीएफएस उपयोगकर्ता गाइड". Hadoop.apache.org. Retrieved 4 September 2014.
  27. "उबंटू लिनक्स सिस्टम (मल्टी-नोड क्लस्टर) पर हडूप चलाना".
  28. "उबंटू लिनक्स (सिंगल-नोड क्लस्टर) पर हडूप चलाना". Retrieved 6 June 2013.
  29. {{cite web |url=http://www.computerweekly.com/feature/Big-data-storage-Hadoop-storage-basics |title=बिग डेटा स्टोरेज: Hadoop स्टोरेज बेसिक्स|last1=Evans |first1=Chris |date=Oct 2013 |website=computerweekly.com |publisher=Computer Weekly |access-date=21 June 2016 |quote=एचडीएफएस पारंपरिक अर्थों में एक फ़ाइल सिस्टम नहीं है और आमतौर पर उपयोगकर्ता के देखने के लिए सीधे माउंट नहीं किया जाता है}
  30. deRoos, Dirk. "Hadoop फ़ाइल सिस्टम कमांड के साथ फ़ाइलें प्रबंधित करना". dummies.com. For Dummies. Retrieved 21 June 2016.
  31. Balram. "शुरुआती लोगों के लिए बिग डेटा हडूप ट्यूटोरियल". www.gyansetu.in (in English). Retrieved 11 March 2021.
  32. "Apache Hadoop 2.7.5 - HDFS उपयोगकर्ता गाइड". Archived from the original on 23 October 2019. Retrieved 19 June 2020.
  33. "एचडीएफएस आर्किटेक्चर". Retrieved 1 September 2013.
  34. 34.0 34.1 Pessach, Yaniv (2013). "वितरित भंडारण" (वितरित भंडारण: Concepts, Algorithms, and Implementations ed.). OL 25423189M. {{cite journal}}: Cite journal requires |journal= (help)
  35. "संस्करण 2.0 मैनुअल फेलओवर प्रदान करता है और वे स्वचालित फेलओवर पर काम कर रहे हैं". Hadoop.apache.org. Retrieved 30 July 2013.
  36. "विषम Hadoop समूहों में डेटा प्लेसमेंट के माध्यम से MapReduce के प्रदर्शन में सुधार" (PDF). Eng.auburn.ed. April 2010.
  37. "बढ़ते एचडीएफएस". Retrieved 5 August 2016.
  38. Shafer, Jeffrey; Rixner, Scott; Cox, Alan. "द हडूप डिस्ट्रीब्यूटेड फाइलसिस्टम: बैलेंसिंग पोर्टेबिलिटी एंड परफॉर्मेंस" (PDF). Rice University. Retrieved 19 September 2016.
  39. Mouzakitis, Evan (21 July 2016). "Hadoop प्रदर्शन मेट्रिक्स कैसे एकत्रित करें". Retrieved 24 October 2016.
  40. "एचडीएफएस उपयोगकर्ता गाइड - रैक जागरूकता". Hadoop.apache.org. Retrieved 17 October 2013.
  41. "क्लाउड एनालिटिक्स: क्या हमें वास्तव में स्टोरेज स्टैक को फिर से बनाने की जरूरत है?" (PDF). IBM. June 2009.
  42. "HADOOP-6330: Hadoop फाइलसिस्टम इंटरफेस के IBM जनरल पैरेलल फाइल सिस्टम कार्यान्वयन को एकीकृत करना". IBM. 23 October 2009.
  43. "HADOOP-6704: पैरास्केल फ़ाइल सिस्टम के लिए समर्थन जोड़ें". Parascale. 14 April 2010.
  44. "CloudIQ स्टोरेज के साथ HDFS". Appistry,Inc. 6 July 2010. Archived from the original on 5 April 2014. Retrieved 10 December 2013.
  45. "उच्च उपलब्धता हडूप". HP. 9 June 2010.
  46. "कमांड गाइड". 17 August 2011. Archived from the original on 17 August 2011. Retrieved 11 December 2017.{{cite web}}: CS1 maint: bot: original URL status unknown (link)
  47. "शेड्यूलर को जॉबट्रैकर से रिफलेक्टर करें". Hadoop Common. Apache Software Foundation. Retrieved 9 June 2012.
  48. Jones, M. Tim (6 December 2011). "हडूप में निर्धारण". ibm.com. IBM. Retrieved 20 November 2013.
  49. "Hadoop फेयर शेड्यूलर डिज़ाइन दस्तावेज़" (PDF). apache.org. Retrieved 12 October 2017.
  50. "क्षमता अनुसूचक गाइड". Hadoop.apache.org. Retrieved 31 December 2015.
  51. "कैसे Apache Hadoop 3 Apache Hadoop 2 से अधिक मूल्य जोड़ता है". hortonworks.com. 7 February 2018. Retrieved 11 June 2018.
  52. Chintapalli, Sanket; Dagit, Derek; Evans, Bobby; Farivar, Reza; Graves, Thomas; Holderbaugh, Mark; Liu, Zhuo; Nusbaum, Kyle; Patil, Kishorkumar; Peng, Boyang Jerry; Poulosky, Paul (May 2016). "Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming". 2016 IEEE अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी कार्यशालाएँ (IPDPSW). IEEE. pp. 1789–1792. doi:10.1109/IPDPSW.2016.138. ISBN 978-1-5090-3682-0. S2CID 2180634.
  53. "DBMS2 में "कैसे 30+ उद्यम Hadoop का उपयोग कर रहे हैं"". Dbms2.com. 10 October 2009. Retrieved 17 October 2013.
  54. "याहू! दुनिया का सबसे बड़ा Hadoop प्रोडक्शन एप्लिकेशन लॉन्च किया". Yahoo. 19 February 2008. Archived from the original on 7 March 2016. Retrieved 31 December 2015.
  55. "Yahoo! पर Hadoop और वितरित कंप्यूटिंग". Yahoo!. 20 April 2011. Retrieved 17 October 2013.
  56. "HDFS: Facebook के पास दुनिया का सबसे बड़ा Hadoop क्लस्टर है!". Hadoopblog.blogspot.com. 9 May 2010. Retrieved 23 May 2012.
  57. "हुड के तहत: Hadoop ने Namenode और Avatarnode के साथ फ़ाइल सिस्टम विश्वसनीयता वितरित की". Facebook. Retrieved 13 September 2012.
  58. "हुड के तहत: शेड्यूलिंग मानचित्र कोरोना के साथ नौकरियों को अधिक कुशलता से कम करें". Facebook. Retrieved 9 November 2012.
  59. "Altior का AltraSTAR - Hadoop स्टोरेज एक्सेलेरेटर और ऑप्टिमाइज़र अब CDH4 पर प्रमाणित है (Cloudera का वितरण Apache Hadoop संस्करण 4 सहित)" (Press release). Eatontown, NJ: Altior Inc. 18 December 2012. Retrieved 30 October 2013.
  60. "Hadoop - Microsoft Azure". azure.microsoft.com. Retrieved 11 December 2017.
  61. "हडूप". Azure.microsoft.com. Retrieved 22 July 2014.
  62. "हडूप इनोवेशन की गति क्यों तेज होनी चाहिए". Gigaom.com. 25 April 2011. Retrieved 17 October 2013.
  63. "हडूप को परिभाषित करना". Wiki.apache.org. 30 March 2013. Retrieved 17 October 2013.
  64. "Hadoop संगतता को परिभाषित करना: दोबारा गौर किया गया". Mail-archives.apache.org. 10 May 2011. Retrieved 17 October 2013.
  65. "Apache Accumulo उपयोगकर्ता पुस्तिका: सुरक्षा". apache.org. Apache Software Foundation. Retrieved 3 December 2014.


ग्रन्थसूची