अपाचे हडूप: Difference between revisions

Apache Hadoop
Original author(s)	Doug Cutting, Mike Cafarella
Developer(s)	Apache Software Foundation
Initial release	April 1, 2006; 18 years ago
Stable release
2.10.x	2.10.2 / May 31, 2022; 23 months ago
3.2.x	3.2.4 / July 22, 2022; 21 months ago
3.3.x	3.3.4 / August 8, 2022; 21 months ago
Repository	Hadoop Repository
Written in	Java
Operating system	Cross-platform
Type	Distributed file system
License	Apache License 2.0

Revision as of 09:33, 19 December 2022

अपाचे हडूप ( /həˈduːp/) खुला स्रोत सॉफ्टवेयर उपयोगिताओं का एक संग्रह है | जो बड़ी मात्रा में डेटा और संगणना से जुड़ी समस्याओं को हल करने के लिए कई संगणकों के नेटवर्क का उपयोग करने की सुविधा प्रदान करता है। यह मानचित्र छोटा करना प्रोग्रामिंग मॉडल का उपयोग करके और बड़े डेटा के वितरित भंडारण और प्रसंस्करण के लिए एक सॉफ्टवेयर संरचना प्रदान करता है। हडूप को मूल रूप से लोहे की उपयोगी वस्तुएं से निर्मित संगणक क्लस्टर के लिए डिज़ाइन किया गया था, जो अभी भी सामान्य उपयोग है।^[3] इसके बाद से उच्च अंत हार्डवेयर के समूहों पर भी इसका उपयोग पाया गया है।^[4]^[5] हडूप में सभी अनुखंड एक मौलिक धारणा के साथ डिज़ाइन किए गए हैं कि हार्डवेयर विफलताएँ सामान्य घटनाएँ हैं और इन्हें फ्रेमवर्क द्वारा स्वचालित रूप से नियंत्रित किया जाना चाहिए।^[6]

अपाचे हडूप के मूल में एक स्टोरेज पार्ट होता है, जिसे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) के रूप में जाना जाता है, और एक प्रोसेसिंग पार्ट जो कि मैपरेडुस प्रोग्रामिंग मॉडल है। हडूप फ़ाइलों को बड़े ब्लॉक में विभाजित करता है और उन्हें एक क्लस्टर में नोड्स में वितरित करता है। यह तब डेटा को समानांतर में संसाधित करने के लिए पैक किए गए कोड को नोड्स में स्थानांतरित करता है। यह दृष्टिकोण डेटा स्थानीयता का लाभ उठाता है,^[7] जहां नोड्स उस डेटा में हेरफेर करते हैं, जिस तक उनकी पहुंच है। यह डेटासेट को एक अधिक पारंपरिक सुपरसंगणक आर्किटेक्चर की तुलना में तेजी से और अधिक कुशलता से प्रसंस्करण वितरित करने की अनुमति देता है जो एक समानांतर फाइल सिस्टम पर निर्भर करता है जहां उच्च गति नेटवर्किंग के माध्यम से गणना और डेटा वितरित किया जाता है।^[8]^[9]

आधार अपाचे हडूप रूपरेखा निम्नलिखित अनुखंड से बना है:

हडूप कॉमन - में अन्य हडूप अनुखंड के लिए आवश्यक लाइब्रेरी और सुविधाएं शामिल हैं;
हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) - एक वितरित फाइल-सिस्टम जो कमोडिटी मशीनों पर डेटा स्टोर करता है, क्लस्टर में बहुत अधिक समग्र बैंडविड्थ प्रदान करता है;
हडूप YARN - (2012 में पेश किया गया) क्लस्टर में कंप्यूटिंग संसाधनों के प्रबंधन और उपयोगकर्ताओं के अनुप्रयोगों को शेड्यूल करने के लिए उनका उपयोग करने के लिए जिम्मेदार एक मंच;^[10]^[11]
हडूप मैपरेडुस - बड़े पैमाने पर डेटा प्रोसेसिंग के लिए मैपरेडुस प्रोग्रामिंग मॉडल का कार्यान्वयन।
हडूप ओजोन - (2020 में पेश किया गया) हडूप के लिए एक ऑब्जेक्ट स्टोर

हडूप शब्द का प्रयोग अधिकांश आधार अनुखंड और उप-अनुखंड दोनों के लिए और पारिस्थितिकी तंत्र के लिए भी किया जाता है,^[12] या अतिरिक्त सॉफ़्टवेयर पैकेजों का संग्रह जो हडूप के ऊपर या उसके साथ स्थापित किया जा सकता है, जैसे कि अपाचे पीआईजी (प्रोग्रामिंग उपकरण) , अपाचे हीवे , अपाचे ह्बसे , अपाचे फीनिक्स, अपाचे स्पार्क, अपाचे जूकीपेर , क्लौदेर इम्पाला , अपाचे फ्लुमे , अपाचे स्कूप, अपाचे ओजी, और अपाचे स्टॉर्म ।^[13]

अपाचे हडूप के मैपरेडुस और HDFS घटक मैपरेडुस और गूगल फाइल सिस्टम पर गूगल पेपर्स से प्रेरित थे।^[14]

हडूप रुपरेखा स्वयं ज्यादातर जावा (प्रोग्रामिंग भाषा) में लिखा जाता है, C (प्रोग्रामिंग लैंग्वेज) में कुछ देशी कोड और कमांड लाइन इंटरफेस उपयोगिताओं को शेल स्क्रिप्ट्स के रूप में लिखा जाता है। चूंकि मैपरेडुस जावा कोड सामान्य है, मानचित्र को लागू करने और उपयोगकर्ता के प्रोग्राम के कुछ हिस्सों को कम करने के लिए हडूप स्ट्रीमिंग के साथ किसी सी (प्रोग्रामिंग भाषा) का उपयोग किया जा सकता है।^[15] हडूप पारिस्थितिकी तंत्र में अन्य परियोजनाएं समृद्ध उपयोगकर्ता इंटरफेस को उजागर करती हैं।

इतिहास

इसके सह-संस्थापकों, डॉग कटिंग और माइक कैफेरेला के अनुसार, हडूप की उत्पत्ति गूगल फ़ाइल सिस्टम पेपर थी जो अक्टूबर 2003 में प्रकाशित किया गया था।^[16]^[17] इस पेपर ने गूगल के एक और पेपर को जन्म दिया – मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग।^[18] विकास अपाचे नच परियोजना पर प्रारंभ हुआ, लेकिन जनवरी 2006 में इसे नए हडूप उपप्रोजेक्ट में स्थानांतरित कर दिया गया।^[19] डौग कटिंग, जो याहू! उस समय, इसका नाम अपने बेटे के खिलौने हाथी के नाम पर रखा था।^[20] नच से निकाले गए प्रारंभिक कोड में HDFS के लिए कोड की लगभग 5,000 लाइनें और मैपरेडुस के लिए कोड की लगभग 6,000 लाइनें शामिल थीं।

मार्च 2006 में, ओवेन ओ'माल्ली हडूप प्रोजेक्ट में शामिल होने वाले पहले कमिटर थे;^[21] हडूप 0.1.0 को अप्रैल 2006 में रिलीज़ किया गया था।^[22] यह परियोजना में किए जा रहे योगदान के माध्यम से विकसित होना जारी है।^[23] हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम के लिए सबसे पहला डिज़ाइन दस्तावेज़ ध्रुबा बोरठाकुर द्वारा 2007 में लिखा गया था।^[24]

आर्किटेक्चर

हडूप में हडूप कॉमन पैकेज शामिल है, जो फ़ाइल सिस्टम और ऑपरेटिंग सिस्टम स्तर का सार प्रदान करता है, एक मैपरेडुस इंजन (या तो मैपरेडुस/MR1 या YARN/MR2)^[25] और #हडूप वितरित फाइल सिस्टम (HDFS)। हडूप कॉमन पैकेज में जेएआर (फाइल फॉर्मेट) | जावा आर्काइव (जेएआर) फाइलें और हडूप प्रारंभ करने के लिए आवश्यक स्क्रिप्ट शामिल हैं।

काम के प्रभावी शेड्यूलिंग के लिए, प्रत्येक हडूप-संगत फाइल सिस्टम को स्थान जागरूकता प्रदान करनी चाहिए, जो कि रैक का नाम है, विशेष रूप से नेटवर्क स्विच जहां वर्कर नोड है। हडूप एप्लिकेशन इस जानकारी का उपयोग उस नोड पर कोड निष्पादित करने के लिए कर सकते हैं जहां डेटा है, और, विफल होने पर, उसी रैक/स्विच पर बैकबोन ट्रैफ़िक को कम करने के लिए। कई रैक में डेटा रिडंडेंसी के लिए डेटा की प्रतिकृति बनाते समय HDFS इस विधि का उपयोग करता है। यह दृष्टिकोण रैक पावर आउटेज या स्विच विफलता के प्रभाव को कम करता है; यदि इनमें से कोई हार्डवेयर विफलता होती है, तो डेटा उपलब्ध रहेगा।^[26]

एक बहु-नोड हडूप क्लस्टर

एक छोटे हडूप क्लस्टर में एक मास्टर और कई वर्कर नोड शामिल होते हैं। मास्टर नोड में एक जॉब ट्रैकर, टास्क ट्रैकर, नेमनोड और डेटानोड होते हैं। एक दास या कार्यकर्ता नोड डेटानोड और टास्कट्रैकर दोनों के रूप में कार्य करता है, हालांकि डेटा-ओनली और कंप्यूट-ओनली वर्कर नोड्स होना संभव है। ये आम तौर पर केवल गैर-मानक अनुप्रयोगों में उपयोग किए जाते हैं।Cite error: Closing </ref> missing for <ref> tag लेकिन यह शेल कमांड और जावा एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) मेथड (संगणक प्रोग्रामिंग) प्रदान करता है जो अन्य फाइल सिस्टम के समान हैं।^[27] एक हडूप उदाहरण को HDFS और मैपरेडुस में विभाजित किया गया है। HDFS का उपयोग डेटा को स्टोर करने के लिए किया जाता है और मैपरेडुस का उपयोग डेटा को प्रोसेस करने के लिए किया जाता है।

एचडीएफएस की पांच सेवाएं इस प्रकार हैं:

नाम नोड
द्वितीयक नाम नोड
जॉब ट्रैकर
डेटा नोड
टास्क ट्रैकर

शीर्ष तीन मास्टर सेवाएं/डेमन्स/नोड्स हैं और नीचे दो दास सेवाएं हैं। मास्टर सेवाएं एक दूसरे के साथ संवाद कर सकती हैं और उसी तरह दास सेवाएं एक दूसरे के साथ संवाद कर सकती हैं। नाम नोड एक मास्टर नोड है और डेटा नोड इसका संबंधित स्लेव नोड है और एक दूसरे के साथ बात कर सकता है।

नाम नोड: एचडीएफएस में केवल एक नाम नोड होता है जिसे मास्टर नोड कहा जाता है। मास्टर नोड फाइलों को ट्रैक कर सकता है, फाइल सिस्टम का प्रबंधन कर सकता है और इसमें सभी संग्रहीत डेटा का मेटा डेटा है। विशेष रूप से, नाम नोड में ब्लॉक की संख्या, डेटा नोड के स्थान जिसमें डेटा संग्रहीत किया जाता है, जहां प्रतिकृति संग्रहीत की जाती है, और अन्य विवरण शामिल हैं। नाम नोड का क्लाइंट के साथ सीधा संपर्क है।

डेटा नोड: एक डेटा नोड इसमें डेटा को ब्लॉक के रूप में संग्रहीत करता है। इसे दास नोड के रूप में भी जाना जाता है और यह वास्तविक डेटा को एचडीएफएस में संग्रहीत करता है जो क्लाइंट को पढ़ने और लिखने के लिए जिम्मेदार होता है। ये गुलाम दानव हैं। प्रत्येक डेटा नोड हर 3 सेकंड में नाम नोड को एक हार्टबीट संदेश भेजता है और बताता है कि यह जीवित है। इस तरह जब नाम नोड को 2 मिनट के लिए डेटा नोड से दिल की धड़कन नहीं मिलती है, तो यह उस डेटा नोड को मृत मान लेगा और किसी अन्य डेटा नोड पर ब्लॉक प्रतिकृति की प्रक्रिया प्रारंभ कर देगा।

द्वितीयक नाम नोड: यह केवल फ़ाइल सिस्टम मेटाडेटा की चौकियों का ध्यान रखने के लिए है जो नाम नोड में है। इसे चेकपॉइंट नोड के रूप में भी जाना जाता है। यह नाम नोड के लिए सहायक नोड है। द्वितीयक नाम नोड नाम नोड को fsimage और editlog फ़ाइल बनाने और भेजने का निर्देश देता है, जिस पर द्वितीयक नाम नोड द्वारा संकुचित fsimage फ़ाइल बनाई जाती है।^[28] जॉब ट्रैकर: जॉब ट्रैकर क्लाइंट से मैप रिड्यूस निष्पादन के लिए अनुरोध प्राप्त करता है। जॉब ट्रैकर डेटा के स्थान के बारे में जानने के लिए नाम नोड से बात करता है जिसका उपयोग प्रसंस्करण में किया जाएगा। नाम नोड आवश्यक प्रसंस्करण डेटा के मेटाडेटा के साथ प्रतिक्रिया करता है।

टास्क ट्रैकर: यह जॉब ट्रैकर के लिए स्लेव नोड है और यह जॉब ट्रैकर से टास्क लेगा। यह जॉब ट्रैकर से कोड भी प्राप्त करता है। टास्क ट्रैकर कोड लेगा और फाइल पर लागू होगा। उस कोड को फाइल पर लगाने की प्रक्रिया को मैपर के नाम से जाना जाता है।^[29] हडूप क्लस्टर में मुख्य रूप से एक एकल नामेनोड और डेटानोड्स का एक समूह होता है, हालांकि इसकी गंभीरता के कारण नामेनोड के लिए अतिरेक (इंजीनियरिंग) विकल्प उपलब्ध हैं। प्रत्येक डेटानोड एचडीएफएस के लिए विशिष्ट ब्लॉक प्रोटोकॉल का उपयोग करके नेटवर्क पर डेटा के ब्लॉक की सेवा करता है। फाइल सिस्टम संचार के लिए टीसीपी/आईपी इंटरनेट सॉकेट का उपयोग करता है। ग्राहक एक दूसरे के साथ संवाद करने के लिए दूरस्थ प्रक्रिया कॉल (RPC) का उपयोग करते हैं।

एचडीएफएस बड़ी फाइलों को स्टोर करता है (आमतौर पर गीगाबाइट्स से टेराबाइट्स की रेंज में^[30]) कई मशीनों में। यह कई मेजबानों में डेटा की प्रतिकृति (संगणक विज्ञान) द्वारा विश्वसनीयता प्राप्त करता है, और इसलिए सैद्धांतिक रूप से RAID की आवश्यकता नहीं होती है। मेजबानों पर स्वतंत्र डिस्क (RAID) भंडारण की अनावश्यक सरणी (लेकिन इनपुट-आउटपुट (I/O) प्रदर्शन को बढ़ाने के लिए कुछ RAID कॉन्फ़िगरेशन अभी भी उपयोगी हैं)। डिफ़ॉल्ट प्रतिकृति मान, 3 के साथ, डेटा तीन नोड्स पर संग्रहीत होता है: दो एक ही रैक पर, और एक अलग रैक पर। डेटा नोड्स एक दूसरे से डेटा को पुनर्संतुलित करने, प्रतियों को इधर-उधर ले जाने और डेटा की प्रतिकृति को उच्च रखने के लिए बात कर सकते हैं। HDFS पूरी तरह से POSIX- संगत नहीं है, क्योंकि POSIX फाइल-सिस्टम की आवश्यकताएं हडूप एप्लिकेशन के लक्ष्य लक्ष्यों से भिन्न होती हैं। पूरी तरह से POSIX-अनुपालन फ़ाइल-सिस्टम नहीं होने का ट्रेड-ऑफ़ डेटा throughput के लिए बढ़ा हुआ प्रदर्शन है और गैर-POSIX संचालन जैसे संलग्न के लिए समर्थन है।^[31] मई 2012 में, HDFS में उच्च-उपलब्धता क्षमताओं को जोड़ा गया,^[32] NameNode नामक मुख्य मेटाडेटा सर्वर को बैकअप पर मैन्युअल रूप से विफल होने देना। परियोजना ने स्वचालित विफलता-ओवरों का विकास भी प्रारंभ कर दिया है।

एचडीएफएस फाइल सिस्टम में एक तथाकथित द्वितीयक नामेनोड शामिल है, एक भ्रामक शब्द है कि प्राथमिक नामेनोड के ऑफ़लाइन होने पर कुछ गलत तरीके से बैकअप नामेनोड के रूप में व्याख्या कर सकते हैं। वास्तव में, द्वितीयक नामेनोड नियमित रूप से प्राथमिक नामेनोड से जुड़ता है और प्राथमिक नामेनोड की निर्देशिका जानकारी का स्नैपशॉट बनाता है, जिसे सिस्टम तब स्थानीय या दूरस्थ निर्देशिकाओं में सहेजता है। इन चेकपॉइंट छवियों का उपयोग फ़ाइल-सिस्टम क्रियाओं के पूरे जर्नल को फिर से चलाने के बिना एक असफल प्राथमिक नामनोड को पुनरारंभ करने के लिए किया जा सकता है, फिर एक अप-टू-डेट निर्देशिका संरचना बनाने के लिए लॉग को संपादित करने के लिए। क्योंकि मेटाडेटा के भंडारण और प्रबंधन के लिए नामेनोड एकल बिंदु है, यह बड़ी संख्या में फ़ाइलों, विशेष रूप से बड़ी संख्या में छोटी फ़ाइलों का समर्थन करने के लिए एक अड़चन बन सकता है। एचडीएफएस फेडरेशन, एक नया अतिरिक्त, अलग-अलग नामनोड्स द्वारा कई नामस्थानों की अनुमति देकर इस समस्या से कुछ हद तक निपटने का लक्ष्य रखता है। इसके अलावा, HDFS में कुछ समस्याएँ हैं जैसे छोटी फ़ाइल समस्याएँ, मापनीयता समस्याएँ, एकल बिंदु विफलता (SPoF), और विशाल मेटाडेटा अनुरोधों में अड़चनें। एचडीएफएस का उपयोग करने का एक फायदा जॉब ट्रैकर और टास्क ट्रैकर के बीच डेटा जागरूकता है। जॉब ट्रैकर डेटा स्थान के बारे में जागरूकता के साथ टास्क ट्रैकर्स को मैप या जॉब को कम करता है। उदाहरण के लिए: यदि नोड A में डेटा (a, b, c) और नोड X में डेटा (x, y, z) है, तो जॉब ट्रैकर नोड A को मैप करने या (a, b, c) और नोड पर कार्यों को कम करने के लिए शेड्यूल करता है। X को मानचित्र निष्पादित करने या (x, y, z) पर कार्य कम करने के लिए निर्धारित किया जाएगा। यह नेटवर्क पर जाने वाले ट्रैफ़िक की मात्रा को कम करता है और अनावश्यक डेटा स्थानांतरण को रोकता है। जब हडूप का उपयोग अन्य फाइल सिस्टम के साथ किया जाता है, तो यह लाभ हमेशा उपलब्ध नहीं होता है। यह कार्य-पूर्णता के समय पर महत्वपूर्ण प्रभाव डाल सकता है जैसा कि डेटा-गहन नौकरियों के साथ प्रदर्शित किया गया है।^[33] एचडीएफएस ज्यादातर अपरिवर्तनीय फाइलों के लिए डिज़ाइन किया गया था और समवर्ती लेखन संचालन की आवश्यकता वाले सिस्टम के लिए उपयुक्त नहीं हो सकता है।^[31]

लिनक्स और कुछ अन्य यूनिक्स यूजरस्पेस में फाइलसिस्टम (FUSE) वर्चुअल फाइल सिस्टम में फाइलसिस्टम के साथ HDFS को सीधे माउंट (कंप्यूटिंग) किया जा सकता है।

मूल जावा एपीआई, थ्रिफ्ट (प्रोटोकॉल) एपीआई के माध्यम से फ़ाइल का उपयोग प्राप्त किया जा सकता है (कई भाषाओं में क्लाइंट उत्पन्न करता है जैसे सी ++, जावा, पायथन, पीएचपी, रूबी, एरलांग, पर्ल, हास्केल, सी #, कोको (एपीआई) , स्मॉलटॉक, और OCaml ), कमांड-लाइन इंटरफ़ेस, HTTP पर HDFS-UI वेब अनुप्रयोग , या तृतीय-पक्ष नेटवर्क क्लाइंट लाइब्रेरी के माध्यम से।^[34] एचडीएफएस को विभिन्न हार्डवेयर प्लेटफार्मों में पोर्टेबिलिटी के लिए और विभिन्न अंतर्निहित ऑपरेटिंग सिस्टम के साथ संगतता के लिए डिज़ाइन किया गया है। HDFS डिज़ाइन पोर्टेबिलिटी की सीमाओं का परिचय देता है जिसके परिणामस्वरूप कुछ प्रदर्शन अड़चनें होती हैं, क्योंकि जावा कार्यान्वयन उन सुविधाओं का उपयोग नहीं कर सकता है जो उस प्लेटफॉर्म के लिए अनन्य हैं जिस पर HDFS चल रहा है।^[35] उद्यम स्तर के बुनियादी ढांचे में इसके व्यापक एकीकरण के कारण, बड़े पैमाने पर एचडीएफएस के प्रदर्शन की निगरानी एक महत्वपूर्ण मुद्दा बन गया है। एंड-टू-एंड प्रदर्शन की निगरानी के लिए डेटानोड्स, नामनोड्स और अंतर्निहित ऑपरेटिंग सिस्टम से मेट्रिक्स को ट्रैक करने की आवश्यकता होती है।^[36] HDFS के प्रदर्शन को ट्रैक करने के लिए वर्तमान में हॉर्टनवर्क्स # हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म (HDP), क्लाउडेरा और डाटाडॉग सहित कई निगरानी प्लेटफ़ॉर्म हैं।

अन्य फाइल सिस्टम

हडूप सीधे किसी भी वितरित फ़ाइल सिस्टम के साथ काम करता है जिसे अंतर्निहित ऑपरेटिंग सिस्टम द्वारा केवल एक का उपयोग करके माउंट किया जा सकता है file:// यूआरएल; हालाँकि, यह एक मूल्य पर आता है - स्थानीयता का नुकसान। नेटवर्क ट्रैफ़िक को कम करने के लिए, हडूप को यह जानना होगा कि कौन से सर्वर डेटा के सबसे करीब हैं, जानकारी जो हडूप-विशिष्ट फ़ाइल सिस्टम ब्रिज प्रदान कर सकते हैं।

मई 2011 में, अपाचे हडूप के साथ बंडल किए गए समर्थित फ़ाइल सिस्टम की सूची थी:

HDFS: हडूप का अपना रैक-अवेयर फ़ाइल सिस्टम।^[37] यह स्टोरेज के दसियों पेटाबाइट्स को स्केल करने के लिए डिज़ाइन किया गया है और अंतर्निहित ऑपरेटिंग सिस्टम के फ़ाइल सिस्टम के शीर्ष पर चलता है।
अपाचे हडूप ओजोन: अरबों छोटी फाइलों के लिए अनुकूलित एचडीएफएस-संगत ऑब्जेक्ट स्टोर लक्ष्यीकरण।
एफ़टीपी फाइल सिस्टम: यह अपने सभी डेटा को दूरस्थ रूप से सुलभ एफ़टीपी सर्वरों पर संग्रहीत करता है।
Amazon Simple Storage Service |Amazon S3 (Simple Storage Service) ऑब्जेक्ट स्टोरेज: यह Amazon Elastic Compute Cloud सर्वर-ऑन-डिमांड इंफ्रास्ट्रक्चर पर होस्ट किए गए क्लस्टर पर लक्षित है। इस फाइल सिस्टम में कोई रैक-जागरूकता नहीं है, क्योंकि यह सब रिमोट है।
Windows Azure स्टोरेज ब्लॉब्स (WASB) फ़ाइल सिस्टम: यह HDFS का एक विस्तार है जो हडूप के वितरण को Azure ब्लॉब स्टोर्स में डेटा को स्थायी रूप से क्लस्टर में स्थानांतरित किए बिना एक्सेस करने की अनुमति देता है।

कई तृतीय-पक्ष फ़ाइल सिस्टम ब्रिज भी लिखे गए हैं, जिनमें से कोई भी वर्तमान में हडूप वितरण में नहीं है। हालाँकि, हडूप के कुछ व्यावसायिक वितरण डिफ़ॉल्ट के रूप में वैकल्पिक फ़ाइल सिस्टम के साथ शिप होते हैं – विशेष रूप से आईबीएम और मैपआर ।

2009 में, IBM ने आईबीएम जनरल समानांतर फाइल सिस्टम पर हडूप को चलाने पर चर्चा की।^[38] स्रोत कोड अक्टूबर 2009 में प्रकाशित हुआ था।^[39]
अप्रैल 2010 में, Parascale ने हडूप को Parascale फ़ाइल सिस्टम के विरुद्ध चलाने के लिए स्रोत कोड प्रकाशित किया।^[40]
अप्रैल 2010 में, ऐपिस्ट्री ने अपने CloudIQ स्टोरेज उत्पाद के साथ उपयोग के लिए एक हडूप फ़ाइल सिस्टम ड्राइवर जारी किया।^[41]
जून 2010 में, Hewlett-Packard ने एक स्थान-जागरूक IBRIX Fusion फ़ाइल सिस्टम ड्राइवर पर चर्चा की।^[42]
मई 2011 में, MapR|MapR Technologies Inc. ने हडूप, MapR FS के लिए एक वैकल्पिक फ़ाइल सिस्टम की उपलब्धता की घोषणा की, जिसने HDFS फ़ाइल सिस्टम को पूर्ण रैंडम-एक्सेस रीड/राइट फ़ाइल सिस्टम से बदल दिया।

जॉबट्रैकर और टास्कट्रैकर: मैपरेडस इंजन

फाइल सिस्टम के ऊपर मैपरेडुस Engine आता है, जिसमें एक JobTracker होता है, जिसके लिए क्लाइंट एप्लिकेशन मैपरेडुस जॉब सबमिट करते हैं। जॉबट्रैकर काम को क्लस्टर में उपलब्ध टास्कट्रैकर नोड्स पर धकेलता है, काम को यथासंभव डेटा के करीब रखने का प्रयास करता है। रैक-अवेयर फाइल सिस्टम के साथ, जॉबट्रैकर जानता है कि किस नोड में डेटा है, और कौन सी अन्य मशीनें पास में हैं। यदि कार्य को वास्तविक नोड पर होस्ट नहीं किया जा सकता है जहां डेटा रहता है, उसी रैक में नोड्स को प्राथमिकता दी जाती है। यह मुख्य बैकबोन नेटवर्क पर नेटवर्क ट्रैफिक को कम करता है। यदि कोई टास्कट्रैक विफल हो जाता है या समय समाप्त हो जाता है, तो कार्य का वह भाग पुनर्निर्धारित किया जाता है। प्रत्येक नोड पर टास्कट्रैकर एक अलग जावा वर्चुअल मशीन (जेवीएम) प्रक्रिया को जन्म देता है ताकि टास्कट्रैकर को विफल होने से रोका जा सके यदि रनिंग जॉब अपने जेवीएम को क्रैश कर देता है। उसकी स्थिति की जांच करने के लिए हर कुछ मिनटों में टास्कट्रैकर से जॉबट्रैकर को एक दिल की धड़कन भेजी जाती है। जॉब ट्रैकर और टास्कट्रैकर की स्थिति और जानकारी जेटी (वेब सर्वर) द्वारा प्रदर्शित की जाती है और इसे वेब ब्राउज़र से देखा जा सकता है।

इस दृष्टिकोण की ज्ञात सीमाएँ हैं:

टास्कट्रैकर्स को काम का आवंटन बहुत आसान है। प्रत्येक टास्कट्रैकर में कई उपलब्ध स्लॉट होते हैं (जैसे 4 स्लॉट)। प्रत्येक सक्रिय नक्शा या कम कार्य एक स्लॉट लेता है। जॉब ट्रैकर उपलब्ध स्लॉट के साथ डेटा के निकटतम ट्रैकर को कार्य आवंटित करता है। आवंटित मशीन के वर्तमान भार (कंप्यूटिंग) पर कोई विचार नहीं है, और इसलिए इसकी वास्तविक उपलब्धता है।
यदि एक टास्कट्रैकर बहुत धीमा है, तो यह पूरे मैपरेडुस कार्य में देरी कर सकता है – विशेष रूप से अंत की ओर, जब सब कुछ सबसे धीमे कार्य की प्रतीक्षा में समाप्त हो सकता है। सट्टा निष्पादन सक्षम होने के साथ, हालांकि, एक ही कार्य को कई स्लेव नोड्स पर निष्पादित किया जा सकता है।

== निर्धारण

डिफ़ॉल्ट रूप से हडूप FIFO (कंप्यूटिंग और इलेक्ट्रॉनिक्स) शेड्यूलिंग का उपयोग करता है, और वैकल्पिक रूप से 5 शेड्यूलिंग प्राथमिकताओं को कार्य कतार से कार्य शेड्यूल करने के लिए उपयोग करता है।^[43] संस्करण 0.19 में जॉब शेड्यूलर को वैकल्पिक शेड्यूलर (जैसे कि फेयर शेड्यूलर या कैपेसिटी शेड्यूलर, आगे वर्णित है) का उपयोग करने की क्षमता को जोड़ते हुए, जॉबट्रैकर से रिफैक्टर किया गया था।^[44]

फेयर शेड्यूलर

फेयर शेड्यूलर फेसबुक द्वारा विकसित किया गया था।^[45] फेयर शेड्यूलर का लक्ष्य उत्पादन कार्यों के लिए छोटी नौकरियों और सेवा की गुणवत्ता (क्यूओएस) के लिए तेजी से प्रतिक्रिया समय प्रदान करना है। फेयर शेड्यूलर की तीन बुनियादी अवधारणाएँ हैं।^[46]

नौकरियों को पूल (संगणक साइंस) में बांटा गया है।
प्रत्येक पूल को एक गारंटीकृत न्यूनतम शेयर दिया जाता है।
अतिरिक्त क्षमता को नौकरियों के बीच विभाजित किया गया है।

डिफ़ॉल्ट रूप से, अवर्गीकृत कार्य डिफ़ॉल्ट पूल में जाते हैं। पूल को मैप स्लॉट की न्यूनतम संख्या निर्दिष्ट करनी होती है, स्लॉट को कम करना होता है, साथ ही रनिंग जॉब की संख्या पर एक सीमा होती है।

क्षमता अनुसूचक

क्षमता अनुसूचक याहू द्वारा विकसित किया गया था। क्षमता अनुसूचक कई सुविधाओं का समर्थन करता है जो निष्पक्ष अनुसूचक के समान हैं।^[47]

कतारों को कुल संसाधन क्षमता का एक अंश आवंटित किया जाता है।
कतारों को उनकी कुल क्षमता से अधिक मुफ्त संसाधन आवंटित किए जाते हैं।
एक कतार के भीतर, उच्च स्तर की प्राथमिकता वाली नौकरी की कतार के संसाधनों तक पहुंच होती है।

नौकरी चलने के बाद कोई प्रीमेशन (कंप्यूटिंग) नहीं है।

=== हडूप 1 और हडूप 2 (YARN) === के बीच अंतर हडूप 1 और हडूप 2 के बीच सबसे बड़ा अंतर YARN (फिर भी एक अन्य संसाधन वार्ताकार) का जोड़ है, जिसने हडूप के पहले संस्करण में मैपरेडुस इंजन को बदल दिया। यार्न प्रभावी ढंग से विभिन्न अनुप्रयोगों के लिए संसाधन आवंटित करने का प्रयास करता है। यह दो डेमॉन चलाता है, जो दो अलग-अलग कार्यों का ख्याल रखता है: संसाधन प्रबंधक, जो जॉब ट्रैकिंग करता है और अनुप्रयोगों को संसाधन आवंटन करता है, एप्लिकेशन मास्टर, जो निष्पादन की प्रगति की निगरानी करता है।

=== हडूप 2 और हडूप 3 === के बीच अंतर हडूप 3 द्वारा प्रदान की जाने वाली महत्वपूर्ण विशेषताएं हैं। उदाहरण के लिए, जबकि हडूप 2 में एक ही नामेनोड है, हडूप 3 कई नाम नोड्स को सक्षम बनाता है, जो विफलता की समस्या के एकल बिंदु को हल करता है।

हडूप 3 में, डॉकटर (सॉफ्टवेयर) के सिद्धांत पर काम करने वाले कंटेनर हैं, जो एप्लिकेशन डेवलपमेंट पर लगने वाले समय को कम करते हैं।

सबसे बड़े परिवर्तनों में से एक यह है कि हडूप 3 विलोपन कोड के साथ स्टोरेज ओवरहेड को कम करता है।

इसके अलावा, हडूप 3 क्लस्टर के भीतर GPU हार्डवेयर के उपयोग की अनुमति देता है, जो कि हडूप क्लस्टर पर गहन शिक्षण एल्गोरिदम को निष्पादित करने के लिए एक बहुत बड़ा लाभ है।^[48]

अन्य अनुप्रयोग

HDFS मैपरेडुस नौकरियों तक ही सीमित नहीं है। इसका उपयोग अन्य अनुप्रयोगों के लिए किया जा सकता है, जिनमें से कई अपाचे में विकास के अधीन हैं। सूची में HBase डेटाबेस, अपाचे Mahout मशीन लर्निंग सिस्टम और अपाचे Hive डेटा वेयरहाउस शामिल हैं। सैद्धांतिक रूप से, हडूप का उपयोग किसी भी ऐसे कार्यभार के लिए किया जा सकता है जो वास्तविक समय के बजाय बैच-उन्मुख है, बहुत डेटा-गहन है, और समानांतर कंप्यूटिंग से लाभान्वित होता है। इसका उपयोग लैम्ब्डा वास्तुकला , अपाचे स्टॉर्म, अपाचे फ्लैश और अपाचे स्पार्क # स्पार्क स्ट्रीमिंग जैसे रीयल-टाइम सिस्टम के पूरक के लिए भी किया जा सकता है।^[49] हडूप के व्यावसायिक अनुप्रयोगों में शामिल हैं:^[50]

लॉग या clickstream विश्लेषण
मार्केटिंग एनालिटिक्स
मशीन लर्निंग और डेटा माइनिंग
मूर्ति प्रोद्योगिकी
एक्सएमएल संदेश प्रसंस्करण
वेब क्रॉलिंग
संबंधपरक और सारणीबद्ध डेटा सहित अनुपालन के लिए अभिलेखीय कार्य

प्रमुख उपयोग के मामले

19 फरवरी 2008 को याहू! Inc. ने लॉन्च किया जो उन्होंने दावा किया कि यह दुनिया का सबसे बड़ा हडूप प्रोडक्शन एप्लिकेशन था। याहू! सर्च वेबमैप एक हडूप एप्लिकेशन है जो लिनक्स क्लस्टर पर 10,000 से अधिक मल्टी कोर और उत्पादित डेटा के साथ चलता है जो प्रत्येक याहू में उपयोग किया गया था! वेब खोज क्वेरी।^[51] Yahoo! में कई हडूप क्लस्टर हैं। और कोई भी HDFS फ़ाइल सिस्टम या मैपरेडुस जॉब कई डेटा केंद्रों में विभाजित नहीं है। प्रत्येक हडूप क्लस्टर नोड Linux छवि को बूटस्ट्रैप करता है, जिसमें हडूप वितरण भी शामिल है। कार्य जो क्लस्टर करते हैं वह याहू के लिए सूचकांक गणनाओं को शामिल करने के लिए जाना जाता है! खोज इंजन। जून 2009 में, याहू! अपने हडूप वर्जन के सोर्स कोड को ओपन-सोर्स कम्युनिटी के लिए उपलब्ध कराया।^[52] 2010 में, फेसबुक ने दावा किया कि उनके पास 21 पेटाबाइट स्टोरेज के साथ दुनिया का सबसे बड़ा हडूप क्लस्टर है।^[53] जून 2012 में, उन्होंने घोषणा की कि डेटा 100 पीबी तक बढ़ गया है^[54] और बाद में उस वर्ष उन्होंने घोषणा की कि डेटा प्रति दिन लगभग आधा पीबी बढ़ रहा था।^[55]

As of 2013^[update], हडूप को अपनाना व्यापक हो गया था: फॉर्च्यून 50 कंपनियों में से आधे से अधिक ने हडूप का इस्तेमाल किया।^[56]

क्लाउड में हडूप होस्टिंग

हडूप को पारंपरिक ऑनसाइट डेटासेंटर के साथ-साथ क्लाउड कम्प्यूटिंग में भी तैनात किया जा सकता है।^[57] क्लाउड संगठनों को हार्डवेयर या विशिष्ट सेटअप विशेषज्ञता प्राप्त करने की आवश्यकता के बिना हडूप को परिनियोजित करने की अनुमति देता है।^[58]

वाणिज्यिक समर्थन

कई कंपनियां हडूप के लिए व्यावसायिक कार्यान्वयन या समर्थन प्रदान करती हैं।^[59]

ब्रांडिंग

अपाचे Software Foundation ने कहा है कि अपाचे हडूप प्रोजेक्ट द्वारा आधिकारिक तौर पर जारी किए गए सॉफ़्टवेयर को ही अपाचे हडूप या अपाचे हडूप के वितरण कहा जा सकता है।^[60] उत्पादों का नामकरण और अन्य विक्रेताओं से व्युत्पन्न कार्य और संगत शब्द हडूप डेवलपर समुदाय के भीतर कुछ हद तक विवादास्पद हैं।^[61]

पेपर

कुछ पेपर्स ने हडूप और बिग डेटा प्रोसेसिंग के जन्म और विकास को प्रभावित किया। इनमें से कुछ हैं:

जेफरी डीन, संजय घेमावत (2004) मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग , गूगल। इस पेपर ने डॉग कटिंग को मैप-रिड्यूस फ्रेमवर्क के ओपन-सोर्स कार्यान्वयन को विकसित करने के लिए प्रेरित किया। उन्होंने अपने बेटे के खिलौने वाले हाथी के नाम पर इसका नाम हडूप रखा।
माइकल फ्रैंकलिन, एलोन हैलेवी, डेविड मैयर (2005) डेटाबेस से डेटास्पेस तक: सूचना प्रबंधन के लिए एक नया सार। लेखक सभी डेटा स्वरूपों को स्वीकार करने और डेटा एक्सेस के लिए एपीआई प्रदान करने के लिए स्टोरेज सिस्टम की आवश्यकता पर प्रकाश डालते हैं जो डेटा की स्टोरेज सिस्टम की समझ के आधार पर विकसित होते हैं।
फे चांग एट अल। (2006) बिगटेबल: संरचित डेटा के लिए एक वितरित संग्रहण प्रणाली, गूगल।
रॉबर्ट कल्मन एट अल। (2008) एच-स्टोर: एक उच्च-प्रदर्शन, वितरित मुख्य मेमोरी लेनदेन प्रसंस्करण प्रणाली

यह भी देखें

अपाचे संचय - सुरक्षित बड़ी मेज ^[62]
अपाचे Cassandra , एक स्तंभ-उन्मुख डेटाबेस जो हडूप से पहुँच का समर्थन करता है
अपाचे CouchDB , एक डेटाबेस जो दस्तावेज़ों के लिए JSON का उपयोग करता है, मैपरेडुस प्रश्नों के लिए JavaScript, और API के लिए नियमित HTTP
अपाचे HCatalog, हडूप के लिए एक टेबल और स्टोरेज मैनेजमेंट लेयर
बड़ा डेटा
डेटा गहन कंप्यूटिंग
एचपीसीसी - लेक्सिसनेक्सिस रिस्क सॉल्यूशंस हाई परफॉर्मेंस कंप्यूटिंग क्लस्टर
हाइपरटेबल - एचबेस विकल्प
क्षेत्र/क्षेत्र - खुला स्रोत वितरित भंडारण और प्रसंस्करण
संसाधन प्रबंधन के लिए सरल लिनक्स उपयोगिता

संदर्भ

↑ "Hadoop Releases". apache.org. Apache Software Foundation. Retrieved 28 April 2019.
↑ ^2.0 ^2.1 ^2.2 "Apache Hadoop". Retrieved 27 September 2022.
↑ Judge, Peter (22 October 2012). "डॉग कटिंग: बिग डेटा इज़ नो बबल". silicon.co.uk. Retrieved 11 March 2018.
↑ Woodie, Alex (12 May 2014). "IBM Power पर Hadoop क्यों". datanami.com. Datanami. Retrieved 11 March 2018.
↑ Hemsoth, Nicole (15 October 2014). "क्रे ने हडूप को एचपीसी एयरस्पेस में लॉन्च किया". hpcwire.com. Retrieved 11 March 2018.
↑ "अपाचे हडूप में आपका स्वागत है!". hadoop.apache.org. Retrieved 25 August 2016.
↑ "Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) क्या है?". ibm.com. IBM. Retrieved 12 April 2021.{{cite web}}: CS1 maint: url-status (link)
↑ Malak, Michael (19 September 2014). "डेटा स्थानीयता: एचपीसी बनाम हडूप बनाम स्पार्क". datascienceassn.org. Data Science Association. Retrieved 30 October 2014.
↑ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28वीं अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
↑ "संसाधन (Apache Hadoop Main 2.5.1 API)". apache.org. Apache Software Foundation. 12 September 2014. Archived from the original on 6 October 2014. Retrieved 30 September 2014.
↑ Murthy, Arun (15 August 2012). "अपाचे हडूप यार्न - अवधारणाएं और अनुप्रयोग". hortonworks.com. Hortonworks. Retrieved 30 September 2014.
↑ "हडूप ईकोसिस्टम के भीतर बड़े डेटा अनुप्रयोग विकास को प्रज्वलित करने के लिए निरंतरता $10 मिलियन सीरीज़ ए राउंड बढ़ाती है". finance.yahoo.com. Marketwired. 14 November 2012. Retrieved 30 October 2014.
↑ "Hadoop से संबंधित परियोजनाओं पर". Hadoop.apache.org. Retrieved 17 October 2013.
↑ डेटा साइंस और बिग डेटा एनालिटिक्स: डिस्कवरिंग, एनालिसिस, विज़ुअलाइज़िंग एंड प्रेजेंटिंग डेटा. John Wiley & Sons. 19 December 2014. p. 300. ISBN 9781118876220. Retrieved 29 January 2015.
↑ "[nlpatumd] हडूप और पर्ल के साथ रोमांच". Mail-archive.com. 2 May 2010. Retrieved 5 April 2013.
↑ Cutting, Mike; Cafarella, Ben; Lorica, Doug (31 March 2016). "Apache Hadoop के अगले 10 साल". O'Reilly Media (in English). Retrieved 12 October 2017.
↑ Ghemawat, Sanjay; Gobioff, Howard; Leung, Shun-Tak (2003). "Google फाइल सिस्टम". pp. 20–43.
↑ Dean, Jeffrey; Ghemawat, Sanjay (2004). "MapReduce: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग". pp. 137–150.
↑ Cutting, Doug (28 January 2006). "नई मेलिंग सूचियों का अनुरोध: Hadoop". issues.apache.org. Lucene PMC ने Nutch के हिस्से को Hadoop नाम की एक नई उप-परियोजना में विभाजित करने के लिए मतदान किया है
↑ Vance, Ashlee (17 March 2009). "हडूप, एक नि:शुल्क सॉफ्टवेयर प्रोग्राम, खोज से परे उपयोग पाता है". The New York Times. Archived from the original on 30 August 2011. Retrieved 20 January 2010.
↑ Cutting, Doug (30 March 2006). "[परिणाम] वोट: हडूप कमिटर के रूप में ओवेन ओ'माल्ली को जोड़ें". hadoop-common-dev (Mailing list).
↑ "/dist/hadoop/core". archive.apache.org. Retrieved 11 December 2017.
↑ "हम कौन हैं". hadoop.apache.org. Retrieved 11 December 2017.
↑ Borthakur, Dhruba (2006). "द हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम: आर्किटेक्चर एंड डिजाइन" (PDF). Apache Hadoop Code Repository.
↑ Chouraria, Harsh (21 October 2012). "MR2 और यार्न संक्षेप में समझाया". Cloudera.com. Archived from the original on 22 October 2013. Retrieved 23 October 2013.
↑ "एचडीएफएस उपयोगकर्ता गाइड". Hadoop.apache.org. Retrieved 4 September 2014.
↑ deRoos, Dirk. "Hadoop फ़ाइल सिस्टम कमांड के साथ फ़ाइलें प्रबंधित करना". dummies.com. For Dummies. Retrieved 21 June 2016.
↑ Balram. "शुरुआती लोगों के लिए बिग डेटा हडूप ट्यूटोरियल". www.gyansetu.in (in English). Retrieved 11 March 2021.
↑ "Apache Hadoop 2.7.5 - HDFS उपयोगकर्ता गाइड". Archived from the original on 23 October 2019. Retrieved 19 June 2020.
↑ "एचडीएफएस आर्किटेक्चर". Retrieved 1 September 2013.
↑ ^31.0 ^31.1 Pessach, Yaniv (2013). "वितरित भंडारण" (वितरित भंडारण: Concepts, Algorithms, and Implementations ed.). OL 25423189M. {{cite journal}}: Cite journal requires |journal= (help)
↑ "संस्करण 2.0 मैनुअल फेलओवर प्रदान करता है और वे स्वचालित फेलओवर पर काम कर रहे हैं". Hadoop.apache.org. Retrieved 30 July 2013.
↑ "विषम Hadoop समूहों में डेटा प्लेसमेंट के माध्यम से MapReduce के प्रदर्शन में सुधार" (PDF). Eng.auburn.ed. April 2010.
↑ "बढ़ते एचडीएफएस". Retrieved 5 August 2016.
↑ Shafer, Jeffrey; Rixner, Scott; Cox, Alan. "द हडूप डिस्ट्रीब्यूटेड फाइलसिस्टम: बैलेंसिंग पोर्टेबिलिटी एंड परफॉर्मेंस" (PDF). Rice University. Retrieved 19 September 2016.
↑ Mouzakitis, Evan (21 July 2016). "Hadoop प्रदर्शन मेट्रिक्स कैसे एकत्रित करें". Retrieved 24 October 2016.
↑ "एचडीएफएस उपयोगकर्ता गाइड - रैक जागरूकता". Hadoop.apache.org. Retrieved 17 October 2013.
↑ "क्लाउड एनालिटिक्स: क्या हमें वास्तव में स्टोरेज स्टैक को फिर से बनाने की जरूरत है?" (PDF). IBM. June 2009.
↑ "HADOOP-6330: Hadoop फाइलसिस्टम इंटरफेस के IBM जनरल पैरेलल फाइल सिस्टम कार्यान्वयन को एकीकृत करना". IBM. 23 October 2009.
↑ "HADOOP-6704: पैरास्केल फ़ाइल सिस्टम के लिए समर्थन जोड़ें". Parascale. 14 April 2010.
↑ "CloudIQ स्टोरेज के साथ HDFS". Appistry,Inc. 6 July 2010. Archived from the original on 5 April 2014. Retrieved 10 December 2013.
↑ "उच्च उपलब्धता हडूप". HP. 9 June 2010.
↑ "कमांड गाइड". 17 August 2011. Archived from the original on 17 August 2011. Retrieved 11 December 2017.{{cite web}}: CS1 maint: bot: original URL status unknown (link)
↑ "शेड्यूलर को जॉबट्रैकर से रिफलेक्टर करें". Hadoop Common. Apache Software Foundation. Retrieved 9 June 2012.
↑ Jones, M. Tim (6 December 2011). "हडूप में निर्धारण". ibm.com. IBM. Retrieved 20 November 2013.
↑ "Hadoop फेयर शेड्यूलर डिज़ाइन दस्तावेज़" (PDF). apache.org. Retrieved 12 October 2017.
↑ "क्षमता अनुसूचक गाइड". Hadoop.apache.org. Retrieved 31 December 2015.
↑ "कैसे Apache Hadoop 3 Apache Hadoop 2 से अधिक मूल्य जोड़ता है". hortonworks.com. 7 February 2018. Retrieved 11 June 2018.
↑ Chintapalli, Sanket; Dagit, Derek; Evans, Bobby; Farivar, Reza; Graves, Thomas; Holderbaugh, Mark; Liu, Zhuo; Nusbaum, Kyle; Patil, Kishorkumar; Peng, Boyang Jerry; Poulosky, Paul (May 2016). "Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming". 2016 IEEE अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी कार्यशालाएँ (IPDPSW). IEEE. pp. 1789–1792. doi:10.1109/IPDPSW.2016.138. ISBN 978-1-5090-3682-0. S2CID 2180634.
↑ "DBMS2 में "कैसे 30+ उद्यम Hadoop का उपयोग कर रहे हैं"". Dbms2.com. 10 October 2009. Retrieved 17 October 2013.
↑ "याहू! दुनिया का सबसे बड़ा Hadoop प्रोडक्शन एप्लिकेशन लॉन्च किया". Yahoo. 19 February 2008. Archived from the original on 7 March 2016. Retrieved 31 December 2015.
↑ "Yahoo! पर Hadoop और वितरित कंप्यूटिंग". Yahoo!. 20 April 2011. Retrieved 17 October 2013.
↑ "HDFS: Facebook के पास दुनिया का सबसे बड़ा Hadoop क्लस्टर है!". Hadoopblog.blogspot.com. 9 May 2010. Retrieved 23 May 2012.
↑ "हुड के तहत: Hadoop ने Namenode और Avatarnode के साथ फ़ाइल सिस्टम विश्वसनीयता वितरित की". Facebook. Retrieved 13 September 2012.
↑ "हुड के तहत: शेड्यूलिंग मानचित्र कोरोना के साथ नौकरियों को अधिक कुशलता से कम करें". Facebook. Retrieved 9 November 2012.
↑ "Altior का AltraSTAR - Hadoop स्टोरेज एक्सेलेरेटर और ऑप्टिमाइज़र अब CDH4 पर प्रमाणित है (Cloudera का वितरण Apache Hadoop संस्करण 4 सहित)" (Press release). Eatontown, NJ: Altior Inc. 18 December 2012. Retrieved 30 October 2013.
↑ "Hadoop - Microsoft Azure". azure.microsoft.com. Retrieved 11 December 2017.
↑ "हडूप". Azure.microsoft.com. Retrieved 22 July 2014.
↑ "हडूप इनोवेशन की गति क्यों तेज होनी चाहिए". Gigaom.com. 25 April 2011. Retrieved 17 October 2013.
↑ "हडूप को परिभाषित करना". Wiki.apache.org. 30 March 2013. Retrieved 17 October 2013.
↑ "Hadoop संगतता को परिभाषित करना: दोबारा गौर किया गया". Mail-archives.apache.org. 10 May 2011. Retrieved 17 October 2013.
↑ "Apache Accumulo उपयोगकर्ता पुस्तिका: सुरक्षा". apache.org. Apache Software Foundation. Retrieved 3 December 2014.

ग्रन्थसूची

Lam, Chuck (28 July 2010). Hadoop in Action (1st ed.). Manning Publications. p. 325. ISBN 978-1-935-18219-1.
Venner, Jason (22 June 2009). Pro Hadoop (1st ed.). Apress. p. 440. ISBN 978-1-430-21942-2. Archived from the original on 5 December 2010. Retrieved 3 July 2009.
White, Tom (16 June 2009). Hadoop: The Definitive Guide (1st ed.). O'Reilly Media. p. 524. ISBN 978-0-596-52197-4.
Vohra, Deepak (October 2016). Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools (1st ed.). Apress. p. 429. ISBN 978-1-4842-2199-0.
Wiktorski, Tomasz (January 2019). Data-intensive Systems. Cham, Switzerland: Springer. ISBN 978-3-030-04603-3.

इस पेज में लापता आंतरिक लिंक की सूची

बड़ा डेटा
जार (फ़ाइल स्वरूप)
वितरित प्रसंस्करण
समानांतर फ़ाइल सिस्टम
अपाचे ओजी
अपाचे फीनिक्स
विधि (संगणक प्रोग्रामिंग)
दुरस्तह प्रकिया कॉल
असफल ओवर
लोड (कंप्यूटिंग)
फीफो (कंप्यूटिंग और इलेक्ट्रॉनिक्स)
पूल (संगणक विज्ञान)
पूर्वक्रय (कम्प्यूटिंग)
डॉकर (सॉफ्टवेयर)

बाहरी संबंध

No URL found. Please specify a URL here or add one to Wikidata.

[1] "Hadoop Releases". apache.org. Apache Software Foundation. Retrieved 28 April 2019.

[releases-2] 2.0 ^2.1 ^2.2 "Apache Hadoop". Retrieved 27 September 2022.

[3] Judge, Peter (22 October 2012). "डॉग कटिंग: बिग डेटा इज़ नो बबल". silicon.co.uk. Retrieved 11 March 2018.

[4] Woodie, Alex (12 May 2014). "IBM Power पर Hadoop क्यों". datanami.com. Datanami. Retrieved 11 March 2018.

[5] Hemsoth, Nicole (15 October 2014). "क्रे ने हडूप को एचपीसी एयरस्पेस में लॉन्च किया". hpcwire.com. Retrieved 11 March 2018.

[homepage-6] "अपाचे हडूप में आपका स्वागत है!". hadoop.apache.org. Retrieved 25 August 2016.

[7] "Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) क्या है?". ibm.com. IBM. Retrieved 12 April 2021.{{cite web}}: CS1 maint: url-status (link)

[8] Malak, Michael (19 September 2014). "डेटा स्थानीयता: एचपीसी बनाम हडूप बनाम स्पार्क". datascienceassn.org. Data Science Association. Retrieved 30 October 2014.

[9] Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28वीं अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.

[10] "संसाधन (Apache Hadoop Main 2.5.1 API)". apache.org. Apache Software Foundation. 12 September 2014. Archived from the original on 6 October 2014. Retrieved 30 September 2014.

[11] Murthy, Arun (15 August 2012). "अपाचे हडूप यार्न - अवधारणाएं और अनुप्रयोग". hortonworks.com. Hortonworks. Retrieved 30 September 2014.

[12] "हडूप ईकोसिस्टम के भीतर बड़े डेटा अनुप्रयोग विकास को प्रज्वलित करने के लिए निरंतरता $10 मिलियन सीरीज़ ए राउंड बढ़ाती है". finance.yahoo.com. Marketwired. 14 November 2012. Retrieved 30 October 2014.

[13] "Hadoop से संबंधित परियोजनाओं पर". Hadoop.apache.org. Retrieved 17 October 2013.

[14] डेटा साइंस और बिग डेटा एनालिटिक्स: डिस्कवरिंग, एनालिसिस, विज़ुअलाइज़िंग एंड प्रेजेंटिंग डेटा. John Wiley & Sons. 19 December 2014. p. 300. ISBN 9781118876220. Retrieved 29 January 2015.

[15] "[nlpatumd] हडूप और पर्ल के साथ रोमांच". Mail-archive.com. 2 May 2010. Retrieved 5 April 2013.

[16] Cutting, Mike; Cafarella, Ben; Lorica, Doug (31 March 2016). "Apache Hadoop के अगले 10 साल". O'Reilly Media (in English). Retrieved 12 October 2017.

[17] Ghemawat, Sanjay; Gobioff, Howard; Leung, Shun-Tak (2003). "Google फाइल सिस्टम". pp. 20–43.

[18] Dean, Jeffrey; Ghemawat, Sanjay (2004). "MapReduce: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग". pp. 137–150.

[19] Cutting, Doug (28 January 2006). "नई मेलिंग सूचियों का अनुरोध: Hadoop". issues.apache.org. Lucene PMC ने Nutch के हिस्से को Hadoop नाम की एक नई उप-परियोजना में विभाजित करने के लिए मतदान किया है

[20] Vance, Ashlee (17 March 2009). "हडूप, एक नि:शुल्क सॉफ्टवेयर प्रोग्राम, खोज से परे उपयोग पाता है". The New York Times. Archived from the original on 30 August 2011. Retrieved 20 January 2010.

[21] Cutting, Doug (30 March 2006). "[परिणाम] वोट: हडूप कमिटर के रूप में ओवेन ओ'माल्ली को जोड़ें". hadoop-common-dev (Mailing list).

[22] "/dist/hadoop/core". archive.apache.org. Retrieved 11 December 2017.

[23] "हम कौन हैं". hadoop.apache.org. Retrieved 11 December 2017.

[24] Borthakur, Dhruba (2006). "द हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम: आर्किटेक्चर एंड डिजाइन" (PDF). Apache Hadoop Code Repository.

[25] Chouraria, Harsh (21 October 2012). "MR2 और यार्न संक्षेप में समझाया". Cloudera.com. Archived from the original on 22 October 2013. Retrieved 23 October 2013.

[26] "एचडीएफएस उपयोगकर्ता गाइड". Hadoop.apache.org. Retrieved 4 September 2014.

[27] Roos, Dirk. "Hadoop फ़ाइल सिस्टम कमांड के साथ फ़ाइलें प्रबंधित करना". dummies.com. For Dummies. Retrieved 21 June 2016.

[28] Balram. "शुरुआती लोगों के लिए बिग डेटा हडूप ट्यूटोरियल". www.gyansetu.in (in English). Retrieved 11 March 2021.

[29] "Apache Hadoop 2.7.5 - HDFS उपयोगकर्ता गाइड". Archived from the original on 23 October 2019. Retrieved 19 June 2020.

[30] "एचडीएफएस आर्किटेक्चर". Retrieved 1 September 2013.

[openlibrary1-31] 31.0 ^31.1 Pessach, Yaniv (2013). "वितरित भंडारण" (वितरित भंडारण: Concepts, Algorithms, and Implementations ed.). OL 25423189M. {{cite journal}}: Cite journal requires |journal= (help)

[failover-32] "संस्करण 2.0 मैनुअल फेलओवर प्रदान करता है और वे स्वचालित फेलओवर पर काम कर रहे हैं". Hadoop.apache.org. Retrieved 30 July 2013.

[33] "विषम Hadoop समूहों में डेटा प्लेसमेंट के माध्यम से MapReduce के प्रदर्शन में सुधार" (PDF). Eng.auburn.ed. April 2010.

[34] "बढ़ते एचडीएफएस". Retrieved 5 August 2016.

[35] Shafer, Jeffrey; Rixner, Scott; Cox, Alan. "द हडूप डिस्ट्रीब्यूटेड फाइलसिस्टम: बैलेंसिंग पोर्टेबिलिटी एंड परफॉर्मेंस" (PDF). Rice University. Retrieved 19 September 2016.

[36] Mouzakitis, Evan (21 July 2016). "Hadoop प्रदर्शन मेट्रिक्स कैसे एकत्रित करें". Retrieved 24 October 2016.

[37] "एचडीएफएस उपयोगकर्ता गाइड - रैक जागरूकता". Hadoop.apache.org. Retrieved 17 October 2013.

[38] "क्लाउड एनालिटिक्स: क्या हमें वास्तव में स्टोरेज स्टैक को फिर से बनाने की जरूरत है?" (PDF). IBM. June 2009.

[39] "HADOOP-6330: Hadoop फाइलसिस्टम इंटरफेस के IBM जनरल पैरेलल फाइल सिस्टम कार्यान्वयन को एकीकृत करना". IBM. 23 October 2009.

[40] "HADOOP-6704: पैरास्केल फ़ाइल सिस्टम के लिए समर्थन जोड़ें". Parascale. 14 April 2010.

[41] "CloudIQ स्टोरेज के साथ HDFS". Appistry,Inc. 6 July 2010. Archived from the original on 5 April 2014. Retrieved 10 December 2013.

[42] "उच्च उपलब्धता हडूप". HP. 9 June 2010.

[43] "कमांड गाइड". 17 August 2011. Archived from the original on 17 August 2011. Retrieved 11 December 2017.{{cite web}}: CS1 maint: bot: original URL status unknown (link)

[44] "शेड्यूलर को जॉबट्रैकर से रिफलेक्टर करें". Hadoop Common. Apache Software Foundation. Retrieved 9 June 2012.

[45] Jones, M. Tim (6 December 2011). "हडूप में निर्धारण". ibm.com. IBM. Retrieved 20 November 2013.

[46] "Hadoop फेयर शेड्यूलर डिज़ाइन दस्तावेज़" (PDF). apache.org. Retrieved 12 October 2017.

[47] "क्षमता अनुसूचक गाइड". Hadoop.apache.org. Retrieved 31 December 2015.

[48] "कैसे Apache Hadoop 3 Apache Hadoop 2 से अधिक मूल्य जोड़ता है". hortonworks.com. 7 February 2018. Retrieved 11 June 2018.

[49] Chintapalli, Sanket; Dagit, Derek; Evans, Bobby; Farivar, Reza; Graves, Thomas; Holderbaugh, Mark; Liu, Zhuo; Nusbaum, Kyle; Patil, Kishorkumar; Peng, Boyang Jerry; Poulosky, Paul (May 2016). "Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming". 2016 IEEE अंतर्राष्ट्रीय समानांतर और वितरित प्रसंस्करण संगोष्ठी कार्यशालाएँ (IPDPSW). IEEE. pp. 1789–1792. doi:10.1109/IPDPSW.2016.138. ISBN 978-1-5090-3682-0. S2CID 2180634.

[50] "DBMS2 में "कैसे 30+ उद्यम Hadoop का उपयोग कर रहे हैं"". Dbms2.com. 10 October 2009. Retrieved 17 October 2013.

[51] "याहू! दुनिया का सबसे बड़ा Hadoop प्रोडक्शन एप्लिकेशन लॉन्च किया". Yahoo. 19 February 2008. Archived from the original on 7 March 2016. Retrieved 31 December 2015.

[52] "Yahoo! पर Hadoop और वितरित कंप्यूटिंग". Yahoo!. 20 April 2011. Retrieved 17 October 2013.

[53] "HDFS: Facebook के पास दुनिया का सबसे बड़ा Hadoop क्लस्टर है!". Hadoopblog.blogspot.com. 9 May 2010. Retrieved 23 May 2012.

[54] "हुड के तहत: Hadoop ने Namenode और Avatarnode के साथ फ़ाइल सिस्टम विश्वसनीयता वितरित की". Facebook. Retrieved 13 September 2012.

[55] "हुड के तहत: शेड्यूलिंग मानचित्र कोरोना के साथ नौकरियों को अधिक कुशलता से कम करें". Facebook. Retrieved 9 November 2012.

[56] "Altior का AltraSTAR - Hadoop स्टोरेज एक्सेलेरेटर और ऑप्टिमाइज़र अब CDH4 पर प्रमाणित है (Cloudera का वितरण Apache Hadoop संस्करण 4 सहित)" (Press release). Eatontown, NJ: Altior Inc. 18 December 2012. Retrieved 30 October 2013.

[57] "Hadoop - Microsoft Azure". azure.microsoft.com. Retrieved 11 December 2017.

[58] "हडूप". Azure.microsoft.com. Retrieved 22 July 2014.

[59] "हडूप इनोवेशन की गति क्यों तेज होनी चाहिए". Gigaom.com. 25 April 2011. Retrieved 17 October 2013.

[60] "हडूप को परिभाषित करना". Wiki.apache.org. 30 March 2013. Retrieved 17 October 2013.

[61] "Hadoop संगतता को परिभाषित करना: दोबारा गौर किया गया". Mail-archives.apache.org. 10 May 2011. Retrieved 17 October 2013.

[62] "Apache Accumulo उपयोगकर्ता पुस्तिका: सुरक्षा". apache.org. Apache Software Foundation. Retrieved 3 December 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

@@ Line 46: / Line 46: @@
 == इतिहास ==
-इसके सह-संस्थापकों, [[ डॉग कटिंग ]] और [[ माइक कैफेरेला ]] के अनुसार, हडूप की उत्पत्ति Google फ़ाइल सिस्टम पेपर थी जो अक्टूबर 2003 में प्रकाशित हुई थी।<ref>{{Cite news|url=https://www.oreilly.com/ideas/the-next-10-years-of-apache-hadoop|title=Apache Hadoop के अगले 10 साल|last1=Cutting|first1=Mike|last2=Cafarella|first2=Ben|last3=Lorica|first3=Doug|date=2016-03-31|work=O'Reilly Media|access-date=2017-10-12|language=en}}</ref><ref>{{cite web|url=http://research.google.com/archive/gfs.html|title=Google फाइल सिस्टम|first1=Sanjay|last1=Ghemawat|first2=Howard|last2=Gobioff|first3=Shun-Tak|last3=Leung|year=2003|pages=20–43}}</ref> इस पेपर ने Google के एक और पेपर को जन्म दिया{{snd}} मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग।<ref>{{cite web|url=http://research.google.com/archive/mapreduce.html|title=MapReduce: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग|first1=Jeffrey|last1=Dean|first2=Sanjay|last2=Ghemawat|year=2004|pages=137–150}}</ref> विकास [[ अपाचे नच ]] परियोजना पर शुरू हुआ, लेकिन जनवरी 2006 में इसे नए हडूप उपप्रोजेक्ट में स्थानांतरित कर दिया गया।<ref>{{cite web|url=https://issues.apache.org/jira/browse/INFRA-700|title=नई मेलिंग सूचियों का अनुरोध: Hadoop|last=Cutting|first=Doug|date=28 Jan 2006|website=issues.apache.org|quote=Lucene PMC ने Nutch के हिस्से को Hadoop नाम की एक नई उप-परियोजना में विभाजित करने के लिए मतदान किया है}}</ref> डौग कटिंग, जो याहू! उस समय, इसका नाम अपने बेटे के खिलौने हाथी के नाम पर रखा।<ref>{{cite news |title=हडूप, एक नि:शुल्क सॉफ्टवेयर प्रोग्राम, खोज से परे उपयोग पाता है|first=Ashlee |last=Vance |newspaper=The New York Times |date=2009-03-17 |url=https://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html |access-date=2010-01-20 | archive-url= https://web.archive.org/web/20110830130350/http://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html|archive-date=30 August 2011| url-status=live }}</ref> नच से निकाले गए शुरुआती कोड में HDFS के लिए कोड की लगभग 5,000 लाइनें और मैपरेडुस के लिए कोड की लगभग 6,000 लाइनें शामिल थीं।
+इसके सह-संस्थापकों, [[ डॉग कटिंग ]] और [[ माइक कैफेरेला ]] के अनुसार, हडूप की उत्पत्ति गूगल फ़ाइल सिस्टम पेपर थी जो अक्टूबर 2003 में प्रकाशित किया गया था।<ref>{{Cite news|url=https://www.oreilly.com/ideas/the-next-10-years-of-apache-hadoop|title=Apache Hadoop के अगले 10 साल|last1=Cutting|first1=Mike|last2=Cafarella|first2=Ben|last3=Lorica|first3=Doug|date=2016-03-31|work=O'Reilly Media|access-date=2017-10-12|language=en}}</ref><ref>{{cite web|url=http://research.google.com/archive/gfs.html|title=Google फाइल सिस्टम|first1=Sanjay|last1=Ghemawat|first2=Howard|last2=Gobioff|first3=Shun-Tak|last3=Leung|year=2003|pages=20–43}}</ref> इस पेपर ने गूगल के एक और पेपर को जन्म दिया{{snd}} मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग।<ref>{{cite web|url=http://research.google.com/archive/mapreduce.html|title=MapReduce: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग|first1=Jeffrey|last1=Dean|first2=Sanjay|last2=Ghemawat|year=2004|pages=137–150}}</ref> विकास [[ अपाचे नच ]] परियोजना पर प्रारंभ हुआ, लेकिन जनवरी 2006 में इसे नए हडूप उपप्रोजेक्ट में स्थानांतरित कर दिया गया।<ref>{{cite web|url=https://issues.apache.org/jira/browse/INFRA-700|title=नई मेलिंग सूचियों का अनुरोध: Hadoop|last=Cutting|first=Doug|date=28 Jan 2006|website=issues.apache.org|quote=Lucene PMC ने Nutch के हिस्से को Hadoop नाम की एक नई उप-परियोजना में विभाजित करने के लिए मतदान किया है}}</ref> डौग कटिंग, जो याहू! उस समय, इसका नाम अपने बेटे के खिलौने हाथी के नाम पर रखा था।<ref>{{cite news |title=हडूप, एक नि:शुल्क सॉफ्टवेयर प्रोग्राम, खोज से परे उपयोग पाता है|first=Ashlee |last=Vance |newspaper=The New York Times |date=2009-03-17 |url=https://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html |access-date=2010-01-20 | archive-url= https://web.archive.org/web/20110830130350/http://www.nytimes.com/2009/03/17/technology/business-computing/17cloud.html|archive-date=30 August 2011| url-status=live }}</ref> नच से निकाले गए प्रारंभिक कोड में HDFS के लिए कोड की लगभग 5,000 लाइनें और मैपरेडुस के लिए कोड की लगभग 6,000 लाइनें शामिल थीं।
 मार्च 2006 में, ओवेन ओ'माल्ली हडूप प्रोजेक्ट में शामिल होने वाले पहले कमिटर थे;<ref>{{cite mailing list|first=Doug|last=Cutting|author-link=Doug Cutting|title=[परिणाम] वोट: हडूप कमिटर के रूप में ओवेन ओ'माल्ली को जोड़ें|mailing-list=hadoop-common-dev|date=30 March 2006|url=http://mail-archives.apache.org/mod_mbox/hadoop-common-dev/200603.mbox/%3C442B27A6.8080500@apache.org%3E}}</ref> हडूप 0.1.0 को अप्रैल 2006 में रिलीज़ किया गया था।<ref>{{cite web|url=https://archive.apache.org/dist/hadoop/core/|title=/dist/hadoop/core|website=archive.apache.org|access-date=11 December 2017}}</ref> यह परियोजना में किए जा रहे योगदान के माध्यम से विकसित होना जारी है।<ref>{{cite web|url=https://hadoop.apache.org/who.html|title=हम कौन हैं|website=hadoop.apache.org|access-date=11 December 2017}}</ref> हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम के लिए सबसे पहला डिज़ाइन दस्तावेज़ ध्रुबा बोरठाकुर द्वारा 2007 में लिखा गया था।<ref>{{Cite web|last=Borthakur|first=Dhruba|date=2006|title=द हडूप डिस्ट्रीब्यूटेड फाइल सिस्टम: आर्किटेक्चर एंड डिजाइन|url=http://svn.apache.org/repos/asf/hadoop/common/tags/release-0.10.0/docs/hdfs_design.pdf|website=Apache Hadoop Code Repository}}</ref>
@@ Line 53: / Line 53: @@
 == आर्किटेक्चर ==
 {{See also|#Hadoop_distributed_file_system|Apache HBase|MapReduce|l1=Hadoop Distributed File System}}
-हडूप में हडूप कॉमन पैकेज शामिल है, जो फ़ाइल सिस्टम और ऑपरेटिंग सिस्टम स्तर का सार प्रदान करता है, एक मैपरेडुस इंजन (या तो मैपरेडुस/MR1 या YARN/MR2)<ref>{{cite web |url=http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |title=MR2 और यार्न संक्षेप में समझाया|first=Harsh |last=Chouraria |date=21 October 2012 |website=Cloudera.com |access-date=23 October 2013 |archive-url=https://web.archive.org/web/20131022080058/http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |archive-date=22 October 2013 |url-status=dead }}</ref> और #हडूप वितरित फाइल सिस्टम (HDFS)। हडूप कॉमन पैकेज में जेएआर (फाइल फॉर्मेट) | जावा आर्काइव (जेएआर) फाइलें और हडूप शुरू करने के लिए आवश्यक स्क्रिप्ट शामिल हैं।
+हडूप में हडूप कॉमन पैकेज शामिल है, जो फ़ाइल सिस्टम और ऑपरेटिंग सिस्टम स्तर का सार प्रदान करता है, एक मैपरेडुस इंजन (या तो मैपरेडुस/MR1 या YARN/MR2)<ref>{{cite web |url=http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |title=MR2 और यार्न संक्षेप में समझाया|first=Harsh |last=Chouraria |date=21 October 2012 |website=Cloudera.com |access-date=23 October 2013 |archive-url=https://web.archive.org/web/20131022080058/http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ |archive-date=22 October 2013 |url-status=dead }}</ref> और #हडूप वितरित फाइल सिस्टम (HDFS)। हडूप कॉमन पैकेज में जेएआर (फाइल फॉर्मेट) | जावा आर्काइव (जेएआर) फाइलें और हडूप प्रारंभ करने के लिए आवश्यक स्क्रिप्ट शामिल हैं।
 काम के प्रभावी शेड्यूलिंग के लिए, प्रत्येक हडूप-संगत फाइल सिस्टम को स्थान जागरूकता प्रदान करनी चाहिए, जो कि रैक का नाम है, विशेष रूप से नेटवर्क स्विच जहां वर्कर नोड है। हडूप एप्लिकेशन इस जानकारी का उपयोग उस नोड पर कोड निष्पादित करने के लिए कर सकते हैं जहां डेटा है, और, विफल होने पर, उसी रैक/स्विच पर बैकबोन ट्रैफ़िक को कम करने के लिए। कई रैक में डेटा रिडंडेंसी के लिए डेटा की प्रतिकृति बनाते समय HDFS इस विधि का उपयोग करता है। यह दृष्टिकोण रैक पावर आउटेज या स्विच विफलता के प्रभाव को कम करता है; यदि इनमें से कोई हार्डवेयर विफलता होती है, तो डेटा उपलब्ध रहेगा।<ref>{{cite web |url=http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html |title=एचडीएफएस उपयोगकर्ता गाइड|publisher=Hadoop.apache.org |access-date=2014-09-04 }}</ref>
@@ Line 77: / Line 77: @@
 नाम नोड: एचडीएफएस में केवल एक नाम नोड होता है जिसे मास्टर नोड कहा जाता है। मास्टर नोड फाइलों को ट्रैक कर सकता है, फाइल सिस्टम का प्रबंधन कर सकता है और इसमें सभी संग्रहीत डेटा का [[ मेटा डेटा ]] है। विशेष रूप से, नाम नोड में ब्लॉक की संख्या, डेटा नोड के स्थान जिसमें डेटा संग्रहीत किया जाता है, जहां प्रतिकृति संग्रहीत की जाती है, और अन्य विवरण शामिल हैं। नाम नोड का क्लाइंट के साथ सीधा संपर्क है।
-डेटा नोड: एक डेटा नोड इसमें डेटा को ब्लॉक के रूप में संग्रहीत करता है। इसे दास नोड के रूप में भी जाना जाता है और यह वास्तविक डेटा को एचडीएफएस में संग्रहीत करता है जो क्लाइंट को पढ़ने और लिखने के लिए जिम्मेदार होता है। ये गुलाम दानव हैं। प्रत्येक डेटा नोड हर 3 सेकंड में नाम नोड को एक हार्टबीट संदेश भेजता है और बताता है कि यह जीवित है। इस तरह जब नाम नोड को 2 मिनट के लिए डेटा नोड से दिल की धड़कन नहीं मिलती है, तो यह उस डेटा नोड को मृत मान लेगा और किसी अन्य डेटा नोड पर ब्लॉक प्रतिकृति की प्रक्रिया शुरू कर देगा।
+डेटा नोड: एक डेटा नोड इसमें डेटा को ब्लॉक के रूप में संग्रहीत करता है। इसे दास नोड के रूप में भी जाना जाता है और यह वास्तविक डेटा को एचडीएफएस में संग्रहीत करता है जो क्लाइंट को पढ़ने और लिखने के लिए जिम्मेदार होता है। ये गुलाम दानव हैं। प्रत्येक डेटा नोड हर 3 सेकंड में नाम नोड को एक हार्टबीट संदेश भेजता है और बताता है कि यह जीवित है। इस तरह जब नाम नोड को 2 मिनट के लिए डेटा नोड से दिल की धड़कन नहीं मिलती है, तो यह उस डेटा नोड को मृत मान लेगा और किसी अन्य डेटा नोड पर ब्लॉक प्रतिकृति की प्रक्रिया प्रारंभ कर देगा।
 द्वितीयक नाम नोड: यह केवल फ़ाइल सिस्टम मेटाडेटा की चौकियों का ध्यान रखने के लिए है जो नाम नोड में है। इसे चेकपॉइंट नोड के रूप में भी जाना जाता है। यह नाम नोड के लिए सहायक नोड है। द्वितीयक नाम नोड नाम नोड को fsimage और editlog फ़ाइल बनाने और भेजने का निर्देश देता है, जिस पर द्वितीयक नाम नोड द्वारा संकुचित fsimage फ़ाइल बनाई जाती है।<ref>{{Cite web|last=Balram|title=शुरुआती लोगों के लिए बिग डेटा हडूप ट्यूटोरियल|url=https://www.gyansetu.in/big-data-hadoop-tutorial-for-beginners|access-date=2021-03-11|website=www.gyansetu.in|language=en}}</ref>
@@ Line 87: / Line 87: @@
 एचडीएफएस बड़ी फाइलों को स्टोर करता है (आमतौर पर गीगाबाइट्स से टेराबाइट्स की रेंज में<ref>{{cite web |title=एचडीएफएस आर्किटेक्चर|url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Large_Data_Sets |access-date=1 September 2013 }}</ref>) कई मशीनों में। यह कई मेजबानों में डेटा की [[ प्रतिकृति (कंप्यूटर विज्ञान) | प्रतिकृति (संगणक विज्ञान)]] द्वारा विश्वसनीयता प्राप्त करता है, और इसलिए सैद्धांतिक रूप से [[ RAID ]] की आवश्यकता नहीं होती है। मेजबानों पर स्वतंत्र डिस्क (RAID) भंडारण की अनावश्यक सरणी (लेकिन इनपुट-आउटपुट (I/O) प्रदर्शन को बढ़ाने के लिए कुछ RAID कॉन्फ़िगरेशन अभी भी उपयोगी हैं)। डिफ़ॉल्ट प्रतिकृति मान, 3 के साथ, डेटा तीन नोड्स पर संग्रहीत होता है: दो एक ही रैक पर, और एक अलग रैक पर। डेटा नोड्स एक दूसरे से डेटा को पुनर्संतुलित करने, प्रतियों को इधर-उधर ले जाने और डेटा की प्रतिकृति को उच्च रखने के लिए बात कर सकते हैं। HDFS पूरी तरह से POSIX- संगत नहीं है, क्योंकि POSIX फाइल-सिस्टम की आवश्यकताएं हडूप एप्लिकेशन के लक्ष्य लक्ष्यों से भिन्न होती हैं। पूरी तरह से POSIX-अनुपालन फ़ाइल-सिस्टम नहीं होने का ट्रेड-ऑफ़ डेटा [[ throughput ]] के लिए बढ़ा हुआ प्रदर्शन है और गैर-POSIX संचालन जैसे संलग्न के लिए समर्थन है।<ref name="openlibrary1">{{Cite journal|first = Yaniv |last = Pessach|title = वितरित भंडारण|edition = वितरित भंडारण: Concepts, Algorithms, and Implementations|date = 2013
 |ol = 25423189M }}</ref>
-मई 2012 में, HDFS में उच्च-उपलब्धता क्षमताओं को जोड़ा गया,<ref name="failover">{{cite web |title=संस्करण 2.0 मैनुअल फेलओवर प्रदान करता है और वे स्वचालित फेलओवर पर काम कर रहे हैं|url=https://hadoop.apache.org/releases.html#23+May%2C+2012%3A+Release+2.0.0-alpha+available  |access-date= 30 July 2013 |publisher=Hadoop.apache.org }}</ref> NameNode नामक मुख्य मेटाडेटा सर्वर को बैकअप पर मैन्युअल रूप से विफल होने देना। परियोजना ने स्वचालित विफलता-ओवरों का विकास भी शुरू कर दिया है।
+मई 2012 में, HDFS में उच्च-उपलब्धता क्षमताओं को जोड़ा गया,<ref name="failover">{{cite web |title=संस्करण 2.0 मैनुअल फेलओवर प्रदान करता है और वे स्वचालित फेलओवर पर काम कर रहे हैं|url=https://hadoop.apache.org/releases.html#23+May%2C+2012%3A+Release+2.0.0-alpha+available  |access-date= 30 July 2013 |publisher=Hadoop.apache.org }}</ref> NameNode नामक मुख्य मेटाडेटा सर्वर को बैकअप पर मैन्युअल रूप से विफल होने देना। परियोजना ने स्वचालित विफलता-ओवरों का विकास भी प्रारंभ कर दिया है।
 एचडीएफएस फाइल सिस्टम में एक तथाकथित द्वितीयक नामेनोड शामिल है, एक भ्रामक शब्द है कि प्राथमिक नामेनोड के ऑफ़लाइन होने पर कुछ गलत तरीके से बैकअप नामेनोड के रूप में व्याख्या कर सकते हैं। वास्तव में, द्वितीयक नामेनोड नियमित रूप से प्राथमिक नामेनोड से जुड़ता है और प्राथमिक नामेनोड की निर्देशिका जानकारी का स्नैपशॉट बनाता है, जिसे सिस्टम तब स्थानीय या दूरस्थ निर्देशिकाओं में सहेजता है। इन चेकपॉइंट छवियों का उपयोग फ़ाइल-सिस्टम क्रियाओं के पूरे जर्नल को फिर से चलाने के बिना एक असफल प्राथमिक नामनोड को पुनरारंभ करने के लिए किया जा सकता है, फिर एक अप-टू-डेट निर्देशिका संरचना बनाने के लिए लॉग को संपादित करने के लिए। क्योंकि मेटाडेटा के भंडारण और प्रबंधन के लिए नामेनोड एकल बिंदु है, यह बड़ी संख्या में फ़ाइलों, विशेष रूप से बड़ी संख्या में छोटी फ़ाइलों का समर्थन करने के लिए एक अड़चन बन सकता है। एचडीएफएस फेडरेशन, एक नया अतिरिक्त, अलग-अलग नामनोड्स द्वारा कई नामस्थानों की अनुमति देकर इस समस्या से कुछ हद तक निपटने का लक्ष्य रखता है। इसके अलावा, HDFS में कुछ समस्याएँ हैं जैसे छोटी फ़ाइल समस्याएँ, मापनीयता समस्याएँ, एकल बिंदु विफलता (SPoF), और विशाल मेटाडेटा अनुरोधों में अड़चनें।
@@ Line 197: / Line 197: @@
 * जेफरी डीन, संजय घेमावत (2004) [https://www.usenix.org/legacy/publications/library/proceedings/osdi04/tech/full_papers/dean/dean_html/index.html मैपरेडुस: बड़े समूहों पर सरलीकृत डाटा प्रोसेसिंग] , गूगल। इस पेपर ने डॉग कटिंग को मैप-रिड्यूस फ्रेमवर्क के ओपन-सोर्स कार्यान्वयन को विकसित करने के लिए प्रेरित किया। उन्होंने अपने बेटे के खिलौने वाले हाथी के नाम पर इसका नाम हडूप रखा।
 * माइकल फ्रैंकलिन, एलोन हैलेवी, डेविड मैयर (2005) [http://www.eecs.berkeley.edu/~franklin/Papers/dataspaceSR.pdf डेटाबेस से डेटास्पेस तक: सूचना प्रबंधन के लिए एक नया सार]। लेखक सभी डेटा स्वरूपों को स्वीकार करने और डेटा एक्सेस के लिए एपीआई प्रदान करने के लिए स्टोरेज सिस्टम की आवश्यकता पर प्रकाश डालते हैं जो डेटा की स्टोरेज सिस्टम की समझ के आधार पर विकसित होते हैं।
-* फे चांग एट अल।<!-- Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, Robert E. Gruber --> (2006) [http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/bigtable-osdi06.pdf बिगटेबल: संरचित डेटा के लिए एक वितरित संग्रहण प्रणाली], Google।
+* फे चांग एट अल।<!-- Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, Robert E. Gruber --> (2006) [http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/bigtable-osdi06.pdf बिगटेबल: संरचित डेटा के लिए एक वितरित संग्रहण प्रणाली], गूगल।
 * रॉबर्ट कल्मन एट अल।<!-- Hideaki Kimura, Jonathan Natkins, Andrew Pavlo, Alexander Rasin, Stanley Zdonik, Evan P. C. Jones, Samuel Madden, Michael Stonebraker, Yang Zhang, John Hugg, Daniel J. Abadi --> (2008) [http://www.vldb.org/pvldb/vol1/1454211.pdf एच-स्टोर: एक उच्च-प्रदर्शन, वितरित मुख्य मेमोरी लेनदेन प्रसंस्करण प्रणाली]

v t e The Apache Software Foundation
Top-level projects	Accumulo ActiveMQ Airflow Ambari Ant Aries Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound Brooklyn Buildr Calcite Camel CarbonData Cassandra Cayenne Chemistry CloudStack Cocoon Cordova CouchDB cTAKES CXF Derby Directory Drill Druid Empire-db Felix Flex Flink Flume FreeMarker Geronimo Giraph Gump Hadoop HBase Helix Hive Impala Jackrabbit James Jena Jini JMeter Kafka Kudu Kylin Lucene Mahout Maven MINA mod_perl MyFaces NiFi NetBeans Nutch OFBiz Oozie OpenEJB OpenJPA OpenNLP OрenOffice ORC PDFBox Parquet Phoenix POI Pig Pinot Pivot Qpid Roller RocketMQ Samza ServiceMix Shiro SINGA Sling Solr Spark Storm SpamAssassin Struts 1 Struts 2 Subversion Superset SystemDS Tapestry Thrift Tika Tomcat Trafodion Traffic Server UIMA Velocity Wicket Xalan Xerces XMLBeans Yetus ZooKeeper
Commons	BCEL BSF Daemon Jelly Logging
Incubator	MXNet NuttX Taverna
Other projects	Batik Chainsaw FOP Ivy Log4j
Attic	Abdera Apex AxKit Beehive Bluesky iBATIS C++ Standard Library Cactus Click Continuum Deltacloud Etch Excalibur Forrest Hama Harmony HiveMind Jakarta Lenya Marmotta ODE Shale Shindig Slide Sqoop Stanbol Tuscany Wave Wink XML
Licenses	Apache License
Category

Anonymous

Search

अपाचे हडूप: Difference between revisions

Namespaces

More

Page actions

Revision as of 09:33, 19 December 2022

Contents

इतिहास

आर्किटेक्चर

अन्य फाइल सिस्टम

जॉबट्रैकर और टास्कट्रैकर: मैपरेडस इंजन

== निर्धारण

फेयर शेड्यूलर

क्षमता अनुसूचक

अन्य अनुप्रयोग

प्रमुख उपयोग के मामले

क्लाउड में हडूप होस्टिंग

वाणिज्यिक समर्थन

ब्रांडिंग

पेपर

यह भी देखें

संदर्भ

ग्रन्थसूची

इस पेज में लापता आंतरिक लिंक की सूची

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

अपाचे हडूप: Difference between revisions

Revision as of 09:33, 19 December 2022

इतिहास

आर्किटेक्चर

अन्य फाइल सिस्टम

जॉबट्रैकर और टास्कट्रैकर: मैपरेडस इंजन

== निर्धारण

फेयर शेड्यूलर

क्षमता अनुसूचक

अन्य अनुप्रयोग

प्रमुख उपयोग के मामले

क्लाउड में हडूप होस्टिंग

वाणिज्यिक समर्थन

ब्रांडिंग

पेपर

यह भी देखें

संदर्भ

ग्रन्थसूची

इस पेज में लापता आंतरिक लिंक की सूची

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories