डेटा-इंटेंसिव कंप्यूटिंग

डेटा-इंटेंसिव कंप्यूटिंग पैरेलल कंप्यूटिंग अनुप्रयोगों का वर्ग है जो डेटा की बड़ी मात्रा को संसाधित करने के लिए डेटा पैरेलल दृष्टिकोण का उपयोग करता है, सामान्यतः टेराबाइट या पेटाबाइट आकार में और सामान्यतः बड़े डेटा के रूप में जाना जाता है। इस प्रकार कंप्यूटिंग अनुप्रयोग जो अपने अधिकांश एक्सेक्यूशन समय को कम्प्यूटेशनल आवश्यकताओं के लिए समर्पित करते हैं, उन्हें कंप्यूट इंटेंसिव माना जाता है, जबकि कंप्यूटिंग अनुप्रयोगों को बड़ी मात्रा में डेटा की आवश्यकता होती है और उनके अधिकांश प्रसंस्करण समय को I/O और डेटा के परिवर्तन के लिए समर्पित किया जाता है, उन्हें डेटा-इंटेंसिव माना जाता है।

परिचय
इंटरनेट और वर्ल्ड वाइड वेब के तेजी से विकास के कारण बड़ी मात्रा में सूचना ऑनलाइन उपलब्ध हो गई थी। इसके अतिरिक्त, व्यवसाय और सरकारी संगठन बड़ी मात्रा में संरचित और असंरचित सूचना बनाते हैं जिन्हें संसाधित, विश्लेषण और लिंक करने की आवश्यकता होती है। विंटन सेर्फ़ ने इसे "इनफार्मेशन अवालांचे" के रूप में वर्णित किया और कहा कि "हमें इंटरनेट की ऊर्जा का दोहन करना चाहिए, इससे पहले कि इससे प्राप्त सूचना हमें समाप्त कर दे"। इस प्रकार ईएमसी कॉर्पोरेशन द्वारा प्रायोजित अंतर्राष्ट्रीय डेटा कॉर्पोरेशन श्वेत पत्र में अनुमान लगाया गया है कि 2007 में डिजिटल रूप में संग्रहीत सूचना की मात्रा 281 एक्साबाइट थी और समग्र चक्रवृद्धि दर 57% थी और संगठनों में सूचना और भी तेज दर से बढ़ रही थी। तथाकथित सूचना विस्फोट के 2003 के अध्ययन में यह अनुमान लगाया गया था कि सभी वर्तमान सूचनाओं का 95% संरचित सूचना की तुलना में बढ़ी हुई डेटा प्रोसेसिंग आवश्यकताओं के साथ असंरचित रूप में उपस्थित है। इस विशाल मात्रा में डेटा का संग्रहण, मैनेजमेंट, पहुंच और प्रसंस्करण मूलभूत आवश्यकता और इस डेटा को सूचना के रूप में देखने, विश्लेषण करने, खनन करने और कल्पना करने की आवश्यकताओ को पूरा करने के लिए बड़ी चुनौती का प्रतिनिधित्व करता है। डेटा-इंटेंसिव कंप्यूटिंग का उद्देश्य इस आवश्यकता को पूरा करना है।

पैरेलल कंप्यूटिंग दृष्टिकोण को सामान्यतः या तो कंप्यूट इंटेंसिव, या डेटा-इंटेंसिव के रूप में वर्गीकृत किया जा सकता है।  कंप्यूट-इंटेंसिव का उपयोग उन एप्लिकेशन प्रोग्रामों का वर्णन करने के लिए किया जाता है जो कंप्यूट बाउंड हैं। इस प्रकार ऐसे एप्लिकेशन अपना अधिकांश एक्सेक्यूशन समय I/O के विपरीत कम्प्यूटेशनल आवश्यकताओं के लिए समर्पित करते हैं, और सामान्यतः कम मात्रा में डेटा की आवश्यकता होती है। कंप्यूट इंटेंसिव अनुप्रयोगों के पैरेलल प्रसंस्करण में सामान्यतः आवेदन प्रक्रिया के अन्दर भिन्न-भिन्न एल्गोरिदम को पैरेलल करना और समग्र अनुप्रयोग प्रक्रिया को भिन्न-भिन्न कार्यों में विघटित करना सम्मिलित होता है, जिसे सीरियल प्रोसेसिंग की तुलना में समग्र उच्च प्रदर्शन प्राप्त करने के लिए उपयुक्त कंप्यूटिंग प्लेटफॉर्म पर पैरेलल में निष्पादित किया जा सकता है। कंप्यूट इंटेंसिव अनुप्रयोगों में, विभिन्न ऑपरेशन एक साथ किए जाते हैं, प्रत्येक ऑपरेशन समस्या के विशेष भाग को संबोधित करता है। इसे अधिकांशतः टास्क परललिस्म के रूप में जाना जाता है।

डेटा-इंटेंसिव का उपयोग उन अनुप्रयोगों का वर्णन करने के लिए किया जाता है जो I/O बाध्य हैं या जिन्हें बड़ी मात्रा में डेटा संसाधित करने की आवश्यकता है। ऐसे एप्लिकेशन अपना अधिकांश प्रसंस्करण समय I/O और डेटा के संचलन और परिवर्तन में लगाते हैं। डेटा-इंटेंसिव अनुप्रयोगों की पैरेलल कंप्यूटिंग में सामान्यतः डेटा को विभिन्न खंडों में विभाजित करना या उप-विभाजित करना सम्मिलित होता है, जिसे उपयुक्त कंप्यूटिंग प्लेटफ़ॉर्म पर पैरेलल में एक ही एक्सेक्यूशन योग्य एप्लिकेशन प्रोग्राम का उपयोग करके स्वतंत्र रूप से संसाधित किया जा सकता है, पुनः पूर्ण आउटपुट डेटा का उत्पादन करने के लिए परिणामों को पुनः से एकत्र किया जा सकता है। डेटा का समग्र वितरण जितना अधिक होगा, डेटा के पैरेलल प्रसंस्करण में उतना ही अधिक लाभ होगा। इस प्रकार डेटा-इंटेंसिव प्रसंस्करण आवश्यकताएं सामान्यतः डेटा के आकार के अनुसार रैखिक रूप से मापी जाती हैं और सीधे समानांतरीकरण के लिए बहुत उपयुक्त होती हैं। डेटा-इंटेंसिव कंप्यूटिंग के लिए मूलभूत चुनौतियाँ तेजी से बढ़ती डेटा मात्रा का मैनेजमेंट और प्रसंस्करण करना, व्यावहारिक, समय पर अनुप्रयोगों का समर्थन करने के लिए संबंधित डेटा विश्लेषण चक्रों को महत्वपूर्ण रूप से कम करना और नए एल्गोरिदम विकसित करना है जो बड़ी मात्रा में डेटा को खोजने और संसाधित करने के लिए स्केल कर सकते हैं। शोधकर्ताओं ने रिकॉर्ड प्रसंस्करण गति को मापने के लिए प्रति सेकंड अरबों रिकॉर्ड के लिए बीओआरपीएस शब्द लिखा, ठीक उसी प्रकार जैसे एमआईपीएस शब्द कंप्यूटर की प्रसंस्करण गति का वर्णन करने के लिए प्रयुक्त होता है।

डेटा-परललिस्म
कंप्यूटर सिस्टम आर्किटेक्चर जो डेटा पैरेलल अनुप्रयोगों का समर्थन कर सकते हैं, उन्हें डेटा-इंटेंसिव कंप्यूटिंग की बड़े मापदंड पर डेटा प्रोसेसिंग आवश्यकताओं के लिए 2000 के दशक की प्रारंभ में बढ़ावा दिया गया था। डेटा-परललिस्म ने डेटा के सेट के प्रत्येक डेटा आइटम पर स्वतंत्र रूप से गणना प्रयुक्त की थी, जो डेटा की मात्रा के साथ पैरेलर की डिग्री को मापने की अनुमति देता है। इस प्रकार डेटा-पैरेलल अनुप्रयोगों को विकसित करने का सबसे महत्वपूर्ण कारण स्केलेबल प्रदर्शन की क्षमता है, और इसके परिणामस्वरूप परिमाण के प्रदर्शन में सुधार के विभिन्न क्रम हो सकते हैं। डेटा-परललिस्म का उपयोग करके विकासशील अनुप्रयोगों में प्रमुख उद्देश्य एल्गोरिदम की पसंद, डेटा अपघटन के लिए रणनीति, प्रसंस्करण नोड्स पर लोड संतुलन (कंप्यूटिंग), नोड्स के मध्य मैसेज पासिंग संचार और परिणामों की समग्र स्पष्टता हैं। डेटा पैरेलल एप्लिकेशन के विकास में उपलब्ध प्रोग्रामिंग टूल के संदर्भ में समस्या को परिभाषित करने और टारगेट आर्किटेक्चर की सीमाओं को संबोधित करने के लिए पर्याप्त प्रोग्रामिंग टूल्स सम्मिलित हो सकती है। वेब डाक्यूमेंट्स से सूचना निष्कर्षण और अनुक्रमण डेटा-इंटेंसिव कंप्यूटिंग की विशेषता है जो डेटा पैरेलल कार्यान्वयन से महत्वपूर्ण प्रदर्शन लाभ प्राप्त कर सकता है क्योंकि वेब और अन्य प्रकार के डॉक्यूमेंट संग्रहों को सामान्यतः पैरेलल में संसाधित किया जा सकता है।

यूएस राष्ट्रीय विज्ञान संस्था (एनएसएफ) ने 2009 से 2010 तक शोध प्रोग्राम को वित्त पोषित किया था। फोकस के क्षेत्र थे:


 * डेटा-इंटेंसिव सिस्टम पर डेटा की पैरेलल कंप्यूटिंग को संबोधित करने के लिए पैरेलल प्रोग्रामिंग के दृष्टिकोण है।
 * मॉडल, लैंग्वेज और एल्गोरिदम सहित प्रोग्रामिंग एब्स्ट्रैक्शन जो डेटा के पैरेलल प्रसंस्करण की प्राकृतिक अभिव्यक्ति की अनुमति देते हैं।
 * उच्च स्तर की विश्वसनीयता, दक्षता, उपलब्धता और स्केलेबिलिटी प्रदान करने के लिए डेटा-इंटेंसिव कंप्यूटिंग प्लेटफ़ॉर्म का डिज़ाइन किया गया है।
 * ऐसे अनुप्रयोगों की पहचान करना जो इस कंप्यूटिंग प्रतिमान का लाभ ले सकते हैं और यह निर्धारित करना कि उभरते डेटा-इंटेंसिव अनुप्रयोगों का समर्थन करने के लिए इसे कैसे विकसित किया जाना चाहिए

पैसिफिक नॉर्थवेस्ट नेशनल लैब्स ने डेटा-इंटेंसिव कंप्यूटिंग को "मात्रा और दर पर डेटा को कैप्चर करना, प्रबंधित करना, विश्लेषण करना और समझना जो वर्तमान प्रौद्योगिकियों की सीमाओं को आगे बढ़ाता है" के रूप में परिभाषित किया है।

दृष्टिकोण
डेटा-इंटेंसिव कंप्यूटिंग प्लेटफ़ॉर्म सामान्यतः उच्च गति संचार स्विच और नेटवर्क का उपयोग करके जुड़े बड़े कमोडिटी क्लस्टर (कंप्यूटिंग) में विभिन्न प्रोसेसर और डिस्क को मिलाकर पैरेलल कंप्यूटिंग दृष्टिकोण का उपयोग करते हैं जो डेटा को उपलब्ध कंप्यूटिंग संसाधनों के मध्य विभाजित करने और प्रदर्शन प्राप्त करने के लिए स्वतंत्र रूप से संसाधित करने की अनुमति देता है। और डेटा की मात्रा के आधार पर स्केलेबिलिटी क्लस्टर को एक प्रकार के पैरेलल और डिस्ट्रिब्यूटेड सिस्टम के रूप में परिभाषित किया जा सकता है, जिसमें एकल एकीकृत कंप्यूटिंग संसाधन के रूप में साथ कार्य करने वाले इंटर-कनेक्टेड स्टैंड-अलोन कंप्यूटरों का संग्रह होता है। इस प्रकार पैरेलल प्रसंस्करण के इस दृष्टिकोण को अधिकांशतः "शेयर नथिंग" दृष्टिकोण के रूप में जाना जाता है क्योंकि प्रोसेसर, लोकल मेमोरी और डिस्क संसाधनों से युक्त प्रत्येक नोड क्लस्टर में अन्य नोड्स के साथ कुछ भी साझा नहीं करता है। पैरेलल कंप्यूटिंग में यह दृष्टिकोण डेटा-इंटेंसिव कंप्यूटिंग और उन समस्याओं के लिए उपयुक्त माना जाता है जो "ऐम्बर्रसिंगली पैरेलल" हैं, अर्थात जहां समस्या को विभिन्न पैरेलल कार्यों में भिन्न करना अपेक्षाकृत सरल है और कार्यों के समग्र मैनेजमेंट के अतिरिक्त कार्यों के मध्य किसी निर्भरता या संचार की आवश्यकता नहीं है। इस प्रकार की डेटा प्रोसेसिंग प्रॉब्लम क्लस्टर, डेटा ग्रिड और क्लाउड कम्प्यूटिंग सहित डिस्ट्रिब्यूटेड कंप्यूटिंग के विभिन्न रूपों के लिए स्वाभाविक रूप से अनुकूलनीय हैं।

विशेषताएँ
डेटा-इंटेंसिव कंप्यूटिंग सिस्टम की विभिन्न सामान्य विशेषताएं उन्हें कंप्यूटिंग के अन्य रूपों से भिन्न करती हैं:
 * 1) गणना करने के लिए डेटा और प्रोग्राम या एल्गोरिदम के संग्रह के सिद्धांत का उपयोग किया जाता है। डेटा-इंटेंसिव कंप्यूटिंग में उच्च प्रदर्शन प्राप्त करने के लिए, डेटा की गति को कम करना महत्वपूर्ण है। यह विशेषता प्रसंस्करण एल्गोरिदम को उन नोड्स पर निष्पादित करने की अनुमति देती है जहां डेटा सिस्टम ओवरहेड को कम करता है और इन्फिनीबैंड प्रदर्शन बढ़ाता है। जैसी नई प्रौद्योगिकियाँ डेटा को भिन्न संग्रह में संग्रहीत करने की अनुमति देती हैं और एकत्रित डेटा के तुलनीय प्रदर्शन प्रदान करती हैं।
 * 2) उपयोग किया गया प्रोग्रामिंग मॉडल. डेटा-इंटेंसिव कंप्यूटिंग सिस्टम मशीन-स्वतंत्र दृष्टिकोण का उपयोग करते हैं जिसमें अनुप्रयोगों को डेटा पर उच्च-स्तरीय संचालन के संदर्भ में व्यक्त किया जाता है, और रनटाइम सिस्टम पारदर्शी रूप से प्रोग्राम और डेटा के शेड्यूलिंग, एक्सेक्यूशन, लोड संतुलन, संचार और आंदोलन को नियंत्रित करता है। डिस्ट्रिब्यूटेड कंप्यूटिंग क्लस्टर प्रोग्रामिंग एब्स्ट्रैक्शन और लैंग्वेज उपकरण प्रसंस्करण को डेटा फ्लो और परिवर्तनों के संदर्भ में व्यक्त करने की अनुमति देते हैं जिसमें नई डेटाफ्लो प्रोग्रामिंग लैंग्वेज और सॉर्टिंग जैसे सामान्य डेटा परिवर्तन एल्गोरिदम की शेयर लाइब्रेरी सम्मिलित होती हैं।
 * 3) विश्वसनीयता और उपलब्धता पर ध्यान सैकड़ों या हजारों प्रोसेसिंग नोड्स वाले बड़े मापदंड के सिस्टम स्वाभाविक रूप से हार्डवेयर विफलताओं, संचार त्रुटियों और सॉफ़्टवेयर बग के प्रति अधिक संवेदनशील होते हैं। डेटा-इंटेंसिव कंप्यूटिंग सिस्टम को दोष प्रतिरोधी होने के लिए डिज़ाइन किया गया है। इस प्रकार इसमें सामान्यतः डिस्क पर सभी डेटा फ़ाइलों की अनावश्यक प्रतियां, डिस्क पर मध्यवर्ती प्रसंस्करण परिणामों का संग्रहण, नोड या प्रसंस्करण विफलताओं का स्वचालित पता लगाना और परिणामों की चयनात्मक पुन: गणना सम्मिलित है।
 * 4) इन्हेरेंट हार्डवेयर और सॉफ़्टवेयर आर्किटेक्चर की इन्हेरेंट मापनीयता डेटा-इंटेंसिव कंप्यूटिंग सिस्टम को सामान्यतः डेटा की किसी भी मात्रा को समायोजित करने के लिए, या केवल अतिरिक्त प्रोसेसिंग नोड्स जोड़कर समय-महत्वपूर्ण प्रदर्शन आवश्यकताओं को पूरा करने के लिए रैखिक फैशन में बढ़ाया जा सकता है। किसी विशिष्ट एप्लिकेशन के लिए निर्दिष्ट नोड्स और प्रोसेसिंग कार्यों की संख्या हार्डवेयर, सॉफ्टवेयर, संचार और डिस्ट्रिब्यूटेड फ़ाइल सिस्टम आर्किटेक्चर के आधार पर परिवर्तनीय या निश्चित हो सकती है।

सिस्टम आर्किटेक्चर
डेटा-इंटेंसिव कंप्यूटिंग और बड़े मापदंड पर डेटा विश्लेषण अनुप्रयोगों के लिए विभिन्न प्रकार के सिस्टम आर्किटेक्चर प्रयुक्त किए गए हैं, जिनमें पैरेलल और डिस्ट्रिब्यूटेड रिलेशनल डेटाबेस मैनेजमेंट सिस्टम सम्मिलित हैं जो दो दशकों से अधिक समय से प्रोसेसिंग नोड्स के साझा कुछ भी नहीं क्लस्टर पर चलने के लिए उपलब्ध हैं। चूंकि अधिकांश डेटा वृद्धि असंरचित रूप में डेटा के साथ होती है और अधिक फ्लेक्सिबल डेटा मॉडल के साथ नए प्रसंस्करण प्रतिमानों की आवश्यकता थी। इस प्रकार गूगल द्वारा अग्रणी मैपरेड्युस आर्किटेक्चर सहित विभिन्न समाधान सामने आए हैं और अब यह याहू, फेसबुक और अन्य द्वारा उपयोग किए जाने वाले हडूप नामक ओपन-सोर्स कार्यान्वयन में उपलब्ध है। लेक्सिसनेक्सिस ने डेटा-इंटेंसिव कंप्यूटिंग के लिए स्केलेबल प्लेटफ़ॉर्म भी विकसित और कार्यान्वित किया है जिसका उपयोग लेक्सिसनेक्सिस द्वारा किया जाता है।

मैपरेड्युस
गूगल द्वारा अग्रणी मैपरेड्युस आर्किटेक्चर और प्रोग्रामिंग मॉडल डेटा-इंटेंसिव कंप्यूटिंग के लिए डिज़ाइन किए गए आधुनिक सिस्टम आर्किटेक्चर का उदाहरण है। इस प्रकार मैपरेड्युस आर्किटेक्चर प्रोग्रामर्स को मैप फ़ंक्शन बनाने के लिए फंक्शनल प्रोग्रामिंग स्टाइल का उपयोग करने की अनुमति देता है जो मध्यवर्ती कीय-वैल्यू पेअर का सेट उत्पन्न करने के लिए इनपुट डेटा से जुड़े कीय-वैल्यू पेअर को संसाधित करता है, और कम करने वाला फ़ंक्शन जो एक ही मध्यवर्ती कीय से जुड़े सभी मध्यवर्ती मानों को मर्ज करता है। चूँकि सिस्टम आटोमेसन इनपुट डेटा को विभाजित करने, प्रोसेसिंग क्लस्टर में कार्यों को शेड्यूल करने और निष्पादित करने और नोड्स के मध्य संचार को प्रबंधित करने जैसे विवरणों का ध्यान रखता है, पैरेलल प्रोग्रामिंग में कोई अनुभव नहीं रखने वाले प्रोग्रामर सरलता से बड़े डिस्ट्रिब्यूटेड प्रोसेसिंग एनवायरनमेंट का उपयोग कर सकते हैं।

मैपरेड्युस आर्किटेक्चर के लिए प्रोग्रामिंग मॉडल सरल अद्वितीय है जहां गणना इनपुट डेटा से जुड़े इनपुट कीय-वैल्यू पेअर का सेट लेती है और आउटपुट कीय-वैल्यू पेअर का सेट तैयार करती है। मैप चरण में, इनपुट डेटा को इनपुट स्प्लिट्स में विभाजित किया जाता है और क्लस्टर में प्रोसेसिंग नोड्स से जुड़े मैप कार्यों को प्रदान किया जाता है। मानचित्र कार्य सामान्यतः उसी नोड पर निष्पादित होता है जिसमें क्लस्टर में डेटा का निर्दिष्ट विभाजन होता है। यह मानचित्र कार्य कार्य को प्रदान किए गए इनपुट डेटा के विभाजन से प्रत्येक इनपुट कीय-वैल्यू पेअर पर उपयोगकर्ता-निर्दिष्ट गणना करते हैं, और प्रत्येक कीय के लिए मध्यवर्ती परिणामों का सेट उत्पन्न करते हैं। इस प्रकार शफल और सॉर्ट चरण पुनः प्रत्येक मानचित्र कार्य द्वारा उत्पन्न मध्यवर्ती डेटा लेता है, इस डेटा को अन्य नोड्स से मध्यवर्ती डेटा के साथ सॉर्ट करता है, इस डेटा को कम कार्यों द्वारा संसाधित किए जाने वाले क्षेत्रों में विभाजित करता है, और इस डेटा को आवश्यकतानुसार नोड्स में डिस्ट्रिब्यूट करता है जहां कम करें कार्य निष्पादित होंगे. रिड्यूस कार्य मध्यवर्ती डेटा पर अतिरिक्त उपयोगकर्ता-निर्दिष्ट संचालन करते हैं, संभवतः आउटपुट डेटा उत्पन्न करने के लिए कीय से जुड़े मानों को मानों के छोटे सेट में विलय कर देते हैं। अधिक काम्प्लेक्स डेटा प्रोसेसिंग प्रक्रियाओं के लिए, एकाधिक मैपरेड्युस कॉल को क्रम में साथ जोड़ा जा सकता है।

हडूप
अपाचे हडूप अपाचे सॉफ्टवेयर फाउंडेशन द्वारा प्रायोजित ओपन सोर्स सॉफ्टवेयर प्रोजेक्ट है जो मैपरेड्युस आर्किटेक्चर को प्रयुक्त करता है। हडूप में अब बेस कोर, मैपरेड्युस और एचडीएफएस डिस्ट्रिब्यूट फ़ाइल सिस्टम के अतिरिक्त विभिन्न उपप्रोजेक्ट सम्मिलित हैं। यह अतिरिक्त उपप्रोजेक्ट बेस हडूप कार्यान्वयन के लिए उन्नत एप्लिकेशन प्रोसेसिंग क्षमताएं प्रदान करते हैं और वर्तमान में इसमें एवरो, पिग (प्रोग्रामिंग लैंग्वेज), एचबेस, अपाचे ज़ूकीपर, अपाचे हाइव और चकवा सम्मिलित हैं। हडूप मैपरेड्युस आर्किटेक्चर कार्यात्मक रूप से गूगल कार्यान्वयन के समान है, अतिरिक्त इसके कि हडूप के लिए आधार प्रोग्रामिंग लैंग्वेज C++ के अतिरिक्त Java (प्रोग्रामिंग लैंग्वेज) है। कार्यान्वयन का उद्देश्य कमोडिटी प्रोसेसर के समूहों पर कार्यान्वयन करना है।

हडूप मैपरेड्युस नौकरियों के लिए डिस्ट्रिब्यूट डेटा प्रोसेसिंग शेड्यूलिंग और एक्सेक्यूशन एनवायरनमेंट और फ्रेमवर्क को प्रयुक्त करता है। हडूप में एचडीएफएस नामक डिस्ट्रिब्यूट फ़ाइल सिस्टम सम्मिलित है जो गूगल मैपरेड्युस कार्यान्वयन में गूगल फ़ाइल सिस्टम के अनुरूप है। इस प्रकार हडूप एक्सेक्यूशन एनवायरनमेंट अतिरिक्त डिस्ट्रिब्यूट डेटा प्रोसेसिंग क्षमताओं का समर्थन करता है जिन्हें हडूप मैपरेड्युस आर्किटेक्चर का उपयोग करके चलाने के लिए डिज़ाइन किया गया है। इनमें एचबेस सम्मिलित है, डिस्ट्रिब्यूट कॉलम-ओरिएंटेड डेटाबेस जो रैंडम एक्सेस पढ़ने/लिखने की क्षमता प्रदान करता है; हाइव जो हडूप के शीर्ष पर निर्मित डेटा वेयरहाउस सिस्टम है जो डेटा सारांश, तदर्थ क्वेरी और बड़े डेटासेट के विश्लेषण के लिए एसक्यूएल जैसी क्वेरी क्षमताएं प्रदान करता है; और पिग - डेटा-इंटेंसिव कंप्यूटिंग के लिए उच्च-स्तरीय डेटा-फ्लो प्रोग्रामिंग लैंग्वेज और एक्सेक्यूशन फ्रेमवर्क प्रदान करता है।

पिग (प्रोग्रामिंग लैंग्वेज) याहू! में विकसित किया गया था। डेटा विश्लेषण अनुप्रयोगों के लिए विशिष्ट लैंग्वेज संकेतन प्रदान करने और हडूप मैपरेड्युस एनवायरनमेंट का उपयोग करते समय प्रोग्रामर उत्पादकता में सुधार और विकास चक्र को कम करने के लिए एक्सेक्यूशन फ्रेमवर्क में आवश्यकता पड़ने पर पिग प्रोग्राम आटोमेसन मैपरेड्युस प्रोग्राम के अनुक्रमों में अनुवादित हो जाते हैं। इस प्रकार पिग लैंग्वेज में डेटा को लोड करने, संग्रहीत करने, फ़िल्टर करने, समूह बनाने, डी-डुप्लीकेशन, ऑर्डर देने, सॉर्ट करने, एकत्रीकरण और संचालन में सम्मिलित होने की क्षमता प्रदान करता है।

एचपीसीसी
एचपीसीसी (हाई-परफॉर्मेंस कंप्यूटिंग क्लस्टर) को लेक्सिसनेक्सिस रिस्क सॉल्यूशंस द्वारा विकसित और कार्यान्वित किया गया था। इस कंप्यूटिंग प्लेटफ़ॉर्म का विकास 1999 में प्रारंभ हुआ और 2000 के अंत तक एप्लिकेशन उत्पादन में थे। एचपीसीसी एप्रोच लिनक्स ऑपरेटिंग सिस्टम चलाने वाले हार्डवेयर के कमोडिटी क्लस्टर का भी उपयोग करता है। डेटा-इंटेंसिव कंप्यूटिंग के लिए आवश्यक एक्सेक्यूशन एनवायरनमेंट और डिस्ट्रिब्यूट फ़ाइल सिस्टम समर्थन प्रदान करने के लिए कस्टम सिस्टम सॉफ़्टवेयर और मिडलवेयर कॉम्पोनेन्ट को बेस लिनक्स ऑपरेटिंग सिस्टम पर विकसित और स्तरित किया गया था। लेक्सिसनेक्सिस ने डेटा-इंटेंसिव कंप्यूटिंग के लिए नई उच्च-स्तरीय लैंग्वेज भी प्रयुक्त की थी।

ईसीएल (डेटा-केंद्रित प्रोग्रामिंग लैंग्वेज) उच्च-स्तरीय, घोषणात्मक, डेटा-केंद्रित, इन्हेरेंट पैरेलर लैंग्वेज है जो प्रोग्रामर को यह परिभाषित करने की अनुमति देती है कि डेटा प्रोसेसिंग परिणाम क्या होना चाहिए और परिणाम प्राप्त करने के लिए डेटा फ्लो और परिवर्तन आवश्यक हैं। ईसीएल लैंग्वेज में डेटा परिभाषा, फ़िल्टरिंग, डेटा मैनेजमेंट और डेटा परिवर्तन के लिए व्यापक क्षमताएं सम्मिलित हैं, और डेटासेट में रिकॉर्ड पर कार्य करने के लिए इन्हेरेंट कार्यों का व्यापक सेट प्रदान करता है जिसमें उपयोगकर्ता-परिभाषित परिवर्तन फ़ंक्शन सम्मिलित हो सकते हैं। इस प्रकार ईसीएल प्रोग्रामो को अनुकूलित सी++ सोर्स कोड में संकलित किया जाता है, जिसे पश्चात में एक्सेक्यूशन योग्य कोड में संकलित किया जाता है और प्रोसेसिंग क्लस्टर के नोड्स में डिस्ट्रिब्यूट किया जाता है।

डेटा-इंटेंसिव कंप्यूटिंग अनुप्रयोगों के बैच और ऑनलाइन दोनों तथ्यों को संबोधित करने के लिए, एचपीसीसी में दो भिन्न-भिन्न क्लस्टर एनवायरनमेंट सम्मिलित हैं, जिनमें से प्रत्येक को इसके पैरेलल डेटा प्रोसेसिंग उद्देश्य के लिए स्वतंत्र रूप से अनुकूलित किया जा सकता है। थोर प्लेटफ़ॉर्म क्लस्टर है जिसका उद्देश्य डेटा क्लींजिंग और हाइजीन, एक्सट्रैक्ट, ट्रांसफॉर्म, लोड (ईटीएल), रिकॉर्ड लिंकिंग और इकाई रिज़ॉल्यूशन, बड़े मापदंड पर विज्ञापन जैसे अनुप्रयोगों के लिए रॉ डेटा की भारी मात्रा में प्रसंस्करण के लिए डेटा रिफाइनरी बनना है। डेटा का हॉक विश्लेषण, और उच्च-प्रदर्शन संरचित प्रश्नों और डेटा वेयरहाउस अनुप्रयोगों का समर्थन करने के लिए कीय डेटा और अनुक्रमित का निर्माण थोर सिस्टम अपने हार्डवेयर कॉन्फ़िगरेशन, फ़ंक्शन, एक्सेक्यूशन एनवायरनमेंट, फ़ाइल सिस्टम और क्षमताओं में हडूप मैपरेड्युस प्लेटफ़ॉर्म के समान है, किन्तु समकक्ष कॉन्फ़िगरेशन में उच्च प्रदर्शन प्रदान करता है। रॉक्सी प्लेटफ़ॉर्म ऑनलाइन उच्च-प्रदर्शन संरचित क्वेरी और विश्लेषण सिस्टम या डेटा वेयरहाउस प्रदान करता है जो वेब सेवाओं के इंटरफेस के माध्यम से ऑनलाइन अनुप्रयोगों की पैरेलल डेटा एक्सेस प्रोसेसिंग आवश्यकताओं को पूरा करता है, इस प्रकार जो एक साथ हजारों प्रश्नों और सब-सेकंड प्रतिक्रिया समय वाले उपयोगकर्ताओं का समर्थन करता है। रॉक्सी सिस्टम अपने कार्य और क्षमताओं में एचबेस और अपाचे हाइव क्षमताओं के साथ हडूप के समान है, किन्तु उच्च-प्रदर्शन ऑनलाइन प्रसंस्करण के लिए अनुकूलित एक्सेक्यूशन एनवायरनमेंट और फ़ाइल सिस्टम प्रदान करता है। थोर और रॉक्सी दोनों सिस्टम अनुप्रयोगों को प्रयुक्त करने, प्रोग्रामर उत्पादकता बढ़ाने के लिए ही ईसीएल प्रोग्रामिंग लैंग्वेज का उपयोग करते हैं।

यह भी देखें

 * इम्प्लिसित पैरेलर
 * मस्सिवेली पैरेलल
 * सुपर कंप्यूटर
 * ग्राफ500