डेटा एकीकरण

From Vigyanwiki

डेटा एकीकरण में विभिन्न स्रोतों में उपलब्ध डेटा को संयोजित करना और उपयोगकर्ताओं को उनका एकीकृत दृश्य प्रदान करना सम्मिलित है।[1] यह प्रक्रिया विभिन्न स्थितियों में महत्वपूर्ण हो जाती है, जिसमें वाणिज्यिक जैसे कि जब दो समान कंपनियों को अपने डेटाबेस को एकीकृत करने की आवश्यकता होती है और वैज्ञानिक जैसे उदाहरण के लिए, विभिन्न जैव सूचना विज्ञान रिपॉजिटरी से अनुसंधान परिणामों का संयोजन होने से दोनों डोमेन को सम्मिलित करते हैं। इस प्रकार डेटा एकीकरण बढ़ती आवृत्ति के साथ वॉल्यूम अर्ताथ, बड़ा डेटा और उपलब्धा डेटा सूचना विस्फोट को साझा करने की आवश्यकता के साथ प्रकट होता है।[2] यह व्यापक सैद्धांतिक कार्य का केंद्र बन गया है, और कई संवृत समस्याएं सही नहीं हो पाती हैं। इस प्रकार डेटा एकीकरण आंतरिक और बाहरी उपयोगकर्ताओं के बीच सहयोग को प्रोत्साहित करता है। इस प्रकार किए जा रहे एकीकृत डेटा को विषम डेटाबेस सिस्टम से प्राप्त किया जाना चाहिए और एकल सुसंगत डेटा स्टोर में परिवर्तित किया जाना चाहिए जो ग्राहकों के लिए फ़ाइलों के नेटवर्क में समकालिक डेटा प्रदान करता है।[3] डेटा एकीकरण का सामान्य उपयोग डेटा खनन में होता है जब उपलब्धा डेटाबेस से जानकारी का विश्लेषण और निष्कर्षण किया जाता है जो व्यावसायिक जानकारी के लिए उपयोगी हो सकता है।[4]

इतिहास

चित्र 1: डेटा वेयरहाउस के लिए सरल योजनाबद्ध। एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड (ईटीएल) प्रक्रिया स्रोत डेटाबेस से जानकारी निकालती है, उसे रूपांतरित करती है और फिर उसे डेटा वेयरहाउस में लोड करती है।
चित्र 2: डेटा-एकीकरण समाधान के लिए सरल योजनाबद्ध। सिस्टम डिज़ाइनर मध्यस्थ स्कीमा बनाता है जिसके विरुद्ध उपयोगकर्ता क्वेरी चला सकते हैं। यदि आवश्यक हो तो आभासी डेटाबेस आवरण पैटर्न कोड के माध्यम से स्रोत डेटाबेस के साथ इंटरफेस करता है।

विषम डेटा स्रोतों के संयोजन से जुड़े विवादों को अधिकांशतः सूचना साइलो के रूप में संदर्भित किया जाता है, जो ही क्वेरी इंटरफ़ेस के अनुसार कुछ समय से अस्तित्व में है। इस प्रकार 1980 के दशक के प्रारंभ में, कंप्यूटर वैज्ञानिकों ने विषम डेटाबेस की अंतरसंचालनीयता के लिए सिस्टम डिजाइन करना प्रारंभ किया था।[5] इसके आधार पर संरचित मेटाडेटा द्वारा संचालित पहला डेटा एकीकरण सिस्टम 1991 में मिनेसोटा विश्वविद्यालय में IPUMS|एकीकृत सार्वजनिक उपयोग माइक्रोडेटा श्रृंखला (IPUMS) के लिए डिज़ाइन किया गया था। इस प्रकार आईपीयूएमएस ने डेटा भण्डारण दृष्टिकोण का उपयोग किया, जो विषम स्रोतों से डेटा को निकालता है, रूपांतरित करता है, लोड करता है, इसके आधार पर अद्वितीय दृश्य तार्किक स्कीमा में डेटा निकालता है, जो रूपांतरित करता है और लोड करता है जिससे कि विभिन्न स्रोतों से डेटा संगत हो जाता हैं।[6] इस प्रकार हजारों जनसंख्या डेटाबेस को इंटरऑपरेबल बनाकर, आईपीयूएमएस ने बड़े पैमाने पर डेटा एकीकरण की व्यवहार्यता का प्रदर्शन किया हैं। डेटा वेयरहाउस दृष्टिकोण कपलिंग (कंप्यूटर विज्ञान) आर्किटेक्चर प्रदान करता है क्योंकि डेटा पहले से ही क्वेरी योग्य रिपॉजिटरी में भौतिक रूप से समेटा हुआ है, इसलिए सामान्यतः प्रश्नों को हल करने में बहुत कम समय लगता है।[7]

डेटा वेयरहाउस दृष्टिकोण उन डेटा समुच्चयों के लिए कम व्यवहार्य है, जिन्हें बार-बार अपडेट किया जाता है, जिसके लिए सिंक्रोनाइज़ेशन के लिए एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ईटीएल) प्रक्रिया को लगातार पुन: निष्पादित करने की आवश्यकता होती है। डेटा वेयरहाउस के निर्माण में कठिनाइयां तब भी उत्पन्न होती हैं जब किसी के पास सारांश डेटा स्रोतों के लिए केवल क्वेरी इंटरफ़ेस होता है और पूर्ण डेटा तक पहुंच नहीं होती है। यात्रा या वर्गीकृत विज्ञापन वेब अनुप्रयोगों जैसी कई व्यावसायिक क्वेरी सेवाओं को एकीकृत करते समय यह समस्या अधिकांशतः सामने आती है।

As of 2009 डेटा एकीकरण की प्रवृत्ति ने डेटा के ढीले युग्मन का समर्थन किया[8] और डेटा मध्यस्थता स्कीमा (चित्रा 2 देखें) पर वास्तविक समय डेटा तक पहुंचने के लिए एकीकृत क्वेरी-इंटरफ़ेस प्रदान करना, जो मूल डेटाबेस से सीधे जानकारी प्राप्त करने की अनुमति देता है। यह उस युग में लोकप्रिय सेवा-उन्मुख वास्तुकला दृष्टिकोण के अनुरूप है। यह दृष्टिकोण मध्यस्थ स्कीमा और मूल स्रोतों की स्कीमा के बीच मैपिंग पर निर्भर करता है, और मूल डेटाबेस की स्कीमा से मेल खाने के लिए क्वेरी को विघटित क्वेरी में अनुवाद करता है। ऐसी मैपिंग को दो तरीकों से निर्दिष्ट किया जा सकता है: मध्यस्थ स्कीमा में इकाइयों से मूल स्रोतों में इकाइयों तक मैपिंग के रूप में (ग्लोबल-एज़-व्यू)[9] (जीएवी) दृष्टिकोण), या मूल स्रोतों में संस्थाओं से मध्यस्थ स्कीमा (स्थानीय-जैसा-दृश्य) में मैपिंग के रूप में[10] (एलएवी) दृष्टिकोण के रूप में इसके बाद वाले दृष्टिकोण के लिए मध्यस्थ स्कीमा पर प्रश्न को हल करने के लिए अधिक परिष्कृत निष्कर्षों की आवश्यकता होती है, अपितु (स्थिर) मध्यस्थ स्कीमा में नए डेटा स्रोतों को जोड़ना सरल हो जाता है।

As of 2010 डेटा एकीकरण अनुसंधान में कुछ कार्य सिमेंटिक एकीकरण समस्या से संबंधित हैं। यह समस्या एकीकरण की वास्तुकला की संरचना को संबोधित नहीं करती है, बल्कि विषम डेटा स्रोतों के बीच अर्थ संबंधी संघर्षों को कैसे हल किया जाए। उदाहरण के लिए, यदि दो कंपनियां अपने डेटाबेस का विलय करती हैं, तो कमाई जैसी उनकी संबंधित स्कीमों में कुछ अवधारणाओं और परिभाषाओं के अनिवार्य रूप से अलग-अलग अर्थ होते हैं। डेटाबेस में इसका मतलब डॉलर में होने वाला लाभ एक फ़्लोटिंग-पॉइंट नंबर हो सकता है, जबकि दूसरे में यह बिक्री की संख्या (एक पूर्णांक) का प्रतिनिधित्व कर सकता है। ऐसी समस्याओं के समाधान के लिए आम रणनीति में ऑन्टोलॉजी (कंप्यूटर विज्ञान) का उपयोग सम्मिलित है जो स्कीमा शर्तों को स्पष्ट रूप से परिभाषित करता है और इस प्रकार अर्थ संबंधी संघर्षों को हल करने में सहायक होता है। यह दृष्टिकोण ऑन्टोलॉजी-आधारित डेटा एकीकरण का प्रतिनिधित्व करता है। दूसरी ओर, विभिन्न जैव सूचना विज्ञान भंडारों से अनुसंधान परिणामों के संयोजन की समस्या के लिए धनात्मक पूर्वानुमानित मूल्य जैसे एकल मानदंड पर, विभिन्न डेटा स्रोतों से गणना की गई समानताओं की बेंच-मार्किंग की आवश्यकता होती है। यह डेटा स्रोतों को सीधे तुलनीय बनाने में सक्षम बनाता है और प्रयोगों की प्रकृति अलग होने पर भी उन्हें एकीकृत किया जा सकता है।[11]

As of 2011 यह निर्धारित किया गया था कि वर्तमान मॉडलिंग की दिनांक विधियां अलग-अलग डेटा और सूचना साइलो के द्वीपों के रूप में प्रत्येक डेटा आर्किटेक्चर में डेटा अलगाव प्रदान कर रही थीं। यह डेटा मॉडलिंग पद्धति की अनपेक्षित कलाकृति को प्रदर्शित करता है, जिसके परिणामस्वरूप असमान डेटा मॉडल का विकास होता है। अलग-अलग डेटा मॉडल, जब डेटाबेस के रूप में त्वरित किए जाते हैं, तो अलग-अलग डेटाबेस बनाते हैं। डेटा अलगाव विरूपण साक्ष्य को खत्म करने और एकीकृत डेटा मॉडल के विकास को बढ़ावा देने के लिए उन्नत डेटा मॉडल पद्धतियां विकसित की गई हैं।[12] उन्नत डेटा मॉडलिंग विधि डेटा मॉडल को मानकीकृत डेटा इकाइयों के रूप में संरचनात्मक मेटा डेटा के साथ संवर्धित करके पुनर्गठित करती है। कई डेटा मॉडलों को दोबारा बनाने के परिणामस्वरूप, रीकास्ट डेटा मॉडल का समुच्चय अब या अधिक समानता वाले रिश्ते साझा करेगा जो इन डेटा मॉडलों के लिए अब आम संरचनात्मक मेटाडेटा से संबंधित हैं। सामान्यता संबंध सहकर्मी से सहकर्मी प्रकार के इकाई संबंध हैं जो कई डेटा मॉडल की मानकीकृत डेटा इकाइयों से संबंधित होते हैं। ही मानक डेटा इकाई वाले एकाधिक डेटा मॉडल समान समानता संबंध में भाग ले सकते हैं। जब एकीकृत डेटा मॉडल को डेटाबेस के रूप में त्वरित किया जाता है और मास्टर डेटा के सामान्य समुच्चय से उचित रूप से पॉप्युलेट किया जाता है, तो ये डेटाबेस एकीकृत होते हैं।

2011 के बाद से, डेटा हब दृष्टिकोण पूर्ण रूप से संरचित (सामान्यतः संबंधपरक) एंटरप्राइज़ डेटा वेयरहाउस की तुलना में अधिक रुचि का रहा है। 2013 के बाद से, डेटा लेक दृष्टिकोण डेटा हब के स्तर तक बढ़ गया है। इसके लिए गूगल पर सभी तीन खोज शब्दों की लोकप्रियता को देखें।[13] ये दृष्टिकोण असंरचित या विविध डेटा को स्थान पर जोड़ते हैं, अपितु हब में सभी डेटा को संरचना और परिभाषित करने के लिए अधिकांशतः जटिल मास्टर रिलेशनल स्कीमा की आवश्यकता नहीं होती है।

इस कारण किसी बाज़ार का अध्ययन करने के लिए उपयोग किए जाने वाले डेटा संग्रह के संबंध में डेटा एकीकरण व्यवसाय में बड़ी भूमिका निभाता है। उपभोक्ताओं से प्राप्त कच्चे डेटा को सुसंगत डेटा में परिवर्तित करना ऐसी चीज़ है जिसे व्यवसाय तब करने का प्रयास करते हैं जब वे इस बात पर विचार करते हैं कि उन्हें आगे क्या कदम उठाना चाहिए।[14] संगठन अपने डेटाबेस से जानकारी और पैटर्न एकत्र करने के लिए डेटा माइनिंग का अधिक बार उपयोग कर रहे हैं, और यह प्रक्रिया उन्हें व्यावसायिक प्रदर्शन बढ़ाने और अधिक कुशलता से आर्थिक विश्लेषण करने के लिए नई व्यावसायिक रणनीति विकसित करने में सहायता करती है। अपने सिस्टम में संग्रहित करने के लिए बड़ी मात्रा में डेटा को संकलित करना उनकी सफलता की संभावनाओं को उत्तम बनाने के लिए व्यापारिक सूचना के लिए अनुकूलित डेटा एकीकरण का रूप है।[15]

उदाहरण

वेब अनुप्रयोग पर विचार करें जहां उपयोगकर्ता शहरों के बारे में विभिन्न प्रकार की जानकारी जैसे अपराध डेटा, मौसम, होटल, जनसांख्यिकी इत्यादि पूछ सकता है। परंपरागत रूप से, जानकारी को एकल स्कीमा के साथ एकल डेटाबेस में संग्रहीत किया जाना चाहिए। अपितु किसी भी एकल उद्यम के लिए इतनी विस्तृत जानकारी एकत्र करना कुछ हद तक कठिन और महंगा होगा। भले ही डेटा इकट्ठा करने के लिए संसाधन उपलब्ध हों, फिर भी यह उपलब्धा अपराध डेटाबेस, मौसम वेबसाइटों और जनगणना डेटा में डुप्लिकेट डेटा की संभावना होगी।

एक डेटा-एकीकरण समाधान इन बाहरी संसाधनों को वर्चुअल डेटाबेस पर भौतिक विचारों के रूप में मानकर इस समस्या का समाधान कर सकता है, जिसके परिणामस्वरूप वर्चुअल डेटा एकीकरण होता है। इसका मतलब यह है कि एप्लिकेशन-डेवलपर्स वर्चुअल स्कीमा-मध्यस्थता स्कीमा-का निर्माण करते हैं, जिससे कि उनके उपयोगकर्ता जिस प्रकार के उत्तर चाहते हैं उन्हें सर्वोत्तम तरीके से मॉडल किया जा सके। इसके बाद, वे प्रत्येक डेटा स्रोत, जैसे अपराध डेटाबेस और मौसम वेबसाइट के लिए रैपर या एडेप्टर डिज़ाइन करते हैं। ये एडाप्टर बस स्थानीय क्वेरी परिणामों (जो संबंधित वेबसाइटों या डेटाबेस द्वारा लौटाए जाते हैं) को डेटा एकीकरण समाधान के लिए आसानी से संसाधित रूप में परिवर्तित कर देते हैं, इसके लिए चित्र 2 देखें। जब कोई एप्लिकेशन-उपयोगकर्ता मध्यस्थ स्कीमा पर सवाल उठाता है, तो डेटा-एकीकरण समाधान इस क्वेरी को संबंधित डेटा स्रोतों पर उचित प्रश्नों में परिवर्तित कर देता है। अंत में, वर्चुअल डेटाबेस इन प्रश्नों के परिणामों को उपयोगकर्ता की क्वेरी के उत्तर में जोड़ता है।

यह समाधान केवल उनके लिए एडॉप्टर या एप्लिकेशन सॉफ़्टवेयर ब्लेड बनाकर नए स्रोतों को जोड़ने की सुविधा प्रदान करता है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड सिस्टम या एकल डेटाबेस समाधान के साथ विरोधाभासी है, जिसके लिए सिस्टम में संपूर्ण नए डेटा समुच्चय के मैन्युअल एकीकरण की आवश्यकता होती है। वर्चुअल ईटीएल समाधान डेटा सामंजस्य को लागू करने के लिए वर्चुअल डेटाबेस का लाभ उठाते हैं; जिससे डेटा को निर्दिष्ट मास्टर स्रोत से फ़ील्ड दर फ़ील्ड निर्धारित लक्ष्यों पर कॉपी किया जाता है। इस कारण हब और बात की आर्किटेक्चर का उपयोग करके वर्चुअल मध्यस्थता स्कीमा या वर्चुअल मेटाडेटा रिपॉजिटरी का निर्माण करने के लिए उन्नत डेटा वर्चुअलाइजेशन भी ऑब्जेक्ट-ओरिएंटेड मॉडलिंग की अवधारणा पर बनाया गया है।

प्रत्येक डेटा स्रोत अलग-अलग है और इस तरह डेटा स्रोतों के बीच विश्वसनीय जुड़ाव का समर्थन करने के लिए डिज़ाइन नहीं किया गया है। इसलिए, डेटा वर्चुअलाइजेशन के साथ-साथ डेटा फ़ेडरेशन अलग-अलग डेटा समुच्चय से डेटा और जानकारी के संयोजन का समर्थन करने के लिए आकस्मिक डेटा समानता पर निर्भर करता है। डेटा स्रोतों में डेटा मूल्य समानता की कमी के कारण, रिटर्न समुच्चय गलत, अधूरा और सत्यापित करना असंभव हो सकता है।

एक समाधान यह है कि इन डेटाबेसों को एक्स्ट्रैक्ट, ट्रांसफॉर्म, लोड की आवश्यकता के बिना एकीकृत करने के लिए अलग-अलग डेटाबेस को फिर से तैयार किया जाए। रीकास्ट डेटाबेस सामान्यता बाधाओं का समर्थन करते हैं जहां डेटाबेस के बीच संदर्भात्मक अखंडता लागू की जा सकती है। रीकास्ट डेटाबेस सभी डेटाबेस में डेटा मूल्य समानता के साथ डिज़ाइन किए गए डेटा एक्सेस पथ प्रदान करते हैं।

सिद्धांत

डेटा एकीकरण का सिद्धांत[1]डेटाबेस सिद्धांत का उपसमूह बनाता है और प्रथम-क्रम तर्क में समस्या की अंतर्निहित अवधारणाओं को औपचारिक बनाता है। इस प्रकार के सिद्धांतों को लागू करने से डेटा एकीकरण की व्यवहार्यता और कठिनाई के संकेत मिलते हैं। चूंकि इसकी परिभाषाएँ भिन्न लग सकती हैं, उनमें सभी प्रकार की एकीकरण प्रणालियों को समायोजित करने के लिए पर्याप्त व्यापकता है,[16] इनमें वे भी सम्मिलित हैं जिनमें नेस्टेड रिलेशनल/XML डेटाबेस सम्मिलित हैं[17] और वे जो डेटाबेस को प्रोग्राम के रूप में मानते हैं।[18] ओरेकल या DB2 जैसे विशेष डेटाबेस सिस्टम से कनेक्शन JDBC जैसी कार्यान्वयन-स्तरीय प्रौद्योगिकियों द्वारा प्रदान किए जाते हैं और सैद्धांतिक स्तर पर अध्ययन नहीं किया जाता है।

परिभाषाएँ

डेटा एकीकरण प्रणालियों को औपचारिक रूप से टुपल (गणित) के रूप में परिभाषित किया गया है, जहाँ वैश्विक (या मध्यस्थ) स्कीमा है, स्रोत स्कीमा का विषम समुच्चय है, और वह मैपिंग है जो स्रोत और वैश्विक स्कीमा के बीच प्रश्नों को मैप करती है। इस प्रकार दोनों और प्रत्येक संबंधित संबंध का डेटाबेस के लिए प्रतीकों से बनी वर्णमाला (कंप्यूटर विज्ञान) पर औपचारिक भाषा में व्यक्त किए जाते हैं। कार्यात्मक विधेय प्रश्नों के बीच अभिकथन सम्मिलित हैं और प्रश्न खत्म . जब उपयोगकर्ता डेटा एकीकरण प्रणाली पर प्रश्न पूछते हैं, तो वे प्रश्न भी पूछते हैं और फिर मैपिंग वैश्विक स्कीमा और स्रोत स्कीमा में तत्वों के बीच कनेक्शन का दावा करती है।

एक स्कीमा पर डेटाबेस को समुच्चय के समुच्चय के रूप में परिभाषित किया गया है, प्रत्येक संबंध के लिए एक रिलेशनल डेटाबेस में स्रोत स्कीमा के अनुरूप डेटाबेस इसमें प्रत्येक विषम डेटा स्रोत के लिए टुपल्स के समुच्चय का समुच्चय सम्मिलित होगा और इसे स्रोत डेटाबेस कहा जाता है। ध्यान दें कि यह एकल स्रोत डेटाबेस वास्तव में डिस्कनेक्ट किए गए डेटाबेस के संग्रह का प्रतिनिधित्व कर सकता है। वर्चुअल मध्यस्थता स्कीमा के अनुरूप डेटाबेस वैश्विक डेटाबेस कहा जाता है. वैश्विक डेटाबेस को मैपिंग को संतुष्ट करना होगा स्रोत डेटाबेस के संबंध में. इस मानचित्रण की वैधता बीच के पत्राचार की प्रकृति और पर निर्भर करती है। इस पत्राचार को मॉडल करने के दो लोकप्रिय तरीके उपलब्ध हैं: व्यू या जीएवी के रूप में ग्लोबल और व्यू या एलएवी के रूप में स्थानीय प्रकट होता हैं।

चित्र 3: जीएवी और एलएवी मैपिंग के टुपल स्पेस का चित्रण।[19] जीएवी में, सिस्टम मध्यस्थों द्वारा मैप किए गए टुपल्स के समुच्चय तक सीमित है, जबकि स्रोतों पर व्यक्त टुपल्स का समुच्चय बहुत बड़ा और समृद्ध हो सकता है। एलएवी में, सिस्टम स्रोतों में टुपल्स के समुच्चय तक सीमित है जबकि वैश्विक स्कीमा पर व्यक्त टुपल्स का समुच्चय बहुत बड़ा हो सकता है। इसलिए, LAV सिस्टम को अधिकांशतः अधूरे उत्तरों से निपटना पड़ता है।

जीएवी सिस्टम वैश्विक डेटाबेस को दृश्य (डेटाबेस) के समुच्चय के रूप में मॉडल करता है . इस मामले में के प्रत्येक तत्व प्रश्न खत्म . से संबद्ध है, इसके बीच में अच्छी तरह से परिभाषित संबंधों के कारण क्वेरी अनुकूलक सीधा ऑपरेशन बन जाता है, इस प्रकार और . जटिलता का बोझ डेटा एकीकरण प्रणाली को निर्देश देने वाले मध्यस्थ कोड को लागू करने पर पड़ता है कि स्रोत डेटाबेस से तत्वों को कैसे पुनर्प्राप्त किया जाए। यदि कोई नया स्रोत सिस्टम में सम्मिलित होता है, तो मध्यस्थ को अद्यतन करने के लिए काफी प्रयास आवश्यक हो सकते हैं, इस प्रकार जब स्रोतों में परिवर्तन की संभावना नहीं लगती है तो जीएवी दृष्टिकोण उत्तम प्रतीत होता है।

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के जीएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले प्रत्येक शहर के सूचना स्रोतों के लिए मध्यस्थ विकसित करेगा और फिर इन मध्यस्थों के आसपास वैश्विक स्कीमा डिजाइन करेगा। उदाहरण के लिए, विचार करें कि क्या किसी स्रोत ने मौसम वेबसाइट की सेवा दी है। डिज़ाइनर संभवतः वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व जोड़ देगा। फिर अधिकांश प्रयास उचित मध्यस्थ कोड लिखने पर केंद्रित होता है जो मौसम संबंधी पूर्वानुमानों को मौसम वेबसाइट पर प्रश्न में बदल देगा। यदि कोई अन्य स्रोत भी मौसम से संबंधित है तो यह प्रयास जटिल हो सकता है, क्योंकि डिजाइनर को दो स्रोतों से परिणामों को ठीक से संयोजित करने के लिए कोड लिखने की आवश्यकता हो सकती है।

दूसरी ओर, LAV में, स्रोत डेटाबेस को दृश्य (डेटाबेस) के समुच्चय के रूप में तैयार किया जाता है . इस मामले में के प्रत्येक तत्व से संबद्ध है प्रश्न खत्म . यहाँ के बीच सटीक संबंध हैं और अब अच्छी तरह से परिभाषित नहीं हैं। जैसा कि अगले भाग में दिखाया गया है, स्रोतों से तत्वों को कैसे पुनर्प्राप्त किया जाए यह निर्धारित करने का बोझ क्वेरी प्रोसेसर पर रखा गया है। एलएवी मॉडलिंग का लाभ यह है कि जीएवी प्रणाली की तुलना में बहुत कम काम के साथ नए स्रोत जोड़े जा सकते हैं, इस प्रकार उन मामलों में एलएवी दृष्टिकोण को प्राथमिकता दी जानी चाहिए जहां मध्यस्थता स्कीमा कम स्थिर है या बदलने की संभावना है।[1]

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के लिए एलएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले वैश्विक स्कीमा डिजाइन करता है और फिर संबंधित शहर सूचना स्रोतों के स्कीमा को इनपुट करता है। फिर से विचार करें कि क्या कोई स्रोत मौसम वेबसाइट पर काम करता है। डिज़ाइनर वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व तभी जोड़ेगा जब कोई पहले से उपलब्ध न हो। फिर प्रोग्रामर वेबसाइट के लिए एडाप्टर या रैपर लिखते हैं और स्रोत स्कीमा में वेबसाइट के परिणामों का स्कीमा विवरण जोड़ते हैं। नए स्रोत को जोड़ने की जटिलता डिज़ाइनर से क्वेरी प्रोसेसर की ओर बढ़ती है।

क्वेरी प्रोसेसिंग

डेटा एकीकरण प्रणालियों में क्वेरी प्रोसेसिंग का सिद्धांत सामान्यतः कंजंक्टिव डेटाबेस क्वेरी भाषा और संगणक वैज्ञानिक , विशुद्ध रूप से घोषणात्मक तर्क प्रोग्रामिंग भाषा का उपयोग करके व्यक्त किया जाता है।[20] कोई संयोजक क्वेरी को डेटाबेस के संबंधों पर लागू तार्किक फ़ंक्शन के रूप में सोच सकता है, जहाँ . यदि किसी टुपल या टुपल्स के समुच्चय को नियम में प्रतिस्थापित किया जाता है और यह इसे संतुष्ट करता है (इसे सत्य बनाता है), तो हम उस टुपल को क्वेरी में उत्तरों के समुच्चय के हिस्से के रूप में मानते हैं। जबकि डेटालॉग जैसी औपचारिक भाषाएँ इन प्रश्नों को संक्षिप्त रूप से और अस्पष्टता के बिना व्यक्त करती हैं, सामान्य SQL क्वेरीज़ को संयोजनात्मक क्वेरी के रूप में भी गिना जाता है।

डेटा एकीकरण के संदर्भ में, क्वेरी नियंत्रण संयोजक प्रश्नों की महत्वपूर्ण संपत्ति का प्रतिनिधित्व करता है। पूछताछ इसमें और क्वेरी सम्मिलित है (संकेतित ) यदि आवेदन करने के परिणाम आवेदन करने के परिणामों का उपसमूह हैं किसी भी डेटाबेस के लिए. यदि परिणामी समुच्चय किसी डेटाबेस के लिए समान हैं तो दोनों प्रश्नों को समतुल्य कहा जाता है। यह महत्वपूर्ण है क्योंकि जीएवी और एलएवी दोनों प्रणालियों में, उपयोगकर्ता दृश्य (डेटाबेस) के समुच्चय, या भौतिक संयोजन वाले प्रश्नों द्वारा दर्शाए गए वर्चुअल स्कीमा पर संयोजक प्रश्न पूछता है। एकीकरण का उद्देश्य विचारों द्वारा प्रस्तुत प्रश्नों को फिर से लिखना है जिससे कि उनके परिणामों को हमारे उपयोगकर्ता की क्वेरी के बराबर या अधिकतम रूप से समाहित किया जा सके। यह दृश्यों (AQUV) का उपयोग करके प्रश्नों का उत्तर देने की समस्या से मेल खाता है।[21]

GAV सिस्टम में, सिस्टम डिज़ाइनर क्वेरी-रीराइटिंग को परिभाषित करने के लिए मध्यस्थ कोड लिखता है। उपयोगकर्ता की क्वेरी में प्रत्येक तत्व प्रतिस्थापन नियम से मेल खाता है, जैसे वैश्विक स्कीमा में प्रत्येक तत्व स्रोत पर क्वेरी से मेल खाता है। क्वेरी प्रसंस्करण बस मध्यस्थ में निर्दिष्ट नियम के अनुसार उपयोगकर्ता की क्वेरी के उपलक्ष्यों का विस्तार करता है और इस प्रकार परिणामी क्वेरी समतुल्य होने की संभावना है। जबकि डिज़ाइनर अधिकांश कार्य पहले से करता है, कुछ GAV सिस्टम जैसे Tsimmis में मध्यस्थ विवरण प्रक्रिया को सरल बनाना सम्मिलित है।

एलएवी सिस्टम में, क्वेरीज़ को पुनर्लेखन की अधिक मौलिक प्रक्रिया से गुजरना पड़ता है क्योंकि उपयोगकर्ता की क्वेरी को सरल विस्तार रणनीति के साथ संरेखित करने के लिए कोई मध्यस्थ उपलब्ध नहीं होता है। सर्वोत्तम पुनर्लेखन खोजने के लिए एकीकरण प्रणाली को संभावित प्रश्नों के स्थान पर खोज निष्पादित करनी चाहिए। परिणामी पुनर्लेखन समतुल्य क्वेरी नहीं हो सकती है, अपितु अधिकतम रूप से समाहित हो सकती है, और परिणामी टुपल्स अपूर्ण हो सकते हैं। As of 2011 जीक्यूआर एल्गोरिदम[22] LAV डेटा एकीकरण प्रणालियों के लिए अग्रणी क्वेरी पुनर्लेखन एल्गोरिदम है।

सामान्य तौर पर, क्वेरी पुनर्लेखन की जटिलता एनपी-पूर्ण होती है।[21] यदि पुनर्लेखन का स्थान अपेक्षाकृत छोटा है, तो यह कोई समस्या पैदा नहीं करता है - यहां तक ​​कि सैकड़ों स्रोतों के साथ एकीकरण प्रणालियों के लिए भी।

चिकित्सा और जीवन विज्ञान

विज्ञान में बड़े पैमाने के प्रश्न, जैसे वास्तविक विश्व साक्ष्य, ग्लोबल वार्मिंग, आक्रामक प्रजातियों का प्रसार और संसाधन की कमी, मेटा-विश्लेषण के लिए असमान डेटा समुच्चय के संग्रह की आवश्यकता बढ़ रही है। इस प्रकार का डेटा एकीकरण पारिस्थितिक और पर्यावरणीय डेटा के लिए विशेष रूप से चुनौतीपूर्ण है क्योंकि मेटाडेटा मानक पर सहमति नहीं है और इन क्षेत्रों में कई अलग-अलग डेटा प्रकार तैयार किए जाते हैं। डेटा नेटवर्क जैसी राष्ट्रीय विज्ञान फाउंडेशन की पहल का उद्देश्य साइबर साइबरइन्फ्रास्ट्रक्चर प्रदान करके और मानक निर्धारित करके वैज्ञानिकों के लिए डेटा एकीकरण को सरल बनाना है। इस प्रकार पाँच वित्त पोषित डेटानेट पहल डेटावन हैं,[23] न्यू मैक्सिको विश्वविद्यालय में विलियम मिचेनर के नेतृत्व में; डेटा संरक्षण,[24] जॉन्स हॉपकिन्स विश्वविद्यालय के सईद चौधरी के नेतृत्व में; SEAD: क्रियाशील डेटा के माध्यम से सतत पर्यावरण,[25] मिशिगन विश्वविद्यालय के मार्गरेट हेडस्ट्रॉम के नेतृत्व में; डेटानेट फेडरेशन कंसोर्टियम,[26] उत्तरी कैरोलिना विश्वविद्यालय के रीगन मूर के नेतृत्व में; और टेरा पोपुलस,[27] मिनेसोटा विश्वविद्यालय के स्टीवन रग्गल्स के नेतृत्व में। अनुसंधान डेटा एलायंस,[28] हाल ही में वैश्विक डेटा एकीकरण ढाँचे बनाने का पता लगाया गया है। इस प्रकार यूरोपीय संघ नवोन्मेषी औषधि पहल के माध्यम से वित्त पोषित विवत फैक्ट्स प्रोजेक्ट ने यूरोपीय जैव सूचना विज्ञान संस्थान, रॉयल सोसाइटी ऑफ केमिस्ट्री, यूनीप्रोट, विकीपाथवेज़ और ड्रगबैंक जैसे प्रदाताओं के डेटासमुच्चय को जोड़कर दवा खोज मंच बनाया।

यह भी देखें

उद्यम वास्तुकला संरचना

पाठ खोलें खोलें

संदर्भ

  1. 1.0 1.1 1.2 Maurizio Lenzerini (2002). "Data Integration: A Theoretical Perspective" (PDF). PODS 2002. pp. 233–246.
  2. Frederick Lane (2006). "IDC: World Created 161 Billion Gigs of Data in 2006". Archived from the original on 2015-07-15.
  3. mikben. "Data Coherency - Win32 apps". docs.microsoft.com (in English). Archived from the original on 2020-06-12. Retrieved 2020-11-23.
  4. Chung, P.; Chung, S. H. (2013-05). "On data integration and data mining for developing business intelligence". 2013 IEEE Long Island Systems, Applications and Technology Conference (LISAT): 1–6. doi:10.1109/LISAT.2013.6578235.
  5. John Miles Smith; et al. (1982). "Multibase: integrating heterogeneous distributed database systems". AFIPS '81 Proceedings of the May 4–7, 1981, National Computer Conference. pp. 487–499.
  6. Steven Ruggles, J. David Hacker, and Matthew Sobek (1995). "Order out of Chaos: The Integrated Public Use Microdata Series". Historical Methods. Vol. 28. pp. 33–39.{{cite news}}: CS1 maint: multiple names: authors list (link)
  7. Jennifer Widom (1995). "डेटा वेयरहाउसिंग में अनुसंधान समस्याएं". CIKM '95 Proceedings of the Fourth International Conference on Information and Knowledge Management. pp. 25–30.
  8. Pautasso, Cesare; Wilde, Erik (2009-04-20). "Why is the web loosely coupled? a multi-faceted metric for service design". Proceedings of the 18th International Conference on World Wide Web. WWW '09. Madrid, Spain: Association for Computing Machinery: 911–920. doi:10.1145/1526709.1526832. ISBN 978-1-60558-487-4. S2CID 207172208.
  9. "What is GAV (Global as View)?". GeeksforGeeks (in English). 2020-04-18. Archived from the original on 2020-11-30. Retrieved 2020-11-23.
  10. "Local-as-View", Wikipedia (in Deutsch), 2020-07-24, retrieved 2020-11-23
  11. Shubhra S. Ray; et al. (2009). "Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast" (PDF). IEEE Transactions on Biomedical Engineering. 56 (2): 229–236. CiteSeerX 10.1.1.150.7928. doi:10.1109/TBME.2008.2005955. PMID 19272921. S2CID 10848834. Archived (PDF) from the original on 2010-05-08. Retrieved 2012-05-17.
  12. Michael Mireku Kwakye (2011). "बहुआयामी डेटा मॉडल को मर्ज करने का एक व्यावहारिक दृष्टिकोण". hdl:10393/20457.
  13. "हब लेक और वेयरहाउस खोज रुझान". Archived from the original on 2017-02-17. Retrieved 2016-01-12.
  14. "बिजनेस एनालिटिक्स में डेटा माइनिंग।". Western Governors University. May 15, 2020. Archived from the original on December 23, 2020. Retrieved November 22, 2020.
  15. Surani, Ibrahim (2020-03-30). "Data Integration for Business Intelligence: Best Practices". DATAVERSITY (in English). Archived from the original on 2020-11-30. Retrieved 2020-11-23.
  16. Alagić, Suad; Bernstein, Philip A. (2002). डेटाबेस प्रोग्रामिंग भाषाएँ. Lecture Notes in Computer Science. Vol. 2397. pp. 228–246. doi:10.1007/3-540-46093-4_14. ISBN 978-3-540-44080-2.
  17. "Nested Mappings: Schema Mapping Reloaded" (PDF). Archived (PDF) from the original on 2015-10-28. Retrieved 2015-09-10.
  18. "बीजगणितीय विशिष्टता और सॉफ्टवेयर के विकास के लिए सामान्य फ्रेमवर्क पहल" (PDF). Archived (PDF) from the original on 2016-03-04. Retrieved 2015-09-10.
  19. Christoph Koch (2001). "एकाधिक विकसित स्वायत्त स्कीमाटा के विरुद्ध डेटा एकीकरण" (PDF). Archived from the original (PDF) on 2007-09-26.
  20. Jeffrey D. Ullman (1997). "तार्किक विचारों का उपयोग कर सूचना एकीकरण". ICDT 1997. pp. 19–40.
  21. 21.0 21.1 Alon Y. Halevy (2001). "Answering queries using views: A survey" (PDF). The VLDB Journal. pp. 270–294.
  22. George Konstantinidis; et al. (2011). "Scalable Query Rewriting: A Graph-based Approach" (PDF). in Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD'11, June 12–16, 2011, Athens, Greece.
  23. William Michener; et al. "DataONE: Observation Network for Earth". www.dataone.org. Archived from the original on 2013-01-22. Retrieved 2013-01-19.
  24. Sayeed Choudhury; et al. "डेटा संरक्षण". dataconservancy.org. Archived from the original on 2013-01-13. Retrieved 2013-01-19.
  25. Margaret Hedstrom; et al. "SEAD सतत पर्यावरण - कार्रवाई योग्य डेटा". sead-data.net. Archived from the original on 2012-09-20. Retrieved 2013-01-19.
  26. Reagan Moore; et al. "डेटानेट फेडरेशन कंसोर्टियम". datafed.org. Archived from the original on 2013-04-15. Retrieved 2013-01-19.
  27. Steven Ruggles; et al. "Terra Populus: Integrated Data on Population and the Environment". terrapop.org. Archived from the original on 2013-05-18. Retrieved 2013-01-19.
  28. Bill Nichols. "अनुसंधान डेटा एलायंस". rd-alliance.org. Archived from the original on 2014-11-18. Retrieved 2014-10-01.

बाहरी संबंध