डेटा एकीकरण

डेटा एकीकरण में विभिन्न स्रोतों में उपलब्ध डेटा को संयोजित करना और उपयोगकर्ताओं को उनका एकीकृत दृश्य प्रदान करना सम्मिलित है।^[1] यह प्रक्रिया विभिन्न स्थितियों में महत्वपूर्ण हो जाती है, जिसमें वाणिज्यिक जैसे कि जब दो समान कंपनियों को अपने डेटाबेस को एकीकृत करने की आवश्यकता होती है और वैज्ञानिक जैसे उदाहरण के लिए, विभिन्न जैव सूचना विज्ञान रिपॉजिटरी से अनुसंधान परिणामों का संयोजन होने से दोनों डोमेन को सम्मिलित करते हैं। इस प्रकार डेटा एकीकरण बढ़ती आवृत्ति के साथ वॉल्यूम अर्ताथ, बड़ा डेटा और उपलब्धा डेटा सूचना विस्फोट को साझा करने की आवश्यकता के साथ प्रकट होता है।^[2] यह व्यापक सैद्धांतिक कार्य का केंद्र बन गया है, और कई संवृत समस्याएं सही नहीं हो पाती हैं। इस प्रकार डेटा एकीकरण आंतरिक और बाहरी उपयोगकर्ताओं के बीच सहयोग को प्रोत्साहित करता है। इस प्रकार किए जा रहे एकीकृत डेटा को विषम डेटाबेस सिस्टम से प्राप्त किया जाना चाहिए और एकल सुसंगत डेटा स्टोर में परिवर्तित किया जाना चाहिए जो ग्राहकों के लिए फ़ाइलों के नेटवर्क में समकालिक डेटा प्रदान करता है।^[3] डेटा एकीकरण का सामान्य उपयोग डेटा खनन में होता है जब उपलब्धा डेटाबेस से जानकारी का विश्लेषण और निष्कर्षण किया जाता है जो व्यावसायिक जानकारी के लिए उपयोगी हो सकता है।^[4]

इतिहास

चित्र 1: डेटा वेयरहाउस के लिए सरल योजनाबद्ध। एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड (ईटीएल) प्रक्रिया स्रोत डेटाबेस से जानकारी निकालती है, उसे रूपांतरित करती है और फिर उसे डेटा वेयरहाउस में लोड करती है।

चित्र 2: डेटा-एकीकरण समाधान के लिए सरल योजनाबद्ध। सिस्टम डिज़ाइनर मध्यस्थ स्कीमा बनाता है जिसके विरुद्ध उपयोगकर्ता क्वेरी चला सकते हैं। यदि आवश्यक हो तो आभासी डेटाबेस आवरण पैटर्न कोड के माध्यम से स्रोत डेटाबेस के साथ इंटरफेस करता है।

विषम डेटा स्रोतों के संयोजन से जुड़े विवादों को अधिकांशतः सूचना साइलो के रूप में संदर्भित किया जाता है, जो ही क्वेरी इंटरफ़ेस के अनुसार कुछ समय से अस्तित्व में है। इस प्रकार 1980 के दशक के प्रारंभ में, कंप्यूटर वैज्ञानिकों ने विषम डेटाबेस की अंतरसंचालनीयता के लिए सिस्टम डिजाइन करना प्रारंभ किया था।^[5] इसके आधार पर संरचित मेटाडेटा द्वारा संचालित पहला डेटा एकीकरण सिस्टम 1991 में मिनेसोटा विश्वविद्यालय में IPUMS|एकीकृत सार्वजनिक उपयोग माइक्रोडेटा श्रृंखला (IPUMS) के लिए डिज़ाइन किया गया था। इस प्रकार आईपीयूएमएस ने डेटा भण्डारण दृष्टिकोण का उपयोग किया, जो विषम स्रोतों से डेटा को निकालता है, रूपांतरित करता है, लोड करता है, इसके आधार पर अद्वितीय दृश्य तार्किक स्कीमा में डेटा निकालता है, जो रूपांतरित करता है और लोड करता है जिससे कि विभिन्न स्रोतों से डेटा संगत हो जाता हैं।^[6] इस प्रकार हजारों जनसंख्या डेटाबेस को इंटरऑपरेबल बनाकर, आईपीयूएमएस ने बड़े पैमाने पर डेटा एकीकरण की व्यवहार्यता का प्रदर्शन किया हैं। डेटा वेयरहाउस दृष्टिकोण कपलिंग (कंप्यूटर विज्ञान) आर्किटेक्चर प्रदान करता है क्योंकि डेटा पहले से ही क्वेरी योग्य रिपॉजिटरी में भौतिक रूप से समेटा हुआ है, इसलिए सामान्यतः प्रश्नों को हल करने में बहुत कम समय लगता है।^[7]

डेटा वेयरहाउस दृष्टिकोण उन डेटा समुच्चयों के लिए कम व्यवहार्य है, जिन्हें बार-बार अपडेट किया जाता है, जिसके लिए सिंक्रोनाइज़ेशन के लिए एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ईटीएल) प्रक्रिया को लगातार पुन: निष्पादित करने की आवश्यकता होती है। डेटा वेयरहाउस के निर्माण में कठिनाइयां तब भी उत्पन्न होती हैं जब किसी के पास सारांश डेटा स्रोतों के लिए केवल क्वेरी इंटरफ़ेस होता है और पूर्ण डेटा तक पहुंच नहीं होती है। यात्रा या वर्गीकृत विज्ञापन वेब अनुप्रयोगों जैसी कई व्यावसायिक क्वेरी सेवाओं को एकीकृत करते समय यह समस्या अधिकांशतः सामने आती है।

As of 2009^[update] डेटा एकीकरण की प्रवृत्ति ने डेटा के ढीले युग्मन का समर्थन किया^[8] और डेटा मध्यस्थता स्कीमा (चित्रा 2 देखें) पर वास्तविक समय डेटा तक पहुंचने के लिए एकीकृत क्वेरी-इंटरफ़ेस प्रदान करना, जो मूल डेटाबेस से सीधे जानकारी प्राप्त करने की अनुमति देता है। यह उस युग में लोकप्रिय सेवा-उन्मुख वास्तुकला दृष्टिकोण के अनुरूप है। यह दृष्टिकोण मध्यस्थ स्कीमा और मूल स्रोतों की स्कीमा के बीच मैपिंग पर निर्भर करता है, और मूल डेटाबेस की स्कीमा से मेल खाने के लिए क्वेरी को विघटित क्वेरी में अनुवाद करता है। ऐसी मैपिंग को दो तरीकों से निर्दिष्ट किया जा सकता है: मध्यस्थ स्कीमा में इकाइयों से मूल स्रोतों में इकाइयों तक मैपिंग के रूप में (ग्लोबल-एज़-व्यू)^[9] (जीएवी) दृष्टिकोण), या मूल स्रोतों में संस्थाओं से मध्यस्थ स्कीमा (स्थानीय-जैसा-दृश्य) में मैपिंग के रूप में^[10] (एलएवी) दृष्टिकोण के रूप में इसके बाद वाले दृष्टिकोण के लिए मध्यस्थ स्कीमा पर प्रश्न को हल करने के लिए अधिक परिष्कृत निष्कर्षों की आवश्यकता होती है, अपितु (स्थिर) मध्यस्थ स्कीमा में नए डेटा स्रोतों को जोड़ना सरल हो जाता है।

As of 2010^[update] डेटा एकीकरण अनुसंधान में कुछ कार्य सिमेंटिक एकीकरण समस्या से संबंधित हैं। यह समस्या एकीकरण की वास्तुकला की संरचना को संबोधित नहीं करती है, बल्कि विषम डेटा स्रोतों के बीच अर्थ संबंधी संघर्षों को कैसे हल किया जाए। उदाहरण के लिए, यदि दो कंपनियां अपने डेटाबेस का विलय करती हैं, तो कमाई जैसी उनकी संबंधित स्कीमों में कुछ अवधारणाओं और परिभाषाओं के अनिवार्य रूप से अलग-अलग अर्थ होते हैं। डेटाबेस में इसका मतलब डॉलर में होने वाला लाभ एक फ़्लोटिंग-पॉइंट नंबर हो सकता है, जबकि दूसरे में यह बिक्री की संख्या (एक पूर्णांक) का प्रतिनिधित्व कर सकता है। ऐसी समस्याओं के समाधान के लिए आम रणनीति में ऑन्टोलॉजी (कंप्यूटर विज्ञान) का उपयोग सम्मिलित है जो स्कीमा शर्तों को स्पष्ट रूप से परिभाषित करता है और इस प्रकार अर्थ संबंधी संघर्षों को हल करने में सहायक होता है। यह दृष्टिकोण ऑन्टोलॉजी-आधारित डेटा एकीकरण का प्रतिनिधित्व करता है। दूसरी ओर, विभिन्न जैव सूचना विज्ञान भंडारों से अनुसंधान परिणामों के संयोजन की समस्या के लिए धनात्मक पूर्वानुमानित मूल्य जैसे एकल मानदंड पर, विभिन्न डेटा स्रोतों से गणना की गई समानताओं की बेंच-मार्किंग की आवश्यकता होती है। यह डेटा स्रोतों को सीधे तुलनीय बनाने में सक्षम बनाता है और प्रयोगों की प्रकृति अलग होने पर भी उन्हें एकीकृत किया जा सकता है।^[11]

As of 2011^[update] यह निर्धारित किया गया था कि वर्तमान मॉडलिंग की दिनांक विधियां अलग-अलग डेटा और सूचना साइलो के द्वीपों के रूप में प्रत्येक डेटा आर्किटेक्चर में डेटा अलगाव प्रदान कर रही थीं। यह डेटा मॉडलिंग पद्धति की अनपेक्षित कलाकृति को प्रदर्शित करता है, जिसके परिणामस्वरूप असमान डेटा मॉडल का विकास होता है। अलग-अलग डेटा मॉडल, जब डेटाबेस के रूप में त्वरित किए जाते हैं, तो अलग-अलग डेटाबेस बनाते हैं। डेटा अलगाव विरूपण साक्ष्य को खत्म करने और एकीकृत डेटा मॉडल के विकास को बढ़ावा देने के लिए उन्नत डेटा मॉडल पद्धतियां विकसित की गई हैं।^[12] उन्नत डेटा मॉडलिंग विधि डेटा मॉडल को मानकीकृत डेटा इकाइयों के रूप में संरचनात्मक मेटा डेटा के साथ संवर्धित करके पुनर्गठित करती है। कई डेटा मॉडलों को दोबारा बनाने के परिणामस्वरूप, रीकास्ट डेटा मॉडल का समुच्चय अब या अधिक समानता वाले रिश्ते साझा करेगा जो इन डेटा मॉडलों के लिए अब आम संरचनात्मक मेटाडेटा से संबंधित हैं। सामान्यता संबंध सहकर्मी से सहकर्मी प्रकार के इकाई संबंध हैं जो कई डेटा मॉडल की मानकीकृत डेटा इकाइयों से संबंधित होते हैं। ही मानक डेटा इकाई वाले एकाधिक डेटा मॉडल समान समानता संबंध में भाग ले सकते हैं। जब एकीकृत डेटा मॉडल को डेटाबेस के रूप में त्वरित किया जाता है और मास्टर डेटा के सामान्य समुच्चय से उचित रूप से पॉप्युलेट किया जाता है, तो ये डेटाबेस एकीकृत होते हैं।

2011 के बाद से, डेटा हब दृष्टिकोण पूर्ण रूप से संरचित (सामान्यतः संबंधपरक) एंटरप्राइज़ डेटा वेयरहाउस की तुलना में अधिक रुचि का रहा है। 2013 के बाद से, डेटा लेक दृष्टिकोण डेटा हब के स्तर तक बढ़ गया है। इसके लिए गूगल पर सभी तीन खोज शब्दों की लोकप्रियता को देखें।^[13] ये दृष्टिकोण असंरचित या विविध डेटा को स्थान पर जोड़ते हैं, अपितु हब में सभी डेटा को संरचना और परिभाषित करने के लिए अधिकांशतः जटिल मास्टर रिलेशनल स्कीमा की आवश्यकता नहीं होती है।

इस कारण किसी बाज़ार का अध्ययन करने के लिए उपयोग किए जाने वाले डेटा संग्रह के संबंध में डेटा एकीकरण व्यवसाय में बड़ी भूमिका निभाता है। उपभोक्ताओं से प्राप्त कच्चे डेटा को सुसंगत डेटा में परिवर्तित करना ऐसी चीज़ है जिसे व्यवसाय तब करने का प्रयास करते हैं जब वे इस बात पर विचार करते हैं कि उन्हें आगे क्या कदम उठाना चाहिए।^[14] संगठन अपने डेटाबेस से जानकारी और पैटर्न एकत्र करने के लिए डेटा माइनिंग का अधिक बार उपयोग कर रहे हैं, और यह प्रक्रिया उन्हें व्यावसायिक प्रदर्शन बढ़ाने और अधिक कुशलता से आर्थिक विश्लेषण करने के लिए नई व्यावसायिक रणनीति विकसित करने में सहायता करती है। अपने सिस्टम में संग्रहित करने के लिए बड़ी मात्रा में डेटा को संकलित करना उनकी सफलता की संभावनाओं को उत्तम बनाने के लिए व्यापारिक सूचना के लिए अनुकूलित डेटा एकीकरण का रूप है।^[15]

उदाहरण

वेब अनुप्रयोग पर विचार करें जहां उपयोगकर्ता शहरों के बारे में विभिन्न प्रकार की जानकारी जैसे अपराध डेटा, मौसम, होटल, जनसांख्यिकी इत्यादि पूछ सकता है। परंपरागत रूप से, जानकारी को एकल स्कीमा के साथ एकल डेटाबेस में संग्रहीत किया जाना चाहिए। अपितु किसी भी एकल उद्यम के लिए इतनी विस्तृत जानकारी एकत्र करना कुछ हद तक कठिन और महंगा होगा। भले ही डेटा इकट्ठा करने के लिए संसाधन उपलब्ध हों, फिर भी यह उपलब्धा अपराध डेटाबेस, मौसम वेबसाइटों और जनगणना डेटा में डुप्लिकेट डेटा की संभावना होगी।

एक डेटा-एकीकरण समाधान इन बाहरी संसाधनों को वर्चुअल डेटाबेस पर भौतिक विचारों के रूप में मानकर इस समस्या का समाधान कर सकता है, जिसके परिणामस्वरूप वर्चुअल डेटा एकीकरण होता है। इसका मतलब यह है कि एप्लिकेशन-डेवलपर्स वर्चुअल स्कीमा-मध्यस्थता स्कीमा-का निर्माण करते हैं, जिससे कि उनके उपयोगकर्ता जिस प्रकार के उत्तर चाहते हैं उन्हें सर्वोत्तम तरीके से मॉडल किया जा सके। इसके बाद, वे प्रत्येक डेटा स्रोत, जैसे अपराध डेटाबेस और मौसम वेबसाइट के लिए रैपर या एडेप्टर डिज़ाइन करते हैं। ये एडाप्टर बस स्थानीय क्वेरी परिणामों (जो संबंधित वेबसाइटों या डेटाबेस द्वारा लौटाए जाते हैं) को डेटा एकीकरण समाधान के लिए आसानी से संसाधित रूप में परिवर्तित कर देते हैं, इसके लिए चित्र 2 देखें। जब कोई एप्लिकेशन-उपयोगकर्ता मध्यस्थ स्कीमा पर सवाल उठाता है, तो डेटा-एकीकरण समाधान इस क्वेरी को संबंधित डेटा स्रोतों पर उचित प्रश्नों में परिवर्तित कर देता है। अंत में, वर्चुअल डेटाबेस इन प्रश्नों के परिणामों को उपयोगकर्ता की क्वेरी के उत्तर में जोड़ता है।

यह समाधान केवल उनके लिए एडॉप्टर या एप्लिकेशन सॉफ़्टवेयर ब्लेड बनाकर नए स्रोतों को जोड़ने की सुविधा प्रदान करता है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड सिस्टम या एकल डेटाबेस समाधान के साथ विरोधाभासी है, जिसके लिए सिस्टम में संपूर्ण नए डेटा समुच्चय के मैन्युअल एकीकरण की आवश्यकता होती है। वर्चुअल ईटीएल समाधान डेटा सामंजस्य को लागू करने के लिए वर्चुअल डेटाबेस का लाभ उठाते हैं; जिससे डेटा को निर्दिष्ट मास्टर स्रोत से फ़ील्ड दर फ़ील्ड निर्धारित लक्ष्यों पर कॉपी किया जाता है। इस कारण हब और बात की आर्किटेक्चर का उपयोग करके वर्चुअल मध्यस्थता स्कीमा या वर्चुअल मेटाडेटा रिपॉजिटरी का निर्माण करने के लिए उन्नत डेटा वर्चुअलाइजेशन भी ऑब्जेक्ट-ओरिएंटेड मॉडलिंग की अवधारणा पर बनाया गया है।

प्रत्येक डेटा स्रोत अलग-अलग है और इस तरह डेटा स्रोतों के बीच विश्वसनीय जुड़ाव का समर्थन करने के लिए डिज़ाइन नहीं किया गया है। इसलिए, डेटा वर्चुअलाइजेशन के साथ-साथ डेटा फ़ेडरेशन अलग-अलग डेटा समुच्चय से डेटा और जानकारी के संयोजन का समर्थन करने के लिए आकस्मिक डेटा समानता पर निर्भर करता है। डेटा स्रोतों में डेटा मूल्य समानता की कमी के कारण, रिटर्न समुच्चय गलत, अधूरा और सत्यापित करना असंभव हो सकता है।

एक समाधान यह है कि इन डेटाबेसों को एक्स्ट्रैक्ट, ट्रांसफॉर्म, लोड की आवश्यकता के बिना एकीकृत करने के लिए अलग-अलग डेटाबेस को फिर से तैयार किया जाए। रीकास्ट डेटाबेस सामान्यता बाधाओं का समर्थन करते हैं जहां डेटाबेस के बीच संदर्भात्मक अखंडता लागू की जा सकती है। रीकास्ट डेटाबेस सभी डेटाबेस में डेटा मूल्य समानता के साथ डिज़ाइन किए गए डेटा एक्सेस पथ प्रदान करते हैं।

सिद्धांत

डेटा एकीकरण का सिद्धांत^[1]डेटाबेस सिद्धांत का उपसमूह बनाता है और प्रथम-क्रम तर्क में समस्या की अंतर्निहित अवधारणाओं को औपचारिक बनाता है। इस प्रकार के सिद्धांतों को लागू करने से डेटा एकीकरण की व्यवहार्यता और कठिनाई के संकेत मिलते हैं। चूंकि इसकी परिभाषाएँ भिन्न लग सकती हैं, उनमें सभी प्रकार की एकीकरण प्रणालियों को समायोजित करने के लिए पर्याप्त व्यापकता है,^[16] इनमें वे भी सम्मिलित हैं जिनमें नेस्टेड रिलेशनल/XML डेटाबेस सम्मिलित हैं^[17] और वे जो डेटाबेस को प्रोग्राम के रूप में मानते हैं।^[18] ओरेकल या DB2 जैसे विशेष डेटाबेस सिस्टम से कनेक्शन JDBC जैसी कार्यान्वयन-स्तरीय प्रौद्योगिकियों द्वारा प्रदान किए जाते हैं और सैद्धांतिक स्तर पर अध्ययन नहीं किया जाता है।

परिभाषाएँ

डेटा एकीकरण प्रणालियों को औपचारिक रूप से टुपल (गणित) के रूप $\left\langle G,S,M\right\rangle$ में परिभाषित किया गया है, जहाँ $G$ वैश्विक (या मध्यस्थ) स्कीमा है, $S$ स्रोत स्कीमा का विषम समुच्चय है, और $M$ वह मैपिंग है जो स्रोत और वैश्विक स्कीमा के बीच प्रश्नों को मैप करती है। इस प्रकार दोनों $G$ और $S$ प्रत्येक संबंधित संबंध का डेटाबेस के लिए प्रतीकों से बनी वर्णमाला (कंप्यूटर विज्ञान) पर औपचारिक भाषा में व्यक्त किए जाते हैं। कार्यात्मक विधेय $M$ प्रश्नों के बीच अभिकथन सम्मिलित हैं $G$ और प्रश्न खत्म $S$ . जब उपयोगकर्ता डेटा एकीकरण प्रणाली पर प्रश्न पूछते हैं, तो वे प्रश्न भी पूछते हैं $G$ और फिर मैपिंग वैश्विक स्कीमा और स्रोत स्कीमा में तत्वों के बीच कनेक्शन का दावा करती है।

एक स्कीमा पर डेटाबेस को समुच्चय के समुच्चय के रूप में परिभाषित किया गया है, प्रत्येक संबंध के लिए एक रिलेशनल डेटाबेस में स्रोत स्कीमा के अनुरूप डेटाबेस $S$ इसमें प्रत्येक विषम डेटा स्रोत के लिए टुपल्स के समुच्चय का समुच्चय सम्मिलित होगा और इसे स्रोत डेटाबेस कहा जाता है। ध्यान दें कि यह एकल स्रोत डेटाबेस वास्तव में डिस्कनेक्ट किए गए डेटाबेस के संग्रह का प्रतिनिधित्व कर सकता है। वर्चुअल मध्यस्थता स्कीमा के अनुरूप डेटाबेस $G$ वैश्विक डेटाबेस कहा जाता है. वैश्विक डेटाबेस को मैपिंग को संतुष्ट करना होगा $M$ स्रोत डेटाबेस के संबंध में. इस मानचित्रण की वैधता बीच के पत्राचार की प्रकृति $G$ और $S$ पर निर्भर करती है। इस पत्राचार को मॉडल करने के दो लोकप्रिय तरीके उपलब्ध हैं: व्यू या जीएवी के रूप में ग्लोबल और व्यू या एलएवी के रूप में स्थानीय प्रकट होता हैं।

चित्र 3: जीएवी और एलएवी मैपिंग के टुपल स्पेस का चित्रण।^[19] जीएवी में, सिस्टम मध्यस्थों द्वारा मैप किए गए टुपल्स के समुच्चय तक सीमित है, जबकि स्रोतों पर व्यक्त टुपल्स का समुच्चय बहुत बड़ा और समृद्ध हो सकता है। एलएवी में, सिस्टम स्रोतों में टुपल्स के समुच्चय तक सीमित है जबकि वैश्विक स्कीमा पर व्यक्त टुपल्स का समुच्चय बहुत बड़ा हो सकता है। इसलिए, LAV सिस्टम को अधिकांशतः अधूरे उत्तरों से निपटना पड़ता है।

जीएवी सिस्टम वैश्विक डेटाबेस को दृश्य (डेटाबेस) के समुच्चय के रूप में मॉडल करता है $S$ . इस मामले में $M$ के प्रत्येक तत्व $G$ प्रश्न खत्म $S$ . से संबद्ध है, इसके बीच में अच्छी तरह से परिभाषित संबंधों के कारण क्वेरी अनुकूलक सीधा ऑपरेशन बन जाता है, इस प्रकार $G$ और $S$ . जटिलता का बोझ डेटा एकीकरण प्रणाली को निर्देश देने वाले मध्यस्थ कोड को लागू करने पर पड़ता है कि स्रोत डेटाबेस से तत्वों को कैसे पुनर्प्राप्त किया जाए। यदि कोई नया स्रोत सिस्टम में सम्मिलित होता है, तो मध्यस्थ को अद्यतन करने के लिए काफी प्रयास आवश्यक हो सकते हैं, इस प्रकार जब स्रोतों में परिवर्तन की संभावना नहीं लगती है तो जीएवी दृष्टिकोण उत्तम प्रतीत होता है।

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के जीएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले प्रत्येक शहर के सूचना स्रोतों के लिए मध्यस्थ विकसित करेगा और फिर इन मध्यस्थों के आसपास वैश्विक स्कीमा डिजाइन करेगा। उदाहरण के लिए, विचार करें कि क्या किसी स्रोत ने मौसम वेबसाइट की सेवा दी है। डिज़ाइनर संभवतः वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व जोड़ देगा। फिर अधिकांश प्रयास उचित मध्यस्थ कोड लिखने पर केंद्रित होता है जो मौसम संबंधी पूर्वानुमानों को मौसम वेबसाइट पर प्रश्न में बदल देगा। यदि कोई अन्य स्रोत भी मौसम से संबंधित है तो यह प्रयास जटिल हो सकता है, क्योंकि डिजाइनर को दो स्रोतों से परिणामों को ठीक से संयोजित करने के लिए कोड लिखने की आवश्यकता हो सकती है।

दूसरी ओर, LAV में, स्रोत डेटाबेस को दृश्य (डेटाबेस) के समुच्चय के रूप में तैयार किया जाता है $G$ . इस मामले में $M$ के प्रत्येक तत्व से संबद्ध है $S$ प्रश्न खत्म $G$ . यहाँ के बीच सटीक संबंध हैं $G$ और $S$ अब अच्छी तरह से परिभाषित नहीं हैं। जैसा कि अगले भाग में दिखाया गया है, स्रोतों से तत्वों को कैसे पुनर्प्राप्त किया जाए यह निर्धारित करने का बोझ क्वेरी प्रोसेसर पर रखा गया है। एलएवी मॉडलिंग का लाभ यह है कि जीएवी प्रणाली की तुलना में बहुत कम काम के साथ नए स्रोत जोड़े जा सकते हैं, इस प्रकार उन मामलों में एलएवी दृष्टिकोण को प्राथमिकता दी जानी चाहिए जहां मध्यस्थता स्कीमा कम स्थिर है या बदलने की संभावना है।^[1]

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के लिए एलएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले वैश्विक स्कीमा डिजाइन करता है और फिर संबंधित शहर सूचना स्रोतों के स्कीमा को इनपुट करता है। फिर से विचार करें कि क्या कोई स्रोत मौसम वेबसाइट पर काम करता है। डिज़ाइनर वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व तभी जोड़ेगा जब कोई पहले से उपलब्ध न हो। फिर प्रोग्रामर वेबसाइट के लिए एडाप्टर या रैपर लिखते हैं और स्रोत स्कीमा में वेबसाइट के परिणामों का स्कीमा विवरण जोड़ते हैं। नए स्रोत को जोड़ने की जटिलता डिज़ाइनर से क्वेरी प्रोसेसर की ओर बढ़ती है।

क्वेरी प्रोसेसिंग

डेटा एकीकरण प्रणालियों में क्वेरी प्रोसेसिंग का सिद्धांत सामान्यतः कंजंक्टिव डेटाबेस क्वेरी भाषा और संगणक वैज्ञानिक , विशुद्ध रूप से घोषणात्मक तर्क प्रोग्रामिंग भाषा का उपयोग करके व्यक्त किया जाता है।^[20] कोई संयोजक क्वेरी को डेटाबेस के संबंधों पर लागू तार्किक फ़ंक्शन $f(A,B)$ के रूप में सोच सकता है, जहाँ $A<B$ . यदि किसी टुपल या टुपल्स के समुच्चय को नियम में प्रतिस्थापित किया जाता है और यह इसे संतुष्ट करता है (इसे सत्य बनाता है), तो हम उस टुपल को क्वेरी में उत्तरों के समुच्चय के हिस्से के रूप में मानते हैं। जबकि डेटालॉग जैसी औपचारिक भाषाएँ इन प्रश्नों को संक्षिप्त रूप से और अस्पष्टता के बिना व्यक्त करती हैं, सामान्य SQL क्वेरीज़ को संयोजनात्मक क्वेरी के रूप में भी गिना जाता है।

डेटा एकीकरण के संदर्भ में, क्वेरी नियंत्रण संयोजक प्रश्नों की महत्वपूर्ण संपत्ति का प्रतिनिधित्व करता है। पूछताछ $A$ इसमें और क्वेरी सम्मिलित है $B$ (संकेतित $A\supset B$ ) यदि आवेदन करने के परिणाम $B$ आवेदन करने के परिणामों का उपसमूह हैं $A$ किसी भी डेटाबेस के लिए. यदि परिणामी समुच्चय किसी डेटाबेस के लिए समान हैं तो दोनों प्रश्नों को समतुल्य कहा जाता है। यह महत्वपूर्ण है क्योंकि जीएवी और एलएवी दोनों प्रणालियों में, उपयोगकर्ता दृश्य (डेटाबेस) के समुच्चय, या भौतिक संयोजन वाले प्रश्नों द्वारा दर्शाए गए वर्चुअल स्कीमा पर संयोजक प्रश्न पूछता है। एकीकरण का उद्देश्य विचारों द्वारा प्रस्तुत प्रश्नों को फिर से लिखना है जिससे कि उनके परिणामों को हमारे उपयोगकर्ता की क्वेरी के बराबर या अधिकतम रूप से समाहित किया जा सके। यह दृश्यों (AQUV) का उपयोग करके प्रश्नों का उत्तर देने की समस्या से मेल खाता है।^[21]

GAV सिस्टम में, सिस्टम डिज़ाइनर क्वेरी-रीराइटिंग को परिभाषित करने के लिए मध्यस्थ कोड लिखता है। उपयोगकर्ता की क्वेरी में प्रत्येक तत्व प्रतिस्थापन नियम से मेल खाता है, जैसे वैश्विक स्कीमा में प्रत्येक तत्व स्रोत पर क्वेरी से मेल खाता है। क्वेरी प्रसंस्करण बस मध्यस्थ में निर्दिष्ट नियम के अनुसार उपयोगकर्ता की क्वेरी के उपलक्ष्यों का विस्तार करता है और इस प्रकार परिणामी क्वेरी समतुल्य होने की संभावना है। जबकि डिज़ाइनर अधिकांश कार्य पहले से करता है, कुछ GAV सिस्टम जैसे Tsimmis में मध्यस्थ विवरण प्रक्रिया को सरल बनाना सम्मिलित है।

एलएवी सिस्टम में, क्वेरीज़ को पुनर्लेखन की अधिक मौलिक प्रक्रिया से गुजरना पड़ता है क्योंकि उपयोगकर्ता की क्वेरी को सरल विस्तार रणनीति के साथ संरेखित करने के लिए कोई मध्यस्थ उपलब्ध नहीं होता है। सर्वोत्तम पुनर्लेखन खोजने के लिए एकीकरण प्रणाली को संभावित प्रश्नों के स्थान पर खोज निष्पादित करनी चाहिए। परिणामी पुनर्लेखन समतुल्य क्वेरी नहीं हो सकती है, अपितु अधिकतम रूप से समाहित हो सकती है, और परिणामी टुपल्स अपूर्ण हो सकते हैं। As of 2011^[update] जीक्यूआर एल्गोरिदम^[22] LAV डेटा एकीकरण प्�

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

Anonymous

Search

डेटा एकीकरण

Namespaces

More

Page actions

Contents

इतिहास

उदाहरण

सिद्धांत

परिभाषाएँ

क्वेरी प्रोसेसिंग