डेटा एकीकरण
डेटा एकीकरण में विभिन्न स्रोतों में उपलब्ध डेटा को संयोजित करना और उपयोगकर्ताओं को उनका एकीकृत दृश्य प्रदान करना सम्मिलित है।[1] यह प्रक्रिया विभिन्न स्थितियों में महत्वपूर्ण हो जाती है, जिसमें वाणिज्यिक जैसे कि जब दो समान कंपनियों को अपने डेटाबेस को एकीकृत करने की आवश्यकता होती है और वैज्ञानिक जैसे उदाहरण के लिए, विभिन्न जैव सूचना विज्ञान रिपॉजिटरी से अनुसंधान परिणामों का संयोजन होने से दोनों डोमेन को सम्मिलित करते हैं। इस प्रकार डेटा एकीकरण बढ़ती आवृत्ति के साथ वॉल्यूम अर्ताथ, बड़ा डेटा और उपलब्धा डेटा सूचना विस्फोट को साझा करने की आवश्यकता के साथ प्रकट होता है।[2] यह व्यापक सैद्धांतिक कार्य का केंद्र बन गया है, और कई संवृत समस्याएं सही नहीं हो पाती हैं। इस प्रकार डेटा एकीकरण आंतरिक और बाहरी उपयोगकर्ताओं के बीच सहयोग को प्रोत्साहित करता है। इस प्रकार किए जा रहे एकीकृत डेटा को विषम डेटाबेस सिस्टम से प्राप्त किया जाना चाहिए और एकल सुसंगत डेटा स्टोर में परिवर्तित किया जाना चाहिए जो ग्राहकों के लिए फ़ाइलों के नेटवर्क में समकालिक डेटा प्रदान करता है।[3] डेटा एकीकरण का सामान्य उपयोग डेटा खनन में होता है जब उपलब्धा डेटाबेस से जानकारी का विश्लेषण और निष्कर्षण किया जाता है जो व्यावसायिक जानकारी के लिए उपयोगी हो सकता है।[4]
इतिहास
विषम डेटा स्रोतों के संयोजन से जुड़े विवादों को अधिकांशतः सूचना साइलो के रूप में संदर्भित किया जाता है, जो ही क्वेरी इंटरफ़ेस के अनुसार कुछ समय से अस्तित्व में है। इस प्रकार 1980 के दशक के प्रारंभ में, कंप्यूटर वैज्ञानिकों ने विषम डेटाबेस की अंतरसंचालनीयता के लिए सिस्टम डिजाइन करना प्रारंभ किया था।[5] इसके आधार पर संरचित मेटाडेटा द्वारा संचालित पहला डेटा एकीकरण सिस्टम 1991 में मिनेसोटा विश्वविद्यालय में IPUMS|एकीकृत सार्वजनिक उपयोग माइक्रोडेटा श्रृंखला (IPUMS) के लिए डिज़ाइन किया गया था। इस प्रकार आईपीयूएमएस ने डेटा भण्डारण दृष्टिकोण का उपयोग किया, जो विषम स्रोतों से डेटा को निकालता है, रूपांतरित करता है, लोड करता है, इसके आधार पर अद्वितीय दृश्य तार्किक स्कीमा में डेटा निकालता है, जो रूपांतरित करता है और लोड करता है जिससे कि विभिन्न स्रोतों से डेटा संगत हो जाता हैं।[6] इस प्रकार हजारों जनसंख्या डेटाबेस को इंटरऑपरेबल बनाकर, आईपीयूएमएस ने बड़े पैमाने पर डेटा एकीकरण की व्यवहार्यता का प्रदर्शन किया हैं। डेटा वेयरहाउस दृष्टिकोण कपलिंग (कंप्यूटर विज्ञान) आर्किटेक्चर प्रदान करता है क्योंकि डेटा पहले से ही क्वेरी योग्य रिपॉजिटरी में भौतिक रूप से समेटा हुआ है, इसलिए सामान्यतः प्रश्नों को हल करने में बहुत कम समय लगता है।[7]
डेटा वेयरहाउस दृष्टिकोण उन डेटा समुच्चयों के लिए कम व्यवहार्य है, जिन्हें बार-बार अपडेट किया जाता है, जिसके लिए सिंक्रोनाइज़ेशन के लिए एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ईटीएल) प्रक्रिया को लगातार पुन: निष्पादित करने की आवश्यकता होती है। डेटा वेयरहाउस के निर्माण में कठिनाइयां तब भी उत्पन्न होती हैं जब किसी के पास सारांश डेटा स्रोतों के लिए केवल क्वेरी इंटरफ़ेस होता है और पूर्ण डेटा तक पहुंच नहीं होती है। यात्रा या वर्गीकृत विज्ञापन वेब अनुप्रयोगों जैसी कई व्यावसायिक क्वेरी सेवाओं को एकीकृत करते समय यह समस्या अधिकांशतः सामने आती है।
As of 2009[update] डेटा एकीकरण की प्रवृत्ति ने डेटा के ढीले युग्मन का समर्थन किया[8] और डेटा मध्यस्थता स्कीमा (चित्रा 2 देखें) पर वास्तविक समय डेटा तक पहुंचने के लिए एकीकृत क्वेरी-इंटरफ़ेस प्रदान करना, जो मूल डेटाबेस से सीधे जानकारी प्राप्त करने की अनुमति देता है। यह उस युग में लोकप्रिय सेवा-उन्मुख वास्तुकला दृष्टिकोण के अनुरूप है। यह दृष्टिकोण मध्यस्थ स्कीमा और मूल स्रोतों की स्कीमा के बीच मैपिंग पर निर्भर करता है, और मूल डेटाबेस की स्कीमा से मेल खाने के लिए क्वेरी को विघटित क्वेरी में अनुवाद करता है। ऐसी मैपिंग को दो तरीकों से निर्दिष्ट किया जा सकता है: मध्यस्थ स्कीमा में इकाइयों से मूल स्रोतों में इकाइयों तक मैपिंग के रूप में (ग्लोबल-एज़-व्यू)[9] (जीएवी) दृष्टिकोण), या मूल स्रोतों में संस्थाओं से मध्यस्थ स्कीमा (स्थानीय-जैसा-दृश्य) में मैपिंग के रूप में[10] (एलएवी) दृष्टिकोण के रूप में इसके बाद वाले दृष्टिकोण के लिए मध्यस्थ स्कीमा पर प्रश्न को हल करने के लिए अधिक परिष्कृत निष्कर्षों की आवश्यकता होती है, अपितु (स्थिर) मध्यस्थ स्कीमा में नए डेटा स्रोतों को जोड़ना सरल हो जाता है।
As of 2010[update] डेटा एकीकरण अनुसंधान में कुछ कार्य सिमेंटिक एकीकरण समस्या से संबंधित हैं। यह समस्या एकीकरण की वास्तुकला की संरचना को संबोधित नहीं करती है, बल्कि विषम डेटा स्रोतों के बीच अर्थ संबंधी संघर्षों को कैसे हल किया जाए। उदाहरण के लिए, यदि दो कंपनियां अपने डेटाबेस का विलय करती हैं, तो कमाई जैसी उनकी संबंधित स्कीमों में कुछ अवधारणाओं और परिभाषाओं के अनिवार्य रूप से अलग-अलग अर्थ होते हैं। डेटाबेस में इसका मतलब डॉलर में होने वाला लाभ एक फ़्लोटिंग-पॉइंट नंबर हो सकता है, जबकि दूसरे में यह बिक्री की संख्या (एक पूर्णांक) का प्रतिनिधित्व कर सकता है। ऐसी समस्याओं के समाधान के लिए आम रणनीति में ऑन्टोलॉजी (कंप्यूटर विज्ञान) का उपयोग सम्मिलित है जो स्कीमा शर्तों को स्पष्ट रूप से परिभाषित करता है और इस प्रकार अर्थ संबंधी संघर्षों को हल करने में सहायक होता है। यह दृष्टिकोण ऑन्टोलॉजी-आधारित डेटा एकीकरण का प्रतिनिधित्व करता है। दूसरी ओर, विभिन्न जैव सूचना विज्ञान भंडारों से अनुसंधान परिणामों के संयोजन की समस्या के लिए धनात्मक पूर्वानुमानित मूल्य जैसे एकल मानदंड पर, विभिन्न डेटा स्रोतों से गणना की गई समानताओं की बेंच-मार्किंग की आवश्यकता होती है। यह डेटा स्रोतों को सीधे तुलनीय बनाने में सक्षम बनाता है और प्रयोगों की प्रकृति अलग होने पर भी उन्हें एकीकृत किया जा सकता है।[11]
As of 2011[update] यह निर्धारित किया गया था कि वर्तमान मॉडलिंग की दिनांक विधियां अलग-अलग डेटा और सूचना साइलो के द्वीपों के रूप में प्रत्येक डेटा आर्किटेक्चर में डेटा अलगाव प्रदान कर रही थीं। यह डेटा मॉडलिंग पद्धति की अनपेक्षित कलाकृति को प्रदर्शित करता है, जिसके परिणामस्वरूप असमान डेटा मॉडल का विकास होता है। अलग-अलग डेटा मॉडल, जब डेटाबेस के रूप में त्वरित किए जाते हैं, तो अलग-अलग डेटाबेस बनाते हैं। डेटा अलगाव विरूपण साक्ष्य को खत्म करने और एकीकृत डेटा मॉडल के विकास को बढ़ावा देने के लिए उन्नत डेटा मॉडल पद्धतियां विकसित की गई हैं।[12] उन्नत डेटा मॉडलिंग विधि डेटा मॉडल को मानकीकृत डेटा इकाइयों के रूप में संरचनात्मक मेटा डेटा के साथ संवर्धित करके पुनर्गठित करती है। कई डेटा मॉडलों को दोबारा बनाने के परिणामस्वरूप, रीकास्ट डेटा मॉडल का समुच्चय अब या अधिक समानता वाले रिश्ते साझा करेगा जो इन डेटा मॉडलों के लिए अब आम संरचनात्मक मेटाडेटा से संबंधित हैं। सामान्यता संबंध सहकर्मी से सहकर्मी प्रकार के इकाई संबंध हैं जो कई डेटा मॉडल की मानकीकृत डेटा इकाइयों से संबंधित होते हैं। ही मानक डेटा इकाई वाले एकाधिक डेटा मॉडल समान समानता संबंध में भाग ले सकते हैं। जब एकीकृत डेटा मॉडल को डेटाबेस के रूप में त्वरित किया जाता है और मास्टर डेटा के सामान्य समुच्चय से उचित रूप से पॉप्युलेट किया जाता है, तो ये डेटाबेस एकीकृत होते हैं।
2011 के बाद से, डेटा हब दृष्टिकोण पूर्ण रूप से संरचित (सामान्यतः संबंधपरक) एंटरप्राइज़ डेटा वेयरहाउस की तुलना में अधिक रुचि का रहा है। 2013 के बाद से, डेटा लेक दृष्टिकोण डेटा हब के स्तर तक बढ़ गया है। इसके लिए गूगल पर सभी तीन खोज शब्दों की लोकप्रियता को देखें।[13] ये दृष्टिकोण असंरचित या विविध डेटा को स्थान पर जोड़ते हैं, अपितु हब में सभी डेटा को संरचना और परिभाषित करने के लिए अधिकांशतः जटिल मास्टर रिलेशनल स्कीमा की आवश्यकता नहीं होती है।
इस कारण किसी बाज़ार का अध्ययन करने के लिए उपयोग किए जाने वाले डेटा संग्रह के संबंध में डेटा एकीकरण व्यवसाय में बड़ी भूमिका निभाता है। उपभोक्ताओं से प्राप्त कच्चे डेटा को सुसंगत डेटा में परिवर्तित करना ऐसी चीज़ है जिसे व्यवसाय तब करने का प्रयास करते हैं जब वे इस बात पर विचार करते हैं कि उन्हें आगे क्या कदम उठाना चाहिए।[14] संगठन अपने डेटाबेस से जानकारी और पैटर्न एकत्र करने के लिए डेटा माइनिंग का अधिक बार उपयोग कर रहे हैं, और यह प्रक्रिया उन्हें व्यावसायिक प्रदर्शन बढ़ाने और अधिक कुशलता से आर्थिक विश्लेषण करने के लिए नई व्यावसायिक रणनीति विकसित करने में सहायता करती है। अपने सिस्टम में संग्रहित करने के लिए बड़ी मात्रा में डेटा को संकलित करना उनकी सफलता की संभावनाओं को उत्तम बनाने के लिए व्यापारिक सूचना के लिए अनुकूलित डेटा एकीकरण का रूप है।[15]
उदाहरण
वेब अनुप्रयोग पर विचार करें जहां उपयोगकर्ता शहरों के बारे में विभिन्न प्रकार की जानकारी जैसे अपराध डेटा, मौसम, होटल, जनसांख्यिकी इत्यादि पूछ सकता है। परंपरागत रूप से, जानकारी को एकल स्कीमा के साथ एकल डेटाबेस में संग्रहीत किया जाना चाहिए। अपितु किसी भी एकल उद्यम के लिए इतनी विस्तृत जानकारी एकत्र करना कुछ हद तक कठिन और महंगा होगा। भले ही डेटा इकट्ठा करने के लिए संसाधन उपलब्ध हों, फिर भी यह उपलब्धा अपराध डेटाबेस, मौसम वेबसाइटों और जनगणना डेटा में डुप्लिकेट डेटा की संभावना होगी।
एक डेटा-एकीकरण समाधान इन बाहरी संसाधनों को वर्चुअल डेटाबेस पर भौतिक विचारों के रूप में मानकर इस समस्या का समाधान कर सकता है, जिसके परिणामस्वरूप वर्चुअल डेटा एकीकरण होता है। इसका मतलब यह है कि एप्लिकेशन-डेवलपर्स वर्चुअल स्कीमा-मध्यस्थता स्कीमा-का निर्माण करते हैं, जिससे कि उनके उपयोगकर्ता जिस प्रकार के उत्तर चाहते हैं उन्हें सर्वोत्तम तरीके से मॉडल किया जा सके। इसके बाद, वे प्रत्येक डेटा स्रोत, जैसे अपराध डेटाबेस और मौसम वेबसाइट के लिए रैपर या एडेप्टर डिज़ाइन करते हैं। ये एडाप्टर बस स्थानीय क्वेरी परिणामों (जो संबंधित वेबसाइटों या डेटाबेस द्वारा लौटाए जाते हैं) को डेटा एकीकरण समाधान के लिए आसानी से संसाधित रूप में परिवर्तित कर देते हैं, इसके लिए चित्र 2 देखें। जब कोई एप्लिकेशन-उपयोगकर्ता मध्यस्थ स्कीमा पर सवाल उठाता है, तो डेटा-एकीकरण समाधान इस क्वेरी को संबंधित डेटा स्रोतों पर उचित प्रश्नों में परिवर्तित कर देता है। अंत में, वर्चुअल डेटाबेस इन प्रश्नों के परिणामों को उपयोगकर्ता की क्वेरी के उत्तर में जोड़ता है।
यह समाधान केवल उनके लिए एडॉप्टर या एप्लिकेशन सॉफ़्टवेयर ब्लेड बनाकर नए स्रोतों को जोड़ने की सुविधा प्रदान करता है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड सिस्टम या एकल डेटाबेस समाधान के साथ विरोधाभासी है, जिसके लिए सिस्टम में संपूर्ण नए डेटा समुच्चय के मैन्युअल एकीकरण की आवश्यकता होती है। वर्चुअल ईटीएल समाधान डेटा सामंजस्य को लागू करने के लिए वर्चुअल डेटाबेस का लाभ उठाते हैं; जिससे डेटा को निर्दिष्ट मास्टर स्रोत से फ़ील्ड दर फ़ील्ड निर्धारित लक्ष्यों पर कॉपी किया जाता है। इस कारण हब और बात की आर्किटेक्चर का उपयोग करके वर्चुअल मध्यस्थता स्कीमा या वर्चुअल मेटाडेटा रिपॉजिटरी का निर्माण करने के लिए उन्नत डेटा वर्चुअलाइजेशन भी ऑब्जेक्ट-ओरिएंटेड मॉडलिंग की अवधारणा पर बनाया गया है।
प्रत्येक डेटा स्रोत अलग-अलग है और इस तरह डेटा स्रोतों के बीच विश्वसनीय जुड़ाव का समर्थन करने के लिए डिज़ाइन नहीं किया गया है। इसलिए, डेटा वर्चुअलाइजेशन के साथ-साथ डेटा फ़ेडरेशन अलग-अलग डेटा समुच्चय से डेटा और जानकारी के संयोजन का समर्थन करने के लिए आकस्मिक डेटा समानता पर निर्भर करता है। डेटा स्रोतों में डेटा मूल्य समानता की कमी के कारण, रिटर्न समुच्चय गलत, अधूरा और सत्यापित करना असंभव हो सकता है।
एक समाधान यह है कि इन डेटाबेसों को एक्स्ट्रैक्ट, ट्रांसफॉर्म, लोड की आवश्यकता के बिना एकीकृत करने के लिए अलग-अलग डेटाबेस को फिर से तैयार किया जाए। रीकास्ट डेटाबेस सामान्यता बाधाओं का समर्थन करते हैं जहां डेटाबेस के बीच संदर्भात्मक अखंडता लागू की जा सकती है। रीकास्ट डेटाबेस सभी डेटाबेस में डेटा मूल्य समानता के साथ डिज़ाइन किए गए डेटा एक्सेस पथ प्रदान करते हैं।
सिद्धांत
डेटा एकीकरण का सिद्धांत[1]डेटाबेस सिद्धांत का उपसमूह बनाता है और प्रथम-क्रम तर्क में समस्या की अंतर्निहित अवधारणाओं को औपचारिक बनाता है। इस प्रकार के सिद्धांतों को लागू करने से डेटा एकीकरण की व्यवहार्यता और कठिनाई के संकेत मिलते हैं। चूंकि इसकी परिभाषाएँ भिन्न लग सकती हैं, उनमें सभी प्रकार की एकीकरण प्रणालियों को समायोजित करने के लिए पर्याप्त व्यापकता है,[16] इनमें वे भी सम्मिलित हैं जिनमें नेस्टेड रिलेशनल/XML डेटाबेस सम्मिलित हैं[17] और वे जो डेटाबेस को प्रोग्राम के रूप में मानते हैं।[18] ओरेकल या DB2 जैसे विशेष डेटाबेस सिस्टम से कनेक्शन JDBC जैसी कार्यान्वयन-स्तरीय प्रौद्योगिकियों द्वारा प्रदान किए जाते हैं और सैद्धांतिक स्तर पर अध्ययन नहीं किया जाता है।
परिभाषाएँ
डेटा एकीकरण प्रणालियों को औपचारिक रूप से टुपल (गणित) के रूप में परिभाषित किया गया है, जहाँ वैश्विक (या मध्यस्थ) स्कीमा है, स्रोत स्कीमा का विषम समुच्चय है, और वह मैपिंग है जो स्रोत और वैश्विक स्कीमा के बीच प्रश्नों को मैप करती है। इस प्रकार दोनों और प्रत्येक संबंधित संबंध का डेटाबेस के लिए प्रतीकों से बनी वर्णमाला (कंप्यूटर विज्ञान) पर औपचारिक भाषा में व्यक्त किए जाते हैं। कार्यात्मक विधेय प्रश्नों के बीच अभिकथन सम्मिलित हैं और प्रश्न खत्म . जब उपयोगकर्ता डेटा एकीकरण प्रणाली पर प्रश्न पूछते हैं, तो वे प्रश्न भी पूछते हैं और फिर मैपिंग वैश्विक स्कीमा और स्रोत स्कीमा में तत्वों के बीच कनेक्शन का दावा करती है।
एक स्कीमा पर डेटाबेस को समुच्चय के समुच्चय के रूप में परिभाषित किया गया है, प्रत्येक संबंध के लिए एक रिलेशनल डेटाबेस में स्रोत स्कीमा के अनुरूप डेटाबेस इसमें प्रत्येक विषम डेटा स्रोत के लिए टुपल्स के समुच्चय का समुच्चय सम्मिलित होगा और इसे स्रोत डेटाबेस कहा जाता है। ध्यान दें कि यह एकल स्रोत डेटाबेस वास्तव में डिस्कनेक्ट किए गए डेटाबेस के संग्रह का प्रतिनिधित्व कर सकता है। वर्चुअल मध्यस्थता स्कीमा के अनुरूप डेटाबेस वैश्विक डेटाबेस कहा जाता है. वैश्विक डेटाबेस को मैपिंग को संतुष्ट करना होगा स्रोत डेटाबेस के संबंध में. इस मानचित्रण की वैधता बीच के पत्राचार की प्रकृति और पर निर्भर करती है। इस पत्राचार को मॉडल करने के दो लोकप्रिय तरीके उपलब्ध हैं: व्यू या जीएवी के रूप में ग्लोबल और व्यू या एलएवी के रूप में स्थानीय प्रकट होता हैं।
जीएवी सिस्टम वैश्विक डेटाबेस को दृश्य (डेटाबेस) के समुच्चय के रूप में मॉडल करता है . इस मामले में के प्रत्येक तत्व प्रश्न खत्म . से संबद्ध है, इसके बीच में अच्छी तरह से परिभाषित संबंधों के कारण क्वेरी अनुकूलक सीधा ऑपरेशन बन जाता है, इस प्रकार और . जटिलता का बोझ डेटा एकीकरण प्रणाली को निर्देश देने वाले मध्यस्थ कोड को लागू करने पर पड़ता है कि स्रोत डेटाबेस से तत्वों को कैसे पुनर्प्राप्त किया जाए। यदि कोई नया स्रोत सिस्टम में सम्मिलित होता है, तो मध्यस्थ को अद्यतन करने के लिए काफी प्रयास आवश्यक हो सकते हैं, इस प्रकार जब स्रोतों में परिवर्तन की संभावना नहीं लगती है तो जीएवी दृष्टिकोण उत्तम प्रतीत होता है।
उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के जीएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले प्रत्येक शहर के सूचना स्रोतों के लिए मध्यस्थ विकसित करेगा और फिर इन मध्यस्थों के आसपास वैश्विक स्कीमा डिजाइन करेगा। उदाहरण के लिए, विचार करें कि क्या किसी स्रोत ने मौसम वेबसाइट की सेवा दी है। डिज़ाइनर संभवतः वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व जोड़ देगा। फिर अधिकांश प्रयास उचित मध्यस्थ कोड लिखने पर केंद्रित होता है जो मौसम संबंधी पूर्वानुमानों को मौसम वेबसाइट पर प्रश्न में बदल देगा। यदि कोई अन्य स्रोत भी मौसम से संबंधित है तो यह प्रयास जटिल हो सकता है, क्योंकि डिजाइनर को दो स्रोतों से परिणामों को ठीक से संयोजित करने के लिए कोड लिखने की आवश्यकता हो सकती है।
दूसरी ओर, LAV में, स्रोत डेटाबेस को दृश्य (डेटाबेस) के समुच्चय के रूप में तैयार किया जाता है . इस मामले में के प्रत्येक तत्व से संबद्ध है प्रश्न खत्म . यहाँ के बीच सटीक संबंध हैं और अब अच्छी तरह से परिभाषित नहीं हैं। जैसा कि अगले भाग में दिखाया गया है, स्रोतों से तत्वों को कैसे पुनर्प्राप्त किया जाए यह निर्धारित करने का बोझ क्वेरी प्रोसेसर पर रखा गया है। एलएवी मॉडलिंग का लाभ यह है कि जीएवी प्रणाली की तुलना में बहुत कम काम के साथ नए स्रोत जोड़े जा सकते हैं, इस प्रकार उन मामलों में एलएवी दृष्टिकोण को प्राथमिकता दी जानी चाहिए जहां मध्यस्थता स्कीमा कम स्थिर है या बदलने की संभावना है।[1]
उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के लिए एलएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले वैश्विक स्कीमा डिजाइन करता है और फिर संबंधित शहर सूचना स्रोतों के स्कीमा को इनपुट करता है। फिर से विचार करें कि क्या कोई स्रोत मौसम वेबसाइट पर काम करता है। डिज़ाइनर वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व तभी जोड़ेगा जब कोई पहले से उपलब्ध न हो। फिर प्रोग्रामर वेबसाइट के लिए एडाप्टर या रैपर लिखते हैं और स्रोत स्कीमा में वेबसाइट के परिणामों का स्कीमा विवरण जोड़ते हैं। नए स्रोत को जोड़ने की जटिलता डिज़ाइनर से क्वेरी प्रोसेसर की ओर बढ़ती है।
क्वेरी प्रोसेसिंग
डेटा एकीकरण प्रणालियों में क्वेरी प्रोसेसिंग का सिद्धांत सामान्यतः कंजंक्टिव डेटाबेस क्वेरी भाषा और संगणक वैज्ञानिक , विशुद्ध रूप से घोषणात्मक तर्क प्रोग्रामिंग भाषा का उपयोग करके व्यक्त किया जाता है।[20] कोई संयोजक क्वेरी को डेटाबेस के संबंधों पर लागू तार्किक फ़ंक्शन के रूप में सोच सकता है, जहाँ . यदि किसी टुपल या टुपल्स के समुच्चय को नियम में प्रतिस्थापित किया जाता है और यह इसे संतुष्ट करता है (इसे सत्य बनाता है), तो हम उस टुपल को क्वेरी में उत्तरों के समुच्चय के हिस्से के रूप में मानते हैं। जबकि डेटालॉग जैसी औपचारिक भाषाएँ इन प्रश्नों को संक्षिप्त रूप से और अस्पष्टता के बिना व्यक्त करती हैं, सामान्य SQL क्वेरीज़ को संयोजनात्मक क्वेरी के रूप में भी गिना जाता है।
डेटा एकीकरण के संदर्भ में, क्वेरी नियंत्रण संयोजक प्रश्नों की महत्वपूर्ण संपत्ति का प्रतिनिधित्व करता है। पूछताछ इसमें और क्वेरी सम्मिलित है (संकेतित ) यदि आवेदन करने के परिणाम आवेदन करने के परिणामों का उपसमूह हैं किसी भी डेटाबेस के लिए. यदि परिणामी समुच्चय किसी डेटाबेस के लिए समान हैं तो दोनों प्रश्नों को समतुल्य कहा जाता है। यह महत्वपूर्ण है क्योंकि जीएवी और एलएवी दोनों प्रणालियों में, उपयोगकर्ता दृश्य (डेटाबेस) के समुच्चय, या भौतिक संयोजन वाले प्रश्नों द्वारा दर्शाए गए वर्चुअल स्कीमा पर संयोजक प्रश्न पूछता है। एकीकरण का उद्देश्य विचारों द्वारा प्रस्तुत प्रश्नों को फिर से लिखना है जिससे कि उनके परिणामों को हमारे उपयोगकर्ता की क्वेरी के बराबर या अधिकतम रूप से समाहित किया जा सके। यह दृश्यों (AQUV) का उपयोग करके प्रश्नों का उत्तर देने की समस्या से मेल खाता है।[21]
GAV सिस्टम में, सिस्टम डिज़ाइनर क्वेरी-रीराइटिंग को परिभाषित करने के लिए मध्यस्थ कोड लिखता है। उपयोगकर्ता की क्वेरी में प्रत्येक तत्व प्रतिस्थापन नियम से मेल खाता है, जैसे वैश्विक स्कीमा में प्रत्येक तत्व स्रोत पर क्वेरी से मेल खाता है। क्वेरी प्रसंस्करण बस मध्यस्थ में निर्दिष्ट नियम के अनुसार उपयोगकर्ता की क्वेरी के उपलक्ष्यों का विस्तार करता है और इस प्रकार परिणामी क्वेरी समतुल्य होने की संभावना है। जबकि डिज़ाइनर अधिकांश कार्य पहले से करता है, कुछ GAV सिस्टम जैसे Tsimmis में मध्यस्थ विवरण प्रक्रिया को सरल बनाना सम्मिलित है।
एलएवी सिस्टम में, क्वेरीज़ को पुनर्लेखन की अधिक मौलिक प्रक्रिया से गुजरना पड़ता है क्योंकि उपयोगकर्ता की क्वेरी को सरल विस्तार रणनीति के साथ संरेखित करने के लिए कोई मध्यस्थ उपलब्ध नहीं होता है। सर्वोत्तम पुनर्लेखन खोजने के लिए एकीकरण प्रणाली को संभावित प्रश्नों के स्थान पर खोज निष्पादित करनी चाहिए। परिणामी पुनर्लेखन समतुल्य क्वेरी नहीं हो सकती है, अपितु अधिकतम रूप से समाहित हो सकती है, और परिणामी टुपल्स अपूर्ण हो सकते हैं। As of 2011[update] जीक्यूआर एल्गोरिदम[22] LAV डेटा एकीकरण प्