डेटा एकीकरण

आंकड़े एकीकरण में विभिन्न स्रोतों में मौजूद डेटा को संयोजित करना और उपयोगकर्ताओं को उनका एकीकृत दृश्य प्रदान करना शामिल है। यह प्रक्रिया विभिन्न स्थितियों में महत्वपूर्ण हो जाती है, जिसमें वाणिज्यिक (जैसे कि जब दो समान कंपनियों को अपने डेटाबेस को मर्ज करने की आवश्यकता होती है) और वैज्ञानिक (उदाहरण के लिए, विभिन्न जैव सूचना विज्ञान रिपॉजिटरी से अनुसंधान परिणामों का संयोजन) दोनों डोमेन शामिल हैं। डेटा एकीकरण बढ़ती आवृत्ति के साथ वॉल्यूम (यानी, बड़ा डेटा) और मौजूदा डेटा सूचना विस्फोट को साझा करने की आवश्यकता के साथ प्रकट होता है। यह व्यापक सैद्धांतिक कार्य का केंद्र बन गया है, और कई खुली समस्याएं अनसुलझी हैं। डेटा एकीकरण आंतरिक और बाहरी उपयोगकर्ताओं के बीच सहयोग को प्रोत्साहित करता है। एकीकृत किया जा रहा डेटा एक विषम डेटाबेस सिस्टम से प्राप्त किया जाना चाहिए और एक एकल सुसंगत डेटा स्टोर में परिवर्तित किया जाना चाहिए जो ग्राहकों के लिए फ़ाइलों के नेटवर्क में समकालिक डेटा प्रदान करता है। डेटा एकीकरण का एक सामान्य उपयोग डेटा खनन में होता है जब मौजूदा डेटाबेस से जानकारी का विश्लेषण और निष्कर्षण किया जाता है जो व्यावसायिक जानकारी के लिए उपयोगी हो सकता है।

इतिहास


विषम डेटा स्रोतों के संयोजन से जुड़े मुद्दों को अक्सर सूचना साइलो के रूप में संदर्भित किया जाता है, एक ही क्वेरी इंटरफ़ेस के तहत कुछ समय से अस्तित्व में है। 1980 के दशक की शुरुआत में, कंप्यूटर वैज्ञानिकों ने विषम डेटाबेस की अंतरसंचालनीयता के लिए सिस्टम डिजाइन करना शुरू किया। संरचित मेटाडेटा द्वारा संचालित पहला डेटा एकीकरण सिस्टम 1991 में मिनेसोटा विश्वविद्यालय में IPUMS|एकीकृत सार्वजनिक उपयोग माइक्रोडेटा श्रृंखला (IPUMS) के लिए डिज़ाइन किया गया था। आईपीयूएमएस ने एक डेटा भण्डारण दृष्टिकोण का उपयोग किया, जो विषम स्रोतों से डेटा को निकालता है, रूपांतरित करता है, लोड करता है, एक अद्वितीय दृश्य तार्किक स्कीमा में डेटा निकालता है, रूपांतरित करता है और लोड करता है ताकि विभिन्न स्रोतों से डेटा संगत हो जाए। हजारों जनसंख्या डेटाबेस को इंटरऑपरेबल बनाकर, आईपीयूएमएस ने बड़े पैमाने पर डेटा एकीकरण की व्यवहार्यता का प्रदर्शन किया। डेटा वेयरहाउस दृष्टिकोण एक कपलिंग (कंप्यूटर विज्ञान) आर्किटेक्चर प्रदान करता है क्योंकि डेटा पहले से ही एक क्वेरी योग्य रिपॉजिटरी में भौतिक रूप से समेटा हुआ है, इसलिए आमतौर पर प्रश्नों को हल करने में बहुत कम समय लगता है। डेटा वेयरहाउस दृष्टिकोण उन डेटा सेटों के लिए कम व्यवहार्य है जिन्हें बार-बार अपडेट किया जाता है, जिसके लिए सिंक्रोनाइज़ेशन के लिए एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ईटीएल) प्रक्रिया को लगातार पुन: निष्पादित करने की आवश्यकता होती है। डेटा वेयरहाउस के निर्माण में कठिनाइयां तब भी उत्पन्न होती हैं जब किसी के पास सारांश डेटा स्रोतों के लिए केवल एक क्वेरी इंटरफ़ेस होता है और पूर्ण डेटा तक पहुंच नहीं होती है। यात्रा या वर्गीकृत विज्ञापन वेब अनुप्रयोगों जैसी कई व्यावसायिक क्वेरी सेवाओं को एकीकृत करते समय यह समस्या अक्सर सामने आती है।

डेटा एकीकरण की प्रवृत्ति ने डेटा के ढीले युग्मन का समर्थन किया और डेटा मध्यस्थता स्कीमा (चित्रा 2 देखें) पर वास्तविक समय डेटा तक पहुंचने के लिए एक एकीकृत क्वेरी-इंटरफ़ेस प्रदान करना, जो मूल डेटाबेस से सीधे जानकारी प्राप्त करने की अनुमति देता है। यह उस युग में लोकप्रिय सेवा-उन्मुख वास्तुकला दृष्टिकोण के अनुरूप है। यह दृष्टिकोण मध्यस्थ स्कीमा और मूल स्रोतों की स्कीमा के बीच मैपिंग पर निर्भर करता है, और मूल डेटाबेस की स्कीमा से मेल खाने के लिए एक क्वेरी को विघटित क्वेरी में अनुवाद करता है। ऐसी मैपिंग को दो तरीकों से निर्दिष्ट किया जा सकता है: मध्यस्थ स्कीमा में इकाइयों से मूल स्रोतों में इकाइयों तक मैपिंग के रूप में (ग्लोबल-एज़-व्यू) (जीएवी) दृष्टिकोण), या मूल स्रोतों में संस्थाओं से मध्यस्थ स्कीमा (स्थानीय-जैसा-दृश्य) में मैपिंग के रूप में (एलएवी) दृष्टिकोण)। बाद वाले दृष्टिकोण के लिए मध्यस्थ स्कीमा पर एक प्रश्न को हल करने के लिए अधिक परिष्कृत निष्कर्षों की आवश्यकता होती है, लेकिन एक (स्थिर) मध्यस्थ स्कीमा में नए डेटा स्रोतों को जोड़ना आसान हो जाता है।

डेटा एकीकरण अनुसंधान में कुछ कार्य सिमेंटिक एकीकरण समस्या से संबंधित हैं। यह समस्या एकीकरण की वास्तुकला की संरचना को संबोधित नहीं करती है, बल्कि विषम डेटा स्रोतों के बीच अर्थ संबंधी संघर्षों को कैसे हल किया जाए। उदाहरण के लिए, यदि दो कंपनियां अपने डेटाबेस का विलय करती हैं, तो कमाई जैसी उनकी संबंधित स्कीमों में कुछ अवधारणाओं और परिभाषाओं के अनिवार्य रूप से अलग-अलग अर्थ होते हैं। एक डेटाबेस में इसका मतलब डॉलर में मुनाफा (एक फ़्लोटिंग-पॉइंट नंबर) हो सकता है, जबकि दूसरे में यह बिक्री की संख्या (एक पूर्णांक) का प्रतिनिधित्व कर सकता है। ऐसी समस्याओं के समाधान के लिए एक आम रणनीति में ऑन्टोलॉजी (कंप्यूटर विज्ञान) का उपयोग शामिल है जो स्कीमा शर्तों को स्पष्ट रूप से परिभाषित करता है और इस प्रकार अर्थ संबंधी संघर्षों को हल करने में मदद करता है। यह दृष्टिकोण ऑन्टोलॉजी-आधारित डेटा एकीकरण का प्रतिनिधित्व करता है। दूसरी ओर, विभिन्न जैव सूचना विज्ञान भंडारों से अनुसंधान परिणामों के संयोजन की समस्या के लिए सकारात्मक पूर्वानुमानित मूल्य जैसे एकल मानदंड पर, विभिन्न डेटा स्रोतों से गणना की गई समानताओं की बेंच-मार्किंग की आवश्यकता होती है। यह डेटा स्रोतों को सीधे तुलनीय बनाने में सक्षम बनाता है और प्रयोगों की प्रकृति अलग होने पर भी उन्हें एकीकृत किया जा सकता है।

यह निर्धारित किया गया था कि वर्तमान मॉडलिंग की दिनांक विधियां अलग-अलग डेटा और सूचना साइलो के द्वीपों के रूप में प्रत्येक डेटा आर्किटेक्चर में डेटा अलगाव प्रदान कर रही थीं। यह डेटा अलगाव डेटा मॉडलिंग पद्धति की एक अनपेक्षित कलाकृति है जिसके परिणामस्वरूप असमान डेटा मॉडल का विकास होता है। अलग-अलग डेटा मॉडल, जब डेटाबेस के रूप में त्वरित किए जाते हैं, तो अलग-अलग डेटाबेस बनाते हैं। डेटा अलगाव विरूपण साक्ष्य को खत्म करने और एकीकृत डेटा मॉडल के विकास को बढ़ावा देने के लिए उन्नत डेटा मॉडल पद्धतियां विकसित की गई हैं। एक उन्नत डेटा मॉडलिंग विधि डेटा मॉडल को मानकीकृत डेटा इकाइयों के रूप में संरचनात्मक मेटा डेटा  के साथ संवर्धित करके पुनर्गठित करती है। कई डेटा मॉडलों को दोबारा बनाने के परिणामस्वरूप, रीकास्ट डेटा मॉडल का सेट अब एक या अधिक समानता वाले रिश्ते साझा करेगा जो इन डेटा मॉडलों के लिए अब आम संरचनात्मक मेटाडेटा से संबंधित हैं। सामान्यता संबंध एक सहकर्मी से सहकर्मी प्रकार के इकाई संबंध हैं जो कई डेटा मॉडल की मानकीकृत डेटा इकाइयों से संबंधित होते हैं। एक ही मानक डेटा इकाई वाले एकाधिक डेटा मॉडल समान समानता संबंध में भाग ले सकते हैं। जब एकीकृत डेटा मॉडल को डेटाबेस के रूप में त्वरित किया जाता है और मास्टर डेटा के एक सामान्य सेट से उचित रूप से पॉप्युलेट किया जाता है, तो ये डेटाबेस एकीकृत होते हैं।

2011 के बाद से, डेटा हब दृष्टिकोण पूरी तरह से संरचित (आमतौर पर संबंधपरक) एंटरप्राइज़ डेटा वेयरहाउस की तुलना में अधिक रुचि का रहा है। 2013 के बाद से, डेटा लेक दृष्टिकोण डेटा हब के स्तर तक बढ़ गया है। (Google रुझान पर सभी तीन खोज शब्दों की लोकप्रियता देखें। ) ये दृष्टिकोण असंरचित या विविध डेटा को एक स्थान पर जोड़ते हैं, लेकिन हब में सभी डेटा को संरचना और परिभाषित करने के लिए (अक्सर जटिल) मास्टर रिलेशनल स्कीमा की आवश्यकता नहीं होती है।

बाज़ार का अध्ययन करने के लिए उपयोग किए जाने वाले डेटा संग्रह के संबंध में डेटा एकीकरण व्यवसाय में एक बड़ी भूमिका निभाता है। उपभोक्ताओं से प्राप्त कच्चे डेटा को सुसंगत डेटा में परिवर्तित करना एक ऐसी चीज़ है जिसे व्यवसाय तब करने का प्रयास करते हैं जब वे इस बात पर विचार करते हैं कि उन्हें आगे क्या कदम उठाना चाहिए। संगठन अपने डेटाबेस से जानकारी और पैटर्न एकत्र करने के लिए डेटा माइनिंग का अधिक बार उपयोग कर रहे हैं, और यह प्रक्रिया उन्हें व्यावसायिक प्रदर्शन बढ़ाने और अधिक कुशलता से आर्थिक विश्लेषण करने के लिए नई व्यावसायिक रणनीति विकसित करने में मदद करती है। अपने सिस्टम में संग्रहित करने के लिए बड़ी मात्रा में डेटा को संकलित करना उनकी सफलता की संभावनाओं को बेहतर बनाने के लिए व्यापारिक सूचना  के लिए अनुकूलित डेटा एकीकरण का एक रूप है।

उदाहरण
एक वेब अनुप्रयोग पर विचार करें जहां उपयोगकर्ता शहरों के बारे में विभिन्न प्रकार की जानकारी (जैसे अपराध आंकड़े, मौसम, होटल, जनसांख्यिकी इत्यादि) पूछ सकता है। परंपरागत रूप से, जानकारी को एकल स्कीमा के साथ एकल डेटाबेस में संग्रहीत किया जाना चाहिए। लेकिन किसी भी एकल उद्यम के लिए इतनी विस्तृत जानकारी एकत्र करना कुछ हद तक कठिन और महंगा होगा। भले ही डेटा इकट्ठा करने के लिए संसाधन मौजूद हों, फिर भी यह मौजूदा अपराध डेटाबेस, मौसम वेबसाइटों और जनगणना डेटा में डुप्लिकेट डेटा की संभावना होगी।

एक डेटा-एकीकरण समाधान इन बाहरी संसाधनों को वर्चुअल डेटाबेस पर भौतिक विचारों के रूप में मानकर इस समस्या का समाधान कर सकता है, जिसके परिणामस्वरूप वर्चुअल डेटा एकीकरण होता है। इसका मतलब यह है कि एप्लिकेशन-डेवलपर्स एक वर्चुअल स्कीमा-मध्यस्थता स्कीमा-का निर्माण करते हैं ताकि उनके उपयोगकर्ता जिस प्रकार के उत्तर चाहते हैं उन्हें सर्वोत्तम तरीके से मॉडल किया जा सके। इसके बाद, वे प्रत्येक डेटा स्रोत, जैसे अपराध डेटाबेस और मौसम वेबसाइट के लिए रैपर या एडेप्टर डिज़ाइन करते हैं। ये एडाप्टर बस स्थानीय क्वेरी परिणामों (जो संबंधित वेबसाइटों या डेटाबेस द्वारा लौटाए जाते हैं) को डेटा एकीकरण समाधान के लिए आसानी से संसाधित रूप में बदल देते हैं (चित्र 2 देखें)। जब कोई एप्लिकेशन-उपयोगकर्ता मध्यस्थ स्कीमा पर सवाल उठाता है, तो डेटा-एकीकरण समाधान इस क्वेरी को संबंधित डेटा स्रोतों पर उचित प्रश्नों में बदल देता है। अंत में, वर्चुअल डेटाबेस इन प्रश्नों के परिणामों को उपयोगकर्ता की क्वेरी के उत्तर में जोड़ता है।

यह समाधान केवल उनके लिए एक एडॉप्टर या एप्लिकेशन सॉफ़्टवेयर ब्लेड बनाकर नए स्रोतों को जोड़ने की सुविधा प्रदान करता है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड सिस्टम या एकल डेटाबेस समाधान के साथ विरोधाभासी है, जिसके लिए सिस्टम में संपूर्ण नए डेटा सेट के मैन्युअल एकीकरण की आवश्यकता होती है। वर्चुअल ईटीएल समाधान डेटा सामंजस्य को लागू करने के लिए वर्चुअल डेटाबेस का लाभ उठाते हैं; जिससे डेटा को निर्दिष्ट मास्टर स्रोत से फ़ील्ड दर फ़ील्ड निर्धारित लक्ष्यों पर कॉपी किया जाता है। हब और बात की आर्किटेक्चर का उपयोग करके वर्चुअल मध्यस्थता स्कीमा या वर्चुअल मेटाडेटा रिपॉजिटरी का निर्माण करने के लिए उन्नत डेटा वर्चुअलाइजेशन भी ऑब्जेक्ट-ओरिएंटेड मॉडलिंग की अवधारणा पर बनाया गया है।

प्रत्येक डेटा स्रोत अलग-अलग है और इस तरह डेटा स्रोतों के बीच विश्वसनीय जुड़ाव का समर्थन करने के लिए डिज़ाइन नहीं किया गया है। इसलिए, डेटा वर्चुअलाइजेशन के साथ-साथ डेटा फ़ेडरेशन अलग-अलग डेटा सेट से डेटा और जानकारी के संयोजन का समर्थन करने के लिए आकस्मिक डेटा समानता पर निर्भर करता है। डेटा स्रोतों में डेटा मूल्य समानता की कमी के कारण, रिटर्न सेट गलत, अधूरा और सत्यापित करना असंभव हो सकता है।

एक समाधान यह है कि इन डेटाबेसों को एक्स्ट्रैक्ट, ट्रांसफॉर्म, लोड की आवश्यकता के बिना एकीकृत करने के लिए अलग-अलग डेटाबेस को फिर से तैयार किया जाए। रीकास्ट डेटाबेस सामान्यता बाधाओं का समर्थन करते हैं जहां डेटाबेस के बीच संदर्भात्मक अखंडता लागू की जा सकती है। रीकास्ट डेटाबेस सभी डेटाबेस में डेटा मूल्य समानता के साथ डिज़ाइन किए गए डेटा एक्सेस पथ प्रदान करते हैं।

सिद्धांत
डेटा एकीकरण का सिद्धांत डेटाबेस सिद्धांत का एक उपसमूह बनाता है और प्रथम-क्रम तर्क में समस्या की अंतर्निहित अवधारणाओं को औपचारिक बनाता है। सिद्धांतों को लागू करने से डेटा एकीकरण की व्यवहार्यता और कठिनाई के संकेत मिलते हैं। हालाँकि इसकी परिभाषाएँ अमूर्त लग सकती हैं, उनमें सभी प्रकार की एकीकरण प्रणालियों को समायोजित करने के लिए पर्याप्त व्यापकता है, इनमें वे भी शामिल हैं जिनमें नेस्टेड रिलेशनल/XML डेटाबेस शामिल हैं और वे जो डेटाबेस को प्रोग्राम के रूप में मानते हैं। Oracle या DB2 जैसे विशेष डेटाबेस सिस्टम से कनेक्शन JDBC जैसी कार्यान्वयन-स्तरीय प्रौद्योगिकियों द्वारा प्रदान किए जाते हैं और सैद्धांतिक स्तर पर अध्ययन नहीं किया जाता है।

परिभाषाएँ
डेटा एकीकरण प्रणालियों को औपचारिक रूप से टुपल (गणित) के रूप में परिभाषित किया गया है $$\left \langle G,S,M\right \rangle$$ कहाँ $$G$$ वैश्विक (या मध्यस्थ) स्कीमा है, $$S$$ स्रोत स्कीमा का विषम सेट है, और $$M$$ वह मैपिंग है जो स्रोत और वैश्विक स्कीमा के बीच प्रश्नों को मैप करती है। दोनों $$G$$ और $$S$$ प्रत्येक संबंधित संबंध का डेटाबेस  के लिए प्रतीकों से बनी वर्णमाला (कंप्यूटर विज्ञान) पर औपचारिक भाषा में व्यक्त किए जाते हैं। कार्यात्मक विधेय $$M$$ प्रश्नों के बीच अभिकथन शामिल हैं $$G$$ और प्रश्न खत्म $$S$$. जब उपयोगकर्ता डेटा एकीकरण प्रणाली पर प्रश्न पूछते हैं, तो वे प्रश्न भी पूछते हैं $$G$$ और फिर मैपिंग वैश्विक स्कीमा और स्रोत स्कीमा में तत्वों के बीच कनेक्शन का दावा करती है।

एक स्कीमा पर एक डेटाबेस को सेट के एक सेट के रूप में परिभाषित किया गया है, प्रत्येक संबंध के लिए एक (एक रिलेशनल डेटाबेस में)। स्रोत स्कीमा के अनुरूप डेटाबेस $$S$$ इसमें प्रत्येक विषम डेटा स्रोत के लिए टुपल्स के सेट का सेट शामिल होगा और इसे स्रोत डेटाबेस कहा जाता है। ध्यान दें कि यह एकल स्रोत डेटाबेस वास्तव में डिस्कनेक्ट किए गए डेटाबेस के संग्रह का प्रतिनिधित्व कर सकता है। वर्चुअल मध्यस्थता स्कीमा के अनुरूप डेटाबेस $$G$$ वैश्विक डेटाबेस कहा जाता है. वैश्विक डेटाबेस को मैपिंग को संतुष्ट करना होगा $$M$$ स्रोत डेटाबेस के संबंध में. इस मानचित्रण की वैधता बीच के पत्राचार की प्रकृति पर निर्भर करती है $$G$$ और $$S$$. इस पत्राचार को मॉडल करने के दो लोकप्रिय तरीके मौजूद हैं: व्यू या जीएवी के रूप में ग्लोबल और व्यू या एलएवी के रूप में स्थानीय।

जीएवी सिस्टम वैश्विक डेटाबेस को दृश्य (डेटाबेस) के एक सेट के रूप में मॉडल करता है $$S$$. इस मामले में $$M$$ के प्रत्येक तत्व से संबद्ध है $$G$$ एक प्रश्न खत्म $$S$$. बीच में अच्छी तरह से परिभाषित संबंधों के कारण क्वेरी अनुकूलक एक सीधा ऑपरेशन बन जाता है $$G$$ और $$S$$. जटिलता का बोझ डेटा एकीकरण प्रणाली को निर्देश देने वाले मध्यस्थ कोड को लागू करने पर पड़ता है कि स्रोत डेटाबेस से तत्वों को कैसे पुनर्प्राप्त किया जाए। यदि कोई नया स्रोत सिस्टम में शामिल होता है, तो मध्यस्थ को अद्यतन करने के लिए काफी प्रयास आवश्यक हो सकते हैं, इस प्रकार जब स्रोतों में बदलाव की संभावना नहीं लगती है तो जीएवी दृष्टिकोण बेहतर प्रतीत होता है।

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के जीएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले प्रत्येक शहर के सूचना स्रोतों के लिए मध्यस्थ विकसित करेगा और फिर इन मध्यस्थों के आसपास वैश्विक स्कीमा डिजाइन करेगा। उदाहरण के लिए, विचार करें कि क्या किसी स्रोत ने मौसम वेबसाइट की सेवा दी है। डिज़ाइनर संभवतः वैश्विक स्कीमा में मौसम के लिए एक संबंधित तत्व जोड़ देगा। फिर अधिकांश प्रयास उचित मध्यस्थ कोड लिखने पर केंद्रित होता है जो मौसम संबंधी पूर्वानुमानों को मौसम वेबसाइट पर एक प्रश्न में बदल देगा। यदि कोई अन्य स्रोत भी मौसम से संबंधित है तो यह प्रयास जटिल हो सकता है, क्योंकि डिजाइनर को दो स्रोतों से परिणामों को ठीक से संयोजित करने के लिए कोड लिखने की आवश्यकता हो सकती है।

दूसरी ओर, LAV में, स्रोत डेटाबेस को दृश्य (डेटाबेस) के एक सेट के रूप में तैयार किया जाता है $$G$$. इस मामले में $$M$$ के प्रत्येक तत्व से संबद्ध है $$S$$ एक प्रश्न खत्म $$G$$. यहाँ के बीच सटीक संबंध हैं $$G$$ और $$S$$ अब अच्छी तरह से परिभाषित नहीं हैं। जैसा कि अगले भाग में दिखाया गया है, स्रोतों से तत्वों को कैसे पुनर्प्राप्त किया जाए यह निर्धारित करने का बोझ क्वेरी प्रोसेसर पर रखा गया है। एलएवी मॉडलिंग का लाभ यह है कि जीएवी प्रणाली की तुलना में बहुत कम काम के साथ नए स्रोत जोड़े जा सकते हैं, इस प्रकार उन मामलों में एलएवी दृष्टिकोण को प्राथमिकता दी जानी चाहिए जहां मध्यस्थता स्कीमा कम स्थिर है या बदलने की संभावना है।

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के लिए एलएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले वैश्विक स्कीमा डिजाइन करता है और फिर संबंधित शहर सूचना स्रोतों के स्कीमा को इनपुट करता है। फिर से विचार करें कि क्या कोई स्रोत मौसम वेबसाइट पर काम करता है। डिज़ाइनर वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व तभी जोड़ेगा जब कोई पहले से मौजूद न हो। फिर प्रोग्रामर वेबसाइट के लिए एक एडाप्टर या रैपर लिखते हैं और स्रोत स्कीमा में वेबसाइट के परिणामों का एक स्कीमा विवरण जोड़ते हैं। नए स्रोत को जोड़ने की जटिलता डिज़ाइनर से क्वेरी प्रोसेसर की ओर बढ़ती है।

क्वेरी प्रोसेसिंग
डेटा एकीकरण प्रणालियों में क्वेरी प्रोसेसिंग का सिद्धांत आमतौर पर कंजंक्टिव डेटाबेस क्वेरी भाषा और संगणक वैज्ञानिक, एक विशुद्ध रूप से घोषणात्मक तर्क प्रोग्रामिंग भाषा का उपयोग करके व्यक्त किया जाता है। कोई संयोजक क्वेरी को डेटाबेस के संबंधों पर लागू एक तार्किक फ़ंक्शन के रूप में सोच सकता है$$f(A,B)$$ कहाँ $$A < B$$. यदि किसी टुपल या टुपल्स के सेट को नियम में प्रतिस्थापित किया जाता है और यह इसे संतुष्ट करता है (इसे सत्य बनाता है), तो हम उस टुपल को क्वेरी में उत्तरों के सेट के हिस्से के रूप में मानते हैं। जबकि डेटालॉग जैसी औपचारिक भाषाएँ इन प्रश्नों को संक्षिप्त रूप से और अस्पष्टता के बिना व्यक्त करती हैं, सामान्य SQL क्वेरीज़ को संयोजनात्मक क्वेरी के रूप में भी गिना जाता है।

डेटा एकीकरण के संदर्भ में, क्वेरी नियंत्रण संयोजक प्रश्नों की एक महत्वपूर्ण संपत्ति का प्रतिनिधित्व करता है। पूछताछ $$A$$ इसमें एक और क्वेरी शामिल है $$B$$ (संकेतित $$A \supset B$$) यदि आवेदन करने के परिणाम $$B$$ आवेदन करने के परिणामों का एक उपसमूह हैं $$A$$ किसी भी डेटाबेस के लिए. यदि परिणामी सेट किसी डेटाबेस के लिए समान हैं तो दोनों प्रश्नों को समतुल्य कहा जाता है। यह महत्वपूर्ण है क्योंकि जीएवी और एलएवी दोनों प्रणालियों में, एक उपयोगकर्ता दृश्य (डेटाबेस) के एक सेट, या भौतिक संयोजन वाले प्रश्नों द्वारा दर्शाए गए वर्चुअल स्कीमा पर संयोजक प्रश्न पूछता है। एकीकरण का उद्देश्य विचारों द्वारा प्रस्तुत प्रश्नों को फिर से लिखना है ताकि उनके परिणामों को हमारे उपयोगकर्ता की क्वेरी के बराबर या अधिकतम रूप से समाहित किया जा सके। यह दृश्यों (AQUV) का उपयोग करके प्रश्नों का उत्तर देने की समस्या से मेल खाता है। GAV सिस्टम में, एक सिस्टम डिज़ाइनर क्वेरी-रीराइटिंग को परिभाषित करने के लिए मध्यस्थ कोड लिखता है। उपयोगकर्ता की क्वेरी में प्रत्येक तत्व एक प्रतिस्थापन नियम से मेल खाता है, जैसे वैश्विक स्कीमा में प्रत्येक तत्व स्रोत पर एक क्वेरी से मेल खाता है। क्वेरी प्रसंस्करण बस मध्यस्थ में निर्दिष्ट नियम के अनुसार उपयोगकर्ता की क्वेरी के उपलक्ष्यों का विस्तार करता है और इस प्रकार परिणामी क्वेरी समतुल्य होने की संभावना है। जबकि डिज़ाइनर अधिकांश कार्य पहले से करता है, कुछ GAV सिस्टम जैसे Tsimmis में मध्यस्थ विवरण प्रक्रिया को सरल बनाना शामिल है।

एलएवी सिस्टम में, क्वेरीज़ को पुनर्लेखन की अधिक मौलिक प्रक्रिया से गुजरना पड़ता है क्योंकि उपयोगकर्ता की क्वेरी को सरल विस्तार रणनीति के साथ संरेखित करने के लिए कोई मध्यस्थ मौजूद नहीं होता है। सर्वोत्तम पुनर्लेखन खोजने के लिए एकीकरण प्रणाली को संभावित प्रश्नों के स्थान पर खोज निष्पादित करनी चाहिए। परिणामी पुनर्लेखन समतुल्य क्वेरी नहीं हो सकती है, लेकिन अधिकतम रूप से समाहित हो सकती है, और परिणामी टुपल्स अपूर्ण हो सकते हैं।  जीक्यूआर एल्गोरिदम LAV डेटा एकीकरण प्रणालियों के लिए अग्रणी क्वेरी पुनर्लेखन एल्गोरिदम है।

सामान्य तौर पर, क्वेरी पुनर्लेखन की जटिलता एनपी-पूर्ण होती है। यदि पुनर्लेखन का स्थान अपेक्षाकृत छोटा है, तो यह कोई समस्या पैदा नहीं करता है - यहां तक ​​कि सैकड़ों स्रोतों के साथ एकीकरण प्रणालियों के लिए भी।

चिकित्सा और जीवन विज्ञान
विज्ञान में बड़े पैमाने के प्रश्न, जैसे वास्तविक विश्व साक्ष्य, ग्लोबल वार्मिंग, आक्रामक प्रजातियों का प्रसार और संसाधन की कमी, मेटा-विश्लेषण के लिए असमान डेटा सेट के संग्रह की आवश्यकता बढ़ रही है। इस प्रकार का डेटा एकीकरण पारिस्थितिक और पर्यावरणीय डेटा के लिए विशेष रूप से चुनौतीपूर्ण है क्योंकि मेटाडेटा मानकों पर सहमति नहीं है और इन क्षेत्रों में कई अलग-अलग डेटा प्रकार तैयार किए जाते हैं। डेटा नेटवर्क  जैसी राष्ट्रीय विज्ञान फाउंडेशन की पहल का उद्देश्य साइबर साइबरइन्फ्रास्ट्रक्चर प्रदान करके और मानक निर्धारित करके वैज्ञानिकों के लिए डेटा एकीकरण को आसान बनाना है। पाँच वित्त पोषित डेटानेट पहल डेटावन हैं, न्यू मैक्सिको विश्वविद्यालय में विलियम मिचेनर के नेतृत्व में; डेटा संरक्षण, जॉन्स हॉपकिन्स विश्वविद्यालय के सईद चौधरी के नेतृत्व में; SEAD: क्रियाशील डेटा के माध्यम से सतत पर्यावरण, मिशिगन विश्वविद्यालय के मार्गरेट हेडस्ट्रॉम के नेतृत्व में; डेटानेट फेडरेशन कंसोर्टियम, उत्तरी कैरोलिना विश्वविद्यालय के रीगन मूर के नेतृत्व में; और टेरा पोपुलस, मिनेसोटा विश्वविद्यालय के स्टीवन रग्गल्स के नेतृत्व में। अनुसंधान डेटा एलायंस, हाल ही में वैश्विक डेटा एकीकरण ढाँचे बनाने का पता लगाया गया है।  यूरोपीय संघ   नवोन्मेषी औषधि पहल  के माध्यम से वित्त पोषित OpenPHACTS प्रोजेक्ट ने यूरोपीय जैव सूचना विज्ञान संस्थान, रॉयल सोसाइटी ऑफ केमिस्ट्री, यूनीप्रोट, विकीपाथवेज़ और ड्रगबैंक जैसे प्रदाताओं के डेटासेट को जोड़कर एक दवा खोज मंच बनाया।

यह भी देखें
उद्यम वास्तुकला ढांचा ढांचा पाठ खोलें खोलें
 * व्यवसाय शब्दार्थ प्रबंधन
 * डेटा कैप्चर बदलें
 * कोर डेटा एकीकरण
 * ग्राहक डेटा एकीकरण
 * साइबरइन्फ्रास्ट्रक्चर
 * डेटा सम्मिश्रण
 * डेटा क्यूरेशन
 * डाटा संलयन
 * डेटा मैपिंग
 * डेटा की गड़बड़ी
 * डेटाबेस मॉडल
 * डेटास्पेस
 * एज डेटा एकीकरण
 * एंटरप्राइज़ अनुप्रयोग एकीकरण
 * उद्यम सूचना एकीकरण (ईआईआई)
 * उद्यम एकीकरण
 * जियोडी: भूवैज्ञानिक डेटा एकीकरण
 * सूचना एकीकरण
 * सूचना सर्वर
 * सूचना साइलो
 * एकीकरण योग्यता केंद्र
 * एकीकरण कंसोर्टियम
 * आईएसओ 15926: तेल और गैस उत्पादन सुविधाओं सहित प्रक्रिया संयंत्रों के लिए जीवन-चक्र डेटा का एकीकरण
 * जेएक्सटीए
 * मास्टर डेटा प्रबंधन
 * ऑब्जेक्ट-रिलेशनल मैपिंग
 * सिमेंटिक एकीकरण
 * स्कीमा मिलान
 * तीन स्कीमा दृष्टिकोण
 * यूडीईएफ
 * वेब डेटा एकीकरण
 * वेब सेवा