डेटा मैपिंग

कम्प्यूटिंग और डेटा प्रबंधन में, डेटा मैपिंग दो अलग-अलग डेटा मॉडल के बीच डेटा तत्व मैप (गणित) बनाने की प्रक्रिया है। डेटा मैपिंग का उपयोग विभिन्न प्रकार के डेटा एकीकरण कार्यों के लिए पहले चरण के रूप में किया जाता है, जिसमें शामिल हैं:
 * डेटा स्रोत और गंतव्य के बीच डेटा परिवर्तन या डेटा मध्यस्थता
 * डेटा वंश विश्लेषण के भाग के रूप में डेटा संबंधों की पहचान
 * डेटा मास्किंग या de-पहचान प्रोजेक्ट के हिस्से के रूप में किसी अन्य उपयोगकर्ता आईडी में छिपे हुए संवेदनशील डेटा जैसे सामाजिक सुरक्षा नंबर के अंतिम चार अंक की खोज
 * एक ही डेटाबेस में एकाधिक डेटाबेस का डेटा समेकन और समेकन या उन्मूलन के लिए डेटा के अनावश्यक कॉलम की पहचान करना

उदाहरण के लिए, एक कंपनी जो अन्य कंपनियों के साथ खरीदारी और चालान प्रसारित करना और प्राप्त करना चाहती है, वह खरीद ऑर्डर और चालान जैसी वस्तुओं के लिए कंपनी के डेटा से मानकीकृत एएनएसआई एएससी एक्स 12 संदेशों के लिए डेटा मैप बनाने के लिए डेटा मैपिंग का उपयोग कर सकती है।

मानक
X12 मानक सामान्य इलेक्ट्रॉनिक आंकड़े इंटरचेंज (EDI) मानक हैं जो किसी कंपनी लॉ)कानून) को उद्योग की परवाह किए बिना किसी अन्य कंपनी के साथ डेटा का आदान-प्रदान करने की अनुमति देने के लिए डिज़ाइन किए गए हैं। मानकों को मान्यता प्राप्त मानक समिति X12 (ASC X12) द्वारा बनाए रखा जाता है, अमेरिकी राष्ट्रीय मानक संस्थान (ANSI) को EDI के लिए मानक निर्धारित करने के लिए मान्यता प्राप्त है। X12 मानकों को अक्सर ANSI ASC X12 मानक कहा जाता है।

W3C ने संबंध का डेटाबेस  में डेटा को रिसोर्स_डिस्क्रिप्शन_फ्रेमवर्क (आरडीएफ) के संदर्भ में व्यक्त डेटा से मैप करने के लिए एक मानक के रूप में R2RML पेश किया।

भविष्य में, संसाधन विवरण रूपरेखा  (आरडीएफ), वेब ओन्टोलॉजी भाषा (ओडब्लूएल) और मानकीकृत मेटाडेटा रजिस्ट्री जैसे सेमांटिक वेब भाषाओं पर आधारित उपकरण डेटा मैपिंग को और अधिक स्वचालित प्रक्रिया बना देंगे। यदि प्रत्येक एप्लिकेशन मेटाडेटा प्रकाशन करता है तो यह प्रक्रिया तेज हो जाएगी। पूर्ण स्वचालित डेटा मैपिंग एक बहुत ही कठिन समस्या है (अर्थात् अनुवाद देखें)।

हाथ से कोडित, ग्राफिकल मैनुअल
डेटा मैपिंग प्रक्रियात्मक कोड का उपयोग करके, एक्सएसएलटी ट्रांसफॉर्म बनाकर या ग्राफिकल मैपिंग टूल का उपयोग करके विभिन्न तरीकों से की जा सकती है जो स्वचालित रूप से निष्पादन योग्य ट्रांसफॉर्मेशन प्रोग्राम उत्पन्न करते हैं। ये ग्राफ़िकल उपकरण हैं जो उपयोगकर्ता को डेटा के एक सेट के फ़ील्ड से दूसरे सेट के फ़ील्ड तक रेखाएँ खींचने की अनुमति देते हैं। कुछ ग्राफिकल डेटा मैपिंग टूल उपयोगकर्ताओं को किसी स्रोत और गंतव्य को ऑटो-कनेक्ट करने की अनुमति देते हैं। यह सुविधा स्रोत और गंतव्य डेटा तत्व नाम के समान होने पर निर्भर है। परिवर्तन कार्यक्रम स्वचालित रूप से SQL, XSLT, Java (प्रोग्रामिंग भाषा), या C++ में बनाए जाते हैं। इस प्रकार के ग्राफ़िकल उपकरण अधिकांश एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड (एक्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड) टूल में डेटा मूवमेंट का समर्थन करने के लिए डेटा मैप दर्ज करने के प्राथमिक साधन के रूप में पाए जाते हैं। उदाहरणों में SAP BODS और Informatica PowerCenter शामिल हैं।

डेटा-संचालित मैपिंग
यह डेटा मैपिंग में नवीनतम दृष्टिकोण है और इसमें दो डेटा सेटों के बीच जटिल मैपिंग को स्वचालित रूप से खोजने के लिए अनुमान और आंकड़ों का उपयोग करके दो डेटा स्रोतों में वास्तविक डेटा मूल्यों का एक साथ मूल्यांकन करना शामिल है। इस दृष्टिकोण का उपयोग दो डेटा सेटों के बीच परिवर्तनों को खोजने, सबस्ट्रिंग, संयोजन, अंकगणित, केस स्टेटमेंट के साथ-साथ अन्य प्रकार के परिवर्तन तर्क की खोज के लिए किया जाता है। यह दृष्टिकोण उन डेटा अपवादों का भी पता लगाता है जो खोजे गए परिवर्तन तर्क का पालन नहीं करते हैं।

सिमेंटिक मैपिंग
सिमेंटिक मैपर डेटा मैपर्स के ऑटो-कनेक्ट फीचर के समान है, इस अपवाद के साथ कि डेटा तत्व पर्यायवाची शब्दों को देखने के लिए मेटाडेटा रजिस्ट्री से परामर्श लिया जा सकता है। उदाहरण के लिए, यदि स्रोत सिस्टम फर्स्टनाम को सूचीबद्ध करता है लेकिन गंतव्य पर्सनगिवेननाम को सूचीबद्ध करता है, तो मैपिंग तब भी की जाएगी यदि ये डेटा तत्व मेटाडेटा रजिस्ट्री में समानार्थक शब्द के रूप में सूचीबद्ध हैं। सिमेंटिक मैपिंग केवल डेटा के स्तंभों के बीच सटीक मिलान खोजने में सक्षम है और स्तंभों के बीच किसी भी परिवर्तन तर्क या अपवाद की खोज नहीं करेगी।

डेटा वंशावली डेटा के प्रत्येक टुकड़े के जीवन चक्र का एक ट्रैक है क्योंकि इसे एनालिटिक्स सिस्टम द्वारा अंतर्ग्रहण, संसाधित और आउटपुट किया जाता है। यह एनालिटिक्स पाइपलाइन में दृश्यता प्रदान करता है और त्रुटियों को उनके स्रोतों तक ट्रेस करना आसान बनाता है। यह चरण-वार डिबगिंग या खोए हुए आउटपुट को पुन: उत्पन्न करने के लिए डेटा प्रवाह के विशिष्ट भागों या इनपुट को फिर से चलाने में भी सक्षम बनाता है। वास्तव में, डेटाबेस सिस्टम ने पहले से ही समान सत्यापन और डिबगिंग चुनौतियों का समाधान करने के लिए ऐसी जानकारी का उपयोग किया है, जिसे डेटा उद्गम कहा जाता है।

यह भी देखें

 * डेटा एकीकरण
 * डेटा की गड़बड़ी
 * पहचान परिवर्तन
 * आईएसओ/आईईसी 11179 - आईएसओ/आईईसी मेटा डेटा  रजिस्ट्री मानक
 * मेटाडेटा
 * मेटाडेटा प्रकाशन
 * स्कीमा मिलान
 * शब्दार्थ विविधता
 * सिमेंटिक मैपर
 * शब्दार्थ अनुवाद
 * अर्थ विज्ञान वेब
 * शब्दार्थ
 * एक्सएसएलटी - एक्सएमएल परिवर्तन भाषा