डेटा वॉल्ट मॉडलिंग

आंकड़े वॉल्ट मॉडलिंग एक डेटाबेस मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का एक तरीका भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ लेखापरीक्षा  की आवश्यकता पर जोर देने जैसे मुद्दों से संबंधित है जहां डेटाबेस डेटा वंश में सभी डेटा शामिल हैं। इसका मतलब यह है कि डेटा वॉल्ट में प्रत्येक पंक्ति (डेटाबेस) के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में डैन लिनस्टेड द्वारा प्रकाशित की गई थी।

डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा मतलब व्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है। इसे इस कथन में संक्षेपित किया गया है कि एक डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है। जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। एक डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का एक ही संस्करण और सत्य का एक ही स्रोत। मॉडलिंग पद्धति को डेटा संरचना को वर्णनात्मक विशेषता (कंप्यूटिंग) से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है। डेटा वॉल्ट को यथासंभव समानांतर कंप्यूटिंग लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है, ताकि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।

स्टार स्कीमा (आयामी मॉडलिंग) और शास्त्रीय संबंधपरक मॉडल  (3NF) के विपरीत, डेटा वॉल्ट और एंकर मॉडलिंग उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, लेकिन उन्हें उन्नत तकनीक माना जाता है जिसके लिए अनुभवी डेटा आर्किटेक्ट की आवश्यकता होती है।. डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं, लेकिन एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।

इतिहास और दर्शन
अपने शुरुआती दिनों में, डैन लिनस्टेड ने मॉडलिंग तकनीक का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था। या सामान्य मूलभूत मॉडलिंग वास्तुकला। डेटा वेयरहाउस मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और एंटरप्राइज़ बस मैट्रिक्स  के साथ राल्फ किमबॉल के अनुसार मॉडल बनाते हैं, या आप डेटाबेस सामान्य रूपों के साथ बिल इनमोन के अनुसार मॉडल बनाते हैं. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों तकनीकों में समस्याएं हैं. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई मामलों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन मुद्दों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)।

विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:

डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, भले ही वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए एक समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की एक व्याख्या है जो एक विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के दौरान ही डेटा की व्याख्या की जा रही है।

एक और मुद्दा जिसके लिए डेटा वॉल्ट एक प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में सर्बनेस-ऑक्सले आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए एक प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।

डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह एक खुला मानक है. नए विनिर्देश में तीन स्तंभ शामिल हैं: कार्यप्रणाली (सॉफ्टवेयर इंजीनियरिंग संस्थान/क्षमता परिपक्वता मॉडल, सिक्स सिग्मा, सिस्टम विकास जीवन चक्र, आदि), वास्तुकला (अन्य के बीच एक इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में लगातार स्टेजिंग क्षेत्र कहा जाता है) 2.0) और एक प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, NoSQL जैसे नए घटकों को शामिल करने पर ध्यान केंद्रित किया गया है - और मौजूदा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ एक स्केलेबल डेटा वेयरहाउस का निर्माण।

ईडीडब्ल्यू और बीआई सिस्टम को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को शामिल करने के लिए विनिर्देश विकसित करना आवश्यक है।

इतिहास
डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में एक सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की एक श्रृंखला में डेटा वॉल्ट पद्धति के बुनियादी नियमों का विस्तार और व्याख्या की गई है। इनमें एक सामान्य सिंहावलोकन शामिल है, घटकों का अवलोकन, अंतिम तिथियों और जुड़ावों के बारे में चर्चा, लिंक टेबल, और लोडिंग प्रथाओं पर एक लेख।

विधि के लिए एक वैकल्पिक (और शायद ही कभी इस्तेमाल किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है। Ref>#dwdummy, पृष्ठ 83

डेटा वॉल्ट 2.0 Ref>#dvos2|#datavault 2.0 का संक्षिप्त परिचय 2013 तक दृश्य में आ गया है और कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं के साथ-साथ बिग डेटा, NoSQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण को मेज पर लाता है।

वैकल्पिक व्याख्याएँ
डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के एक सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के वेक्टर) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में वेक्टर)। एल्गोरिदम के डेटा माइनिंग सेट का उपयोग करके, विश्वास अंतराल और सांख्यिकीय पावर रेटिंग के साथ लिंक बनाए जा सकते हैं। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में मौजूद नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं। एक अन्य दृष्टिकोण यह है कि एक डेटा वॉल्ट मॉडल एंटरप्राइज़ का एक ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी।

डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा तरीका चित्रमय मॉडल  है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस दुनिया में हब और रिश्तों के साथ एक ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।

बुनियादी धारणाएँ
डेटा वॉल्ट व्यावसायिक कुंजियों (जो अक्सर परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से एक व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है।.

व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का एक मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका मतलब यह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है। कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।

हब
हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की एक सूची होती है। हब में प्रत्येक हब आइटम के लिए एक सरोगेट कुंजी और प्राकृतिक कुंजी की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः कई भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।

हब में कम से कम निम्नलिखित फ़ील्ड शामिल हैं: * एक सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।
 * एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड शामिल हो सकते हैं.
 * रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
 * वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।

एक हब में कई व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ एक ही व्यवसाय कुंजी प्रदान करती हैं लेकिन टकराव के साथ जिनके अलग-अलग अर्थ होते हैं।

हब में सामान्यतः कम से कम एक उपग्रह होना चाहिए।

हब उदाहरण
यह कारों वाली हब-टेबल का एक उदाहरण है, जिसे कार (H_CAR) कहा जाता है। ड्राइविंग कुंजी वाहन पहचान संख्या है।

लिंक
व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए एक दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं।

ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में एक नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच एक लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक एक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना एक बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ एक नए लिंक के समान होता है, इन मामलों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।

लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से एक वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ एक ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। हालाँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस मामले में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, बल्कि व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।

लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा शामिल है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।

लिंक उदाहरण
यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के बीच लिंक-टेबल का एक उदाहरण है। लिंक को ड्राइवर (L_DRIVER) कहा जाता है।

उपग्रह
हब और लिंक मॉडल की संरचना बनाते हैं, लेकिन उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा शामिल है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ एक समयरेखा भी शामिल है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को मामले के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और काफी जटिल (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर काफी सरल (केवल एक वैध-संकेतक के साथ एक लिंक पर एक उपग्रह) तक हो सकता है और एक समयरेखा)।

आमतौर पर विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। हालाँकि, आकार, लागत, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।

सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।

एक प्रभावशाली उपग्रह एक लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता शुरू और समाप्त करता है।

सैटेलाइट उदाहरण
यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर एक उपग्रह के लिए एक उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ शामिल हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए एक संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक एक लुकअप- या संदर्भ तालिका का संदर्भ भी शामिल है जिसमें जोखिम श्रेणी के लिए कोड शामिल हैं जिसमें यह संबंध माना जाता है।

(*) कम से कम एक विशेषता अनिवार्य है। (**) अनुक्रम संख्या अनिवार्य हो जाती है यदि एक ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता लागू करने के लिए इसकी आवश्यकता होती है।

संदर्भ तालिकाएँ
संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का एक सामान्य हिस्सा हैं। वे सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं: कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की एक विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है। 

संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, लेकिन कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट मामले में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक ​​कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, लेकिन यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ। आम तौर पर, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।

संदर्भ उदाहरण
यह वाहन चालकों के लिए जोखिम श्रेणियों वाली संदर्भ तालिका का एक उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.

(*) कम से कम एक विशेषता अनिवार्य है।

लोड हो रहा है अभ्यास
डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड काफी सरल है (देखें #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के बाद, यदि आप हब से पूछताछ करते हैं तो अब आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के बीच संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। एक बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तो आप सभी लिंक में उपग्रह जोड़ सकते हैं।

चूंकि हब लिंक के अलावा एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।

ईटीएल काफी सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल एक और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे मामलों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।

डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई तकनीकी त्रुटि न हो।

डेटा वॉल्ट और आयामी मॉडलिंग
डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही कॉग्नोस, ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण, एसएपी बिजनेस ऑब्जेक्ट्स, पेंटाहो एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है। चूंकि ये अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को आयामी मॉडलिंग में शामिल करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण आमतौर पर आवश्यक होता है।

इस उद्देश्य के लिए, उन हबों पर मौजूद हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर मौजूद लिंक और संबंधित उपग्रहों को एक आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से एक आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।

ध्यान दें कि हालांकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, लेकिन आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.

डेटा वॉल्ट पद्धति
डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/सीएमएमआई स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक शामिल हैं, और उन्हें सिक्स सिग्मा, कुल गुणवत्ता प्रबंधन और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और तैनाती के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में एक छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में एक उत्पादन रिलीज़ शामिल होना चाहिए।

डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना शुरू कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।

उपकरण
टूल के कुछ उदाहरण हैं:
 * 2150 डेटावॉल्ट बिल्डर
 * व्हेयरस्केप
 * वॉल्टस्पीड
 * dbtvault

यह भी देखें

 * बिल इनमोन
 * डेटा वेयरहाउस
 * किमबॉल जीवनचक्र, राल्फ किमबॉल द्वारा विकसित
 * लगातार स्टेजिंग क्षेत्र

स्रोत

 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।


 * डच भाषा के स्रोत

साहित्य

 * पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर एक व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
 * जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
 * केंट ग्राज़ियानो: बेहतर डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
 * हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2।
 * डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
 * डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को लागू करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
 * डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ एक स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
 * दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।

बाहरी संबंध

 * The home for the Data Vault community users
 * The path to Certification
 * The homepage of Dan Linstedt, the inventor of Data Vault modeling
 * A website dedicated to Data Vault, maintained by Dan Linstedt
 * Youtube videos on Data Vault Modeling Approach and Methodology
 * Dan Linstedt's Slide Share Site
 * Data Vault Certification Site
 * Agile Data Site
 * Disciplined Agile Delivery (DAD) Site