डेटा वॉल्ट मॉडलिंग

आंकड़े वॉल्ट मॉडलिंग डेटाबेस मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का तरीका भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ लेखापरीक्षा की आवश्यकता पर जोर देने जैसे विवादों से संबंधित है जहां डेटाबेस डेटा वंश में सभी डेटा सम्मिलित हैं। इसका मतलब यह है कि डेटा वॉल्ट में प्रत्येक पंक्ति (डेटाबेस) के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में डैन लिनस्टेड द्वारा प्रकाशित की गई थी।

डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा मतलब व्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है। इसे इस कथन में संक्षेपित किया गया है कि डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है। जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का ही संस्करण और सत्य का ही स्रोत।

मॉडलिंग पद्धति को डेटा संरचना को वर्णनात्मक विशेषता (कंप्यूटिंग) से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है। डेटा वॉल्ट को यथासंभव समानांतर कंप्यूटिंग लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है, जिससे कि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।

स्टार स्कीमा (आयामी मॉडलिंग) और मौलिक संबंधपरक मॉडल (3NF) के विपरीत, डेटा वॉल्ट और एंकर मॉडलिंग उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, किन्तु उन्हें उन्नत तकनीक माना जाता है जिसके लिए अनुभवी डेटा आर्किटेक्ट की आवश्यकता होती है।. डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं, किन्तु एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।

इतिहास और दर्शन
अपने प्रारंभिक दिनों में, डैन लिनस्टेड ने मॉडलिंग तकनीक का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था। या सामान्य मूलभूत मॉडलिंग वास्तुकला। डेटा वेयरहाउस मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और एंटरप्राइज़ बस मैट्रिक्स के साथ राल्फ किमबॉल के अनुसार मॉडल बनाते हैं, या आप डेटाबेस सामान्य रूपों के साथ बिल इनमोन के अनुसार मॉडल बनाते हैं. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों तकनीकों में समस्याएं हैं. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई मामलों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन विवादों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)।

विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:

डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, यदि वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के समय ही डेटा की व्याख्या की जा रही है।

एक और मुद्दा जिसके लिए डेटा वॉल्ट प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में सर्बनेस-ऑक्सले आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।

डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह खुला मानक है. नए विनिर्देश में तीन स्तंभ सम्मिलित हैं: कार्यप्रणाली (सॉफ्टवेयर इंजीनियरिंग संस्थान/क्षमता परिपक्वता मॉडल, सिक्स सिग्मा, सिस्टम विकास जीवन चक्र, आदि), वास्तुकला (अन्य के बीच इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में लगातार स्टेजिंग क्षेत्र कहा जाता है) 2.0) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, नहीं SQL जैसे नए घटकों को सम्मिलित करने पर ध्यान केंद्रित किया गया है - और उपस्तिथा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण।

ईडीडब्ल्यू और बीआई सिस्टम को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को सम्मिलित करने के लिए विनिर्देश विकसित करना आवश्यक है।

इतिहास
डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की श्रृंखला में डेटा वॉल्ट पद्धति के बुनियादी नियमों का विस्तार और व्याख्या की गई है। इनमें सामान्य सिंहावलोकन सम्मिलित है, घटकों का अवलोकन, अंतिम तिथियों और जुड़ावों के बारे में चर्चा, लिंक टेबल, और लोडिंग प्रथाओं पर लेख।

विधि के लिए वैकल्पिक (और संभवतः ही कभी उपयोग किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है।

Ref>#dwdummy, पृष्ठ 83

डेटा वॉल्ट 2.0

Ref>#dvos2|#datavault 2.0 का संक्षिप्त परिचय

2013 तक दृश्य में आ गया है और कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं के साथ-साथ बिग डेटा, नहीं SQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण को मेज पर लाता है।

वैकल्पिक व्याख्याएँ
डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के वेक्टर) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में वेक्टर)। एल्गोरिदम के डेटा माइनिंग सेट का उपयोग करके, विश्वास अंतराल और सांख्यिकीय पावर रेटिंग के साथ लिंक बनाए जा सकते हैं। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में उपस्तिथ नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं। एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ का ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी।

डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा तरीका चित्रमय मॉडल है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस दुनिया में हब और रिश्तों के साथ ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।

बुनियादी धारणाएँ
डेटा वॉल्ट व्यावसायिक कुंजियों (जो अधिकांशतः परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है।.

व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका मतलब यह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है। कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।

हब
हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की सूची होती है। हब में प्रत्येक हब आइटम के लिए सरोगेट कुंजी और प्राकृतिक कुंजी की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः कई भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।

हब में कम से कम निम्नलिखित फ़ील्ड सम्मिलित हैं: * सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।
 * एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड सम्मिलित हो सकते हैं.
 * रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
 * वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।

एक हब में कई व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ ही व्यवसाय कुंजी प्रदान करती हैं किन्तु टकराव के साथ जिनके अलग-अलग अर्थ होते हैं।

हब में सामान्यतः कम से कम उपग्रह होना चाहिए।

हब उदाहरण
यह कारों वाली हब-टेबल का उदाहरण है, जिसे कार (H_CAR) कहा जाता है। ड्राइविंग कुंजी वाहन पहचान संख्या है।

लिंक
व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं।

ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन मामलों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।

लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। हालाँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस मामले में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, बल्कि व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।

लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा सम्मिलित है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।

लिंक उदाहरण
यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के बीच लिंक-टेबल का उदाहरण है। लिंक को ड्राइवर (L_DRIVER) कहा जाता है।

उपग्रह
हब और लिंक मॉडल की संरचना बनाते हैं, किन्तु उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा सम्मिलित है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी सम्मिलित है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को मामले के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और अधिक समष्टि (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर अधिक  सरल (केवल वैध-संकेतक के साथ लिंक पर उपग्रह) तक हो सकता है और समयरेखा)।

सामान्यतः विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। हालाँकि, आकार, लागत, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।

सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।

एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता शुरू और समाप्त करता है।

सैटेलाइट उदाहरण
यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ सम्मिलित हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी सम्मिलित है जिसमें जोखिम श्रेणी के लिए कोड सम्मिलित हैं जिसमें यह संबंध माना जाता है।

(*) कम से कम विशेषता अनिवार्य है। (**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता लागू करने के लिए इसकी आवश्यकता होती है।

संदर्भ तालिकाएँ
संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का सामान्य हिस्सा हैं। वे सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं: कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है। 

संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, किन्तु कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट मामले में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक ​​कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, किन्तु यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ। सामान्यतः, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।

संदर्भ उदाहरण
यह वाहन चालकों के लिए जोखिम श्रेणियों वाली संदर्भ तालिका का उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.

(*) कम से कम विशेषता अनिवार्य है।

लोड हो रहा है अभ्यास
डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड अधिक सरल है (देखें #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के बाद, यदि आप हब से पूछताछ करते हैं तो अब आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के बीच संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तो आप सभी लिंक में उपग्रह जोड़ सकते हैं।

चूंकि हब लिंक के अतिरिक्त एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।

ईटीएल अधिक सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे मामलों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।

डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई तकनीकी त्रुटि न हो।

डेटा वॉल्ट और आयामी मॉडलिंग
डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही कॉग्नोस, ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण, एसएपी बिजनेस ऑब्जेक्ट्स, पेंटाहो एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है। चूंकि ये अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को आयामी मॉडलिंग में सम्मिलित करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण सामान्यतः आवश्यक होता है।

इस उद्देश्य के लिए, उन हबों पर उपस्तिथ हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर उपस्तिथ लिंक और संबंधित उपग्रहों को आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।

ध्यान दें कि चूंकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, किन्तु आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.

डेटा वॉल्ट पद्धति
डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/सीएमएमआई स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक सम्मिलित हैं, और उन्हें सिक्स सिग्मा, कुल गुणवत्ता प्रबंधन और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और नियत के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ सम्मिलित होना चाहिए।

डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना शुरू कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।

उपकरण
टूल के कुछ उदाहरण हैं:
 * 2150 डेटावॉल्ट बिल्डर
 * व्हेयरस्केप
 * वॉल्टस्पीड
 * dbtvault

यह भी देखें

 * बिल इनमोन
 * डेटा वेयरहाउस
 * किमबॉल जीवनचक्र, राल्फ किमबॉल द्वारा विकसित
 * लगातार स्टेजिंग क्षेत्र

स्रोत

 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
 * v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।


 * डच भाषा के स्रोत

साहित्य

 * पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
 * जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
 * केंट ग्राज़ियानो: उत्तम डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
 * हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2।
 * डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
 * डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को लागू करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
 * डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
 * दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।

बाहरी संबंध

 * डेटा वॉल्ट समुदाय उपयोगकर्ताओं के लिए घर
 * प्रमाणीकरण का मार्ग
 * डेटा वॉल्ट मॉडलिंग के आविष्कारक डैन लिनस्टेड का मुखपृष्ठ
 * डेटा वॉल्ट को समर्पित एक वेबसाइट, जिसका रखरखाव डैन लिनस्टेड द्वारा किया जाता है
 * डेटा वॉल्ट मॉडलिंग दृष्टिकोण और कार्यप्रणाली पर यूट्यूब वीडियो
 * डैन लिनस्टेड स्लाइडशेयर साइट
 * डेटा वॉल्ट प्रमाणन साइट
 * चंचल डेटा साइट
 * अनुशासित एजाइल डिलीवरी (डीएडी) साइट