डेटा वेयरहाउस

कम्प्यूटिंग में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे एंटरप्राइज़ डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और डेटा विश्लेषण के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है। डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार (संस्करण नियंत्रण) हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है। यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है। वेयरहाउस में स्टोर किया गया डेटा संचालन प्रणाली (जैसे मार्केटिंग या सेल्स) से अपलोड किया जाता है। डेटा परिचालन डेटा स्टोर से गुजर सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।

एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य तरीके हैं।

ईटीएल-आधारित डेटा वेयरहाउसिंग
विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस अपने प्रमुख कार्यों को व्यवस्थित करने के लिए अभिनय (डेटा), डेटा एकीकरण और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा सेट को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी स्टार स्कीमा कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।

डेटा का मुख्य स्रोत डेटा खनन, ओएलएपी, बाजार अनुसंधान और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक पेशेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है। हालाँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और डेटा शब्दकोश को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस व्यापक संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में व्यापार गुप्त उपकरण, डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और मेटा डेटा को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण सम्मिलित हैं।

ईएलटी-आधारित डेटा वेयरहाउसिंग
एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके अतिरिक्त, यह डेटा वेयरहाउस के अंदर ही अभिनय क्षेत्र बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।

लाभ
डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:
 * एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
 * लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
 * डेटा इतिहास बनाए रखें, भले ही स्रोत लेनदेन प्रणालियां न हों।
 * कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, लेकिन विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
 * लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
 * संगठन की जानकारी को लगातार प्रस्तुत करें।
 * डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए सामान्य डेटा मॉडल प्रदान करें।
 * डेटा को पुनर्गठित करें ताकि यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
 * डेटा को पुनर्व्यवस्थित करें ताकि यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
 * परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से ग्राहक संबंध प्रबंधन (सीआरएम) प्रणालियों में मूल्य जोड़ें।
 * निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
 * दोहराए गए डेटा को व्यवस्थित और स्पष्ट करें।

सामान्य
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित सम्मिलित हैं:


 * सोर्स प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
 * डेटा एकीकरण तकनीक और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
 * किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
 * विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
 * मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।

ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।

डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत प्रणाली से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।

रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।

मेटाडेटा डेटा के बारे में डेटा है। आईटी कर्मियों को डेटा स्रोतों; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय के बारे में जानकारी चाहिए।

आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है। डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है। डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे अभिगम किया जा सकता है।

संबंधित प्रणाली (डेटा मार्ट, ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के भीतर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं। इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल सबसेट को कवर करते हैं, वे अधिकांश लागू करने में आसान और तेज़ होते हैं।

डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट सम्मिलित हैं।

ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण सम्मिलित होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का व्यापक रूप से डेटा खनन तकनीकों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के करीब होने की उम्मीद होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन बुनियादी संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।

ऑनलाइन लेनदेन प्रसंस्करण (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः तीसरा सामान्य रूप) है। इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए सामान्यीकरण आदर्श है।

भविष्य बतानेवाला विश्लेषक जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, जबकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।

इतिहास
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से निर्णय समर्थन प्रणाली तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। हालांकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, लेकिन उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।

इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया।. पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का तरीका बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के भीतर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक तरीके से प्रबंधित किया जा सकता है।

डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:


 * 1960 - जनरल मिल्स और डार्टमाउथ कॉलेज, संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।
 * 1970 - एसीनीलसन और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।
 * 1970 - बिल इनमोन ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।
 * 1975 - स्पेरी यूनिवैक ने मैपर (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) पेश की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें दुनिया की पहली चौथी पीढ़ी की प्रोग्रामिंग भाषा सम्मिलित है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस तकनीक का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
 * 1983 - टेराडाटा ने डीबीसी/1012 डेटाबेस कंप्यूटर पेश किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।
 * 1984 - डेविड लिडल और डॉन मस्सारो द्वारा स्थापित रूपक कंप्यूटर प्रणालियों, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
 * 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।
 * 1990 - राल्फ किमबॉल द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस पेश किया।
 * 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
 * 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर पेश किया।
 * 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।
 * 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
 * 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।
 * 2000 - डैन लिनस्टेड ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई डेटा वॉल्ट मॉडलिंग को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है।.
 * 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था।
 * 2012 - बिल इनमोन सार्वजनिक तकनीक को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को लागू करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त तकनीक द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।

तथ्य
तथ्य मूल्य या माप है, जो प्रबंधित इकाई या प्रणाली के बारे में तथ्य का प्रतिनिधित्व करता है।

तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, मोबाइल टेलीफोन प्रणाली में, यदि बीटीएस (बेस ट्रांसीवर स्टेशन) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा: इससे अधिक सेवा या व्यवसाय-प्रासंगिक जानकारी निकालने के लिए कच्चे स्तर पर तथ्यों को विभिन्न आयामों (डेटा वेयरहाउस) में उच्च स्तरों पर एकत्रित किया जाता है। इन्हें समुच्चय या सारांश या एकत्रित तथ्य कहा जाता है।

उदाहरण के लिए, यदि किसी शहर में तीन बीटीएस हैं, तो उपरोक्त तथ्यों को नेटवर्क आयाम में बीटीएस से शहर स्तर तक एकत्र किया जा सकता है। उदाहरण के लिए:



डेटा भंडारण के लिए आयामी बनाम सामान्यीकृत दृष्टिकोण
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।

आयाम प्रस्ताव राल्फ किमबॉल के प्रस्ताव को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को आयाम मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।

आयामी दृष्टिकोण
एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है।

आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है। व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं जबकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा पेश किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस सम्मिलित नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग तकनीक बहुत उपयोगी है।

तथ्यों और आयामों के मॉडल को डेटा क्यूब के रूप में भी समझा जा सकता है। जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।

आयामी दृष्टिकोण के मुख्य नुकसान निम्नलिखित हैं:
 * 1) तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
 * 2) डेटा वेयरहाउस संरचना को संशोधित करना मुश्किल है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के तरीके को बदल देता है।

सामान्यीकृत दृष्टिकोण
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा हद तक, डेटाबेस सामान्यीकरण नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में लागू किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस लागू किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।

इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ नुकसान यह हैं कि इसमें सम्मिलित तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में सम्मिलित करना और डेटा के स्रोतों और डेटा संरचना डेटा वेयरहाउस की सटीक समझ के बिना जानकारी तक पहुंचना मुश्किल हो सकता है।

सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ सम्मिलित हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को हद तक सामान्य करना सम्मिलित हो सकता है (किमबॉल, राल्फ 2008)।

सूचना-संचालित व्यवसाय में, रॉबर्ट हिलार्ड (लेखक) व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। तकनीक से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) लेकिन यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह तकनीक एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।

नीचे से ऊपर डिज़ाइन
नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को व्यापक डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट तरीके से)।

उपर से नीचे डिज़ाइन
उपर से नीचे दृष्टिकोण सामान्यीकृत एंटरप्राइज़ डेटा मॉडल का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।

हाइब्रिड डिजाइन
डेटा वेयरहाउस (डीडब्लू) अधिकांश हब और प्रवक्ता वास्तुकला के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और उद्यम संसाधन योजना सम्मिलित होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और परिवर्तन लोड निकालें प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत तरीके से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।

डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, हालांकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को मास्टर डेटा प्रबंधन भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।

डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास सम्मिलित हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, लेकिन यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।

डेटा वेयरहाउस विशेषताएँ
बुनियादी विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता सम्मिलित हैं।

विषय-उन्मुख
परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के आस-पास घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तविक में उपयोगी हो सकता है।

आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।

एकीकृत
डेटा वेयरहाउस के भीतर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि सम्मिलित हैं।

समय-संस्करण
जबकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)

अहिंसक
डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो) है।

एकत्रीकरण
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, सामान्यतः, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।

वर्चुअलाइजेशन
डेटा वर्चुअलाइजेशन के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ तकनीकी कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। हालाँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से कनेक्शन चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।

डेटा वेयरहाउस आर्किटेक्चर
किसी संगठन द्वारा निर्दिष्ट डेटा वेयरहाउस के निर्माण/संगठन के लिए उपयोग की जाने वाली विभिन्न विधियाँ असंख्य हैं। डेटा वेयरहाउस की सही कार्यक्षमता के लिए विशेष रूप से आवश्यक हार्डवेयर, निर्मित सॉफ़्टवेयर और डेटा संसाधन डेटा वेयरहाउस आर्किटेक्चर के मुख्य घटक हैं। सभी डेटा वेयरहाउस में कई चरण होते हैं जिनमें संगठन की आवश्यकताओं को संशोधित और ठीक किया जाता है।

बनाम परिचालन प्रणाली
डेटाबेस सामान्यीकरण और इकाई-संबंध मॉडल के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ इन्सर्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।

डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना सम्मिलित होता है और यदि कभी हो तो शायद ही कभी select *, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं जबकि विश्लेषण डेटाबेस (शिथिल, ओलाप) स्तंभ-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है।

संगठन उपयोग में विकास
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:


 * ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (सामान्यतः दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
 * ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
 * ऑन-समय डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
 * एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, ताकि उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।

यह भी देखें

 * व्यापार गुप्त सॉफ्टवेयर
 * डेटा मेश, बड़े डेटा के प्रबंधन के लिए डोमेन-उन्मुख डेटा आर्किटेक्चर प्रतिमान
 * वर्चुअल डेटाबेस मैनेजर, वर्चुअल डेटा वेयरहाउस में गैर-संबंधपरक डेटा का प्रतिनिधित्व करता है

अग्रिम पठन

 * Davenport, Thomas H. and Harris, Jeanne G. Competing on Analytics: The New Science of Winning (2007) Harvard Business School Press. ISBN 978-1-4221-0332-6
 * Ganczarski, Joe. Data Warehouse Implementations: Critical Implementation Factors Study (2009) VDM Verlag ISBN 3-639-18589-7 ISBN 978-3-639-18589-8
 * Kimball, Ralph and Ross, Margy. The Data Warehouse Toolkit Third Edition (2013) Wiley, ISBN 978-1-118-53080-1
 * Linstedt, Graziano, Hultgren. The Business of Data Vault Modeling Second Edition (2010) Dan linstedt, ISBN 978-1-4357-1914-9
 * William Inmon. Building the Data Warehouse (2005) John Wiley and Sons, ISBN 978-81-265-0645-3