डेटा वेयरहाउस

कम्प्यूटिंग में, डेटा वेयरहाउस (DW या DWH), जिसे एंटरप्राइज़ डेटा वेयरहाउस (EDW) के रूप में भी जाना जाता है, एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और डेटा विश्लेषण के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का एक प्रमुख घटक माना जाता है। डीडब्ल्यू एक या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार (संस्करण नियंत्रण) हैं। वे वर्तमान और ऐतिहासिक डेटा को एक ही स्थान पर संग्रहीत करते हैं जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है। यह कंपनियों के लिए फायदेमंद है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है। वेयरहाउस में स्टोर किया गया डेटा संचालन प्रणाली (जैसे मार्केटिंग या सेल्स) से डालना किया जाता है। डेटा एक परिचालन डेटा स्टोर से गुजर सकता है और डेटा क्लींजिंग की आवश्यकता हो सकती है रिपोर्टिंग के लिए DW में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए।

एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ETL) और एक्सट्रैक्ट, लोड, ट्रांसफॉर्म (ELT) डेटा वेयरहाउस सिस्टम बनाने के लिए उपयोग किए जाने वाले दो मुख्य तरीके हैं।

ईटीएल-आधारित डेटा वेयरहाउसिंग
ठेठ एक्सट्रैक्ट, ट्रांसफॉर्म, लोड (ईटीएल) आधारित डेटा वेयरहाउस अपने प्रमुख कार्यों को व्यवस्थित करने के लिए स्टेजिंग (डेटा), डेटा एकीकरण और एक्सेस लेयर्स का उपयोग करता है। स्टेजिंग लेयर या स्टेजिंग डेटाबेस प्रत्येक असमान स्रोत डेटा सिस्टम से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को स्टेजिंग परत से रूपांतरित करके अलग-अलग डेटा सेट को एकीकृत करती है, अक्सर इस रूपांतरित डेटा को एक ऑपरेशनल डेटा स्टोर (ODS) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अक्सर डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिन्हें अक्सर आयाम कहा जाता है, और #तथ्यों और समग्र तथ्यों में। तथ्यों और आयामों के संयोजन को कभी-कभी स्टार स्कीमा कहा जाता है। एक्सेस परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है। डेटा का मुख्य स्रोत डेटा खनन, ओएलएपी, बाजार अनुसंधान और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक पेशेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है। हालाँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और डेटा शब्दकोश को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग सिस्टम के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस व्यापक संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए एक विस्तारित परिभाषा में व्यापार खुफिया उपकरण, डेटा निकालने, बदलने और डेटा को रिपॉजिटरी में लोड करने और मेटा डेटा को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण शामिल हैं।

ईएलटी-आधारित डेटा वेयरहाउसिंग
एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा ट्रांसफ़ॉर्मेशन के लिए एक अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके बजाय, यह डेटा वेयरहाउस के अंदर ही एक स्टेजिंग एरिया बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।

लाभ
एक डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की एक प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:
 * एकाधिक स्रोतों से डेटा को एक डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए एक ODS में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
 * लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
 * उद्गम को बनाए रखें # डेटा उद्गम, भले ही स्रोत लेनदेन प्रणालियां न हों।
 * कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में एक केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, लेकिन विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
 * लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
 * संगठन की जानकारी को लगातार प्रस्तुत करें।
 * डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए एक सामान्य डेटा मॉडल प्रदान करें।
 * डेटा को पुनर्गठित करें ताकि यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
 * डेटा को पुनर्व्यवस्थित करें ताकि यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
 * परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से ग्राहक संबंध प्रबंधन (सीआरएम) प्रणालियों में मूल्य जोड़ें।
 * निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
 * दोहराए गए डेटा को व्यवस्थित और स्पष्ट करें।

सामान्य
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित शामिल हैं:


 * सोर्स सिस्टम जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
 * डेटा एकीकरण तकनीक और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
 * किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
 * विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
 * मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।

ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए एक सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है। डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत सिस्टम से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।

रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।

मेटाडेटा डेटा के बारे में डेटा है। IT कर्मियों को डेटा स्रोतों के बारे में जानकारी चाहिए; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय।

आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है। एक डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है। डेटा मार्ट या वेयरहाउस में एक बार डेटा स्टोर हो जाने के बाद, इसे एक्सेस किया जा सकता है।

संबंधित सिस्टम (डेटा मार्ट, OLAP, OLTP, प्रेडिक्टिव एनालिटिक्स)
डेटा मार्ट डेटा वेयरहाउस का एक सरल रूप है जो एक विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अक्सर एक संगठन के भीतर एक ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, एक केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं। इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट आमतौर पर डेटा वेयरहाउस में निहित डेटा के केवल एक सबसेट को कवर करते हैं, वे अक्सर लागू करने में आसान और तेज़ होते हैं।

डेटा मार्ट के प्रकारों में डेटा_मार्ट#निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट शामिल हैं। ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अक्सर बहुत जटिल होते हैं और एकत्रीकरण शामिल होते हैं। OLAP सिस्टम के लिए, प्रतिक्रिया समय एक प्रभावी उपाय है। OLAP एप्लिकेशन का व्यापक रूप से डेटा खनन तकनीकों द्वारा उपयोग किया जाता है। OLAP डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (आमतौर पर स्टार स्कीमा) में संग्रहीत करते हैं। OLAP सिस्टम में आमतौर पर डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता एक दिन के करीब होने की उम्मीद होती है। OLAP दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। OLAP में तीन बुनियादी ऑपरेशन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।

ऑनलाइन लेनदेन प्रसंस्करण (OLTP) को बड़ी संख्या में छोटे ऑन-लाइन ट्रांजेक्शन (INSERT, UPDATE, DELETE) की विशेषता है। OLTP प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी सिस्टम के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। OLTP डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (आमतौर पर तीसरा सामान्य रूप) है। इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए सामान्यीकरण आदर्श है।

भविष्य बतानेवाला विश्लेषक जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण OLAP से अलग है जिसमें OLAP ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, जबकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।

इतिहास
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से निर्णय समर्थन प्रणाली तक डेटा के प्रवाह के लिए एक वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। हालांकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, लेकिन उन्हें अक्सर समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, आमतौर पर दीर्घकालिक मौजूदा परिचालन प्रणालियों (आमतौर पर विरासत प्रणालियों के रूप में संदर्भित) से, आमतौर पर प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अलावा, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अक्सर नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।

इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, एक संगठन के डेटा संसाधनों पर एक डॉलर का मूल्य रखने और फिर उस मूल्य को एक बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया।. पुस्तक में, केर ने एक भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित सिस्टम से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का एक तरीका बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के भीतर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक तरीके से प्रबंधित किया जा सकता है।

डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:


 * 1960 - जनरल मिल्स और डार्टमाउथ कॉलेज, एक संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।
 * 1970 - ACNielsen और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं। * 1970 - बिल इनमोन ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।
 * 1975 - स्पेरी यूनिवैक ने MAPPER (MAintain, Prepare, and Production Executive Reports) पेश की, एक डेटाबेस प्रबंधन और रिपोर्टिंग सिस्टम जिसमें दुनिया की पहली चौथी पीढ़ी की प्रोग्रामिंग भाषा शामिल है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस तकनीक का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
 * 1983 - टेराडाटा ने डीबीसी 1012|डीबीसी/1012 डेटाबेस कंप्यूटर पेश किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।
 * 1984 - डेविड लिडल और डॉन मस्सारो द्वारा स्थापित रूपक कंप्यूटर सिस्टम्स, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए एक हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
 * 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया एक व्यवसाय और सूचना प्रणाली के लिए एक वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।
 * 1990 - राल्फ किमबॉल द्वारा स्थापित रेड ब्रिक सिस्टम्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए एक डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस पेश किया।
 * 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर एक संपत्ति के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
 * 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर पेश किया।
 * 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।
 * 1995 - डेटा वेयरहाउसिंग संस्थान, एक लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
 * 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।
 * 2000 - डैन लिनस्टेड्ट ने डेटा वॉल्ट मॉडलिंग को सार्वजनिक डोमेन में जारी किया, जिसकी कल्पना 1990 में कई परिचालन प्रणालियों से आने वाले डेटा के दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए इनमोन और किमबॉल के विकल्प के रूप में की गई थी, जिसमें ट्रेसिंग, ऑडिटिंग और लचीलेपन पर जोर दिया गया था। स्रोत डेटा मॉडल में परिवर्तन।
 * 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने टॉप-डाउन दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को गढ़ा।
 * 2012 - बिल इनमोन सार्वजनिक तकनीक को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को लागू करती है और कच्चे पाठ और संदर्भ को एक मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। एक बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार खुफिया तकनीक द्वारा आसानी से और कुशलता से एक्सेस और विश्लेषण किया जा सकता है। टेक्स्टुअल ईटीएल के निष्पादन के माध्यम से टेक्स्टुअल डिसएम्बिगेशन पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।

तथ्य
एक तथ्य एक मूल्य या माप है, जो प्रबंधित इकाई या सिस्टम के बारे में एक तथ्य का प्रतिनिधित्व करता है।

तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, एक मोबाइल टेलीफोन प्रणाली में, यदि एक बीटीएस (बेस ट्रांसीवर स्टेशन) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा: इससे अधिक सेवा या व्यवसाय-प्रासंगिक जानकारी निकालने के लिए कच्चे स्तर पर तथ्यों को विभिन्न आयामों (डेटा वेयरहाउस) में उच्च स्तरों पर एकत्रित किया जाता है। इन्हें समुच्चय या सारांश या एकत्रित तथ्य कहा जाता है।

उदाहरण के लिए, यदि किसी शहर में तीन बीटीएस हैं, तो उपरोक्त तथ्यों को नेटवर्क आयाम में बीटीएस से शहर स्तर तक एकत्र किया जा सकता है। उदाहरण के लिए:



डेटा भंडारण के लिए आयामी बनाम सामान्यीकृत दृष्टिकोण
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।

डायमेंशनल एप्रोच राल्फ किमबॉल के एप्रोच को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को डायमेंशनल मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।

आयामी दृष्टिकोण
एक स्टार स्कीमा में, लेन-देन डेटा को तथ्यों में विभाजित किया जाता है, जो आम तौर पर संख्यात्मक लेनदेन डेटा और आयाम (डेटा वेयरहाउस) होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए, एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे कि ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल कीमत, और ऑर्डर की तारीख, ग्राहक का नाम, उत्पाद संख्या, ऑर्डर शिप-टू और बिल-टू जैसे आयामों में। आदेश प्राप्त करने के लिए जिम्मेदार स्थान, और विक्रेता।

आयामी दृष्टिकोण का एक प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है। व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं जबकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। डायमेंशनल मॉडल द्वारा पेश किया गया एक और फायदा यह है कि इसमें हर बार एक रिलेशनल डेटाबेस शामिल नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग तकनीक बहुत उपयोगी है।

तथ्यों और आयामों के मॉडल को डेटा क्यूब के रूप में भी समझा जा सकता है। जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।

आयामी दृष्टिकोण के मुख्य नुकसान निम्नलिखित हैं:
 * 1) तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
 * 2) डेटा वेयरहाउस संरचना को संशोधित करना मुश्किल है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के तरीके को बदल देता है।

सामान्यीकृत दृष्टिकोण
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा एक हद तक, डेटाबेस सामान्यीकरण नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा एक साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो एक रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में लागू किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो एक साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अलावा, जब डेटाबेस लागू किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)। इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ नुकसान यह हैं कि इसमें शामिल तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में शामिल करना और डेटा के स्रोतों और डेटा संरचना की सटीक समझ के बिना जानकारी तक पहुंचना मुश्किल हो सकता है। डेटा वेयरहाउस की।

सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ शामिल हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण # सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को एक हद तक सामान्य करना शामिल हो सकता है (किमबॉल, राल्फ 2008)।

सूचना-संचालित व्यवसाय में, रॉबर्ट हिलार्ड (लेखक) व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए एक दृष्टिकोण का प्रस्ताव करते हैं। तकनीक से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) लेकिन यह अतिरिक्त जानकारी उपयोगिता की कीमत पर आती है। यह तकनीक एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।

बॉटम-अप डिज़ाइन
बॉटम-अप एप्रोच में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को एक व्यापक डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का एक संग्रह # प्रकार और तथ्य (डेटा वेयरहाउस) # टाइप, जो आयाम हैं जो दो या दो से अधिक तथ्यों के बीच साझा किए जाते हैं (एक विशिष्ट तरीके से) डेटा मार्ट्स।

टॉप-डाउन डिज़ाइन
टॉप-डाउन दृष्टिकोण सामान्यीकृत एंटरप्राइज़ डेटा मॉडल का उपयोग करके डिज़ाइन किया गया है। डेटा तत्व | परमाणु डेटा, यानी, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले डायमेंशनल डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।

हाइब्रिड डिजाइन
डेटा वेयरहाउस (DW) अक्सर हब और प्रवक्ता वास्तुकला के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अक्सर ग्राहक संबंध प्रबंधन और उद्यम संसाधन योजना शामिल होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और ट्रांसफॉर्म लोड निकालें प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अक्सर एक ऑपरेशनल डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविक DW में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अक्सर डेटा को सामान्यीकृत तरीके से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।

डेटा अतिरेक को समाप्त करने के लिए एक हाइब्रिड DW डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। एक सामान्य संबंधपरक डेटाबेस, हालांकि, व्यावसायिक खुफिया रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का एक ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की एक विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर एक DW को एक मास्टर डेटा प्रबंधन रिपॉजिटरी से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।

डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली एक हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास शामिल हैं। डेटा वॉल्ट मॉडल एक सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, लेकिन यह एक टॉप-डाउन आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र एक्सेस करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।

डेटा वेयरहाउस विशेषताएँ
बुनियादी विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा ग्रैन्युलैरिटी शामिल हैं।

विषय-उन्मुख
परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के इर्द-गिर्द घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तव में उपयोगी हो सकता है। आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।

एकीकृत
डेटा वेयरहाउस के भीतर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि शामिल हैं।

समय-संस्करण
जबकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा एक लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)

अहिंसक
डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो)।

एकत्रीकरण
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे एक निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, आमतौर पर, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।

वर्चुअलाइजेशन
डेटा वर्चुअलाइजेशन के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए रीयल-टाइम एक्सेस स्थापित किया जाता है। यह कुछ तकनीकी कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना। इसके अलावा, व्यक्तिगत जानकारी वाले एक नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। हालाँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से कनेक्शन चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से एक है।

डेटा वेयरहाउस आर्किटेक्चर
किसी संगठन द्वारा निर्दिष्ट डेटा वेयरहाउस के निर्माण/संगठन के लिए उपयोग की जाने वाली विभिन्न विधियाँ असंख्य हैं। डेटा वेयरहाउस की सही कार्यक्षमता के लिए विशेष रूप से आवश्यक हार्डवेयर, निर्मित सॉफ़्टवेयर और डेटा संसाधन डेटा वेयरहाउस आर्किटेक्चर के मुख्य घटक हैं। सभी डेटा वेयरहाउस में कई चरण होते हैं जिनमें संगठन की आवश्यकताओं को संशोधित और ठीक किया जाता है।

बनाम परिचालन प्रणाली
डेटाबेस सामान्यीकरण और एक इकाई-संबंध मॉडल के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। ऑपरेशनल सिस्टम डिज़ाइनर आमतौर पर डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अक्सर एक व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ इन्सर्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को आमतौर पर परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।

डेटा वेयरहाउस को विश्लेषणात्मक एक्सेस पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में आम तौर पर विशिष्ट क्षेत्रों का चयन करना शामिल होता है और यदि कभी हो तो शायद ही कभी select *, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। एक्सेस पैटर्न में इन अंतरों के कारण, ऑपरेशनल डेटाबेस (शिथिल, OLTP) पंक्ति-उन्मुख DBMS के उपयोग से लाभान्वित होते हैं जबकि एनालिटिक्स डेटाबेस (शिथिल, OLAP) स्तंभ-उन्मुख DBMS के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का एक स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस आम तौर पर एक अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा माइग्रेट करता है।

संगठन उपयोग में विकास
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:


 * ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से एक नियमित समय चक्र (आमतौर पर दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एक एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
 * ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
 * ऑन-टाइम डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग रीयल-टाइम डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
 * एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, ताकि उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।

यह भी देखें

 * व्यापार खुफिया सॉफ्टवेयर
 * डेटा मेश, बड़े डेटा के प्रबंधन के लिए एक डोमेन-उन्मुख डेटा आर्किटेक्चर प्रतिमान
 * वर्चुअल डेटाबेस मैनेजर, वर्चुअल डेटा वेयरहाउस में गैर-संबंधपरक डेटा का प्रतिनिधित्व करता है

अग्रिम पठन

 * Davenport, Thomas H. and Harris, Jeanne G. Competing on Analytics: The New Science of Winning (2007) Harvard Business School Press. ISBN 978-1-4221-0332-6
 * Ganczarski, Joe. Data Warehouse Implementations: Critical Implementation Factors Study (2009) VDM Verlag ISBN 3-639-18589-7 ISBN 978-3-639-18589-8
 * Kimball, Ralph and Ross, Margy. The Data Warehouse Toolkit Third Edition (2013) Wiley, ISBN 978-1-118-53080-1
 * Linstedt, Graziano, Hultgren. The Business of Data Vault Modeling Second Edition (2010) Dan linstedt, ISBN 978-1-4357-1914-9
 * William Inmon. Building the Data Warehouse (2005) John Wiley and Sons, ISBN 978-81-265-0645-3