डेटा गुणवत्ता

डेटा गुणवत्ता गुणात्मक डेटा या सूचना के मात्रात्मक डेटा टुकड़ों या खण्डों की स्थिति को संदर्भित करती है। डेटा गुणवत्ता की कई परिभाषाएँ हैं, लेकिन डेटा को सामान्यतः उच्च गुणवत्ता वाला माना जाता है यदि यह व्यावसायिक संचालन, निर्णय लेने और योजना में इसके इच्छित उपयोग के लिए उपयुक्त है। इसके अतिरिक्त, डेटा को उच्च गुणवत्ता वाला माना जाता है यदि यह वास्तविक दुनिया के निर्माण का सही ढंग से प्रतिनिधित्व करता है जिससे यह संदर्भित होता है। इसके अतिरिक्त, इन परिभाषाओं के अतिरिक्त, जैसे-जैसे डेटा स्रोतों की संख्या बढ़ती है, किसी विशेष बाहरी उद्देश्य के लिए उपयुक्तता की परवाह किए बिना, आंतरिक डेटा स्थिरता का प्रश्न महत्वपूर्ण हो जाता है। डेटा गुणवत्ता पर लोगों के विचार प्रायः असहमत हो सकते हैं, यहां तक ​​कि समान उद्देश्य के लिए उपयोग किए गए डेटा के समान सेट पर चर्चा करते समय भी जब ऐसा होता है, तो डेटा गुणवत्ता के लिए स्वीकृत परिभाषाओं और मानकों को बनाने के लिए सामग्री संचालन का उपयोग किया जाता है। ऐसे सन्दर्भों में, डेटा गुणवत्ता सुनिश्चित करने के लिए मानकीकरण सहित डेटा सफाई की आवश्यकता हो सकती है।

परिभाषाएँ
डेटा की गुणवत्ता को परिभाषित करना मुश्किल है क्योंकि कई संदर्भों में डेटा का उपयोग किया जाता है, साथ ही अंतिम उपयोगकर्ताओं, उत्पादकों और डेटा के संरक्षकों के बीच अलग-अलग दृष्टिकोण होते हैं।

उपभोक्ता दृष्टिकोण से, डेटा की गुणवत्ता है:


 * डेटा जो डेटा उपभोक्ताओं द्वारा उपयोग के लिए उपयुक्त हैं
 * डेटा मीटिंग या उपभोक्ता अपेक्षाओं से अधिक
 * डेटा जो इसके इच्छित उपयोग की आवश्यकताओं को पूरा करता है

व्यावसायिक दृष्टिकोण से, डेटा गुणवत्ता है:

मानक-आधारित दृष्टिकोण से, डेटा गुणवत्ता है:
 * डेटा जो अपने इच्छित संचालन, निर्णय लेने और अन्य भूमिकाओं में 'उपयोग के लिए उपयुक्त' हैं या जो 'मानकों के अनुरूप' मान प्रदर्शित करते हैं, ताकि उपयोग के लिए उपयुक्तता प्राप्त की जा सके
 * डेटा जो संचालन, निर्णय लेने और योजना में उनके इच्छित उपयोग के लिए उपयुक्त हैं
 * किसी उद्यम के बताए गए व्यवसाय, प्रणाली और तकनीकी आवश्यकताओं को पूरा करने के लिए डेटा की क्षमता

तार्किक रूप से, इन सभी सन्दर्भों में, डेटा की गुणवत्ता डेटा के किसी विशेष सेट की वास्तविक स्थिति की वांछित स्थिति से तुलना है, वांछित स्थिति को विशेष रूप से उपयोग के लिए उपयुक्त के रूप में संदर्भित किया जाता है, उपभोक्ता अपेक्षाओं को पूरा करता है, दोष से मुक्त, या आवश्यकताओं को पूरा करना, ये अपेक्षाएं, विनिर्देश और आवश्यकताएं सामान्यतः एक या अधिक व्यक्तियों या समूहों, मानक संगठनों, कानूनों और विनियमों, व्यावसायिक नीतियों या सॉफ़्टवेयर विकास नीतियों द्वारा परिभाषित की जाती हैं।
 * वह डिग्री जिस तक किसी वस्तु (डेटा) की अंतर्निहित विशेषताओं (गुणवत्ता आयामों) का एक सेट आवश्यकताओं को पूरा करता है, इसके आवेदन के लिए डेटा की उपयोगिता, सटीकता और शुद्धता की प्रमाणता सिद्ध करता है।

डेटा गुणवत्ता के आयाम
अधिक गहराई से देखने पर, उन अपेक्षाओं, विशिष्टताओं और आवश्यकताओं को डेटा की विशेषताओं या आयामों के संदर्भ में बताया गया है, जैसे:


 * पहुंच या उपलब्धता
 * सटीकता या शुद्धता
 * तुलना
 * पूर्णता या व्यापकता
 * संगति, सुसंगतता या स्पष्टता
 * विश्वसनीयता, विश्वसनीयता, या प्रतिष्ठा
 * लचीलापन
 * व्यावहारिकता
 * प्रासंगिकता, प्रासंगिकता, या उपयोगिता
 * समयबद्धता या विलंबता
 * अद्वितीयता
 * वैधता या तर्कशीलता

साहित्य की एक व्यवस्थित स्कोपिंग समीक्षा बताती है कि वास्तविक विश्व डेटा के साथ डेटा गुणवत्ता आयाम और तरीके साहित्य में सुसंगत नहीं हैं, और परिणामस्वरूप इन डेटा की जटिल और विषम प्रकृति के कारण गुणवत्ता मूल्यांकन चुनौतीपूर्ण हैं।

इतिहास
सस्ते कंप्यूटर डेटा भंडारण के उदय से पहले, बड़े पैमाने पर मेनफ़्रेम कंप्यूटर कंप्यूटरों का उपयोग वितरण सेवाओं के लिए नाम और एड्रेस डेटा बनाए रखने के लिए किया जाता था। ऐसा इसलिए था ताकि मेल को उसके गंतव्य तक ठीक से भेजा जा सके। मेनफ्रेम ने नाम और पते के डेटा में सामान्य असामान्य वर्तनी और टाइपोग्राफ़िकल त्रुटियों को ठीक करने के साथ-साथ उन ग्राहकों को ट्रैक करने के लिए व्यावसायिक नियमों का उपयोग किया जो चले गए, मर गए, जेल गए, विवाहित, तलाकशुदा, या अन्य जीवन-परिवर्तनकारी घटनाओं का अनुभव किया। सरकारी एजेंसियों ने नेशनल चेंज ऑफ़ एड्रेस रजिस्ट्री संयुक्त राज्य डाक सेवा (एनसीओए) के साथ ग्राहक डेटा को क्रॉस-रेफ़रेंस करने के लिए कुछ सेवा कंपनियों को डाक डेटा उपलब्ध कराना प्रारम्भ किया। ग्राहक डेटा के मैन्युअल सुधार की तुलना में इस तकनीक ने बड़ी कंपनियों के लाखों डॉलर बचाए। बड़ी कंपनियों ने डाक पर बचत की, क्योंकि बिल और प्रत्यक्ष विपणन सामग्री ने इच्छित ग्राहक तक अधिक सटीक रूप से अपना रास्ता बनाया। प्रारंभ में एक सेवा के रूप में बेचा गया, डेटा गुणवत्ता निगमों की सीमाओं के अंदर चली गई, क्योंकि कम लागत वाली और शक्तिशाली सर्वर तकनीक उपलब्ध हो गई।

मार्केटिंग पर जोर देने वाली कंपनियां प्रायः अपने गुणवत्ता प्रयासों को नाम और पते की जानकारी पर केंद्रित करती हैं, लेकिन डेटा गुणवत्ता को मान्यता दी जाती है सभी प्रकार के डेटा की एक महत्वपूर्ण संपत्ति के रूप में डेटा गुणवत्ता के सिद्धांतों को आपूर्ति श्रृंखला डेटा, लेन-देन संबंधी डेटा और पाए जाने वाले लगभग हर दूसरे श्रेणी के डेटा पर लागू किया जा सकता है। अंत में, यह प्रायः कई डेटा स्रोतों से सर्वोत्तम घटकों को लेकर और एक एकल सुपर-रिकॉर्ड का निर्माण करते हुए, नस्ल का सर्वश्रेष्ठ रिकॉर्ड बना सकता है। उदाहरण के लिए, आपूर्ति श्रृंखला डेटा को एक निश्चित मानक के अनुरूप बनाने से संगठन के लिए मूल्य होता है: 1) समान लेकिन कुछ अलग स्टॉक के ओवरस्टॉकिंग से बचना; 2) असत्य स्टॉक-आउट से बचना; 3) वॉल्यूम छूट पर बातचीत करने के लिए विक्रेता खरीद की समझ में सुधार; और 4) एक बड़े संगठन में स्टॉकिंग और शिपिंग भागों में रसद लागत से बचना।

महत्वपूर्ण अनुसंधान प्रयासों वाली कंपनियों के लिए, डेटा की गुणवत्ता में अनुसंधान विधियों के लिए विकासशील प्रोटोकॉल (प्राकृतिक विज्ञान) सम्मिलित हो सकते हैं, माप त्रुटि को कम करना, डेटा की सीमा जाँच, क्रॉस सारणीकरण, मॉडलिंग और बाहरी पहचान, डेटा अखंडता की पुष्टि करना आदि सम्मिलित हो सकते हैं।

सम्मिलित
डेटा गुणवत्ता को समझने के लिए कई कुछ सैद्धांतिक ढांचे हैं। अमेरिकी व्यावहारिकता से प्रभावित एक प्रणाली-सैद्धांतिक दृष्टिकोण सूचना गुणवत्ता को सम्मिलित करने के लिए डेटा गुणवत्ता की परिभाषा का विस्तार करता है, और विज्ञान के सिद्धांत (इवानोव, 1972) के आधार पर सटीकता और सटीकता के मौलिक आयामों की समावेशिता पर जोर देता है। शून्य दोष डेटा (हैनसेन, 1991) करार दिया गया एक ढांचा, डेटा गुणवत्ता के लिए सांख्यिकीय प्रक्रिया नियंत्रण के सिद्धांतों को अपनाता है। एक अन्य ढांचा उत्पाद परिप्रेक्ष्य (विनिर्देशों के अनुरूप) और ग्राहक सेवा परिप्रेक्ष्य (उपभोक्ताओं की अपेक्षाओं को पूरा करना) को एकीकृत करना चाहता है (क्हान एट अल 2002)। ग्राहक डेटा के मैन्युअल सुधार की तुलना में इस तकनीक ने बड़ी कंपनियों के लाखों डॉलर बचाए। बड़ी कंपनियों ने डाक पर बचत की, क्योंकि बिल और प्रत्यक्ष विपणन सामग्री ने इच्छित ग्राहक तक अधिक सटीक रूप से अपना रास्ता बनाया। डेटा के रूप, अर्थ और उपयोग की गुणवत्ता (मूल्य और शैंक्स, 2004) की गुणवत्ता का मूल्यांकन करने के लिए एक अन्य रूपरेखा लाक्षणिकता पर आधारित है। एक अत्यधिक सैद्धांतिक दृष्टिकोण डेटा गुणवत्ता को जटिलता से परिभाषित करने के लिए सूचना प्रणालियों की ऑन्कोलॉजिकल प्रकृति का विश्लेषण करता है (वैंड और वैंग, 1996)।

डेटा गुणवत्ता अनुसंधान की काफी मात्रा में डेटा की वांछनीय विशेषताओं (या आयाम) की विभिन्न श्रेणियों की जांच और वर्णन करना सम्मिलित है। लगभग 200 ऐसी शर्तों की पहचान की गई है और उनकी प्रकृति में बहुत कम सहमति है (क्या ये अवधारणाएं, लक्ष्य या मानदंड हैं?), उनकी परिभाषाएं या उपाय (वांग एट अल, 1993) सॉफ़्टवेयर इंजीनियर इसे सिस्टम गुणवत्ता विशेषताओं की सूची के समान समस्या के रूप में पहचान सकते हैं।

एमआईटी का एक सूचना गुणवत्ता (MITIQ) प्रोग्राम है, जिसका नेतृत्व प्रोफेसर रिचर्ड वांग करते हैं, जो बड़ी संख्या में प्रकाशनों का निर्माण करता है और इस क्षेत्र में एक महत्वपूर्ण अंतर्राष्ट्रीय सम्मेलन (सूचना गुणवत्ता पर अंतर्राष्ट्रीय सम्मेलन, आईसीआईक्यू) की मेजबानी करता है। यह प्रोग्राम हैनसेन द्वारा जीरो डिफेक्ट डेटा फ्रेमवर्क (हैनसेन, 1991) पर किए गए कार्य से विकसित हुआ।

व्यवहार में, डेटा गुणवत्ता सूचना प्रणाली की एक विस्तृत श्रृंखला से जुड़े अनुभवों के लिए एक चिंता का विषय है, जिसमें डेटा भण्डारण और व्यापारिक सूचना से लेकर ग्राहक संबंध प्रबंधन और आपूर्ति श्रृंखला प्रबंधन सम्मिलित हैं। एक उद्योग अध्ययन ने अनुमान लगाया कि डेटा गुणवत्ता की समस्याओं की अमेरिकी अर्थव्यवस्था की कुल लागत यूएस $600 बिलियन प्रति वर्ष से अधिक है (एकर्सन, 2002)। असामान्य डेटा - जिसमें अमान्य और पुरानी जानकारी सम्मिलित है - डेटा प्रविष्टि, या आंकड़ों का विस्थापन और रूपांतरण परियोजनाओं के माध्यम से - विभिन्न डेटा स्रोतों से उत्पन्न हो सकता है।

2002 में, यूएसपीएस और प्राइसवाटरहाउसकूपर्स ने एक रिपोर्ट जारी की जिसमें कहा गया था कि भेजे गए सभी अमेरिकी मेलों में से 23.6 प्रतिशत को असामान्य तरीके से संबोधित किया गया है।

औसत डेटाबेस में एक कारण संपर्क डेटा बहुत जल्दी पुराना हो जाता है - हर साल 45 मिलियन से अधिक अमेरिकी अपना एड्रेस बदलते हैं।

वास्तव में, समस्या एक ऐसी चिंता है कि कंपनियां एक डेटा गवर्नेंस टीम की स्थापना करने लगी हैं, जिसकी निगम में एकमात्र भूमिका डेटा गुणवत्ता के लिए उत्तरदायी होना है। कुछ में संगठनों में, इस डेटा प्रक्रिया कार्य को एक बड़े विनियामक अनुपालन कार्य के भाग के रूप में स्थापित किया गया है - संगठनों के लिए डेटा/सूचना गुणवत्ता के महत्व की मान्यता सुनिश्चित करना अनिवार्य है।

डेटा गुणवत्ता के साथ समस्याएँ केवल असामान्य डेटा से उत्पन्न नहीं होती हैं; असंगत डेटा भी एक समस्या है। इमेज प्रणाली को खत्म करना और संग्रहण में डेटा को केंद्रीकृत करना उन पहलों में से एक है जो कंपनी डेटा स्थिरता सुनिश्चित करने के लिए कर सकती है।

उद्यम, वैज्ञानिक और शोधकर्ता अपने सामान्य डेटा की गुणवत्ता में सुधार के लिए डेटा क्यूरेशन समुदायों के भीतर भाग लेना प्रारम्भ कर रहे हैं।

डेटा गुणवत्ता आश्वासन प्रदान करने के लिए बाजार किसी तरह जा रहा है। खराब गुणवत्ता वाले डेटा का विश्लेषण और मरम्मत करने के लिए कई विक्रेता उपकरण बनाते हैं, सेवा प्रदाता अनुबंध के आधार पर डेटा को साफ़ कर सकते हैं और सलाहकार डेटा गुणवत्ता की समस्याओं से बचने के लिए प्रक्रियाओं या प्रणालियों को ठीक करने की सलाह दे सकते हैं। अधिकांश डेटा गुणवत्ता उपकरण डेटा में सुधार के लिए उपकरणों की एक श्रृंखला प्रदान करते हैं, जिनमें निम्न में से कुछ या सभी सम्मिलित हो सकते हैं:


 * 1) डेटा प्रोफाइलिंग - प्रारम्भ में इसकी वर्तमान स्थिति को समझने के लिए डेटा का आकलन प्रायः मूल्य वितरण सहित करना,
 * 2) डेटा मानकीकरण - एक व्यवसाय नियम इंजन जो यह सुनिश्चित करता है कि डेटा मानकों के अनुरूप है
 * 3) जियोकोडिंग - नाम और एड्रेस डेटा के लिए। डेटा को यू.एस. और विश्वव्यापी भौगोलिक मानकों के अनुसार ठीक करता है
 * 4) रिकॉर्ड लिंकेज - डेटा की तुलना करने का एक तरीका ताकि समान, लेकिन कुछ अलग रिकॉर्ड को संरेखित किया जा सके। मिलान डेटा में डुप्लीकेट खोजने के लिए फ़ज़ी लॉजिक का उपयोग कर सकता है। यह प्रायः पहचानता है कि बॉब और बो एक ही व्यक्ति हो सकते हैं। उदाहरण के लिए, यह गृहस्थी का प्रबंधन करने, या एक ही पते पर पति-पत्नी के बीच संबंध खोजने में सक्षम हो सकता है। अंत में, यह प्रायः कई डेटा स्रोतों से सर्वोत्तम घटकों को लेकर और एक एकल सुपर-रिकॉर्ड का निर्माण करते हुए, नस्ल का सर्वश्रेष्ठ रिकॉर्ड बना सकता है।
 * 5) मॉनिटरिंग - समय के साथ डेटा की गुणवत्ता पर नज़र रखना और डेटा की गुणवत्ता में बदलाव की रिपोर्ट करना। सॉफ़्टवेयर पूर्व-निर्धारित व्यावसायिक नियमों के आधार पर विविधताओं को स्वतः ठीक भी कर सकता है।
 * 6) बैच और वास्तविक समय - एक बार जब डेटा अध्यापक में साफ (बैच) हो जाता है, तो कंपनियां प्रायः इसे साफ रखने के लिए प्रक्रियाओं को उद्यम अनुप्रयोगों में बनाना चाहती हैं।

कई प्रसिद्ध लेखक और स्वयंभू विशेषज्ञ हैं, जिनमें लैरी इंग्लिश शायद सबसे लोकप्रिय गुरु हैं। इसके अतिरिक्त, आईक्यू इंटरनेशनल - The इंटरनेशनल Association for Information and Data Quality की स्थापना 2004 में की गई थी ताकि इस क्षेत्र में अनुभवों और शोधकर्ताओं को केंद्र बिंदु प्रदान किया जा सके।

आईएसओ 8000 डेटा गुणवत्ता के लिए एक अंतरराष्ट्रीय मानक है।

डेटा गुणवत्ता आश्वासन
डेटा गुणवत्ता आश्वासन डेटा में विसंगतियों और अन्य विसंगतियों की खोज करने के साथ-साथ डेटा सफाई करने के लिए डेटा प्रोफाइलिंग की प्रक्रिया है। डेटा की गुणवत्ता में सुधार के लिए गतिविधियाँ (जैसे बाहरी कारकों के कारण को हटाना, लापता डेटा प्रक्षेप इत्यादि)।

इन गतिविधियों को डेटा वेयरहाउसिंग के हिस्से के रूप में या अनुप्रयोग प्रक्रिया सामग्री के मौजूदा भाग के डेटाबेस प्रशासन के हिस्से के रूप में किया जा सकता है।

डेटा गुणवत्ता नियंत्रण
डेटा गुणवत्ता नियंत्रण किसी एप्लिकेशन या प्रक्रिया के लिए डेटा के उपयोग को नियंत्रित करने की प्रक्रिया है। यह प्रक्रिया डेटा गुणवत्ता आश्वासन (क्यूए) प्रक्रिया से पहले और बाद में की जाती है, जिसमें डेटा असंगतता और सुधार की खोज सम्मिलित है।

पहले इनपुट प्रतिबंधित करता है

क्यूए प्रक्रिया के बाद विश्लेषणात्मक गुणवत्ता नियंत्रण (क्यूसी) प्रक्रिया को निर्देशित करने के लिए निम्नलिखित आंकड़े एकत्र किए जाते हैं:
 * असंगति की गंभीरता
 * अधूरापन
 * शुद्धता
 * शुद्धता
 * लापता / अज्ञात

डेटा क्यूसी प्रक्रिया क्यूए प्रक्रिया से जानकारी का उपयोग विश्लेषण के लिए या किसी एप्लिकेशन या व्यावसायिक प्रक्रिया में डेटा का उपयोग करने का निर्णय लेने के लिए करती है। सामान्य उदाहरण: यदि एक डेटा क्यूसी प्रक्रिया को एड्रेस चलता है कि डेटा में बहुत अधिक त्रुटियाँ या असंगतताएँ हैं, तो यह उस डेटा को उसकी इच्छित प्रक्रिया के लिए उपयोग किए जाने से रोकता है जो व्यवधान पैदा कर सकता है। विशिष्ट उदाहरण: एक विमान पर स्वचालित पायलट सुविधा के लिए कई सेंसरों से अमान्य माप प्रदान करने से यह क्षतिग्रस्त हो सकता है। इस प्रकार, क्यूसी प्रक्रिया की स्थापना डेटा उपयोग सुरक्षा प्रदान करती है।

डेटा गुणवत्ता का इष्टतम उपयोग
डेटा गुणवत्ता (डीक्यू) डेटा मुद्दों के अंतराल को कवर करके डेटा प्रबंधन की अखंडता के लिए आवश्यक एक सामान्य क्षेत्र है। यह उन प्रमुख कार्यों में से एक है जो वर्तमान डेटा प्रबंधन संचालन द्वारा अनदेखे अपवादों को खोजने के लिए डेटा की निगरानी करके डेटा प्रक्रिया की सहायता करता है। डेटा गुणवत्ता जांच को इसके सुधारात्मक चरणों पर पूर्ण नियंत्रण रखने के लिए विशेषता स्तर पर परिभाषित किया जा सकता है।

यदि कोई संगठन अपने डीक्यू दायरे पर ध्यान नहीं देता है तो डीक्यू चेक और व्यवसाय नियम आसानी से ओवरलैप हो सकते हैं। ओवरलैप से बचने के लिए व्यावसायिक टीमों को डीक्यू के दायरे को अच्छी तरह से समझना चाहिए। यदि व्यावसायिक तर्क समान कार्यक्षमता को कवर करता है और डीक्यू के समान उद्देश्य को पूरा करता है, तो डेटा गुणवत्ता जाँच असत्य है। किसी संगठन के डीक्यू कार्यक्षेत्र को डीक्यू रणनीति में परिभाषित किया जाना चाहिए और अच्छी तरह से कार्यान्वित किया जाना चाहिए। अतीत में अपवादों के बार-बार होने के बाद कुछ डेटा गुणवत्ता जांचों को व्यावसायिक नियमों में अनुवादित किया जा सकता है।

नीचे डेटा प्रवाह के कुछ क्षेत्र दिए गए हैं जिन्हें बारह मास डीक्यू जाँच की आवश्यकता हो सकती है:

प्रत्येक स्रोत प्रणाली से प्रत्येक अनिवार्य विशेषता के लिए प्रविष्टि के बिंदु पर सभी डेटा पर पूर्णता और सटीक डीक्यू जांच की जा सकती है। लेन-देन के प्रारंभिक निर्माण के बाद कुछ विशेषता मान बनाए जाते हैं; ऐसे सन्दर्भों में, इन जांचों को प्रशासित करना मुश्किल हो जाता है और उस विशेषता के स्रोत की परिभाषित घटना और लेन-देन की अन्य मुख्य विशेषता शर्तों के पूरा होने के तुरंत बाद किया जाना चाहिए।

संगठन में 'संदर्भ डेटा का संदर्भ देने वाले सभी डेटा को वैधता डीक्यू जांच के माध्यम से नए या विसंगतिपूर्ण मूल्यों की खोज के लिए संदर्भ डेटा के अच्छी तरह से परिभाषित वैध मूल्यों के सेट के खिलाफ मान्य किया जा सकता है। परिणामों का उपयोग मास्टर डेटा प्रबंधन (एमडीएम) के अंतर्गत प्रशासित संदर्भ डेटा'' को अपडेट करने के लिए किया जा सकता है।

किसी तृतीय पक्ष से संगठन की आंतरिक टीमों को प्राप्त सभी डेटा की तृतीय पक्ष डेटा के विरुद्ध सटीकता (डीक्यू) जांच की जा सकती है। ये डीक्यू जाँच परिणाम मूल्यवान होते हैं जब उस डेटा पर प्रशासित किया जाता है जो उस डेटा के प्रवेश के बिंदु के बाद कई हॉप करता है लेकिन इससे पहले कि डेटा एंटरप्राइज़ इंटेलिजेंस के लिए अधिकृत या संग्रहीत हो जाता है।

सभी डेटा कॉलम जो मास्टर डेटा को संदर्भित करते हैं, इसकी निरंतरता की जांच के लिए मान्य किए जा सकते हैं। प्रविष्टि के बिंदु पर डेटा पर प्रशासित एक डीक्यू जाँच एमडीएम प्रक्रिया के लिए नए डेटा की खोज करती है, लेकिन प्रविष्टि के बिंदु के बाद प्रशासित एक डीक्यू जाँच स्थिरता की विफलता (अपवाद नहीं) का एड्रेस लगाती है।

जैसा कि डेटा बदलता है, कई टाइमस्टैम्प और उस टाइमस्टैम्प की स्थिति पर कब्जा कर लिया जाता है और एक परिभाषित एसएलए (सर्विस लेवल एग्रीमेंट) के खिलाफ इसके मूल्य, क्षय, परिचालन महत्व को मान्य करने के लिए एक दूसरे के साथ तुलना की जा सकती है। इस समयबद्धता डीक्यू जाँच का उपयोग डेटा मूल्य क्षय दर को कम करने और डेटा संचलन समयरेखा की नीतियों को अनुकूलित करने के लिए किया जा सकता है।

एक संगठन में जटिल तर्क को सामान्यतः कई प्रक्रियाओं में सरल तर्क में अलग किया जाता है। तर्कसंगतता ऐसे जटिल तर्क पर डीक्यू जांच मूल्यों या स्थिर अंतर्संबंधों (एकत्रित व्यावसायिक नियम) की एक विशिष्ट श्रेणी के भीतर एक तार्किक परिणाम देने के लिए जटिल लेकिन महत्वपूर्ण व्यावसायिक प्रक्रियाओं और डेटा के आउटलेयर की खोज के लिए मान्य हो सकती है, बीएयू (व्यापार सदैव की तरह) से इसका बहाव) उम्मीदें हैं, और संभावित अपवाद प्रदान कर सकते हैं जिसके परिणामस्वरूप अंततः डेटा समस्याएं हो सकती हैं। यह जाँच डेटा के बड़े हिस्से से घिरा एक सामान्य सामान्य एकत्रीकरण नियम हो सकता है या यह संगठन के मुख्य व्यवसाय से संबंधित लेनदेन की विशेषताओं के समूह पर एक जटिल तर्क हो सकता है। इस डीक्यू चेक के लिए उच्च स्तर के व्यावसायिक ज्ञान और कौशल की आवश्यकता होती है। तर्कसंगतता के मुद्दों की खोज व्यापार या डेटा प्रक्रिया या दोनों द्वारा नीति और रणनीति में बदलाव के लिए सहायता कर सकती है।

अनुरूपता जांच और अखंडता जांच को सभी व्यावसायिक जरूरतों में सम्मिलित करने की आवश्यकता नहीं है, यह सख्ती से डेटाबेस आर्किटेक्चर के विवेक के तहत है।

डेटा संचलन में ऐसे कई स्थान हैं जहाँ डीक्यू जाँच की आवश्यकता नहीं हो सकती है। उदाहरण के लिए, डेटाबेस से प्राप्त डेटा के लिए शून्य-शून्य कॉलम पर पूर्णता और सटीकता के लिए डीक्यू जांच अनावश्यक है। इसी तरह, डेटा को उसकी सटीकता के लिए उस समय के संबंध में मान्य किया जाना चाहिए जब डेटा को अलग-अलग स्रोतों से जोड़ा जाता है। हालाँकि, यह एक व्यावसायिक नियम है और डीक्यू के दायरे में नहीं होना चाहिए।

दुर्भाग्य से, एक सॉफ्टवेयर विकास के नजरिए से, डीक्यू को प्रायः एक गैर-कार्यात्मक आवश्यकता के रूप में देखा जाता है। और इस तरह, प्रमुख डेटा गुणवत्ता जांच/प्रक्रियाओं को अंतिम सॉफ़्टवेयर समाधान में सम्मिलित नहीं किया जाता है। हेल्थकेयर, पहनने योग्य तकनीक या बॉडी एरिया नेटवर्क के भीतर, बड़ी मात्रा में डेटा उत्पन्न होता है। डेटा की गुणवत्ता सुनिश्चित करने के लिए आवश्यक विवरण का स्तर अत्यंत उच्च है और प्रायः इसे कम करके आंका जाता है। यह अधिकांश एमहेल्थ ऐप्स, इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड और अन्य स्वास्थ्य संबंधी सॉफ़्टवेयर समाधानों के लिए भी सही है। हालाँकि, कुछ ओपन सोर्स टूल मौजूद हैं जो डेटा गुणवत्ता की जांच करते हैं। इसका प्राथमिक कारण, सम्मिलित अतिरिक्त लागत से उपजा है, सॉफ्टवेयर आर्किटेक्चर के भीतर उच्च स्तर की जटिलता को जोड़ा गया है।

स्वास्थ्य डेटा सुरक्षा और गोपनीयता
स्वास्थ्य, या एमहेल्थ में मोबाइल उपकरणों का उपयोग, डेटा गुणवत्ता को सीधे प्रभावित करने वाले तरीकों से स्वास्थ्य डेटा सुरक्षा और गोपनीयता के लिए नई चुनौतियाँ पैदा करता है। एमहेल्थ निम्न और मध्यम आय वाले देशों में स्वास्थ्य सेवाओं के वितरण के लिए एक तेजी से महत्वपूर्ण रणनीति है। मोबाइल फोन और टैबलेट का उपयोग निकट वास्तविक समय में डेटा के संग्रह, रिपोर्टिंग और विश्लेषण के लिए किया जाता है। हालाँकि, इन मोबाइल उपकरणों का उपयोग सामान्यतः व्यक्तिगत गतिविधियों के लिए किया जाता है, साथ ही, उन्हें सुरक्षा संकटों के प्रति अधिक संवेदनशील बना देता है जिससे डेटा उल्लंघन हो सकता है। उचित सुरक्षा उपायों के बिना, यह व्यक्तिगत उपयोग स्वास्थ्य डेटा की गुणवत्ता, सुरक्षा और गोपनीयता को संकट में डाल सकता है।

सार्वजनिक स्वास्थ्य में डेटा की गुणवत्ता
हाल के वर्षों में डेटा गुणवत्ता सार्वजनिक स्वास्थ्य कार्यक्रमों का एक प्रमुख केंद्र बन गया है, विशेष रूप से जवाबदेही की मांग बढ़ने के कारण एड्स, क्षय रोग और मलेरिया जैसी बीमारियों के खिलाफ लड़ाई से संबंधित महत्वाकांक्षी लक्ष्यों की दिशा में काम मजबूत निगरानी और मूल्यांकन प्रणालियों पर आधारित होना चाहिए जो प्रोग्राम कार्यान्वयन से संबंधित गुणवत्तापूर्ण डेटा तैयार करते हैं। ये प्रोग्राम, और प्रोग्राम लेखा परीक्षक, डेटा की गुणवत्ता निर्धारित करने की प्रक्रिया को मानकीकृत और सुव्यवस्थित करने के लिए तेजी से उपकरणों की तलाश करते हैं, रिपोर्ट किए गए डेटा की गुणवत्ता को सत्यापित करें, और संकेतकों के लिए अंतर्निहित डेटा प्रबंधन और रिपोर्टिंग सिस्टम का आकलन करें। एक उदाहरण डब्ल्यूएचओ और अपवर्तक मूल्यांकन का डेटा गुणवत्ता समीक्षा उपकरण है डब्ल्यूएचओ, ग्लोबल फंड, जीएवीआई, और अपवर्तक मूल्यांकन ने विभिन्न बीमारियों और कार्यक्रमों में डेटा गुणवत्ता आश्वासन के लिए एक सुसंगत दृष्टिकोण तैयार करने के लिए सहयोग किया है।

खुला डेटा गुणवत्ता
विकिपीडिया, विकिडेटा, डीबीपीडिया और अन्य जैसे खुले डेटा स्रोतों में डेटा गुणवत्ता के विश्लेषण के लिए समर्पित कई वैज्ञानिक कार्य हैं। विकिपीडिया के मामले में, गुणवत्ता विश्लेषण पूरे लेख से संबंधित हो सकता है गुणवत्ता की मॉडलिंग विभिन्न तरीकों से की जाती है। उनमें से कुछ यंत्र अधिगम एल्गोरिदम का उपयोग करते हैं, जिनमें यादृच्छिक ट्री भी सम्मिलित है, समर्थन वेक्टर यंत्र, और दूसरे विकिडेटा, डीबीपीडिया और अन्य लिंक्ड ओपन डेटा स्रोतों में डेटा गुणवत्ता का आकलन करने के तरीके अलग-अलग हैं।

व्यावसायिक संघ
आईक्यू इंटरनेशनल- सूचना और डेटा गुणवत्ता के लिए अंतर्राष्ट्रीय संघ आईक्यू इंटरनेशनल 2004 में गठित एक गैर-लाभकारी, विक्रेता तटस्थ, पेशेवर संघ है, जो सूचना और डेटा गुणवत्ता पेशे के निर्माण के लिए समर्पित है।

ईसीसीएमए (इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन)
इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन (ईसीसीएमए) एक सदस्य-आधारित, अंतर्राष्ट्रीय गैर-लाभकारी संघ है जो अंतर्राष्ट्रीय मानकों के कार्यान्वयन के माध्यम से डेटा की गुणवत्ता में सुधार के लिए प्रतिबद्ध है। ईसीसीएमए आईइसओ 8000 और आईइसओ 22745 के विकास के लिए वर्तमान प्रोजेक्ट लीडर है, जो क्रमशः डेटा गुणवत्ता और सामग्री और सेवा मास्टर डेटा के आदान-प्रदान के लिए अंतर्राष्ट्रीय मानक हैं। ईसीसीएमए दुनिया भर में डेटा गुणवत्ता और डेटा प्रक्रिया पर विषय विशेषज्ञों के बीच सहयोग के लिए एक मंच प्रदान करता है ताकि वैश्विक, खुले मानक शब्दकोशों का निर्माण और रखरखाव किया जा सके जो स्पष्ट रूप से जानकारी को लेबल करने के लिए उपयोग किए जाते हैं। लेबल के इन शब्दकोशों का अस्तित्व बिना अर्थ खोए सूचना को एक कंप्यूटर सिस्टम से दूसरे कंप्यूटर में पारित करने की अनुमति देता है।

यह भी देखें

 * डेटा गुणवत्ता फ़ायरवॉल
 * आंकड़ा मान्यीकरण
 * रिकॉर्ड लिंकेज
 * सूचना गुणवत्ता
 * मास्टर डेटा प्रबंधन
 * सामग्री संचालन
 * डेटाबेस सामान्यीकरण
 * डेटा विज़ुअलाइज़ेशन
 * डेटा विश्लेषण
 * नैदानिक ​​डेटा प्रबंधन

अग्रिम पठन

 * Baamann, Katharina, "Data Quality Aspects of Revenue Assurance", Article
 * Eckerson, W. (2002) "Data Warehousing Special Report: Data quality and the bottom line", Article
 * Ivanov, K. (1972) "Quality-control of information: On the concept of accuracy of information in data banks and in management information systems". The University of Stockholm and The Royal Institute of Technology. Doctoral dissertation.
 * Hansen, M. (1991) Zero Defect Data, एमआईटी. Masters thesis
 * Kahn, B., Strong, D., Wang, R. (2002) "Information Quality Benchmarks: Product and Service Performance," Communications of the ACM, April 2002. pp. 184–192. Article
 * Price, R. and Shanks, G. (2004) A Semiotic Information Quality Framework, Proc. IFIP इंटरनेशनल Conference on Decision Support Systems (DSS2004): Decision Support in an Uncertain and Complex World, Prato. Article
 * Redman, T. C. (2008) Data Driven: Profiting From Our Most Important Business Asset
 * Wand, Y. and Wang, R. (1996) "Anchoring Data Quality Dimensions in Ontological Foundations," Communications of the ACM, November 1996. pp. 86–95. Article
 * Wang, R., Kon, H. & Madnick, S. (1993), Data Quality Requirements Analysis and Modelling, Ninth इंटरनेशनल Conference of Data Engineering, Vienna, Austria. Article
 * Fournel Michel, Accroitre la qualité et la valeur des données de vos clients, éditions Publibook, 2007. ISBN 978-2-7483-3847-8.
 * Daniel F., Casati F., Palpanas T., Chayka O., Cappiello C. (2008) "Enabling Better Decisions through Quality-aware Reports", इंटरनेशनल Conference on Information Quality (आईसीआईक्यू), एमआईटी. Article
 * Jack E. Olson (2003), "Data Quality: The Accuracy dimension", Morgan Kaufmann Publishers
 * Woodall P., Oberhofer M., and Borek A. (2014), "A Classification of Data Quality Assessment and Improvement Methods". इंटरनेशनल Journal of Information Quality 3 (4), 298–321. doi:10.1504/ijiq.2014.068656.
 * Woodall, P., Borek, A., and Parlikad, A. (2013), "Data Quality Assessment: The Hybrid Approach." Information & Management 50 (7), 369–382.
 * Woodall, P., Borek, A., and Parlikad, A. (2013), "Data Quality Assessment: The Hybrid Approach." Information & Management 50 (7), 369–382.

बाहरी संबंध

 * Data quality course, from the Global Health Learning Center