डेटा गुणवत्ता

From Vigyanwiki

डेटा गुणवत्ता गुणात्मक डेटा या सूचना के मात्रात्मक डेटा टुकड़ों या खण्डों की स्थिति को संदर्भित करती है। डेटा गुणवत्ता की कई परिभाषाएँ हैं, लेकिन डेटा को सामान्यतः उच्च गुणवत्ता वाला माना जाता है यदि यह व्यावसायिक संचालन, निर्णय लेने और योजना में इसके इच्छित उपयोग के लिए उपयुक्त है।[1][2][3] इसके अतिरिक्त, डेटा को उच्च गुणवत्ता वाला माना जाता है यदि यह वास्तविक दुनिया के निर्माण का सही ढंग से प्रतिनिधित्व करता है जिससे यह संदर्भित होता है। इसके अतिरिक्त, इन परिभाषाओं के अतिरिक्त, जैसे-जैसे डेटा स्रोतों की संख्या बढ़ती है, किसी विशेष बाहरी उद्देश्य के लिए उपयुक्तता की परवाह किए बिना, आंतरिक डेटा स्थिरता का प्रश्न महत्वपूर्ण हो जाता है। डेटा गुणवत्ता पर लोगों के विचार प्रायः असहमत हो सकते हैं, यहां तक ​​कि समान उद्देश्य के लिए उपयोग किए गए डेटा के समान सेट पर चर्चा करते समय भी जब ऐसा होता है, तो डेटा गुणवत्ता के लिए स्वीकृत परिभाषाओं और मानकों को बनाने के लिए सामग्री संचालन का उपयोग किया जाता है। ऐसे सन्दर्भों में, डेटा गुणवत्ता सुनिश्चित करने के लिए मानकीकरण सहित डेटा सफाई की आवश्यकता हो सकती है।[4]


परिभाषाएँ

डेटा की गुणवत्ता को परिभाषित करना मुश्किल है क्योंकि कई संदर्भों में डेटा का उपयोग किया जाता है, साथ ही अंतिम उपयोगकर्ताओं, उत्पादकों और डेटा के संरक्षकों के बीच अलग-अलग दृष्टिकोण होते हैं।[5]

उपभोक्ता दृष्टिकोण से, डेटा की गुणवत्ता है:[5]

  • डेटा जो डेटा उपभोक्ताओं द्वारा उपयोग के लिए उपयुक्त हैं
  • डेटा मीटिंग या उपभोक्ता अपेक्षाओं से अधिक
  • डेटा जो इसके इच्छित उपयोग की आवश्यकताओं को पूरा करता है

व्यावसायिक दृष्टिकोण से, डेटा गुणवत्ता है:

  • डेटा जो अपने इच्छित संचालन, निर्णय लेने और अन्य भूमिकाओं में 'उपयोग के लिए उपयुक्त' हैं या जो 'मानकों के अनुरूप' मान प्रदर्शित करते हैं, ताकि उपयोग के लिए उपयुक्तता प्राप्त की जा सके[6]
  • डेटा जो संचालन, निर्णय लेने और योजना में उनके इच्छित उपयोग के लिए उपयुक्त हैं[7]
  • किसी उद्यम के बताए गए व्यवसाय, प्रणाली और तकनीकी आवश्यकताओं को पूरा करने के लिए डेटा की क्षमता[8]

मानक-आधारित दृष्टिकोण से, डेटा गुणवत्ता है:

  • वह डिग्री जिस तक किसी वस्तु (डेटा) की अंतर्निहित विशेषताओं (गुणवत्ता आयामों) का एक सेट आवश्यकताओं को पूरा करता है[9][5], इसके आवेदन के लिए डेटा की उपयोगिता, सटीकता और शुद्धता की प्रमाणता सिद्ध करता है।[10]

तार्किक रूप से, इन सभी सन्दर्भों में, डेटा की गुणवत्ता डेटा के किसी विशेष सेट की वास्तविक स्थिति की वांछित स्थिति से तुलना है, वांछित स्थिति को विशेष रूप से उपयोग के लिए उपयुक्त के रूप में संदर्भित किया जाता है, उपभोक्ता अपेक्षाओं को पूरा करता है, दोष से मुक्त, या आवश्यकताओं को पूरा करना, ये अपेक्षाएं, विनिर्देश और आवश्यकताएं सामान्यतः एक या अधिक व्यक्तियों या समूहों, मानक संगठनों, कानूनों और विनियमों, व्यावसायिक नीतियों या सॉफ़्टवेयर विकास नीतियों द्वारा परिभाषित की जाती हैं।[5]


डेटा गुणवत्ता के आयाम

अधिक गहराई से देखने पर, उन अपेक्षाओं, विशिष्टताओं और आवश्यकताओं को डेटा की विशेषताओं या आयामों के संदर्भ में बताया गया है, जैसे:[5][6][7][8][11]

  • पहुंच या उपलब्धता
  • सटीकता या शुद्धता
  • तुलना
  • पूर्णता या व्यापकता
  • संगति, सुसंगतता या स्पष्टता
  • विश्वसनीयता, विश्वसनीयता, या प्रतिष्ठा
  • लचीलापन
  • व्यावहारिकता
  • प्रासंगिकता, प्रासंगिकता, या उपयोगिता
  • समयबद्धता या विलंबता
  • अद्वितीयता
  • वैधता या तर्कशीलता

साहित्य की एक व्यवस्थित स्कोपिंग समीक्षा बताती है कि वास्तविक विश्व डेटा के साथ डेटा गुणवत्ता आयाम और तरीके साहित्य में सुसंगत नहीं हैं, और परिणामस्वरूप इन डेटा की जटिल और विषम प्रकृति के कारण गुणवत्ता मूल्यांकन चुनौतीपूर्ण हैं।[11]


इतिहास

सस्ते कंप्यूटर डेटा भंडारण के उदय से पहले, बड़े पैमाने पर मेनफ़्रेम कंप्यूटर कंप्यूटरों का उपयोग वितरण सेवाओं के लिए नाम और एड्रेस डेटा बनाए रखने के लिए किया जाता था। ऐसा इसलिए था ताकि मेल को उसके गंतव्य तक ठीक से भेजा जा सके। मेनफ्रेम ने नाम और पते के डेटा में सामान्य असामान्य वर्तनी और टाइपोग्राफ़िकल त्रुटियों को ठीक करने के साथ-साथ उन ग्राहकों को ट्रैक करने के लिए व्यावसायिक नियमों का उपयोग किया जो चले गए, मर गए, जेल गए, विवाहित, तलाकशुदा, या अन्य जीवन-परिवर्तनकारी घटनाओं का अनुभव किया। सरकारी एजेंसियों ने नेशनल चेंज ऑफ़ एड्रेस रजिस्ट्री संयुक्त राज्य डाक सेवा (एनसीओए) के साथ ग्राहक डेटा को क्रॉस-रेफ़रेंस करने के लिए कुछ सेवा कंपनियों को डाक डेटा उपलब्ध कराना प्रारम्भ किया। ग्राहक डेटा के मैन्युअल सुधार की तुलना में इस तकनीक ने बड़ी कंपनियों के लाखों डॉलर बचाए। बड़ी कंपनियों ने डाक पर बचत की, क्योंकि बिल और प्रत्यक्ष विपणन सामग्री ने इच्छित ग्राहक तक अधिक सटीक रूप से अपना रास्ता बनाया। प्रारंभ में एक सेवा के रूप में बेचा गया, डेटा गुणवत्ता निगमों की सीमाओं के अंदर चली गई, क्योंकि कम लागत वाली और शक्तिशाली सर्वर तकनीक उपलब्ध हो गई।[citation needed]

मार्केटिंग पर जोर देने वाली कंपनियां प्रायः अपने गुणवत्ता प्रयासों को नाम और पते की जानकारी पर केंद्रित करती हैं, लेकिन डेटा गुणवत्ता को मान्यता दी जाती है[by whom?] सभी प्रकार के डेटा की एक महत्वपूर्ण संपत्ति के रूप में डेटा गुणवत्ता के सिद्धांतों को आपूर्ति श्रृंखला डेटा, लेन-देन संबंधी डेटा और पाए जाने वाले लगभग हर दूसरे श्रेणी के डेटा पर लागू किया जा सकता है। अंत में, यह प्रायः कई डेटा स्रोतों से सर्वोत्तम घटकों को लेकर और एक एकल सुपर-रिकॉर्ड का निर्माण करते हुए, नस्ल का सर्वश्रेष्ठ रिकॉर्ड बना सकता है। उदाहरण के लिए, आपूर्ति श्रृंखला डेटा को एक निश्चित मानक के अनुरूप बनाने से संगठन के लिए मूल्य होता है: 1) समान लेकिन कुछ अलग स्टॉक के ओवरस्टॉकिंग से बचना; 2) असत्य स्टॉक-आउट से बचना; 3) वॉल्यूम छूट पर बातचीत करने के लिए विक्रेता खरीद की समझ में सुधार; और 4) एक बड़े संगठन में स्टॉकिंग और शिपिंग भागों में रसद लागत से बचना।[citation needed]

महत्वपूर्ण अनुसंधान प्रयासों वाली कंपनियों के लिए, डेटा की गुणवत्ता में अनुसंधान विधियों के लिए विकासशील प्रोटोकॉल (प्राकृतिक विज्ञान) सम्मिलित हो सकते हैं, माप त्रुटि को कम करना, डेटा की सीमा जाँच, क्रॉस सारणीकरण, मॉडलिंग और बाहरी पहचान, डेटा अखंडता की पुष्टि करना आदि सम्मिलित हो सकते हैं।[citation needed]

सम्मिलित

डेटा गुणवत्ता को समझने के लिए कई कुछ सैद्धांतिक ढांचे हैं। अमेरिकी व्यावहारिकता से प्रभावित एक प्रणाली-सैद्धांतिक दृष्टिकोण सूचना गुणवत्ता को सम्मिलित करने के लिए डेटा गुणवत्ता की परिभाषा का विस्तार करता है, और विज्ञान के सिद्धांत (इवानोव, 1972) के आधार पर सटीकता और सटीकता के मौलिक आयामों की समावेशिता पर जोर देता है। शून्य दोष डेटा (हैनसेन, 1991) करार दिया गया एक ढांचा, डेटा गुणवत्ता के लिए सांख्यिकीय प्रक्रिया नियंत्रण के सिद्धांतों को अपनाता है। एक अन्य ढांचा उत्पाद परिप्रेक्ष्य (विनिर्देशों के अनुरूप) और ग्राहक सेवा परिप्रेक्ष्य (उपभोक्ताओं की अपेक्षाओं को पूरा करना) को एकीकृत करना चाहता है (क्हान एट अल 2002)। ग्राहक डेटा के मैन्युअल सुधार की तुलना में इस तकनीक ने बड़ी कंपनियों के लाखों डॉलर बचाए। बड़ी कंपनियों ने डाक पर बचत की, क्योंकि बिल और प्रत्यक्ष विपणन सामग्री ने इच्छित ग्राहक तक अधिक सटीक रूप से अपना रास्ता बनाया। डेटा के रूप, अर्थ और उपयोग की गुणवत्ता (मूल्य और शैंक्स, 2004) की गुणवत्ता का मूल्यांकन करने के लिए एक अन्य रूपरेखा लाक्षणिकता पर आधारित है। एक अत्यधिक सैद्धांतिक दृष्टिकोण डेटा गुणवत्ता को जटिलता से परिभाषित करने के लिए सूचना प्रणालियों की ऑन्कोलॉजिकल प्रकृति का विश्लेषण करता है (वैंड और वैंग, 1996)।

डेटा गुणवत्ता अनुसंधान की काफी मात्रा में डेटा की वांछनीय विशेषताओं (या आयाम) की विभिन्न श्रेणियों की जांच और वर्णन करना सम्मिलित है। लगभग 200 ऐसी शर्तों की पहचान की गई है और उनकी प्रकृति में बहुत कम सहमति है (क्या ये अवधारणाएं, लक्ष्य या मानदंड हैं?), उनकी परिभाषाएं या उपाय (वांग एट अल, 1993) सॉफ़्टवेयर इंजीनियर इसे सिस्टम गुणवत्ता विशेषताओं की सूची के समान समस्या के रूप में पहचान सकते हैं।

एमआईटी का एक सूचना गुणवत्ता (MITIQ) प्रोग्राम है, जिसका नेतृत्व प्रोफेसर रिचर्ड वांग करते हैं, जो बड़ी संख्या में प्रकाशनों का निर्माण करता है और इस क्षेत्र में एक महत्वपूर्ण अंतर्राष्ट्रीय सम्मेलन (सूचना गुणवत्ता पर अंतर्राष्ट्रीय सम्मेलन, आईसीआईक्यू) की मेजबानी करता है। यह प्रोग्राम हैनसेन द्वारा जीरो डिफेक्ट डेटा फ्रेमवर्क (हैनसेन, 1991) पर किए गए कार्य से विकसित हुआ।

व्यवहार में, डेटा गुणवत्ता सूचना प्रणाली की एक विस्तृत श्रृंखला से जुड़े अनुभवों के लिए एक चिंता का विषय है, जिसमें डेटा भण्डारण और व्यापारिक सूचना से लेकर ग्राहक संबंध प्रबंधन और आपूर्ति श्रृंखला प्रबंधन सम्मिलित हैं। एक उद्योग अध्ययन ने अनुमान लगाया कि डेटा गुणवत्ता की समस्याओं की अमेरिकी अर्थव्यवस्था की कुल लागत यूएस $600 बिलियन प्रति वर्ष से अधिक है (एकर्सन, 2002)। असामान्य डेटा - जिसमें अमान्य और पुरानी जानकारी सम्मिलित है - डेटा प्रविष्टि, या आंकड़ों का विस्थापन और रूपांतरण परियोजनाओं के माध्यम से - विभिन्न डेटा स्रोतों से उत्पन्न हो सकता है।[12]

2002 में, यूएसपीएस और प्राइसवाटरहाउसकूपर्स ने एक रिपोर्ट जारी की जिसमें कहा गया था कि भेजे गए सभी अमेरिकी मेलों में से 23.6 प्रतिशत को असामान्य तरीके से संबोधित किया गया है।[13]

औसत डेटाबेस में एक कारण संपर्क डेटा बहुत जल्दी पुराना हो जाता है - हर साल 45 मिलियन से अधिक अमेरिकी अपना एड्रेस बदलते हैं।[14]

वास्तव में, समस्या एक ऐसी चिंता है कि कंपनियां एक डेटा गवर्नेंस टीम की स्थापना करने लगी हैं, जिसकी निगम में एकमात्र भूमिका डेटा गुणवत्ता के लिए उत्तरदायी होना है। कुछ में[who?] संगठनों में, इस डेटा प्रक्रिया कार्य को एक बड़े विनियामक अनुपालन कार्य के भाग के रूप में स्थापित किया गया है - संगठनों के लिए डेटा/सूचना गुणवत्ता के महत्व की मान्यता सुनिश्चित करना अनिवार्य है।

डेटा गुणवत्ता के साथ समस्याएँ केवल असामान्य डेटा से उत्पन्न नहीं होती हैं; असंगत डेटा भी एक समस्या है। इमेज प्रणाली को खत्म करना और संग्रहण में डेटा को केंद्रीकृत करना उन पहलों में से एक है जो कंपनी डेटा स्थिरता सुनिश्चित करने के लिए कर सकती है।

उद्यम, वैज्ञानिक और शोधकर्ता अपने सामान्य डेटा की गुणवत्ता में सुधार के लिए डेटा क्यूरेशन समुदायों के भीतर भाग लेना प्रारम्भ कर रहे हैं।[15]

डेटा गुणवत्ता आश्वासन प्रदान करने के लिए बाजार किसी तरह जा रहा है। खराब गुणवत्ता वाले डेटा का विश्लेषण और मरम्मत करने के लिए कई विक्रेता उपकरण बनाते हैं, सेवा प्रदाता अनुबंध के आधार पर डेटा को साफ़ कर सकते हैं और सलाहकार डेटा गुणवत्ता की समस्याओं से बचने के लिए प्रक्रियाओं या प्रणालियों को ठीक करने की सलाह दे सकते हैं। अधिकांश डेटा गुणवत्ता उपकरण डेटा में सुधार के लिए उपकरणों की एक श्रृंखला प्रदान करते हैं, जिनमें निम्न में से कुछ या सभी सम्मिलित हो सकते हैं:

  1. डेटा प्रोफाइलिंग - प्रारम्भ में इसकी वर्तमान स्थिति को समझने के लिए डेटा का आकलन प्रायः मूल्य वितरण सहित करना,
  2. डेटा मानकीकरण - एक व्यवसाय नियम इंजन जो यह सुनिश्चित करता है कि डेटा मानकों के अनुरूप है
  3. जियोकोडिंग - नाम और एड्रेस डेटा के लिए। डेटा को यू.एस. और विश्वव्यापी भौगोलिक मानकों के अनुसार ठीक करता है
  4. रिकॉर्ड लिंकेज - डेटा की तुलना करने का एक तरीका ताकि समान, लेकिन कुछ अलग रिकॉर्ड को संरेखित किया जा सके। मिलान डेटा में डुप्लीकेट खोजने के लिए फ़ज़ी लॉजिक का उपयोग कर सकता है। यह प्रायः पहचानता है कि बॉब और बो एक ही व्यक्ति हो सकते हैं। उदाहरण के लिए, यह गृहस्थी का प्रबंधन करने, या एक ही पते पर पति-पत्नी के बीच संबंध खोजने में सक्षम हो सकता है। अंत में, यह प्रायः कई डेटा स्रोतों से सर्वोत्तम घटकों को लेकर और एक एकल सुपर-रिकॉर्ड का निर्माण करते हुए, नस्ल का सर्वश्रेष्ठ रिकॉर्ड बना सकता है।
  5. मॉनिटरिंग - समय के साथ डेटा की गुणवत्ता पर नज़र रखना और डेटा की गुणवत्ता में बदलाव की रिपोर्ट करना। सॉफ़्टवेयर पूर्व-निर्धारित व्यावसायिक नियमों के आधार पर विविधताओं को स्वतः ठीक भी कर सकता है।
  6. बैच और वास्तविक समय - एक बार जब डेटा अध्यापक में साफ (बैच) हो जाता है, तो कंपनियां प्रायः इसे साफ रखने के लिए प्रक्रियाओं को उद्यम अनुप्रयोगों में बनाना चाहती हैं।

कई प्रसिद्ध लेखक और स्वयंभू विशेषज्ञ हैं, जिनमें लैरी इंग्लिश शायद सबसे लोकप्रिय गुरु हैं। इसके अतिरिक्त, आईक्यू इंटरनेशनल - The इंटरनेशनल Association for Information and Data Quality की स्थापना 2004 में की गई थी ताकि इस क्षेत्र में अनुभवों और शोधकर्ताओं को केंद्र बिंदु प्रदान किया जा सके।

आईएसओ 8000 डेटा गुणवत्ता के लिए एक अंतरराष्ट्रीय मानक है।[16]


डेटा गुणवत्ता आश्वासन

डेटा गुणवत्ता आश्वासन डेटा में विसंगतियों और अन्य विसंगतियों की खोज करने के साथ-साथ डेटा सफाई करने के लिए डेटा प्रोफाइलिंग की प्रक्रिया है।[17][18] डेटा की गुणवत्ता में सुधार के लिए गतिविधियाँ (जैसे बाहरी कारकों के कारण को हटाना, लापता डेटा प्रक्षेप इत्यादि)।

इन गतिविधियों को डेटा वेयरहाउसिंग के हिस्से के रूप में या अनुप्रयोग प्रक्रिया सामग्री के मौजूदा भाग के डेटाबेस प्रशासन के हिस्से के रूप में किया जा सकता है।[19]


डेटा गुणवत्ता नियंत्रण

डेटा गुणवत्ता नियंत्रण किसी एप्लिकेशन या प्रक्रिया के लिए डेटा के उपयोग को नियंत्रित करने की प्रक्रिया है। यह प्रक्रिया डेटा गुणवत्ता आश्वासन (क्यूए) प्रक्रिया से पहले और बाद में की जाती है, जिसमें डेटा असंगतता और सुधार की खोज सम्मिलित है।

पहले इनपुट प्रतिबंधित करता है

क्यूए प्रक्रिया के बाद विश्लेषणात्मक गुणवत्ता नियंत्रण (क्यूसी) प्रक्रिया को निर्देशित करने के लिए निम्नलिखित आंकड़े एकत्र किए जाते हैं:

  • असंगति की गंभीरता
  • अधूरापन
  • शुद्धता
  • शुद्धता
  • लापता / अज्ञात

डेटा क्यूसी प्रक्रिया क्यूए प्रक्रिया से जानकारी का उपयोग विश्लेषण के लिए या किसी एप्लिकेशन या व्यावसायिक प्रक्रिया में डेटा का उपयोग करने का निर्णय लेने के लिए करती है। सामान्य उदाहरण: यदि एक डेटा क्यूसी प्रक्रिया को एड्रेस चलता है कि डेटा में बहुत अधिक त्रुटियाँ या असंगतताएँ हैं, तो यह उस डेटा को उसकी इच्छित प्रक्रिया के लिए उपयोग किए जाने से रोकता है जो व्यवधान पैदा कर सकता है। विशिष्ट उदाहरण: एक विमान पर स्वचालित पायलट सुविधा के लिए कई सेंसरों से अमान्य माप प्रदान करने से यह क्षतिग्रस्त हो सकता है। इस प्रकार, क्यूसी प्रक्रिया की स्थापना डेटा उपयोग सुरक्षा प्रदान करती है।[citation needed]

डेटा गुणवत्ता का इष्टतम उपयोग

डेटा गुणवत्ता (डीक्यू) डेटा मुद्दों के अंतराल को कवर करके डेटा प्रबंधन की अखंडता के लिए आवश्यक एक सामान्य क्षेत्र है। यह उन प्रमुख कार्यों में से एक है जो वर्तमान डेटा प्रबंधन संचालन द्वारा अनदेखे अपवादों को खोजने के लिए डेटा की निगरानी करके डेटा प्रक्रिया की सहायता करता है। डेटा गुणवत्ता जांच को इसके सुधारात्मक चरणों पर पूर्ण नियंत्रण रखने के लिए विशेषता स्तर पर परिभाषित किया जा सकता है।[citation needed]

यदि कोई संगठन अपने डीक्यू दायरे पर ध्यान नहीं देता है तो डीक्यू चेक और व्यवसाय नियम आसानी से ओवरलैप हो सकते हैं। ओवरलैप से बचने के लिए व्यावसायिक टीमों को डीक्यू के दायरे को अच्छी तरह से समझना चाहिए। यदि व्यावसायिक तर्क समान कार्यक्षमता को कवर करता है और डीक्यू के समान उद्देश्य को पूरा करता है, तो डेटा गुणवत्ता जाँच असत्य है। किसी संगठन के डीक्यू कार्यक्षेत्र को डीक्यू रणनीति में परिभाषित किया जाना चाहिए और अच्छी तरह से कार्यान्वित किया जाना चाहिए। अतीत में अपवादों के बार-बार होने के बाद कुछ डेटा गुणवत्ता जांचों को व्यावसायिक नियमों में अनुवादित किया जा सकता है।[citation needed]

नीचे डेटा प्रवाह के कुछ क्षेत्र दिए गए हैं जिन्हें बारह मास डीक्यू जाँच की आवश्यकता हो सकती है:

प्रत्येक स्रोत प्रणाली से प्रत्येक अनिवार्य विशेषता के लिए प्रविष्टि के बिंदु पर सभी डेटा पर पूर्णता और सटीक डीक्यू जांच की जा सकती है। लेन-देन के प्रारंभिक निर्माण के बाद कुछ विशेषता मान बनाए जाते हैं; ऐसे सन्दर्भों में, इन जांचों को प्रशासित करना मुश्किल हो जाता है और उस विशेषता के स्रोत की परिभाषित घटना और लेन-देन की अन्य मुख्य विशेषता शर्तों के पूरा होने के तुरंत बाद किया जाना चाहिए।

संगठन में 'संदर्भ डेटा का संदर्भ देने वाले सभी डेटा को वैधता डीक्यू जांच के माध्यम से नए या विसंगतिपूर्ण मूल्यों की खोज के लिए संदर्भ डेटा के अच्छी तरह से परिभाषित वैध मूल्यों के सेट के खिलाफ मान्य किया जा सकता है। परिणामों का उपयोग मास्टर डेटा प्रबंधन (एमडीएम) के अंतर्गत प्रशासित संदर्भ डेटा को अपडेट करने के लिए किया जा सकता है।

किसी तृतीय पक्ष से संगठन की आंतरिक टीमों को प्राप्त सभी डेटा की तृतीय पक्ष डेटा के विरुद्ध सटीकता (डीक्यू) जांच की जा सकती है। ये डीक्यू जाँच परिणाम मूल्यवान होते हैं जब उस डेटा पर प्रशासित किया जाता है जो उस डेटा के प्रवेश के बिंदु के बाद कई हॉप करता है लेकिन इससे पहले कि डेटा एंटरप्राइज़ इंटेलिजेंस के लिए अधिकृत या संग्रहीत हो जाता है।

सभी डेटा कॉलम जो मास्टर डेटा को संदर्भित करते हैं, इसकी निरंतरता की जांच के लिए मान्य किए जा सकते हैं। प्रविष्टि के बिंदु पर डेटा पर प्रशासित एक डीक्यू जाँच एमडीएम प्रक्रिया के लिए नए डेटा की खोज करती है, लेकिन प्रविष्टि के बिंदु के बाद प्रशासित एक डीक्यू जाँच स्थिरता की विफलता (अपवाद नहीं) का एड्रेस लगाती है।

जैसा कि डेटा बदलता है, कई टाइमस्टैम्प और उस टाइमस्टैम्प की स्थिति पर कब्जा कर लिया जाता है और एक परिभाषित एसएलए (सर्विस लेवल एग्रीमेंट) के खिलाफ इसके मूल्य, क्षय, परिचालन महत्व को मान्य करने के लिए एक दूसरे के साथ तुलना की जा सकती है। इस समयबद्धता डीक्यू जाँच का उपयोग डेटा मूल्य क्षय दर को कम करने और डेटा संचलन समयरेखा की नीतियों को अनुकूलित करने के लिए किया जा सकता है।

एक संगठन में जटिल तर्क को सामान्यतः कई प्रक्रियाओं में सरल तर्क में अलग किया जाता है। तर्कसंगतता ऐसे जटिल तर्क पर डीक्यू जांच मूल्यों या स्थिर अंतर्संबंधों (एकत्रित व्यावसायिक नियम) की एक विशिष्ट श्रेणी के भीतर एक तार्किक परिणाम देने के लिए जटिल लेकिन महत्वपूर्ण व्यावसायिक प्रक्रियाओं और डेटा के आउटलेयर की खोज के लिए मान्य हो सकती है, बीएयू (व्यापार सदैव की तरह) से इसका बहाव) उम्मीदें हैं, और संभावित अपवाद प्रदान कर सकते हैं जिसके परिणामस्वरूप अंततः डेटा समस्याएं हो सकती हैं। यह जाँच डेटा के बड़े हिस्से से घिरा एक सामान्य सामान्य एकत्रीकरण नियम हो सकता है या यह संगठन के मुख्य व्यवसाय से संबंधित लेनदेन की विशेषताओं के समूह पर एक जटिल तर्क हो सकता है। इस डीक्यू चेक के लिए उच्च स्तर के व्यावसायिक ज्ञान और कौशल की आवश्यकता होती है। तर्कसंगतता के मुद्दों की खोज व्यापार या डेटा प्रक्रिया या दोनों द्वारा नीति और रणनीति में बदलाव के लिए सहायता कर सकती है।

अनुरूपता जांच और अखंडता जांच को सभी व्यावसायिक जरूरतों में सम्मिलित करने की आवश्यकता नहीं है, यह सख्ती से डेटाबेस आर्किटेक्चर के विवेक के तहत है।

डेटा संचलन में ऐसे कई स्थान हैं जहाँ डीक्यू जाँच की आवश्यकता नहीं हो सकती है। उदाहरण के लिए, डेटाबेस से प्राप्त डेटा के लिए शून्य-शून्य कॉलम पर पूर्णता और सटीकता के लिए डीक्यू जांच अनावश्यक है। इसी तरह, डेटा को उसकी सटीकता के लिए उस समय के संबंध में मान्य किया जाना चाहिए जब डेटा को अलग-अलग स्रोतों से जोड़ा जाता है। हालाँकि, यह एक व्यावसायिक नियम है और डीक्यू के दायरे में नहीं होना चाहिए।[citation needed]

दुर्भाग्य से, एक सॉफ्टवेयर विकास के नजरिए से, डीक्यू को प्रायः एक गैर-कार्यात्मक आवश्यकता के रूप में देखा जाता है। और इस तरह, प्रमुख डेटा गुणवत्ता जांच/प्रक्रियाओं को अंतिम सॉफ़्टवेयर समाधान में सम्मिलित नहीं किया जाता है। हेल्थकेयर, पहनने योग्य तकनीक या बॉडी एरिया नेटवर्क के भीतर, बड़ी मात्रा में डेटा उत्पन्न होता है।[20] डेटा की गुणवत्ता सुनिश्चित करने के लिए आवश्यक विवरण का स्तर अत्यंत उच्च है और प्रायः इसे कम करके आंका जाता है। यह अधिकांश एमहेल्थ ऐप्स, इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड और अन्य स्वास्थ्य संबंधी सॉफ़्टवेयर समाधानों के लिए भी सही है। हालाँकि, कुछ ओपन सोर्स टूल मौजूद हैं जो डेटा गुणवत्ता की जांच करते हैं।[21] इसका प्राथमिक कारण, सम्मिलित अतिरिक्त लागत से उपजा है, सॉफ्टवेयर आर्किटेक्चर के भीतर उच्च स्तर की जटिलता को जोड़ा गया है।

स्वास्थ्य डेटा सुरक्षा और गोपनीयता

स्वास्थ्य, या एमहेल्थ में मोबाइल उपकरणों का उपयोग, डेटा गुणवत्ता को सीधे प्रभावित करने वाले तरीकों से स्वास्थ्य डेटा सुरक्षा और गोपनीयता के लिए नई चुनौतियाँ पैदा करता है।[2]एमहेल्थ निम्न और मध्यम आय वाले देशों में स्वास्थ्य सेवाओं के वितरण के लिए एक तेजी से महत्वपूर्ण रणनीति है।[22] मोबाइल फोन और टैबलेट का उपयोग निकट वास्तविक समय में डेटा के संग्रह, रिपोर्टिंग और विश्लेषण के लिए किया जाता है। हालाँकि, इन मोबाइल उपकरणों का उपयोग सामान्यतः व्यक्तिगत गतिविधियों के लिए किया जाता है, साथ ही, उन्हें सुरक्षा संकटों के प्रति अधिक संवेदनशील बना देता है जिससे डेटा उल्लंघन हो सकता है। उचित सुरक्षा उपायों के बिना, यह व्यक्तिगत उपयोग स्वास्थ्य डेटा की गुणवत्ता, सुरक्षा और गोपनीयता को संकट में डाल सकता है।[23]


सार्वजनिक स्वास्थ्य में डेटा की गुणवत्ता

हाल के वर्षों में डेटा गुणवत्ता सार्वजनिक स्वास्थ्य कार्यक्रमों का एक प्रमुख केंद्र बन गया है, विशेष रूप से जवाबदेही की मांग बढ़ने के कारण[24] एड्स, क्षय रोग और मलेरिया जैसी बीमारियों के खिलाफ लड़ाई से संबंधित महत्वाकांक्षी लक्ष्यों की दिशा में काम मजबूत निगरानी और मूल्यांकन प्रणालियों पर आधारित होना चाहिए जो प्रोग्राम कार्यान्वयन से संबंधित गुणवत्तापूर्ण डेटा तैयार करते हैं।[25] ये प्रोग्राम, और प्रोग्राम लेखा परीक्षक, डेटा की गुणवत्ता निर्धारित करने की प्रक्रिया को मानकीकृत और सुव्यवस्थित करने के लिए तेजी से उपकरणों की तलाश करते हैं,[26] रिपोर्ट किए गए डेटा की गुणवत्ता को सत्यापित करें, और संकेतकों के लिए अंतर्निहित डेटा प्रबंधन और रिपोर्टिंग सिस्टम का आकलन करें।[27] एक उदाहरण डब्ल्यूएचओ और अपवर्तक मूल्यांकन का डेटा गुणवत्ता समीक्षा उपकरण है[28] डब्ल्यूएचओ, ग्लोबल फंड, जीएवीआई, और अपवर्तक मूल्यांकन ने विभिन्न बीमारियों और कार्यक्रमों में डेटा गुणवत्ता आश्वासन के लिए एक सुसंगत दृष्टिकोण तैयार करने के लिए सहयोग किया है।[29]


खुला डेटा गुणवत्ता

विकिपीडिया, विकिडेटा, डीबीपीडिया और अन्य जैसे खुले डेटा स्रोतों में डेटा गुणवत्ता के विश्लेषण के लिए समर्पित कई वैज्ञानिक कार्य हैं। विकिपीडिया के मामले में, गुणवत्ता विश्लेषण पूरे लेख से संबंधित हो सकता है[30] गुणवत्ता की मॉडलिंग विभिन्न तरीकों से की जाती है। उनमें से कुछ यंत्र अधिगम एल्गोरिदम का उपयोग करते हैं, जिनमें यादृच्छिक ट्री भी सम्मिलित है,[31] समर्थन वेक्टर यंत्र,[32] और दूसरे विकिडेटा, डीबीपीडिया और अन्य लिंक्ड ओपन डेटा स्रोतों में डेटा गुणवत्ता का आकलन करने के तरीके अलग-अलग हैं।[33]


व्यावसायिक संघ

आईक्यू इंटरनेशनल- सूचना और डेटा गुणवत्ता के लिए अंतर्राष्ट्रीय संघ[34] आईक्यू इंटरनेशनल 2004 में गठित एक गैर-लाभकारी, विक्रेता तटस्थ, पेशेवर संघ है, जो सूचना और डेटा गुणवत्ता पेशे के निर्माण के लिए समर्पित है।

ईसीसीएमए (इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन)

इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन (ईसीसीएमए) एक सदस्य-आधारित, अंतर्राष्ट्रीय गैर-लाभकारी संघ है जो अंतर्राष्ट्रीय मानकों के कार्यान्वयन के माध्यम से डेटा की गुणवत्ता में सुधार के लिए प्रतिबद्ध है। ईसीसीएमए आईइसओ 8000 और आईइसओ 22745 के विकास के लिए वर्तमान प्रोजेक्ट लीडर है, जो क्रमशः डेटा गुणवत्ता और सामग्री और सेवा मास्टर डेटा के आदान-प्रदान के लिए अंतर्राष्ट्रीय मानक हैं। ईसीसीएमए दुनिया भर में डेटा गुणवत्ता और डेटा प्रक्रिया पर विषय विशेषज्ञों के बीच सहयोग के लिए एक मंच प्रदान करता है ताकि वैश्विक, खुले मानक शब्दकोशों का निर्माण और रखरखाव किया जा सके जो स्पष्ट रूप से जानकारी को लेबल करने के लिए उपयोग किए जाते हैं। लेबल के इन शब्दकोशों का अस्तित्व बिना अर्थ खोए सूचना को एक कंप्यूटर सिस्टम से दूसरे कंप्यूटर में पारित करने की अनुमति देता है।[35]


यह भी देखें

संदर्भ

  1. Redman, Thomas C. (30 December 2013). Data Driven: Profiting from Your Most Important Business Asset. Harvard Business Press. ISBN 978-1-4221-6364-1.
  2. 2.0 2.1 Fadahunsi, Kayode Philip; Akinlua, James Tosin; O’Connor, Siobhan; Wark, Petra A; Gallagher, Joseph; Carroll, Christopher; Majeed, Azeem; O’Donoghue, John (March 2019). "ई-स्वास्थ्य में सूचना गुणवत्ता ढांचे की एक व्यवस्थित समीक्षा और गुणात्मक संश्लेषण के लिए प्रोटोकॉल". BMJ Open. 9 (3): e024722. doi:10.1136/bmjopen-2018-024722. ISSN 2044-6055. PMC 6429947. PMID 30842114.
  3. Fadahunsi, Kayode Philip; O'Connor, Siobhan; Akinlua, James Tosin; Wark, Petra A.; Gallagher, Joseph; Carroll, Christopher; Car, Josip; Majeed, Azeem; O'Donoghue, John (2021-05-17). "Information Quality Frameworks for Digital Health Technologies: Systematic Review". Journal of Medical Internet Research (in English). 23 (5): e23479. doi:10.2196/23479. PMC 8167621. PMID 33835034.
  4. Smallwood, R.F. (2014). Information Governance: Concepts, Strategies, and Best Practices. John Wiley and Sons. p. 110. ISBN 9781118218303. Archived from the original on 2020-07-30. Retrieved 2020-04-18. एक मानकीकृत डेटा गवर्नेंस प्रोग्राम होने का अर्थ है दूषित या डुप्लिकेट डेटा को साफ करना और उपयोगकर्ताओं को लाइन-ऑफ़-बिज़नेस सॉफ़्टवेयर अनुप्रयोगों के आधार के रूप में और व्यावसायिक इंटेलिजेंस (BI) अनुप्रयोगों में निर्णय समर्थन विश्लेषण के लिए स्वच्छ, सटीक डेटा प्रदान करना।
  5. 5.0 5.1 5.2 5.3 5.4 Fürber, C. (2015). "3. Data Quality". सिमेंटिक टेक्नोलॉजीज के साथ डेटा गुणवत्ता प्रबंधन. Springer. pp. 20–55. ISBN 9783658122249. Archived from the original on 31 July 2020. Retrieved 18 April 2020.
  6. 6.0 6.1 Herzog, T.N.; Scheuren, F.J.; Winkler, W.E. (2007). "Chapter 2: What is data quality and why should we care?". डेटा गुणवत्ता और रिकॉर्ड लिंकेज तकनीकें. Springer Science & Business Media. pp. 7–15. ISBN 9780387695020. Archived from the original on 31 July 2020. Retrieved 18 April 2020.{{cite book}}: CS1 maint: multiple names: authors list (link)
  7. 7.0 7.1 Fleckenstein, M.; Fellows, L. (2018). "Chapter 11: Data Quality". आधुनिक डेटा रणनीति. Springer. pp. 101–120. ISBN 9783319689920. Archived from the original on 31 July 2020. Retrieved 18 April 2020.{{cite book}}: CS1 maint: multiple names: authors list (link)
  8. 8.0 8.1 Mahanti, R. (2019). "Chapter 1: Data, Data Quality, and Cost of Poor Data Quality". Data Quality: Dimensions, Measurement, Strategy, Management, and Governance. Quality Press. pp. 5–6. ISBN 9780873899772. Archived from the original on 23 November 2020. Retrieved 18 April 2020.
  9. International Organization for Standardization (September 2015). "आईएसओ 9000: 2015 (एन) गुणवत्ता प्रबंधन प्रणाली - बुनियादी बातों और शब्दावली". International Organization for Standardization. Archived from the original on 19 May 2020. Retrieved 18 April 2020.
  10. NIST Big Data Public Working Group, Definitions and Taxonomies Subgroup (October 2019). "NIST Big Data Interoperability Framework: Volume 4, Security and Privacy" (PDF). NIST Special Publication 1500-4r2 (3rd ed.). National Institute of Standards and Technology. doi:10.6028/NIST.SP.1500-4r2. Archived (PDF) from the original on 9 May 2020. Retrieved 18 April 2020. वैधता का तात्पर्य इसके अनुप्रयोग के लिए डेटा की उपयोगिता, सटीकता और शुद्धता से है। परंपरागत रूप से, इसे डेटा गुणवत्ता के रूप में संदर्भित किया गया है।
  11. 11.0 11.1 Bian, Jiang; Lyu, Tianchen; Loiacono, Alexander; Viramontes, Tonatiuh Mendoza; Lipori, Gloria; Guo, Yi; Wu, Yonghui; Prosperi, Mattia; George, Thomas J; Harle, Christopher A; Shenkman, Elizabeth A (2020-12-09). "वास्तविक दुनिया डेटा के युग में एक व्यवस्थित स्कोपिंग समीक्षा के माध्यम से एक राष्ट्रीय नैदानिक ​​​​डेटा अनुसंधान नेटवर्क में डेटा गुणवत्ता मूल्यांकन के अभ्यास का आकलन करना". Journal of the American Medical Informatics Association (in English). 27 (12): 1999–2010. doi:10.1093/jamia/ocaa245. ISSN 1527-974X. PMC 7727392. PMID 33166397. {{cite journal}}: zero width space character in |title= at position 97 (help)
  12. "दायित्व और उत्तोलन - डेटा गुणवत्ता के लिए एक मामला". Information Management. August 2006. Archived from the original on 2011-01-27. Retrieved 2010-06-25.
  13. "मेल-ऑर्डर और रिटेल के लिए पता प्रबंधन". Directions Magazine. Archived from the original on 2005-04-28. Retrieved 2010-06-25.
  14. "USPS | PostalPro" (PDF). Archived (PDF) from the original on 2010-02-15. Retrieved 2010-06-25.
  15. E. Curry, A. Freitas, and S. O'Riáin, "The Role of Community-Driven Data Curation for Enterprises", Archived 2012-01-23 at the Wayback Machine in Linking Enterprise Data, D. Wood, Ed. Boston, Mass.: Springer US, 2010, pp. 25-47.
  16. "ISO/TS 8000-1:2011 Data quality -- Part 1: Overview". International Organization for Standardization. Archived from the original on 21 December 2016. Retrieved 8 December 2016.
  17. "Can you trust the quality of your data?". spotlessdata.com. Archived from the original on 2017-02-11.
  18. "What is Data Cleansing? - Experian Data Quality". 13 February 2015. Archived from the original on 11 February 2017. Retrieved 9 February 2017.
  19. "Lecture 23 Data Quality Concepts Tutorial – Data Warehousing". Watch Free Video Training Online. Archived from the original on 2016-12-21. Retrieved 8 December 2016.
  20. O'Donoghue, John, and John Herbert. "Data management within mHealth environments: Patient sensors, mobile devices, and databases". Journal of Data and Information Quality (JDIQ) 4.1 (2012): 5.
  21. Huser, Vojtech; DeFalco, Frank J; Schuemie, Martijn; Ryan, Patrick B; Shang, Ning; Velez, Mark; Park, Rae Woong; Boyce, Richard D; Duke, Jon; Khare, Ritu; Utidjian, Levon; Bailey, Charles (30 November 2016). "रोगी-स्तरीय क्लिनिकल डेटासेट के लिए डेटा गुणवत्ता उपकरण का मल्टीसाइट मूल्यांकन". eGEMs. 4 (1): 24. doi:10.13063/2327-9214.1239. PMC 5226382. PMID 28154833.
  22. MEASURE Evaluation. (2017) Improving data quality in mobile community-based health information systems: Guidelines for design and implementation (tr-17-182). Chapel Hill, NC: MEASURE Evaluation, University of North Carolina. Retrieved from https://www.measureevaluation.org/resources/publications/tr-17-182 Archived 2017-08-08 at the Wayback Machine
  23. Wambugu, S. & Villella, C. (2016). mHealth for health information systems in low- and middle-income countries: Challenges and opportunities in data quality, privacy, and security (tr-16-140). Chapel Hill, NC: MEASURE Evaluation, University of North Carolina. Retrieved from https://www.measureevaluation.org/resources/publications/tr-16-140 Archived 2017-08-08 at the Wayback Machine
  24. MEASURE Evaluation. (2016) Data quality for monitoring and evaluation systems (fs-16-170). Chapel Hill, NC: MEASURE Evaluation, University of North Carolina. Retrieved from https://www.measureevaluation.org/resources/publications/fs-16-170-en Archived 2017-08-08 at the Wayback Machine
  25. MEASURE Evaluation. (2016). Routine health information systems: A curriculum on basic concepts and practice - Syllabus (sr-16-135a). Chapel Hill, NC: MEASURE Evaluation, University of North Carolina. Retrieved from https://www.measureevaluation.org/resources/publications/sr-16-135a Archived 2017-08-08 at the Wayback Machine
  26. "डेटा गुणवत्ता आश्वासन उपकरण". MEASURE Evaluation. Archived from the original on 8 August 2017. Retrieved 8 August 2017.
  27. "Module 4: RHIS data quality". MEASURE Evaluation. Archived from the original on 8 August 2017. Retrieved 8 August 2017.
  28. MEASURE Evaluation. "आधार सामग्री की गुणवत्ता". MEASURE Evaluation. Archived from the original on 8 August 2017. Retrieved 8 August 2017.
  29. The World Health Organization (WHO). (2009). Monitoring and evaluation of health systems strengthening. Geneva, Switzerland: WHO. Retrieved from http://www.who.int/healthinfo/HSS_MandE_framework_Nov_2009.pdf Archived 2017-08-28 at the Wayback Machine
  30. Mesgari, Mostafa; Chitu, Okoli; Mehdi, Mohamad; Finn Årup, Nielsen; Lanamäki, Arto (2015). ""The Sum of All Human Knowledge": A Systematic Review of Scholarly Research on the Content of Wikipedia" (PDF). Journal of the Association for Information Science and Technology. 66 (2): 219–245. doi:10.1002/asi.23172. S2CID 218071987. Archived (PDF) from the original on 2020-05-10. Retrieved 2020-01-21.
  31. Warncke-Wang, Morten; Cosley, Dan; Riedl, John (2013). Tell me more: An actionable quality model for wikipedia. doi:10.1145/2491055.2491063. ISBN 9781450318525. S2CID 18523960. {{cite book}}: |journal= ignored (help)
  32. Hasan Dalip, Daniel; André Gonçalves, Marcos; Cristo, Marco; Calado, Pável (2009). "Automatic quality assessment of content created collaboratively by web communities". Proceedings of the 2009 joint international conference on Digital libraries - JCDL '09. p. 295. doi:10.1145/1555400.1555449. ISBN 9781605583228. S2CID 14421291.
  33. Färber, Michael; Bartscherer, Frederic; Menne, Carsten; Rettinger, Achim (2017-11-30). "DBpedia, Freebase, OpenCyc, Wikidata, और YAGO की लिंक्ड डेटा गुणवत्ता". Semantic Web. 9 (1): 77–129. doi:10.3233/SW-170275. Archived from the original on 2018-01-22.
  34. "आईक्यू इंटरनेशनल - सूचना और डेटा गुणवत्ता के लिए अंतर्राष्ट्रीय संघ". IQ International website. Archived from the original on 2017-05-10. Retrieved 2016-08-05.
  35. "घर". ECCMA. Archived from the original on 2018-08-19. Retrieved 2018-10-03.


अग्रिम पठन

  • Baškarada, S; Koronios, A (2014). "A Critical Success Factors Framework for Information Quality Management". Information Systems Management. 31 (4): 1–20. doi:10.1080/10580530.2014.958023. S2CID 33018618.
  • Baamann, Katharina, "Data Quality Aspects of Revenue Assurance", Article
  • Eckerson, W. (2002) "Data Warehousing Special Report: Data quality and the bottom line", Article
  • Ivanov, K. (1972) "Quality-control of information: On the concept of accuracy of information in data banks and in management information systems". The University of Stockholm and The Royal Institute of Technology. Doctoral dissertation.
  • Hansen, M. (1991) Zero Defect Data, एमआईटी. Masters thesis [1]
  • Kahn, B., Strong, D., Wang, R. (2002) "Information Quality Benchmarks: Product and Service Performance," Communications of the ACM, April 2002. pp. 184–192. Article
  • Price, R. and Shanks, G. (2004) A Semiotic Information Quality Framework, Proc. IFIP इंटरनेशनल Conference on Decision Support Systems (DSS2004): Decision Support in an Uncertain and Complex World, Prato. Article
  • Redman, T. C. (2008) Data Driven: Profiting From Our Most Important Business Asset
  • Wand, Y. and Wang, R. (1996) "Anchoring Data Quality Dimensions in Ontological Foundations," Communications of the ACM, November 1996. pp. 86–95. Article
  • Wang, R., Kon, H. & Madnick, S. (1993), Data Quality Requirements Analysis and Modelling, Ninth इंटरनेशनल Conference of Data Engineering, Vienna, Austria. Article
  • Fournel Michel, Accroitre la qualité et la valeur des données de vos clients, éditions Publibook, 2007. ISBN 978-2-7483-3847-8.
  • Daniel F., Casati F., Palpanas T., Chayka O., Cappiello C. (2008) "Enabling Better Decisions through Quality-aware Reports", इंटरनेशनल Conference on Information Quality (आईसीआईक्यू), एमआईटी. Article
  • Jack E. Olson (2003), "Data Quality: The Accuracy dimension", Morgan Kaufmann Publishers
  • Woodall P., Oberhofer M., and Borek A. (2014), "A Classification of Data Quality Assessment and Improvement Methods". इंटरनेशनल Journal of Information Quality 3 (4), 298–321. doi:10.1504/ijiq.2014.068656.
  • Woodall, P., Borek, A., and Parlikad, A. (2013), "Data Quality Assessment: The Hybrid Approach." Information & Management 50 (7), 369–382.


बाहरी संबंध