डेटा गुणवत्ता: Difference between revisions
m (Abhishek moved page आधार सामग्री की गुणवत्ता to डेटा गुणवत्ता without leaving a redirect) |
m (added Category:Vigyan Ready using HotCat) |
||
| Line 190: | Line 190: | ||
[[Category: Machine Translated Page]] | [[Category: Machine Translated Page]] | ||
[[Category:Created On 21/03/2023]] | [[Category:Created On 21/03/2023]] | ||
[[Category:Vigyan Ready]] | |||
Revision as of 16:16, 6 April 2023
डेटा गुणवत्ता गुणात्मक डेटा या सूचना के मात्रात्मक डेटा टुकड़ों या खण्डों की स्थिति को संदर्भित करती है। डेटा गुणवत्ता की कई परिभाषाएँ हैं, लेकिन डेटा को सामान्यतः उच्च गुणवत्ता वाला माना जाता है यदि यह व्यावसायिक संचालन, निर्णय लेने और योजना में इसके इच्छित उपयोग के लिए उपयुक्त है।[1][2][3] इसके अतिरिक्त, डेटा को उच्च गुणवत्ता वाला माना जाता है यदि यह वास्तविक दुनिया के निर्माण का सही ढंग से प्रतिनिधित्व करता है जिससे यह संदर्भित होता है। इसके अतिरिक्त, इन परिभाषाओं के अतिरिक्त, जैसे-जैसे डेटा स्रोतों की संख्या बढ़ती है, किसी विशेष बाहरी उद्देश्य के लिए उपयुक्तता की परवाह किए बिना, आंतरिक डेटा स्थिरता का प्रश्न महत्वपूर्ण हो जाता है। डेटा गुणवत्ता पर लोगों के विचार प्रायः असहमत हो सकते हैं, यहां तक कि समान उद्देश्य के लिए उपयोग किए गए डेटा के समान सेट पर चर्चा करते समय भी जब ऐसा होता है, तो डेटा गुणवत्ता के लिए स्वीकृत परिभाषाओं और मानकों को बनाने के लिए सामग्री संचालन का उपयोग किया जाता है। ऐसे सन्दर्भों में, डेटा गुणवत्ता सुनिश्चित करने के लिए मानकीकरण सहित डेटा सफाई की आवश्यकता हो सकती है।[4]
परिभाषाएँ
डेटा की गुणवत्ता को परिभाषित करना मुश्किल है क्योंकि कई संदर्भों में डेटा का उपयोग किया जाता है, साथ ही अंतिम उपयोगकर्ताओं, उत्पादकों और डेटा के संरक्षकों के बीच अलग-अलग दृष्टिकोण होते हैं।[5]
उपभोक्ता दृष्टिकोण से, डेटा की गुणवत्ता है:[5]
- डेटा जो डेटा उपभोक्ताओं द्वारा उपयोग के लिए उपयुक्त हैं
- डेटा मीटिंग या उपभोक्ता अपेक्षाओं से अधिक
- डेटा जो इसके इच्छित उपयोग की आवश्यकताओं को पूरा करता है
व्यावसायिक दृष्टिकोण से, डेटा गुणवत्ता है:
- डेटा जो अपने इच्छित संचालन, निर्णय लेने और अन्य भूमिकाओं में 'उपयोग के लिए उपयुक्त' हैं या जो 'मानकों के अनुरूप' मान प्रदर्शित करते हैं, ताकि उपयोग के लिए उपयुक्तता प्राप्त की जा सके[6]
- डेटा जो संचालन, निर्णय लेने और योजना में उनके इच्छित उपयोग के लिए उपयुक्त हैं[7]
- किसी उद्यम के बताए गए व्यवसाय, प्रणाली और तकनीकी आवश्यकताओं को पूरा करने के लिए डेटा की क्षमता[8]
मानक-आधारित दृष्टिकोण से, डेटा गुणवत्ता है:
- वह डिग्री जिस तक किसी वस्तु (डेटा) की अंतर्निहित विशेषताओं (गुणवत्ता आयामों) का एक सेट आवश्यकताओं को पूरा करता है[9][5], इसके आवेदन के लिए डेटा की उपयोगिता, सटीकता और शुद्धता की प्रमाणता सिद्ध करता है।[10]
तार्किक रूप से, इन सभी सन्दर्भों में, डेटा की गुणवत्ता डेटा के किसी विशेष सेट की वास्तविक स्थिति की वांछित स्थिति से तुलना है, वांछित स्थिति को विशेष रूप से उपयोग के लिए उपयुक्त के रूप में संदर्भित किया जाता है, उपभोक्ता अपेक्षाओं को पूरा करता है, दोष से मुक्त, या आवश्यकताओं को पूरा करना, ये अपेक्षाएं, विनिर्देश और आवश्यकताएं सामान्यतः एक या अधिक व्यक्तियों या समूहों, मानक संगठनों, कानूनों और विनियमों, व्यावसायिक नीतियों या सॉफ़्टवेयर विकास नीतियों द्वारा परिभाषित की जाती हैं।[5]
डेटा गुणवत्ता के आयाम
अधिक गहराई से देखने पर, उन अपेक्षाओं, विशिष्टताओं और आवश्यकताओं को डेटा की विशेषताओं या आयामों के संदर्भ में बताया गया है, जैसे:[5][6][7][8][11]
- पहुंच या उपलब्धता
- सटीकता या शुद्धता
- तुलना
- पूर्णता या व्यापकता
- संगति, सुसंगतता या स्पष्टता
- विश्वसनीयता, विश्वसनीयता, या प्रतिष्ठा
- लचीलापन
- व्यावहारिकता
- प्रासंगिकता, प्रासंगिकता, या उपयोगिता
- समयबद्धता या विलंबता
- अद्वितीयता
- वैधता या तर्कशीलता
साहित्य की एक व्यवस्थित स्कोपिंग समीक्षा बताती है कि वास्तविक विश्व डेटा के साथ डेटा गुणवत्ता आयाम और तरीके साहित्य में सुसंगत नहीं हैं, और परिणामस्वरूप इन डेटा की जटिल और विषम प्रकृति के कारण गुणवत्ता मूल्यांकन चुनौतीपूर्ण हैं।[11]
इतिहास
सस्ते कंप्यूटर डेटा भंडारण के उदय से पहले, बड़े पैमाने पर मेनफ़्रेम कंप्यूटर कंप्यूटरों का उपयोग वितरण सेवाओं के लिए नाम और एड्रेस डेटा बनाए रखने के लिए किया जाता था। ऐसा इसलिए था ताकि मेल को उसके गंतव्य तक ठीक से भेजा जा सके। मेनफ्रेम ने नाम और पते के डेटा में सामान्य असामान्य वर्तनी और टाइपोग्राफ़िकल त्रुटियों को ठीक करने के साथ-साथ उन ग्राहकों को ट्रैक करने के लिए व्यावसायिक नियमों का उपयोग किया जो चले गए, मर गए, जेल गए, विवाहित, तलाकशुदा, या अन्य जीवन-परिवर्तनकारी घटनाओं का अनुभव किया। सरकारी एजेंसियों ने नेशनल चेंज ऑफ़ एड्रेस रजिस्ट्री संयुक्त राज्य डाक सेवा (एनसीओए) के साथ ग्राहक डेटा को क्रॉस-रेफ़रेंस करने के लिए कुछ सेवा कंपनियों को डाक डेटा उपलब्ध कराना प्रारम्भ किया। ग्राहक डेटा के मैन्युअल सुधार की तुलना में इस तकनीक ने बड़ी कंपनियों के लाखों डॉलर बचाए। बड़ी कंपनियों ने डाक पर बचत की, क्योंकि बिल और प्रत्यक्ष विपणन सामग्री ने इच्छित ग्राहक तक अधिक सटीक रूप से अपना रास्ता बनाया। प्रारंभ में एक सेवा के रूप में बेचा गया, डेटा गुणवत्ता निगमों की सीमाओं के अंदर चली गई, क्योंकि कम लागत वाली और शक्तिशाली सर्वर तकनीक उपलब्ध हो गई।[citation needed]
मार्केटिंग पर जोर देने वाली कंपनियां प्रायः अपने गुणवत्ता प्रयासों को नाम और पते की जानकारी पर केंद्रित करती हैं, लेकिन डेटा गुणवत्ता को मान्यता दी जाती है[by whom?] सभी प्रकार के डेटा की एक महत्वपूर्ण संपत्ति के रूप में डेटा गुणवत्ता के सिद्धांतों को आपूर्ति श्रृंखला डेटा, लेन-देन संबंधी डेटा और पाए जाने वाले लगभग हर दूसरे श्रेणी के डेटा पर लागू किया जा सकता है। अंत में, यह प्रायः कई डेटा स्रोतों से सर्वोत्तम घटकों को लेकर और एक एकल सुपर-रिकॉर्ड का निर्माण करते हुए, नस्ल का सर्वश्रेष्ठ रिकॉर्ड बना सकता है। उदाहरण के लिए, आपूर्ति श्रृंखला डेटा को एक निश्चित मानक के अनुरूप बनाने से संगठन के लिए मूल्य होता है: 1) समान लेकिन कुछ अलग स्टॉक के ओवरस्टॉकिंग से बचना; 2) असत्य स्टॉक-आउट से बचना; 3) वॉल्यूम छूट पर बातचीत करने के लिए विक्रेता खरीद की समझ में सुधार; और 4) एक बड़े संगठन में स्टॉकिंग और शिपिंग भागों में रसद लागत से बचना।[citation needed]
महत्वपूर्ण अनुसंधान प्रयासों वाली कंपनियों के लिए, डेटा की गुणवत्ता में अनुसंधान विधियों के लिए विकासशील प्रोटोकॉल (प्राकृतिक विज्ञान) सम्मिलित हो सकते हैं, माप त्रुटि को कम करना, डेटा की सीमा जाँच, क्रॉस सारणीकरण, मॉडलिंग और बाहरी पहचान, डेटा अखंडता की पुष्टि करना आदि सम्मिलित हो सकते हैं।[citation needed]
सम्मिलित
डेटा गुणवत्ता को समझने के लिए कई कुछ सैद्धांतिक ढांचे हैं। अमेरिकी व्यावहारिकता से प्रभावित एक प्रणाली-सैद्धांतिक दृष्टिकोण सूचना गुणवत्ता को सम्मिलित करने के लिए डेटा गुणवत्ता की परिभाषा का विस्तार करता है, और विज्ञान के सिद्धांत (इवानोव, 1972) के आधार पर सटीकता और सटीकता के मौलिक आयामों की समावेशिता पर जोर देता है। शून्य दोष डेटा (हैनसेन, 1991) करार दिया गया एक ढांचा, डेटा गुणवत्ता के लिए सांख्यिकीय प्रक्रिया नियंत्रण के सिद्धांतों को अपनाता है। एक अन्य ढांचा उत्पाद परिप्रेक्ष्य (विनिर्देशों के अनुरूप) और ग्राहक सेवा परिप्रेक्ष्य (उपभोक्ताओं की अपेक्षाओं को पूरा करना) को एकीकृत करना चाहता है (क्हान एट अल 2002)। ग्राहक डेटा के मैन्युअल सुधार की तुलना में इस तकनीक ने बड़ी कंपनियों के लाखों डॉलर बचाए। बड़ी कंपनियों ने डाक पर बचत की, क्योंकि बिल और प्रत्यक्ष विपणन सामग्री ने इच्छित ग्राहक तक अधिक सटीक रूप से अपना रास्ता बनाया। डेटा के रूप, अर्थ और उपयोग की गुणवत्ता (मूल्य और शैंक्स, 2004) की गुणवत्ता का मूल्यांकन करने के लिए एक अन्य रूपरेखा लाक्षणिकता पर आधारित है। एक अत्यधिक सैद्धांतिक दृष्टिकोण डेटा गुणवत्ता को जटिलता से परिभाषित करने के लिए सूचना प्रणालियों की ऑन्कोलॉजिकल प्रकृति का विश्लेषण करता है (वैंड और वैंग, 1996)।
डेटा गुणवत्ता अनुसंधान की काफी मात्रा में डेटा की वांछनीय विशेषताओं (या आयाम) की विभिन्न श्रेणियों की जांच और वर्णन करना सम्मिलित है। लगभग 200 ऐसी शर्तों की पहचान की गई है और उनकी प्रकृति में बहुत कम सहमति है (क्या ये अवधारणाएं, लक्ष्य या मानदंड हैं?), उनकी परिभाषाएं या उपाय (वांग एट अल, 1993) सॉफ़्टवेयर इंजीनियर इसे सिस्टम गुणवत्ता विशेषताओं की सूची के समान समस्या के रूप में पहचान सकते हैं।
एमआईटी का एक सूचना गुणवत्ता (MITIQ) प्रोग्राम है, जिसका नेतृत्व प्रोफेसर रिचर्ड वांग करते हैं, जो बड़ी संख्या में प्रकाशनों का निर्माण करता है और इस क्षेत्र में एक महत्वपूर्ण अंतर्राष्ट्रीय सम्मेलन (सूचना गुणवत्ता पर अंतर्राष्ट्रीय सम्मेलन, आईसीआईक्यू) की मेजबानी करता है। यह प्रोग्राम हैनसेन द्वारा जीरो डिफेक्ट डेटा फ्रेमवर्क (हैनसेन, 1991) पर किए गए कार्य से विकसित हुआ।
व्यवहार में, डेटा गुणवत्ता सूचना प्रणाली की एक विस्तृत श्रृंखला से जुड़े अनुभवों के लिए एक चिंता का विषय है, जिसमें डेटा भण्डारण और व्यापारिक सूचना से लेकर ग्राहक संबंध प्रबंधन और आपूर्ति श्रृंखला प्रबंधन सम्मिलित हैं। एक उद्योग अध्ययन ने अनुमान लगाया कि डेटा गुणवत्ता की समस्याओं की अमेरिकी अर्थव्यवस्था की कुल लागत यूएस $600 बिलियन प्रति वर्ष से अधिक है (एकर्सन, 2002)। असामान्य डेटा - जिसमें अमान्य और पुरानी जानकारी सम्मिलित है - डेटा प्रविष्टि, या आंकड़ों का विस्थापन और रूपांतरण परियोजनाओं के माध्यम से - विभिन्न डेटा स्रोतों से उत्पन्न हो सकता है।[12]
2002 में, यूएसपीएस और प्राइसवाटरहाउसकूपर्स ने एक रिपोर्ट जारी की जिसमें कहा गया था कि भेजे गए सभी अमेरिकी मेलों में से 23.6 प्रतिशत को असामान्य तरीके से संबोधित किया गया है।[13]
औसत डेटाबेस में एक कारण संपर्क डेटा बहुत जल्दी पुराना हो जाता है - हर साल 45 मिलियन से अधिक अमेरिकी अपना एड्रेस बदलते हैं।[14]
वास्तव में, समस्या एक ऐसी चिंता है कि कंपनियां एक डेटा गवर्नेंस टीम की स्थापना करने लगी हैं, जिसकी निगम में एकमात्र भूमिका डेटा गुणवत्ता के लिए उत्तरदायी होना है। कुछ में[who?] संगठनों में, इस डेटा प्रक्रिया कार्य को एक बड़े विनियामक अनुपालन कार्य के भाग के रूप में स्थापित किया गया है - संगठनों के लिए डेटा/सूचना गुणवत्ता के महत्व की मान्यता सुनिश्चित करना अनिवार्य है।
डेटा गुणवत्ता के साथ समस्याएँ केवल असामान्य डेटा से उत्पन्न नहीं होती हैं; असंगत डेटा भी एक समस्या है। इमेज प्रणाली को खत्म करना और संग्रहण में डेटा को केंद्रीकृत करना उन पहलों में से एक है जो कंपनी डेटा स्थिरता सुनिश्चित करने के लिए कर सकती है।
उद्यम, वैज्ञानिक और शोधकर्ता अपने सामान्य डेटा की गुणवत्ता में सुधार के लिए डेटा क्यूरेशन समुदायों के भीतर भाग लेना प्रारम्भ कर रहे हैं।[15]
डेटा गुणवत्ता आश्वासन प्रदान करने के लिए बाजार किसी तरह जा रहा है। खराब गुणवत्ता वाले डेटा का विश्लेषण और मरम्मत करने के लिए कई विक्रेता उपकरण बनाते हैं, सेवा प्रदाता अनुबंध के आधार पर डेटा को साफ़ कर सकते हैं और सलाहकार डेटा गुणवत्ता की समस्याओं से बचने के लिए प्रक्रियाओं या प्रणालियों को ठीक करने की सलाह दे सकते हैं। अधिकांश डेटा गुणवत्ता उपकरण डेटा में सुधार के लिए उपकरणों की एक श्रृंखला प्रदान करते हैं, जिनमें निम्न में से कुछ या सभी सम्मिलित हो सकते हैं:
- डेटा प्रोफाइलिंग - प्रारम्भ में इसकी वर्तमान स्थिति को समझने के लिए डेटा का आकलन प्रायः मूल्य वितरण सहित करना,
- डेटा मानकीकरण - एक व्यवसाय नियम इंजन जो यह सुनिश्चित करता है कि डेटा मानकों के अनुरूप है
- जियोकोडिंग - नाम और एड्रेस डेटा के लिए। डेटा को यू.एस. और विश्वव्यापी भौगोलिक मानकों के अनुसार ठीक करता है
- रिकॉर्ड लिंकेज - डेटा की तुलना करने का एक तरीका ताकि समान, लेकिन कुछ अलग रिकॉर्ड को संरेखित किया जा सके। मिलान डेटा में डुप्लीकेट खोजने के लिए फ़ज़ी लॉजिक का उपयोग कर सकता है। यह प्रायः पहचानता है कि बॉब और बो एक ही व्यक्ति हो सकते हैं। उदाहरण के लिए, यह गृहस्थी का प्रबंधन करने, या एक ही पते पर पति-पत्नी के बीच संबंध खोजने में सक्षम हो सकता है। अंत में, यह प्रायः कई डेटा स्रोतों से सर्वोत्तम घटकों को लेकर और एक एकल सुपर-रिकॉर्ड का निर्माण करते हुए, नस्ल का सर्वश्रेष्ठ रिकॉर्ड बना सकता है।
- मॉनिटरिंग - समय के साथ डेटा की गुणवत्ता पर नज़र रखना और डेटा की गुणवत्ता में बदलाव की रिपोर्ट करना। सॉफ़्टवेयर पूर्व-निर्धारित व्यावसायिक नियमों के आधार पर विविधताओं को स्वतः ठीक भी कर सकता है।
- बैच और वास्तविक समय - एक बार जब डेटा अध्यापक में साफ (बैच) हो जाता है, तो कंपनियां प्रायः इसे साफ रखने के लिए प्रक्रियाओं को उद्यम अनुप्रयोगों में बनाना चाहती हैं।
कई प्रसिद्ध लेखक और स्वयंभू विशेषज्ञ हैं, जिनमें लैरी इंग्लिश शायद सबसे लोकप्रिय गुरु हैं। इसके अतिरिक्त, आईक्यू इंटरनेशनल - The इंटरनेशनल Association for Information and Data Quality की स्थापना 2004 में की गई थी ताकि इस क्षेत्र में अनुभवों और शोधकर्ताओं को केंद्र बिंदु प्रदान किया जा सके।
आईएसओ 8000 डेटा गुणवत्ता के लिए एक अंतरराष्ट्रीय मानक है।[16]
डेटा गुणवत्ता आश्वासन
डेटा गुणवत्ता आश्वासन डेटा में विसंगतियों और अन्य विसंगतियों की खोज करने के साथ-साथ डेटा सफाई करने के लिए डेटा प्रोफाइलिंग की प्रक्रिया है।[17][18] डेटा की गुणवत्ता में सुधार के लिए गतिविधियाँ (जैसे बाहरी कारकों के कारण को हटाना, लापता डेटा प्रक्षेप इत्यादि)।
इन गतिविधियों को डेटा वेयरहाउसिंग के हिस्से के रूप में या अनुप्रयोग प्रक्रिया सामग्री के मौजूदा भाग के डेटाबेस प्रशासन के हिस्से के रूप में किया जा सकता है।[19]
डेटा गुणवत्ता नियंत्रण
डेटा गुणवत्ता नियंत्रण किसी एप्लिकेशन या प्रक्रिया के लिए डेटा के उपयोग को नियंत्रित करने की प्रक्रिया है। यह प्रक्रिया डेटा गुणवत्ता आश्वासन (क्यूए) प्रक्रिया से पहले और बाद में की जाती है, जिसमें डेटा असंगतता और सुधार की खोज सम्मिलित है।
पहले इनपुट प्रतिबंधित करता है
क्यूए प्रक्रिया के बाद विश्लेषणात्मक गुणवत्ता नियंत्रण (क्यूसी) प्रक्रिया को निर्देशित करने के लिए निम्नलिखित आंकड़े एकत्र किए जाते हैं:
- असंगति की गंभीरता
- अधूरापन
- शुद्धता
- शुद्धता
- लापता / अज्ञात
डेटा क्यूसी प्रक्रिया क्यूए प्रक्रिया से जानकारी का उपयोग विश्लेषण के लिए या किसी एप्लिकेशन या व्यावसायिक प्रक्रिया में डेटा का उपयोग करने का निर्णय लेने के लिए करती है। सामान्य उदाहरण: यदि एक डेटा क्यूसी प्रक्रिया को एड्रेस चलता है कि डेटा में बहुत अधिक त्रुटियाँ या असंगतताएँ हैं, तो यह उस डेटा को उसकी इच्छित प्रक्रिया के लिए उपयोग किए जाने से रोकता है जो व्यवधान पैदा कर सकता है। विशिष्ट उदाहरण: एक विमान पर स्वचालित पायलट सुविधा के लिए कई सेंसरों से अमान्य माप प्रदान करने से यह क्षतिग्रस्त हो सकता है। इस प्रकार, क्यूसी प्रक्रिया की स्थापना डेटा उपयोग सुरक्षा प्रदान करती है।[citation needed]
डेटा गुणवत्ता का इष्टतम उपयोग
डेटा गुणवत्ता (डीक्यू) डेटा मुद्दों के अंतराल को कवर करके डेटा प्रबंधन की अखंडता के लिए आवश्यक एक सामान्य क्षेत्र है। यह उन प्रमुख कार्यों में से एक है जो वर्तमान डेटा प्रबंधन संचालन द्वारा अनदेखे अपवादों को खोजने के लिए डेटा की निगरानी करके डेटा प्रक्रिया की सहायता करता है। डेटा गुणवत्ता जांच को इसके सुधारात्मक चरणों पर पूर्ण नियंत्रण रखने के लिए विशेषता स्तर पर परिभाषित किया जा सकता है।[citation needed]
यदि कोई संगठन अपने डीक्यू दायरे पर ध्यान नहीं देता है तो डीक्यू चेक और व्यवसाय नियम आसानी से ओवरलैप हो सकते हैं। ओवरलैप से बचने के लिए व्यावसायिक टीमों को डीक्यू के दायरे को अच्छी तरह से समझना चाहिए। यदि व्यावसायिक तर्क समान कार्यक्षमता को कवर करता है और डीक्यू के समान उद्देश्य को पूरा करता है, तो डेटा गुणवत्ता जाँच असत्य है। किसी संगठन के डीक्यू कार्यक्षेत्र को डीक्यू रणनीति में परिभाषित किया जाना चाहिए और अच्छी तरह से कार्यान्वित किया जाना चाहिए। अतीत में अपवादों के बार-बार होने के बाद कुछ डेटा गुणवत्ता जांचों को व्यावसायिक नियमों में अनुवादित किया जा सकता है।[citation needed]
नीचे डेटा प्रवाह के कुछ क्षेत्र दिए गए हैं जिन्हें बारह मास डीक्यू जाँच की आवश्यकता हो सकती है:
प्रत्येक स्रोत प्रणाली से प्रत्येक अनिवार्य विशेषता के लिए प्रविष्टि के बिंदु पर सभी डेटा पर पूर्णता और सटीक डीक्यू जांच की जा सकती है। लेन-देन के प्रारंभिक निर्माण के बाद कुछ विशेषता मान बनाए जाते हैं; ऐसे सन्दर्भों में, इन जांचों को प्रशासित करना मुश्किल हो जाता है और उस विशेषता के स्रोत की परिभाषित घटना और लेन-देन की अन्य मुख्य विशेषता शर्तों के पूरा होने के तुरंत बाद किया जाना चाहिए।
संगठन में 'संदर्भ डेटा का संदर्भ देने वाले सभी डेटा को वैधता डीक्यू जांच के माध्यम से नए या विसंगतिपूर्ण मूल्यों की खोज के लिए संदर्भ डेटा के अच्छी तरह से परिभाषित वैध मूल्यों के सेट के खिलाफ मान्य किया जा सकता है। परिणामों का उपयोग मास्टर डेटा प्रबंधन (एमडीएम) के अंतर्गत प्रशासित संदर्भ डेटा को अपडेट करने के लिए किया जा सकता है।
किसी तृतीय पक्ष से संगठन की आंतरिक टीमों को प्राप्त सभी डेटा की तृतीय पक्ष डेटा के विरुद्ध सटीकता (डीक्यू) जांच की जा सकती है। ये डीक्यू जाँच परिणाम मूल्यवान होते हैं जब उस डेटा पर प्रशासित किया जाता है जो उस डेटा के प्रवेश के बिंदु के बाद कई हॉप करता है लेकिन इससे पहले कि डेटा एंटरप्राइज़ इंटेलिजेंस के लिए अधिकृत या संग्रहीत हो जाता है।
सभी डेटा कॉलम जो मास्टर डेटा को संदर्भित करते हैं, इसकी निरंतरता की जांच के लिए मान्य किए जा सकते हैं। प्रविष्टि के बिंदु पर डेटा पर प्रशासित एक डीक्यू जाँच एमडीएम प्रक्रिया के लिए नए डेटा की खोज करती है, लेकिन प्रविष्टि के बिंदु के बाद प्रशासित एक डीक्यू जाँच स्थिरता की विफलता (अपवाद नहीं) का एड्रेस लगाती है।
जैसा कि डेटा बदलता है, कई टाइमस्टैम्प और उस टाइमस्टैम्प की स्थिति पर कब्जा कर लिया जाता है और एक परिभाषित एसएलए (सर्विस लेवल एग्रीमेंट) के खिलाफ इसके मूल्य, क्षय, परिचालन महत्व को मान्य करने के लिए एक दूसरे के साथ तुलना की जा सकती है। इस समयबद्धता डीक्यू जाँच का उपयोग डेटा मूल्य क्षय दर को कम करने और डेटा संचलन समयरेखा की नीतियों को अनुकूलित करने के लिए किया जा सकता है।
एक संगठन में जटिल तर्क को सामान्यतः कई प्रक्रियाओं में सरल तर्क में अलग किया जाता है। तर्कसंगतता ऐसे जटिल तर्क पर डीक्यू जांच मूल्यों या स्थिर अंतर्संबंधों (एकत्रित व्यावसायिक नियम) की एक विशिष्ट श्रेणी के भीतर एक तार्किक परिणाम देने के लिए जटिल लेकिन महत्वपूर्ण व्यावसायिक प्रक्रियाओं और डेटा के आउटलेयर की खोज के लिए मान्य हो सकती है, बीएयू (व्यापार सदैव की तरह) से इसका बहाव) उम्मीदें हैं, और संभावित अपवाद प्रदान कर सकते हैं जिसके परिणामस्वरूप अंततः डेटा समस्याएं हो सकती हैं। यह जाँच डेटा के बड़े हिस्से से घिरा एक सामान्य सामान्य एकत्रीकरण नियम हो सकता है या यह संगठन के मुख्य व्यवसाय से संबंधित लेनदेन की विशेषताओं के समूह पर एक जटिल तर्क हो सकता है। इस डीक्यू चेक के लिए उच्च स्तर के व्यावसायिक ज्ञान और कौशल की आवश्यकता होती है। तर्कसंगतता के मुद्दों की खोज व्यापार या डेटा प्रक्रिया या दोनों द्वारा नीति और रणनीति में बदलाव के लिए सहायता कर सकती है।
अनुरूपता जांच और अखंडता जांच को सभी व्यावसायिक जरूरतों में सम्मिलित करने की आवश्यकता नहीं है, यह सख्ती से डेटाबेस आर्किटेक्चर के विवेक के तहत है।
डेटा संचलन में ऐसे कई स्थान हैं जहाँ डीक्यू जाँच की आवश्यकता नहीं हो सकती है। उदाहरण के लिए, डेटाबेस से प्राप्त डेटा के लिए शून्य-शून्य कॉलम पर पूर्णता और सटीकता के लिए डीक्यू जांच अनावश्यक है। इसी तरह, डेटा को उसकी सटीकता के लिए उस समय के संबंध में मान्य किया जाना चाहिए जब डेटा को अलग-अलग स्रोतों से जोड़ा जाता है। हालाँकि, यह एक व्यावसायिक नियम है और डीक्यू के दायरे में नहीं होना चाहिए।[citation needed]
दुर्भाग्य से, एक सॉफ्टवेयर विकास के नजरिए से, डीक्यू को प्रायः एक गैर-कार्यात्मक आवश्यकता के रूप में देखा जाता है। और इस तरह, प्रमुख डेटा गुणवत्ता जांच/प्रक्रियाओं को अंतिम सॉफ़्टवेयर समाधान में सम्मिलित नहीं किया जाता है। हेल्थकेयर, पहनने योग्य तकनीक या बॉडी एरिया नेटवर्क के भीतर, बड़ी मात्रा में डेटा उत्पन्न होता है।[20] डेटा की गुणवत्ता सुनिश्चित करने के लिए आवश्यक विवरण का स्तर अत्यंत उच्च है और प्रायः इसे कम करके आंका जाता है। यह अधिकांश एमहेल्थ ऐप्स, इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड और अन्य स्वास्थ्य संबंधी सॉफ़्टवेयर समाधानों के लिए भी सही है। हालाँकि, कुछ ओपन सोर्स टूल मौजूद हैं जो डेटा गुणवत्ता की जांच करते हैं।[21] इसका प्राथमिक कारण, सम्मिलित अतिरिक्त लागत से उपजा है, सॉफ्टवेयर आर्किटेक्चर के भीतर उच्च स्तर की जटिलता को जोड़ा गया है।
स्वास्थ्य डेटा सुरक्षा और गोपनीयता
स्वास्थ्य, या एमहेल्थ में मोबाइल उपकरणों का उपयोग, डेटा गुणवत्ता को सीधे प्रभावित करने वाले तरीकों से स्वास्थ्य डेटा सुरक्षा और गोपनीयता के लिए नई चुनौतियाँ पैदा करता है।[2]एमहेल्थ निम्न और मध्यम आय वाले देशों में स्वास्थ्य सेवाओं के वितरण के लिए एक तेजी से महत्वपूर्ण रणनीति है।[22] मोबाइल फोन और टैबलेट का उपयोग निकट वास्तविक समय में डेटा के संग्रह, रिपोर्टिंग और विश्लेषण के लिए किया जाता है। हालाँकि, इन मोबाइल उपकरणों का उपयोग सामान्यतः व्यक्तिगत गतिविधियों के लिए किया जाता है, साथ ही, उन्हें सुरक्षा संकटों के प्रति अधिक संवेदनशील बना देता है जिससे डेटा उल्लंघन हो सकता है। उचित सुरक्षा उपायों के बिना, यह व्यक्तिगत उपयोग स्वास्थ्य डेटा की गुणवत्ता, सुरक्षा और गोपनीयता को संकट में डाल सकता है।[23]
सार्वजनिक स्वास्थ्य में डेटा की गुणवत्ता
हाल के वर्षों में डेटा गुणवत्ता सार्वजनिक स्वास्थ्य कार्यक्रमों का एक प्रमुख केंद्र बन गया है, विशेष रूप से जवाबदेही की मांग बढ़ने के कारण[24] एड्स, क्षय रोग और मलेरिया जैसी बीमारियों के खिलाफ लड़ाई से संबंधित महत्वाकांक्षी लक्ष्यों की दिशा में काम मजबूत निगरानी और मूल्यांकन प्रणालियों पर आधारित होना चाहिए जो प्रोग्राम कार्यान्वयन से संबंधित गुणवत्तापूर्ण डेटा तैयार करते हैं।[25] ये प्रोग्राम, और प्रोग्राम लेखा परीक्षक, डेटा की गुणवत्ता निर्धारित करने की प्रक्रिया को मानकीकृत और सुव्यवस्थित करने के लिए तेजी से उपकरणों की तलाश करते हैं,[26] रिपोर्ट किए गए डेटा की गुणवत्ता को सत्यापित करें, और संकेतकों के लिए अंतर्निहित डेटा प्रबंधन और रिपोर्टिंग सिस्टम का आकलन करें।[27] एक उदाहरण डब्ल्यूएचओ और अपवर्तक मूल्यांकन का डेटा गुणवत्ता समीक्षा उपकरण है[28] डब्ल्यूएचओ, ग्लोबल फंड, जीएवीआई, और अपवर्तक मूल्यांकन ने विभिन्न बीमारियों और कार्यक्रमों में डेटा गुणवत्ता आश्वासन के लिए एक सुसंगत दृष्टिकोण तैयार करने के लिए सहयोग किया है।[29]
खुला डेटा गुणवत्ता
विकिपीडिया, विकिडेटा, डीबीपीडिया और अन्य जैसे खुले डेटा स्रोतों में डेटा गुणवत्ता के विश्लेषण के लिए समर्पित कई वैज्ञानिक कार्य हैं। विकिपीडिया के मामले में, गुणवत्ता विश्लेषण पूरे लेख से संबंधित हो सकता है[30] गुणवत्ता की मॉडलिंग विभिन्न तरीकों से की जाती है। उनमें से कुछ यंत्र अधिगम एल्गोरिदम का उपयोग करते हैं, जिनमें यादृच्छिक ट्री भी सम्मिलित है,[31] समर्थन वेक्टर यंत्र,[32] और दूसरे विकिडेटा, डीबीपीडिया और अन्य लिंक्ड ओपन डेटा स्रोतों में डेटा गुणवत्ता का आकलन करने के तरीके अलग-अलग हैं।[33]
व्यावसायिक संघ
आईक्यू इंटरनेशनल- सूचना और डेटा गुणवत्ता के लिए अंतर्राष्ट्रीय संघ[34] आईक्यू इंटरनेशनल 2004 में गठित एक गैर-लाभकारी, विक्रेता तटस्थ, पेशेवर संघ है, जो सूचना और डेटा गुणवत्ता पेशे के निर्माण के लिए समर्पित है।
ईसीसीएमए (इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन)
इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन (ईसीसीएमए) एक सदस्य-आधारित, अंतर्राष्ट्रीय गैर-लाभकारी संघ है जो अंतर्राष्ट्रीय मानकों के कार्यान्वयन के माध्यम से डेटा की गुणवत्ता में सुधार के लिए प्रतिबद्ध है। ईसीसीएमए आईइसओ 8000 और आईइसओ 22745 के विकास के लिए वर्तमान प्रोजेक्ट लीडर है, जो क्रमशः डेटा गुणवत्ता और सामग्री और सेवा मास्टर डेटा के आदान-प्रदान के लिए अंतर्राष्ट्रीय मानक हैं। ईसीसीएमए दुनिया भर में डेटा गुणवत्ता और डेटा प्रक्रिया पर विषय विशेषज्ञों के बीच सहयोग के लिए एक मंच प्रदान करता है ताकि वैश्विक, खुले मानक शब्दकोशों का निर्माण और रखरखाव किया जा सके जो स्पष्ट रूप से जानकारी को लेबल करने के लिए उपयोग किए जाते हैं। लेबल के इन शब्दकोशों का अस्तित्व बिना अर्थ खोए सूचना को एक कंप्यूटर सिस्टम से दूसरे कंप्यूटर में पारित करने की अनुमति देता है।[35]
यह भी देखें
- डेटा गुणवत्ता फ़ायरवॉल
- आंकड़ा मान्यीकरण
- रिकॉर्ड लिंकेज
- सूचना गुणवत्ता
- मास्टर डेटा प्रबंधन
- सामग्री संचालन
- डेटाबेस सामान्यीकरण
- डेटा विज़ुअलाइज़ेशन
- डेटा विश्लेषण
- नैदानिक डेटा प्रबंधन
संदर्भ
- ↑ Redman, Thomas C. (30 December 2013). Data Driven: Profiting from Your Most Important Business Asset. Harvard Business Press. ISBN 978-1-4221-6364-1.
- ↑ 2.0 2.1 Fadahunsi, Kayode Philip; Akinlua, James Tosin; O’Connor, Siobhan; Wark, Petra A; Gallagher, Joseph; Carroll, Christopher; Majeed, Azeem; O’Donoghue, John (March 2019). "ई-स्वास्थ्य में सूचना गुणवत्ता ढांचे की एक व्यवस्थित समीक्षा और गुणात्मक संश्लेषण के लिए प्रोटोकॉल". BMJ Open. 9 (3): e024722. doi:10.1136/bmjopen-2018-024722. ISSN 2044-6055. PMC 6429947. PMID 30842114.
- ↑ Fadahunsi, Kayode Philip; O'Connor, Siobhan; Akinlua, James Tosin; Wark, Petra A.; Gallagher, Joseph; Carroll, Christopher; Car, Josip; Majeed, Azeem; O'Donoghue, John (2021-05-17). "Information Quality Frameworks for Digital Health Technologies: Systematic Review". Journal of Medical Internet Research (in English). 23 (5): e23479. doi:10.2196/23479. PMC 8167621. PMID 33835034.
- ↑ Smallwood, R.F. (2014). Information Governance: Concepts, Strategies, and Be