डेटा गुणवत्ता
डेटा गुणवत्ता गुणात्मक डेटा या सूचना के मात्रात्मक डेटा टुकड़ों या खण्डों की स्थिति को संदर्भित करती है। डेटा गुणवत्ता की कई परिभाषाएँ हैं, लेकिन डेटा को सामान्यतः उच्च गुणवत्ता वाला माना जाता है यदि यह व्यावसायिक संचालन, निर्णय लेने और योजना में इसके इच्छित उपयोग के लिए उपयुक्त है।[1][2][3] इसके अतिरिक्त, डेटा को उच्च गुणवत्ता वाला माना जाता है यदि यह वास्तविक दुनिया के निर्माण का सही ढंग से प्रतिनिधित्व करता है जिससे यह संदर्भित होता है। इसके अतिरिक्त, इन परिभाषाओं के अतिरिक्त, जैसे-जैसे डेटा स्रोतों की संख्या बढ़ती है, किसी विशेष बाहरी उद्देश्य के लिए उपयुक्तता की परवाह किए बिना, आंतरिक डेटा स्थिरता का प्रश्न महत्वपूर्ण हो जाता है। डेटा गुणवत्ता पर लोगों के विचार प्रायः असहमत हो सकते हैं, यहां तक कि समान उद्देश्य के लिए उपयोग किए गए डेटा के समान सेट पर चर्चा करते समय भी जब ऐसा होता है, तो डेटा गुणवत्ता के लिए स्वीकृत परिभाषाओं और मानकों को बनाने के लिए सामग्री संचालन का उपयोग किया जाता है। ऐसे सन्दर्भों में, डेटा गुणवत्ता सुनिश्चित करने के लिए मानकीकरण सहित डेटा सफाई की आवश्यकता हो सकती है।[4]
परिभाषाएँ
डेटा की गुणवत्ता को परिभाषित करना मुश्किल है क्योंकि कई संदर्भों में डेटा का उपयोग किया जाता है, साथ ही अंतिम उपयोगकर्ताओं, उत्पादकों और डेटा के संरक्षकों के बीच अलग-अलग दृष्टिकोण होते हैं।[5]
उपभोक्ता दृष्टिकोण से, डेटा की गुणवत्ता है:[5]
- डेटा जो डेटा उपभोक्ताओं द्वारा उपयोग के लिए उपयुक्त हैं
- डेटा मीटिंग या उपभोक्ता अपेक्षाओं से अधिक
- डेटा जो इसके इच्छित उपयोग की आवश्यकताओं को पूरा करता है
व्यावसायिक दृष्टिकोण से, डेटा गुणवत्ता है:
- डेटा जो अपने इच्छित संचालन, निर्णय लेने और अन्य भूमिकाओं में 'उपयोग के लिए उपयुक्त' हैं या जो 'मानकों के अनुरूप' मान प्रदर्शित करते हैं, ताकि उपयोग के लिए उपयुक्तता प्राप्त की जा सके[6]
- डेटा जो संचालन, निर्णय लेने और योजना में उनके इच्छित उपयोग के लिए उपयुक्त हैं[7]
- किसी उद्यम के बताए गए व्यवसाय, प्रणाली और तकनीकी आवश्यकताओं को पूरा करने के लिए डेटा की क्षमता[8]
मानक-आधारित दृष्टिकोण से, डेटा गुणवत्ता है:
- वह डिग्री जिस तक किसी वस्तु (डेटा) की अंतर्निहित विशेषताओं (गुणवत्ता आयामों) का एक सेट आवश्यकताओं को पूरा करता है[9][5], इसके आवेदन के लिए डेटा की उपयोगिता, सटीकता और शुद्धता की प्रमाणता सिद्ध करता है।[10]
तार्किक रूप से, इन सभी सन्दर्भों में, डेटा की गुणवत्ता डेटा के किसी विशेष सेट की वास्तविक स्थिति की वांछित स्थिति से तुलना है, वांछित स्थिति को विशेष रूप से उपयोग के लिए उपयुक्त के रूप में संदर्भित किया जाता है, उपभोक्ता अपेक्षाओं को पूरा करता है, दोष से मुक्त, या आवश्यकताओं को पूरा करना, ये अपेक्षाएं, विनिर्देश और आवश्यकताएं सामान्यतः एक या अधिक व्यक्तियों या समूहों, मानक संगठनों, कानूनों और विनियमों, व्यावसायिक नीतियों या सॉफ़्टवेयर विकास नीतियों द्वारा परिभाषित की जाती हैं।[5]
डेटा गुणवत्ता के आयाम
अधिक गहराई से देखने पर, उन अपेक्षाओं, विशिष्टताओं और आवश्यकताओं को डेटा की विशेषताओं या आयामों के संदर्भ में बताया गया है, जैसे:[5][6][7][8][11]
- पहुंच या उपलब्धता
- सटीकता या शुद्धता
- तुलना
- पूर्णता या व्यापकता
- संगति, सुसंगतता या स्पष्टता
- विश्वसनीयता, विश्वसनीयता, या प्रतिष्ठा
- लचीलापन
- व्यावहारिकता
- प्रासंगिकता, प्रासंगिकता, या उपयोगिता
- समयबद्धता या विलंबता
- अद्वितीयता
- वैधता या तर्कशीलता
साहित्य की एक व्यवस्थित स्कोपिंग समीक्षा बताती है कि वास्तविक विश्व डेटा के साथ डेटा गुणवत्ता आयाम और तरीके साहित्य में सुसंगत नहीं हैं, और परिणामस्वरूप इन डेटा की जटिल और विषम प्रकृति के कारण गुणवत्ता मूल्यांकन चुनौतीपूर्ण हैं।[11]
इतिहास
सस्ते कंप्यूटर डेटा भंडारण के उदय से पहले, बड़े पैमाने पर मेनफ़्रेम कंप्यूटर कंप्यूटरों का उपयोग वितरण सेवाओं के लिए नाम और पता डेटा बनाए रखने के लिए किया जाता था। ऐसा इसलिए था ताकि मेल को उसके गंतव्य तक ठीक से भेजा जा सके। मेनफ्रेम ने नाम और पते के डेटा में सामान्य गलत वर्तनी और टाइपोग्राफ़िकल त्रुटियों को ठीक करने के साथ-साथ उन ग्राहकों को ट्रैक करने के लिए व्यावसायिक नियमों का उपयोग किया जो चले गए, मर गए, जेल गए, विवाहित, तलाकशुदा, या अन्य जीवन-परिवर्तनकारी घटनाओं का अनुभव किया। सरकारी एजेंसियों ने नेशनल चेंज ऑफ़ एड्रेस रजिस्ट्री संयुक्त राज्य डाक सेवा|(NCOA) के साथ ग्राहक डेटा को क्रॉस-रेफ़रेंस करने के लिए कुछ सेवा कंपनियों को डाक डेटा उपलब्ध कराना शुरू किया। ग्राहक डेटा के मैन्युअल सुधार की तुलना में इस तकनीक ने बड़ी कंपनियों के लाखों डॉलर बचाए। बड़ी कंपनियों ने डाक पर बचत की, क्योंकि बिल और प्रत्यक्ष विपणन सामग्री ने इच्छित ग्राहक तक अधिक सटीक रूप से अपना रास्ता बनाया। प्रारंभ में एक सेवा के रूप में बेचा गया, डेटा गुणवत्ता निगमों की दीवारों के अंदर चली गई, क्योंकि कम लागत वाली और शक्तिशाली सर्वर तकनीक उपलब्ध हो गई।[citation needed]
मार्केटिंग पर जोर देने वाली कंपनियां प्रायः अपने गुणवत्ता प्रयासों को नाम और पते की जानकारी पर केंद्रित करती हैं, लेकिन डेटा गुणवत्ता को मान्यता दी जाती है[by whom?] सभी प्रकार के डेटा की एक महत्वपूर्ण संपत्ति के रूप में। डेटा गुणवत्ता के सिद्धांतों को आपूर्ति श्रृंखला डेटा, लेन-देन संबंधी डेटा और पाए जाने वाले लगभग हर दूसरे श्रेणी के डेटा पर लागू किया जा सकता है। उदाहरण के लिए, आपूर्ति श्रृंखला डेटा को एक निश्चित मानक के अनुरूप बनाने से संगठन के लिए मूल्य होता है: 1) समान लेकिन थोड़े अलग स्टॉक के ओवरस्टॉकिंग से बचना; 2) झूठे स्टॉक-आउट से बचना; 3) वॉल्यूम छूट पर बातचीत करने के लिए विक्रेता खरीद की समझ में सुधार; और 4) एक बड़े संगठन में स्टॉकिंग और शिपिंग भागों में रसद लागत से बचना।[citation needed]
महत्वपूर्ण अनुसंधान प्रयासों वाली कंपनियों के लिए, डेटा की गुणवत्ता में अनुसंधान विधियों के लिए विकासशील प्रोटोकॉल (प्राकृतिक विज्ञान) शामिल हो सकते हैं, माप त्रुटि को कम करना, डेटा की सीमा जाँच, क्रॉस सारणीकरण, मॉडलिंग और बाहरी पहचान, डेटा अखंडता की पुष्टि करना आदि शामिल हो सकते हैं।[citation needed]
सिंहावलोकन
डेटा गुणवत्ता को समझने के लिए कई सैद्धांतिक ढांचे हैं। अमेरिकी व्यावहारिकता से प्रभावित एक प्रणाली-सैद्धांतिक दृष्टिकोण सूचना गुणवत्ता को शामिल करने के लिए डेटा गुणवत्ता की परिभाषा का विस्तार करता है, और विज्ञान के सिद्धांत (इवानोव, 1972) के आधार पर सटीकता और सटीकता के मौलिक आयामों की समावेशिता पर जोर देता है। शून्य दोष डेटा (हैनसेन, 1991) करार दिया गया एक ढांचा, डेटा गुणवत्ता के लिए सांख्यिकीय प्रक्रिया नियंत्रण के सिद्धांतों को अपनाता है। एक अन्य ढांचा उत्पाद परिप्रेक्ष्य (विनिर्देशों के अनुरूप) और ग्राहक सेवा परिप्रेक्ष्य (उपभोक्ताओं की अपेक्षाओं को पूरा करना) को एकीकृत करना चाहता है (क्हान एट अल। 2002)। डेटा के रूप, अर्थ और उपयोग की गुणवत्ता (मूल्य और शैंक्स, 2004) की गुणवत्ता का मूल्यांकन करने के लिए एक अन्य रूपरेखा लाक्षणिकता पर आधारित है। एक अत्यधिक सैद्धांतिक दृष्टिकोण डेटा गुणवत्ता को कठोरता से परिभाषित करने के लिए सूचना प्रणालियों की ऑन्कोलॉजिकल प्रकृति का विश्लेषण करता है (वैंड और वैंग, 1996)।
डेटा गुणवत्ता अनुसंधान की काफी मात्रा में डेटा की वांछनीय विशेषताओं (या आयाम) की विभिन्न श्रेणियों की जांच और वर्णन करना शामिल है। लगभग 200 ऐसी शर्तों की पहचान की गई है और उनकी प्रकृति में बहुत कम सहमति है (क्या ये अवधारणाएं, लक्ष्य या मानदंड हैं?), उनकी परिभाषाएं या उपाय (वांग एट अल।, 1993)। सॉफ़्टवेयर इंजीनियर इसे सिस्टम गुणवत्ता विशेषताओं की सूची के समान समस्या के रूप में पहचान सकते हैं।
MIT का एक सूचना गुणवत्ता (MITIQ) कार्यक्रम है, जिसका नेतृत्व प्रोफेसर रिचर्ड वांग करते हैं, जो बड़ी संख्या में प्रकाशनों का निर्माण करता है और इस क्षेत्र में एक महत्वपूर्ण अंतर्राष्ट्रीय सम्मेलन (सूचना गुणवत्ता पर अंतर्राष्ट्रीय सम्मेलन, ICIQ) की मेजबानी करता है। यह प्रोग्राम हैनसेन द्वारा जीरो डिफेक्ट डेटा फ्रेमवर्क (हैनसेन, 1991) पर किए गए कार्य से विकसित हुआ।
व्यवहार में, डेटा गुणवत्ता सूचना प्रणाली की एक विस्तृत श्रृंखला से जुड़े पेशेवरों के लिए एक चिंता का विषय है, जिसमें डेटा भण्डारण और व्यापारिक सूचना से लेकर ग्राहक संबंध प्रबंधन और आपूर्ति श्रृंखला प्रबंधन शामिल हैं। एक उद्योग अध्ययन ने अनुमान लगाया कि डेटा गुणवत्ता की समस्याओं की अमेरिकी अर्थव्यवस्था की कुल लागत यूएस $600 बिलियन प्रति वर्ष से अधिक है (एकर्सन, 2002)। गलत डेटा - जिसमें अमान्य और पुरानी जानकारी शामिल है - डेटा प्रविष्टि, या आंकड़ों का विस्थापन और रूपांतरण परियोजनाओं के माध्यम से - विभिन्न डेटा स्रोतों से उत्पन्न हो सकता है।[12] 2002 में, यूएसपीएस और प्राइसवाटरहाउसकूपर्स ने एक रिपोर्ट जारी की जिसमें कहा गया था कि भेजे गए सभी अमेरिकी मेलों में से 23.6 प्रतिशत को गलत तरीके से संबोधित किया गया है।[13] औसत डेटाबेस में एक कारण संपर्क डेटा बहुत जल्दी पुराना हो जाता है - हर साल 45 मिलियन से अधिक अमेरिकी अपना पता बदलते हैं।[14] वास्तव में, समस्या एक ऐसी चिंता है कि कंपनियां एक डेटा गवर्नेंस टीम की स्थापना करने लगी हैं, जिसकी निगम में एकमात्र भूमिका डेटा गुणवत्ता के लिए जिम्मेदार होना है। कुछ में[who?] संगठनों, इस डेटा शासन कार्य को एक बड़े विनियामक अनुपालन कार्य के भाग के रूप में स्थापित किया गया है - संगठनों के लिए डेटा/सूचना गुणवत्ता के महत्व की मान्यता।
डेटा गुणवत्ता के साथ समस्याएँ केवल गलत डेटा से उत्पन्न नहीं होती हैं; असंगत डेटा भी एक समस्या है। छाया प्रणाली को खत्म करना और गोदाम में डेटा को केंद्रीकृत करना उन पहलों में से एक है जो कंपनी डेटा स्थिरता सुनिश्चित करने के लिए कर सकती है।
उद्यम, वैज्ञानिक और शोधकर्ता अपने सामान्य डेटा की गुणवत्ता में सुधार के लिए डेटा क्यूरेशन समुदायों के भीतर भाग लेना शुरू कर रहे हैं।[15] डेटा गुणवत्ता आश्वासन प्रदान करने के लिए बाजार किसी तरह जा रहा है। खराब गुणवत्ता वाले डेटा का विश्लेषण और मरम्मत करने के लिए कई विक्रेता उपकरण बनाते हैं, सेवा प्रदाता अनुबंध के आधार पर डेटा को साफ़ कर सकते हैं और सलाहकार डेटा गुणवत्ता की समस्याओं से बचने के लिए प्रक्रियाओं या प्रणालियों को ठीक करने की सलाह दे सकते हैं। अधिकांश डेटा गुणवत्ता उपकरण डेटा में सुधार के लिए उपकरणों की एक श्रृंखला प्रदान करते हैं, जिनमें निम्न में से कुछ या सभी शामिल हो सकते हैं:
- डेटा प्रोफाइलिंग - शुरुआत में इसकी वर्तमान स्थिति को समझने के लिए डेटा का आकलन करना, प्रायः मूल्य वितरण सहित
- डेटा मानकीकरण - एक व्यवसाय नियम इंजन जो यह सुनिश्चित करता है कि डेटा मानकों के अनुरूप है
- जियोकोडिंग - नाम और पता डेटा के लिए। डेटा को यू.एस. और विश्वव्यापी भौगोलिक मानकों के अनुसार ठीक करता है
- रिकॉर्ड लिंकेज - डेटा की तुलना करने का एक तरीका ताकि समान, लेकिन थोड़े अलग रिकॉर्ड को संरेखित किया जा सके। मिलान डेटा में डुप्लीकेट खोजने के लिए फ़ज़ी लॉजिक का उपयोग कर सकता है। यह प्रायः पहचानता है कि बॉब और बो एक ही व्यक्ति हो सकते हैं। उदाहरण के लिए, यह गृहस्थी का प्रबंधन करने, या एक ही पते पर पति-पत्नी के बीच संबंध खोजने में सक्षम हो सकता है। अंत में, यह प्रायः कई डेटा स्रोतों से सर्वोत्तम घटकों को लेकर और एक एकल सुपर-रिकॉर्ड का निर्माण करते हुए, नस्ल का सर्वश्रेष्ठ रिकॉर्ड बना सकता है।
- मॉनिटरिंग - समय के साथ डेटा की गुणवत्ता पर नज़र रखना और डेटा की गुणवत्ता में बदलाव की रिपोर्ट करना। सॉफ़्टवेयर पूर्व-निर्धारित व्यावसायिक नियमों के आधार पर विविधताओं को स्वतः ठीक भी कर सकता है।
- बैच और वास्तविक समय - एक बार जब डेटा अध्यापक में साफ (बैच) हो जाता है, तो कंपनियां प्रायः इसे साफ रखने के लिए प्रक्रियाओं को उद्यम अनुप्रयोगों में बनाना चाहती हैं।
कई प्रसिद्ध लेखक और स्वयंभू विशेषज्ञ हैं, जिनमें लैरी इंग्लिश शायद सबसे लोकप्रिय गुरु हैं। इसके अतिरिक्त, IQ International - The International Association for Information and Data Quality की स्थापना 2004 में की गई थी ताकि इस क्षेत्र में पेशेवरों और शोधकर्ताओं को केंद्र बिंदु प्रदान किया जा सके।
आईएसओ 8000 डेटा गुणवत्ता के लिए एक अंतरराष्ट्रीय मानक है।[16]
डेटा गुणवत्ता आश्वासन
डेटा गुणवत्ता आश्वासन डेटा में विसंगतियों और अन्य विसंगतियों की खोज करने के साथ-साथ डेटा सफाई करने के लिए डेटा प्रोफाइलिंग की प्रक्रिया है।[17][18] डेटा की गुणवत्ता में सुधार के लिए गतिविधियाँ (जैसे बाहरी कारकों के कारण को हटाना, लापता डेटा प्रक्षेप )।
इन गतिविधियों को डेटा वेयरहाउसिंग के हिस्से के रूप में या अनुप्रयोग प्रक्रिया सामग्री के मौजूदा भाग के डेटाबेस प्रशासन के हिस्से के रूप में किया जा सकता है।[19]
डेटा गुणवत्ता नियंत्रण
डेटा गुणवत्ता नियंत्रण किसी एप्लिकेशन या प्रक्रिया के लिए डेटा के उपयोग को नियंत्रित करने की प्रक्रिया है। यह प्रक्रिया डेटा गुणवत्ता आश्वासन (क्यूए) प्रक्रिया से पहले और बाद में की जाती है, जिसमें डेटा असंगतता और सुधार की खोज शामिल है।
पहले:
- इनपुट प्रतिबंधित करता है
क्यूए प्रक्रिया के बाद विश्लेषणात्मक गुणवत्ता नियंत्रण (क्यूसी) प्रक्रिया को निर्देशित करने के लिए निम्नलिखित आंकड़े एकत्र किए जाते हैं:
- असंगति की गंभीरता
- अधूरापन
- शुद्धता
- शुद्धता
- लापता / अज्ञात
डेटा क्यूसी प्रक्रिया क्यूए प्रक्रिया से जानकारी का उपयोग विश्लेषण के लिए या किसी एप्लिकेशन या व्यावसायिक प्रक्रिया में डेटा का उपयोग करने का निर्णय लेने के लिए करती है। सामान्य उदाहरण: यदि एक डेटा QC प्रक्रिया को पता चलता है कि डेटा में बहुत अधिक त्रुटियाँ या असंगतताएँ हैं, तो यह उस डेटा को उसकी इच्छित प्रक्रिया के लिए उपयोग किए जाने से रोकता है जो व्यवधान पैदा कर सकता है। विशिष्ट उदाहरण: एक विमान पर स्वचालित पायलट सुविधा के लिए कई सेंसरों से अमान्य माप प्रदान करने से यह दुर्घटनाग्रस्त हो सकता है। इस प्रकार, क्यूसी प्रक्रिया की स्थापना डेटा उपयोग सुरक्षा प्रदान करती है।[citation needed]
डेटा गुणवत्ता का इष्टतम उपयोग
डेटा गुणवत्ता (DQ) डेटा मुद्दों के अंतराल को कवर करके डेटा प्रबंधन की अखंडता के लिए आवश्यक एक आला क्षेत्र है। यह उन प्रमुख कार्यों में से एक है जो वर्तमान डेटा प्रबंधन संचालन द्वारा अनदेखे अपवादों को खोजने के लिए डेटा की निगरानी करके डेटा शासन की सहायता करता है। डेटा गुणवत्ता जांच को इसके सुधारात्मक चरणों पर पूर्ण नियंत्रण रखने के लिए विशेषता स्तर पर परिभाषित किया जा सकता है।[citation needed]
यदि कोई संगठन अपने DQ दायरे पर ध्यान नहीं देता है तो DQ चेक और व्यवसाय नियम आसानी से ओवरलैप हो सकते हैं। ओवरलैप से बचने के लिए व्यावसायिक टीमों को DQ के दायरे को अच्छी तरह से समझना चाहिए। यदि व्यावसायिक तर्क समान कार्यक्षमता को कवर करता है और DQ के समान उद्देश्य को पूरा करता है, तो डेटा गुणवत्ता जाँच बेमानी है। किसी संगठन के DQ कार्यक्षेत्र को DQ रणनीति में परिभाषित किया जाना चाहिए और अच्छी तरह से कार्यान्वित किया जाना चाहिए। अतीत में अपवादों के बार-बार होने के बाद कुछ डेटा गुणवत्ता जांचों को व्यावसायिक नियमों में अनुवादित किया जा सकता है।[citation needed]
नीचे डेटा प्रवाह के कुछ क्षेत्र दिए गए हैं जिन्हें बारहमासी DQ जाँच की आवश्यकता हो सकती है:
प्रत्येक स्रोत प्रणाली से प्रत्येक अनिवार्य विशेषता के लिए प्रविष्टि के बिंदु पर सभी डेटा पर पूर्णता और सटीक डीक्यू जांच की जा सकती है। लेन-देन के प्रारंभिक निर्माण के बाद कुछ विशेषता मान बनाए जाते हैं; ऐसे सन्दर्भों में, इन जांचों को प्रशासित करना मुश्किल हो जाता है और उस विशेषता के स्रोत की परिभाषित घटना और लेन-देन की अन्य मुख्य विशेषता शर्तों के पूरा होने के तुरंत बाद किया जाना चाहिए।
संगठन में 'संदर्भ डेटा का संदर्भ देने वाले सभी डेटा को वैधता डीक्यू जांच के माध्यम से नए या विसंगतिपूर्ण मूल्यों की खोज के लिए संदर्भ डेटा के अच्छी तरह से परिभाषित वैध मूल्यों के सेट के खिलाफ मान्य किया जा सकता है। परिणामों का उपयोग मास्टर डेटा प्रबंधन (एमडीएम) के अंतर्गत प्रशासित संदर्भ डेटा को अपडेट करने के लिए किया जा सकता है।
किसी तृतीय पक्ष से संगठन की आंतरिक टीमों को प्राप्त सभी डेटा की तृतीय पक्ष डेटा के विरुद्ध सटीकता (डीक्यू) जांच की जा सकती है। ये DQ जाँच परिणाम मूल्यवान होते हैं जब उस डेटा पर प्रशासित किया जाता है जो उस डेटा के प्रवेश के बिंदु के बाद कई हॉप करता है लेकिन इससे पहले कि डेटा एंटरप्राइज़ इंटेलिजेंस के लिए अधिकृत या संग्रहीत हो जाता है।
सभी डेटा कॉलम जो मास्टर डेटा को संदर्भित करते हैं, इसकी निरंतरता की जांच के लिए मान्य किए जा सकते हैं। प्रविष्टि के बिंदु पर डेटा पर प्रशासित एक DQ जाँच MDM प्रक्रिया के लिए नए डेटा की खोज करती है, लेकिन प्रविष्टि के बिंदु के बाद प्रशासित एक DQ जाँच स्थिरता की विफलता (अपवाद नहीं) का पता लगाती है।
जैसा कि डेटा बदलता है, कई टाइमस्टैम्प और उस टाइमस्टैम्प की स्थिति पर कब्जा कर लिया जाता है और एक परिभाषित एसएलए (सर्विस लेवल एग्रीमेंट) के खिलाफ इसके मूल्य, क्षय, परिचालन महत्व को मान्य करने के लिए एक दूसरे के साथ तुलना की जा सकती है। इस समयबद्धता DQ जाँच का उपयोग डेटा मूल्य क्षय दर को कम करने और डेटा संचलन समयरेखा की नीतियों को अनुकूलित करने के लिए किया जा सकता है।
एक संगठन में जटिल तर्क को सामान्यतः कई प्रक्रियाओं में सरल तर्क में अलग किया जाता है। तर्कसंगतता ऐसे जटिल तर्क पर डीक्यू जांच मूल्यों या स्थिर अंतर्संबंधों (एकत्रित व्यावसायिक नियम) की एक विशिष्ट श्रेणी के भीतर एक तार्किक परिणाम देने के लिए जटिल लेकिन महत्वपूर्ण व्यावसायिक प्रक्रियाओं और डेटा के आउटलेयर की खोज के लिए मान्य हो सकती है, बीएयू (व्यापार हमेशा की तरह) से इसका बहाव ) उम्मीदें हैं, और संभावित अपवाद प्रदान कर सकते हैं जिसके परिणामस्वरूप अंततः डेटा समस्याएं हो सकती हैं। यह जाँच डेटा के बड़े हिस्से से घिरा एक सामान्य सामान्य एकत्रीकरण नियम हो सकता है या यह संगठन के मुख्य व्यवसाय से संबंधित लेनदेन की विशेषताओं के समूह पर एक जटिल तर्क हो सकता है। इस डीक्यू चेक के लिए उच्च स्तर के व्यावसायिक ज्ञान और कौशल की आवश्यकता होती है। तर्कसंगतता के मुद्दों की खोज व्यापार या डेटा शासन या दोनों द्वारा नीति और रणनीति में बदलाव के लिए सहायता कर सकती है।
अनुरूपता जांच और अखंडता जांच को सभी व्यावसायिक जरूरतों में शामिल करने की आवश्यकता नहीं है, यह सख्ती से डेटाबेस आर्किटेक्चर के विवेक के तहत है।
डेटा संचलन में ऐसे कई स्थान हैं जहाँ DQ जाँच की आवश्यकता नहीं हो सकती है। उदाहरण के लिए, डेटाबेस से प्राप्त डेटा के लिए शून्य-शून्य कॉलम पर पूर्णता और सटीकता के लिए डीक्यू जांच अनावश्यक है। इसी तरह, डेटा को उसकी सटीकता के लिए उस समय के संबंध में मान्य किया जाना चाहिए जब डेटा को अलग-अलग स्रोतों से जोड़ा जाता है। हालाँकि, यह एक व्यावसायिक नियम है और DQ के दायरे में नहीं होना चाहिए।[citation needed]
दुर्भाग्य से, एक सॉफ्टवेयर विकास के नजरिए से, DQ को प्रायः एक गैर-कार्यात्मक आवश्यकता के रूप में देखा जाता है। और इस तरह, प्रमुख डेटा गुणवत्ता जांच/प्रक्रियाओं को अंतिम सॉफ़्टवेयर समाधान में शामिल नहीं किया जाता है। हेल्थकेयर, पहनने योग्य तकनीक या बॉडी एरिया नेटवर्क के भीतर, बड़ी मात्रा में डेटा उत्पन्न होता है।[20] डेटा की गुणवत्ता सुनिश्चित करने के लिए आवश्यक विवरण का स्तर अत्यंत उच्च है और प्रायः इसे कम करके आंका जाता है। यह अधिकांश एमहेल्थ ऐप्स, इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड और अन्य स्वास्थ्य संबंधी सॉफ़्टवेयर समाधानों के लिए भी सही है। हालाँकि, कुछ ओपन सोर्स टूल मौजूद हैं जो डेटा गुणवत्ता की जांच करते हैं।[21] इसका प्राथमिक कारण, शामिल अतिरिक्त लागत से उपजा है, सॉफ्टवेयर आर्किटेक्चर के भीतर उच्च स्तर की कठोरता को जोड़ा गया है।
स्वास्थ्य डेटा सुरक्षा और गोपनीयता
स्वास्थ्य, या एमहेल्थ में मोबाइल उपकरणों का उपयोग, डेटा गुणवत्ता को सीधे प्रभावित करने वाले तरीकों से स्वास्थ्य डेटा सुरक्षा और गोपनीयता के लिए नई चुनौतियाँ पैदा करता है।[2]एमहेल्थ निम्न और मध्यम आय वाले देशों में स्वास्थ्य सेवाओं के वितरण के लिए एक तेजी से महत्वपूर्ण रणनीति है।[22] मोबाइल फोन और टैबलेट का उपयोग निकट वास्तविक समय में डेटा के संग्रह, रिपोर्टिंग और विश्लेषण के लिए किया जाता है। हालाँकि, इन मोबाइल उपकरणों का उपयोग सामान्यतः व्यक्तिगत गतिविधियों के लिए किया जाता है, साथ ही, उन्हें सुरक्षा जोखिमों के प्रति अधिक संवेदनशील बना देता है जिससे डेटा उल्लंघन हो सकता है। उचित सुरक्षा उपायों के बिना, यह व्यक्तिगत उपयोग स्वास्थ्य डेटा की गुणवत्ता, सुरक्षा और गोपनीयता को ख़तरे में डाल सकता है।[23]
सार्वजनिक स्वास्थ्य में डेटा की गुणवत्ता
हाल के वर्षों में डेटा गुणवत्ता सार्वजनिक स्वास्थ्य कार्यक्रमों का एक प्रमुख केंद्र बन गया है, विशेष रूप से जवाबदेही की मांग बढ़ने के कारण।[24] एड्स, क्षय रोग और मलेरिया जैसी बीमारियों के खिलाफ लड़ाई से संबंधित महत्वाकांक्षी लक्ष्यों की दिशा में काम मजबूत निगरानी और मूल्यांकन प्रणालियों पर आधारित होना चाहिए जो कार्यक्रम कार्यान्वयन से संबंधित गुणवत्तापूर्ण डेटा तैयार करते हैं।[25] ये कार्यक्रम, और कार्यक्रम लेखा परीक्षक, डेटा की गुणवत्ता निर्धारित करने की प्रक्रिया को मानकीकृत और सुव्यवस्थित करने के लिए तेजी से उपकरणों की तलाश करते हैं,[26] रिपोर्ट किए गए डेटा की गुणवत्ता को सत्यापित करें, और संकेतकों के लिए अंतर्निहित डेटा प्रबंधन और रिपोर्टिंग सिस्टम का आकलन करें।[27] एक उदाहरण WHO और MEASURE मूल्यांकन का डेटा गुणवत्ता समीक्षा उपकरण है[28] WHO, ग्लोबल फंड, GAVI, और MEASURE मूल्यांकन ने विभिन्न बीमारियों और कार्यक्रमों में डेटा गुणवत्ता आश्वासन के लिए एक सुसंगत दृष्टिकोण तैयार करने के लिए सहयोग किया है।[29]
खुला डेटा गुणवत्ता
विकिपीडिया, विकिडेटा, डीबीपीडिया और अन्य जैसे खुले डेटा स्रोतों में डेटा गुणवत्ता के विश्लेषण के लिए समर्पित कई वैज्ञानिक कार्य हैं। विकिपीडिया के मामले में, गुणवत्ता विश्लेषण पूरे लेख से संबंधित हो सकता है[30] गुणवत्ता की मॉडलिंग विभिन्न तरीकों से की जाती है। उनमें से कुछ यंत्र अधिगम एल्गोरिदम का उपयोग करते हैं, जिनमें यादृच्छिक वन भी शामिल है,[31] समर्थन वेक्टर यंत्र,[32] और दूसरे। विकिडेटा, डीबीपीडिया और अन्य लिंक्ड ओपन डेटा स्रोतों में डेटा गुणवत्ता का आकलन करने के तरीके अलग-अलग हैं।[33]
व्यावसायिक संघ
आईक्यू इंटरनेशनल- सूचना और डेटा गुणवत्ता के लिए अंतर्राष्ट्रीय संघ[34]
- IQ International 2004 में गठित एक गैर-लाभकारी, विक्रेता तटस्थ, पेशेवर संघ है, जो सूचना और डेटा गुणवत्ता पेशे के निर्माण के लिए समर्पित है।
ECCMA (इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन)
इलेक्ट्रॉनिक कॉमर्स कोड मैनेजमेंट एसोसिएशन (ECCMA) एक सदस्य-आधारित, अंतर्राष्ट्रीय गैर-लाभकारी संघ है जो अंतर्राष्ट्रीय मानकों के कार्यान्वयन के माध्यम से डेटा की गुणवत्ता में सुधार के लिए प्रतिबद्ध है। ECCMA ISO 8000 और ISO 22745 के विकास के लिए वर्तमान प्रोजेक्ट लीडर है, जो क्रमशः डेटा गुणवत्ता और सामग्री और सेवा मास्टर डेटा के आदान-प्रदान के लिए अंतर्राष्ट्रीय मानक हैं। ECCMA दुनिया भर में डेटा गुणवत्ता और डेटा शासन पर विषय विशेषज्ञों के बीच सहयोग के लिए एक मंच प्रदान करता है ताकि वैश्विक, खुले मानक शब्दकोशों का निर्माण और रखरखाव किया जा सके जो स्पष्ट रूप से जानकारी को लेबल करने के लिए उपयोग किए जाते हैं। लेबल के इन शब्दकोशों का अस्तित्व बिना अर्थ खोए सूचना को एक कंप्यूटर सिस्टम से दूसरे कंप्यूटर में पारित करने की अनुमति देता है।[35]
यह भी देखें
- डेटा गुणवत्ता फ़ायरवॉल
- आंकड़ा मान्यीकरण
- रिकॉर्ड लिंकेज
- सूचना गुणवत्ता
- मास्टर डेटा प्रबंधन
- सामग्री संचालन
- डेटाबेस सामान्यीकरण
- डेटा विज़ुअलाइज़ेशन
- डेटा विश्लेषण
- नैदानिक डेटा प्रबंधन
संदर्भ
- ↑ Redman, Thomas C. (30 December 2013). Data Driven: Profiting from Your Most Important Business Asset. Harvard Business Press. ISBN 978-1-4221-6364-1.
- ↑ 2.0 2.1 Fadahunsi, Kayode Philip; Akinlua, James Tosin; O’Connor, Siobhan; Wark, Petra A; Gallagher, Joseph; Carroll, Christopher; Majeed, Azeem; O’Donoghue, John (March 2019). "ई-स्वास्थ्य में सूचना गुणवत्ता ढांचे की एक व्यवस्थित समीक्षा और गुणात्मक संश्लेषण के लिए प्रोटोकॉल". BMJ Open. 9 (3): e024722. doi:10.1136/bmjopen-2018-024722. ISSN 2044-6055. PMC 6429947. PMID 30842114.
- ↑ Fadahunsi, Kayode Philip; O'Connor, Siobhan; Akinlua, James Tosin; Wark, Petra A.; Gallagher, Joseph; Carroll, Christopher; Car, Josip; Majeed, Azeem; O'Donoghue, John (2021-05-17). "Information Quality Frameworks for Digital Health Technologies: Systematic Review". Journal of Medical Internet Research (in English). 23 (5): e23479. doi:10.2196/23479. PMC 8167621. PMID 33835034.
- ↑