डेटा क्लीन्सिंग

डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना। डेटा सफाई को डेटा की गड़बड़ी टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण तरीके से तरीके से किया जा सकता है।

सफाई के बाद, डेटा समूह सिस्टम में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, ट्रांसमिशन या भंडारण में भ्रष्टाचार, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। डेटा सफ़ाई डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग हमेशा मतलब होता है कि डेटा को प्रवेश के समय सिस्टम से खारिज कर दिया जाता है और डेटा के बैचों के बजाय प्रवेश के समय किया जाता है।

डेटा सफ़ाई की वास्तविक प्रक्रिया टंकण त्रुटि त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या फजी लॉजिक या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन समाधान मान्य डेटा समूह के साथ क्रॉस-चेकिंग करके डेटा को साफ़ कर देंगे। डेटा सफ़ाई का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित जानकारी जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन नंबर के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का कैनोनिकल फॉर्म#कंप्यूटिंग (या सामान्यीकरण) भी शामिल हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और कॉलमों के डेटा को साथ लाने की प्रक्रिया है। और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से सड़क, सड़क, वगैरह) का विस्तार है।

प्रेरणा
प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और निजी दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। उदाहरण के लिए, सरकार यह तय करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना चाह सकती है कि किन क्षेत्रों में बुनियादी ढांचे और सेवाओं पर अधिक खर्च और निवेश की आवश्यकता है। इस मामले में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क जानकारी, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक ​​कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।

डेटा गुणवत्ता
उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें शामिल हैं:
 * वैधता: वह डिग्री जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर सिस्टम को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना काफी आसान होता है: अमान्य डेटा मुख्य रूप से विरासत संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
 * डेटा-प्रकार की बाधाएँ - उदाहरण के लिए, किसी विशेष कॉलम में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
 * श्रेणी की बाधाएँ: आम तौर पर, संख्याएँ या तारीखें निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके पास न्यूनतम और/या अधिकतम अनुमेय मूल्य हैं।
 * अनिवार्य बाधाएँ: कुछ कॉलम खाली नहीं हो सकते।
 * अद्वितीय बाधाएँ: फ़ील्ड, या फ़ील्ड का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के पास समान सामाजिक सुरक्षा नंबर नहीं हो सकता।
 * समूह-सदस्यता बाधाएं: किसी कॉलम के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
 * विदेशी-कुंजी बाधाएं: यह समूह सदस्यता का अधिक सामान्य मामला है। किसी कॉलम में मानों का समूह किसी अन्य तालिका के कॉलम में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य कॉलम को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विदेशी कुंजी शब्द रिलेशनल डेटाबेस शब्दावली से लिया गया है।
 * नियमित अभिव्यक्ति पैटर्न: कभी-कभी, पाठ फ़ील्ड को इस तरह से मान्य करना होगा। उदाहरण के लिए, फ़ोन नंबरों का पैटर्न (999) 999-9999 होना आवश्यक हो सकता है।
 * क्रॉस-फ़ील्ड सत्यापन: एकाधिक फ़ील्ड का उपयोग करने वाली कुछ शर्तें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी मरीज की अस्पताल से छुट्टी की तारीख प्रवेश की तारीख से पहले नहीं हो सकती।
 * सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा-निर्मलन के माध्यम से सटीकता हासिल करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाहरी स्रोत तक पहुंच की आवश्यकता होती है जिसमें सही मूल्य होता है: ऐसा स्वर्ण मानक डेटा अक्सर अनुपलब्ध होता है। भौगोलिक स्थानों (शहर और राज्य) के ज़िप कोड से मेल खाने वाले बाहरी डेटाबेस का उपयोग करके कुछ सफाई संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में सटीकता हासिल की गई है और यह सत्यापित करने में भी मदद मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वास्तव में मौजूद हैं।
 * पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा शुरू में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, यानी विषय का फिर से साक्षात्कार करना, लेकिन यह भी याद रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पहले उसने क्या खाया था। उन प्रणालियों के मामले में जो इस बात पर जोर देते हैं कि कुछ कॉलम खाली नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का समाधान कर सकता है जो अज्ञात को इंगित करता है या गायब है, लेकिन डिफ़ॉल्ट मानों की आपूर्ति का मतलब यह नहीं है कि डेटा पूरा कर लिया गया है।)
 * संगति: वह डिग्री जिस तक मापों का समूह एस में समतुल्य हैसिस्टम (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा आइटम एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से केवल ही सही हो सकता है। असंगतता को ठीक करना हमेशा संभव नहीं होता है: इसके लिए कई प्रकार की रणनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह तय करना कि कौन सा डेटा हाल ही में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या बस कोशिश करना दोनों डेटा आइटम (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सच्चाई का पता लगाएं।
 * एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, वजन या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।

अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा-निर्मलन संदर्भों में इसका उपयोग शायद ही कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विदेशी-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)

प्रक्रिया

 * डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई मामलों में बहुत कम या कोई प्रोग्रामिंग की आवश्यकता के साथ इंटरैक्टिव रूप से ऐसी जांच करने देंगे।.
 * वर्कफ़्लो विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे वर्कफ़्लो के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित वर्कफ़्लो प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर बारीकी से विचार करना होगा।
 * वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-बंद की स्थिति पैदा करता है क्योंकि डेटा-निर्मलन ऑपरेशन का निष्पादन कम्प्यूटेशनल रूप से महंगा हो सकता है।
 * पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नया चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक साफ़ करने के लिए अतिरिक्त वर्कफ़्लो के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।

अच्छी गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर शुरू किया जाना चाहिए। यह केवल इनपुट स्क्रीन पर मजबूत सत्यापन जांच लागू करने का मामला नहीं है, क्योंकि ये जांच कितनी भी मजबूत क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें अक्सर टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:
 * डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
 * कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
 * डेटा एंट्री माहौल को बेहतर बनाने के लिए पैसा खर्च करें
 * एप्लिकेशन एकीकरण को बेहतर बनाने के लिए पैसा खर्च करें
 * प्रक्रियाओं के काम करने के तरीके को बदलने के लिए पैसा खर्च करें
 * शुरू से अंत तक टीम जागरूकता को बढ़ावा देना
 * अंतर्विभागीय सहयोग को बढ़ावा देना
 * सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
 * डेटा गुणवत्ता को लगातार मापें और सुधारें

अन्य में शामिल हैं:
 * पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए। पार्सर यह तय करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी तरह है जैसे पार्सर व्याकरण और भाषाओं के साथ काम करता है।
 * डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मूल्य रूपांतरण या अनुवाद फ़ंक्शन, साथ ही न्यूनतम और अधिकतम मूल्यों के अनुरूप संख्यात्मक मानों को सामान्य बनाना शामिल है।
 * डुप्लिकेट उन्मूलन: डुप्लिकेट का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई के डुप्लिकेट प्रतिनिधित्व शामिल हैं या नहीं। आमतौर पर, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तेजी से पहचान के लिए डुप्लिकेट प्रविष्टियों को साथ लाएगा।
 * सांख्यिकीय तरीके: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। हालाँकि ऐसे डेटा का सुधार मुश्किल है क्योंकि सही मूल्य ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मूल्य पर मान समूह करके हल किया जा सकता है। लापता मूल्यों को संभालने के लिए सांख्यिकीय तरीकों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मूल्यों से प्रतिस्थापित किया जा सकता है, जो आमतौर पर व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।

प्रणाली
इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के करीब डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। सिस्टम को ऐसा आर्किटेक्चर पेश करना चाहिए जो डेटा को साफ़ कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। अच्छी शुरुआत संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा प्रक्षालन सिस्टम की आवश्यक जटिलता को परिभाषित करने में मदद करेगा और स्रोत सिस्टम में वर्तमान डेटा गुणवत्ता का भी अंदाजा देगा।

गुणवत्ता स्क्रीन
डेटा प्रक्षालन सिस्टम का हिस्सा डायग्नोस्टिक फिल्टर का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि इवेंट स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
 * कॉलम स्क्रीन। व्यक्तिगत कॉलम का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; वगैरह।
 * संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (आमतौर पर विदेशी/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
 * बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, शायद कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।

जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अलावा कहीं और भेज सकती है या डेटा को टैग कर सकती है। बाद वाले विकल्प को सबसे अच्छा समाधान माना जाता है क्योंकि पहले विकल्प के लिए आवश्यक है कि हर बार समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरे का तात्पर्य है कि लक्ष्य प्रणाली (अखंडता) से डेटा गायब है और यह अक्सर स्पष्ट नहीं है कि क्या होना चाहिए इन डेटा को.

मौजूदा उपकरणों और प्रक्रियाओं की आलोचना
अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
 * परियोजना लागत: लागत आम तौर पर सैकड़ों हजारों डॉलर में होती है
 * समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में महारत हासिल करने में समय लगता है
 * सुरक्षा: क्रॉस-वैलिडेशन के लिए जानकारी साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील विरासत प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है

त्रुटि घटना स्कीमा
त्रुटि इवेंट स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन आयाम तालिकाओं की विदेशी कुंजियों के साथ त्रुटि घटना तथ्य तालिका शामिल है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के बारे में भी जानकारी होती है। इसके अलावा, मुख्य तालिका में विदेशी कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और फ़ील्ड में त्रुटि हुई और त्रुटि स्थिति के बारे में विस्तृत जानकारी शामिल है।

यह भी देखें

 * डेटा संपादन
 * डेटा खनन
 * डेटाबेस मरम्मत
 * पुनरावृत्तीय आनुपातिक फिटिंग
 * रिकॉर्ड लिंकेज
 * एकल ग्राहक दृश्य
 * त्रिकोणीकरण (सामाजिक विज्ञान)

बाहरी संबंध

 * Computerworld: Data Scrubbing (February 10, 2003)
 * Erhard Rahm, Hong Hai Do: Data Cleaning: Problems and Current Approaches
 * Data cleansing. Datamanagement.wiki.