डेटा क्लीन्सिंग

डेटा प्रक्षालन या डेटा क्लीन्सिंग रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है। डेटा क्लीन्सिंग को डेटा की त्रुटि टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण विधि से किया जा सकता है।

इस प्रकार से प्रक्षालन के बाद, डेटा समूह प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। अतः डेटा क्लीन्सिंग डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।

डेटा क्लीन्सिंग की वास्तविक प्रक्रिया टंकण त्रुटि को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या स्वानुशासित तर्क या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा क्लीन्सिंग हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा क्लीन्सिंग का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा क्लीन्सिंग में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है। और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।

प्रेरणा
अतः प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। इस प्रकार से उदाहरण के लिए, सरकार यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। इस प्रकार से उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक ​​कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।

डेटा गुणवत्ता
इस प्रकार से उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं:
 * वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। इस प्रकार से डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
 * डेटा-प्रकार की बाधाएँ - इस प्रकार से उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, इस प्रकार से उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
 * श्रेणी की बाधाएँ: सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं।
 * अनिवार्य बाधाएँ: कुछ स्तम्भ रिक्त नहीं हो सकते।
 * अद्वितीय बाधाएँ: क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। इस प्रकार से उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है।
 * समूह-सदस्यता बाधाएं: किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। इस प्रकार से उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
 * विजातीय-कुंजी बाधाएं: यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। इस प्रकार से उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विजातीय कुंजी शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है।
 * नियमित अभिव्यक्ति प्रतिरूप: कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। इस प्रकार से उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है।
 * अनुप्रस्थ-क्षेत्र सत्यापन: एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
 * यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
 * पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा क्लीन्सिंग पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
 * संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
 * एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।

इस प्रकार से अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (इस प्रकार से उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)

प्रक्रिया

 * डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामन भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को निम्न बुलेट्स कार्यप्रवाह विनिर्देश और कार्यप्रवाह निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके निकट उच्च-और प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई स्थितियों में बहुत कम या कोई प्रोग्रामन की आवश्यकता के साथ एक दूसरे को प्रभावित करते हुए इस रूप में जांच करने देंगे।
 * कार्यप्रवाह विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे कार्यप्रवाह के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित कार्यप्रवाह प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर स्पष्टता से विचार करना होगा।
 * कार्यप्रवाह निष्पादन: इस चरण में, कार्यप्रवाह को उसके विनिर्देश पूर्ण होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। कार्यप्रवाह का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-संवृत की स्थिति उत्पन्न करता है क्योंकि डेटा-निर्मलन संचालन का निष्पादन कम्प्यूटेशनल रूप से बहुमूल्य हो सकता है।
 * पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।

अतः ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। इस प्रकार से उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:
 * डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें।
 * कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं।
 * डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें।
 * एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें।
 * प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें।
 * प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना।
 * अंतर्विभागीय सहयोग को बढ़ावा देना।
 * सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं।
 * डेटा गुणवत्ता को निरंतर मापें और सुधारें।

इस प्रकार से अन्य में सम्मिलित हैं:
 * पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर व्याकरण और भाषाओं के साथ कार्य करता है।
 * डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है।
 * अनुकृति उन्मूलन: अनुकृति का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई की अनुकृति प्रतिनिधित्व सम्मिलित हैं या नहीं। सामान्यतः, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तीव्रता से पहचान के लिए अनुकृति प्रविष्टियों को साथ लाएगा।
 * सांख्यिकीय विधि: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मानों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मानों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। यद्यपि ऐसे डेटा का सुधार जटिल है क्योंकि उचित मान ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मान पर मान समूह करके हल किया जा सकता है। लुप्त मानों को संभालने के लिए सांख्यिकीय विधियों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मानों से प्रतिस्थापित किया जा सकता है, जो सामान्यतः व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।

प्रणाली
अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा क्लीन्सिंग प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।

गुणवत्ता स्क्रीन
डेटा क्लीन्सिंग प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
 * स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
 * संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
 * यापार नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।

इस प्रकार से जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।

अतः बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए।

वर्तमान उपकरणों और प्रक्रियाओं की आलोचना
इस प्रकार से अधिकांश डेटा क्लीन्सिंग टूल की प्रयोज्यता में सीमाएँ हैं:
 * परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है।
 * समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है।
 * सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है।

त्रुटि घटना स्कीमा
अतः त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना तथ्य तालिका सम्मिलित है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इस प्रकार से इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है।

यह भी देखें

 * डेटा संपादन
 * डेटा खनन
 * डेटाबेस सुधार
 * पुनरावृत्तीय आनुपातिक यथार्थ
 * रिकॉर्ड सहलग्नता
 * एकल ग्राहक दृष्टि
 * त्रिकोणीकरण (सामाजिक विज्ञान)

बाह्य संबंध

 * Computerworld: Data Scrubbing (February 10, 2003)
 * Erhard Rahm, Hong Hai Do: Data Cleaning: Problems and Current Approaches
 * Data cleansing. Datamanagement.wiki.