डेटा क्यूरेशन

डेटा क्यूरेशन विभिन्न स्रोतों से एकत्र किए गए डेटा का संगठन और एकीकरण है। इसमें डेटा का एनोटेशन, प्रकाशन और प्रस्तुति शामिल है जैसे कि डेटा का मूल्य समय के साथ बनाए रखा जानकारी है, और डेटा पुन: उपयोग और संरक्षण के लिए उपलब्ध रहता है। डेटा क्यूरेशन में सैद्धांतिक और सामग्री संचालन निर्माण, रखरखाव और डेटा प्रबंधन के लिए आवश्यक सभी प्रक्रियाएं शामिल हैं, साथ ही डेटा में मूल्य जोड़ने की क्षमता भी शामिल है। विज्ञान में, डेटा क्यूरेशन वैज्ञानिक ग्रंथों से महत्वपूर्ण जानकारी निकालने की प्रक्रिया का संकेत दे सकता है, जैसे कि विशेषज्ञों द्वारा शोध लेख, एक इलेक्ट्रॉनिक प्रारूप में परिवर्तित होने के लिए, जैसे जैविक डेटाबेस की प्रविष्टि। बड़े डेटा के आधुनिक युग में, डेटा की अवधि अधिक प्रमुख हो गई है, विशेष रूप से उच्च मात्रा और जटिल डेटा सिस्टम को संसाधित करने वाले सॉफ़्टवेयर के लिए। इस शब्द का प्रयोग ऐतिहासिक अवसरों और मानविकी में भी किया जाता है, जहां डिजिटल मानविकी परियोजनाओं से बढ़ते सांस्कृतिक और विद्वतापूर्ण डेटा के लिए डेटा क्यूरेशन की विशेषज्ञता और विश्लेषणात्मक प्रथाओं की आवश्यकता होती है। व्यापक रूप से, क्यूरेशन का अर्थ डेटा तत्व को बनाने, प्रबंधित करने, बनाए रखने और डेटा सत्यापन के लिए की जाने वाली गतिविधियों और प्रक्रियाओं की एक श्रृंखला है। विशेष रूप से, डेटा क्यूरेशन यह निर्धारित करने का प्रयास है कि कौन सी जानकारी सहेजने लायक है और कितनी देर तक।

इतिहास और अभ्यास
उपयोगकर्ता (सिस्टम), डेटाबेस के बजाय, आमतौर पर डेटा क्यूरेशन शुरू करता है और मेटाडाटा को बनाए रखता है। इलिनोइस विश्वविद्यालय के ग्रेजुएट स्कूल ऑफ लाइब्रेरी एंड इंफॉर्मेशन साइंस के अनुसार, डेटा क्यूरेशन, छात्रवृत्ति, विज्ञान और शिक्षा के लिए ब्याज और उपयोगिता के अपने जीवनचक्र के माध्यम से डेटा का सक्रिय और चालू प्रबंधन है; क्यूरेशन गतिविधियाँ डेटा की खोज और पुनर्प्राप्ति को सक्षम करती हैं, गुणवत्ता बनाए रखती हैं, मूल्य जोड़ती हैं, और समय के साथ पुन: उपयोग प्रदान करती हैं। डेटा क्यूरेशन वर्कफ़्लो डेटा गुणवत्ता प्रबंधन, सूचना गोपनीयता, सूचना जीवनचक्र प्रबंधन और एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड से अलग है। 20वीं सदी की शुरुआत से जनगणना के आंकड़े सारणीबद्ध पंच कार्ड के रूप में उपलब्ध हैं और 1960 के दशक से इलेक्ट्रॉनिक हैं। राजनीतिक और सामाजिक अनुसंधान के लिए इंटर-यूनिवर्सिटी कंसोर्टियम|राजनीतिक और सामाजिक अनुसंधान के लिए इंटर-यूनिवर्सिटी कंसोर्टियम (आईसीपीएसआर) वेबसाइट 1962 को उनके पहले सर्वेक्षण डेटा संग्रह की तारीख के रूप में चिन्हित करती है। इलिनोइस जर्नल, लाइब्रेरी ट्रेंड्स के 1982 के अंक में डेटा पुस्तकालयों पर गहरी पृष्ठभूमि दिखाई दी। डेटा आर्काइव मूवमेंट पर ऐतिहासिक पृष्ठभूमि के लिए, न्यूमेरिक डेटा के लिए सोशल साइंटिफिक इंफॉर्मेशन नीड्स: द इवोल्यूशन ऑफ द इंटरनेशनल डेटा आर्काइव इन्फ्रास्ट्रक्चर देखें। किसी भी संगठन के भीतर की गई सटीक क्यूरेशन प्रक्रिया डेटा की मात्रा पर निर्भर करती है, डेटा में कितना शोर होता है, और डेटा के अपेक्षित भविष्य के उपयोग का इसके प्रसार के लिए क्या मतलब है।

अंतरिक्ष डेटा में संकट के कारण 1999 में अभिलेखीय सूचना प्रणाली खोलें | ओपन आर्काइवल इंफॉर्मेशन सिस्टम (OAIS) मॉडल का निर्माण हुआ, स्पेस डेटा सिस्टम्स के लिए परामर्शदात्री समिति | स्पेस डेटा सिस्टम्स के लिए सलाहकार समिति (CCSDS) द्वारा संचालित, जिसका गठन 1982 में किया गया था। डेटा क्यूरेशन शब्द का उपयोग कभी-कभी जैविक डेटाबेस के संदर्भ में किया जाता है, जहां विशिष्ट जैविक जानकारी पहले शोध लेखों की एक श्रृंखला से प्राप्त की जाती है और फिर डेटाबेस की एक विशिष्ट श्रेणी में संग्रहीत की जाती है। उदाहरण के लिए, विभिन्न स्रोतों से अवसाद-रोधी दवाओं के बारे में जानकारी प्राप्त की जा सकती है और यह जाँचने के बाद कि वे एक डेटाबेस के रूप में उपलब्ध हैं या नहीं, उन्हें एक दवा के डेटाबेस की अवसाद-रोधी श्रेणी के तहत सहेजा जाता है। डेटा की गुणवत्ता और सटीकता सुनिश्चित करने के लिए उद्यम अपनी परिचालन और रणनीतिक प्रक्रियाओं के भीतर डेटा क्यूरेशन का भी उपयोग कर रहे हैं। चिकित्सीय इमेजिंग में, डेटा क्यूरेशन आमतौर पर छवि पिक्सेल डेटा या मेडिकल इमेजिंग फ़ाइल स्वरूपों जैसे डीआईसीओएम की छवि मेटाडेटा के समायोजन को संदर्भित करता है। डेटा क्यूरेशन किसी भी प्रसंस्करण चरण का उल्लेख कर सकता है जो स्वास्थ्य सुविधा या अन्य नैदानिक ​​​​सेटिंग में इमेजिंग डेटा के अधिग्रहण के बाद होता है। ऐसे संदर्भों में, यह डेटा प्रबंधन, डेटा निर्माण, संशोधन, सत्यापन, निष्कर्षण, एकीकरण, मानकीकरण, रूपांतरण, रखरखाव, गुणवत्ता आश्वासन, और सत्यापन, साथ ही डेटा अखंडता, पता लगाने की क्षमता सहित गतिविधियों की एक श्रृंखला के लिए एक हाइपोनीमी और हाइपरनीमी है। और पुनरुत्पादन जांच।

परियोजनाएं और अध्ययन
सूचना पुन: उपयोग (डीआईपीआईआर) परियोजना के लिए प्रसार सूचना पैकेज (डीआईपीएस) मात्रात्मक सामाजिक वैज्ञानिकों, पुरातत्वविदों और प्राणीविदों द्वारा उत्पादित और उपयोग किए जाने वाले शोध डेटा का अध्ययन कर रहा है। इच्छित दर्शक वे शोधकर्ता हैं जो द्वितीयक डेटा और डिजिटल क्यूरेटर, डिजिटल रिपॉजिटरी मैनेजर, डेटा सेंटर स्टाफ और अन्य जो डिजिटल जानकारी एकत्र, प्रबंधित और संग्रहीत करते हैं, का उपयोग करते हैं। प्रोटीन डाटा बैंक की स्थापना 1971 में ब्रुकहैवन राष्ट्रीय प्रयोगशाला में की गई थी और यह एक वैश्विक परियोजना के रूप में विकसित हो गया है। प्रोटीन और अन्य बड़े जैविक अणुओं के त्रि-आयामी संरचनात्मक डेटा के लिए एक डेटाबेस, पीडीबी में 120,000 से अधिक संरचनाएं हैं, सभी मानकीकृत, प्रयोगात्मक डेटा के खिलाफ मान्य और एनोटेट हैं।

फ्लाईबेस, कीट परिवार ड्रोसोफिलिडे के लिए आनुवंशिक और आणविक डेटा का प्राथमिक भंडार, 1992 से पहले का है। फ्लाईबेस पूरे ड्रोसोफिला मेलानोगास्टर जीनोम की व्याख्या करता है। भाषाई डेटा कंसोर्टियम भाषाई डेटा के लिए डेटा भंडार है, जो 1992 से पहले का है। स्लोन डिजिटल स्काई सर्वे ने 2000 में रात के आकाश का सर्वेक्षण करना शुरू किया। कंप्यूटर वैज्ञानिक जिम ग्रे (कंप्यूटर वैज्ञानिक) ने SDSS के डेटा आर्किटेक्चर पर काम करते हुए, विज्ञान में डेटा क्यूरेशन के विचार का समर्थन किया। डाटानेट यू.एस. नेशनल साइंस फाउंडेशन ऑफ साइबर इंफ्रास्ट्रक्चर का एक शोध कार्यक्रम था, जो विज्ञान में डेटा प्रबंधन परियोजनाओं को वित्तपोषित करता था। DataONE (डेटा ऑब्जर्वेशन नेटवर्क फॉर अर्थ) डेटा नेटवर्क के माध्यम से वित्त पोषित परियोजनाओं में से एक है, जो पर्यावरण विज्ञान समुदाय को डेटा को संरक्षित और साझा करने में मदद करता है।

यह भी देखें

 * बायोक्यूरेटर
 * डेटा पुरातत्व
 * डेटा गिरावट
 * डेटा प्रारूप प्रबंधन
 * डेटा संरक्षण
 * डेटा प्रबंधन
 * डेटा तकरार
 * डिजिटल क्यूरेशन – कच्चे डेटा के बजाय प्रकाशित दस्तावेज़ों की अवधि * डिजिटल संरक्षण
 * सूचनाविद् – डेटा क्यूरेशन में व्यापक विशेषज्ञता वाला व्यक्ति

इस पेज में लापता आंतरिक लिंक की सूची

 * डाटा प्रबंधन
 * बड़ा डेटा
 * आंकड़ा मान्यीकरण
 * आधार सामग्री की गुणवत्ता
 * reproducibility

बाहरी संबंध

 * Curation of ecological and environmental data: DataONE
 * Data management tools and services spanning multiple scientific disciplines: DataConservancy