डेटा क्यूरेशन

डेटा क्यूरेशन संगठन और विभिन्न स्रोतों से एकत्रित डेटा का एकीकरण है। इसमें डेटा का एनोटेशन, प्रकाशन और प्रस्तुति सम्मिलित है जैसे कि डेटा का मूल्य समय के साथ बना रहता है और डेटा पुन: उपयोग और संरक्षण के लिए उपलब्ध रहता है। डेटा क्यूरेशन में "डेटा में मूल्य जोड़ने की क्षमता के साथ-साथ सैद्धांतिक और नियंत्रित डेटा निर्माण, रखरखाव और प्रबंधन के लिए आवश्यक सभी प्रक्रियाएं सम्मिलित हैं"। विज्ञान में, डेटा क्यूरेशन वैज्ञानिक ग्रंथों से महत्वपूर्ण जानकारी निकालने की प्रक्रिया का संकेत दे सकता है, जैसे कि विशेषज्ञों द्वारा शोध लेख, एक इलेक्ट्रॉनिक प्रारूप में परिवर्तित करने के लिए, जैसे कि एक जैविक डेटाबेस की प्रविष्टि।

बड़े डेटा के आधुनिक युग में, डेटा की अवधि अधिक महत्वपूर्ण हो गई है, विशेष रूप से उच्च मात्रा और जटिल डेटा सिस्टम को संसाधित करने वाले सॉफ़्टवेयर के लिए। इस शब्द का उपयोग ऐतिहासिक अवसरों और मानविकी में भी किया जाता है, जहां डिजिटल मानविकी परियोजनाओं से सांस्कृतिक और विद्वतापूर्ण डेटा को बढ़ाने के लिए डेटा अवधि की विशेषज्ञता और विश्लेषणात्मक प्रथाओं की आवश्यकता होती है। व्यापक शब्दों में, क्यूरेशन का अर्थ है एक घटक (डेटा तत्व) को बनाने, प्रबंधित करने, बनाए रखने और मान्य करने के लिए की जाने वाली गतिविधियों और प्रक्रियाओं की एक श्रृंखला। विशेष रूप से, डेटा क्यूरेशन यह निर्धारित करने का प्रयास है कि कौन सी जानकारी सहेजने लायक है और कितने समय के लिए।

इतिहास और अभ्यास
डेटाबेस के बजाय उपयोगकर्ता, आमतौर पर डेटा क्यूरेशन शुरू करता है और मेटाडाटा को बनाए रखता है। इलिनोइस विश्वविद्यालय के ग्रेजुएट स्कूल ऑफ लाइब्रेरी एंड इंफॉर्मेशन साइंस के अनुसार, "डेटा क्यूरेशन, छात्रवृत्ति, विज्ञान और शिक्षा के लिए ब्याज और उपयोगिता के अपने जीवनचक्र के माध्यम से डेटा का सक्रिय और चालू प्रबंधन है; क्यूरेशन गतिविधियां डेटा खोज और पुनर्प्राप्ति को सक्षम बनाती हैं, गुणवत्ता बनाए रखें, मूल्य जोड़ें और समय के साथ पुन: उपयोग प्रदान करें।" डेटा क्यूरेशन वर्कफ़्लो डेटा गुणवत्ता प्रबंधन, डेटा संरक्षण, जीवनचक्र प्रबंधन और डेटा आंदोलन से अलग है।

जनगणना के आंकड़े 20वीं शताब्दी के प्रारंभ से सारणीबद्ध पंच कार्ड के रूप में उपलब्ध हैं और 1960 के दशक से इलेक्ट्रॉनिक हैं। द इंटर-यूनिवर्सिटी कंसोर्टियम फॉर पॉलिटिकल एंड सोशल रिसर्च (आईसीपीएसआर) की वेबसाइट 1962 को इसके पहले सर्वेक्षण डेटा संग्रह की तारीख के रूप में चिन्हित करती है।

इलिनोइस जर्नल, लाइब्रेरी ट्रेंड्स के 1982 के एक अंक में डेटा पुस्तकालयों पर एक गहरी पृष्ठभूमि दिखाई गई। डेटा आर्काइव आंदोलन पर ऐतिहासिक पृष्ठभूमि के लिए, "न्यूमेरिक डेटा के लिए सोशल साइंटिफिक इंफॉर्मेशन नीड्स: द इवोल्यूशन ऑफ द इंटरनेशनल डेटा आर्काइव इन्फ्रास्ट्रक्चर" देखें। किसी भी संगठन के भीतर की गई सटीक क्यूरेशन प्रक्रिया डेटा की मात्रा पर निर्भर करती है, डेटा में कितना शोर होता है, और डेटा के संभावित भविष्य के उपयोग का इसके प्रसार के लिए क्या मतलब है।

अंतरिक्ष डेटा में संकट ने 1999 में ओपन आर्काइवल इंफॉर्मेशन सिस्टम (अभिलेखीय सूचना प्रणाली) (ओएआईएस) मॉडल के निर्माण का नेतृत्व किया, जिसे 1982 में गठित स्पेस डेटा सिस्टम्स (सीसीएसडीएस) के लिए सलाहकार समिति द्वारा संचालित किया गया था।

डेटा क्यूरेशन शब्द का उपयोग कभी-कभी जैविक डेटाबेस के संदर्भ में किया जाता है, जहां विशिष्ट जैविक जानकारी सबसे पहले अनुसंधान लेखों की एक श्रृंखला से प्राप्त की जाती है और फिर डेटाबेस की एक विशिष्ट श्रेणी में संग्रहीत की जाती है। उदाहरण के लिए, विभिन्न स्रोतों से अवसाद-रोधी दवाओं के बारे में जानकारी प्राप्त की जा सकती है और यह जाँचने के बाद कि वे एक डेटाबेस के रूप में उपलब्ध हैं या नहीं, उन्हें एक दवा के डेटाबेस के अवसाद-रोधी श्रेणी के अंतर्गत सहेजा जाता है। उद्यम डेटा की गुणवत्ता और सटीकता सुनिश्चित करने के लिए अपने परिचालन और रणनीतिक प्रक्रियाओं के भीतर डेटा क्यूरेशन का भी उपयोग कर रहे हैं।

मेडिकल इमेजिंग में, डेटा क्यूरेशन आमतौर पर छवि (इमेज) पिक्सेल डेटा के समायोजन या मेडिकल इमेजिंग फ़ाइल स्वरूपों जैसे डीआईसीओएम की छवि मेटाडेटा को संदर्भित करता है। डेटा क्यूरेशन किसी भी प्रसंस्करण चरण का भी उल्लेख कर सकता है जो स्वास्थ्य सुविधा या अन्य नैदानिक ​​सेटिंग में इमेजिंग डेटा के अधिग्रहण का अनुसरण करता है। ऐसे संदर्भों में, यह डेटा प्रबंधन, डेटा निर्माण, संशोधन, सत्यापन, निष्कर्षण, एकीकरण, मानकीकरण, रूपांतरण, रखरखाव, गुणवत्ता आश्वासन और सत्यापन के साथ-साथ डेटा अखंडता (आँकड़ा समाग्रता), पता लगाने की क्षमता और पुनरुत्पादन योग्यता जाँच गतिविधियों की एक श्रृंखला के लिए एक व्यापक शब्द है।

परियोजनाएं और अध्ययन
सूचना पुन: उपयोग के लिए प्रसार सूचना पैकेज (डीआईपीआईआर) परियोजना (डीआईपीएस) मात्रात्मक सामाजिक वैज्ञानिकों, पुरातत्वविदों और प्राणीविदों द्वारा उत्पादित और उपयोग किए जाने वाले अनुसंधान डेटा का अध्ययन कर रही है। इच्छित दर्शक वे शोधकर्ता हैं जो द्वितीयक डेटा और डिजिटल क्यूरेटर, डिजिटल रिपॉजिटरी मैनेजर, डेटा सेंटर के कर्मचारी और डिजिटल जानकारी एकत्र करने, प्रबंधित करने और संग्रहीत करने वाले अन्य लोगों का उपयोग करते हैं।

प्रोटीन डाटा बैंक की स्थापना 1971 में ब्रुकहैवन राष्ट्रीय प्रयोगशाला में हुई थी और यह एक वैश्विक परियोजना के रूप में विकसित हो गया है। प्रोटीन और अन्य बड़े जैविक अणुओं के त्रि-आयामी संरचनात्मक डेटा के लिए एक डेटाबेस, पीडीबी में 120,000 से अधिक संरचनाएं सम्मिलित हैं, सभी मानकीकृत, प्रायोगिक डेटा के खिलाफ मान्य और व्याख्या की गई हैं।

फ्लाईबेस, कीट परिवार ड्रोसोफिलिडे के लिए आनुवंशिक और आणविक डेटा का प्राथमिक भंडार, 1992 से पहले का है। फ्लाईबेस पूरे ड्रोसोफिला मेलानोगास्टर जीनोम की व्याख्या करता है।

लिंग्विस्टिक डेटा कंसोर्टियम (भाषाई डेटा कंसोर्टियम), भाषाई डेटा के लिए एक डेटा संग्रह है, जो 1992 से है।

स्लोन डिजिटल स्काई सर्वे ने 2000 में रात के आकाश का सर्वेक्षण करना शुरू किया। एसडीएसएस के डेटा आर्किटेक्चर पर काम कर रहे कंप्यूटर वैज्ञानिक जिम ग्रे ने विज्ञान में डेटा क्यूरेशन के विचार को सर्वोत्तम बनाया।

डाटानेट यूएस द नेशनल साइंस फाउंडेशन का ऑफिस ऑफ साइबर इन्फ्रास्ट्रक्चर एक शोध कार्यक्रम था जो विज्ञान में डेटा प्रबंधन परियोजनाओं को वित्तपोषित करता था। डेटावन (डेटा ऑब्जर्वेशन नेटवर्क फॉर अर्थ) डेटानेट के माध्यम से वित्तपोषित परियोजनाओं में से एक है, जो पर्यावरण विज्ञान समुदाय को डेटा संरक्षित और साझा करने में सहायता करता है।

यह भी देखें

 * बायोक्यूरेटर
 * डेटा पुरातत्व
 * डेटा गिरावट
 * डेटा प्रारूप प्रबंधन
 * डेटा संरक्षण
 * डेटा प्रबंधन
 * डेटा तकरार
 * डिजिटल क्यूरेशन – रॉ डेटा के बजाय प्रकाशित दस्तावेज़ों का क्यूरेशन
 * डिजिटल संरक्षण
 * सूचनावादी – डेटा संग्रह में व्यापक विशेषज्ञता रखने वाला व्यक्ति

बाहरी संबंध

 * Curation of ecological and environmental data: DataONE
 * Data management tools and services spanning multiple scientific disciplines: DataConservancy