डेटा क्यूरेशन

From Vigyanwiki

डेटा क्यूरेशन संगठन और विभिन्न स्रोतों से एकत्रित डेटा का एकीकरण है। इसमें डेटा का एनोटेशन, प्रकाशन और प्रस्तुति सम्मिलित है जैसे कि डेटा का मूल्य समय के साथ बना रहता है और डेटा पुन: उपयोग और संरक्षण के लिए उपलब्ध रहता है। डेटा क्यूरेशन में "डेटा में मूल्य जोड़ने की क्षमता के साथ-साथ सैद्धांतिक और नियंत्रित डेटा निर्माण, रखरखाव और प्रबंधन के लिए आवश्यक सभी प्रक्रियाएं सम्मिलित हैं"।[1] विज्ञान में, डेटा क्यूरेशन वैज्ञानिक ग्रंथों से महत्वपूर्ण जानकारी निकालने की प्रक्रिया का संकेत दे सकता है, जैसे कि विशेषज्ञों द्वारा शोध लेख, एक इलेक्ट्रॉनिक प्रारूप में परिवर्तित करने के लिए, जैसे कि एक जैविक डेटाबेस की प्रविष्टि।[2]

बड़े डेटा के आधुनिक युग में, डेटा की अवधि अधिक महत्वपूर्ण हो गई है, विशेष रूप से उच्च मात्रा और जटिल डेटा सिस्टम को संसाधित करने वाले सॉफ़्टवेयर के लिए।[3] इस शब्द का उपयोग ऐतिहासिक अवसरों और मानविकी में भी किया जाता है,[4] जहां डिजिटल मानविकी परियोजनाओं से सांस्कृतिक और विद्वतापूर्ण डेटा को बढ़ाने के लिए डेटा अवधि की विशेषज्ञता और विश्लेषणात्मक प्रथाओं की आवश्यकता होती है।[5] व्यापक शब्दों में, क्यूरेशन का अर्थ है एक घटक (डेटा तत्व) को बनाने, प्रबंधित करने, बनाए रखने और मान्य करने के लिए की जाने वाली गतिविधियों और प्रक्रियाओं की एक श्रृंखला।[6] विशेष रूप से, डेटा क्यूरेशन यह निर्धारित करने का प्रयास है कि कौन सी जानकारी सहेजने लायक है और कितने समय के लिए।[7]

इतिहास और अभ्यास

डेटाबेस के अतिरिक्त उपयोगकर्ता, सामान्यतः डेटा क्यूरेशन प्रारम्भ करता है और मेटाडाटा को बनाए रखता है।[8] इलिनोइस विश्वविद्यालय के ग्रेजुएट स्कूल ऑफ लाइब्रेरी एंड इंफॉर्मेशन साइंस के अनुसार, "डेटा क्यूरेशन, छात्रवृत्ति, विज्ञान और शिक्षा के लिए ब्याज और उपयोगिता के अपने जीवनचक्र के माध्यम से डेटा का सक्रिय और चालू प्रबंधन है; क्यूरेशन गतिविधियां डेटा खोज और पुनर्प्राप्ति को सक्षम बनाती हैं, गुणवत्ता बनाए रखें, मूल्य जोड़ें और समय के साथ पुन: उपयोग प्रदान करें।"[9] डेटा क्यूरेशन वर्कफ़्लो डेटा गुणवत्ता प्रबंधन, डेटा संरक्षण, जीवनचक्र प्रबंधन और डेटा आंदोलन से अलग है।[8]

जनगणना के आंकड़े 20वीं शताब्दी के प्रारंभ से सारणीबद्ध पंच कार्ड के रूप में उपलब्ध हैं और 1960 के दशक से इलेक्ट्रॉनिक हैं।[10] द इंटर-यूनिवर्सिटी कंसोर्टियम फॉर पॉलिटिकल एंड सोशल रिसर्च (आईसीपीएसआर) की वेबसाइट 1962 को इसके पहले सर्वेक्षण डेटा संग्रह की तारीख के रूप में चिन्हित करती है।[11]

इलिनोइस जर्नल, लाइब्रेरी ट्रेंड्स के 1982 के एक अंक में डेटा पुस्तकालयों पर एक गहरी पृष्ठभूमि दिखाई गई।[12] डेटा आर्काइव आंदोलन पर ऐतिहासिक पृष्ठभूमि के लिए, "न्यूमेरिक डेटा के लिए सोशल साइंटिफिक इंफॉर्मेशन नीड्स: द इवोल्यूशन ऑफ द इंटरनेशनल डेटा आर्काइव इन्फ्रास्ट्रक्चर" देखें।[13] किसी भी संगठन के भीतर की गई सटीक क्यूरेशन प्रक्रिया डेटा की मात्रा पर निर्भर करती है, डेटा में कितना शोर होता है, और डेटा के संभावित भविष्य के उपयोग का इसके प्रसार के लिए क्या मतलब है।[3]

अंतरिक्ष डेटा में संकट ने 1999 में ओपन आर्काइवल इंफॉर्मेशन सिस्टम (अभिलेखीय सूचना प्रणाली) (ओएआईएस) मॉडल के निर्माण का नेतृत्व किया,[14] जिसे 1982 में गठित स्पेस डेटा सिस्टम्स (सीसीएसडीएस) के लिए सलाहकार समिति द्वारा संचालित किया गया था।[15]

डेटा क्यूरेशन शब्द का उपयोग कभी-कभी जैविक डेटाबेस के संदर्भ में किया जाता है, जहां विशिष्ट जैविक जानकारी सबसे पहले अनुसंधान लेखों की एक श्रृंखला से प्राप्त की जाती है और फिर डेटाबेस की एक विशिष्ट श्रेणी में संग्रहीत की जाती है। उदाहरण के लिए, विभिन्न स्रोतों से अवसाद-रोधी दवाओं के बारे में जानकारी प्राप्त की जा सकती है और यह जाँचने के बाद कि वे एक डेटाबेस के रूप में उपलब्ध हैं या नहीं, उन्हें एक दवा के डेटाबेस के अवसाद-रोधी श्रेणी के अंतर्गत सहेजा जाता है। उद्यम डेटा की गुणवत्ता और सटीकता सुनिश्चित करने के लिए अपने परिचालन और रणनीतिक प्रक्रियाओं के भीतर डेटा क्यूरेशन का भी उपयोग कर रहे हैं।[16][17]

मेडिकल इमेजिंग में, डेटा क्यूरेशन सामान्यतः छवि (इमेज) पिक्सेल डेटा के समायोजन या मेडिकल इमेजिंग फ़ाइल स्वरूपों जैसे डीआईसीओएम की छवि मेटाडेटा को संदर्भित करता है। डेटा क्यूरेशन किसी भी प्रसंस्करण चरण का भी उल्लेख कर सकता है जो स्वास्थ्य सुविधा या अन्य नैदानिक ​​सेटिंग में इमेजिंग डेटा के अधिग्रहण का अनुसरण करता है। ऐसे संदर्भों में, यह डेटा प्रबंधन, डेटा निर्माण, संशोधन, सत्यापन, निष्कर्षण, एकीकरण, मानकीकरण, रूपांतरण, रखरखाव, गुणवत्ता आश्वासन और सत्यापन के साथ-साथ डेटा अखंडता (आँकड़ा समाग्रता), पता लगाने की क्षमता और पुनरुत्पादन योग्यता जाँच गतिविधियों की एक श्रृंखला के लिए एक व्यापक शब्द है।[18]

परियोजनाएं और अध्ययन

सूचना पुन: उपयोग के लिए प्रसार सूचना पैकेज (डीआईपीआईआर) परियोजना (डीआईपीएस) मात्रात्मक सामाजिक वैज्ञानिकों, पुरातत्वविदों और प्राणीविदों द्वारा उत्पादित और उपयोग किए जाने वाले अनुसंधान डेटा का अध्ययन कर रही है। इच्छित दर्शक वे शोधकर्ता हैं जो द्वितीयक डेटा और डिजिटल क्यूरेटर, डिजिटल रिपॉजिटरी मैनेजर, डेटा सेंटर के कर्मचारी और डिजिटल जानकारी एकत्र करने, प्रबंधित करने और संग्रहीत करने वाले अन्य लोगों का उपयोग करते हैं।[19]

प्रोटीन डाटा बैंक की स्थापना 1971 में ब्रुकहैवन राष्ट्रीय प्रयोगशाला में हुई थी और यह एक वैश्विक परियोजना के रूप में विकसित हो गया है।[20] प्रोटीन और अन्य बड़े जैविक अणुओं के त्रि-आयामी संरचनात्मक डेटा के लिए एक डेटाबेस, पीडीबी में 120,000 से अधिक संरचनाएं सम्मिलित हैं, सभी मानकीकृत, प्रायोगिक डेटा के खिलाफ मान्य और व्याख्या की गई हैं।

फ्लाईबेस, कीट परिवार ड्रोसोफिलिडे के लिए आनुवंशिक और आणविक डेटा का प्राथमिक भंडार, 1992 से पहले का है। फ्लाईबेस पूरे ड्रोसोफिला मेलानोगास्टर जीनोम की व्याख्या करता है।[21]

लिंग्विस्टिक डेटा कंसोर्टियम (भाषाई डेटा कंसोर्टियम), भाषाई डेटा के लिए एक डेटा संग्रह है, जो 1992 से है।[22]

स्लोन डिजिटल स्काई सर्वे ने 2000 में रात के आकाश का सर्वेक्षण करना प्रारम्भ किया।[23] एसडीएसएस के डेटा आर्किटेक्चर पर काम कर रहे कंप्यूटर वैज्ञानिक जिम ग्रे ने विज्ञान में डेटा क्यूरेशन के विचार को सर्वोत्तम बनाया।[24]

डाटानेट यूएस द नेशनल साइंस फाउंडेशन का ऑफिस ऑफ साइबर इन्फ्रास्ट्रक्चर एक शोध कार्यक्रम था जो विज्ञान में डेटा प्रबंधन परियोजनाओं को वित्तपोषित करता था।[25] डेटावन (डेटा ऑब्जर्वेशन नेटवर्क फॉर अर्थ) डेटानेट के माध्यम से वित्तपोषित परियोजनाओं में से एक है, जो पर्यावरण विज्ञान समुदाय को डेटा संरक्षित और साझा करने में सहायता करता है।[26]

यह भी देखें

संदर्भ

  1. Renée J. Miller, “Big Data Curation” in 20th International Conference on Management of Data (COMAD) 2014, Hyderabad, India, December 17–19, 2014
  2. Bio creative Glossary. Retrieved on 3 October 2016.
  3. 3.0 3.1 Furht, Borko; Armando Escalante (2011). डेटा इंटेंसिव कंप्यूटिंग की हैंडबुक. Springer Science & Business Media. p. 32. ISBN 9781461414155. Retrieved 2 October 2016.
  4. Sabharwal, Arjun (2015). डिजिटल मानविकी में डिजिटल क्यूरेशन: अभिलेखीय और विशेष संग्रहों का संरक्षण और प्रचार करना. Chandos Publishing. p. 60. ISBN 9780081001783. Retrieved 2 October 2016.
  5. "An Introduction to Humanities Data Curation" by Julia Flanders and Trevor Muñoz http://guide.dhcuration.org/intro/. Not available any more: archive.org
  6. Pilin Glossary. Not available any more: archive.org
  7. 7.0 7.1 Borgman, C (2015). बड़ा डेटा, थोड़ा डेटा, कोई डेटा नहीं: नेटवर्क की दुनिया में छात्रवृत्ति. Cambridge, Massachusetts: MIT Press. pp. 13. ISBN 978-0-262-02856-1.
  8. 8.0 8.1 Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin Shank (2015). डेटा जलाशय का डिजाइन और संचालन. IBM Redbooks. pp. 111–113. ISBN 9780837440668. Retrieved 2 October 2016.
  9. Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L.; Smith, Linda C. (2007). "डेटा क्यूरेशन पर एक शैक्षिक कार्यक्रम". ALA Science & Technology Section Conference. Retrieved 7 October 2013.
  10. "डिजिटल सूचना (पीडीआई) रिपोर्ट का संरक्षण" (PDF). 1996. Retrieved 2018-03-13.
  11. "आईसीपीएसआर: इतिहास". www.icpsr.umich.edu (in English). Retrieved 2018-03-15.
  12. Heim, Kathleen M. (November 29, 1982). "लाइब्रेरी ट्रेंड्स 30 (3) विंटर 1982: डेटा लाइब्रेरी फॉर द सोशल साइंसेज". Library Trends – via www.ideals.illinois.edu.
  13. Kathleen M. Heim, "Social Scientific Information Needs for Numeric Data: The Evolution of the International Data Archive Infrastructure." in Collection Management 9 (Spring 1987): 1-53.
  14. "OAIS संदर्भ मॉडल" (in English). 2015-12-09. Retrieved 2018-03-15.
  15. "CCSDS.org - स्पेस डेटा सिस्टम्स के लिए सलाहकार समिति (CCSDS)". public.ccsds.org. Retrieved 2018-03-14.
  16. E. Curry, A. Freitas, and S. O’Riáin, “The Role of Community-Driven Data Curation for Enterprises,” Archived 2012-01-23 at the Wayback Machine in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47. ISBN 978-1-4419-7664-2
  17. A. Freitas, E. Curry, “Big Data Curation,” Archived 2016-09-13 at the Wayback Machine in New Horizons for a Data-Driven Economy, Springer (Open Access), 2015.
  18. Diaz, Oliver; Kushibar, Kaisar; Osuala, Richard; Linardos, Akis; Garrucho, Lidia; Igual, Laura; Radeva, Petia; Prior, Fred; Gkontra, Polyxeni; Lekadir, Karim (2021). "Data preparation for artificial intelligence in medical imaging: A comprehensive guide to open-access platforms and tools". European Journal of Medical Physics. 83: 25–37. doi:10.1016/j.ejmp.2021.02.007. PMID 33684723. S2CID 232160057. Retrieved 30 April 2021.
  19. Dissemination Information Packages for Information Reuse (DIPIR) project http://www.oclc.org/research/themes/user-studies/dipir.html
  20. "आरसीएसबी पीडीबी: पीडीबी आर्काइव और आरसीएसबी पीडीबी के बारे में". About the PDB Archive and the RCSB PDB. Retrieved 15 March 2018.
  21. Gramates, LS; Marygold, SJ; dos Santos, G; Urbano, J-M; Antonazzo, G; Matthews, BB; Rey, AJ; Tabone, CJ; Crosby, MA; Emmert, DB; Falls, K; Goodman, JL; Hu, Y; Ponting, L; Schroeder, AJ; Strelets, VB; Thurmond, J; Zhou, P; FlyBase Consortium (2017). "lyBase at 25: भविष्य की ओर देख रहे हैं". Nucleic Acids Res. 45 (D1): D663–D671. doi:10.1093/nar/gkw1016. PMC 5210523. PMID 27799470.
  22. "एलडीसी के बारे में". Linguistic Data Consortium. Retrieved 15 March 2018.
  23. "स्लोन डिजिटल स्काई सर्वे". SDSS. Retrieved 15 March 2018.
  24. Palmer, Carole L.; Weber, Nicholas M.; Muñoz, Trevor; Renear, Allen H. (June 2013). "डेटा क्यूरेशन की नींव: अनुसंधान डेटा के साथ "उद्देश्यपूर्ण कार्य" का शिक्षाशास्त्र और अभ्यास". Archive Journal. 3. hdl:2142/78099.
  25. "सस्टेनेबल डिजिटल डेटा प्रिजर्वेशन एंड एक्सेस नेटवर्क पार्टनर्स (डेटानेट) प्रोग्राम सारांश". National Science Foundation. September 28, 2007. Retrieved March 15, 2018.
  26. "डेटावन क्या है?". What is DataONE?. Retrieved 15 March 2018.

बाहरी संबंध

  • Curation of ecological and environmental data: DataONE
  • Data management tools and services spanning multiple scientific disciplines: DataConservancy