अनुसंधान डेटा संग्रह

अनुसंधान आंकड़े संग्रह कंप्यूटर डेटा भंडारण या अस्थिरता प्राकृतिक विज्ञान, सामाजिक विज्ञान और जीवन विज्ञान सहित विद्वानों के अनुसंधान डेटा का दीर्घकालिक भंडारण है। विभिन्न शैक्षणिक पत्रिकाओं में इस संबंध में अलग-अलग नीतियां होती हैं कि शोधकर्ताओं को अपने डेटा और विधियों का कितना हिस्सा सार्वजनिक संग्रह में संग्रहीत करना आवश्यक है, और वास्तव में क्या संग्रहीत किया जाता है, यह विभिन्न विषयों के बीच व्यापक रूप से भिन्न होता है। इसी प्रकार, प्रमुख अनुदान देने वाले संस्थानों का डेटा के सार्वजनिक संग्रह के प्रति अलग-अलग दृष्टिकोण है। सामान्य तौर पर, विज्ञान की परंपरा यह रही है कि प्रकाशनों में साथी शोधकर्ताओं को अनुसंधान को दोहराने और परीक्षण करने की अनुमति देने के लिए पर्याप्त जानकारी होती है। हाल के वर्षों में यह दृष्टिकोण तेजी से तनावपूर्ण हो गया है क्योंकि कुछ क्षेत्रों में अनुसंधान बड़े डेटासेट पर निर्भर करता है जिसे आसानी से स्वतंत्र रूप से दोहराया नहीं जा सकता है।

कुछ क्षेत्रों में डेटा संग्रहण अन्य क्षेत्रों की तुलना में अधिक महत्वपूर्ण है। कुछ क्षेत्रों में, कार्य को दोहराने के लिए आवश्यक सभी डेटा जर्नल आलेख में पहले से ही उपलब्ध है। दवा विकास में, बड़ी मात्रा में डेटा उत्पन्न होता है और इसे संग्रहीत किया जाना चाहिए ताकि शोधकर्ता यह सत्यापित कर सकें कि दवा कंपनियां जो रिपोर्ट प्रकाशित करती हैं वह डेटा को सटीक रूप से प्रतिबिंबित करती हैं।

डेटा संग्रह की आवश्यकता विज्ञान के इतिहास में हालिया विकास है। यह सूचना प्रौद्योगिकी में प्रगति के कारण संभव हुआ, जिससे बड़ी मात्रा में डेटा को केंद्रीय स्थानों से संग्रहीत और ्सेस किया जा सका। उदाहरण के लिए, अमेरिकी भूभौतिकीय संघ (एजीयू) ने डब्ल्यूडब्ल्यूडब्ल्यू की शुरुआत के लगभग तीन साल बाद 1993 में डेटा संग्रह पर अपनी पहली नीति अपनाई। यह नीति अनिवार्य करती है कि एजीयू कागजात में उद्धृत डेटासेट को मान्यता प्राप्त डेटा केंद्र द्वारा संग्रहीत किया जाना चाहिए; यह डेटा पेपर के निर्माण की अनुमति देता है; और यह डेटा अभिलेखागार को बनाए रखने में एजीयू की भूमिका स्थापित करता है। लेकिन यह पेपर लेखकों पर अपना डेटा संग्रहीत करने की कोई आवश्यकता नहीं रखता है।

संगठित डेटा संग्रह से पहले, किसी पेपर का मूल्यांकन या प्रतिलिपि बनाने के इच्छुक शोधकर्ताओं को लेखक से डेटा और विधियों की जानकारी का अनुरोध करना होगा। अकादमिक समुदाय लेखकों से डेटा शेयरिंग (विज्ञान) की अपेक्षा करता है। इस प्रक्रिया को समय और ऊर्जा की बर्बादी के रूप में पहचाना गया और मिश्रित परिणाम प्राप्त हुए। वर्षों में जानकारी खो सकती है या दूषित हो सकती है। कुछ मामलों में, लेखक जानकारी प्रदान करने से इंकार कर देते हैं।

जब अनुसंधान स्वास्थ्य मुद्दों या सार्वजनिक नीति निर्माण से संबंधित होता है तो डेटा संग्रह और उचित परिश्रम की आवश्यकता बहुत बढ़ जाती है।

बायोट्रोपिका
"Biotropica requires, as a condition for publication, that the data supporting the results in the paper and metadata describing them must be archived in an appropriate public archive such as Dryad, Figshare, GenBank, TreeBASE, or NCBI. Authors may elect to make the data publicly available as soon as the article is published or, if the technology of the archive allows, embargo access to the data up to three years after article publication. A statement describing Data Availability will be included in the manuscript as described in the instructions to authors. Exceptions to the required archiving of data may be granted at the discretion of the Editor-in-Chief for studies that include sensitive information (e.g., the location of endangered species). Our Editorial explaining the motivation for this policy can be found here. A more comprehensive list of data repositories is available here.

Promoting a culture of collaboration with researchers who collect and archive data: The data collected by tropical biologists are often long-term, complex, and expensive to collect. The Board of Editors of Biotropica strongly encourages authors who re-use data archives archived data sets to include as fully engaged collaborators the scientists who originally collected them. We feel this will greatly enhance the quality and impact of the resulting research by drawing on the data collector’s profound insights into the natural history of the study system, reducing the risk of errors in novel analyses, and stimulating the cross-disciplinary and cross-cultural collaboration and training for which the ATBC and Biotropica are widely recognized."

ध्यान दें: बायोट्रोपिका केवल दो पत्रिकाओं में से है जो ड्रायड में डेटा जमा करने वाले लेखकों के लिए शुल्क का भुगतान करती है।

अमेरिकी प्रकृतिवादी
"The American Naturalist requires authors to deposit the data associated with accepted papers in a public archive. For gene sequence data and phylogenetic trees, deposition in GenBank or TreeBASE, respectively, is required. There are many possible archives that may suit a particular data set, including the Dryad repository for ecological and evolutionary biology data. All accession numbers for GenBank, TreeBASE, and Dryad must be included in accepted manuscripts before they go to Production. If the data is deposited somewhere else, please provide a link. If the data is culled from published literature, please deposit the collated data in Dryad for the convenience of your readers. Any impediments to data sharing should be brought to the attention of the editors at the time of submission so that appropriate arrangements can be worked out."

जर्नल ऑफ़ हेरेडिटी
"The primary data underlying the conclusions of an article are critical to the verifiability and transparency of the scientific enterprise, and should be preserved in usable form for decades in the future. For this reason, Journal of Heredity requires that newly reported nucleotide or amino acid sequences, and structural coordinates, be submitted to appropriate public databases (e.g., GenBank; the EMBL Nucleotide Sequence Database; DNA Database of Japan; the Protein Data Bank ; and Swiss-Prot). Accession numbers must be included in the final version of the manuscript. For other forms of data (e.g., microsatellite genotypes, linkage maps, images), the Journal endorses the principles of the Joint Data Archiving Policy (JDAP) in encouraging all authors to archive primary datasets in an appropriate public archive, such as Dryad, TreeBASE, or the Knowledge Network for Biocomplexity. Authors are encouraged to make data publicly available at time of publication or, if the technology of the archive allows, opt to embargo access to the data for a period up to a year after publication.

The American Genetic Association also recognizes the vast investment of individual researchers in generating and curating large datasets. Consequently, we recommend that this investment be respected in secondary analyses or meta-analyses in a gracious collaborative spirit."

आणविक पारिस्थितिकी
"Molecular Ecology expects that data supporting the results in the paper should be archived in an appropriate public archive, such as GenBank, Gene Expression Omnibus, TreeBASE, Dryad, the Knowledge Network for Biocomplexity, your own institutional or funder repository, or as Supporting Information on the Molecular Ecology web site. Data are important products of the scientific enterprise, and they should be preserved and usable for decades in the future. Authors may elect to have the data publicly available at time of publication, or, if the technology of the archive allows, may opt to embargo access to the data for a period up to a year after publication. Exceptions may be granted at the discretion of the editor, especially for sensitive information such as human subject data or the location of endangered species."

प्रकृति
"Such material must be hosted on an accredited independent site (URL and accession numbers to be provided by the author), or sent to the Nature journal at submission, either uploaded via the journal's online submission service, or if the files are too large or in an unsuitable format for this purpose, on CD/DVD (five copies). Such material cannot solely be hosted on an author's personal or institutional web site.

Nature requires the reviewer to determine if all of the supplementary data and methods have been archived. The policy advises reviewers to consider several questions, including: 'Should the authors be asked to provide supplementary methods or data to accompany the paper online? (Such data might include source code for modelling studies, detailed experimental protocols or mathematical derivations.)"

विज्ञान
"Science supports the efforts of databases that aggregate published data for the use of the scientific community. Therefore, before publication, large data sets (including microarray data, protein or DNA sequences, and atomic coordinates or electron microscopy maps for macromolecular structures) must be deposited in an approved database and an accession number provided for inclusion in the published paper.

'Materials and methods' – Science now requests that, in general, authors place the bulk of their description of materials and methods online as supporting material, providing only as much methods description in the print manuscript as is necessary to follow the logic of the text. (Obviously, this restriction will not apply if the paper is fundamentally a study of a new method or technique.)"

रॉयल सोसाइटी
"To allow others to verify and build on the work published in Royal Society journals, it is a condition of publication that authors make available the data, code and research materials supporting the results in the article. Datasets and code should be deposited in an appropriate, recognised, publicly available repository. Where no data-specific repository exists, authors should deposit their datasets in a general repository such as Dryad (repository) or Figshare."

जर्नल ऑफ आर्कियोलॉजिकल साइंस
"The Journal of Archaeological Science has had a data disclosure policy since at least 2013. Their policy states that 'all data relating to the article must be made available in Supplementary files or deposited in external repositories and linked to within the article. The policy recommends that data are deposited in a repository such as the Archaeology Data Service, the Digital Archaeological Record, or PANGAEA. A 2018 study found a data availability rate of 53%, reflecting either weak enforcement of this policy or an incomplete understanding among editors, reviewers, and authors of how to interpret and implement this policy."

फंडिंग एजेंसियों द्वारा नीतियां
संयुक्त राज्य अमेरिका में, राष्ट्रीय विज्ञान संस्था (एनएसएफ) ने डेटा संग्रहण पर आवश्यकताओं को कड़ा कर दिया है। एनएसएफ से फंडिंग चाहने वाले शोधकर्ताओं को अब अनुदान आवेदन के दो पेज के पूरक के रूप में डेटा प्रबंधन योजना दाखिल करने की आवश्यकता है।

एनएसएफ डेटा नेटवर्क पहल के परिणामस्वरूप डेटा ऑब्जर्वेशन नेटवर्क फॉर अर्थ (डेटाओएन) परियोजना को वित्त पोषित किया गया है, जो दुनिया भर के वैज्ञानिकों द्वारा उत्पादित पारिस्थितिक और पर्यावरणीय डेटा के लिए वैज्ञानिक डेटा संग्रह प्रदान करेगा। डेटाऑन का घोषित लक्ष्य बहु-स्तरीय, बहु-अनुशासन और बहु-राष्ट्रीय डेटा को संरक्षित करना और उस तक पहुंच प्रदान करना है। डेटाऑन के उपयोगकर्ताओं के समुदाय में वैज्ञानिक, पारिस्थितिकी तंत्र प्रबंधक, नीति निर्माता, छात्र, शिक्षक और जनता शामिल हैं।

जर्मन डॉयचे फ़ोर्सचुंग्सगेमिंसचाफ़्ट के लिए आवश्यक है कि अनुसंधान डेटा को शोधकर्ता के अपने संस्थान या उपयुक्त राष्ट्रव्यापी बुनियादी ढांचे में कम से कम 10 वर्षों के लिए संग्रहीत किया जाना चाहिए।

ब्रिटिश डिजिटल क्यूरेशन सेंटर फंडर की डेटा नीतियों का अवलोकन रखता है।

डेटा लाइब्रेरी
अनुसंधान डेटा को डेटा लाइब्रेरी या डेटा अभिलेखागार में संग्रहीत किया जाता है। डेटा लाइब्रेरी, डेटा संग्रह, या डेटा रिपॉजिटरी अनुसंधान में द्वितीयक उपयोग के लिए संख्यात्मक और/या भू-स्थानिक डेटा सेट का संग्रह है। डेटा लाइब्रेरी आम तौर पर बड़े संस्थान (शैक्षणिक, कॉर्पोरेट, वैज्ञानिक, चिकित्सा, सरकारी, आदि) का हिस्सा होती है। अनुसंधान डेटा संग्रह और उस संगठन के डेटा उपयोगकर्ताओं की सेवा के लिए स्थापित किया गया। डेटा लाइब्रेरी में स्थानीय डेटा संग्रह होते हैं और विभिन्न माध्यमों (डाउनलोड के लिए कॉम्पैक्ट डिस्क-/डीवीडी-रोम या केंद्रीय सर्वर (कंप्यूटिंग)) के माध्यम से उन तक पहुंच प्रदान की जाती है। डेटा लाइब्रेरी अपने उपयोगकर्ताओं के लिए जानकारी तक पहुंचने के लिए लाइसेंस प्राप्त डेटा संसाधनों की सदस्यता भी बनाए रख सकती है। क्या डेटा लाइब्रेरी को डेटा संग्रह भी माना जाता है, यह संग्रह में अद्वितीय होल्डिंग्स की सीमा पर निर्भर हो सकता है, क्या दीर्घकालिक संरक्षण सेवाएं पेश की जाती हैं, और क्या यह व्यापक समुदाय को सेवा प्रदान करता है (जैसा कि राष्ट्रीय डेटा अभिलेखागार करते हैं)। अधिकांश सार्वजनिक डेटा लाइब्रेरी रिसर्च डेटा रिपॉजिटरी की रजिस्ट्री में सूचीबद्ध हैं।

महत्व और सेवाएँ
अगस्त 2001 में, अनुसंधान पुस्तकालयों का संघ (एआरएल) ने रिपोर्ट प्रकाशित की संख्यात्मक डेटा संसाधनों के लिए सेवाएं त्र करने और प्रदान करने में शामिल एआरएल सदस्य संस्थानों के सर्वेक्षण से परिणाम प्रस्तुत करना।

अनुसंधान में संख्यात्मक और अन्य प्रकार के डेटा सेट के उपयोग के लिए संस्थागत स्तर पर सहायता प्रदान करने वाली पुस्तकालय सेवा। आम तौर पर उपलब्ध सहायता गतिविधियों में से:
 * संदर्भ सहायता - उपयोगकर्ता क्वेरी के जवाब में किसी विशेष विषय या विषयों के समूह पर मापने योग्य चर वाले संख्यात्मक या भू-स्थानिक डेटासेट का पता लगाना।
 * उपयोगकर्ता निर्देश - विशेष विषयों पर डेटा संसाधनों का पता लगाने, डेटा को कैसे डाउनलोड करें और इसे स्प्रेडशीट, सांख्यिकीय, डेटाबेस या जीआईएस पैकेज में कैसे पढ़ें, कोडबुक और अन्य दस्तावेज़ों की व्याख्या कैसे करें, में उपयोगकर्ताओं के समूहों को व्यावहारिक प्रशिक्षण प्रदान करना।
 * तकनीकी सहायता - जिसमें पंजीकरण प्रक्रियाओं को आसान बनाना, डेटासेट के साथ समस्याओं का निवारण करना, जैसे दस्तावेज़ीकरण में त्रुटियाँ, डेटा को किसी ऐसी चीज़ में पुन: स्वरूपित करना जिसके साथ उपयोगकर्ता काम कर सकता है, और सांख्यिकीय पद्धति में मदद करना शामिल है।
 * संग्रह विकास एवं प्रबंधन - स्थानीय उपयोगकर्ता समुदाय द्वारा द्वितीयक विश्लेषण के लिए उपयोग की जाने वाली डेटा फ़ाइलों के संग्रह को प्राप्त करना, बनाए रखना और प्रबंधित करना; संस्थागत डेटा सदस्यताएँ खरीदें; संस्थान के लिए डेटा प्रदाताओं और राष्ट्रीय डेटा अभिलेखागार के लिए साइट प्रतिनिधि के रूप में कार्य करें।
 * संरक्षण और डेटा साझाकरण सेवाएँ - संग्रह में डेटासेट के संरक्षण की रणनीति पर कार्य करें, जैसे मीडिया रिफ्रेशमेंट और फ़ाइल प्रारूप माइग्रेशन; केंद्रीय भंडार से अद्यतन संस्करणों को डाउनलोड करें और रिकॉर्ड रखें। इसके अलावा, उपयोगकर्ताओं को दूसरों के द्वितीयक उपयोग के लिए मूल डेटा तैयार करने में सहायता करना; या तो केंद्रीय या संस्थागत भंडार में जमा करने के लिए, या डेटा साझा करने के कम औपचारिक तरीकों के लिए। इसमें डेटा को उचित XML मानक में चिह्नित करना भी शामिल हो सकता है, जैसे डेटा दस्तावेज़ीकरण पहल, या ऑनलाइन खोज की सुविधा के लिए अन्य मेटाडेटा जोड़ना।

प्राकृतिक विज्ञान
निम्नलिखित सूची वैज्ञानिक डेटा अभिलेखागार को संदर्भित करती है।
 * सीआईएसएल रिसर्च डेटा आर्काइव
 * डेटाऑन
 * ड्रायड (भण्डार)
 * ईएसओ/एसटी-ईसीएफ विज्ञान पुरालेख सुविधा
 * इंटरनेशनल ट्री-रिंग डेटा बैंक
 * राजनीतिक और सामाजिक अनुसंधान के लिए इंटर-यूनिवर्सिटी कंसोर्टियम
 * बायोकॉम्प्लेक्सिटी के लिए नॉलेज नेटवर्क
 * उम्र बढ़ने पर कम्प्यूटरीकृत डेटा का राष्ट्रीय पुरालेख
 * आपराधिक न्याय डेटा का राष्ट्रीय पुरालेख
 * एनसीएआर रिसर्च डेटा आर्काइव: http://rda.ucar.edu
 * राष्ट्रीय जलवायु डेटा केंद्र
 * राष्ट्रीय भूभौतिकीय डेटा केंद्र
 * राष्ट्रीय हिम और बर्फ डेटा केंद्र
 * राष्ट्रीय समुद्र विज्ञान डेटा केंद्र
 * ओक रिज नेशनल लेबोरेटरी डिस्ट्रिब्यूटेड ्टिव आर्काइव सेंटर
 * पैंजिया (डेटा लाइब्रेरी)|पैंजिया - पृथ्वी और पर्यावरण विज्ञान के लिए डेटा प्रकाशक
 * SeaBASS (डेटा संग्रह)|NASA SeaBASS - समुद्री रंग डेटा के लिए डेटा संग्रह
 * विश्व डेटा सेंटर

सामाजिक विज्ञान
सामाजिक विज्ञान में, डेटा लाइब्रेरी को डेटा अभिलेखागार के रूप में जाना जाता है। डेटा अभिलेखागार सामाजिक और व्यवहारिक डेटा के अधिग्रहण, तैयारी, संरक्षण और प्रसार के लिए पेशेवर संस्थान हैं। सामाजिक विज्ञान में डेटा संग्रह 1950 के दशक में विकसित हुआ और इसे अंतरराष्ट्रीय आंदोलन के रूप में माना गया है:

1964 तक अंतर्राष्ट्रीय सामाजिक विज्ञान परिषद (आईएसएससी) ने सामाजिक विज्ञान डेटा अभिलेखागार पर दूसरे सम्मेलन को प्रायोजित किया था और सामाजिक विज्ञान डेटा पर स्थायी समिति थी, दोनों ने डेटा अभिलेखागार आंदोलन को प्रेरित किया था। इक्कीसवीं सदी की शुरुआत तक, अधिकांश विकसित देशों और कुछ विकासशील देशों ने औपचारिक और अच्छी तरह से कार्यशील राष्ट्रीय डेटा अभिलेखागार का आयोजन किया था। इसके अलावा, कॉलेज और विश्वविद्यालय परिसरों में अक्सर 'डेटा लाइब्रेरी' होती हैं जो उनके संकाय, कर्मचारियों और छात्रों को डेटा उपलब्ध कराती हैं; इनमें से अधिकांश न्यूनतम अभिलेखीय जिम्मेदारी वहन करते हैं, उस कार्य के लिए राष्ट्रीय संस्थान पर निर्भर होते हैं (रॉकवेल, 2001, पृष्ठ 3227)।


 * रिसर्च डेटा रिपॉजिटरी की रजिस्ट्री|re3data.org सभी विषयों से रिसर्च डेटा रिपॉजिटरी इंडेक्सिंग डेटा अभिलेखागार की वैश्विक रजिस्ट्री है: http://www.re3data.org
 * CESSDA सदस्य डेटा संग्रहकर्ता और अन्य संगठन हैं जो सामाजिक विज्ञान डेटा संग्रहीत करते हैं और द्वितीयक उपयोग के लिए डेटा प्रदान करते हैं: https://www.cessda.eu/About/Consortium
 * यूरोपीय सामाजिक विज्ञान डेटा अभिलेखागार का संघ: http://www.cessda.org/
 * फिनिश सोशल साइंस डेटा आर्काइव (FSD): http://www.fsd.uta.fi/
 * डेनिश डेटा अभिलेखागार: http://www.sa.dk/content/us/about_us ; विशिष्ट पृष्ठ (केवल डेनिश में): https://web.archive.org/web/20150318230743/http://www.sa.dk/dda/default.htm
 * राजनीतिक और सामाजिक अनुसंधान के लिए अंतर-विश्वविद्यालय संघ: http://www.icpsr.umich.edu/
 * द रोपर सेंटर फॉर पब्लिक ओपिनियन रिसर्च: https://ropercenter.cornell.edu/
 * सामाजिक विज्ञान डेटा पुरालेख: http://dataarchives.ss.ucla.edu/
 * कॉर्नेल सेंटर फॉर सोशल साइंसेज: https://socialsciences.cornell.edu/ciser-data-and-reproduction-archive

यह भी देखें

 * डेटा बैंक
 * डेटा सेंटर
 * डेटा क्यूरेशन
 * डिजिटल क्यूरेशन
 * डिजिटल संरक्षण
 * मुक्त डेटा

टिप्पणियाँ

 * Registry of Research Data Repositories re3data.org
 * Statistical checklist required by Nature
 * Policies of Proceedings of the National Academy of Sciences (U.S.)
 * The US National Committee for CODATA
 * The Role of Data and Program Code Archives in the Future of Economic Research
 * Data sharing and replication – Gary King website
 * The Case for Due Diligence When Empirical Research is Used in Policy Formation by McCullough and McKitrick
 * Thoughts on Refereed Journal Publication by Chuck Doswell
 * “How to encourage the right behaviour” An opinion piece published in Nature, March, 2002.
 * NASA Astrophysics Data System
 * Panton Principles for Open Data in Science, at Citizendium
 * Inter-university Consortium for Political and Social Research

अग्रिम पठन

 * Clubb, J., Austin, E., and Geda, C. "'Sharing research data in the social sciences.'" In Sharing Research Data, S. Fienberg, M. Martin, and M. Straf, Eds. National Academy Press, Washington, D.C., 1985, 39-88.
 * Geraci, D., Humphrey, C., and Jacobs, J. Data Basics. Canadian Library Association, Ottawa, ON, 2005.
 * Heim, Kathleen M. "Social Scientific Information Needs for Numeric Data: The Evolution of the International Data Archive Infrastructure." Collection Management 9 (Spring 1987): 1-53.
 * Martinez, Luis & Macdonald, Stuart, "'Supporting local data users in the UK academic community'". Ariadne, issue 44, July 2005.
 * See the IASSIST Bibliography of Selected Works for articles tracing the history of data libraries and its relationship to the archivist profession, going back to the 1960s and '70s up to 1996.
 * See IASSIST Quarterly articles from 1993 to the present, focusing on data libraries, data archives, data support, and information technology for the social sciences.

बाहरी संबंध

 * University of California Irvine Machine Learnimg Repository

संघ

 * IASSIST (सामाजिक विज्ञान सूचना और सेवा प्रौद्योगिकी के लिए अंतर्राष्ट्रीय संघ)
 * DISC-UK (डेटा सूचना विशेषज्ञ समिति-यूनाइटेड किंगडम)
 * APDU (सार्वजनिक डेटा उपयोगकर्ताओं का संघ - यूएसए)
 * CAPDU (कैनेडियन एसोसिएशन ऑफ पब्लिक डेटा यूजर्स)

श्रेणी:कंप्यूटर पुरालेख श्रेणी:डेटा प्रबंधन श्रेणी:डेटा प्रकाशन श्रेणी:डिजिटल संरक्षण श्रेणी:सूचना पुनर्प्राप्ति तकनीक श्रेणी:ज्ञान प्रतिनिधित्व श्रेणी:संरचित भंडारण