डेटा सेट: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 8: Line 8:


== गुण ==
== गुण ==
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता]]।{{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=Jan M. Żytkow, Jan Rauch |isbn=978-3-540-66490-1 |year=2000}}</रेफरी>
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता|कुर्तोसिस]]। {{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=जान एम. ज़्य्टको, जन राउच |isbn=978-3-540-66490-1 |year=2000}}</रेफरी>


मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की जातीयता का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लापता मान भी हो सकते हैं, जिन्हें किसी तरह इंगित किया जाना चाहिए।
मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।


आंकड़ों में, डेटा सेट आमतौर पर एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों से मेल खाती है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा गायब है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।
आंकड़ों में, डेटा सेट आमतौर पर एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों से मेल खाती है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा गायब है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।

Revision as of 12:27, 19 December 2022

डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक तालिकाओं (डेटाबेस) के समान है, जहाँ तालिका का प्रत्येक स्तंभ (डेटाबेस) एक विशेष चर (संगणक विज्ञान) का प्रतिनिधित्व करता है, और प्रत्येक पंक्ति (डेटाबेस) एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी शामिल हो सकता है।[1]

ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।[2] कुछ अन्य मुद्दे (वास्तविक-समय डेटा,[3] NoSQL गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में आम सहमति तक पहुंचने में कठिनाई को बढ़ाता है।[3]


गुण

कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न सांख्यिकीय उपाय, जैसे कि मानक विचलन और कुर्तोसिसजान एम. ज़्य्टको, जन राउच (2000). डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत. ISBN 978-3-540-66490-1.</रेफरी>

मान संख्याएँ हो सकती हैं, जैसे वास्तविक संख्याएँ या पूर्णांक, उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।

आंकड़ों में, डेटा सेट आमतौर पर एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों से मेल खाती है। कुछ प्रकार के सॉफ़्टवेयर के परीक्षण के उद्देश्य से एल्गोरिदम द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। एसपीएसएस जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा गायब है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है। रेफरी नाम = एसडीई>United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन. United Nations Publications. p. 20. ISBN 978-9211169522. Retrieved 19 July 2015.</रेफरी>

क्लासिक डेटा सेट

सांख्यिकीय साहित्य में कई क्लासिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:

डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:

यह भी देखें


संदर्भ

  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल". International Journal of Internet Science. 7: 1–5.
  2. "यूरोपीय खुला डेटा पोर्टल". यूरोपीय खुला डेटा पोर्टल. European Commission. Retrieved 2016-09-23.
  3. 3.0 3.1 Atz, U (2014). "डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक" (PDF). CEDEM 2014 Proceedings. Archived (PDF) from the original on 2016-08-20. Retrieved 2016-08-01.
  4. Fisher, R.A. (1963). "टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Archived from the original (PDF) on 2011-09-28. Retrieved 2007-05-22.


बाहरी संबंध