डाटा (कंप्यूटर विज्ञान)

[[कंप्यूटर विज्ञान]] में, डेटा (एकवचन, बहुवचन, या सामूहिक संज्ञा के रूप में माना जाता है) एक या अधिक प्रतीकों का कोई क्रम है; डेटम डेटा का एकल प्रतीक है। डेटा को सूचना बनने के लिए व्याख्या की आवश्यकता होती है। डिजिटल डेटा वह डेटा है जिसे एनालॉग संकेत  प्रतिनिधित्व के बजाय बाइनरी संख्या प्रणाली (1) और शून्य (0) का उपयोग करके दर्शाया जाता है। आधुनिक (1960 के बाद) कंप्यूटर सिस्टम में, सभी डेटा डिजिटल हैं।

डेटा तीन अवस्थाओं में मौजूद होता है: बाकी डेटा, पारगमन में डेटा और उपयोग में डेटा। एक कंप्यूटर के भीतर डेटा, ज्यादातर मामलों में, समानांतर संचार। कंप्यूटर से या उसके पास जाने वाला डेटा, ज्यादातर मामलों में, धारावाहिक संचार एक एनालॉग डिवाइस से प्राप्त डेटा, जैसे तापमान संवेदक, को एनॉलॉग से डिजिटल परिवर्तित करने वाला उपकरण का उपयोग करके डिजिटल में परिवर्तित किया जा सकता है। मात्रा, वर्ण, या प्रतीकों का प्रतिनिधित्व करने वाला डेटा, जिस पर कंप्यूटर द्वारा संचालन किया जाता है, आधार सामग्री भंडारण और रिकॉर्ड (कंप्यूटर विज्ञान) चुंबकीय टेप पर डेटा स्टोरेज, ऑप्टिकल भंडारण, इलेक्ट्रॉनिक या मैकेनिकल रिकॉर्डिंग मीडिया, और डिजिटल इलेक्ट्रिकल के रूप में डेटा संचार या ऑप्टिकल सिग्नल। डेटा परिधीय  के माध्यम से कंप्यूटर से अंदर और बाहर जाता है।

भौतिक स्मृति तत्वों में एक पता और डेटा संग्रहण का एक बाइट/शब्द शामिल होता है। डिजिटल डेटा को अक्सर रिलेशनल डेटाबेस #RDBMS में संग्रहीत किया जाता है, जैसे तालिका (डेटाबेस)  या SQL डेटाबेस, और आमतौर पर सार कुंजी / मान जोड़े के रूप में प्रदर्शित किया जा सकता है। डेटा को कई अलग-अलग प्रकार की डेटा संरचनाओं में व्यवस्थित किया जा सकता है, जिसमें सरणियाँ, ग्राफ़ (सार [[डेटा प्रकार)]], और ऑब्जेक्ट (कंप्यूटर विज्ञान) शामिल हैं। डेटा संरचनाएँ फ्लोटिंग-पॉइंट अंकगणित, स्ट्रिंग (कंप्यूटर विज्ञान) और यहां तक ​​​​कि अन्य पुनरावर्ती डेटा प्रकार सहित कई अलग-अलग डेटा प्रकारों के डेटा को संग्रहीत कर सकती हैं।

विशेषताएं
मेटा डेटा डेटा को सूचना में अनुवाद करने में मदद करता है। मेटाडेटा डेटा के बारे में डेटा है। मेटाडेटा निहित, निर्दिष्ट या दिया जा सकता है।

भौतिक घटनाओं या प्रक्रियाओं से संबंधित डेटा में एक अस्थायी घटक होगा। यह अस्थायी घटक निहित हो सकता है। यह ऐसा मामला है जब तापमान लॉगर जैसे डिवाइस को तापमान संवेदक से डेटा प्राप्त होता है। जब तापमान प्राप्त होता है तो यह माना जाता है कि डेटा का अब का अस्थायी संदर्भ है। इसलिए डिवाइस तारीख, समय और तापमान को एक साथ रिकॉर्ड कर लेता है। जब डेटा लकड़हारा तापमान का संचार करता है, तो उसे प्रत्येक तापमान रीडिंग के लिए मेटाडेटा के रूप में दिनांक और समय की रिपोर्ट भी करनी चाहिए।

मौलिक रूप से, कंप्यूटर डेटा के रूप में दिए गए निर्देशों के अनुक्रम का पालन करते हैं। किसी दिए गए कार्य (या कार्यों) को करने के लिए निर्देशों के एक सेट को कंप्यूटर प्रोग्राम कहा जाता है। एक प्रोग्राम एक कंप्यूटर या अन्य मशीन के संचालन को नियंत्रित करने के लिए कोडित निर्देशों के रूप में डेटा होता है। नाममात्र के मामले में, कंप्यूटर द्वारा निष्पादन (कंप्यूटिंग) के रूप में प्रोग्राम में मशीन कोड शामिल होगा। कंप्यूटर डेटा भंडारण के तत्व प्रोग्राम द्वारा हेरफेर किए गए, लेकिन वास्तव में सेंट्रल प्रोसेसिंग यूनिट (सीपीयू) द्वारा निष्पादित नहीं किए गए, डेटा भी हैं। सबसे आवश्यक रूप से, एक एकल डेटा एक विशिष्ट स्थान पर संग्रहीत मान (कंप्यूटर विज्ञान) है। इसलिए, कंप्यूटर प्रोग्राम के लिए उनके प्रोग्रामेटिक डेटा में हेरफेर करके, अन्य कंप्यूटर प्रोग्राम पर काम करना संभव है।

किसी फ़ाइल में डेटा बाइट को संग्रहीत करने के लिए, उन्हें फ़ाइल स्वरूप में क्रमबद्ध करना होगा। आमतौर पर, प्रोग्राम विशेष फ़ाइल प्रकारों में संग्रहीत होते हैं, जो अन्य डेटा के लिए उपयोग किए जाने वाले से भिन्न होते हैं। निष्पादनयोग्य में कार्यक्रम होते हैं; अन्य सभी फाइलें भी डेटा फाइलें हैं। हालाँकि, निष्पादन योग्य फ़ाइलों में प्रोग्राम द्वारा उपयोग किया जाने वाला डेटा भी हो सकता है जो प्रोग्राम में बनाया गया है। विशेष रूप से, कुछ निष्पादन योग्य फ़ाइलों में एक डेटा खंड होता है, जिसमें मुख्य रूप से चर के लिए स्थिरांक और प्रारंभिक मान होते हैं, जिनमें से दोनों को डेटा माना जा सकता है।

प्रोग्राम और डेटा के बीच की रेखा धुंधली हो सकती है। एक दुभाषिया (कंप्यूटिंग), उदाहरण के लिए, एक प्रोग्राम है। एक दुभाषिया के लिए इनपुट डेटा अपने आप में एक प्रोग्राम है, केवल देशी मशीन कोड में व्यक्त नहीं किया गया है। कई मामलों में, व्याख्या किया गया प्रोग्राम मानव-पठनीय टेक्स्ट फ़ाइल होगा, जिसे पाठ संपादक  प्रोग्राम के साथ जोड़-तोड़ किया जाता है। मेटाप्रोग्रामिंग में इसी तरह प्रोग्राम शामिल होते हैं जो डेटा के रूप में अन्य प्रोग्रामों में हेरफेर करते हैं।  संकलक ्स, लिंकर (कंप्यूटिंग), डिबगर्स, सॉफ्टवेयर Updater, एंटीवायरस सॉफ्टवेयर जैसे प्रोग्राम और ऐसे अन्य प्रोग्रामों को उनके डेटा के रूप में उपयोग करते हैं।

उदाहरण के लिए, एक उपयोगकर्ता (कंप्यूटिंग) पहले ऑपरेटिंग सिस्टम को एक फ़ाइल से एक शब्द संसाधक  प्रोग्राम लोड करने का निर्देश दे सकता है, और फिर किसी अन्य फ़ाइल में संग्रहीत दस्तावेज़ फ़ाइल स्वरूप को खोलने और संपादित करने के लिए चल रहे प्रोग्राम का उपयोग कर सकता है। इस उदाहरण में, दस्तावेज़ को डेटा माना जाएगा। यदि वर्ड प्रोसेसर में  बानान चेकर  भी होता है, तो स्पेल चेकर के लिए डिक्शनरी (शब्द सूची) को भी डेटा माना जाएगा। वर्तनी परीक्षक द्वारा सुधारों का सुझाव देने के लिए उपयोग किए जाने वाले कलन विधि या तो मशीन कोड डेटा या कुछ व्याख्यात्मक प्रोग्रामिंग भाषा में पाठ होंगे।

एक वैकल्पिक उपयोग में, बाइनरी फ़ाइलें (जो मानव-पठनीय माध्यम नहीं हैं| मानव-पठनीय हैं) को कभी-कभी मानव-पठनीय पाठ फ़ाइल से अलग डेटा कहा जाता है। 2007 में डिजिटल डेटा की कुल राशि 281 बिलियन गीगाबाइट (281 बाइट#मल्टीपल-बाइट यूनिट) होने का अनुमान लगाया गया था।

डेटा कुंजियाँ और मूल्य, संरचनाएँ और दृढ़ता
डेटा में कुंजियाँ मूल्यों के लिए संदर्भ प्रदान करती हैं। डेटा की संरचना के बावजूद, हमेशा एक प्रमुख घटक मौजूद होता है। डेटा मूल्यों को अर्थ देने के लिए डेटा और डेटा-संरचनाओं में कुंजियाँ आवश्यक हैं। एक कुंजी के बिना जो सीधे या परोक्ष रूप से मूल्य से जुड़ा हुआ है, या संरचना में मूल्यों का संग्रह है, मूल्य अर्थहीन हो जाते हैं और डेटा नहीं रह जाते हैं। कहने का तात्पर्य यह है कि डेटा माने जाने के लिए मूल्य घटक से जुड़ा एक महत्वपूर्ण घटक होना चाहिए।

निम्नलिखित उदाहरणों के अनुसार कंप्यूटर में डेटा को कई तरीकों से दर्शाया जा सकता है:

रैम

 * रैंडम एक्सेस मेमोरी (रैम) में वह डेटा होता है जिस तक सीपीयू की सीधी पहुंच होती है। एक सीपीयू केवल अपने प्रोसेसर रजिस्टरों या मेमोरी के भीतर डेटा में हेरफेर कर सकता है। यह डेटा स्टोरेज के विपरीत है, जहां सीपीयू को स्टोरेज डिवाइस (डिस्क, टेप...) और मेमोरी के बीच डेटा ट्रांसफर को निर्देशित करना चाहिए। RAM रैखिक सन्निहित स्थानों की एक सरणी है जिसे एक प्रोसेसर पढ़ने या लिखने के संचालन के लिए एक पता प्रदान करके पढ़ या लिख ​​सकता है। प्रोसेसर किसी भी समय किसी भी क्रम में मेमोरी में किसी भी स्थान पर काम कर सकता है। रैम में डेटा का सबसे छोटा तत्व बाइनरी अंश  होता है। RAM तक पहुँचने की क्षमताएँ और सीमाएँ प्रोसेसर विशिष्ट हैं। सामान्य तौर पर कंप्यूटर डेटा स्टोरेज को एड्रेस 0 (हेक्साडेसिमल 0) से शुरू होने वाले  स्मृति पता  की एक सरणी के रूप में व्यवस्थित किया जाता है। कंप्यूटर आर्किटेक्चर के आधार पर प्रत्येक स्थान आमतौर पर 8 या 32 बिट स्टोर कर सकता है।

कुंजी

 * डेटा कुंजियों को स्मृति में प्रत्यक्ष हार्डवेयर पता नहीं होना चाहिए। डेटा संरचना बनाने के लिए अप्रत्यक्ष, अमूर्त और तार्किक कुंजियों के कोड मूल्यों के सहयोग से संग्रहीत किए जा सकते हैं। डेटा संरचनाओं ने संरचना की शुरुआत से ऑफसेट (कंप्यूटर विज्ञान) (या लिंक या पथ) को पूर्व निर्धारित किया है, जिसमें डेटा मान संग्रहीत हैं। इसलिए, डेटा कुंजी में संरचना की कुंजी और संरचना में ऑफ़सेट (या लिंक या पथ) शामिल हैं। जब इस तरह की संरचना को दोहराया जाता है, तो डेटा मानों की विविधताओं और डेटा कुंजियों को एक ही दोहराई जाने वाली संरचना के भीतर संग्रहीत किया जाता है, परिणाम को एक तालिका (सूचना) के समान माना जा सकता है, जिसमें दोहराई जाने वाली संरचना के प्रत्येक तत्व को एक स्तंभ माना जाता है। और संरचना के प्रत्येक दोहराव को तालिका की एक पंक्ति के रूप में माना जाता है। डेटा के ऐसे संगठन में, डेटा कुंजी आमतौर पर कॉलम के एक (या कई में मानों का संयोजन) में एक मान होता है।

संगठित आवर्ती डेटा संरचनाएं

 * डेटा संरचनाओं को दोहराने की तालिका (सूचना) दृश्य कई संभावनाओं में से एक है। दोहराई जाने वाली डेटा संरचनाओं को पदानुक्रम में व्यवस्थित किया जा सकता है, जैसे कि माता-पिता-बाल संबंधों के एक झरने में नोड एक-दूसरे से जुड़े होते हैं। मान और संभावित रूप से अधिक जटिल डेटा-संरचनाएं नोड्स से जुड़ी हुई हैं। इस प्रकार नोडल पदानुक्रम नोड्स से जुड़े डेटा संरचनाओं को संबोधित करने की कुंजी प्रदान करता है। इस प्रतिनिधित्व को ट्री (डेटा संरचना) के रूप में माना जा सकता है। उदा. आधुनिक कंप्यूटर ऑपरेटिंग सिस्टम फाइल सिस्टम एक सामान्य उदाहरण हैं; और एक्सएमएल एक और है।

क्रमबद्ध या आदेशित डेटा

 * डेटा जब Collation होता है तो उसमें कुछ अन्तर्निहित विशेषताएँ होती हैं। कुंजी के सबसेट के सभी मान एक साथ दिखाई देते हैं। एक ही कुंजी, या प्रमुख परिवर्तनों के एक उपसमुच्चय के साथ डेटा के समूहों के माध्यम से अनुक्रमिक रूप से गुजरने पर, इसे डेटा प्रोसेसिंग सर्किलों में ब्रेक या नियंत्रण ब्रेक के रूप में संदर्भित किया जाता है। यह विशेष रूप से कुंजी के सबसेट पर डेटा मानों के एकत्रीकरण की सुविधा प्रदान करता है।

परिधीय भंडारण

 * फ्लैश मेमोरी जैसी बल्क नॉन - वोलेटाइल मेमोरी के आगमन तक, पेरिफेरल को डेटा लिखकर पारंपरिक रूप से लगातार डेटा स्टोरेज हासिल किया गया था। ये उपकरण आमतौर पर चुंबकीय मीडिया पर एक स्थान की तलाश करते हैं और फिर पूर्व निर्धारित आकार के ब्लॉक (डेटा संग्रहण) को पढ़ते या लिखते हैं। इस मामले में, मीडिया पर खोज स्थान डेटा कुंजी है और ब्लॉक डेटा मान हैं। डेटा फ़ाइलों के लिए डिस्क ड्राइव पर प्रारंभिक उपयोग किए गए कच्चे डिस्क डेटा फ़ाइल-सिस्टम या डिस्क ऑपरेटिंग सिस्टम आरक्षित विखंडन (कंप्यूटिंग)  ब्लॉक। उन प्रणालियों में, फाइलों को भरा जा सकता था, इससे पहले कि उन्हें सभी डेटा लिखे गए थे, डेटा स्थान समाप्त हो गया। इस प्रकार प्रत्येक फ़ाइल के लिए पर्याप्त खाली स्थान सुनिश्चित करने के लिए बहुत अधिक अप्रयुक्त डेटा स्थान अनुत्पादक रूप से आरक्षित किया गया था। बाद में फाइल-सिस्टम ने विभाजन प्रकार पेश किया। उन्होंने विभाजन के लिए डिस्क डेटा स्थान के ब्लॉक आरक्षित किए और आवंटित ब्लॉकों का अधिक आर्थिक रूप से उपयोग किया, गतिशील रूप से विभाजन के ब्लॉक को एक फ़ाइल में आवश्यकतानुसार असाइन करके। इसे प्राप्त करने के लिए, फ़ाइल सिस्टम को कैटलॉग या फ़ाइल आवंटन तालिका में डेटा फ़ाइलों द्वारा कौन से ब्लॉक का उपयोग या अप्रयुक्त किया गया था, इसका ट्रैक रखना था। हालांकि इसने डिस्क डेटा स्थान का बेहतर उपयोग किया, इसके परिणामस्वरूप डिस्क भर में फ़ाइलों का विखंडन हुआ, और डेटा पढ़ने के लिए अतिरिक्त खोज समय के कारण सहवर्ती प्रदर्शन ओवरहेड हो गया। आधुनिक फ़ाइल सिस्टम फ़ाइल एक्सेस समय को अनुकूलित करने के लिए खंडित फ़ाइलों को गतिशील रूप से पुनर्गठित करते हैं। फाइल सिस्टम में आगे के विकास के परिणामस्वरूप डिस्क ड्राइव का वर्चुअलाइजेशन हुआ, जहां एक तार्किक ड्राइव को कई भौतिक ड्राइव से विभाजन के रूप में परिभाषित किया जा सकता है।

अनुक्रमित डेटा

 * एक बहुत बड़े सेट से डेटा के एक छोटे से सबसेट को पुनः प्राप्त करने का अर्थ हो सकता है कि क्रमिक रूप से डेटा के माध्यम से अक्षम रूप से खोज करना। डाटाबेस इंडेक्स  फ़ाइलों, तालिकाओं और डेटा सेटों में डेटा संरचनाओं से कुंजियों और स्थान के पतों को कॉपी करने का एक तरीका है, फिर मूल डेटा के एक सबसेट को पुनः प्राप्त करने में लगने वाले समय को कम करने के लिए ट्री (डेटा संरचना) का उपयोग करके उन्हें व्यवस्थित करें। ऐसा करने के लिए, पुनर्प्राप्त किए जाने वाले डेटा के सबसेट की कुंजी को पुनर्प्राप्ति शुरू होने से पहले ज्ञात होना चाहिए। सबसे लोकप्रिय इंडेक्स बी-वृक्ष और डायनेमिक हैश फंकशन की इंडेक्सिंग मेथड हैं। डेटा दर्ज करने और पुनर्प्राप्त करने के लिए इंडेक्सिंग ओवरहेड है। अनुक्रमणिका को व्यवस्थित करने के अन्य तरीके हैं, उदा. चाबियों को छांटना और द्विआधारी खोज एल्गोरिथ्म का उपयोग करना।

अमूर्तता और संकेत
यह तात्कालिकता के बाद ही होता है कि एक निर्दिष्ट वर्ग की वस्तु मौजूद होती है। किसी वस्तु का संदर्भ साफ होने के बाद वस्तु का अस्तित्व भी समाप्त हो जाता है। मेमोरी स्थान जहां ऑब्जेक्ट का डेटा संग्रहीत किया गया था कचरा संग्रह (कंप्यूटर विज्ञान) है और पुन: उपयोग के लिए उपलब्ध अप्रयुक्त मेमोरी के रूप में पुनः वर्गीकृत किया गया है।
 * वस्तु-उन्मुख प्रोग्रामिंग डेटा और सॉफ्टवेयर को समझने के लिए दो बुनियादी अवधारणाओं का उपयोग करती है:
 * 1) क्लास (कंप्यूटर प्रोग्रामिंग) की टैक्सोनोमिक रैंक-स्ट्रक्चर, जो एक पदानुक्रमित डेटा संरचना का एक उदाहरण है; और
 * 2) रन टाइम पर, लाइब्रेरी (कंप्यूटिंग) #ऑब्जेक्ट लाइब्रेरी से इंस्टेंस (कंप्यूटर साइंस) की गई वस्तुओं की इन-मेमोरी डेटा-स्ट्रक्चर के संदर्भ का निर्माण।

डेटाबेस डेटा

 * डेटाबेस के आगमन ने लगातार डेटा भंडारण के लिए एक और अमूर्त परत पेश की। डेटाबेस मेटाडेटा का उपयोग करते हैं, और क्लाइंट-सर्वर मॉडल सिस्टम के बीच एक SQL प्रोटोकॉल, संगणक संजाल पर संचार करते हैं, डेटा को सहेजते समय डेटाबेस लेनदेन पूर्णता सुनिश्चित करने के लिए दो-चरण प्रतिबद्ध प्रोटोकॉल लॉगिंग सिस्टम का उपयोग करते हैं।

समानांतर वितरित डाटा प्रोसेसिंग

 * आधुनिक स्केलेबल और उच्च-प्रदर्शन डेटा दृढ़ता प्रौद्योगिकियां, जैसे अपाचे हडूप, उच्च बैंडविड्थ नेटवर्क पर कई कमोडिटी कंप्यूटरों में बड़े पैमाने पर समानांतर वितरित डेटा प्रोसेसिंग पर निर्भर करती हैं। ऐसी प्रणालियों में, डेटा कई कंप्यूटरों में वितरित किया जाता है और इसलिए सिस्टम में किसी विशेष कंप्यूटर को डेटा की कुंजी में प्रत्यक्ष या अप्रत्यक्ष रूप से दर्शाया जाना चाहिए। यह डेटा के दो समान सेटों के बीच अंतर को सक्षम करता है, प्रत्येक को एक ही समय में एक अलग कंप्यूटर पर संसाधित किया जा रहा है।

यह भी देखें

 * बड़ा डेटा
 * डेटा शब्दकोश
 * मॉडलिंग की दिनांक
 * आकड़ों का प्रवाह
 * डेटा सेट
 * डेटाबेस इंडेक्स
 * राज्य (कंप्यूटर विज्ञान)
 * टपल