डेटा विज्ञान

सूचना विज्ञान एक अंतःविषय शैक्षणिक क्षेत्र है जो शोर, संरचित और असंरचित डेटा से अवबोधन और अंतर्दृष्टि निकालने या बहिर्वेशन करने के लिए सांख्यिकी, वैज्ञानिक कंप्यूटिंग, वैज्ञानिक विधियों, प्रक्रियाओं, कलन विधि और प्रणाली का उपयोग करता है। सूचना विज्ञान अंतर्निहित एप्लिकेशन कार्यक्षेत्र (जैसे, प्राकृतिक विज्ञान, सूचना प्रौद्योगिकी और चिकित्सा) से कार्यक्षेत्र ज्ञान को भी एकीकृत करता है। डेटा विज्ञान बहुआयामी है और इसे एक विज्ञान, एक शोध प्रतिमान, एक शोध पद्धति, एक अनुशासन, एक कार्यप्रवाह और एक व्यवसाय के रूप में वर्णित किया जा सकता है। सूचना विज्ञान डेटा के साथ वास्तविक घटनाओं को समझने और उनका विश्लेषण करने के लिए सांख्यिकी, डेटा विश्लेषण, सूचना विज्ञान और उनसे संबंधित वैज्ञानिक तरीकों को एकीकृत करने की एक अवधारणा है। यह गणित, सांख्यिकी, कंप्यूटर विज्ञान, सूचना विज्ञान और कार्यक्षेत्र ज्ञान के संदर्भ में कई क्षेत्रों से ली गई तकनीकों और सिद्धांतों का उपयोग करता है। हालाँकि, डेटा विज्ञान कंप्यूटर विज्ञान और सूचना विज्ञान से अलग है। ट्यूरिंग अवार्ड विजेता जिम ग्रे (कंप्यूटर वैज्ञानिक) ने विज्ञान के चौथे प्रतिमान (अनुभवजन्य अनुसंधान, बुनियादी अनुसंधान, कम्प्यूटेशनल विज्ञान, और अब डेटा-संचालित) के रूप में डेटा विज्ञान की कल्पना की और दावा किया कि सूचना प्रौद्योगिकी के प्रभाव के कारण विज्ञान के बारे में सब कुछ बदल रहा है ।

डेटा वैज्ञानिक एक व्य्वसायी है जो प्रोग्रामिंग कोड बनाता है और डेटा से अंतर्दृष्टि बनाने के लिए इसे सांख्यिकीय ज्ञान के साथ जोड़ता है।

नींव
सूचना विज्ञान एक अंतर्विषयक अकादमिक अनुशासन है सामान्यतः बड़े डेटा सेट से ज्ञान निकालने और उस डेटा से अवबोधन और अंतर्दृष्टि को आवेदन कार्यक्षेत्र की एक विस्तृत श्रृंखला में समस्या-समाधान पर लागू करने पर केंद्रित है। क्षेत्र में विश्लेषण के लिए डेटा तैयार करना, डेटा विज्ञान की समस्याओं को तैयार करना, विश्लेषण डेटा, डेटा-संचालित समाधान विकसित करना और आवेदन कार्यक्षेत्र की एक विस्तृत श्रृंखला में उच्च-स्तरीय निर्णयों को सूचित करने के लिए निष्कर्ष प्रस्तुत करना सम्मिलित है। जैसे, यह कंप्यूटर विज्ञान, सांख्यिकी, सूचना विज्ञान, गणित, डेटा मानसिक चित्रण, सूचना मानसिक चित्रण, डेटा सोनिफिकेशन, डेटा एकीकरण, ग्राफ़िक डिज़ाइन, जटिल प्रणाली, संचार और व्यवसाय से कौशल को सम्मिलित करता है। सांख्यिकीविद् नाथन याउ, बेन फ्राई पर आरेखण, डेटा विज्ञान को मानव-कंप्यूटर पारस्परिक प्रभाव से भी जोड़ता है: उपयोगकर्ताओं को सहजता से डेटा को नियंत्रित करने और अन्वेषण करने में सक्षम होना चाहिए।  2015 में,  अमेरिकी सांख्यिकीय संघ ने डेटाबेस प्रबंधन, सांख्यिकी और यंत्र अधिगम, और वितरित कंप्यूटिंग को तीन उभरते मूलभूत व्यावसायिक समुदायों के रूप में पहचाना।

आँकड़ों से संबंध
नैट सिल्वर सहित कई सांख्यिकीविदों ने तर्क दिया है कि डेटा विज्ञान कोई नया क्षेत्र नहीं है, बल्कि सांख्यिकी का दूसरा नाम है। दूसरों का तर्क है कि डेटा विज्ञान सांख्यिकी से अलग है क्योंकि यह डिजिटल डेटा के लिए अद्वितीय समस्याओं और तकनीकों पर केंद्रित है। वसंत धार लिखते हैं कि सांख्यिकी मात्रात्मक डेटा और विवरण पर जोर देती है। इसके विपरीत, डेटा विज्ञान मात्रात्मक और गुणात्मक डेटा (जैसे छवियों, पाठ, सेंसर, लेनदेन, ग्राहक जानकारी आदि) से संबंधित है और भविष्यवाणी और कार्रवाई पर जोर देता है। कोलंबिया विश्वविद्यालय के एंड्रयू गेलमैन ने सांख्यिकी को डेटा विज्ञान का एक गैर-जरूरी हिस्सा बताया है।

स्टैनफोर्ड के प्रोफेसर डेविड डोनोहो लिखते हैं कि डेटा विज्ञान को डेटासेट के आकार या कंप्यूटिंग के उपयोग से आँकड़ों से अलग नहीं किया जाता है और कई स्नातक कार्यक्रम डेटा-विज्ञान कार्यक्रम के सार के रूप में अपने एनालिटिक्स और सांख्यिकी प्रशिक्षण को भ्रामक रूप से विज्ञापित करते हैं। वह सूचना विज्ञान को पारंपरिक आंकड़ों से विकसित होने वाले एक अनुप्रयुक्त क्षेत्र के रूप में वर्णित करता है।

प्रारंभिक उपयोग
1962 में, जॉन टुकी ने एक क्षेत्र का वर्णन किया जिसे उन्होंने डेटा विश्लेषण कहा, जो आधुनिक डेटा विज्ञान से मिलता जुलता है। 1985 में, बीजिंग में चाइनीज एकेडमी ऑफ साइंसेज को दिए गए एक व्याख्यान में, सी. एफ. जेफ वू ने आंकड़ों के वैकल्पिक नाम के रूप में पहली बार सूचना विज्ञान शब्द का उपयोग किया। बाद में, मोंटपेलियर II विश्वविद्यालय में 1992 के सांख्यिकी संगोष्ठी में उपस्थित लोगों ने कंप्यूटिंग के साथ सांख्यिकी और डेटा विश्लेषण की स्थापित अवधारणाओं और सिद्धांतों के संयोजन, विभिन्न मूल और रूपों के डेटा पर केंद्रित एक नए अनुशासन के उद्भव को स्वीकार किया।

सूचना विज्ञान शब्द का पता 1974 में लगाया गया है, जब पीटर नौर ने इसे कंप्यूटर साइंस के वैकल्पिक नाम के रूप में प्रस्तावित किया था। 1996 में, इंटरनेशनल फेडरेशन ऑफ क्लासिफिकेशन सोसाइटीज विशेष रूप से सूचना विज्ञान को एक विषय के रूप में प्रस्तुत करने वाला पहला सम्मेलन बन गया। हालाँकि, परिभाषा अभी भी प्रवाह में थी। बीजिंग में चाइनीज एकेडमी ऑफ साइंसेज में 1985 के व्याख्यान के बाद, 1997 में सी. एफ. जेफ वू ने फिर से सुझाव दिया कि सांख्यिकी का नाम बदलकर सूचना विज्ञान होना चाहिए। उन्होंने तर्क दिया कि एक नया नाम आँकड़ों को गलत रूढ़िवादिता को दूर करने में सहायता करेगा, जैसे कि लेखांकन का पर्यायवाची होना या डेटा का वर्णन करने तक सीमित होना। 1998 में, हयाशी चिकियो ने सूचना विज्ञान के लिए एक नई, अंतःविषय अवधारणा के रूप में तीन पहलुओं के साथ तर्क दिया: डेटा डिज़ाइन, संग्रह और विश्लेषण।

1990 के दशक के दौरान, डेटासेट (जो तीव्रता से बड़े होते जा रहे थे) में प्रतिरूप खोजने की प्रक्रिया के लिए लोकप्रिय शब्दों में ज्ञान की खोज और डेटा खनन सम्मिलित थे।

आधुनिक उपयोग
2012 में, प्रौद्योगिकीविद् थॉमस एच. डेवनपोर्ट और डीजे पाटिल ने डेटा साइंटिस्ट: द सेक्सिएस्ट जॉब ऑफ़ द 21 सेंचुरी की घोषणा की, एक कैच-वाक्यांश जिसे न्यूयॉर्क टाइम्स और बोस्टन ग्लोब जैसे प्रमुख शहर के समाचार पत्रों द्वारा भी उठाया गया था। एक दशक बाद, उन्होंने यह कहते हुए इसकी फिर से पुष्टि की कि नियोक्ताओं के बीच नौकरी की पहले से कहीं अधिक मांग है। एक स्वतंत्र विषय के रूप में डेटा विज्ञान की आधुनिक अवधारणा का श्रेय कभी-कभी विलियम एस. क्लीवलैंड को दिया जाता है। 2001 के एक पत्र में, उन्होंने सिद्धांत से परे तकनीकी क्षेत्रों में सांख्यिकी के विस्तार की वकालत की; क्योंकि इससे क्षेत्र में काफी बदलाव आएगा, इसने एक नए नाम की प्रत्याभुति दी। अगले कुछ वर्षों में सूचना विज्ञान का अधिक व्यापक रूप से उपयोग किया जाने लगा: 2002 में, विज्ञान और प्रौद्योगिकी के लिए डेटा संबंधी समिति ने सूचना विज्ञान जर्नल प्रक्षेपित किया। 2003 में, कोलंबिया विश्वविद्यालय ने द जर्नल ऑफ़ सूचना विज्ञान प्रक्षेपित किया। 2014 में, अमेरिकन स्टैटिस्टिकल एसोसिएशन के सेक्शन ऑन स्टैटिस्टिकल लर्निंग एंड डेटा माइनिंग ने अपना नाम बदलकर स्टैटिस्टिकल लर्निंग एंड सूचना विज्ञान कर लिया, जो सूचना विज्ञान की बढ़ती लोकप्रियता को दर्शाता है।

2008 में डेटा वैज्ञानिक के व्यावसायिक खिताब का श्रेय डीजे पाटिल और जेफ हैमरबैकर को दिया गया। हालांकि राष्ट्रीय विज्ञान बोर्ड द्वारा अपनी 2005 की विवरणी लॉन्ग-लिव डिजिटल डेटा कलेक्शंस: इनेबलिंग रिसर्च एंड एजुकेशन इन द ट्वेंटी फर्स्ट सेंचुरी में इसका उपयोग किया गया था, लेकिन यह स्थूलतः डिजिटल डेटा संग्रह के प्रबंधन में किसी भी महत्वपूर्ण भूमिका को संदर्भित करता है। डेटा विज्ञान की परिभाषा पर अभी भी कोई सामान्य सहमति नहीं है, और कुछ लोगों द्वारा इसे मूलमंत्र माना जाता है। बिग डेटा एक संबंधित विपणन शब्द है। डेटा वैज्ञानिक बड़े डेटा को प्रयोग करने योग्य जानकारी में तोड़ने और सॉफ़्टवेयर और कलन विधि बनाने के लिए त्तर्दायी हैं जो कंपनियों और संगठनों को इष्टतम संचालन निर्धारित करने में सहायता करते हैं।

यह भी देखें

 * ओएससी
 * वैज्ञानिक डेटा (जर्नल)
 * डेटा में महिलाएं
 * पायथन (प्रोग्रामिंग भाषा)
 * आर (प्रोग्रामिंग भाषा)
 * डेटा इंजीनियरिंग
 * बड़ा डेटा
 * यंत्र अधिगम