डेटा विज्ञान

डेटा साइंस एक अंतःविषय शैक्षणिक क्षेत्र है जो शोर, संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने या एक्सट्रपलेशन करने के लिए सांख्यिकी, वैज्ञानिक कंप्यूटिंग, वैज्ञानिक विधियों, प्रक्रियाओं, कलन विधि और सिस्टम का उपयोग करता है। डेटा साइंस अंतर्निहित एप्लिकेशन डोमेन (जैसे, प्राकृतिक विज्ञान, सूचना प्रौद्योगिकी और चिकित्सा) से डोमेन ज्ञान को भी एकीकृत करता है। डेटा विज्ञान बहुआयामी है और इसे एक विज्ञान, एक शोध प्रतिमान, एक शोध पद्धति, एक अनुशासन, एक कार्यप्रवाह और एक पेशे के रूप में वर्णित किया जा सकता है। आंकड़े विज्ञान डेटा के साथ वास्तविक घटनाओं को समझने और उनका विश्लेषण करने के लिए सांख्यिकी, डेटा विश्लेषण, सूचना विज्ञान और उनसे संबंधित वैज्ञानिक तरीकों को एकीकृत करने की एक अवधारणा है। यह गणित, सांख्यिकी, कंप्यूटर विज्ञान, सूचना विज्ञान और डोमेन ज्ञान के संदर्भ में कई क्षेत्रों से ली गई तकनीकों और सिद्धांतों का उपयोग करता है। हालाँकि, डेटा विज्ञान कंप्यूटर विज्ञान और सूचना विज्ञान से अलग है। ट्यूरिंग अवार्ड विजेता जिम ग्रे (कंप्यूटर वैज्ञानिक) ने विज्ञान के चौथे प्रतिमान (अनुभवजन्य अनुसंधान, बुनियादी अनुसंधान, कम्प्यूटेशनल विज्ञान, और अब डेटा-संचालित) के रूप में डेटा विज्ञान की कल्पना की और दावा किया कि सूचना प्रौद्योगिकी के प्रभाव के कारण विज्ञान के बारे में सब कुछ बदल रहा है और सूचना विस्फोट। एक डेटा वैज्ञानिक एक पेशेवर है जो प्रोग्रामिंग कोड बनाता है और डेटा से अंतर्दृष्टि बनाने के लिए इसे सांख्यिकीय ज्ञान के साथ जोड़ता है।

नींव
डेटा साइंस एक अंतर्विषयक अकादमिक अनुशासन है आम तौर पर बड़े डेटा डेटा सेट से ज्ञान निकालने और उस डेटा से ज्ञान और अंतर्दृष्टि को आवेदन डोमेन की एक विस्तृत श्रृंखला में समस्या-समाधान पर लागू करने पर केंद्रित है। क्षेत्र में विश्लेषण के लिए डेटा तैयार करना, डेटा विज्ञान की समस्याओं को तैयार करना, विश्लेषण डेटा, डेटा-संचालित समाधान विकसित करना और आवेदन डोमेन की एक विस्तृत श्रृंखला में उच्च-स्तरीय निर्णयों को सूचित करने के लिए निष्कर्ष प्रस्तुत करना शामिल है। जैसे, यह कंप्यूटर विज्ञान, सांख्यिकी, सूचना विज्ञान, गणित, डेटा विज़ुअलाइज़ेशन, सूचना विज़ुअलाइज़ेशन, डेटा सोनिफिकेशन, डेटा डेटा एकीकरण, ग्राफ़िक डिज़ाइन, जटिल सिस्टम, संचार और व्यवसाय से कौशल को शामिल करता है। सांख्यिकीविद् नाथन याउ, बेन फ्राई पर आरेखण, डेटा विज्ञान को मानव-कंप्यूटर इंटरैक्शन से भी जोड़ता है: उपयोगकर्ताओं को सहजता से डेटा को नियंत्रित करने और अन्वेषण करने में सक्षम होना चाहिए।  2015 में,  अमेरिकी सांख्यिकीय संघ  ने डेटाबेस प्रबंधन, सांख्यिकी और  यंत्र अधिगम, और वितरित कंप्यूटिंग को तीन उभरते मूलभूत पेशेवर समुदायों के रूप में पहचाना।

आँकड़ों से संबंध
नैट सिल्वर सहित कई सांख्यिकीविदों ने तर्क दिया है कि डेटा विज्ञान कोई नया क्षेत्र नहीं है, बल्कि सांख्यिकी का दूसरा नाम है। दूसरों का तर्क है कि डेटा विज्ञान सांख्यिकी से अलग है क्योंकि यह डिजिटल डेटा के लिए अद्वितीय समस्याओं और तकनीकों पर केंद्रित है। वसंत धार लिखते हैं कि सांख्यिकी मात्रात्मक डेटा और विवरण पर जोर देती है। इसके विपरीत, डेटा विज्ञान मात्रात्मक और गुणात्मक डेटा (जैसे छवियों, पाठ, सेंसर, लेनदेन, ग्राहक जानकारी आदि) से संबंधित है और भविष्यवाणी और कार्रवाई पर जोर देता है। कोलंबिया विश्वविद्यालय के एंड्रयू गेलमैन ने सांख्यिकी को डेटा विज्ञान का एक गैर-जरूरी हिस्सा बताया है। स्टैनफोर्ड के प्रोफेसर डेविड डोनोहो लिखते हैं कि डेटा विज्ञान को डेटासेट के आकार या कंप्यूटिंग के उपयोग से आँकड़ों से अलग नहीं किया जाता है और कई स्नातक कार्यक्रम डेटा-विज्ञान कार्यक्रम के सार के रूप में अपने एनालिटिक्स और सांख्यिकी प्रशिक्षण को भ्रामक रूप से विज्ञापित करते हैं। वह डेटा साइंस को पारंपरिक आंकड़ों से विकसित होने वाले एक अनुप्रयुक्त क्षेत्र के रूप में वर्णित करता है।

प्रारंभिक उपयोग
1962 में, जॉन टुकी  ने एक क्षेत्र का वर्णन किया जिसे उन्होंने डेटा विश्लेषण कहा, जो आधुनिक डेटा विज्ञान से मिलता जुलता है। 1985 में, बीजिंग में चाइनीज एकेडमी ऑफ साइंसेज को दिए गए एक व्याख्यान में, सी. एफ. जेफ वू ने आंकड़ों के वैकल्पिक नाम के रूप में पहली बार डेटा साइंस शब्द का इस्तेमाल किया। बाद में, मोंटपेलियर 2 विश्वविद्यालय|मोंटपेलियर II विश्वविद्यालय में 1992 के सांख्यिकी संगोष्ठी में उपस्थित लोगों ने कंप्यूटिंग के साथ सांख्यिकी और डेटा विश्लेषण की स्थापित अवधारणाओं और सिद्धांतों के संयोजन, विभिन्न मूल और रूपों के डेटा पर केंद्रित एक नए अनुशासन के उद्भव को स्वीकार किया। डेटा साइंस शब्द का पता 1974 में लगाया गया है, जब पीटर नौर ने इसे कंप्यूटर साइंस के वैकल्पिक नाम के रूप में प्रस्तावित किया था। 1996 में, इंटरनेशनल फेडरेशन ऑफ क्लासिफिकेशन सोसाइटीज विशेष रूप से डेटा साइंस को एक विषय के रूप में पेश करने वाला पहला सम्मेलन बन गया। हालाँकि, परिभाषा अभी भी प्रवाह में थी। बीजिंग में चाइनीज एकेडमी ऑफ साइंसेज में 1985 के व्याख्यान के बाद, 1997 में सी. एफ. जेफ वू ने फिर से सुझाव दिया कि सांख्यिकी का नाम बदलकर डेटा साइंस होना चाहिए। उन्होंने तर्क दिया कि एक नया नाम आँकड़ों को गलत रूढ़िवादिता को दूर करने में मदद करेगा, जैसे कि लेखांकन का पर्यायवाची होना या डेटा का वर्णन करने तक सीमित होना। 1998 में, हयाशी चिकियो ने डेटा साइंस के लिए एक नई, अंतःविषय अवधारणा के रूप में तीन पहलुओं के साथ तर्क दिया: डेटा डिज़ाइन, संग्रह और विश्लेषण।

1990 के दशक के दौरान, डेटासेट (जो तेजी से बड़े होते जा रहे थे) में पैटर्न खोजने की प्रक्रिया के लिए लोकप्रिय शब्दों में ज्ञान की खोज और डेटा खनन शामिल थे।

आधुनिक उपयोग
2012 में, प्रौद्योगिकीविद् थॉमस एच. डेवनपोर्ट और डीजे पाटिल ने डेटा साइंटिस्ट: द सेक्सिएस्ट जॉब ऑफ़ द 21 सेंचुरी की घोषणा की, एक कैच-वाक्यांश जिसे न्यूयॉर्क टाइम्स जैसे प्रमुख शहर के समाचार पत्रों द्वारा भी उठाया गया था और बोस्टन ग्लोब। एक दशक बाद, उन्होंने यह कहते हुए इसकी फिर से पुष्टि की कि नियोक्ताओं के बीच नौकरी की पहले से कहीं अधिक मांग है। एक स्वतंत्र विषय के रूप में डेटा विज्ञान की आधुनिक अवधारणा का श्रेय कभी-कभी विलियम एस. क्लीवलैंड को दिया जाता है। 2001 के एक पत्र में, उन्होंने सिद्धांत से परे तकनीकी क्षेत्रों में सांख्यिकी के विस्तार की वकालत की; क्योंकि इससे क्षेत्र में काफी बदलाव आएगा, इसने एक नए नाम की गारंटी दी। अगले कुछ वर्षों में डेटा साइंस का अधिक व्यापक रूप से उपयोग किया जाने लगा: 2002 में, विज्ञान और प्रौद्योगिकी के लिए डेटा संबंधी समिति ने डेटा साइंस जर्नल लॉन्च किया। 2003 में, कोलंबिया विश्वविद्यालय ने द जर्नल ऑफ़ डेटा साइंस लॉन्च किया। 2014 में, अमेरिकन स्टैटिस्टिकल एसोसिएशन के सेक्शन ऑन स्टैटिस्टिकल लर्निंग एंड डेटा माइनिंग ने अपना नाम बदलकर स्टैटिस्टिकल लर्निंग एंड डेटा साइंस पर सेक्शन कर लिया, जो डेटा साइंस की बढ़ती लोकप्रियता को दर्शाता है। 2008 में डेटा वैज्ञानिक के पेशेवर खिताब का श्रेय डीजे पाटिल और जेफ हैमरबैकर को दिया गया। हालांकि राष्ट्रीय विज्ञान बोर्ड द्वारा अपनी 2005 की रिपोर्ट लॉन्ग-लिव डिजिटल डेटा कलेक्शंस: इनेबलिंग रिसर्च एंड एजुकेशन इन द ट्वेंटी फर्स्ट सेंचुरी में इसका इस्तेमाल किया गया था, लेकिन यह मोटे तौर पर डिजिटल डेटा संग्रह के प्रबंधन में किसी भी महत्वपूर्ण भूमिका को संदर्भित करता है। डेटा विज्ञान की परिभाषा पर अभी भी कोई आम सहमति नहीं है, और कुछ लोगों द्वारा इसे मूलमंत्र माना जाता है। बिग डेटा एक संबंधित मार्केटिंग टर्म है। डेटा वैज्ञानिक बड़े डेटा को प्रयोग करने योग्य जानकारी में तोड़ने और सॉफ़्टवेयर और एल्गोरिदम बनाने के लिए ज़िम्मेदार हैं जो कंपनियों और संगठनों को इष्टतम संचालन निर्धारित करने में सहायता करते हैं।

यह भी देखें

 * ओएससी
 * वैज्ञानिक डेटा (जर्नल)
 * डेटा में महिलाएं
 * पायथन (प्रोग्रामिंग भाषा)
 * आर (प्रोग्रामिंग भाषा)
 * डेटा इंजीनियरिंग
 * बड़ा डेटा
 * यंत्र अधिगम