डेटा विश्लेषण

डेटा विश्लेषण उपयोगी जानकारी की खोज, निष्कर्षों को सूचित करने और निर्णय लेने में सहायता करने के लक्ष्य के साथ डेटा का निरीक्षण, क्लीनिंग, रूपांतरण और मॉडलिंग की एक प्रक्रिया है। डेटा विश्लेषण के कई पहलू और दृष्टिकोण हैं, जिसमें विभिन्न नामों के तहत विविध तकनीकों को सम्मिलित किया गया है, और इसका उपयोग विभिन्न व्यवसाय, विज्ञान और सामाजिक विज्ञान डोमेन में किया जाता है। आज की कारोबारी दुनिया में, डेटा विश्लेषण निर्णयों को अधिक वैज्ञानिक बनाने और व्यवसायों को अधिक प्रभावी ढंग से संचालित करने में मदद करने में एक भूमिका निभाता है।

डेटा माइनिंग एक विशेष डेटा विश्लेषण तकनीक है जो विशुद्ध रूप से वर्णनात्मक उद्देश्यों के अतिरिक्त भविष्यवाणी के लिए सांख्यिकीय मॉडलिंग और ज्ञान की खोज पर केंद्रित है, जबकि व्यावसायिक खुफिया डेटा विश्लेषण को कवर करता है जो मुख्य रूप से व्यावसायिक जानकारी पर ध्यान केंद्रित करते हुए एकत्रीकरण पर निर्भर करता है। सांख्यिकीय अनुप्रयोगों में, डेटा विश्लेषण को वर्णनात्मक आंकड़ों, अनुसंधान डेटा विश्लेषण (EDA), और पुष्टिकरण डेटा विश्लेषण (सीडीए) में विभाजित किया जा सकता है। ईडीए (EDA) डेटा में नई सुविधाओं की खोज पर ध्यान केंद्रित करता है जबकि सीडीए (CDA) मौजूदा परिकल्पनाओं की पुष्टि या मिथ्याकरण पर ध्यान केंद्रित करता है। प्रेडिक्टिव एनालिटिक्स, प्रेडिक्टिव फोरकास्टिंग या वर्गीकरण के लिए सांख्यिकीय मॉडल के अनुप्रयोग पर केंद्रित है, जबकि टेक्स्ट एनालिटिक्स टेक्स्ट के स्रोतों से जानकारी निकालने और वर्गीकृत करने के लिए सांख्यिकीय, भाषाई और संरचनात्मक तकनीकों को प्रयुक्त करता है, जो असंरचित डेटा की एक प्रजाति है। उपरोक्त सभी डेटा विश्लेषण की विविधता हैं।

डेटा एकीकरण डेटा विश्लेषण का अग्रदूत है, और डेटा विश्लेषण डेटा विज़ुअलाइज़ेशन और डेटा प्रसार से निकटता से जुड़ा हुआ है।

डेटा विश्लेषण की प्रक्रिया
विश्लेषण, व्यक्तिगत परीक्षा के लिए संपूर्ण को उसके अलग-अलग घटकों में विभाजित करने को संदर्भित करता है। डेटा विश्लेषण, कच्चा डेटा प्राप्त करने और बाद में इसे उपयोगकर्ताओं द्वारा निर्णय लेने के लिए उपयोगी जानकारी में परिवर्तित करने की एक प्रक्रिया है। डेटा, एकत्र किया जाता है और प्रश्नों के उत्तर देने, परिकल्पनाओं का परीक्षण करने या सिद्धांतों का खंडन करने के लिए विश्लेषण किया जाता है।

सांख्यिकीविद् जॉन टुके ने 1961 में डेटा विश्लेषण को इस प्रकार परिभाषित किया:

"डेटा के विश्लेषण के लिए प्रक्रियाएं, ऐसी प्रक्रियाओं के परिणामों की व्याख्या करने के लिए तकनीक, इसके विश्लेषण को आसान, अधिक सटीक या अधिक सटीक बनाने के लिए डेटा एकत्र करने की योजना बनाने के तरीके, और सभी मशीनरी और (गणितीय) आंकड़ों के परिणाम जो डेटा का विश्लेषण करने के लिए लागू होते हैं। ।"

ऐसे कई चरण हैं जिन्हें नीचे वर्णित किया जा सकता है, जिन्हें प्रतिष्ठित किया जा सकता है। चरण पुनरावृत्त हैं, जिसमें बाद के चरणों से प्रतिक्रिया के परिणामस्वरूप पहले के चरणों में अतिरिक्त कार्य हो सकता है। डेटा माइनिंग में उपयोग किए जाने वाले CRISP ढांचे में समान चरण होते हैं।

डेटा आवश्यकताएं
विश्लेषण के लिए इनपुट के रूप में डेटा आवश्यक है, जो विश्लेषिकी (या ग्राहक, जो विश्लेषण के तैयार उत्पाद का उपयोग करेंगे) को निर्देशित करने वालों की आवश्यकताओं के आधार पर निर्दिष्ट किया जाता है। सामान्य प्रकार की इकाई जिस पर डेटा एकत्र किया जाएगा उसे एक प्रायोगिक इकाई (जैसे, एक व्यक्ति या लोगों की आबादी) के रूप में संदर्भित किया जाता है। जनसंख्या (जैसे, आयु और आय) के संबंध में विशिष्ट चर निर्दिष्ट और प्राप्त किए जा सकते हैं। डेटा संख्यात्मक या श्रेणीबद्ध हो सकता है (यानी, संख्याओं के लिए एक टेक्स्ट लेबल)।

डेटा संग्रह
डेटा विभिन्न स्रोतों से एकत्र किया जाता है। विश्लेषकों द्वारा डेटा के संरक्षकों को आवश्यकताओं के बारे में बताया जा सकता है; जैसे, किसी संगठन के भीतर सूचना प्रौद्योगिकी कर्मी। डेटा को पर्यावरण में सेंसर से भी एकत्र किया जा सकता है, जिसमें ट्रैफिक कैमरा, उपग्रह, रिकॉर्डिंग उपकरण आदि सम्मिलित हैं। यह साक्षात्कार, ऑनलाइन स्रोतों से डाउनलोड, या प्रलेखन पढ़ने के माध्यम से भी प्राप्त किया जा सकता है।

डाटा प्रोसेसिंग
डेटा, जब शुरू में प्राप्त किया जाता है, विश्लेषण के लिए संसाधित या व्यवस्थित किया जाना चाहिए। उदाहरण के लिए, इनमें सामान्यतः स्प्रेडशीट या सांख्यिकीय सॉफ़्टवेयर के उपयोग के माध्यम से डेटा को आगे के विश्लेषण के लिए तालिका प्रारूप (डेटा मॉडल के रूप में जाना जाता है) में पंक्तियों और स्तंभों में रखना सम्मिलित हो सकता है।

डेटा सफाई
एक बार संसाधित और व्यवस्थित होने के बाद, डेटा अधूरा हो सकता है, डुप्लिकेट हो सकता है, या त्रुटियां हो सकती हैं। डेटा की सफाई की आवश्यकता डेटा को दर्ज करने और संग्रहीत करने के तरीके में समस्याओं से उत्पन्न होगी। डेटा की सफाई इन त्रुटियों को रोकने और सुधारने की प्रक्रिया है। सामान्य कार्यों में रिकॉर्ड मिलान, डेटा की अशुद्धि की पहचान करना, मौजूदा डेटा की समग्र गुणवत्ता, डुप्लीकेशन, और कॉलम विभाजन। ऐसी डेटा समस्याओं को विभिन्न विश्लेषणात्मक तकनीकों के माध्यम से भी पहचाना जा सकता है। उदाहरण के लिए; वित्तीय जानकारी के साथ, विशेष चरों के योग की तुलना अलग-अलग प्रकाशित संख्याओं से की जा सकती है, जिन्हें विश्वसनीय माना जाता है। पूर्व निर्धारित सीमा से ऊपर या नीचे असामान्य राशियों की भी समीक्षा की जा सकती है। डेटा की सफाई कई प्रकार की होती है, जो सेट में डेटा के प्रकार पर निर्भर करती है; यह फोन नंबर, ईमेल पते, नियोक्ता या अन्य मूल्य हो सकते हैं। बाहरी पता लगाने के लिए मात्रात्मक डेटा विधियों का उपयोग ऐसे डेटा से छुटकारा पाने के लिए किया जा सकता है जिसमें गलत तरीके से इनपुट होने की संभावना अधिक होती है। गलत टाइप किए गए शब्दों की मात्रा को कम करने के लिए टेक्स्ट डेटा स्पेल चेकर्स का उपयोग किया जा सकता है। चूंकि, यह बताना कठिन है कि क्या शब्द स्वयं सही हैं।

खोजपूर्ण डेटा विश्लेषण
एक बार डेटासेट साफ हो जाने के बाद, उनका विश्लेषण किया जा सकता है। प्राप्त डेटा में निहित संदेशों को समझना शुरू करने के लिए विश्लेषक कई तरह की तकनीकों को लागू कर सकते हैं, जिन्हें खोजपूर्ण डेटा विश्लेषण कहा जाता है। डेटा अन्वेषण की प्रक्रिया के परिणामस्वरूप अतिरिक्त डेटा सफाई या डेटा के लिए अतिरिक्त अनुरोध हो सकते हैं; इस प्रकार, इस खंड के मुख्य पैराग्राफ में उल्लिखित पुनरावृत्त चरणों का आरंभ। डेटा को समझने में सहायता के लिए वर्णनात्मक आँकड़े, जैसे, औसत या माध्यिका, उत्पन्न किए जा सकते हैं। डेटा विज़ुअलाइज़ेशन भी एक तकनीक है जिसका उपयोग किया जाता है, जिसमें विश्लेषक डेटा के भीतर संदेशों के संबंध में अतिरिक्त अंतर्दृष्टि प्राप्त करने के लिए ग्राफिकल प्रारूप में डेटा की जांच करने में सक्षम है।

मॉडलिंग और एल्गोरिदम
गणितीय सूत्र या मॉडल (एल्गोरिदम के रूप में जाना जाता है), चर के बीच संबंधों की पहचान करने के लिए डेटा पर लागू किया जा सकता है; उदाहरण के लिए, सहसंबंध या कार्य-कारण का उपयोग करना। सामान्य शब्दों में, डेटासेट के भीतर निहित अन्य चर (चरों) के आधार पर एक विशिष्ट चर का मूल्यांकन करने के लिए मॉडल विकसित किए जा सकते हैं, जिसमें लागू मॉडल की सटीकता (जैसे, डेटा = मॉडल + त्रुटि) के आधार पर कुछ अवशिष्ट त्रुटि होती है।

जो विशेष चरों के बीच संबंधों को मापता है। उदाहरण के लिए, प्रतिगमन विश्लेषण का उपयोग यह मॉडल करने के लिए किया जा सकता है कि क्या विज्ञापन में परिवर्तन (स्वतंत्र चर X), बिक्री में भिन्नता (आश्रित चर Y) के लिए एक स्पष्टीकरण प्रदान करता है। गणितीय शब्दों में, Y (बिक्री) X (विज्ञापन) का एक फलन है। इसे (Y = aX + b + त्रुटि) के रूप में वर्णित किया जा सकता है, जहां मॉडल इस तरह से डिज़ाइन किया गया है कि (a) और (b) त्रुटि को कम करें जब मॉडल X के मानों की एक निश्चित श्रेणी के लिए Y की भविष्यवाणी करता है। विश्लेषण को सरल बनाने और परिणामों को संप्रेषित करने के उद्देश्य से विश्लेषक ऐसे मॉडल बनाने का प्रयास कर सकते हैं जो डेटा के वर्णनात्मक हों।

डेटा उत्पाद
एक डेटा उत्पाद एक कंप्यूटर अनुप्रयोग है जो डेटा इनपुट लेता है और आउटपुट उत्पन्न करता है, उन्हें पर्यावरण में वापस खिलाता है। [41] यह एक मॉडल या एल्गोरिथम पर आधारित हो सकता है। उदाहरण के लिए, एक एप्लिकेशन जो ग्राहक खरीद इतिहास के बारे में डेटा का विश्लेषण करता है, और अन्य खरीदारियों की सिफारिश करने के लिए परिणामों का उपयोग करता है जो ग्राहक आनंद ले सकते हैं।

संचार


एक बार डेटा का विश्लेषण हो जाने के बाद, यह कई प्रारूपों में विश्लेषण के उपयोगकर्ताओं को उनकी आवश्यकताओं का समर्थन करने के लिए रिपोर्ट किया जा सकता है। उपयोगकर्ताओं के पास प्रतिक्रिया हो सकती है, जिसके परिणामस्वरूप अतिरिक्त विश्लेषण होता है। जैसे, अधिकांश विश्लेषणात्मक चक्र पुनरावृत्तीय है।

यह निर्धारित करते समय कि परिणामों को कैसे संप्रेषित किया जाए, विश्लेषक विभिन्न प्रकार की डेटा विज़ुअलाइज़ेशन तकनीकों को लागू करने पर विचार कर सकता है ताकि दर्शकों को संदेश को अधिक स्पष्ट और कुशलता से संप्रेषित करने में मदद मिल सके। डेटा विज़ुअलाइज़ेशन डेटा में निहित प्रमुख संदेशों को संप्रेषित करने में मदद करने के लिए सूचना प्रदर्शन (ग्राफिक्स जैसे, टेबल और चार्ट) का उपयोग करता है। टेबल एक मूल्यवान टूल है जो उपयोगकर्ता की क्वेरी करने और विशिष्ट संख्याओं पर ध्यान केंद्रित करने की क्षमता को सक्षम करता है; जबकि चार्ट (जैसे, बार चार्ट या लाइन चार्ट), डेटा में निहित मात्रात्मक संदेशों को समझाने में मदद कर सकते हैं।

मात्रात्मक संदेश
स्टीफन फ्यू ने आठ प्रकार के मात्रात्मक संदेशों का वर्णन किया है जिन्हें उपयोगकर्ता डेटा के एक सेट और संदेश को संप्रेषित करने में मदद करने के लिए उपयोग किए गए संबंधित ग्राफ़ से समझने या संवाद करने का प्रयास कर सकते हैं। आवश्यकताओं को निर्दिष्ट करने वाले ग्राहक और डेटा विश्लेषण करने वाले विश्लेषक प्रक्रिया के दौरान इन संदेशों पर विचार कर सकते हैं।


 * 1) समय-श्रृंखला: एक एकल चर को समय की अवधि में कैप्चर किया जाता है, जैसे कि 10 साल की अवधि में बेरोजगारी दर। प्रवृत्ति को प्रदर्शित करने के लिए एक लाइन चार्ट का उपयोग किया जा सकता है।
 * 2) रैंकिंग: श्रेणीबद्ध उपखंडों को आरोही या अवरोही क्रम में क्रमबद्ध किया जाता है, जैसे कि एक ही अवधि के दौरान बिक्री प्रदर्शन (माप) की रैंकिंग (श्रेणी, प्रत्येक विक्रेता के साथ एक श्रेणीबद्ध उपखंड)। एक बार चार्ट का उपयोग सभी सेल्सपर्सन में तुलना दिखाने के लिए किया जा सकता है।
 * 3) भाग-से-संपूर्ण: श्रेणीबद्ध उपखंडों को संपूर्ण के अनुपात के रूप में मापा जाता है (अर्थात, 100% में से एक प्रतिशत)। एक पाई चार्ट या बार चार्ट अनुपातों की तुलना दिखा सकता है, जैसे कि बाजार में प्रतिस्पर्धियों द्वारा प्रस्तुत बाजार हिस्सेदारी।
 * 4) विचलन: श्रेणीबद्ध उप-विभाजनों की तुलना किसी संदर्भ से की जाती है, जैसे किसी निश्चित समय अवधि के लिए व्यवसाय के कई विभागों के लिए वास्तविक बनाम बजट व्यय की तुलना। एक बार चार्ट वास्तविक बनाम संदर्भ राशि की तुलना दिखा सकता है।
 * 5) बारंबारता वितरण: किसी दिए गए अंतराल के लिए एक विशेष चर के अवलोकनों की संख्या को दर्शाता है, जैसे कि वर्षों की संख्या जिसमें शेयर बाजार का रिटर्न अंतराल के बीच होता है जैसे कि 0-10%, 11-20%, आदि। एक हिस्टोग्राम, ए इस विश्लेषण के लिए बार चार्ट के प्रकार का उपयोग किया जा सकता है।
 * 6) सहसंबंध: दो चर (X, Y) द्वारा दर्शाए गए अवलोकनों के बीच तुलना यह निर्धारित करने के लिए कि क्या वे समान या विपरीत दिशाओं में चलते हैं। उदाहरण के लिए, महीनों के नमूने के लिए बेरोजगारी (X) और मुद्रास्फीति (Y) की साजिश रचना। इस संदेश के लिए सामान्यतः एक स्कैटर प्लॉट का उपयोग किया जाता है।
 * 7) नाममात्र की तुलना: किसी विशेष क्रम में श्रेणीबद्ध उपखंडों की तुलना करना, जैसे उत्पाद कोड द्वारा बिक्री की मात्रा। इस तुलना के लिए एक बार चार्ट का उपयोग किया जा सकता है।
 * 8) भौगोलिक या भू-स्थानिक: मानचित्र या लेआउट में एक चर की तुलना, जैसे राज्य द्वारा बेरोजगारी दर या किसी भवन के विभिन्न तलों पर व्यक्तियों की संख्या। कार्टोग्राम एक विशिष्ट ग्राफिक है जिसका उपयोग किया जाता है।

मात्रात्मक डेटा का विश्लेषण करने की तकनीक
लेखक जोनाथन कूमी ने मात्रात्मक डेटा को समझने के लिए सर्वोत्तम प्रथाओं की एक श्रृंखला की सिफारिश की है। इसमे सम्मिलित है:


 * विश्लेषण करने से पहले विसंगतियों के लिए कच्चे डेटा की जाँच करें;
 * महत्वपूर्ण गणनाओं को पुन: निष्पादित करें, जैसे कि सूत्र द्वारा संचालित डेटा के स्तंभों को सत्यापित करना;
 * पुष्टि करें कि मुख्य योग उप-योग का योग हैं;
 * संख्याओं के बीच संबंधों की जाँच करें जो पूर्वानुमेय तरीके से संबंधित होने चाहिए, जैसे समय के साथ अनुपात;
 * तुलना को आसान बनाने के लिए संख्याओं को सामान्य बनाना, जैसे प्रति व्यक्ति या जीडीपी के सापेक्ष राशि का विश्लेषण करना या आधार वर्ष के सापेक्ष सूचकांक मूल्य के रूप में;
 * परिणामों के लिए जिम्मेदार कारकों का विश्लेषण करके समस्याओं को घटक भागों में विभाजित करें, जैसे कि इक्विटी पर रिटर्न का ड्यूपॉन्ट विश्लेषण।

जांच किए जा रहे चरों के लिए, विश्लेषक सामान्यतः उनके लिए वर्णनात्मक आंकड़े प्राप्त करते हैं, जैसे कि माध्य (औसत), माध्यिका और मानक विचलन। इस प्रकार यह देखने के लिए प्रमुख चरों के वितरण का विश्लेषण भी कर सकते हैं कि अलग-अलग मान माध्य के आसपास कैसे समूहित होते हैं। मैकिन्से एंड कंपनी के सलाहकारों ने एक मात्रात्मक समस्या को उसके घटक भागों में तोड़ने के लिए एक तकनीक का नाम दिया, जिसे एमईसीई सिद्धांत कहा जाता है। प्रत्येक परत को उसके घटकों में तोड़ा जा सकता है; प्रत्येक उप-घटक एक दूसरे से परस्पर अनन्य होना चाहिए और सामूहिक रूप से उनके ऊपर की परत में जोड़ना चाहिए। रिश्ते को "परस्पर अनन्य और सामूहिक रूप से संपूर्ण" या एमईसीई के रूप में जाना जाता है। उदाहरण के लिए, परिभाषा के अनुसार लाभ को कुल राजस्व और कुल लागत में विभाजित किया जा सकता है। बदले में, कुल राजस्व का विश्लेषण इसके घटकों द्वारा किया जा सकता है, जैसे कि ए, बी, और सी डिवीजनों का राजस्व (जो एक दूसरे के परस्पर अनन्य हैं) और कुल राजस्व (सामूहिक रूप से संपूर्ण) में जोड़ना चाहिए।

कुछ विश्लेषणात्मक समस्याओं को हल करने के लिए विश्लेषक मजबूत सांख्यिकीय माप का उपयोग कर सकते हैं। परिकल्पना परीक्षण का उपयोग तब किया जाता है जब विश्लेषक द्वारा वास्तविक स्थिति के बारे में एक विशेष परिकल्पना बनाई जाती है और यह निर्धारित करने के लिए डेटा एकत्र किया जाता है कि यह स्थिति सही है या गलत। उदाहरण के लिए, यह परिकल्पना हो सकती है कि "बेरोजगारी का मुद्रास्फीति पर कोई प्रभाव नहीं पड़ता", जो एक अर्थशास्त्र अवधारणा से संबंधित है जिसे फिलिप्स कर्व कहा जाता है। परिकल्पना परीक्षण में टाइप I और टाइप II त्रुटियों की संभावना पर विचार करना सम्मिलित है, जो इस बात से संबंधित है कि डेटा परिकल्पना को स्वीकार करने या अस्वीकार करने का समर्थन करता है या नहीं।

प्रतिगमन विश्लेषण का उपयोग तब किया जा सकता है जब विश्लेषक यह निर्धारित करने की कोशिश कर रहा हो कि स्वतंत्र चर एक्स किस हद तक निर्भर चर वाई को प्रभावित करता है (उदाहरण के लिए, "बेरोजगारी दर (एक्स) में परिवर्तन किस हद तक मुद्रास्फीति दर (वाई) को प्रभावित करते हैं?")। यह डेटा के लिए एक समीकरण रेखा या वक्र को मॉडल या फिट करने का एक प्रयास है, जैसे कि Y, X का एक कार्य है।

आवश्यक स्थिति विश्लेषण (एनसीए) का उपयोग तब किया जा सकता है जब विश्लेषक यह निर्धारित करने की कोशिश कर रहा हो कि किस हद तक स्वतंत्र चर एक्स चर वाई की अनुमति देता है (उदाहरण के लिए, "एक निश्चित मुद्रास्फीति दर (वाई) के लिए एक निश्चित बेरोजगारी दर (एक्स) किस हद तक आवश्यक है) ?") जबकि (एकाधिक) प्रतिगमन विश्लेषण योगात्मक तर्क का उपयोग करता है जहां प्रत्येक एक्स-चर परिणाम उत्पन्न कर सकता है और एक्स एक दूसरे के लिए क्षतिपूर्ति कर सकता है (वे पर्याप्त हैं लेकिन आवश्यक नहीं हैं), आवश्यक स्थिति विश्लेषण (एनसीए) आवश्यकता तर्क का उपयोग करता है, जहां एक या अधिक एक्स-चर परिणाम को अस्तित्व में रखने की अनुमति देते हैं, लेकिन इसे उत्पन्न नहीं कर सकते हैं (वे आवश्यक हैं लेकिन पर्याप्त नहीं हैं)। प्रत्येक आवश्यक शर्त मौजूद होनी चाहिए और मुआवजा संभव नहीं है।

डेटा उपयोगकर्ताओं की विश्लेषणात्मक गतिविधियां
ऊपर उल्लिखित सामान्य संदेश के विपरीत, उपयोगकर्ताओं के पास डेटा सेट के भीतर रुचि के विशेष डेटा बिंदु हो सकते हैं। ऐसी निम्न-स्तरीय उपयोगकर्ता विश्लेषणात्मक गतिविधियाँ निम्न तालिका में प्रस्तुत की गई हैं। वर्गीकरण को गतिविधियों के तीन ध्रुवों द्वारा भी व्यवस्थित किया जा सकता है: मूल्यों को पुनः प्राप्त करना, डेटा बिंदुओं को खोजना और डेटा बिंदुओं को व्यवस्थित करना।

प्रभावी विश्लेषण के लिए बाधाएं
डेटा विश्लेषण करने वाले विश्लेषकों या दर्शकों के बीच प्रभावी विश्लेषण में बाधाएं मौजूद हो सकती हैं। तथ्य को राय से अलग करना, संज्ञानात्मक पूर्वाग्रह, और असंख्यता सभी ठोस डेटा विश्लेषण के लिए चुनौतियाँ हैं।

भ्रमित करने वाले तथ्य और राय
प्रभावी विश्लेषण के लिए प्रश्नों के उत्तर देने, किसी निष्कर्ष या औपचारिक राय का समर्थन करने, या परिकल्पनाओं का परीक्षण करने के लिए प्रासंगिक तथ्य प्राप्त करने की आवश्यकता होती है। परिभाषा के अनुसार तथ्य अकाट्य हैं, जिसका अर्थ है कि विश्लेषण में सम्मिलित कोई भी व्यक्ति उन पर सहमत होने में सक्षम होना चाहिए। उदाहरण के लिए, अगस्त 2010 में, कांग्रेस के बजट कार्यालय (सीबीओ) ने अनुमान लगाया कि 2001 और 2003 की बुश कर कटौती को 2011-2020 की समयावधि के लिए विस्तारित करने से राष्ट्रीय ऋण में लगभग 3.3 ट्रिलियन डॉलर का इजाफा होगा। सभी को इस बात से सहमत होना चाहिए कि वास्तव में सीबीओ ने यही बताया है; वे सभी रिपोर्ट की जांच कर सकते हैं। यह इसे एक तथ्य बनाता है। लोग सीबीओ से सहमत हों या असहमत, यह उनकी अपनी राय है।

एक अन्य उदाहरण के रूप में, एक सार्वजनिक कंपनी के लेखापरीक्षक को औपचारिक राय पर पहुंचना चाहिए कि क्या सार्वजनिक रूप से कारोबार करने वाले निगमों के वित्तीय विवरण "सभी भौतिक मामलों में निष्पक्ष रूप से कहा गया है"। इसके लिए उनकी राय का समर्थन करने के लिए तथ्यात्मक डेटा और साक्ष्य के व्यापक विश्लेषण की आवश्यकता है। तथ्यों से राय की ओर छलांग लगाते समय, राय के गलत होने की संभावना हमेशा बनी रहती है।

संज्ञानात्मक पूर्वाग्रह
विभिन्न प्रकार के संज्ञानात्मक पूर्वाग्रह हैं जो विश्लेषण पर प्रतिकूल प्रभाव डाल सकते हैं। उदाहरण के लिए, पुष्टिकरण पूर्वाग्रह जानकारी की खोज या व्याख्या इस तरह से करने की प्रवृत्ति है जो किसी की पूर्व धारणाओं की पुष्टि करती है। इसके अलावा, व्यक्ति ऐसी जानकारी को बदनाम कर सकते हैं जो उनके विचारों का समर्थन नहीं करती है।

विश्लेषकों को इन पूर्वाग्रहों के बारे में जागरूक होने और उन्हें दूर करने के लिए विशेष रूप से प्रशिक्षित किया जा सकता है। अपनी पुस्तक साइकोलॉजी ऑफ इंटेलिजेंस एनालिसिस में, सेवानिवृत्त सीआईए विश्लेषक रिचर्ड्स ह्यूअर ने लिखा है कि विश्लेषकों को अपनी धारणाओं और अनुमान की श्रृंखला को स्पष्ट रूप से चित्रित करना चाहिए और निष्कर्षों में सम्मिलित अनिश्चितता की डिग्री और स्रोत को निर्दिष्ट करना चाहिए। उन्होंने वैकल्पिक दृष्टिकोणों को सामने लाने और बहस करने में मदद करने के लिए प्रक्रियाओं पर जोर दिया।

अंकगणित
प्रभावी विश्लेषक सामान्यतः विभिन्न प्रकार की संख्यात्मक तकनीकों में माहिर होते हैं। हालाँकि, दर्शकों के पास संख्याओं या संख्यात्मकता के साथ ऐसी साक्षरता नहीं हो सकती है; उन्हें असंख्य कहा जाता है। डेटा को संप्रेषित करने वाले व्यक्ति जानबूझकर खराब संख्यात्मक तकनीकों का उपयोग करते हुए गुमराह करने या गलत सूचना देने का प्रयास कर रहे होंगे।

उदाहरण के लिए, कोई संख्या बढ़ रही है या गिर रही है, यह महत्वपूर्ण कारक नहीं हो सकता है। किसी अन्य संख्या के सापेक्ष संख्या अधिक महत्वपूर्ण हो सकती है, जैसे कि सरकारी राजस्व का आकार या अर्थव्यवस्था के आकार (जीडीपी) के सापेक्ष खर्च या कॉर्पोरेट वित्तीय विवरणों में राजस्व के सापेक्ष लागत की राशि। इस संख्यात्मक तकनीक को सामान्यीकरण या सामान्य आकार के रूप में संदर्भित किया जाता है। विश्लेषकों द्वारा नियोजित ऐसी कई तकनीकें हैं, चाहे मुद्रास्फीति के लिए समायोजन (अर्थात, वास्तविक बनाम नाममात्र डेटा की तुलना करना) या जनसंख्या वृद्धि, जनसांख्यिकी, आदि पर विचार करना। विश्लेषक उपरोक्त अनुभाग में वर्णित विभिन्न मात्रात्मक संदेशों को संबोधित करने के लिए विभिन्न तकनीकों को लागू करते हैं।

विश्लेषक विभिन्न मान्यताओं या परिदृश्य के तहत डेटा का विश्लेषण भी कर सकते हैं। उदाहरण के लिए, जब विश्लेषक वित्तीय विवरण विश्लेषण करते हैं, भविष्य के नकदी प्रवाह के अनुमान पर पहुंचने में मदद करने के लिए वे सामान्यतः विभिन्न मान्यताओं के तहत वित्तीय विवरणों को फिर से तैयार करेंगे, जिसके बाद वे कंपनी या उसके स्टॉक के मूल्यांकन को निर्धारित करने के लिए कुछ ब्याज दर के आधार पर वर्तमान मूल्य पर छूट देते हैं। इसी तरह, सीबीओ सरकार के राजस्व, परिव्यय और घाटे पर विभिन्न नीति विकल्पों के प्रभावों का विश्लेषण करता है, जिससे प्रमुख उपायों के लिए वैकल्पिक भविष्य के परिदृश्य तैयार होते हैं।

स्मार्ट भवन
भवनों में ऊर्जा की खपत का अनुमान लगाने के लिए डेटा विश्लेषण दृष्टिकोण का उपयोग किया जा सकता है। स्मार्ट हाउस को साकार करने के लिए डेटा विश्लेषण प्रक्रिया के विभिन्न चरण किए जाते हैं, जहां भवन प्रबंधन और नियंत्रण संचालन जिसमें हीटिंग, वेंटिलेशन, एयर कंडीशनिंग, प्रकाश व्यवस्था और सुरक्षा सम्मिलित हैं, भवन उपयोगकर्ताओं की जरूरतों की नकल करके और ऊर्जा और समय जैसे संसाधनों का अनुकूलन करके स्वचालित रूप से महसूस किए जाते हैं।

एनालिटिक्स और बिजनेस इंटेलिजेंस
एनालिटिक्स "डेटा का व्यापक उपयोग, सांख्यिकीय और मात्रात्मक विश्लेषण, व्याख्यात्मक और भविष्य कहनेवाला मॉडल, और निर्णय और कार्यों को चलाने के लिए तथ्य-आधारित प्रबंधन है।" यह व्यापार खुफिया का एक सबसेट है, जो प्रौद्योगिकियों और प्रक्रियाओं का एक समूह है जो निर्णय लेने को बढ़ावा देने के लिए व्यावसायिक प्रदर्शन को समझने और विश्लेषण करने के लिए डेटा का उपयोग करता है।

शिक्षा


शिक्षा के क्षेत्र में, अधिकांश शिक्षकों के पास छात्र डेटा का विश्लेषण करने के उद्देश्य से डेटा सिस्टम तक पहुंच होती है। ये डेटा सिस्टम शिक्षकों को एक ओवर-द-काउंटर डेटा प्रारूप में डेटा प्रस्तुत करते हैं (लेबल एम्बेड करना, पूरक दस्तावेज़ीकरण, और एक सहायता प्रणाली और शिक्षकों के डेटा विश्लेषण की सटीकता में सुधार करने के लिए प्रमुख पैकेज/प्रदर्शन और सामग्री निर्णय लेना)।

प्रैक्टिशनर नोट्स
इस खंड में बल्कि तकनीकी स्पष्टीकरण सम्मिलित हैं जो चिकित्सकों की सहायता कर सकते हैं लेकिन विकिपीडिया लेख के विशिष्ट दायरे से बाहर हैं।

प्रारंभिक डेटा विश्लेषण
प्रारंभिक डेटा विश्लेषण चरण और मुख्य विश्लेषण चरण के बीच सबसे महत्वपूर्ण अंतर यह है कि प्रारंभिक डेटा विश्लेषण के दौरान कोई भी विश्लेषण से परहेज करता है जिसका उद्देश्य मूल शोध प्रश्न का उत्तर देना है। प्रारंभिक डेटा विश्लेषण चरण निम्नलिखित चार प्रश्नों द्वारा निर्देशित है:

डेटा की गुणवत्ता
जितनी जल्दी हो सके डेटा की गुणवत्ता की जांच की जानी चाहिए। डेटा गुणवत्ता का आकलन कई तरीकों से किया जा सकता है, जो विभिन्न प्रकार के विश्लेषण का उपयोग करते हैं: आवृत्ति गणना, वर्णनात्मक आँकड़े (माध्य, मानक विचलन, माध्यिका), सामान्यता (तिरछापन, कुर्टोसिस, आवृत्ति हिस्टोग्राम), सामान्य आरोपण की आवश्यकता होती है।


 * चरम टिप्पणियों का विश्लेषण: डेटा में बाहरी टिप्पणियों का विश्लेषण यह देखने के लिए किया जाता है कि क्या वे वितरण को परेशान करते हैं।

प्रारंभिक डेटा विश्लेषण चरण के दौरान डेटा की गुणवत्ता का आकलन करने के लिए विश्लेषण का विकल्प विश्लेषण पर निर्भर करता है जो मुख्य विश्लेषण चरण में आयोजित किया जाएगा।।
 * कोडिंग योजनाओं में अंतर की तुलना और सुधार: चर की तुलना डेटा सेट के बाहरी चर की कोडिंग योजनाओं के साथ की जाती है, और संभवत: सही किया जाता है यदि कोडिंग योजनाएं तुलनीय नहीं हैं।
 * सामान्य-विधि विचरण के लिए परीक्षण।

माप की गुणवत्ता
प्रारंभिक डेटा विश्लेषण चरण के दौरान ही माप उपकरणों की गुणवत्ता की जांच की जानी चाहिए जब यह अध्ययन का फोकस या शोध प्रश्न नहीं है। किसी को यह जांचना चाहिए कि माप उपकरणों की संरचना साहित्य में रिपोर्ट की गई संरचना से मेल खाती है या नहीं।


 * माप गुणवत्ता का आकलन करने के दो तरीके हैं:
 * पुष्टि कारक विश्लेषण एकरूपता का विश्लेषण (आंतरिक स्थिरता), जो एक माप उपकरण की विश्वसनीयता का संकेत देता है। इस विश्लेषण के दौरान, व्यक्ति वस्तुओं और पैमानों के प्रसरणों का निरीक्षण करता है, स्केल के क्रोनबैक के α, और क्रोनबैक के अल्फा में परिवर्तन जब किसी आइटम को स्केल से हटा दिया जाएगा।

प्रारंभिक परिवर्तन
डेटा और माप की गुणवत्ता का आकलन करने के बाद, कोई लापता डेटा को लागू करने, या एक या अधिक चर के प्रारंभिक परिवर्तन करने का निर्णय ले सकता है, चूंकि यह मुख्य विश्लेषण चरण के दौरान भी किया जा सकता है।

चरों के संभावित परिवर्तन हैं:


 * वर्गमूल परिवर्तन (यदि वितरण सामान्य से मामूली भिन्न होता है)
 * लॉग-ट्रांसफॉर्मेशन (यदि वितरण सामान्य से काफी भिन्न होता है)
 * उलटा परिवर्तन (यदि वितरण सामान्य से गंभीर रूप से भिन्न होता है)
 * श्रेणीबद्ध (क्रमिक / द्विबीजपत्री) बनाएं (यदि वितरण सामान्य से गंभीर रूप से भिन्न होता है, और कोई परिवर्तन मदद नहीं करता है)

क्या अध्ययन के कार्यान्वयन ने शोध डिजाइन के इरादों को पूरा किया?
यादृच्छिककरण प्रक्रिया की सफलता की जांच करनी चाहिए, उदाहरण के लिए जाँच करके क्या पृष्ठभूमि और वास्तविक चर समान रूप से समूहों में और समूहों में वितरित किए जाते हैं।

यदि अध्ययन में यादृच्छिककरण प्रक्रिया की आवश्यकता नहीं है या उसका उपयोग नहीं किया गया है, तो किसी को गैर-यादृच्छिक नमूने की सफलता की जांच करनी चाहिए, उदाहरण के लिए जाँच करके क्या ब्याज की आबादी के सभी उपसमूह नमूने में दर्शाए गए हैं।

अन्य संभावित डेटा विकृतियों की जाँच की जानी चाहिए:


 * ड्रॉपआउट (इसे प्रारंभिक डेटा विश्लेषण चरण के दौरान पहचाना जाना चाहिए)
 * आइटम गैर-प्रतिक्रिया उपचार गुणवत्ता (हेरफेर जांच का उपयोग करके)।
 * (चाहे यह यादृच्छिक है या नहीं, प्रारंभिक डेटा विश्लेषण चरण के दौरान मूल्यांकन किया जाना चाहिए)

डेटा नमूने की विशेषताएं
किसी भी रिपोर्ट या लेख में, नमूने की संरचना का सटीक वर्णन किया जाना चाहिए। नमूने की संरचना (और विशेष रूप से उपसमूहों के आकार) को सटीक रूप से निर्धारित करना विशेष रूप से महत्वपूर्ण है जब उपसमूह विश्लेषण मुख्य विश्लेषण चरण के दौरान किया जाएगा।

डेटा नमूने की विशेषताओं का आकलन निम्न को देखकर किया जा सकता है:


 * महत्वपूर्ण चरों के मूल आँकड़े
 * तितर बितर भूखंडों
 * सहसंबंध और संघ
 * क्रॉस-सारणी

प्रारंभिक डेटा विश्लेषण का अंतिम चरण
अंतिम चरण के दौरान, प्रारंभिक डेटा विश्लेषण के निष्कर्षों का दस्तावेजीकरण किया जाता है, और आवश्यक, बेहतर और संभावित सुधारात्मक कार्रवाई की जाती है।

साथ ही, मुख्य डेटा विश्लेषण के लिए मूल योजना को अधिक विस्तार से निर्दिष्ट किया जा सकता है या फिर से लिखा जाना चाहिए।

ऐसा करने के लिए, मुख्य डेटा विश्लेषण के बारे में कई निर्णय किए जा सकते हैं और किए जाने चाहिए:


 * गैर-मानकों के मामले में: क्या किसी को चर बदलना चाहिए; चर को श्रेणीबद्ध बनाएं (क्रमिक/द्विभाजित); विश्लेषण पद्धति को अनुकूलित करें?
 * लापता डेटा के मामले में: क्या किसी को लापता डेटा की उपेक्षा या आरोप लगाना चाहिए; किस आरोपण तकनीक का उपयोग किया जाना चाहिए?
 * आउटलेर्स के मामले में: क्या किसी को मजबूत विश्लेषण तकनीकों का उपयोग करना चाहिए?
 * यदि आइटम पैमाने पर फिट नहीं होते हैं: क्या किसी को वस्तुओं को छोड़कर माप उपकरण को अनुकूलित करना चाहिए, या इसके बजाय माप उपकरण (ओं) के अन्य (उपयोग) के साथ तुलना सुनिश्चित करना चाहिए?
 * (भी) छोटे उपसमूहों के मामले में: क्या अंतर-समूह मतभेदों के बारे में परिकल्पना को छोड़ देना चाहिए, या सटीक परीक्षण या बूटस्ट्रैपिंग जैसी छोटी नमूना तकनीकों का उपयोग करना चाहिए?
 * यदि यादृच्छिकीकरण प्रक्रिया दोषपूर्ण प्रतीत होती है: क्या किसी को प्रवृत्ति स्कोर की गणना करनी चाहिए और क्या उन्हें मुख्य विश्लेषणों में सहसंयोजकों के रूप में सम्मिलित करना चाहिए?

विश्लेषण
प्रारंभिक डेटा विश्लेषण चरण के दौरान कई विश्लेषणों का उपयोग किया जा सकता है:
 * अभिन्न आँकड़े (एकल चर)
 * बिवेरिएट एसोसिएशन (सहसंबंध)
 * ग्राफिकल तकनीक (बिखरे हुए भूखंड)

विश्लेषण के लिए चरों के मापन स्तरों को ध्यान में रखना महत्वपूर्ण है, क्योंकि प्रत्येक स्तर के लिए विशेष सांख्यिकीय तकनीकें उपलब्ध हैं:
 * नाममात्र और क्रमिक चर
 * आवृत्ति गणना (संख्या और प्रतिशत)
 * एसोसिएशन
 * परिक्रमण (क्रॉसस्टैब्यूलेशन)
 * पदानुक्रमित लॉगलाइनियर विश्लेषण (अधिकतम 8 चरों तक सीमित)
 * लॉगलाइनियर विश्लेषण (प्रासंगिक/महत्वपूर्ण चर और संभावित कन्फ्यूडर की पहचान करने के लिए)
 * सटीक परीक्षण या बूटस्ट्रैपिंग (यदि उपसमूह छोटे हैं)
 * नए चरों की गणना
 * सतत चर
 * वितरण
 * सांख्यिकी (एम, एसडी, विचरण, तिरछापन, कुर्टोसिस)
 * तना और पत्ती प्रदर्शित करता है
 * छोटे भूखंड

अरैखिक विश्लेषण
गैर-रेखीय विश्लेषण सामान्यतः आवश्यक होता है जब डेटा एक गैर-रेखीय प्रणाली से दर्ज किया जाता है। नॉनलाइनियर सिस्टम द्विभाजन, अराजकता, हार्मोनिक्स और सबहार्मोनिक्स सहित जटिल गतिशील प्रभाव प्रदर्शित कर सकते हैं जिसका सरल रैखिक विधियों का उपयोग करके विश्लेषण नहीं किया जा सकता है। नॉनलाइनियर डेटा विश्लेषण, नॉनलाइनियर सिस्टम आइडेंटिफिकेशन से निकटता से संबंधित है।।

मुख्य डेटा विश्लेषण
मुख्य विश्लेषण चरण में, शोध प्रश्न का उत्तर देने के उद्देश्य से किए गए विश्लेषण के साथ-साथ शोध रिपोर्ट के पहले मसौदे को लिखने के लिए आवश्यक कोई अन्य प्रासंगिक विश्लेषण किया जाता है।

खोजपूर्ण और पुष्टिकारक दृष्टिकोण
मुख्य विश्लेषण चरण में, या तो एक खोजपूर्ण या पुष्टिकरण दृष्टिकोण अपनाया जा सकता है। सामान्यतः दृष्टिकोण डेटा एकत्र करने से पहले तय किया जाता है। एक खोजपूर्ण विश्लेषण में डेटा का विश्लेषण करने से पहले कोई स्पष्ट परिकल्पना नहीं बताई गई है, और डेटा को मॉडल के लिए खोजा जाता है जो डेटा का अच्छी तरह से वर्णन करता है। एक पुष्टिकरण विश्लेषण में डेटा के बारे में स्पष्ट परिकल्पनाओं का परीक्षण किया जाता है।

खोजपूर्ण डेटा विश्लेषण की सावधानीपूर्वक व्याख्या की जानी चाहिए। एक साथ कई मॉडलों का परीक्षण करते समय उनमें से कम से कम एक के महत्वपूर्ण होने की संभावना अधिक होती है, लेकिन यह टाइप 1 त्रुटि के कारण हो सकता है। महत्व स्तर को हमेशा समायोजित करना महत्वपूर्ण है उदाहरण के लिए, एक बोनफेरोनी सुधार के साथ कई मॉडलों का परीक्षण करते समय। साथ ही, किसी को एक ही डाटासेट में पुष्टिकरण विश्लेषण के साथ खोजपूर्ण विश्लेषण का अनुसरण नहीं करना चाहिए। एक सिद्धांत के लिए विचारों को खोजने के लिए एक खोजपूर्ण विश्लेषण का उपयोग किया जाता है, लेकिन उस सिद्धांत का परीक्षण करने के लिए भी नहीं। जब कोई मॉडल किसी डेटासेट में खोजपूर्ण पाया जाता है, फिर उसी डेटासेट में एक पुष्टिकरण विश्लेषण के साथ उस विश्लेषण का सीधा मतलब यह हो सकता है कि पुष्टिकरण विश्लेषण के परिणाम एक ही प्रकार 1 त्रुटि के कारण हैं जिसके परिणामस्वरूप पहले स्थान पर खोजपूर्ण मॉडल आया। इसलिए पुष्टिकरण विश्लेषण मूल खोजपूर्ण विश्लेषण से अधिक जानकारीपूर्ण नहीं होगा।

परिणामों की स्थिरता
परिणाम कितने सामान्य हैं, इसके बारे में कुछ संकेत प्राप्त करना महत्वपूर्ण है। चूंकि इसकी जांच करना सामान्यतः मुश्किल होता है, फिर भी परिणामों की स्थिरता को देखा जा सकता है। क्या परिणाम विश्वसनीय और प्रतिलिपि प्रस्तुत करने योग्य हैं? ऐसा करने के दो मुख्य तरीके हैं

हम जांच सकते हैं कि डेटा के एक हिस्से पर आधारित विश्लेषण (एक फिटेड मॉडल की तरह) डेटा के दूसरे हिस्से के लिए भी सामान्यीकृत होता है या नहीं।


 * क्रॉस-सत्यापन सामान्यतः अनुचित है, चूंकि, यदि डेटा के भीतर सहसंबंध हैं, उदा। पैनल डेटा के साथ। इसलिए सत्यापन के अन्य तरीकों को कभी-कभी उपयोग करने की आवश्यकता होती है। इस विषय पर अधिक जानकारी के लिए, सांख्यिकीय मॉडल सत्यापन देखें।
 * संवेदनशीलता का विश्लेषण। किसी प्रणाली या मॉडल के व्यवहार का अध्ययन करने की एक प्रक्रिया जब वैश्विक पैरामीटर (व्यवस्थित रूप से) भिन्न होते हैं। ऐसा करने का एक तरीका बूटस्ट्रैपिंग के माध्यम से है।

डेटा विश्लेषण के लिए मुफ्त सॉफ्टवेयर
डेटा विश्लेषण के लिए उल्लेखनीय मुफ्त सॉफ्टवेयर में सम्मिलित हैं:
 * देवइन्फो - मानव विकास की निगरानी और विश्लेषण के लिए संयुक्त राष्ट्र विकास समूह द्वारा समर्थित एक डेटाबेस प्रणाली।
 * एल्कि- जावा में डेटा माइनिंग फ्रेमवर्क डेटा माइनिंग ओरिएंटेड विज़ुअलाइज़ेशन फ़ंक्शंस के साथ।
 * केएनआईएमई- कॉन्स्टैंज इंफॉर्मेशन माइनर, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
 * ऑरेंज (सॉफ्टवेयर) - एक विज़ुअल प्रोग्रामिंग टूल जिसमें इंटरेक्टिव डेटा विज़ुअलाइज़ेशन और सांख्यिकीय डेटा विश्लेषण, डेटा माइनिंग और मशीन लर्निंग के तरीके सम्मिलित हैं।
 * पांडा (सॉफ्टवेयर) - डेटा विश्लेषण के लिए पायथन पुस्तकालय।
 * भौतिकी विश्लेषण कार्य केंद्र - सर्न में विकसित फोरट्रान/सी डेटा विश्लेषण ढांचा।
 * आर (प्रोग्रामिंग भाषा) - सांख्यिकीय कंप्यूटिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग भाषा और सॉफ्टवेयर वातावरण।
 * रूट-सी++ डेटा विश्लेषण ढांचा सर्न में विकसित किया गया।
 * स्काईपाई- डेटा विश्लेषण के लिए पायथन पुस्तकालय।
 * जूलिया (प्रोग्रामिंग भाषा) - एक प्रोग्रामिंग भाषा जो संख्यात्मक विश्लेषण और कम्प्यूटेशनल विज्ञान के लिए उपयुक्त है।

अंतर्राष्ट्रीय डेटा विश्लेषण प्रतियोगिता
शोधकर्ताओं को अपने डेटा का उपयोग करने के लिए या डेटा विश्लेषण का उपयोग करके किसी विशेष प्रश्न को हल करने के लिए प्रोत्साहित करने के लिए विभिन्न कंपनियां या संगठन डेटा विश्लेषण प्रतियोगिता आयोजित करते हैं। प्रसिद्ध अंतरराष्ट्रीय डेटा विश्लेषण प्रतियोगिता के कुछ उदाहरण इस प्रकार हैं:


 * कागले प्रतियोगिता, जो कागल द्वारा आयोजित की जाती है।
 * FHWA और ASCE द्वारा आयोजित LTPP डेटा विश्लेषण प्रतियोगिता।

यह भी देखें

 * जिवानांकिकी
 * एनालिटिक्स
 * बड़ा डेटा
 * व्यापारिक सूचना
 * सेंसिंग (सांख्यिकी)
 * कम्प्यूटेशनल भौतिकी
 * आंकड़ा अधिग्रहण
 * डेटा सम्मिश्रण
 * सामग्री संचालन
 * डेटा माइनिंग
 * डेटा प्रस्तुति वास्तुकला
 * डेटा साइंस
 * अंकीय संकेत प्रक्रिया
 * आयाम में कमी
 * प्रारंभिक मामले का आकलन
 * अन्वेषणात्मक डेटा विश्लेषण
 * फूरियर विश्लेषण
 * मशीन लर्निंग
 * बहुरेखीय प्रमुख घटक विश्लेषण
 * मल्टीलाइनियर सबस्पेस लर्निंग
 * मल्टीवे डेटा विश्लेषण
 * निकटतम पड़ोसी खोजें
 * अरेखीय प्रणाली की पहचान
 * भविष्य बतानेवाला विश्लेषक
 * प्रमुख कंपोनेंट विश्लेषण
 * गुणात्मक शोध
 * वैज्ञानिक कंप्यूटिंग
 * संरचित डेटा विश्लेषण (सांख्यिकी)
 * सिस्टम पहचान
 * जाँचने का तरीका
 * पाठ विश्लेषण
 * असंरचित डेटा
 * वेवलेट
 * बड़ी डेटा कंपनियों की सूची

ग्रन्थसूची

 * Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.
 * Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.
 * Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

अग्रिम पठन

 * Adèr, H.J. & Mellenbergh, G.J. (with contributions by D.J. Hand) (2008). Advising on Research Methods: A Consultant's Companion. Huizen, the Netherlands: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5
 * Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis, Wadsworth/Duxbury Press. ISBN 0-534-98052-X
 * Fandango, Armando (2017). Python Data Analysis, 2nd Edition. Packt Publishers. ISBN 978-1787127487
 * Juran, Joseph M.; Godfrey, A. Blanton (1999). Juran's Quality Handbook, 5th Edition. New York: McGraw Hill. ISBN 0-07-034003-X
 * Lewis-Beck, Michael S. (1995). Data Analysis: an Introduction, Sage Publications Inc, ISBN 0-8039-5772-6
 * NIST/SEMATECH (2008) Handbook of Statistical Methods,
 * Pyzdek, T, (2003). Quality Engineering Handbook, ISBN 0-8247-4614-7
 * Richard Veryard (1984). Pragmatic Data Analysis. Oxford : Blackwell Scientific Publications. ISBN 0-632-01311-7
 * Tabachnick, B.G.; Fidell, L.S. (2007). Using Multivariate Statistics, 5th Edition. Boston: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4