डेटा विश्लेषण

डेटा विश्लेषण उपयोगी जानकारी की खोज, निष्कर्षों को सूचित करने और निर्णय लेने का समर्थन करने के लक्ष्य के साथ निरीक्षण, डेटा सफाई, डेटा परिवर्तन और डेटा मॉडलिंग डेटा की एक प्रक्रिया है। डेटा विश्लेषण के कई पहलू और दृष्टिकोण हैं, जिसमें विभिन्न नामों के तहत विविध तकनीकों को शामिल किया गया है, और इसका उपयोग विभिन्न व्यवसाय, विज्ञान और सामाजिक विज्ञान डोमेन में किया जाता है। आज की कारोबारी दुनिया में, डेटा विश्लेषण निर्णयों को अधिक वैज्ञानिक बनाने और व्यवसायों को अधिक प्रभावी ढंग से संचालित करने में मदद करने में एक भूमिका निभाता है। डेटा माइनिंग एक विशेष डेटा विश्लेषण तकनीक है जो विशुद्ध रूप से वर्णनात्मक उद्देश्यों के बजाय भविष्य कहनेवाला के लिए सांख्यिकीय मॉडलिंग और ज्ञान की खोज पर केंद्रित है, जबकि व्यावसायिक खुफिया डेटा विश्लेषण को कवर करता है जो मुख्य रूप से व्यावसायिक जानकारी पर ध्यान केंद्रित करते हुए एकत्रीकरण पर निर्भर करता है। सांख्यिकीय अनुप्रयोगों में, डेटा विश्लेषण को वर्णनात्मक सांख्यिकी, खोजपूर्ण डेटा विश्लेषण (ईडीए), और सांख्यिकीय परिकल्पना परीक्षण (सीडीए) में विभाजित किया जा सकता है। EDA डेटा में नई विशेषताओं की खोज पर ध्यान केंद्रित करता है जबकि CDA मौजूदा परिकल्पनाओं की पुष्टि या मिथ्याकरण पर ध्यान केंद्रित करता है। प्रेडिक्टिव एनालिटिक्स, प्रेडिक्टिव फोरकास्टिंग या वर्गीकरण के लिए सांख्यिकीय मॉडल के अनुप्रयोग पर ध्यान केंद्रित करता है, जबकि टेक्स्ट एनालिटिक्स टेक्स्ट के स्रोतों से जानकारी निकालने और वर्गीकृत करने के लिए सांख्यिकीय, भाषाई और संरचनात्मक तकनीकों को लागू करता है, असंरचित डेटा की एक प्रजाति। उपरोक्त सभी डेटा विश्लेषण की किस्में हैं। डेटा एकीकरण डेटा विश्लेषण का अग्रदूत है, और डेटा विश्लेषण डेटा विज़ुअलाइज़ेशन और डेटा प्रसार से निकटता से जुड़ा हुआ है।

डेटा विश्लेषण की प्रक्रिया
विश्लेषण, व्यक्तिगत परीक्षा के लिए संपूर्ण को उसके अलग-अलग घटकों में विभाजित करने को संदर्भित करता है। डेटा विश्लेषण, कच्चे डेटा प्राप्त करने के लिए एक प्रक्रिया सिद्धांत है, और बाद में इसे उपयोगकर्ताओं द्वारा निर्णय लेने के लिए उपयोगी जानकारी में परिवर्तित करना है। डेटा, एकत्र किया जाता है और सवालों के जवाब देने, परिकल्पनाओं का परीक्षण करने या सिद्धांतों का खंडन करने के लिए विश्लेषण किया जाता है। सांख्यिकीविद् जॉन टुके ने 1961 में डेटा विश्लेषण को इस प्रकार परिभाषित किया: (गणितीय) आँकड़ों की मशीनरी और परिणाम जो डेटा के विश्लेषण पर लागू होते हैं। कई चरण हैं जिन्हें नीचे वर्णित किया जा सकता है। चरण पुनरावृति हैं, उस प्रतिक्रिया में बाद के चरणों से पहले के चरणों में अतिरिक्त कार्य हो सकता है। डेटा माइनिंग में उपयोग किए जाने वाले डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया में समान चरण होते हैं।

डेटा आवश्यकताएं
विश्लेषण के लिए इनपुट के रूप में डेटा आवश्यक है, जो विश्लेषिकी (या ग्राहक, जो विश्लेषण के तैयार उत्पाद का उपयोग करेंगे) को निर्देशित करने वालों की आवश्यकताओं के आधार पर निर्दिष्ट किया जाता है। सामान्य प्रकार की इकाई जिस पर डेटा एकत्र किया जाएगा उसे एक सांख्यिकीय इकाई (जैसे, एक व्यक्ति या लोगों की आबादी) के रूप में संदर्भित किया जाता है। जनसंख्या (जैसे, आयु और आय) के संबंध में विशिष्ट चर निर्दिष्ट और प्राप्त किए जा सकते हैं। डेटा संख्यात्मक या श्रेणीबद्ध हो सकता है (यानी, संख्याओं के लिए एक टेक्स्ट लेबल)।

डेटा संग्रह
डेटा विभिन्न स्रोतों से एकत्र किया जाता है। विश्लेषकों द्वारा डेटा के डेटा संरक्षक को आवश्यकताओं के बारे में बताया जा सकता है; जैसे, किसी संगठन के भीतर सूचना प्रणाली तकनीशियन। डेटा को पर्यावरण में सेंसर से भी एकत्र किया जा सकता है, जिसमें ट्रैफिक कैमरा, उपग्रह, रिकॉर्डिंग उपकरण आदि शामिल हैं। इसे साक्षात्कार, ऑनलाइन स्रोतों से डाउनलोड, या प्रलेखन पढ़ने के माध्यम से भी प्राप्त किया जा सकता है।

डाटा प्रोसेसिंग
डेटा, जब शुरू में प्राप्त किया जाता है, विश्लेषण के लिए संसाधित या व्यवस्थित किया जाना चाहिए। उदाहरण के लिए, इनमें अक्सर स्प्रेडशीट या सांख्यिकीय सॉफ़्टवेयर के उपयोग के माध्यम से डेटा को आगे के विश्लेषण के लिए तालिका प्रारूप (डेटा मॉडल के रूप में जाना जाता है) में पंक्तियों और स्तंभों में रखना शामिल हो सकता है।

डेटा सफाई
एक बार संसाधित और व्यवस्थित होने के बाद, डेटा अधूरा हो सकता है, डुप्लिकेट हो सकता है, या त्रुटियां हो सकती हैं। डेटा की सफाई की आवश्यकता डेटा को दर्ज करने और संग्रहीत करने के तरीके में समस्याओं से उत्पन्न होगी। डेटा की सफाई इन त्रुटियों को रोकने और सुधारने की प्रक्रिया है। सामान्य कार्यों में रिकॉर्ड मिलान, डेटा की अशुद्धि की पहचान करना, मौजूदा डेटा की समग्र गुणवत्ता, डुप्लीकेशन और कॉलम विभाजन शामिल हैं। ऐसी डेटा समस्याओं को विभिन्न विश्लेषणात्मक तकनीकों के माध्यम से भी पहचाना जा सकता है। उदाहरण के लिए; वित्तीय जानकारी के साथ, विशेष चर के योग की तुलना अलग-अलग प्रकाशित संख्याओं के साथ की जा सकती है जिन्हें विश्वसनीय माना जाता है। पूर्व निर्धारित सीमा से ऊपर या नीचे असामान्य राशियों की भी समीक्षा की जा सकती है। डेटा की सफाई कई प्रकार की होती है, जो सेट में डेटा के प्रकार पर निर्भर करती है; यह फ़ोन नंबर, ईमेल पते, नियोक्ता या अन्य मान हो सकते हैं। बाहरी पता लगाने के लिए मात्रात्मक डेटा विधियों का उपयोग उस डेटा से छुटकारा पाने के लिए किया जा सकता है जिसमें गलत तरीके से इनपुट होने की संभावना अधिक होती है। गलत टाइप किए गए शब्दों की मात्रा को कम करने के लिए टेक्स्ट डेटा स्पेल चेकर्स का उपयोग किया जा सकता है। हालाँकि, यह बताना कठिन है कि क्या शब्द स्वयं सही हैं।

खोजपूर्ण डेटा विश्लेषण
एक बार डेटासेट साफ हो जाने के बाद, उनका विश्लेषण किया जा सकता है। प्राप्त डेटा में निहित संदेशों को समझना शुरू करने के लिए विश्लेषक कई तरह की तकनीकों को लागू कर सकते हैं, जिन्हें खोजपूर्ण डेटा विश्लेषण कहा जाता है। डेटा अन्वेषण की प्रक्रिया के परिणामस्वरूप अतिरिक्त डेटा सफाई या डेटा के लिए अतिरिक्त अनुरोध हो सकते हैं; इस प्रकार, इस खंड के मुख्य पैराग्राफ में उल्लिखित पुनरावृत्त चरणों का आरंभ। डेटा को समझने में सहायता के लिए वर्णनात्मक आंकड़े, जैसे औसत या औसत, उत्पन्न किए जा सकते हैं। डेटा विज़ुअलाइज़ेशन भी एक तकनीक का उपयोग किया जाता है, जिसमें विश्लेषक डेटा के भीतर संदेशों के संबंध में अतिरिक्त अंतर्दृष्टि प्राप्त करने के लिए ग्राफिकल प्रारूप में डेटा की जांच करने में सक्षम होता है।

मॉडलिंग और एल्गोरिदम
गणितीय सूत्र या मॉडल (एल्गोरिदम के रूप में जाना जाता है), चर के बीच संबंधों की पहचान करने के लिए डेटा पर लागू किया जा सकता है; उदाहरण के लिए, सहसंबंध और निर्भरता या कार्य-कारण का उपयोग करना। सामान्य शब्दों में, मॉडल को डेटासेट के भीतर निहित अन्य चर (ओं) के आधार पर एक विशिष्ट चर का मूल्यांकन करने के लिए विकसित किया जा सकता है, जिसमें लागू मॉडल की सटीकता (जैसे, डेटा = मॉडल + त्रुटि) के आधार पर कुछ अवशिष्ट बिट त्रुटि दर होती है।

अनुमानात्मक आँकड़ों में ऐसी तकनीकों का उपयोग करना शामिल है जो विशेष चर के बीच संबंधों को मापते हैं। उदाहरण के लिए, प्रतिगमन विश्लेषण का उपयोग मॉडल के लिए किया जा सकता है कि क्या विज्ञापन में परिवर्तन (स्वतंत्र चर एक्स), बिक्री में भिन्नता (आश्रित चर वाई) के लिए एक स्पष्टीकरण प्रदान करता है। गणितीय शब्दों में, Y (बिक्री) X (विज्ञापन) का एक फलन है। इसे (Y = aX + b + त्रुटि) के रूप में वर्णित किया जा सकता है, जहां मॉडल को इस तरह डिज़ाइन किया गया है कि (ए) और (बी) त्रुटि को कम करें जब मॉडल एक्स के मानों की दी गई सीमा के लिए वाई की भविष्यवाणी करता है। विश्लेषण को सरल बनाने और परिणामों को संप्रेषित करने के उद्देश्य से विश्लेषक डेटा के वर्णनात्मक मॉडल बनाने का भी प्रयास कर सकते हैं।

डेटा उत्पाद
एक डेटा उत्पाद एक कंप्यूटर अनुप्रयोग है जो डेटा इनपुट लेता है और आउटपुट उत्पन्न करता है, उन्हें पर्यावरण में वापस फीड करता है। यह एक मॉडल या एल्गोरिथम पर आधारित हो सकता है। उदाहरण के लिए, एक एप्लिकेशन जो ग्राहक खरीद इतिहास के बारे में डेटा का विश्लेषण करता है, और अन्य खरीदारियों की सिफारिश करने के लिए परिणामों का उपयोग करता है जो ग्राहक आनंद ले सकते हैं।

संचार


एक बार डेटा का विश्लेषण करने के बाद, यह कई प्रारूपों में विश्लेषण के उपयोगकर्ताओं को उनकी आवश्यकताओं का समर्थन करने के लिए रिपोर्ट किया जा सकता है। उपयोगकर्ताओं के पास प्रतिक्रिया हो सकती है, जिसके परिणामस्वरूप अतिरिक्त विश्लेषण होता है। जैसे, अधिकांश विश्लेषणात्मक चक्र पुनरावृत्त है।

यह निर्धारित करते समय कि परिणामों को कैसे संप्रेषित किया जाए, विश्लेषक दर्शकों को संदेश को अधिक स्पष्ट और कुशलता से संप्रेषित करने में मदद करने के लिए विभिन्न डेटा विज़ुअलाइज़ेशन तकनीकों को लागू करने पर विचार कर सकता है। डेटा विज़ुअलाइज़ेशन डेटा में निहित प्रमुख संदेशों को संप्रेषित करने में मदद करने के लिए सूचना डिस्प्ले (ग्राफिक्स जैसे टेबल और चार्ट) का उपयोग करता है। तालिका (सूचना) एक मूल्यवान उपकरण है जो उपयोगकर्ता की क्वेरी करने और विशिष्ट संख्याओं पर ध्यान केंद्रित करने की क्षमता को सक्षम करता है; जबकि चार्ट (जैसे, बार चार्ट या लाइन चार्ट), डेटा में निहित मात्रात्मक संदेशों को समझाने में मदद कर सकते हैं।

मात्रात्मक संदेश
स्टीफन फ्यू ने आठ प्रकार के मात्रात्मक संदेशों का वर्णन किया है जो उपयोगकर्ता डेटा के एक सेट और संदेश को संप्रेषित करने में मदद करने के लिए उपयोग किए गए संबंधित ग्राफ़ से समझने या संवाद करने का प्रयास कर सकते हैं। आवश्यकताओं को निर्दिष्ट करने वाले ग्राहक और डेटा विश्लेषण करने वाले विश्लेषक प्रक्रिया के दौरान इन संदेशों पर विचार कर सकते हैं।
 * 1) समय-श्रृंखला: एक एकल चर को समय की अवधि में कैप्चर किया जाता है, जैसे कि 10 साल की अवधि में बेरोजगारी दर। प्रवृत्ति को प्रदर्शित करने के लिए एक लाइन चार्ट का उपयोग किया जा सकता है।
 * 2) रैंकिंग: श्रेणीबद्ध उपखंडों को आरोही या अवरोही क्रम में रैंक किया जाता है, जैसे कि एक ही अवधि के दौरान सेल्सपर्सन (श्रेणी, प्रत्येक विक्रेता के साथ एक श्रेणीबद्ध उपखंड) द्वारा बिक्री प्रदर्शन (माप) की रैंकिंग। एक बार चार्ट का उपयोग सभी सेल्सपर्सन में तुलना दिखाने के लिए किया जा सकता है।
 * 3) भाग-से-संपूर्ण: श्रेणीबद्ध उपखंडों को संपूर्ण के अनुपात के रूप में मापा जाता है (अर्थात, 100% में से एक प्रतिशत)। एक पाई चार्ट या बार चार्ट अनुपातों की तुलना दिखा सकता है, जैसे बाजार में प्रतिस्पर्धियों द्वारा प्रस्तुत बाजार हिस्सेदारी।
 * 4) विचलन: श्रेणीबद्ध उपखंडों की तुलना किसी संदर्भ से की जाती है, जैसे किसी व्यवसाय के कई विभागों के लिए एक निश्चित समय अवधि के लिए वास्तविक बनाम बजट व्यय की तुलना। एक बार चार्ट वास्तविक बनाम संदर्भ राशि की तुलना दिखा सकता है।
 * 5) फ़्रीक्वेंसी डिस्ट्रीब्यूशन: किसी दिए गए अंतराल के लिए एक विशेष चर के अवलोकनों की संख्या को दर्शाता है, जैसे कि वर्षों की संख्या जिसमें शेयर बाजार का रिटर्न अंतराल के बीच होता है जैसे कि 0–10%, 11–20%, आदि। एक हिस्टोग्राम, इस विश्लेषण के लिए एक प्रकार के बार चार्ट का उपयोग किया जा सकता है।
 * 6) सहसंबंध: दो चर (X,Y) द्वारा दर्शाए गए अवलोकनों के बीच तुलना यह निर्धारित करने के लिए कि क्या वे समान या विपरीत दिशाओं में चलते हैं। उदाहरण के लिए, महीनों के नमूने के लिए बेरोजगारी (X) और मुद्रास्फीति (Y) की साजिश रचना। इस संदेश के लिए आमतौर पर स्कैटर प्लॉट का उपयोग किया जाता है।
 * 7) नाममात्र तुलना: किसी विशेष क्रम में श्रेणीबद्ध उपखंडों की तुलना करना, जैसे उत्पाद कोड द्वारा बिक्री की मात्रा। इस तुलना के लिए एक बार चार्ट का उपयोग किया जा सकता है।
 * 8) भौगोलिक या भू-स्थानिक: मानचित्र या लेआउट में एक चर की तुलना, जैसे राज्य द्वारा बेरोजगारी दर या किसी भवन के विभिन्न तलों पर व्यक्तियों की संख्या। कार्टोग्राम एक विशिष्ट ग्राफिक है जिसका उपयोग किया जाता है।

मात्रात्मक डेटा का विश्लेषण करने की तकनीक
लेखक जोनाथन कूमी ने मात्रात्मक डेटा को समझने के लिए सर्वोत्तम प्रथाओं की एक श्रृंखला की सिफारिश की है। इसमे शामिल है:
 * विश्लेषण करने से पहले विसंगतियों के लिए कच्चे डेटा की जाँच करें;
 * महत्वपूर्ण परिकलन पुन: निष्पादित करें, जैसे कि सूत्र द्वारा संचालित डेटा के स्तंभों को सत्यापित करना;
 * पुष्टि करें कि मुख्य योग उप-योग का योग है;
 * संख्याओं के बीच संबंधों की जांच करें, जो पूर्वानुमेय तरीके से संबंधित होने चाहिए, जैसे समय के साथ अनुपात;
 * तुलना को आसान बनाने के लिए संख्याओं को सामान्य बनाना, जैसे प्रति व्यक्ति या जीडीपी के सापेक्ष राशि का विश्लेषण करना या आधार वर्ष के सापेक्ष सूचकांक मूल्य के रूप में;
 * परिणाम देने वाले कारकों का विश्लेषण करके समस्याओं को घटक भागों में विभाजित करें, जैसे कि इक्विटी पर रिटर्न का ड्यूपॉन्ट विश्लेषण।

परीक्षण के तहत चर के लिए, विश्लेषक आमतौर पर उनके लिए वर्णनात्मक आंकड़े प्राप्त करते हैं, जैसे कि माध्य (औसत), माध्यिका और मानक विचलन। वे यह देखने के लिए प्रमुख चरों के संभाव्यता वितरण का विश्लेषण भी कर सकते हैं कि अलग-अलग मान माध्य के आसपास कैसे क्लस्टर करते हैं। [[File:US_Employment_Statistics_-_March_2015.png|thumb|250px|right|डेटा विश्लेषण के लिए उपयोग किए जाने वाले एमईसीई सिद्धांत का एक उदाहरण। मैकिन्से एंड कंपनी के सलाहकारों ने एक मात्रात्मक समस्या को उसके घटक भागों में तोड़ने के लिए एक तकनीक का नाम दिया जिसे एमईसीई सिद्धांत कहा जाता है। प्रत्येक परत को उसके घटकों में तोड़ा जा सकता है; प्रत्येक उप-घटक एक-दूसरे की परस्पर अनन्य घटनाएँ होनी चाहिए और सामूहिक रूप से संपूर्ण घटनाएँ उनके ऊपर की परत में जुड़ जाती हैं। रिश्ते को पारस्परिक रूप से अनन्य और सामूहिक रूप से संपूर्ण या एमईसीई के रूप में जाना जाता है। उदाहरण के लिए, परिभाषा के अनुसार लाभ को कुल राजस्व और कुल लागत में विभाजित किया जा सकता है। बदले में, कुल राजस्व का विश्लेषण इसके घटकों द्वारा किया जा सकता है, जैसे कि ए, बी और सी डिवीजनों का राजस्व (जो एक दूसरे के परस्पर अनन्य हैं) और कुल राजस्व (सामूहिक रूप से संपूर्ण) में जोड़ना चाहिए। कुछ विश्लेषणात्मक समस्याओं को हल करने के लिए विश्लेषक मजबूत सांख्यिकीय माप का उपयोग कर सकते हैं। परिकल्पना परीक्षण का उपयोग तब किया जाता है जब विश्लेषक द्वारा मामलों की वास्तविक स्थिति के बारे में एक विशेष परिकल्पना की जाती है और यह निर्धारित करने के लिए डेटा एकत्र किया जाता है कि यह स्थिति सही है या गलत। उदाहरण के लिए, परिकल्पना यह हो सकती है कि बेरोजगारी का मुद्रास्फीति पर कोई प्रभाव नहीं पड़ता है, जो एक अर्थशास्त्र अवधारणा से संबंधित है जिसे फिलिप्स वक्र कहा जाता है। परिकल्पना परीक्षण में टाइप I और टाइप II त्रुटियों की संभावना पर विचार करना शामिल है, जो इस बात से संबंधित है कि डेटा परिकल्पना को स्वीकार करने या अस्वीकार करने का समर्थन करता है या नहीं।  प्रतिगमन विश्लेषण का उपयोग तब किया जा सकता है जब विश्लेषक यह निर्धारित करने की कोशिश कर रहा है कि स्वतंत्र चर एक्स किस हद तक निर्भर चर वाई को प्रभावित करता है (उदाहरण के लिए, बेरोजगारी दर (एक्स) में परिवर्तन किस हद तक मुद्रास्फीति दर (वाई) को प्रभावित करते हैं?)। यह डेटा के लिए एक समीकरण रेखा या वक्र को मॉडल या फिट करने का एक प्रयास है, जैसे कि Y, X का एक फ़ंक्शन है। रेफरी> आवश्यक स्थिति विश्लेषण (NCA) का उपयोग तब किया जा सकता है जब विश्लेषक यह निर्धारित करने की कोशिश कर रहा हो कि स्वतंत्र चर X किस हद तक चर Y की अनुमति देता है (उदा., एक निश्चित मुद्रास्फीति दर (Y) के लिए एक निश्चित बेरोजगारी दर (X) किस हद तक आवश्यक है? ). जबकि (एकाधिक) प्रतिगमन विश्लेषण योगात्मक तर्क का उपयोग करता है जहां प्रत्येक X-चर उत्पादन कर सकता है परिणाम और एक्स एक दूसरे के लिए क्षतिपूर्ति कर सकते हैं (वे पर्याप्त हैं लेकिन आवश्यक नहीं हैं), आवश्यक स्थिति विश्लेषण (एनसीए) आवश्यकता तर्क का उपयोग करता है, जहां एक या एक से अधिक एक्स-चर परिणाम को अस्तित्व में रखते हैं, लेकिन इसे उत्पन्न नहीं कर सकते हैं (वे आवश्यक हैं लेकिन पर्याप्त नहीं हैं)। प्रत्येक आवश्यक शर्त मौजूद होनी चाहिए और मुआवजा संभव नहीं है।

डेटा उपयोगकर्ताओं की विश्लेषणात्मक गतिविधियां
ऊपर उल्लिखित सामान्य संदेश के विपरीत, उपयोगकर्ताओं के पास डेटा सेट के भीतर रुचि के विशेष डेटा बिंदु हो सकते हैं। ऐसी निम्न-स्तरीय उपयोगकर्ता विश्लेषणात्मक गतिविधियाँ निम्न तालिका में प्रस्तुत की गई हैं। वर्गीकरण को गतिविधियों के तीन ध्रुवों द्वारा भी व्यवस्थित किया जा सकता है: मूल्यों को पुनः प्राप्त करना, डेटा बिंदुओं को खोजना और डेटा बिंदुओं को व्यवस्थित करना।

प्रभावी विश्लेषण के लिए बाधाएं
डेटा विश्लेषण करने वाले विश्लेषकों या दर्शकों के बीच प्रभावी विश्लेषण में बाधाएं मौजूद हो सकती हैं। राय से अलग तथ्य, संज्ञानात्मक पूर्वाग्रह, और असंख्य डेटा डेटा विश्लेषण के लिए सभी चुनौतियां हैं।

भ्रमित करने वाले तथ्य और राय
प्रभावी विश्लेषण के लिए प्रश्नों के उत्तर देने, किसी निष्कर्ष या औपचारिक राय का समर्थन करने या परिकल्पनाओं का परीक्षण करने के लिए प्रासंगिक तथ्य प्राप्त करने की आवश्यकता होती है। परिभाषा के अनुसार तथ्य अकाट्य हैं, जिसका अर्थ है कि विश्लेषण में शामिल कोई भी व्यक्ति उन पर सहमत होने में सक्षम होना चाहिए। उदाहरण के लिए, अगस्त 2010 में, कांग्रेस के बजट कार्यालय (सीबीओ) ने अनुमान लगाया कि 2001 और 2003 की बुश कर कटौती को 2011-2020 की समय अवधि के लिए विस्तारित करने से राष्ट्रीय ऋण में लगभग 3.3 ट्रिलियन डॉलर का इजाफा होगा। सभी को इस बात से सहमत होना चाहिए कि वास्तव में सीबीओ ने यही बताया है; वे सभी रिपोर्ट की जांच कर सकते हैं। यह इसे एक तथ्य बनाता है। लोग सीबीओ से सहमत हों या असहमत, यह उनकी अपनी राय है। एक अन्य उदाहरण के रूप में, एक सार्वजनिक कंपनी के लेखा परीक्षक को औपचारिक राय पर पहुंचना चाहिए कि सार्वजनिक रूप से कारोबार करने वाले निगमों के वित्तीय विवरण सभी भौतिक मामलों में निष्पक्ष रूप से बताए गए हैं या नहीं। इसके लिए उनकी राय का समर्थन करने के लिए तथ्यात्मक डेटा और साक्ष्य के व्यापक विश्लेषण की आवश्यकता है। तथ्यों से राय तक छलांग लगाते समय, हमेशा संभावना होती है कि राय टाइप I और टाइप II त्रुटियां हैं।

संज्ञानात्मक पूर्वाग्रह
विभिन्न प्रकार के संज्ञानात्मक पूर्वाग्रह हैं जो विश्लेषण पर प्रतिकूल प्रभाव डाल सकते हैं। उदाहरण के लिए, पुष्टिकरण पूर्वाग्रह जानकारी की खोज या व्याख्या करने की प्रवृत्ति है जो किसी की पूर्व धारणाओं की पुष्टि करता है। इसके अलावा, व्यक्ति ऐसी जानकारी को अस्वीकार कर सकते हैं जो उनके विचारों का समर्थन नहीं करती है। विश्लेषकों को इन पूर्वाग्रहों के बारे में जागरूक होने और उन्हें दूर करने के लिए विशेष रूप से प्रशिक्षित किया जा सकता है। अपनी पुस्तक साइकोलॉजी ऑफ इंटेलिजेंस एनालिसिस में, सेवानिवृत्त सीआईए विश्लेषक रिचर्ड्स ह्यूअर ने लिखा है कि विश्लेषकों को स्पष्ट रूप से अपनी धारणाओं और अनुमान की श्रृंखलाओं को चित्रित करना चाहिए और निष्कर्षों में शामिल अनिश्चितता की डिग्री और स्रोत को निर्दिष्ट करना चाहिए। उन्होंने वैकल्पिक दृष्टिकोणों को सामने लाने और बहस करने में मदद करने के लिए प्रक्रियाओं पर जोर दिया।

अंकगणित
प्रभावी विश्लेषक आमतौर पर विभिन्न प्रकार की संख्यात्मक तकनीकों में माहिर होते हैं। हालाँकि, दर्शकों के पास संख्याओं या संख्यात्मकता के साथ ऐसी साक्षरता नहीं हो सकती है; उन्हें असंख्य कहा जाता है। डेटा को संप्रेषित करने वाले व्यक्ति जानबूझकर खराब संख्यात्मक तकनीकों का उपयोग करके गुमराह करने या गलत सूचना देने का प्रयास कर सकते हैं। उदाहरण के लिए, कोई संख्या बढ़ रही है या गिर रही है, यह महत्वपूर्ण कारक नहीं हो सकता है। किसी अन्य संख्या के सापेक्ष संख्या अधिक महत्वपूर्ण हो सकती है, जैसे कि सरकारी राजस्व का आकार या अर्थव्यवस्था के आकार (जीडीपी) के सापेक्ष खर्च या कॉर्पोरेट वित्तीय विवरणों में राजस्व के सापेक्ष लागत की राशि। इस संख्यात्मक तकनीक को सामान्यीकरण कहा जाता है या सामान्य आकार। विश्लेषकों द्वारा नियोजित ऐसी कई तकनीकें हैं, चाहे मुद्रास्फीति के लिए समायोजन (अर्थात, वास्तविक बनाम नाममात्र डेटा की तुलना करना) या जनसंख्या वृद्धि, जनसांख्यिकी, आदि पर विचार करना। उपरोक्त अनुभाग में वर्णित विभिन्न मात्रात्मक संदेशों को संबोधित करने के लिए विश्लेषक विभिन्न तकनीकों को लागू करते हैं। विश्लेषक विभिन्न मान्यताओं या परिदृश्य के तहत डेटा का विश्लेषण भी कर सकते हैं। उदाहरण के लिए, जब विश्लेषक वित्तीय विवरण विश्लेषण करते हैं, तो वे अक्सर भविष्य के नकदी प्रवाह के अनुमान पर पहुंचने में मदद करने के लिए विभिन्न मान्यताओं के तहत वित्तीय विवरणों को फिर से तैयार करेंगे, जिसे वे कुछ ब्याज दर के आधार पर वर्तमान मूल्य पर छूट देते हैं, ताकि मूल्यांकन का निर्धारण किया जा सके। कंपनी या उसका स्टॉक। इसी तरह, सीबीओ सरकार के राजस्व, परिव्यय और घाटे पर विभिन्न नीति विकल्पों के प्रभावों का विश्लेषण करता है, जिससे प्रमुख उपायों के लिए वैकल्पिक भविष्य के परिदृश्य तैयार होते हैं।

स्मार्ट भवन
इमारतों में ऊर्जा की खपत का अनुमान लगाने के लिए डेटा एनालिटिक्स दृष्टिकोण का उपयोग किया जा सकता है। स्मार्ट इमारतों को साकार करने के लिए डेटा विश्लेषण प्रक्रिया के विभिन्न चरणों को अंजाम दिया जाता है, जहां भवन प्रबंधन और नियंत्रण संचालन जिसमें हीटिंग, वेंटिलेशन, एयर कंडीशनिंग, प्रकाश और सुरक्षा शामिल हैं, भवन उपयोगकर्ताओं की जरूरतों की नकल करके और संसाधनों का अनुकूलन करके स्वचालित रूप से महसूस किए जाते हैं। ऊर्जा और समय की तरह।

एनालिटिक्स और बिजनेस इंटेलिजेंस
एनालिटिक्स डेटा, सांख्यिकीय और मात्रात्मक विश्लेषण, व्याख्यात्मक और भविष्य कहनेवाला मॉडल, और निर्णय और कार्यों को चलाने के लिए तथ्य-आधारित प्रबंधन का व्यापक उपयोग है। यह बिजनेस इंटेलिजेंस का एक उपसमुच्चय है, जो प्रौद्योगिकियों और प्रक्रियाओं का एक समूह है जो निर्णय लेने को चलाने के लिए व्यावसायिक प्रदर्शन को समझने और विश्लेषण करने के लिए डेटा का उपयोग करता है।

शिक्षा
शिक्षा में, अधिकांश शिक्षकों के पास छात्र डेटा का विश्लेषण करने के उद्देश्य से डेटा सिस्टम तक पहुंच होती है। ये डेटा सिस्टम शिक्षकों के डेटा विश्लेषण की सटीकता में सुधार करने के लिए एक ओवर-द-काउंटर डेटा प्रारूप (लेबल एम्बेड करना, पूरक दस्तावेज़ीकरण, और एक सहायता प्रणाली और प्रमुख पैकेज/प्रदर्शन और सामग्री निर्णय लेना) में डेटा प्रस्तुत करते हैं।

प्रैक्टिशनर नोट्स
इस खंड में तकनीकी व्याख्याएं हैं जो चिकित्सकों की सहायता कर सकती हैं लेकिन विकिपीडिया लेख के विशिष्ट दायरे से बाहर हैं।

प्रारंभिक डेटा विश्लेषण
प्रारंभिक डेटा विश्लेषण चरण और मुख्य विश्लेषण चरण के बीच सबसे महत्वपूर्ण अंतर यह है कि प्रारंभिक डेटा विश्लेषण के दौरान मूल शोध प्रश्न का उत्तर देने के उद्देश्य से किसी भी विश्लेषण से परहेज किया जाता है। प्रारंभिक डेटा विश्लेषण चरण निम्नलिखित चार प्रश्नों द्वारा निर्देशित है:

डेटा की गुणवत्ता
जितनी जल्दी हो सके डेटा की गुणवत्ता की जांच की जानी चाहिए। विभिन्न प्रकार के विश्लेषणों का उपयोग करके डेटा की गुणवत्ता का कई तरीकों से मूल्यांकन किया जा सकता है: आवृत्ति गणना, वर्णनात्मक आँकड़े (माध्य, मानक विचलन, माध्यिका), सामान्यता (तिरछापन, कुर्टोसिस, आवृत्ति हिस्टोग्राम), सामान्य प्रतिरूपण (सांख्यिकी) की आवश्यकता होती है। प्रारंभिक डेटा विश्लेषण चरण के दौरान डेटा की गुणवत्ता का आकलन करने के लिए विश्लेषण का विकल्प उन विश्लेषणों पर निर्भर करता है जो मुख्य विश्लेषण चरण में आयोजित किए जाएंगे।
 * बाहरी का विश्लेषण: डेटा में बाहरी टिप्पणियों का विश्लेषण यह देखने के लिए किया जाता है कि क्या वे वितरण को परेशान करते हैं।
 * कोडिंग योजनाओं में अंतर की तुलना और सुधार: चर की तुलना डेटा सेट के बाहरी चर की कोडिंग योजनाओं के साथ की जाती है, और संभवत: सही किया जाता है यदि कोडिंग योजनाएं तुलनीय नहीं हैं।
 * सामान्य-विधि विचरण के लिए परीक्षण।

माप की गुणवत्ता
मापन उपकरण की गुणवत्ता की जाँच केवल प्रारंभिक डेटा विश्लेषण चरण के दौरान ही की जानी चाहिए जब यह अध्ययन का फोकस या शोध प्रश्न न हो। किसी को यह जांचना चाहिए कि माप उपकरणों की संरचना साहित्य में रिपोर्ट की गई संरचना से मेल खाती है या नहीं।

माप गुणवत्ता का आकलन करने के दो तरीके हैं:
 * पुष्टि कारक विश्लेषण
 * एकरूपता (आंतरिक स्थिरता) का विश्लेषण, जो माप उपकरण की विश्वसनीयता (सांख्यिकी) का संकेत देता है। इस विश्लेषण के दौरान, कोई आइटम और तराजू के भिन्नता का निरीक्षण करता है, क्रोनबैक के अल्फा | क्रोनबैक के स्केल के α, और क्रोनबैक के अल्फा में परिवर्तन जब किसी आइटम को स्केल से हटा दिया जाएगा

प्रारंभिक परिवर्तन
डेटा और माप की गुणवत्ता का आकलन करने के बाद, कोई लापता डेटा को लागू करने, या एक या अधिक चर के प्रारंभिक परिवर्तन करने का निर्णय ले सकता है, हालांकि यह मुख्य विश्लेषण चरण के दौरान भी किया जा सकता है।

चर के संभावित परिवर्तन हैं:
 * वर्गमूल परिवर्तन (यदि वितरण सामान्य से मामूली रूप से भिन्न है)
 * लॉग-ट्रांसफॉर्मेशन (यदि वितरण सामान्य से काफी भिन्न है)
 * उलटा परिवर्तन (यदि वितरण सामान्य से गंभीर रूप से भिन्न होता है)
 * श्रेणीबद्ध करें (क्रमिक / द्विबीजपत्री) (यदि वितरण सामान्य से गंभीर रूप से भिन्न है, और कोई परिवर्तन मदद नहीं करता है)

क्या अध्ययन के कार्यान्वयन ने शोध डिजाइन के इरादों को पूरा किया?
यादृच्छिकीकरण प्रक्रिया की सफलता की जांच करनी चाहिए, उदाहरण के लिए यह जांच कर कि क्या पृष्ठभूमि और मूल चर समान रूप से समूहों के भीतर और बीच में वितरित किए गए हैं। यदि अध्ययन में यादृच्छिककरण प्रक्रिया की आवश्यकता नहीं है या उसका उपयोग नहीं किया गया है, तो किसी को गैर-यादृच्छिक नमूने की सफलता की जांच करनी चाहिए, उदाहरण के लिए यह जांच कर कि रुचि की आबादी के सभी उपसमूह नमूने में दर्शाए गए हैं या नहीं। अन्य संभावित डेटा विकृतियों की जांच की जानी चाहिए:
 * ड्रॉपआउट (इलेक्ट्रॉनिक्स) (इसे प्रारंभिक डेटा विश्लेषण चरण के दौरान पहचाना जाना चाहिए)
 * आइटम प्रतिक्रिया दर (सर्वेक्षण)|गैर-प्रतिक्रिया (चाहे यह यादृच्छिक है या नहीं, प्रारंभिक डेटा विश्लेषण चरण के दौरान मूल्यांकन किया जाना चाहिए)
 * उपचार की गुणवत्ता (हेरफेर जांच का उपयोग करके)।

डेटा नमूने की विशेषताएं
किसी भी रिपोर्ट या लेख में नमूने की संरचना का सटीक वर्णन किया जाना चाहिए। मुख्य विश्लेषण चरण के दौरान उपसमूह विश्लेषण किए जाने पर नमूने की संरचना (और विशेष रूप से उपसमूहों के आकार) को सटीक रूप से निर्धारित करना विशेष रूप से महत्वपूर्ण है। डेटा नमूने की विशेषताओं का आकलन निम्न को देखकर किया जा सकता है:
 * महत्वपूर्ण चरों के मूल आँकड़े
 * तितर बितर भूखंडों
 * सहसंबंध और संघ
 * क्रॉस-सारणी

प्रारंभिक डेटा विश्लेषण का अंतिम चरण
अंतिम चरण के दौरान, प्रारंभिक डेटा विश्लेषण के निष्कर्षों का दस्तावेजीकरण किया जाता है, और आवश्यक, बेहतर और संभावित सुधारात्मक कार्रवाई की जाती है। साथ ही, मुख्य डेटा विश्लेषण के लिए मूल योजना को अधिक विस्तार से या फिर से लिखा जा सकता है और निर्दिष्ट किया जाना चाहिए। ऐसा करने के लिए, मुख्य डेटा विश्लेषण के बारे में कई निर्णय किए जा सकते हैं और किए जाने चाहिए:
 * गैर-सामान्य वितरण के मामले में: क्या एक डेटा परिवर्तन (सांख्यिकी) चर होना चाहिए; चर को श्रेणीबद्ध बनाएं (क्रमिक/द्विभाजित); विश्लेषण पद्धति को अनुकूलित करें?
 * लापता डेटा के मामले में: क्या किसी को लापता डेटा की उपेक्षा या आरोप लगाना चाहिए; किस आरोपण तकनीक का उपयोग किया जाना चाहिए?
 * आउटलेर्स के मामले में: क्या किसी को मजबूत विश्लेषण तकनीकों का उपयोग करना चाहिए?
 * यदि आइटम पैमाने पर फिट नहीं होते हैं: क्या किसी को वस्तुओं को छोड़कर माप उपकरण को अनुकूलित करना चाहिए, या इसके बजाय माप उपकरण (ओं) के अन्य (उपयोग) के साथ तुलना सुनिश्चित करना चाहिए?
 * (भी) छोटे उपसमूहों के मामले में: क्या किसी को अंतर-समूह मतभेदों के बारे में परिकल्पना को छोड़ देना चाहिए, या सटीक परीक्षण या बूटस्ट्रैपिंग (सांख्यिकी) जैसी छोटी नमूना तकनीकों का उपयोग करना चाहिए?
 * यदि यादृच्छिकीकरण प्रक्रिया दोषपूर्ण प्रतीत होती है: क्या किसी को प्रवृत्ति स्कोर मिलान की गणना करनी चाहिए और उन्हें मुख्य विश्लेषणों में सहसंयोजक के रूप में शामिल करना चाहिए?

विश्लेषण
प्रारंभिक डेटा विश्लेषण चरण के दौरान कई विश्लेषणों का उपयोग किया जा सकता है:
 * अभिन्न आँकड़े (एकल चर)
 * बिवेरिएट एसोसिएशन (सहसंबंध)
 * ग्राफिकल तकनीक (बिखरे हुए भूखंड)

विश्लेषण के लिए चरों के मापन स्तरों को ध्यान में रखना महत्वपूर्ण है, क्योंकि प्रत्येक स्तर के लिए विशेष सांख्यिकीय तकनीकें उपलब्ध हैं:
 * नाममात्र और क्रमिक चर
 * आवृत्ति गणना (संख्या और प्रतिशत)
 * एसोसिएशन
 * परिक्रमण (क्रॉसस्टैब्यूलेशन)
 * पदानुक्रमित लॉगलाइनियर विश्लेषण (अधिकतम 8 चरों तक सीमित)
 * लॉगलाइनियर विश्लेषण (प्रासंगिक/महत्वपूर्ण चर और संभावित कन्फ्यूडर की पहचान करने के लिए)
 * सटीक परीक्षण या बूटस्ट्रैपिंग (यदि उपसमूह छोटे हैं)
 * नए चरों की गणना
 * सतत चर
 * वितरण
 * सांख्यिकी (एम, एसडी, विचरण, तिरछापन, कुर्टोसिस)
 * तना और पत्ती प्रदर्शित करता है
 * छोटे भूखंड

अरैखिक विश्लेषण
गैर-रेखीय विश्लेषण अक्सर आवश्यक होता है जब डेटा एक गैर-रेखीय प्रणाली से दर्ज किया जाता है। नॉनलाइनियर सिस्टम द्विभाजन सिद्धांत, अराजकता सिद्धांत, हार्मोनिक्स और सबहार्मोनिक्स सहित जटिल गतिशील प्रभाव प्रदर्शित कर सकते हैं जिनका विश्लेषण सरल रैखिक विधियों का उपयोग करके नहीं किया जा सकता है। नॉनलाइनियर डेटा विश्लेषण नॉनलाइनियर सिस्टम आइडेंटिफिकेशन से निकटता से संबंधित है।

मुख्य डेटा विश्लेषण
मुख्य विश्लेषण चरण में, शोध प्रश्न का उत्तर देने के उद्देश्य से किए गए विश्लेषण के साथ-साथ शोध रिपोर्ट के पहले मसौदे को लिखने के लिए आवश्यक कोई अन्य प्रासंगिक विश्लेषण किया जाता है।

खोजपूर्ण और पुष्टिकारक दृष्टिकोण
मुख्य विश्लेषण चरण में, या तो एक खोजपूर्ण या पुष्टिकरण दृष्टिकोण अपनाया जा सकता है। आमतौर पर डेटा एकत्र करने से पहले दृष्टिकोण तय किया जाता है। एक खोजपूर्ण विश्लेषण में डेटा का विश्लेषण करने से पहले कोई स्पष्ट परिकल्पना नहीं बताई गई है, और डेटा को उन मॉडलों के लिए खोजा जाता है जो डेटा का अच्छी तरह से वर्णन करते हैं। एक पुष्टिकरण विश्लेषण में डेटा के बारे में स्पष्ट परिकल्पना का परीक्षण किया जाता है। खोजपूर्ण डेटा विश्लेषण की सावधानीपूर्वक व्याख्या की जानी चाहिए। एक साथ कई मॉडलों का परीक्षण करते समय उनमें से कम से कम एक के महत्वपूर्ण होने की संभावना अधिक होती है, लेकिन यह टाइप 1 त्रुटि के कारण हो सकता है। कई मॉडलों का परीक्षण करते समय महत्व स्तर को हमेशा समायोजित करना महत्वपूर्ण है, उदाहरण के लिए, एक बोनफेरोनी सुधार। इसके अलावा, किसी को एक ही डेटासेट में एक पुष्टिकरण विश्लेषण के साथ एक खोजपूर्ण विश्लेषण का पालन नहीं करना चाहिए। एक सिद्धांत के लिए विचारों को खोजने के लिए एक खोजपूर्ण विश्लेषण का उपयोग किया जाता है, लेकिन उस सिद्धांत का परीक्षण करने के लिए भी नहीं। जब कोई मॉडल किसी डेटासेट में खोजपूर्ण पाया जाता है, तो उसी डेटासेट में एक पुष्टिकरण विश्लेषण के साथ उस विश्लेषण का अनुसरण करने का सीधा सा मतलब यह हो सकता है कि पुष्टिकरण विश्लेषण के परिणाम उसी प्रकार 1 त्रुटि के कारण होते हैं जिसके परिणामस्वरूप पहले में खोजपूर्ण मॉडल होता है। स्थान। इसलिए पुष्टिकरण विश्लेषण मूल खोजपूर्ण विश्लेषण से अधिक जानकारीपूर्ण नहीं होगा।

परिणामों की स्थिरता
परिणाम कितने सामान्य हैं, इसके बारे में कुछ संकेत प्राप्त करना महत्वपूर्ण है। हालांकि इसकी जांच करना अक्सर मुश्किल होता है, फिर भी परिणामों की स्थिरता को देखा जा सकता है। क्या परिणाम विश्वसनीय और प्रतिलिपि प्रस्तुत करने योग्य हैं? ऐसा करने के दो मुख्य तरीके हैं।
 * क्रॉस-सत्यापन (आंकड़े) | क्रॉस-सत्यापन। डेटा को कई हिस्सों में विभाजित करके, हम जांच सकते हैं कि डेटा के एक हिस्से के आधार पर एक विश्लेषण (एक फिट मॉडल की तरह) डेटा के दूसरे हिस्से में भी सामान्यीकृत होता है। क्रॉस-सत्यापन आम तौर पर अनुचित है, हालांकि, यदि डेटा के भीतर सहसंबंध हैं, उदा। पैनल डेटा के साथ। इसलिए सत्यापन के अन्य तरीकों को कभी-कभी उपयोग करने की आवश्यकता होती है। इस विषय पर अधिक जानकारी के लिए सांख्यिकीय मॉडल सत्यापन देखें।
 * संवेदनशीलता का विश्लेषण। एक प्रणाली या मॉडल के व्यवहार का अध्ययन करने की एक प्रक्रिया जब वैश्विक पैरामीटर (व्यवस्थित रूप से) भिन्न होते हैं। ऐसा करने का एक तरीका बूटस्ट्रैपिंग (सांख्यिकी) के माध्यम से है।

डेटा विश्लेषण के लिए मुफ्त सॉफ्टवेयर
डेटा विश्लेषण के लिए उल्लेखनीय मुफ्त सॉफ्टवेयर में शामिल हैं:
 * DevInfo - मानव विकास की निगरानी और विश्लेषण के लिए संयुक्त राष्ट्र विकास समूह द्वारा समर्थित एक डेटाबेस प्रणाली।
 * ELKI - जावा में डेटा माइनिंग फ्रेमवर्क डेटा माइनिंग ओरिएंटेड विज़ुअलाइज़ेशन फ़ंक्शंस के साथ।
 * KNIME - कॉन्स्टैंज इंफॉर्मेशन माइनर, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
 * ऑरेंज (सॉफ्टवेयर) - एक विज़ुअल प्रोग्रामिंग टूल जिसमें इंटरेक्टिव डेटा विज़ुअलाइज़ेशन और सांख्यिकीय डेटा विश्लेषण, डेटा माइनिंग और मशीन लर्निंग के तरीके शामिल हैं।
 * पांडा (सॉफ्टवेयर) - डेटा विश्लेषण के लिए पायथन पुस्तकालय।
 * भौतिकी विश्लेषण कार्य केंद्र - सर्न में विकसित फोरट्रान/सी डेटा विश्लेषण ढांचा।
 * आर (प्रोग्रामिंग भाषा) - सांख्यिकीय कंप्यूटिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग भाषा और सॉफ्टवेयर वातावरण।
 * रूट-सी++ डेटा विश्लेषण ढांचा सर्न में विकसित किया गया।
 * SciPy - डेटा विश्लेषण के लिए पायथन पुस्तकालय।
 * जूलिया (प्रोग्रामिंग भाषा) - एक प्रोग्रामिंग भाषा जो संख्यात्मक विश्लेषण और कम्प्यूटेशनल विज्ञान के लिए उपयुक्त है।

अंतर्राष्ट्रीय डेटा विश्लेषण प्रतियोगिता
शोधकर्ताओं को अपने डेटा का उपयोग करने या डेटा विश्लेषण का उपयोग करके किसी विशेष प्रश्न को हल करने के लिए प्रोत्साहित करने के लिए विभिन्न कंपनियां या संगठन डेटा विश्लेषण प्रतियोगिता आयोजित करते हैं। प्रसिद्ध अंतरराष्ट्रीय डेटा विश्लेषण प्रतियोगिताओं के कुछ उदाहरण इस प्रकार हैं: * कागले प्रतियोगिता, जो कागले द्वारा आयोजित की जाती है।
 * एफएचडब्ल्यूए और एएससीई द्वारा आयोजित एलटीपीपी अंतर्राष्ट्रीय डेटा विश्लेषण प्रतियोगिता।

यह भी देखें

 * जिवानांकिकी
 * एनालिटिक्स
 * बड़ा डेटा
 * व्यापारिक सूचना
 * सेंसिंग (सांख्यिकी)
 * कम्प्यूटेशनल भौतिकी
 * आंकड़ा अधिग्रहण
 * डेटा सम्मिश्रण
 * सामग्री संचालन
 * डेटा माइनिंग
 * डेटा प्रस्तुति वास्तुकला
 * डेटा साइंस
 * अंकीय संकेत प्रक्रिया
 * आयाम में कमी
 * प्रारंभिक मामले का आकलन
 * अन्वेषणात्मक डेटा विश्लेषण
 * फूरियर विश्लेषण
 * मशीन लर्निंग
 * बहुरेखीय प्रमुख घटक विश्लेषण
 * मल्टीलाइनियर सबस्पेस लर्निंग
 * मल्टीवे डेटा विश्लेषण
 * निकटतम पड़ोसी खोजें
 * अरेखीय प्रणाली की पहचान
 * भविष्य बतानेवाला विश्लेषक
 * प्रमुख कंपोनेंट विश्लेषण
 * गुणात्मक शोध
 * वैज्ञानिक कंप्यूटिंग
 * संरचित डेटा विश्लेषण (सांख्यिकी)
 * सिस्टम पहचान
 * जाँचने का तरीका
 * पाठ विश्लेषण
 * असंरचित डेटा
 * वेवलेट
 * बड़ी डेटा कंपनियों की सूची

इस पृष्ठ में अनुपलब्ध आंतरिक कड़ियों की सूची

 * विशिष्ट एकीकृत परिपथ आवेदन
 * डिजिटल डाटा
 * आंकड़े
 * के माध्यम से (इलेक्ट्रॉनिक्स)
 * संवहन दस्तावेज़ स्वरूप
 * विनिर्माण क्षमता के लिए डिजाइन (आईसी)
 * सिलिकॉन सत्यापन पोस्ट करें
 * मास्क डेटा तैयारी
 * असफलता विश्लेषण
 * रजिस्टर ट्रांसफर लेवल
 * सी (प्रोग्रामिंग भाषा)
 * यात्रा
 * मांग
 * उत्पाद आवश्यकता दस्तावेज़
 * बाज़ार अवसर
 * जीवन का अंत (उत्पाद)
 * निर्देश समुच्चय
 * तर्क अनुकरण
 * सिग्नल की समग्रता
 * डिजाइन नियम की जाँच
 * टाइमिंग क्लोजर
 * औपचारिक तुल्यता जाँच
 * सामान्य केन्द्रक
 * ऑप एंप
 * मेंटर ग्राफिक्स
 * एकीकृत परिपथों और प्रणालियों के कंप्यूटर सहायता प्राप्त डिजाइन पर आईईईई लेनदेन
 * असफलता विश्लेषण
 * एन पी-सम्पूर्ण
 * परीक्षण वेक्टर
 * controllability
 * observability
 * प्रशंसक एल्गोरिदम
 * कूट-यादृच्छिक
 * पंक्ति का पिछला अंत
 * बांड विशेषता
 * दोहरी इन-लाइन पैकेज
 * मरो (एकीकृत सर्किट)
 * निर्माण (अर्धचालक)
 * विद्युतचुंबकीय व्यवधान
 * epoxy
 * भली भांति बंद सील
 * फ्लैटपैक (इलेक्ट्रॉनिक्स)
 * पतली छोटी रूपरेखा पैकेज
 * गोंद
 * मेटलाइजिंग
 * अनावर्ती अभियांत्रिकी
 * बाजार के लिए समय
 * तार का जोड़
 * नमी
 * विद्युतीय
 * स्थानीय कर से मुक्ति
 * साफ-सुथरे कमरे
 * अवरोधित हो जाना
 * HIRF
 * एकीकृत परिपथ
 * रूटिंग (इलेक्ट्रॉनिक डिजाइन ऑटोमेशन)
 * प्रक्रिया के कोने
 * मानक सेल
 * आईसी बिजली की आपूर्ति पिन
 * घड़ी की आवृत्ति
 * सिग्नल की समग्रता
 * उत्तम नस्ल
 * रजिस्टर ट्रांसफर लेवल
 * मूल्य संवर्धित
 * पुस्तकालय (कंप्यूटर विज्ञान)
 * मॉडल आधारित डिजाइन
 * स्वत: नियंत्रण
 * राज्य मशीनें
 * सोर्स कोड
 * स्वचालित कोड पीढ़ी
 * शून्य से विभाजन
 * आवश्यकताओं का पता लगाने योग्यता
 * मॉडल जांच
 * औपचारिक तरीके
 * मॉडल केंद्र
 * वेब आधारित अनुकरण
 * Xcos
 * साइलैब
 * पूर्णांक
 * मैक ओएस
 * प्रयोक्ता इंटरफ़ेस
 * समारोह (गणित)
 * फोरट्रान
 * स्थिर (कंप्यूटर विज्ञान)
 * खिसकाना
 * जादू वर्ग
 * लैम्ब्डा कैलकुलस
 * मेक्स फ़ाइल
 * मेथेमेटिका
 * तुम क्या सहन करते हो
 * संख्यात्मक-विश्लेषण सॉफ्टवेयर की तुलना
 * आईईईई मानक
 * एक्सेलेरा
 * जावा (प्रोग्रामिंग भाषा)
 * पैक्ड सरणी
 * कड़ा मुकाबला
 * struct
 * टाइपडीफ
 * कुंडी (इलेक्ट्रॉनिक)
 * रन टाइम (कार्यक्रम जीवनचक्र चरण)
 * एकल विरासत
 * टेम्पलेट विशेषज्ञता
 * जानकारी छिपाना
 * ऑपरेटर नया
 * यादृच्छिक परीक्षण
 * सामग्री निहितार्थ (अनुमान का नियम)
 * पूर्ववृत्त (तर्क)
 * फलस्वरूप
 * सिमुलेशन
 * स्वचालित प्रमेय सिद्ध करना
 * कार्तीय गुणन
 * परीक्षण के अंतर्गत उपकरण
 * डिजाइन अंतरिक्ष सत्यापन
 * टेस्ट कवरेज
 * उदाहरण (कंप्यूटर विज्ञान)
 * तुल्यकालन (कंप्यूटर विज्ञान)
 * सशक्त टाइपिंग
 * पाश के लिए
 * बहाव को काबू करें
 * लगातार (कंप्यूटर प्रोग्रामिंग)
 * भाषा अंतरसंचालनीयता
 * सी-परिवार प्रोग्रामिंग भाषाओं की सूची
 * प्रक्रमण करने से पहले के निर्देश
 * मूल फाइल
 * लिंट (सॉफ्टवेयर)
 * एकीकृत सर्किट डिजाइन
 * एकीकृत सर्किट लेआउट
 * एकीकृत परिपथ
 * पूरा रिवाज
 * इन्सुलेटर पर सिलिकॉन
 * मुखौटा डेटा तैयारी
 * उच्च स्तरीय संश्लेषण
 * असतत घटना सिमुलेशन
 * आईडिया1
 * उच्च स्तरीय प्रोग्रामिंग भाषा
 * संगणक वैज्ञानिक
 * वितरित अभिकलन
 * व्युत्पन्न वर्ग
 * सीएलयू (प्रोग्रामिंग भाषा)
 * अदा (प्रोग्रामिंग भाषा)
 * कक्षा (कंप्यूटर प्रोग्रामिंग)
 * कास्ट (कंप्यूटर विज्ञान)
 * एक्सेप्शन हेंडलिंग
 * सभा की भाषा
 * अवधारणाएं (सी ++)
 * सी ++ मानक पुस्तकालय
 * एब्स्ट्रैक्शन (कंप्यूटर साइंस)
 * कक्षा (कंप्यूटर विज्ञान)
 * संकलन समय
 * सहयोगी सरणी
 * सुविधा (सॉफ्टवेयर डिजाइन)
 * अनवरत वृद्धि # अनियंत्रित विस्तार
 * विशिष्ट एकीकृत परिपथ आवेदन
 * अर्धचालक निर्माण
 * एक चिप पर सिस्टम
 * नि: शुल्क
 * अनुक्रमिक तर्क
 * स्थान और मार्ग
 * रूटिंग (ईडीए)
 * सेमीकंडक्टर
 * आर्किटेक्ट
 * फ्लोरेंस कैथेड्रल
 * वास्तु सिद्धांत
 * समसामयिक आर्किटेक्चर
 * गोथिक वास्तुशिल्प
 * फार्म समारोह के बाद
 * मंजिल की योजना
 * सुनहरा अनुपात
 * वास्तुकला डिजाइन मूल्य
 * पुनर्निर्माणवाद
 * क्लासिकल एंटिक्विटी
 * कैथेड्रल
 * सौंदर्यशास्र
 * अभिव्यंजनावादी वास्तुकला
 * वास्तु घटना विज्ञान
 * हरा भवन
 * हरित बुनियादी ढाँचा
 * संकल्पनात्मक निदर्श
 * व्‍यवहार
 * वास्तुकला प्रौद्योगिकी
 * कटलरी
 * डिजाइन के तरीके
 * संकल्पनात्मक निदर्श
 * झरना मॉडल
 * शोध करना
 * उत्पाद डिजाइन विनिर्देश
 * संक्षिप्त आकार
 * उत्पाद का परीक्षण करना
 * समस्या को सुलझाना
 * दस्तावेज़
 * साइट पर
 * आशुरचना
 * चुस्त सॉफ्टवेयर विकास
 * उपयोगकर्ता केंद्रित डिजाइन
 * ग्राफक कला
 * एप्लाइड आर्ट्स
 * मुहावरा
 * चिन्ह, प्रतीक
 * जानबूझकर परिभाषा
 * अंक शास्त्र
 * सूक्तियों
 * आवश्यक और पर्याप्त शर्तें
 * लिंग-अंतर परिभाषा
 * त्रिकोण
 * चतुष्कोष
 * पदार्थवाद
 * संभव दुनिया
 * कठोर अभिकर्ता
 * संचालनगत परिभाषा
 * समनाम
 * निराकरण
 * संकेत (सेमियोटिक्स)
 * सेमे (शब्दार्थ)
 * शब्द भावना
 * अर्थ क्षेत्र
 * अर्थ (भाषाविज्ञान)
 * निओलगिज़्म
 * अपरिष्कृत किस्म
 * परिभाषा के अनुसार विस्तार
 * आत्म संदर्भ
 * चिकित्सा सहमति
 * चिकित्सा वर्गीकरण
 * शाब्दिक परिभाषा
 * मतवाद
 * प्राणी
 * दार्शनिक जांच
 * व्यक्तित्व का सिद्धांत
 * विवरण का सिद्धांत
 * शाऊल क्रिप्के
 * अनिश्चितता (दर्शनशास्त्र)
 * अर्थ विज्ञान
 * जानकारी
 * सरल भाषा
 * भाषा: हिन्दी
 * बातचीत का माध्यम
 * सूचना प्रक्रम
 * गुप्तता
 * लिख रहे हैं
 * आधार - सामग्री संकोचन
 * हाव-भाव
 * कुल कार्य
 * कड़ी
 * कोड वर्ड
 * कम घनत्व समता-जांच कोड
 * उच्चारण क्षमता
 * चरित्र (कंप्यूटिंग)
 * एचटीटीपी हेडर
 * जेनेटिक कोड
 * जीवविज्ञान
 * अवरोध
 * पत्रक संगीत
 * क्रिप्टोग्राफी का इतिहास
 * पाठ के प्रस्तुतिकरण के लिए प्रयुक्त भाषा
 * टेक्स्ट एन्कोडिंग पहल
 * SECAM
 * शब्दार्थ एन्कोडिंग
 * मेमोरी एन्कोडिंग
 * लेखन प्रणाली
 * सांकेतिकता
 * कोड (सेमियोटिक्स)
 * असिमिक लेखन
 * जाँचने का तरीका
 * निहाई
 * बरबाद करना
 * प्रथम लेख निरीक्षण

ग्रन्थसूची

 * Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.
 * Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.
 * Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

अग्रिम पठन

 * Adèr, H.J. & Mellenbergh, G.J. (with contributions by D.J. Hand) (2008). Advising on Research Methods: A Consultant's Companion. Huizen, the Netherlands: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5
 * Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis, Wadsworth/Duxbury Press. ISBN 0-534-98052-X
 * Fandango, Armando (2017). Python Data Analysis, 2nd Edition. Packt Publishers. ISBN 978-1787127487
 * Juran, Joseph M.; Godfrey, A. Blanton (1999). Juran's Quality Handbook, 5th Edition. New York: McGraw Hill. ISBN 0-07-034003-X
 * Lewis-Beck, Michael S. (1995). Data Analysis: an Introduction, Sage Publications Inc, ISBN 0-8039-5772-6
 * NIST/SEMATECH (2008) Handbook of Statistical Methods,
 * Pyzdek, T, (2003). Quality Engineering Handbook, ISBN 0-8247-4614-7
 * Richard Veryard (1984). Pragmatic Data Analysis. Oxford : Blackwell Scientific Publications. ISBN 0-632-01311-7
 * Tabachnick, B.G.; Fidell, L.S. (2007). Using Multivariate Statistics, 5th Edition. Boston: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4