गणितीय सांख्यिकी



गणितीय आँकड़े सांख्यिकीय डेटा एकत्र करने की तकनीकों के विपरीत, संभाव्यता सिद्धांत, गणित की एक शाखा, का सांख्यिकी में अनुप्रयोग है। इसके लिए जिन विशिष्ट गणितीय तकनीकों का उपयोग किया जाता है उनमें गणितीय विश्लेषण, रैखिक बीजगणित, स्टोकेस्टिक विश्लेषण, अंतर समीकरण और माप सिद्धांत शामिल हैं।

परिचय
सांख्यिकीय डेटा संग्रह का संबंध अध्ययन की योजना, विशेष रूप से प्रयोगों के डिजाइन और यादृच्छिक नमूने का उपयोग करके सांख्यिकीय सर्वेक्षण की योजना से है। डेटा का प्रारंभिक विश्लेषण अक्सर अध्ययन किए जाने से पहले निर्दिष्ट अध्ययन प्रोटोकॉल का पालन करता है। किसी अध्ययन के डेटा का विश्लेषण प्रारंभिक परिणामों से प्रेरित माध्यमिक परिकल्पनाओं पर विचार करने या नए अध्ययनों का सुझाव देने के लिए भी किया जा सकता है। नियोजित अध्ययन से प्राप्त डेटा का द्वितीयक विश्लेषण डेटा विश्लेषण के उपकरणों का उपयोग करता है, और ऐसा करने की प्रक्रिया गणितीय आँकड़े हैं।

डेटा विश्लेषण को इसमें विभाजित किया गया है:


 * वर्णनात्मक आँकड़े - आँकड़ों का वह भाग जो डेटा का वर्णन करता है, अर्थात डेटा और उनके विशिष्ट गुणों का सारांश देता है।
 * अनुमानात्मक आँकड़े - आँकड़ों का वह भाग जो डेटा से निष्कर्ष निकालता है (डेटा के लिए कुछ मॉडल का उपयोग करके): उदाहरण के लिए, अनुमानात्मक आँकड़ों में डेटा के लिए एक मॉडल का चयन करना, यह जाँचना कि क्या डेटा किसी विशेष मॉडल की शर्तों को पूरा करता है, और मात्रा निर्धारित करना शामिल है इसमें शामिल अनिश्चितता (उदाहरण के लिए आत्मविश्वास अंतराल का उपयोग करना)।

जबकि डेटा विश्लेषण के उपकरण यादृच्छिक अध्ययन से प्राप्त डेटा पर सबसे अच्छा काम करते हैं, वे अन्य प्रकार के डेटा पर भी लागू होते हैं। उदाहरण के लिए, प्राकृतिक प्रयोगों और अवलोकन संबंधी अध्ययनों से, इस मामले में अनुमान सांख्यिकीविद् द्वारा चुने गए मॉडल पर निर्भर होता है, और इसलिए व्यक्तिपरक होता है।

विषय
गणितीय सांख्यिकी में कुछ महत्वपूर्ण विषय निम्नलिखित हैं:

संभावना वितरण
संभाव्यता वितरण एक फ़ंक्शन (गणित) है जो एक यादृच्छिक प्रयोग ([[संभावना सिद्धांत)]], सर्वेक्षण पद्धति, या सांख्यिकीय अनुमान की प्रक्रिया के संभावित परिणामों के प्रत्येक माप (गणित) के लिए एक संभावना प्रदान करता है। ऐसे प्रयोगों में उदाहरण पाए जाते हैं जिनका नमूना स्थान गैर-संख्यात्मक है, जहां वितरण एक श्रेणीबद्ध वितरण होगा; ऐसे प्रयोग जिनका नमूना स्थान असतत यादृच्छिक चर द्वारा एन्कोड किया गया है, जहां वितरण को संभाव्यता द्रव्यमान फ़ंक्शन द्वारा निर्दिष्ट किया जा सकता है; और निरंतर यादृच्छिक चर द्वारा एन्कोड किए गए नमूना स्थानों के साथ प्रयोग, जहां वितरण को संभाव्यता घनत्व फ़ंक्शन द्वारा निर्दिष्ट किया जा सकता है। अधिक जटिल प्रयोग, जैसे कि निरंतर समय में परिभाषित स्टोकेस्टिक प्रक्रियाओं से जुड़े प्रयोग, अधिक सामान्य संभाव्यता उपायों के उपयोग की मांग कर सकते हैं।

संभाव्यता वितरण या तो यूनीवेरिएट वितरण या बहुभिन्नरूपी वितरण हो सकता है। एक अविभाज्य वितरण एक एकल यादृच्छिक चर के विभिन्न वैकल्पिक मान लेने की संभावनाएँ देता है; एक बहुभिन्नरूपी वितरण (एक संयुक्त संभाव्यता वितरण) एक यादृच्छिक वेक्टर की संभावनाएं देता है - दो या दो से अधिक यादृच्छिक चर का एक सेट - मानों के विभिन्न संयोजनों पर आधारित। महत्वपूर्ण और आम तौर पर सामने आने वाले अविभाज्य संभाव्यता वितरण में द्विपद वितरण, हाइपरज्यामितीय वितरण और सामान्य वितरण शामिल हैं। बहुभिन्नरूपी सामान्य वितरण आमतौर पर पाया जाने वाला बहुभिन्नरूपी वितरण है।

विशेष वितरण

 * सामान्य वितरण, सबसे सामान्य सतत वितरण
 * बर्नौली वितरण, एकल बर्नौली परीक्षण के परिणाम के लिए (जैसे सफलता/असफलता, हाँ/नहीं)
 * स्वतंत्र (सांख्यिकी) घटनाओं की एक निश्चित कुल संख्या दी गई सकारात्मक घटनाओं (जैसे सफलताएं, हां वोट इत्यादि) की संख्या के लिए द्विपद वितरण
 * नकारात्मक द्विपद वितरण, द्विपद-प्रकार के अवलोकनों के लिए लेकिन जहां ब्याज की मात्रा दी गई सफलताओं की संख्या होने से पहले विफलताओं की संख्या है
 * ज्यामितीय वितरण, द्विपद-प्रकार के अवलोकनों के लिए, लेकिन जहां रुचि की मात्रा पहली सफलता से पहले विफलताओं की संख्या है; नकारात्मक द्विपद वितरण का एक विशेष मामला, जहां सफलताओं की संख्या एक है।
 * मूल्यों के एक सीमित सेट के लिए असतत समान वितरण (उदाहरण के लिए निष्पक्ष पासे का परिणाम)
 * निरंतर वितरित मूल्यों के लिए निरंतर समान वितरण
 * पॉइसन वितरण, किसी निश्चित समयावधि में पॉइसन-प्रकार की घटना की घटनाओं की संख्या के लिए
 * अगली पॉइसन-प्रकार की घटना घटित होने से पहले के समय के लिए घातीय वितरण
 * गामा वितरण, अगले के पॉइसन-प्रकार की घटनाओं के घटित होने से पहले के समय के लिए
 * ची-वर्ग वितरण, वर्ग मानक सामान्य चर के योग का वितरण; उपयोगी उदा. सामान्य रूप से वितरित नमूनों के नमूना भिन्नता के संबंध में अनुमान के लिए (ची-स्क्वेर्ड परीक्षण देखें)
 * छात्र का टी वितरण, एक मानक सामान्य चर के अनुपात का वितरण और एक स्केल किए गए ची वर्ग वितरण चर का वर्गमूल; अज्ञात विचरण के साथ सामान्य रूप से वितरित नमूनों के माध्य के बारे में अनुमान लगाने के लिए उपयोगी (छात्र का टी-परीक्षण देखें)
 * बीटा वितरण, एकल संभाव्यता के लिए (0 और 1 के बीच वास्तविक संख्या); बर्नौली वितरण और द्विपद वितरण से संयुग्मित

सांख्यिकीय अनुमान
सांख्यिकीय अनुमान डेटा से निष्कर्ष निकालने की प्रक्रिया है जो यादृच्छिक भिन्नता के अधीन है, उदाहरण के लिए, अवलोकन संबंधी त्रुटियां या नमूना भिन्नता। अनुमान और आगमनात्मक तर्क के लिए प्रक्रियाओं की ऐसी प्रणाली की प्रारंभिक आवश्यकताएं यह हैं कि सिस्टम को अच्छी तरह से परिभाषित स्थितियों पर लागू होने पर उचित उत्तर देना चाहिए और यह कई स्थितियों में लागू होने के लिए पर्याप्त सामान्य होना चाहिए। अनुमानित आँकड़ों का उपयोग परिकल्पनाओं का परीक्षण करने और नमूना डेटा का उपयोग करके अनुमान लगाने के लिए किया जाता है। जबकि वर्णनात्मक आँकड़े एक नमूने का वर्णन करते हैं, अनुमानात्मक आँकड़े उस बड़ी आबादी के बारे में भविष्यवाणियाँ करते हैं जिसका नमूना प्रतिनिधित्व करता है।

सांख्यिकीय अनुमान का परिणाम इस प्रश्न का उत्तर हो सकता है कि आगे क्या किया जाना चाहिए? , जहां यह आगे के प्रयोग या सर्वेक्षण करने, या किसी संगठनात्मक या सरकारी नीति को लागू करने से पहले निष्कर्ष निकालने के बारे में निर्णय हो सकता है। अधिकांश भाग के लिए, सांख्यिकीय अनुमान कुछ प्रकार के यादृच्छिक नमूने के माध्यम से रुचि की आबादी से निकाले गए डेटा का उपयोग करके आबादी के बारे में प्रस्ताव देता है। अधिक सामान्यतः, एक यादृच्छिक प्रक्रिया के बारे में डेटा एक सीमित अवधि के दौरान उसके देखे गए व्यवहार से प्राप्त किया जाता है। किसी पैरामीटर या परिकल्पना को देखते हुए जिसके बारे में कोई अनुमान लगाना चाहता है, सांख्यिकीय अनुमान सबसे अधिक बार उपयोग किया जाता है:
 * यादृच्छिक प्रक्रिया का एक सांख्यिकीय मॉडल जो डेटा उत्पन्न करने वाला होता है, जिसे तब जाना जाता है जब यादृच्छिककरण का उपयोग किया गया हो, और
 * यादृच्छिक प्रक्रिया का एक विशेष अहसास; यानी, डेटा का एक सेट।

प्रतिगमन
सांख्यिकी में, प्रतिगमन विश्लेषण चर के बीच संबंधों का अनुमान लगाने के लिए एक सांख्यिकीय प्रक्रिया है। इसमें कई चरों के मॉडलिंग और विश्लेषण के कई तरीके शामिल हैं, जब फोकस एक आश्रित चर और एक या अधिक स्वतंत्र चर के बीच संबंध पर होता है। अधिक विशेष रूप से, प्रतिगमन विश्लेषण यह समझने में मदद करता है कि आश्रित चर (या 'मानदंड चर') का विशिष्ट मूल्य कैसे बदलता है जब किसी एक स्वतंत्र चर में भिन्नता होती है, जबकि अन्य स्वतंत्र चर स्थिर रहते हैं। आमतौर पर, प्रतिगमन विश्लेषण स्वतंत्र चर को देखते हुए आश्रित चर की सशर्त अपेक्षा का अनुमान लगाता है - यानी, स्वतंत्र चर तय होने पर आश्रित चर का औसत मूल्य। आमतौर पर, ध्यान स्वतंत्र चर को देखते हुए आश्रित चर के सशर्त वितरण के मात्रात्मक  या अन्य स्थान [[पैरामीटर]] पर होता है। सभी मामलों में, अनुमान लक्ष्य स्वतंत्र चर का एक फ़ंक्शन (गणित) है जिसे रिग्रेशन फ़ंक्शन कहा जाता है। प्रतिगमन विश्लेषण में, प्रतिगमन फ़ंक्शन के आसपास आश्रित चर की भिन्नता को चिह्नित करना भी दिलचस्प है जिसे संभाव्यता वितरण द्वारा वर्णित किया जा सकता है।

प्रतिगमन विश्लेषण करने के लिए कई तकनीकें विकसित की गई हैं। परिचित विधियाँ, जैसे कि रैखिक प्रतिगमन, पैरामीट्रिक आँकड़े हैं, जिसमें प्रतिगमन फ़ंक्शन को अज्ञात मापदंडों की एक सीमित संख्या के संदर्भ में परिभाषित किया जाता है जो डेटा से अनुमानित होते हैं (उदाहरण के लिए सामान्य न्यूनतम वर्गों का उपयोग करके)। गैरपैरामीट्रिक प्रतिगमन उन तकनीकों को संदर्भित करता है जो रिग्रेशन फ़ंक्शन को फ़ंक्शन (गणित) के एक निर्दिष्ट सेट में झूठ बोलने की अनुमति देता है, जो आयाम | अनंत-आयामी हो सकता है।

गैरपैरामीट्रिक आँकड़े
गैर-पैरामीट्रिक आँकड़े डेटा से इस तरह से गणना किए गए मान हैं जो संभाव्यता वितरण के सांख्यिकीय पैरामीटर परिवारों पर आधारित नहीं हैं। इनमें वर्णनात्मक आँकड़े और सांख्यिकीय अनुमान आँकड़े दोनों शामिल हैं। विशिष्ट पैरामीटर माध्य, विचरण आदि हैं। पैरामीट्रिक आँकड़ों के विपरीत, गैर-पैरामीट्रिक आँकड़े मूल्यांकन किए जा रहे चर के संभाव्यता वितरण के बारे में कोई धारणा नहीं बनाते हैं। गैर-पैरामीट्रिक तरीकों का व्यापक रूप से उन आबादी का अध्ययन करने के लिए उपयोग किया जाता है जो एक क्रमबद्ध क्रम में होती हैं (जैसे कि एक से चार स्टार प्राप्त करने वाली फिल्म समीक्षा)। गैर-पैरामीट्रिक तरीकों का उपयोग तब आवश्यक हो सकता है जब डेटा की रैंकिंग हो लेकिन कोई स्पष्ट संख्यात्मक व्याख्या न हो, जैसे कि प्राथमिकताओं का आकलन करते समय। माप के स्तर के संदर्भ में, गैर-पैरामीट्रिक तरीकों से क्रमिक डेटा प्राप्त होता है।

चूंकि गैर-पैरामीट्रिक विधियां कम धारणाएं बनाती हैं, इसलिए उनकी प्रयोज्यता संबंधित पैरामीट्रिक विधियों की तुलना में बहुत व्यापक है। विशेष रूप से, उन्हें उन स्थितियों में लागू किया जा सकता है जहां प्रश्न में आवेदन के बारे में कम जानकारी है। साथ ही, कम मान्यताओं पर निर्भरता के कारण, गैर-पैरामीट्रिक विधियाँ अधिक मजबूत आँकड़े#परिचय हैं।

गैर-पैरामीट्रिक तरीकों का एक दोष यह है कि चूंकि वे मान्यताओं पर भरोसा नहीं करते हैं, इसलिए वे आम तौर पर अपने पैरामीट्रिक समकक्षों की तुलना में परीक्षण की कम शक्ति वाले होते हैं। कम शक्ति वाले गैर-पैरामीट्रिक परीक्षण समस्याग्रस्त हैं क्योंकि इन विधियों का सामान्य उपयोग तब होता है जब किसी नमूने का नमूना आकार कम होता है। नेमैन-पियर्सन लेम्मा और संभावना-अनुपात परीक्षण जैसी विधियों के माध्यम से कई पैरामीट्रिक विधियां सबसे शक्तिशाली परीक्षण साबित हुई हैं।

गैर-पैरामीट्रिक तरीकों के उपयोग का एक अन्य औचित्य सरलता है। कुछ मामलों में, भले ही पैरामीट्रिक विधियों का उपयोग उचित हो, गैर-पैरामीट्रिक विधियों का उपयोग करना आसान हो सकता है। इस सरलता और उनकी अधिक मजबूती दोनों के कारण, कुछ सांख्यिकीविदों द्वारा गैर-पैरामीट्रिक तरीकों को अनुचित उपयोग और गलतफहमी के लिए कम जगह छोड़ने के रूप में देखा जाता है।

सांख्यिकी, गणित, और गणितीय सांख्यिकी
गणितीय आँकड़े सांख्यिकी के अनुशासन का एक प्रमुख उपसमुच्चय है। सांख्यिकीविद् गणित के साथ सांख्यिकीय प्रक्रियाओं का अध्ययन और सुधार करते हैं, और सांख्यिकीय अनुसंधान अक्सर गणितीय प्रश्न उठाते हैं।

गॉस, लाप्लास और चार्ल्स सैंडर्स पीयर्स|सी जैसे गणितज्ञ और सांख्यिकीविद्। एस. पीयर्स ने संभाव्यता वितरण और हानि कार्यों (या उपयोगिता कार्यों) के साथ इष्टतम निर्णय का उपयोग किया। सांख्यिकीय अनुमान के लिए निर्णय-सैद्धांतिक दृष्टिकोण को इब्राहीम का जन्म हुआ  और उनके उत्तराधिकारियों द्वारा पुनर्जीवित किया गया था,       और वैज्ञानिक कंप्यूटिंग, गणितीय विश्लेषण और अनुकूलन (गणित) का व्यापक उपयोग करता है; प्रयोगों के डिज़ाइन के लिए, सांख्यिकीविद् बीजगणितीय सांख्यिकी और संयोजनात्मक डिज़ाइन का उपयोग करते हैं। लेकिन जबकि सांख्यिकीय अभ्यास अक्सर संभाव्यता सिद्धांत और इष्टतम निर्णय पर निर्भर करता है, उनका अनुप्रयोग विवादास्पद हो सकता है

यह भी देखें

 * स्पर्शोन्मुख सिद्धांत (सांख्यिकी)

अग्रिम पठन

 * Borovkov, A. A. (1999). Mathematical Statistics. CRC Press. ISBN 90-5699-018-7
 * Virtual Laboratories in Probability and Statistics (Univ. of Ala.-Huntsville)
 * StatiBot, interactive online expert system on statistical tests.
 * ISBN 978-9383385188