सांख्यिकीय प्रतिरूप

सांख्यिकीय प्रतिरूप एक गणितीय प्रतिरूप है जो प्रतिरूप आँकड़े (और एक बड़ी आबादी से समान आँकड़े) की पीढ़ी से संबंधित सांख्यिकीय मान्यताओं के एक समूह का प्रतीक है। एक सांख्यिकीय प्रतिरूप, अक्सर पर्याप्त आदर्श रूप से, आंकड़े उत्पन्न करना की प्रक्रिया का प्रतिनिधित्व करता है। एक सांख्यिकीय प्रतिरूप को आमतौर पर एक या अधिक यादृच्छिक चर और अन्य गैर-यादृच्छिक चर के बीच गणितीय संबंध के रूप में निर्दिष्ट किया जाता है। जैसे, एक सांख्यिकीय प्रतिरूप एक "सिद्धांत का औपचारिक प्रतिनिधित्व" है (केनेथ बोलन द्वारा उद्धृत हरमन एडर)। सांख्यिकीय प्रतिरूपण के माध्यम से सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमानक प्राप्त किए जाते हैं। आम तौर पर, सांख्यिकीय प्रतिरूप सांख्यिकीय अनुमान के आधार का हिस्सा होते हैं।

परिचय
अनौपचारिक रूप से, एक सांख्यिकीय प्रतिरूप को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं का सेट) के रूप में माना जा सकता है: यह धारणा हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है। एक उदाहरण के रूप में, साधारण छः भुजाओं वाले पासों के एक जोड़े पर विचार करें। हम पासे के बारे में दो भिन्न सांख्यिकीय मान्यताओं का अध्ययन करेंगे।

पहली सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, प्रत्येक चेहरे (1, 2, 3, 4, 5, और 6) के खींचे जाने की 1/6 संभावना है। उस धारणा से, हम इस संभावना की गणना कर सकते हैं कि दोनों पासे 5:  1/6 × 1/6 = 1/36 के रूप में निकलेंगे। सामान्य तौर पर, हम किसी भी घटना की संभावना की गणना कर सकते हैं: उदाहरण (1 और 2) या (3 और 3) या (5 और 6)।

वैकल्पिक सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, एक फलक 5 प्राप्त करने की प्रायिकता 1/8 है (चूंकि पासों को भारित किया जाता है)। उस धारणा से, हम इस प्रायिकता की गणना कर सकते हैं कि दोनों पासे 5:  1/8 × 1/8 = 1/64 के रूप में निकलेंगे। यद्यपि, हम किसी अन्य गैर महत्वहीन घटना की प्रायिकता की गणना नहीं कर सकते, क्योंकि अन्य चेहरों की प्रायिकताएँ अज्ञात हैं।

पहली सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप बनाती है: क्योंकि केवल धारणा के साथ, हम किसी भी घटना की संभावना की गणना कर सकते हैं। वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप नहीं बनाती है: क्योंकि केवल धारणा के साथ, हम प्रत्येक घटना की संभावना की गणना नहीं कर सकते हैं।

उपरोक्त उदाहरण में, पहली धारणा के साथ, किसी घटना की प्रायिकता की गणना करना आसान है। हालांकि, जैसा कि कुछ अन्य उदाहरणों में होता है, गणना कठिन या अव्यवहारिक हो सकती है (उदाहरण के लिए गणना के लाखों वर्षों की आवश्यकता हो सकती है)। एक सांख्यिकीय प्रतिरूप के निर्माण की धारणा के लिए, ऐसी कठिनाई स्वीकार्य है: गणना का व्यावहारिक होना जरूरी नहीं है, केवल सैद्धांतिक रूप से संभव है।

औपचारिक परिभाषा
गणितीय शब्दों में, एक सांख्यिकीय प्रतिरूप को आमतौर पर एक जोड़ी ($$S, \mathcal{P}$$), के रूप में माना जाता है, जहां $$S$$ संभावित अवलोकनों का समहू है, यानी प्रतिदर्श समष्टि और $$\mathcal{P}$$, $$S$$ पर प्रायिकता वितरण का एक समूह है। इस परिभाषा के पीछे का भाव इस प्रकार है। यह माना जाता है कि देखे गए आंकड़ों में "सत्य" प्रयायिकता वितरण होता है जो उत्पादन प्रक्रिया द्वारा नियंत्रित होता है। हम एक समूह (वितरण के) का प्रतिनिधित्व करने के लिए $$\mathcal{P}$$ चुनते हैं, जिसमें एक वितरण है जो पर्याप्त रूप से सही वितरण का अनुमान लगाता है।

ध्यान दें कि हमें इसकी आवश्यकता नहीं है कि $$\mathcal{P}$$ का पूर्ण वितरण हो, और व्यवहार में ऐसा बहुत कम होता है। वास्तव में, जैसा कि बर्नहैम एंड एंडरसन कहते हैं, "एक प्रतिरूप वास्तविकता का एक सरलीकरण या अनुमान है और इसलिए सभी वास्तविकता को प्रतिबिंबित नहीं करेगा" इसलिए कहावत "सभी प्रतिरूप गलत हैं"।

समहू $$\mathcal{P}$$ लगभग हमेशा पैरामीटरयुक्त होता है: $$\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$$। समहू $$\Theta$$ मॉडल के मापदंडों को परिभाषित करता है। आम तौर पर अलग-अलग वितरण के लिए अलग-अलग मापदंड मान देने के लिए मानकीकरण की आवश्यकता होती है अर्थात् $$P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2$$ आयोजित करें (दूसरे शब्दों में, यह अंतःक्षेपक होना चाहिए)। आवश्यकता को संतुष्ट करने वाले मापदंडों को अभिज्ञेय कहा जाता है।

एक उदाहरण
मान लीजिए कि हमारे पास बच्चों की आबादी है, जिनकी उम्र समान रूप से, आबादी में वितरित की गई है।एक बच्चे की ऊंचाई उम्र से संबंधित हो जाएगी: उदा।जब हम जानते हैं कि एक बच्चा 7 वर्ष का है, तो यह बच्चे को 1.5 मीटर लंबा होने की संभावना को प्रभावित करता है।हम एक रैखिक प्रतिगमन मॉडल में उस संबंध को औपचारिक रूप दे सकते हैं, इस तरह: कदi& nbsp; = b0& nbsp;+ b1आयुi& nbsp;+ εi, जहां बी0 इंटरसेप्ट है, बी1 एक पैरामीटर है कि उम्र की भविष्यवाणी प्राप्त करने के लिए आयु को गुणा किया जाता है, εi त्रुटि शब्द है, और मैं बच्चे की पहचान करता हूं।इसका तात्पर्य यह है कि ऊँचाई की भविष्यवाणी उम्र से होती है, कुछ त्रुटि के साथ।

एक स्वीकार्य मॉडल सभी डेटा बिंदुओं के अनुरूप होना चाहिए।इस प्रकार, एक सीधी रेखा (ऊंचाई)i& nbsp; = b0& nbsp;+ b1आयुi) डेटा के एक मॉडल के लिए समीकरण नहीं हो सकता है - जब तक कि यह सभी डेटा बिंदुओं को बिल्कुल फिट नहीं करता है, यानी सभी डेटा बिंदु लाइन पर पूरी तरह से झूठ बोलते हैं।त्रुटि शब्द, εi, समीकरण में शामिल किया जाना चाहिए, ताकि मॉडल सभी डेटा बिंदुओं के अनुरूप हो।

सांख्यिकीय निष्कर्ष करने के लिए, हमें पहले ε के लिए कुछ संभावना वितरण मानने की आवश्यकता होगीi।उदाहरण के लिए, हम मान सकते हैं कि εi वितरण II.D.गॉसियन, शून्य माध्य के साथ।इस उदाहरण में, मॉडल में 3 पैरामीटर होंगे: बी0, बी1, और गाऊसी वितरण का विचरण।

हम औपचारिक रूप से मॉडल को फॉर्म में निर्दिष्ट कर सकते हैं ($$S, \mathcal{P}$$) निम्नलिखित नुसार।नमूना स्थान, $$S$$, हमारे मॉडल में सभी संभावित जोड़े (उम्र, ऊंचाई) का सेट शामिल है।का प्रत्येक संभावित मूल्य $$\theta$$& nbsp; = (बी0, बी1, और सिग्मा;2) पर एक वितरण निर्धारित करता है $$S$$;उस वितरण को निरूपित करें $$P_{\theta}$$।यदि $$\Theta$$ के सभी संभावित मूल्यों का सेट है $$\theta$$, फिर $$\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$$।(मानकीकरण पहचान योग्य है, और यह जांच करना आसान है।)

इस उदाहरण में, मॉडल (1) निर्दिष्ट करने से निर्धारित होता है $$S$$ और (2) कुछ धारणाओं को प्रासंगिक बनाना $$\mathcal{P}$$।दो धारणाएं हैं: उस ऊंचाई को उम्र के एक रैखिक कार्य द्वारा अनुमानित किया जा सकता है;सन्निकटन में त्रुटियों को i.i.d के रूप में वितरित किया जाता है।गाऊसी।धारणाएं निर्दिष्ट करने के लिए पर्याप्त हैं $$\mathcal{P}$$& mdash; जैसा कि उन्हें करना आवश्यक है।

सामान्य टिप्पणी
एक सांख्यिकीय मॉडल गणितीय मॉडल का एक विशेष वर्ग है। एक सांख्यिकीय मॉडल को अन्य गणितीय मॉडल से अलग करता है कि एक सांख्यिकीय मॉडल गैर-नियतात्मक है। इस प्रकार, गणितीय समीकरणों के माध्यम से निर्दिष्ट एक सांख्यिकीय मॉडल में, कुछ चर में विशिष्ट मूल्य नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; यानी कुछ चर स्टोकेस्टिक हैं। बच्चों की ऊंचाइयों के साथ उपरोक्त उदाहरण में, ε एक स्टोकेस्टिक चर है; उस स्टोकेस्टिक चर के बिना, मॉडल नियतात्मक होगा।

सांख्यिकीय मॉडल का उपयोग अक्सर तब भी किया जाता है जब डेटा-जनरेटिंग प्रक्रिया मॉडलिंग की जा रही है, नियतात्मक है। उदाहरण के लिए, सिक्का टॉसिंग, सिद्धांत रूप में, एक नियतात्मक प्रक्रिया है; फिर भी यह आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।

किसी दिए गए डेटा-जनरेटिंग प्रक्रिया का प्रतिनिधित्व करने के लिए एक उपयुक्त सांख्यिकीय मॉडल का चयन करना कभी-कभी बेहद कठिन होता है, और प्रक्रिया और प्रासंगिक सांख्यिकीय विश्लेषण दोनों के ज्ञान की आवश्यकता हो सकती है। संबंधित रूप से, सांख्यिकीविद् सर डेविड कॉक्स ने कहा है, कैसे [] विषय-वस्तु समस्या से सांख्यिकीय मॉडल में अनुवाद किया जाता है, अक्सर एक विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है। कोनिशी & nbsp; & kitagawa के अनुसार, एक सांख्यिकीय मॉडल के लिए तीन उद्देश्य हैं। वे तीन उद्देश्य अनिवार्य रूप से दोस्ताना & nbsp; & meyer: भविष्यवाणी, अनुमान, विवरण द्वारा इंगित तीन उद्देश्यों के समान हैं। तीन उद्देश्य तीन प्रकार के तार्किक तर्क के साथ मेल खाते हैं: कटौतीत्मक तर्क, आगमनात्मक तर्क, अपहरण तर्क।
 * भविष्यवाणियां
 * जानकारी का निष्कर्षण
 * स्टोकेस्टिक संरचनाओं का विवरण

एक मॉडल का आयाम
मान लीजिए कि हमारे पास एक सांख्यिकीय मॉडल है ($$S, \mathcal{P}$$) साथ $$\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$$।मॉडल को पैरामीट्रिक कहा जाता है $$\Theta$$ एक परिमित आयाम है।संकेतन में, हम यह लिखते हैं $$\Theta \subseteq \mathbb{R}^k$$ कहाँ पे $k$ एक सकारात्मक पूर्णांक है ($$\mathbb{R}$$ वास्तविक संख्याओं को दर्शाता है;अन्य सेटों का उपयोग किया जा सकता है, सिद्धांत रूप में)।यहां, $k$ मॉडल का आयाम कहा जाता है।

एक उदाहरण के रूप में, यदि हम मानते हैं कि डेटा एक अविभाज्य गौसियन वितरण से उत्पन्न होता है, तो हम यह मान रहे हैं कि
 * $$\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}$$।

इस उदाहरण में, आयाम, $k$, 2 बराबर है।

एक अन्य उदाहरण के रूप में, मान लीजिए कि डेटा में अंक होते हैं ($x$, $y$) कि हम मानते हैं कि I.I.D के साथ एक सीधी रेखा के अनुसार वितरित किए जाते हैं।गाऊसी अवशिष्ट (शून्य माध्य के साथ): यह उसी सांख्यिकीय मॉडल की ओर जाता है जैसा कि बच्चों की ऊंचाइयों के साथ उदाहरण में उपयोग किया गया था।सांख्यिकीय मॉडल का आयाम 3 है: रेखा का अवरोधन, रेखा का ढलान और अवशिष्ट के वितरण का विचरण।(ध्यान दें कि ज्यामिति में, एक सीधी रेखा का आयाम 1. है)

हालांकि औपचारिक रूप से $$\theta \in \Theta$$ एक एकल पैरामीटर है जिसमें आयाम है $k$, इसे कभी -कभी शामिल माना जाता है $k$ अलग -अलग पैरामीटर।उदाहरण के लिए, यूनीवेट गॉसियन वितरण के साथ, $$\theta$$ औपचारिक रूप से आयाम 2 के साथ एक एकल पैरामीटर है, लेकिन इसे कभी -कभी 2 अलग -अलग मापदंडों के रूप में माना जाता है - माध्य और मानक विचलन।

एक सांख्यिकीय मॉडल nonparametric सांख्यिकी है#गैर-पैरामीट्रिक मॉडल | पैरामीटर सेट यदि गैर-पैरामीट्रिक $$\Theta$$ अनंत आयामी है।एक सांख्यिकीय मॉडल सेमीपेरामेट्रिक है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों पैरामीटर हैं।औपचारिक रूप से, अगर $k$ का आयाम है $$\Theta$$ तथा $n$ नमूनों की संख्या है, दोनों सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल हैं $$k \rightarrow \infty$$ जैसा $$n \rightarrow \infty$$।यदि $$k/n \rightarrow 0$$ जैसा $$n \rightarrow \infty$$, फिर मॉडल सेमीपेरामेट्रिक है;अन्यथा, मॉडल नॉनपैमेट्रिक है।

पैरामीट्रिक मॉडल अब तक सबसे अधिक इस्तेमाल किए जाने वाले सांख्यिकीय मॉडल हैं।सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल के बारे में, सर डेविड कॉक्स ने कहा है, इनमें आमतौर पर संरचना और वितरण के रूप में कम धारणाएं शामिल होती हैं, लेकिन आमतौर पर स्वतंत्रता के बारे में मजबूत धारणाएं होती हैं।

नेस्टेड मॉडल
दो सांख्यिकीय मॉडल नेस्टेड हैं यदि पहले मॉडल को पहले मॉडल के मापदंडों पर बाधाओं को लागू करके दूसरे मॉडल में बदल दिया जा सकता है।एक उदाहरण के रूप में, सभी गौसियन वितरणों का सेट, इसके भीतर नेस्टेड है, शून्य-मीन गौसियन वितरण का सेट: हम शून्य-मीन वितरण प्राप्त करने के लिए सभी गाऊसी वितरण के सेट में माध्य को बाधित करते हैं।एक दूसरे उदाहरण के रूप में, द्विघात मॉडल
 * $y = b_{0} + b_{1}x + b_{2}x^{2} + ε,  ε ~ 𝒩(0, σ^{2})$ इसके भीतर नेस्टेड है, रैखिक मॉडल

-हम पैरामीटर को विवश करते हैं $y = b_{0} + b_{1}x + ε,  ε ~ 𝒩(0, σ^{2})$ के बराबर 0।

उन दोनों उदाहरणों में, पहले मॉडल में दूसरे मॉडल की तुलना में अधिक आयाम होता है (पहले उदाहरण के लिए, शून्य-मीन मॉडल में आयाम & nbsp; 1) होता है।ऐसा अक्सर होता है, लेकिन हमेशा नहीं, मामला।एक अलग उदाहरण के रूप में, पॉजिटिव-मीन गौसियन वितरण का सेट, जिसमें आयाम 2 है, सभी गौसियन वितरण के सेट के भीतर नेस्टेड है।

मॉडल की तुलना
सांख्यिकीय मॉडल की तुलना सांख्यिकीय अनुमान के अधिकांश के लिए मौलिक है।वास्तव में, यह बताइए: सांख्यिकीय निष्कर्ष में अधिकांश समस्याओं को सांख्यिकीय मॉडलिंग से संबंधित समस्याओं के रूप में माना जा सकता है।वे आमतौर पर कई सांख्यिकीय मॉडल की तुलना के रूप में तैयार किए जाते हैं।

मॉडल की तुलना करने के लिए सामान्य मानदंड में निम्नलिखित शामिल हैं: आर2, Bayes कारक, Akaike सूचना मानदंड, और संभावना-अनुपात परीक्षण इसके सामान्यीकरण, सापेक्ष संभावना के साथ।

यह भी देखें

 * सभी मॉडल गलत हैं
 * ब्लॉकमॉडल
 * संकल्पनात्मक निदर्श
 * प्रयोगों की रूप रेखा
 * नियतात्मक मॉडल
 * प्रभावी सिद्धांत
 * भविष्य कहनेवाला मॉडल
 * प्रतिक्रिया मॉडलिंग पद्धति
 * वैज्ञानिक मॉडल
 * सांख्यिकीय निष्कर्ष
 * सांख्यिकीय मॉडल विनिर्देश
 * सांख्यिकीय मॉडल सत्यापन
 * सांख्यिकीय सिद्धांत
 * अनेक संभावनाओं में से चुनी हूई प्रक्रिया

अग्रिम पठन

 * Davison, A. C. (2008), Statistical Models, Cambridge University Press
 * Freedman, D. A. (2009), Statistical Models, Cambridge University Press
 * Helland, I. S. (2010), Steps Towards a Unified Basis for Scientific Models and Methods, World Scientific
 * Kroese, D. P.; Chan, J. C. C. (2014), Statistical Modeling and Computation, Springer
 * Kroese, D. P.; Chan, J. C. C. (2014), Statistical Modeling and Computation, Springer

]