सांख्यिकीय प्रतिरूप

सांख्यिकीय प्रतिरूप एक गणितीय प्रतिरूप है जो प्रतिरूप आँकड़े (और एक बड़ी आबादी से समान आँकड़े) की पीढ़ी से संबंधित सांख्यिकीय मान्यताओं के एक समुच्चय का प्रतीक है। एक सांख्यिकीय प्रतिरूप, अक्सर पर्याप्त आदर्श रूप से, आंकड़े उत्पन्न करना की प्रक्रिया का प्रतिनिधित्व करता है। एक सांख्यिकीय प्रतिरूप को आमतौर पर एक या अधिक यादृच्छिक चर और अन्य गैर-यादृच्छिक चर के बीच गणितीय संबंध के रूप में निर्दिष्ट किया जाता है। जैसे, एक सांख्यिकीय प्रतिरूप एक "सिद्धांत का औपचारिक प्रतिनिधित्व" है (केनेथ बोलन द्वारा उद्धृत हरमन एडर)। सांख्यिकीय प्रतिरूपण के माध्यम से सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमानक प्राप्त किए जाते हैं। आम तौर पर, सांख्यिकीय प्रतिरूप सांख्यिकीय अनुमान के आधार का हिस्सा होते हैं।

परिचय
अनौपचारिक रूप से, एक सांख्यिकीय प्रतिरूप को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं का समुच्चय) के रूप में माना जा सकता है: यह धारणा हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है। एक उदाहरण के रूप में, साधारण छः भुजाओं वाले पासों के एक जोड़े पर विचार करें। हम पासे के बारे में दो भिन्न सांख्यिकीय मान्यताओं का अध्ययन करेंगे।

पहली सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, प्रत्येक चेहरे (1, 2, 3, 4, 5, और 6) के खींचे जाने की 1/6 संभावना है। उस धारणा से, हम इस संभावना की गणना कर सकते हैं कि दोनों पासे 5:  1/6 × 1/6 = 1/36 के रूप में निकलेंगे। सामान्य तौर पर, हम किसी भी घटना की संभावना की गणना कर सकते हैं: उदाहरण (1 और 2) या (3 और 3) या (5 और 6)।

वैकल्पिक सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, एक फलक 5 प्राप्त करने की प्रायिकता 1/8 है (चूंकि पासों को भारित किया जाता है)। उस धारणा से, हम इस प्रायिकता की गणना कर सकते हैं कि दोनों पासे 5:  1/8 × 1/8 = 1/64 के रूप में निकलेंगे। यद्यपि, हम किसी अन्य गैर महत्वहीन घटना की प्रायिकता की गणना नहीं कर सकते, क्योंकि अन्य चेहरों की प्रायिकताएँ अज्ञात हैं।

पहली सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप बनाती है: क्योंकि केवल धारणा के साथ, हम किसी भी घटना की संभावना की गणना कर सकते हैं। वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप नहीं बनाती है: क्योंकि केवल धारणा के साथ, हम प्रत्येक घटना की संभावना की गणना नहीं कर सकते हैं।

उपरोक्त उदाहरण में, पहली धारणा के साथ, किसी घटना की प्रायिकता की गणना करना आसान है। हालांकि, जैसा कि कुछ अन्य उदाहरणों में होता है, गणना कठिन या अव्यवहारिक हो सकती है (उदाहरण के लिए गणना के लाखों वर्षों की आवश्यकता हो सकती है)। एक सांख्यिकीय प्रतिरूप के निर्माण की धारणा के लिए, ऐसी कठिनाई स्वीकार्य है: गणना का व्यावहारिक होना जरूरी नहीं है, केवल सैद्धांतिक रूप से संभव है।

औपचारिक परिभाषा
गणितीय शब्दों में, एक सांख्यिकीय प्रतिरूप को आमतौर पर एक जोड़ी ($$S, \mathcal{P}$$), के रूप में माना जाता है, जहां $$S$$ संभावित अवलोकनों का समहू है, यानी प्रतिदर्श समष्टि और $$\mathcal{P}$$, $$S$$ पर प्रायिकता वितरण का एक समुच्चय है। इस परिभाषा के पीछे का भाव इस प्रकार है। यह माना जाता है कि देखे गए आंकड़ों में "सत्य" प्रयायिकता वितरण होता है जो उत्पादन प्रक्रिया द्वारा नियंत्रित होता है। हम एक समुच्चय (वितरण के) का प्रतिनिधित्व करने के लिए $$\mathcal{P}$$ चुनते हैं, जिसमें एक वितरण है जो पर्याप्त रूप से सही वितरण का अनुमान लगाता है।

ध्यान दें कि हमें इसकी आवश्यकता नहीं है कि $$\mathcal{P}$$ का पूर्ण वितरण हो, और व्यवहार में ऐसा बहुत कम होता है। वास्तव में, जैसा कि बर्नहैम एंड एंडरसन कहते हैं, "एक प्रतिरूप वास्तविकता का एक सरलीकरण या अनुमान है और इसलिए सभी वास्तविकता को प्रतिबिंबित नहीं करेगा" इसलिए कहावत "सभी प्रतिरूप गलत हैं"।

समहू $$\mathcal{P}$$ लगभग हमेशा पैरामीटरयुक्त होता है: $$\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$$। समहू $$\Theta$$ मॉडल के मापदंडों को परिभाषित करता है। आम तौर पर अलग-अलग वितरण के लिए अलग-अलग मापदंड मान देने के लिए मानकीकरण की आवश्यकता होती है अर्थात् $$P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2$$ आयोजित करें (दूसरे शब्दों में, यह अंतःक्षेपक होना चाहिए)। आवश्यकता को संतुष्ट करने वाले मापदंडों को अभिज्ञेय कहा जाता है।

एक उदाहरण
मान लीजिए कि हमारे पास बच्चों की आबादी है, जिसमें बच्चों की उम्र समान रूप से जनसंख्या में वितरित की जाती है। एक बच्चे की ऊंचाई एक सुसंगत तरीके से उम्र से संबंधित होगी: उदाहरण के लिए जब हम जानते हैं कि एक बच्चा 7 साल का है, तो यह बच्चे के 1.5 मीटर लंबे होने की प्रायिकता को प्रभावित करता है।हम उस संबंध को एक रेखीय प्रतिगमन प्रतिरूप में औपचारिक रूप दे सकते हैं, जैसे: ऊँचाईi = b0 + b1 आयुi + εi, जहाँ b0 अवरोधन है, b1 ऊँचाई का अनुमान प्राप्त करने के लिए आयु से गुणा किया जाने वाला एक मापदंड है,εi त्रुटि शब्द है, और i बच्चे की पहचान है। इसका मतलब है कि ऊंचाई का अनुमान उम्र के हिसाब से लगाया जाता है, जिसमें कुछ त्रुटि है।

एक स्वीकार्य प्रतिरूप सभी आँकड़ा अंको पर सुसंगत होना चाहिए। इस प्रकार, एक सीधी रेखा (ऊंचाईi = b0 + b1 आयुi) आंकड़ों के प्रतिरूप के लिए एक समीकरण नहीं हो सकती है - जब तक कि यह सभी आँकड़ा अंको पर संपूर्ण योग्य न हो, अर्थात सभी आँकड़ा अंक पूरी तरह से रेखा पर हों। त्रुटि शब्द, εi, को समीकरण में शामिल किया जाना चाहिए ताकि प्रतिरूप सभी आँकड़ा अंको में सुसंगत हो।

एक सांख्यिकीय निष्कर्ष निकालने के लिए, हमें सबसे पहले εi के लिए कुछ प्रायिकता वितरण मान लेना चाहिए। उदाहरण के लिए, हम मान सकते हैं कि εi वितरण i.i.d गाऊसी (Gaussian), शून्य, माध्य के साथ। इस उदाहरण में, प्रतिरूप के तीन मतपदंड होंगे: b0, b1, और गाऊसी वितरण का प्रसरण।

हम औपचारिक रूप से ($$S, \mathcal{P}$$) में एक प्रतिरूप को निम्नानुसार निर्दिष्ट कर सकते हैं। हमारे प्रतिरूप के प्रतिदर्श समष्टि $$S$$ में सभी संभावित जोड़े (आयु, ऊंचाई) का समुच्चय होता है। $$\theta$$ = (b0, b1, σ2) का प्रत्येक संभावित मान $$S$$ पर एक वितरण निर्धारित करता है जिसे $$P_{\theta}$$ द्वारा दर्शाया जाता है। यदि $$\Theta$$, $$\theta$$ के सभी संभावित मानों का समुच्चय है, तो $$\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$$है। (मानकीकरण पहचानने योग्य है, और इसकी जाँच करना आसान है।)

इस उदाहरण में, मॉडल का निर्धारण (1) $$S$$ को निर्दिष्ट करके और (2) कुछ मान्यताओं को $$\mathcal{P}$$ के लिए प्रासंगिक बनाते हुए किया जाता है।दो परिकल्पनाएं हैं: उस ऊंचाई का अनुमान उम्र के एक रैखिक कार्य से लगाया जा सकता है; सन्निकटन में त्रुटियाँ i.i.d गाऊसी के रूप में वितरित की जाती हैं। $$\mathcal{P}$$ को निर्दिष्ट करने के लिए सन्निकटन पर्याप्त हैं - जैसा कि उन्हें करने की आवश्यकता है।

सामान्य टिप्पणी
सांख्यिकी प्रतिरूप गणितीय प्रतिरूप का एक विशेष वर्ग होता है। जो एक सांख्यिकीय प्रतिरूप को अन्य गणितीय प्रतिरूपों से अलग करता है, वह यह है कि एक सांख्यिकीय प्रतिरूप गैर-नियतात्मक होता है। इस प्रकार, गणितीय समीकरणों के माध्यम से निर्दिष्ट एक सांख्यिकीय प्रतिरूप में, कुछ चर के विशिष्ट मान नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; यानी कुछ चर स्टोकेस्टिक (stochastic) हैं। उपरोक्त उदाहरण में बच्चों की लंबाई के साथ ε एक स्टोकेस्टिक चर है; उस स्टोकेस्टिक चर के बिना, प्रतिरूप नियतात्मक होगा।

सांख्यिकीय प्रतिरूप  का उपयोग अक्सर तब भी किया जाता है, जब प्रतिरूपित किए जा रहे आंकड़े को उत्पन्न करने की प्रक्रिया नियतात्मक होती है। उदाहरण के लिए, एक सिक्के को उछालना सिद्धांत रूप में एक नियतात्मक प्रक्रिया है; फिर भी यह आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।

किसी दिए गए आंकड़े उत्त्पन्न करने की प्रक्रिया का प्रतिनिधित्व करने के लिए उपयुक्त सांख्यिकीय प्रतिरूप का चयन करना कभी-कभी बेहद मुश्किल होता है, और प्रक्रिया और प्रासंगिक सांख्यिकीय विश्लेषण दोनों के ज्ञान की आवश्यकता हो सकती है। संबंधित रूप से, जैसा कि सांख्यिकीविद् सर डेविड कॉक्स (Sir David Cox) ने कहा है, "किसी विषय-वस्तु की समस्या से सांख्यिकीय प्रतिरूप में अनुवाद कैसे किया जाता है, यह अक्सर विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है"। कोनिशी और कितागावा के अनुसार सांख्यिकीय प्रतिरूप के तीन उद्देश्य होते हैं। वे तीन उद्देश्य अनिवार्य रूप से मित्रवत और मेयर द्वारा बताए गए तीन उद्देश्यों के समान हैं: पूर्वानुमान, अनुमान और विवरण। तीन उद्देश्य तीन प्रकार के तार्किक तर्क के अनुरूप हैं: निगमनात्मक तर्क, आगमनात्मक तर्क और निगमनात्मक तर्क।
 * पूर्वानुमान
 * सूचना निष्कर्षण
 * स्टोकेस्टिक संरचनाओं का विवरण

प्रतिरूप का आयाम
मान लीजिए कि हमारे पास एक सांख्यिकीय प्रतिरूप ($$S, \mathcal{P}$$) है जिसमें $$\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$$। प्प्रतिरूप को पैरामीट्रिक कहा जाता है यदि $$\Theta$$ एक परिमित आयाम है। संकेतन में, हम यह लिखते हैं $$\Theta \subseteq \mathbb{R}^k$$ जहां पे $k$ एक सकारात्मक पूर्णांक है ($$\mathbb{R}$$ वास्तविक संख्याओं को दर्शाता है;अन्य समुच्चयों का उपयोग किया जा सकता है, सिद्धांत रूप में) यहां, $k$ को मॉडल की विमाएँ कहते हैं।

एक उदाहरण के रूप में, यदि हम मानते हैं कि यह आंकड़ा एक अविभाज्य गॉसियन वितरण से उत्पन्न होता है, तो हम यह मान रहे हैं कि
 * $$\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}$$।

इस उदाहरण में, आयाम, $k$, 2 बराबर है।

एएक अन्य उदाहरण के रूप में, मान लें कि डेटा में ऐसे बिंदु (x, y) होते हैं जो हमें लगता है कि i.i.d गाऊसी अवशिष्ट (शून्य साधनों के साथ) के साथ एक सीधी रेखा के साथ वितरित किए जाते हैं: यह वही सांख्यिकीय है जो प्रतिरूप की ओर जाता है जैसा कि बच्चों की ऊंचाई के उदाहरण में उपयोग किया जाता है।सांख्यिकीय प्रतिरूप का आयाम 3 है: रेखा का अवरोधन, रेखा का ढलान और अवशिष्ट वितरण का विचरण। (ध्यान दें कि ज्यामिति में एक सीधी रेखा का एक आयाम होता है।)

यद्यपि औपचारिक रूप से $$\theta \in \Theta$$ आयाम k का एक एकल मापदंड है, इसे कभी-कभी k अलग मापदंड के रूप में माना जाता है। उदाहरण के लिए, एक अविभाज्य गाऊसी वितरण के साथ, $$\theta$$ औपचारिक रूप से आयाम 2 के साथ एक एकल मापदंड है, लेकिन इसे कभी-कभी 2 अलग-अलग मापदंडों के रूप में माना जाता है - माध्य और मानक विचलन।

एक सांख्यिकीय प्रतिरूप गैर-पैरामीट्रिक $$\Theta$$ होता है यदि मापदंड सेट टी अनंत-आयामी है। एक सांख्यिकीय प्रतिरूप अर्धपैरामीट्रिक है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों मापदंड शामिल हैं। औपचारिक रूप से, अगर $k$ का आयाम है $$\Theta$$ तथा $n$ नमूनों की संख्या है, दोनों अर्धपैरामीट्रिक और गैर-पैरामीट्रिक प्रतिरूप हैं $$k \rightarrow \infty$$ जैसा $$n \rightarrow \infty$$ यदि $$k/n \rightarrow 0$$ जैसा $$n \rightarrow \infty$$, तो प्रतिरूप अर्ध-पैरामीट्रिक है अन्यथा, प्रतिरूप गैर-पैरामीट्रिक है।

पैरामीट्रिक प्रतिरूप अब तक का सबसे अधिक इस्तेमाल किया जाने वाला सांख्यिकीय प्रतिरूप है। अर्धपैरामीट्रिक और गैर-पैरामीट्रिक प्रतिरूप के बारे में, सर डेविड कॉक्स ने कहा है, "इनमें आम तौर पर संरचना और वितरण रूप की कम धारणाएं शामिल होती हैं लेकिन आम तौर पर स्वतंत्रता के बारे में मजबूत धारणाएं होती हैं"।

नेस्टेड मॉडल
दो सांख्यिकीय प्रतिरूप स्थिर हैं यदि पहले प्रतिरूप को पहले प्रतिरूप के मापदंडों पर प्रतिबंध लगाकर दूसरे प्रतिरूप में बदला जा सकता है। एक उदाहरण के रूप में, सभी गाऊसी वितरणों के सेट में, शून्य-माध्य गाऊसी वितरण का समुच्चय निहित है: हम शून्य-माध्य वितरण प्राप्त करने के लिए सभी गाऊसी वितरणों के समुच्चय तक माध्य को सीमित करते हैं। एक उदाहरण के रूप में, द्विघात मॉडलैं।
 * इसके भीतर निहित रैखिक प्रतिरूप है
 * इसके भीतर निहित रैखिक प्रतिरूप है

मापदंड $y = b_{0} + b_{1}x + b_{2}x^{2} + ε,  ε ~ 𝒩(0, σ^{2})$ को 0 होने के लिए बाध्य करते हैं।

उन दोनों उदाहरणों में, पहले प्रतिरूप का आयाम दूसरे प्रतिरूप की तुलना में अधिक है (पहले उदाहरण के लिए, शून्य-माध्य प्रतिरूप का आयाम 1 है)। ऐसा अक्सर होता है, लेकिन हमेशा नहीं। एक अलग उदाहरण के रूप में, सकारात्मक-माध्य गाऊसी वितरण का समुच्चय, जिसका आयाम 2 है, सभी गाऊसी वितरणों के समुच्चय के भीतर समाहित है।

प्रतिरूप की तुलना
सांख्यिकीय प्रतिरूप की तुलना सांख्यिकीय अनुमान के लिए मौलिक है। दरअसल, कोनिशी और कितागावा (2008, पृष्ठ 75) यह कहते हैं: "सांख्यिकीय अनुमान में अधिकांश समस्याओं को सांख्यिकीय प्रतिरूप से संबंधित समस्याओं के रूप में माना जा सकता है। वे आम तौर पर कई सांख्यिकीय प्रतिरूपों की तुलना के रूप में तैयार किए जाते हैं।

प्रतिरूप की तुलना करने के लिए सामान्य मानदंडों में निम्नलिखित शामिल हैं: R2 ,बेयस कारक (Bayes factor,), एकाइके सूचना मानदंड (Akaike information criterion), और इसके सामान्यीकरण, सापेक्ष संभावना के साथ संभाव्यता-अनुपात परीक्षण।

यह भी देखें

 * सभी मॉडल गलत हैं
 * ब्लॉकमॉडल
 * संकल्पनात्मक निदर्श
 * प्रयोगों की रूप रेखा
 * नियतात्मक मॉडल
 * प्रभावी सिद्धांत
 * भविष्य कहनेवाला मॉडल
 * प्रतिक्रिया मॉडलिंग पद्धति
 * वैज्ञानिक मॉडल
 * सांख्यिकीय निष्कर्ष
 * सांख्यिकीय मॉडल विनिर्देश
 * सांख्यिकीय मॉडल सत्यापन
 * सांख्यिकीय सिद्धांत
 * अनेक संभावनाओं में से चुनी हूई प्रक्रिया

अग्रिम पठन

 * Davison, A. C. (2008), Statistical Models, Cambridge University Press
 * Freedman, D. A. (2009), Statistical Models, Cambridge University Press
 * Helland, I. S. (2010), Steps Towards a Unified Basis for Scientific Models and Methods, World Scientific
 * Kroese, D. P.; Chan, J. C. C. (2014), Statistical Modeling and Computation, Springer
 * Kroese, D. P.; Chan, J. C. C. (2014), Statistical Modeling and Computation, Springer

]