पर्याप्त आँकड़ा

आँकड़ों में, एक आँकड़ा एक [[सांख्यिकीय मॉडल]] और उससे जुड़े अज्ञात पैरामीटर के संबंध में पर्याप्त होता है यदि कोई अन्य आँकड़ा जिसकी गणना उसी नमूने (आँकड़े) से नहीं की जा सकती है, पैरामीटर के मूल्य के बारे में कोई अतिरिक्त जानकारी प्रदान करता है। विशेष रूप से, एक आँकड़ा संभाव्यता वितरण के पैरामीट्रिक परिवार के लिए पर्याप्त है यदि जिस नमूने से इसकी गणना की जाती है वह आँकड़े के अलावा कोई अतिरिक्त जानकारी नहीं देता है, कि उन संभाव्यता वितरणों में से कौन सा नमूना वितरण है।

एक संबंधित अवधारणा रैखिक पर्याप्तता की है, जो पर्याप्तता से कमजोर है लेकिन इसे कुछ मामलों में लागू किया जा सकता है जहां पर्याप्त आंकड़े नहीं हैं, हालांकि यह रैखिक अनुमानकों तक ही सीमित है। कोलमोगोरोव संरचना कार्य व्यक्तिगत परिमित डेटा से संबंधित है; संबंधित धारणा एल्गोरिथम पर्याप्त आँकड़ा है।

यह अवधारणा 1920 में रोनाल्ड फिशर की देन है। स्टीफन स्टिगलर ने 1973 में उल्लेख किया था कि वितरणात्मक रूप की धारणा पर मजबूत निर्भरता के कारण वर्णनात्मक आंकड़ों में पर्याप्तता की अवधारणा पक्ष से बाहर हो गई है (देखें #एक्सपोनेंशियल परिवार|पिटमैन-कूपमैन- डार्मोइस प्रमेय नीचे), लेकिन सैद्धांतिक कार्य में बहुत महत्वपूर्ण रहा।

पृष्ठभूमि
मोटे तौर पर, एक सेट दिया गया $$ \mathbf{X}$$ एक अज्ञात पैरामीटर पर वातानुकूलित स्वतंत्र समान रूप से वितरित डेटा का $$\theta$$, एक पर्याप्त आँकड़ा एक फ़ंक्शन है $$T(\mathbf{X})$$ जिसके मूल्य में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी शामिल है (उदाहरण के लिए अधिकतम संभावना अनुमान)। गुणनखंडन प्रमेय (#फिशर-नेमैन गुणनखंडन प्रमेय) के कारण, पर्याप्त आंकड़ों के लिए $$T(\mathbf{X})$$, संभाव्यता घनत्व को इस प्रकार लिखा जा सकता है $$f_{\mathbf{X}}(x) = h(x) \, g(\theta, T(x))$$. इस गुणनखंड से, यह आसानी से देखा जा सकता है कि अधिकतम संभावना का अनुमान है $$\theta$$ के साथ बातचीत करेंगे $$\mathbf{X}$$ केवल भीतर से $$T(\mathbf{X})$$. आमतौर पर, पर्याप्त आँकड़ा डेटा का एक सरल कार्य है, उदा। सभी डेटा बिंदुओं का योग.

अधिक आम तौर पर, अज्ञात पैरामीटर अज्ञात मात्राओं के यूक्लिडियन वेक्टर का प्रतिनिधित्व कर सकता है या मॉडल के बारे में सब कुछ का प्रतिनिधित्व कर सकता है जो अज्ञात है या पूरी तरह से निर्दिष्ट नहीं है। ऐसे मामले में, पर्याप्त आँकड़ा कार्यों का एक समूह हो सकता है, जिसे संयुक्त रूप से पर्याप्त आँकड़ा कहा जाता है। आमतौर पर, जितने पैरामीटर होते हैं उतने ही फ़ंक्शन होते हैं। उदाहरण के लिए, अज्ञात माध्य और विचरण वाले गाऊसी वितरण के लिए, संयुक्त रूप से पर्याप्त आँकड़ा, जिससे दोनों मापदंडों की अधिकतम संभावना का अनुमान लगाया जा सकता है, इसमें दो फ़ंक्शन शामिल हैं, सभी डेटा बिंदुओं का योग और सभी वर्ग डेटा बिंदुओं का योग ( या समकक्ष, नमूना माध्य और नमूना विचरण)।

दूसरे शब्दों में, 'डेटा का संयुक्त संभाव्यता वितरण पैरामीटर के लिए पर्याप्त आंकड़ों के मूल्य को देखते हुए पैरामीटर से सशर्त रूप से स्वतंत्र है।' आँकड़े और अंतर्निहित पैरामीटर दोनों वेक्टर हो सकते हैं।

गणितीय परिभाषा
एक आँकड़ा t = T(X) 'अंतर्निहित पैरामीटर θ के लिए पर्याप्त' है, यदि डेटा X का सशर्त संभाव्यता वितरण, आँकड़ा t = T(X) दिया गया है, पैरामीटर θ पर निर्भर नहीं करता है। वैकल्पिक रूप से, कोई यह कह सकता है कि आँकड़ा T(X) θ के लिए पर्याप्त है यदि θ के साथ इसकी पारस्परिक जानकारी X और θ के बीच पारस्परिक जानकारी के बराबर है। दूसरे शब्दों में, डेटा प्रोसेसिंग असमानता एक समानता बन जाती है:


 * $$I\bigl(\theta ; T(X)\bigr) = I(\theta ; X)$$

उदाहरण
उदाहरण के तौर पर, नमूना माध्य ज्ञात विचरण वाले सामान्य वितरण के माध्य (μ) के लिए पर्याप्त है। एक बार नमूना माध्य ज्ञात हो जाने पर, नमूने से μ के बारे में कोई और जानकारी प्राप्त नहीं की जा सकती। दूसरी ओर, एक मनमाना वितरण के लिए माध्य माध्य के लिए पर्याप्त नहीं है: भले ही नमूने का माध्य ज्ञात हो, नमूना जानने से ही जनसंख्या माध्य के बारे में अधिक जानकारी मिल जाएगी। उदाहरण के लिए, यदि माध्यिका से कम प्रेक्षण केवल थोड़े कम हैं, लेकिन माध्यिका से अधिक होने वाले प्रेक्षण इससे बड़ी मात्रा में अधिक हैं, तो इसका जनसंख्या माध्य के बारे में किसी के अनुमान पर असर पड़ेगा।

फिशर-नेमैन गुणनखंडन प्रमेय
रोनाल्ड फिशर|फिशर का गुणनखंडन प्रमेय या गुणनखंडन मानदंड एक पर्याप्त आँकड़े का सुविधाजनक 'लक्षणीकरण' प्रदान करता है। यदि संभाव्यता घनत्व फ़ंक्शन ƒ हैθ(x), तो T, θ के लिए पर्याप्त है यदि और केवल यदि गैर-ऋणात्मक फलन g और h को ऐसे पाया जा सकता है कि


 * $$ f_\theta(x)=h(x) \, g_\theta(T(x)), $$

यानी घनत्व ƒ को एक उत्पाद में इस तरह से विभाजित किया जा सकता है कि एक कारक, एच, θ पर निर्भर नहीं होता है और दूसरा कारक, जो θ पर निर्भर करता है, केवल T(x) के माध्यम से x पर निर्भर करता है। इसका एक सामान्य प्रमाण हैल्मोस और सैवेज ने दिया था और प्रमेय को कभी-कभी हेल्मोस-सैवेज गुणनखंडन प्रमेय के रूप में जाना जाता है। नीचे दिए गए प्रमाण विशेष मामलों को संभालते हैं, लेकिन उसी तर्ज पर एक वैकल्पिक सामान्य प्रमाण भी दिया जा सकता है। यह देखना आसान है कि यदि F(t) एक-से-एक फ़ंक्शन है और T पर्याप्त है आँकड़ा, तो F(T) एक पर्याप्त आँकड़ा है। विशेष रूप से हम a को गुणा कर सकते हैं एक गैरशून्य स्थिरांक द्वारा पर्याप्त आँकड़ा और एक अन्य पर्याप्त आँकड़ा प्राप्त करें।

संभावना सिद्धांत व्याख्या
प्रमेय का एक निहितार्थ यह है कि संभावना-आधारित अनुमान का उपयोग करते समय, पर्याप्त आंकड़े टी (एक्स) के लिए समान मान उत्पन्न करने वाले डेटा के दो सेट हमेशा θ के बारे में समान अनुमान उत्पन्न करेंगे। गुणनखंडन मानदंड के अनुसार, θ पर संभावना की निर्भरता केवल T(X) के संयोजन में है। चूँकि यह दोनों मामलों में समान है, θ पर निर्भरता भी समान होगी, जिससे समान निष्कर्ष निकलेंगे।

प्रमाण
हॉग और क्रेग के कारण. होने देना $$X_1, X_2, \ldots, X_n$$, ι < θ < δ के लिए संभाव्यता घनत्व फ़ंक्शन f(x, θ) वाले वितरण से एक यादृच्छिक नमूना निरूपित करें। चलो वाई1= में1(एक्स1, एक्स2, ..., एक्सn) एक आँकड़ा बनें जिसका पीडीएफ जी है1(और1; θ). हम जो साबित करना चाहते हैं वह यह है कि वाई1= में1(एक्स1, एक्स2, ..., एक्सn) θ के लिए एक पर्याप्त आँकड़ा है यदि और केवल यदि, किसी फ़ंक्शन H के लिए,


 * $$ \prod_{i=1}^n f(x_i; \theta) = g_1 \left[u_1 (x_1, x_2, \dots, x_n); \theta \right] H(x_1, x_2, \dots, x_n). $$

सबसे पहले, मान लीजिए
 * $$ \prod_{i=1}^n f(x_i; \theta) = g_1 \left[u_1 (x_1, x_2, \dots, x_n); \theta \right] H(x_1, x_2, \dots, x_n). $$

हम परिवर्तन करेंगे yi= मेंi(एक्स1, एक्स2, ..., एक्सn), i = 1, ..., n के लिए, जिसमें व्युत्क्रम फलन x हैi= डब्ल्यूi(और1, और2, ..., औरn), i = 1, ..., n, और जैकोबियन मैट्रिक्स और निर्धारक के लिए $$ J = \left[w_i/y_j \right] $$. इस प्रकार,



\prod_{i=1}^n f \left[ w_i(y_1, y_2, \dots, y_n); \theta \right] = |J| g_1 (y_1; \theta) H \left[ w_1(y_1, y_2, \dots, y_n), \dots, w_n(y_1, y_2, \dots, y_n) \right]. $$ बाएँ हाथ का सदस्य संयुक्त पीडीएफ g(y) है1, और2, ..., औरn; θ) का Y1 = यू1(एक्स1, ..., एक्सn), ..., औरn = यूn(एक्स1, ..., एक्सn). दाहिने हाथ के सदस्य में, $$g_1(y_1;\theta)$$ का पीडीएफ है $$Y_1$$, ताकि $$H[ w_1, \dots, w_n] |J|$$ का भागफल है $$g(y_1,\dots,y_n;\theta)$$ और $$g_1(y_1;\theta)$$; अर्थात्, यह सशर्त पीडीएफ है $$h(y_2, \dots, y_n \mid y_1; \theta)$$ का $$Y_2,\dots,Y_n$$ दिया गया $$Y_1=y_1$$.

लेकिन $$H(x_1,x_2,\dots,x_n)$$, और इस तरह $$H\left[w_1(y_1,\dots,y_n), \dots, w_n(y_1, \dots, y_n))\right]$$, पर निर्भर न रहने के लिए दिया गया था $$\theta$$. तब से $$\theta$$ परिवर्तन में पेश नहीं किया गया था और तदनुसार जैकोबियन में नहीं $$J$$, यह इस प्रकार है कि $$h(y_2, \dots, y_n \mid y_1; \theta)$$ पर निर्भर नहीं है $$\theta$$ ओर वो $$Y_1$$ के लिए पर्याप्त आँकड़े हैं $$\theta$$.

इसका विपरीत निम्नलिखित लेकर सिद्ध किया जाता है:


 * $$g(y_1,\dots,y_n;\theta)=g_1(y_1; \theta) h(y_2, \dots, y_n \mid y_1),$$

कहाँ $$h(y_2, \dots, y_n \mid y_1)$$ पर निर्भर नहीं है $$\theta$$ क्योंकि $$Y_2 ... Y_n$$ पर ही निर्भर हैं $$X_1 ... X_n$$, जो पर स्वतंत्र हैं $$\Theta$$ जब द्वारा वातानुकूलित किया जाता है $$Y_1$$, परिकल्पना द्वारा पर्याप्त आँकड़े। अब दोनों सदस्यों को गैर-लुप्त होने वाले जैकोबियन के पूर्ण मूल्य से विभाजित करें $$J$$, और प्रतिस्थापित करें $$y_1, \dots, y_n$$ कार्यों द्वारा $$u_1(x_1, \dots, x_n), \dots, u_n(x_1,\dots, x_n)$$ में $$x_1,\dots, x_n$$. यह प्रदान करता है


 * $$\frac{g\left[ u_1(x_1, \dots, x_n), \dots, u_n(x_1, \dots, x_n); \theta \right]}{|J^*|}=g_1\left[u_1(x_1,\dots,x_n); \theta\right] \frac{h(u_2, \dots, u_n \mid u_1)}{|J^*|}$$

कहाँ $$J^*$$ जैकोबियन के साथ है $$y_1,\dots,y_n$$ उनके मान के अनुसार प्रतिस्थापित किया गया $$x_1, \dots, x_n$$. बाएँ हाथ का सदस्य आवश्यक रूप से संयुक्त पीडीएफ है $$f(x_1;\theta)\cdots f(x_n;\theta)$$ का $$X_1,\dots,X_n$$. तब से $$h(y_2,\dots,y_n\mid y_1)$$, और इस तरह $$h(u_2,\dots,u_n\mid u_1)$$, पर निर्भर नहीं है $$\theta$$, तब


 * $$H(x_1,\dots,x_n)=\frac{h(u_2,\dots,u_n\mid u_1)}{|J^*|}$$

एक ऐसा फ़ंक्शन है जो निर्भर नहीं करता है $$\theta$$.

एक और प्रमाण
एक सरल और अधिक उदाहरणात्मक प्रमाण इस प्रकार है, हालाँकि यह केवल अलग मामले में ही लागू होता है।

हम संयुक्त संभाव्यता घनत्व को दर्शाने के लिए शॉर्टहैंड नोटेशन का उपयोग करते हैं $$(X, T(X))$$ द्वारा $$f_\theta(x,t)$$. तब से $$T$$ का एक कार्य है $$X$$, अपने पास $$f_\theta(x,t) = f_\theta(x)$$, जब तक कि $$t = T(x)$$ और अन्यथा शून्य. इसलिए:



\begin{align} f_\theta(x) & = f_\theta(x,t) \\[5pt] & = f_\theta (x\mid t) f_\theta(t) \\[5pt] & = f(x\mid t) f_\theta(t) \end{align} $$ पर्याप्त आँकड़ों की परिभाषा के अनुसार अंतिम समानता सत्य है। इस प्रकार $$f_\theta(x)=a(x) b_\theta(t)$$ साथ $$a(x) = f_{X \mid t}(x)$$ और $$b_\theta(t) = f_\theta(t)$$.

इसके विपरीत, यदि $$f_\theta(x)=a(x) b_\theta(t)$$, अपने पास



\begin{align} f_\theta(t) & = \sum _{x : T(x) = t} f_\theta(x, t) \\[5pt] & = \sum _{x : T(x) = t} f_\theta(x) \\[5pt] & = \sum _{x : T(x) = t} a(x) b_\theta(t) \\[5pt] & = \left( \sum _{x : T(x) = t} a(x) \right) b_\theta(t). \end{align}$$ पहली समानता संभाव्यता घनत्व फ़ंक्शन द्वारा # कई चर के साथ जुड़े संभाव्यता फ़ंक्शन द्वारा, दूसरी उपरोक्त टिप्पणी द्वारा, तीसरी परिकल्पना द्वारा, और चौथी क्योंकि सारांश समाप्त नहीं हुआ है $$t$$.

होने देना $$f_{X\mid t}(x)$$ की सशर्त संभाव्यता घनत्व को निरूपित करें $$X$$ दिया गया $$T(X)$$. तब हम इसके लिए एक स्पष्ट अभिव्यक्ति प्राप्त कर सकते हैं:

\begin{align} f_{X\mid t}(x) & = \frac{f_\theta(x, t)}{f_\theta(t)} \\[5pt] & = \frac{f_\theta(x)}{f_\theta(t)} \\[5pt] & = \frac{a(x) b_\theta(t)}{\left( \sum _{x : T(x) = t} a(x) \right) b_\theta(t)} \\[5pt] & = \frac{a(x)}{\sum _{x : T(x) = t} a(x)}. \end{align}$$ पहली समानता सशर्त संभाव्यता घनत्व की परिभाषा से, दूसरी उपरोक्त टिप्पणी से, तीसरी समानता ऊपर सिद्ध द्वारा, और चौथी सरलीकरण द्वारा। यह अभिव्यक्ति निर्भर नहीं करती $$\theta$$ और इस तरह $$T$$ पर्याप्त आँकड़ा है.

न्यूनतम पर्याप्तता
एक पर्याप्त आँकड़ा न्यूनतम पर्याप्त है यदि इसे किसी अन्य पर्याप्त आँकड़े के कार्य के रूप में दर्शाया जा सकता है। दूसरे शब्दों में, S(X) न्यूनतम पर्याप्त है यदि और केवल यदि
 * 1) S(X) पर्याप्त है, और
 * 2) यदि T(X) पर्याप्त है, तो एक फ़ंक्शन f मौजूद है जैसे कि S(X) = f(T(X))।

सहज रूप से, एक न्यूनतम पर्याप्त आँकड़ा सबसे कुशलता से पैरामीटर θ के बारे में सभी संभावित जानकारी प्राप्त करता है।

न्यूनतम पर्याप्तता का एक उपयोगी लक्षण वर्णन यह है कि जब घनत्व fθ अस्तित्व में है, S(X) 'न्यूनतम पर्याप्त' है यदि और केवल यदि
 * $$\frac{f_\theta(x)}{f_\theta(y)}$$ θ से स्वतंत्र है:$$\Longleftrightarrow$$ एस(एक्स) = एस(वाई)

यह ऊपर बताए गए #फिशर-नेमैन गुणनखंडन प्रमेय|फिशर के गुणनखंडन प्रमेय के परिणाम के रूप में अनुसरण करता है।

एक ऐसा मामला जिसमें कोई न्यूनतम पर्याप्त आँकड़ा नहीं है, बहादुर द्वारा 1954 में दिखाया गया था। हालाँकि, हल्की परिस्थितियों में, एक न्यूनतम पर्याप्त आँकड़ा हमेशा मौजूद रहता है। विशेष रूप से, यूक्लिडियन अंतरिक्ष में, ये स्थितियाँ हमेशा लागू रहती हैं यदि यादृच्छिक चर (के साथ जुड़े)। $$P_\theta$$ ) सभी असतत हैं या सभी निरंतर हैं।

यदि कोई न्यूनतम पर्याप्त आँकड़ा मौजूद है, और यह आमतौर पर मामला है, तो प्रत्येक पूर्णता (आँकड़े) पर्याप्त आँकड़ा आवश्यक रूप से न्यूनतम पर्याप्त है (ध्यान दें कि यह कथन एक पैथोलॉजिकल मामले को बाहर नहीं करता है जिसमें पूर्ण पर्याप्त मौजूद है जबकि कोई न्यूनतम पर्याप्त आँकड़ा नहीं है)। हालाँकि ऐसे मामलों को ढूंढना कठिन है जिनमें न्यूनतम पर्याप्त आँकड़ा मौजूद नहीं है, ऐसे मामलों को खोजना इतना कठिन नहीं है जिनमें कोई पूर्ण आँकड़ा मौजूद नहीं है।

संभाव्यता अनुपातों का संग्रह $$\left\{\frac{L(X \mid \theta_i)}{L(X \mid \theta_0)}\right\}$$ के लिए $$i = 1, ..., k$$, यदि पैरामीटर स्थान असतत है तो न्यूनतम पर्याप्त आँकड़ा है $$\left\{\theta_0, ..., \theta_k\right\}$$.

बर्नौली वितरण
यदि एक्स1, ...., एक्सn स्वतंत्र बर्नौली परीक्षण हैं|बर्नौली-वितरित यादृच्छिक चर अपेक्षित मूल्य पी के साथ, फिर योग टी(एक्स) = एक्स1+...+एक्सn पी के लिए एक पर्याप्त आँकड़ा है (यहाँ 'सफलता' एक्स से मेल खाती हैi= 1 और एक्स के लिए 'विफलता'i= 0; अतः T सफलताओं की कुल संख्या है)

इसे संयुक्त संभाव्यता वितरण पर विचार करके देखा जाता है:


 * $$ \Pr\{X=x\}=\Pr\{X_1=x_1,X_2=x_2,\ldots,X_n=x_n\}.$$

क्योंकि अवलोकन स्वतंत्र हैं, इसे इस प्रकार लिखा जा सकता है



p^{x_1}(1-p)^{1-x_1} p^{x_2}(1-p)^{1-x_2}\cdots p^{x_n}(1-p)^{1-x_n} $$ और, p और 1 − p की शक्तियाँ एकत्रित करके, देता है



p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{T(x)}(1-p)^{n-T(x)} $$ जो गुणनखंडन मानदंड को पूरा करता है, जिसमें h(x)=1 केवल एक स्थिरांक है।

महत्वपूर्ण विशेषता पर ध्यान दें: अज्ञात पैरामीटर p केवल आँकड़ा T(x) = Σx के माध्यम से डेटा x के साथ इंटरैक्ट करता हैi.

एक ठोस अनुप्रयोग के रूप में, यह एक निष्पक्ष सिक्के#उचित परिणाम को एक पक्षपाती सिक्के से अलग करने की एक प्रक्रिया देता है।

यूनिफ़ॉर्म वितरण
यदि एक्स1, ...., एक्सn अंतराल [0,θ] पर स्वतंत्र और समान वितरण (निरंतर) हैं, तो T(X) = max(X)1, ..., एक्सn) θ के लिए पर्याप्त है - नमूना अधिकतम जनसंख्या अधिकतम के लिए पर्याप्त आँकड़ा है।

इसे देखने के लिए, X·(X) के संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें1,...,एक्सn). क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है


 * $$\begin{align}

f_{\theta}(x_1,\ldots,x_n) &= \frac{1}{\theta}\mathbf{1}_{\{0\leq x_1\leq\theta\}} \cdots \frac{1}{\theta}\mathbf{1}_{\{0\leq x_n\leq\theta\}} \\[5pt] &= \frac{1}{\theta^n} \mathbf{1}_{\{0\leq\min\{x_i\}\}}\mathbf{1}_{\{\max\{x_i\}\leq\theta\}} \end{align}$$ कहां 1{...} सूचक कार्य है. इस प्रकार घनत्व फिशर-नेमैन गुणनखंड प्रमेय द्वारा आवश्यक रूप लेता है, जहां h(x)='1'{{sub|{min{''x i}}}≥0}, और शेष अभिव्यक्ति केवल θ और T(x)=max{x का एक फलन हैi}.

वास्तव में, θ के लिए न्यूनतम-विचरण निष्पक्ष अनुमानक (एमवीयूई) है


 * $$ \frac{n+1}{n}T(X). $$

यह नमूना अधिकतम है, जिसे अनुमानक के पूर्वाग्रह को सही करने के लिए स्केल किया गया है, और लेहमैन-शेफ़े प्रमेय द्वारा एमवीयूई है। अनस्केल्ड नमूना अधिकतम T(X) θ के लिए अधिकतम संभावना अनुमानक है।

समान वितरण (दो मापदंडों के साथ)
अगर $$X_1,...,X_n$$ अंतराल पर स्वतंत्र और समान वितरण (निरंतर) हैं $$[\alpha, \beta]$$ (कहाँ $$\alpha$$ और $$\beta$$ अज्ञात पैरामीटर हैं), फिर $$T(X_1^n)=\left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)$$ के लिए एक द्वि-आयामी पर्याप्त आँकड़ा है $$(\alpha\,, \, \beta)$$.

इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें $$X_1^n=(X_1,\ldots,X_n)$$. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।


 * $$\begin{align}

f_{X_1^n}(x_1^n) &= \prod_{i=1}^n \left({1 \over \beta-\alpha}\right) \mathbf{1}_{ \{ \alpha \leq x_i \leq \beta \} } = \left({1 \over \beta-\alpha}\right)^n \mathbf{1}_{ \{ \alpha \leq x_i \leq \beta, \, \forall \, i = 1,\ldots,n\}} \\ &= \left({1 \over \beta-\alpha}\right)^n \mathbf{1}_{ \{ \alpha \, \leq \, \min_{1 \leq i \leq n}X_i \} } \mathbf{1}_{ \{ \max_{1 \leq i \leq n}X_i \, \leq \, \beta \} }. \end{align}$$ नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है


 * $$\begin{align}

h(x_1^n)= 1, \quad g_{(\alpha, \beta)}(x_1^n)= \left({1 \over \beta-\alpha}\right)^n \mathbf{1}_{ \{ \alpha \, \leq \, \min_{1 \leq i \leq n}X_i \} } \mathbf{1}_{ \{ \max_{1 \leq i \leq n}X_i \, \leq \, \beta \} }. \end{align}$$ तब से $$h(x_1^n)$$ पैरामीटर पर निर्भर नहीं है $$(\alpha, \beta)$$ और $$g_{(\alpha \,, \, \beta)}(x_1^n)$$ पर ही निर्भर करता है $$x_1^n$$ समारोह के माध्यम से $$T(X_1^n)= \left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right),$$ फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है $$T(X_1^n) = \left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)$$ के लिए पर्याप्त आँकड़ा है $$(\alpha\,, \, \beta)$$.

पॉइसन वितरण
यदि एक्स1, ...., एक्सn स्वतंत्र हैं और पैरामीटर λ के साथ पॉइसन वितरण है, तो योग T(X) = X1+...+एक्सn λ के लिए पर्याप्त आँकड़ा है।

इसे देखने के लिए, संयुक्त संभाव्यता वितरण पर विचार करें:



\Pr(X=x)=P(X_1=x_1,X_2=x_2,\ldots,X_n=x_n). $$ क्योंकि अवलोकन स्वतंत्र हैं, इसे इस प्रकार लिखा जा सकता है



{e^{-\lambda} \lambda^{x_1} \over x_1 !} \cdot {e^{-\lambda} \lambda^{x_2} \over x_2 !} \cdots {e^{-\lambda} \lambda^{x_n} \over x_n !} $$ जिसे इस प्रकार लिखा जा सकता है



e^{-n\lambda} \lambda^{(x_1+x_2+\cdots+x_n)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } $$ जो दर्शाता है कि गुणनखंडन मानदंड संतुष्ट है, जहां h(x) भाज्य के उत्पाद का व्युत्क्रम है। ध्यान दें कि पैरामीटर λ केवल इसके योग T(X) के माध्यम से डेटा के साथ इंटरैक्ट करता है।

सामान्य वितरण
अगर $$X_1,\ldots,X_n$$ अपेक्षित मूल्य के साथ स्वतंत्र और सामान्य वितरण हैं $$\theta$$ (एक पैरामीटर) और ज्ञात परिमित विचरण $$\sigma^2,$$ तब


 * $$T(X_1^n)=\overline{x}=\frac1n\sum_{i=1}^nX_i$$

के लिए पर्याप्त आँकड़ा है $$\theta.$$ इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें $$X_1^n=(X_1,\dots,X_n)$$. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।


 * $$\begin{align}

f_{X_1^n}(x_1^n) & = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left (-\frac{(x_i-\theta)^2}{2\sigma^2} \right ) \\ [6pt] &= (2\pi\sigma^2)^{-\frac{n}{2}} \exp \left ( -\sum_{i=1}^n \frac{(x_i-\theta)^2}{2\sigma^2} \right ) \\ [6pt] & = (2\pi\sigma^2)^{-\frac{n}{2}} \exp \left (-\sum_{i=1}^n \frac{ \left ( \left (x_i-\overline{x} \right ) - \left (\theta-\overline{x} \right ) \right )^2}{2\sigma^2} \right ) \\ [6pt] & = (2\pi\sigma^2)^{-\frac{n}{2}} \exp \left( -{1\over2\sigma^2} \left(\sum_{i=1}^n(x_i-\overline{x})^2 + \sum_{i=1}^n(\theta-\overline{x})^2 -2\sum_{i=1}^n(x_i-\overline{x})(\theta-\overline{x})\right) \right) \\ [6pt] &= (2\pi\sigma^2)^{-\frac{n}{2}} \exp \left( -{1\over2\sigma^2} \left (\sum_{i=1}^n(x_i-\overline{x})^2 + n(\theta-\overline{x})^2 \right ) \right ) && \sum_{i=1}^n(x_i-\overline{x})(\theta-\overline{x})=0 \\ [6pt] &= (2\pi\sigma^2)^{-\frac{n}{2}} \exp \left( -{1\over2\sigma^2} \sum_{i=1}^n (x_i-\overline{x})^2 \right ) \exp \left (-\frac{n}{2\sigma^2} (\theta-\overline{x})^2 \right )

\end{align}$$ नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है


 * $$\begin{align}

h(x_1^n) &= (2\pi\sigma^2)^{-\frac{n}{2}} \exp \left( -{1\over2\sigma^2} \sum_{i=1}^n (x_i-\overline{x})^2 \right ) \\[6pt] g_\theta(x_1^n) &= \exp \left (-\frac{n}{2\sigma^2} (\theta-\overline{x})^2 \right ) \end{align}$$ तब से $$h(x_1^n)$$ पैरामीटर पर निर्भर नहीं है $$\theta$$ और $$g_{\theta}(x_1^n)$$ पर ही निर्भर करता है $$x_1^n$$ समारोह के माध्यम से


 * $$T(X_1^n)=\overline{x}=\frac1n\sum_{i=1}^nX_i,$$

फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है $$T(X_1^n)$$ के लिए पर्याप्त आँकड़ा है $$\theta$$.

अगर $$ \sigma^2 $$ अज्ञात है और तब से $$s^2 = \frac{1}{n-1} \sum_{i=1}^n \left(x_i - \overline{x} \right)^2 $$, उपरोक्त संभावना को इस प्रकार पुनः लिखा जा सकता है


 * $$\begin{align}

f_{X_1^n}(x_1^n)= (2\pi\sigma^2)^{-n/2} \exp \left( -\frac{n-1}{2\sigma^2}s^2 \right) \exp \left (-\frac{n}{2\sigma^2} (\theta-\overline{x})^2 \right ). \end{align}$$ फिशर-नेमैन गुणनखंडन प्रमेय अभी भी कायम है और इसका तात्पर्य है $$(\overline{x},s^2)$$ के लिए एक संयुक्त पर्याप्त आँकड़ा है $$ ( \theta, \sigma^2) $$.

घातांकीय वितरण
अगर $$X_1,\dots,X_n$$ अपेक्षित मूल्य θ (एक अज्ञात वास्तविक-मूल्यवान सकारात्मक पैरामीटर) के साथ स्वतंत्र और घातीय वितरण हैं $$T(X_1^n)=\sum_{i=1}^nX_i$$ θ के लिए पर्याप्त आँकड़ा है।

इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें $$X_1^n=(X_1,\dots,X_n)$$. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।


 * $$\begin{align}

f_{X_1^n}(x_1^n) &= \prod_{i=1}^n {1 \over \theta} \, e^{ {-1 \over \theta}x_i } =              {1 \over \theta^n}\, e^{ {-1 \over \theta} \sum_{i=1}^nx_i }. \end{align}$$ नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है


 * $$\begin{align}

h(x_1^n)= 1,\,\,\, g_{\theta}(x_1^n)= {1 \over \theta^n}\, e^{ {-1 \over \theta} \sum_{i=1}^nx_i }. \end{align}$$ तब से $$h(x_1^n)$$ पैरामीटर पर निर्भर नहीं है $$\theta$$ और $$g_{\theta}(x_1^n)$$ पर ही निर्भर करता है $$x_1^n$$ समारोह के माध्यम से $$T(X_1^n)=\sum_{i=1}^nX_i$$ फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है $$T(X_1^n)=\sum_{i=1}^nX_i$$ के लिए पर्याप्त आँकड़ा है $$\theta$$.

गामा वितरण
अगर $$X_1,\dots,X_n$$ स्वतंत्र हैं और गामा वितरण के रूप में वितरित हैं|$$\Gamma(\alpha \,, \, \beta) $$, कहाँ $$\alpha$$ और $$\beta$$ तो, गामा वितरण के अज्ञात पैरामीटर हैं $$T(X_1^n) = \left( \prod_{i=1}^n{X_i} , \sum_{i=1}^n X_i \right)$$ के लिए एक द्वि-आयामी पर्याप्त आँकड़ा है $$(\alpha, \beta)$$.

इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें $$X_1^n=(X_1,\dots,X_n)$$. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।


 * $$\begin{align}

f_{X_1^n}(x_1^n) &= \prod_{i=1}^n \left({1 \over \Gamma(\alpha) \beta^\alpha}\right) x_i^{\alpha -1} e^{(-1/\beta)x_i} \\[5pt] &= \left({1 \over \Gamma(\alpha) \beta^\alpha}\right)^n \left(\prod_{i=1}^n x_i\right)^{\alpha-1} e^{{-1 \over \beta} \sum_{i=1}^n x_i}. \end{align}$$ नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है


 * $$\begin{align}

h(x_1^n)= 1,\,\,\, g_{(\alpha \,, \, \beta)}(x_1^n)= \left({1 \over \Gamma(\alpha) \beta^{\alpha}}\right)^n \left(\prod_{i=1}^n x_i\right)^{\alpha-1} e^{{-1 \over \beta} \sum_{i=1}^n x_i}. \end{align}$$ तब से $$h(x_1^n)$$ पैरामीटर पर निर्भर नहीं है $$(\alpha\,, \, \beta)$$ और $$g_{(\alpha \, , \, \beta)}(x_1^n)$$ पर ही निर्भर करता है $$x_1^n$$ समारोह के माध्यम से $$T(x_1^n)= \left( \prod_{i=1}^n x_i, \sum_{i=1}^n x_i \right),$$ फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है $$T(X_1^n)= \left( \prod_{i=1}^n X_i, \sum_{i=1}^n X_i \right)$$ के लिए पर्याप्त आँकड़ा है $$(\alpha\,, \, \beta).$$

राव-ब्लैकवेल प्रमेय
पर्याप्तता को राव-ब्लैकवेल प्रमेय में एक उपयोगी अनुप्रयोग मिलता है, जिसमें कहा गया है कि यदि g(X) θ का किसी भी प्रकार का अनुमानक है, तो आमतौर पर g की सशर्त अपेक्षा '(X) को पर्याप्त आँकड़ा दिया गया है T(X) θ का एक बेहतर (कम विचरण के अर्थ में) अनुमानक है, और कभी भी बदतर नहीं होता है। कभी-कभी कोई बहुत आसानी से एक बहुत ही अपरिष्कृत अनुमानक जी(एक्स) का निर्माण कर सकता है, और फिर एक अनुमानक प्राप्त करने के लिए उस सशर्त अपेक्षित मूल्य का मूल्यांकन कर सकता है जो विभिन्न अर्थों में इष्टतम है।

घातांकीय परिवार
पिटमैन-कूपमैन-डार्मोइस प्रमेय के अनुसार, संभाव्यता वितरण के परिवारों के बीच जिनका डोमेन अनुमानित पैरामीटर के साथ भिन्न नहीं होता है, केवल घातीय परिवार में पर्याप्त आँकड़ा होता है जिसका आयाम नमूना आकार बढ़ने के साथ सीमित रहता है। सहज रूप से, यह बताता है कि वास्तविक रेखा पर वितरण के गैर-घातीय परिवारों को डेटा में जानकारी को पूरी तरह से पकड़ने के लिए गैर-पैरामीट्रिक आंकड़ों की आवश्यकता होती है।

कम संक्षेप में, मान लीजिए $$X_n, n = 1, 2, 3, \dots$$ स्वतंत्र समान रूप से वितरित वास्तविक यादृच्छिक चर हैं जिनका वितरण संभाव्यता वितरण के कुछ परिवार में जाना जाता है, द्वारा पैरामीट्रिज्ड $$\theta$$, कुछ तकनीकी नियमितता शर्तों को पूरा करते हुए, वह परिवार एक घातीय परिवार है यदि और केवल यदि कोई है $$\R^m$$-मूल्यांकित पर्याप्त आँकड़ा $$T(X_1, \dots, X_n)$$ जिसके अदिश घटकों की संख्या $$m$$ नमूना आकार n बढ़ने पर वृद्धि नहीं होती है। यह प्रमेय दर्शाता है कि एक परिमित-आयामी, वास्तविक-वेक्टर-मूल्यवान पर्याप्त आंकड़ों का अस्तित्व वास्तविक रेखा पर वितरण के परिवार के संभावित रूपों को तेजी से प्रतिबंधित करता है।

जब पैरामीटर या यादृच्छिक चर वास्तविक-मूल्यवान नहीं रह जाते हैं, तो स्थिति अधिक जटिल हो जाती है।

बायेसियन पर्याप्तता
इस शर्त का एक वैकल्पिक सूत्रीकरण कि एक आँकड़ा पर्याप्त हो, बायेसियन संदर्भ में सेट किया गया है, जिसमें पूर्ण डेटा-सेट का उपयोग करके और केवल एक आँकड़ा का उपयोग करके प्राप्त किए गए पश्च वितरण शामिल हैं। इस प्रकार आवश्यकता यह है कि, लगभग प्रत्येक x के लिए,


 * $$\Pr(\theta\mid X=x) = \Pr(\theta\mid T(X)=t(x)). $$

अधिक सामान्यतः, पैरामीट्रिक मॉडल को माने बिना, हम कह सकते हैं कि आँकड़े टी पर्याप्त रूप से पूर्वानुमानित है


 * $$\Pr(X'=x'\mid X=x) = \Pr(X'=x'\mid T(X)=t(x)).$$

यह पता चला है कि यह बायेसियन पर्याप्तता उपरोक्त सूत्रीकरण का परिणाम है, हालाँकि वे अनंत-आयामी मामले में सीधे समकक्ष नहीं हैं। बायेसियन संदर्भ में पर्याप्तता के लिए सैद्धांतिक परिणामों की एक श्रृंखला उपलब्ध है।

रैखिक पर्याप्तता
रैखिक पर्याप्तता नामक एक अवधारणा बायेसियन संदर्भ में तैयार की जा सकती है, और अधिक सामान्यतः. पहले X के आधार पर वेक्टर Y के सर्वश्रेष्ठ रैखिक भविष्यवक्ता को परिभाषित करें $$\hat E[Y\mid X]$$. तब एक रैखिक आँकड़ा T(x) पर्याप्त रैखिक है अगर


 * $$\hat E[\theta\mid X]= \hat E[\theta\mid T(X)] . $$

यह भी देखें

 * एक आँकड़े की संपूर्णता (आँकड़े)।
 * पूर्ण पर्याप्त और सहायक सांख्यिकी की स्वतंत्रता पर बसु का प्रमेय
 * लेहमैन-शेफ़े प्रमेय: एक पूर्ण पर्याप्त अनुमानक अपनी अपेक्षा का सबसे अच्छा अनुमानक है
 * राव-ब्लैकवेल प्रमेय
 * चेनत्सोव का प्रमेय
 * पर्याप्त आयाम में कमी
 * सहायक आँकड़ा

संदर्भ

 * Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9
 * Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9
 * Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9