पर्याप्त आँकड़ा: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Statistical principle}} आँकड़ों में, एक आँकड़ा एक [[सांख्यिकीय मॉडल]] और उस...")
 
No edit summary
Line 1: Line 1:
{{Short description|Statistical principle}}
{{Short description|Statistical principle}}
आँकड़ों में, एक आँकड़ा एक [[[[सांख्यिकीय]] मॉडल]] और उससे जुड़े अज्ञात [[पैरामीटर]] के संबंध में ''पर्याप्त'' होता है यदि कोई अन्य आँकड़ा जिसकी गणना उसी नमूने (आँकड़े) से नहीं की जा सकती है, पैरामीटर के मूल्य के बारे में कोई अतिरिक्त जानकारी प्रदान करता है।<ref name=Fisher1922>{{cite journal
आँकड़ों में, आँकड़ा [[[[सांख्यिकीय]] मॉडल]] और उससे जुड़े अज्ञात [[पैरामीटर]] के संबंध में ''पर्याप्त'' होता है यदि कोई अन्य आँकड़ा जिसकी गणना उसी नमूने (आँकड़े) से नहीं की जा सकती है, पैरामीटर के मूल्य के बारे में कोई अतिरिक्त जानकारी प्रदान करता है।<ref name=Fisher1922>{{cite journal
  | last=Fisher | first=R.A. |author-link=Ronald Fisher
  | last=Fisher | first=R.A. |author-link=Ronald Fisher
  | journal= Philosophical Transactions of the Royal Society A
  | journal= Philosophical Transactions of the Royal Society A
Line 7: Line 7:
  | url=http://digital.library.adelaide.edu.au/dspace/handle/2440/15172
  | url=http://digital.library.adelaide.edu.au/dspace/handle/2440/15172
  | jstor=91208 | jfm = 48.1280.02 |doi=10.1098/rsta.1922.0009
  | jstor=91208 | jfm = 48.1280.02 |doi=10.1098/rsta.1922.0009
| bibcode=1922RSPTA.222..309F | doi-access=free }}</ref> विशेष रूप से, एक आँकड़ा संभाव्यता वितरण के [[पैरामीट्रिक परिवार]] के लिए पर्याप्त है यदि जिस नमूने से इसकी गणना की जाती है वह आँकड़े के अलावा कोई अतिरिक्त जानकारी नहीं देता है, कि उन संभाव्यता वितरणों में से कौन सा नमूना वितरण है।
| bibcode=1922RSPTA.222..309F | doi-access=free }}</ref> विशेष रूप से, आँकड़ा संभाव्यता वितरण के [[पैरामीट्रिक परिवार]] के लिए पर्याप्त है यदि जिस नमूने से इसकी गणना की जाती है वह आँकड़े के अलावा कोई अतिरिक्त जानकारी नहीं देता है, कि उन संभाव्यता वितरणों में से कौन सा नमूना वितरण है।


एक संबंधित अवधारणा रैखिक पर्याप्तता की है, जो ''पर्याप्तता'' से कमजोर है लेकिन इसे कुछ मामलों में लागू किया जा सकता है जहां पर्याप्त आंकड़े नहीं हैं, हालांकि यह रैखिक अनुमानकों तक ही सीमित है।<ref>Dodge, Y. (2003) — entry for linear sufficiency</ref> [[कोलमोगोरोव संरचना कार्य]] व्यक्तिगत परिमित डेटा से संबंधित है; संबंधित धारणा एल्गोरिथम पर्याप्त आँकड़ा है।
एक संबंधित अवधारणा रैखिक पर्याप्तता की है, जो ''पर्याप्तता'' से कमजोर है लेकिन इसे कुछ मामलों में लागू किया जा सकता है जहां पर्याप्त आंकड़े नहीं हैं, हालांकि यह रैखिक अनुमानकों तक ही सीमित है।<ref>Dodge, Y. (2003) — entry for linear sufficiency</ref> [[कोलमोगोरोव संरचना कार्य]] व्यक्तिगत परिमित डेटा से संबंधित है; संबंधित धारणा एल्गोरिथम पर्याप्त आँकड़ा है।
Line 27: Line 27:


==पृष्ठभूमि==
==पृष्ठभूमि==
मोटे तौर पर, एक सेट दिया गया <math> \mathbf{X}</math> एक अज्ञात पैरामीटर पर वातानुकूलित स्वतंत्र समान रूप से वितरित डेटा का <math>\theta</math>, एक पर्याप्त आँकड़ा एक फ़ंक्शन है <math>T(\mathbf{X})</math> जिसके मूल्य में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी शामिल है (उदाहरण के लिए अधिकतम संभावना अनुमान)। गुणनखंडन प्रमेय (#फिशर-नेमैन गुणनखंडन प्रमेय) के कारण, पर्याप्त आंकड़ों के लिए <math>T(\mathbf{X})</math>, संभाव्यता घनत्व को इस प्रकार लिखा जा सकता है <math>f_{\mathbf{X}}(x) = h(x) \, g(\theta, T(x))</math>. इस गुणनखंड से, यह आसानी से देखा जा सकता है कि अधिकतम संभावना का अनुमान है <math>\theta</math> के साथ बातचीत करेंगे <math>\mathbf{X}</math> केवल भीतर से <math>T(\mathbf{X})</math>. आमतौर पर, पर्याप्त आँकड़ा डेटा का एक सरल कार्य है, उदा। सभी डेटा बिंदुओं का योग.
मोटे तौर पर, सेट दिया गया <math> \mathbf{X}</math> अज्ञात पैरामीटर पर वातानुकूलित स्वतंत्र समान रूप से वितरित डेटा का <math>\theta</math>, पर्याप्त आँकड़ा फ़ंक्शन है <math>T(\mathbf{X})</math> जिसके मूल्य में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी शामिल है (उदाहरण के लिए अधिकतम संभावना अनुमान)। गुणनखंडन प्रमेय (#फिशर-नेमैन गुणनखंडन प्रमेय) के कारण, पर्याप्त आंकड़ों के लिए <math>T(\mathbf{X})</math>, संभाव्यता घनत्व को इस प्रकार लिखा जा सकता है <math>f_{\mathbf{X}}(x) = h(x) \, g(\theta, T(x))</math>. इस गुणनखंड से, यह आसानी से देखा जा सकता है कि अधिकतम संभावना का अनुमान है <math>\theta</math> के साथ बातचीत करेंगे <math>\mathbf{X}</math> केवल भीतर से <math>T(\mathbf{X})</math>. आमतौर पर, पर्याप्त आँकड़ा डेटा का सरल कार्य है, उदा। सभी डेटा बिंदुओं का योग.


अधिक आम तौर पर, अज्ञात पैरामीटर अज्ञात मात्राओं के [[यूक्लिडियन वेक्टर]] का प्रतिनिधित्व कर सकता है या मॉडल के बारे में सब कुछ का प्रतिनिधित्व कर सकता है जो अज्ञात है या पूरी तरह से निर्दिष्ट नहीं है। ऐसे मामले में, पर्याप्त आँकड़ा कार्यों का एक समूह हो सकता है, जिसे संयुक्त रूप से पर्याप्त आँकड़ा कहा जाता है। आमतौर पर, जितने पैरामीटर होते हैं उतने ही फ़ंक्शन होते हैं। उदाहरण के लिए, अज्ञात माध्य और विचरण वाले [[गाऊसी वितरण]] के लिए, संयुक्त रूप से पर्याप्त आँकड़ा, जिससे दोनों मापदंडों की अधिकतम संभावना का अनुमान लगाया जा सकता है, इसमें दो फ़ंक्शन शामिल हैं, सभी डेटा बिंदुओं का योग और सभी वर्ग डेटा बिंदुओं का योग ( या समकक्ष, [[नमूना माध्य]] और [[नमूना विचरण]])।
अधिक आम तौर पर, अज्ञात पैरामीटर अज्ञात मात्राओं के [[यूक्लिडियन वेक्टर]] का प्रतिनिधित्व कर सकता है या मॉडल के बारे में सब कुछ का प्रतिनिधित्व कर सकता है जो अज्ञात है या पूरी तरह से निर्दिष्ट नहीं है। ऐसे मामले में, पर्याप्त आँकड़ा कार्यों का समूह हो सकता है, जिसे संयुक्त रूप से पर्याप्त आँकड़ा कहा जाता है। आमतौर पर, जितने पैरामीटर होते हैं उतने ही फ़ंक्शन होते हैं। उदाहरण के लिए, अज्ञात माध्य और विचरण वाले [[गाऊसी वितरण]] के लिए, संयुक्त रूप से पर्याप्त आँकड़ा, जिससे दोनों मापदंडों की अधिकतम संभावना का अनुमान लगाया जा सकता है, इसमें दो फ़ंक्शन शामिल हैं, सभी डेटा बिंदुओं का योग और सभी वर्ग डेटा बिंदुओं का योग ( या समकक्ष, [[नमूना माध्य]] और [[नमूना विचरण]])।


दूसरे शब्दों में, 'डेटा का [[संयुक्त संभाव्यता वितरण]] पैरामीटर के लिए पर्याप्त आंकड़ों के मूल्य को देखते हुए पैरामीटर से सशर्त रूप से स्वतंत्र है।' आँकड़े और अंतर्निहित पैरामीटर दोनों वेक्टर हो सकते हैं।
दूसरे शब्दों में, 'डेटा का [[संयुक्त संभाव्यता वितरण]] पैरामीटर के लिए पर्याप्त आंकड़ों के मूल्य को देखते हुए पैरामीटर से सशर्त रूप से स्वतंत्र है।' आँकड़े और अंतर्निहित पैरामीटर दोनों वेक्टर हो सकते हैं।
Line 36: Line 36:


एक आँकड़ा t = T(X) 'अंतर्निहित पैरामीटर θ के लिए पर्याप्त' है, यदि डेटा X का [[सशर्त संभाव्यता वितरण]], आँकड़ा t = T(X) दिया गया है, पैरामीटर θ पर निर्भर नहीं करता है।<ref name="CasellaBerger">{{cite book | last = Casella | first = George |author2=Berger, Roger L.  | title = Statistical Inference, 2nd ed | publisher=Duxbury Press | year = 2002}}</ref>
एक आँकड़ा t = T(X) 'अंतर्निहित पैरामीटर θ के लिए पर्याप्त' है, यदि डेटा X का [[सशर्त संभाव्यता वितरण]], आँकड़ा t = T(X) दिया गया है, पैरामीटर θ पर निर्भर नहीं करता है।<ref name="CasellaBerger">{{cite book | last = Casella | first = George |author2=Berger, Roger L.  | title = Statistical Inference, 2nd ed | publisher=Duxbury Press | year = 2002}}</ref>
वैकल्पिक रूप से, कोई यह कह सकता है कि आँकड़ा T(X) θ के लिए पर्याप्त है यदि θ के साथ इसकी पारस्परिक जानकारी X और θ के बीच पारस्परिक जानकारी के बराबर है।<ref>{{Cite book|last=Cover|first=Thomas M.|title=सूचना सिद्धांत के तत्व|date=2006|publisher=Wiley-Interscience|others=Joy A. Thomas|isbn=0-471-24195-4|edition=2nd|location=Hoboken, N.J.|pages=36|oclc=59879802}}</ref> दूसरे शब्दों में, [[डेटा प्रोसेसिंग असमानता]] एक समानता बन जाती है:
वैकल्पिक रूप से, कोई यह कह सकता है कि आँकड़ा T(X) θ के लिए पर्याप्त है यदि θ के साथ इसकी पारस्परिक जानकारी X और θ के बीच पारस्परिक जानकारी के बराबर है।<ref>{{Cite book|last=Cover|first=Thomas M.|title=सूचना सिद्धांत के तत्व|date=2006|publisher=Wiley-Interscience|others=Joy A. Thomas|isbn=0-471-24195-4|edition=2nd|location=Hoboken, N.J.|pages=36|oclc=59879802}}</ref> दूसरे शब्दों में, [[डेटा प्रोसेसिंग असमानता]] समानता बन जाती है:


:<math>I\bigl(\theta ; T(X)\bigr) = I(\theta ; X)</math>
:<math>I\bigl(\theta ; T(X)\bigr) = I(\theta ; X)</math>
Line 42: Line 42:


===उदाहरण===
===उदाहरण===
उदाहरण के तौर पर, नमूना माध्य ज्ञात विचरण वाले [[सामान्य वितरण]] के माध्य (μ) के लिए पर्याप्त है। एक बार नमूना माध्य ज्ञात हो जाने पर, नमूने से μ के बारे में कोई और जानकारी प्राप्त नहीं की जा सकती। दूसरी ओर, एक मनमाना वितरण के लिए माध्य माध्य के लिए पर्याप्त नहीं है: भले ही नमूने का माध्य ज्ञात हो, नमूना जानने से ही जनसंख्या माध्य के बारे में अधिक जानकारी मिल जाएगी। उदाहरण के लिए, यदि माध्यिका से कम प्रेक्षण केवल थोड़े कम हैं, लेकिन माध्यिका से अधिक होने वाले प्रेक्षण इससे बड़ी मात्रा में अधिक हैं, तो इसका जनसंख्या माध्य के बारे में किसी के अनुमान पर असर पड़ेगा।
उदाहरण के तौर पर, नमूना माध्य ज्ञात विचरण वाले [[सामान्य वितरण]] के माध्य (μ) के लिए पर्याप्त है। बार नमूना माध्य ज्ञात हो जाने पर, नमूने से μ के बारे में कोई और जानकारी प्राप्त नहीं की जा सकती। दूसरी ओर, मनमाना वितरण के लिए माध्य माध्य के लिए पर्याप्त नहीं है: भले ही नमूने का माध्य ज्ञात हो, नमूना जानने से ही जनसंख्या माध्य के बारे में अधिक जानकारी मिल जाएगी। उदाहरण के लिए, यदि माध्यिका से कम प्रेक्षण केवल थोड़े कम हैं, लेकिन माध्यिका से अधिक होने वाले प्रेक्षण इससे बड़ी मात्रा में अधिक हैं, तो इसका जनसंख्या माध्य के बारे में किसी के अनुमान पर असर पड़ेगा।


==फिशर-नेमैन गुणनखंडन प्रमेय==
==फिशर-नेमैन गुणनखंडन प्रमेय==


रोनाल्ड फिशर|फिशर का गुणनखंडन प्रमेय या गुणनखंडन मानदंड एक पर्याप्त आँकड़े का सुविधाजनक 'लक्षणीकरण' प्रदान करता है। यदि संभाव्यता घनत्व फ़ंक्शन ƒ है<sub>''θ''</sub>(x), तो T, θ के लिए पर्याप्त है यदि और केवल यदि गैर-ऋणात्मक फलन g और h को ऐसे पाया जा सकता है कि
रोनाल्ड फिशर|फिशर का गुणनखंडन प्रमेय या गुणनखंडन मानदंड पर्याप्त आँकड़े का सुविधाजनक 'लक्षणीकरण' प्रदान करता है। यदि संभाव्यता घनत्व फ़ंक्शन ƒ है<sub>''θ''</sub>(x), तो T, θ के लिए पर्याप्त है यदि और केवल यदि गैर-ऋणात्मक फलन g और h को ऐसे पाया जा सकता है कि


:<math> f_\theta(x)=h(x) \, g_\theta(T(x)), </math>
:<math> f_\theta(x)=h(x) \, g_\theta(T(x)), </math>
यानी घनत्व ƒ को एक उत्पाद में इस तरह से विभाजित किया जा सकता है कि एक कारक, एच, θ पर निर्भर नहीं होता है और दूसरा कारक, जो θ पर निर्भर करता है, केवल T(x) के माध्यम से x पर निर्भर करता है। इसका एक सामान्य प्रमाण हैल्मोस और सैवेज ने दिया था<ref>{{Cite journal |last1=Halmos |first1=P. R. |last2=Savage |first2=L. J. |date=1949 |title=पर्याप्त सांख्यिकी के सिद्धांत के लिए रेडॉन-निकोडिम प्रमेय का अनुप्रयोग|url=http://projecteuclid.org/euclid.aoms/1177730032 |journal=The Annals of Mathematical Statistics |language=en |volume=20 |issue=2 |pages=225–241 |doi=10.1214/aoms/1177730032 |issn=0003-4851}}</ref> और प्रमेय को कभी-कभी हेल्मोस-सैवेज गुणनखंडन प्रमेय के रूप में जाना जाता है।<ref>{{Cite web |title=गुणनखंडन प्रमेय - गणित का विश्वकोश|url=https://encyclopediaofmath.org/wiki/Factorization_theorem |access-date=2022-09-07 |website=encyclopediaofmath.org}}</ref> नीचे दिए गए प्रमाण विशेष मामलों को संभालते हैं, लेकिन उसी तर्ज पर एक वैकल्पिक सामान्य प्रमाण भी दिया जा सकता है।<ref>{{Cite journal |last=Taraldsen |first=G. |date=2022 |title=पर्याप्तता के लिए गुणनखंडन प्रमेय|url= |journal=Preprint |language=en |doi=10.13140/RG.2.2.15068.87687}}</ref> यह देखना आसान है कि यदि F(t) एक-से-एक फ़ंक्शन है और T पर्याप्त है
यानी घनत्व ƒ को उत्पाद में इस तरह से विभाजित किया जा सकता है कि कारक, एच, θ पर निर्भर नहीं होता है और दूसरा कारक, जो θ पर निर्भर करता है, केवल T(x) के माध्यम से x पर निर्भर करता है। इसका सामान्य प्रमाण हैल्मोस और सैवेज ने दिया था<ref>{{Cite journal |last1=Halmos |first1=P. R. |last2=Savage |first2=L. J. |date=1949 |title=पर्याप्त सांख्यिकी के सिद्धांत के लिए रेडॉन-निकोडिम प्रमेय का अनुप्रयोग|url=http://projecteuclid.org/euclid.aoms/1177730032 |journal=The Annals of Mathematical Statistics |language=en |volume=20 |issue=2 |pages=225–241 |doi=10.1214/aoms/1177730032 |issn=0003-4851}}</ref> और प्रमेय को कभी-कभी हेल्मोस-सैवेज गुणनखंडन प्रमेय के रूप में जाना जाता है।<ref>{{Cite web |title=गुणनखंडन प्रमेय - गणित का विश्वकोश|url=https://encyclopediaofmath.org/wiki/Factorization_theorem |access-date=2022-09-07 |website=encyclopediaofmath.org}}</ref> नीचे दिए गए प्रमाण विशेष मामलों को संभालते हैं, लेकिन उसी तर्ज पर वैकल्पिक सामान्य प्रमाण भी दिया जा सकता है।<ref>{{Cite journal |last=Taraldsen |first=G. |date=2022 |title=पर्याप्तता के लिए गुणनखंडन प्रमेय|url= |journal=Preprint |language=en |doi=10.13140/RG.2.2.15068.87687}}</ref> यह देखना आसान है कि यदि F(t) एक-से-एक फ़ंक्शन है और T पर्याप्त है
आँकड़ा, तो F(T) एक पर्याप्त आँकड़ा है। विशेष रूप से हम a को गुणा कर सकते हैं
आँकड़ा, तो F(T) पर्याप्त आँकड़ा है। विशेष रूप से हम a को गुणा कर सकते हैं
एक गैरशून्य स्थिरांक द्वारा पर्याप्त आँकड़ा और एक अन्य पर्याप्त आँकड़ा प्राप्त करें।
एक गैरशून्य स्थिरांक द्वारा पर्याप्त आँकड़ा और अन्य पर्याप्त आँकड़ा प्राप्त करें।


===संभावना सिद्धांत व्याख्या===
===संभावना सिद्धांत व्याख्या===
प्रमेय का एक निहितार्थ यह है कि संभावना-आधारित अनुमान का उपयोग करते समय, पर्याप्त आंकड़े टी (एक्स) के लिए समान मान उत्पन्न करने वाले डेटा के दो सेट हमेशा θ के बारे में समान अनुमान उत्पन्न करेंगे। गुणनखंडन मानदंड के अनुसार, θ पर संभावना की निर्भरता केवल T(X) के संयोजन में है। चूँकि यह दोनों मामलों में समान है, θ पर निर्भरता भी समान होगी, जिससे समान निष्कर्ष निकलेंगे।
प्रमेय का निहितार्थ यह है कि संभावना-आधारित अनुमान का उपयोग करते समय, पर्याप्त आंकड़े टी (एक्स) के लिए समान मान उत्पन्न करने वाले डेटा के दो सेट हमेशा θ के बारे में समान अनुमान उत्पन्न करेंगे। गुणनखंडन मानदंड के अनुसार, θ पर संभावना की निर्भरता केवल T(X) के संयोजन में है। चूँकि यह दोनों मामलों में समान है, θ पर निर्भरता भी समान होगी, जिससे समान निष्कर्ष निकलेंगे।


===प्रमाण===
===प्रमाण===
हॉग और क्रेग के कारण.<ref name="HoggCraig">{{cite book | last = Hogg | first = Robert V. |author2=Craig, Allen T.  | title = गणितीय सांख्यिकी का परिचय| publisher=Prentice Hall | year = 1995 | isbn=978-0-02-355722-4}}</ref> होने देना <math>X_1, X_2, \ldots, X_n</math>, ι < θ < δ के लिए संभाव्यता घनत्व फ़ंक्शन f(x, θ) वाले वितरण से एक यादृच्छिक नमूना निरूपित करें। चलो वाई<sub>1</sub>= में<sub>1</sub>(एक्स<sub>1</sub>, एक्स<sub>2</sub>, ..., एक्स<sub>''n''</sub>) एक आँकड़ा बनें जिसका पीडीएफ जी है<sub>1</sub>(और<sub>1</sub>; θ). हम जो साबित करना चाहते हैं वह यह है कि वाई<sub>1</sub>= में<sub>1</sub>(एक्स<sub>1</sub>, एक्स<sub>2</sub>, ..., एक्स<sub>''n''</sub>) θ के लिए एक पर्याप्त आँकड़ा है यदि और केवल यदि, किसी फ़ंक्शन H के लिए,
हॉग और क्रेग के कारण.<ref name="HoggCraig">{{cite book | last = Hogg | first = Robert V. |author2=Craig, Allen T.  | title = गणितीय सांख्यिकी का परिचय| publisher=Prentice Hall | year = 1995 | isbn=978-0-02-355722-4}}</ref> होने देना <math>X_1, X_2, \ldots, X_n</math>, ι < θ < δ के लिए संभाव्यता घनत्व फ़ंक्शन f(x, θ) वाले वितरण से यादृच्छिक नमूना निरूपित करें। चलो वाई<sub>1</sub>= में<sub>1</sub>(एक्स<sub>1</sub>, एक्स<sub>2</sub>, ..., एक्स<sub>''n''</sub>) आँकड़ा बनें जिसका पीडीएफ जी है<sub>1</sub>(और<sub>1</sub>; θ). हम जो साबित करना चाहते हैं वह यह है कि वाई<sub>1</sub>= में<sub>1</sub>(एक्स<sub>1</sub>, एक्स<sub>2</sub>, ..., एक्स<sub>''n''</sub>) θ के लिए पर्याप्त आँकड़ा है यदि और केवल यदि, किसी फ़ंक्शन H के लिए,


:<math> \prod_{i=1}^n f(x_i; \theta) = g_1 \left[u_1 (x_1, x_2, \dots, x_n); \theta \right] H(x_1, x_2, \dots, x_n). </math>
:<math> \prod_{i=1}^n f(x_i; \theta) = g_1 \left[u_1 (x_1, x_2, \dots, x_n); \theta \right] H(x_1, x_2, \dots, x_n). </math>
Line 86: Line 86:
एक सरल और अधिक उदाहरणात्मक प्रमाण इस प्रकार है, हालाँकि यह केवल अलग मामले में ही लागू होता है।
एक सरल और अधिक उदाहरणात्मक प्रमाण इस प्रकार है, हालाँकि यह केवल अलग मामले में ही लागू होता है।


हम संयुक्त संभाव्यता घनत्व को दर्शाने के लिए शॉर्टहैंड नोटेशन का उपयोग करते हैं <math>(X, T(X))</math> द्वारा <math>f_\theta(x,t)</math>. तब से <math>T</math> का एक कार्य है <math>X</math>, अपने पास <math>f_\theta(x,t) = f_\theta(x)</math>, जब तक कि <math>t = T(x)</math> और अन्यथा शून्य. इसलिए:
हम संयुक्त संभाव्यता घनत्व को दर्शाने के लिए शॉर्टहैंड नोटेशन का उपयोग करते हैं <math>(X, T(X))</math> द्वारा <math>f_\theta(x,t)</math>. तब से <math>T</math> का कार्य है <math>X</math>, अपने पास <math>f_\theta(x,t) = f_\theta(x)</math>, जब तक कि <math>t = T(x)</math> और अन्यथा शून्य. इसलिए:


:<math>
:<math>
Line 108: Line 108:
पहली समानता संभाव्यता घनत्व फ़ंक्शन द्वारा # कई चर के साथ जुड़े संभाव्यता फ़ंक्शन द्वारा, दूसरी उपरोक्त टिप्पणी द्वारा, तीसरी परिकल्पना द्वारा, और चौथी क्योंकि सारांश समाप्त नहीं हुआ है <math>t</math>.
पहली समानता संभाव्यता घनत्व फ़ंक्शन द्वारा # कई चर के साथ जुड़े संभाव्यता फ़ंक्शन द्वारा, दूसरी उपरोक्त टिप्पणी द्वारा, तीसरी परिकल्पना द्वारा, और चौथी क्योंकि सारांश समाप्त नहीं हुआ है <math>t</math>.


होने देना <math>f_{X\mid t}(x)</math> की सशर्त संभाव्यता घनत्व को निरूपित करें <math>X</math> दिया गया <math>T(X)</math>. तब हम इसके लिए एक स्पष्ट अभिव्यक्ति प्राप्त कर सकते हैं:
होने देना <math>f_{X\mid t}(x)</math> की सशर्त संभाव्यता घनत्व को निरूपित करें <math>X</math> दिया गया <math>T(X)</math>. तब हम इसके लिए स्पष्ट अभिव्यक्ति प्राप्त कर सकते हैं:
:<math>
:<math>
\begin{align}
\begin{align}
Line 123: Line 123:
एक पर्याप्त आँकड़ा न्यूनतम पर्याप्त है यदि इसे किसी अन्य पर्याप्त आँकड़े के कार्य के रूप में दर्शाया जा सकता है। दूसरे शब्दों में, ''S''(''X'') न्यूनतम पर्याप्त है यदि और केवल यदि<ref>Dodge (2003) — entry for minimal sufficient statistics</ref>
एक पर्याप्त आँकड़ा न्यूनतम पर्याप्त है यदि इसे किसी अन्य पर्याप्त आँकड़े के कार्य के रूप में दर्शाया जा सकता है। दूसरे शब्दों में, ''S''(''X'') न्यूनतम पर्याप्त है यदि और केवल यदि<ref>Dodge (2003) — entry for minimal sufficient statistics</ref>
#S(X) पर्याप्त है, और
#S(X) पर्याप्त है, और
#यदि T(X) पर्याप्त है, तो एक फ़ंक्शन f मौजूद है जैसे कि S(X) = f(T(X))।
#यदि T(X) पर्याप्त है, तो फ़ंक्शन f मौजूद है जैसे कि S(X) = f(T(X))।


सहज रूप से, एक न्यूनतम पर्याप्त आँकड़ा सबसे कुशलता से पैरामीटर θ के बारे में सभी संभावित जानकारी प्राप्त करता है।
सहज रूप से, न्यूनतम पर्याप्त आँकड़ा सबसे कुशलता से पैरामीटर θ के बारे में सभी संभावित जानकारी प्राप्त करता है।


न्यूनतम पर्याप्तता का एक उपयोगी लक्षण वर्णन यह है कि जब घनत्व f<sub>θ</sub> अस्तित्व में है, S(X) 'न्यूनतम पर्याप्त' है यदि और केवल यदि
न्यूनतम पर्याप्तता का उपयोगी लक्षण वर्णन यह है कि जब घनत्व f<sub>θ</sub> अस्तित्व में है, S(X) 'न्यूनतम पर्याप्त' है यदि और केवल यदि
:<math>\frac{f_\theta(x)}{f_\theta(y)}</math> θ से स्वतंत्र है:<math>\Longleftrightarrow</math> एस(एक्स) = एस(वाई)
:<math>\frac{f_\theta(x)}{f_\theta(y)}</math> θ से स्वतंत्र है:<math>\Longleftrightarrow</math> एस(एक्स) = एस(वाई)


यह ऊपर बताए गए #फिशर-नेमैन गुणनखंडन प्रमेय|फिशर के गुणनखंडन प्रमेय के परिणाम के रूप में अनुसरण करता है।
यह ऊपर बताए गए #फिशर-नेमैन गुणनखंडन प्रमेय|फिशर के गुणनखंडन प्रमेय के परिणाम के रूप में अनुसरण करता है।


एक ऐसा मामला जिसमें कोई न्यूनतम पर्याप्त आँकड़ा नहीं है, बहादुर द्वारा 1954 में दिखाया गया था।<ref>Lehmann and Casella (1998), ''Theory of Point Estimation'', 2nd Edition, Springer, p 37</ref> हालाँकि, हल्की परिस्थितियों में, एक न्यूनतम पर्याप्त आँकड़ा हमेशा मौजूद रहता है। विशेष रूप से, यूक्लिडियन अंतरिक्ष में, ये स्थितियाँ हमेशा लागू रहती हैं यदि यादृच्छिक चर (के साथ जुड़े)। <math>P_\theta</math> ) सभी असतत हैं या सभी निरंतर हैं।
एक ऐसा मामला जिसमें कोई न्यूनतम पर्याप्त आँकड़ा नहीं है, बहादुर द्वारा 1954 में दिखाया गया था।<ref>Lehmann and Casella (1998), ''Theory of Point Estimation'', 2nd Edition, Springer, p 37</ref> हालाँकि, हल्की परिस्थितियों में, न्यूनतम पर्याप्त आँकड़ा हमेशा मौजूद रहता है। विशेष रूप से, यूक्लिडियन अंतरिक्ष में, ये स्थितियाँ हमेशा लागू रहती हैं यदि यादृच्छिक चर (के साथ जुड़े)। <math>P_\theta</math> ) सभी असतत हैं या सभी निरंतर हैं।


यदि कोई न्यूनतम पर्याप्त आँकड़ा मौजूद है, और यह आमतौर पर मामला है, तो प्रत्येक पूर्णता (आँकड़े) पर्याप्त आँकड़ा आवश्यक रूप से न्यूनतम पर्याप्त है<ref>Lehmann and Casella (1998), ''Theory of Point Estimation'', 2nd Edition, Springer, page 42</ref>(ध्यान दें कि यह कथन एक पैथोलॉजिकल मामले को बाहर नहीं करता है जिसमें पूर्ण पर्याप्त मौजूद है जबकि कोई न्यूनतम पर्याप्त आँकड़ा नहीं है)। हालाँकि ऐसे मामलों को ढूंढना कठिन है जिनमें न्यूनतम पर्याप्त आँकड़ा मौजूद नहीं है, ऐसे मामलों को खोजना इतना कठिन नहीं है जिनमें कोई पूर्ण आँकड़ा मौजूद नहीं है।
यदि कोई न्यूनतम पर्याप्त आँकड़ा मौजूद है, और यह आमतौर पर मामला है, तो प्रत्येक पूर्णता (आँकड़े) पर्याप्त आँकड़ा आवश्यक रूप से न्यूनतम पर्याप्त है<ref>Lehmann and Casella (1998), ''Theory of Point Estimation'', 2nd Edition, Springer, page 42</ref>(ध्यान दें कि यह कथन पैथोलॉजिकल मामले को बाहर नहीं करता है जिसमें पूर्ण पर्याप्त मौजूद है जबकि कोई न्यूनतम पर्याप्त आँकड़ा नहीं है)। हालाँकि ऐसे मामलों को ढूंढना कठिन है जिनमें न्यूनतम पर्याप्त आँकड़ा मौजूद नहीं है, ऐसे मामलों को खोजना इतना कठिन नहीं है जिनमें कोई पूर्ण आँकड़ा मौजूद नहीं है।


संभाव्यता अनुपातों का संग्रह <math>\left\{\frac{L(X \mid \theta_i)}{L(X \mid \theta_0)}\right\}</math> के लिए <math>i = 1, ..., k</math>, यदि पैरामीटर स्थान असतत है तो न्यूनतम पर्याप्त आँकड़ा है <math>\left\{\theta_0, ..., \theta_k\right\}</math>.
संभाव्यता अनुपातों का संग्रह <math>\left\{\frac{L(X \mid \theta_i)}{L(X \mid \theta_0)}\right\}</math> के लिए <math>i = 1, ..., k</math>, यदि पैरामीटर स्थान असतत है तो न्यूनतम पर्याप्त आँकड़ा है <math>\left\{\theta_0, ..., \theta_k\right\}</math>.
Line 142: Line 142:
===बर्नौली वितरण===
===बर्नौली वितरण===


यदि एक्स<sub>1</sub>, ...., एक्स<sub>''n''</sub> स्वतंत्र [[बर्नौली परीक्षण]] हैं|बर्नौली-वितरित यादृच्छिक चर अपेक्षित मूल्य पी के साथ, फिर योग टी(एक्स) = एक्स<sub>1</sub>+...+एक्स<sub>''n''</sub> पी के लिए एक पर्याप्त आँकड़ा है (यहाँ 'सफलता' एक्स से मेल खाती है<sub>''i''</sub>= 1 और एक्स के लिए 'विफलता'<sub>''i''</sub>= 0; अतः T सफलताओं की कुल संख्या है)
यदि एक्स<sub>1</sub>, ...., एक्स<sub>''n''</sub> स्वतंत्र [[बर्नौली परीक्षण]] हैं|बर्नौली-वितरित यादृच्छिक चर अपेक्षित मूल्य पी के साथ, फिर योग टी(एक्स) = एक्स<sub>1</sub>+...+एक्स<sub>''n''</sub> पी के लिए पर्याप्त आँकड़ा है (यहाँ 'सफलता' एक्स से मेल खाती है<sub>''i''</sub>= 1 और एक्स के लिए 'विफलता'<sub>''i''</sub>= 0; अतः T सफलताओं की कुल संख्या है)


इसे संयुक्त संभाव्यता वितरण पर विचार करके देखा जाता है:
इसे संयुक्त संभाव्यता वितरण पर विचार करके देखा जाता है:
Line 156: Line 156:
p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{T(x)}(1-p)^{n-T(x)}
p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{T(x)}(1-p)^{n-T(x)}
</math>
</math>
जो गुणनखंडन मानदंड को पूरा करता है, जिसमें h(x)=1 केवल एक स्थिरांक है।
जो गुणनखंडन मानदंड को पूरा करता है, जिसमें h(x)=1 केवल स्थिरांक है।


महत्वपूर्ण विशेषता पर ध्यान दें: अज्ञात पैरामीटर p केवल आँकड़ा T(x) = Σx के माध्यम से डेटा x के साथ इंटरैक्ट करता है<sub>''i''</sub>.
महत्वपूर्ण विशेषता पर ध्यान दें: अज्ञात पैरामीटर p केवल आँकड़ा T(x) = Σx के माध्यम से डेटा x के साथ इंटरैक्ट करता है<sub>''i''</sub>.


एक ठोस अनुप्रयोग के रूप में, यह एक निष्पक्ष सिक्के#उचित परिणाम को एक पक्षपाती सिक्के से अलग करने की एक प्रक्रिया देता है।
एक ठोस अनुप्रयोग के रूप में, यह निष्पक्ष सिक्के#उचित परिणाम को पक्षपाती सिक्के से अलग करने की प्रक्रिया देता है।


===यूनिफ़ॉर्म वितरण===
===यूनिफ़ॉर्म वितरण===
Line 174: Line 174:
   &= \frac{1}{\theta^n} \mathbf{1}_{\{0\leq\min\{x_i\}\}}\mathbf{1}_{\{\max\{x_i\}\leq\theta\}}
   &= \frac{1}{\theta^n} \mathbf{1}_{\{0\leq\min\{x_i\}\}}\mathbf{1}_{\{\max\{x_i\}\leq\theta\}}
\end{align}</math>
\end{align}</math>
कहां 1<sub>{''...''}</sub> [[सूचक कार्य]] है. इस प्रकार घनत्व फिशर-नेमैन गुणनखंड प्रमेय द्वारा आवश्यक रूप लेता है, जहां h(x)='1'<sub>{min{''x<sub>i</sub>}≥0}</sub>, और शेष अभिव्यक्ति केवल θ और T(x)=max{x का एक फलन है<sub>i</sub>}.
कहां 1<sub>{''...''}</sub> [[सूचक कार्य]] है. इस प्रकार घनत्व फिशर-नेमैन गुणनखंड प्रमेय द्वारा आवश्यक रूप लेता है, जहां h(x)='1'<sub>{min{''x<sub>i</sub>}≥0}</sub>'', और शेष अभिव्यक्ति केवल θ और T(x)=max{x का फलन है<sub>i</sub>}.''


वास्तव में, θ के लिए [[न्यूनतम-विचरण निष्पक्ष अनुमानक]] (एमवीयूई) है
वास्तव में, θ के लिए [[न्यूनतम-विचरण निष्पक्ष अनुमानक]] (एमवीयूई) है
Line 183: Line 183:
===समान वितरण (दो मापदंडों के साथ)===
===समान वितरण (दो मापदंडों के साथ)===


अगर <math>X_1,...,X_n</math> अंतराल पर स्वतंत्र और समान वितरण (निरंतर) हैं <math>[\alpha, \beta]</math> (कहाँ <math>\alpha</math> और <math>\beta</math> अज्ञात पैरामीटर हैं), फिर <math>T(X_1^n)=\left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)</math> के लिए एक द्वि-आयामी पर्याप्त आँकड़ा है <math>(\alpha\, , \, \beta)</math>.
अगर <math>X_1,...,X_n</math> अंतराल पर स्वतंत्र और समान वितरण (निरंतर) हैं <math>[\alpha, \beta]</math> (कहाँ <math>\alpha</math> और <math>\beta</math> अज्ञात पैरामीटर हैं), फिर <math>T(X_1^n)=\left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)</math> के लिए द्वि-आयामी पर्याप्त आँकड़ा है <math>(\alpha\, , \, \beta)</math>.


इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें <math>X_1^n=(X_1,\ldots,X_n)</math>. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।
इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें <math>X_1^n=(X_1,\ldots,X_n)</math>. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।
Line 260: Line 260:
f_{X_1^n}(x_1^n)= (2\pi\sigma^2)^{-n/2} \exp \left( -\frac{n-1}{2\sigma^2}s^2 \right) \exp \left (-\frac{n}{2\sigma^2} (\theta-\overline{x})^2 \right ) .
f_{X_1^n}(x_1^n)= (2\pi\sigma^2)^{-n/2} \exp \left( -\frac{n-1}{2\sigma^2}s^2 \right) \exp \left (-\frac{n}{2\sigma^2} (\theta-\overline{x})^2 \right ) .
\end{align}</math>
\end{align}</math>
फिशर-नेमैन गुणनखंडन प्रमेय अभी भी कायम है और इसका तात्पर्य है <math>(\overline{x},s^2)</math> के लिए एक संयुक्त पर्याप्त आँकड़ा है <math> ( \theta , \sigma^2) </math>.
फिशर-नेमैन गुणनखंडन प्रमेय अभी भी कायम है और इसका तात्पर्य है <math>(\overline{x},s^2)</math> के लिए संयुक्त पर्याप्त आँकड़ा है <math> ( \theta , \sigma^2) </math>.


===घातांकीय वितरण===
===घातांकीय वितरण===
Line 284: Line 284:
===गामा वितरण===
===गामा वितरण===


अगर <math>X_1,\dots,X_n</math> स्वतंत्र हैं और गामा वितरण के रूप में वितरित हैं|<math>\Gamma(\alpha \, , \, \beta) </math>, कहाँ <math>\alpha</math> और <math>\beta</math> तो, [[गामा वितरण]] के अज्ञात पैरामीटर हैं <math>T(X_1^n) = \left( \prod_{i=1}^n{X_i} , \sum_{i=1}^n X_i \right)</math> के लिए एक द्वि-आयामी पर्याप्त आँकड़ा है <math>(\alpha, \beta)</math>.
अगर <math>X_1,\dots,X_n</math> स्वतंत्र हैं और गामा वितरण के रूप में वितरित हैं|<math>\Gamma(\alpha \, , \, \beta) </math>, कहाँ <math>\alpha</math> और <math>\beta</math> तो, [[गामा वितरण]] के अज्ञात पैरामीटर हैं <math>T(X_1^n) = \left( \prod_{i=1}^n{X_i} , \sum_{i=1}^n X_i \right)</math> के लिए द्वि-आयामी पर्याप्त आँकड़ा है <math>(\alpha, \beta)</math>.


इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें <math>X_1^n=(X_1,\dots,X_n)</math>. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।
इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें <math>X_1^n=(X_1,\dots,X_n)</math>. क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।
Line 305: Line 305:
==राव-ब्लैकवेल प्रमेय==
==राव-ब्लैकवेल प्रमेय==


पर्याप्तता को राव-ब्लैकवेल प्रमेय में एक उपयोगी अनुप्रयोग मिलता है, जिसमें कहा गया है कि यदि ''g''(''X'') ''θ'' का किसी भी प्रकार का अनुमानक है, तो आमतौर पर ''g'' की [[सशर्त अपेक्षा]] '(''X'') को पर्याप्त आँकड़ा दिया गया है ''T''(''X'') ''θ'' का एक बेहतर (कम विचरण के अर्थ में) अनुमानक है, और कभी भी बदतर नहीं होता है। कभी-कभी कोई बहुत आसानी से एक बहुत ही अपरिष्कृत अनुमानक ''जी''(''एक्स'') का निर्माण कर सकता है, और फिर एक अनुमानक प्राप्त करने के लिए उस सशर्त अपेक्षित मूल्य का मूल्यांकन कर सकता है जो विभिन्न अर्थों में इष्टतम है।
पर्याप्तता को राव-ब्लैकवेल प्रमेय में उपयोगी अनुप्रयोग मिलता है, जिसमें कहा गया है कि यदि ''g''(''X'') ''θ'' का किसी भी प्रकार का अनुमानक है, तो आमतौर पर ''g'' की [[सशर्त अपेक्षा]] '(''X'') को पर्याप्त आँकड़ा दिया गया है ''T''(''X'') ''θ'' का बेहतर (कम विचरण के अर्थ में) अनुमानक है, और कभी भी बदतर नहीं होता है। कभी-कभी कोई बहुत आसानी से बहुत ही अपरिष्कृत अनुमानक ''जी''(''एक्स'') का निर्माण कर सकता है, और फिर अनुमानक प्राप्त करने के लिए उस सशर्त अपेक्षित मूल्य का मूल्यांकन कर सकता है जो विभिन्न अर्थों में इष्टतम है।


==घातांकीय परिवार==
==घातांकीय परिवार==
Line 311: Line 311:
पिटमैन-कूपमैन-डार्मोइस प्रमेय के अनुसार, संभाव्यता वितरण के परिवारों के बीच जिनका डोमेन अनुमानित पैरामीटर के साथ भिन्न नहीं होता है, केवल [[घातीय परिवार]] में पर्याप्त आँकड़ा होता है जिसका आयाम नमूना आकार बढ़ने के साथ सीमित रहता है। सहज रूप से, यह बताता है कि वास्तविक रेखा पर वितरण के गैर-घातीय परिवारों को डेटा में जानकारी को पूरी तरह से पकड़ने के लिए गैर-पैरामीट्रिक आंकड़ों की आवश्यकता होती है।
पिटमैन-कूपमैन-डार्मोइस प्रमेय के अनुसार, संभाव्यता वितरण के परिवारों के बीच जिनका डोमेन अनुमानित पैरामीटर के साथ भिन्न नहीं होता है, केवल [[घातीय परिवार]] में पर्याप्त आँकड़ा होता है जिसका आयाम नमूना आकार बढ़ने के साथ सीमित रहता है। सहज रूप से, यह बताता है कि वास्तविक रेखा पर वितरण के गैर-घातीय परिवारों को डेटा में जानकारी को पूरी तरह से पकड़ने के लिए गैर-पैरामीट्रिक आंकड़ों की आवश्यकता होती है।


कम संक्षेप में, मान लीजिए <math>X_n, n = 1, 2, 3, \dots</math> स्वतंत्र समान रूप से वितरित वास्तविक यादृच्छिक चर हैं जिनका वितरण संभाव्यता वितरण के कुछ परिवार में जाना जाता है, द्वारा पैरामीट्रिज्ड <math>\theta</math>, कुछ तकनीकी नियमितता शर्तों को पूरा करते हुए, वह परिवार एक घातीय परिवार है यदि और केवल यदि कोई है <math>\R^m</math>-मूल्यांकित पर्याप्त आँकड़ा <math>T(X_1, \dots, X_n)</math> जिसके अदिश घटकों की संख्या <math>m</math> नमूना आकार n बढ़ने पर वृद्धि नहीं होती है।<ref>{{Cite journal |last1=Tikochinsky |first1=Y. |last2=Tishby |first2=N. Z. |last3=Levine |first3=R. D. |date=1984-11-01 |title=अधिकतम-एन्ट्रापी अनुमान के लिए वैकल्पिक दृष्टिकोण|url=http://dx.doi.org/10.1103/physreva.30.2638 |journal=Physical Review A |volume=30 |issue=5 |pages=2638–2644 |doi=10.1103/physreva.30.2638 |bibcode=1984PhRvA..30.2638T |issn=0556-2791}}</ref>
कम संक्षेप में, मान लीजिए <math>X_n, n = 1, 2, 3, \dots</math> स्वतंत्र समान रूप से वितरित वास्तविक यादृच्छिक चर हैं जिनका वितरण संभाव्यता वितरण के कुछ परिवार में जाना जाता है, द्वारा पैरामीट्रिज्ड <math>\theta</math>, कुछ तकनीकी नियमितता शर्तों को पूरा करते हुए, वह परिवार घातीय परिवार है यदि और केवल यदि कोई है <math>\R^m</math>-मूल्यांकित पर्याप्त आँकड़ा <math>T(X_1, \dots, X_n)</math> जिसके अदिश घटकों की संख्या <math>m</math> नमूना आकार n बढ़ने पर वृद्धि नहीं होती है।<ref>{{Cite journal |last1=Tikochinsky |first1=Y. |last2=Tishby |first2=N. Z. |last3=Levine |first3=R. D. |date=1984-11-01 |title=अधिकतम-एन्ट्रापी अनुमान के लिए वैकल्पिक दृष्टिकोण|url=http://dx.doi.org/10.1103/physreva.30.2638 |journal=Physical Review A |volume=30 |issue=5 |pages=2638–2644 |doi=10.1103/physreva.30.2638 |bibcode=1984PhRvA..30.2638T |issn=0556-2791}}</ref>
यह प्रमेय दर्शाता है कि एक परिमित-आयामी, वास्तविक-वेक्टर-मूल्यवान पर्याप्त आंकड़ों का अस्तित्व वास्तविक रेखा पर वितरण के परिवार के संभावित रूपों को तेजी से प्रतिबंधित करता है।
यह प्रमेय दर्शाता है कि परिमित-आयामी, वास्तविक-वेक्टर-मूल्यवान पर्याप्त आंकड़ों का अस्तित्व वास्तविक रेखा पर वितरण के परिवार के संभावित रूपों को तेजी से प्रतिबंधित करता है।


जब पैरामीटर या यादृच्छिक चर वास्तविक-मूल्यवान नहीं रह जाते हैं, तो स्थिति अधिक जटिल हो जाती है।<ref>{{Cite journal |last=Andersen |first=Erling Bernhard |date=September 1970 |title=पृथक नमूना स्थानों के लिए पर्याप्तता और घातांकीय परिवार|url=http://dx.doi.org/10.1080/01621459.1970.10481160 |journal=Journal of the American Statistical Association |volume=65 |issue=331 |pages=1248–1255 |doi=10.1080/01621459.1970.10481160 |issn=0162-1459}}</ref>
जब पैरामीटर या यादृच्छिक चर वास्तविक-मूल्यवान नहीं रह जाते हैं, तो स्थिति अधिक जटिल हो जाती है।<ref>{{Cite journal |last=Andersen |first=Erling Bernhard |date=September 1970 |title=पृथक नमूना स्थानों के लिए पर्याप्तता और घातांकीय परिवार|url=http://dx.doi.org/10.1080/01621459.1970.10481160 |journal=Journal of the American Statistical Association |volume=65 |issue=331 |pages=1248–1255 |doi=10.1080/01621459.1970.10481160 |issn=0162-1459}}</ref>
Line 321: Line 321:
===बायेसियन पर्याप्तता===
===बायेसियन पर्याप्तता===


इस शर्त का एक वैकल्पिक सूत्रीकरण कि एक आँकड़ा पर्याप्त हो, बायेसियन संदर्भ में सेट किया गया है, जिसमें पूर्ण डेटा-सेट का उपयोग करके और केवल एक आँकड़ा का उपयोग करके प्राप्त किए गए पश्च वितरण शामिल हैं। इस प्रकार आवश्यकता यह है कि, लगभग प्रत्येक x के लिए,
इस शर्त का वैकल्पिक सूत्रीकरण कि आँकड़ा पर्याप्त हो, बायेसियन संदर्भ में सेट किया गया है, जिसमें पूर्ण डेटा-सेट का उपयोग करके और केवल आँकड़ा का उपयोग करके प्राप्त किए गए पश्च वितरण शामिल हैं। इस प्रकार आवश्यकता यह है कि, लगभग प्रत्येक x के लिए,


:<math>\Pr(\theta\mid X=x) = \Pr(\theta\mid T(X)=t(x)). </math>
:<math>\Pr(\theta\mid X=x) = \Pr(\theta\mid T(X)=t(x)). </math>
Line 342: Line 342:
  |volume=10 |year=1982 |issue=3 |pages=1025–1026
  |volume=10 |year=1982 |issue=3 |pages=1025–1026
  |doi=10.1214/aos/1176345895 |mr=663456 | zbl = 0485.62004
  |doi=10.1214/aos/1176345895 |mr=663456 | zbl = 0485.62004
|doi-access=free }}</ref> बायेसियन संदर्भ में पर्याप्तता के लिए सैद्धांतिक परिणामों की एक श्रृंखला उपलब्ध है।<ref>{{cite journal
|doi-access=free }}</ref> बायेसियन संदर्भ में पर्याप्तता के लिए सैद्धांतिक परिणामों की श्रृंखला उपलब्ध है।<ref>{{cite journal
  |last1=Nogales |first1=A.G.
  |last1=Nogales |first1=A.G.
  |last2=Oyola |first2=J.A.
  |last2=Oyola |first2=J.A.
Line 357: Line 357:
===रैखिक पर्याप्तता===
===रैखिक पर्याप्तता===


रैखिक पर्याप्तता नामक एक अवधारणा बायेसियन संदर्भ में तैयार की जा सकती है,<ref>{{cite journal |first1=M. |last1=Goldstein |first2=A. |last2=O'Hagan |year=1996 |title=बेयस रैखिक पर्याप्तता और विशेषज्ञ पश्चवर्ती मूल्यांकन की प्रणालियाँ|journal=[[Journal of the Royal Statistical Society]] |series=Series B |volume=58 |issue=2 |pages=301–316 |jstor=2345978 }}</ref> और अधिक सामान्यतः.<ref>{{cite journal |last=Godambe |first=V. P. |year=1966 |title=परिमित जनसंख्या से नमूना लेने का एक नया दृष्टिकोण। II वितरण-मुक्त पर्याप्तता|journal=[[Journal of the Royal Statistical Society]] |series=Series B |volume=28 |issue=2 |pages=320–328 |jstor=2984375 }}</ref> पहले X के आधार पर वेक्टर Y के सर्वश्रेष्ठ रैखिक भविष्यवक्ता को परिभाषित करें <math>\hat E[Y\mid X]</math>. तब एक रैखिक आँकड़ा T(x) पर्याप्त रैखिक है<ref>{{cite journal |last=Witting |first=T. |year=1987 |title=विश्वसनीयता सिद्धांत में रैखिक मार्कोव संपत्ति|journal=ASTIN Bulletin |volume=17 |issue=1 |pages=71–84 |doi= 10.2143/ast.17.1.2014984|doi-access=free }}</ref> अगर
रैखिक पर्याप्तता नामक अवधारणा बायेसियन संदर्भ में तैयार की जा सकती है,<ref>{{cite journal |first1=M. |last1=Goldstein |first2=A. |last2=O'Hagan |year=1996 |title=बेयस रैखिक पर्याप्तता और विशेषज्ञ पश्चवर्ती मूल्यांकन की प्रणालियाँ|journal=[[Journal of the Royal Statistical Society]] |series=Series B |volume=58 |issue=2 |pages=301–316 |jstor=2345978 }}</ref> और अधिक सामान्यतः.<ref>{{cite journal |last=Godambe |first=V. P. |year=1966 |title=परिमित जनसंख्या से नमूना लेने का एक नया दृष्टिकोण। II वितरण-मुक्त पर्याप्तता|journal=[[Journal of the Royal Statistical Society]] |series=Series B |volume=28 |issue=2 |pages=320–328 |jstor=2984375 }}</ref> पहले X के आधार पर वेक्टर Y के सर्वश्रेष्ठ रैखिक भविष्यवक्ता को परिभाषित करें <math>\hat E[Y\mid X]</math>. तब रैखिक आँकड़ा T(x) पर्याप्त रैखिक है<ref>{{cite journal |last=Witting |first=T. |year=1987 |title=विश्वसनीयता सिद्धांत में रैखिक मार्कोव संपत्ति|journal=ASTIN Bulletin |volume=17 |issue=1 |pages=71–84 |doi= 10.2143/ast.17.1.2014984|doi-access=free }}</ref> अगर


:<math>\hat E[\theta\mid X]= \hat E[\theta\mid T(X)] . </math>
:<math>\hat E[\theta\mid X]= \hat E[\theta\mid T(X)] . </math>
Line 365: Line 365:
*एक आँकड़े की संपूर्णता (आँकड़े)।
*एक आँकड़े की संपूर्णता (आँकड़े)।
*पूर्ण पर्याप्त और सहायक सांख्यिकी की स्वतंत्रता पर बसु का प्रमेय
*पूर्ण पर्याप्त और सहायक सांख्यिकी की स्वतंत्रता पर बसु का प्रमेय
*लेहमैन-शेफ़े प्रमेय: एक पूर्ण पर्याप्त अनुमानक अपनी अपेक्षा का सबसे अच्छा अनुमानक है
*लेहमैन-शेफ़े प्रमेय: पूर्ण पर्याप्त अनुमानक अपनी अपेक्षा का सबसे अच्छा अनुमानक है
*राव-ब्लैकवेल प्रमेय
*राव-ब्लैकवेल प्रमेय
*चेनत्सोव का प्रमेय
*चेनत्सोव का प्रमेय

Revision as of 14:50, 17 July 2023

आँकड़ों में, आँकड़ा [[सांख्यिकीय मॉडल]] और उससे जुड़े अज्ञात पैरामीटर के संबंध में पर्याप्त होता है यदि कोई अन्य आँकड़ा जिसकी गणना उसी नमूने (आँकड़े) से नहीं की जा सकती है, पैरामीटर के मूल्य के बारे में कोई अतिरिक्त जानकारी प्रदान करता है।[1] विशेष रूप से, आँकड़ा संभाव्यता वितरण के पैरामीट्रिक परिवार के लिए पर्याप्त है यदि जिस नमूने से इसकी गणना की जाती है वह आँकड़े के अलावा कोई अतिरिक्त जानकारी नहीं देता है, कि उन संभाव्यता वितरणों में से कौन सा नमूना वितरण है।

एक संबंधित अवधारणा रैखिक पर्याप्तता की है, जो पर्याप्तता से कमजोर है लेकिन इसे कुछ मामलों में लागू किया जा सकता है जहां पर्याप्त आंकड़े नहीं हैं, हालांकि यह रैखिक अनुमानकों तक ही सीमित है।[2] कोलमोगोरोव संरचना कार्य व्यक्तिगत परिमित डेटा से संबंधित है; संबंधित धारणा एल्गोरिथम पर्याप्त आँकड़ा है।

यह अवधारणा 1920 में रोनाल्ड फिशर की देन है। स्टीफन स्टिगलर ने 1973 में उल्लेख किया था कि वितरणात्मक रूप की धारणा पर मजबूत निर्भरता के कारण वर्णनात्मक आंकड़ों में पर्याप्तता की अवधारणा पक्ष से बाहर हो गई है (देखें #एक्सपोनेंशियल परिवार|पिटमैन-कूपमैन- डार्मोइस प्रमेय नीचे), लेकिन सैद्धांतिक कार्य में बहुत महत्वपूर्ण रहा।[3]


पृष्ठभूमि

मोटे तौर पर, सेट दिया गया अज्ञात पैरामीटर पर वातानुकूलित स्वतंत्र समान रूप से वितरित डेटा का , पर्याप्त आँकड़ा फ़ंक्शन है जिसके मूल्य में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी शामिल है (उदाहरण के लिए अधिकतम संभावना अनुमान)। गुणनखंडन प्रमेय (#फिशर-नेमैन गुणनखंडन प्रमेय) के कारण, पर्याप्त आंकड़ों के लिए , संभाव्यता घनत्व को इस प्रकार लिखा जा सकता है . इस गुणनखंड से, यह आसानी से देखा जा सकता है कि अधिकतम संभावना का अनुमान है के साथ बातचीत करेंगे केवल भीतर से . आमतौर पर, पर्याप्त आँकड़ा डेटा का सरल कार्य है, उदा। सभी डेटा बिंदुओं का योग.

अधिक आम तौर पर, अज्ञात पैरामीटर अज्ञात मात्राओं के यूक्लिडियन वेक्टर का प्रतिनिधित्व कर सकता है या मॉडल के बारे में सब कुछ का प्रतिनिधित्व कर सकता है जो अज्ञात है या पूरी तरह से निर्दिष्ट नहीं है। ऐसे मामले में, पर्याप्त आँकड़ा कार्यों का समूह हो सकता है, जिसे संयुक्त रूप से पर्याप्त आँकड़ा कहा जाता है। आमतौर पर, जितने पैरामीटर होते हैं उतने ही फ़ंक्शन होते हैं। उदाहरण के लिए, अज्ञात माध्य और विचरण वाले गाऊसी वितरण के लिए, संयुक्त रूप से पर्याप्त आँकड़ा, जिससे दोनों मापदंडों की अधिकतम संभावना का अनुमान लगाया जा सकता है, इसमें दो फ़ंक्शन शामिल हैं, सभी डेटा बिंदुओं का योग और सभी वर्ग डेटा बिंदुओं का योग ( या समकक्ष, नमूना माध्य और नमूना विचरण)।

दूसरे शब्दों में, 'डेटा का संयुक्त संभाव्यता वितरण पैरामीटर के लिए पर्याप्त आंकड़ों के मूल्य को देखते हुए पैरामीटर से सशर्त रूप से स्वतंत्र है।' आँकड़े और अंतर्निहित पैरामीटर दोनों वेक्टर हो सकते हैं।

गणितीय परिभाषा

एक आँकड़ा t = T(X) 'अंतर्निहित पैरामीटर θ के लिए पर्याप्त' है, यदि डेटा X का सशर्त संभाव्यता वितरण, आँकड़ा t = T(X) दिया गया है, पैरामीटर θ पर निर्भर नहीं करता है।[4] वैकल्पिक रूप से, कोई यह कह सकता है कि आँकड़ा T(X) θ के लिए पर्याप्त है यदि θ के साथ इसकी पारस्परिक जानकारी X और θ के बीच पारस्परिक जानकारी के बराबर है।[5] दूसरे शब्दों में, डेटा प्रोसेसिंग असमानता समानता बन जाती है:


उदाहरण

उदाहरण के तौर पर, नमूना माध्य ज्ञात विचरण वाले सामान्य वितरण के माध्य (μ) के लिए पर्याप्त है। बार नमूना माध्य ज्ञात हो जाने पर, नमूने से μ के बारे में कोई और जानकारी प्राप्त नहीं की जा सकती। दूसरी ओर, मनमाना वितरण के लिए माध्य माध्य के लिए पर्याप्त नहीं है: भले ही नमूने का माध्य ज्ञात हो, नमूना जानने से ही जनसंख्या माध्य के बारे में अधिक जानकारी मिल जाएगी। उदाहरण के लिए, यदि माध्यिका से कम प्रेक्षण केवल थोड़े कम हैं, लेकिन माध्यिका से अधिक होने वाले प्रेक्षण इससे बड़ी मात्रा में अधिक हैं, तो इसका जनसंख्या माध्य के बारे में किसी के अनुमान पर असर पड़ेगा।

फिशर-नेमैन गुणनखंडन प्रमेय

रोनाल्ड फिशर|फिशर का गुणनखंडन प्रमेय या गुणनखंडन मानदंड पर्याप्त आँकड़े का सुविधाजनक 'लक्षणीकरण' प्रदान करता है। यदि संभाव्यता घनत्व फ़ंक्शन ƒ हैθ(x), तो T, θ के लिए पर्याप्त है यदि और केवल यदि गैर-ऋणात्मक फलन g और h को ऐसे पाया जा सकता है कि

यानी घनत्व ƒ को उत्पाद में इस तरह से विभाजित किया जा सकता है कि कारक, एच, θ पर निर्भर नहीं होता है और दूसरा कारक, जो θ पर निर्भर करता है, केवल T(x) के माध्यम से x पर निर्भर करता है। इसका सामान्य प्रमाण हैल्मोस और सैवेज ने दिया था[6] और प्रमेय को कभी-कभी हेल्मोस-सैवेज गुणनखंडन प्रमेय के रूप में जाना जाता है।[7] नीचे दिए गए प्रमाण विशेष मामलों को संभालते हैं, लेकिन उसी तर्ज पर वैकल्पिक सामान्य प्रमाण भी दिया जा सकता है।[8] यह देखना आसान है कि यदि F(t) एक-से-एक फ़ंक्शन है और T पर्याप्त है आँकड़ा, तो F(T) पर्याप्त आँकड़ा है। विशेष रूप से हम a को गुणा कर सकते हैं एक गैरशून्य स्थिरांक द्वारा पर्याप्त आँकड़ा और अन्य पर्याप्त आँकड़ा प्राप्त करें।

संभावना सिद्धांत व्याख्या

प्रमेय का निहितार्थ यह है कि संभावना-आधारित अनुमान का उपयोग करते समय, पर्याप्त आंकड़े टी (एक्स) के लिए समान मान उत्पन्न करने वाले डेटा के दो सेट हमेशा θ के बारे में समान अनुमान उत्पन्न करेंगे। गुणनखंडन मानदंड के अनुसार, θ पर संभावना की निर्भरता केवल T(X) के संयोजन में है। चूँकि यह दोनों मामलों में समान है, θ पर निर्भरता भी समान होगी, जिससे समान निष्कर्ष निकलेंगे।

प्रमाण

हॉग और क्रेग के कारण.[9] होने देना , ι < θ < δ के लिए संभाव्यता घनत्व फ़ंक्शन f(x, θ) वाले वितरण से यादृच्छिक नमूना निरूपित करें। चलो वाई1= में1(एक्स1, एक्स2, ..., एक्सn) आँकड़ा बनें जिसका पीडीएफ जी है1(और1; θ). हम जो साबित करना चाहते हैं वह यह है कि वाई1= में1(एक्स1, एक्स2, ..., एक्सn) θ के लिए पर्याप्त आँकड़ा है यदि और केवल यदि, किसी फ़ंक्शन H के लिए,

सबसे पहले, मान लीजिए

हम परिवर्तन करेंगे yi= मेंi(एक्स1, एक्स2, ..., एक्सn), i = 1, ..., n के लिए, जिसमें व्युत्क्रम फलन x हैi= डब्ल्यूi(और1, और2, ..., औरn), i = 1, ..., n, और जैकोबियन मैट्रिक्स और निर्धारक के लिए . इस प्रकार,

बाएँ हाथ का सदस्य संयुक्त पीडीएफ g(y) है1, और2, ..., औरn; θ) का Y1 = यू1(एक्स1, ..., एक्सn), ..., औरn = यूn(एक्स1, ..., एक्सn). दाहिने हाथ के सदस्य में, का पीडीएफ है , ताकि का भागफल है और ; अर्थात्, यह सशर्त पीडीएफ है का दिया गया .

लेकिन , और इस तरह , पर निर्भर न रहने के लिए दिया गया था . तब से परिवर्तन में पेश नहीं किया गया था और तदनुसार जैकोबियन में नहीं , यह इस प्रकार है कि पर निर्भर नहीं है ओर वो के लिए पर्याप्त आँकड़े हैं .

इसका विपरीत निम्नलिखित लेकर सिद्ध किया जाता है:

कहाँ पर निर्भर नहीं है क्योंकि पर ही निर्भर हैं , जो पर स्वतंत्र हैं जब द्वारा वातानुकूलित किया जाता है , परिकल्पना द्वारा पर्याप्त आँकड़े। अब दोनों सदस्यों को गैर-लुप्त होने वाले जैकोबियन के पूर्ण मूल्य से विभाजित करें , और प्रतिस्थापित करें कार्यों द्वारा में . यह प्रदान करता है

कहाँ जैकोबियन के साथ है उनके मान के अनुसार प्रतिस्थापित किया गया . बाएँ हाथ का सदस्य आवश्यक रूप से संयुक्त पीडीएफ है का . तब से , और इस तरह , पर निर्भर नहीं है , तब

एक ऐसा फ़ंक्शन है जो निर्भर नहीं करता है .

एक और प्रमाण

एक सरल और अधिक उदाहरणात्मक प्रमाण इस प्रकार है, हालाँकि यह केवल अलग मामले में ही लागू होता है।

हम संयुक्त संभाव्यता घनत्व को दर्शाने के लिए शॉर्टहैंड नोटेशन का उपयोग करते हैं द्वारा . तब से का कार्य है , अपने पास , जब तक कि और अन्यथा शून्य. इसलिए:

पर्याप्त आँकड़ों की परिभाषा के अनुसार अंतिम समानता सत्य है। इस प्रकार साथ और .

इसके विपरीत, यदि , अपने पास

पहली समानता संभाव्यता घनत्व फ़ंक्शन द्वारा # कई चर के साथ जुड़े संभाव्यता फ़ंक्शन द्वारा, दूसरी उपरोक्त टिप्पणी द्वारा, तीसरी परिकल्पना द्वारा, और चौथी क्योंकि सारांश समाप्त नहीं हुआ है .

होने देना की सशर्त संभाव्यता घनत्व को निरूपित करें दिया गया . तब हम इसके लिए स्पष्ट अभिव्यक्ति प्राप्त कर सकते हैं:

पहली समानता सशर्त संभाव्यता घनत्व की परिभाषा से, दूसरी उपरोक्त टिप्पणी से, तीसरी समानता ऊपर सिद्ध द्वारा, और चौथी सरलीकरण द्वारा। यह अभिव्यक्ति निर्भर नहीं करती और इस तरह पर्याप्त आँकड़ा है.[10]


न्यूनतम पर्याप्तता

एक पर्याप्त आँकड़ा न्यूनतम पर्याप्त है यदि इसे किसी अन्य पर्याप्त आँकड़े के कार्य के रूप में दर्शाया जा सकता है। दूसरे शब्दों में, S(X) न्यूनतम पर्याप्त है यदि और केवल यदि[11]

  1. S(X) पर्याप्त है, और
  2. यदि T(X) पर्याप्त है, तो फ़ंक्शन f मौजूद है जैसे कि S(X) = f(T(X))।

सहज रूप से, न्यूनतम पर्याप्त आँकड़ा सबसे कुशलता से पैरामीटर θ के बारे में सभी संभावित जानकारी प्राप्त करता है।

न्यूनतम पर्याप्तता का उपयोगी लक्षण वर्णन यह है कि जब घनत्व fθ अस्तित्व में है, S(X) 'न्यूनतम पर्याप्त' है यदि और केवल यदि

θ से स्वतंत्र है: एस(एक्स) = एस(वाई)

यह ऊपर बताए गए #फिशर-नेमैन गुणनखंडन प्रमेय|फिशर के गुणनखंडन प्रमेय के परिणाम के रूप में अनुसरण करता है।

एक ऐसा मामला जिसमें कोई न्यूनतम पर्याप्त आँकड़ा नहीं है, बहादुर द्वारा 1954 में दिखाया गया था।[12] हालाँकि, हल्की परिस्थितियों में, न्यूनतम पर्याप्त आँकड़ा हमेशा मौजूद रहता है। विशेष रूप से, यूक्लिडियन अंतरिक्ष में, ये स्थितियाँ हमेशा लागू रहती हैं यदि यादृच्छिक चर (के साथ जुड़े)। ) सभी असतत हैं या सभी निरंतर हैं।

यदि कोई न्यूनतम पर्याप्त आँकड़ा मौजूद है, और यह आमतौर पर मामला है, तो प्रत्येक पूर्णता (आँकड़े) पर्याप्त आँकड़ा आवश्यक रूप से न्यूनतम पर्याप्त है[13](ध्यान दें कि यह कथन पैथोलॉजिकल मामले को बाहर नहीं करता है जिसमें पूर्ण पर्याप्त मौजूद है जबकि कोई न्यूनतम पर्याप्त आँकड़ा नहीं है)। हालाँकि ऐसे मामलों को ढूंढना कठिन है जिनमें न्यूनतम पर्याप्त आँकड़ा मौजूद नहीं है, ऐसे मामलों को खोजना इतना कठिन नहीं है जिनमें कोई पूर्ण आँकड़ा मौजूद नहीं है।

संभाव्यता अनुपातों का संग्रह के लिए , यदि पैरामीटर स्थान असतत है तो न्यूनतम पर्याप्त आँकड़ा है .

उदाहरण

बर्नौली वितरण

यदि एक्स1, ...., एक्सn स्वतंत्र बर्नौली परीक्षण हैं|बर्नौली-वितरित यादृच्छिक चर अपेक्षित मूल्य पी के साथ, फिर योग टी(एक्स) = एक्स1+...+एक्सn पी के लिए पर्याप्त आँकड़ा है (यहाँ 'सफलता' एक्स से मेल खाती हैi= 1 और एक्स के लिए 'विफलता'i= 0; अतः T सफलताओं की कुल संख्या है)

इसे संयुक्त संभाव्यता वितरण पर विचार करके देखा जाता है:

क्योंकि अवलोकन स्वतंत्र हैं, इसे इस प्रकार लिखा जा सकता है

और, p और 1 − p की शक्तियाँ एकत्रित करके, देता है

जो गुणनखंडन मानदंड को पूरा करता है, जिसमें h(x)=1 केवल स्थिरांक है।

महत्वपूर्ण विशेषता पर ध्यान दें: अज्ञात पैरामीटर p केवल आँकड़ा T(x) = Σx के माध्यम से डेटा x के साथ इंटरैक्ट करता हैi.

एक ठोस अनुप्रयोग के रूप में, यह निष्पक्ष सिक्के#उचित परिणाम को पक्षपाती सिक्के से अलग करने की प्रक्रिया देता है।

यूनिफ़ॉर्म वितरण

यदि एक्स1, ...., एक्सn अंतराल [0,θ] पर स्वतंत्र और समान वितरण (निरंतर) हैं, तो T(X) = max(X)1, ..., एक्सn) θ के लिए पर्याप्त है - नमूना अधिकतम जनसंख्या अधिकतम के लिए पर्याप्त आँकड़ा है।

इसे देखने के लिए, X·(X) के संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें1,...,एक्सn). क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है

कहां 1{...} सूचक कार्य है. इस प्रकार घनत्व फिशर-नेमैन गुणनखंड प्रमेय द्वारा आवश्यक रूप लेता है, जहां h(x)='1'{min{xi}≥0}, और शेष अभिव्यक्ति केवल θ और T(x)=max{x का फलन हैi}.

वास्तव में, θ के लिए न्यूनतम-विचरण निष्पक्ष अनुमानक (एमवीयूई) है

यह नमूना अधिकतम है, जिसे अनुमानक के पूर्वाग्रह को सही करने के लिए स्केल किया गया है, और लेहमैन-शेफ़े प्रमेय द्वारा एमवीयूई है। अनस्केल्ड नमूना अधिकतम T(X) θ के लिए अधिकतम संभावना अनुमानक है।

समान वितरण (दो मापदंडों के साथ)

अगर अंतराल पर स्वतंत्र और समान वितरण (निरंतर) हैं (कहाँ और अज्ञात पैरामीटर हैं), फिर के लिए द्वि-आयामी पर्याप्त आँकड़ा है .

इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें . क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।

नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है

तब से पैरामीटर पर निर्भर नहीं है और पर ही निर्भर करता है समारोह के माध्यम से फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है के लिए पर्याप्त आँकड़ा है .

पॉइसन वितरण

यदि एक्स1, ...., एक्सn स्वतंत्र हैं और पैरामीटर λ के साथ पॉइसन वितरण है, तो योग T(X) = X1+...+एक्सn λ के लिए पर्याप्त आँकड़ा है।

इसे देखने के लिए, संयुक्त संभाव्यता वितरण पर विचार करें:

क्योंकि अवलोकन स्वतंत्र हैं, इसे इस प्रकार लिखा जा सकता है

जिसे इस प्रकार लिखा जा सकता है

जो दर्शाता है कि गुणनखंडन मानदंड संतुष्ट है, जहां h(x) भाज्य के उत्पाद का व्युत्क्रम है। ध्यान दें कि पैरामीटर λ केवल इसके योग T(X) के माध्यम से डेटा के साथ इंटरैक्ट करता है।

सामान्य वितरण

अगर अपेक्षित मूल्य के साथ स्वतंत्र और सामान्य वितरण हैं (एक पैरामीटर) और ज्ञात परिमित विचरण तब

के लिए पर्याप्त आँकड़ा है इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें . क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।

नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है

तब से पैरामीटर पर निर्भर नहीं है और पर ही निर्भर करता है समारोह के माध्यम से

फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है के लिए पर्याप्त आँकड़ा है .

अगर अज्ञात है और तब से , उपरोक्त संभावना को इस प्रकार पुनः लिखा जा सकता है

फिशर-नेमैन गुणनखंडन प्रमेय अभी भी कायम है और इसका तात्पर्य है के लिए संयुक्त पर्याप्त आँकड़ा है .

घातांकीय वितरण

अगर अपेक्षित मूल्य θ (एक अज्ञात वास्तविक-मूल्यवान सकारात्मक पैरामीटर) के साथ स्वतंत्र और घातीय वितरण हैं θ के लिए पर्याप्त आँकड़ा है।

इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें . क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।

नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है

तब से पैरामीटर पर निर्भर नहीं है और पर ही निर्भर करता है समारोह के माध्यम से फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है के लिए पर्याप्त आँकड़ा है .

गामा वितरण

अगर स्वतंत्र हैं और गामा वितरण के रूप में वितरित हैं|, कहाँ और तो, गामा वितरण के अज्ञात पैरामीटर हैं के लिए द्वि-आयामी पर्याप्त आँकड़ा है .

इसे देखने के लिए, संयुक्त संभाव्यता घनत्व फ़ंक्शन पर विचार करें . क्योंकि अवलोकन स्वतंत्र हैं, पीडीएफ को व्यक्तिगत घनत्व के उत्पाद के रूप में लिखा जा सकता है, यानी।

नमूने का संयुक्त घनत्व फिशर-नेमैन फैक्टराइजेशन प्रमेय द्वारा आवश्यक रूप लेता है

तब से पैरामीटर पर निर्भर नहीं है और पर ही निर्भर करता है समारोह के माध्यम से फिशर-नेमैन गुणनखंडन प्रमेय का तात्पर्य है के लिए पर्याप्त आँकड़ा है


राव-ब्लैकवेल प्रमेय

पर्याप्तता को राव-ब्लैकवेल प्रमेय में उपयोगी अनुप्रयोग मिलता है, जिसमें कहा गया है कि यदि g(X) θ का किसी भी प्रकार का अनुमानक है, तो आमतौर पर g की सशर्त अपेक्षा '(X) को पर्याप्त आँकड़ा दिया गया है T(X) θ का बेहतर (कम विचरण के अर्थ में) अनुमानक है, और कभी भी बदतर नहीं होता है। कभी-कभी कोई बहुत आसानी से बहुत ही अपरिष्कृत अनुमानक जी(एक्स) का निर्माण कर सकता है, और फिर अनुमानक प्राप्त करने के लिए उस सशर्त अपेक्षित मूल्य का मूल्यांकन कर सकता है जो विभिन्न अर्थों में इष्टतम है।

घातांकीय परिवार

पिटमैन-कूपमैन-डार्मोइस प्रमेय के अनुसार, संभाव्यता वितरण के परिवारों के बीच जिनका डोमेन अनुमानित पैरामीटर के साथ भिन्न नहीं होता है, केवल घातीय परिवार में पर्याप्त आँकड़ा होता है जिसका आयाम नमूना आकार बढ़ने के साथ सीमित रहता है। सहज रूप से, यह बताता है कि वास्तविक रेखा पर वितरण के गैर-घातीय परिवारों को डेटा में जानकारी को पूरी तरह से पकड़ने के लिए गैर-पैरामीट्रिक आंकड़ों की आवश्यकता होती है।

कम संक्षेप में, मान लीजिए स्वतंत्र समान रूप से वितरित वास्तविक यादृच्छिक चर हैं जिनका वितरण संभाव्यता वितरण के कुछ परिवार में जाना जाता है, द्वारा पैरामीट्रिज्ड , कुछ तकनीकी नियमितता शर्तों को पूरा करते हुए, वह परिवार घातीय परिवार है यदि और केवल यदि कोई है -मूल्यांकित पर्याप्त आँकड़ा जिसके अदिश घटकों की संख्या नमूना आकार n बढ़ने पर वृद्धि नहीं होती है।[14] यह प्रमेय दर्शाता है कि परिमित-आयामी, वास्तविक-वेक्टर-मूल्यवान पर्याप्त आंकड़ों का अस्तित्व वास्तविक रेखा पर वितरण के परिवार के संभावित रूपों को तेजी से प्रतिबंधित करता है।

जब पैरामीटर या यादृच्छिक चर वास्तविक-मूल्यवान नहीं रह जाते हैं, तो स्थिति अधिक जटिल हो जाती है।[15]


अन्य प्रकार की पर्याप्तता

बायेसियन पर्याप्तता

इस शर्त का वैकल्पिक सूत्रीकरण कि आँकड़ा पर्याप्त हो, बायेसियन संदर्भ में सेट किया गया है, जिसमें पूर्ण डेटा-सेट का उपयोग करके और केवल आँकड़ा का उपयोग करके प्राप्त किए गए पश्च वितरण शामिल हैं। इस प्रकार आवश्यकता यह है कि, लगभग प्रत्येक x के लिए,

अधिक सामान्यतः, पैरामीट्रिक मॉडल को माने बिना, हम कह सकते हैं कि आँकड़े टी पर्याप्त रूप से पूर्वानुमानित है

यह पता चला है कि यह बायेसियन पर्याप्तता उपरोक्त सूत्रीकरण का परिणाम है,[16] हालाँकि वे अनंत-आयामी मामले में सीधे समकक्ष नहीं हैं।[17] बायेसियन संदर्भ में पर्याप्तता के लिए सैद्धांतिक परिणामों की श्रृंखला उपलब्ध है।[18]


रैखिक पर्याप्तता

रैखिक पर्याप्तता नामक अवधारणा बायेसियन संदर्भ में तैयार की जा सकती है,[19] और अधिक सामान्यतः.[20] पहले X के आधार पर वेक्टर Y के सर्वश्रेष्ठ रैखिक भविष्यवक्ता को परिभाषित करें . तब रैखिक आँकड़ा T(x) पर्याप्त रैखिक है[21] अगर


यह भी देखें

  • एक आँकड़े की संपूर्णता (आँकड़े)।
  • पूर्ण पर्याप्त और सहायक सांख्यिकी की स्वतंत्रता पर बसु का प्रमेय
  • लेहमैन-शेफ़े प्रमेय: पूर्ण पर्याप्त अनुमानक अपनी अपेक्षा का सबसे अच्छा अनुमानक है
  • राव-ब्लैकवेल प्रमेय
  • चेनत्सोव का प्रमेय
  • पर्याप्त आयाम में कमी
  • सहायक आँकड़ा

टिप्पणियाँ

  1. Fisher, R.A. (1922). "On the mathematical foundations of theoretical statistics". Philosophical Transactions of the Royal Society A. 222 (594–604): 309–368. Bibcode:1922RSPTA.222..309F. doi:10.1098/rsta.1922.0009. JFM 48.1280.02. JSTOR 91208.
  2. Dodge, Y. (2003) — entry for linear sufficiency
  3. Stigler, Stephen (December 1973). "Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency". Biometrika. 60 (3): 439–445. doi:10.1093/biomet/60.3.439. JSTOR 2334992. MR 0326872.
  4. Casella, George; Berger, Roger L. (2002). Statistical Inference, 2nd ed. Duxbury Press.
  5. Cover, Thomas M. (2006). सूचना सिद्धांत के तत्व. Joy A. Thomas (2nd ed.). Hoboken, N.J.: Wiley-Interscience. p. 36. ISBN 0-471-24195-4. OCLC 59879802.
  6. Halmos, P. R.; Savage, L. J. (1949). "पर्याप्त सांख्यिकी के सिद्धांत के लिए रेडॉन-निकोडिम प्रमेय का अनुप्रयोग". The Annals of Mathematical Statistics (in English). 20 (2): 225–241. doi:10.1214/aoms/1177730032. ISSN 0003-4851.
  7. "गुणनखंडन प्रमेय - गणित का विश्वकोश". encyclopediaofmath.org. Retrieved 2022-09-07.
  8. Taraldsen, G. (2022). "पर्याप्तता के लिए गुणनखंडन प्रमेय". Preprint (in English). doi:10.13140/RG.2.2.15068.87687.
  9. Hogg, Robert V.; Craig, Allen T. (1995). गणितीय सांख्यिकी का परिचय. Prentice Hall. ISBN 978-0-02-355722-4.
  10. "The Fisher–Neyman Factorization Theorem".. Webpage at Connexions (cnx.org)
  11. Dodge (2003) — entry for minimal sufficient statistics
  12. Lehmann and Casella (1998), Theory of Point Estimation, 2nd Edition, Springer, p 37
  13. Lehmann and Casella (1998), Theory of Point Estimation, 2nd Edition, Springer, page 42
  14. Tikochinsky, Y.; Tishby, N. Z.; Levine, R. D. (1984-11-01). "अधिकतम-एन्ट्रापी अनुमान के लिए वैकल्पिक दृष्टिकोण". Physical Review A. 30 (5): 2638–2644. Bibcode:1984PhRvA..30.2638T. doi:10.1103/physreva.30.2638. ISSN 0556-2791.
  15. Andersen, Erling Bernhard (September 1970). "पृथक नमूना स्थानों के लिए पर्याप्तता और घातांकीय परिवार". Journal of the American Statistical Association. 65 (331): 1248–1255. doi:10.1080/01621459.1970.10481160. ISSN 0162-1459.
  16. Bernardo, J.M.; Smith, A.F.M. (1994). "Section 5.1.4". Bayesian Theory. Wiley. ISBN 0-471-92416-4.
  17. Blackwell, D.; Ramamoorthi, R. V. (1982). "A Bayes but not classically sufficient statistic". Annals of Statistics. 10 (3): 1025–1026. doi:10.1214/aos/1176345895. MR 0663456. Zbl 0485.62004.
  18. Nogales, A.G.; Oyola, J.A.; Perez, P. (2000). "On conditional independence and the relationship between sufficiency and invariance under the Bayesian point of view". Statistics & Probability Letters. 46 (1): 75–84. doi:10.1016/S0167-7152(99)00089-9. MR 1731351. Zbl 0964.62003.
  19. Goldstein, M.; O'Hagan, A. (1996). "बेयस रैखिक पर्याप्तता और विशेषज्ञ पश्चवर्ती मूल्यांकन की प्रणालियाँ". Journal of the Royal Statistical Society. Series B. 58 (2): 301–316. JSTOR 2345978.
  20. Godambe, V. P. (1966). "परिमित जनसंख्या से नमूना लेने का एक नया दृष्टिकोण। II वितरण-मुक्त पर्याप्तता". Journal of the Royal Statistical Society. Series B. 28 (2): 320–328. JSTOR 2984375.
  21. Witting, T. (1987). "विश्वसनीयता सिद्धांत में रैखिक मार्कोव संपत्ति". ASTIN Bulletin. 17 (1): 71–84. doi:10.2143/ast.17.1.2014984.


संदर्भ