दक्षता (सांख्यिकी)

आंकड़ों में, दक्षता एक अनुमानक की गुणवत्ता का एक माप है, एक प्रायोगिक डिजाइन का, या परिकल्पना परीक्षण प्रक्रिया। अनिवार्य रूप से, एक अधिक कुशल अनुमानक को क्रैमर-राव बाउंड को प्राप्त करने के लिए कम कुशल अनुमानक की तुलना में कम इनपुट डेटा या अवलोकन की आवश्यकता होती है। एक कुशल अनुमानक को सबसे छोटा संभावित विचरण होने की विशेषता है, यह दर्शाता है कि अनुमानित मूल्य और L2 मानक अर्थों में सही मूल्य के बीच एक छोटा विचलन (सांख्यिकी) है।

दो प्रक्रियाओं की सापेक्ष दक्षता उनकी दक्षताओं का अनुपात है, हालांकि अक्सर इस अवधारणा का उपयोग किया जाता है जहां किसी दी गई प्रक्रिया और अनुमानित सर्वोत्तम संभव प्रक्रिया के बीच तुलना की जाती है। दो प्रक्रियाओं की दक्षता और सापेक्ष दक्षता सैद्धांतिक रूप से दी गई प्रक्रिया के लिए उपलब्ध नमूना आकार पर निर्भर करती है, लेकिन अक्सर एसिम्प्टोटिक सापेक्ष दक्षता का उपयोग करना संभव होता है (नमूना आकार बढ़ने पर सापेक्ष क्षमता की सीमा के रूप में परिभाषित) प्रिंसिपल के रूप में तुलना उपाय।

अनुमानक
एक सांख्यिकीय पैरामीटर θ के अनुमानक आकलनकर्ता, टी के पूर्वाग्रह की दक्षता को परिभाषित किया गया है

e(T) = \frac{1/\mathcal{I}(\theta)}{\operatorname{var}(T)} $$ कहाँ $$\mathcal{I}(\theta)$$ नमूने की फिशर जानकारी है। इस प्रकार ई (टी) एक निष्पक्ष अनुमानक के लिए न्यूनतम संभव भिन्नता है जो इसके वास्तविक भिन्नता से विभाजित है। क्रैमर-राव बाउंड का उपयोग यह साबित करने के लिए किया जा सकता है कि ई (टी) ≤ 1।

कुशल अनुमानक
एक कुशल अनुमानक एक अनुमानक है जो कुछ "सर्वोत्तम संभव" तरीके से ब्याज की मात्रा का अनुमान लगाता है। "सर्वश्रेष्ठ संभव" की धारणा एक विशेष हानि समारोह की पसंद पर निर्भर करती है - वह कार्य जो विभिन्न परिमाणों की अनुमान त्रुटियों की अवांछनीयता की सापेक्ष डिग्री को मापता है। हानि फ़ंक्शन का सबसे आम विकल्प द्विघात हानि फ़ंक्शन है, जिसके परिणामस्वरूप इष्टतमता का औसत चुकता त्रुटि मानदंड होता है।

सामान्य तौर पर, पैरामीटर θ के आसपास एक अनुमानक का प्रसार अनुमानक दक्षता और प्रदर्शन का एक उपाय है। इस प्रदर्शन की गणना माध्य चुकता त्रुटि का पता लगाकर की जा सकती है। अधिक औपचारिक रूप से, T को पैरामीटर θ के लिए एक अनुमानक होने दें। T का माध्य चुकता त्रुटि मान है $$\operatorname{MSE}(T)=E[(T-\theta)^2]$$, जिसे इसके विचरण और पूर्वाग्रह के योग के रूप में विघटित किया जा सकता है:



\begin{align} \operatorname{MSE}(T) & = \operatorname E[(T-\theta)^2]=\operatorname E[(T-\operatorname E[T]+\operatorname E[T]-\theta)^2] \\[5pt] & =\operatorname E[(T-\operatorname E[T])^2]+2E[T-E[T]](\operatorname E[T]-\theta)+(\operatorname E[T]-\theta)^2 \\[5pt] & =\operatorname{var}(T)+(\operatorname E[T]-\theta)^2 \end{align} $$ अनुमानक टी1 अनुमानक टी से बेहतर प्रदर्शन करता है2 अगर $$ \operatorname{MSE}(T_1) < \operatorname{MSE}(T_2)$$. अधिक विशिष्ट मामले के लिए, यदि टी1 और टी2 एक ही पैरामीटर θ के लिए दो निष्पक्ष अनुमानक हैं, तो प्रदर्शन निर्धारित करने के लिए भिन्नता की तुलना की जा सकती है। इस मामले में टी2 T से अधिक कुशल है1 यदि T का विचरण2 T के विचरण से छोटा है1, अर्थात। $$\operatorname{var}(T_1)>\operatorname{var}(T_2)$$ θ के सभी मूल्यों के लिए। माध्य चुकता त्रुटि के लिए ऊपर दिए गए अधिक सामान्य मामले को सरल करके इस संबंध को निर्धारित किया जा सकता है; चूंकि निष्पक्ष अनुमानक का अपेक्षित मान पैरामीटर मान के बराबर है, $$\operatorname E[T]=\theta$$. इसलिए, एक निष्पक्ष अनुमानक के लिए, $$\operatorname{MSE}(T)=\operatorname{var}(T)$$, के रूप में $$(\operatorname E[T]-\theta)^2$$ टर्म 0 के बराबर होने के लिए बाहर हो जाता है।

यदि एक पैरामीटर θ का एक अनुमानक पूर्वाग्रह अनुमानक प्राप्त करता है $$e(T) = 1$$ पैरामीटर के सभी मूल्यों के लिए, अनुमानक को कुशल कहा जाता है।

समान रूप से, अनुमानक सभी θ के लिए क्रैमर-राव असमानता में समानता प्राप्त करता है। क्रैमर-राव बाउंड | क्रैमर-राव लोअर बाउंड एक निष्पक्ष अनुमानक के प्रसरण का निचला बाउंड है, जो एक निष्पक्ष अनुमानक का सबसे अच्छा प्रतिनिधित्व कर सकता है।

एक कुशल अनुमानक भी न्यूनतम भिन्नता निष्पक्ष अनुमानक (एमवीयूई) है। ऐसा इसलिए है क्योंकि एक कुशल अनुमानक सभी पैरामीटर मानों के लिए क्रैमर-राव असमानता पर समानता बनाए रखता है, जिसका अर्थ है कि यह सभी मापदंडों (एमवीयूई की परिभाषा) के लिए न्यूनतम भिन्नता प्राप्त करता है। एमवीयूई अनुमानक, भले ही यह मौजूद है, आवश्यक रूप से कुशल नहीं है, क्योंकि न्यूनतम का मतलब क्रैमर-राव असमानता पर समानता नहीं है।

इस प्रकार एक कुशल अनुमानक के मौजूद होने की आवश्यकता नहीं है, लेकिन यदि ऐसा होता है, तो यह एमवीयूई है।

परिमित-नमूना दक्षता
कल्पना करना { Pθ एक पैरामीट्रिक मॉडल है और X = (X1, …, Xn) इस मॉडल से लिए गए डेटा हैं। होने देना T = T(X) पैरामीटर θ के लिए एक अनुमानक बनें। यदि यह अनुमानक एक अनुमानक का पूर्वाग्रह है (अर्थात, E[&thinsp;T&thinsp;] = θ), तो क्रैमर-राव असमानता बताती है कि इस अनुमानक का प्रसरण नीचे से घिरा हुआ है:

\operatorname{var}[\,T\,]\ \geq\ \mathcal{I}_\theta^{-1}, $$ कहाँ $$\scriptstyle\mathcal{I}_\theta$$ बिंदु θ पर मॉडल का फिशर सूचना मैट्रिक्स है। आम तौर पर, विचरण अपने मतलब के आसपास एक यादृच्छिक चर के फैलाव की डिग्री को मापता है। इस प्रकार छोटे प्रसरण वाले अनुमानक अधिक केंद्रित होते हैं, वे मापदंडों का अधिक सटीक अनुमान लगाते हैं। हम कहते हैं कि अनुमानक एक 'परिमित-नमूना कुशल अनुमानक' है (निष्पक्ष अनुमानकों के वर्ग में) यदि यह उपरोक्त क्रैमर-राव असमानता में निचली सीमा तक पहुँचता है, सभी के लिए θ ∈ Θ. कुशल अनुमानक हमेशा न्यूनतम-विचरण निष्पक्ष अनुमानक होते हैं। हालाँकि इसका विलोम असत्य है: वहाँ बिंदु-अनुमान समस्याएँ मौजूद हैं जिनके लिए न्यूनतम-विचरण माध्य-निष्पक्ष अनुमानक अक्षम है। ऐतिहासिक रूप से, परिमित-नमूना दक्षता प्रारंभिक इष्टतमता मानदंड था। हालाँकि इस मानदंड की कुछ सीमाएँ हैं:
 * परिमित-नमूना कुशल अनुमानक अत्यंत दुर्लभ हैं। वास्तव में, यह साबित हो गया था कि कुशल अनुमान केवल एक घातीय परिवार में ही संभव है, और केवल उस परिवार के प्राकृतिक मापदंडों के लिए।
 * दक्षता की यह धारणा कभी-कभी अनुमानक आकलनकर्ताओं के पूर्वाग्रह के वर्ग तक ही सीमित होती है। (अक्सर ऐसा नहीं होता है। ) चूंकि अनुमान लगाने वालों के निष्पक्ष होने की आवश्यकता के लिए कोई अच्छा सैद्धांतिक कारण नहीं है, यह प्रतिबंध असुविधाजनक है। वास्तव में, यदि हम एक चयन मानदंड के रूप में माध्य चुकता त्रुटि का उपयोग करते हैं, तो कई पक्षपाती अनुमानक "सर्वश्रेष्ठ" निष्पक्ष लोगों से थोड़ा बेहतर प्रदर्शन करेंगे। उदाहरण के लिए, आयाम तीन या अधिक के लिए बहुभिन्नरूपी आँकड़ों में, माध्य-निष्पक्ष अनुमानक, नमूना माध्य, स्वीकार्य प्रक्रिया है: परिणाम के बावजूद, इसका प्रदर्शन उदाहरण के लिए जेम्स-स्टीन अनुमानक से भी बदतर है।
 * परिमित-नमूना दक्षता भिन्नता पर आधारित है, एक मानदंड के रूप में जिसके अनुसार अनुमानकों को आंका जाता है। द्विघात कार्यों के अलावा हानि कार्यों का उपयोग करने के लिए एक अधिक सामान्य दृष्टिकोण है, जिस स्थिति में परिमित-नमूना दक्षता अब तैयार नहीं की जा सकती है।

एक उदाहरण के रूप में, व्यवहार में आने वाले मॉडलों में, कुशल अनुमानक मौजूद हैं: सामान्य वितरण का औसत μ (लेकिन भिन्नता σ नहीं)2), प्वासों बंटन का पैरामीटर λ, द्विपद बंटन या बहुपद बंटन में प्रायिकता p।

अज्ञात माध्य लेकिन ज्ञात विचरण के साथ सामान्य वितरण के मॉडल पर विचार करें: θ ∈ R }. डेटा में इस मॉडल से n स्वतंत्र और समान रूप से वितरित अवलोकन शामिल हैं: X = (x1, …, xn). हम सभी अवलोकनों के नमूना माध्य का उपयोग करके पैरामीटर θ का अनुमान लगाते हैं:

T(X) = \frac1n \sum_{i=1}^n x_i\. $$ इस अनुमानक का मतलब θ और का विचरण है σ2&thinsp;/&thinsp;n, जो नमूने से फिशर की जानकारी के व्युत्क्रम के बराबर है। इस प्रकार, नमूना माध्य सामान्य वितरण के माध्य के लिए परिमित-नमूना कुशल अनुमानक है।

स्पर्शोन्मुख दक्षता
स्पर्शोन्मुख दक्षता के लिए संगति (सांख्यिकी) की आवश्यकता होती है, स्पर्शोन्मुख सामान्य रूप से अनुमानक का वितरण, और स्पर्शोन्मुख विचरण-सहप्रसरण मैट्रिक्स किसी भी अन्य अनुमानक से भी बदतर नहीं है।

उदाहरण: माध्यिका
आकार के एक नमूने पर विचार करें $$N$$ माध्य के सामान्य वितरण से निकाला गया $$\mu$$ और इकाई विचरण, यानी, $$X_n \sim \mathcal{N}(\mu, 1).$$ नमूना मतलब, $$\overline{X}$$, नमूने का $$X_1, X_2, \ldots, X_N$$, के रूप में परिभाषित



\overline{X} = \frac{1}{N} \sum_{n=1}^{N} X_n \sim \mathcal{N}\left(\mu, \frac{1}{N}\right). $$ माध्य का प्रसरण, 1/N (मानक त्रुटि का वर्ग) नमूना से फिशर जानकारी के व्युत्क्रम के बराबर है और इस प्रकार, क्रैमर-राव असमानता द्वारा, नमूना माध्य इस अर्थ में कुशल है कि इसकी दक्षता एकता (100%) है।

अब नमूना माध्यिका पर विचार करें, $$\widetilde{X}$$. यह एक अनुमानक पूर्वाग्रह और संगत अनुमानक आकलनकर्ता है $$\mu$$. बड़े के लिए $$N$$ नमूना माध्य माध्य के साथ लगभग सामान्य वितरण है $$\mu$$ और विचरण $${\pi}/{2N},$$
 * $$\widetilde{X} \sim \mathcal{N} \left(\mu, \frac \pi {2N}\right).$$

बड़े के लिए माध्यिका की दक्षता $$N$$ इस प्रकार है


 * $$ e\left(\widetilde{X}\right) = \left(\frac 1 N\right) \left(\frac \pi {2N} \right)^{-1} = 2/\pi \approx 0.64.

$$ दूसरे शब्दों में, माध्यिका का आपेक्षिक प्रसरण होगा $$\pi/2 \approx 1.57$$, या माध्य के विचरण से 57% अधिक - माध्यिका की मानक त्रुटि माध्य से 25% अधिक होगी। ध्यान दें कि यह स्पर्शोन्मुख दक्षता है - अर्थात, नमूना आकार के रूप में सीमा में दक्षता $$N$$ अनंत की ओर जाता है। के परिमित मूल्यों के लिए $$N,$$ दक्षता इससे अधिक है (उदाहरण के लिए, 3 का एक नमूना आकार लगभग 74% की दक्षता देता है)।

इस प्रकार नमूना माध्य इस उदाहरण में नमूना माध्यिका से अधिक कुशल है। हालाँकि, ऐसे उपाय हो सकते हैं जिनके द्वारा माध्यिका बेहतर प्रदर्शन करती है। उदाहरण के लिए, माध्यिका ग़ैर के लिए कहीं अधिक मजबूत है, इसलिए यदि गॉसियन मॉडल संदिग्ध या अनुमानित है, तो माध्यिका का उपयोग करने के फायदे हो सकते हैं (मजबूत आंकड़े देखें)।

प्रमुख अनुमानक
अगर $$T_1$$ और $$T_2$$ पैरामीटर के लिए अनुमानक हैं $$\theta$$, तब $$T_1$$ हावी निर्णय नियम कहा जाता है $$T_2$$ अगर:
 * 1) इसकी माध्य चुकता त्रुटि (MSE) के कम से कम कुछ मान के लिए छोटी है $$\theta$$
 * 2) MSE इससे अधिक नहीं है $$T_2$$ θ के किसी भी मूल्य के लिए।

औपचारिक रूप से, $$T_1$$ हावी $$T_2$$ अगर

\operatorname{E} [ (T_1 - \theta)^2 ] \leq \operatorname{E} [ (T_2-\theta)^2 ] $$ सभी के लिए रखता है $$\theta$$, कहीं सख्त असमानता के साथ।

सापेक्ष दक्षता
दो निष्पक्ष अनुमानकों की सापेक्ष दक्षता को इस रूप में परिभाषित किया गया है

e(T_1,T_2) = \frac {\operatorname{E} [ (T_2-\theta)^2 ]} {\operatorname{E} [ (T_1-\theta)^2 ]} = \frac{\operatorname{var}(T_2)}{\operatorname{var}(T_1)} $$ यद्यपि $$e$$ का एक कार्य है $$\theta$$, कई मामलों में निर्भरता समाप्त हो जाती है; अगर ऐसा है, $$e$$ एक से बड़ा होने का मतलब यह होगा $$T_1$$ के सही मूल्य की परवाह किए बिना बेहतर है $$\theta$$.

आकलनकर्ताओं की तुलना करने के लिए सापेक्ष दक्षता का एक विकल्प, पिटमैन निकटता कसौटी है। यह माध्य-वर्ग-त्रुटियों की तुलना को इस तुलना के साथ प्रतिस्थापित करता है कि एक अनुमानक किसी अन्य अनुमानक की तुलना में कितनी बार वास्तविक मान के करीब अनुमान उत्पन्न करता है।

अगर $$T_1$$ और $$T_2$$ पैरामीटर के लिए अनुमानक हैं $$\theta$$, तब $$T_1$$ हावी निर्णय नियम कहा जाता है $$T_2$$ अगर:
 * 1) इसकी माध्य चुकता त्रुटि (MSE) के कम से कम कुछ मान के लिए छोटी है $$\theta$$
 * 2) MSE इससे अधिक नहीं है $$T_2$$ θ के किसी भी मूल्य के लिए।

औपचारिक रूप से, $$T_1$$ हावी $$T_2$$ अगर

\mathrm{E} \left[ (T_1 - \theta)^2 \right] \leq \mathrm{E} \left[ (T_2-\theta)^2 \right] $$ सभी के लिए रखता है $$\theta$$, कहीं सख्त असमानता के साथ।

यूआईडी के माध्य के आकलनकर्ता चर
असंबद्ध, समान रूप से वितरित चर के माध्य का अनुमान लगाने में हम इस तथ्य का लाभ उठा सकते हैं कि भिन्नता#असंबद्ध चर का योग (बिनेमे सूत्र)। इस मामले में दक्षता को भिन्नता के गुणांक के वर्ग के रूप में परिभाषित किया जा सकता है, अर्थात,
 * $$ e \equiv \left(\frac{\sigma }{\mu} \right)^2$$

इस तरह के दो अनुमानकों की सापेक्ष दक्षता को दूसरे की निश्चितता प्राप्त करने के लिए आवश्यक एक के सापेक्ष नमूना आकार के रूप में व्याख्या की जा सकती है। सबूत:


 * $$ \frac{e_1}{e_2} = \frac{s_1^2}{s_2^2}.$$

अब क्योंकि $$s_1^2 = n_1 \sigma^2, \, s_2^2 = n_2 \sigma^2$$ अपने पास $$ \frac{e_1}{e_2} = \frac{n_1}{n_2}$$, इसलिए सापेक्ष दक्षता दूसरे के विचरण से मेल खाने के लिए आवश्यक पहले अनुमानक के सापेक्ष नमूना आकार को व्यक्त करती है।

मजबूती
यदि वितरण बदलता है, अक्सर गिर रहा है, तो अनुमानक की दक्षता महत्वपूर्ण रूप से बदल सकती है। यह मजबूत आँकड़ों की प्रेरणाओं में से एक है - एक अनुमानक जैसे नमूना माध्य एक सामान्य वितरण के जनसंख्या माध्य का एक कुशल अनुमानक है, लेकिन समान के साथ दो सामान्य वितरणों के मिश्रण वितरण का एक अक्षम अनुमानक हो सकता है। माध्य और भिन्न भिन्न। उदाहरण के लिए, यदि कोई वितरण 98% N(μ, σ) और 2% N(μ, 10σ) का संयोजन है, तो बाद वाले वितरण से अत्यधिक मूल्यों की उपस्थिति (अक्सर दूषित आउटलेयर) नमूना माध्य की दक्षता को काफी कम कर देता है μ के अनुमानक के रूप में। इसके विपरीत, सामान्य वितरण के लिए छोटा माध्य कम कुशल है, लेकिन वितरण में परिवर्तन से अधिक मजबूत (यानी, कम प्रभावित) है, और इस प्रकार मिश्रण वितरण के लिए अधिक कुशल हो सकता है। इसी तरह, संभाव्यता वितरण का आकार, जैसे तिरछापन या भारी-पुच्छ वितरण, उन अनुमानकों की दक्षता को काफी कम कर सकता है जो एक सममित वितरण या पतली पूंछ मानते हैं।

अक्षम अनुमानकों का उपयोग
जबकि दक्षता एक अनुमानक का वांछनीय गुण है, इसे अन्य विचारों के विरुद्ध तौला जाना चाहिए, और एक अनुमानक जो कुछ वितरणों के लिए कुशल है, अन्य वितरणों के लिए अक्षम हो सकता है। सबसे महत्वपूर्ण रूप से, अनुमानक जो एक साधारण वितरण से साफ डेटा के लिए कुशल हैं, जैसे कि सामान्य वितरण (जो सममित, असमान और पतली पूंछ है) आउटलेयर द्वारा संदूषण के लिए मजबूत नहीं हो सकते हैं, और अधिक जटिल वितरण के लिए अक्षम हो सकते हैं। मजबूत आँकड़ों में, एकल वितरण पर दक्षता के बजाय वितरण की एक विस्तृत विविधता के लिए मजबूती और प्रयोज्यता पर अधिक महत्व दिया जाता है। एम-अनुमानक इन चिंताओं से प्रेरित समाधानों का एक सामान्य वर्ग है, जो मजबूती और उच्च सापेक्ष दक्षता दोनों प्रदान करता है, हालांकि कुछ मामलों के लिए पारंपरिक अनुमानकों की तुलना में संभवतः कम दक्षता है। हालाँकि, ये संभावित रूप से बहुत कम्प्यूटेशनल रूप से जटिल हैं।

एक अधिक पारंपरिक विकल्प एल-अनुमानक हैं, जो बहुत ही सरल आँकड़े हैं जो गणना और व्याख्या करने में आसान होते हैं, कई मामलों में मजबूत होते हैं, और प्रारंभिक अनुमानों के लिए अक्सर पर्याप्त रूप से कुशल होते हैं। आगे की चर्चा के लिए एल-अनुमानक#अनुप्रयोग|एल-अनुमानक के अनुप्रयोग देखें।

आँकड़ों में दक्षता
आँकड़ों में दक्षता महत्वपूर्ण है क्योंकि वे विभिन्न अनुमानकों के प्रदर्शन की तुलना करने की अनुमति देते हैं। हालांकि एक निष्पक्ष अनुमानक आमतौर पर एक पक्षपाती के पक्ष में होता है, एक अधिक कुशल पक्षपाती अनुमानक कभी-कभी कम कुशल निष्पक्ष अनुमानक की तुलना में अधिक मूल्यवान हो सकता है। उदाहरण के लिए, यह तब हो सकता है जब पक्षपाती अनुमानक के मान वास्तविक मान के करीब एक संख्या के आसपास इकट्ठा होते हैं। इस प्रकार, अनुमानक के प्रदर्शन का अनुमान उनकी माध्य चुकता त्रुटियों या भिन्नताओं की तुलना करके आसानी से लगाया जा सकता है।

परिकल्पना परीक्षण
महत्व परीक्षणों की तुलना करने के लिए, किसी दिए गए कार्य सांख्यिकीय शक्ति को प्राप्त करने के लिए परीक्षण के लिए आवश्यक नमूना आकार के आधार पर दक्षता का एक सार्थक उपाय परिभाषित किया जा सकता है।

पिटमैन दक्षता और बहादुर दक्षता (या हॉजेस-लेहमन दक्षता)  सांख्यिकीय परिकल्पना परीक्षण प्रक्रियाओं के प्रदर्शन की तुलना से संबंधित हैं। गणित का विश्वकोश इन तीन मानदंडों का संक्षिप्त विवरण प्रदान करता है।

प्रायोगिक डिजाइन
प्रायोगिक डिजाइनों के लिए, दक्षता समय और धन जैसे संसाधनों के न्यूनतम व्यय के साथ अध्ययन के उद्देश्य को प्राप्त करने के लिए एक डिजाइन की क्षमता से संबंधित है। सरल मामलों में, डिज़ाइन की सापेक्ष दक्षता को किसी दिए गए उद्देश्य को प्राप्त करने के लिए आवश्यक नमूना आकार के अनुपात के रूप में व्यक्त किया जा सकता है।

यह भी देखें

 * बेयस अनुमानक
 * लगातार अनुमानक
 * हॉजेस का अनुमानक
 * इष्टतम उपकरण