अनुमानक का पूर्वाग्रह

आंकड़ों में, अनुमानक (या पूर्वाग्रह समारोह) का पूर्वाग्रह इस अनुमानक के अपेक्षित मूल्य और अनुमानित पैरामीटर के वास्तविक मूल्य के बीच का अंतर है। शून्य पूर्वाग्रह वाला अनुमानक या निर्णय नियम निष्पक्ष कहलाता है। सांख्यिकी में पूर्वाग्रह एक है एक अनुमानक की संपत्ति। पूर्वाग्रह संगत अनुमानक से एक अलग अवधारणा है: सुसंगत अनुमानक संभाव्यता में पैरामीटर के वास्तविक मूल्य में अभिसरण करते हैं, लेकिन पक्षपातपूर्ण या निष्पक्ष हो सकते हैं; अधिक जानकारी के लिए संगत अनुमानक#पूर्वाग्रह बनाम संगति देखें।

अन्य सभी समान होने के नाते, एक निष्पक्ष अनुमानक एक पक्षपाती अनुमानक के लिए बेहतर है, हालांकि व्यवहार में, पक्षपाती अनुमानक (आमतौर पर छोटे पूर्वाग्रह के साथ) अक्सर उपयोग किए जाते हैं। जब एक पक्षपाती अनुमानक का उपयोग किया जाता है, तो पूर्वाग्रह की सीमा की गणना की जाती है। एक पक्षपाती अनुमानक का उपयोग विभिन्न कारणों से किया जा सकता है: क्योंकि जनसंख्या के बारे में और धारणाओं के बिना एक निष्पक्ष अनुमानक मौजूद नहीं है; क्योंकि एक अनुमानक की गणना करना मुश्किल है (मानक विचलन के निष्पक्ष अनुमान के रूप में); क्योंकि केंद्रीय प्रवृत्ति के विभिन्न उपायों के संबंध में एक पक्षपाती अनुमानक निष्पक्ष हो सकता है; क्योंकि एक पक्षपाती अनुमानक निष्पक्ष अनुमानकों (विशेष रूप से संकोचन अनुमानकों में) की तुलना में कुछ हानि फ़ंक्शन (विशेष रूप से चुकता त्रुटि) का कम मूल्य देता है; या क्योंकि कुछ मामलों में निष्पक्ष होना बहुत मजबूत स्थिति है, और केवल निष्पक्ष अनुमानक उपयोगी नहीं होते हैं।

पूर्वाग्रह को औसत (अपेक्षित मूल्य) के बजाय माध्यिका के संबंध में भी मापा जा सकता है, इस मामले में सामान्य औसत-निष्पक्षता संपत्ति से औसत-निष्पक्षता को अलग करता है। गैर-रैखिक डेटा परिवर्तन (सांख्यिकी) के तहत माध्य-निष्पक्षता संरक्षित नहीं है, हालांकि औसत-निष्पक्षता है (देखें ); उदाहरण के लिए, नमूना प्रसरण जनसंख्या विचरण के लिए एक पक्षपाती अनुमानक है। ये सभी नीचे सचित्र हैं।

परिभाषा
मान लीजिए कि हमारे पास एक सांख्यिकीय मॉडल है, जिसे वास्तविक संख्या θ द्वारा परिचालित किया गया है, जो देखे गए डेटा के लिए संभाव्यता वितरण को जन्म देता है, $$P_\theta(x) = P(x\mid\theta)$$, और एक आँकड़ा $$\hat\theta$$ जो किसी भी देखे गए डेटा के आधार पर θ के अनुमानक के रूप में कार्य करता है $$x$$. अर्थात्, हम मानते हैं कि हमारा डेटा किसी अज्ञात वितरण का अनुसरण करता है $$P(x\mid\theta)$$ (जहां θ एक निश्चित, अज्ञात स्थिरांक है जो इस वितरण का हिस्सा है), और फिर हम कुछ अनुमानक का निर्माण करते हैं $$\hat\theta$$ मानचित्रों ने डेटा को उन मूल्यों पर देखा जो हम आशा करते हैं कि वे θ के करीब हैं। का 'पक्षपात' $$\hat\theta$$ के सापेक्ष $$\theta$$ परिभाषित किया जाता है
 * $$ \operatorname{Bias}(\hat\theta, \theta) =\operatorname{Bias}_\theta[\,\hat\theta\,] = \operatorname{E}_{x\mid\theta}[\,\hat{\theta}\,]-\theta = \operatorname{E}_{x\mid\theta}[\, \hat\theta - \theta \,],$$

कहाँ $$\operatorname{E}_{x\mid\theta}$$ वितरण पर अपेक्षित मूल्य दर्शाता है $$P(x\mid\theta)$$ (यानी, सभी संभावित अवलोकनों का औसत $$x$$). दूसरा समीकरण अनुसरण करता है क्योंकि θ सशर्त वितरण के संबंध में औसत दर्जे का है $$P(x\mid\theta)$$.

एक अनुमानक को निष्पक्ष कहा जाता है यदि इसका पूर्वाग्रह पैरामीटर θ के सभी मानों के लिए शून्य के बराबर है, या समतुल्य है, यदि अनुमानक का अपेक्षित मान पैरामीटर से मेल खाता है। अनुमानक के गुणों से संबंधित सिमुलेशन प्रयोग में, अनुमानित अंतर का उपयोग करके अनुमानक के पूर्वाग्रह का आकलन किया जा सकता है।

नमूना विचरण
एक यादृच्छिक चर का नमूना प्रसरण अनुमानक पूर्वाग्रह के दो पहलुओं को प्रदर्शित करता है: सबसे पहले, सहज अनुमानक पक्षपाती है, जिसे स्केल कारक द्वारा ठीक किया जा सकता है; दूसरा, निष्पक्ष अनुमानक माध्य चुकता त्रुटि (MSE) के मामले में इष्टतम नहीं है, जिसे एक अलग पैमाने के कारक का उपयोग करके कम किया जा सकता है, जिसके परिणामस्वरूप निष्पक्ष अनुमानक की तुलना में कम MSE वाला पक्षपाती अनुमानक होता है। ठोस रूप से, भोले अनुमानक चुकता विचलन का योग करते हैं और n से विभाजित होते हैं, जो पक्षपाती है। इसके बजाय n − 1 से विभाजित करने पर एक निष्पक्ष अनुमानक प्राप्त होता है। इसके विपरीत, MSE को एक अलग संख्या (वितरण के आधार पर) से विभाजित करके कम किया जा सकता है, लेकिन इसका परिणाम एक पक्षपाती अनुमानक होता है। यह संख्या हमेशा n − 1 से बड़ी होती है, इसलिए इसे संकोचन अनुमानक के रूप में जाना जाता है, क्योंकि यह निष्पक्ष अनुमानक को शून्य की ओर सिकोड़ता है; सामान्य वितरण के लिए इष्टतम मान n + 1 है।

मान लीजिए एक्स1, ..., एक्सn अपेक्षित मान μ और विचरण σ के साथ स्वतंत्र और समान रूप से वितरित (i.i.d.) यादृच्छिक चर हैं 2। यदि नमूना माध्य और असंशोधित नमूना प्रसरण को इस रूप में परिभाषित किया गया है


 * $$\overline{X}\,=\frac 1 n \sum_{i=1}^n X_i \qquad S^2=\frac 1 n \sum_{i=1}^n\big(X_i-\overline{X}\,\big)^2 \qquad $$

तब एस2 σ का पक्षपाती अनुमानक है2, क्योंकि

\begin{align} \operatorname{E}[S^2] &= \operatorname{E}\left[ \frac 1 n \sum_{i=1}^n \big(X_i-\overline{X}\big)^2 \right] = \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n \bigg((X_i-\mu)-(\overline{X}-\mu)\bigg)^2 \bigg] \\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n \bigg((X_i-\mu)^2 -                                 2(\overline{X}-\mu)(X_i-\mu) +                                  (\overline{X}-\mu)^2\bigg) \bigg] \\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 - \frac 2 n (\overline{X}-\mu) \sum_{i=1}^n (X_i-\mu) + \frac 1 n (\overline{X}-\mu)^2 \sum_{i=1}^n 1 \bigg] \\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 - \frac 2 n (\overline{X}-\mu)\sum_{i=1}^n (X_i-\mu) + \frac 1 n (\overline{X}-\mu)^2 \cdot n\bigg] \\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 - \frac 2 n (\overline{X}-\mu)\sum_{i=1}^n (X_i-\mu) + (\overline{X}-\mu)^2 \bigg] \\[8pt] \end{align} $$ जारी रखने के लिए, हम ध्यान दें कि घटाकर $$\mu$$ के दोनों ओर से $$\overline{X}= \frac 1 n \sum_{i=1}^nX_i$$, हम पाते हैं

\begin{align} \overline{X}-\mu = \frac 1 n \sum_{i=1}^n X_i - \mu = \frac 1 n \sum_{i=1}^n X_i - \frac 1 n \sum_{i=1}^n\mu\ = \frac 1 n \sum_{i=1}^n (X_i - \mu).\\[8pt] \end{align} $$ अर्थ, (क्रॉस-गुणन द्वारा) $$n \cdot (\overline{X}-\mu)=\sum_{i=1}^n (X_i-\mu)$$. फिर, पिछला बन जाता है:

\begin{align} \operatorname{E}[S^2] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 - \frac 2 n (\overline{X}-\mu)\sum_{i=1}^n (X_i-\mu) + (\overline{X}-\mu)^2 \bigg]\\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 - \frac 2 n (\overline{X}-\mu) \cdot n \cdot (\overline{X}-\mu)+ (\overline{X}-\mu)^2 \bigg] \\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 - 2(\overline{X}-\mu)^2 + (\overline{X}-\mu)^2 \bigg] \\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 - (\overline{X}-\mu)^2 \bigg] \\[8pt] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2\bigg] - \operatorname{E}\bigg[(\overline{X}-\mu)^2 \bigg] \\[8pt] &= \sigma^2 - \operatorname{E}\bigg[(\overline{X}-\mu)^2 \bigg] = \left( 1 -\frac{1}{n}\right) \sigma^2 < \sigma^2. \end{align} $$ इसे निम्नलिखित सूत्र को ध्यान में रखते हुए देखा जा सकता है, जो उपरोक्त असंशोधित नमूना भिन्नता की अपेक्षा के लिए असमानता में शब्द के लिए भिन्नता # असंबद्ध चर के योग (बिनेमे फॉर्मूला) | बायनेमे फॉर्मूला से निम्नानुसार है: $$\operatorname{E}\big[ (\overline{X}-\mu)^2 \big] = \frac 1 n \sigma^2$$.

दूसरे शब्दों में, असंशोधित नमूना प्रसरण का अपेक्षित मान जनसंख्या प्रसरण σ के बराबर नहीं होता है2, जब तक कि सामान्यीकरण कारक से गुणा न किया जाए। दूसरी ओर, नमूना माध्य एक निष्पक्ष है जनसंख्या का अनुमानक मतलब μ।

ध्यान दें कि नमूना भिन्नता की सामान्य परिभाषा है $$S^2=\frac 1 {n-1} \sum_{i=1}^n(X_i-\overline{X}\,)^2$$, और यह जनसंख्या विचरण का एक निष्पक्ष अनुमानक है।

बीजगणितीय रूप से बोलते हुए, $$ \operatorname{E}[S^2] $$ निष्पक्ष है क्योंकि:

\begin{align} \operatorname{E}[S^2] &= \operatorname{E}\left[ \frac 1 {n-1}\sum_{i=1}^n \big(X_i-\overline{X}\big)^2 \right] = \frac{n}{n-1}\operatorname{E}\left[ \frac 1 {n}\sum_{i=1}^n \big(X_i-\overline{X}\big)^2 \right] \\[8pt] &= \frac{n}{n-1}\left( 1 -\frac{1}{n}\right) \sigma^2 = \sigma^2, \\[8pt] \end{align} $$ जहां दूसरी पंक्ति में संक्रमण पक्षपाती अनुमानक के लिए उपरोक्त व्युत्पन्न परिणाम का उपयोग करता है। इस प्रकार $$\operatorname{E}[S^2] = \sigma^2$$, और इसलिए $$S^2=\frac 1 {n-1}\sum_{i=1}^n(X_i-\overline{X}\,)^2$$ जनसंख्या विचरण का एक निष्पक्ष अनुमानक है, σ 2। प्रसरण के पक्षपाती (असंशोधित) और निष्पक्ष अनुमानों के बीच के अनुपात को बेसेल के सुधार के रूप में जाना जाता है।

कारण यह है कि एक असंशोधित नमूना प्रसरण, S2, इस तथ्य से पक्षपाती है कि नमूना माध्य μ के लिए एक सामान्य न्यूनतम वर्ग (OLS) अनुमानक है: $$\overline{X}$$ वह संख्या है जो योग बनाती है $$\sum_{i=1}^n (X_i-\overline{X})^2$$ जितना संभव हो उतना छोटा। अर्थात, जब इस योग में किसी अन्य संख्या को जोड़ा जाता है, तो योग केवल बढ़ सकता है। विशेष रूप से, पसंद $$\mu \ne \overline{X}$$ देता है,



\frac 1 n \sum_{i=1}^n (X_i-\overline{X})^2 < \frac 1 n \sum_{i=1}^n (X_i-\mu)^2, $$ और तब

\begin{align} \operatorname{E}[S^2] &= \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\overline{X})^2 \bigg] < \operatorname{E}\bigg[ \frac 1 n \sum_{i=1}^n (X_i-\mu)^2 \bigg] = \sigma^2. \end{align} $$ उपरोक्त चर्चा को ज्यामितीय शब्दों में समझा जा सकता है: वेक्टर $$\vec{C}=(X_1 -\mu, \ldots, X_n-\mu)$$ की दिशा में प्रक्षेपित करके माध्य भाग और विचरण भाग में विघटित किया जा सकता है $$ \vec{u}=(1,\ldots, 1)$$ और उस दिशा के ओर्थोगोनल पूरक हाइपरप्लेन। एक को मिलता है $$\vec{A}=(\overline{X}-\mu, \ldots, \overline{X}-\mu)$$ भाग के लिए $$ \vec{u}$$ और $$\vec{B}=(X_1-\overline{X}, \ldots, X_n-\overline{X})$$ पूरक भाग के लिए। चूंकि यह एक ओर्थोगोनल अपघटन है, पाइथागोरस प्रमेय कहता है $$ |\vec{C}|^2= |\vec{A}|^2+ |\vec{B}|^2$$, और अपेक्षाओं को लेकर हम प्राप्त करते हैं $$ n \sigma^2 = n \operatorname{E}\left[ (\overline{X}-\mu)^2 \right] +n \operatorname{E}[S^2] $$, ऊपर के रूप में (लेकिन times $$n$$). यदि का वितरण $$\vec{C}$$ घूर्णी रूप से सममित है, जैसे कि जब $$X_i$$ गॉसियन से नमूने लिए जाते हैं, फिर औसतन, साथ में आयाम $$ \vec{u}$$ करने के लिए योगदान देते है $$ |\vec{C}|^2$$ समान रूप से $$n-1$$ दिशाओं के लिए लंबवत $$ \vec{u}$$, ताकि $$ \operatorname{E}\left[ (\overline{X}-\mu)^2 \right] =\frac{\sigma^2} n $$ और $$\operatorname{E}[S^2] =\frac{(n-1)\sigma^2} n $$. यह वास्तव में सामान्य तौर पर सच है, जैसा कि ऊपर बताया गया है।

प्वासों प्रायिकता का अनुमान लगाना
किसी भी निष्पक्ष अनुमानक की तुलना में एक पक्षपाती अनुमानक के बेहतर होने का एक और अधिक चरम मामला पोइसन वितरण से उत्पन्न होता है। मान लीजिए कि एक्स के पास अपेक्षा λ के साथ पॉइसन बंटन है। मान लीजिए कि यह अनुमान लगाना चाहता है
 * $$\operatorname{P}(X=0)^2=e^{-2\lambda}\quad$$

आकार 1 के एक नमूने के साथ। (उदाहरण के लिए, जब एक टेलीफोन स्विचबोर्ड पर आने वाली कॉल को पॉइसन प्रक्रिया के रूप में मॉडल किया जाता है, और λ प्रति मिनट कॉल की औसत संख्या है, तो ई−2λ संभावना है कि अगले दो मिनट में कोई कॉल नहीं आएगी।)

चूंकि एक निष्पक्ष अनुमानक की अपेक्षा δ(X) अनुमान के बराबर है, अर्थात
 * $$\operatorname E(\delta(X))=\sum_{x=0}^\infty \delta(x) \frac{\lambda^x e^{-\lambda}}{x!} = e^{-2\lambda},$$

निष्पक्ष अनुमानक बनाने वाले डेटा का एकमात्र कार्य है
 * $$\delta(x)=(-1)^x. \, $$

इसे देखने के लिए, ध्यान दें कि ई को विघटित करते समय−λ अपेक्षा के लिए उपरोक्त अभिव्यक्ति से, शेष राशि e का टेलर श्रृंखला विस्तार है−λ साथ ही, उपज देने वाला ई−λई−λ = ई −2λ (एक्सपोनेंशियल फंक्शन के लक्षण देखें)।

यदि एक्स का प्रेक्षित मान 100 है, तो अनुमान 1 है, हालांकि अनुमानित मात्रा का सही मूल्य 0 के करीब होने की संभावना है, जो विपरीत चरम है। और, यदि X को 101 माना जाता है, तो अनुमान और भी बेतुका है: यह -1 है, हालांकि अनुमानित मात्रा धनात्मक होनी चाहिए।

(पक्षपाती) अधिकतम संभावना
 * $$e^{-2{X}}\quad$$

इस निष्पक्ष अनुमानक से कहीं बेहतर है। न केवल इसका मान हमेशा धनात्मक होता है बल्कि यह इस अर्थ में भी अधिक सटीक होता है कि इसका माध्य चुकता त्रुटि है
 * $$e^{-4\lambda}-2e^{\lambda(1/e^2-3)}+e^{\lambda(1/e^4-1)} \, $$

छोटा है; के निष्पक्ष अनुमानक के एमएसई की तुलना करें
 * $$1-e^{-4\lambda}. \, $$

MSE वास्तविक मान λ के कार्य हैं। अधिकतम-संभावना अनुमानक का पूर्वाग्रह है:
 * $$e^{-2\lambda}-e^{\lambda(1/e^2-1)}. \, $$

असतत समान वितरण का अधिकतम
अधिकतम-संभावना अनुमानकों का पूर्वाग्रह पर्याप्त हो सकता है। एक ऐसे मामले पर विचार करें जहां 1 से n तक के n टिकटों को एक बॉक्स में रखा गया है और एक को यादृच्छिक रूप से चुना गया है, एक मान X दे रहा है। यदि n अज्ञात है, तो n का अधिकतम-संभावना अनुमानक X है, भले ही अपेक्षा X दिया हुआ n केवल (n + 1)/2 है; हम केवल निश्चित हो सकते हैं कि n कम से कम X है और शायद अधिक है। इस मामले में, प्राकृतिक निष्पक्ष अनुमानक 2X − 1 है।

माध्य-निष्पक्ष अनुमानक
1947 में जॉर्ज डब्ल्यू ब्राउन द्वारा माध्य-निष्पक्ष आकलनकर्ताओं के सिद्धांत को पुनर्जीवित किया गया था:

"An estimate of a one-dimensional parameter θ will be said to be median-unbiased, if, for fixed θ, the median of the distribution of the estimate is at the value θ; i.e., the estimate underestimates just as often as it overestimates. This requirement seems for most purposes to accomplish as much as the mean-unbiased requirement and has the additional property that it is invariant under one-to-one transformation."

मध्य-निष्पक्ष आकलनकर्ताओं के और गुणों को लेहमन, बिरनबाउम, वैन डेर वार्ट और फनज़ागल द्वारा नोट किया गया है। विशेष रूप से, औसत-निष्पक्ष अनुमानक ऐसे मामलों में मौजूद होते हैं जहां माध्य-निष्पक्ष और अधिकतम संभावना | अधिकतम-संभावना अनुमानक मौजूद नहीं होते हैं। वे अंतःक्षेपी फलन|एक-से-एक परिवर्तन के तहत अपरिवर्तनीय हैं।

संभाव्यता वितरण के लिए मध्य-निष्पक्ष अनुमानक के निर्माण के तरीके हैं जिनमें मोनोटोन संभावना अनुपात है। -निष्पक्ष आकलनकर्ता)। ऐसी ही एक प्रक्रिया माध्य-निष्पक्ष आकलनकर्ताओं के लिए राव-ब्लैकवेल प्रक्रिया का एक एनालॉग है: माध्य-निष्पक्ष अनुमान के लिए राव-ब्लैकवेल प्रक्रिया की तुलना में प्रक्रिया संभाव्यता वितरण के एक छोटे वर्ग के लिए है, लेकिन हानि-कार्यों के एक बड़े वर्ग के लिए है।

अन्य हानि कार्यों के संबंध में पूर्वाग्रह
कोई न्यूनतम-विचरण माध्य-निष्पक्ष अनुमानक चुकता-त्रुटि हानि फ़ंक्शन (माध्य-निष्पक्ष अनुमानकों के बीच) के संबंध में जोखिम (सांख्यिकी) (अपेक्षित हानि) को कम करता है, जैसा कि गॉस द्वारा देखा गया है। एक न्यूनतम-औसत निरपेक्ष विचलन मध्य-निष्पक्ष आकलनकर्ता पूर्ण मूल्य हानि फ़ंक्शन (मध्य-निष्पक्ष अनुमानकों के बीच) के संबंध में जोखिम को कम करता है, जैसा कि लाप्लास द्वारा देखा गया है। अन्य नुकसान कार्यों का उपयोग आँकड़ों में किया जाता है, विशेष रूप से मजबूत आँकड़ों में।

रूपांतरों का प्रभाव
अविभाजित मापदंडों के लिए, मध्य-निष्पक्ष अनुमानक डेटा परिवर्तन (सांख्यिकी) के तहत मध्य-निष्पक्ष रहते हैं जो ऑर्डर (या रिवर्स ऑर्डर) को संरक्षित करते हैं। ध्यान दें कि, जब एक माध्य-निष्पक्ष अनुमानक पर रूपांतरण लागू किया जाता है, तो परिणाम को इसके संगत जनसंख्या आंकड़ों का माध्य-निष्पक्ष अनुमानक नहीं होना चाहिए। जेन्सेन की असमानता से, परिवर्तन के रूप में एक उत्तल कार्य सकारात्मक पूर्वाग्रह पेश करेगा, जबकि एक अवतल कार्य नकारात्मक पूर्वाग्रह पेश करेगा, और मिश्रित उत्तलता का कार्य विशिष्ट कार्य और वितरण के आधार पर किसी भी दिशा में पूर्वाग्रह पेश कर सकता है। यही है, एक गैर-रैखिक फ़ंक्शन एफ और पैरामीटर पी के एक औसत-निष्पक्ष अनुमानक यू के लिए, समग्र अनुमानक एफ (यू) को एफ (पी) का एक औसत-निष्पक्ष अनुमानक नहीं होना चाहिए। उदाहरण के लिए, जनसंख्या विचरण के निष्पक्ष अनुमानक का वर्गमूल है जनसंख्या मानक विचलन का माध्य-निष्पक्ष अनुमानक: निष्पक्ष नमूना प्रसरण का वर्गमूल, सही नमूना मानक विचलन, पक्षपाती है। पूर्वाग्रह अनुमानक के नमूना वितरण और परिवर्तन पर निर्भर करता है, और गणना करने के लिए काफी शामिल हो सकता है - इस मामले में चर्चा के लिए मानक विचलन का निष्पक्ष अनुमान देखें।

पूर्वाग्रह, विचरण और माध्य चुकता त्रुटि
[[Image:Example when estimator bias is good.svg|thumb|पैरामीटर β के लिए दो वैकल्पिक अनुमानकों का नमूनाकरण वितरण0. हालांकि बी1^ निष्पक्ष है, यह स्पष्ट रूप से पक्षपाती β से हीन है2^ ।

रिज प्रतिगमन एक ऐसी तकनीक का उदाहरण है जहां थोड़ा सा पूर्वाग्रह होने से वेरियंस में काफी कमी आ सकती है, और समग्र रूप से अधिक विश्वसनीय अनुमान लग सकते हैं।]]जबकि पूर्वाग्रह अनुमानक और अंतर्निहित पैरामीटर के बीच अपेक्षित औसत अंतर को मापता है, नमूना में यादृच्छिकता के कारण परिमित नमूने के आधार पर अनुमानक अतिरिक्त रूप से पैरामीटर से अलग होने की उम्मीद कर सकता है। एक अनुमानक जो पूर्वाग्रह को कम करता है, आवश्यक रूप से औसत वर्ग त्रुटि को कम नहीं करेगा। एक उपाय जिसका उपयोग दोनों प्रकार के अंतरों को दर्शाने के लिए किया जाता है, वह माध्य वर्ग त्रुटि है, :$$\operatorname{MSE}(\hat{\theta})=\operatorname{E}\big[(\hat{\theta}-\theta)^2\big].$$ यह पूर्वाग्रह के वर्ग के बराबर दिखाया जा सकता है, साथ ही विचरण: :$$\begin{align} \operatorname{MSE}(\hat{\theta})= & (\operatorname{E}[\hat{\theta}]-\theta)^2 + \operatorname{E}[\,(\hat{\theta} - \operatorname{E}[\,\hat{\theta}\,])^2\,]\\ = & (\operatorname{Bias}(\hat{\theta},\theta))^2 + \operatorname{Var}(\hat{\theta}) \end{align}$$ जब पैरामीटर एक वेक्टर होता है, तो एक समान अपघटन लागू होता है:
 * $$\operatorname{MSE}(\hat{\theta }) =\operatorname{trace}(\operatorname{Cov}(\hat{\theta }))

+\left\Vert\operatorname{Bias}(\hat{\theta},\theta)\right\Vert^{2}$$ कहाँ $$\operatorname{trace}(\operatorname{Cov}(\hat{\theta }))$$ अनुमानक के सहप्रसरण मैट्रिक्स का निशान (विकर्ण योग) है और $$\left\Vert\operatorname{Bias}(\hat{\theta},\theta)\right\Vert^{2}$$ वर्ग वेक्टर मानदंड है।

उदाहरण: जनसंख्या विचरण का अनुमान
उदाहरण के लिए, मान लीजिए फॉर्म का अनुमानक


 * $$T^2 = c \sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2 = c n S^2$$

उपरोक्त के अनुसार जनसंख्या विचरण के लिए मांगा गया है, लेकिन इस बार MSE को कम करने के लिए:


 * $$\begin{align}\operatorname{MSE} = & \operatorname{E}\left[(T^2 - \sigma^2)^2\right] \\

= & \left(\operatorname{E}\left[T^2 - \sigma^2\right]\right)^2 + \operatorname{Var}(T^2)\end{align}$$ यदि चर X1 ... एक्सn एक सामान्य वितरण का पालन करें, फिर एनएस2/प2 का n − 1 स्वतंत्रता की डिग्री के साथ ची-वर्ग बंटन है, जो देता है:


 * $$\operatorname{E}[nS^2] = (n-1)\sigma^2\text{ and }\operatorname{Var}(nS^2)=2(n-1)\sigma^4. $$

इसलिए


 * $$\operatorname{MSE} = (c (n-1) - 1)^2\sigma^4 + 2c^2(n-1)\sigma^4$$

थोड़े से बीजगणित के साथ यह पुष्टि की जा सकती है कि यह c = 1/(n + 1) है जो इस संयुक्त नुकसान फ़ंक्शन को कम करता है, बजाय c = 1/(n − 1) जो पूर्वाग्रह के वर्ग को कम करता है।

आम तौर पर यह केवल प्रतिबंधित वर्गों की समस्याओं में होता है कि एक अनुमानक होगा जो पैरामीटर मानों से स्वतंत्र रूप से एमएसई को कम करता है।

हालांकि यह बहुत आम है कि पूर्वाग्रह-विचरण व्यापार को माना जा सकता है, जैसे कि पूर्वाग्रह में एक छोटी सी वृद्धि भिन्नता में बड़ी कमी के लिए कारोबार की जा सकती है, जिसके परिणामस्वरूप समग्र रूप से अधिक वांछनीय अनुमानक होता है।

बायेसियन व्यू
अधिकांश बेयसियन अपने अनुमानों के निष्पक्षता (कम से कम औपचारिक नमूनाकरण-सिद्धांत के अर्थ में) के बारे में असंबद्ध हैं। उदाहरण के लिए, गेलमैन और कोउथर्स (1995) लिखते हैं: बायेसियन दृष्टिकोण से, निष्पक्षता का सिद्धांत बड़े नमूनों की सीमा में उचित है, लेकिन अन्यथा यह संभावित रूप से भ्रामक है। मौलिक रूप से, बायेसियन सांख्यिकी और उपरोक्त नमूनाकरण-सिद्धांत दृष्टिकोण के बीच का अंतर यह है कि नमूनाकरण-सिद्धांत दृष्टिकोण में पैरामीटर को निश्चित रूप में लिया जाता है, और फिर डेटा के पूर्वानुमानित नमूना वितरण के आधार पर एक आंकड़े के संभाव्यता वितरण पर विचार किया जाता है। बायेसियन के लिए, हालांकि, यह वह डेटा है जो ज्ञात और निश्चित है, और यह अज्ञात पैरामीटर है जिसके लिए बेयस प्रमेय का उपयोग करके संभाव्यता वितरण का निर्माण करने का प्रयास किया जाता है:


 * $$p(\theta \mid D, I) \propto p(\theta \mid I) p(D \mid \theta, I)$$

यहां दूसरा शब्द, अज्ञात पैरामीटर मान θ दिए गए डेटा की संभावना फ़ंक्शन, केवल प्राप्त डेटा और डेटा जनरेशन प्रक्रिया के मॉडलिंग पर निर्भर करता है। हालाँकि, बायेसियन गणना में पहला शब्द भी शामिल है, θ के लिए पूर्व संभावना, जो डेटा के आने से पहले विश्लेषक को θ के बारे में जानने या संदेह करने वाली हर चीज का हिसाब लेता है। यह जानकारी नमूनाकरण-सिद्धांत दृष्टिकोण में कोई भूमिका नहीं निभाती है; वास्तव में इसे शामिल करने के किसी भी प्रयास को डेटा द्वारा विशुद्ध रूप से बताए गए पूर्वाग्रह से दूर माना जाएगा। इस हद तक कि बायेसियन गणनाओं में पूर्व सूचना शामिल है, इसलिए यह अनिवार्य रूप से अपरिहार्य है कि उनके परिणाम नमूनाकरण सिद्धांत के संदर्भ में निष्पक्ष नहीं होंगे।

लेकिन एक बायेसियन दृष्टिकोण के परिणाम नमूनाकरण सिद्धांत के दृष्टिकोण से भिन्न हो सकते हैं, भले ही बायेसियन पूर्व में एक गैर-सूचनात्मक अपनाने की कोशिश करता हो।

उदाहरण के लिए, फिर से एक अज्ञात जनसंख्या प्रसरण σ के अनुमान पर विचार करेंअज्ञात माध्य के साथ सामान्य बंटन का 2, जहां अपेक्षित हानि फलन में c को अनुकूलित करना वांछित है


 * $$\operatorname{Expected Loss} = \operatorname{E}\left[\left(c n S^2 - \sigma^2\right)^2\right] = \operatorname{E}\left[\sigma^4 \left(c n \tfrac{S^2}{\sigma^2} -1 \right)^2\right]$$

इस समस्या के लिए असूचनात्मक पूर्व का एक मानक विकल्प मानक विचलन पैरामीटर के साथ जेफरीज़ पूर्व#गाऊसी वितरण है, $$\scriptstyle{p(\sigma^2) \;\propto\; 1 / \sigma^2}$$, जो ln(σ2).

इसे पहले अपनाने का एक परिणाम यह है कि स2/प2 एक महत्वपूर्ण मात्रा है, अर्थात S का प्रायिकता वितरण2/प2 केवल S पर निर्भर करता है2/प2, S के मान से स्वतंत्र2 या पृ2:


 * $$p\left(\tfrac{S^2}{\sigma^2}\mid S^2\right) = p\left(\tfrac{S^2}{\sigma^2}\mid \sigma^2\right) = g\left(\tfrac{S^2}{\sigma^2}\right)$$

हालांकि, जबकि


 * $$\operatorname{E}_{p(S^2\mid \sigma^2)}\left[\sigma^4 \left(c n \tfrac{S^2}{\sigma^2} -1 \right)^2\right] = \sigma^4 \operatorname{E}_{p(S^2\mid \sigma^2)}\left[\left(c n \tfrac{S^2}{\sigma^2} -1 \right)^2\right]$$

इसके विपरीत


 * $$\operatorname{E}_{p(\sigma^2\mid S^2)}\left[\sigma^4 \left(c n \tfrac{S^2}{\sigma^2} -1 \right)^2\right] \neq \sigma^4 \operatorname{E}_{p(\sigma^2\mid S^2)}\left[\left(c n \tfrac{S^2}{\sigma^2} -1 \right)^2\right]$$

— जब उम्मीद को σ के प्रायिकता बंटन पर ले लिया जाता है2 दिया हुआ S2, जैसा कि एस के बजाय बायेसियन मामले में है2 दिए गए p2, अब कोई σ नहीं ले सकता4 एक स्थिरांक के रूप में और इसका गुणनखंडन करें। इसका परिणाम यह है कि, नमूनाकरण-सिद्धांत गणना की तुलना में, बायेसियन गणना σ के बड़े मूल्यों पर अधिक भार डालती है।2, ठीक से ध्यान में रखते हुए (चूंकि नमूनाकरण-सिद्धांत गणना नहीं कर सकता) कि इस चुकता-हानि समारोह के तहत σ के बड़े मूल्यों को कम आंकने का परिणाम हैσ के छोटे मूल्यों को अधिक आंकने की तुलना में 2 चुकता-नुकसान के संदर्भ में अधिक महंगा है 2।

कार्य-आउट बायेसियन गणना σ के पश्च संभाव्यता वितरण के लिए स्वतंत्रता की n − 1 डिग्री के साथ एक स्केल्ड व्युत्क्रम ची-वर्ग वितरण देता है।2। सीएनएस होने पर अपेक्षित नुकसान कम हो जाता है 2 = <पी 2>; यह तब होता है जब c = 1/(n − 3).

यहां तक ​​​​कि एक अनौपचारिक पूर्व के साथ, इसलिए, बायेसियन गणना समान नमूना-सिद्धांत गणना के समान अपेक्षित-नुकसान न्यूनतम परिणाम नहीं दे सकती है।

यह भी देखें

 * लगातार अनुमानक
 * कुशल अनुमानक
 * अनुमान सिद्धांत
 * अपेक्षित हानि
 * अपेक्षित मूल्य
 * लॉस फंकशन
 * न्यूनतम-विचरण निष्पक्ष अनुमानक
 * लोप-चर पूर्वाग्रह
 * आशावाद पूर्वाग्रह
 * अनुपात अनुमानक
 * सांख्यिकीय निर्णय सिद्धांत

संदर्भ

 * Brown, George W. "On Small-Sample Estimation." The Annals of Mathematical Statistics, vol. 18, no. 4 (Dec., 1947), pp. 582–585..
 * Lehmann, E. L. "A General Concept of Unbiasedness" The Annals of Mathematical Statistics, vol. 22, no. 4 (Dec., 1951), pp. 587–592..
 * Allan Birnbaum, 1961. "A Unified Theory of Estimation, I", The Annals of Mathematical Statistics, vol. 32, no. 1 (Mar., 1961), pp. 112–135.
 * Van der Vaart, H. R., 1961. "Some Extensions of the Idea of Bias" The Annals of Mathematical Statistics, vol. 32, no. 2 (June 1961), pp. 436–447.
 * Pfanzagl, Johann. 1994. Parametric Statistical Theory. Walter de Gruyter.