अधिकतम अंतर अनुमान

आंकड़ों में अधिकतम अंतर अनुमान (MSE या MSP) या अंतर अनुमान का अधिकतम उत्पाद (MPS) अविभाज्य पैरामीट्रिक मॉडल के मापदंडों का अनुमान लगाने की विधि है। इस विधि में डेटा में रिक्तियों के ज्यामितीय माध्य को अधिकतम करने की आवश्यकता होती है जो पड़ोसी डेटा बिंदुओं पर संचयी वितरण फ़ंक्शन के मूल्यों के मध्य अंतर हैं।

इस विधि में अंतर्निहित अवधारणा संभाव्यता अभिन्न परिवर्तन पर आधारित है जिसमें किसी भी यादृच्छिक चर से प्राप्त स्वतंत्र यादृच्छिक नमूनों का एक सेट औसतन यादृच्छिक चर के संचयी वितरण फ़ंक्शन के संबंध में समान रूप से वितरित किया जाना चाहिए। MPS विधि उन पैरामीटर मानों को चुनती है जो एकरूपता के विशिष्ट मात्रात्मक माप के अनुसार देखे गए डेटा को यथासंभव समान बनाते हैं।

डेटा से वितरण के मापदंडों का अनुमान लगाने के लिए सबसे सामान्य उपायों में से अधिकतम संभावना की विधि (MLE) विभिन्न स्थितियों में विभक्त हो सकती है जैसे निरंतर वितरण के कुछ मिश्रण को सम्मिलित करना। इन स्थितियों में अधिकतम अंतर अनुमान की विधि सफल हो सकती है।

शुद्ध गणित और सांख्यिकी में इसके उपयोग के अतिरिक्त जल विज्ञान जैसे क्षेत्रों से डेटा का उपयोग करके विधि के परीक्षण अनुप्रयोगों की सूचना दी गई है। अर्थमिति, चुम्बकीय अनुनाद चित्रण एवं अन्य।

इतिहास और उपयोग
MSE पद्धति को कार्डिफ़ विश्वविद्यालय में रसेल चेंग और निक अमीन और स्वीडिश कृषि विज्ञान विश्वविद्यालय में बो रैनेबी द्वारा स्वतंत्र रूप से प्राप्त किया गया था। लेखकों ने समझाया कि वास्तविक पैरामीटर पर संभाव्यता अभिन्न परिवर्तन के कारण प्रत्येक अवलोकन के मध्य "स्थान" को समान रूप से वितरित किया जाना चाहिए। इसका तात्पर्य यह होगा कि लगातार अवलोकनों पर संचयी वितरण फ़ंक्शन के मूल्यों के मध्य का अंतर बराबर होना चाहिए। यह वह स्थिति है जो इस तरह के रिक्त स्थान के ज्यामितीय माध्य को अधिकतम करता है इसलिए ज्यामितीय माध्य को अधिकतम करने वाले मापदंडों को हल करने से इस तरह परिभाषित "सर्वोत्तम" फिट प्राप्त होगा। यह प्रदर्शित करके विधि को उचित ठहराया कि यह कुल्बैक-लीब्लर विचलन का अनुमानक है जो अधिकतम संभावना अनुमान के समान है लेकिन कुछ वर्गों की समस्याओं के लिए अधिक मजबूत गुणों के साथ है।

कुछ निश्चित वितरण हैं विशेष रूप से तीन या अधिक मापदंडों वाले जिनके निरंतर वितरण के लिए संभावना पैरामीटर स्थान में कुछ पथों के साथ अनंत हो सकती हैं। इन मापदंडों का अनुमान लगाने के लिए अधिकतम संभावना का उपयोग करना अधिकतर विभक्त हो जाता है जहाँ एक पैरामीटर विशिष्ट मान की ओर प्रवृत्त होता है जिसके कारण संभावना अनंत हो जाती है जिससे अन्य पैरामीटर असंगत हो जाते हैं। जबकि अधिकतम रिक्ति की विधि संचयी वितरण फ़ंक्शन पर बिंदुओं के मध्य अंतर पर निर्भर करती है न कि व्यक्तिगत संभावना बिंदुओं पर, इसमें यह समस्या नहीं है और यह वितरण के बहुत व्यापक सरणी पर वैध परिणाम लौटाएगा।

जिन वितरणों में संभावना संबंधी समस्याएं होती हैं वे अधिकतर भौतिक घटनाओं को मॉडल करने के लिए उपयोग किए जाते हैं। बाढ़ निवारण विधियों का विश्लेषण करना चाहते हैं जिसके लिए नदी बाढ़ प्रभावों के सटीक मॉडल की आवश्यकता होती है। वितरण जो इन प्रभावों को उन्नत ढंग से मॉडल करते हैं वे सभी तीन-पैरामीटर मॉडल हैं जो ऊपर वर्णित अनंत संभावना मुद्दे से ग्रस्त हैं जिससे हॉल की अधिकतम रिक्ति प्रक्रिया की जांच होती है।, जब विधि की तुलना अधिकतम संभावना से की जाती है तो 1905 और 1958 के मध्य स्वीडन में मृत्यु के समय सबसे अधिक उम्र के सेट से लेकर वार्षिक अधिकतम हवा की गति वाले सेट तक विभिन्न डेटा सेट का उपयोग किया जाता है।

परिभाषा
निरंतर संचयी वितरण फ़ंक्शन F(x;θ0) के साथ अविभाज्य वितरण से n आकार का iid यादृच्छिक नमूना {x1, ..., xn} दिया गया है जहां θ0 ∈ Θ अनुमान लगाने के लिए अज्ञात पैरामीटर है, मान लीजिए {x(1), ..., x(n)} संगत क्रम आँकड़ा नमूना हो जो कि सबसे छोटे से सबसे बड़े तक सभी अवलोकनों को क्रमबद्ध करने का परिणाम है। सुविधा के लिए x(0) = −∞ और x(n+1) = +∞ को भी निरूपित करें।

निकटवर्ती क्रमित बिंदुओं पर वितरण फ़ंक्शन के मानों के मध्य अंतर को "अंतराल" के रूप में परिभाषित करता है: $$   D_i(\theta) = F(x_{(i)};\,\theta) - F(x_{(i-1)};\,\theta), \quad i=1,\ldots,n+1. $$ इसके पश्चात θ0 का अधिकतम अंतर अनुमानक इसे एक ऐसे मान के रूप में परिभाषित किया गया है जो नमूना रिक्ति के ज्यामितीय माध्य के प्राकृतिक लघुगणक को अधिकतम करता है: $$  \hat{\theta} = \underset{\theta\in\Theta}{\operatorname{arg\,max}} \; S_n(\theta), \quad\text{where }\ S_n(\theta) = \ln\!\! \sqrt[n+1]{D_1D_2\cdots D_{n+1}} = \frac{1}{n+1}\sum_{i=1}^{n+1}\ln{D_i}(\theta). $$ अंकगणित और ज्यामितीय साधनों की असमानता से फलन Sn(θ) ऊपर से −ln(n+1) से घिरा है और इस प्रकार अधिकतम का अस्तित्व कम से कम सर्वोच्च अर्थ में होना चाहिए।

ध्यान दें कि कुछ लेखक फ़ंक्शन Sn(θ) को कुछ अलग ढंग से परिभाषित करते हैं। विशेष रूप से प्रत्येक Di (n+1) के एक कारक द्वारा को गुणा करता है,   जबकि $1/undefined$ छोड़ें तथा योग के सामने कारक लगाएं और अधिकतमीकरण को न्यूनतमकरण में बदलने के लिए "-" चिह्न जोड़ें। चूँकि ये θ के संबंध में स्थिरांक हैं एवं संशोधन फ़ंक्शन Sn के अधिकतम के स्थान में परिवर्तन नहीं करते हैं।

उदाहरण
यह अनुभाग अधिकतम अंतर अनुमानक की गणना के दो उदाहरण प्रस्तुत करता है।

उदाहरण 1
मान लीजिए दो मान x(1) = 2, x(2) = 4 को घातीय वितरण F(x;λ) = 1 - e−xλ, x ≥ 0 अज्ञात पैरामीटर λ > 0 के साथ से नमूना लिया गया था। MSE के निर्माण के लिए हमें पहले रिक्तियां ढूंढनी होंगी: यह प्रक्रिया λ ढूंढकर जारी रहती है जो "अंतर" कॉलम के ज्यामितीय माध्य को अधिकतम करता है। उस परिपाटी का उपयोग करते हुए जो (n+1)st रूट को लेने पर ध्यान नहीं देता है, यह निम्नलिखित उत्पाद के अधिकतमीकरण में बदल जाता है: (1 - e)−2λ) · (e−2λ − e−4λ) · (e−4λ). मान लीजिए μ = e−2λ, समस्या μ5−2μ4+ μ3 का अधिकतम पता लगाने की हो जाती है। विभेदन करते हुए μ को 5μ4−8μ3+3μ2 = 0 को संतुष्ट करना होगा। इस समीकरण के मूल 0, 0.6, और 1 हैं। चूँकि μ वास्तव में e है−2λ इसे शून्य से बड़ा लेकिन एक से कम होना चाहिए। इसलिए एकमात्र स्वीकार्य समाधान है $$   \mu=0.6 \quad \Rightarrow \quad \lambda_{\text{MSE}} = \frac{\ln 0.6}{-2} \approx 0.255,  $$ जो कि माध्य के साथ घातीय वितरण  $1/undefined$ ≈ 3.915 से मेल खाता है। तुलना के लिए λ का अधिकतम संभावना अनुमान नमूना माध्य 3 का व्युत्क्रम है इसलिए λMLE = ⅓ ≈ 0.333.

उदाहरण 2
मान लीजिए {x(1), ..., x(n)} अज्ञात समापन बिंदुओं a और b के साथ एक समान वितरण (निरंतर) u(a, b) से ऑर्डर किया गया नमूना है। संचयी वितरण फ़ंक्शन F(x;a,b) = (x−a)/(b−a) है जब x∈[a,b] होता है। इसलिए अलग-अलग रिक्तियां दी गई हैं $$   D_1 = \frac{x_{(1)}-a}{b-a}, \ \ D_i = \frac{x_{(i)}-x_{(i-1)}}{b-a}\ \text{for } i = 2, \ldots, n, \ \ D_{n+1} = \frac{b-x_{(n)}}{b-a} \ \ $$ ज्यामितीय माध्य की गणना करना और फिर लघुगणक, सांख्यिकी Sn के बराबर होगा $$   S_n(a,b) = \tfrac{\ln(x_{(1)}-a)}{n+1}  + \tfrac{\sum_{i=2}^n \ln(x_{(i)}-x_{(i-1)})}{n+1} + \tfrac{\ln(b-x_{(n)})}{n+1} - \ln(b-a) $$ यहां केवल तीन पद पैरामीटर a और b पर निर्भर करते हैं। उन मापदंडों के संबंध में अंतर करना और परिणामी रैखिक प्रणाली को हल करना अधिकतम अंतर अनुमान होगा
 * इन्हें निरंतर समान वितरण के लिए समान रूप से न्यूनतम भिन्नता निष्पक्ष (यूएमवीयू) अनुमानक के रूप में जाना जाता है। इसकी तुलना में यह समस्या a=x(1)और के लिए अधिकतम संभावना अनुमान पक्षपातपूर्ण हैं और इनमें उच्च माध्य-वर्ग त्रुटि है।
 * इन्हें निरंतर समान वितरण के लिए समान रूप से न्यूनतम भिन्नता निष्पक्ष (यूएमवीयू) अनुमानक के रूप में जाना जाता है। इसकी तुलना में यह समस्या a=x(1)और के लिए अधिकतम संभावना अनुमान पक्षपातपूर्ण हैं और इनमें उच्च माध्य-वर्ग त्रुटि है।

संगति और दक्षता
अधिकतम रिक्ति अनुमानक सुसंगत अनुमानक है जिसमें यह पैरामीटर θ0 के वास्तविक मान की संभावना में अभिसरण करता है जैसे-जैसे नमूना आकार अनंत तक बढ़ता है। अधिकतम अंतर अनुमान की स्थिरता अधिकतम संभावना अनुमानकों की तुलना में कहीं अधिक सामान्य परिस्थितियों में बनी रहती है। विशेष रूप से ऐसे स्थितियों में जहां अंतर्निहित वितरण J-आकार का है जहां MSE सफल होता है वहां अधिकतम संभावना विफल हो जाएगी। J-आकार के घनत्व का एक उदाहरण वेइबुल वितरण है। विशेष रूप से एक वेइबुल वितरण जिसका आकार पैरामीटर 1 से कम है। जैसे-जैसे x स्थान पैरामीटर के निकट पहुंचता है घनत्व अनंत हो जाएगा जिससे अन्य मापदंडों का अनुमान असंगत हो जाएगा।

अधिकतम अंतर अनुमानक भी कम से कम दक्षता (सांख्यिकी) (एसिम्प्टोटिक दक्षता) के रूप में अधिकतम संभावना अनुमानक के रूप में होते हैं जहां बाद वाले उपस्थित होते हैं। जबकि MSE उन स्थितियों में उपस्थित हो सकते हैं जहाँ MLE नहीं हैं।

संवेदनशीलता
अधिकतम अंतर अनुमानक निकट दूरी वाले अवलोकनों और विशेष रूप से संबंधों के प्रति संवेदनशील होते हैं। दिया गया $$   X_{i+k} = X_{i+k-1}=\cdots=X_i, \, $$ हम पाते हैं $$   D_{i+k}(\theta) = D_{i+k-1}(\theta) = \cdots = D_{i+1}(\theta) = 0. \, $$ जब संबंध एकाधिक अवलोकनों के कारण होते हैं तो दोहराए गए अंतराल (जो अन्यथा शून्य होंगे) को संबंधित संभावना से प्रतिस्थापित किया जाना चाहिए। अर्थात् $$f_{i}(\theta)$$ के लिए $$D_i(\theta)$$ स्थानापन्न करना चाहिए जैसे कि$$ \lim_{x_i \to x_{i-1}}\frac{\int_{x_{i-1}}^{x_i}f(t;\theta)\,dt}{x_i-x_{i-1}} = f(x_{i-1},\theta) = f(x_{i},\theta), $$

जब से $$x_{i} = x_{i-1}$$

जब संबंध पूर्णांकन त्रुटि के कारण होते हैं, प्रभावों को दूर करने के लिए अन्य विधि बताई। x से दिए गए r बंधे हुए अवलोकनi xi+r−1 को मान लीजिए δ राउंड-ऑफ़ त्रुटि का प्रतिनिधित्व करता है। तब सभी सच्चे मान इस सीमा $$x \pm \delta$$ में आने चाहिए। वितरण पर संबंधित बिंदु $$y_L = F(x-\delta, \hat\theta)$$ और $$y_U = F(x+\delta, \hat\theta)$$ अब मध्य में होने चाहिए। चेंग और स्टीफेंस यह मानने का सुझाव देते हैं कि वृत्तीय मान इस अंतराल में समान वितरण (निरंतर) हैं, नें परिभाषित किया $$   D_j = \frac{y_U-y_L}{r-1} \quad (j=i+1,\ldots,i+r-1). $$ MSE पद्धति द्वितीयक क्लस्टरिंग के प्रति भी संवेदनशील है। इस घटना का उदाहरण तब प्रकट होता है जब अवलोकनों का एक सेट एकल सामान्य वितरण से आता है लेकिन वास्तव में विभिन्न साधनों के साथ मिश्रण (संभावना) सामान्य से आता है। दूसरा उदाहरण तब होता है जब माना जाता है कि डेटा घातांकीय वितरण से प्राप्त होता है लेकिन वास्तव में यह गामा वितरण से आता है। इसके पश्चात की स्थति में निचले भाग में छोटी दूरी हो सकती है। M(θ) का उच्च मान इस द्वितीयक क्लस्टरिंग प्रभाव को इंगित करेगा और यह सुझाव देता है कि डेटा पर निकट से दृष्टि रखना आवश्यक आवश्यक है।

मोरन परीक्षण
सांख्यिकी n(θ) पैट मोरन (सांख्यिकीविद्) या मोरन-डार्लिंग सांख्यिकी M(θ) का भी एक रूप है जिसका उपयोग फिट की अच्छाई का परीक्षण करने के लिए किया जा सकता है। यह दिखाया गया है कि आँकड़ा परिभाषित किया गया है जब $$   S_n(\theta) = M_n(\theta)= -\sum_{j=1}^{n+1}\ln{D_j(\theta)}, $$ अनुमानक सामान्यता है और यह कि छोटे नमूनों के लिए ची-वर्ग सन्निकटन उपस्थित है। ऐसी स्थितियों में जहां हम सही पैरामीटर $$\theta^0$$ जानते हैं,  आंकड़े बताते हैं कि $$\scriptstyle M_n(\theta)$$ के साथ वितरण सामान्य है $$\begin{align} \mu_M     & \approx (n+1)(\ln(n+1)+\gamma)-\frac{1}{2}-\frac{1}{12(n+1)},\\ \sigma^2_M & \approx (n+1)\left ( \frac{\pi^2}{6} -1 \right ) -\frac{1}{2}-\frac{1}{6(n+1)}, \end{align}$$ जहां γ यूलर-माशेरोनी स्थिरांक है जो लगभग 0.57722 है।

वितरण का अनुमान $$A$$ से भी लगाया जा सकता है, जहाँ $$   A = C_1 + C_2\chi^2_n \, $$जिसमें $$\begin{align} C_1 &= \mu_M - \sqrt{\frac{\sigma^2_Mn}{2}},\\ C_2 &= {\sqrt\frac{\sigma^2_M}{2n}},\\ \end{align}$$ और जहाँ $$\chi^2_n$$ के साथ ची-वर्ग वितरण $$n$$ स्वतंत्रता की डिग्री (सांख्यिकी)का अनुसरण करता है। अत: परिकल्पना $$H_0$$ का परीक्षण करना वह एक यादृच्छिक नमूना है $$n$$ मूल्य $$F(x,\theta)$$ वितरण से आते हैं, $$T(\theta)= \frac{M(\theta)-C_1}{C_2}$$ आंकड़ों की गणना की जा सकती है। तब $$H_0$$ सांख्यिकीय महत्व $$\alpha$$ के साथ अस्वीकार कर दिया जाना चाहिए यदि मान उचित ची-वर्ग वितरण के महत्वपूर्ण मान से अधिक है।

जहाँ $$\hat\theta$$ द्वारा θ0 अनुमान लगाया जा रहा है । ज्ञात हुआ है कि $$S_n(\hat\theta) = M_n(\hat\theta)$$ ज्ञात स्थिति के समान ही स्पर्शोन्मुख माध्य और विचरण है। जबकि उपयोग किए जाने वाले परीक्षण आँकड़ों के लिए पूर्वाग्रह सुधार शब्द जोड़ने की आवश्यकता होती है और यह है: $$   T(\hat\theta) =  \frac{M(\hat\theta)+\frac{k}{2}-C_1}{C_2}, $$ जहाँ $$k$$ अनुमान में मापदंडों की संख्या है.

वैकल्पिक उपाय और रिक्ति
कुल्बैक-लीब्लर माप के अतिरिक्त अन्य F-विचलन का अनुमान लगाने के लिए MSE विधि को सामान्यीकृत किया। ने उच्च क्रम रिक्ति का उपयोग करके अनुमानकों के गुणों की जांच करने की विधि का और विस्तार किया जहां एम-ऑर्डर रिक्ति को इस प्रकार परिभाषित किया जाएगा $$F(X_{j+m}) - F(X_{j})$$.

बहुभिन्नरूपी वितरण
संयुक्त संभाव्यता वितरण स्थिति में विस्तारित अधिकतम रिक्ति विधियों पर चर्चा करें। चूँकि $$\mathbb{R}^k (k>1)$$ हेतु कोई प्राकृतिक व्यवस्था नहीं है जबकि वे दो वैकल्पिक दृष्टिकोणों "डिरिक्लेट कोशिकाओं पर आधारित एक ज्यामितीय दृष्टिकोण और "निकटतम पड़ोसी बाल" मीट्रिक पर आधारित संभाव्य दृष्टिकोण" पर चर्चा करते हैं।

यह भी देखें

 * कुल्बैक-लीब्लर विचलन
 * अधिकतम संभाव्यता
 * प्रायिकता वितरण

उद्धृत कार्य

 * Note: linked paper is an updated 2001 version.
 * Note: linked paper is an updated 2001 version.

श्रेणी:अनुमान लगाने की विधियाँ श्रेणी:संभावना वितरण फिटिंग