अधिकतम अंतर अनुमान

आंकड़ों में, अधिकतम अंतर अनुमान (एमएसई या एमएसपी), या अंतर अनुमान का अधिकतम उत्पाद (एमपीएस), एक यूनीवेरिएट पैरामीट्रिक मॉडल के मापदंडों का अनुमान लगाने की एक विधि है। विधि में डेटा में रिक्तियों के ज्यामितीय माध्य को अधिकतम करने की आवश्यकता होती है, जो पड़ोसी डेटा बिंदुओं पर संचयी वितरण फ़ंक्शन के मूल्यों के बीच अंतर हैं।

विधि में अंतर्निहित अवधारणा संभाव्यता अभिन्न परिवर्तन पर आधारित है, जिसमें किसी भी यादृच्छिक चर से प्राप्त स्वतंत्र यादृच्छिक नमूनों का एक सेट औसतन यादृच्छिक चर के संचयी वितरण फ़ंक्शन के संबंध में समान रूप से वितरित किया जाना चाहिए। एमपीएस विधि उन पैरामीटर मानों को चुनती है जो एकरूपता के एक विशिष्ट मात्रात्मक माप के अनुसार, देखे गए डेटा को यथासंभव एक समान बनाते हैं।

डेटा से वितरण के मापदंडों का अनुमान लगाने के लिए सबसे आम तरीकों में से एक, अधिकतम संभावना की विधि (एमएलई), विभिन्न मामलों में टूट सकती है, जैसे निरंतर वितरण के कुछ मिश्रण को शामिल करना। इन मामलों में अधिकतम अंतर अनुमान की विधि सफल हो सकती है।

शुद्ध गणित और सांख्यिकी में इसके उपयोग के अलावा, जल विज्ञान जैसे क्षेत्रों से डेटा का उपयोग करके विधि के परीक्षण अनुप्रयोगों की सूचना दी गई है। अर्थमिति, चुम्बकीय अनुनाद इमेजिंग, और दूसरे।

इतिहास और उपयोग
एमएसई पद्धति को कार्डिफ़ विश्वविद्यालय में रसेल चेंग और निक अमीन और स्वीडिश कृषि विज्ञान विश्वविद्यालय में बो रैनेबी द्वारा स्वतंत्र रूप से प्राप्त किया गया था। लेखकों ने समझाया कि वास्तविक पैरामीटर पर संभाव्यता अभिन्न परिवर्तन के कारण, प्रत्येक अवलोकन के बीच "अंतरिक्ष" को समान रूप से वितरित किया जाना चाहिए। इसका तात्पर्य यह होगा कि लगातार अवलोकनों पर संचयी वितरण फ़ंक्शन के मूल्यों के बीच का अंतर बराबर होना चाहिए। यह वह मामला है जो इस तरह के रिक्त स्थान के ज्यामितीय माध्य को अधिकतम करता है, इसलिए ज्यामितीय माध्य को अधिकतम करने वाले मापदंडों को हल करने से इस तरह परिभाषित "सर्वोत्तम" फिट प्राप्त होगा। यह प्रदर्शित करके विधि को उचित ठहराया कि यह कुल्बैक-लीब्लर विचलन का एक अनुमानक है, जो अधिकतम संभावना अनुमान के समान है, लेकिन कुछ वर्गों की समस्याओं के लिए अधिक मजबूत गुणों के साथ है।

कुछ निश्चित वितरण हैं, विशेष रूप से तीन या अधिक मापदंडों वाले, जिनके निरंतर वितरण के लिए संभावना #संभावनाएं पैरामीटर स्थान में कुछ पथों के साथ अनंत हो सकती हैं। इन मापदंडों का अनुमान लगाने के लिए अधिकतम संभावना का उपयोग करना अक्सर टूट जाता है, एक पैरामीटर विशिष्ट मान की ओर प्रवृत्त होता है जिसके कारण संभावना अनंत हो जाती है, जिससे अन्य पैरामीटर असंगत हो जाते हैं। हालाँकि, अधिकतम रिक्ति की विधि, संचयी वितरण फ़ंक्शन पर बिंदुओं के बीच अंतर पर निर्भर करती है, न कि व्यक्तिगत संभावना बिंदुओं पर, इसमें यह समस्या नहीं है, और यह वितरण के बहुत व्यापक सरणी पर वैध परिणाम लौटाएगा।

जिन वितरणों में संभावना संबंधी समस्याएं होती हैं, वे अक्सर भौतिक घटनाओं को मॉडल करने के लिए उपयोग किए जाते हैं। बाढ़ निवारण विधियों का विश्लेषण करना चाहते हैं, जिसके लिए नदी बाढ़ प्रभावों के सटीक मॉडल की आवश्यकता होती है। वितरण जो इन प्रभावों को बेहतर ढंग से मॉडल करते हैं, वे सभी तीन-पैरामीटर मॉडल हैं, जो ऊपर वर्णित अनंत संभावना मुद्दे से ग्रस्त हैं, जिससे हॉल की अधिकतम रिक्ति प्रक्रिया की जांच होती है।, जब विधि की तुलना अधिकतम संभावना से की जाती है, तो 1905 और 1958 के बीच स्वीडन में मृत्यु के समय सबसे अधिक उम्र के सेट से लेकर वार्षिक अधिकतम हवा की गति वाले सेट तक विभिन्न डेटा सेट का उपयोग करें।

परिभाषा
एक आईआईडी यादृच्छिक नमूना दिया गया है {x1, ..., एक्सn} निरंतर संचयी वितरण फ़ंक्शन F(x;θ) के साथ एक अविभाज्य वितरण से आकार n का0), जहां θ0 ∈ Θ अनुमान लगाने के लिए एक अज्ञात पैरामीटर है, मान लीजिए {x(1), ..., एक्स(n)} संगत क्रम आँकड़ा नमूना हो, जो कि सबसे छोटे से सबसे बड़े तक सभी अवलोकनों को क्रमबद्ध करने का परिणाम है। सुविधा के लिए x को भी निरूपित करें(0) = −∞ और x(n+1) = +∞.

निकटवर्ती क्रमित बिंदुओं पर वितरण फ़ंक्शन के मानों के बीच अंतर को "अंतराल" के रूप में परिभाषित करें: $$   D_i(\theta) = F(x_{(i)};\,\theta) - F(x_{(i-1)};\,\theta), \quad i=1,\ldots,n+1. $$ फिर θ का अधिकतम अंतर अनुमानक0 इसे एक ऐसे मान के रूप में परिभाषित किया गया है जो नमूना रिक्ति के ज्यामितीय माध्य के प्राकृतिक लघुगणक को अधिकतम करता है: $$  \hat{\theta} = \underset{\theta\in\Theta}{\operatorname{arg\,max}} \; S_n(\theta), \quad\text{where }\ S_n(\theta) = \ln\!\! \sqrt[n+1]{D_1D_2\cdots D_{n+1}} = \frac{1}{n+1}\sum_{i=1}^{n+1}\ln{D_i}(\theta). $$ अंकगणित और ज्यामितीय साधनों की असमानता से, फलन Sn(θ) ऊपर से −ln(n+1) से घिरा है, और इस प्रकार अधिकतम का अस्तित्व कम से कम सर्वोच्च अर्थ में होना चाहिए।

ध्यान दें कि कुछ लेखक फ़ंक्शन S को परिभाषित करते हैंn(θ) कुछ अलग ढंग से। विशेष रूप से, प्रत्येक D को गुणा करता हैi (n+1) के एक कारक द्वारा, जबकि  छोड़ें $1/undefined$ योग के सामने कारक लगाएं और अधिकतमीकरण को न्यूनतमकरण में बदलने के लिए "-" चिह्न जोड़ें। चूँकि ये θ के संबंध में स्थिरांक हैं, संशोधन फ़ंक्शन S के अधिकतम के स्थान में परिवर्तन नहीं करते हैंn.

उदाहरण
यह अनुभाग अधिकतम अंतर अनुमानक की गणना के दो उदाहरण प्रस्तुत करता है।

उदाहरण 1
मान लीजिए दो मान x(1) = 2, एक्स(2) = 4 को घातीय वितरण F(x;λ) = 1 - e से नमूना लिया गया था−xλ, x ≥ 0 अज्ञात पैरामीटर λ > 0 के साथ। MSE के निर्माण के लिए हमें पहले रिक्तियां ढूंढनी होंगी: यह प्रक्रिया λ ढूंढकर जारी रहती है जो "अंतर" कॉलम के ज्यामितीय माध्य को अधिकतम करता है। उस परिपाटी का उपयोग करते हुए जो (n+1)st रूट को लेने पर ध्यान नहीं देता है, यह निम्नलिखित उत्पाद के अधिकतमीकरण में बदल जाता है: (1 - e)−2λ) · (ई−2λ − ई−4λ) · (ई−4λ). मान लीजिए μ = e−2λ, समस्या μ का अधिकतम पता लगाने की हो जाती है5−2μ4+ मी3. विभेदन करते हुए, μ को 5μ को संतुष्ट करना होगा4−8μ3+3μ2 = 0. इस समीकरण के मूल 0, 0.6, और 1 हैं। चूँकि μ वास्तव में e है−2λ, इसे शून्य से बड़ा लेकिन एक से कम होना चाहिए। इसलिए, एकमात्र स्वीकार्य समाधान है $$   \mu=0.6 \quad \Rightarrow \quad \lambda_{\text{MSE}} = \frac{\ln 0.6}{-2} \approx 0.255,  $$ जो कि माध्य के साथ एक घातीय वितरण से मेल खाता है $1/undefined$ ≈ 3.915. तुलना के लिए, λ का अधिकतम संभावना अनुमान नमूना माध्य, 3 का व्युत्क्रम है, इसलिए λMLE = ⅓ ≈ 0.333.

उदाहरण 2
मान लीजिए {x(1), ..., एक्स(n)} अज्ञात समापन बिंदुओं ए और बी के साथ एक समान वितरण (निरंतर) यू (ए, बी) से ऑर्डर किया गया नमूना है। संचयी वितरण फ़ंक्शन F(x;a,b) = (x−a)/(b−a) है जब x∈[a,b] होता है। इसलिए, अलग-अलग रिक्तियां दी गई हैं $$   D_1 = \frac{x_{(1)}-a}{b-a}, \ \ D_i = \frac{x_{(i)}-x_{(i-1)}}{b-a}\ \text{for } i = 2, \ldots, n, \ \ D_{n+1} = \frac{b-x_{(n)}}{b-a} \ \ $$ ज्यामितीय माध्य की गणना करना और फिर लघुगणक, सांख्यिकी लेनाn के बराबर होगा $$   S_n(a,b) = \tfrac{\ln(x_{(1)}-a)}{n+1}  + \tfrac{\sum_{i=2}^n \ln(x_{(i)}-x_{(i-1)})}{n+1} + \tfrac{\ln(b-x_{(n)})}{n+1} - \ln(b-a) $$ यहां केवल तीन पद पैरामीटर ए और बी पर निर्भर करते हैं। उन मापदंडों के संबंध में अंतर करना और परिणामी रैखिक प्रणाली को हल करना, अधिकतम अंतर अनुमान होगा
 * और पक्षपाती हैं और इनमें उच्च माध्य-वर्ग त्रुटि है।

संगति और दक्षता
अधिकतम रिक्ति अनुमानक एक सुसंगत अनुमानक है जिसमें यह पैरामीटर के वास्तविक मान की संभावना में अभिसरण करता है, θ0, जैसे-जैसे नमूना आकार अनंत तक बढ़ता है। अधिकतम अंतर अनुमान की स्थिरता अधिकतम संभावना अनुमानकों की तुलना में कहीं अधिक सामान्य परिस्थितियों में बनी रहती है। विशेष रूप से, ऐसे मामलों में जहां अंतर्निहित वितरण जे-आकार का है, जहां एमएसई सफल होता है वहां अधिकतम संभावना विफल हो जाएगी। जे-आकार के घनत्व का एक उदाहरण वेइबुल वितरण है, विशेष रूप से एक वेइबुल वितरण#संबंधित वितरण, जिसका आकार पैरामीटर 1 से कम है। जैसे-जैसे x स्थान पैरामीटर के करीब पहुंचता है, घनत्व अनंत हो जाएगा, जिससे अन्य मापदंडों का अनुमान असंगत हो जाएगा।

अधिकतम अंतर अनुमानक भी कम से कम दक्षता (सांख्यिकी)#एसिम्प्टोटिक दक्षता के रूप में अधिकतम संभावना अनुमानक के रूप में होते हैं, जहां बाद वाले मौजूद होते हैं। हालाँकि, MSE उन मामलों में मौजूद हो सकते हैं जहाँ MLE नहीं हैं।

संवेदनशीलता
अधिकतम अंतर अनुमानक निकट दूरी वाले अवलोकनों और विशेष रूप से संबंधों के प्रति संवेदनशील होते हैं। दिया गया $$   X_{i+k} = X_{i+k-1}=\cdots=X_i, \, $$ हम पाते हैं $$   D_{i+k}(\theta) = D_{i+k-1}(\theta) = \cdots = D_{i+1}(\theta) = 0. \, $$ जब संबंध एकाधिक अवलोकनों के कारण होते हैं, तो दोहराए गए अंतराल (जो अन्यथा शून्य होंगे) को संबंधित संभावना से प्रतिस्थापित किया जाना चाहिए। अर्थात् स्थानापन्न करना चाहिए $$f_{i}(\theta)$$ के लिए $$D_i(\theta)$$, जैसा $$   \lim_{x_i \to x_{i-1}}\frac{\int_{x_{i-1}}^{x_i}f(t;\theta)\,dt}{x_i-x_{i-1}} = f(x_{i-1},\theta) = f(x_{i},\theta), $$ तब से $$x_{i} = x_{i-1}$$.

जब संबंध पूर्णांकन त्रुटि के कारण होते हैं, प्रभावों को दूर करने के लिए कोई अन्य विधि सुझाएं। x से दिए गए r बंधे हुए अवलोकनi एक्स कोi+r−1, मान लीजिए δ राउंड-ऑफ़ त्रुटि का प्रतिनिधित्व करता है। तब सभी सच्चे मान इस सीमा में आने चाहिए $$x \pm \delta$$. वितरण पर संबंधित बिंदु अब बीच में होने चाहिए $$y_L = F(x-\delta, \hat\theta)$$ और $$y_U = F(x+\delta, \hat\theta)$$. चेंग और स्टीफेंस यह मानने का सुझाव देते हैं कि गोल मान इस अंतराल में समान वितरण (निरंतर) हैं, परिभाषित करके $$   D_j = \frac{y_U-y_L}{r-1} \quad (j=i+1,\ldots,i+r-1). $$ एमएसई पद्धति द्वितीयक क्लस्टरिंग के प्रति भी संवेदनशील है। इस घटना का एक उदाहरण तब होता है जब अवलोकनों का एक सेट एक एकल सामान्य वितरण से आता है, लेकिन वास्तव में विभिन्न साधनों के साथ मिश्रण (संभावना) सामान्य से आता है। दूसरा उदाहरण तब होता है जब माना जाता है कि डेटा एक घातांकीय वितरण से आता है, लेकिन वास्तव में यह गामा वितरण से आता है। बाद के मामले में, निचली पूंछ में छोटी दूरी हो सकती है। एम(θ) का उच्च मान इस द्वितीयक क्लस्टरिंग प्रभाव को इंगित करेगा, और यह सुझाव देता है कि डेटा पर करीब से नज़र डालना आवश्यक है।

मोरन परीक्षण
सांख्यिकीn(θ) पैट मोरन (सांख्यिकीविद्) या मोरन-डार्लिंग सांख्यिकी, एम(θ) का भी एक रूप है, जिसका उपयोग फिट की अच्छाई का परीक्षण करने के लिए किया जा सकता है। यह दिखाया गया है कि आँकड़ा, जब परिभाषित किया गया है $$   S_n(\theta) = M_n(\theta)= -\sum_{j=1}^{n+1}\ln{D_j(\theta)}, $$ अनुमानक#स्पर्शोन्मुख सामान्यता है, और यह कि छोटे नमूनों के लिए एक ची-वर्ग सन्निकटन मौजूद है। ऐसे मामले में जहां हम सही पैरामीटर जानते हैं $$\theta^0$$, आंकड़े बताते हैं कि $$\scriptstyle M_n(\theta)$$ के साथ सामान्य वितरण है $$\begin{align} \mu_M     & \approx (n+1)(\ln(n+1)+\gamma)-\frac{1}{2}-\frac{1}{12(n+1)},\\ \sigma^2_M & \approx (n+1)\left ( \frac{\pi^2}{6} -1 \right ) -\frac{1}{2}-\frac{1}{6(n+1)}, \end{align}$$ जहां γ यूलर-माशेरोनी स्थिरांक है जो लगभग 0.57722 है।

वितरण का अनुमान इससे भी लगाया जा सकता है $$A$$, कहाँ $$   A = C_1 + C_2\chi^2_n \, $$, जिसमें $$\begin{align} C_1 &= \mu_M - \sqrt{\frac{\sigma^2_Mn}{2}},\\ C_2 &= {\sqrt\frac{\sigma^2_M}{2n}},\\ \end{align}$$ और कहाँ $$\chi^2_n$$ के साथ ची-वर्ग वितरण का अनुसरण करता है $$n$$ स्वतंत्रता की डिग्री (सांख्यिकी)। अत: परिकल्पना का परीक्षण करना $$H_0$$ वह एक यादृच्छिक नमूना है $$n$$ मूल्य वितरण से आते हैं $$F(x,\theta)$$, आँकड़ा $$T(\theta)= \frac{M(\theta)-C_1}{C_2}$$ गणना की जा सकती है. तब $$H_0$$ सांख्यिकीय महत्व के साथ खारिज कर दिया जाना चाहिए $$\alpha$$ यदि मान उचित ची-वर्ग वितरण के महत्वपूर्ण मान से अधिक है।

कहां θ0 द्वारा अनुमान लगाया जा रहा है $$\hat\theta$$, पता चला है कि $$S_n(\hat\theta) = M_n(\hat\theta)$$ ज्ञात मामले के समान ही स्पर्शोन्मुख माध्य और विचरण है। हालाँकि, उपयोग किए जाने वाले परीक्षण आँकड़ों के लिए पूर्वाग्रह सुधार शब्द जोड़ने की आवश्यकता होती है और यह है: $$   T(\hat\theta) =  \frac{M(\hat\theta)+\frac{k}{2}-C_1}{C_2}, $$ कहाँ $$k$$ अनुमान में मापदंडों की संख्या है.

वैकल्पिक उपाय और रिक्ति
कुल्बैक-लीब्लर माप के अलावा अन्य एफ-विचलन का अनुमान लगाने के लिए एमएसई विधि को सामान्यीकृत किया। ने उच्च क्रम रिक्ति का उपयोग करके अनुमानकों के गुणों की जांच करने की विधि का और विस्तार किया, जहां एम-ऑर्डर रिक्ति को इस प्रकार परिभाषित किया जाएगा $$F(X_{j+m}) - F(X_{j})$$.

बहुभिन्नरूपी वितरण
संयुक्त संभाव्यता वितरण मामले में विस्तारित अधिकतम रिक्ति विधियों पर चर्चा करें। चूँकि इसके लिए कोई प्राकृतिक व्यवस्था नहीं है $$\mathbb{R}^k (k>1)$$, वे दो वैकल्पिक दृष्टिकोणों पर चर्चा करते हैं: डिरिक्लेट कोशिकाओं पर आधारित एक ज्यामितीय दृष्टिकोण और "निकटतम पड़ोसी गेंद" मीट्रिक पर आधारित एक संभाव्य दृष्टिकोण।

यह भी देखें

 * कुल्बैक-लीब्लर विचलन
 * अधिकतम संभाव्यता
 * प्रायिकता वितरण

उद्धृत कार्य

 * Note: linked paper is an updated 2001 version.
 * Note: linked paper is an updated 2001 version.

श्रेणी:अनुमान लगाने की विधियाँ श्रेणी:संभावना वितरण फिटिंग