अधिकतम अंतर अनुमान

From Vigyanwiki
File:Spacings.svg
अधिकतम रिक्ति विधि वितरण फ़ंक्शन को खोजने का प्रयास करती है जैसे कि रिक्ति, D(i), सभी लगभग समान लंबाई के हैं। यह उनके ज्यामितीय माध्य को अधिकतम करके किया जाता है।

आंकड़ों में अधिकतम अंतर अनुमान (MSE या MSP) या अंतर अनुमान का अधिकतम उत्पाद (MPS) अविभाज्य पैरामीट्रिक मॉडल के मापदंडों का अनुमान लगाने की विधि है।[1] इस विधि में डेटा में रिक्तियों के ज्यामितीय माध्य को अधिकतम करने की आवश्यकता होती है जो पड़ोसी डेटा बिंदुओं पर संचयी वितरण फ़ंक्शन के मूल्यों के मध्य अंतर हैं।

इस विधि में अंतर्निहित अवधारणा संभाव्यता अभिन्न परिवर्तन पर आधारित है जिसमें किसी भी यादृच्छिक चर से प्राप्त स्वतंत्र यादृच्छिक नमूनों का एक सेट औसतन यादृच्छिक चर के संचयी वितरण फ़ंक्शन के संबंध में समान रूप से वितरित किया जाना चाहिए। MPS विधि उन पैरामीटर मानों को चुनती है जो एकरूपता के विशिष्ट मात्रात्मक माप के अनुसार देखे गए डेटा को यथासंभव समान बनाते हैं।

डेटा से वितरण के मापदंडों का अनुमान लगाने के लिए सबसे सामान्य उपायों में से अधिकतम संभावना की विधि (MLE) विभिन्न स्थितियों में विभक्त हो सकती है जैसे निरंतर वितरण के कुछ मिश्रण को सम्मिलित करना।[2] इन स्थितियों में अधिकतम अंतर अनुमान की विधि सफल हो सकती है।

शुद्ध गणित और सांख्यिकी में इसके उपयोग के अतिरिक्त जल विज्ञान जैसे क्षेत्रों से डेटा का उपयोग करके विधि के परीक्षण अनुप्रयोगों की सूचना दी गई है।[3] अर्थमिति,[4] चुम्बकीय अनुनाद चित्रण[5] एवं अन्य।[6]


इतिहास और उपयोग

MSE पद्धति को कार्डिफ़ विश्वविद्यालय में रसेल चेंग और निक अमीन और स्वीडिश कृषि विज्ञान विश्वविद्यालय में बो रैनेबी द्वारा स्वतंत्र रूप से प्राप्त किया गया था।[2]लेखकों ने समझाया कि वास्तविक पैरामीटर पर संभाव्यता अभिन्न परिवर्तन के कारण प्रत्येक अवलोकन के मध्य "स्थान" को समान रूप से वितरित किया जाना चाहिए। इसका तात्पर्य यह होगा कि लगातार अवलोकनों पर संचयी वितरण फ़ंक्शन के मूल्यों के मध्य का अंतर बराबर होना चाहिए। यह वह स्थिति है जो इस तरह के रिक्त स्थान के ज्यामितीय माध्य को अधिकतम करता है इसलिए ज्यामितीय माध्य को अधिकतम करने वाले मापदंडों को हल करने से इस तरह परिभाषित "सर्वोत्तम" फिट प्राप्त होगा। रेनबी (1984) यह प्रदर्शित करके विधि को उचित ठहराया कि यह कुल्बैक-लीब्लर विचलन का अनुमानक है जो अधिकतम संभावना अनुमान के समान है लेकिन कुछ वर्गों की समस्याओं के लिए अधिक मजबूत गुणों के साथ है।

कुछ निश्चित वितरण हैं विशेष रूप से तीन या अधिक मापदंडों वाले जिनके निरंतर वितरण के लिए संभावना पैरामीटर स्थान में कुछ पथों के साथ अनंत हो सकती हैं। इन मापदंडों का अनुमान लगाने के लिए अधिकतम संभावना का उपयोग करना अधिकतर विभक्त हो जाता है जहाँ एक पैरामीटर विशिष्ट मान की ओर प्रवृत्त होता है जिसके कारण संभावना अनंत हो जाती है जिससे अन्य पैरामीटर असंगत हो जाते हैं। जबकि अधिकतम रिक्ति की विधि संचयी वितरण फ़ंक्शन पर बिंदुओं के मध्य अंतर पर निर्भर करती है न कि व्यक्तिगत संभावना बिंदुओं पर, इसमें यह समस्या नहीं है और यह वितरण के बहुत व्यापक सरणी पर वैध परिणाम लौटाएगा।[1]

जिन वितरणों में संभावना संबंधी समस्याएं होती हैं वे अधिकतर भौतिक घटनाओं को मॉडल करने के लिए उपयोग किए जाते हैं। हॉल & अल. (2004) बाढ़ निवारण विधियों का विश्लेषण करना चाहते हैं जिसके लिए नदी बाढ़ प्रभावों के सटीक मॉडल की आवश्यकता होती है। वितरण जो इन प्रभावों को उन्नत ढंग से मॉडल करते हैं वे सभी तीन-पैरामीटर मॉडल हैं जो ऊपर वर्णित अनंत संभावना मुद्दे से ग्रस्त हैं जिससे हॉल की अधिकतम रिक्ति प्रक्रिया की जांच होती है। वांग & ली (2006), जब विधि की तुलना अधिकतम संभावना से की जाती है तो 1905 और 1958 के मध्य स्वीडन में मृत्यु के समय सबसे अधिक उम्र के सेट से लेकर वार्षिक अधिकतम हवा की गति वाले सेट तक विभिन्न डेटा सेट का उपयोग किया जाता है।

परिभाषा

निरंतर संचयी वितरण फ़ंक्शन F(x;θ0) के साथ अविभाज्य वितरण से n आकार का iid यादृच्छिक नमूना {x1, ..., xn} दिया गया है जहां θ0 ∈ Θ अनुमान लगाने के लिए अज्ञात पैरामीटर है, मान लीजिए {x(1), ..., x(n)} संगत क्रम आँकड़ा नमूना हो जो कि सबसे छोटे से सबसे बड़े तक सभी अवलोकनों को क्रमबद्ध करने का परिणाम है। सुविधा के लिए x(0) = −∞ और x(n+1) = +∞ को भी निरूपित करें।

निकटवर्ती क्रमित बिंदुओं पर वितरण फ़ंक्शन के मानों के मध्य अंतर को "अंतराल" के रूप में परिभाषित करता है:[7]

इसके पश्चात θ0 का अधिकतम अंतर अनुमानक इसे एक ऐसे मान के रूप में परिभाषित किया गया है जो नमूना रिक्ति के ज्यामितीय माध्य के प्राकृतिक लघुगणक को अधिकतम करता है:
अंकगणित और ज्यामितीय साधनों की असमानता से फलन Sn(θ) ऊपर से −ln(n+1) से घिरा है और इस प्रकार अधिकतम का अस्तित्व कम से कम सर्वोच्च अर्थ में होना चाहिए।

ध्यान दें कि कुछ लेखक फ़ंक्शन Sn(θ) को कुछ अलग ढंग से परिभाषित करते हैं। विशेष रूप से रेनबी (1984) प्रत्येक Di (n+1) के एक कारक द्वारा को गुणा करता है, चेंग & स्टीफेंस (1989) जबकि 1n+1 छोड़ें तथा योग के सामने कारक लगाएं और अधिकतमीकरण को न्यूनतमकरण में बदलने के लिए "-" चिह्न जोड़ें। चूँकि ये θ के संबंध में स्थिरांक हैं एवं संशोधन फ़ंक्शन Sn के अधिकतम के स्थान में परिवर्तन नहीं करते हैं।

उदाहरण

यह अनुभाग अधिकतम अंतर अनुमानक की गणना के दो उदाहरण प्रस्तुत करता है।

उदाहरण 1

File:Spacing Estimation plot for MSE example.svg
संभावना और रिक्ति अनुमान दोनों के अंतर्गत सरल उदाहरण के लिए λ के प्राकृतिक लघुगणक मान के प्लॉट। वे मान जिनके लिए संभावना और रिक्ति दोनों को अधिकतम किया जाता है एवं अधिकतम संभावना और अधिकतम रिक्ति अनुमान की पहचान की जाती है।

मान लीजिए दो मान x(1) = 2, x(2) = 4 को घातीय वितरण F(x;λ) = 1 - e−xλ , x ≥ 0 अज्ञात पैरामीटर λ > 0 के साथ से नमूना लिया गया था। MSE के निर्माण के लिए हमें पहले रिक्तियां ढूंढनी होंगी:

i F(x(i)) F(x(i−1)) Di = F(x(i)) − F(x(i−1))
1 1 − e−2λ 0 1 − e−2λ
2 1 − e−4λ 1 − e−2λ e−2λ − e−4λ
3 1 1 − e−4λ e−4λ

यह प्रक्रिया λ ढूंढकर जारी रहती है जो "अंतर" कॉलम के ज्यामितीय माध्य को अधिकतम करता है। उस परिपाटी का उपयोग करते हुए जो (n+1)st रूट को लेने पर ध्यान नहीं देता है, यह निम्नलिखित उत्पाद के अधिकतमीकरण में बदल जाता है: (1 - e)−2λ) · (e−2λ − e−4λ) · (e−4λ). मान लीजिए μ = e−2λ, समस्या μ5−2μ4+ μ3 का अधिकतम पता लगाने की हो जाती है। विभेदन करते हुए μ को 5μ4−8μ3+3μ2 = 0 को संतुष्ट करना होगा। इस समीकरण के मूल 0, 0.6, और 1 हैं। चूँकि μ वास्तव में e है−2λ इसे शून्य से बड़ा लेकिन एक से कम होना चाहिए। इसलिए एकमात्र स्वीकार्य समाधान है

जो कि माध्य के साथ घातीय वितरण 1λ ≈ 3.915 से मेल खाता है। तुलना के लिए λ का अधिकतम संभावना अनुमान नमूना माध्य 3 का व्युत्क्रम है इसलिए λMLE = ⅓ ≈ 0.333.

उदाहरण 2

मान लीजिए {x(1), ..., x(n)} अज्ञात समापन बिंदुओं a और b के साथ एक समान वितरण (निरंतर) u(a, b) से ऑर्डर किया गया नमूना है। संचयी वितरण फ़ंक्शन F(x;a,b) = (x−a)/(b−a) है जब x∈[a,b] होता है। इसलिए अलग-अलग रिक्तियां दी गई हैं

ज्यामितीय माध्य की गणना करना और फिर लघुगणक, सांख्यिकी Sn के बराबर होगा
यहां केवल तीन पद पैरामीटर a और b पर निर्भर करते हैं। उन मापदंडों के संबंध में अंतर करना और परिणामी रैखिक प्रणाली को हल करना अधिकतम अंतर अनुमान होगा

इन्हें निरंतर समान वितरण के लिए समान रूप से न्यूनतम भिन्नता निष्पक्ष (यूएमवीयू) अनुमानक के रूप में जाना जाता है। इसकी तुलना में यह समस्या a=x(1)और के लिए अधिकतम संभावना अनुमान पक्षपातपूर्ण हैं और इनमें उच्च माध्य-वर्ग त्रुटि है।

गुण

संगति और दक्षता

Plot of a “J-shaped” density function and its corresponding distribution. A shifted Weibull with a scale parameter of 15, a shape parameter of 0.5, and a location parameter of 10. The density asymptotically approaches infinity as x approaches 10, rendering the estimates of the other parameters inconsistent. Note that there is no inflection point in the graph of the distribution.

अधिकतम रिक्ति अनुमानक सुसंगत अनुमानक है जिसमें यह पैरामीटर θ0 के वास्तविक मान की संभावना में अभिसरण करता है जैसे-जैसे नमूना आकार अनंत तक बढ़ता है।[2] अधिकतम अंतर अनुमान की स्थिरता अधिकतम संभावना अनुमानकों की तुलना में कहीं अधिक सामान्य परिस्थितियों में बनी रहती है। विशेष रूप से ऐसे स्थितियों में जहां अंतर्निहित वितरण J-आकार का है जहां MSE सफल होता है वहां अधिकतम संभावना विफल हो जाएगी।[1] J-आकार के घनत्व का एक उदाहरण वेइबुल वितरण है। विशेष रूप से एक वेइबुल वितरण जिसका आकार पैरामीटर 1 से कम है। जैसे-जैसे x स्थान पैरामीटर के निकट पहुंचता है घनत्व अनंत हो जाएगा जिससे अन्य मापदंडों का अनुमान असंगत हो जाएगा।

अधिकतम अंतर अनुमानक भी कम से कम दक्षता (सांख्यिकी) (एसिम्प्टोटिक दक्षता) के रूप में अधिकतम संभावना अनुमानक के रूप में होते हैं जहां बाद वाले उपस्थित होते हैं। जबकि MSE उन स्थितियों में उपस्थित हो सकते हैं जहाँ MLE नहीं हैं।[1]


संवेदनशीलता

अधिकतम अंतर अनुमानक निकट दूरी वाले अवलोकनों और विशेष रूप से संबंधों के प्रति संवेदनशील होते हैं।[8] दिया गया

हम पाते हैं
जब संबंध एकाधिक अवलोकनों के कारण होते हैं तो दोहराए गए अंतराल (जो अन्यथा शून्य होंगे) को संबंधित संभावना से प्रतिस्थापित किया जाना चाहिए।[1]अर्थात् के लिए स्थानापन्न करना चाहिए जैसे कि


जब से

जब संबंध पूर्णांकन त्रुटि के कारण होते हैं, चेंग & स्टीफेंस (1989) प्रभावों को दूर करने के लिए अन्य विधि बताई।[note 1] x से दिए गए r बंधे हुए अवलोकनi xi+r−1 को मान लीजिए δ राउंड-ऑफ़ त्रुटि का प्रतिनिधित्व करता है। तब सभी सच्चे मान इस सीमा में आने चाहिए। वितरण पर संबंधित बिंदु और अब मध्य में होने चाहिए। चेंग और स्टीफेंस यह मानने का सुझाव देते हैं कि वृत्तीय मान इस अंतराल में समान वितरण (निरंतर) हैं, नें परिभाषित किया

MSE पद्धति द्वितीयक क्लस्टरिंग के प्रति भी संवेदनशील है।[8] इस घटना का उदाहरण तब प्रकट होता है जब अवलोकनों का एक सेट एकल सामान्य वितरण से आता है लेकिन वास्तव में विभिन्न साधनों के साथ मिश्रण (संभावना) सामान्य से आता है। दूसरा उदाहरण तब होता है जब माना जाता है कि डेटा घातांकीय वितरण से प्राप्त होता है लेकिन वास्तव में यह गामा वितरण से आता है। इसके पश्चात की स्थति में निचले भाग में छोटी दूरी हो सकती है। M(θ) का उच्च मान इस द्वितीयक क्लस्टरिंग प्रभाव को इंगित करेगा और यह सुझाव देता है कि डेटा पर निकट से दृष्टि रखना आवश्यक आवश्यक है।[8]

मोरन परीक्षण

सांख्यिकी n(θ) पैट मोरन (सांख्यिकीविद्) या मोरन-डार्लिंग सांख्यिकी M(θ) का भी एक रूप है जिसका उपयोग फिट की अच्छाई का परीक्षण करने के लिए किया जा सकता है।[note 2] यह दिखाया गया है कि आँकड़ा परिभाषित किया गया है जब

अनुमानक सामान्यता है और यह कि छोटे नमूनों के लिए ची-वर्ग सन्निकटन उपस्थित है।[8] ऐसी स्थितियों में जहां हम सही पैरामीटर जानते हैं, चेंग & स्टीफेंस (1989) आंकड़े बताते हैं कि के साथ वितरण सामान्य है
जहां γ यूलर-माशेरोनी स्थिरांक है जो लगभग 0.57722 है।[note 3]

वितरण का अनुमान से भी लगाया जा सकता है, जहाँ

जिसमें
और जहाँ के साथ ची-वर्ग वितरण स्वतंत्रता की डिग्री (सांख्यिकी)का अनुसरण करता है। अत: परिकल्पना का परीक्षण करना वह एक यादृच्छिक नमूना है मूल्य वितरण से आते हैं, आंकड़ों की गणना की जा सकती है। तब सांख्यिकीय महत्व के साथ अस्वीकार कर दिया जाना चाहिए यदि मान उचित ची-वर्ग वितरण के महत्वपूर्ण मान से अधिक है।[8]

जहाँ द्वारा θ0 अनुमान लगाया जा रहा है चेंग & स्टीफेंस (1989)। ज्ञात हुआ है कि ज्ञात स्थिति के समान ही स्पर्शोन्मुख माध्य और विचरण है। जबकि उपयोग किए जाने वाले परीक्षण आँकड़ों के लिए पूर्वाग्रह सुधार शब्द जोड़ने की आवश्यकता होती है और यह है:

जहाँ अनुमान में मापदंडों की संख्या है.

सामान्यीकृत अधिकतम रिक्ति

वैकल्पिक उपाय और रिक्ति

रैनबी & एकस्ट्रॉम (1997) कुल्बैक-लीब्लर माप के अतिरिक्त अन्य F-विचलन का अनुमान लगाने के लिए MSE विधि को सामान्यीकृत किया। एकस्ट्रॉम (1997) ने उच्च क्रम रिक्ति का उपयोग करके अनुमानकों के गुणों की जांच करने की विधि का और विस्तार किया जहां एम-ऑर्डर रिक्ति को इस प्रकार परिभाषित किया जाएगा .

बहुभिन्नरूपी वितरण

रैनबी & अल. (2005) संयुक्त संभाव्यता वितरण स्थिति में विस्तारित अधिकतम रिक्ति विधियों पर चर्चा करें। चूँकि हेतु कोई प्राकृतिक व्यवस्था नहीं है जबकि वे दो वैकल्पिक दृष्टिकोणों "डिरिक्लेट कोशिकाओं पर आधारित एक ज्यामितीय दृष्टिकोण और "निकटतम पड़ोसी बाल" मीट्रिक पर आधारित संभाव्य दृष्टिकोण" पर चर्चा करते हैं।

यह भी देखें

टिप्पणियाँ

  1. There appear to be some minor typographical errors in the paper. For example, in section 4.2, equation (4.1), the rounding replacement for , should not have the log term. In section 1, equation (1.2), is defined to be the spacing itself, and is the negative sum of the logs of . If is logged at this step, the result is always ≤ 0, as the difference between two adjacent points on a cumulative distribution is always ≤ 1, and strictly < 1 unless there are only two points at the bookends. Also, in section 4.3, on page 392, calculation shows that it is the variance which has MPS estimate of 6.87, not the standard deviation . – Editor
  2. The literature refers to related statistics as Moran or Moran-Darling statistics. For example, Cheng & Stephens (1989) analyze the form where is defined as above. Wong & Li (2006) use the same form as well. However, Beirlant & al. (2001) uses the form , with the additional factor of inside the logged summation. The extra factors will make a difference in terms of the expected mean and variance of the statistic. For consistency, this article will continue to use the Cheng & Amin/Wong & Li form. -- Editor
  3. Wong & Li (2006) leave out the Euler–Mascheroni constant from their description. -- Editor


संदर्भ

उद्धरण


उद्धृत कार्य

श्रेणी:अनुमान लगाने की विधियाँ श्रेणी:संभावना वितरण फिटिंग