हेवी-टेल्ड वितरण

संभाव्यता सिद्धांत में, भारी-पूंछ वाले वितरण संभाव्यता वितरण होते हैं जिनकी पूंछ घातीय रूप से सीमित नहीं होती हैं: अर्थात्, उनके पास घातीय वितरण की तुलना में भारी पूंछ हैं। कई अनुप्रयोगों में यह वितरण की दाहिनी पूंछ है जो रुचि की है, लेकिन एक वितरण में भारी बाईं पूंछ हो सकती है, या दोनों पूंछ भारी हो सकती हैं।

भारी-पूंछ वाले वितरणों के तीन महत्वपूर्ण उपवर्ग हैं: वसा-पूंछ वाले वितरण, लंबी-पूंछ वाले वितरण, और उपघातांकीय वितरण। व्यवहार में, आमतौर पर उपयोग किए जाने वाले सभी हेवी-टेल्ड वितरण जोसेफ ट्यूगल्स द्वारा शुरू किए गए सबएक्सपोनेंशियल वर्ग से संबंधित हैं। हेवी-टेल्ड शब्द के प्रयोग पर अभी भी कुछ विसंगति है। दो अन्य परिभाषाएँ प्रयोग में हैं। कुछ लेखक इस शब्द का उपयोग उन वितरणों को संदर्भित करने के लिए करते हैं जिनकी सारी शक्ति क्षण (गणित) सीमित नहीं है; और कुछ अन्य उन वितरणों के लिए जिनमें कोई सीमित भिन्नता नहीं है। इस आलेख में दी गई परिभाषा उपयोग में सबसे सामान्य है, और इसमें वैकल्पिक परिभाषाओं में शामिल सभी वितरण शामिल हैं, साथ ही लॉग-सामान्य जैसे वितरण भी शामिल हैं जिनमें उनके सभी शक्ति क्षण होते हैं, फिर भी जिन्हें आम तौर पर भारी-पूंछ माना जाता है. (कभी-कभी, हेवी-टेल्ड का उपयोग किसी भी वितरण के लिए किया जाता है जिसमें सामान्य वितरण की तुलना में भारी टेल होते हैं।)

हैवी-टेल्ड वितरण की परिभाषा
संचयी वितरण फलन F के साथ एक यादृच्छिक चरX(t), सभी t>0 के लिए अनंत है। इसका मत

\int_{-\infty}^\infty e^{t x} \,dF(x) = \infty \quad \mbox{for all } t>0. $$ इसे टेल डिस्ट्रीब्यूशन फ़ंक्शन के संदर्भ में भी लिखा गया है


 * $$\overline{F}(x) \equiv \Pr[X>x] \, $$

जैसा



\lim_{x \to \infty} e^{t x}\overline{F}(x) = \infty \quad \mbox{for all } t >0.\, $$

दीर्घ-पूंछ वितरण की परिभाषा
संचयी वितरण फ़ंक्शन F के साथ एक यादृच्छिक चर X के वितरण को एक लंबी दाहिनी पूंछ कहा जाता है यदि सभी t > 0 के लिए,



\lim_{x \to \infty} \Pr[X>x+t\mid X>x] =1, \, $$ या समकक्ष



\overline{F}(x+t) \sim \overline{F}(x) \quad \mbox{as } x \to \infty. \, $$ इसमें दाएं-पूंछ वाली लंबी-पूंछ वाली वितरित मात्रा के लिए सहज व्याख्या है कि यदि लंबी-पूंछ वाली मात्रा कुछ उच्च स्तर से अधिक हो जाती है, तो संभावना 1 तक पहुंच जाती है कि यह किसी अन्य उच्च स्तर से अधिक हो जाएगी।

सभी लंबी-पूंछ वाले वितरण भारी-पूंछ वाले होते हैं, लेकिन इसका विपरीत गलत है, और भारी-पूंछ वाले वितरणों का निर्माण करना संभव है जो लंबी-पूंछ वाले नहीं हैं।

उपघातांकीय वितरण
सबएक्सपोनेंशियलिटी को संभाव्यता वितरण के कनवल्शन के संदर्भ में परिभाषित किया गया है। दो स्वतंत्र, समान रूप से वितरित यादृच्छिक चर के लिए $$ X_1,X_2$$ एक सामान्य वितरण फ़ंक्शन के साथ $$F$$, का कनवल्शन $$F$$ स्वयं के साथ, लिखा हुआ $$F^{*2}$$ और कनवल्शन स्क्वायर कहा जाता है, इसे लेबेस्गु-स्टिल्टजेस एकीकरण का उपयोग करके परिभाषित किया गया है:



\Pr[X_1+X_2 \leq x] = F^{*2}(x) = \int_{0}^x F(x-y)\,dF(y), $$ और एन-फोल्ड कनवल्शन $$F^{*n}$$ नियम द्वारा आगमनात्मक रूप से परिभाषित किया गया है:

F^{*n}(x) = \int_{0}^x F(x-y)\,dF^{*n-1}(y). $$ पूंछ वितरण समारोह $$\overline{F}$$ परिभाषित किया जाता है $$\overline{F}(x) = 1-F(x)$$.

एक वितरण $$F$$ सकारात्मक अर्ध-रेखा पर उप-घातांकीय है अगर



\overline{F^{*2}}(x) \sim 2\overline{F}(x) \quad \mbox{as } x \to \infty. $$ यह संकेत करता है वह, किसी के लिए $$n \geq 1$$,



\overline{F^{*n}}(x) \sim n\overline{F}(x) \quad \mbox{as } x \to \infty. $$ संभाव्य व्याख्या इसमें से वह है, कुल मिलाकर $$n$$ सांख्यिकीय स्वतंत्रता यादृच्छिक चर $$X_1,\ldots,X_n$$ सामान्य वितरण के साथ $$F$$,



\Pr[X_1+ \cdots +X_n>x] \sim \Pr[\max(X_1, \ldots,X_n)>x] \quad \text{as } x \to \infty. $$ इसे अक्सर एकल बड़ी छलांग के सिद्धांत के रूप में जाना जाता है या प्रलय सिद्धांत. एक वितरण $$F$$ संपूर्ण वास्तविक रेखा पर यदि वितरण उपघातांकीय है $$F I([0,\infty))$$ है। यहाँ $$I([0,\infty))$$ सकारात्मक अर्ध-रेखा का सूचक कार्य है। वैकल्पिक रूप से, एक यादृच्छिक चर $$X$$ वास्तविक रेखा पर समर्थित उपघातीय है यदि और केवल यदि $$X^+ = \max(0,X)$$ उपघातीय है.

सभी उप-घातीय वितरण लंबी-पूंछ वाले होते हैं, लेकिन ऐसे लंबी-पूंछ वाले वितरणों के उदाहरण बनाए जा सकते हैं जो उप-घातांकीय नहीं होते हैं।

सामान्य भारी-पूंछ वाले वितरण
आमतौर पर उपयोग किए जाने वाले सभी हेवी-टेल्ड वितरण उप-घातांकीय होते हैं।

जो एक-पूंछ वाले हैं उनमें शामिल हैं: जो दो-पूंछ वाले हैं उनमें शामिल हैं:
 * पेरेटो वितरण;
 * लॉग-सामान्य वितरण;
 * लेवी वितरण;
 * 0 से अधिक लेकिन 1 से कम आकार पैरामीटर वाला वेइबुल वितरण;
 * गड़गड़ाहट वितरण;
 * लॉग-लॉजिस्टिक वितरण;
 * लॉग-गामा वितरण;
 * फ़्रेचेट वितरण;
 * क्यू-गाऊसियन वितरण
 * लॉग-कॉची वितरण, जिसे कभी-कभी सुपर-भारी पूंछ के रूप में वर्णित किया जाता है क्योंकि यह पैरेटो वितरण की तुलना में भारी पूंछ पैदा करने वाले लघुगणकीय विकास को प्रदर्शित करता है।
 * कॉची वितरण, स्वयं स्थिर वितरण और टी-वितरण दोनों का एक विशेष मामला है;
 * स्थिर वितरण का परिवार, उस परिवार के भीतर सामान्य वितरण के विशेष मामले को छोड़कर। कुछ स्थिर वितरण एकतरफ़ा होते हैं (या आधी-रेखा द्वारा समर्थित होते हैं), उदाहरण के लिए देखें। लेवी वितरण. लंबी-पूंछ वाले वितरण और अस्थिरता क्लस्टरिंग वाले वित्तीय मॉडल भी देखें।
 * छात्र का t-वितरण|t-वितरण।
 * तिरछा लॉगनॉर्मल कैस्केड वितरण।

मोटी पूंछ वाले वितरण से संबंध
फैट-टेल्ड वितरण एक ऐसा वितरण है जिसके लिए संभाव्यता घनत्व फ़ंक्शन, बड़े x के लिए, एक शक्ति के रूप में शून्य हो जाता है $$x^{-a}$$. चूँकि ऐसी शक्ति हमेशा एक घातीय वितरण की संभाव्यता घनत्व फ़ंक्शन द्वारा नीचे बंधी होती है, वसा-पूंछ वाले वितरण हमेशा भारी-पूंछ वाले होते हैं। हालाँकि, कुछ वितरणों में एक टेल होती है जो एक घातीय फ़ंक्शन की तुलना में धीमी गति से शून्य पर जाती है (जिसका अर्थ है कि वे भारी-पूंछ वाले हैं), लेकिन एक शक्ति से तेज़ हैं (जिसका अर्थ है कि वे मोटे-पूंछ वाले नहीं हैं)। एक उदाहरण लॉग-सामान्य वितरण है. हालाँकि, कई अन्य हेवी-टेल्ड वितरण जैसे कि लॉग-लॉजिस्टिक डिस्ट्रीब्यूशन|लॉग-लॉजिस्टिक और पेरेटो डिस्ट्रीब्यूशन डिस्ट्रीब्यूशन भी फैट-टेल्ड हैं।

टेल-इंडेक्स का अनुमान लगाना
पैरामीट्रिक हैं और गैर पैरामीट्रिक टेल-इंडेक्स अनुमान की समस्या के लिए दृष्टिकोण।

पैरामीट्रिक दृष्टिकोण का उपयोग करके टेल-इंडेक्स का अनुमान लगाने के लिए, कुछ लेखक जीईवी वितरण या पेरेटो वितरण का उपयोग करते हैं; वे अधिकतम संभावना अनुमानक (एमएलई) लागू कर सकते हैं।

पिकैंड का टेल-इंडेक्स अनुमानक
साथ $$(X_n, n \geq 1)$$ स्वतंत्र और समान घनत्व फ़ंक्शन का एक यादृच्छिक अनुक्रम $$F \in D(H(\xi))$$, अधिकतम आकर्षण डोमेन सामान्यीकृत चरम मूल्य घनत्व का $$ H $$, कहाँ $$\xi \in \mathbb{R}$$. अगर $$\lim_{n\to\infty} k(n) = \infty $$ और  $$\lim_{n\to\infty} \frac{k(n)}{n}= 0$$, तो पिकैंड्स टेल-इंडेक्स अनुमान है  :$$ \xi^\text{Pickands}_{(k(n),n)} =\frac{1}{\ln 2} \ln \left( \frac{X_{(n-k(n)+1,n)} - X_{(n-2k(n)+1,n)}}{X_{(n-2k(n)+1,n)} - X_{(n-4k(n)+1,n)}}\right), $$ कहाँ $$X_{(n-k(n)+1,n)}=\max \left(X_{n-k(n)+1},\ldots ,X_{n}\right)$$. यह अनुमानक संभाव्यता में परिवर्तित होता है $$\xi$$.

हिल का टेल-इंडेक्स अनुमानक
होने देना $$(X_t, t \geq 1)$$ वितरण फ़ंक्शन के साथ स्वतंत्र और समान रूप से वितरित यादृच्छिक चर का एक अनुक्रम बनें $$F \in D(H(\xi))$$, सामान्यीकृत चरम मूल्य वितरण के आकर्षण का अधिकतम क्षेत्र $$ H $$, कहाँ $$\xi \in \mathbb{R}$$. नमूना पथ है $${X_t: 1 \leq t \leq n}$$ कहाँ $$n$$ नमूना आकार है. अगर $$\{k(n)\}$$ एक मध्यवर्ती क्रम अनुक्रम है, अर्थात $$k(n) \in \{1,\ldots,n-1\}, $$, $$k(n) \to \infty$$ और $$k(n)/n \to 0$$, तो हिल टेल-इंडेक्स अनुमानक है

\xi^\text{Hill}_{(k(n),n)} = \left(\frac 1 {k(n)} \sum_{i=n-k(n)+1}^n \ln(X_{(i,n)}) - \ln (X_{(n-k(n)+1,n)})\right)^{-1}, $$ कहाँ $$X_{(i,n)}$$ है $$i$$-वें क्रम का आँकड़ा $$X_1, \dots, X_n$$. यह अनुमानक संभाव्यता में परिवर्तित होता है $$\xi$$, और स्पर्शोन्मुख रूप से सामान्य प्रदान किया गया है $$k(n) \to \infty $$ उच्च क्रम की नियमित भिन्नता संपत्ति के आधार पर प्रतिबंधित है. संगति और स्पर्शोन्मुख सामान्यता आश्रित और विषम अनुक्रमों के एक बड़े वर्ग तक फैली हुई है, चाहे कुछ भी हो $$X_t$$ देखा जाता है, या मॉडलों और अनुमानकों के एक बड़े वर्ग से अवशिष्ट या फ़िल्टर किए गए डेटा की गणना की जाती है, जिसमें गलत-निर्दिष्ट मॉडल और त्रुटियों वाले मॉडल शामिल हैं जो निर्भर हैं।   ध्यान दें कि पिकैंड और हिल के टेल-इंडेक्स अनुमानक दोनों आमतौर पर ऑर्डर आंकड़ों के लघुगणक का उपयोग करते हैं।

टेल-इंडेक्स का अनुपात अनुमानक
टेल-इंडेक्स का अनुपात अनुमानक (आरई-आकलनकर्ता) गोल्डी द्वारा पेश किया गया था और स्मिथ. इसका निर्माण हिल के अनुमानक के समान ही किया गया है लेकिन यह एक गैर-यादृच्छिक ट्यूनिंग पैरामीटर का उपयोग करता है।

हिल-प्रकार और आरई-प्रकार के अनुमानकों की तुलना नोवाक में पाई जा सकती है।

सॉफ़्टवेयर

 * aest, हेवी-टेल इंडेक्स का अनुमान लगाने के लिए सी (प्रोग्रामिंग भाषा) उपकरण।

हैवी-टेल्ड घनत्व का अनुमान
भारी और सुपरहैवी-टेल्ड संभाव्यता घनत्व कार्यों का अनुमान लगाने के लिए गैर-पैरामीट्रिक दृष्टिकोण दिए गए थे मार्कोविच। ये परिवर्तनीय बैंडविड्थ और लंबी-पूंछ वाले कर्नेल अनुमानकों पर आधारित दृष्टिकोण हैं; प्रारंभिक डेटा पर परिमित या अनंत अंतराल पर एक नए यादृच्छिक चर में परिवर्तन होता है, जो अनुमान के लिए अधिक सुविधाजनक होता है और फिर प्राप्त घनत्व अनुमान का उलटा परिवर्तन होता है; और टुकड़े-टुकड़े करने का दृष्टिकोण जो घनत्व की पूंछ के लिए एक निश्चित पैरामीट्रिक मॉडल और घनत्व के मोड का अनुमान लगाने के लिए एक गैर-पैरामीट्रिक मॉडल प्रदान करता है। गैर-पैरामीट्रिक अनुमानकों को कर्नेल अनुमानकों की बैंडविड्थ और हिस्टोग्राम की बिन चौड़ाई जैसे ट्यूनिंग (स्मूथिंग) मापदंडों के उचित चयन की आवश्यकता होती है। इस तरह के चयन की सुप्रसिद्ध डेटा-संचालित विधियां क्रॉस-सत्यापन और इसके संशोधन, माध्य वर्ग त्रुटि (एमएसई) और इसके स्पर्शोन्मुख और उनकी ऊपरी सीमा को कम करने पर आधारित विधियां हैं। एक विसंगति विधि जो वितरण कार्यों (डीएफएस) के स्थान पर एक मीट्रिक के रूप में कोलमोगोरोव-स्मिरनोव, वॉन मिज़ और एंडरसन-डार्लिंग जैसे प्रसिद्ध गैरपैरामीट्रिक आंकड़ों का उपयोग करती है और बाद के आंकड़ों की मात्रा को ज्ञात अनिश्चितता या विसंगति मान के रूप में उपयोग करती है में पाया। बूटस्ट्रैप पुन: नमूने चयन की विभिन्न योजनाओं द्वारा अज्ञात एमएसई के अनुमानों का उपयोग करके स्मूथिंग पैरामीटर खोजने के लिए एक और उपकरण है, उदाहरण के लिए देखें।

यह भी देखें

 * लेप्टोकर्टिक वितरण
 * सामान्यीकृत चरम मूल्य वितरण
 * सामान्यीकृत पेरेटो वितरण
 * बाहरी
 * लंबी पूंछ
 * बिजली कानून
 * यादृच्छिकता की सात अवस्थाएँ
 * वसा-पूंछ वितरण
 * तालेब वितरण और पवित्र कब्र वितरण