हेवी-टेल्ड वितरण

संभाव्यता सिद्धांत में, हेवी-टेल्ड वितरण संभाव्यता वितरण होते हैं जिनकी टेल घातीय रूप से सीमित नहीं होती हैं: अर्थात्, उनके पास घातीय वितरण की तुलना में भारी टेल हैं। कई अनुप्रयोगों में यह वितरण की दाहिनी टेल है जो रुचि की है, लेकिन एक वितरण में भारी बाईं टेल हो सकती है, या दोनों टेल भारी हो सकती हैं।

हेवी-टेल्ड वितरणों के तीन महत्वपूर्ण उपवर्ग हैं: फैट-टेल वितरण, हेवी-टेल्ड वितरण, और उपघातांकीय वितरण। व्यवहार में, सामान्यतः उपयोग किए जाने वाले सभी हेवी-टेल्ड वितरण जोसेफ ट्यूगल्स द्वारा प्रारम्भ किए गए सबएक्सपोनेंशियल वितरण से संबंधित हैं।

हेवी-टेल्ड शब्द के प्रयोग पर अभी भी कुछ विसंगति है। दो अन्य परिभाषाएँ प्रयोग में हैं। कुछ लेखक इस शब्द का उपयोग उन वितरणों को संदर्भित करने के लिए करते हैं जिनकी सारी शक्ति क्षण (गणित) सीमित नहीं है; और कुछ अन्य उन वितरणों के लिए जिनमें कोई सीमित भिन्नता नहीं है। इस आलेख में दी गई परिभाषा उपयोग में सबसे सामान्य है, और इसमें वैकल्पिक परिभाषाओं में सम्मिलित सभी वितरण सम्मिलित हैं, साथ ही लॉग-सामान्य जैसे वितरण भी सम्मिलित हैं जिनमें उनके सभी शक्ति क्षण होते हैं, फिर भी जिन्हें सामान्यतः हेवी-टेल्ड माना जाता है. (कभी-कभी, हेवी-टेल्ड का उपयोग किसी भी वितरण के लिए किया जाता है जिसमें सामान्य वितरण की तुलना में भारी टेल होते हैं।)

हैवी-टेल्ड वितरण की परिभाषा
संचयी वितरण फलन F एक यादृच्छिक चर X के साथ X, MX(t),X(t), सभी t>0 के लिए अनंत है।

इसका मतलब

\int_{-\infty}^\infty e^{t x} \,dF(x) = \infty \quad \mbox{for all } t>0. $$ इसे टेल डिस्ट्रीब्यूशन फलन के संदर्भ में भी लिखा गया है


 * $$\overline{F}(x) \equiv \Pr[X>x] \, $$

जैसा



\lim_{x \to \infty} e^{t x}\overline{F}(x) = \infty \quad \mbox{for all } t >0.\, $$

दीर्घ-टेल वितरण की परिभाषा
संचयी वितरण फलन F के साथ एक यादृच्छिक चर X के वितरण को एक लंबी दाहिनी टेल कहा जाता है यदि सभी t > 0 के लिए,



\lim_{x \to \infty} \Pr[X>x+t\mid X>x] =1, \, $$ या समकक्ष



\overline{F}(x+t) \sim \overline{F}(x) \quad \mbox{as } x \to \infty. \, $$ इसमें दाएं-टेल वाली हेवी-टेल्ड वाली वितरित मात्रा के लिए सहज व्याख्या है कि यदि हेवी-टेल्ड वाली मात्रा कुछ उच्च स्तर से अधिक हो जाती है, तो संभावना 1 तक पहुंच जाती है कि यह किसी अन्य उच्च स्तर से अधिक हो जाएगी।

सभी हेवी-टेल्ड वाले वितरण हेवी-टेल्ड वाले होते हैं, लेकिन इसका विपरीत गलत है, और हेवी-टेल्ड वाले वितरणों का निर्माण करना संभव है जो हेवी-टेल्ड वाले नहीं हैं।

सबएक्सपोनेंशियल वितरण
सबएक्सपोनेंशियलिटी को संभाव्यता वितरण के कनवल्शन के संदर्भ में परिभाषित किया गया है। दो स्वतंत्र, समान रूप से वितरित यादृच्छिक चर के लिए $$ X_1,X_2$$ एक सामान्य वितरण फलन के साथ $$F$$, का कनवल्शन $$F$$ स्वयं के साथ, लिखा हुआ $$F^{*2}$$ और कनवल्शन स्क्वायर कहा जाता है, इसे लेबेस्गु-स्टिल्टजेस एकीकरण का उपयोग करके परिभाषित किया गया है:



\Pr[X_1+X_2 \leq x] = F^{*2}(x) = \int_{0}^x F(x-y)\,dF(y), $$ और n-फोल्ड कनवल्शन $$F^{*n}$$ नियम द्वारा आगमनात्मक रूप से परिभाषित किया गया है:

F^{*n}(x) = \int_{0}^x F(x-y)\,dF^{*n-1}(y). $$ टेल वितरण फलन $$\overline{F}$$ परिभाषित किया जाता है $$\overline{F}(x) = 1-F(x)$$.

एक वितरण $$F$$ घनात्मक अर्ध-रेखा पर उप-घातांकीय है अगर



\overline{F^{*2}}(x) \sim 2\overline{F}(x) \quad \mbox{as } x \to \infty. $$ यह संकेत करता है वह, किसी के लिए $$n \geq 1$$,



\overline{F^{*n}}(x) \sim n\overline{F}(x) \quad \mbox{as } x \to \infty. $$ संभाव्य व्याख्या इसमें से वह है, कुल मिलाकर $$n$$ सांख्यिकीय स्वतंत्रता यादृच्छिक चर $$X_1,\ldots,X_n$$ सामान्य वितरण के साथ $$F$$,



\Pr[X_1+ \cdots +X_n>x] \sim \Pr[\max(X_1, \ldots,X_n)>x] \quad \text{as } x \to \infty. $$ इसे प्रायः सिंगल बिग जम्प के सिद्धांत के रूप में जाना जाता है या प्रलय सिद्धांत. एक वितरण $$F$$ संपूर्ण वास्तविक रेखा पर यदि वितरण उपघातांकीय है $$F I([0,\infty))$$ है। यहाँ $$I([0,\infty))$$ घनात्मक अर्ध-रेखा का सूचक कार्य है। वैकल्पिक रूप से, एक यादृच्छिक चर $$X$$ वास्तविक रेखा पर समर्थित उपघातीय है यदि और केवल यदि $$X^+ = \max(0,X)$$ उपघातीय है.

सभी उप-घातीय वितरण हेवी-टेल्ड वाले होते हैं, लेकिन ऐसे हेवी-टेल्ड वाले वितरणों के उदाहरण बनाए जा सकते हैं जो उप-घातांकीय नहीं होते हैं।

सामान्य हेवी-टेल्ड वाले वितरण
सामान्यतः उपयोग किए जाने वाले सभी हेवी-टेल्ड वितरण उप-घातांकीय होते हैं।

जो एक-टेल वाले हैं उनमें सम्मिलित हैं: जो दो-टेल वाले हैं उनमें सम्मिलित हैं:
 * पेरेटो वितरण;
 * लॉग-सामान्य वितरण;
 * लेवी वितरण;
 * 0 से अधिक लेकिन 1 से कम आकार पैरामीटर वाला वेइबुल वितरण;
 * गड़गड़ाहट वितरण;
 * लॉग-लॉजिस्टिक वितरण;
 * लॉग-गामा वितरण;
 * फ़्रेचेट वितरण;
 * क्यू-गाऊसियन वितरण
 * लॉग-कॉची वितरण, जिसे कभी-कभी  सुपर-भारी टेल  के रूप में वर्णित किया जाता है क्योंकि यह पैरेटो वितरण की तुलना में भारी टेल उत्पादन करने वाले लघुगणकीय विकास को प्रदर्शित करता है।
 * कॉची वितरण, स्वयं स्थिर वितरण और टी-वितरण दोनों का एक विशेष स्थिति है;
 * स्थिर वितरण का समूह, उस  समूह के भीतर सामान्य वितरण के विशेष मामले को छोड़कर। कुछ स्थिर वितरण एकतरफ़ा होते हैं (या आधी-रेखा द्वारा समर्थित होते हैं), उदाहरण के लिए देखें। लेवी वितरण. हेवी-टेल्ड वाले वितरण और अस्थिरता क्लस्टरिंग वाले वित्तीय मॉडल भी देखें।
 * छात्र का t-वितरण t-वितरण।
 * स्क्यू लॉगनॉर्मल कैस्केड वितरण।

फैट-टेल्ड वाले वितरण से संबंध
फैट-टेल्ड वितरण एक ऐसा वितरण है जिसके लिए संभाव्यता घनत्व फलन, बड़े x के लिए, एक शक्ति के रूप में शून्य हो जाता है $$x^{-a}$$. चूँकि ऐसी शक्ति हमेशा एक घातीय वितरण की संभाव्यता घनत्व फलन द्वारा नीचे बंधी होती है, फैट-टेल्ड वाले वितरण हमेशा हेवी-टेल्ड वाले होते हैं। हालाँकि, कुछ वितरणों में एक टेल होती है जो एक घातीय फलन की तुलना में धीमी गति से शून्य पर जाती है (जिसका अर्थ है कि वे हेवी-टेल्ड वाले हैं), लेकिन शक्ति से तेज़ हैं (जिसका अर्थ है कि वे फैट-टेल्ड वाले नहीं हैं)। एक उदाहरण लॉग-सामान्य वितरण हैl हालाँकि, कई अन्य हेवी-टेल्ड वितरण जैसे कि लॉग-लॉजिस्टिक डिस्ट्रीब्यूशन, लॉग-लॉजिस्टिक और पेरेटो डिस्ट्रीब्यूशन डिस्ट्रीब्यूशन भी फैट-टेल्ड हैं।

टेल-इंडेक्स का अनुमान लगाना
पैरामीट्रिक हैं और गैर पैरामीट्रिक टेल-इंडेक्स अनुमान की समस्या के लिए दृष्टिकोण।

पैरामीट्रिक दृष्टिकोण का उपयोग करके टेल-इंडेक्स का अनुमान लगाने के लिए, कुछ लेखक जीईवी वितरण या पेरेटो वितरण का उपयोग करते हैं; वे अधिकतम संभावना अनुमानक (एमएलई) लागू कर सकते हैं।

पिकैंड का टेल-इंडेक्स अनुमानक
साथ $$(X_n, n \geq 1)$$ स्वतंत्र और समान घनत्व फलन का एक यादृच्छिक अनुक्रम $$F \in D(H(\xi))$$, अधिकतम आकर्षण डोमेन सामान्यीकृत चरम मूल्य घनत्व का $$ H $$, जहाँ $$\xi \in \mathbb{R}$$. अगर $$\lim_{n\to\infty} k(n) = \infty $$ और  $$\lim_{n\to\infty} \frac{k(n)}{n}= 0$$, तो पिकैंड्स टेल-इंडेक्स अनुमान है  :$$ \xi^\text{Pickands}_{(k(n),n)} =\frac{1}{\ln 2} \ln \left( \frac{X_{(n-k(n)+1,n)} - X_{(n-2k(n)+1,n)}}{X_{(n-2k(n)+1,n)} - X_{(n-4k(n)+1,n)}}\right), $$

जहाँ $$X_{(n-k(n)+1,n)}=\max \left(X_{n-k(n)+1},\ldots ,X_{n}\right)$$. यह अनुमानक संभाव्यता में परिवर्तित होता है $$\xi$$.

हिल का टेल-इंडेक्स अनुमानक
मान लीजिये $$(X_t, t \geq 1)$$ वितरण फलन के साथ स्वतंत्र और समान रूप से वितरित यादृच्छिक चर का एक अनुक्रम बनें $$F \in D(H(\xi))$$, सामान्यीकृत चरम मूल्य वितरण के आकर्षण का अधिकतम क्षेत्र $$ H $$, जहाँ $$\xi \in \mathbb{R}$$. नमूना पथ है $${X_t: 1 \leq t \leq n}$$ जहाँ $$n$$ नमूना आकार है. अगर $$\{k(n)\}$$ एक मध्यवर्ती क्रम अनुक्रम है, अर्थात $$k(n) \in \{1,\ldots,n-1\}, $$, $$k(n) \to \infty$$ और $$k(n)/n \to 0$$, तो हिल टेल-इंडेक्स अनुमानक है

\xi^\text{Hill}_{(k(n),n)} = \left(\frac 1 {k(n)} \sum_{i=n-k(n)+1}^n \ln(X_{(i,n)}) - \ln (X_{(n-k(n)+1,n)})\right)^{-1}, $$ जहाँ $$X_{(i,n)}$$ है $$i$$-वें क्रम का आँकड़ा $$X_1, \dots, X_n$$. यह अनुमानक संभाव्यता में परिवर्तित होता है $$\xi$$, और स्पर्शोन्मुख रूप से सामान्य प्रदान किया गया है $$k(n) \to \infty $$ उच्च क्रम की नियमित भिन्नता संपत्ति के आधार पर प्रतिबंधित है. संगति और स्पर्शोन्मुख सामान्यता आश्रित और विषम अनुक्रमों के एक बड़े वर्ग तक फैली हुई है, चाहे कुछ भी हो $$X_t$$ देखा जाता है, या मॉडलों और अनुमानकों के एक बड़े वर्ग से अवशिष्ट या फ़िल्टर किए गए डेटा की गणना की जाती है, जिसमें गलत-निर्दिष्ट मॉडल और त्रुटियों वाले मॉडल सम्मिलित हैं जो निर्भर हैं।   ध्यान दें कि पिकैंड और हिल के टेल-इंडेक्स अनुमानक दोनों सामान्यतः ऑर्डर आंकड़ों के लघुगणक का उपयोग करते हैं।

टेल-इंडेक्स का अनुपात अनुमानक
टेल-इंडेक्स का अनुपात अनुमानक (आरई-आकलनकर्ता) गोल्डी द्वारा पेश किया गया था और स्मिथ. इसका निर्माण हिल के अनुमानक के समान ही किया गया है लेकिन यह एक गैर-यादृच्छिक ट्यूनिंग पैरामीटर का उपयोग करता है।

हिल-प्रकार और आरई-प्रकार के अनुमानकों की तुलना नोवाक में पाई जा सकती है।

सॉफ़्टवेयर

 * aest, हेवी-टेल इंडेक्स का अनुमान लगाने के लिए सी (प्रोग्रामिंग भाषा) उपकरण।

हैवी-टेल्ड घनत्व का अनुमान
भारी और सुपरहैवी-टेल्ड संभाव्यता घनत्व कार्यों का अनुमान लगाने के लिए गैर-पैरामीट्रिक दृष्टिकोण दिए गए थे मार्कोविच। ये परिवर्तनीय बैंडविड्थ और हेवी-टेल्ड वाले कर्नेल अनुमानकों पर आधारित दृष्टिकोण हैं; प्रारंभिक डेटा पर परिमित या अनंत अंतराल पर एक नए यादृच्छिक चर में परिवर्तन होता है, जो अनुमान के लिए अधिक सुविधाजनक होता है और फिर प्राप्त घनत्व अनुमान का उलटा परिवर्तन होता है; और टुकड़े-टुकड़े करने का दृष्टिकोण जो घनत्व की टेल के लिए एक निश्चित पैरामीट्रिक मॉडल और घनत्व के मोड का अनुमान लगाने के लिए एक गैर-पैरामीट्रिक मॉडल प्रदान करता है। गैर-पैरामीट्रिक अनुमानकों को कर्नेल अनुमानकों की बैंडविड्थ और हिस्टोग्राम की बिन चौड़ाई जैसे ट्यूनिंग (स्मूथिंग) मापदंडों के उचित चयन की आवश्यकता होती है। इस तरह के चयन की सुप्रसिद्ध डेटा-संचालित विधियां क्रॉस-सत्यापन और इसके संशोधन, माध्य वर्ग त्रुटि (एमएसई) और इसके स्पर्शोन्मुख और उनकी ऊपरी सीमा को कम करने पर आधारित विधियां हैं। एक विसंगति विधि जो वितरण कार्यों (डीएफएस) के स्थान पर एक मीट्रिक के रूप में कोलमोगोरोव-स्मिरनोव, वॉन मिज़ और एंडरसन-डार्लिंग जैसे प्रसिद्ध गैरपैरामीट्रिक आंकड़ों का उपयोग करती है और बाद के आंकड़ों की मात्रा को ज्ञात अनिश्चितता या विसंगति मान के रूप में उपयोग करती है में पाया। बूटस्ट्रैप पुन: नमूने चयन की विभिन्न योजनाओं द्वारा अज्ञात एमएसई के अनुमानों का उपयोग करके स्मूथिंग पैरामीटर खोजने के लिए एक और उपकरण है, उदाहरण के लिए देखें।

यह भी देखें

 * लेप्टोकर्टिक वितरण
 * सामान्यीकृत चरम मूल्य वितरण
 * सामान्यीकृत पेरेटो वितरण
 * आउटलिएर
 * लॉन्ग टेल
 * बिजली नियम
 * यादृच्छिकता की सात अवस्थाएँ
 * फैट-टेल्ड वितरण
 * तालेब वितरण और हौली ग्रेल वितरण