संभाव्यता वितरण फिटिंग

संभाव्यता वितरण फिटिंग या बस वितरण फिटिंग एक परिवर्तनीय घटना के बार-बार माप से संबंधित डेटा की एक श्रृंखला के लिए संभाव्यता वितरण की फिटिंग है। वितरण फिटिंग का उद्देश्य एक निश्चित अंतराल में घटना के परिमाण की संभावना की भविष्यवाणी करना या घटना की आवृत्ति (सांख्यिकी) का पूर्वानुमान लगाना है।

कई संभाव्यता वितरण हैं (संभावना वितरण की सूची देखें) जिनमें से कुछ को घटना और वितरण की विशेषताओं के आधार पर दूसरों की तुलना में डेटा की देखी गई आवृत्ति के अधिक करीब से फिट किया जा सकता है। माना जाता है कि वितरण एक करीबी फिट देता है जिससे अच्छी भविष्यवाणियां होती हैं। इसलिए, वितरण फिटिंग में, किसी को ऐसे वितरण का चयन करने की आवश्यकता होती है जो डेटा के लिए उपयुक्त हो।

वितरण का चयन
उचित वितरण का चयन केंद्रीय प्रवृत्ति के संबंध में डेटा सेट की समरूपता की उपस्थिति या अनुपस्थिति पर निर्भर करता है।

सममित वितरण

जब डेटा को माध्य के चारों ओर सममित रूप से वितरित किया जाता है, जबकि माध्य से दूर डेटा की घटना की आवृत्ति कम हो जाती है, उदाहरण के लिए कोई सामान्य वितरण, लॉजिस्टिक वितरण, या छात्र के टी-वितरण का चयन कर सकता है। पहले दो बहुत समान हैं, जबकि अंतिम, स्वतंत्रता की एक डिग्री के साथ, भारी पूंछ वाले होते हैं जिसका अर्थ है कि माध्य से दूर के मान अपेक्षाकृत अधिक बार होते हैं (यानी कुकुदता अधिक होता है)। कॉची वितरण भी सममित है।

दाईं ओर तिरछा वितरण जब बड़े मान छोटे मानों की तुलना में माध्य से अधिक दूर होते हैं, तो किसी के पास दाईं ओर तिरछा वितरण होता है (यानी सकारात्मक तिरछापन होता है), उदाहरण के लिए कोई लॉगनॉर्मल वितरण का चयन कर सकता है|लॉग-सामान्य वितरण (यानी लॉग डेटा के मान सामान्य वितरण हैं), लॉगलॉजिस्टिक वितरण|लॉग-लॉजिस्टिक वितरण (यानी डेटा के लॉग मान एक लॉजिस्टिक वितरण का पालन करते हैं), गंबेल वितरण, घातांकीय वितरण, पेरेटो वितरण, वेइबुल वितरण, बूर वितरण, या फ़्रेचेट वितरण। अंतिम चार वितरण बाईं ओर बंधे हैं।

बायीं ओर तिरछा वितरण

जब छोटे मान बड़े मानों की तुलना में माध्य से अधिक दूर होते हैं, तो बाईं ओर एक तिरछा वितरण होता है (यानी नकारात्मक तिरछापन होता है), उदाहरण के लिए, कोई वर्ग-सामान्य वितरण का चयन कर सकता है (अर्थात सामान्य वितरण लागू होता है) डेटा मानों का वर्ग), उलटा (प्रतिबिंबित) गम्बेल वितरण, डैगम वितरण (प्रतिबिंबित बूर वितरण), या गोम्पर्ट्ज़ वितरण, जो बाईं ओर घिरा हुआ है।

फिटिंग की तकनीक
वितरण फिटिंग की निम्नलिखित तकनीकें मौजूद हैं:
 * पैरामीटर विधियाँ, जिनके द्वारा डेटा श्रृंखला से वितरण के मापदंडों की गणना की जाती है। पैरामीट्रिक विधियाँ हैं:
 * क्षणों की विधि (सांख्यिकी)
 * अधिकतम अंतर अनुमान
 * एल-क्षणों की विधि
 * अधिकतम संभावना विधि
 * {| class="wikitable"

फ़ाइल:FitGumbelDistr.tif|thumb|220px|CumFreq का उपयोग करके अतिरिक्त आत्मविश्वास बैंड के साथ प्रतिगमन विधि द्वारा सूरीनाम में अधिकतम एक दिवसीय अक्टूबर वर्षा के लिए संचयी गम्बल वितरण फिट किया गया
 * bgcolor="white" | For example, the parameter $$\mu$$ (the expectation) can be estimated by the mean of the data and the parameter $$\sigma^2$$ (the variance) can be estimated from the standard deviation of the data. The mean is found as $m=\sum{X}/n$, where $$X$$ is the data value and $$n$$ the number of data, while the standard deviation is calculated as $s = \sqrt{\frac{1}{n-1} \sum{(X-m)^2}}$ . With these parameters many distributions, e.g. the normal distribution, are completely defined.
 * }
 * संचयी वितरण फ़ंक्शन के परिवर्तन का उपयोग करके प्लॉटिंग स्थिति प्लस रिग्रेशन विश्लेषण, ताकि संचयी संभाव्यता और डेटा के मूल्यों के बीच एक रैखिक संबंध पाया जा सके, जिसे चयनित संभाव्यता वितरण के आधार पर रूपांतरित करने की भी आवश्यकता हो सकती है। इस विधि में प्लॉटिंग स्थिति द्वारा संचयी संभाव्यता का अनुमान लगाने की आवश्यकता होती है
 * {| class="wikitable"


 * bgcolor="white" |For example, the cumulative Gumbel distribution can be linearized to $$Y=aX+b$$, where $$X$$ is the data variable and $$Y=-\ln(-\ln P)$$, with $$P$$ being the cumulative probability, i.e. the probability that the data value is less than $$X$$. Thus, using the plotting position for $$P$$, one finds the parameters $$a$$ and $$b$$ from a linear regression of $$Y$$ on $$X$$, and the Gumbel distribution is fully defined.
 * }

वितरण का सामान्यीकरण
सममित वितरण (सामान्य वितरण और लॉजिस्टिक वितरण की तरह) को फिट करने के लिए डेटा को लॉगरिदमिक रूप से परिवर्तित करने की प्रथा है, जो वितरण का पालन करने वाले डेटा में सकारात्मक रूप से तिरछा होता है (यानी दाईं ओर तिरछा, माध्य> मोड (सांख्यिकी) के साथ, और दाहिने हाथ की पूंछ के साथ) जो बाएं हाथ की पूंछ से अधिक लंबी है), लॉगनॉर्मल डिस्ट्रीब्यूशन और लॉगलॉजिस्टिक डिस्ट्रीब्यूशन देखें। डेटा का वर्गमूल लेकर एक समान प्रभाव प्राप्त किया जा सकता है।

नकारात्मक रूप से तिरछे वितरण (यानी बाईं ओर तिरछा, माध्य <मोड (सांख्यिकी) के साथ, और दाएं हाथ की पूंछ के साथ यह बाएं हाथ की पूंछ से छोटा होता है) का पालन करने वाले डेटा में एक सममित वितरण फिट करने के लिए कोई व्यक्ति के वर्ग मान का उपयोग कर सकता है फिट पूरा करने के लिए डेटा।

किसी भी विषमता के वितरण का पालन करते हुए डेटा में सममित वितरण फिट करने के लिए आम तौर पर कोई डेटा को पावर पी तक बढ़ा सकता है, जिससे तिरछापन सकारात्मक होने पर पी <1 और तिरछापन नकारात्मक होने पर पी > 1 हो सकता है। पी का इष्टतम मान संख्यात्मक विधि द्वारा ज्ञात किया जाना है। संख्यात्मक विधि में पी मानों की एक श्रृंखला को मानना, फिर सभी कल्पित पी मानों के लिए वितरण फिटिंग प्रक्रिया को बार-बार लागू करना और अंत में पी के मान का चयन करना शामिल हो सकता है जिसके लिए मापी गई आवृत्तियों (ची) से गणना की गई संभावनाओं के विचलन के वर्गों का योग होता है। -वर्ग परीक्षण) न्यूनतम है, जैसा कि CumFreq में किया जाता है।

सामान्यीकरण संभाव्यता वितरण के लचीलेपन को बढ़ाता है और वितरण फिटिंग में उनकी प्रयोज्यता को बढ़ाता है।

सामान्यीकरण की बहुमुखी प्रतिभा इसे संभव बनाती है, उदाहरण के लिए, लगभग सामान्य रूप से वितरित डेटा सेट को बड़ी संख्या में विभिन्न संभाव्यता वितरणों में फिट करना, जबकि नकारात्मक रूप से विषम वितरणों को फिट किया जा सकता है वर्ग सामान्य और प्रतिबिंबित गम्बेल वितरण।

तिरछापन का व्युत्क्रम
संचयी वितरण फ़ंक्शन (F) की गणितीय अभिव्यक्ति को इसके पूरक द्वारा प्रतिस्थापित करके तिरछे वितरण को उलटा (या प्रतिबिंबित) किया जा सकता है: F'=1-F, संचयी वितरण फ़ंक्शन #पूरक संचयी वितरण फ़ंक्शन (पूंछ वितरण) प्राप्त करना (भी) उत्तरजीविता फ़ंक्शन कहा जाता है) जो एक दर्पण छवि देता है। इस प्रकार, एक वितरण जो दाईं ओर तिरछा है, एक ऐसे वितरण में बदल जाता है जो बाईं ओर तिरछा है और इसके विपरीत।
 * {| class="wikitable"

तिरछापन व्युत्क्रमण की तकनीक वितरण फिटिंग के लिए उपलब्ध संभाव्यता वितरणों की संख्या को बढ़ाती है और वितरण फिटिंग के अवसरों को बढ़ाती है।
 * bgcolor="white" |Example. The F-expression of the positively skewed Gumbel distribution is: F=exp[-exp{-(X-u)/0.78s}], where u is the mode (i.e. the value occurring most frequently) and s is the standard deviation. The Gumbel distribution can be transformed using F'=1-exp[-exp{-(x-u)/0.78s}] . This transformation yields the inverse, mirrored, or complementary Gumbel distribution that may fit a data series obeying a negatively skewed distribution.
 * }

वितरण का स्थानांतरण
कुछ संभाव्यता वितरण, जैसे घातीय वितरण, नकारात्मक डेटा मान (X) का समर्थन नहीं करते हैं। फिर भी, जब नकारात्मक डेटा मौजूद होता है, तब भी ऐसे वितरणों का उपयोग X को Y=X-Xm से प्रतिस्थापित करके किया जा सकता है, जहां Xm, X का न्यूनतम मान है। यह प्रतिस्थापन संभाव्यता वितरण के सकारात्मक दिशा में बदलाव का प्रतिनिधित्व करता है, यानी दाईं ओर, क्योंकि एक्सएम ऋणात्मक है। Y की वितरण फिटिंग को पूरा करने के बाद, संबंधित X-मान X=Y+Xm से पाए जाते हैं, जो नकारात्मक दिशा में, यानी बाईं ओर वितरण के बैक-शिफ्ट का प्रतिनिधित्व करता है। वितरण स्थानांतरण की तकनीक उचित रूप से उपयुक्त संभाव्यता वितरण खोजने का मौका बढ़ाती है।

समग्र वितरण
विकल्प दो अलग-अलग संभाव्यता वितरणों का उपयोग करने के लिए मौजूद है, एक निम्न डेटा रेंज के लिए, और एक उच्चतर के लिए, उदाहरण के लिए लाप्लास वितरण। श्रेणियाँ एक ब्रेक-पॉइंट द्वारा अलग की जाती हैं। ऐसे समग्र (असंतत) संभाव्यता वितरण का उपयोग तब उपयुक्त हो सकता है जब अध्ययन की गई घटना का डेटा दो अलग-अलग परिस्थितियों में प्राप्त किया गया हो।

भविष्यवाणी की अनिश्चितता
फिट किए गए संभाव्यता वितरण के आधार पर घटना की भविष्यवाणियां अनिश्चितता के अधीन हैं, जो निम्नलिखित स्थितियों से उत्पन्न होती हैं:


 * घटनाओं का वास्तविक संभाव्यता वितरण फिट किए गए वितरण से विचलित हो सकता है, क्योंकि देखी गई डेटा श्रृंखला यादृच्छिक त्रुटि के कारण घटना के घटित होने की वास्तविक संभावना का पूरी तरह से प्रतिनिधि नहीं हो सकती है।
 * किसी अन्य स्थिति में या भविष्य में घटनाओं की घटना फिट किए गए वितरण से विचलित हो सकती है क्योंकि यह घटना यादृच्छिक त्रुटि के अधीन भी हो सकती है
 * पर्यावरणीय परिस्थितियों में बदलाव से घटना के घटित होने की संभावना में बदलाव हो सकता है

फ़ाइल:SampleFreqCurves.tif|thumb|सैद्धांतिक 1000 साल के रिकॉर्ड (बेस लाइन) से 50-वर्षीय नमूनों के बाएँ वक्र, बेन्सन से डेटा पहले और दूसरे मामले में अनिश्चितता का अनुमान द्विपद वितरण के साथ प्राप्त किया जा सकता है, उदाहरण के लिए पे की अधिकता की संभावना (यानी घटना एक्स, एक्स के संदर्भ मान एक्सआर से बड़ी है) और गैर की संभावना का उपयोग करके। अधिकता Pn (अर्थात् घटना X, संदर्भ मान Xr से छोटी या उसके बराबर होने की संभावना, इसे संचयी संभाव्यता भी कहा जाता है)। इस मामले में केवल दो संभावनाएँ हैं: या तो अति है या अति है। यह द्वंद्व ही कारण है कि द्विपद वितरण लागू होता है।

द्विपद वितरण से कोई पूर्वानुमान अंतराल प्राप्त कर सकता है। ऐसा अंतराल विफलता के जोखिम का भी अनुमान लगाता है, यानी संभावना है कि अनुमानित घटना अभी भी विश्वास अंतराल के बाहर बनी हुई है। आत्मविश्वास या जोखिम विश्लेषण में रिटर्न अवधि T=1/Pe शामिल हो सकती है जैसा कि जल विज्ञान में किया जाता है।





फिट की अच्छाई
विभिन्न वितरणों की उपयुक्तता की रैंकिंग करके कोई यह अनुमान लगा सकता है कि कौन सा वितरण स्वीकार्य है और कौन सा नहीं।

हिस्टोग्राम और घनत्व फ़ंक्शन
संचयी वितरण फ़ंक्शन (सीडीएफ) से कोई हिस्टोग्राम और संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) प्राप्त कर सकता है।

यह भी देखें

 * वक्र फिटिंग
 * घनत्व अनुमान
 * मिश्रण वितरण
 * उत्पाद वितरण