संभाव्यता वितरण फिटिंग

संभाव्यता वितरण फिटिंग या पूर्णतः वितरण फिटिंग एक चर घटना के बार-बार माप से संबंधित डेटा की एक श्रृंखला के लिए संभाव्यता वितरण की फिटिंग है। वितरण फिटिंग का उद्देश्य किसी निश्चित अंतराल में घटना की भयावहता की संभावना की भविष्यवाणी करना या घटित होने की आवृत्ति का पूर्वानुमान लगाना है।

कई संभाव्यता वितरण हैं (संभाव्यता वितरण की सूची देखें) जिनमें से कुछ को घटना और वितरण की विशेषताओं के आधार पर, दूसरों की तुलना में डेटा की देखी गई आवृत्ति के अधिक समीप से उपयुक्त किया जा सकता है। यह माना जाता है कि वितरण एक करीबी फिट देता है जिससे अच्छी भविष्यवाणियाँ होती हैं। इसलिए, वितरण फिटिंग में, किसी को ऐसे वितरण का चयन करने की आवश्यकता होती है जो डेटा के लिए उपयुक्त हो।

वितरण का चयन
उपयुक्त वितरण का चयन केंद्रीय प्रवृत्ति के संबंध में डेटा सेट की समरूपता की मौजूदगी या अनुपस्थिति पर निर्भर करता है।

सममित वितरण

जब डेटा को माध्य के चारों ओर सममित रूप से वितरित किया जाता है, जबकि माध्य से दूर डेटा की घटना की आवृत्ति कम हो जाती है, तो उदाहरण के लिए कोई सामान्य वितरण, लॉजिस्टिक वितरण या छात्र के टी-वितरण का चयन कर सकता है। पहले दो बहुत समान हैं, जबकि अंतिम, एक डिग्री की स्वतंत्रता के साथ, "भारी पट" है जिसका अर्थ है कि माध्य से दूर के मान अपेक्षाकृत अधिक बार होते हैं (यानी कर्टोसिस अधिक होता है)। कॉची वितरण भी सममित है।

दाईं ओर विषम वितरण

जब बड़े मान छोटे मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के दाईं ओर तिरछा वितरण होता है (अर्थात धनात्मक विषमता होती है), उदाहरण के लिए, कोई व्यक्ति लॉग-सामान्य वितरण का चयन कर सकता है (यानी डेटा के लॉग मान सामान्य रूप से वितरित होते हैं), लॉग-लॉजिस्टिक वितरण (यानी डेटा के लॉग मान लॉजिस्टिक वितरण का पालन करते हैं), गम्बेल वितरण, घातीय वितरण, पारेतो वितरण, वेइबुल वितरण, बूर वितरण, या फ़्रेचेट वितरण। अंतिम चार वितरण बाईं ओर सीमित हैं। बायीं ओर विषम वितरण

जब छोटे मान बड़े मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के बाईं ओर तिरछा वितरण होता है (यानी ऋणात्मक विषमता होती है), उदाहरण के लिए, व्यक्ति वर्ग-सामान्य वितरण का चयन कर सकता है (अर्थात उस पर लागू सामान्य वितरण डेटा मानों का वर्ग), उलटा (प्रतिबिंबित) गंबेल वितरण, डैगम वितरण (प्रतिबिंबित बूर वितरण), या गोम्पर्ट्ज़ वितरण, जो बाईं ओर घिरा हुआ है।

फिटिंग की तकनीकें
वितरण फिटिंग की निम्नलिखित तकनीकें मौजूद हैं:
 * पैरामीटर विधियाँ, जिनके द्वारा डेटा श्रृंखला से वितरण के मापदंडों की गणना की जाती है। पैरामीट्रिक विधियाँ हैं:
 * क्षणों की विधि (सांख्यिकी)
 * अधिकतम अंतर अनुमान
 * L-क्षणों की विधि
 * अधिकतम संभावना विधि
 * {| class="wikitable"


 * bgcolor="white" | उदाहरण के लिए, पैरामीटर $$\mu$$ (अपेक्षा) का अनुमान डेटा के माध्यम से लगाया जा सकता है और पैरामीटर $$\sigma^2$$(विचरण) का अनुमान डेटा के मानक विचलन से लगाया जा सकता है। माध्य $m=\sum{X}/n$  के रूप में पाया जाता है, जहां $$X$$ डेटा मूल्य है और $$n$$ डेटा की संख्या है, जबकि मानक विचलन की गणना $s = \sqrt{\frac{1}{n-1} \sum{(X-m)^2}}$  के रूप में की जाती है। इन पैरामीटर्स के साथ कई वितरण, उदा. सामान्य वितरण, पूर्णतः परिभाषित हैं।
 * } FitGumbelDistr.tif


 * संचयी वितरण फ़ंक्शन के परिवर्तन का उपयोग करके प्लॉटिंग स्थिति प्लस प्रतिगमन विश्लेषण, ताकि संचयी संभाव्यता और डेटा के मूल्यों के बीच एक रैखिक संबंध पाया जा सके, जिसे चयनित संभाव्यता वितरण के आधार पर बदलने की भी आवश्यकता हो सकती है। इस विधि में प्लॉटिंग स्थिति द्वारा संचयी संभाव्यता का अनुमान लगाने की आवश्यकता होती है।
 * {| class="wikitable"


 * bgcolor="white" |उदाहरण के लिए, संचयी गम्बेल वितरण को $$Y=aX+b$$ पर रेखीयकृत किया जा सकता है, जहां $$X$$ डेटा चर है और $$Y=-\ln(-\ln P)$$, $$P$$ संचयी संभाव्यता होने के साथ, अर्थात संभावना है कि डेटा मान $$X$$ से कम है। इस प्रकार, $$P$$ के लिए प्लॉटिंग स्थिति का उपयोग करते हुए, कोई $$X$$ पर $$Y$$ के एक रैखिक प्रतिगमन से पैरामीटर $$a$$ और $$b$$ पाता है, और गम्बेल वितरण पूरी तरह से परिभाषित होता है।
 * }

वितरण का सामान्यीकरण
सममित वितरण (सामान्य वितरण और लॉजिस्टिक वितरण की तरह) को फिट करने के लिए डेटा को लॉगरिदमिक रूप से परिवर्तित करने की प्रथा है, जो वितरण का पालन करने वाले डेटा में सकारात्मक रूप से तिरछा होता है (यानी दाईं ओर तिरछा, माध्य> मोड (सांख्यिकी) के साथ, और दाहिने हाथ की पूंछ के साथ) जो बाएं हाथ की पूंछ से अधिक लंबी है), लॉगनॉर्मल डिस्ट्रीब्यूशन और लॉगलॉजिस्टिक डिस्ट्रीब्यूशन देखें। डेटा का वर्गमूल लेकर एक समान प्रभाव प्राप्त किया जा सकता है।

नकारात्मक रूप से तिरछे वितरण (यानी बाईं ओर तिरछा, माध्य <मोड (सांख्यिकी) के साथ, और दाएं हाथ की पूंछ के साथ यह बाएं हाथ की पूंछ से छोटा होता है) का पालन करने वाले डेटा में एक सममित वितरण फिट करने के लिए कोई व्यक्ति के वर्ग मान का उपयोग कर सकता है फिट पूरा करने के लिए डेटा।

किसी भी विषमता के वितरण का पालन करते हुए डेटा में सममित वितरण फिट करने के लिए आम तौर पर कोई डेटा को पावर पी तक बढ़ा सकता है, जिससे तिरछापन सकारात्मक होने पर पी <1 और तिरछापन नकारात्मक होने पर पी > 1 हो सकता है। पी का इष्टतम मान संख्यात्मक विधि द्वारा ज्ञात किया जाना है। संख्यात्मक विधि में पी मानों की एक श्रृंखला को मानना, फिर सभी कल्पित पी मानों के लिए वितरण फिटिंग प्रक्रिया को बार-बार लागू करना और अंत में पी के मान का चयन करना शामिल हो सकता है जिसके लिए मापी गई आवृत्तियों (ची) से गणना की गई संभावनाओं के विचलन के वर्गों का योग होता है। -वर्ग परीक्षण) न्यूनतम है, जैसा कि CumFreq में किया जाता है।

सामान्यीकरण संभाव्यता वितरण के लचीलेपन को बढ़ाता है और वितरण फिटिंग में उनकी प्रयोज्यता को बढ़ाता है।

सामान्यीकरण की बहुमुखी प्रतिभा इसे संभव बनाती है, उदाहरण के लिए, लगभग सामान्य रूप से वितरित डेटा सेट को बड़ी संख्या में विभिन्न संभाव्यता वितरणों में फिट करना, जबकि नकारात्मक रूप से विषम वितरणों को फिट किया जा सकता है वर्ग सामान्य और प्रतिबिंबित गम्बेल वितरण।

तिरछापन का व्युत्क्रम
संचयी वितरण फ़ंक्शन (F) की गणितीय अभिव्यक्ति को इसके पूरक द्वारा प्रतिस्थापित करके तिरछे वितरण को उलटा (या प्रतिबिंबित) किया जा सकता है: F'=1-F, संचयी वितरण फ़ंक्शन #पूरक संचयी वितरण फ़ंक्शन (पूंछ वितरण) प्राप्त करना (भी) उत्तरजीविता फ़ंक्शन कहा जाता है) जो एक दर्पण छवि देता है। इस प्रकार, एक वितरण जो दाईं ओर तिरछा है, एक ऐसे वितरण में बदल जाता है जो बाईं ओर तिरछा है और इसके विपरीत।
 * {| class="wikitable"

तिरछापन व्युत्क्रमण की तकनीक वितरण फिटिंग के लिए उपलब्ध संभाव्यता वितरणों की संख्या को बढ़ाती है और वितरण फिटिंग के अवसरों को बढ़ाती है।
 * bgcolor="white" |Example. The F-expression of the positively skewed Gumbel distribution is: F=exp[-exp{-(X-u)/0.78s}], where u is the mode (i.e. the value occurring most frequently) and s is the standard deviation. The Gumbel distribution can be transformed using F'=1-exp[-exp{-(x-u)/0.78s}] . This transformation yields the inverse, mirrored, or complementary Gumbel distribution that may fit a data series obeying a negatively skewed distribution.
 * }

वितरण का स्थानांतरण
कुछ संभाव्यता वितरण, जैसे घातीय वितरण, नकारात्मक डेटा मान (X) का समर्थन नहीं करते हैं। फिर भी, जब नकारात्मक डेटा मौजूद होता है, तब भी ऐसे वितरणों का उपयोग X को Y=X-Xm से प्रतिस्थापित करके किया जा सकता है, जहां Xm, X का न्यूनतम मान है। यह प्रतिस्थापन संभाव्यता वितरण के सकारात्मक दिशा में बदलाव का प्रतिनिधित्व करता है, यानी दाईं ओर, क्योंकि एक्सएम ऋणात्मक है। Y की वितरण फिटिंग को पूरा करने के बाद, संबंधित X-मान X=Y+Xm से पाए जाते हैं, जो नकारात्मक दिशा में, यानी बाईं ओर वितरण के बैक-शिफ्ट का प्रतिनिधित्व करता है। वितरण स्थानांतरण की तकनीक उचित रूप से उपयुक्त संभाव्यता वितरण खोजने का मौका बढ़ाती है।

समग्र वितरण
विकल्प दो अलग-अलग संभाव्यता वितरणों का उपयोग करने के लिए मौजूद है, एक निम्न डेटा रेंज के लिए, और एक उच्चतर के लिए, उदाहरण के लिए लाप्लास वितरण। श्रेणियाँ एक ब्रेक-पॉइंट द्वारा अलग की जाती हैं। ऐसे समग्र (असंतत) संभाव्यता वितरण का उपयोग तब उपयुक्त हो सकता है जब अध्ययन की गई घटना का डेटा दो अलग-अलग परिस्थितियों में प्राप्त किया गया हो।

भविष्यवाणी की अनिश्चितता
फिट किए गए संभाव्यता वितरण के आधार पर घटना की भविष्यवाणियां अनिश्चितता के अधीन हैं, जो निम्नलिखित स्थितियों से उत्पन्न होती हैं:


 * घटनाओं का वास्तविक संभाव्यता वितरण फिट किए गए वितरण से विचलित हो सकता है, क्योंकि देखी गई डेटा श्रृंखला यादृच्छिक त्रुटि के कारण घटना के घटित होने की वास्तविक संभावना का पूरी तरह से प्रतिनिधि नहीं हो सकती है।
 * किसी अन्य स्थिति में या भविष्य में घटनाओं की घटना फिट किए गए वितरण से विचलित हो सकती है क्योंकि यह घटना यादृच्छिक त्रुटि के अधीन भी हो सकती है
 * पर्यावरणीय परिस्थितियों में बदलाव से घटना के घटित होने की संभावना में बदलाव हो सकता है

फ़ाइल:SampleFreqCurves.tif|thumb|सैद्धांतिक 1000 साल के रिकॉर्ड (बेस लाइन) से 50-वर्षीय नमूनों के बाएँ वक्र, बेन्सन से डेटा पहले और दूसरे मामले में अनिश्चितता का अनुमान द्विपद वितरण के साथ प्राप्त किया जा सकता है, उदाहरण के लिए पे की अधिकता की संभावना (यानी घटना एक्स, एक्स के संदर्भ मान एक्सआर से बड़ी है) और गैर की संभावना का उपयोग करके। अधिकता Pn (अर्थात् घटना X, संदर्भ मान Xr से छोटी या उसके बराबर होने की संभावना, इसे संचयी संभाव्यता भी कहा जाता है)। इस मामले में केवल दो संभावनाएँ हैं: या तो अति है या अति है। यह द्वंद्व ही कारण है कि द्विपद वितरण लागू होता है।

द्विपद वितरण से कोई पूर्वानुमान अंतराल प्राप्त कर सकता है। ऐसा अंतराल विफलता के जोखिम का भी अनुमान लगाता है, यानी संभावना है कि अनुमानित घटना अभी भी विश्वास अंतराल के बाहर बनी हुई है। आत्मविश्वास या जोखिम विश्लेषण में रिटर्न अवधि T=1/Pe शामिल हो सकती है जैसा कि जल विज्ञान में किया जाता है।





फिट की अच्छाई
विभिन्न वितरणों की उपयुक्तता की रैंकिंग करके कोई यह अनुमान लगा सकता है कि कौन सा वितरण स्वीकार्य है और कौन सा नहीं।

हिस्टोग्राम और घनत्व फ़ंक्शन
संचयी वितरण फ़ंक्शन (सीडीएफ) से कोई हिस्टोग्राम और संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) प्राप्त कर सकता है।

यह भी देखें

 * वक्र फिटिंग
 * घनत्व अनुमान
 * मिश्रण वितरण
 * उत्पाद वितरण