मल्टीमॉडल वितरण

सांख्यिकी में, मल्टीमॉडल वितरण एक से अधिक मोड (सांख्यिकी) वाला संभाव्यता वितरण है। ये संभाव्यता घनत्व फ़ंक्शन में अलग-अलग चोटियों (स्थानीय मैक्सिमा) के रूप में दिखाई देते हैं, जैसा कि चित्र 1 और 2 में दिखाया गया है। श्रेणीबद्ध, सतत और असतत डेटा सभी मल्टीमॉडल वितरण बना सकते हैं। अविभाज्य विश्लेषणों में, मल्टीमॉडल वितरण आमतौर पर द्विमोडल होते हैं।

शब्दावली
जब दो मोड असमान होते हैं तो बड़े मोड को प्रमुख मोड और दूसरे को लघु मोड के रूप में जाना जाता है। मोड के बीच सबसे कम बारंबार मान को एंटीमोड के रूप में जाना जाता है। प्रमुख और लघु मोड के बीच के अंतर को आयाम के रूप में जाना जाता है। समय श्रृंखला में प्रमुख मोड को एक्रोफ़ेज़ और एंटीमोड को बैटीफ़ेज़ कहा जाता है।

गाल्टुंग का वर्गीकरण
गाल्टुंग ने वितरण के लिए एक वर्गीकरण प्रणाली (एजेयूएस) शुरू की:
 * ए: यूनिमॉडल वितरण - बीच में शिखर
 * जे: यूनिमॉडल - दोनों छोर पर शिखर
 * यू: बिमोडल - दोनों सिरों पर चोटियाँ
 * एस: बिमॉडल या मल्टीमॉडल - एकाधिक शिखर

इस वर्गीकरण को तब से थोड़ा संशोधित किया गया है:


 * जे: (संशोधित) - दाईं ओर शिखर
 * एल: यूनिमॉडल - बाईं ओर शिखर
 * एफ: कोई शिखर नहीं (सपाट)

इस वर्गीकरण के तहत द्विमोडल वितरण को प्रकार एस या यू के रूप में वर्गीकृत किया गया है।

उदाहरण
गणित और प्राकृतिक विज्ञान दोनों में द्विमोडल वितरण होते हैं।

संभावना वितरण
महत्वपूर्ण द्विमोडल वितरणों में आर्क्साइन वितरण और बीटा वितरण शामिल हैं (यदि दोनों पैरामीटर ए और बी 1 से कम हैं)। अन्य में यू-द्विघात वितरण शामिल है।

दो सामान्य वितरणों का अनुपात भी द्विमासिक रूप से वितरित किया जाता है।


 * $$ R = \frac{ a + x }{ b + y } $$

जहां a और b स्थिर हैं और x और y को 0 के माध्य और 1 के मानक विचलन के साथ सामान्य चर के रूप में वितरित किया जाता है। R में एक ज्ञात घनत्व है जिसे एक संगम हाइपरजियोमेट्रिक फ़ंक्शन के रूप में व्यक्त किया जा सकता है।

वितरित यादृच्छिक चर के व्युत्क्रम का वितरण द्विमोडल होता है जब स्वतंत्रता की डिग्री एक से अधिक होती है। इसी प्रकार सामान्य रूप से वितरित चर का व्युत्क्रम भी द्विमासिक रूप से वितरित होता है।

कॉची वितरण से प्राप्त डेटा सेट से उत्पन्न आँकड़ा द्वि-मोडल है।

प्रकृति में घटनाएँ
बिमोडल वितरण वाले चर के उदाहरणों में कुछ गरम पानी का झरना  के विस्फोटों के बीच का समय, गैलेक्सी रंग-परिमाण आरेख, श्रमिक बुनकर चींटियों का आकार, हॉजकिन के लिंफोमा की घटना की उम्र, अमेरिकी वयस्कों में दवा आइसोनियाज़िड की निष्क्रियता की गति, शामिल हैं।  नया  का पूर्ण परिमाण, और उन सांध्य जानवरों की सर्कैडियन लय जो सुबह और शाम दोनों समय सक्रिय होते हैं। मत्स्य विज्ञान में मल्टीमॉडल लंबाई वितरण विभिन्न वर्ष वर्गों को दर्शाते हैं और इस प्रकार मछली की आबादी के आयु वितरण और वृद्धि अनुमान के लिए इसका उपयोग किया जा सकता है। तलछट आमतौर पर द्वि-मोडल तरीके से वितरित होते हैं। जब मेजबान चट्टान और खनिजयुक्त शिराओं को पार करते हुए खनन दीर्घाओं का नमूना लिया जाता है, तो भू-रासायनिक चर का वितरण द्वि-मोडल होगा। ट्रैफिक विश्लेषण में बिमॉडल वितरण भी देखा जाता है, जहां सुबह के व्यस्त समय के दौरान और फिर अपराह्न के व्यस्त समय के दौरान ट्रैफिक चरम पर होता है। यह घटना दैनिक जल वितरण में भी देखी जाती है, क्योंकि वर्षा, खाना पकाने और शौचालय के उपयोग के रूप में पानी की मांग आमतौर पर सुबह और शाम के समय चरम पर होती है।

अर्थमिति
अर्थमिति मॉडल में, पैरामीटरों को द्वि-मॉडल रूप से वितरित किया जा सकता है।

गणितीय
एक द्विमोडल वितरण आमतौर पर दो अलग-अलग यूनिमोडल वितरणों (यानी केवल एक मोड वाले वितरण) के मिश्रण के रूप में उत्पन्न होता है। दूसरे शब्दों में, द्विविध रूप से वितरित यादृच्छिक चर X को इस प्रकार परिभाषित किया गया है $$ Y $$ संभाव्यता के साथ $$ \alpha $$ या $$ Z $$ संभाव्यता के साथ $$ (1-\alpha), $$ जहां Y और Z एक-मॉडल यादृच्छिक चर हैं और $$0 < \alpha < 1$$ मिश्रण गुणांक है.

दो अलग-अलग घटकों वाले मिश्रणों को द्वि-मॉडल होने की आवश्यकता नहीं है और यूनिमॉडल घटक घनत्व वाले दो घटक मिश्रणों में दो से अधिक मोड हो सकते हैं। मिश्रण में घटकों की संख्या और परिणामी घनत्व के तरीकों की संख्या के बीच कोई तत्काल संबंध नहीं है।

विशेष वितरण
डेटा सेट में बार-बार होने के बावजूद, बिमोडल वितरण का अध्ययन शायद ही कभी किया गया है. ऐसा फ़्रीक्वेंटिस्ट या बायेसियन तरीकों से उनके मापदंडों का अनुमान लगाने में आने वाली कठिनाइयों के कारण हो सकता है। उनमें से जिनका अध्ययन किया गया है

आपदा सिद्धांत#Cusp आपदा में द्विरूपता भी स्वाभाविक रूप से उत्पन्न होती है।
 * द्विमोडल घातीय वितरण।
 * अल्फा-तिरछा-सामान्य वितरण।
 * बिमोडल तिरछा-सममित सामान्य वितरण।
 * कॉनवे-मैक्सवेल-पॉइसन वितरण का मिश्रण बिमोडल गणना डेटा में फिट किया गया है।

जीवविज्ञान
जीव विज्ञान में जनसंख्या आकार के द्वि-मोडल वितरण में योगदान देने के लिए पांच कारकों को जाना जाता है:


 * व्यक्तिगत आकारों का प्रारंभिक वितरण
 * व्यक्तियों के बीच विकास दर का वितरण
 * प्रत्येक व्यक्ति की विकास दर का आकार और समय पर निर्भरता
 * मृत्यु दर जो प्रत्येक आकार वर्ग को अलग-अलग प्रभावित कर सकती है
 * मानव और चूहे जीनोम में डीएनए मिथाइलेशन।

बुनकर चींटी श्रमिकों के आकार का द्वि-मोडल वितरण श्रमिकों के दो अलग-अलग वर्गों, अर्थात् प्रमुख श्रमिकों और छोटे श्रमिकों के अस्तित्व के कारण उत्पन्न होता है। दोनों संपूर्ण जीनोमों के लिए उत्परिवर्तन के फिटनेस प्रभावों का वितरण और व्यक्तिगत जीन यह अक्सर द्वि-मोडल भी पाया जाता है, अधिकांश उत्परिवर्तन या तो तटस्थ या घातक होते हैं और अपेक्षाकृत कुछ का मध्यवर्ती प्रभाव होता है।

सामान्य गुण
भिन्न-भिन्न साधनों वाले दो एकमोडल वितरणों का मिश्रण आवश्यक रूप से द्विमोडल नहीं होता है। पुरुषों और महिलाओं की ऊंचाई के संयुक्त वितरण को कभी-कभी द्वि-मॉडल वितरण के उदाहरण के रूप में उपयोग किया जाता है, लेकिन वास्तव में पुरुषों और महिलाओं की औसत ऊंचाई में अंतर उनके मानक विचलन के सापेक्ष बहुत छोटा होता है, जब दो वितरण वक्र संयुक्त होते हैं तो द्वि-मॉडलिटी उत्पन्न होती है।. बिमोडल वितरण में अनोखी संपत्ति होती है - यूनिमॉडल वितरण के विपरीत - माध्य माध्यिका की तुलना में अधिक मजबूत नमूना अनुमानक हो सकता है। यह स्पष्ट रूप से मामला है जब वितरण आर्कसाइन वितरण की तरह यू आकार का होता है। यह तब सत्य नहीं हो सकता जब वितरण में एक या अधिक लंबी पूँछें हों।

मिश्रण के क्षण
होने देना


 * $$ f( x ) = p g_1( x ) + ( 1 - p ) g_2( x ) \, $$

कहाँ जीi एक संभाव्यता वितरण है और p मिश्रण पैरामीटर है।

f(x) के क्षण हैं
 * $$ \mu = p \mu_1 + ( 1 - p ) \mu_2 $$
 * $$ \nu_2 = p[ \sigma_1^2 + \delta_1^2 ] + ( 1 - p )[ \sigma_2^2 + \delta_2^2 ]$$
 * $$ \nu_3 = p [ S_1 \sigma_1^3 + 3 \delta_1 \sigma_1^2 + \delta_1^3 ] + ( 1 - p )[ S_2 \sigma_2^3 + 3 \delta_2 \sigma_2^2 + \delta_2^3 ] $$
 * $$ \nu_4 = p[ K_1 \sigma_1^4 + 4 S_1 \delta_1 \sigma_1^3 + 6 \delta_1^2 \sigma_1^2 + \delta_1^4 ] + ( 1 - p )[ K_2 \sigma_2^4 + 4 S_2 \delta_2 \sigma_2^3 + 6 \delta_2^2 \sigma_2^2 + \delta_2^4 ]$$

कहाँ
 * $$ \mu = \int x f( x ) \, dx $$
 * $$ \delta_i = \mu_i - \mu $$
 * $$ \nu_r = \int ( x - \mu )^r f( x ) \, dx $$

और एसi और केi i का तिरछापन और कुकुदता हैंवेंवितरण.

दो सामान्य वितरणों का मिश्रण
ऐसी स्थितियों का सामना करना असामान्य नहीं है जहां एक अन्वेषक का मानना ​​​​है कि डेटा दो सामान्य वितरणों के मिश्रण से आता है। इस कारण इस मिश्रण का कुछ विस्तार से अध्ययन किया गया है। दो सामान्य वितरणों के मिश्रण में अनुमान लगाने के लिए पांच पैरामीटर होते हैं: दो साधन, दो भिन्नताएं और मिश्रण पैरामीटर। समान मानक विचलन वाले दो सामान्य वितरणों का मिश्रण केवल तभी द्विमोडल होता है, जब उनके माध्य सामान्य मानक विचलन से कम से कम दोगुने से भिन्न हों। यदि भिन्नताओं को समान माना जा सकता है (समलैंगिकता केस) तो मापदंडों का अनुमान सरल हो जाता है।

यदि दो सामान्य वितरणों के साधन बराबर हैं, तो संयुक्त वितरण एकमोडल होता है। संयुक्त वितरण की एकरूपता के लिए शर्तें ईसेनबर्गर द्वारा निकाली गई थीं। सामान्य वितरणों के मिश्रण के द्वि-मोडल होने के लिए आवश्यक और पर्याप्त स्थितियों की पहचान रे और लिंडसे द्वारा की गई है। लगभग समान द्रव्यमान वाले दो सामान्य वितरणों के मिश्रण में नकारात्मक कर्टोसिस होता है क्योंकि द्रव्यमान के केंद्र के दोनों ओर के दो मोड प्रभावी रूप से वितरण की पूंछ को कम कर देते हैं।

अत्यधिक असमान द्रव्यमान वाले दो सामान्य वितरणों के मिश्रण में सकारात्मक कर्टोसिस होता है क्योंकि छोटा वितरण अधिक प्रभावी सामान्य वितरण की पूंछ को लंबा कर देता है।

अन्य वितरणों के मिश्रण का अनुमान लगाने के लिए अतिरिक्त मापदंडों की आवश्यकता होती है।

एकरूपता के लिए परीक्षण

 * जब मिश्रण के घटकों में समान भिन्नताएं हों तो मिश्रण एक-मोडल होता है यदि और केवल यदि
 * $$ d \le 1 $$

या


 * $$ \left\vert \log( 1 - p ) - \log( p ) \right\vert \ge 2 \log( d - \sqrt{ d^2 - 1 } ) + 2d \sqrt{ d^2 - 1 } ,$$

जहां पी मिश्रण पैरामीटर है और


 * $$ d = \frac{ \left\vert \mu_1 - \mu_2 \right\vert }{ 2 \sigma }, $$

और कहाँ μ1 और μ2 दो सामान्य वितरणों के साधन हैं और σ उनका मानक विचलन है।


 * केस पी = 1/2 के लिए निम्नलिखित परीक्षण का वर्णन शिलिंग एट अल द्वारा किया गया था। होने देना


 * $$ r = \frac{ \sigma_1^2 }{ \sigma_2^2 } .$$

पृथक्करण कारक (S) है


 * $$ S = \frac{ \sqrt{ -2 + 3r + 3r^2 - 2r^3 + 2( 1 - r + r^2 )^{ 1.5 } } }{ \sqrt{ r }( 1 + \sqrt{ r } ) } .$$

यदि प्रसरण समान हैं तो S = 1. मिश्रण घनत्व एकमापक है यदि और केवल यदि


 * $$ | \mu_1 - \mu_2 | < S | \sigma_1 + \sigma_2 | .$$


 * एकरूपता के लिए पर्याप्त शर्त है
 * $$|\mu_1-\mu_2| \le2\min (\sigma_1,\sigma_2).$$


 * यदि दो सामान्य वितरणों में समान मानक विचलन हैं $$\sigma,$$ एकरूपता के लिए पर्याप्त शर्त है


 * $$|\mu _1-\mu_2|\le 2\sigma \sqrt{1+\frac{|\log p-\ln (1-p)|}{2}}.$$

सारांश आँकड़े
बिमोडल वितरण इस बात का आमतौर पर इस्तेमाल किया जाने वाला उदाहरण है कि किसी मनमाने वितरण पर उपयोग किए जाने पर माध्य, माध्यिका और मानक विचलन जैसे सारांश आँकड़े कैसे भ्रामक हो सकते हैं। उदाहरण के लिए, चित्र 1 में वितरण में, माध्य और मध्यिका लगभग शून्य होगी, भले ही शून्य एक विशिष्ट मान नहीं है। मानक विचलन भी प्रत्येक सामान्य वितरण के विचलन से बड़ा होता है।

हालाँकि कई सुझाव दिए गए हैं, सामान्य द्विमोडल वितरण के मापदंडों को निर्धारित करने के लिए वर्तमान में कोई आम तौर पर सहमत सारांश आँकड़ा (या आँकड़ों का सेट) नहीं है। दो सामान्य वितरणों के मिश्रण के लिए मिश्रण पैरामीटर (संयोजन के लिए वजन) के साथ-साथ साधन और मानक विचलन का आमतौर पर उपयोग किया जाता है - कुल पांच पैरामीटर।

अशमन का डी
एक आँकड़ा जो उपयोगी हो सकता है वह है एशमैन का डी:
 * $$ D = (2^\frac{ 1 }{ 2 }) \frac{ \left| \mu_1 - \mu_2 \right| }{ \sqrt{ ( \sigma_1^2 + \sigma_2^2 ) } } $$

कहां μ1, एम2 साधन और σ हैं1, पी2 मानक विचलन हैं.

दो सामान्य वितरणों के मिश्रण के लिए वितरणों के स्वच्छ पृथक्करण के लिए D > 2 की आवश्यकता होती है।

वैन डेर ईज्क का ए
यह माप आवृत्ति वितरण की सहमति की डिग्री का भारित औसत है। A की सीमा -1 (पूर्ण द्विरूपता) से +1 (पूर्ण एकरूपता) तक होती है। इसे इस प्रकार परिभाषित किया गया है


 * $$ A = U ( 1 - \frac{ S - 1 }{ K - 1 } ) $$

जहाँ U वितरण की एकरूपता है, S उन श्रेणियों की संख्या है जिनमें शून्येतर आवृत्तियाँ हैं और K श्रेणियों की कुल संख्या है।

यदि वितरण में निम्नलिखित तीन विशेषताओं में से कोई एक है तो U का मान 1 है:


 * सभी प्रतिक्रियाएँ एक ही श्रेणी में हैं
 * प्रतिक्रियाएं सभी श्रेणियों के बीच समान रूप से वितरित की जाती हैं
 * प्रतिक्रियाएं दो या दो से अधिक सन्निहित श्रेणियों के बीच समान रूप से वितरित की जाती हैं, अन्य श्रेणियों में शून्य प्रतिक्रियाएं होती हैं

इनके अलावा अन्य वितरणों के साथ डेटा को 'परतों' में विभाजित किया जाना चाहिए। एक परत के भीतर प्रतिक्रियाएँ या तो बराबर या शून्य होती हैं। श्रेणियों को सन्निहित होना आवश्यक नहीं है. प्रत्येक परत के लिए A का मान (Ai) की गणना की जाती है और वितरण के लिए एक भारित औसत निर्धारित किया जाता है। वज़न (wi) प्रत्येक परत के लिए उस परत में प्रतिक्रियाओं की संख्या होती है। प्रतीकों में


 * $$ A_{overall} = \sum w_i A_i $$

एक समान वितरण (असतत) में A = 0 होता है: जब सभी प्रतिक्रियाएँ एक श्रेणी A = +1 में आती हैं।

इस सूचकांक के साथ एक सैद्धांतिक समस्या यह है कि यह मानता है कि अंतराल समान दूरी पर हैं। इससे इसकी प्रयोज्यता सीमित हो सकती है.

बिमोडल पृथक्करण
यह सूचकांक मानता है कि वितरण माध्य (μ) के साथ दो सामान्य वितरणों का मिश्रण है1 और μ2) और मानक विचलन (σ1 और पी2):
 * $$ S = \frac{ \mu_1 - \mu_2 }{ 2( \sigma_1 +\sigma_2 ) } $$

द्विविधता गुणांक
सरले का द्विविधता गुणांक b है
 * $$ \beta = \frac{ \gamma^2 + 1 }{ \kappa } $$

जहां γ तिरछापन है और κ कर्टोसिस है। यहां कर्टोसिस को माध्य के आसपास मानकीकृत चौथे क्षण के रूप में परिभाषित किया गया है। b का मान 0 और 1 के बीच है। इस गुणांक के पीछे तर्क यह है कि हल्की पूंछ वाले द्वि-मोडल वितरण में बहुत कम कर्टोसिस, एक असममित चरित्र, या दोनों होंगे - जो सभी इस गुणांक को बढ़ाते हैं।

एक परिमित नमूने का सूत्र है
 * $$ b = \frac{ g^2 + 1 }{ k + \frac{ 3( n - 1 )^2 }{ ( n - 2 )( n - 3 ) } } $$

जहां n नमूने में वस्तुओं की संख्या है, g नमूना विषमता है और k नमूना अतिरिक्त कर्टोसिस है।

समान वितरण (निरंतर) के लिए b का मान 5/9 है। यह घातीय वितरण के लिए इसका मूल्य भी है। 5/9 से अधिक मान एक द्विमॉडल या मल्टीमॉडल वितरण का संकेत दे सकते हैं, हालांकि संबंधित मान भारी विषम यूनिमॉडल वितरण का परिणाम भी हो सकते हैं। अधिकतम मूल्य (1.0) केवल बर्नौली वितरण द्वारा केवल दो अलग-अलग मूल्यों या दो अलग-अलग डिराक डेल्टा फ़ंक्शन (एक द्वि-डेल्टा वितरण) के योग के साथ पहुंचता है।

इस आँकड़े का वितरण अज्ञात है। यह पियर्सन द्वारा पहले प्रस्तावित एक आँकड़े से संबंधित है - कर्टोसिस और तिरछापन के वर्ग के बीच का अंतर (इन्फ्रा के माध्यम से)।

द्विविधता आयाम
इसे इस प्रकार परिभाषित किया गया है


 * $$ A_B = \frac{A_1 - A_{ an } }{ A_1 } $$

जहाँ एक1 छोटे शिखर का आयाम है और Aan एंटीमोड का आयाम है।

एB हमेशा <1 होता है। बड़े मान अधिक विशिष्ट शिखर दर्शाते हैं।

बिमोडल अनुपात
यह बाएँ और दाएँ शिखर का अनुपात है। गणितीय


 * $$ R = \frac{ A_r }{ A_l } $$

जहाँ एकl और एr क्रमशः बाएँ और दाएँ शिखर के आयाम हैं।

द्विमोडैलिटी पैरामीटर
यह पैरामीटर (बी) विलकॉक के कारण है।
 * $$ B = \sqrt{ \frac{ A_r }{ A_l } } \sum P_i $$

जहाँ एकl और एr क्रमशः बाएँ और दाएँ शिखर के आयाम हैं और Pi i में वितरण के अनुपात के आधार 2 पर लिया गया लघुगणक हैवेंअंतराल. ΣP का अधिकतम मान 1 है लेकिन B का मान इससे अधिक हो सकता है।

इस सूचकांक का उपयोग करने के लिए, मानों का लॉग लिया जाता है। फिर डेटा को चौड़ाई के अंतराल में विभाजित किया जाता है जिसका मान लॉग 2 है। चोटियों की चौड़ाई उनके अधिकतम मूल्यों पर केंद्रित चार गुना 1/4Φ मानी जाती है।

द्विविधता सूचकांक

 * वांग का सूचकांक

वांग एट अल द्वारा प्रस्तावित द्विविधता सूचकांक मानता है कि वितरण समान भिन्नताओं लेकिन अलग-अलग साधनों के साथ दो सामान्य वितरणों का योग है। इसे इस प्रकार परिभाषित किया गया है:


 * $$ \delta = \frac{ | \mu_1 - \mu_2 |}{ \sigma } $$

कहां μ1, एम2 साधन हैं और σ सामान्य मानक विचलन है।


 * $$ BI = \delta \sqrt{ p( 1 - p ) } $$

जहाँ p मिश्रण पैरामीटर है।


 * स्टुर्रोक का सूचकांक

स्टुर्रोक द्वारा एक अलग जैव-मॉडलिटी सूचकांक प्रस्तावित किया गया है। इस सूचकांक (बी) को इस प्रकार परिभाषित किया गया है


 * $$ B = \frac{ 1 }{ N } \left[ \left( \sum_1^N \cos ( 2 \pi m \gamma ) \right)^2 + \left( \sum_1^N \sin ( 2 \pi m \gamma ) \right)^2 \right] $$

जब m = 2 और γ को समान रूप से वितरित किया जाता है, तो B को चरघातांकीय रूप से वितरित किया जाता है। यह आँकड़ा आवर्त सारणी का एक रूप है। यह आँकड़ों के इस रूप में आम अनुमान और वर्णक्रमीय रिसाव की सामान्य समस्याओं से ग्रस्त है।


 * डी मिशेल और एकाटिनो का सूचकांक

डी मिशेल और एकाटिनो द्वारा एक और जैव-मॉडलिटी सूचकांक प्रस्तावित किया गया है। इनका सूचकांक (बी) है


 * $$ B = | \mu - \mu_M | $$

जहां μ नमूने का अंकगणितीय माध्य है और


 * $$ \mu_M = \frac{ \sum_{ i = 1 }^L m_i x_i }{ \sum_{ i = 1 }^L m_i } $$

कहाँ एमi i में डेटा बिंदुओं की संख्या हैवेंबिन, एक्सi का केंद्र है Iवेंबिन और एल डिब्बे की संख्या है।

लेखकों ने बाइमोडल (बी > 0.1) और यूनिमॉडल (बी <0.1) वितरण के बीच अंतर करने के लिए बी के लिए 0.1 के कट-ऑफ मान का सुझाव दिया। इस मूल्य के लिए कोई सांख्यिकीय औचित्य प्रस्तुत नहीं किया गया।


 * सैमब्रूक स्मिथ का सूचकांक

सैम्ब्रुक स्मिथ एट अल द्वारा एक और सूचकांक (बी) प्रस्तावित किया गया है

$$ B = | \phi_2 - \phi_1 | \frac{ p_2 }{ p_1 } $$ जहां पी1 और पी2 प्राथमिक (अधिक आयाम वाले) और द्वितीयक (कम आयाम वाले) मोड और φ में निहित अनुपात हैं1 और φ2 प्राथमिक और द्वितीयक मोड के φ-आकार हैं। φ-आकार को आधार 2 पर लिए गए डेटा आकार के लॉग के एक गुना से कम के रूप में परिभाषित किया गया है। इस परिवर्तन का उपयोग आमतौर पर तलछट के अध्ययन में किया जाता है।

लेखकों ने 1.5 के कट-ऑफ मान की सिफारिश की, जिसमें बी एक द्वि-मॉडल वितरण के लिए 1.5 से अधिक और एक यूनिमॉडल वितरण के लिए 1.5 से कम है। इस मूल्य के लिए कोई सांख्यिकीय औचित्य नहीं दिया गया।


 * ओत्सु की विधि

दो मोड के बीच पृथक्करण की सीमा खोजने के लिए ओत्सु की विधि मात्रा को कम करने पर निर्भर करती है $$ \frac{ n_1 \sigma_1^2 + n_2 \sigma_2^2 }{ m \sigma^2 } $$ कहां एनi i में डेटा बिंदुओं की संख्या हैवेंउपजनसंख्या, σi2i का प्रसरण हैवेंउपजनसंख्या, मी नमूने का कुल आकार है और σ है2नमूना विचरण है। कुछ शोधकर्ताओं (विशेष रूप से डिजिटल इमेज प्रोसेसिंग के क्षेत्र में) ने इस मात्रा को द्विरूपता का पता लगाने के लिए एक सूचकांक के रूप में अधिक व्यापक रूप से लागू किया है, जिसमें एक छोटा मान अधिक द्विमोडल वितरण का संकेत देता है।

सांख्यिकीय परीक्षण
यह निर्धारित करने के लिए कई परीक्षण उपलब्ध हैं कि डेटा सेट को द्विमॉडल (या मल्टीमॉडल) फैशन में वितरित किया गया है या नहीं।

ग्राफ़िकल विधियाँ
तलछट के अध्ययन में, कण का आकार अक्सर द्वि-मोडल होता है। अनुभवजन्य रूप से, कणों के लॉग (आकार) के विरुद्ध आवृत्ति को प्लॉट करना उपयोगी पाया गया है। यह आमतौर पर कणों को द्विमोडल वितरण में स्पष्ट पृथक्करण देता है। भूवैज्ञानिक अनुप्रयोगों में लघुगणक को आम तौर पर आधार 2 पर ले जाया जाता है। लॉग रूपांतरित मानों को फाई (Φ) इकाइयों के रूप में संदर्भित किया जाता है। इस प्रणाली को अनाज के आकार (या फाई) पैमाने के रूप में जाना जाता है।

एक वैकल्पिक विधि संचयी आवृत्ति के विरुद्ध कण आकार के लॉग को प्लॉट करना है। इस ग्राफ़ में आम तौर पर एंटीमोड के अनुरूप कनेक्टिंग लाइन के साथ दो उचित सीधी रेखाएं शामिल होंगी।


 * सांख्यिकी

कई आँकड़ों के लिए अनुमानित मान ग्राफ़िक प्लॉट से प्राप्त किए जा सकते हैं।


 * $$\mathit{Mean} = \frac{ \phi_{ 16 } + \phi_{ 50 } + \phi_{ 84 } }{ 3 }$$
 * $$\mathit{StdDev} = \frac{ \phi_{ 84 } - \phi_{ 16 } }{ 4 } + \frac{ \phi_{ 95 } - \phi_{ 5 } }{ 6.6 } $$
 * $$\mathit{Skew} = \frac{ \phi_{ 84 } + \phi_{ 16 } - 2  \phi_{ 50 } }{ 2 ( \phi_{ 84 } -  \phi_{ 16 } ) } + \frac{ \phi_{ 95 } +  \phi_{ 5 } -  2 \phi_{ 50 } }{ 2( \phi_{ 95 } - \phi_{ 5 } ) } $$
 * $$\mathit{Kurt} = \frac{ \phi_{ 95 } - \phi_{ 5 } }{ 2.44 ( \phi_{ 75 } - \phi_{ 25 } ) }$$

जहां माध्य माध्य है, StdDev मानक विचलन है, तिरछा तिरछापन है, कर्ट कर्टोसिस है और φx x पर चर φ का मान है वितरण का प्रतिशत.

यूनिमॉडल बनाम बाइमोडल वितरण
1894 में पियर्सन पहले व्यक्ति थे जिन्होंने यह परीक्षण करने के लिए एक प्रक्रिया तैयार की कि क्या एक वितरण को दो सामान्य वितरणों में हल किया जा सकता है। इस विधि के लिए नौवें क्रम के बहुपद के समाधान की आवश्यकता होती है। बाद के एक पेपर में पियर्सन ने बताया कि किसी भी वितरण विषमता के लिए2 + 1 <कर्टोसिस. बाद में पियर्सन ने वह दिखाया
 * $$ b_2 - b_1 \ge 1 $$

कहां बी2 कुर्टोसिस है और बी1 तिरछापन का वर्ग है. समानता केवल दो बिंदु बर्नौली वितरण या दो अलग-अलग डिराक डेल्टा कार्यों के योग के लिए है। ये द्विरूपता के संभावित सबसे चरम मामले हैं। इन दोनों मामलों में कर्टोसिस 1 है। चूंकि वे दोनों सममित हैं, इसलिए उनकी विषमता 0 है और अंतर 1 है।

बेकर ने बाइमॉडल को यूनिमॉडल वितरण में बदलने के लिए एक परिवर्तन का प्रस्ताव रखा। एकरूपता बनाम द्विरूपता के कई परीक्षण प्रस्तावित किए गए हैं: हाल्डेन ने दूसरे केंद्रीय अंतर के आधार पर एक का सुझाव दिया। लार्किन ने बाद में एफ परीक्षण पर आधारित एक परीक्षण पेश किया; बेनेट ने जी-टेस्ट|फिशर के जेड टेस्ट के आधार पर एक बनाया। टोकेशी ने चौथे परीक्षण का प्रस्ताव रखा है। होल्ज़मैन और वोल्मर द्वारा संभावना अनुपात पर आधारित एक परीक्षण प्रस्तावित किया गया है।

स्कोर और वाल्ड परीक्षणों पर आधारित एक विधि प्रस्तावित की गई है। अंतर्निहित वितरण ज्ञात होने पर यह विधि यूनिमॉडल और बाइमोडल वितरण के बीच अंतर कर सकती है।

एंटीमोड परीक्षण
एंटीमोड के लिए सांख्यिकीय परीक्षण ज्ञात हैं।
 * ओत्सु की विधि

दो वितरणों के बीच इष्टतम पृथक्करण निर्धारित करने के लिए ओट्सू की विधि आमतौर पर कंप्यूटर ग्राफिक्स में नियोजित की जाती है।

सामान्य परीक्षण
यह जांचने के लिए कि क्या कोई वितरण यूनिमॉडल के अलावा अन्य है, कई अतिरिक्त परीक्षण तैयार किए गए हैं: बैंडविड्थ परीक्षण (मल्टीमॉडल), डुबकी परीक्षण, अतिरिक्त द्रव्यमान परीक्षण, एमएपी परीक्षण, मोड अस्तित्व परीक्षण, रेफरी नाम=मिन्नोटे1997> चालू परीक्षण, रेफरी नाम = हार्टिगन1992> स्पैन परीक्षण, और काठी परीक्षण.

आर (प्रोग्रामिंग भाषा) के लिए डिप टेस्ट का कार्यान्वयन उपलब्ध है। डिप स्टेटिस्टिक मानों के लिए पी-मान 0 और 1 के बीच होते हैं। 0.05 से कम पी-मान महत्वपूर्ण मल्टीमोडैलिटी को दर्शाते हैं और 0.05 से अधिक लेकिन 0.10 से कम पी-वैल्यू सीमांत महत्व के साथ मल्टीमोडैलिटी का संकेत देते हैं।

सिल्वरमैन का परीक्षण
सिल्वरमैन ने मोड की संख्या के लिए एक बूटस्ट्रैप विधि पेश की। परीक्षण एक निश्चित बैंडविड्थ का उपयोग करता है जो परीक्षण की शक्ति और इसकी व्याख्या को कम कर देता है। सुचारू घनत्व के तहत अत्यधिक संख्या में मोड हो सकते हैं जिनकी बूटस्ट्रैपिंग के दौरान गिनती अस्थिर होती है।

बज्गीर-अग्रवाल परीक्षण
बाजगीर और अग्रवाल ने वितरण के कुर्टोसिस के आधार पर एक परीक्षण का प्रस्ताव दिया है।

विशेष मामले
कई विशेष मामलों के लिए अतिरिक्त परीक्षण उपलब्ध हैं:


 * दो सामान्य वितरणों का मिश्रण

दो सामान्य वितरण डेटा के मिश्रण घनत्व के एक अध्ययन में पाया गया कि दो सामान्य वितरणों में पृथक्करण तब तक मुश्किल था जब तक कि साधन 4-6 मानक विचलन से अलग न हो जाएं। खगोल विज्ञान में कर्नेल माध्य मिलान एल्गोरिथ्म का उपयोग यह तय करने के लिए किया जाता है कि डेटा सेट एकल सामान्य वितरण से संबंधित है या दो सामान्य वितरणों के मिश्रण से।


 * बीटा-सामान्य वितरण

यह वितरण पैरामीटर के कुछ मानों के लिए द्वि-मोडल है। इन मूल्यों के लिए एक परीक्षण का वर्णन किया गया है।

पैरामीटर अनुमान और फिटिंग वक्र
यह मानते हुए कि वितरण को द्वि-मोडल के रूप में जाना जाता है या उपरोक्त एक या अधिक परीक्षणों द्वारा द्वि-मोडल दिखाया गया है, डेटा में एक वक्र फिट करना अक्सर वांछनीय होता है। ये मुश्किल हो सकता है.

कठिन मामलों में बायेसियन विधियाँ उपयोगी हो सकती हैं।

सॉफ़्टवेयर

 * दो सामान्य वितरण

द्विविधता के परीक्षण के लिए आर (प्रोग्रामिंग भाषा) के लिए एक पैकेज उपलब्ध है। यह पैकेज मानता है कि डेटा को दो सामान्य वितरणों के योग के रूप में वितरित किया जाता है। यदि यह धारणा सही नहीं है तो परिणाम विश्वसनीय नहीं हो सकते हैं। इसमें डेटा में दो सामान्य वितरणों के योग को फिट करने के कार्य भी शामिल हैं।

यह मानते हुए कि वितरण दो सामान्य वितरणों का मिश्रण है तो पैरामीटर निर्धारित करने के लिए अपेक्षा-अधिकतमकरण एल्गोरिदम का उपयोग किया जा सकता है। इसके लिए क्लस्टर सहित कई कार्यक्रम उपलब्ध हैं। और आर पैकेज Nor1mix।
 * अन्य वितरण

आर के लिए उपलब्ध मिक्सटूल पैकेज कई अलग-अलग वितरणों के मापदंडों का परीक्षण और अनुमान लगा सकता है। दो दाएँ-पुच्छ गामा वितरणों के मिश्रण के लिए एक पैकेज उपलब्ध है। मिश्रण मॉडल में फिट होने के लिए आर के लिए कई अन्य पैकेज उपलब्ध हैं; इनमें फ्लेक्समिक्स शामिल है, मैकक्लस्ट, एजीआरएमटी, और मिक्सडिस्ट। सांख्यिकीय प्रोग्रामिंग भाषा एसएएस भाषा PROC FREQ प्रक्रिया के साथ विभिन्न प्रकार के मिश्रित वितरणों को भी फिट कर सकती है।

उदाहरण सॉफ़्टवेयर एप्लिकेशन
द कमफ़्रेकए डेटा सेट (X) में समग्र संभाव्यता वितरण की फिटिंग के लिए प्रोग्राम सेट को अलग-अलग वितरण के साथ दो भागों में विभाजित कर सकता है। यह आंकड़ा संचयी वितरण फ़ंक्शन (सीडीएफ) समीकरणों के साथ वितरण फिटिंग के रूप में दोहरे सामान्यीकृत प्रतिबिंबित गम्बेल वितरण का एक उदाहरण दिखाता है:

एक्स <8.10 : सीडीएफ = 1 - exp[-exp{-(0.092X^0.01+935)}] एक्स > 8.10 : सीडीएफ = 1 - exp[-exp{-(-0.0039X^2.79+1.05)}]

यह भी देखें

 * अति फैलाव