रेखा - चित्र
वर्णनात्मक आँकड़ों में, एक बॉक्स प्लॉट या बॉक्सप्लॉट ग्राफिक रूप से स्थानीयता, प्रसार और संख्यात्मक डेटा के तिरछे समूहों को उनके चतुर्थक के माध्यम से प्रदर्शित करने की एक विधि है।[1] एक बॉक्स प्लॉट पर बॉक्स के अलावा, बॉक्स से फैली हुई लाइनें (जिन्हें मूंछ कहा जाता है) हो सकती हैं, जो ऊपरी और निचले चतुर्थक के बाहर परिवर्तनशीलता का संकेत देती हैं, इस प्रकार प्लॉट को 'बॉक्स-एंड-व्हिस्कर प्लॉट' भी कहा जाता है। और 'बॉक्स-एंड-व्हिस्कर आरेख'। ग़ैर जो बाकी डेटासेट से काफी अलग हैं[2] बॉक्स-प्लॉट पर मूंछ से परे अलग-अलग बिंदुओं के रूप में प्लॉट किया जा सकता है।
बॉक्स प्लॉट गैर पैरामीट्रिक हैं: वे अंतर्निहित संभाव्यता वितरण की कोई धारणा बनाए बिना एक सांख्यिकीय आबादी के नमूनों में भिन्नता प्रदर्शित करते हैं।[3] (हालांकि टकी का बॉक्सप्लॉट मूंछों के लिए समरूपता और उनकी लंबाई के लिए सामान्यता मानता है)। बॉक्स-प्लॉट के प्रत्येक उपखंड में रिक्ति सांख्यिकीय फैलाव (प्रसार) और डेटा के तिरछापन की डिग्री दर्शाती है, जिसे आमतौर पर पांच-संख्या सारांश का उपयोग करके वर्णित किया जाता है। इसके अलावा, बॉक्स-प्लॉट एक व्यक्ति को विभिन्न एल-अनुमानकों, विशेष रूप से अन्तःचतुर्थक श्रेणी, मिडहिंज, रेंज (सांख्यिकी), मध्य-श्रेणी और काट-छांट करना का नेत्रहीन अनुमान लगाने की अनुमति देता है। बॉक्स प्लॉट या तो क्षैतिज या लंबवत रूप से खींचे जा सकते हैं।
इतिहास
रेंज-बार पद्धति को पहली बार मैरी एलेनोर स्पीयर ने 1952 में अपनी पुस्तक चार्टिंग स्टैटिस्टिक्स में पेश किया था[4] और फिर से 1969 में उनकी पुस्तक प्रैक्टिकल चार्टिंग टेक्निक्स में।[5] बॉक्स-एंड-व्हिस्कर प्लॉट पहली बार 1970 में जॉन टुकी द्वारा पेश किया गया था, जिन्होंने बाद में 1977 में अपनी पुस्तक एक्सप्लोरेटरी डेटा एनालिसिस में इस विषय पर प्रकाशित किया था।[6]
तत्व
एक बॉक्सप्लॉट पाँच अंकों के सारांश के आधार पर डेटासेट प्रदर्शित करने का एक मानकीकृत तरीका है: न्यूनतम, अधिकतम, नमूना माध्यिका, और पहला और तीसरा चतुर्थक।
- नमूना न्यूनतम (क्यू0 या 0 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में सबसे कम डेटा बिंदु
- नमूना अधिकतम (क्यू4 या 100 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में उच्चतम डेटा बिंदु
- मंझला (क्यू2 या 50 वाँ प्रतिशतक): डेटा सेट में मध्य मान
- पहला चतुर्थक (क्यू1 या 25वां प्रतिशतक): जिसे निम्न चतुर्थक q के रूप में भी जाना जाता हैn(0.25), यह डेटासेट के निचले आधे हिस्से का माध्यिका है।
- तीसरा चतुर्थक (क्यू3 या 75 वाँ प्रतिशतक): जिसे ऊपरी चतुर्थक q के रूप में भी जाना जाता हैn(0.75), यह डेटासेट के ऊपरी आधे हिस्से का माध्यिका है।[7]
बॉक्स-प्लॉट के निर्माण के लिए उपयोग किए जाने वाले न्यूनतम और अधिकतम मानों के अलावा, एक अन्य महत्वपूर्ण तत्व जिसे बॉक्स-प्लॉट प्राप्त करने के लिए भी नियोजित किया जा सकता है, इंटरक्वेर्टाइल रेंज (IQR) है, जैसा कि नीचे दर्शाया गया है:
- इंटरक्वेरटाइल रेंज (IQR): ऊपरी और निचले चतुर्थक के बीच की दूरी
एक बॉक्स-प्लॉट में आमतौर पर दो भाग होते हैं, एक बॉक्स और मूंछ का एक सेट जैसा कि चित्र 2 में दिखाया गया है। बॉक्स Q से तैयार किया गया है1 क्यू के लिए3 माध्यिका को निरूपित करने के लिए बीच में खींची गई एक क्षैतिज रेखा के साथ। मूंछ को विभिन्न तरीकों से परिभाषित किया जा सकता है।
सबसे सीधी-आगे की विधि में, निचले मूंछ की सीमा डेटा सेट का न्यूनतम मूल्य है, और ऊपरी मूंछ की सीमा डेटा सेट का अधिकतम मूल्य है।
मूंछ की सीमाओं के लिए एक अन्य लोकप्रिय विकल्प 1.5 IQR मान पर आधारित है। ऊपरी चतुर्थक के ऊपर से (Q3), IQR से 1.5 गुना की दूरी मापी जाती है और इस दूरी के भीतर आने वाले डेटासेट से सबसे बड़े देखे गए डेटा बिंदु तक एक मूंछ खींची जाती है। इसी तरह, IQR की 1.5 गुना की दूरी को निम्न चतुर्थक (Q) के नीचे मापा जाता है।1) और इस दूरी के भीतर आने वाले डेटासेट से सबसे कम देखे गए डेटा बिंदु के लिए एक मूंछ खींची जाती है। क्योंकि मूंछ एक देखे गए डेटा बिंदु पर समाप्त होनी चाहिए, मूंछ की लंबाई असमान दिख सकती है, भले ही 1.5 IQR दोनों पक्षों के लिए समान हो। व्हिस्कर्स की सीमा के बाहर देखे गए अन्य सभी डेटा बिंदुओं को 'आउटलेयर' के रूप में प्लॉट किया गया है।[8] आउटलेयर को बॉक्स-प्लॉट पर डॉट, एक छोटा वृत्त, एक स्टार, आदि के रूप में प्लॉट किया जा सकता है।
हालाँकि, मूंछें कई अन्य चीजों के लिए खड़ी हो सकती हैं, जैसे:
- डेटा सेट का न्यूनतम और अधिकतम मान (जैसा चित्र 2 में दिखाया गया है)
- डेटा सेट के माध्य से ऊपर और नीचे एक मानक विचलन
- डेटा सेट का 9वाँ प्रतिशतक और 91वाँ प्रतिशतक
- डेटा सेट का दूसरा प्रतिशतक और 98वां प्रतिशतक
विरले ही बॉक्स प्लॉट बिना मूंछ के प्लॉट किए जा सकते हैं। यह संवेदनशील जानकारी के लिए उचित हो सकता है ताकि मूंछ (और बाहरी) से बचने के लिए वास्तविक मूल्यों का खुलासा किया जा सके।[9] कुछ बॉक्स प्लॉट में डेटा के माध्यम का प्रतिनिधित्व करने के लिए एक अतिरिक्त वर्ण शामिल होता है।[10][11] असामान्य प्रतिशतक 2%, 9%, 91%, 98% का उपयोग कभी-कभी मूंछ क्रॉस-हैच के लिए किया जाता है और सात-संख्या सारांश को दर्शाने के लिए मूंछ समाप्त होती है। यदि डेटा सामान्य वितरण हैं, तो बॉक्स प्लॉट पर सात चिह्नों के स्थान समान रूप से स्थानित होंगे। कुछ बॉक्स भूखंडों पर, प्रत्येक मूंछ के अंत से पहले एक क्रॉस-हैच लगाया जाता है।
इस परिवर्तनशीलता के कारण, बॉक्स-प्लॉट के शीर्षक में व्हिस्कर्स और आउटलेयर के लिए उपयोग किए जा रहे सम्मेलन का वर्णन करना उचित है।
रूपांतर
चूंकि गणितज्ञ जॉन डब्ल्यू। तुकी ने पहली बार 1969 में इस प्रकार के विज़ुअल डेटा डिस्प्ले को लोकप्रिय बनाया था, क्लासिकल बॉक्स प्लॉट पर कई विविधताएँ विकसित की गई हैं, और दो सबसे अधिक पाई जाने वाली विविधताएँ चर चौड़ाई वाले बॉक्स प्लॉट और नॉटेड बॉक्स प्लॉट हैं जो चित्र में दिखाए गए हैं। 4.
परिवर्तनीय चौड़ाई वाले बॉक्स प्लॉट प्रत्येक समूह के आकार का वर्णन करते हैं जिनके डेटा को समूह के आकार के अनुपात में बॉक्स की चौड़ाई बनाकर प्लॉट किया जा रहा है। समूह के आकार के वर्गमूल के अनुपात में बॉक्स की चौड़ाई को आनुपातिक बनाना एक लोकप्रिय परंपरा है।[12] नोकदार बॉक्स प्लॉट माध्यिका के चारों ओर एक पायदान या बॉक्स की संकीर्णता को लागू करते हैं। मंझले के अंतर के महत्व की एक मोटा गाइड की पेशकश करने में पायदान उपयोगी होते हैं; यदि दो बक्सों के पायदान ओवरलैप नहीं होते हैं, तो यह माध्यिका के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर का प्रमाण प्रदान करेगा।[12]खांचे की चौड़ाई नमूने की इंटरक्वेर्टाइल रेंज (IQR) के समानुपाती होती है और नमूने के आकार के वर्गमूल के व्युत्क्रमानुपाती होती है। हालांकि, सबसे उपयुक्त गुणक के बारे में अनिश्चितता है (क्योंकि यह नमूनों के प्रसरणों की समानता के आधार पर भिन्न हो सकता है)।[12] इन खांचों की सीमाओं को प्राप्त करने के लिए एक परिपाटी की दूरी का उपयोग करना है मध्य के आसपास।[13] समायोजित बॉक्स भूखंडों का उद्देश्य तिरछापन का वर्णन करना है, और वे तिरछापन के मध्यम आँकड़ों पर भरोसा करते हैं।[14] एमसी के औसत मूल्य के लिए, बॉक्स-प्लॉट पर ऊपरी और निचले मूंछ की लंबाई क्रमशः इस प्रकार परिभाषित की जाती है:
एक सममित डेटा वितरण के लिए, मेडकूपल शून्य होगा, और यह समायोजित बॉक्स-प्लॉट को टकी के बॉक्स-प्लॉट में बराबर मूंछ की लंबाई के साथ कम कर देता है दोनों मूंछों के लिए।
अन्य प्रकार के बॉक्स प्लॉट, जैसे वायलिन की साजिश और बीन प्लॉट एकल-मोडल और मल्टीमॉडल वितरण वितरण के बीच अंतर दिखा सकते हैं, जिसे मूल शास्त्रीय बॉक्स-प्लॉट से नहीं देखा जा सकता है।[6]
उदाहरण
बाहरी कारकों के बिना उदाहरण
घंटे के तापमान की एक श्रृंखला को पूरे दिन में डिग्री फ़ारेनहाइट में मापा गया। रिकॉर्ड किए गए मान निम्नानुसार सूचीबद्ध हैं (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81।
डेटा सेट का एक बॉक्स प्लॉट पहले इस डेटा सेट के पांच प्रासंगिक मानों की गणना करके उत्पन्न किया जा सकता है: न्यूनतम, अधिकतम, माध्यिका (Q2), पहला चतुर्थक (Q1), और तीसरा चतुर्थक (Q3).
न्यूनतम डेटा सेट की सबसे छोटी संख्या है। इस मामले में, न्यूनतम दर्ज दिन का तापमान 57 डिग्री फारेनहाइट है।
अधिकतम डेटा सेट की सबसे बड़ी संख्या है। इस मामले में, अधिकतम रिकॉर्ड किया गया दिन का तापमान 81 °F है।
माध्यिका क्रमित डेटा सेट की मध्य संख्या है। इसका मतलब यह है कि 50% तत्व माध्यिका से कम हैं और 50% तत्व माध्यिका से अधिक हैं। इस आदेशित डेटा सेट का माध्यिका 70 °F है।
प्रथम चतुर्थक मान (Q1या 25 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के एक चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 25% ऐसे तत्व हैं जो पहले चतुर्थक से कम हैं और ठीक 75% ऐसे तत्व हैं जो इससे अधिक हैं। न्यूनतम और माध्यिका के बीच की मध्य संख्या ज्ञात करके प्रथम चतुर्थक मान आसानी से निर्धारित किया जा सकता है। प्रति घंटा तापमान के लिए, 57 °F और 70 °F के बीच पाई जाने वाली मध्य संख्या 66 °F है।
तीसरा चतुर्थक मान (Q3या 75 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के तीन चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 75% तत्व ऐसे हैं जो तीसरे चतुर्थक से कम हैं और 25% ऐसे तत्व हैं जो इससे अधिक हैं। माध्यिका और अधिकतम के बीच की मध्य संख्या ज्ञात करके तीसरा चतुर्थक मान आसानी से प्राप्त किया जा सकता है। प्रति घंटा तापमान के लिए, 70 °F और 81 °F के बीच की मध्य संख्या 75 °F है।
इंटरक्वेर्टाइल रेंज या आईक्यूआर की गणना पहले क्वार्टाइल वैल्यू (क्यू को घटाकर की जा सकती है।1) तीसरे चतुर्थक मान (क्यू से3):
इस तरह, 1.5 IQR तीसरे चतुर्थक से ऊपर है:
प्रथम चतुर्थक के नीचे 1.5 IQR है:
बॉक्स-प्लॉट की ऊपरी मूंछ सीमा सबसे बड़ा डेटा मान है जो तीसरे चतुर्थक के ऊपर 1.5 IQR के भीतर है। यहाँ, तीसरे चतुर्थक के ऊपर 1.5 IQR 88.5 °F और अधिकतम 81 °F है। इसलिए, ऊपरी मूंछ अधिकतम के मान पर खींची जाती है, जो कि 81 °F है।
इसी तरह, बॉक्स प्लॉट की निचली मूंछ सीमा सबसे छोटा डेटा मान है जो पहले चतुर्थांश के नीचे 1.5 IQR के भीतर है। यहां, पहले चतुर्थक के नीचे 1.5 IQR 52.5 °F और न्यूनतम 57 °F है। इसलिए, निचला मूंछ न्यूनतम के मान पर खींचा जाता है, जो कि 57 °F है।
आउटलेर्स के साथ उदाहरण
ऊपर आउटलेयर के बिना एक उदाहरण है। आउटलेर्स के साथ बॉक्स-प्लॉट बनाने के लिए यहां एक अनुवर्ती उदाहरण दिया गया है:
रिकॉर्ड किए गए तापमान के लिए निर्धारित सेट है (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75 , 76, 76, 78, 79, 89।
इस उदाहरण में केवल पहली और आखिरी संख्या बदली गई है। माध्यिका, तृतीय चतुर्थक और प्रथम चतुर्थक समान रहते हैं।
इस स्थिति में, इस डेटा सेट में अधिकतम मान 89 °F है, और तीसरे चतुर्थक के ऊपर 1.5 IQR 88.5 °F है। अधिकतम 1.5 IQR और तीसरे चतुर्थक से अधिक है, इसलिए अधिकतम एक बाहरी है। इसलिए, ऊपरी मूंछ तीसरे चतुर्थक के ऊपर 1.5 IQR से छोटे सबसे बड़े मूल्य पर खींची जाती है, जो कि 79 ° F है।
इसी तरह, इस डेटा सेट में न्यूनतम मान 52 °F है, और पहली चतुर्थक के नीचे 1.5 IQR 52.5 °F है। न्यूनतम 1.5 IQR माइनस पहला क्वार्टाइल से छोटा है, इसलिए न्यूनतम भी एक आउटलायर है। इसलिए, निचली मूंछ पहले चतुर्थक के नीचे 1.5 IQR से अधिक के सबसे छोटे मूल्य पर खींची जाती है, जो कि 57 ° F है।
=== बड़े डेटासेट === के मामले में बड़ी संख्या में डेटा बिंदुओं वाले डेटा सेट से बॉक्स-प्लॉट प्राप्त करने का एक अतिरिक्त उदाहरण है:
अनुभवजन्य मात्राओं की गणना करने के लिए सामान्य समीकरण
- यहाँ डेटा बिंदुओं के सामान्य क्रम के लिए खड़ा है (यानी यदि , तब )
उपरोक्त उदाहरण का उपयोग करते हुए जिसमें 24 डेटा बिंदु (n = 24) हैं, कोई भी गणितीय या दृष्टिगत रूप से माध्यिका, प्रथम और तृतीय चतुर्थक की गणना कर सकता है।
'मध्य' : पहला चतुर्थक : तीसरा चतुर्थक :
विज़ुअलाइज़ेशन
हालांकि बॉक्स प्लॉट हिस्टोग्राम या कर्नेल घनत्व अनुमान से अधिक आदिम लग सकते हैं, लेकिन उनके कई फायदे हैं। सबसे पहले, बॉक्स प्लॉट सांख्यिकीविदों को एक या अधिक डेटा सेटों पर त्वरित ग्राफिकल परीक्षा करने में सक्षम बनाता है। बॉक्स-प्लॉट भी कम जगह लेते हैं और इसलिए समानांतर में कई समूहों या डेटा के सेट के बीच वितरण की तुलना करने के लिए विशेष रूप से उपयोगी होते हैं (उदाहरण के लिए चित्र 1 देखें)। अंत में, हिस्टोग्राम और कर्नेल घनत्व अनुमान की समग्र संरचना क्रमशः हिस्टोग्राम # डिब्बे की संख्या और चौड़ाई तकनीकों और बैंडविड्थ की पसंद से दृढ़ता से प्रभावित हो सकती है।
हालांकि एक बॉक्स प्लॉट को देखने की तुलना में एक सांख्यिकीय वितरण को देखना अधिक सामान्य है, यह एक सामान्य एन (0, σ) के लिए प्रायिकता घनत्व फ़ंक्शन (सैद्धांतिक हिस्टोग्राम) के खिलाफ बॉक्स प्लॉट की तुलना करने के लिए उपयोगी हो सकता है।2) वितरण और सीधे उनकी विशेषताओं का निरीक्षण करें (जैसा चित्र 7 में दिखाया गया है)।
यह भी देखें
- बैगप्लॉट
- कैंडलस्टिक चार्ट
- डेटा और सूचना विज़ुअलाइज़ेशन
- अन्वेषणात्मक डेटा विश्लेषण
- फैन चार्ट (आँकड़े)
- पांच अंकों का सारांश
- कार्यात्मक बॉक्सप्लॉट
- सात अंकों का सारांश
संदर्भ
- ↑ C., Dutoit, S. H. (2012). ग्राफिकल खोजपूर्ण डेटा विश्लेषण।. Springer. ISBN 978-1-4612-9371-2. OCLC 1019645745.
{{cite book}}: CS1 maint: multiple names: authors list (link) - ↑ Grubbs, Frank E. (February 1969). "नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं". Technometrics. 11 (1): 1–21. doi:10.1080/00401706.1969.10490657. ISSN 0040-1706.
- ↑ Richard., Boddy (2009). Statistical Methods in Practice : for Scientists and Technologists. John Wiley & Sons. ISBN 978-0-470-74664-6. OCLC 940679163.
- ↑ Spear, Mary Eleanor (1952). चार्टिंग सांख्यिकी. McGraw Hill. p. 166.
- ↑ Spear, Mary Eleanor. (1969). प्रैक्टिकल चार्टिंग तकनीक. New York: McGraw-Hill. ISBN 0070600104. OCLC 924909765.
- ↑ 6.0 6.1 Wickham, Hadley; Stryjewski, Lisa. "40 years of boxplots" (PDF). Retrieved December 24, 2020.
- ↑ Holmes, Alexander; Illowsky, Barbara; Dean, Susan (31 March 2015). "परिचयात्मक व्यापार सांख्यिकी". OpenStax.
- ↑ Dekking, F.M. (2005). संभाव्यता और सांख्यिकी का एक आधुनिक परिचय. Springer. pp. 234–238. ISBN 1-85233-896-2.
- ↑ Derrick, Ben; Green, Elizabeth; Ritchie, Felix; White, Paul (September 2022). "आम तौर पर इस्तेमाल किए जाने वाले यूनीवेरिएट स्टैटिस्टिक्स की रिपोर्टिंग करते समय प्रकटीकरण का जोखिम". Privacy in Statistical Databases. 13463: 119–129. doi:10.1007/978-3-031-13945-1_9.
- ↑ Frigge, Michael; Hoaglin, David C.; Iglewicz, Boris (February 1989). "बॉक्सप्लॉट के कुछ कार्यान्वयन". The American Statistician. 43 (1): 50–54. doi:10.2307/2685173. JSTOR 2685173.
- ↑ Marmolejo-Ramos, F.; Tian, S. (2010). "शिफ्टिंग बॉक्सप्लॉट। माध्य के आसपास आवश्यक सारांश आँकड़ों पर आधारित एक बॉक्सप्लॉट". International Journal of Psychological Research. 3 (1): 37–46. doi:10.21500/20112084.823.
- ↑ 12.0 12.1 12.2 McGill, Robert; Tukey, John W.; Larsen, Wayne A. (February 1978). "बॉक्स भूखंडों की विविधताएं". The American Statistician. 32 (1): 12–16. doi:10.2307/2683468. JSTOR 2683468.
- ↑ "R: Box Plot Statistics". R manual. Retrieved 26 June 2011.
- ↑ Hubert, M.; Vandervieren, E. (2008). "An adjusted boxplot for skewed distribution". Computational Statistics and Data Analysis. 52 (12): 5186–5201. CiteSeerX 10.1.1.90.9812. doi:10.1016/j.csda.2007.11.008.
अग्रिम पठन
- Tukey, John W. (1977). Exploratory Data Analysis. Addison-Wesley. ISBN 9780201076165.
- Benjamini, Y. (1988). "Opening the Box of a Boxplot". The American Statistician. 42 (4): 257–262. doi:10.2307/2685133. JSTOR 2685133.
- Rousseeuw, P. J.; Ruts, I.; Tukey, J. W. (1999). "The Bagplot: A Bivariate Boxplot". The American Statistician. 53 (4): 382–387. doi:10.2307/2686061. JSTOR 2686061.
बाहरी संबंध
- Beeswarm Boxplot - superimposing a frequency-jittered stripchart on top of a box plot