रेखा - चित्र: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(8 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Data visualization}}
{{short description|Data visualization}}
[[File:Michelsonmorley-boxplot.svg|thumb|upright=1.5|चित्र 1. माइकलसन-मॉर्ले प्रयोग # माइकलसन प्रयोग (1881) से डेटा का बॉक्स प्लॉट]]वर्णनात्मक आँकड़ों में, '''बॉक्स प्लॉट''' या '''बॉक्सप्लॉट''' ग्राफिक रूप से स्थानीयता, प्रसार और संख्यात्मक डेटा के तिरछे समूहों को उनके [[चतुर्थक]] के माध्यम से प्रदर्शित करने की विधि है।<ref>{{Cite book|last=C.|first=Dutoit, S. H.|url=http://worldcat.org/oclc/1019645745|title=ग्राफिकल खोजपूर्ण डेटा विश्लेषण।|date=2012|publisher=Springer|isbn=978-1-4612-9371-2|oclc=1019645745}}</ref> बॉक्स प्लॉट पर बॉक्स के अतिरिक्त, बॉक्स से फैली हुई लाइनें (जिन्हें मूंछ कहा जाता है) हो सकती हैं। जो ऊपरी और निचले चतुर्थक के बाहर परिवर्तनशीलता का संकेत देती हैं। इस प्रकार प्लॉट को ''''बॉक्स-एंड-व्हिस्कर प्लॉट'''<nowiki/>' भी कहा जाता है और 'बॉक्स-एंड-व्हिस्कर आरेख' भी कहा जाता है। [[आउटलेयर]] जो बाकी डेटासेट से अधिक भिन्न हैं।<ref>{{Cite journal|last=Grubbs|first=Frank E.|date=February 1969|title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|url=http://dx.doi.org/10.1080/00401706.1969.10490657|journal=Technometrics|volume=11|issue=1|pages=1–21|doi=10.1080/00401706.1969.10490657|issn=0040-1706}}</ref> उन्हें बॉक्स-प्लॉट पर मूंछ से परे भिन्न-भिन्न बिंदुओं के रूप में प्लॉट किया जा सकता है।
[[File:Michelsonmorley-boxplot.svg|thumb|upright=1.5|चित्र 1. . मिशेलसन प्रयोग से डेटा का बॉक्स प्लॉट।]]वर्णनात्मक आँकड़ों में, '''बॉक्स प्लॉट''' या '''बॉक्सप्लॉट''' ग्राफिक रूप से स्थानीयता, प्रसार और संख्यात्मक डेटा के तिरछे समूहों को उनके [[चतुर्थक]] के माध्यम से प्रदर्शित करने की विधि है।<ref>{{Cite book|last=C.|first=Dutoit, S. H.|url=http://worldcat.org/oclc/1019645745|title=ग्राफिकल खोजपूर्ण डेटा विश्लेषण।|date=2012|publisher=Springer|isbn=978-1-4612-9371-2|oclc=1019645745}}</ref> बॉक्स प्लॉट पर बॉक्स के अतिरिक्त, बॉक्स से फैली हुई रेखायें (जिन्हें मूंछ कहा जाता है) हो सकती हैं। जो ऊपरी और निचले चतुर्थक के बाहर परिवर्तनशीलता का संकेत देती हैं। इस प्रकार प्लॉट को ''''बॉक्स-एंड-व्हिस्कर प्लॉट'''<nowiki/>' भी कहा जाता है और 'बॉक्स-एंड-व्हिस्कर आरेख' भी कहा जाता है। [[आउटलेयर]] जो अन्य डेटासेट से अधिक भिन्न होती हैं।<ref>{{Cite journal|last=Grubbs|first=Frank E.|date=February 1969|title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|url=http://dx.doi.org/10.1080/00401706.1969.10490657|journal=Technometrics|volume=11|issue=1|pages=1–21|doi=10.1080/00401706.1969.10490657|issn=0040-1706}}</ref> उन्हें बॉक्स-प्लॉट पर मूंछ से बढ़कर भिन्न-भिन्न बिंदुओं के रूप में प्लॉट किया जा सकता है।
सामान्यतः बॉक्स प्लॉट [[गैर पैरामीट्रिक]] हैं। वे अंतर्निहित संभाव्यता वितरण की कोई धारणा बनाए बिना सांख्यिकीय आबादी के नमूनों में भिन्नता प्रदर्शित करते हैं।<ref>{{Cite book|last=Richard.|first=Boddy|url=http://worldcat.org/oclc/940679163|title=Statistical Methods in Practice : for Scientists and Technologists.|date=2009|publisher=John Wiley & Sons|isbn=978-0-470-74664-6|oclc=940679163}}</ref> (चूंकि टकी का बॉक्सप्लॉट मूंछों के लिए समरूपता और उनकी लंबाई के लिए सामान्यता मानता है)। बॉक्स-प्लॉट के प्रत्येक उपखंड में स्पेसिंग डेटा के [[सांख्यिकीय फैलाव]] (प्रसार) और डेटा के [[तिरछापन]] की डिग्री दर्शाती है, जिसे सामान्यतः पांच-संख्या सारांश का उपयोग करके वर्णित किया जाता है। इसके अतिरिक्त, बॉक्स-प्लॉट व्यक्ति को विभिन्न एल-[[अनुमानक|अनुमानकों]], विशेष रूप से [[अन्तःचतुर्थक श्रेणी]], मिडहिंज, रेंज (सांख्यिकी), मध्य-श्रेणी और [[ काट-छांट करना |काट-छांट करने]] का अनुमान लगाने की अनुमति देता है। अतः बॉक्स प्लॉट या तो क्षैतिज या लंबवत रूप से खींचे जा सकते हैं।
सामान्यतः बॉक्स प्लॉट [[गैर पैरामीट्रिक]] हैं। वे अंतर्निहित संभाव्यता वितरण की कोई धारणा बनाए बिना सांख्यिकीय जन-संख्या की रचनाओं में भिन्नता प्रदर्शित करते हैं।<ref>{{Cite book|last=Richard.|first=Boddy|url=http://worldcat.org/oclc/940679163|title=Statistical Methods in Practice : for Scientists and Technologists.|date=2009|publisher=John Wiley & Sons|isbn=978-0-470-74664-6|oclc=940679163}}</ref> (चूंकि टकी का बॉक्सप्लॉट मूंछों के लिए समरूपता और उनकी लंबाई के लिए सामान्यता मानता है)। बॉक्स-प्लॉट के प्रत्येक उपखंड में स्पेसिंग डेटा के [[सांख्यिकीय फैलाव]] (प्रसार) और डेटा के [[तिरछापन]] की डिग्री दर्शाती है। जिसे सामान्यतः पांच-संख्या सारांश का उपयोग करके वर्णित किया जाता है। इसके अतिरिक्त, बॉक्स-प्लॉट व्यक्ति को विभिन्न एल-[[अनुमानक|अनुमानकों]], विशेष रूप से [[अन्तःचतुर्थक श्रेणी]], मिडहिंज, श्रेणी (सांख्यिकी), मध्य-श्रेणी और [[ काट-छांट करना |काट-छांट करने]] का अनुमान लगाने की अनुमति देता है। अतः बॉक्स प्लॉट या तो क्षैतिज या लंबवत रूप से खींचे जा सकते हैं।


== इतिहास ==
== इतिहास ==
रेंज-बार पद्धति को प्रथम बार [[मैरी एलेनोर स्पीयर]] ने सन् 1952 में अपनी पुस्तक "चार्टिंग स्टैटिस्टिक्स" में प्रस्तुत किया था।<ref>{{Cite book|title=चार्टिंग सांख्यिकी|last=Spear|first=Mary Eleanor|publisher=McGraw Hill|year=1952|pages=166}}</ref> इसके पश्चात् सन् 1969 में उनकी पुस्तक "प्रैक्टिकल चार्टिंग टेक्निक्स" में प्रस्तुत किया गया था।<ref>{{Cite book|title=प्रैक्टिकल चार्टिंग तकनीक|last=Spear, Mary Eleanor.|date=1969|publisher=McGraw-Hill|isbn=0070600104|location=New York|oclc=924909765}}</ref> चूँकि बॉक्स-एंड-व्हिस्कर प्लॉट प्रथम बार सन् 1970 में [[ जॉन टुकी |जॉन टुकी]] द्वारा प्रस्तुत किया गया थ।, जिन्होंने इसके पश्चात् सन् 1977 में अपनी पुस्तक "एक्सप्लोरेटरी डेटा एनालिसिस" में इस विषय को प्रकाशित किया था।<ref name=":0">{{cite web |first1=Hadley |last1=Wickham |first2=Lisa |last2=Stryjewski |url=https://vita.had.co.nz/papers/boxplots.pdf |title=40 years of boxplots |access-date=December 24, 2020}}</ref>
श्रेणी-बार पद्धति को प्रथम बार [[मैरी एलेनोर स्पीयर]] ने सन् 1952 में अपनी पुस्तक "चार्टिंग स्टैटिस्टिक्स" में प्रस्तुत किया था।<ref>{{Cite book|title=चार्टिंग सांख्यिकी|last=Spear|first=Mary Eleanor|publisher=McGraw Hill|year=1952|pages=166}}</ref> इसके पश्चात् सन् 1969 में उनकी पुस्तक "प्रैक्टिकल चार्टिंग टेक्निक्स" में प्रस्तुत किया गया था।<ref>{{Cite book|title=प्रैक्टिकल चार्टिंग तकनीक|last=Spear, Mary Eleanor.|date=1969|publisher=McGraw-Hill|isbn=0070600104|location=New York|oclc=924909765}}</ref> चूँकि बॉक्स-एंड-व्हिस्कर प्लॉट प्रथम बार सन् 1970 में [[ जॉन टुकी |जॉन टुकी]] द्वारा प्रस्तुत किया गया थ। जिन्होंने इसके पश्चात् सन् 1977 में अपनी पुस्तक "एक्सप्लोरेटरी डेटा एनालिसिस" में इस विषय को प्रकाशित किया था।<ref name=":0">{{cite web |first1=Hadley |last1=Wickham |first2=Lisa |last2=Stryjewski |url=https://vita.had.co.nz/papers/boxplots.pdf |title=40 years of boxplots |access-date=December 24, 2020}}</ref>
== तत्व ==
== तत्व ==
[[File:Box-Plot mit Min-Max Abstand.png|thumb|चित्रा 2. न्यूनतम से अधिकतम तक मूंछ के साथ बॉक्स-प्लॉट]]
[[File:Box-Plot mit Min-Max Abstand.png|thumb|चित्रा 2. न्यूनतम से अधिकतम तक मूंछ के साथ बॉक्स-प्लॉट]]
[[File:Box-Plot mit Interquartilsabstand.png|thumb|चित्रा 3. 1.5 IQR मान के भीतर मूंछ के साथ समान बॉक्स-प्लॉट]]बॉक्सप्लॉट पाँच अंकों के सारांश के आधार पर डेटासेट प्रदर्शित करने का मानकीकृत विधि है: न्यूनतम, अधिकतम, नमूना माध्यिका, और पहला और तीसरा चतुर्थक।
[[File:Box-Plot mit Interquartilsabstand.png|thumb|चित्रा 3.1.5 आईक्यूआर मान के भीतर मूंछ के साथ समान बॉक्स-प्लॉट।]]बॉक्सप्लॉट पाँच अंकों के सारांश के आधार पर डेटासेट प्रदर्शित करने की मानकीकृत विधि है। न्यूनतम, अधिकतम, रचना माध्यिका, और पहला और तीसरा चतुर्थक।


* [[नमूना न्यूनतम]] (''क्यू''<sub>0</sub> या 0 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में सबसे कम डेटा बिंदु
* [[नमूना न्यूनतम|रचना न्यूनतम]] (Q<sub>0</sub> या 0 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में सबसे कम डेटा बिंदु।
* [[नमूना अधिकतम]] (''क्यू''<sub>4</sub> या 100 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में उच्चतम डेटा बिंदु
* [[नमूना अधिकतम|रचना अधिकतम]] (Q<sub>4</sub> या 100 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में उच्चतम डेटा बिंदु।
* [[मंझला]] (''क्यू''<sub>2</sub> या 50 वाँ प्रतिशतक): डेटा सेट में मध्य मान
* [[मंझला|माध्यिका]] (Q<sub>2</sub> या 50 वाँ प्रतिशतक): डेटा सेट में मध्य मान।
* [[पहला चतुर्थक]] (''क्यू''<sub>1</sub> या 25वां प्रतिशतक): जिसे ''निम्न चतुर्थक'' ''q'' के रूप में भी जाना जाता है<sub>''n''</sub>(0.25), यह डेटासेट के निचले आधे हिस्से का माध्यिका है।
* [[पहला चतुर्थक]] (Q<sub>1</sub> या 25वां प्रतिशतक): जिसे ''निम्न चतुर्थक'' qn(0.25) के रूप में भी जाना जाता है। यह डेटासेट के निचले आधे भाग की माध्यिका है।
* [[तीसरा चतुर्थक]] (''क्यू''<sub>3</sub> या 75 वाँ प्रतिशतक): जिसे ''ऊपरी चतुर्थक'' ''q'' के रूप में भी जाना जाता है<sub>''n''</sub>(0.75), यह डेटासेट के ऊपरी आधे हिस्से का माध्यिका है।<ref>{{cite journal |last1=Holmes |first1=Alexander |last2=Illowsky |first2=Barbara |last3=Dean |first3=Susan |title=परिचयात्मक व्यापार सांख्यिकी|website=OpenStax|date=31 March 2015 |url=https://opentextbc.ca/introbusinessstatopenstax/chapter/measures-of-the-location-of-the-data/}}</ref>
* [[तीसरा चतुर्थक]] (Q<sub>3</sub> या 75 वाँ प्रतिशतक): जिसे ''ऊपरी चतुर्थक'' ''q<sub>n</sub>(0.75),'' के रूप में भी जाना जाता है। यह डेटासेट के ऊपरी आधे भाग की माध्यिका है।<ref>{{cite journal |last1=Holmes |first1=Alexander |last2=Illowsky |first2=Barbara |last3=Dean |first3=Susan |title=परिचयात्मक व्यापार सांख्यिकी|website=OpenStax|date=31 March 2015 |url=https://opentextbc.ca/introbusinessstatopenstax/chapter/measures-of-the-location-of-the-data/}}</ref>
बॉक्स-प्लॉट के निर्माण के लिए उपयोग किए जाने वाले न्यूनतम और अधिकतम मानों के अतिरिक्त, अन्य महत्वपूर्ण तत्व जिसे बॉक्स-प्लॉट प्राप्त करने के लिए भी नियोजित किया जा सकता है, इंटरक्वेर्टाइल रेंज (IQR) है, जैसा कि नीचे दर्शाया गया है:
बॉक्स-प्लॉट के निर्माण के लिए उपयोग किए जाने वाले न्यूनतम और अधिकतम मानों के अतिरिक्त, अन्य महत्वपूर्ण तत्व जिसे बॉक्स-प्लॉट प्राप्त करने के लिए भी नियोजित किया जा सकता है। जो अन्तःचतुर्थक श्रेणी (आईक्यूआर) है, जैसा कि नीचे दर्शाया गया है।


* इंटरक्वेरटाइल रेंज (IQR): ऊपरी और निचले चतुर्थक के बीच की दूरी
* इंटरक्वेरटाइल श्रेणी (आईक्यूआर): ऊपरी और निचले चतुर्थक के मध्य की दूरी,


: <math>\text{IQR} = Q_3 - Q_1 = q_n(0.75) - q_n(0.25)</math>
: <math>\text{IQR} = Q_3 - Q_1 = q_n(0.75) - q_n(0.25)</math>
बॉक्स-प्लॉट में सामान्यतः दो भाग होते हैं, बॉक्स और मूंछ का सेट जैसा कि चित्र 2 में दिखाया गया है। बॉक्स Q से तैयार किया गया है<sub>1</sub> क्यू के लिए<sub>3</sub> माध्यिका को निरूपित करने के लिए बीच में खींची गई क्षैतिज रेखा के साथ। मूंछ को विभिन्न तरीकों से परिभाषित किया जा सकता है।
बॉक्स-प्लॉट में सामान्यतः दो भाग होते हैं। बॉक्स और मूंछ का सेट जैसा कि चित्र 2 में दिखाया गया है। चूँकि बॉक्स Q<sub>1</sub> से Q<sub>3</sub> के मध्य में खींची गई क्षैतिज रेखा के साथ खींचा जाता है। जो मध्यिका को दर्शाता है। अतः मूंछ को विभिन्न प्रकारों से परिभाषित किया जा सकता है।


सबसे सीधी-आगे की विधि में, निचले मूंछ की सीमा डेटा सेट का न्यूनतम मूल्य है, और ऊपरी मूंछ की सीमा डेटा सेट का अधिकतम मूल्य है।
सबसे सीधी-आगे की विधि में, निचले मूंछ की सीमा डेटा सेट का न्यूनतम मूल्य है और ऊपरी मूंछ की सीमा डेटा सेट का अधिकतम मूल्य है।


मूंछ की सीमाओं के लिए अन्य लोकप्रिय विकल्प 1.5 IQR मान पर आधारित है। ऊपरी चतुर्थक के ऊपर से (''Q''<sub>3</sub>), IQR से 1.5 गुना की दूरी मापी जाती है और इस दूरी के भीतर आने वाले डेटासेट से सबसे बड़े देखे गए डेटा बिंदु तक मूंछ खींची जाती है। इसी तरह, IQR की 1.5 गुना की दूरी को निम्न चतुर्थक (''Q'') के नीचे मापा जाता है।<sub>1</sub>) और इस दूरी के भीतर आने वाले डेटासेट से सबसे कम देखे गए डेटा बिंदु के लिए मूंछ खींची जाती है। क्योंकि मूंछ देखे गए डेटा बिंदु पर समाप्त होनी चाहिए, मूंछ की लंबाई असमान दिख सकती है, यदि 1.5 IQR दोनों पक्षों के लिए समान हो। व्हिस्कर्स की सीमा के बाहर देखे गए अन्य सभी डेटा बिंदुओं को 'आउटलेयर' के रूप में प्लॉट किया गया है।<ref>{{Cite book |title=संभाव्यता और सांख्यिकी का एक आधुनिक परिचय|url=https://archive.org/details/modernintroducti00dekk_722 |url-access=limited |last=Dekking |first=F.M. |publisher=Springer |year=2005 |isbn=1-85233-896-2 |pages=[https://archive.org/details/modernintroducti00dekk_722/page/n240 234]–238 }}</ref> आउटलेयर को बॉक्स-प्लॉट पर डॉट, छोटा वृत्त, स्टार, आदि के रूप में प्लॉट किया जा सकता है।
मूंछ की सीमाओं के लिए अन्य लोकप्रिय विकल्प 1.5 आईक्यूआर मान पर आधारित है। ऊपरी चतुर्थक के ऊपर से (''Q''<sub>3</sub>), आईक्यूआर से 1.5 गुना की दूरी मापी जाती है और इस दूरी के अंदर आने वाले डेटासेट से सबसे बड़े देखे गए डेटा बिंदु तक मूंछ खींची जाती है। इसी प्रकार, आईक्यूआर की 1.5 गुना की दूरी को निम्न चतुर्थक (''Q<sub>1</sub>'') के नीचे मापा जाता है और इस दूरी के अंदर आने वाले डेटासेट से सबसे कम देखे गए डेटा बिंदु के लिए मूंछ खींची जाती है। चूँकि मूंछ देखे गए डेटा बिंदु पर समाप्त होनी चाहिए अतः मूंछ की लंबाई असमान दिख सकती है। यदि 1.5 आईक्यूआर दोनों पक्षों के लिए समान होता है। तब व्हिस्कर्स की सीमा के बाहर देखे गए अन्य सभी डेटा बिंदुओं को 'आउटलेयर' के रूप में प्लॉट किया जाता है।<ref>{{Cite book |title=संभाव्यता और सांख्यिकी का एक आधुनिक परिचय|url=https://archive.org/details/modernintroducti00dekk_722 |url-access=limited |last=Dekking |first=F.M. |publisher=Springer |year=2005 |isbn=1-85233-896-2 |pages=[https://archive.org/details/modernintroducti00dekk_722/page/n240 234]–238 }}</ref> अतः आउटलेयर को बॉक्स-प्लॉट पर डॉट, छोटा वृत्त, स्टार, आदि के रूप में प्लॉट किया जा सकता है।


चूँकि, मूंछें कई अन्य चीजों के लिए खड़ी हो सकती हैं, जैसे:
चूँकि, मूंछें कई अन्य चीजों के लिए खड़ी हो सकती हैं। जैसे:


* डेटा सेट का न्यूनतम और अधिकतम मान (जैसा चित्र 2 में दिखाया गया है)
* डेटा सेट का न्यूनतम और अधिकतम मान (जैसा चित्र 2 में दिखाया गया है)
* डेटा सेट के माध्य से ऊपर और नीचे [[मानक विचलन]]
* डेटा सेट के माध्य से ऊपर और नीचे [[मानक विचलन]]
* डेटा सेट का 9वाँ प्रतिशतक और 91वाँ प्रतिशतक
* डेटा सेट का 9वाँ प्रतिशतक और 91वाँ प्रतिशतक।
* डेटा सेट का दूसरा प्रतिशतक और 98वां प्रतिशतक
* डेटा सेट का दूसरा प्रतिशतक और 98वां प्रतिशतक।


विरले ही बॉक्स प्लॉट बिना मूंछ के प्लॉट किए जा सकते हैं। यह संवेदनशील जानकारी के लिए उचित हो सकता है जिससे कि मूंछ (और बाहरी) से बचने के लिए वास्तविक मूल्यों का खुलासा किया जा सके।<ref name="DGRW">{{Cite journal|last1=Derrick|first1=Ben|last2=Green|first2=Elizabeth|last3=Ritchie|first3=Felix|last4=White|first4=Paul|date=September 2022|title=आम तौर पर इस्तेमाल किए जाने वाले यूनीवेरिएट स्टैटिस्टिक्स की रिपोर्टिंग करते समय प्रकटीकरण का जोखिम|journal=Privacy in Statistical Databases|volume=13463|pages=119–129|doi=10.1007/978-3-031-13945-1_9}}</ref>
सामान्यतः विरले ही बॉक्स प्लॉट बिना मूंछ के प्लॉट किए जा सकते हैं। यह संवेदनशील जानकारी के लिए उचित हो सकता है। जिससे कि मूंछ (और बाहरी) से बचने के लिए वास्तविक मूल्यों का व्याख्यान किया जा सकता है।<ref name="DGRW">{{Cite journal|last1=Derrick|first1=Ben|last2=Green|first2=Elizabeth|last3=Ritchie|first3=Felix|last4=White|first4=Paul|date=September 2022|title=आम तौर पर इस्तेमाल किए जाने वाले यूनीवेरिएट स्टैटिस्टिक्स की रिपोर्टिंग करते समय प्रकटीकरण का जोखिम|journal=Privacy in Statistical Databases|volume=13463|pages=119–129|doi=10.1007/978-3-031-13945-1_9}}</ref>
कुछ बॉक्स प्लॉट में डेटा के माध्यम का प्रतिनिधित्व करने के लिए अतिरिक्त वर्ण सम्मिलित होता है।<ref name="frigge hoaglin iglewicz2">{{Cite journal|last1=Frigge|first1=Michael|last2=Hoaglin|first2=David C.|last3=Iglewicz|first3=Boris|date=February 1989|title=बॉक्सप्लॉट के कुछ कार्यान्वयन|journal=[[The American Statistician]]|volume=43|issue=1|pages=50–54|doi=10.2307/2685173|jstor=2685173}}</ref><ref>{{cite journal|last1=Marmolejo-Ramos|first1=F.|last2=Tian|first2=S.|date=2010|title=शिफ्टिंग बॉक्सप्लॉट। माध्य के आसपास आवश्यक सारांश आँकड़ों पर आधारित एक बॉक्सप्लॉट|journal=International Journal of Psychological Research|volume=3|issue=1|pages=37–46|doi=10.21500/20112084.823|doi-access=free}}</ref>
 
असामान्य प्रतिशतक 2%, 9%, 91%, 98% का उपयोग कभी-कभी मूंछ क्रॉस-हैच के लिए किया जाता है और सात-संख्या सारांश को दर्शाने के लिए मूंछ समाप्त होती है। यदि डेटा [[सामान्य वितरण]] हैं, तो बॉक्स प्लॉट पर सात चिह्नों के स्थान समान रूप से स्थानित होंगे। कुछ बॉक्स भूखंडों पर, प्रत्येक मूंछ के अंत से पहले क्रॉस-हैच लगाया जाता है।
कुछ बॉक्स प्लॉट में डेटा के माध्यम का प्रतिनिधित्व करने के लिए अतिरिक्त वर्ण सम्मिलित होते है।<ref name="frigge hoaglin iglewicz2">{{Cite journal|last1=Frigge|first1=Michael|last2=Hoaglin|first2=David C.|last3=Iglewicz|first3=Boris|date=February 1989|title=बॉक्सप्लॉट के कुछ कार्यान्वयन|journal=[[The American Statistician]]|volume=43|issue=1|pages=50–54|doi=10.2307/2685173|jstor=2685173}}</ref><ref>{{cite journal|last1=Marmolejo-Ramos|first1=F.|last2=Tian|first2=S.|date=2010|title=शिफ्टिंग बॉक्सप्लॉट। माध्य के आसपास आवश्यक सारांश आँकड़ों पर आधारित एक बॉक्सप्लॉट|journal=International Journal of Psychological Research|volume=3|issue=1|pages=37–46|doi=10.21500/20112084.823|doi-access=free}}</ref>
 
असामान्य प्रतिशतक 2%, 9%, 91%, 98% का उपयोग कभी-कभी मूंछ क्रॉस-हैच के लिए किया जाता है और सात-संख्या सारांश को दर्शाने के लिए मूंछ समाप्त होती है। यदि डेटा [[सामान्य वितरण]] हैं। तब बॉक्स प्लॉट पर सात चिह्नों के स्थान समान रूप से स्थानित होते है। अतः कुछ बॉक्स भूखंडों पर, प्रत्येक मूंछ के अंत से पहले क्रॉस-हैच लगाया जाता है।


इस परिवर्तनशीलता के कारण, बॉक्स-प्लॉट के शीर्षक में व्हिस्कर्स और आउटलेयर के लिए उपयोग किए जा रहे सम्मेलन का वर्णन करना उचित है।
इस परिवर्तनशीलता के कारण, बॉक्स-प्लॉट के शीर्षक में व्हिस्कर्स और आउटलेयर के लिए उपयोग किए जा रहे सम्मेलन का वर्णन करना उचित है।


== रूपांतर ==
== रूपांतर ==
[[File:Fourboxplots.svg|thumb|चित्र 4. चार बॉक्स प्लॉट, खांचे और चर चौड़ाई के साथ और बिना]]चूंकि गणितज्ञ जॉन डब्ल्यू। तुकी ने पहली बार 1969 में इस प्रकार के विज़ुअल डेटा डिस्प्ले को लोकप्रिय बनाया था, क्लासिकल बॉक्स प्लॉट पर कई विविधताएँ विकसित की गई हैं, और दो सबसे अधिक पाई जाने वाली विविधताएँ चर चौड़ाई वाले बॉक्स प्लॉट और नॉटेड बॉक्स प्लॉट हैं जो चित्र में दिखाए गए हैं। 4.
[[File:Fourboxplots.svg|thumb|चित्र 4.चार बॉक्स प्लॉट, नॉच और चर चौड़ाई के साथ और बिना।]]चूंकि गणितज्ञ जॉन डब्ल्यू ने तुकी ने प्रथम बार सन् 1969 में इस प्रकार के विज़ुअल डेटा डिस्प्ले को लोकप्रिय बनाया था। क्लासिकल बॉक्स प्लॉट पर कई विविधताएँ विकसित की गई हैं और दो सबसे अधिक पाई जाने वाली विविधताएँ चर चौड़ाई वाले बॉक्स प्लॉट और नॉटेड बॉक्स प्लॉट हैं जो चित्र 4 में दिखाए गए हैं।
 
परिवर्तनीय चौड़ाई वाले बॉक्स प्लॉट प्रत्येक समूह के आकार का वर्णन करते हैं। जिनके डेटा को समूह के आकार के अनुपात में बॉक्स की चौड़ाई बनाकर प्लॉट किया जा रहा है। समूह के आकार के वर्गमूल के अनुपात में बॉक्स की चौड़ाई को आनुपातिक बनाने की लोकप्रिय परंपरा है।<ref name="mcgill tukey larsen">{{Cite journal|last1=McGill|first1=Robert|last2=Tukey|first2=John W.|author2-link=John W. Tukey|last3=Larsen|first3=Wayne A.|date=February 1978|title=बॉक्स भूखंडों की विविधताएं|journal=[[The American Statistician]]|volume=32|issue=1|pages=12–16|doi=10.2307/2683468|jstor=2683468}}</ref>
 
अधिकाशतः नोकदार बॉक्स प्लॉट माध्यिका के चारों ओर पायदान या बॉक्स की संकीर्णता को प्रयुक्त करते हैं। माध्यिका के अंतर के महत्व की मोटी गाइड की प्रस्तुतीकर करने में पायदान उपयोगी होते हैं। यदि दो बक्सों के पायदान ओवरलैप नहीं होते हैं। तब यह माध्यिका के मध्य सांख्यिकीय रूप से महत्वपूर्ण अंतर का प्रमाण प्रदान करता है।<ref name="mcgill tukey larsen" /> सामान्यतः खांचे की चौड़ाई रचनाओं की अन्तःचतुर्थक श्रेणी (आईक्यूआर) के समानुपाती होती है और रचनाओं के आकार के वर्गमूल के व्युत्क्रमानुपाती होती है। चूंकि, सबसे उपयुक्त गुणक के बारे में अनिश्चितता है (क्योंकि यह रचनाओं के प्रसरणों की समानता के आधार पर भिन्न हो सकता है)।<ref name="mcgill tukey larsen" />
 
इन खांचों की सीमाओं को प्राप्त करने के लिए परिपाटी की दूरी का उपयोग करना है। जो <math alt="±1.58×IQR/sqrt(n)">\pm \frac{1.58 \text{ IQR}}{\sqrt n}</math> मध्य के आसपास होता है।<ref name="Rboxplotstats">{{Cite web | title = R: Box Plot Statistics | work = R manual | url = http://stat.ethz.ch/R-manual/R-devel/library/grDevices/html/boxplot.stats.html | access-date = 26 June 2011}}</ref>


परिवर्तनीय चौड़ाई वाले बॉक्स प्लॉट प्रत्येक समूह के आकार का वर्णन करते हैं जिनके डेटा को समूह के आकार के अनुपात में बॉक्स की चौड़ाई बनाकर प्लॉट किया जा रहा है। समूह के आकार के वर्गमूल के अनुपात में बॉक्स की चौड़ाई को आनुपातिक बनाना लोकप्रिय परंपरा है।<ref name="mcgill tukey larsen">{{Cite journal|last1=McGill|first1=Robert|last2=Tukey|first2=John W.|author2-link=John W. Tukey|last3=Larsen|first3=Wayne A.|date=February 1978|title=बॉक्स भूखंडों की विविधताएं|journal=[[The American Statistician]]|volume=32|issue=1|pages=12–16|doi=10.2307/2683468|jstor=2683468}}</ref>
समायोजित बॉक्स भूखंडों का उद्देश्य तिरछापन का वर्णन करना है और वह तिरछापन के मध्यम आँकड़ों पर समर्थन करते हैं।<ref name="Hubert2008">{{cite journal
नोकदार बॉक्स प्लॉट माध्यिका के चारों ओर पायदान या बॉक्स की संकीर्णता को लागू करते हैं। मंझले के अंतर के महत्व की मोटा गाइड की प्रस्तुतकश करने में पायदान उपयोगी होते हैं; यदि दो बक्सों के पायदान ओवरलैप नहीं होते हैं, तो यह माध्यिका के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर का प्रमाण प्रदान करेगा।<ref name="mcgill tukey larsen" />खांचे की चौड़ाई नमूने की इंटरक्वेर्टाइल रेंज (IQR) के समानुपाती होती है और नमूने के आकार के वर्गमूल के व्युत्क्रमानुपाती होती है। चूंकि, सबसे उपयुक्त गुणक के बारे में अनिश्चितता है (क्योंकि यह नमूनों के प्रसरणों की समानता के आधार पर भिन्न हो सकता है)।<ref name="mcgill tukey larsen" />
इन खांचों की सीमाओं को प्राप्त करने के लिए परिपाटी <math alt= ±1.58×IQR/sqrt(n) >\pm \frac{1.58 \text{ IQR}}{\sqrt n}</math> की दूरी का उपयोग करना है मध्य के आसपास।<ref name="Rboxplotstats">{{Cite web | title = R: Box Plot Statistics | work = R manual | url = http://stat.ethz.ch/R-manual/R-devel/library/grDevices/html/boxplot.stats.html | access-date = 26 June 2011}}</ref>
समायोजित बॉक्स भूखंडों का उद्देश्य तिरछापन का वर्णन करना है, और वे तिरछापन के मध्यम आँकड़ों पर भरोसा करते हैं।<ref name="Hubert2008">{{cite journal
|first1=M. |last1=Hubert | author1-link = Mia Hubert
|first1=M. |last1=Hubert | author1-link = Mia Hubert
|first2=E. |last2=Vandervieren
|first2=E. |last2=Vandervieren
Line 54: Line 59:
|pages=5186–5201
|pages=5186–5201
|doi=10.1016/j.csda.2007.11.008|citeseerx=10.1.1.90.9812
|doi=10.1016/j.csda.2007.11.008|citeseerx=10.1.1.90.9812
}}</ref> एमसी के औसत मूल्य के लिए, बॉक्स-प्लॉट पर ऊपरी और निचले मूंछ की लंबाई क्रमशः इस प्रकार परिभाषित की जाती है:
}}</ref> एमसी के औसत मूल्य के लिए, बॉक्स-प्लॉट पर ऊपरी और निचले मूंछ की लंबाई क्रमशः इस प्रकार परिभाषित की जाती है।
:<math>\begin{matrix}
:<math>\begin{matrix}
1.5 \text{IQR} \cdot e^{3 \text{MC}}, &  1.5 \text{ IQR} \cdot e^{-4 \text{MC}} \text{ if } \text{MC} \geq 0, \\
1.5 \text{IQR} \cdot e^{3 \text{MC}}, &  1.5 \text{ IQR} \cdot e^{-4 \text{MC}} \text{ if } \text{MC} \geq 0, \\
Line 60: Line 65:
\end{matrix}
\end{matrix}
</math>
</math>
सममित डेटा वितरण के लिए, मेडकूपल शून्य होगा, और यह समायोजित बॉक्स-प्लॉट को टकी के बॉक्स-प्लॉट में बराबर मूंछ की लंबाई के साथ कम कर देता है <math>1.5 \text{ IQR}</math> दोनों मूंछों के लिए।
सममित डेटा वितरण के लिए मेडकूपल शून्य होता है और यह समायोजित बॉक्स-प्लॉट को टकी के बॉक्स-प्लॉट में समांतर मूंछ की लंबाई के साथ कम कर देता है <math>1.5 \text{ IQR}</math> दोनों मूंछों के लिए होता है।
 
अन्य प्रकार के बॉक्स प्लॉट, जैसे [[ वायलिन की साजिश |वायलिन की साजिश]] और बीन प्लॉट एकल-मोडल और मल्टीमॉडल वितरण वितरण के बीच अंतर दिखा सकते हैं, जिसे मूल मौलिक बॉक्स-प्लॉट से नहीं देखा जा सकता है।<ref name=":0" />
 


अन्य प्रकार के बॉक्स प्लॉट, जैसे [[ वायलिन की साजिश |वायलिन प्लॉट्स]] और बीन प्लॉट एकल-मोडल और मल्टीमॉडल वितरण के मध्य अंतर दिखा सकते हैं। जिसे मूल मौलिक बॉक्स-प्लॉट से नहीं देखा जा सकता है।<ref name=":0" />
== उदाहरण ==
== उदाहरण ==


=== बाहरी कारकों के बिना उदाहरण ===
=== बाहरी कारकों के बिना उदाहरण ===
[[File:No Outlier.png|thumb|चित्रा 5. बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट आंकड़ा बिना किसी आउटलेयर के।]]घंटे के तापमान की श्रृंखला को पूरे दिन में डिग्री फ़ारेनहाइट में मापा गया। रिकॉर्ड किए गए मान निम्नानुसार सूचीबद्ध हैं (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81।
[[File:No Outlier.png|thumb|चित्रा 5. बिना किसी आउटलेयर के बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट चित्र।]]सामान्यतः घंटे के तापमान की श्रृंखला को पूरे दिन में डिग्री फ़ारेनहाइट में मापा गया है। जिसका रिकॉर्ड किए गए मान के निम्नानुसार सूचीबद्ध हैं (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81।


डेटा सेट का बॉक्स प्लॉट पहले इस डेटा सेट के पांच प्रासंगिक मानों की गणना करके उत्पन्न किया जा सकता है: न्यूनतम, अधिकतम, माध्यिका (''Q''<sub>2</sub>), पहला चतुर्थक (''Q''<sub>1</sub>), और तीसरा चतुर्थक (''Q''<sub>3</sub>).
डेटा सेट का बॉक्स प्लॉट पहले इस डेटा सेट के पांच प्रासंगिक मानों की गणना करके उत्पन्न किया जा सकता है: न्यूनतम, अधिकतम, माध्यिका (''Q''<sub>2</sub>), पहला चतुर्थक (''Q''<sub>1</sub>), और तीसरा चतुर्थक (''Q''<sub>3</sub>)


न्यूनतम डेटा सेट की सबसे छोटी संख्या है। इस स्थिति में, न्यूनतम अंकित दिन का तापमान 57 डिग्री फारेनहाइट है।
न्यूनतम डेटा सेट की सबसे छोटी संख्या है। इस स्थिति में, न्यूनतम अंकित दिन का तापमान 57 डिग्री फारेनहाइट है।
Line 76: Line 79:
अधिकतम डेटा सेट की सबसे बड़ी संख्या है। इस स्थिति में, अधिकतम रिकॉर्ड किया गया दिन का तापमान 81 °F है।
अधिकतम डेटा सेट की सबसे बड़ी संख्या है। इस स्थिति में, अधिकतम रिकॉर्ड किया गया दिन का तापमान 81 °F है।


माध्यिका क्रमित डेटा सेट की मध्य संख्या है। इसका मतलब यह है कि 50% तत्व माध्यिका से कम हैं और 50% तत्व माध्यिका से अधिक हैं। इस आदेशित डेटा सेट का माध्यिका 70 °F है।
माध्यिका आदेशित डेटा सेट की मध्य संख्या है। इसका तात्पर्य यह है कि 50% तत्व माध्यिका से कम हैं और 50% तत्व माध्यिका से अधिक हैं। इस आदेशित डेटा सेट का माध्यिका 70 °F है।


प्रथम चतुर्थक मान (''Q''<sub>1</sub>या 25 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 25% ऐसे तत्व हैं जो पहले चतुर्थक से कम हैं और ठीक 75% ऐसे तत्व हैं जो इससे अधिक हैं। न्यूनतम और माध्यिका के बीच की मध्य संख्या ज्ञात करके प्रथम चतुर्थक मान आसानी से निर्धारित किया जा सकता है। प्रति घंटा तापमान के लिए, 57 °F और 70 °F के बीच पाई जाने वाली मध्य संख्या 66 °F है।
प्रथम चतुर्थक मान (''Q''<sub>1</sub>या 25 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के चौथाई को चिह्नित करता है। दूसरे शब्दों में, ठीक 25% ऐसे तत्व हैं। जो प्रथम चतुर्थक से कम हैं और ठीक 75% ऐसे तत्व हैं जो इससे अधिक हैं। न्यूनतम और माध्यिका के मध्य की मध्य संख्या ज्ञात करके प्रथम चतुर्थक मान सरलता से निर्धारित किया जा सकता है। अतः प्रति घंटा तापमान के लिए, 57 °F और 70 °F के मध्य पाई जाने वाली मध्य संख्या 66 °F है।


तीसरा चतुर्थक मान (''Q''<sub>3</sub>या 75 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के तीन चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 75% तत्व ऐसे हैं जो तीसरे चतुर्थक से कम हैं और 25% ऐसे तत्व हैं जो इससे अधिक हैं। माध्यिका और अधिकतम के बीच की मध्य संख्या ज्ञात करके तीसरा चतुर्थक मान आसानी से प्राप्त किया जा सकता है। प्रति घंटा तापमान के लिए, 70 °F और 81 °F के बीच की मध्य संख्या 75 °F है।
तीसरा चतुर्थक मान (''Q''<sub>3</sub>या 75 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के तीन चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 75% तत्व ऐसे हैं। जो तीसरे चतुर्थक से कम हैं और 25% ऐसे तत्व हैं। जो इससे अधिक हैं। माध्यिका और अधिकतम के मध्य की संख्या ज्ञात करके तीसरा चतुर्थक मान सरलता से प्राप्त किया जा सकता है। प्रति घंटा तापमान के लिए, 70 °F और 81 °F के मध्य की संख्या 75 °F है।


इंटरक्वेर्टाइल रेंज या आईक्यूआर की गणना पहले क्वार्टाइल वैल्यू (''क्यू'' को घटाकर की जा सकती है।<sub>1</sub>) तीसरे चतुर्थक मान (''क्यू'' से<sub>3</sub>):
अन्तःचतुर्थक श्रेणी या आईक्यूआर की गणना प्रथम चतुर्थक मान (''Q''<sub>1</sub>) को घटाकर की जा सकती है। तीसरे चतुर्थक मान (''Q''<sub>3</sub>) से घटाकर की जा सकती है।


: <math>\text{IQR} = Q_3 - Q_1=75^\circ F-66^\circ F=9^\circ F.</math>
: <math>\text{IQR} = Q_3 - Q_1=75^\circ F-66^\circ F=9^\circ F.</math>
इस तरह, <math>1.5  \text{IQR}=1.5 \cdot 9^\circ F=13.5 ^\circ F.</math>
इस प्रकार, <math>1.5  \text{IQR}=1.5 \cdot 9^\circ F=13.5 ^\circ F.</math>
1.5 IQR तीसरे चतुर्थक से ऊपर है:
 
1.5 आईक्यूआर तीसरे चतुर्थक से ऊपर है।


: <math>Q_3+1.5\text{ IQR}=75^\circ F+13.5^\circ F=88.5^\circ F.</math>
: <math>Q_3+1.5\text{ IQR}=75^\circ F+13.5^\circ F=88.5^\circ F.</math>
प्रथम चतुर्थक के नीचे 1.5 IQR है:
प्रथम चतुर्थक के नीचे 1.5 आईक्यूआर है।


: <math>Q_1-1.5\text{ IQR}=66^\circ F-13.5^\circ F=52.5^\circ F.</math>
: <math>Q_1-1.5\text{ IQR}=66^\circ F-13.5^\circ F=52.5^\circ F.</math>
बॉक्स-प्लॉट की ऊपरी मूंछ सीमा सबसे बड़ा डेटा मान है जो तीसरे चतुर्थक के ऊपर 1.5 IQR के भीतर है। यहाँ, तीसरे चतुर्थक के ऊपर 1.5 IQR 88.5 °F और अधिकतम 81 °F है। इसलिए, ऊपरी मूंछ अधिकतम के मान पर खींची जाती है, जो कि 81 °F है।
बॉक्स-प्लॉट की ऊपरी मूंछ सीमा सबसे बड़ा डेटा मान है। जो तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर के अंदर है। यहाँ तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर 88.5 °F और अधिकतम 81 °F है। इस प्रकार ऊपरी मूंछ अधिकतम के मान पर खींची जाती है, जो कि 81 °F है।


इसी तरह, बॉक्स प्लॉट की निचली मूंछ सीमा सबसे छोटा डेटा मान है जो पहले चतुर्थांश के नीचे 1.5 IQR के भीतर है। यहां, पहले चतुर्थक के नीचे 1.5 IQR 52.5 °F और न्यूनतम 57 °F है। इसलिए, निचला मूंछ न्यूनतम के मान पर खींचा जाता है, जो कि 57 °F है।
इसी प्रकार, बॉक्स प्लॉट की निचली मूंछ सीमा सबसे छोटा डेटा मान है जो पहले चतुर्थांश के नीचे 1.5 आईक्यूआर के अंदर है। यहां, पहले चतुर्थक के नीचे 1.5 आईक्यूआर 52.5 °F और न्यूनतम 57 °F है। इस प्रकार निचला मूंछ न्यूनतम के मान पर खींचा जाता है, जो कि 57 °F है।


=== आउटलेर्स के साथ उदाहरण ===
=== आउटलेर्स के साथ उदाहरण ===
[[File:Boxplot with outlier.png|thumb|चित्रा 6. आउटलेयर के साथ बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट।]]ऊपर आउटलेयर के बिना उदाहरण है। आउटलेर्स के साथ बॉक्स-प्लॉट बनाने के लिए यहां अनुवर्ती उदाहरण दिया गया है:
[[File:Boxplot with outlier.png|thumb|चित्रा 6. आउटलेयर के साथ बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट।]]ऊपर आउटलेयर के बिना उदाहरण है। आउटलेर्स के साथ बॉक्स-प्लॉट बनाने के लिए यहां अनुवर्ती उदाहरण दिया गया है।


रिकॉर्ड किए गए तापमान के लिए निर्धारित सेट है (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75 , 76, 76, 78, 79, 89।
रिकॉर्ड किए गए तापमान के लिए निर्धारित सेट है (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75 , 76, 76, 78, 79, 89।


इस उदाहरण में केवल पहली और आखिरी संख्या बदली गई है। माध्यिका, तृतीय चतुर्थक और प्रथम चतुर्थक समान रहते हैं।
इस उदाहरण में केवल पहली और आखिरी संख्या परिवर्तित की गई है। अतः माध्यिका, तृतीय चतुर्थक और प्रथम चतुर्थक समान रहते हैं।
 
इस स्थिति में, इस डेटा सेट में अधिकतम मान 89 °F है और तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर 88.5 °F है। अधिकतम 1.5 आईक्यूआर और तीसरे चतुर्थक से अधिक है, इसलिए अधिकतम बाहरी है। जिससे कि ऊपरी मूंछ तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर से छोटे सबसे बड़े मूल्य पर खींची जाती है, जो कि 79 ° F है।


इस स्थिति में, इस डेटा सेट में अधिकतम मान 89 °F है, और तीसरे चतुर्थक के ऊपर 1.5 IQR 88.5 °F है। अधिकतम 1.5 IQR और तीसरे चतुर्थक से अधिक है, इसलिए अधिकतम बाहरी है। इसलिए, ऊपरी मूंछ तीसरे चतुर्थक के ऊपर 1.5 IQR से छोटे सबसे बड़े मूल्य पर खींची जाती है, जो कि 79 ° F है।
इसी प्रकार, इस डेटा सेट में न्यूनतम मान 52 °F है और पहली चतुर्थक के नीचे 1.5 आईक्यूआर 52.5 °F है। न्यूनतम 1.5 आईक्यूआर माइनस प्रथम चतुर्थक से छोटा है। इसलिए न्यूनतम भी आउटलायर है। जिससे कि निचली मूंछ पहले चतुर्थक के नीचे 1.5 आईक्यूआर से अधिक के सबसे छोटे मूल्य पर खींची जाती है, जो कि 57 ° F है।


इसी तरह, इस डेटा सेट में न्यूनतम मान 52 °F है, और पहली चतुर्थक के नीचे 1.5 IQR 52.5 °F है। न्यूनतम 1.5 IQR माइनस पहला क्वार्टाइल से छोटा है, इसलिए न्यूनतम भी आउटलायर है। इसलिए, निचली मूंछ पहले चतुर्थक के नीचे 1.5 IQR से अधिक के सबसे छोटे मूल्य पर खींची जाती है, जो कि 57 ° F है।
बड़े डेटासेट के स्थिति में,


=== बड़े डेटासेट === के स्थिति में
बड़ी संख्या में डेटा बिंदुओं वाले डेटा सेट से बॉक्स-प्लॉट प्राप्त करने का अतिरिक्त उदाहरण है।
बड़ी संख्या में डेटा बिंदुओं वाले डेटा सेट से बॉक्स-प्लॉट प्राप्त करने का अतिरिक्त उदाहरण है:


==== अनुभवजन्य मात्राओं की गणना करने के लिए सामान्य समीकरण ====
==== अनुभवजन्य मात्राओं की गणना करने के लिए सामान्य समीकरण ====
Line 116: Line 121:
:यहाँ <math>x_{(k)}</math> डेटा बिंदुओं के सामान्य क्रम के लिए खड़ा है (अर्थात यदि <math>i<k</math>, तब <math>x_{(i)} < x_{(k)}</math> )
:यहाँ <math>x_{(k)}</math> डेटा बिंदुओं के सामान्य क्रम के लिए खड़ा है (अर्थात यदि <math>i<k</math>, तब <math>x_{(i)} < x_{(k)}</math> )


उपरोक्त उदाहरण का उपयोग करते हुए जिसमें 24 डेटा बिंदु (n = 24) हैं, कोई भी गणितीय या दृष्टिगत रूप से माध्यिका, प्रथम और तृतीय चतुर्थक की गणना कर सकता है।
उपरोक्त उदाहरण का उपयोग करते हुए जिसमें 24 डेटा बिंदु (n = 24) हैं। अतः कोई भी गणितीय या दृष्टिगत रूप से माध्यिका, प्रथम और तृतीय चतुर्थक की गणना कर सकता है।


'मध्य' : <math>q_n(0.5) = x_{(12)} + (0.5\cdot25-12)\cdot(x_{(13)}-x_{(12)})
'मध्य' : <math>q_n(0.5) = x_{(12)} + (0.5\cdot25-12)\cdot(x_{(13)}-x_{(12)})
= 70+(0.5\cdot25-12)\cdot(70-70) = 70^\circ F</math>
= 70+(0.5\cdot25-12)\cdot(70-70) = 70^\circ F</math>
पहला चतुर्थक : <math>q_n(0.25) = x_{(6)} + (0.25\cdot25-6)\cdot(x_{(7)}-x_{(6)})
पहला चतुर्थक : <math>q_n(0.25) = x_{(6)} + (0.25\cdot25-6)\cdot(x_{(7)}-x_{(6)})
= 66 +(0.25\cdot25 - 6)\cdot(66-66) = 66^\circ F</math>
= 66 +(0.25\cdot25 - 6)\cdot(66-66) = 66^\circ F</math>
तीसरा चतुर्थक : <math>q_n(0.75) = x_{(18)} + (0.75\cdot25-18)\cdot(x_{(19)}-x_{(18)})
तीसरा चतुर्थक : <math>q_n(0.75) = x_{(18)} + (0.75\cdot25-18)\cdot(x_{(19)}-x_{(18)})
=75 + (0.75\cdot25-18)\cdot(75-75) = 75^\circ F</math>
=75 + (0.75\cdot25-18)\cdot(75-75) = 75^\circ F</math>
== विज़ुअलाइज़ेशन ==
== विज़ुअलाइज़ेशन ==
[[File:Boxplot vs PDF.svg|thumb|upright=1.2|चित्रा 7. सामान्य एन (0,1σ) का बॉक्स-प्लॉट और प्रायिकता घनत्व फ़ंक्शन (पीडीएफ)।<sup>2</sup>) जनसंख्या]]चूंकि बॉक्स प्लॉट [[हिस्टोग्राम]] या [[कर्नेल घनत्व अनुमान]] से अधिक आदिम लग सकते हैं, किन्तु उनके कई फायदे हैं। सबसे पहले, बॉक्स प्लॉट सांख्यिकीविदों को या अधिक डेटा सेटों पर त्वरित ग्राफिकल परीक्षा करने में सक्षम बनाता है। बॉक्स-प्लॉट भी कम जगह लेते हैं और इसलिए समानांतर में कई समूहों या डेटा के सेट के बीच वितरण की तुलना करने के लिए विशेष रूप से उपयोगी होते हैं (उदाहरण के लिए चित्र 1 देखें)अंत में, हिस्टोग्राम और कर्नेल घनत्व अनुमान की समग्र संरचना क्रमशः हिस्टोग्राम # डिब्बे की संख्या और चौड़ाई तकनीकों और बैंडविड्थ की पसंद से दृढ़ता से प्रभावित हो सकती है।
[[File:Boxplot vs PDF.svg|thumb|upright=1.2|चित्रा 7. सामान्य एन (0,1σ<sup>2</sup>) का बॉक्स-प्लॉट और प्रायिकता घनत्व फ़ंक्शन (पीडीएफ) जनसंख्या।]]चूंकि बॉक्स प्लॉट [[हिस्टोग्राम]] या [[कर्नेल घनत्व अनुमान]] से अधिक प्राचीन लग सकते हैं। अतः उनके कई लाभ होते हैं। सबसे पहले, बॉक्स प्लॉट सांख्यिकीविदों को या अधिक डेटा सेटों पर त्वरित ग्राफिकल परीक्षा करने में सक्षम बनाता है। बॉक्स-प्लॉट भी कम जगह लेते हैं और इसलिए समानांतर में कई समूहों या डेटा के सेट के मध्य वितरण की तुलना करने के लिए विशेष रूप से उपयोगी होते हैं। (उदाहरण के लिए चित्र 1 देखें) अंत में, हिस्टोग्राम और कर्नेल घनत्व अनुमान की समग्र संरचना क्रमशः हिस्टोग्राम बॉक्स की संख्या और चौड़ाई तकनीकों और बैंडविड्थ की पसंद से दृढ़ता से प्रभावित हो सकती है।


चूंकि बॉक्स प्लॉट को देखने की तुलना में सांख्यिकीय वितरण को देखना अधिक सामान्य है, यह सामान्य एन (0, σ) के लिए प्रायिकता घनत्व फ़ंक्शन (सैद्धांतिक हिस्टोग्राम) के विरुद्ध बॉक्स प्लॉट की तुलना करने के लिए उपयोगी हो सकता है।<sup>2</sup>) वितरण और सीधे उनकी विशेषताओं का निरीक्षण करें (जैसा चित्र 7 में दिखाया गया है)।
चूंकि बॉक्स प्लॉट को देखने की तुलना में सांख्यिकीय वितरण को देखना अधिक सामान्य है। यह सामान्य एन (0, σ<sup>2</sup>) के लिए प्रायिकता घनत्व फ़ंक्शन (सैद्धांतिक हिस्टोग्राम) के विरुद्ध बॉक्स प्लॉट की तुलना करने के लिए उपयोगी हो सकता है। वितरण और सीधे उनकी विशेषताओं का निरीक्षण किया जाता है। (जैसा चित्र 7 में दिखाया गया है)।


[[File:Boxplots with skewness.png|thumb|चित्र 8. डेटा सेट के तिरछापन को प्रदर्शित करने वाले बॉक्स-प्लॉट]]
[[File:Boxplots with skewness.png|thumb|चित्र 8. डेटा सेट के तिरछापन को प्रदर्शित करने वाले बॉक्स-प्लॉट]]
{{clear}}
== यह भी देखें ==
== यह भी देखें ==
* [[बैगप्लॉट]]
* [[बैगप्लॉट]]
Line 160: Line 163:


{{Statistics|descriptive}}
{{Statistics|descriptive}}
[[Category: सांख्यिकीय चार्ट और आरेख]] [[Category: सांख्यिकीय आउटलेयर]]


[[Category: Machine Translated Page]]
[[Category:Collapse templates]]
[[Category:Commons category link is locally defined]]
[[Category:Created On 28/02/2023]]
[[Category:Created On 28/02/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with empty portal template]]
[[Category:Pages with script errors]]
[[Category:Portal-inline template with redlinked portals]]
[[Category:Short description with empty Wikidata description]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:सांख्यिकीय आउटलेयर]]
[[Category:सांख्यिकीय चार्ट और आरेख]]

Latest revision as of 20:05, 11 March 2023

चित्र 1. . मिशेलसन प्रयोग से डेटा का बॉक्स प्लॉट।

वर्णनात्मक आँकड़ों में, बॉक्स प्लॉट या बॉक्सप्लॉट ग्राफिक रूप से स्थानीयता, प्रसार और संख्यात्मक डेटा के तिरछे समूहों को उनके चतुर्थक के माध्यम से प्रदर्शित करने की विधि है।[1] बॉक्स प्लॉट पर बॉक्स के अतिरिक्त, बॉक्स से फैली हुई रेखायें (जिन्हें मूंछ कहा जाता है) हो सकती हैं। जो ऊपरी और निचले चतुर्थक के बाहर परिवर्तनशीलता का संकेत देती हैं। इस प्रकार प्लॉट को 'बॉक्स-एंड-व्हिस्कर प्लॉट' भी कहा जाता है और 'बॉक्स-एंड-व्हिस्कर आरेख' भी कहा जाता है। आउटलेयर जो अन्य डेटासेट से अधिक भिन्न होती हैं।[2] उन्हें बॉक्स-प्लॉट पर मूंछ से बढ़कर भिन्न-भिन्न बिंदुओं के रूप में प्लॉट किया जा सकता है।

सामान्यतः बॉक्स प्लॉट गैर पैरामीट्रिक हैं। वे अंतर्निहित संभाव्यता वितरण की कोई धारणा बनाए बिना सांख्यिकीय जन-संख्या की रचनाओं में भिन्नता प्रदर्शित करते हैं।[3] (चूंकि टकी का बॉक्सप्लॉट मूंछों के लिए समरूपता और उनकी लंबाई के लिए सामान्यता मानता है)। बॉक्स-प्लॉट के प्रत्येक उपखंड में स्पेसिंग डेटा के सांख्यिकीय फैलाव (प्रसार) और डेटा के तिरछापन की डिग्री दर्शाती है। जिसे सामान्यतः पांच-संख्या सारांश का उपयोग करके वर्णित किया जाता है। इसके अतिरिक्त, बॉक्स-प्लॉट व्यक्ति को विभिन्न एल-अनुमानकों, विशेष रूप से अन्तःचतुर्थक श्रेणी, मिडहिंज, श्रेणी (सांख्यिकी), मध्य-श्रेणी और काट-छांट करने का अनुमान लगाने की अनुमति देता है। अतः बॉक्स प्लॉट या तो क्षैतिज या लंबवत रूप से खींचे जा सकते हैं।

इतिहास

श्रेणी-बार पद्धति को प्रथम बार मैरी एलेनोर स्पीयर ने सन् 1952 में अपनी पुस्तक "चार्टिंग स्टैटिस्टिक्स" में प्रस्तुत किया था।[4] इसके पश्चात् सन् 1969 में उनकी पुस्तक "प्रैक्टिकल चार्टिंग टेक्निक्स" में प्रस्तुत किया गया था।[5] चूँकि बॉक्स-एंड-व्हिस्कर प्लॉट प्रथम बार सन् 1970 में जॉन टुकी द्वारा प्रस्तुत किया गया थ। जिन्होंने इसके पश्चात् सन् 1977 में अपनी पुस्तक "एक्सप्लोरेटरी डेटा एनालिसिस" में इस विषय को प्रकाशित किया था।[6]

तत्व

चित्रा 2. न्यूनतम से अधिकतम तक मूंछ के साथ बॉक्स-प्लॉट
चित्रा 3.1.5 आईक्यूआर मान के भीतर मूंछ के साथ समान बॉक्स-प्लॉट।

बॉक्सप्लॉट पाँच अंकों के सारांश के आधार पर डेटासेट प्रदर्शित करने की मानकीकृत विधि है। न्यूनतम, अधिकतम, रचना माध्यिका, और पहला और तीसरा चतुर्थक।

  • रचना न्यूनतम (Q0 या 0 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में सबसे कम डेटा बिंदु।
  • रचना अधिकतम (Q4 या 100 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में उच्चतम डेटा बिंदु।
  • माध्यिका (Q2 या 50 वाँ प्रतिशतक): डेटा सेट में मध्य मान।
  • पहला चतुर्थक (Q1 या 25वां प्रतिशतक): जिसे निम्न चतुर्थक qn(0.25) के रूप में भी जाना जाता है। यह डेटासेट के निचले आधे भाग की माध्यिका है।
  • तीसरा चतुर्थक (Q3 या 75 वाँ प्रतिशतक): जिसे ऊपरी चतुर्थक qn(0.75), के रूप में भी जाना जाता है। यह डेटासेट के ऊपरी आधे भाग की माध्यिका है।[7]

बॉक्स-प्लॉट के निर्माण के लिए उपयोग किए जाने वाले न्यूनतम और अधिकतम मानों के अतिरिक्त, अन्य महत्वपूर्ण तत्व जिसे बॉक्स-प्लॉट प्राप्त करने के लिए भी नियोजित किया जा सकता है। जो अन्तःचतुर्थक श्रेणी (आईक्यूआर) है, जैसा कि नीचे दर्शाया गया है।

  • इंटरक्वेरटाइल श्रेणी (आईक्यूआर): ऊपरी और निचले चतुर्थक के मध्य की दूरी,

बॉक्स-प्लॉट में सामान्यतः दो भाग होते हैं। बॉक्स और मूंछ का सेट जैसा कि चित्र 2 में दिखाया गया है। चूँकि बॉक्स Q1 से Q3 के मध्य में खींची गई क्षैतिज रेखा के साथ खींचा जाता है। जो मध्यिका को दर्शाता है। अतः मूंछ को विभिन्न प्रकारों से परिभाषित किया जा सकता है।

सबसे सीधी-आगे की विधि में, निचले मूंछ की सीमा डेटा सेट का न्यूनतम मूल्य है और ऊपरी मूंछ की सीमा डेटा सेट का अधिकतम मूल्य है।

मूंछ की सीमाओं के लिए अन्य लोकप्रिय विकल्प 1.5 आईक्यूआर मान पर आधारित है। ऊपरी चतुर्थक के ऊपर से (Q3), आईक्यूआर से 1.5 गुना की दूरी मापी जाती है और इस दूरी के अंदर आने वाले डेटासेट से सबसे बड़े देखे गए डेटा बिंदु तक मूंछ खींची जाती है। इसी प्रकार, आईक्यूआर की 1.5 गुना की दूरी को निम्न चतुर्थक (Q1) के नीचे मापा जाता है और इस दूरी के अंदर आने वाले डेटासेट से सबसे कम देखे गए डेटा बिंदु के लिए मूंछ खींची जाती है। चूँकि मूंछ देखे गए डेटा बिंदु पर समाप्त होनी चाहिए अतः मूंछ की लंबाई असमान दिख सकती है। यदि 1.5 आईक्यूआर दोनों पक्षों के लिए समान होता है। तब व्हिस्कर्स की सीमा के बाहर देखे गए अन्य सभी डेटा बिंदुओं को 'आउटलेयर' के रूप में प्लॉट किया जाता है।[8] अतः आउटलेयर को बॉक्स-प्लॉट पर डॉट, छोटा वृत्त, स्टार, आदि के रूप में प्लॉट किया जा सकता है।

चूँकि, मूंछें कई अन्य चीजों के लिए खड़ी हो सकती हैं। जैसे:

  • डेटा सेट का न्यूनतम और अधिकतम मान (जैसा चित्र 2 में दिखाया गया है)।
  • डेटा सेट के माध्य से ऊपर और नीचे मानक विचलन
  • डेटा सेट का 9वाँ प्रतिशतक और 91वाँ प्रतिशतक।
  • डेटा सेट का दूसरा प्रतिशतक और 98वां प्रतिशतक।

सामान्यतः विरले ही बॉक्स प्लॉट बिना मूंछ के प्लॉट किए जा सकते हैं। यह संवेदनशील जानकारी के लिए उचित हो सकता है। जिससे कि मूंछ (और बाहरी) से बचने के लिए वास्तविक मूल्यों का व्याख्यान किया जा सकता है।[9]

कुछ बॉक्स प्लॉट में डेटा के माध्यम का प्रतिनिधित्व करने के लिए अतिरिक्त वर्ण सम्मिलित होते है।[10][11]

असामान्य प्रतिशतक 2%, 9%, 91%, 98% का उपयोग कभी-कभी मूंछ क्रॉस-हैच के लिए किया जाता है और सात-संख्या सारांश को दर्शाने के लिए मूंछ समाप्त होती है। यदि डेटा सामान्य वितरण हैं। तब बॉक्स प्लॉट पर सात चिह्नों के स्थान समान रूप से स्थानित होते है। अतः कुछ बॉक्स भूखंडों पर, प्रत्येक मूंछ के अंत से पहले क्रॉस-हैच लगाया जाता है।

इस परिवर्तनशीलता के कारण, बॉक्स-प्लॉट के शीर्षक में व्हिस्कर्स और आउटलेयर के लिए उपयोग किए जा रहे सम्मेलन का वर्णन करना उचित है।

रूपांतर

चित्र 4.चार बॉक्स प्लॉट, नॉच और चर चौड़ाई के साथ और बिना।

चूंकि गणितज्ञ जॉन डब्ल्यू ने तुकी ने प्रथम बार सन् 1969 में इस प्रकार के विज़ुअल डेटा डिस्प्ले को लोकप्रिय बनाया था। क्लासिकल बॉक्स प्लॉट पर कई विविधताएँ विकसित की गई हैं और दो सबसे अधिक पाई जाने वाली विविधताएँ चर चौड़ाई वाले बॉक्स प्लॉट और नॉटेड बॉक्स प्लॉट हैं जो चित्र 4 में दिखाए गए हैं।

परिवर्तनीय चौड़ाई वाले बॉक्स प्लॉट प्रत्येक समूह के आकार का वर्णन करते हैं। जिनके डेटा को समूह के आकार के अनुपात में बॉक्स की चौड़ाई बनाकर प्लॉट किया जा रहा है। समूह के आकार के वर्गमूल के अनुपात में बॉक्स की चौड़ाई को आनुपातिक बनाने की लोकप्रिय परंपरा है।[12]

अधिकाशतः नोकदार बॉक्स प्लॉट माध्यिका के चारों ओर पायदान या बॉक्स की संकीर्णता को प्रयुक्त करते हैं। माध्यिका के अंतर के महत्व की मोटी गाइड की प्रस्तुतीकर करने में पायदान उपयोगी होते हैं। यदि दो बक्सों के पायदान ओवरलैप नहीं होते हैं। तब यह माध्यिका के मध्य सांख्यिकीय रूप से महत्वपूर्ण अंतर का प्रमाण प्रदान करता है।[12] सामान्यतः खांचे की चौड़ाई रचनाओं की अन्तःचतुर्थक श्रेणी (आईक्यूआर) के समानुपाती होती है और रचनाओं के आकार के वर्गमूल के व्युत्क्रमानुपाती होती है। चूंकि, सबसे उपयुक्त गुणक के बारे में अनिश्चितता है (क्योंकि यह रचनाओं के प्रसरणों की समानता के आधार पर भिन्न हो सकता है)।[12]

इन खांचों की सीमाओं को प्राप्त करने के लिए परिपाटी की दूरी का उपयोग करना है। जो मध्य के आसपास होता है।[13]

समायोजित बॉक्स भूखंडों का उद्देश्य तिरछापन का वर्णन करना है और वह तिरछापन के मध्यम आँकड़ों पर समर्थन करते हैं।[14] एमसी के औसत मूल्य के लिए, बॉक्स-प्लॉट पर ऊपरी और निचले मूंछ की लंबाई क्रमशः इस प्रकार परिभाषित की जाती है।

सममित डेटा वितरण के लिए मेडकूपल शून्य होता है और यह समायोजित बॉक्स-प्लॉट को टकी के बॉक्स-प्लॉट में समांतर मूंछ की लंबाई के साथ कम कर देता है दोनों मूंछों के लिए होता है।

अन्य प्रकार के बॉक्स प्लॉट, जैसे वायलिन प्लॉट्स और बीन प्लॉट एकल-मोडल और मल्टीमॉडल वितरण के मध्य अंतर दिखा सकते हैं। जिसे मूल मौलिक बॉक्स-प्लॉट से नहीं देखा जा सकता है।[6]

उदाहरण

बाहरी कारकों के बिना उदाहरण

चित्रा 5. बिना किसी आउटलेयर के बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट चित्र।

सामान्यतः घंटे के तापमान की श्रृंखला को पूरे दिन में डिग्री फ़ारेनहाइट में मापा गया है। जिसका रिकॉर्ड किए गए मान के निम्नानुसार सूचीबद्ध हैं (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81।

डेटा सेट का बॉक्स प्लॉट पहले इस डेटा सेट के पांच प्रासंगिक मानों की गणना करके उत्पन्न किया जा सकता है: न्यूनतम, अधिकतम, माध्यिका (Q2), पहला चतुर्थक (Q1), और तीसरा चतुर्थक (Q3)।

न्यूनतम डेटा सेट की सबसे छोटी संख्या है। इस स्थिति में, न्यूनतम अंकित दिन का तापमान 57 डिग्री फारेनहाइट है।

अधिकतम डेटा सेट की सबसे बड़ी संख्या है। इस स्थिति में, अधिकतम रिकॉर्ड किया गया दिन का तापमान 81 °F है।

माध्यिका आदेशित डेटा सेट की मध्य संख्या है। इसका तात्पर्य यह है कि 50% तत्व माध्यिका से कम हैं और 50% तत्व माध्यिका से अधिक हैं। इस आदेशित डेटा सेट का माध्यिका 70 °F है।

प्रथम चतुर्थक मान (Q1या 25 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के चौथाई को चिह्नित करता है। दूसरे शब्दों में, ठीक 25% ऐसे तत्व हैं। जो प्रथम चतुर्थक से कम हैं और ठीक 75% ऐसे तत्व हैं जो इससे अधिक हैं। न्यूनतम और माध्यिका के मध्य की मध्य संख्या ज्ञात करके प्रथम चतुर्थक मान सरलता से निर्धारित किया जा सकता है। अतः प्रति घंटा तापमान के लिए, 57 °F और 70 °F के मध्य पाई जाने वाली मध्य संख्या 66 °F है।

तीसरा चतुर्थक मान (Q3या 75 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के तीन चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 75% तत्व ऐसे हैं। जो तीसरे चतुर्थक से कम हैं और 25% ऐसे तत्व हैं। जो इससे अधिक हैं। माध्यिका और अधिकतम के मध्य की संख्या ज्ञात करके तीसरा चतुर्थक मान सरलता से प्राप्त किया जा सकता है। प्रति घंटा तापमान के लिए, 70 °F और 81 °F के मध्य की संख्या 75 °F है।

अन्तःचतुर्थक श्रेणी या आईक्यूआर की गणना प्रथम चतुर्थक मान (Q1) को घटाकर की जा सकती है। तीसरे चतुर्थक मान (Q3) से घटाकर की जा सकती है।

इस प्रकार,

1.5 आईक्यूआर तीसरे चतुर्थक से ऊपर है।

प्रथम चतुर्थक के नीचे 1.5 आईक्यूआर है।

बॉक्स-प्लॉट की ऊपरी मूंछ सीमा सबसे बड़ा डेटा मान है। जो तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर के अंदर है। यहाँ तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर 88.5 °F और अधिकतम 81 °F है। इस प्रकार ऊपरी मूंछ अधिकतम के मान पर खींची जाती है, जो कि 81 °F है।

इसी प्रकार, बॉक्स प्लॉट की निचली मूंछ सीमा सबसे छोटा डेटा मान है जो पहले चतुर्थांश के नीचे 1.5 आईक्यूआर के अंदर है। यहां, पहले चतुर्थक के नीचे 1.5 आईक्यूआर 52.5 °F और न्यूनतम 57 °F है। इस प्रकार निचला मूंछ न्यूनतम के मान पर खींचा जाता है, जो कि 57 °F है।

आउटलेर्स के साथ उदाहरण

चित्रा 6. आउटलेयर के साथ बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट।

ऊपर आउटलेयर के बिना उदाहरण है। आउटलेर्स के साथ बॉक्स-प्लॉट बनाने के लिए यहां अनुवर्ती उदाहरण दिया गया है।

रिकॉर्ड किए गए तापमान के लिए निर्धारित सेट है (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75 , 76, 76, 78, 79, 89।

इस उदाहरण में केवल पहली और आखिरी संख्या परिवर्तित की गई है। अतः माध्यिका, तृतीय चतुर्थक और प्रथम चतुर्थक समान रहते हैं।

इस स्थिति में, इस डेटा सेट में अधिकतम मान 89 °F है और तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर 88.5 °F है। अधिकतम 1.5 आईक्यूआर और तीसरे चतुर्थक से अधिक है, इसलिए अधिकतम बाहरी है। जिससे कि ऊपरी मूंछ तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर से छोटे सबसे बड़े मूल्य पर खींची जाती है, जो कि 79 ° F है।

इसी प्रकार, इस डेटा सेट में न्यूनतम मान 52 °F है और पहली चतुर्थक के नीचे 1.5 आईक्यूआर 52.5 °F है। न्यूनतम 1.5 आईक्यूआर माइनस प्रथम चतुर्थक से छोटा है। इसलिए न्यूनतम भी आउटलायर है। जिससे कि निचली मूंछ पहले चतुर्थक के नीचे 1.5 आईक्यूआर से अधिक के सबसे छोटे मूल्य पर खींची जाती है, जो कि 57 ° F है।

बड़े डेटासेट के स्थिति में,

बड़ी संख्या में डेटा बिंदुओं वाले डेटा सेट से बॉक्स-प्लॉट प्राप्त करने का अतिरिक्त उदाहरण है।

अनुभवजन्य मात्राओं की गणना करने के लिए सामान्य समीकरण

यहाँ डेटा बिंदुओं के सामान्य क्रम के लिए खड़ा है (अर्थात यदि , तब )

उपरोक्त उदाहरण का उपयोग करते हुए जिसमें 24 डेटा बिंदु (n = 24) हैं। अतः कोई भी गणितीय या दृष्टिगत रूप से माध्यिका, प्रथम और तृतीय चतुर्थक की गणना कर सकता है।

'मध्य' :

पहला चतुर्थक :

तीसरा चतुर्थक :

विज़ुअलाइज़ेशन

चित्रा 7. सामान्य एन (0,1σ2) का बॉक्स-प्लॉट और प्रायिकता घनत्व फ़ंक्शन (पीडीएफ) जनसंख्या।

चूंकि बॉक्स प्लॉट हिस्टोग्राम या कर्नेल घनत्व अनुमान से अधिक प्राचीन लग सकते हैं। अतः उनके कई लाभ होते हैं। सबसे पहले, बॉक्स प्लॉट सांख्यिकीविदों को या अधिक डेटा सेटों पर त्वरित ग्राफिकल परीक्षा करने में सक्षम बनाता है। बॉक्स-प्लॉट भी कम जगह लेते हैं और इसलिए समानांतर में कई समूहों या डेटा के सेट के मध्य वितरण की तुलना करने के लिए विशेष रूप से उपयोगी होते हैं। (उदाहरण के लिए चित्र 1 देखें) अंत में, हिस्टोग्राम और कर्नेल घनत्व अनुमान की समग्र संरचना क्रमशः हिस्टोग्राम बॉक्स की संख्या और चौड़ाई तकनीकों और बैंडविड्थ की पसंद से दृढ़ता से प्रभावित हो सकती है।

चूंकि बॉक्स प्लॉट को देखने की तुलना में सांख्यिकीय वितरण को देखना अधिक सामान्य है। यह सामान्य एन (0, σ2) के लिए प्रायिकता घनत्व फ़ंक्शन (सैद्धांतिक हिस्टोग्राम) के विरुद्ध बॉक्स प्लॉट की तुलना करने के लिए उपयोगी हो सकता है। वितरण और सीधे उनकी विशेषताओं का निरीक्षण किया जाता है। (जैसा चित्र 7 में दिखाया गया है)।

चित्र 8. डेटा सेट के तिरछापन को प्रदर्शित करने वाले बॉक्स-प्लॉट

यह भी देखें

संदर्भ

  1. C., Dutoit, S. H. (2012). ग्राफिकल खोजपूर्ण डेटा विश्लेषण।. Springer. ISBN 978-1-4612-9371-2. OCLC 1019645745.{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. Grubbs, Frank E. (February 1969). "नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं". Technometrics. 11 (1): 1–21. doi:10.1080/00401706.1969.10490657. ISSN 0040-1706.
  3. Richard., Boddy (2009). Statistical Methods in Practice : for Scientists and Technologists. John Wiley & Sons. ISBN 978-0-470-74664-6. OCLC 940679163.
  4. Spear, Mary Eleanor (1952). चार्टिंग सांख्यिकी. McGraw Hill. p. 166.
  5. Spear, Mary Eleanor. (1969). प्रैक्टिकल चार्टिंग तकनीक. New York: McGraw-Hill. ISBN 0070600104. OCLC 924909765.
  6. 6.0 6.1 Wickham, Hadley; Stryjewski, Lisa. "40 years of boxplots" (PDF). Retrieved December 24, 2020.
  7. Holmes, Alexander; Illowsky, Barbara; Dean, Susan (31 March 2015). "परिचयात्मक व्यापार सांख्यिकी". OpenStax.
  8. Dekking, F.M. (2005). संभाव्यता और सांख्यिकी का एक आधुनिक परिचय. Springer. pp. 234–238. ISBN 1-85233-896-2.
  9. Derrick, Ben; Green, Elizabeth; Ritchie, Felix; White, Paul (September 2022). "आम तौर पर इस्तेमाल किए जाने वाले यूनीवेरिएट स्टैटिस्टिक्स की रिपोर्टिंग करते समय प्रकटीकरण का जोखिम". Privacy in Statistical Databases. 13463: 119–129. doi:10.1007/978-3-031-13945-1_9.
  10. Frigge, Michael; Hoaglin, David C.; Iglewicz, Boris (February 1989). "बॉक्सप्लॉट के कुछ कार्यान्वयन". The American Statistician. 43 (1): 50–54. doi:10.2307/2685173. JSTOR 2685173.
  11. Marmolejo-Ramos, F.; Tian, S. (2010). "शिफ्टिंग बॉक्सप्लॉट। माध्य के आसपास आवश्यक सारांश आँकड़ों पर आधारित एक बॉक्सप्लॉट". International Journal of Psychological Research. 3 (1): 37–46. doi:10.21500/20112084.823.
  12. 12.0 12.1 12.2 McGill, Robert; Tukey, John W.; Larsen, Wayne A. (February 1978). "बॉक्स भूखंडों की विविधताएं". The American Statistician. 32 (1): 12–16. doi:10.2307/2683468. JSTOR 2683468.
  13. "R: Box Plot Statistics". R manual. Retrieved 26 June 2011.
  14. Hubert, M.; Vandervieren, E. (2008). "An adjusted boxplot for skewed distribution". Computational Statistics and Data Analysis. 52 (12): 5186–5201. CiteSeerX 10.1.1.90.9812. doi:10.1016/j.csda.2007.11.008.


अग्रिम पठन


बाहरी संबंध

  • Beeswarm Boxplot - superimposing a frequency-jittered stripchart on top of a box plot