रेखा - चित्र

वर्णनात्मक आँकड़ों में, एक बॉक्स प्लॉट या बॉक्सप्लॉट ग्राफिक रूप से स्थानीयता, प्रसार और संख्यात्मक डेटा के तिरछे समूहों को उनके चतुर्थक के माध्यम से प्रदर्शित करने की एक विधि है। एक बॉक्स प्लॉट पर बॉक्स के अलावा, बॉक्स से फैली हुई लाइनें (जिन्हें मूंछ कहा जाता है) हो सकती हैं, जो ऊपरी और निचले चतुर्थक के बाहर परिवर्तनशीलता का संकेत देती हैं, इस प्रकार प्लॉट को 'बॉक्स-एंड-व्हिस्कर प्लॉट' भी कहा जाता है। और 'बॉक्स-एंड-व्हिस्कर आरेख'। ग़ैर जो बाकी डेटासेट से काफी अलग हैं बॉक्स-प्लॉट पर मूंछ से परे अलग-अलग बिंदुओं के रूप में प्लॉट किया जा सकता है। बॉक्स प्लॉट गैर पैरामीट्रिक हैं: वे अंतर्निहित संभाव्यता वितरण की कोई धारणा बनाए बिना एक सांख्यिकीय आबादी के नमूनों में भिन्नता प्रदर्शित करते हैं। (हालांकि टकी का बॉक्सप्लॉट मूंछों के लिए समरूपता और उनकी लंबाई के लिए सामान्यता मानता है)। बॉक्स-प्लॉट के प्रत्येक उपखंड में रिक्ति सांख्यिकीय फैलाव (प्रसार) और डेटा के तिरछापन की डिग्री दर्शाती है, जिसे आमतौर पर पांच-संख्या सारांश का उपयोग करके वर्णित किया जाता है। इसके अलावा, बॉक्स-प्लॉट एक व्यक्ति को विभिन्न एल-अनुमानकों, विशेष रूप से अन्तःचतुर्थक श्रेणी, मिडहिंज, रेंज (सांख्यिकी), मध्य-श्रेणी और काट-छांट करना  का नेत्रहीन अनुमान लगाने की अनुमति देता है। बॉक्स प्लॉट या तो क्षैतिज या लंबवत रूप से खींचे जा सकते हैं।

इतिहास
रेंज-बार पद्धति को पहली बार मैरी एलेनोर स्पीयर ने 1952 में अपनी पुस्तक चार्टिंग स्टैटिस्टिक्स में पेश किया था और फिर से 1969 में उनकी पुस्तक प्रैक्टिकल चार्टिंग टेक्निक्स में। बॉक्स-एंड-व्हिस्कर प्लॉट पहली बार 1970 में जॉन टुकी  द्वारा पेश किया गया था, जिन्होंने बाद में 1977 में अपनी पुस्तक एक्सप्लोरेटरी डेटा एनालिसिस में इस विषय पर प्रकाशित किया था।

तत्व
एक बॉक्सप्लॉट पाँच अंकों के सारांश के आधार पर डेटासेट प्रदर्शित करने का एक मानकीकृत तरीका है: न्यूनतम, अधिकतम, नमूना माध्यिका, और पहला और तीसरा चतुर्थक।

बॉक्स-प्लॉट के निर्माण के लिए उपयोग किए जाने वाले न्यूनतम और अधिकतम मानों के अलावा, एक अन्य महत्वपूर्ण तत्व जिसे बॉक्स-प्लॉट प्राप्त करने के लिए भी नियोजित किया जा सकता है, इंटरक्वेर्टाइल रेंज (IQR) है, जैसा कि नीचे दर्शाया गया है:
 * नमूना न्यूनतम (क्यू0 या 0 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में सबसे कम डेटा बिंदु
 * नमूना अधिकतम (क्यू4 या 100 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में उच्चतम डेटा बिंदु
 * मंझला (क्यू2 या 50 वाँ प्रतिशतक): डेटा सेट में मध्य मान
 * पहला चतुर्थक (क्यू1 या 25वां प्रतिशतक): जिसे निम्न चतुर्थक q के रूप में भी जाना जाता हैn(0.25), यह डेटासेट के निचले आधे हिस्से का माध्यिका है।
 * तीसरा चतुर्थक (क्यू3 या 75 वाँ प्रतिशतक): जिसे ऊपरी चतुर्थक q के रूप में भी जाना जाता हैn(0.75), यह डेटासेट के ऊपरी आधे हिस्से का माध्यिका है।


 * इंटरक्वेरटाइल रेंज (IQR): ऊपरी और निचले चतुर्थक के बीच की दूरी


 * $$\text{IQR} = Q_3 - Q_1 = q_n(0.75) - q_n(0.25)$$

एक बॉक्स-प्लॉट में आमतौर पर दो भाग होते हैं, एक बॉक्स और मूंछ का एक सेट जैसा कि चित्र 2 में दिखाया गया है। बॉक्स Q से तैयार किया गया है1 क्यू के लिए3 माध्यिका को निरूपित करने के लिए बीच में खींची गई एक क्षैतिज रेखा के साथ। मूंछ को विभिन्न तरीकों से परिभाषित किया जा सकता है।

सबसे सीधी-आगे की विधि में, निचले मूंछ की सीमा डेटा सेट का न्यूनतम मूल्य है, और ऊपरी मूंछ की सीमा डेटा सेट का अधिकतम मूल्य है।

मूंछ की सीमाओं के लिए एक अन्य लोकप्रिय विकल्प 1.5 IQR मान पर आधारित है। ऊपरी चतुर्थक के ऊपर से (Q3), IQR से 1.5 गुना की दूरी मापी जाती है और इस दूरी के भीतर आने वाले डेटासेट से सबसे बड़े देखे गए डेटा बिंदु तक एक मूंछ खींची जाती है। इसी तरह, IQR की 1.5 गुना की दूरी को निम्न चतुर्थक (Q) के नीचे मापा जाता है।1) और इस दूरी के भीतर आने वाले डेटासेट से सबसे कम देखे गए डेटा बिंदु के लिए एक मूंछ खींची जाती है। क्योंकि मूंछ एक देखे गए डेटा बिंदु पर समाप्त होनी चाहिए, मूंछ की लंबाई असमान दिख सकती है, भले ही 1.5 IQR दोनों पक्षों के लिए समान हो। व्हिस्कर्स की सीमा के बाहर देखे गए अन्य सभी डेटा बिंदुओं को 'आउटलेयर' के रूप में प्लॉट किया गया है। आउटलेयर को बॉक्स-प्लॉट पर डॉट, एक छोटा वृत्त, एक स्टार, आदि के रूप में प्लॉट किया जा सकता है।

हालाँकि, मूंछें कई अन्य चीजों के लिए खड़ी हो सकती हैं, जैसे:


 * डेटा सेट का न्यूनतम और अधिकतम मान (जैसा चित्र 2 में दिखाया गया है)
 * डेटा सेट के माध्य से ऊपर और नीचे एक मानक विचलन
 * डेटा सेट का 9वाँ प्रतिशतक और 91वाँ प्रतिशतक
 * डेटा सेट का दूसरा प्रतिशतक और 98वां प्रतिशतक

विरले ही बॉक्स प्लॉट बिना मूंछ के प्लॉट किए जा सकते हैं। यह संवेदनशील जानकारी के लिए उचित हो सकता है ताकि मूंछ (और बाहरी) से बचने के लिए वास्तविक मूल्यों का खुलासा किया जा सके। कुछ बॉक्स प्लॉट में डेटा के माध्यम का प्रतिनिधित्व करने के लिए एक अतिरिक्त वर्ण शामिल होता है। असामान्य प्रतिशतक 2%, 9%, 91%, 98% का उपयोग कभी-कभी मूंछ क्रॉस-हैच के लिए किया जाता है और सात-संख्या सारांश को दर्शाने के लिए मूंछ समाप्त होती है। यदि डेटा सामान्य वितरण हैं, तो बॉक्स प्लॉट पर सात चिह्नों के स्थान समान रूप से स्थानित होंगे। कुछ बॉक्स भूखंडों पर, प्रत्येक मूंछ के अंत से पहले एक क्रॉस-हैच लगाया जाता है।

इस परिवर्तनशीलता के कारण, बॉक्स-प्लॉट के शीर्षक में व्हिस्कर्स और आउटलेयर के लिए उपयोग किए जा रहे सम्मेलन का वर्णन करना उचित है।

रूपांतर
चूंकि गणितज्ञ जॉन डब्ल्यू। तुकी ने पहली बार 1969 में इस प्रकार के विज़ुअल डेटा डिस्प्ले को लोकप्रिय बनाया था, क्लासिकल बॉक्स प्लॉट पर कई विविधताएँ विकसित की गई हैं, और दो सबसे अधिक पाई जाने वाली विविधताएँ चर चौड़ाई वाले बॉक्स प्लॉट और नॉटेड बॉक्स प्लॉट हैं जो चित्र में दिखाए गए हैं। 4.

परिवर्तनीय चौड़ाई वाले बॉक्स प्लॉट प्रत्येक समूह के आकार का वर्णन करते हैं जिनके डेटा को समूह के आकार के अनुपात में बॉक्स की चौड़ाई बनाकर प्लॉट किया जा रहा है। समूह के आकार के वर्गमूल के अनुपात में बॉक्स की चौड़ाई को आनुपातिक बनाना एक लोकप्रिय परंपरा है। नोकदार बॉक्स प्लॉट माध्यिका के चारों ओर एक पायदान या बॉक्स की संकीर्णता को लागू करते हैं। मंझले के अंतर के महत्व की एक मोटा गाइड की पेशकश करने में पायदान उपयोगी होते हैं; यदि दो बक्सों के पायदान ओवरलैप नहीं होते हैं, तो यह माध्यिका के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर का प्रमाण प्रदान करेगा। खांचे की चौड़ाई नमूने की इंटरक्वेर्टाइल रेंज (IQR) के समानुपाती होती है और नमूने के आकार के वर्गमूल के व्युत्क्रमानुपाती होती है। हालांकि, सबसे उपयुक्त गुणक के बारे में अनिश्चितता है (क्योंकि यह नमूनों के प्रसरणों की समानता के आधार पर भिन्न हो सकता है)। इन खांचों की सीमाओं को प्राप्त करने के लिए एक परिपाटी की दूरी का उपयोग करना है मध्य के आसपास। समायोजित बॉक्स भूखंडों का उद्देश्य तिरछापन का वर्णन करना है, और वे तिरछापन के मध्यम आँकड़ों पर भरोसा करते हैं। एमसी के औसत मूल्य के लिए, बॉक्स-प्लॉट पर ऊपरी और निचले मूंछ की लंबाई क्रमशः इस प्रकार परिभाषित की जाती है:
 * $$\begin{matrix}

1.5 \text{IQR} \cdot e^{3 \text{MC}}, & 1.5 \text{ IQR} \cdot e^{-4 \text{MC}} \text{ if } \text{MC} \geq 0, \\ 1.5 \text{IQR} \cdot e^{4 \text{MC}}, & 1.5 \text{ IQR} \cdot e^{-3\text{MC}} \text{ if } \text{MC} \leq 0. \end{matrix} $$ एक सममित डेटा वितरण के लिए, मेडकूपल शून्य होगा, और यह समायोजित बॉक्स-प्लॉट को टकी के बॉक्स-प्लॉट में बराबर मूंछ की लंबाई के साथ कम कर देता है $$1.5 \text{ IQR}$$ दोनों मूंछों के लिए।

अन्य प्रकार के बॉक्स प्लॉट, जैसे वायलिन की साजिश  और बीन प्लॉट एकल-मोडल और मल्टीमॉडल वितरण वितरण के बीच अंतर दिखा सकते हैं, जिसे मूल शास्त्रीय बॉक्स-प्लॉट से नहीं देखा जा सकता है।

बाहरी कारकों के बिना उदाहरण
घंटे के तापमान की एक श्रृंखला को पूरे दिन में डिग्री फ़ारेनहाइट में मापा गया। रिकॉर्ड किए गए मान निम्नानुसार सूचीबद्ध हैं (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81।

डेटा सेट का एक बॉक्स प्लॉट पहले इस डेटा सेट के पांच प्रासंगिक मानों की गणना करके उत्पन्न किया जा सकता है: न्यूनतम, अधिकतम, माध्यिका (Q2), पहला चतुर्थक (Q1), और तीसरा चतुर्थक (Q3).

न्यूनतम डेटा सेट की सबसे छोटी संख्या है। इस मामले में, न्यूनतम दर्ज दिन का तापमान 57 डिग्री फारेनहाइट है।

अधिकतम डेटा सेट की सबसे बड़ी संख्या है। इस मामले में, अधिकतम रिकॉर्ड किया गया दिन का तापमान 81 °F है।

माध्यिका क्रमित डेटा सेट की मध्य संख्या है। इसका मतलब यह है कि 50% तत्व माध्यिका से कम हैं और 50% तत्व माध्यिका से अधिक हैं। इस आदेशित डेटा सेट का माध्यिका 70 °F है।

प्रथम चतुर्थक मान (Q1या 25 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के एक चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 25% ऐसे तत्व हैं जो पहले चतुर्थक से कम हैं और ठीक 75% ऐसे तत्व हैं जो इससे अधिक हैं। न्यूनतम और माध्यिका के बीच की मध्य संख्या ज्ञात करके प्रथम चतुर्थक मान आसानी से निर्धारित किया जा सकता है। प्रति घंटा तापमान के लिए, 57 °F और 70 °F के बीच पाई जाने वाली मध्य संख्या 66 °F है।

तीसरा चतुर्थक मान (Q3या 75 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के तीन चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 75% तत्व ऐसे हैं जो तीसरे चतुर्थक से कम हैं और 25% ऐसे तत्व हैं जो इससे अधिक हैं। माध्यिका और अधिकतम के बीच की मध्य संख्या ज्ञात करके तीसरा चतुर्थक मान आसानी से प्राप्त किया जा सकता है। प्रति घंटा तापमान के लिए, 70 °F और 81 °F के बीच की मध्य संख्या 75 °F है।

इंटरक्वेर्टाइल रेंज या आईक्यूआर की गणना पहले क्वार्टाइल वैल्यू (क्यू को घटाकर की जा सकती है।1) तीसरे चतुर्थक मान (क्यू से3):


 * $$\text{IQR} = Q_3 - Q_1=75^\circ F-66^\circ F=9^\circ F.$$

इस तरह, $$1.5 \text{IQR}=1.5 \cdot 9^\circ F=13.5 ^\circ F.$$ 1.5 IQR तीसरे चतुर्थक से ऊपर है:


 * $$Q_3+1.5\text{ IQR}=75^\circ F+13.5^\circ F=88.5^\circ F.$$

प्रथम चतुर्थक के नीचे 1.5 IQR है:


 * $$Q_1-1.5\text{ IQR}=66^\circ F-13.5^\circ F=52.5^\circ F.$$

बॉक्स-प्लॉट की ऊपरी मूंछ सीमा सबसे बड़ा डेटा मान है जो तीसरे चतुर्थक के ऊपर 1.5 IQR के भीतर है। यहाँ, तीसरे चतुर्थक के ऊपर 1.5 IQR 88.5 °F और अधिकतम 81 °F है। इसलिए, ऊपरी मूंछ अधिकतम के मान पर खींची जाती है, जो कि 81 °F है।

इसी तरह, बॉक्स प्लॉट की निचली मूंछ सीमा सबसे छोटा डेटा मान है जो पहले चतुर्थांश के नीचे 1.5 IQR के भीतर है। यहां, पहले चतुर्थक के नीचे 1.5 IQR 52.5 °F और न्यूनतम 57 °F है। इसलिए, निचला मूंछ न्यूनतम के मान पर खींचा जाता है, जो कि 57 °F है।

आउटलेर्स के साथ उदाहरण
ऊपर आउटलेयर के बिना एक उदाहरण है। आउटलेर्स के साथ बॉक्स-प्लॉट बनाने के लिए यहां एक अनुवर्ती उदाहरण दिया गया है:

रिकॉर्ड किए गए तापमान के लिए निर्धारित सेट है (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 89।

इस उदाहरण में केवल पहली और आखिरी संख्या बदली गई है। माध्यिका, तृतीय चतुर्थक और प्रथम चतुर्थक समान रहते हैं।

इस स्थिति में, इस डेटा सेट में अधिकतम मान 89 °F है, और तीसरे चतुर्थक के ऊपर 1.5 IQR 88.5 °F है। अधिकतम 1.5 IQR और तीसरे चतुर्थक से अधिक है, इसलिए अधिकतम एक बाहरी है। इसलिए, ऊपरी मूंछ तीसरे चतुर्थक के ऊपर 1.5 IQR से छोटे सबसे बड़े मूल्य पर खींची जाती है, जो कि 79 ° F है।

इसी तरह, इस डेटा सेट में न्यूनतम मान 52 °F है, और पहली चतुर्थक के नीचे 1.5 IQR 52.5 °F है। न्यूनतम 1.5 IQR माइनस पहला क्वार्टाइल से छोटा है, इसलिए न्यूनतम भी एक आउटलायर है। इसलिए, निचली मूंछ पहले चतुर्थक के नीचे 1.5 IQR से अधिक के सबसे छोटे मूल्य पर खींची जाती है, जो कि 57 ° F है।

बड़े डेटासेट
के मामले में बड़ी संख्या में डेटा बिंदुओं वाले डेटा सेट से बॉक्स-प्लॉट प्राप्त करने का एक अतिरिक्त उदाहरण है:

अनुभवजन्य मात्राओं की गणना करने के लिए सामान्य समीकरण

 * $$q_n(p) = x_{(k)} + \alpha(x_{(k+1)} - x_{(k)})$$
 * $$\text{with } k = [p(n+1)] \text{ and } \alpha = p(n+1) - k$$
 * यहाँ $$x_{(k)}$$ डेटा बिंदुओं के सामान्य क्रम के लिए खड़ा है (यानी यदि $$i<k$$, तब $$x_{(i)} < x_{(k)}$$ )

उपरोक्त उदाहरण का उपयोग करते हुए जिसमें 24 डेटा बिंदु (n = 24) हैं, कोई भी गणितीय या दृष्टिगत रूप से माध्यिका, प्रथम और तृतीय चतुर्थक की गणना कर सकता है।

'मध्य' : $$q_n(0.5) = x_{(12)} + (0.5\cdot25-12)\cdot(x_{(13)}-x_{(12)}) = 70+(0.5\cdot25-12)\cdot(70-70) = 70^\circ F$$ पहला चतुर्थक : $$q_n(0.25) = x_{(6)} + (0.25\cdot25-6)\cdot(x_{(7)}-x_{(6)}) = 66 +(0.25\cdot25 - 6)\cdot(66-66) = 66^\circ F$$ तीसरा चतुर्थक : $$q_n(0.75) = x_{(18)} + (0.75\cdot25-18)\cdot(x_{(19)}-x_{(18)}) =75 + (0.75\cdot25-18)\cdot(75-75) = 75^\circ F$$

विज़ुअलाइज़ेशन
हालांकि बॉक्स प्लॉट हिस्टोग्राम या कर्नेल घनत्व अनुमान से अधिक आदिम लग सकते हैं, लेकिन उनके कई फायदे हैं। सबसे पहले, बॉक्स प्लॉट सांख्यिकीविदों को एक या अधिक डेटा सेटों पर त्वरित ग्राफिकल परीक्षा करने में सक्षम बनाता है। बॉक्स-प्लॉट भी कम जगह लेते हैं और इसलिए समानांतर में कई समूहों या डेटा के सेट के बीच वितरण की तुलना करने के लिए विशेष रूप से उपयोगी होते हैं (उदाहरण के लिए चित्र 1 देखें)। अंत में, हिस्टोग्राम और कर्नेल घनत्व अनुमान की समग्र संरचना क्रमशः हिस्टोग्राम # डिब्बे की संख्या और चौड़ाई तकनीकों और बैंडविड्थ की पसंद से दृढ़ता से प्रभावित हो सकती है।

हालांकि एक बॉक्स प्लॉट को देखने की तुलना में एक सांख्यिकीय वितरण को देखना अधिक सामान्य है, यह एक सामान्य एन (0, σ) के लिए प्रायिकता घनत्व फ़ंक्शन (सैद्धांतिक हिस्टोग्राम) के खिलाफ बॉक्स प्लॉट की तुलना करने के लिए उपयोगी हो सकता है।2) वितरण और सीधे उनकी विशेषताओं का निरीक्षण करें (जैसा चित्र 7 में दिखाया गया है)।



यह भी देखें

 * बैगप्लॉट
 * कैंडलस्टिक चार्ट
 * डेटा और सूचना विज़ुअलाइज़ेशन
 * अन्वेषणात्मक डेटा विश्लेषण
 * फैन चार्ट (आँकड़े)
 * पांच अंकों का सारांश
 * कार्यात्मक बॉक्सप्लॉट
 * सात अंकों का सारांश

बाहरी संबंध

 * Beeswarm Boxplot - superimposing a frequency-jittered stripchart on top of a box plot