आउटलायर

File:Michelsonmorley-boxplot.svg

चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का रेखा - चित्र मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में एक आउटलाइयर।

आँकड़ों में, एक बाहरी एक डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।^[1]^[2] एक आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी डेटा सेट से बाहर रखा जाता है।^[3]^[4] एक आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी पैदा कर सकता है।

आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-सेट, माप त्रुटि, या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के मामले में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए मजबूत आँकड़े हैं, जबकि भारी-पूंछ वाले वितरण के मामले में, वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। आउटलेयर का एक लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' बनाम 'माप त्रुटि' का संकेत दे सकते हैं; यह एक मिश्रण मॉडल द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में खामियों के कारण हो सकता है जिसने संभाव्यता वितरण के एक अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां एक निश्चित सिद्धांत मान्य नहीं हो सकता है। हालांकि, बड़े नमूनों में, आउटलेयर की एक छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं)।

आउटलेयर, सबसे चरम अवलोकन होने के नाते, नमूना अधिकतम या न्यूनतम नमूना, या दोनों शामिल हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। हालांकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा सेट से प्राप्त आँकड़ों की भोली व्याख्या जिसमें आउटलेयर शामिल हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई एक कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं, लेकिन एक ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस मामले में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को बेहतर ढंग से दर्शाता है; माध्यिका के समतुल्य एक विशिष्ट नमूने के रूप में माध्य की भोलेपन से व्याख्या करना गलत है। जैसा कि इस मामले में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) सेट की तुलना में एक अलग सांख्यिकीय आबादी से संबंधित हैं।

आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत केंद्रीय प्रवृत्ति का एक मजबूत आंकड़ा है, जबकि माध्य नहीं है।^[5] हालांकि, औसत आम तौर पर एक अधिक सटीक अनुमानक होता है।^[6]

घटना और कारण

एक सामान्य वितरण में सापेक्ष संभावनाएं

सामान्य वितरण डेटा के मामले में, तीन सिग्मा नियम का अर्थ है कि मोटे तौर पर 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा, और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।^[7] 1000 प्रेक्षणों के एक नमूने में, माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के भीतर है, जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के भीतर है। अपेक्षित संख्या - पोइसन वितरण देखें - और एक विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, हालांकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं, जो अपेक्षित संख्या से 11 गुना अधिक हैं।

सामान्य तौर पर, यदि जनसंख्या वितरण की प्रकृति को एक प्राथमिकता के रूप में जाना जाता है, तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है: किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना पी के साथ) दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर पी के साथ एक द्विपद वितरण का पालन करेगी, जिसे आमतौर पर λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ एक सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

कारण

आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए एक भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। एक नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से, एक आउटलायर अनुमानित सिद्धांत में एक दोष का परिणाम हो सकता है, जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त, एक निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासेट में प्रकट होता है, यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (राजा प्रभाव) में भिन्न हो सकता है।

परिभाषाएं और पहचान

कोई कठोर गणितीय परिभाषा नहीं है जो एक बाहरी का गठन करती है; यह निर्धारित करना कि कोई अवलोकन एक बाहरी है या नहीं, अंततः एक व्यक्तिपरक अभ्यास है।^[8] आउटलाइयर डिटेक्शन के विभिन्न तरीके हैं, जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।^[9]^[10]^[11]^[12]^[13]कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स। अन्य मॉडल आधारित हैं। बॉक्स प्लॉट एक संकर हैं।

मॉडल-आधारित विधियाँ जो आमतौर पर पहचान के लिए उपयोग की जाती हैं, यह मानती हैं कि डेटा एक सामान्य वितरण से हैं, और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:

चौवेनेट की कसौटी
आउटलेयर के लिए ग्रब्स का परीक्षण
डिक्सन का क्यू परीक्षण | डिक्सन का क्यू परीक्षण
एएसटीएम ई178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास^[14]
महालनोबिस दूरी और उत्तोलन (सांख्यिकी) का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है, विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में।
उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें^[13]

पियर्स की कसौटी

<ब्लॉककोट> की एक श्रृंखला में निर्धारित करने का प्रस्ताव है $m$ अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, बशर्ते कि उतने ही हों $n$ ऐसी टिप्पणियों। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत।) ^[15]^[16]^[17]^[18] </ब्लॉककोट>

तुकी के फैंस

अन्य विधियाँ अन्तःचतुर्थक श्रेणी जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि $Q_{1}$ और $Q_{3}$ क्रमशः निचले और ऊपरी चतुर्थक हैं, तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है:

{\big [}Q_{1}-k(Q_{3}-Q_{1}),Q_{3}+k(Q_{3}-Q_{1}){\big ]}

कुछ गैर-नकारात्मक स्थिरांक के लिए $k$ . जॉन टुकी ने इस परीक्षण का प्रस्ताव दिया, जहाँ $k=1.5$ एक बाहरी को इंगित करता है, और $k=3$ दूर के डेटा को इंगित करता है।^[19]

विसंगति का पता लगाने में

सांख्यिकी, संकेत आगे बढ़ाना , वित्त, अर्थमिति, विनिर्माण, नेटवर्क विज्ञान और डेटा खनन जैसे विभिन्न डोमेन में, लेकिन इन तक ही सीमित नहीं है, विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं^[20]^[21] और घनत्व-आधारित जैसे कि स्थानीय बाहरी कारक (एलओएफ)।^[22] कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।^[23]

संशोधित थॉम्पसन ताऊ परीक्षण

संशोधित थॉम्पसन ताऊ परीक्षण^{[citation needed]} एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा सेट में कोई बाहरी मौजूद है या नहीं। इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा सेट के मानक विचलन, औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है; इस प्रकार यह निर्धारित करने के लिए एक वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु एक बाहरी है या नहीं।^{[citation needed]}^[24] यह काम किस प्रकार करता है: सबसे पहले, डेटा सेट का औसत निर्धारित किया जाता है। अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा, एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है:

{\text{Rejection Region}}{=}{\frac {{t_{\alpha /2}}{\left(n-1\right)}}{{\sqrt {n}}{\sqrt {n-2+{t_{\alpha /2}^{2}}}}}}

;

कहाँ $\scriptstyle {t_{\alpha /2}}$ छात्र से महत्वपूर्ण मूल्य है $t$ स्वतंत्रता की n-2 डिग्री के साथ वितरण, n नमूना आकार है, और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान एक बाहरी है: गणना $\scriptstyle \delta =|(X-mean(X))/s|$ . यदि δ > अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी है। यदि δ ≤ अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी नहीं है।

संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में एक बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह एक बाहरी है)। मतलब, यदि कोई डेटा बिंदु एक आउटलायर पाया जाता है, तो उसे डेटा सेट से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण लागू किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा सेट में कोई आउटलेयर नहीं रहता।

कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा सेट में उदाहरणों (या उदाहरणों) के एक सेट के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि एक उदाहरण गलत वर्गीकृत किया जाएगा ( $1-p(y|x)$ कहाँ $y$ असाइन किया गया क्लास लेबल है और $x$ प्रशिक्षण सेट में एक उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है $t$ ).^[25] आदर्श रूप से, उदाहरण कठोरता की गणना सभी संभावित परिकल्पनाओं के सेट पर योग करके की जाएगी $H$ :

\begin{aligned} I H (⟨ x, y ⟩) & = \sum_{H} (1 - p (y, x, h)) p (h | t) \\ = \sum_{H} p (h | t) - p (y, x, h) p (h | t) \end{aligned}

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Anonymous

Search

आउटलायर

Namespaces

More

Page actions

Contents