आउटलायर

आँकड़ों में, एक बाहरी एक डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है। एक आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी डेटा सेट से बाहर रखा जाता है।  एक आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी पैदा कर सकता है।

आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-सेट, माप त्रुटि, या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के मामले में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए मजबूत आँकड़े हैं, जबकि भारी-पूंछ वाले वितरण के मामले में, वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। आउटलेयर का एक लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' बनाम 'माप त्रुटि' का संकेत दे सकते हैं; यह एक मिश्रण मॉडल द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में खामियों के कारण हो सकता है जिसने संभाव्यता वितरण के एक अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां एक निश्चित सिद्धांत मान्य नहीं हो सकता है। हालांकि, बड़े नमूनों में, आउटलेयर की एक छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं)।

आउटलेयर, सबसे चरम अवलोकन होने के नाते, नमूना अधिकतम या न्यूनतम नमूना, या दोनों शामिल हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। हालांकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा सेट से प्राप्त आँकड़ों की भोली व्याख्या जिसमें आउटलेयर शामिल हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई एक कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं, लेकिन एक ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस मामले में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को बेहतर ढंग से दर्शाता है; माध्यिका के समतुल्य एक विशिष्ट नमूने के रूप में माध्य की भोलेपन से व्याख्या करना गलत है। जैसा कि इस मामले में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) सेट की तुलना में एक अलग सांख्यिकीय आबादी से संबंधित हैं।

आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत केंद्रीय प्रवृत्ति का एक मजबूत आंकड़ा है, जबकि माध्य नहीं है। हालांकि, औसत आम तौर पर एक अधिक सटीक अनुमानक होता है।

घटना और कारण
सामान्य वितरण डेटा के मामले में, तीन सिग्मा नियम का अर्थ है कि मोटे तौर पर 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा, और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा। 1000 प्रेक्षणों के एक नमूने में, माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के भीतर है, जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के भीतर है। अपेक्षित संख्या - पोइसन वितरण देखें - और एक विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, हालांकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं, जो अपेक्षित संख्या से 11 गुना अधिक हैं।

सामान्य तौर पर, यदि जनसंख्या वितरण की प्रकृति को एक प्राथमिकता के रूप में जाना जाता है, तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है: किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना पी के साथ) दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर पी के साथ एक द्विपद वितरण का पालन करेगी, जिसे आमतौर पर λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ एक सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

कारण
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए एक भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। एक नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से, एक आउटलायर अनुमानित सिद्धांत में एक दोष का परिणाम हो सकता है, जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त, एक निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासेट में प्रकट होता है, यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (राजा प्रभाव) में भिन्न हो सकता है।

परिभाषाएं और पहचान
कोई कठोर गणितीय परिभाषा नहीं है जो एक बाहरी का गठन करती है; यह निर्धारित करना कि कोई अवलोकन एक बाहरी है या नहीं, अंततः एक व्यक्तिपरक अभ्यास है। आउटलाइयर डिटेक्शन के विभिन्न तरीके हैं, जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।   कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स। अन्य मॉडल आधारित हैं। बॉक्स प्लॉट एक संकर हैं।

मॉडल-आधारित विधियाँ जो आमतौर पर पहचान के लिए उपयोग की जाती हैं, यह मानती हैं कि डेटा एक सामान्य वितरण से हैं, और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:
 * चौवेनेट की कसौटी
 * आउटलेयर के लिए ग्रब्स का परीक्षण
 * डिक्सन का क्यू परीक्षण | डिक्सन का क्यू परीक्षण
 * एएसटीएम ई178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास
 * महालनोबिस दूरी और उत्तोलन (सांख्यिकी) का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है, विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में।
 * उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें

पियर्स की कसौटी
 की एक श्रृंखला में निर्धारित करने का प्रस्ताव है $$m$$ अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, बशर्ते कि उतने ही हों $$n$$ ऐसी टिप्पणियों। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत।) 

तुकी के फैंस
अन्य विधियाँ अन्तःचतुर्थक श्रेणी जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि $$Q_1$$ और $$Q_3$$ क्रमशः निचले और ऊपरी चतुर्थक हैं, तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है:
 * $$ \big[ Q_1 - k (Q_3 - Q_1 ), Q_3 + k (Q_3 - Q_1 ) \big]$$

कुछ गैर-नकारात्मक स्थिरांक के लिए $$k$$. जॉन टुकी ने इस परीक्षण का प्रस्ताव दिया, जहाँ $$k=1.5$$ एक बाहरी को इंगित करता है, और $$k=3$$ दूर के डेटा को इंगित करता है।

विसंगति का पता लगाने में
सांख्यिकी, संकेत आगे बढ़ाना, वित्त, अर्थमिति, विनिर्माण, नेटवर्क विज्ञान और डेटा खनन जैसे विभिन्न डोमेन में, लेकिन इन तक ही सीमित नहीं है, विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं  और घनत्व-आधारित जैसे कि स्थानीय बाहरी कारक (एलओएफ)। कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।

संशोधित थॉम्पसन ताऊ परीक्षण
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा सेट में कोई बाहरी मौजूद है या नहीं। इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा सेट के मानक विचलन, औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है; इस प्रकार यह निर्धारित करने के लिए एक वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु एक बाहरी है या नहीं। यह काम किस प्रकार करता है: सबसे पहले, डेटा सेट का औसत निर्धारित किया जाता है। अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा, एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है:
 * $$\text{Rejection Region}= \frac{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}

$$; कहाँ $$\scriptstyle{t_{\alpha/2}}$$ छात्र से महत्वपूर्ण मूल्य है $t$ स्वतंत्रता की n-2 डिग्री के साथ वितरण, n नमूना आकार है, और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान एक बाहरी है: गणना $$\scriptstyle \delta = |(X - mean(X)) / s|$$. यदि δ > अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी है। यदि δ ≤ अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी नहीं है।

संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में एक बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह एक बाहरी है)। मतलब, यदि कोई डेटा बिंदु एक आउटलायर पाया जाता है, तो उसे डेटा सेट से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण लागू किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा सेट में कोई आउटलेयर नहीं रहता।

कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा सेट में उदाहरणों (या उदाहरणों) के एक सेट के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि एक उदाहरण गलत वर्गीकृत किया जाएगा ( $$1-p(y|x)$$ कहाँ $y$ असाइन किया गया क्लास लेबल है और $x$ प्रशिक्षण सेट में एक उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है $t$). आदर्श रूप से, उदाहरण कठोरता की गणना सभी संभावित परिकल्पनाओं के सेट पर योग करके की जाएगी $H$:


 * $$\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\

&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\ &= 1- \sum_H p(y, x, h)p(h|t).\end{align}$$ व्यावहारिक रूप से, यह फॉर्मूलेशन अक्षम्य है $H$ संभावित रूप से अनंत और गणनात्मक है $$p(h|t)$$ कई एल्गोरिदम के लिए अज्ञात है। इस प्रकार, एक विविध सबसेट का उपयोग करके उदाहरण कठोरता का अनुमान लगाया जा सकता है $$L \subset H$$:


 * $$IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))$$

कहाँ $$g_j(t, \alpha)$$ एल्गोरिदम सीखने से प्रेरित परिकल्पना है $$g_j$$ प्रशिक्षण सेट पर प्रशिक्षित $t$ हाइपरपैरामीटर के साथ $$\alpha$$. उदाहरण की कठोरता यह निर्धारित करने के लिए एक निरंतर मूल्य प्रदान करती है कि क्या एक उदाहरण एक बाहरी उदाहरण है।

आउटलेयर के साथ कार्य करना
एक बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए। कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं, विशेष रूप से सहप्रसरण मैट्रिसेस का अनुमान।

प्रतिधारण
यहां तक ​​​​कि जब एक सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है, तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से खारिज नहीं किया जाना चाहिए। एप्लिकेशन को एक वर्गीकरण एल्गोरिदम का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है।

बहिष्करण
बाहरी डेटा को हटाना एक विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है; जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए एक उद्देश्य और मात्रात्मक विधि प्रदान करते हैं, वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं, विशेष रूप से छोटे सेटों में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। एक उपकरण पठन त्रुटि से उत्पन्न एक बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।

आउटलेर्स को बाहर करने के लिए दो आम दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि जीतना आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है। बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है, जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है, जिसके परिणामस्वरूप सेंसरिंग (सांख्यिकी) होती है। प्रतिगमन विश्लेषण समस्याओं में, एक वैकल्पिक दृष्टिकोण केवल उन बिंदुओं को बाहर करना हो सकता है जो कुक की दूरी जैसे माप का उपयोग करके अनुमानित गुणांकों पर बड़े पैमाने पर प्रभाव प्रदर्शित करते हैं। यदि कोई डेटा बिंदु (या बिंदु) डेटा विश्लेषण से बाहर रखा गया है, तो इसे बाद की किसी भी रिपोर्ट में स्पष्ट रूप से बताया जाना चाहिए।

गैर-सामान्य वितरण
संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए, जब कॉची बंटन से प्रतिदर्श लिया जाता है, नमूना आकार के साथ नमूना भिन्नता बढ़ती है, नमूना आकार बढ़ने पर नमूना माध्य अभिसरण करने में विफल रहता है, और आउटलेयर सामान्य वितरण की तुलना में कहीं अधिक बड़ी दरों पर होने की उम्मीद है। पूंछों की मोटाई में मामूली अंतर भी चरम मानों की अपेक्षित संख्या में बड़ा अंतर ला सकता है।

सेट-सदस्यता अनिश्चितताएं
एक सेट अनुमान मानता है कि एक अज्ञात यादृच्छिक वेक्टर x के ith माप से संबंधित अनिश्चितता एक सेट X द्वारा दर्शायी जाती हैi (संभाव्यता घनत्व समारोह के बजाय)। यदि कोई आउटलेयर नहीं होता है, तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिएi'एस। जब आउटलेयर होते हैं, तो यह चौराहा खाली हो सकता है, और हमें सेट एक्स की एक छोटी संख्या को आराम देना चाहिएi (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए। यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता है। जैसा कि चित्र में दिखाया गया है, क्यू-रिलैक्स्ड चौराहा उन सभी एक्स के सेट से मेल खाता है जो उनमें से क्यू को छोड़कर सभी सेटों से संबंधित हैं। सेट एक्सi जो q-रिलैक्स्ड चौराहे को नहीं काटते हैं, उनके आउटलेयर होने का संदेह हो सकता है।



वैकल्पिक मॉडल
ऐसे मामलों में जहां आउटलेयर का कारण ज्ञात है, इस प्रभाव को मॉडल संरचना में शामिल करना संभव हो सकता है, उदाहरण के लिए पदानुक्रमित बेयस मॉडल या मिश्रण मॉडल का उपयोग करके।

यह भी देखें

 * विसंगति (प्राकृतिक विज्ञान)
 * नवीनता का पता लगाना
 * Anscombe की चौकड़ी
 * डेटा परिवर्तन (सांख्यिकी)
 * चरम मूल्य सिद्धांत
 * प्रभावशाली अवलोकन
 * यादृच्छिक नमूना आम सहमति
 * मजबूत प्रतिगमन
 * विद्यार्थी अवशिष्ट
 * जीतना

बाहरी संबंध

 * Grubbs test described by NIST manual
 * Grubbs test described by NIST manual
 * Grubbs test described by NIST manual