आउटलायर

आँकड़ों में, बाहरी डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है। बाहरी परत माप में परिवर्तनशीलता के कारण हो सकता है नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है बाद वाले को कभी-कभी डेटा सेट से बाहर रखा जाता है।  बाहरी परत रोमांचक संभावना का संकेत हो सकता है लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।

बाहरी परत किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय माप त्रुटि या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो बाहरी परत के लिए मजबूत आँकड़े हैं जबकि भारी-पूंछ वाले वितरण के स्थितियों में वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। बाहरी परत का लगातार दो वितरणों का मिश्रण है जो दो अलग-अलग उपआबादी हो सकते हैं या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह मिश्रण प्रारूप द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा गलत प्रक्रियाओं या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में बाहरी परत की छोटी संख्या की अपेक्षा की जाती है और किसी विषम स्थिति के कारण नहीं है।

बाहरी परत, सबसे चरम अवलोकन होने के अंतर्गत नमूना अधिकतम या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा बाहरी परत नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें बाहरी परत सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है बाहरी परत उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।

बाहरी परत से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत केंद्रीय प्रवृत्ति का मजबूत आंकड़ा है जबकि माध्य नहीं है। चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।

घटना और कारण
सामान्य वितरण डेटा के स्थितियों में तीन सिग्मा नियम का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा। 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे बाहरी परत पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।

सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या बाहरी परत की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, बाहरी परत की संख्या पैरामीटर p के साथ द्विपद वितरण का पालन करेगी जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

कारण
बाहरी परत के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन कपटपूर्ण व्यवहार, मानवीय त्रुटि उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण बाहरी परत उत्पन्न होते हैं नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से बाहरी परत अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के बाहरी परत का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (किंग प्रभाव) में भिन्न हो सकता है।

परिभाषाएं और पहचान
कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है यह निर्धारित करना कि कोई अवलोकन बाहरी है या नहीं अंततः व्यक्तिपरक अभ्यास है। आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।   कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं।

मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है।
 * चौवेनेट की कसौटी
 * बाहरी परत के लिए ग्रब्स का परीक्षण
 * डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
 * एएसटीएम e178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास
 * महालनोबिस दूरी और उत्तोलन (सांख्यिकी) का उपयोग अधिकांशतः बाहरी परत का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में
 * उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें

पियर्स की कसौटी
श्रृंखला में निर्धारित करने का प्रस्ताव है $$m$$ त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों $$n$$ ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।

तुकी के फैंस
अन्य विधियाँ अन्तःचतुर्थक श्रेणी जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि $$Q_1$$ और $$Q_3$$ क्रमशः निचले और ऊपरी चतुर्थक हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है।
 * $$ \big[ Q_1 - k (Q_3 - Q_1 ), Q_3 + k (Q_3 - Q_1 ) \big]$$

कुछ गैर-नकारात्मक स्थिरांक के लिए $$k$$ है जॉन टुकी ने इस परीक्षण का प्रस्ताव दिया, जहाँ $$k=1.5$$ बाहरी को इंगित करता है, और $$k=3$$ दूर के डेटा को इंगित करता है।

विसंगति का पता लगाने में
सांख्यिकी संकेत आगे बढ़ाना वित्त अर्थमिति,विनिर्माण, नेटवर्क विज्ञान और डेटा खनन जैसे विभिन्न डोमेन में लेकिन इन तक ही सीमित नहीं है विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं और घनत्व-आधारित जैसे कि स्थानीय बाहरी कारक (एलओएफ) कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।

संशोधित थॉम्पसन ताऊ परीक्षण
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु बाहरी है या नहीं यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है।
 * $$\text{Rejection Region}= \frac{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}

$$; जहाँ $$\scriptstyle{t_{\alpha/2}}$$ छात्र से महत्वपूर्ण मूल्य है $t$ स्वतंत्रता की n-2 डिग्री के साथ वितरण n नमूना आकार है और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान बाहरी है गणना $$\scriptstyle \delta = |(X - mean(X)) / s|$$ यदि δ > अस्वीकृति क्षेत्र डेटा बिंदु बाहरी है यदि δ ≤ अस्वीकृति क्षेत्र डेटा बिंदु बाहरी नहीं है।

संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है) अर्थ, यदि कोई डेटा बिंदु बाहरी परत पाया जाता है तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक चलती रहती है जब तक कि डेटा सम्मुचय में कोई बाहरी परत नहीं रहता है।

कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए बाहरी परत की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( $$1-p(y|x)$$ जहाँ $y$ असाइन किया गया क्लास लेबल है और $x$ प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है $t$ आदर्श रूप से उदाहरण $H$ कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी


 * $$\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\

&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\ &= 1- \sum_H p(y, x, h)p(h|t).\end{align}$$ व्यावहारिक रूप से, यह सूत्रीकरण अक्षम्य है $H$ संभावित रूप से अनंत और गणनात्मक है $$p(h|t)$$ कई कलन विधि के लिए अज्ञात है। इस प्रकार विविध उपसम्मुचय का उपयोग करके उदाहरण $$L \subset H$$ की कठोरता का अनुमान लगाया जा सकता है।


 * $$IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))$$

जहाँ $$g_j(t, \alpha)$$ कलन विधि सीखने से प्रेरित परिकल्पना है $$g_j$$ प्रशिक्षण समुच्चय पर प्रशिक्षित $t$ हाइपरपैरामीटर के साथ $$\alpha$$ की उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण बाहरी उदाहरण है।

बाहरी परत के साथ कार्य करना
बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए कुछ अनुमानक बाहरी परत के प्रति अत्यधिक संवेदनशील होते हैं विशेष रूप से सहप्रसरण मैट्रिसेस का अनुमान है।

प्रतिधारण
यहां तक ​​​​कि जब सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है तो बड़े नमूना आकार के लिए बाहरी परत की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए एप्लिकेशन को वर्गीकरण कलन विधि का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए बाहरी परत के लिए मजबूत है।

बहिष्करण
बाहरी डेटा को हटाना विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए उद्देश्य और मात्रात्मक विधि प्रदान करते हैं वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। उपकरण पठन त्रुटि से उत्पन्न बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।

आउटलेर्स को बाहर करने के लिए दो सामान्य दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि जीतना आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है। बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है जिसके परिणामस्वरूप सेंसरिंग (सांख्यिकी) होती है।

प्रतिगमन विश्लेषण समस्याओं में वैकल्पिक दृष्टिकोण केवल उन बिंदुओं को बाहर करना हो सकता है जो कुक की दूरी जैसे माप का उपयोग करके अनुमानित गुणांकों पर बड़े पैमाने पर प्रभाव प्रदर्शित करते हैं।

यदि कोई डेटा बिंदु ( बिंदु) डेटा विश्लेषण से बाहर रखा गया है तो इसे बाद की किसी भी रिपोर्ट में स्पष्ट रूप से बताया जाना चाहिए।

गैर-सामान्य वितरण
संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए जब कॉची बंटन से प्रतिदर्श लिया जाता है नमूना आकार के साथ नमूना भिन्नता बढ़ती है नमूना आकार बढ़ने पर नमूना माध्य अभिसरण करने में विफल रहता है और बाहरी परत सामान्य वितरण की तुलना में कहीं अधिक बड़ी दरों पर होने की उम्मीद है पूंछों की मोटाई में साधारण अंतर भी चरम मानों की अपेक्षित संख्या में बड़ा अंतर ला सकता है।

समुच्चय-सदस्यता अनिश्चितताएं
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के i th माप से संबंधित अनिश्चितता समुच्चय Xi द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत) यदि कोई बाहरी परत नहीं होता है तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए Xi' s जब बाहरी परत होते हैं, तो यह प्रतिच्छेदन खाली हो सकता है और हमें सम्मुचय Xi की छोटी संख्या को आराम देना चाहिए (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता है जैसा कि चित्र में दिखाया गया है क्यू-रिलैक्स्ड प्रतिच्छेदन उन सभी x के समुच्चय से मेल खाता है जो उनमें से q को छोड़कर सभी समुच्चयों से संबंधित हैं समुच्चय xi जो q-रिलैक्स्ड चौराहे को नहीं काटते हैं उनके बाहरी परत होने का संदेह हो सकता है।



वैकल्पिक मॉडल
ऐसे स्थितियों में जहां बाहरी परत का कारण ज्ञात है इस प्रभाव को मॉडल संरचना में सम्मिलित करना संभव हो सकता है उदाहरण के लिए पदानुक्रमित बेयस मॉडल या मिश्रण मॉडल का उपयोग करके होता है।

यह भी देखें

 * विसंगति (प्राकृतिक विज्ञान)
 * नवीनता का पता लगाना
 * Anscombe की चौकड़ी
 * डेटा परिवर्तन (सांख्यिकी)
 * चरम मूल्य सिद्धांत
 * प्रभावशाली अवलोकन
 * यादृच्छिक नमूना आम सहमति
 * मजबूत प्रतिगमन
 * विद्यार्थी अवशिष्ट
 * जीतना

बाहरी संबंध

 * Grubbs test described by NIST manual
 * Grubbs test described by NIST manual
 * Grubbs test described by NIST manual