आउटलायर

आँकड़ों में, आउटलायर डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है। आउटलायर परत माप में परिवर्तनशीलता के कारण हो सकता है नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है बाद वाले को कभी-कभी डेटा सेट से बाहर रखा जाता है।  आउटलायर परत रोमांचक संभावना का संकेत हो सकता है लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।

आउटलायर परत किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय माप त्रुटि या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलायर परत के लिए मजबूत आँकड़े हैं जबकि भारी-पूंछ वाले वितरण के स्थितियों में वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। आउटलायर परत का लगातार दो वितरणों का मिश्रण है जो दो अलग-अलग उपआबादी हो सकते हैं या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह मिश्रण प्रारूप द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों आउटलायर बिंदु इसलिए दोषपूर्ण डेटा गलत प्रक्रियाओं या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलायर परत की छोटी संख्या की अपेक्षा की जाती है और किसी विषम स्थिति के कारण नहीं है।

आउटलायर परत, सबसे चरम अवलोकन होने के अंतर्गत नमूना अधिकतम या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलायर परत नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलायर परत सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है आउटलायर परत उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।

आउटलायर परत से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत केंद्रीय प्रवृत्ति का मजबूत आंकड़ा है जबकि माध्य नहीं है। चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।

घटना और कारण
सामान्य वितरण डेटा के स्थितियों में तीन सिग्मा नियम का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा। 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलायर परत पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।

सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलायर परत की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलायर परत की संख्या पैरामीटर p के साथ द्विपद वितरण का पालन करेगी जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

कारण
आउटलायर परत के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन कपटपूर्ण व्यवहार, मानवीय त्रुटि उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलायर परत उत्पन्न होते हैं नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर परत अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलायर परत का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (किंग प्रभाव) में भिन्न हो सकता है।

परिभाषाएं और पहचान
कोई कठोर गणितीय परिभाषा नहीं है जो आउटलायर का गठन करती है यह निर्धारित करना कि कोई अवलोकन आउटलायर है या नहीं अंततः व्यक्तिपरक अभ्यास है। आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।   कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं।

मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है।
 * चौवेनेट की कसौटी
 * आउटलायर परत के लिए ग्रब्स का परीक्षण
 * डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
 * एएसटीएम e178: आउटलायर निरीक्षणों से निपटने के लिए मानक अभ्यास
 * महालनोबिस दूरी और उत्तोलन (सांख्यिकी) का उपयोग अधिकांशतः आउटलायर परत का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में
 * उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें

पियर्स की कसौटी
श्रृंखला में निर्धारित करने का प्रस्ताव है $$m$$ त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों $$n$$ ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।

तुकी के फैंस
अन्य विधियाँ अन्तःचतुर्थक श्रेणी जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि $$Q_1$$ और $$Q_3$$ क्रमशः निचले और ऊपरी चतुर्थक हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है।
 * $$ \big[ Q_1 - k (Q_3 - Q_1 ), Q_3 + k (Q_3 - Q_1 ) \big]$$

कुछ गैर-नकारात्मक स्थिरांक के लिए $$k$$ है जॉन टुकी ने इस परीक्षण का प्रस्ताव दिया, जहाँ $$k=1.5$$ आउटलायर को इंगित करता है, और $$k=3$$ दूर के डेटा को इंगित करता है।

विसंगति का पता लगाने में
सांख्यिकी संकेत आगे बढ़ाना वित्त अर्थमिति,विनिर्माण, नेटवर्क विज्ञान और डेटा खनन जैसे विभिन्न डोमेन में लेकिन इन तक ही सीमित नहीं है विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं और घनत्व-आधारित जैसे कि स्थानीय आउटलायर कारक (एलओएफ) कुछ दृष्टिकोण अवलोकनों को आउटलायर या गैर-आउटलायर के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।

संशोधित थॉम्पसन ताऊ परीक्षण
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई आउटलायर उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु आउटलायर है या नहीं यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है।
 * $$\text{Rejection Region}= \frac{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}

$$; जहाँ $$\scriptstyle{t_{\alpha/2}}$$ छात्र से महत्वपूर्ण मूल्य है $t$ स्वतंत्रता की n-2 डिग्री के साथ वितरण n नमूना आकार है और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान आउटलायर है गणना $$\scriptstyle \delta = |(X - mean(X)) / s|$$ यदि δ > अस्वीकृति क्षेत्र डेटा बिंदु आउटलायर है यदि δ ≤ अस्वीकृति क्षेत्र डेटा बिंदु आउटलायर नहीं है।

संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में आउटलायर को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह आउटलायर है) अर्थ, यदि कोई डेटा बिंदु आउटलायर परत पाया जाता है तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक चलती रहती है जब तक कि डेटा सम्मुचय में कोई आउटलायर परत नहीं रहता है।

कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलायर परत की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( $$1-p(y|x)$$ जहाँ $y$ असाइन किया गया क्लास लेबल है और $x$ प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है $t$ आदर्श रूप से उदाहरण $H$ कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी


 * $$\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\

&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\ &= 1- \sum_H p(y, x, h)p(h|t).\end{align}$$ व्यावहारिक रूप से, यह सूत्रीकरण अक्षम्य है $H$ संभावित रूप से अनंत और गणनात्मक है $$p(h|t)$$ कई कलन विधि के लिए अज्ञात है। इस प्रकार विविध उपसम्मुचय का उपयोग करके उदाहरण $$L \subset H$$ की कठोरता का अनुमान लगाया जा सकता है।


 * $$IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))$$

जहाँ $$g_j(t, \alpha)$$ कलन विधि सीखने से प्रेरित परिकल्पना है $$g_j$$ प्रशिक्षण समुच्चय पर प्रशिक्षित $t$ हाइपरपैरामीटर के साथ $$\alpha$$ की उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण आउटलायर उदाहरण है।

आउटलायर परत के साथ कार्य करना
आउटलायर व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए कुछ अनुमानक आउटलायर परत के प्रति अत्यधिक संवेदनशील होते हैं विशेष रूप से सहप्रसरण मैट्रिसेस का अनुमान है।

प्रतिधारण
यहां तक ​​​​कि जब सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है तो बड़े नमूना आकार के लिए आउटलायर परत की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए एप्लिकेशन को वर्गीकरण कलन विधि का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले आउटलायर बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलायर परत के लिए मजबूत है।

बहिष्करण
आउटलायर डेटा को हटाना विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए उद्देश्य और मात्रात्मक विधि प्रदान करते हैं वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। उपकरण पठन त्रुटि से उत्पन्न आउटलायर को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।

आउटलेर्स को बाहर करने के लिए दो सामान्य दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि जीतना आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है। बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है जिसके परिणामस्वरूप सेंसरिंग (सांख्यिकी) होती है।

प्रतिगमन विश्लेषण समस्याओं में वैकल्पिक दृष्टिकोण केवल उन बिंदुओं को बाहर करना हो सकता है जो कुक की दूरी जैसे माप का उपयोग करके अनुमानित गुणांकों पर बड़े पैमाने पर प्रभाव प्रदर्शित करते हैं।

यदि कोई डेटा बिंदु ( बिंदु) डेटा विश्लेषण से बाहर रखा गया है तो इसे बाद की किसी भी रिपोर्ट में स्पष्ट रूप से बताया जाना चाहिए।

गैर-सामान्य वितरण
संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए जब कॉची बंटन से प्रतिदर्श लिया जाता है नमूना आकार के साथ नमूना भिन्नता बढ़ती है नमूना आकार बढ़ने पर नमूना माध्य अभिसरण करने में विफल रहता है और आउटलायर परत सामान्य वितरण की तुलना में कहीं अधिक बड़ी दरों पर होने की उम्मीद है पूंछों की मोटाई में साधारण अंतर भी चरम मानों की अपेक्षित संख्या में बड़ा अंतर ला सकता है।

समुच्चय-सदस्यता अनिश्चितताएं
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के i th माप से संबंधित अनिश्चितता समुच्चय Xi द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत) यदि कोई आउटलायर परत नहीं होता है तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए Xi' s जब आउटलायर परत होते हैं, तो यह प्रतिच्छेदन खाली हो सकता है और हमें सम्मुचय Xi की छोटी संख्या को आराम देना चाहिए (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता है जैसा कि चित्र में दिखाया गया है क्यू-रिलैक्स्ड प्रतिच्छेदन उन सभी x के समुच्चय से मेल खाता है जो उनमें से q को छोड़कर सभी समुच्चयों से संबंधित हैं समुच्चय xi जो q-रिलैक्स्ड चौराहे को नहीं काटते हैं उनके आउटलायर परत होने का संदेह हो सकता है।



वैकल्पिक मॉडल
ऐसे स्थितियों में जहां आउटलायर परत का कारण ज्ञात है इस प्रभाव को मॉडल संरचना में सम्मिलित करना संभव हो सकता है उदाहरण के लिए पदानुक्रमित बेयस मॉडल या मिश्रण मॉडल का उपयोग करके होता है।

यह भी देखें

 * विसंगति (प्राकृतिक विज्ञान)
 * नवीनता का पता लगाना
 * Anscombe की चौकड़ी
 * डेटा परिवर्तन (सांख्यिकी)
 * चरम मूल्य सिद्धांत
 * प्रभावशाली अवलोकन
 * यादृच्छिक नमूना आम सहमति
 * मजबूत प्रतिगमन
 * विद्यार्थी अवशिष्ट
 * जीतना

आउटलायर संबंध

 * Grubbs test described by NIST manual
 * Grubbs test described by NIST manual
 * Grubbs test described by NIST manual