आउटलायर: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 2: Line 2:
{{about|सांख्यिकीय शब्द||}}
{{about|सांख्यिकीय शब्द||}}


[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र ]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, बाहरी [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा समुच्चय]] से बाहर रखा जाता है।<ref name=":2">Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref name=":3">{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।
[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र |रेखा - चित्र]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, बाहरी [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा समुच्चय]] से बाहर रखा जाता है।<ref name=":2">Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref name=":3">{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।


आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं; यह [[मिश्रण मॉडल]] द्वारा तैयार किया गया है।
आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं; यह [[मिश्रण मॉडल|मिश्रण प्रारूप]] द्वारा तैयार किया गया है।


डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि, बड़े नमूनों में, आउटलेयर की छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं)
डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि, बड़े नमूनों में, आउटलेयर की छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं) है।


आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत, [[नमूना अधिकतम]] या न्यूनतम नमूना, या दोनों सम्मिलित हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।
आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत, [[नमूना अधिकतम]] या न्यूनतम नमूना, या दोनों सम्मिलित हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।


डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं, लेकिन ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है; माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।
डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं, लेकिन ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है; माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।


आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत [[केंद्रीय प्रवृत्ति]] का मजबूत आंकड़ा है, जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> चूंकि, औसत सामान्यतः एक अधिक सही अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>
आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत [[केंद्रीय प्रवृत्ति]] का मजबूत आंकड़ा है, जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> चूंकि, औसत सामान्यतः एक अधिक सही अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>
Line 21: Line 21:


=== कारण ===
=== कारण ===
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से, आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है, जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त, निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है, यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत ([[राजा प्रभाव]]) में भिन्न हो सकता है।
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से, आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है, जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त, निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है, यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत ([[राजा प्रभाव|किंग प्रभाव]]) में भिन्न हो सकता है।


== परिभाषाएं और पहचान ==
== परिभाषाएं और पहचान ==
Line 36: Line 36:
* [[एएसटीएम]] ई178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास<ref>[https://www.nrc.gov/docs/ML1023/ML102371244.pdf E178: Standard Practice for Dealing With Outlying Observations]</ref>
* [[एएसटीएम]] ई178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास<ref>[https://www.nrc.gov/docs/ML1023/ML102371244.pdf E178: Standard Practice for Dealing With Outlying Observations]</ref>
* महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है, विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में।
* महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है, विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में।
* उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें<ref name="subspace">{{cite journal | last1 = Zimek | first1 = A. | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अप्रशिक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012| s2cid = 6724536 }}</ref> '''यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा समुच्चय]] से बाहर रखा जाता है।<ref name=":2" /><ref name=":3" /> एक आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।'''
* उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें<ref name="subspace">{{cite journal | last1 = Zimek | first1 = A. | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अप्रशिक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012| s2cid = 6724536 }}</ref>  




Line 42: Line 42:
{{main|पियर्स की कसौटी}}
{{main|पियर्स की कसौटी}}


<ब्लॉककोट>


श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, यद्यपि कि उतने ही हों <math>n</math> ऐसी टिप्पणियोंहै। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal
श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, यद्यपि कि उतने ही हों <math>n</math> ऐसी टिप्पणियोंहै। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal
Line 80: Line 79:
|url=https://archive.org/details/writingsofcharle0002peir/page/140
|url=https://archive.org/details/writingsofcharle0002peir/page/140
}} – Appendix 21, according to the editorial note on page 515</ref>
}} – Appendix 21, according to the editorial note on page 515</ref>
</ब्लॉककोट>


=== तुकी के फैंस ===
=== तुकी के फैंस ===
अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं, तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है:
अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं, तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है:
:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>
:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>
कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math>.
कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math> है
 
 
 
 


[[ जॉन टुकी |जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>


[[ जॉन टुकी | जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>




Line 95: Line 96:
=== विसंगति का पता लगाने में ===
=== विसंगति का पता लगाने में ===
{{main|असंगति का पता लगाये}}
{{main|असंगति का पता लगाये}}
सांख्यिकी, [[ संकेत आगे बढ़ाना ]], [[वित्त]], [[अर्थमिति]], विनिर्माण, [[नेटवर्क विज्ञान]] और [[डेटा खनन]] जैसे विभिन्न डोमेन में, लेकिन इन तक ही सीमित नहीं है, विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं<ref>{{Cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{Cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1581132174}}</ref> और घनत्व-आधारित जैसे कि [[स्थानीय बाहरी कारक]] (एलओएफ)।<ref>{{Cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।<ref>{{Cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | s2cid = 19036098 }}</ref>
सांख्यिकी, [[ संकेत आगे बढ़ाना |संकेत आगे बढ़ाना]] , [[वित्त]], [[अर्थमिति]], विनिर्माण, [[नेटवर्क विज्ञान]] और [[डेटा खनन]] जैसे विभिन्न डोमेन में, लेकिन इन तक ही सीमित नहीं है, विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं<ref>{{Cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{Cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1581132174}}</ref> और घनत्व-आधारित जैसे कि [[स्थानीय बाहरी कारक]] (एलओएफ)।<ref>{{Cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।<ref>{{Cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | s2cid = 19036098 }}</ref>




Line 117: Line 118:
यदि δ ≤ अस्वीकृति क्षेत्र, डेटा बिंदु बाहरी नहीं है।
यदि δ ≤ अस्वीकृति क्षेत्र, डेटा बिंदु बाहरी नहीं है।


संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है)। मतलब, यदि कोई डेटा बिंदु आउटलायर पाया जाता है, तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा सम्मुचय में कोई आउटलेयर नहीं रहता।
संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है)। मतलब, यदि कोई डेटा बिंदु आउटलायर पाया जाता है, तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा सम्मुचय में कोई आउटलेयर नहीं रहता है।


कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> कहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}).<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से, उदाहरण {{mvar|H}} कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी
कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> कहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}).<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से, उदाहरण {{mvar|H}} कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी


:<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\
:<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\
&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\
&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\
&= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math>
&= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math>
व्यावहारिक रूप से, यह फॉर्मूलेशन अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई एल्गोरिदम के लिए अज्ञात है। इस प्रकार, विविध उपसम्मुचय का उपयोग करके उदाहरण <math>L \subset H</math> की कठोरता का अनुमान लगाया जा सकता है
व्यावहारिक रूप से, यह फॉर्मूलेशन अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई एल्गोरिदम के लिए अज्ञात है। इस प्रकार, विविध उपसम्मुचय का उपयोग करके उदाहरण <math>L \subset H</math> की कठोरता का अनुमान लगाया जा सकता है।


:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>
:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>
जहाँ <math>g_j(t, \alpha)</math> एल्गोरिदम सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण समुच्चय पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math>. उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण बाहरी उदाहरण है।
जहाँ <math>g_j(t, \alpha)</math> एल्गोरिदम सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण समुच्चय पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math>. उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण बाहरी उदाहरण है।


== आउटलेयर के साथ कार्य करना ==
== आउटलेयर के साथ कार्य करना ==
Line 148: Line 149:


=== समुच्चय-सदस्यता अनिश्चितताएं ===
=== समुच्चय-सदस्यता अनिश्चितताएं ===
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के ith माप से संबंधित अनिश्चितता समुच्चय ''X''<sub>i</sub> द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत)। यदि कोई आउटलेयर नहीं होता है, तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए ''X''<sub>i</sub>' sजब आउटलेयर होते हैं, तो यह चौराहा खाली हो सकता है, और हमें सम्मुचय ''X''<sub>i</sub> की छोटी संख्या को आराम देना चाहिए<sub>i</sub> (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए।<ref>{{cite journal|last1=Jaulin|first1=L.|
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के ith माप से संबंधित अनिश्चितता समुच्चय ''X''<sub>i</sub> द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत)। यदि कोई आउटलेयर नहीं होता है, तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए ''X''<sub>i</sub>' sजब आउटलेयर होते हैं, तो यह प्रतिच्छेदन खाली हो सकता है, और हमें सम्मुचय ''X''<sub>i</sub> की छोटी संख्या को आराम देना चाहिए (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए।<ref>{{cite journal|last1=Jaulin|first1=L.|
title=Probabilistic set-membership approach for robust regression|
title=Probabilistic set-membership approach for robust regression|
journal=Journal of Statistical Theory and Practice|volume=4|pages=155–167|
journal=Journal of Statistical Theory and Practice|volume=4|pages=155–167|
year=2010|
year=2010|
url=http://www.ensta-bretagne.fr/jaulin/paper_probint_0.pdf|doi=10.1080/15598608.2010.10411978|s2cid=16500768}}</ref> यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता है। जैसा कि चित्र में दिखाया गया है, क्यू-रिलैक्स्ड चौराहा उन सभी x के समुच्चय से मेल खाता है जो उनमें से q को छोड़कर सभी समुच्चयों से संबंधित हैं। समुच्चय x<sub>i</sub> जो q-रिलैक्स्ड चौराहे को नहीं काटते हैं, उनके आउटलेयर होने का संदेह हो सकता है।
url=http://www.ensta-bretagne.fr/jaulin/paper_probint_0.pdf|doi=10.1080/15598608.2010.10411978|s2cid=16500768}}</ref> यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता है। जैसा कि चित्र में दिखाया गया है, क्यू-रिलैक्स्ड प्रतिच्छेदन उन सभी x के समुच्चय से मेल खाता है जो उनमें से q को छोड़कर सभी समुच्चयों से संबंधित हैं। समुच्चय x<sub>i</sub> जो q-रिलैक्स्ड चौराहे को नहीं काटते हैं, उनके आउटलेयर होने का संदेह हो सकता है।


[[File:Wiki q inter def.jpg|thumb|चित्रा 5. q = 2 (लाल), q = 3 (हरा), q = 4 (नीला), q = 5 (पीला) के लिए 6 समुच्चयों का q-रिलैक्स इंटरसेक्शन।]]
[[File:Wiki q inter def.jpg|thumb|चित्रा 5. q = 2 (लाल), q = 3 (हरा), q = 4 (नीला), q = 5 (पीला) के लिए 6 समुच्चयों का q-रिलैक्स इंटरसेक्शन।]]


=== वैकल्पिक मॉडल ===
=== वैकल्पिक मॉडल ===
ऐसे स्थितियों में जहां आउटलेयर का कारण ज्ञात है, इस प्रभाव को मॉडल संरचना में सम्मिलित करना संभव हो सकता है, उदाहरण के लिए [[पदानुक्रमित बेयस मॉडल]] या मिश्रण मॉडल का उपयोग करके।<ref>Roberts, S. and Tarassenko, L.: 1995, A probabilistic resource allocating network for novelty detection. Neural Computation 6, 270–284.</ref><ref>{{Cite journal |last= Bishop |first=C. M. |date= August 1994 |title= नवीनता का पता लगाने और तंत्रिका नेटवर्क सत्यापन|journal= IEE Proceedings - Vision, Image, and Signal Processing|volume=141 |issue=4 |pages= 217–222 |doi=10.1049/ip-vis:19941330 }}</ref>
ऐसे स्थितियों में जहां आउटलेयर का कारण ज्ञात है, इस प्रभाव को मॉडल संरचना में सम्मिलित करना संभव हो सकता है, उदाहरण के लिए [[पदानुक्रमित बेयस मॉडल]] या मिश्रण मॉडल का उपयोग करके होता है।<ref>Roberts, S. and Tarassenko, L.: 1995, A probabilistic resource allocating network for novelty detection. Neural Computation 6, 270–284.</ref><ref>{{Cite journal |last= Bishop |first=C. M. |date= August 1994 |title= नवीनता का पता लगाने और तंत्रिका नेटवर्क सत्यापन|journal= IEE Proceedings - Vision, Image, and Signal Processing|volume=141 |issue=4 |pages= 217–222 |doi=10.1049/ip-vis:19941330 }}</ref>





Revision as of 21:02, 28 March 2023

File:Michelsonmorley-boxplot.svg
चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का रेखा - चित्र मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।

आँकड़ों में, बाहरी डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।[1][2] आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी डेटा समुच्चय से बाहर रखा जाता है।[3][4] आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।

आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, माप त्रुटि, या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए मजबूत आँकड़े हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं; यह मिश्रण प्रारूप द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि, बड़े नमूनों में, आउटलेयर की छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं) है।

आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत, नमूना अधिकतम या न्यूनतम नमूना, या दोनों सम्मिलित हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं, लेकिन ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है; माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।

आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत केंद्रीय प्रवृत्ति का मजबूत आंकड़ा है, जबकि माध्य नहीं है।[5] चूंकि, औसत सामान्यतः एक अधिक सही अनुमानक होता है।[6]


घटना और कारण

File:Standard deviation diagram micro.svg
सामान्य वितरण में सापेक्ष संभावनाएं

सामान्य वितरण डेटा के स्थितियों में, तीन सिग्मा नियम का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा, और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।[7] 1000 प्रेक्षणों के नमूने में, माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है, जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है। अपेक्षित संख्या - पोइसन वितरण देखें - और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं, जो अपेक्षित संख्या से 11 गुना अधिक हैं।

सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है, तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है: किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ) दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ द्विपद वितरण का पालन करेगी, जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

कारण

आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से, आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है, जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त, निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है, यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (किंग प्रभाव) में भिन्न हो सकता है।

परिभाषाएं और पहचान

कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है; यह निर्धारित करना कि कोई अवलोकन बाहरी है या नहीं, अंततः व्यक्तिपरक अभ्यास है।