आउटलायर: Difference between revisions
No edit summary |
No edit summary |
||
| Line 2: | Line 2: | ||
{{about|सांख्यिकीय शब्द||}} | {{about|सांख्यिकीय शब्द||}} | ||
[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र |रेखा - चित्र]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, बाहरी [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा | [[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र |रेखा - चित्र]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, बाहरी [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा]] सेट से बाहर रखा जाता है।<ref name=":2">Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref name=":3">{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है। | ||
आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं | आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह [[मिश्रण मॉडल|मिश्रण प्रारूप]] द्वारा तैयार किया गया है। | ||
डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर | डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलेयर की छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं) है। | ||
आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत | आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत [[नमूना अधिकतम]] या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं। | ||
डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं | डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं। | ||
आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है | आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत [[केंद्रीय प्रवृत्ति]] का मजबूत आंकड़ा है जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref> | ||
== घटना और कारण == | == घटना और कारण == | ||
[[File:Standard_deviation_diagram_micro.svg|thumb|250px|सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में | [[File:Standard_deviation_diagram_micro.svg|thumb|250px|सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में [[तीन सिग्मा नियम]] का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है। अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं। | ||
सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है | सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ [[द्विपद वितरण]] का पालन करेगी, जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है। | ||
=== कारण === | === कारण === | ||
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से | आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत ([[राजा प्रभाव|किंग प्रभाव]]) में भिन्न हो सकता है। | ||
== परिभाषाएं और पहचान == | == परिभाषाएं और पहचान == | ||
कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है | कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है यह निर्धारित करना कि कोई अवलोकन बाहरी है या नहीं अंततः व्यक्तिपरक अभ्यास है।<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{citation |last1=Rousseeuw |first1=P |author1-link=Peter Rousseeuw |last2=Leroy |first2=A. |year=1996 |title=Robust Regression and Outlier Detection |publisher=John Wiley & Sons |edition=3rd |title-link= Robust Regression and Outlier Detection}}</ref><ref>{{citation |first1=Victoria J. |last1=Hodge |first2=Jim |last2=Austin |title=A Survey of Outlier Detection Methodologies |journal=Artificial Intelligence Review |volume=22 |issue=2 |pages=85–126 |doi= 10.1023/B:AIRE.0000045502.10941.a9|year=2004 |citeseerx=10.1.1.109.1943 |s2cid=3330313 }}</ref><ref>{{Citation | last1 = Barnett | first1 = Vic | ||
| last2 = Lewis | first2 = Toby | year = 1994 | orig-year = 1978 | | last2 = Lewis | first2 = Toby | year = 1994 | orig-year = 1978 | ||
| title = Outliers in Statistical Data | edition = 3 | | title = Outliers in Statistical Data | edition = 3 | ||
| publisher = Wiley | | publisher = Wiley | ||
| isbn =978-0-471-93094-5}}</ref><ref name="subspace" /> कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित | | isbn =978-0-471-93094-5}}</ref><ref name="subspace" /> कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं। | ||
मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं | मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है: | ||
* चौवेनेट की कसौटी | * चौवेनेट की कसौटी | ||
* आउटलेयर के लिए ग्रब्स का परीक्षण | * आउटलेयर के लिए ग्रब्स का परीक्षण | ||
* डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण | * डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण | ||
* [[एएसटीएम]] | * [[एएसटीएम]] e178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास<ref>[https://www.nrc.gov/docs/ML1023/ML102371244.pdf E178: Standard Practice for Dealing With Outlying Observations]</ref> | ||
* महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है | * महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में | ||
* उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें<ref name="subspace">{{cite journal | last1 = Zimek | first1 = A. | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अप्रशिक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012| s2cid = 6724536 }}</ref> | * उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें<ref name="subspace">{{cite journal | last1 = Zimek | first1 = A. | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अप्रशिक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012| s2cid = 6724536 }}</ref> | ||
| Line 43: | Line 43: | ||
श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> | |||
श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों <math>n</math> ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal | |||
|title=On Peirce's criterion | |title=On Peirce's criterion | ||
|author-link=Benjamin Peirce | |author-link=Benjamin Peirce | ||
| Line 81: | Line 84: | ||
=== तुकी के फैंस === | === तुकी के फैंस === | ||
अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं | अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है | ||
:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math> | :<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math> | ||
कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math> है | कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math> है [[ जॉन टुकी |जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref> | ||
| Line 96: | Line 94: | ||
=== विसंगति का पता लगाने में === | === विसंगति का पता लगाने में === | ||
{{main|असंगति का पता लगाये}} | {{main|असंगति का पता लगाये}} | ||
सांख्यिकी | सांख्यिकी [[ संकेत आगे बढ़ाना |संकेत आगे बढ़ाना]] [[वित्त]] [[अर्थमिति]],विनिर्माण, [[नेटवर्क विज्ञान]] और [[डेटा खनन]] जैसे विभिन्न डोमेन में लेकिन इन तक ही सीमित नहीं है विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं<ref>{{Cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{Cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1581132174}}</ref> और घनत्व-आधारित जैसे कि [[स्थानीय बाहरी कारक]] (एलओएफ)<ref>{{Cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।<ref>{{Cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | s2cid = 19036098 }}</ref> | ||
=== संशोधित थॉम्पसन ताऊ परीक्षण === | === संशोधित थॉम्पसन ताऊ परीक्षण === | ||
{{see also|विद्यार्थी अवशिष्ट#वितरण}} | {{see also|विद्यार्थी अवशिष्ट#वितरण}} | ||
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या | संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु बाहरी है या नहीं<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref> यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है: | ||
यह काम किस प्रकार करता है | |||
सबसे पहले | |||
:<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}} | :<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}} | ||
</math>; | </math>; | ||
जहाँ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण | जहाँ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण n नमूना आकार है और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान बाहरी है गणना <math>\scriptstyle \delta = |(X - mean(X)) / s|</math> यदि δ > अस्वीकृति क्षेत्र डेटा बिंदु बाहरी है यदि δ ≤ अस्वीकृति क्षेत्र डेटा बिंदु बाहरी नहीं है। | ||
यह निर्धारित करने के लिए कि क्या कोई मान बाहरी है | |||
गणना <math>\scriptstyle \delta = |(X - mean(X)) / s|</math> | |||
यदि δ > अस्वीकृति क्षेत्र | |||
यदि δ ≤ अस्वीकृति क्षेत्र | |||
संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है) | संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है) मतलब, यदि कोई डेटा बिंदु आउटलायर पाया जाता है तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक चलती रहती है जब तक कि डेटा सम्मुचय में कोई आउटलेयर नहीं रहता है। | ||
कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में | कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> जहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से उदाहरण {{mvar|H}} कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी | ||
:<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\ | :<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\ | ||
&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\ | &= \sum_H p(h|t) - p(y, x, h)p(h|t)\\ | ||
&= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math> | &= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math> | ||
व्यावहारिक रूप से, यह | व्यावहारिक रूप से, यह सूत्रीकरण अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई कलन विधि के लिए अज्ञात है। इस प्रकार, विविध उपसम्मुचय का उपयोग करके उदाहरण <math>L \subset H</math> की कठोरता का अनुमान लगाया जा सकता है। | ||
:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math> | :<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math> | ||
जहाँ <math>g_j(t, \alpha)</math> | जहाँ <math>g_j(t, \alpha)</math> कलन विधि सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण समुच्चय पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math> की उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण बाहरी उदाहरण है। | ||
== आउटलेयर के साथ कार्य करना == | == आउटलेयर के साथ कार्य करना == | ||
बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना | बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं विशेष रूप से [[सहप्रसरण मैट्रिसेस का अनुमान]] है। | ||
=== प्रतिधारण === | === प्रतिधारण === | ||
यहां तक कि जब सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है | यहां तक कि जब सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए एप्लिकेशन को वर्गीकरण कलन विधि का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है। | ||
=== बहिष्करण === | === बहिष्करण === | ||
बाहरी डेटा को हटाना विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है | बाहरी डेटा को हटाना विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए उद्देश्य और मात्रात्मक विधि प्रदान करते हैं वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। उपकरण पठन त्रुटि से उत्पन्न बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो। | ||
आउटलेर्स को बाहर करने के लिए दो सामान्य दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि [[जीतना]] आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।<ref>{{cite book |title=Data Analysis: A Statistical Primer for Psychology Students |pages=24–25 |first=Edward L. |last=Wike |date=2006 |isbn=9780202365350}}</ref> बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है | आउटलेर्स को बाहर करने के लिए दो सामान्य दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि [[जीतना]] आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।<ref>{{cite book |title=Data Analysis: A Statistical Primer for Psychology Students |pages=24–25 |first=Edward L. |last=Wike |date=2006 |isbn=9780202365350}}</ref> बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है जिसके परिणामस्वरूप [[सेंसरिंग (सांख्यिकी)]] होती है।<ref>{{cite journal |title=सेंसर किए गए सामान्य नमूनों से सरलीकृत अनुमान|first=W. J. |last=Dixon |journal=The Annals of Mathematical Statistics |volume=31 |number=2 |date=June 1960 |pages=385–391 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177705900 |doi=10.1214/aoms/1177705900|doi-access=free }}</ref> | ||
[[प्रतिगमन विश्लेषण]] समस्याओं में | [[प्रतिगमन विश्लेषण]] समस्याओं में वैकल्पिक दृष्टिकोण केवल उन बिंदुओं को बाहर करना हो सकता है जो कुक की दूरी जैसे माप का उपयोग करके अनुमानित गुणांकों पर बड़े पैमाने पर प्रभाव प्रदर्शित करते हैं।<ref>Cook, R. Dennis (Feb 1977). "Detection of Influential Observations in Linear Regression". Technometrics (American Statistical Association) 19 (1): 15–18.</ref> | ||
यदि कोई डेटा बिंदु ( | यदि कोई डेटा बिंदु ( बिंदु) [[डेटा विश्लेषण]] से बाहर रखा गया है तो इसे बाद की किसी भी रिपोर्ट में स्पष्ट रूप से बताया जाना चाहिए। | ||
=== गैर-सामान्य वितरण === | === गैर-सामान्य वितरण === | ||
संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए | संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए जब कॉची बंटन से प्रतिदर्श लिया जाता है<ref>Weisstein, Eric W. [http://mathworld.wolfram.com/CauchyDistribution.html Cauchy Distribution. From MathWorld--A Wolfram Web Resource]</ref> नमूना आकार के साथ नमूना भिन्नता बढ़ती है नमूना आकार बढ़ने पर नमूना माध्य अभिसरण करने में विफल रहता है और आउटलेयर सामान्य वितरण की तुलना में कहीं अधिक बड़ी दरों पर होने की उम्मीद है पूंछों की मोटाई में साधारण अंतर भी चरम मानों की अपेक्षित संख्या में बड़ा अंतर ला सकता है। | ||
=== समुच्चय-सदस्यता अनिश्चितताएं === | === समुच्चय-सदस्यता अनिश्चितताएं === | ||
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के | समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के i th माप से संबंधित अनिश्चितता समुच्चय ''X''<sub>i</sub> द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत) यदि कोई आउटलेयर नहीं होता है तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए ''X''<sub>i</sub>' s जब आउटलेयर होते हैं, तो यह प्रतिच्छेदन खाली हो सकता है और हमें सम्मुचय ''X''<sub>i</sub> की छोटी संख्या को आराम देना चाहिए (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए<ref>{{cite journal|last1=Jaulin|first1=L.| | ||
title=Probabilistic set-membership approach for robust regression| | title=Probabilistic set-membership approach for robust regression| | ||
journal=Journal of Statistical Theory and Practice|volume=4|pages=155–167| | journal=Journal of Statistical Theory and Practice|volume=4|pages=155–167| | ||
year=2010| | year=2010| | ||
url=http://www.ensta-bretagne.fr/jaulin/paper_probint_0.pdf|doi=10.1080/15598608.2010.10411978|s2cid=16500768}}</ref> यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता | url=http://www.ensta-bretagne.fr/jaulin/paper_probint_0.pdf|doi=10.1080/15598608.2010.10411978|s2cid=16500768}}</ref> यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता है जैसा कि चित्र में दिखाया गया है क्यू-रिलैक्स्ड प्रतिच्छेदन उन सभी x के समुच्चय से मेल खाता है जो उनमें से q को छोड़कर सभी समुच्चयों से संबंधित हैं समुच्चय x<sub>i</sub> जो q-रिलैक्स्ड चौराहे को नहीं काटते हैं उनके आउटलेयर होने का संदेह हो सकता है। | ||
[[File:Wiki q inter def.jpg|thumb|चित्रा 5. q = 2 (लाल), q = 3 (हरा), q = 4 (नीला), q = 5 (पीला) के लिए 6 समुच्चयों का q-रिलैक्स इंटरसेक्शन।]] | [[File:Wiki q inter def.jpg|thumb|चित्रा 5. q = 2 (लाल), q = 3 (हरा), q = 4 (नीला), q = 5 (पीला) के लिए 6 समुच्चयों का q-रिलैक्स इंटरसेक्शन।]] | ||
=== वैकल्पिक मॉडल === | === वैकल्पिक मॉडल === | ||
ऐसे स्थितियों में जहां आउटलेयर का कारण ज्ञात है | ऐसे स्थितियों में जहां आउटलेयर का कारण ज्ञात है इस प्रभाव को मॉडल संरचना में सम्मिलित करना संभव हो सकता है उदाहरण के लिए [[पदानुक्रमित बेयस मॉडल]] या मिश्रण मॉडल का उपयोग करके होता है।<ref>Roberts, S. and Tarassenko, L.: 1995, A probabilistic resource allocating network for novelty detection. Neural Computation 6, 270–284.</ref><ref>{{Cite journal |last= Bishop |first=C. M. |date= August 1994 |title= नवीनता का पता लगाने और तंत्रिका नेटवर्क सत्यापन|journal= IEE Proceedings - Vision, Image, and Signal Processing|volume=141 |issue=4 |pages= 217–222 |doi=10.1049/ip-vis:19941330 }}</ref> | ||
Revision as of 22:07, 29 March 2023
आँकड़ों में, बाहरी डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।[1][2] आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी डेटा सेट से बाहर रखा जाता है।[3][4] आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।
आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, माप त्रुटि, या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए मजबूत आँकड़े हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह मिश्रण प्रारूप द्वारा तैयार किया गया है।
डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलेयर की छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं) है।
आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत नमूना अधिकतम या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।
डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।
आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत केंद्रीय प्रवृत्ति का मजबूत आंकड़ा है जबकि माध्य नहीं है।[5] चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।[6]
घटना और कारण
सामान्य वितरण डेटा के स्थितियों में तीन सिग्मा नियम का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।[7] 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है। अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।
सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ द्विपद वितरण का पालन करेगी, जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।
कारण
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (किंग प्रभाव) में भिन्न हो सकता है।
परिभाषाएं और पहचान
कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है यह निर्धारित करना कि कोई अवलोकन बाहरी है या नहीं अंततः व्यक्तिपरक अभ्यास है।[8] आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।[9][10][11][12][13] कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं।
मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:
- चौवेनेट की कसौटी
- आउटलेयर के लिए ग्रब्स का परीक्षण
- डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
- एएसटीएम e178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास[14]
- महालनोबिस दूरी और उत्तोलन (सांख्यिकी) का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में
- उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें[13]
पियर्स की कसौटी
श्रृंखला में निर्धारित करने का प्रस्ताव है त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।[15][16][17][18]
तुकी के फैंस
अन्य विधियाँ अन्तःचतुर्थक श्रेणी जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि और क्रमशः निचले और ऊपरी चतुर्थक हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है
कुछ गैर-नकारात्मक स्थिरांक के लिए है जॉन टुकी ने इस परीक्षण का प्रस्ताव दिया, जहाँ बाहरी को इंगित करता है, और दूर के डेटा को इंगित करता है।[19]
विसंगति का पता लगाने में
सांख्यिकी संकेत आगे बढ़ाना वित्त अर्थमिति,विनिर्माण, नेटवर्क विज्ञान और डेटा खनन जैसे विभिन्न डोमेन में लेकिन इन तक ही सीमित नहीं है विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं[20][21] और घनत्व-आधारित जैसे कि स्थानीय बाहरी कारक (एलओएफ)[22] कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।[23]
संशोधित थॉम्पसन ताऊ परीक्षण
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु बाहरी है या नहीं[24] यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है:
- ;
जहाँ छात्र से महत्वपूर्ण मूल्य है t स्वतंत्रता की n-2 डिग्री के साथ वितरण n नमूना आकार है और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान बाहरी है गणना यदि δ > अस्वीकृति क्षेत्र डेटा बिंदु बाहरी है यदि δ ≤ अस्वीकृति क्षेत्र डेटा बिंदु बाहरी नहीं है।
संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है) मतलब, यदि कोई डेटा बिंदु आउटलायर पाया जाता है तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक चलती रहती है जब तक कि डेटा सम्मुचय में कोई आउटलेयर नहीं रहता है।
कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( जहाँ y असाइन किया गया क्लास लेबल है और x प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है t[25] आदर्श रूप से उदाहरण H कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी
व्यावहारिक रूप से, यह सूत्रीकरण अक्षम्य है H संभावित रूप से अनंत और गणनात्मक है कई कलन विधि के लिए अज्ञात है। इस प्रकार, विविध उपसम्मुचय का उपयोग करके उदाहरण की कठोरता का अनुमान लगाया जा सकता है।
जहाँ कलन विधि सीखने से प्रेरित परिकल्पना है प्रशिक्षण समुच्चय पर प्रशिक्षित t हाइपरपैरामीटर के साथ की उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण बाहरी उदाहरण है।
आउटलेयर के साथ कार्य करना
बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं विशेष रूप से सहप्रसरण मैट्रिसेस का अनुमान है।
प्रतिधारण
यहां तक कि जब सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए एप्लिकेशन को वर्गीकरण कलन विधि का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है।
बहिष्करण
बाहरी डेटा को हटाना विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए उद्देश्य और मात्रात्मक विधि प्रदान करते हैं वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। उपकरण पठन त्रुटि से उत्पन्न बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।
आउटलेर्स को बाहर करने के लिए दो सामान्य दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि जीतना आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।[26] बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है जिसके परिणामस्वरूप सेंसरिंग (सांख्यिकी) होती है।[27]
प्रतिगमन विश्लेषण समस्याओं में वैकल्पिक दृष्टिकोण केवल उन बिंदुओं को बाहर करना हो सकता है जो कुक की दूरी जैसे माप का उपयोग करके अनुमानित गुणांकों पर बड़े पैमाने पर प्रभाव प्रदर्शित करते हैं।[28]
यदि कोई डेटा बिंदु ( बिंदु) डेटा विश्लेषण से बाहर रखा गया है तो इसे बाद की किसी भी रिपोर्ट में स्पष्ट रूप से बताया जाना चाहिए।
गैर-सामान्य वितरण
संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए जब कॉची बंटन से प्रतिदर्श लिया जाता है[29] नमूना आकार के साथ नमूना भिन्नता बढ़ती है नमूना आकार बढ़ने पर नमूना माध्य अभिसरण करने में विफल रहता है और आउटलेयर सामान्य वितरण की तुलना में कहीं अधिक बड़ी दरों पर होने की उम्मीद है पूंछों की मोटाई में साधारण अंतर भी चरम मानों की अपेक्षित संख्या में बड़ा अंतर ला सकता है।
समुच्चय-सदस्यता अनिश्चितताएं
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के i th माप से संबंधित अनिश्चितता समुच्चय Xi द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत) यदि कोई आउटलेयर नहीं होता है तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए Xi' s जब आउटलेयर होते हैं, तो यह प्रतिच्छेदन खाली हो सकता है और हमें सम्मुचय Xi की छोटी संख्या को आराम देना चाहिए (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए[30] यह क्यू-रिलैक्स्ड चौराहे की धारणा का उपयोग करके किया जा सकता है जैसा कि चित्र में दिखाया गया है क्यू-रिलैक्स्ड प्रतिच्छेदन उन सभी x के समुच्चय से मेल खाता है जो उनमें से q को छोड़कर सभी समुच्चयों से संबंधित हैं समुच्चय xi जो q-रिलैक्स्ड चौराहे को नहीं काटते हैं उनके आउटलेयर होने का संदेह हो सकता है।
वैकल्पिक मॉडल
ऐसे स्थितियों में जहां आउटलेयर का कारण ज्ञात है इस प्रभाव को मॉडल संरचना में सम्मिलित करना संभव हो सकता है उदाहरण के लिए पदानुक्रमित बेयस मॉडल या मिश्रण मॉडल का उपयोग करके होता है।[31][32]
यह भी देखें
- विसंगति (प्राकृतिक विज्ञान)
- नवीनता का पता लगाना
- Anscombe की चौकड़ी
- डेटा परिवर्तन (सांख्यिकी)
- चरम मूल्य सिद्धांत
- प्रभावशाली अवलोकन
- यादृच्छिक नमूना आम सहमति
- मजबूत प्रतिगमन
- विद्यार्थी अवशिष्ट
- जीतना
संदर्भ
- ↑ Grubbs, F. E. (February 1969). "नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं". Technometrics. 11 (1): 1–21. doi:10.1080/00401706.1969.10490657.
An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.
- ↑ Maddala, G. S. (1992). "Outliers". अर्थमिति का परिचय (2nd ed.). New York: MacMillan. pp. 89. ISBN 978-0-02-374545-4.
एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।
- ↑ Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.
- ↑ Grubbs 1969, p. 1 stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."
- ↑ Ripley, Brian D. 2004. Robust statistics Archived 2012-10-21 at the Wayback Machine
- ↑ Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [1]
- ↑ Ruan, Da; Chen, Guoqing; Kerre, Etienne (2005). Wets, G. (ed.). Intelligent Data Mining: Techniques and Applications. Studies in Computational Intelligence Vol. 5. Springer. p. 318. ISBN 978-3-540-26256-5.
- ↑ Zimek, Arthur; Filzmoser, Peter (2018). "There and back again: Outlier detection between statistical reasoning and data mining algorithms" (PDF). Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8 (6): e1280. doi:10.1002/widm.1280. ISSN 1942-4787. S2CID 53305944.
- ↑ Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.
- ↑ Rousseeuw, P; Leroy, A. (1996), Robust Regression and Outlier Detection (3rd ed.), John Wiley & Sons
- ↑ Hodge, Victoria J.; Austin, Jim (2004), "A Survey of Outlier Detection Methodologies", Artificial Intelligence Review, 22 (2): 85–126, CiteSeerX 10.1.1.109.1943, doi:10.1023/B:AIRE.0000045502.10941.a9, S2CID 3330313
- ↑ Barnett, Vic; Lewis, Toby (1994) [1978], Outliers in Statistical Data (3 ed.), Wiley, ISBN 978-0-471-93094-5
- ↑ 13.0 13.1 Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "उच्च-आयामी संख्यात्मक डेटा में अप्रशिक्षित बाहरी पहचान पर एक सर्वेक्षण". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161. S2CID 6724536.
- ↑ E178: Standard Practice for Dealing With Outlying Observations
- ↑ Benjamin Peirce, "Criterion for the Rejection of Doubtful Observations", Astronomical Journal II 45 (1852) and Errata to the original paper.
- ↑ Peirce, Benjamin (May 1877 – May 1878). "On Peirce's criterion". Proceedings of the American Academy of Arts and Sciences. 13: 348–351. doi:10.2307/25138498. JSTOR 25138498.
- ↑ Peirce, Charles Sanders (1873) [1870]. "Appendix No. 21. On the Theory of Errors of Observation". Report of the Superintendent of the United States Coast Survey Showing the Progress of the Survey During the Year 1870: 200–224.. NOAA PDF Eprint (goes to Report p. 200, PDF's p. 215).
- ↑ Peirce, Charles Sanders (1986) [1982]. "On the Theory of Errors of Observation". In Kloesel, Christian J. W.; et al. (eds.). Writings of Charles S. Peirce: A Chronological Edition. Vol. 3, 1872–1878. Bloomington, Indiana: Indiana University Press. pp. 140–160. ISBN 978-0-253-37201-7. – Appendix 21, according to the editorial note on page 515
- ↑ Tukey, John W (1977). अन्वेषणात्मक डेटा विश्लेषण. Addison-Wesley. ISBN 978-0-201-07616-5. OCLC 3058187.
- ↑ Knorr, E. M.; Ng, R. T.; Tucakov, V. (2000). "Distance-based outliers: Algorithms and applications". The VLDB Journal the International Journal on Very Large Data Bases. 8 (3–4): 237. CiteSeerX 10.1.1.43.1842. doi:10.1007/s007780050006. S2CID 11707259.
- ↑ Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम. Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. p. 427. doi:10.1145/342009.335437. ISBN 1581132174.
- ↑ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
- ↑ Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection". Data Mining and Knowledge Discovery. 28: 190–237. doi:10.1007/s10618-012-0300-z. S2CID 19036098.
- ↑ Thompson .R. (1985). "A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55
- ↑ Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "An Instance Level Analysis of Data Complexity". Machine Learning, 95(2): 225-256.
- ↑ Wike, Edward L. (2006). Data Analysis: A Statistical Primer for Psychology Students. pp. 24–25. ISBN 9780202365350.
- ↑ Dixon, W. J. (June 1960). "सेंसर किए गए सामान्य नमूनों से सरलीकृत अनुमान". The Annals of Mathematical Statistics. 31 (2): 385–391. doi:10.1214/aoms/1177705900.
- ↑ Cook, R. Dennis (Feb 1977). "Detection of Influential Observations in Linear Regression". Technometrics (American Statistical Association) 19 (1): 15–18.
- ↑ Weisstein, Eric W. Cauchy Distribution. From MathWorld--A Wolfram Web Resource
- ↑ Jaulin, L. (2010). "Probabilistic set-membership approach for robust regression" (PDF). Journal of Statistical Theory and Practice. 4: 155–167. doi:10.1080/15598608.2010.10411978. S2CID 16500768.
- ↑ Roberts, S. and Tarassenko, L.: 1995, A probabilistic resource allocating network for novelty detection. Neural Computation 6, 270–284.
- ↑ Bishop, C. M. (August 1994). "नवीनता का पता लगाने और तंत्रिका नेटवर्क सत्यापन". IEE Proceedings - Vision, Image, and Signal Processing. 141 (4): 217–222. doi:10.1049/ip-vis:19941330.
बाहरी संबंध
- Renze, John. "आउटलायर". MathWorld.
- Balakrishnan, N.; Childs, A. (2001) [1994], "Outlier", Encyclopedia of Mathematics, EMS Press
- Grubbs test described by NIST manual