आउटलायर: Difference between revisions

Line 1:

{{Short description|Observation far apart from others in statistics and data science}}

[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र ]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में एक आउटलाइयर।]]आँकड़ों में, एक बाहरी एक [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref>{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref>{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> एक आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट]] से बाहर रखा जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> एक आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी ~~पैदा~~ कर सकता है।

[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र ]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में एक आउटलाइयर।]]आँकड़ों में, एक बाहरी एक [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref>{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref>{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> एक आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट]] से बाहर रखा जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> एक आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।

आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-सेट, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के ~~मामले~~ में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के ~~मामले~~ में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का एक लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' ~~बनाम~~ 'माप त्रुटि' का संकेत दे सकते हैं; यह एक [[मिश्रण मॉडल]] द्वारा तैयार किया गया है।

आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-सेट, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का एक लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं; यह एक [[मिश्रण मॉडल]] द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में ~~खामियों~~ के कारण हो सकता है जिसने संभाव्यता वितरण के एक अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां एक निश्चित सिद्धांत मान्य नहीं हो सकता है। ~~हालांकि~~, बड़े नमूनों में, आउटलेयर की एक छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं)।

डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के एक अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां एक निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि, बड़े नमूनों में, आउटलेयर की एक छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं)।

आउटलेयर, सबसे चरम अवलोकन होने के ~~नाते~~, [[नमूना अधिकतम]] या न्यूनतम नमूना, या दोनों ~~शामिल~~ हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। ~~हालांकि~~, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत, [[नमूना अधिकतम]] या न्यूनतम नमूना, या दोनों सम्मिलित हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा सेट से प्राप्त आँकड़ों की ~~भोली~~ व्याख्या जिसमें आउटलेयर ~~शामिल~~ हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई एक कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं, लेकिन एक ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस ~~मामले~~ में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को ~~बेहतर~~ ढंग से दर्शाता है; माध्यिका के समतुल्य एक विशिष्ट नमूने के रूप में माध्य की ~~भोलेपन~~ से व्याख्या करना गलत है। जैसा कि इस ~~मामले~~ में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] सेट की तुलना में एक अलग सांख्यिकीय आबादी से संबंधित हैं।

डेटा सेट से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई एक कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं, लेकिन एक ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है; माध्यिका के समतुल्य एक विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] सेट की तुलना में एक अलग सांख्यिकीय आबादी से संबंधित हैं।

आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत [[केंद्रीय प्रवृत्ति]] का एक मजबूत आंकड़ा है, जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> ~~हालांकि~~, औसत आम तौर पर एक अधिक ~~सटीक~~ अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>

आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत [[केंद्रीय प्रवृत्ति]] का एक मजबूत आंकड़ा है, जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> चूंकि, औसत आम तौर पर एक अधिक सही अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>

== घटना और कारण ==

[[File:Standard_deviation_diagram_micro.svg|thumb|250px|एक सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के ~~मामले~~ में, [[तीन सिग्मा नियम]] का अर्थ है कि ~~मोटे तौर पर~~ 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा, और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के एक नमूने में, माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के ~~भीतर~~ है, जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के ~~भीतर~~ है। अपेक्षित संख्या - पोइसन वितरण देखें - और एक विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, ~~हालांकि~~, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं, जो अपेक्षित संख्या से 11 गुना अधिक हैं।

[[File:Standard_deviation_diagram_micro.svg|thumb|250px|एक सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में, [[तीन सिग्मा नियम]] का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा, और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के एक नमूने में, माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है, जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है। अपेक्षित संख्या - पोइसन वितरण देखें - और एक विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं, जो अपेक्षित संख्या से 11 गुना अधिक हैं।

~~सामान्य तौर पर~~, यदि जनसंख्या वितरण की प्रकृति को एक प्राथमिकता के रूप में जाना जाता है, तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है: किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना पी के साथ) दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर पी के साथ एक [[द्विपद वितरण]] का पालन करेगी, जिसे ~~आमतौर पर~~ λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ एक सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को एक प्राथमिकता के रूप में जाना जाता है, तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है: किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ) दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ एक [[द्विपद वितरण]] का पालन करेगी, जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ एक सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

=== कारण ===

Line 24:

== परिभाषाएं और पहचान ==

कोई कठोर गणितीय परिभाषा नहीं है जो एक बाहरी का गठन करती है; यह निर्धारित करना कि कोई अवलोकन एक बाहरी है या नहीं, अंततः एक व्यक्तिपरक अभ्यास है।<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> आउटलाइयर डिटेक्शन के विभिन्न ~~तरीके~~ हैं, जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{citation |last1=Rousseeuw |first1=P |author1-link=Peter Rousseeuw |last2=Leroy |first2=A. |year=1996 |title=Robust Regression and Outlier Detection |publisher=John Wiley & Sons |edition=3rd |title-link= Robust Regression and Outlier Detection}}</ref><ref>{{citation |first1=Victoria J. |last1=Hodge |first2=Jim |last2=Austin |title=A Survey of Outlier Detection Methodologies |journal=Artificial Intelligence Review |volume=22 |issue=2 |pages=85–126 |doi= 10.1023/B:AIRE.0000045502.10941.a9|year=2004 |citeseerx=10.1.1.109.1943 |s2cid=3330313 }}</ref><ref>{{Citation | last1 = Barnett | first1 = Vic

कोई कठोर गणितीय परिभाषा नहीं है जो एक बाहरी का गठन करती है; यह निर्धारित करना कि कोई अवलोकन एक बाहरी है या नहीं, अंततः एक व्यक्तिपरक अभ्यास है।<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं, जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{citation |last1=Rousseeuw |first1=P |author1-link=Peter Rousseeuw |last2=Leroy |first2=A. |year=1996 |title=Robust Regression and Outlier Detection |publisher=John Wiley & Sons |edition=3rd |title-link= Robust Regression and Outlier Detection}}</ref><ref>{{citation |first1=Victoria J. |last1=Hodge |first2=Jim |last2=Austin |title=A Survey of Outlier Detection Methodologies |journal=Artificial Intelligence Review |volume=22 |issue=2 |pages=85–126 |doi= 10.1023/B:AIRE.0000045502.10941.a9|year=2004 |citeseerx=10.1.1.109.1943 |s2cid=3330313 }}</ref><ref>{{Citation | last1 = Barnett | first1 = Vic

| last2 = Lewis | first2 = Toby | year = 1994 | orig-year = 1978

| title = Outliers in Statistical Data | edition = 3

| publisher = Wiley

| isbn =978-0-471-93094-5}}</ref><ref name="subspace" />कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता ~~प्लॉट्स।~~ अन्य मॉडल आधारित हैं। बॉक्स प्लॉट एक संकर हैं।

| isbn =978-0-471-93094-5}}</ref><ref name="subspace" /> कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं। बॉक्स प्लॉट एक संकर हैं।

मॉडल-आधारित विधियाँ जो ~~आमतौर पर~~ पहचान के लिए उपयोग की जाती हैं, यह मानती हैं कि डेटा एक सामान्य वितरण से हैं, और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:

मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं, यह मानती हैं कि डेटा एक सामान्य वितरण से हैं, और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:

* चौवेनेट की कसौटी

* आउटलेयर के लिए ग्रब्स का परीक्षण

* डिक्सन का ~~क्यू~~ परीक्षण | डिक्सन का ~~क्यू~~ परीक्षण

* डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण

* [[एएसटीएम]] ई178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास<ref>[https://www.nrc.gov/docs/ML1023/ML102371244.pdf E178: Standard Practice for Dealing With Outlying Observations]</ref>

* महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है, विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में।

Line 40:

=== पियर्स की कसौटी ===

<ब्लॉककोट>

की एक श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, ~~बशर्ते~~ कि उतने ही हों <math>n</math> ऐसी ~~टिप्पणियों।~~ जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में ~~उद्धृत।)~~

<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal

की एक श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, यद्यपि कि उतने ही हों <math>n</math> ऐसी टिप्पणियोंहै। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal

|title=On Peirce's criterion

|author-link=Benjamin Peirce

Line 80:

|url=https://archive.org/details/writingsofcharle0002peir/page/140

}} – Appendix 21, according to the editorial note on page 515</ref>

</ब्लॉककोट>

Line 86:

Line 87:

:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>

कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math>.

[[ जॉन टुकी ]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> एक बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>

[[ जॉन टुकी | जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> एक बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>

=== विसंगति का पता लगाने में ===

सांख्यिकी, [[ संकेत आगे बढ़ाना ]], [[वित्त]], [[अर्थमिति]], विनिर्माण, [[नेटवर्क विज्ञान]] और [[डेटा खनन]] जैसे विभिन्न डोमेन में, लेकिन इन तक ही सीमित नहीं है, विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं<ref>{{Cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{Cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1581132174}}</ref> और घनत्व-आधारित जैसे कि [[स्थानीय बाहरी कारक]] (एलओएफ)।<ref>{{Cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।<ref>{{Cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | s2cid = 19036098 }}</ref>

=== संशोधित थॉम्पसन ताऊ परीक्षण ===

संशोधित थॉम्पसन ताऊ परीक्षण{{Citation needed|date=October 2016}} एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा सेट में कोई बाहरी ~~मौजूद~~ है या नहीं। इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा सेट के मानक विचलन, औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है; इस प्रकार यह निर्धारित करने के लिए एक वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु एक बाहरी है या नहीं।{{Citation needed|reason=Although intuitively appealing, this method appears to be unpublished (it is ''not'' described in Thompson (1985) so one should use it with caution.|date=October 2016}}<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref>

संशोधित थॉम्पसन ताऊ परीक्षण{{Citation needed|date=October 2016}} एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा सेट में कोई बाहरी उपस्थित है या नहीं। इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा सेट के मानक विचलन, औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है; इस प्रकार यह निर्धारित करने के लिए एक वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु एक बाहरी है या नहीं।{{Citation needed|reason=Although intuitively appealing, this method appears to be unpublished (it is ''not'' described in Thompson (1985) so one should use it with caution.|date=October 2016}}<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref>

यह काम किस प्रकार करता है:

सबसे पहले, डेटा सेट का औसत निर्धारित किया जाता है। अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा, एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है:

:<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}

</math>;

~~कहाँ~~ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण, n नमूना आकार है, और s नमूना मानक विचलन है।

जहाँ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण, n नमूना आकार है, और s नमूना मानक विचलन है।

यह निर्धारित करने के लिए कि क्या कोई मान एक बाहरी है:

गणना <math>\scriptstyle \delta = |(X - mean(X)) / s|</math>.

यदि δ > अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी है।

यदि δ ≤ अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी नहीं है।

संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में एक बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह एक बाहरी है)। मतलब, यदि कोई डेटा बिंदु एक आउटलायर पाया जाता है, तो उसे डेटा सेट से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण ~~लागू~~ किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा ~~सेट~~ में कोई आउटलेयर नहीं रहता।

संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में एक बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह एक बाहरी है)। मतलब, यदि कोई डेटा बिंदु एक आउटलायर पाया जाता है, तो उसे डेटा सेट से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा सम्मुचय में कोई आउटलेयर नहीं रहता।

कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा सेट में उदाहरणों (या उदाहरणों) के एक सेट के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि एक उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> कहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण सेट में एक उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}).<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से, उदाहरण कठोरता की गणना सभी संभावित परिकल्पनाओं के सेट पर योग करके की जाएगी {{mvar|H}}:

कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा सेट में उदाहरणों (या उदाहरणों) के एक सेट के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि एक उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> कहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण सेट में एक उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}).<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से, उदाहरण {{mvar|H}} कठोरता की गणना सभी संभावित परिकल्पनाओं के सेट पर योग करके की जाएगी '''{{mvar|H}}:'''

:<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\

&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\

&= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math>

व्यावहारिक रूप से, यह फॉर्मूलेशन अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई एल्गोरिदम के लिए अज्ञात है। इस प्रकार, एक विविध ~~सबसेट~~ का उपयोग करके उदाहरण ~~कठोरता का अनुमान लगाया जा सकता है~~ <math>L \subset H</math>:

व्यावहारिक रूप से, यह फॉर्मूलेशन अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई एल्गोरिदम के लिए अज्ञात है। इस प्रकार, एक विविध उपसम्मुचय का उपयोग करके उदाहरण <math>L \subset H</math> की कठोरता का अनुमान लगाया जा सकता है

:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>

~~कहाँ~~ <math>g_j(t, \alpha)</math> एल्गोरिदम सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण सेट पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math>. उदाहरण की कठोरता यह निर्धारित करने के लिए एक निरंतर मूल्य प्रदान करती है कि क्या एक उदाहरण एक बाहरी उदाहरण है।

जहाँ <math>g_j(t, \alpha)</math> एल्गोरिदम सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण सेट पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math>. उदाहरण की कठोरता यह निर्धारित करने के लिए एक निरंतर मूल्य प्रदान करती है कि क्या एक उदाहरण एक बाहरी उदाहरण है।

== आउटलेयर के साथ कार्य करना ==

एक बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए। कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं, विशेष रूप से [[सहप्रसरण मैट्रिसेस का अनुमान]]।

एक बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए। कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं, विशेष रूप से [[सहप्रसरण मैट्रिसेस का अनुमान]] है।

=== प्रतिधारण ===

यहां तक कि जब एक सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है, तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से ~~खारिज~~ नहीं किया जाना चाहिए। एप्लिकेशन को एक वर्गीकरण एल्गोरिदम का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है।

यहां तक कि जब एक सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है, तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए। एप्लिकेशन को एक वर्गीकरण एल्गोरिदम का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है।

=== बहिष्करण ===

बाहरी डेटा को हटाना एक विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है; जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए एक उद्देश्य और मात्रात्मक विधि प्रदान करते हैं, वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं, विशेष रूप से छोटे ~~सेटों~~ में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। एक उपकरण पठन त्रुटि से उत्पन्न एक बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।

बाहरी डेटा को हटाना एक विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है; जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए एक उद्देश्य और मात्रात्मक विधि प्रदान करते हैं, वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं, विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। एक उपकरण पठन त्रुटि से उत्पन्न एक बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।

आउटलेर्स को बाहर करने के लिए दो आम दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि [[जीतना]] आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।<ref>{{cite book |title=Data Analysis: A Statistical Primer for Psychology Students |pages=24–25 |first=Edward L. |last=Wike |date=2006 |isbn=9780202365350}}</ref> बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है, जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है, जिसके परिणामस्वरूप [[सेंसरिंग (सांख्यिकी)]] होती है।<ref>{{cite journal |title=सेंसर किए गए सामान्य नमूनों से सरलीकृत अनुमान|first=W. J. |last=Dixon |journal=The Annals of Mathematical Statistics |volume=31 |number=2 |date=June 1960 |pages=385–391 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177705900 |doi=10.1214/aoms/1177705900|doi-access=free }}</ref>

आउटलेर्स को बाहर करने के लिए दो आम दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि [[जीतना]] आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।<ref>{{cite book |title=Data Analysis: A Statistical Primer for Psychology Students |pages=24–25 |first=Edward L. |last=Wike |date=2006 |isbn=9780202365350}}</ref> बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है, जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है, जिसके परिणामस्वरूप [[सेंसरिंग (सांख्य

Anonymous

Search

आउटलायर: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
 {{Short description|Observation far apart from others in statistics and data science}}
-{{about|the statistical term||}}
+{{about|सांख्यिकीय शब्द||}}
-[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र ]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में एक आउटलाइयर।]]आँकड़ों में, एक बाहरी एक [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref>{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref>{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> एक आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट]] से बाहर रखा जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> एक आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी पैदा कर सकता है।
+[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र ]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में एक आउटलाइयर।]]आँकड़ों में, एक बाहरी एक [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref>{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref>{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> एक आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट]] से बाहर रखा जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> एक आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।
-आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-सेट, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के मामले में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के मामले में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का एक लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' बनाम 'माप त्रुटि' का संकेत दे सकते हैं; यह एक [[मिश्रण मॉडल]] द्वारा तैयार किया गया है।
+आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-सेट, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का एक लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं; यह एक [[मिश्रण मॉडल]] द्वारा तैयार किया गया है।
-डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में खामियों के कारण हो सकता है जिसने संभाव्यता वितरण के एक अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां एक निश्चित सिद्धांत मान्य नहीं हो सकता है। हालांकि, बड़े नमूनों में, आउटलेयर की एक छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं)।
+डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के एक अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों। बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां एक निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि, बड़े नमूनों में, आउटलेयर की एक छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं)।
-आउटलेयर, सबसे चरम अवलोकन होने के नाते, [[नमूना अधिकतम]] या न्यूनतम नमूना, या दोनों शामिल हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। हालांकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।
+आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत, [[नमूना अधिकतम]] या न्यूनतम नमूना, या दोनों सम्मिलित हो सकते हैं, इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि, नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।
-डेटा सेट से प्राप्त आँकड़ों की भोली व्याख्या जिसमें आउटलेयर शामिल हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई एक कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं, लेकिन एक ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस मामले में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को बेहतर ढंग से दर्शाता है; माध्यिका के समतुल्य एक विशिष्ट नमूने के रूप में माध्य की भोलेपन से व्याख्या करना गलत है। जैसा कि इस मामले में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] सेट की तुलना में एक अलग सांख्यिकीय आबादी से संबंधित हैं।
+डेटा सेट से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं, भ्रामक हो सकते हैं। उदाहरण के लिए, यदि कोई एक कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है, और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं, लेकिन एक ओवन 175 डिग्री सेल्सियस पर है, तो डेटा का औसत 20 और 25 डिग्री के बीच होगा C लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में, माध्य माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है; माध्यिका के समतुल्य एक विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है, आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] सेट की तुलना में एक अलग सांख्यिकीय आबादी से संबंधित हैं।
-आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत [[केंद्रीय प्रवृत्ति]] का एक मजबूत आंकड़ा है, जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> हालांकि, औसत आम तौर पर एक अधिक सटीक अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>
+आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है: औसत [[केंद्रीय प्रवृत्ति]] का एक मजबूत आंकड़ा है, जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> चूंकि, औसत आम तौर पर एक अधिक सही अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>
 == घटना और कारण ==
-[[File:Standard_deviation_diagram_micro.svg|thumb|250px|एक सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के मामले में, [[तीन सिग्मा नियम]] का अर्थ है कि मोटे तौर पर 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा, और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के एक नमूने में, माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के भीतर है, जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के भीतर है। अपेक्षित संख्या - पोइसन वितरण देखें - और एक विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, हालांकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं, जो अपेक्षित संख्या से 11 गुना अधिक हैं।
+[[File:Standard_deviation_diagram_micro.svg|thumb|250px|एक सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में, [[तीन सिग्मा नियम]] का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा, और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के एक नमूने में, माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है, जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है। अपेक्षित संख्या - पोइसन वितरण देखें - और एक विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं, जो अपेक्षित संख्या से 11 गुना अधिक हैं।
-सामान्य तौर पर, यदि जनसंख्या वितरण की प्रकृति को एक प्राथमिकता के रूप में जाना जाता है, तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है: किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना पी के साथ) दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर पी के साथ एक [[द्विपद वितरण]] का पालन करेगी, जिसे आमतौर पर λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ एक सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।
+सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को एक प्राथमिकता के रूप में जाना जाता है, तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है: किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ) दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ एक [[द्विपद वितरण]] का पालन करेगी, जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ एक सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।
 === कारण ===
@@ Line 24: / Line 24: @@
 == परिभाषाएं और पहचान ==
-कोई कठोर गणितीय परिभाषा नहीं है जो एक बाहरी का गठन करती है; यह निर्धारित करना कि कोई अवलोकन एक बाहरी है या नहीं, अंततः एक व्यक्तिपरक अभ्यास है।<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> आउटलाइयर डिटेक्शन के विभिन्न तरीके हैं, जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{citation |last1=Rousseeuw |first1=P |author1-link=Peter Rousseeuw |last2=Leroy |first2=A. |year=1996 |title=Robust Regression and Outlier Detection |publisher=John Wiley & Sons |edition=3rd |title-link= Robust Regression and Outlier Detection}}</ref><ref>{{citation |first1=Victoria J. |last1=Hodge |first2=Jim |last2=Austin |title=A Survey of Outlier Detection Methodologies |journal=Artificial Intelligence Review |volume=22 |issue=2 |pages=85–126 |doi= 10.1023/B:AIRE.0000045502.10941.a9|year=2004 |citeseerx=10.1.1.109.1943 |s2cid=3330313 }}</ref><ref>{{Citation | last1 = Barnett | first1 = Vic
+कोई कठोर गणितीय परिभाषा नहीं है जो एक बाहरी का गठन करती है; यह निर्धारित करना कि कोई अवलोकन एक बाहरी है या नहीं, अंततः एक व्यक्तिपरक अभ्यास है।<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं, जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{citation |last1=Rousseeuw |first1=P |author1-link=Peter Rousseeuw |last2=Leroy |first2=A. |year=1996 |title=Robust Regression and Outlier Detection |publisher=John Wiley & Sons |edition=3rd |title-link= Robust Regression and Outlier Detection}}</ref><ref>{{citation |first1=Victoria J. |last1=Hodge |first2=Jim |last2=Austin |title=A Survey of Outlier Detection Methodologies |journal=Artificial Intelligence Review |volume=22 |issue=2 |pages=85–126 |doi= 10.1023/B:AIRE.0000045502.10941.a9|year=2004 |citeseerx=10.1.1.109.1943 |s2cid=3330313 }}</ref><ref>{{Citation | last1 = Barnett | first1 = Vic
 | last2 = Lewis | first2 = Toby | year = 1994 | orig-year = 1978
 | title = Outliers in Statistical Data | edition = 3
 | publisher = Wiley
-| isbn =978-0-471-93094-5}}</ref><ref name="subspace" />कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स। अन्य मॉडल आधारित हैं। बॉक्स प्लॉट एक संकर हैं।
+| isbn =978-0-471-93094-5}}</ref><ref name="subspace" /> कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं। बॉक्स प्लॉट एक संकर हैं।
-मॉडल-आधारित विधियाँ जो आमतौर पर पहचान के लिए उपयोग की जाती हैं, यह मानती हैं कि डेटा एक सामान्य वितरण से हैं, और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:
+मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं, यह मानती हैं कि डेटा एक सामान्य वितरण से हैं, और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:
 * चौवेनेट की कसौटी
 * आउटलेयर के लिए ग्रब्स का परीक्षण
-* डिक्सन का क्यू परीक्षण | डिक्सन का क्यू परीक्षण
+* डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
 * [[एएसटीएम]] ई178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास<ref>[https://www.nrc.gov/docs/ML1023/ML102371244.pdf E178: Standard Practice for Dealing With Outlying Observations]</ref>
 * महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है, विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में।
@@ Line 40: / Line 40: @@
 === पियर्स की कसौटी ===
-{{main|Peirce's criterion}}
+{{main|पियर्स की कसौटी}}
 <ब्लॉककोट>
-की एक श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, बशर्ते कि उतने ही हों <math>n</math> ऐसी टिप्पणियों। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत।)
-<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal
+की एक श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> अवलोकन त्रुटि की सीमा है, जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है, यद्यपि कि उतने ही हों <math>n</math> ऐसी टिप्पणियोंहै। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो। बहुत सारे, और अधिक नहीं, असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal
 |title=On Peirce's criterion
 |author-link=Benjamin Peirce
@@ Line 80: / Line 80: @@
 |url=https://archive.org/details/writingsofcharle0002peir/page/140
 }} – Appendix 21, according to the editorial note on page 515</ref>
 </ब्लॉककोट>
@@ Line 86: / Line 87: @@
 :<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>
 कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math>.
-[[ जॉन टुकी ]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> एक बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>
+[[ जॉन टुकी | जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> एक बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>
 === विसंगति का पता लगाने में ===
-{{main|Anomaly detection}}
+{{main|असंगति का पता लगाये}}
 सांख्यिकी, [[ संकेत आगे बढ़ाना ]], [[वित्त]], [[अर्थमिति]], विनिर्माण, [[नेटवर्क विज्ञान]] और [[डेटा खनन]] जैसे विभिन्न डोमेन में, लेकिन इन तक ही सीमित नहीं है, विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं<ref>{{Cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{Cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1581132174}}</ref> और घनत्व-आधारित जैसे कि [[स्थानीय बाहरी कारक]] (एलओएफ)।<ref>{{Cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।<ref>{{Cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | s2cid = 19036098 }}</ref>
 === संशोधित थॉम्पसन ताऊ परीक्षण ===
-{{see also|Studentized residual#Distribution}}
+{{see also|विद्यार्थी अवशिष्ट#वितरण}}
-संशोधित थॉम्पसन ताऊ परीक्षण{{Citation needed|date=October 2016}} एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा सेट में कोई बाहरी मौजूद है या नहीं। इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा सेट के मानक विचलन, औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है; इस प्रकार यह निर्धारित करने के लिए एक वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु एक बाहरी है या नहीं।{{Citation needed|reason=Although intuitively appealing, this method appears to be unpublished (it is ''not'' described in Thompson (1985) so one should use it with caution.|date=October 2016}}<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref>
+संशोधित थॉम्पसन ताऊ परीक्षण{{Citation needed|date=October 2016}} एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा सेट में कोई बाहरी उपस्थित है या नहीं। इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा सेट के मानक विचलन, औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है; इस प्रकार यह निर्धारित करने के लिए एक वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु एक बाहरी है या नहीं।{{Citation needed|reason=Although intuitively appealing, this method appears to be unpublished (it is ''not'' described in Thompson (1985) so one should use it with caution.|date=October 2016}}<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref>
 यह काम किस प्रकार करता है:
 सबसे पहले, डेटा सेट का औसत निर्धारित किया जाता है। अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा, एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है:
 :<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}
 </math>;
-कहाँ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण, n नमूना आकार है, और s नमूना मानक विचलन है।
+जहाँ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण, n नमूना आकार है, और s नमूना मानक विचलन है।
 यह निर्धारित करने के लिए कि क्या कोई मान एक बाहरी है:
 गणना <math>\scriptstyle \delta  = |(X - mean(X)) / s|</math>.
 यदि δ > अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी है।
 यदि δ ≤ अस्वीकृति क्षेत्र, डेटा बिंदु एक बाहरी नहीं है।
-संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में एक बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह एक बाहरी है)। मतलब, यदि कोई डेटा बिंदु एक आउटलायर पाया जाता है, तो उसे डेटा सेट से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण लागू किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा सेट में कोई आउटलेयर नहीं रहता।
+संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में एक बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह एक बाहरी है)। मतलब, यदि कोई डेटा बिंदु एक आउटलायर पाया जाता है, तो उसे डेटा सेट से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि डेटा सम्मुचय में कोई आउटलेयर नहीं रहता।
-कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा सेट में उदाहरणों (या उदाहरणों) के एक सेट के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि एक उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> कहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण सेट में एक उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}).<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से, उदाहरण कठोरता की गणना सभी संभावित परिकल्पनाओं के सेट पर योग करके की जाएगी {{mvar|H}}:
+कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा सेट में उदाहरणों (या उदाहरणों) के एक सेट के संदर्भ में, उदाहरण की कठोरता इस संभावना को मापती है कि एक उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> कहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण सेट में एक उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}).<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से, उदाहरण  {{mvar|H}} कठोरता की गणना सभी संभावित परिकल्पनाओं के सेट पर योग करके की जाएगी '''{{mvar|H}}:'''
 :<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\
 &= \sum_H p(h|t) - p(y, x, h)p(h|t)\\
 &= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math>
-व्यावहारिक रूप से, यह फॉर्मूलेशन अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई एल्गोरिदम के लिए अज्ञात है। इस प्रकार, एक विविध सबसेट का उपयोग करके उदाहरण कठोरता का अनुमान लगाया जा सकता है <math>L \subset H</math>:
+व्यावहारिक रूप से, यह फॉर्मूलेशन अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई एल्गोरिदम के लिए अज्ञात है। इस प्रकार, एक विविध उपसम्मुचय का उपयोग करके उदाहरण <math>L \subset H</math> की कठोरता का अनुमान लगाया जा सकता है
 :<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>
-कहाँ <math>g_j(t, \alpha)</math> एल्गोरिदम सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण सेट पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math>. उदाहरण की कठोरता यह निर्धारित करने के लिए एक निरंतर मूल्य प्रदान करती है कि क्या एक उदाहरण एक बाहरी उदाहरण है।
+जहाँ <math>g_j(t, \alpha)</math> एल्गोरिदम सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण सेट पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math>. उदाहरण की कठोरता यह निर्धारित करने के लिए एक निरंतर मूल्य प्रदान करती है कि क्या एक उदाहरण एक बाहरी उदाहरण है।
 == आउटलेयर के साथ कार्य करना ==
-एक बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए। कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं, विशेष रूप से [[सहप्रसरण मैट्रिसेस का अनुमान]]।
+एक बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए। कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं, विशेष रूप से [[सहप्रसरण मैट्रिसेस का अनुमान]] है।
 === प्रतिधारण ===
-यहां तक कि जब एक सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है, तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से खारिज नहीं किया जाना चाहिए। एप्लिकेशन को एक वर्गीकरण एल्गोरिदम का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है।
+यहां तक कि जब एक सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है, तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए। एप्लिकेशन को एक वर्गीकरण एल्गोरिदम का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है।
 === बहिष्करण ===
-बाहरी डेटा को हटाना एक विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है; जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए एक उद्देश्य और मात्रात्मक विधि प्रदान करते हैं, वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं, विशेष रूप से छोटे सेटों में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। एक उपकरण पठन त्रुटि से उत्पन्न एक बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।
+बाहरी डेटा को हटाना एक विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है; जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए एक उद्देश्य और मात्रात्मक विधि प्रदान करते हैं, वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं, विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। एक उपकरण पठन त्रुटि से उत्पन्न एक बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।
 आउटलेर्स को बाहर करने के लिए दो आम दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि [[जीतना]] आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।<ref>{{cite book |title=Data Analysis: A Statistical Primer for Psychology Students |pages=24–25 |first=Edward L. |last=Wike |date=2006 |isbn=9780202365350}}</ref> बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है, जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है, जिसके परिणामस्वरूप [[सेंसरिंग (सांख्य