आउटलायर: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(11 intermediate revisions by 5 users not shown)
Line 2: Line 2:
{{about|सांख्यिकीय शब्द||}}
{{about|सांख्यिकीय शब्द||}}


[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र |रेखा - चित्र]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, बाहरी [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा]] सेट से बाहर रखा जाता है।<ref name=":2">Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref name=":3">{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> आउटलायर रोमांचक संभावना का संकेत हो सकता है लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।
[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र |रेखा - चित्र]] मध्य कॉलम में चार आउटलायर परत प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, '''आउटलायर''' [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर परत माप में परिवर्तनशीलता के कारण हो सकता है नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है बाद वाले को कभी-कभी [[डेटा सेट|डेटा]] सेट से बाहर रखा जाता है।<ref name=":2">Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref name=":3">{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> आउटलायर परत रोमांचक संभावना का संकेत हो सकता है लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।


आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं जबकि भारी-पूंछ वाले वितरण के स्थितियों में वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है जो दो अलग-अलग उप-आबादी हो सकते हैं या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह [[मिश्रण मॉडल|मिश्रण प्रारूप]] द्वारा तैयार किया गया है।
आउटलायर परत किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय [[माप त्रुटि]] या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलायर परत के लिए [[मजबूत आँकड़े]] हैं जबकि भारी-पूंछ वाले वितरण के स्थितियों में वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलायर परत का लगातार दो वितरणों का मिश्रण है जो दो अलग-अलग उपआबादी हो सकते हैं या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह [[मिश्रण मॉडल|मिश्रण प्रारूप]] द्वारा तैयार किया गया है।


डेटा के अधिकांश बड़े नमूनों में कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा गलत प्रक्रियाओं या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलेयर की छोटी संख्या की अपेक्षा की जाती है और किसी विषम स्थिति के कारण नहीं है।
डेटा के अधिकांश बड़े नमूनों में कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों आउटलायर बिंदु इसलिए दोषपूर्ण डेटा गलत प्रक्रियाओं या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलायर परत की छोटी संख्या की अपेक्षा की जाती है और किसी विषम स्थिति के कारण नहीं है।


आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत [[नमूना अधिकतम]] या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।
आउटलायर परत, सबसे चरम अवलोकन होने के अंतर्गत [[नमूना अधिकतम]] या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलायर परत नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।


डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।
डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलायर परत सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के [[औसत]] तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 [[डिग्री सेल्सियस]] के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है आउटलायर परत उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी [[नमूना (सांख्यिकी)]] समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।


आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत [[केंद्रीय प्रवृत्ति]] का मजबूत आंकड़ा है जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>
आउटलायर परत से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत [[केंद्रीय प्रवृत्ति]] का मजबूत आंकड़ा है जबकि माध्य नहीं है।<ref>Ripley, Brian D. 2004. [http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf Robust statistics] {{webarchive|url=https://web.archive.org/web/20121021081319/http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf |date=2012-10-21 }}</ref> चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।<ref>Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [https://books.google.com/books?id=H-lkYmatYtAC&dq=median+is+less+precise+than+mean&pg=PA60]</ref>




== घटना और कारण ==
== घटना और कारण ==
[[File:Standard_deviation_diagram_micro.svg|thumb|250px|सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में [[तीन सिग्मा नियम]] का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।
[[File:Standard_deviation_diagram_micro.svg|thumb|250px|सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में [[तीन सिग्मा नियम]] का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलायर परत पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।


सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ [[द्विपद वितरण]] का पालन करेगी जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।
सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलायर परत की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलायर परत की संख्या पैरामीटर p के साथ [[द्विपद वितरण]] का पालन करेगी जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।


=== कारण ===
=== कारण ===
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन कपटपूर्ण व्यवहार, मानवीय त्रुटि उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत ([[राजा प्रभाव|किंग प्रभाव]]) में भिन्न हो सकता है।
आउटलायर परत के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन कपटपूर्ण व्यवहार, मानवीय त्रुटि उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलायर परत उत्पन्न होते हैं नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर परत अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलायर परत का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत ([[राजा प्रभाव|किंग प्रभाव]]) में भिन्न हो सकता है।


== परिभाषाएं और पहचान ==
== परिभाषाएं और पहचान ==
कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है यह निर्धारित करना कि कोई अवलोकन बाहरी है या नहीं अंततः व्यक्तिपरक अभ्यास है।<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{citation |last1=Rousseeuw |first1=P |author1-link=Peter Rousseeuw |last2=Leroy |first2=A. |year=1996 |title=Robust Regression and Outlier Detection |publisher=John Wiley & Sons |edition=3rd |title-link= Robust Regression and Outlier Detection}}</ref><ref>{{citation |first1=Victoria J. |last1=Hodge |first2=Jim |last2=Austin |title=A Survey of Outlier Detection Methodologies |journal=Artificial Intelligence Review |volume=22 |issue=2 |pages=85–126 |doi= 10.1023/B:AIRE.0000045502.10941.a9|year=2004 |citeseerx=10.1.1.109.1943 |s2cid=3330313 }}</ref><ref>{{Citation | last1 = Barnett | first1 = Vic
कोई कठोर गणितीय परिभाषा नहीं है जो आउटलायर का गठन करती है यह निर्धारित करना कि कोई अवलोकन आउटलायर है या नहीं अंततः व्यक्तिपरक अभ्यास है।<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।<ref>Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref>{{citation |last1=Rousseeuw |first1=P |author1-link=Peter Rousseeuw |last2=Leroy |first2=A. |year=1996 |title=Robust Regression and Outlier Detection |publisher=John Wiley & Sons |edition=3rd |title-link= Robust Regression and Outlier Detection}}</ref><ref>{{citation |first1=Victoria J. |last1=Hodge |first2=Jim |last2=Austin |title=A Survey of Outlier Detection Methodologies |journal=Artificial Intelligence Review |volume=22 |issue=2 |pages=85–126 |doi= 10.1023/B:AIRE.0000045502.10941.a9|year=2004 |citeseerx=10.1.1.109.1943 |s2cid=3330313 }}</ref><ref>{{Citation | last1 = Barnett | first1 = Vic
| last2 = Lewis | first2 = Toby | year = 1994 | orig-year = 1978
| last2 = Lewis | first2 = Toby | year = 1994 | orig-year = 1978
| title = Outliers in Statistical Data | edition = 3
| title = Outliers in Statistical Data | edition = 3
Line 32: Line 32:
मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है।
मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है।
* चौवेनेट की कसौटी
* चौवेनेट की कसौटी
* आउटलेयर के लिए ग्रब्स का परीक्षण
* आउटलायर परत के लिए ग्रब्स का परीक्षण
* डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
* डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
* [[एएसटीएम]] e178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास<ref>[https://www.nrc.gov/docs/ML1023/ML102371244.pdf E178: Standard Practice for Dealing With Outlying Observations]</ref>
* [[एएसटीएम]] e178: आउटलायर निरीक्षणों से निपटने के लिए मानक अभ्यास<ref>[https://www.nrc.gov/docs/ML1023/ML102371244.pdf E178: Standard Practice for Dealing With Outlying Observations]</ref>
* महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में
* महालनोबिस दूरी और [[उत्तोलन (सांख्यिकी)]] का उपयोग अधिकांशतः आउटलायर परत का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में
* उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें<ref name="subspace">{{cite journal | last1 = Zimek | first1 = A. | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अप्रशिक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012| s2cid = 6724536 }}</ref>  
* उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें<ref name="subspace">{{cite journal | last1 = Zimek | first1 = A. | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अप्रशिक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012| s2cid = 6724536 }}</ref>  


Line 86: Line 86:
अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है।
अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है।
:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>
:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>
कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math> है [[ जॉन टुकी |जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>
कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math> है [[ जॉन टुकी |जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> आउटलायर को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>




Line 94: Line 94:
=== विसंगति का पता लगाने में ===
=== विसंगति का पता लगाने में ===
{{main|असंगति का पता लगाये}}
{{main|असंगति का पता लगाये}}
सांख्यिकी [[ संकेत आगे बढ़ाना |संकेत आगे बढ़ाना]] [[वित्त]] [[अर्थमिति]],विनिर्माण, [[नेटवर्क विज्ञान]] और [[डेटा खनन]] जैसे विभिन्न डोमेन में लेकिन इन तक ही सीमित नहीं है विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं<ref>{{Cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{Cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1581132174}}</ref> और घनत्व-आधारित जैसे कि [[स्थानीय बाहरी कारक]] (एलओएफ)<ref>{{Cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।<ref>{{Cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | s2cid = 19036098 }}</ref>
सांख्यिकी [[ संकेत आगे बढ़ाना |संकेत आगे बढ़ाना]] [[वित्त]] [[अर्थमिति]],विनिर्माण, [[नेटवर्क विज्ञान]] और [[डेटा खनन]] जैसे विभिन्न डोमेन में लेकिन इन तक ही सीमित नहीं है विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं<ref>{{Cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{Cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेयर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1581132174}}</ref> और घनत्व-आधारित जैसे कि [[स्थानीय बाहरी कारक|स्थानीय आउटलायर कारक]] (एलओएफ)<ref>{{Cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> कुछ दृष्टिकोण अवलोकनों को आउटलायर या गैर-आउटलायर के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।<ref>{{Cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | s2cid = 19036098 }}</ref>




=== संशोधित थॉम्पसन ताऊ परीक्षण ===
=== संशोधित थॉम्पसन ताऊ परीक्षण ===
{{see also|विद्यार्थी अवशिष्ट#वितरण}}
{{see also|विद्यार्थी अवशिष्ट#वितरण}}
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु बाहरी है या नहीं<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref> यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है।
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई आउटलायर उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु आउटलायर है या नहीं<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref> यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है।
:<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}
:<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}
</math>;
</math>;
जहाँ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण n नमूना आकार है और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान बाहरी है गणना <math>\scriptstyle \delta  = |(X - mean(X)) / s|</math> यदि δ > अस्वीकृति क्षेत्र डेटा बिंदु बाहरी है यदि δ ≤ अस्वीकृति क्षेत्र डेटा बिंदु बाहरी नहीं है।
जहाँ <math>\scriptstyle{t_{\alpha/2}}</math> छात्र से महत्वपूर्ण मूल्य है {{mvar|t}} स्वतंत्रता की n-2 डिग्री के साथ वितरण n नमूना आकार है और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान आउटलायर है गणना <math>\scriptstyle \delta  = |(X - mean(X)) / s|</math> यदि δ > अस्वीकृति क्षेत्र डेटा बिंदु आउटलायर है यदि δ ≤ अस्वीकृति क्षेत्र डेटा बिंदु आउटलायर नहीं है।


संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है) मतलब, यदि कोई डेटा बिंदु आउटलायर पाया जाता है तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक चलती रहती है जब तक कि डेटा सम्मुचय में कोई आउटलेयर नहीं रहता है।
संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में आउटलायर को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह आउटलायर है) अर्थ, यदि कोई डेटा बिंदु आउटलायर परत पाया जाता है तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक चलती रहती है जब तक कि डेटा सम्मुचय में कोई आउटलायर परत नहीं रहता है।


कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलेयर की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> जहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से उदाहरण {{mvar|H}} कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी
कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए आउटलायर परत की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( <math>1-p(y|x)</math> जहाँ {{mvar|y}} असाइन किया गया क्लास लेबल है और {{mvar|x}} प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है {{mvar|t}}<ref>Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "[https://link.springer.com/article/10.1007%2Fs10994-013-5422-z An Instance Level Analysis of Data Complexity]". Machine Learning, 95(2): 225-256.</ref> आदर्श रूप से उदाहरण {{mvar|H}} कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी


:<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\
:<math>\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\
Line 114: Line 114:


:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>
:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>
जहाँ <math>g_j(t, \alpha)</math> कलन विधि सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण समुच्चय पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math> की उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण बाहरी उदाहरण है।
जहाँ <math>g_j(t, \alpha)</math> कलन विधि सीखने से प्रेरित परिकल्पना है <math>g_j</math> प्रशिक्षण समुच्चय पर प्रशिक्षित {{mvar|t}} हाइपरपैरामीटर के साथ <math>\alpha</math> की उदाहरण की कठोरता यह निर्धारित करने के लिए निरंतर मूल्य प्रदान करती है कि क्या उदाहरण आउटलायर उदाहरण है।


== आउटलेयर के साथ कार्य करना ==
== आउटलायर परत के साथ कार्य करना ==
बाहरी व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए कुछ अनुमानक आउटलेयर के प्रति अत्यधिक संवेदनशील होते हैं विशेष रूप से [[सहप्रसरण मैट्रिसेस का अनुमान]] है।
आउटलायर व्यक्ति से कैसे निपटना है इसका चुनाव कारण पर निर्भर होना चाहिए कुछ अनुमानक आउटलायर परत के प्रति अत्यधिक संवेदनशील होते हैं विशेष रूप से [[सहप्रसरण मैट्रिसेस का अनुमान]] है।


=== प्रतिधारण ===
=== प्रतिधारण ===
यहां तक ​​​​कि जब सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है तो बड़े नमूना आकार के लिए आउटलेयर की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए एप्लिकेशन को वर्गीकरण कलन विधि का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले बाहरी बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलेयर के लिए मजबूत है।
यहां तक ​​​​कि जब सामान्य वितरण मॉडल विश्लेषण किए जा रहे डेटा के लिए उपयुक्त होता है तो बड़े नमूना आकार के लिए आउटलायर परत की अपेक्षा की जाती है और यदि ऐसा है तो स्वचालित रूप से निरस्त नहीं किया जाना चाहिए एप्लिकेशन को वर्गीकरण कलन विधि का उपयोग करना चाहिए जो स्वाभाविक रूप से होने वाले आउटलायर बिंदुओं के साथ डेटा को मॉडल करने के लिए आउटलायर परत के लिए मजबूत है।


=== बहिष्करण ===
=== बहिष्करण ===
बाहरी डेटा को हटाना विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए उद्देश्य और मात्रात्मक विधि प्रदान करते हैं वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। उपकरण पठन त्रुटि से उत्पन्न बाहरी को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।
आउटलायर डेटा को हटाना विवादास्पद अभ्यास है जिसे कई वैज्ञानिकों और विज्ञान प्रशिक्षकों ने गलत ठहराया है जबकि गणितीय मानदंड डेटा अस्वीकृति के लिए उद्देश्य और मात्रात्मक विधि प्रदान करते हैं वे अभ्यास को अधिक वैज्ञानिक या पद्धतिगत रूप से ध्वनि नहीं बनाते हैं विशेष रूप से छोटे सम्मुचय में या जहां सामान्य वितरण नहीं माना जा सकता है। अभ्यास के क्षेत्रों में आउटलेर्स की अस्वीकृति अधिक स्वीकार्य है जहां प्रक्रिया के अंतर्निहित मॉडल को मापा जा रहा है और माप त्रुटि के सामान्य वितरण को आत्मविश्वास से जाना जाता है। उपकरण पठन त्रुटि से उत्पन्न आउटलायर को बाहर रखा जा सकता है लेकिन यह वांछनीय है कि पठन कम से कम सत्यापित हो।


आउटलेर्स को बाहर करने के लिए दो सामान्य दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि [[जीतना]] आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।<ref>{{cite book |title=Data Analysis: A Statistical Primer for Psychology Students |pages=24–25 |first=Edward L. |last=Wike |date=2006 |isbn=9780202365350}}</ref> बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है जिसके परिणामस्वरूप [[सेंसरिंग (सांख्यिकी)]] होती है।<ref>{{cite journal |title=सेंसर किए गए सामान्य नमूनों से सरलीकृत अनुमान|first=W. J. |last=Dixon |journal=The Annals of Mathematical Statistics |volume=31 |number=2 |date=June 1960 |pages=385–391 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177705900 |doi=10.1214/aoms/1177705900|doi-access=free }}</ref>
आउटलेर्स को बाहर करने के लिए दो सामान्य दृष्टिकोण ट्रंकेशन (सांख्यिकी) (या ट्रिमिंग) और विन्सोराइजिंग हैं। ट्रिमिंग आउटलेर्स को छोड़ देता है जबकि [[जीतना]] आउटलेर्स को निकटतम गैर-संदिग्ध डेटा से बदल देता है।<ref>{{cite book |title=Data Analysis: A Statistical Primer for Psychology Students |pages=24–25 |first=Edward L. |last=Wike |date=2006 |isbn=9780202365350}}</ref> बहिष्करण माप प्रक्रिया का परिणाम भी हो सकता है जैसे कि जब कोई प्रयोग ऐसे चरम मूल्यों को मापने में पूरी तरह से सक्षम नहीं होता है जिसके परिणामस्वरूप [[सेंसरिंग (सांख्यिकी)]] होती है।<ref>{{cite journal |title=सेंसर किए गए सामान्य नमूनों से सरलीकृत अनुमान|first=W. J. |last=Dixon |journal=The Annals of Mathematical Statistics |volume=31 |number=2 |date=June 1960 |pages=385–391 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177705900 |doi=10.1214/aoms/1177705900|doi-access=free }}</ref>
Line 132: Line 132:


=== गैर-सामान्य वितरण ===
=== गैर-सामान्य वितरण ===
संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए जब कॉची बंटन से प्रतिदर्श लिया जाता है<ref>Weisstein, Eric W. [http://mathworld.wolfram.com/CauchyDistribution.html Cauchy Distribution. From MathWorld--A Wolfram Web Resource]</ref> नमूना आकार के साथ नमूना भिन्नता बढ़ती है नमूना आकार बढ़ने पर नमूना माध्य अभिसरण करने में विफल रहता है और आउटलेयर सामान्य वितरण की तुलना में कहीं अधिक बड़ी दरों पर होने की उम्मीद है पूंछों की मोटाई में साधारण अंतर भी चरम मानों की अपेक्षित संख्या में बड़ा अंतर ला सकता है।
संभावना पर विचार किया जाना चाहिए कि डेटा का अंतर्निहित वितरण मोटे पूंछ वाले लगभग सामान्य नहीं है। उदाहरण के लिए जब कॉची बंटन से प्रतिदर्श लिया जाता है<ref>Weisstein, Eric W. [http://mathworld.wolfram.com/CauchyDistribution.html Cauchy Distribution. From MathWorld--A Wolfram Web Resource]</ref> नमूना आकार के साथ नमूना भिन्नता बढ़ती है नमूना आकार बढ़ने पर नमूना माध्य अभिसरण करने में विफल रहता है और आउटलायर परत सामान्य वितरण की तुलना में कहीं अधिक बड़ी दरों पर होने की उम्मीद है पूंछों की मोटाई में साधारण अंतर भी चरम मानों की अपेक्षित संख्या में बड़ा अंतर ला सकता है।


=== समुच्चय-सदस्यता अनिश्चितताएं ===
=== समुच्चय-सदस्यता अनिश्चितताएं ===
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के i th माप से संबंधित अनिश्चितता समुच्चय ''X''<sub>i</sub> द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत) यदि कोई आउटलेयर नहीं होता है तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए ''X''<sub>i</sub>' s जब आउटलेयर होते हैं, तो यह प्रतिच्छेदन खाली हो सकता है और हमें सम्मुचय ''X''<sub>i</sub> की छोटी संख्या को आराम देना चाहिए (जितना संभव हो उतना छोटा) किसी भी असंगति से बचने के लिए<ref>{{cite journal|last1=Jaulin|first1=L.|
समुच्चय अनुमान मानता है कि अज्ञात यादृच्छिक वेक्टर x के i th माप से संबंधित अनिश्चितता समुच्चय ''X''<sub>i</sub> द्वारा दर्शायी जाती है (संभाव्यता घनत्व फलन के अंतर्गत) यदि कोई आउटलायर परत नहीं होता है तो x को सभी X के प्रतिच्छेदन से संबंधित होना चाहिए ''X''<sub>i</sub>' s जब आउटलायर परत होते हैं, तो यह प्रतिच्छेदन खाली हो सकता है और हमें सम्मुचय ''X''<sub>i</sub> की छोटी संख्या को आराम देना चाहिए (जितना संभव हो उ