आउटलायर: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 2: Line 2:
{{about|सांख्यिकीय शब्द||}}
{{about|सांख्यिकीय शब्द||}}


[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र |रेखा - चित्र]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, बाहरी [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है, नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा]] सेट से बाहर रखा जाता है।<ref name=":2">Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref name=":3">{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> आउटलायर रोमांचक संभावना का संकेत हो सकता है, लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।
[[Image:Michelsonmorley-boxplot.svg|thumb|चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का [[ रेखा - चित्र |रेखा - चित्र]] मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।]]आँकड़ों में, बाहरी [[डेटा बिंदु]] है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।<ref name=":0">{{Cite journal |last=Grubbs |first=F. E. |date=February 1969 |title=नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं|journal=Technometrics |volume=11 |issue=1 |pages=1–21 |doi= 10.1080/00401706.1969.10490657|quote=An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.}}</ref><ref name=":1">{{cite book |last=Maddala |first=G. S. |author-link=G. S. Maddala |chapter=Outliers |title=अर्थमिति का परिचय|location=New York |publisher=MacMillan |edition=2nd |year=1992 |isbn=978-0-02-374545-4 |pages=[https://archive.org/details/introductiontoec00madd/page/89 89] |quote=एक बाहरी एक ऐसा अवलोकन है जो बाकी अवलोकनों से बहुत दूर है।|chapter-url=https://books.google.com/books?id=nBS3AAAAIAAJ&pg=PA89 |url=https://archive.org/details/introductiontoec00madd/page/89 }}</ref> आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी [[डेटा सेट|डेटा]] सेट से बाहर रखा जाता है।<ref name=":2">Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.</ref><ref name=":3">{{harvnb|Grubbs|1969|p=1}} stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."</ref> आउटलायर रोमांचक संभावना का संकेत हो सकता है लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।


आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में, कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं, जबकि भारी-पूंछ वाले वितरण के स्थितियों में, वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए। या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है, जो दो अलग-अलग उप-आबादी हो सकते हैं, या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह [[मिश्रण मॉडल|मिश्रण प्रारूप]] द्वारा तैयार किया गया है।
आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, [[माप त्रुटि]], या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए [[मजबूत आँकड़े]] हैं जबकि भारी-पूंछ वाले वितरण के स्थितियों में वे संकेत देते हैं कि वितरण में उच्च [[तिरछापन]] है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए या अंतर्ज्ञान जो [[सामान्य वितरण]] मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है जो दो अलग-अलग उप-आबादी हो सकते हैं या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह [[मिश्रण मॉडल|मिश्रण प्रारूप]] द्वारा तैयार किया गया है।


डेटा के अधिकांश बड़े नमूनों में, कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा, गलत प्रक्रियाओं, या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलेयर की छोटी संख्या की अपेक्षा की जाती है (और किसी विषम स्थिति के कारण नहीं) है।
डेटा के अधिकांश बड़े नमूनों में कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा गलत प्रक्रियाओं या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलेयर की छोटी संख्या की अपेक्षा की जाती है और किसी विषम स्थिति के कारण नहीं है।


आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत [[नमूना अधिकतम]] या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।
आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत [[नमूना अधिकतम]] या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।
Line 16: Line 16:


== घटना और कारण ==
== घटना और कारण ==
[[File:Standard_deviation_diagram_micro.svg|thumb|250px|सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में [[तीन सिग्मा नियम]] का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है। अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।
[[File:Standard_deviation_diagram_micro.svg|thumb|250px|सामान्य वितरण में सापेक्ष संभावनाएं]]सामान्य वितरण डेटा के स्थितियों में [[तीन सिग्मा नियम]] का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन [[मानक विचलन]] के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।<ref>{{cite book|last1=Ruan|first1=Da|last2=Chen|first2=Guoqing|last3=Kerre|first3=Etienne|editor1-last=Wets|editor1-first=G.|title=Intelligent Data Mining: Techniques and Applications|url=https://archive.org/details/intelligentdatam00ruan_742|url-access=limited|date=2005|publisher=Springer|isbn=978-3-540-26256-5|page=[https://archive.org/details/intelligentdatam00ruan_742/page/n326 318]|series=Studies in Computational Intelligence Vol. 5}}</ref> 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।


सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ [[द्विपद वितरण]] का पालन करेगी, जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है, जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।
सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ [[द्विपद वितरण]] का पालन करेगी जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।


=== कारण ===
=== कारण ===
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन, कपटपूर्ण व्यवहार, मानवीय त्रुटि, उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं। नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत ([[राजा प्रभाव|किंग प्रभाव]]) में भिन्न हो सकता है।
आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन कपटपूर्ण व्यवहार, मानवीय त्रुटि उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत ([[राजा प्रभाव|किंग प्रभाव]]) में भिन्न हो सकता है।


== परिभाषाएं और पहचान ==
== परिभाषाएं और पहचान ==
Line 30: Line 30:
| isbn =978-0-471-93094-5}}</ref><ref name="subspace" /> कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं।
| isbn =978-0-471-93094-5}}</ref><ref name="subspace" /> कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं।


मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है:
मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है।
* चौवेनेट की कसौटी
* चौवेनेट की कसौटी
* आउटलेयर के लिए ग्रब्स का परीक्षण
* आउटलेयर के लिए ग्रब्स का परीक्षण
Line 46: Line 46:




श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों <math>n</math> ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है, वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए, जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal
श्रृंखला में निर्धारित करने का प्रस्ताव है <math>m</math> त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों <math>n</math> ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।<ref>[[Benjamin Peirce]], [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..161P;data_type=PDF_HIGH "Criterion for the Rejection of Doubtful Observations"], ''Astronomical Journal'' II 45 (1852) and [http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1852AJ......2..176P;data_type=PDF_HIGH Errata to the original paper].</ref><ref>{{cite journal
|title=On Peirce's criterion
|title=On Peirce's criterion
|author-link=Benjamin Peirce
|author-link=Benjamin Peirce
Line 84: Line 84:


=== तुकी के फैंस ===
=== तुकी के फैंस ===
अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है
अन्य विधियाँ [[अन्तःचतुर्थक श्रेणी]] जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि <math>Q_1</math> और <math>Q_3</math> क्रमशः निचले और ऊपरी [[चतुर्थक]] हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है।
:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>
:<math> \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]</math>
कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math> है [[ जॉन टुकी |जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>
कुछ गैर-नकारात्मक स्थिरांक के लिए <math>k</math> है [[ जॉन टुकी |जॉन टुकी]] ने इस परीक्षण का प्रस्ताव दिया, जहाँ <math>k=1.5</math> बाहरी को इंगित करता है, और <math>k=3</math> दूर के डेटा को इंगित करता है।<ref>{{cite book |last=Tukey |first=John W |title=अन्वेषणात्मक डेटा विश्लेषण|year=1977 |publisher=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>
Line 99: Line 99:
=== संशोधित थॉम्पसन ताऊ परीक्षण ===
=== संशोधित थॉम्पसन ताऊ परीक्षण ===
{{see also|विद्यार्थी अवशिष्ट#वितरण}}
{{see also|विद्यार्थी अवशिष्ट#वितरण}}
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु बाहरी है या नहीं<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref> यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है:
संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु बाहरी है या नहीं<ref>Thompson .R. (1985). "[https://www.jstor.org/stable/2345543?seq=1#page_scan_tab_contents A Note on Restricted Maximum Likelihood Estimation with an Alternative Outlier Model]".Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, pp. 53-55</ref> यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है।
:<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}
:<math>\text{Rejection Region}{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}
</math>;
</math>;
Line 111: Line 111:
&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\
&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\
&= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math>
&= 1- \sum_H p(y, x, h)p(h|t).\end{align}</math>
व्यावहारिक रूप से, यह सूत्रीकरण अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई कलन विधि के लिए अज्ञात है। इस प्रकार, विविध उपसम्मुचय का उपयोग करके उदाहरण <math>L \subset H</math> की कठोरता का अनुमान लगाया जा सकता है।
व्यावहारिक रूप से, यह सूत्रीकरण अक्षम्य है {{mvar|H}} संभावित रूप से अनंत और गणनात्मक है <math>p(h|t)</math> कई कलन विधि के लिए अज्ञात है। इस प्रकार विविध उपसम्मुचय का उपयोग करके उदाहरण <math>L \subset H</math> की कठोरता का अनुमान लगाया जा सकता है।


:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>
:<math>IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha))</math>

Revision as of 22:12, 29 March 2023

चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का रेखा - चित्र मध्य कॉलम में चार आउटलेयर प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।

आँकड़ों में, बाहरी डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।[1][2] आउटलायर माप में परिवर्तनशीलता के कारण हो सकता है नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है; बाद वाले को कभी-कभी डेटा सेट से बाहर रखा जाता है।[3][4] आउटलायर रोमांचक संभावना का संकेत हो सकता है लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।

आउटलेयर किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय, माप त्रुटि, या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो आउटलेयर के लिए मजबूत आँकड़े हैं जबकि भारी-पूंछ वाले वितरण के स्थितियों में वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। आउटलेयर का लगातार कारण दो वितरणों का मिश्रण है जो दो अलग-अलग उप-आबादी हो सकते हैं या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह मिश्रण प्रारूप द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा गलत प्रक्रियाओं या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में आउटलेयर की छोटी संख्या की अपेक्षा की जाती है और किसी विषम स्थिति के कारण नहीं है।

आउटलेयर, सबसे चरम अवलोकन होने के अंतर्गत नमूना अधिकतम या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा आउटलेयर नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें आउटलेयर सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है आउटलेयर उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।

आउटलेयर से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत केंद्रीय प्रवृत्ति का मजबूत आंकड़ा है जबकि माध्य नहीं है।[5] चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।[6]


घटना और कारण

सामान्य वितरण में सापेक्ष संभावनाएं

सामान्य वितरण डेटा के स्थितियों में तीन सिग्मा नियम का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।[7] 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे आउटलेयर पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।

सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या आउटलेयर की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, आउटलेयर की संख्या पैरामीटर p के साथ द्विपद वितरण का पालन करेगी जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

कारण

आउटलेयर के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन कपटपूर्ण व्यवहार, मानवीय त्रुटि उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण आउटलेयर उत्पन्न होते हैं नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से आउटलायर अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के आउटलेयर का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (किंग प्रभाव) में भिन्न हो सकता है।

परिभाषाएं और पहचान

कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है यह निर्धारित करना कि कोई अवलोकन बाहरी है या नहीं अंततः व्यक्तिपरक अभ्यास है।[8] आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।[9][10][11][12][13] कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं।

मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है।

  • चौवेनेट की कसौटी
  • आउटलेयर के लिए ग्रब्स का परीक्षण
  • डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
  • एएसटीएम e178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास[14]
  • महालनोबिस दूरी और उत्तोलन (सांख्यिकी) का उपयोग अक्सर आउटलेयर का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में
  • उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें[13]


पियर्स की कसौटी



श्रृंखला में निर्धारित करने का प्रस्ताव है त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।[15][16][17][18]

तुकी के फैंस

अन्य विधियाँ अन्तःचतुर्थक श्रेणी जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि और क्रमशः निचले और ऊपरी चतुर्थक हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है।

कुछ गैर-नकारात्मक स्थिरांक के लिए