आउटलायर: Difference between revisions

From Vigyanwiki
m (15 revisions imported from alpha:ग़ैर)
No edit summary
Line 169: Line 169:
* [http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm Grubbs test] described by NIST manual
* [http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm Grubbs test] described by NIST manual


[[Category: सांख्यिकीय चार्ट और आरेख]] [[Category: मजबूत आँकड़े]] [[Category: सांख्यिकीय आउटलेयर | सांख्यिकीय आउटलेयर ]]  
[[Category:Articles with hatnote templates targeting a nonexistent page]]
 
[[Category:CS1]]
 
[[Category:Commons category link is locally defined]]
 
[[Category: Machine Translated Page]]
[[Category:Created On 20/03/2023]]
[[Category:Created On 20/03/2023]]
[[Category:Vigyan Ready]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Webarchive template wayback links]]
[[Category:मजबूत आँकड़े]]
[[Category:सांख्यिकीय आउटलेयर| सांख्यिकीय आउटलेयर ]]
[[Category:सांख्यिकीय चार्ट और आरेख]]

Revision as of 10:32, 12 April 2023

File:Michelsonmorley-boxplot.svg
चित्रा 1. मिशेलसन-मॉर्ले प्रयोग से डेटा का रेखा - चित्र मध्य कॉलम में चार बाहरी परत प्रदर्शित करता है, साथ ही पहले कॉलम में आउटलाइयर।

आँकड़ों में, बाहरी डेटा बिंदु है जो अन्य अवलोकनों से महत्वपूर्ण रूप से भिन्न होता है।[1][2] बाहरी परत माप में परिवर्तनशीलता के कारण हो सकता है नए डेटा का संकेत हो सकता है, या यह प्रायोगिक त्रुटि का परिणाम हो सकता है बाद वाले को कभी-कभी डेटा सेट से बाहर रखा जाता है।[3][4] बाहरी परत रोमांचक संभावना का संकेत हो सकता है लेकिन सांख्यिकीय विश्लेषण में गंभीर समस्याएं भी उत्पन कर सकता है।

बाहरी परत किसी भी वितरण में संयोग से हो सकते हैं, लेकिन वे डेटा-समुच्चय माप त्रुटि या जनसंख्या में भारी-पूंछ वाले वितरण में उपन्यास व्यवहार या संरचनाओं का संकेत दे सकते हैं। माप त्रुटि के स्थितियों में कोई उन्हें त्यागना चाहता है या उन आँकड़ों का उपयोग करना चाहता है जो बाहरी परत के लिए मजबूत आँकड़े हैं जबकि भारी-पूंछ वाले वितरण के स्थितियों में वे संकेत देते हैं कि वितरण में उच्च तिरछापन है और उपकरण का उपयोग करने में बहुत सतर्क रहना चाहिए या अंतर्ज्ञान जो सामान्य वितरण मानते हैं। बाहरी परत का लगातार दो वितरणों का मिश्रण है जो दो अलग-अलग उपआबादी हो सकते हैं या 'सही परीक्षण' विरूद्ध 'माप त्रुटि' का संकेत दे सकते हैं यह मिश्रण प्रारूप द्वारा तैयार किया गया है।

डेटा के अधिकांश बड़े नमूनों में कुछ डेटा बिंदु अंकगणितीय माध्य से अधिक दूर होंगे जो कि उचित समझे जाते हैं। यह आकस्मिक व्यवस्थित त्रुटि या सिद्धांत में कमियों के कारण हो सकता है जिसने संभाव्यता वितरण के अनुमानित परिवार को उत्पन्न किया, या यह हो सकता है कि कुछ अवलोकन डेटा के केंद्र से दूर हों बाहरी बिंदु इसलिए दोषपूर्ण डेटा गलत प्रक्रियाओं या ऐसे क्षेत्रों को इंगित कर सकते हैं जहां निश्चित सिद्धांत मान्य नहीं हो सकता है। चूंकि बड़े नमूनों में बाहरी परत की छोटी संख्या की अपेक्षा की जाती है और किसी विषम स्थिति के कारण नहीं है।

बाहरी परत, सबसे चरम अवलोकन होने के अंतर्गत नमूना अधिकतम या न्यूनतम नमूना या दोनों सम्मिलित हो सकते हैं इस पर निर्भर करते हुए कि वे अत्यधिक उच्च या निम्न हैं। चूंकि नमूना अधिकतम और न्यूनतम हमेशा बाहरी परत नहीं होते हैं क्योंकि वे अन्य अवलोकनों से असामान्य रूप से दूर नहीं हो सकते हैं।

डेटा समुच्चय से प्राप्त आँकड़ों की सीधी व्याख्या जिसमें बाहरी परत सम्मिलित हैं भ्रामक हो सकते हैं। उदाहरण के लिए यदि कोई कमरे में 10 वस्तुओं के औसत तापमान की गणना कर रहा है और उनमें से नौ 20 और 25 डिग्री सेल्सियस के बीच हैं लेकिन ओवन 175 डिग्री सेल्सियस पर है तो डेटा का औसत 20 और 25 डिग्री के बीच होगा लेकिन औसत तापमान 35.5 और 40 डिग्री सेल्सियस के बीच रहेगा। इस स्थितियों में माध्य की तुलना में यादृच्छिक रूप से नमूनाकृत वस्तु (लेकिन कमरे में तापमान नहीं) के तापमान को अच्छे ढंग से दर्शाता है माध्यिका के समतुल्य विशिष्ट नमूने के रूप में माध्य की सीधापन से व्याख्या करना गलत है। जैसा कि इस स्थितियों में दिखाया गया है बाहरी परत उन डेटा बिंदुओं को इंगित कर सकते हैं जो बाकी नमूना (सांख्यिकी) समुच्चय की तुलना में अलग सांख्यिकीय आबादी से संबंधित हैं।

बाहरी परत से निपटने में सक्षम अनुमानक को मजबूत कहा जाता है औसत केंद्रीय प्रवृत्ति का मजबूत आंकड़ा है जबकि माध्य नहीं है।[5] चूंकि औसत सामान्यतः एक अधिक सही अनुमानक होता है।[6]


घटना और कारण

File:Standard deviation diagram micro.svg
सामान्य वितरण में सापेक्ष संभावनाएं

सामान्य वितरण डेटा के स्थितियों में तीन सिग्मा नियम का अर्थ है कि सामान्यतः 22 में से 1 अवलोकन मानक विचलन के दोगुने या माध्य से अधिक भिन्न होगा और 370 में 1 मानक विचलन के तीन गुना से विचलित होगा।[7] 1000 प्रेक्षणों के नमूने में माध्य से तीन गुना से अधिक विचलन वाले पाँच प्रेक्षणों की उपस्थिति अपेक्षित सीमा के अन्दर है जो अपेक्षित संख्या के दोगुने से कम है और इसलिए 1 मानक विचलन के अन्दर है अपेक्षित संख्या पोइसन वितरण देखें और विसंगति का संकेत न दें। यदि नमूना आकार केवल 100 है, चूंकि, केवल तीन ऐसे बाहरी परत पहले से ही चिंता का कारण हैं जो अपेक्षित संख्या से 11 गुना अधिक हैं।

सामान्यतः, यदि जनसंख्या वितरण की प्रकृति को प्राथमिकता के रूप में जाना जाता है तो यह परीक्षण करना संभव है कि क्या बाहरी परत की संख्या अपेक्षित रूप से सांख्यिकीय महत्व से विचलन करती है किसी दिए गए कटऑफ़ के लिए (इसलिए नमूने कटऑफ़ से परे गिर जाते हैं संभावना p के साथ दिए गए वितरण में, बाहरी परत की संख्या पैरामीटर p के साथ द्विपद वितरण का पालन करेगी जिसे सामान्यतः λ = pn के साथ पॉइसन वितरण द्वारा अच्छी तरह से अनुमानित किया जा सकता है। इस प्रकार यदि कोई माध्य से कटऑफ़ 3 मानक विचलन के साथ सामान्य वितरण लेता है, तो p लगभग 0.3% है, और इस प्रकार 1000 परीक्षणों के लिए नमूनों की संख्या का अनुमान लगाया जा सकता है जिनका विचलन λ = 3 के साथ पॉसॉन वितरण द्वारा 3 सिग्मा से अधिक है।

कारण

बाहरी परत के कई विषम कारण हो सकते हैं। माप लेने के लिए भौतिक उपकरण में क्षणिक खराबी हो सकती है। डेटा ट्रांसमिशन या ट्रांसक्रिप्शन में कोई त्रुटि हो सकती है। सिस्टम व्यवहार में परिवर्तन कपटपूर्ण व्यवहार, मानवीय त्रुटि उपकरण त्रुटि या जनसंख्या में प्राकृतिक विचलन के कारण बाहरी परत उत्पन्न होते हैं नमूना जांच की जा रही आबादी के बाहर के तत्वों से दूषित हो सकता है। वैकल्पिक रूप से बाहरी परत अनुमानित सिद्धांत में दोष का परिणाम हो सकता है जो शोधकर्ता द्वारा आगे की जांच की मांग करता है। इसके अतिरिक्त निश्चित रूप के बाहरी परत का पैथोलॉजिकल रूप विभिन्न प्रकार के डेटासमुच्चय में प्रकट होता है यह दर्शाता है कि डेटा के लिए प्रेरक तंत्र चरम अंत (किंग प्रभाव) में भिन्न हो सकता है।

परिभाषाएं और पहचान

कोई कठोर गणितीय परिभाषा नहीं है जो बाहरी का गठन करती है यह निर्धारित करना कि कोई अवलोकन बाहरी है या नहीं अंततः व्यक्तिपरक अभ्यास है।[8] आउटलाइयर डिटेक्शन के विभिन्न विधियाँ हैं जिनमें से कुछ को नॉवेल्टी डिटेक्शन के पर्याय के रूप में माना जाता है।[9][10][11][12][13] कुछ ग्राफ़िकल होते हैं जैसे सामान्य प्रायिकता प्लॉट्स अन्य मॉडल आधारित हैं बॉक्स प्लॉट संकर हैं।

मॉडल-आधारित विधियाँ जो सामान्यतः पहचान के लिए उपयोग की जाती हैं यह मानती हैं कि डेटा सामान्य वितरण से हैं और उन टिप्पणियों की पहचान करें जिन्हें औसत और मानक विचलन के आधार पर असंभाव्य माना जाता है।

  • चौवेनेट की कसौटी
  • बाहरी परत के लिए ग्रब्स का परीक्षण
  • डिक्सन का Q परीक्षण डिक्सन का Q परीक्षण
  • एएसटीएम e178: बाहरी निरीक्षणों से निपटने के लिए मानक अभ्यास[14]
  • महालनोबिस दूरी और उत्तोलन (सांख्यिकी) का उपयोग अधिकांशतः बाहरी परत का पता लगाने के लिए किया जाता है विशेष रूप से रेखीय प्रतिगमन मॉडल के विकास में
  • उच्च-आयामी संख्यात्मक डेटा के लिए सबस्पेस और सहसंबंध आधारित तकनीकें[13]


पियर्स की कसौटी



श्रृंखला में निर्धारित करने का प्रस्ताव है त्रुटि की सीमा का अवलोकन है जिसके आगे इतनी बड़ी त्रुटि वाले सभी अवलोकनों को अस्वीकार किया जा सकता है यद्यपि कि उतने ही हों ऐसी टिप्पणियों है। जिस सिद्धांत पर इस समस्या को हल करने का प्रस्ताव दिया गया है वह यह है कि प्रस्तावित अवलोकनों को अस्वीकार कर दिया जाना चाहिए जब उन्हें बनाए रखने से प्राप्त त्रुटियों की प्रणाली की संभावना उनकी अस्वीकृति से प्राप्त त्रुटियों की प्रणाली की संभावना से गुणा की तुलना में कम हो बहुत सारे और अधिक नही असामान्य अवलोकन करना। (चौवेनेट द्वारा ए मैनुअल ऑफ एस्ट्रोनॉमी 2:558 से पियर्स (1982 संस्करण) के पृष्ठ 516 पर संपादकीय नोट में उद्धृत है।[15][16][17][18]

तुकी के फैंस

अन्य विधियाँ अन्तःचतुर्थक श्रेणी जैसे उपायों के आधार पर फ़्लैग अवलोकन करती हैं। उदाहरण के लिए, यदि और क्रमशः निचले और ऊपरी चतुर्थक हैं तो कोई भी सीमा के बाहर किसी भी अवलोकन के रूप में परिभाषित कर सकता है।

कुछ गैर-नकारात्मक स्थिरांक के लिए है जॉन टुकी ने इस परीक्षण का प्रस्ताव दिया, जहाँ बाहरी को इंगित करता है, और दूर के डेटा को इंगित करता है।[19]



विसंगति का पता लगाने में

सांख्यिकी संकेत आगे बढ़ाना वित्त अर्थमिति,विनिर्माण, नेटवर्क विज्ञान और डेटा खनन जैसे विभिन्न डोमेन में लेकिन इन तक ही सीमित नहीं है विसंगति का पता लगाने का कार्य अन्य दृष्टिकोण ले सकता है। इनमें से कुछ दूरी आधारित हो सकते हैं[20][21] और घनत्व-आधारित जैसे कि स्थानीय बाहरी कारक (एलओएफ)[22] कुछ दृष्टिकोण अवलोकनों को बाहरी या गैर-बाहरी के रूप में लेबल करने के लिए k-निकटतम पड़ोसियों की दूरी का उपयोग कर सकते हैं।[23]


संशोधित थॉम्पसन ताऊ परीक्षण

संशोधित थॉम्पसन ताऊ परीक्षण एक विधि है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा समुच्चय में कोई बाहरी उपस्थित है या नहीं इस पद्धति की ताकत इस तथ्य में निहित है कि यह डेटा समुच्चय के मानक विचलन औसत को ध्यान में रखता है और सांख्यिकीय रूप से निर्धारित अस्वीकृति क्षेत्र प्रदान करता है इस प्रकार यह निर्धारित करने के लिए वस्तुनिष्ठ विधि प्रदान करता है कि डेटा बिंदु बाहरी है या नहीं[24] यह काम किस प्रकार करता है सबसे पहले डेटा समुच्चय का औसत निर्धारित किया जाता है अगला प्रत्येक डेटा बिंदु और औसत के बीच पूर्ण विचलन निर्धारित किया जाता है। तीसरा एक अस्वीकृति क्षेत्र सूत्र का उपयोग करके निर्धारित किया जाता है।

;

जहाँ छात्र से महत्वपूर्ण मूल्य है t स्वतंत्रता की n-2 डिग्री के साथ वितरण n नमूना आकार है और s नमूना मानक विचलन है। यह निर्धारित करने के लिए कि क्या कोई मान बाहरी है गणना यदि δ > अस्वीकृति क्षेत्र डेटा बिंदु बाहरी है यदि δ ≤ अस्वीकृति क्षेत्र डेटा बिंदु बाहरी नहीं है।

संशोधित थॉम्पसन ताऊ परीक्षण का उपयोग एक समय में बाहरी को खोजने के लिए किया जाता है (δ का सबसे बड़ा मान हटा दिया जाता है यदि यह बाहरी है) अर्थ, यदि कोई डेटा बिंदु बाहरी परत पाया जाता है तो उसे डेटा समुच्चय से हटा दिया जाता है और नए औसत और अस्वीकृति क्षेत्र के साथ फिर से परीक्षण प्रयुक्त किया जाता है। यह प्रक्रिया तब तक चलती रहती है जब तक कि डेटा सम्मुचय में कोई बाहरी परत नहीं रहता है।

कुछ कार्यों ने नाममात्र (या श्रेणीबद्ध) डेटा के लिए बाहरी परत की भी जांच की है। डेटा समुच्चय में उदाहरणों (या उदाहरणों) के समुच्चय के संदर्भ में उदाहरण की कठोरता इस संभावना को मापती है कि उदाहरण गलत वर्गीकृत किया जाएगा ( जहाँ y असाइन किया गया क्लास लेबल है और x प्रशिक्षण समुच्चय में उदाहरण के लिए इनपुट विशेषता मान का प्रतिनिधित्व करता है t[25] आदर्श रूप से उदाहरण H कठोरता की गणना सभी संभावित परिकल्पनाओं के समुच्चय पर योग करके की जाएगी