अनोमली डिटेक्शन: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Approach in data analysis}} {{broader|Outlier}} {{Machine learning|Problems}} {{Information security}} डेटा विश्लेषण में,...")
 
No edit summary
 
(5 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{short description|Approach in data analysis}}
{{short description|Approach in data analysis}}
{{broader|Outlier}}
{{broader|आउटलायर}}
{{Machine learning|Problems}}
{{Machine learning|Problems}}
{{Information security}}
{{Information security}}
[[डेटा विश्लेषण]] में, विसंगति का पता लगाना (जिसे बाहरी पता लगाना और कभी-कभी नवीनता का पता लगाना भी कहा जाता है) को आम तौर पर दुर्लभ वस्तुओं, घटनाओं या टिप्पणियों की पहचान के रूप में समझा जाता है जो अधिकांश डेटा से महत्वपूर्ण रूप से विचलित होते हैं और एक अच्छी तरह से परिभाषित के अनुरूप नहीं होते हैं। सामान्य व्यवहार की अवधारणा.<ref name="ChandolaSurvey"/>ऐसे उदाहरण किसी भिन्न तंत्र द्वारा उत्पन्न होने का संदेह पैदा कर सकते हैं,<ref name="Hawkins 1980">{{cite book |last= Hawkins |first= Douglas M.|author-link= |date=1980 |title=आउटलेर्स की पहचान|url= |location= |publisher=Chapman and Hall London; New York |page= |isbn=}}</ref> या डेटा के उस सेट के शेष भाग के साथ असंगत प्रतीत होता है।<ref name="Outliers in statistical data">{{cite book |last1= Barnett |first1=Vic |last2= Lewis |first2=Lewis |author-link= |date=1978 |title=सांख्यिकीय डेटा में आउटलेर्स|url= |location= |publisher=John Wiley & Sons Ltd.|page= |isbn=}}</ref>
[[डेटा विश्लेषण|डाटा एनालिसिस]] में, '''अनोमली डिटेक्शन''' (जिसे आउटलायर डिटेक्शन और कभी-कभी नोवेल्टी डिटेक्शन भी कहा जाता है) को सामान्यतः रेयर आइटम, इवेंट या ऑब्जरवेशन की आइडेंटिफिकेशन के रूप में समझा जाता है जो मैजोरिटी डाटा से सिग्निफिकैंटली डेविएट होते हैं और नार्मल बेहेवियर की एक अच्छी तरह से विस्तारित नोशन के कन्फॉर्म नहीं होते हैं। <ref name="ChandolaSurvey"/> ऐसे उदाहरण किसी डिफरेंट मैकेनिज्म द्वारा उत्पन्न होने का ससपिशिअन अराउस कर सकते हैं, <ref name="Hawkins 1980">{{cite book |last= Hawkins |first= Douglas M.|author-link= |date=1980 |title=आउटलेर्स की पहचान|url= |location= |publisher=Chapman and Hall London; New York |page= |isbn=}}</ref> या डेटा के उस सेट के रिमेनडर के साथ इन्कन्सीस्टेन्ट अपीयर होता है। <ref name="Outliers in statistical data">{{cite book |last1= Barnett |first1=Vic |last2= Lewis |first2=Lewis |author-link= |date=1978 |title=सांख्यिकीय डेटा में आउटलेर्स|url= |location= |publisher=John Wiley & Sons Ltd.|page= |isbn=}}</ref>
विसंगति का पता लगाने का उपयोग साइबर सुरक्षा, चिकित्सा, मशीन विज़न, सांख्यिकी, तंत्रिका विज्ञान, कानून प्रवर्तन और वित्तीय धोखाधड़ी सहित कई डोमेन में किया जाता है। सांख्यिकीय विश्लेषण में सहायता के लिए शुरू में डेटा से स्पष्ट अस्वीकृति या चूक के लिए विसंगतियों की खोज की गई थी, उदाहरण के लिए माध्य या मानक विचलन की गणना करने के लिए। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर भविष्यवाणियों के लिए भी हटा दिया गया था, और हाल ही में उनका निष्कासन मशीन लर्निंग एल्गोरिदम के प्रदर्शन में सहायता करता है। हालाँकि, कई अनुप्रयोगों में विसंगतियाँ स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित अवलोकन होती हैं, जिन्हें पहचानने और शोर या अप्रासंगिक आउटलेर्स से अलग करने की आवश्यकता होती है।


विसंगति का पता लगाने की तकनीकों की तीन व्यापक श्रेणियां मौजूद हैं।<ref name="ChandolaSurvey"/>पर्यवेक्षित विसंगति का पता लगाने वाली तकनीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे सामान्य और असामान्य के रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को प्रशिक्षित करना शामिल है। हालाँकि, लेबल किए गए डेटा की सामान्य अनुपलब्धता और कक्षाओं की अंतर्निहित असंतुलित प्रकृति के कारण विसंगति का पता लगाने में इस दृष्टिकोण का उपयोग शायद ही कभी किया जाता है। अर्ध-पर्यवेक्षित विसंगति का पता लगाने वाली तकनीकें मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह सामान्य या असामान्य डेटा का कोई भी संयोजन हो सकता है, लेकिन अधिकतर तकनीकें किसी दिए गए ''सामान्य'' प्रशिक्षण डेटा सेट से [[सामान्य व्यवहार]] का प्रतिनिधित्व करने वाला एक मॉडल बनाती हैं, और फिर एक परीक्षण उदाहरण उत्पन्न होने की संभावना का परीक्षण करती हैं। आदर्श। अनपर्यवेक्षित विसंगति का पता लगाने वाली तकनीकें मानती हैं कि डेटा लेबल रहित है और उनके व्यापक और प्रासंगिक अनुप्रयोग के कारण अब तक सबसे अधिक उपयोग किया जाता है।
अनोमली डिटेक्शन का उपयोग साइबर सिक्योरिटी, मेडिसिन, मशीन विज़न, स्टेटिस्टिक्स, न्यूरोसाइंस, लॉ एनफोर्समेंट और फाइनेंशियल फ्रॉड सहित कई डोमेन में किया जाता है। स्टेटिस्टिक्स एनालिसिस में हेल्प के लिए स्टार्टिंग में डेटा से क्लियर रिजेक्शन या ओमिशन के लिए एनालिसिस की खोज की गई थी, उदाहरण के लिए मीन या स्टैन्डर्ड डेविएशन की गणना करने के लिए की गई थी। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर प्रेडिक्शन के लिए भी हटा दिया गया था, और हाल ही में उनका रिमूवल मशीन लर्निंग एल्गोरिदम के परफॉरमेंस में हेल्प करता है। हालाँकि, कई ऍप्लिकेशन्स में अनोमालिस स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित ऑब्जरवेशन होती हैं, जिन्हें डिटेक्शनने और नॉइज़ या इर्रेलेवेंट आउटलेर्स से सेपरेट करने की आवश्यकता होती है।
 
अनोमली डिटेक्शन की टेक्नीकों की तीन ब्रॉड केटेगरी उपस्थित हैं। <ref name="ChandolaSurvey" /> सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे नॉर्मल और अबनॉर्मल रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को ट्रेनिंग करना सम्मिलित है। हालाँकि, लेबल किए गए डेटा की नॉर्मल अनअवेलेबिलिटी और क्लास की इन्हेरेंट अनबैलेंस्ड नेचर के कारण अनोमली डिटेक्शन में इस एप्रोच का उपयोग संभवतः कभी किया जाता है। सेमि-सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह नॉर्मल या अबनॉर्मल डेटा का कोई भी कॉम्बिनेशन हो सकता है, लेकिन अधिकतर टेक्नीक किसी दिए गए नॉर्मल प्रलर्निंग डेटा सेट से [[सामान्य व्यवहार|नॉर्मल बिहेवियर]] को रिप्रेजेंट करने वाला एक मॉडल बनाती हैं, और फिर एक ट्रेनिंग उदाहरण उत्पन्न होने की संभावना का टेस्ट करती हैं। अनसुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा अनलेबल है और उनके वाइडर और रिलेवेंट एप्लीकेशन के कारण अब तक सबसे अधिक उपयोग किया जाता है।


== परिभाषा ==
== परिभाषा ==
किसी विसंगति को परिभाषित करने के लिए सांख्यिकीय और कंप्यूटर विज्ञान समुदायों में कई प्रयास किए गए हैं। सबसे अधिक प्रचलित लोगों में शामिल हैं:
किसी अनोमली को डिफाइन करने के लिए स्टेटिस्टिक्स और कंप्यूटर साइंस कम्युनिटी में कई एटेम्पट किए गए हैं। सबसे अधिक प्रीवलेंट वन में सम्मिलित हैं:


* बाह्य वह अवलोकन है जो अन्य अवलोकनों से इतना अधिक विचलित हो जाता है कि यह संदेह पैदा हो जाता है कि यह एक अलग तंत्र द्वारा उत्पन्न किया गया था।<ref name="Hawkins 1980"/>  * विसंगतियाँ डेटा के उदाहरण या संग्रह हैं जो डेटा सेट में बहुत कम होते हैं और जिनकी विशेषताएं अधिकांश डेटा से काफी भिन्न होती हैं।
* आउटलायर वह ऑब्जरवेशन है जो अन्य ऑब्जरवेशन से इतना अधिक डेविएट हो जाता है कि यह ससपिशियन अराउस हो जाता है कि यह एक अलग मैकेनिज्म द्वारा जेनेरेट किया गया था। <ref name="Hawkins 1980"/>   
* आउटलायर एक अवलोकन (या अवलोकनों का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ असंगत प्रतीत होता है।<ref name="Outliers in statistical data"/>* विसंगति एक बिंदु या बिंदुओं का संग्रह है जो सुविधाओं के बहु-आयामी स्थान में अन्य बिंदुओं से अपेक्षाकृत दूर है।
*अनोमली डेटा के उदाहरण या कलेक्शन हैं जो डेटा सेट में बहुत कम होते हैं और जिनके फीचर सिग्नीफिकेंट डेटा से काफी भिन्न होती हैं।
* विसंगतियाँ डेटा में ऐसे पैटर्न हैं जो सामान्य व्यवहार की अच्छी तरह से परिभाषित धारणा के अनुरूप नहीं हैं।<ref name="ChandolaSurvey"/>  
* आउटलायर एक ऑब्जरवेशन (या ऑब्जरवेशन का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ इन्कन्सीस्टेन्ट प्रतीत होता है। <ref name="Outliers in statistical data" />
* मान लीजिए T एक अविभाज्य गॉसियन वितरण से अवलोकन है और O, T से एक बिंदु है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक बाहरी है।
*अनोमली एक पॉइंट या पॉइंट का कलेक्शन है जो सुविधाओं के मल्टी-डायमेंशनल स्थान में अन्य पॉइंट से रिलेटिवली डिस्टेंट है।
* अनोमली डेटा में ऐसे पैटर्न हैं जो नॉर्मल बिहेवियर की अच्छी तरह से विस्तारित नोशन के अनुरूप नहीं हैं। <ref name="ChandolaSurvey" />  
* मान लीजिए T एक अविभाज्य गॉसियन वितरण से ऑब्जरवेशन है और O, T से एक पॉइंट है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक आउटलायर है।


== अनुप्रयोग ==
== एप्लीकेशन ==
विसंगति का पता लगाना बहुत बड़ी संख्या और विभिन्न प्रकार के डोमेन में लागू होता है, और यह बिना पर्यवेक्षित मशीन लर्निंग का एक महत्वपूर्ण उपक्षेत्र है। जैसे कि इसमें साइबर सुरक्षा घुसपैठ का पता लगाने, धोखाधड़ी का पता लगाने, गलती का पता लगाने, सिस्टम स्वास्थ्य निगरानी, ​​​​सेंसर नेटवर्क में घटना का पता लगाने, पारिस्थितिकी तंत्र की गड़बड़ी का पता लगाने, [[मशीन दृष्टि]] का उपयोग करके छवियों में दोष का पता लगाने, चिकित्सा निदान और कानून प्रवर्तन में अनुप्रयोग हैं।<ref>{{cite book |last= Aggarwal |first= Charu |author-link= |date=2017 |title=बाहरी विश्लेषण|url= |location= |publisher=Springer Publishing Company, Incorporated |page= |isbn= 978-3319475776}}</ref>
अनोमली डिटेक्शन बहुत बड़ी नंबर और डिफरेंट डोमेन में लागू होता है, और यह अनसुपरवाइज़ड मशीन लर्निंग का एक महत्वपूर्ण सबएरिया है। जैसे कि इसमें साइबर इन्ट्रूशन डिटेक्शन का पता लगाने, फ्रॉड डिटेक्शन, फाल्ट डिटेक्शन, सिस्टम हेल्थ मॉनिटरिंग, ​​​​सेंसर नेटवर्क में इवेंट डिटेक्शन, डिटेक्टिंग इकोसिस्टम डिस्टर्बैंसेस, [[मशीन दृष्टि|मशीन विज़न]] का उपयोग करके इमेजेज में डिफेक्ट का पता लगाने, मेडिसिन डायग्नोसिस और लॉ एनफोर्समेंट में एप्लीकेशन हैं। <ref>{{cite book |last= Aggarwal |first= Charu |author-link= |date=2017 |title=बाहरी विश्लेषण|url= |location= |publisher=Springer Publishing Company, Incorporated |page= |isbn= 978-3319475776}}</ref>
1986 में डोरोथी ई. डेनिंग द्वारा घुसपैठ का पता लगाने वाले सिस्टम (आईडीएस) के लिए विसंगति का पता लगाने का प्रस्ताव दिया गया था।<ref>{{cite journal | last1 = Denning | first1 = D. E. | author-link1 = Dorothy E. Denning| doi = 10.1109/TSE.1987.232894 | title = एक घुसपैठ-पहचान मॉडल| journal = [[IEEE Transactions on Software Engineering]]| issue = 2 | pages = 222–232 | year = 1987 | url = http://apps.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| archive-url = https://web.archive.org/web/20150622044937/http://www.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| url-status = live| archive-date = June 22, 2015| citeseerx=10.1.1.102.5127 | volume=SE-13| s2cid = 10028835 }}</ref> आईडीएस के लिए विसंगति का पता लगाना आम तौर पर थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन [[सॉफ्ट कंप्यूटिंग]] और आगमनात्मक शिक्षण के साथ भी किया जा सकता है।<ref>{{cite book | last1 = Teng | first1 = H. S. | last2 = Chen | first2 = K. | last3 = Lu | first3 = S. C. | title = Proceedings. 1990 IEEE Computer Society Symposium on Research in Security and Privacy | chapter = Adaptive real-time anomaly detection using inductively generated sequential patterns | doi = 10.1109/RISP.1990.63857 | pages = 278–284| year = 1990 | isbn = 978-0-8186-2060-7 | s2cid = 35632142 | url = http://www.cs.unc.edu/~jeffay/courses/nidsS05/ai/Teng-AdaptiveRTAnomaly-SnP90.pdf}}</ref> 1999 तक प्रस्तावित आँकड़ों के प्रकारों में उपयोगकर्ताओं के प्रोफाइल, वर्कस्टेशन, नेटवर्क, दूरस्थ होस्ट, उपयोगकर्ताओं के समूह और आवृत्तियों, साधनों, भिन्नताओं, सहप्रसरणों और मानक विचलनों पर आधारित कार्यक्रम शामिल थे।<ref>{{cite journal | last1 = Jones | first1 = Anita K. | last2 = Sielken | first2 = Robert S. | title = Computer System Intrusion Detection: A Survey | journal= Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA | year= 1999 | citeseerx=10.1.1.24.7802 }}</ref> घुसपैठ का पता लगाने में विसंगति का पता लगाने का समकक्ष [[दुरुपयोग का पता लगाना]] है।


इसका उपयोग अक्सर [[डेटा प्री-प्रोसेसिंग]] में डेटासेट से असंगत डेटा को हटाने के लिए किया जाता है। ऐसा कई कारणों से किया जाता है. विसंगतियों को दूर करने के बाद माध्य और मानक विचलन जैसे डेटा के आँकड़े अधिक सटीक होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। पर्यवेक्षित शिक्षण में, डेटासेट से असंगत डेटा को हटाने से अक्सर सटीकता में सांख्यिकीय रूप से महत्वपूर्ण वृद्धि होती है।<ref>{{cite journal | doi = 10.1109/TSMC.1976.4309523 | first = Ivan | last = Tomek| title = संपादित निकटतम-पड़ोसी नियम के साथ एक प्रयोग| journal = [[IEEE Systems, Man, and Cybernetics Society|IEEE Transactions on Systems, Man, and Cybernetics]]| volume = 6 | issue = 6 | pages = 448–452 | year = 1976 }}</ref><ref>{{cite book | last1 = Smith | first1 = M. R. | last2 = Martinez | first2 = T. | doi = 10.1109/IJCNN.2011.6033571 | chapter = Improving classification accuracy by identifying and removing instances that should be misclassified | title = The 2011 International Joint Conference on Neural Networks | pages = 2690 | year = 2011 | isbn = 978-1-4244-9635-8 | chapter-url = http://axon.cs.byu.edu/papers/smith.ijcnn2011.pdf| citeseerx = 10.1.1.221.1371 | s2cid = 5809822 }}</ref> विसंगतियाँ भी अक्सर पाए जाने वाले डेटा में सबसे महत्वपूर्ण अवलोकन होती हैं जैसे कि घुसपैठ का पता लगाना या चिकित्सा छवियों में असामान्यताओं का पता लगाना।
1986 में डोरोथी ई. डेनिंग द्वारा इन्ट्रूशन डिटेक्शन वाले सिस्टम (आईडीएस) के लिए अनोमली डिटेक्शन का प्रस्ताव दिया गया था। <ref>{{cite journal | last1 = Denning | first1 = D. E. | author-link1 = Dorothy E. Denning| doi = 10.1109/TSE.1987.232894 | title = एक घुसपैठ-पहचान मॉडल| journal = [[IEEE Transactions on Software Engineering]]| issue = 2 | pages = 222–232 | year = 1987 | url = http://apps.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| archive-url = https://web.archive.org/web/20150622044937/http://www.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| url-status = live| archive-date = June 22, 2015| citeseerx=10.1.1.102.5127 | volume=SE-13| s2cid = 10028835 }}</ref> आईडीएस के लिए अनोमली डिटेक्शन सामान्यतः थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन [[सॉफ्ट कंप्यूटिंग]] और इंडक्टिव लर्निंग के साथ भी किया जा सकता है। <ref>{{cite book | last1 = Teng | first1 = H. S. | last2 = Chen | first2 = K. | last3 = Lu | first3 = S. C. | title = Proceedings. 1990 IEEE Computer Society Symposium on Research in Security and Privacy | chapter = Adaptive real-time anomaly detection using inductively generated sequential patterns | doi = 10.1109/RISP.1990.63857 | pages = 278–284| year = 1990 | isbn = 978-0-8186-2060-7 | s2cid = 35632142 | url = http://www.cs.unc.edu/~jeffay/courses/nidsS05/ai/Teng-AdaptiveRTAnomaly-SnP90.pdf}}</ref> 1999 तक प्रपोज़ आँकड़ों के प्रकारों में यूजर के प्रोफाइल, वर्कस्टेशन, नेटवर्क, रिमोट होस्ट, यूजर के ग्रुप और फ्रीक्वेंसी, मीन्स, वैरिएंसेस, कोवैरियन्स और स्टैन्डर्ड डेविएशनों पर बेस्ड कार्यक्रम सम्मिलित थे। <ref>{{cite journal | last1 = Jones | first1 = Anita K. | last2 = Sielken | first2 = Robert S. | title = Computer System Intrusion Detection: A Survey | journal= Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA | year= 1999 | citeseerx=10.1.1.24.7802 }}</ref> इन्ट्रूशन डिटेक्शन में अनोमली डिटेक्शन का इन्ट्रूशन [[दुरुपयोग का पता लगाना|मिसयूज़ डिटेक्शन]] है।


== लोकप्रिय तकनीक ==
इसका उपयोग प्रायः [[डेटा प्री-प्रोसेसिंग]] में डेटासेट से इन्कन्सीस्टेन्ट डेटा को रिमूव करने के लिए किया जाता है। ऐसा कई रीज़न से किया जाता है। एनालिसिस को दूर करने के बाद मीन और स्टैन्डर्ड डेविएशन जैसे डेटा के स्टैटिक्स अधिक एक्यूरेट होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। सुपरवाइज़ड लर्निंग में, डेटासेट से इन्कन्सीस्टेन्ट डेटा को हटाने से प्रायः सिग्नीफिकेंट में स्टेटिस्टिक्स रूप से महत्वपूर्ण वृद्धि होती है। <ref>{{cite journal | doi = 10.1109/TSMC.1976.4309523 | first = Ivan | last = Tomek| title = संपादित निकटतम-पड़ोसी नियम के साथ एक प्रयोग| journal = [[IEEE Systems, Man, and Cybernetics Society|IEEE Transactions on Systems, Man, and Cybernetics]]| volume = 6 | issue = 6 | pages = 448–452 | year = 1976 }}</ref><ref>{{cite book | last1 = Smith | first1 = M. R. | last2 = Martinez | first2 = T. | doi = 10.1109/IJCNN.2011.6033571 | chapter = Improving classification accuracy by identifying and removing instances that should be misclassified | title = The 2011 International Joint Conference on Neural Networks | pages = 2690 | year = 2011 | isbn = 978-1-4244-9635-8 | chapter-url = http://axon.cs.byu.edu/papers/smith.ijcnn2011.pdf| citeseerx = 10.1.1.221.1371 | s2cid = 5809822 }}</ref> अनोमली भी प्रायः पाए जाने वाले डेटा में सबसे महत्वपूर्ण ऑब्जरवेशन होती हैं जैसे कि इन्ट्रूशन का पता लगाना या मेडिसिन इमेजेज में अब्नोर्मलिटीज़ डिटेक्ट करते हैं।
साहित्य में विसंगति का पता लगाने की कई तकनीकें प्रस्तावित की गई हैं।<ref name="ChandolaSurvey">{{cite journal|last1=Chandola|first1=V.|last2=Banerjee|first2=A.|last3=Kumar|first3=V.|s2cid=207172599|year=2009|title=Anomaly detection: A survey|journal=[[ACM Computing Surveys]]|volume=41|issue=3|pages=1–58|doi=10.1145/1541880.1541882}}</ref><ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|author-link1=Arthur Zimek|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> कुछ लोकप्रिय तकनीकें हैं:


* सांख्यिकीय (मानक स्कोर|जेड-स्कोर, टुकी का रेंज परीक्षण और ग्रब्स का परीक्षण)
== पॉपुलर टेक्नीक ==
* घनत्व-आधारित तकनीकें (K-निकटतम पड़ोसी एल्गोरिदम|k-निकटतम पड़ोसी,<ref>{{cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237–253| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1-58113-217-4}}</ref><ref>{{cite conference | doi = 10.1007/3-540-45681-3_2| title = उच्च आयामी स्थानों में तेजी से बाहरी जांच| conference = Principles of Data Mining and Knowledge Discovery| volume = 2431| pages = 15| series = Lecture Notes in Computer Science| year = 2002| last1 = Angiulli | first1 = F. | last2 = Pizzuti | first2 = C. | isbn = 978-3-540-44037-6| doi-access = free}}</ref> स्थानीय बाहरी कारक,<ref>{{cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> [[अलगाव वन]],<ref>{{Cite book|last1=Liu|first1=Fei Tony|last2=Ting|first2=Kai Ming|last3=Zhou|first3=Zhi-Hua|title=2008 Eighth IEEE International Conference on Data Mining |chapter=Isolation Forest |date=December 2008|url=https://www.computer.org/csdl/proceedings/icdm/2008/3502/00/3502a413-abs.html|language=en|pages=413–422|doi=10.1109/ICDM.2008.17|isbn=9780769535029|s2cid=6505449}}</ref><ref>{{Cite journal|last1=Liu|first1=Fei Tony|last2=Ting|first2=Kai Ming|last3=Zhou|first3=Zhi-Hua|date=March 2012|title=अलगाव-आधारित विसंगति का पता लगाना|url=https://www.researchgate.net/publication/239761771|journal=ACM Transactions on Knowledge Discovery from Data |language=en|volume=6|issue=1|pages=1–39|doi=10.1145/2133360.2133363|s2cid=207193045}}</ref> और इस अवधारणा के कई और रूप<ref>{{cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | author-link2 = Arthur Zimek | last3 = Kriegel | first3 = H. -P. | s2cid = 19036098 | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 }}</ref>)
साहित्य में अनोमली डिटेक्शन की कई टेक्नीक प्रपोज़ की गई हैं। <ref name="ChandolaSurvey">{{cite journal|last1=Chandola|first1=V.|last2=Banerjee|first2=A.|last3=Kumar|first3=V.|s2cid=207172599|year=2009|title=Anomaly detection: A survey|journal=[[ACM Computing Surveys]]|volume=41|issue=3|pages=1–58|doi=10.1145/1541880.1541882}}</ref><ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|author-link1=Arthur Zimek|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280|s2cid=53305944 |url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref> कुछ पॉपुलर टेक्नीक हैं:
* उपस्थान-,<ref name=":0">{{cite conference | doi = 10.1007/978-3-642-01307-2_86| title = उच्च आयामी डेटा के अक्ष-समानांतर उप-स्थानों में बाह्य जांच| conference = Advances in Knowledge Discovery and Data Mining| volume = 5476| pages = 831| series = Lecture Notes in Computer Science| year = 2009| last1 = Kriegel | first1 = H. P. | author-link1 = Hans-Peter Kriegel| last2 = Kröger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | author-link4 = Arthur Zimek | isbn = 978-3-642-01306-5}}</ref> सहसंबंध आधारित<ref name=":1">{{cite conference | doi = 10.1109/ICDM.2012.21| title = मनमाने ढंग से उन्मुख उपस्थानों में बाह्य जांच| conference = 2012 IEEE 12th International Conference on Data Mining| pages = 379| year = 2012| last1 = Kriegel | first1 = H. P. | author-link1 = Hans-Peter Kriegel| last2 = Kroger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | author-link4 = Arthur Zimek | isbn = 978-1-4673-4649-8}}</ref> और टेंसर-आधारित <ref>{{cite journal | last1 = Fanaee-T| first1 = H. | last2 = Gama | first2 = J.| title = Tensor-based anomaly detection: An interdisciplinary survey | doi = 10.1016/j.knosys.2016.01.027 | journal = Knowledge-Based Systems | volume = 98 | pages = 130–147| year = 2016| s2cid = 16368060 | url = http://repositorio.inesctec.pt/handle/123456789/5381 }}</ref> उच्च-आयामी डेटा के लिए बाहरी पहचान<ref>{{cite journal | last1 = Zimek | first1 = A. | author-link1 = Arthur Zimek | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अपर्यवेक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012 | s2cid = 6724536 }}</ref>
 
* वन-क्लास [[समर्थन वेक्टर मशीन]]<ref>{{cite journal|last1=Schölkopf|first1=B.|author-link=Bernhard Schölkopf|last2=Platt|first2=J. C.|last3=Shawe-Taylor|first3=J.|last4=Smola|first4=A. J.|last5=Williamson|first5=R. C.|year=2001|title=उच्च-आयामी वितरण के समर्थन का अनुमान लगाना|journal=Neural Computation|volume=13|issue=7|pages=1443–71|citeseerx=10.1.1.4.4106|doi=10.1162/089976601750264965|pmid=11440593|s2cid=2110475}}</ref>
* स्टेटिस्टिक्स (स्टैन्डर्ड स्कोर, टुकी का रेंज टेस्ट और ग्रब्स का टेस्ट)
* रेप्लिकेटर [[तंत्रिका नेटवर्क]],<ref name="replicator">{{cite book |doi=10.1007/3-540-46145-0_17 |chapter=Outlier Detection Using Replicator Neural Networks |title=डेटा वेयरहाउसिंग और नॉलेज डिस्कवरी|volume=2454 |pages=170–180 |year=2002 |last1=Hawkins |first1=Simon |last2=He |first2=Hongxing |last3=Williams |first3=Graham |last4=Baxter |first4=Rohan |isbn=978-3-540-44123-6 |series=Lecture Notes in Computer Science |citeseerx=10.1.1.12.3366 }}</ref> ऑटोएनकोडर#विसंगति का पता लगाना, वैरिएबल ऑटोएनकोडर,<ref>J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015.</ref> [[दीर्घकालिक अल्पकालिक स्मृति]] तंत्रिका नेटवर्क<ref>{{Cite conference|last1=Malhotra|first1=Pankaj|last2=Vig|first2=Lovekesh|last3=Shroff|first3=Gautman|last4=Agarwal|first4=Puneet|title=समय श्रृंखला में विसंगति का पता लगाने के लिए दीर्घकालिक अल्पकालिक मेमोरी नेटवर्क|url=https://www.researchgate.net/publication/304782562|conference=European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning|language=en|date=22–24 April 2015|location=Bruges (Belgium)}}</ref>
* डेंसिटी-बेस्ड टेक्नीक (K-नीयरेस्ट नेबर एल्गोरिदम, <ref>{{cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237–253| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842| s2cid = 11707259}}</ref><ref>{{cite conference | doi = 10.1145/342009.335437| title = बड़े डेटा सेट से आउटलेर खनन के लिए कुशल एल्गोरिदम| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1-58113-217-4}}</ref><ref>{{cite conference | doi = 10.1007/3-540-45681-3_2| title = उच्च आयामी स्थानों में तेजी से बाहरी जांच| conference = Principles of Data Mining and Knowledge Discovery| volume = 2431| pages = 15| series = Lecture Notes in Computer Science| year = 2002| last1 = Angiulli | first1 = F. | last2 = Pizzuti | first2 = C. | isbn = 978-3-540-44037-6| doi-access = free}}</ref> लोकल आउटलायर फैक्टर, <ref>{{cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | author-link2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref> आइसोलेशन फारेस्ट, <ref>{{Cite book|last1=Liu|first1=Fei Tony|last2=Ting|first2=Kai Ming|last3=Zhou|first3=Zhi-Hua|title=2008 Eighth IEEE International Conference on Data Mining |chapter=Isolation Forest |date=December 2008|url=https://www.computer.org/csdl/proceedings/icdm/2008/3502/00/3502a413-abs.html|language=en|pages=413–422|doi=10.1109/ICDM.2008.17|isbn=9780769535029|s2cid=6505449}}</ref><ref>{{Cite journal|last1=Liu|first1=Fei Tony|last2=Ting|first2=Kai Ming|last3=Zhou|first3=Zhi-Hua|date=March 2012|title=अलगाव-आधारित विसंगति का पता लगाना|url=https://www.researchgate.net/publication/239761771|journal=ACM Transactions on Knowledge Discovery from Data |language=en|volume=6|issue=1|pages=1–39|doi=10.1145/2133360.2133363|s2cid=207193045}}</ref> और इस अवनोशन वेरिएशन <ref>{{cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | author-link2 = Arthur Zimek | last3 = Kriegel | first3 = H. -P. | s2cid = 19036098 | author-link3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 }}</ref>)
* [[बायेसियन नेटवर्क]]<ref name="replicator"/>* [[छिपा हुआ मार्कोव मॉडल]] (एचएमएम)<ref name="replicator"/>* [[न्यूनतम सहप्रसरण निर्धारक]]<ref>{{Cite journal|last1=Hubert|first1=Mia|author-link=Mia Hubert|last2=Debruyne|first2=Michiel|last3=Rousseeuw|first3=Peter J.|author-link3=Peter J. Rousseeuw|date=2018|title=न्यूनतम सहप्रसरण निर्धारक और विस्तार|journal=WIREs Computational Statistics|language=en|volume=10|issue=3|doi=10.1002/wics.1421|s2cid=67227041 |issn=1939-5108|doi-access=free}}</ref><ref>{{Cite journal|last1=Hubert|first1=Mia|author-link=Mia Hubert|last2=Debruyne|first2=Michiel|date=2010|title=न्यूनतम सहप्रसरण निर्धारक|url=https://onlinelibrary.wiley.com/doi/abs/10.1002/wics.61|journal=WIREs Computational Statistics|language=en|volume=2|issue=1|pages=36–43|doi=10.1002/wics.61|s2cid=123086172 |issn=1939-0068}}</ref>
* सबस्पेस-,<ref name=":0">{{cite conference | doi = 10.1007/978-3-642-01307-2_86| title = उच्च आयामी डेटा के अक्ष-समानांतर उप-स्थानों में बाह्य जांच| conference = Advances in Knowledge Discovery and Data Mining| volume = 5476| pages = 831| series = Lecture Notes in Computer Science| year = 2009| last1 = Kriegel | first1 = H. P. | author-link1 = Hans-Peter Kriegel| last2 = Kröger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | author-link4 = Arthur Zimek | isbn = 978-3-642-01306-5}}</ref> कोरिलेशन बेस्ड <ref name=":1">{{cite conference | doi = 10.1109/ICDM.2012.21| title = मनमाने ढंग से उन्मुख उपस्थानों में बाह्य जांच| conference = 2012 IEEE 12th International Conference on Data Mining| pages = 379| year = 2012| last1 = Kriegel | first1 = H. P. | author-link1 = Hans-Peter Kriegel| last2 = Kroger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | author-link4 = Arthur Zimek | isbn = 978-1-4673-4649-8}}</ref> और टेंसर-बेस्ड <ref>{{cite journal | last1 = Fanaee-T| first1 = H. | last2 = Gama | first2 = J.| title = Tensor-based anomaly detection: An interdisciplinary survey | doi = 10.1016/j.knosys.2016.01.027 | journal = Knowledge-Based Systems | volume = 98 | pages = 130–147| year = 2016| s2cid = 16368060 | url = http://repositorio.inesctec.pt/handle/123456789/5381 }}</ref> उच्च-आयामी डेटा के लिए आउटलायर डिटेक्शन <ref>{{cite journal | last1 = Zimek | first1 = A. | author-link1 = Arthur Zimek | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | author-link3=Hans-Peter Kriegel| title = उच्च-आयामी संख्यात्मक डेटा में अपर्यवेक्षित बाहरी पहचान पर एक सर्वेक्षण| doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012 | s2cid = 6724536 }}</ref>
* क्लस्टरिंग: [[क्लस्टर विश्लेषण]]-आधारित बाहरी पहचान<ref>{{cite journal | doi = 10.1016/S0167-8655(03)00003-5| title = क्लस्टर-आधारित स्थानीय आउटलेर्स की खोज करना| journal = Pattern Recognition Letters| volume = 24| issue = 9–10| pages = 1641–1650| year = 2003| last1 = He | first1 = Z. | last2 = Xu | first2 = X. | last3 = Deng | first3 = S. | bibcode = 2003PaReL..24.1641H| citeseerx = 10.1.1.20.4242}}</ref><ref>{{cite journal
* वन-क्लास [[समर्थन वेक्टर मशीन|सपोर्ट वेक्टर मशीन]] <ref>{{cite journal|last1=Schölkopf|first1=B.|author-link=Bernhard Schölkopf|last2=Platt|first2=J. C.|last3=Shawe-Taylor|first3=J.|last4=Smola|first4=A. J.|last5=Williamson|first5=R. C.|year=2001|title=उच्च-आयामी वितरण के समर्थन का अनुमान लगाना|journal=Neural Computation|volume=13|issue=7|pages=1443–71|citeseerx=10.1.1.4.4106|doi=10.1162/089976601750264965|pmid=11440593|s2cid=2110475}}</ref>
* रेप्लिकेटर [[तंत्रिका नेटवर्क|न्यूरल नेटवर्क]], <ref name="replicator">{{cite book |doi=10.1007/3-540-46145-0_17 |chapter=Outlier Detection Using Replicator Neural Networks |title=डेटा वेयरहाउसिंग और नॉलेज डिस्कवरी|volume=2454 |pages=170–180 |year=2002 |last1=Hawkins |first1=Simon |last2=He |first2=Hongxing |last3=Williams |first3=Graham |last4=Baxter |first4=Rohan |isbn=978-3-540-44123-6 |series=Lecture Notes in Computer Science |citeseerx=10.1.1.12.3366 }}</ref> अनोमली डिटेक्शन, वैरिएबल ऑटोएनकोडर, <ref>J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015.</ref> लॉन्ग शार्ट-टर्म मेमोरी न्यूरल नेटवर्क्स <ref>{{Cite conference|last1=Malhotra|first1=Pankaj|last2=Vig|first2=Lovekesh|last3=Shroff|first3=Gautman|last4=Agarwal|first4=Puneet|title=समय श्रृंखला में विसंगति का पता लगाने के लिए दीर्घकालिक अल्पकालिक मेमोरी नेटवर्क|url=https://www.researchgate.net/publication/304782562|conference=European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning|language=en|date=22–24 April 2015|location=Bruges (Belgium)}}</ref>
* [[बायेसियन नेटवर्क]] <ref name="replicator" />
*[[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल]] (एचएमएम) <ref name="replicator" />
*मिनिमम डेटर्मिनेन्ट कोवैरीअंस <ref>{{Cite journal|last1=Hubert|first1=Mia|author-link=Mia Hubert|last2=Debruyne|first2=Michiel|last3=Rousseeuw|first3=Peter J.|author-link3=Peter J. Rousseeuw|date=2018|title=न्यूनतम सहप्रसरण निर्धारक और विस्तार|journal=WIREs Computational Statistics|language=en|volume=10|issue=3|doi=10.1002/wics.1421|s2cid=67227041 |issn=1939-5108|doi-access=free}}</ref><ref>{{Cite journal|last1=Hubert|first1=Mia|author-link=Mia Hubert|last2=Debruyne|first2=Michiel|date=2010|title=न्यूनतम सहप्रसरण निर्धारक|url=https://onlinelibrary.wiley.com/doi/abs/10.1002/wics.61|journal=WIREs Computational Statistics|language=en|volume=2|issue=1|pages=36–43|doi=10.1002/wics.61|s2cid=123086172 |issn=1939-0068}}</ref>
* क्लस्टरिंग: [[क्लस्टर विश्लेषण|क्लस्टर एनालिसिस]]-बेस्ड आउटलायर डिटेक्शन <ref>{{cite journal | doi = 10.1016/S0167-8655(03)00003-5| title = क्लस्टर-आधारित स्थानीय आउटलेर्स की खोज करना| journal = Pattern Recognition Letters| volume = 24| issue = 9–10| pages = 1641–1650| year = 2003| last1 = He | first1 = Z. | last2 = Xu | first2 = X. | last3 = Deng | first3 = S. | bibcode = 2003PaReL..24.1641H| citeseerx = 10.1.1.20.4242}}</ref><ref>{{cite journal
| first1 = R. J. G. B. | last1 = Campello
| first1 = R. J. G. B. | last1 = Campello
| first2 = D. | last2 = Moulavi
| first2 = D. | last2 = Moulavi
Line 40: Line 46:
| journal = ACM Transactions on Knowledge Discovery from Data
| journal = ACM Transactions on Knowledge Discovery from Data
| volume = 10 | issue = 1 | pages = 5:1–51 | year = 2015 | doi = 10.1145/2733381}}</ref>
| volume = 10 | issue = 1 | pages = 5:1–51 | year = 2015 | doi = 10.1145/2733381}}</ref>
* एसोसिएशन नियम सीखने और लगातार आइटमसेट से विचलन
* एसोसिएशन रूल्स फ्रीक्वेंट आइटमसेट डेविएशन
* फ़ज़ी लॉजिक-आधारित बाहरी पहचान
* फ़ज़ी लॉजिक-बेस्ड आउटलायर डिटेक्शन
[[यादृच्छिक उपस्थान विधि]] पद्धति का उपयोग करके सामूहिक शिक्षण,<ref>{{cite book| doi = 10.1145/1081870.1081891| title = बाहरी पहचान के लिए फ़ीचर बैगिंग| year = 2005| last1 = Lazarevic | first1 = A.| last2 = Kumar | first2 = V.| pages = 157–166| journal = Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining| isbn = 978-1-59593-135-1| citeseerx = 10.1.1.399.425| s2cid = 2054204}}</ref><ref>{{cite conference | doi = 10.1007/978-3-642-12026-8_29| title = यादृच्छिक उपस्थानों पर विषम डिटेक्टरों के समूह के साथ खनन आउटलेयर| conference = Database Systems for Advanced Applications| volume = 5981| pages = 368| series = Lecture Notes in Computer Science| year = 2010| last1 = Nguyen | first1 = H. V. | last2 = Ang | first2 = H. H. | last3 = Gopalkrishnan | first3 = V. | isbn = 978-3-642-12025-1}}</ref> स्कोर सामान्यीकरण<ref>{{cite conference | doi = 10.1137/1.9781611972818.2| title = बाहरी स्कोरों की व्याख्या करना और उन्हें एकीकृत करना| conference = Proceedings of the 2011 SIAM International Conference on Data Mining| pages = 13–24| year = 2011| last1 = Kriegel | first1 = H. P. | author-link1 = Hans-Peter Kriegel| last2 = Kröger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | author-link4 = Arthur Zimek | isbn = 978-0-89871-992-5| citeseerx = 10.1.1.232.2719}}</ref><ref>{{cite conference | doi = 10.1137/1.9781611972825.90| title = बाहरी रैंकिंग और बाहरी स्कोर के मूल्यांकन पर| conference = Proceedings of the 2012 SIAM International Conference on Data Mining| pages = 1047–1058| year = 2012| last1 = Schubert | first1 = E. | last2 = Wojdanowski | first2 = R. | last3 = Zimek | first3 = A. | author-link3 = Arthur Zimek | last4 = Kriegel | first4 = H. P. | author-link4 = Hans-Peter Kriegel| isbn = 978-1-61197-232-0}}</ref> और विविधता के विभिन्न स्रोत<ref>{{cite journal | doi = 10.1145/2594473.2594476| title = बिना पर्यवेक्षित बाहरी पहचान के लिए समूह| journal = ACM SIGKDD Explorations Newsletter| volume = 15| pages = 11–22| year = 2014| last1 = Zimek | first1 = A. | author-link1 = Arthur Zimek | last2 = Campello | first2 = R. J. G. B. | last3 = Sander | first3 = J. R. | s2cid = 8065347}}</ref><ref>{{cite conference | doi = 10.1145/2618243.2618257| title = बाह्य पहचान संयोजनों के लिए डेटा गड़बड़ी| conference = Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14| pages = 1| year = 2014| last1 = Zimek | first1 = A. | author-link1 = Arthur Zimek | last2 = Campello | first2 = R. J. G. B. | last3 = Sander | first3 = J. R. | isbn = 978-1-4503-2722-0}}</ref>
*[[यादृच्छिक उपस्थान विधि|रैंडम सबस्पेस मेथड]] का उपयोग करके एन्सेम्बल टेक्नीक, <ref>{{cite book| doi = 10.1145/1081870.1081891| title = बाहरी पहचान के लिए फ़ीचर बैगिंग| year = 2005| last1 = Lazarevic | first1 = A.| last2 = Kumar | first2 = V.| pages = 157–166| journal = Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining| isbn = 978-1-59593-135-1| citeseerx = 10.1.1.399.425| s2cid = 2054204}}</ref><ref>{{cite conference | doi = 10.1007/978-3-642-12026-8_29| title = यादृच्छिक उपस्थानों पर विषम डिटेक्टरों के समूह के साथ खनन आउटलेयर| conference = Database Systems for Advanced Applications| volume = 5981| pages = 368| series = Lecture Notes in Computer Science| year = 2010| last1 = Nguyen | first1 = H. V. | last2 = Ang | first2 = H. H. | last3 = Gopalkrishnan | first3 = V. | isbn = 978-3-642-12025-1}}</ref> स्कोर नोर्मलाइजेशन <ref>{{cite conference | doi = 10.1137/1.9781611972818.2| title = बाहरी स्कोरों की व्याख्या करना और उन्हें एकीकृत करना| conference = Proceedings of the 2011 SIAM International Conference on Data Mining| pages = 13–24| year = 2011| last1 = Kriegel | first1 = H. P. | author-link1 = Hans-Peter Kriegel| last2 = Kröger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | author-link4 = Arthur Zimek | isbn = 978-0-89871-992-5| citeseerx = 10.1.1.232.2719}}</ref><ref>{{cite conference | doi = 10.1137/1.9781611972825.90| title = बाहरी रैंकिंग और बाहरी स्कोर के मूल्यांकन पर| conference = Proceedings of the 2012 SIAM International Conference on Data Mining| pages = 1047–1058| year = 2012| last1 = Schubert | first1 = E. | last2 = Wojdanowski | first2 = R. | last3 = Zimek | first3 = A. | author-link3 = Arthur Zimek | last4 = Kriegel | first4 = H. P. | author-link4 = Hans-Peter Kriegel| isbn = 978-1-61197-232-0}}</ref> और डिफरेंट सोर्सेज ऑफ़ डाइवर्सिटी <ref>{{cite journal | doi = 10.1145/2594473.2594476| title = बिना पर्यवेक्षित बाहरी पहचान के लिए समूह| journal = ACM SIGKDD Explorations Newsletter| volume = 15| pages = 11–22| year = 2014| last1 = Zimek | first1 = A. | author-link1 = Arthur Zimek | last2 = Campello | first2 = R. J. G. B. | last3 = Sander | first3 = J. R. | s2cid = 8065347}}</ref><ref>{{cite conference | doi = 10.1145/2618243.2618257| title = बाह्य पहचान संयोजनों के लिए डेटा गड़बड़ी| conference = Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14| pages = 1| year = 2014| last1 = Zimek | first1 = A. | author-link1 = Arthur Zimek | last2 = Campello | first2 = R. J. G. B. | last3 = Sander | first3 = J. R. | isbn = 978-1-4503-2722-0}}</ref>
विधियों का प्रदर्शन डेटा सेट और मापदंडों पर निर्भर करता है, और कई डेटा सेटों और मापदंडों की तुलना में विधियों का दूसरे की तुलना में बहुत कम व्यवस्थित लाभ होता है।<ref name="CamposZimek2016">{{cite journal|last1=Campos|first1=Guilherme O.|last2=Zimek|first2=Arthur|author-link2=Arthur Zimek|last3=Sander|first3=Jörg|last4=Campello|first4=Ricardo J. G. B.|last5=Micenková|first5=Barbora|last6=Schubert|first6=Erich|last7=Assent|first7=Ira|last8=Houle|first8=Michael E.|s2cid=1952214|title=On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study|journal=Data Mining and Knowledge Discovery|volume=30|issue=4|pages=891|year=2016|issn=1384-5810|doi=10.1007/s10618-015-0444-8}}</ref><ref>[http://www.dbs.ifi.lmu.de/research/outlier-evaluation/ Anomaly detection benchmark data repository] of the [[Ludwig-Maximilians-Universität München]]; [http://lapad-web.icmc.usp.br/repositories/outlier-evaluation/ Mirror] at [[University of São Paulo]].</ref>
विधियों का परफॉरमेंस डेटा सेट और पैरामीटर पर निर्भर करता है, और कई डेटा सेटों और पैरामीटर के कमपैरीजन में विधियों का दूसरे के कमपैरीजन में बहुत कम व्यवस्थित लाभ होता है। <ref name="CamposZimek2016">{{cite journal|last1=Campos|first1=Guilherme O.|last2=Zimek|first2=Arthur|author-link2=Arthur Zimek|last3=Sander|first3=Jörg|last4=Campello|first4=Ricardo J. G. B.|last5=Micenková|first5=Barbora|last6=Schubert|first6=Erich|last7=Assent|first7=Ira|last8=Houle|first8=Michael E.|s2cid=1952214|title=On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study|journal=Data Mining and Knowledge Discovery|volume=30|issue=4|pages=891|year=2016|issn=1384-5810|doi=10.1007/s10618-015-0444-8}}</ref><ref>[http://www.dbs.ifi.lmu.de/research/outlier-evaluation/ Anomaly detection benchmark data repository] of the [[Ludwig-Maximilians-Universität München]]; [http://lapad-web.icmc.usp.br/repositories/outlier-evaluation/ Mirror] at [[University of São Paulo]].</ref>




== व्याख्या योग्य विसंगति का पता लगाना ==
ऊपर चर्चा की गई कई विधियाँ केवल एक विसंगति स्कोर भविष्यवाणी उत्पन्न करती हैं, जिसे अक्सर उपयोगकर्ताओं को कम डेटा घनत्व (या पड़ोसी के घनत्व की तुलना में अपेक्षाकृत कम घनत्व) के क्षेत्र में होने वाले बिंदु के रूप में समझाया जा सकता है। [[समझाने योग्य कृत्रिम बुद्धिमत्ता]] में, उपयोगकर्ता उच्च व्याख्यात्मकता वाले तरीकों की मांग करते हैं। कुछ विधियाँ अधिक विस्तृत स्पष्टीकरण की अनुमति देती हैं:


* सबस्पेस आउटलायर डिग्री (एसओडी)<ref name=":0" />उन विशेषताओं की पहचान करता है जहां एक नमूना सामान्य है, और उन विशेषताओं की पहचान करता है जिनमें नमूना अपेक्षित से विचलित होता है।
== एक्सप्लेनेबल अनोमली डिटेक्शन ==
* सहसंबंध बाहरी संभावनाएं (सीओपी)<ref name=":1" />एक त्रुटि वेक्टर की गणना करें कि एक नमूना बिंदु अपेक्षित स्थान से कैसे विचलित होता है, जिसे एक प्रतितथ्यात्मक स्पष्टीकरण के रूप में व्याख्या किया जा सकता है: यदि नमूना उस स्थान पर ले जाया गया तो वह सामान्य होगा।
ऊपर डिसकस किये गए कई मेथड केवल एक अनोमली स्कोर प्रेडिक्शन उत्पन्न करती हैं, जिसे प्रायः यूजर को कम डेटा डेंसिटी (या नेबर डेंसिटी के कमपैरीजन में अपेक्षाकृत कम डेंसिटी) के रीजन में होने वाले पॉइंट के रूप में समझाया जा सकता है। [[समझाने योग्य कृत्रिम बुद्धिमत्ता|एक्सप्लेनेबल आर्टिफीशियल इंटेलिजेंस]] में, यूजर हायर एक्सप्लेनेबिलिटी वाले मेथड की मांग करते हैं। कुछ मेथड अधिक डिटेल्ड एक्सप्लनेशन अलाव करता है:
 
* सबस्पेस आउटलायर डिग्री (एसओडी) <ref name=":0" /> उन ऐट्रिब्यूट्स की डिटेक्शन करता है जहां एक सैंपल नॉर्मल है, और उन ऐट्रिब्यूट्स की डिटेक्शन करता है जिनमें सैंपल एक्सपेक्टेड से डेविएट होता है।
* कोरिलेशन आउटलायर प्रोबबिलिटीज़ (सीओपी) <ref name=":1" /> एक एरर वेक्टर की गणना करें कि एक सैंपल पॉइंट एक्सपेक्टेड लोकेशन से कैसे डेविएट होता है, जिसे एक काउंटर फैकट्यूअल एक्सप्लनेशन के रूप में एक्सप्लेन किया जा सकता है: यदि सैंपल उस स्थान पर ले जाया गया तो वह नॉर्मल होगा।


== सॉफ्टवेयर ==
== सॉफ्टवेयर ==
*ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई विसंगति का पता लगाने वाले एल्गोरिदम, साथ ही उनके लिए सूचकांक त्वरण शामिल है।
*ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई अनोमली डिटेक्शन वाले एल्गोरिदम, साथ ही उनके लिए इंडेक्स अक्सेलरेशन सम्मिलित है।
*PyOD एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे विशेष रूप से विसंगति का पता लगाने के लिए विकसित किया गया है।<ref>{{cite news |last1= Zhao |first1= Yue |last2= Nasrullah |first2= Zain |last3= Li |first3= Zheng |author-link= |date=2019 |title=Pyod: A python toolbox for scalable outlier detection |url= |location= |publisher=Journal of Machine Learning Research |page= |isbn=}}</ref>
*पीवाईओडी एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे स्पेशियली अनोमली डिटेक्शन के लिए डेवलप किया गया है। <ref>{{cite news |last1= Zhao |first1= Yue |last2= Nasrullah |first2= Zain |last3= Li |first3= Zheng |author-link= |date=2019 |title=Pyod: A python toolbox for scalable outlier detection |url= |location= |publisher=Journal of Machine Learning Research |page= |isbn=}}</ref>
*[[स्किकिट-लर्न]] एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना पर्यवेक्षित विसंगति का पता लगाने के लिए कुछ एल्गोरिदम शामिल हैं।
*[[स्किकिट-लर्न]] एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए कुछ एल्गोरिदम सम्मिलित हैं।
* [[वोल्फ्राम मैथमैटिका]] कई डेटा प्रकारों में बिना पर्यवेक्षित विसंगति का पता लगाने के लिए कार्यक्षमता प्रदान करता है <ref>[https://reference.wolfram.com/language/ref/FindAnomalies.html] Mathematica documentation</ref>
* [[वोल्फ्राम मैथमैटिका]] कई डेटा टाइप में बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए फंक्शनलिटी प्रदान करता है <ref>[https://reference.wolfram.com/language/ref/FindAnomalies.html] Mathematica documentation</ref>




== डेटासेट ==
== डेटासेट ==
* [http://www.dbs.ifi.lmu.de/research/outlier-evaluation/ विसंगति का पता लगाने वाले बेंचमार्क डेटा रिपॉजिटरी] लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट मुन्चेन के सावधानीपूर्वक चुने गए डेटा सेट के साथ; [http://lapad-web.icmc.usp.br/repositories/outlier-evaluation/ मिरर] साओ पाउलो विश्वविद्यालय में।
* [http://www.dbs.ifi.lmu.de/research/outlier-evaluation/ अनोमली डिटेक्शन बेंचमार्क डेटा रिपॉजिटरी] लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट मुन्चेन के केयरफूली चूज़न डेटा सेट के साथ; साओ पाउलो विश्वविद्यालय में [http://lapad-web.icmc.usp.br/repositories/outlier-evaluation/ मिरर] है।
* [http://odds.cs.stoneybrook.edu/ ODDS] - ODDS: विभिन्न डोमेन में जमीनी [[सच्चाई]] के साथ सार्वजनिक रूप से उपलब्ध बाहरी पहचान डेटासेट का एक बड़ा संग्रह।
* [http://odds.cs.stoneybrook.edu/ ओडीडीएस] - ओडीडीएस: विभिन्न डोमेन में ग्राउंड ट्रुथ के साथ पब्लिक्ली अवेलेबल आउटलायर डिटेक्शन डेटासेट का एक बड़ा कलेक्शन।
* [https://datavers.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OPQMVF अनसुपरवाइज्ड एनोमली डिटेक्शन बेंचमार्क] हार्वर्ड डेटावर्स में: जमीनी सच्चाई के साथ अनसुपरवाइज्ड एनोमली डिटेक्शन के लिए डेटासेट।
* [https://datavers.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OPQMVF अनसुपरवाइज्ड एनोमली डिटेक्शन बेंचमार्क] हार्वर्ड डेटावर्स में: ग्राउंड ट्रुथ के साथ अनसुपरवाइज्ड एनोमली डिटेक्शन के लिए डेटासेट।
* [https://researchdata.edu.au/kmash-repository-outlier-detection/1733742/ KMASH डेटा रिपॉजिटरी] रिसर्च डेटा ऑस्ट्रेलिया में जमीनी सच्चाई के साथ 12,000 से अधिक विसंगति का पता लगाने वाले डेटासेट हैं।
* [https://researchdata.edu.au/kmash-repository-outlier-detection/1733742/ के मैश डेटा रिपॉजिटरी] रिसर्च डेटा ऑस्ट्रेलिया में ग्राउंड ट्रुथ के साथ 12,000 से अधिक अनोमली डिटेक्शन वाले डेटासेट हैं।


== यह भी देखें ==
== यह भी देखें ==
* परिवर्तन का पता लगाना
* चेंज डिटेक्शन
* [[सांख्यिकीय प्रक्रिया नियंत्रण]]
* [[सांख्यिकीय प्रक्रिया नियंत्रण|स्टैटिस्टिकल प्रोसेस कण्ट्रोल]]
* [[नवीनता का पता लगाना]]
* [[नवीनता का पता लगाना|नोवेल्टी डिटेक्शन]]
* [[पदानुक्रमित लौकिक स्मृति]]
* [[पदानुक्रमित लौकिक स्मृति|हाईरारचीकल टेम्पोरल मेमोरी]]


== संदर्भ ==
== संदर्भ ==
Line 75: Line 82:


{{Authority control}}
{{Authority control}}
[[Category: डेटा खनन]] [[Category: यंत्र अधिगम]] [[Category: डाटा सुरक्षा]] [[Category: सांख्यिकीय आउटलेर्स]]


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category:CS1]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 27/07/2023]]
[[Category:Created On 27/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Translated in Hindi]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:डाटा सुरक्षा]]
[[Category:डेटा खनन]]
[[Category:यंत्र अधिगम]]
[[Category:सांख्यिकीय आउटलेर्स]]

Latest revision as of 17:25, 21 August 2023

डाटा एनालिसिस में, अनोमली डिटेक्शन (जिसे आउटलायर डिटेक्शन और कभी-कभी नोवेल्टी डिटेक्शन भी कहा जाता है) को सामान्यतः रेयर आइटम, इवेंट या ऑब्जरवेशन की आइडेंटिफिकेशन के रूप में समझा जाता है जो मैजोरिटी डाटा से सिग्निफिकैंटली डेविएट होते हैं और नार्मल बेहेवियर की एक अच्छी तरह से विस्तारित नोशन के कन्फॉर्म नहीं होते हैं। [1] ऐसे उदाहरण किसी डिफरेंट मैकेनिज्म द्वारा उत्पन्न होने का ससपिशिअन अराउस कर सकते हैं, [2] या डेटा के उस सेट के रिमेनडर के साथ इन्कन्सीस्टेन्ट अपीयर होता है। [3]

अनोमली डिटेक्शन का उपयोग साइबर सिक्योरिटी, मेडिसिन, मशीन विज़न, स्टेटिस्टिक्स, न्यूरोसाइंस, लॉ एनफोर्समेंट और फाइनेंशियल फ्रॉड सहित कई डोमेन में किया जाता है। स्टेटिस्टिक्स एनालिसिस में हेल्प के लिए स्टार्टिंग में डेटा से क्लियर रिजेक्शन या ओमिशन के लिए एनालिसिस की खोज की गई थी, उदाहरण के लिए मीन या स्टैन्डर्ड डेविएशन की गणना करने के लिए की गई थी। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर प्रेडिक्शन के लिए भी हटा दिया गया था, और हाल ही में उनका रिमूवल मशीन लर्निंग एल्गोरिदम के परफॉरमेंस में हेल्प करता है। हालाँकि, कई ऍप्लिकेशन्स में अनोमालिस स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित ऑब्जरवेशन होती हैं, जिन्हें डिटेक्शनने और नॉइज़ या इर्रेलेवेंट आउटलेर्स से सेपरेट करने की आवश्यकता होती है।

अनोमली डिटेक्शन की टेक्नीकों की तीन ब्रॉड केटेगरी उपस्थित हैं। [1] सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे नॉर्मल और अबनॉर्मल रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को ट्रेनिंग करना सम्मिलित है। हालाँकि, लेबल किए गए डेटा की नॉर्मल अनअवेलेबिलिटी और क्लास की इन्हेरेंट अनबैलेंस्ड नेचर के कारण अनोमली डिटेक्शन में इस एप्रोच का उपयोग संभवतः कभी किया जाता है। सेमि-सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह नॉर्मल या अबनॉर्मल डेटा का कोई भी कॉम्बिनेशन हो सकता है, लेकिन अधिकतर टेक्नीक किसी दिए गए नॉर्मल प्रलर्निंग डेटा सेट से नॉर्मल बिहेवियर को रिप्रेजेंट करने वाला एक मॉडल बनाती हैं, और फिर एक ट्रेनिंग उदाहरण उत्पन्न होने की संभावना का टेस्ट करती हैं। अनसुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा अनलेबल है और उनके वाइडर और रिलेवेंट एप्लीकेशन के कारण अब तक सबसे अधिक उपयोग किया जाता है।

परिभाषा

किसी अनोमली को डिफाइन करने के लिए स्टेटिस्टिक्स और कंप्यूटर साइंस कम्युनिटी में कई एटेम्पट किए गए हैं। सबसे अधिक प्रीवलेंट वन में सम्मिलित हैं:

  • आउटलायर वह ऑब्जरवेशन है जो अन्य ऑब्जरवेशन से इतना अधिक डेविएट हो जाता है कि यह ससपिशियन अराउस हो जाता है कि यह एक अलग मैकेनिज्म द्वारा जेनेरेट किया गया था। [2]
  • अनोमली डेटा के उदाहरण या कलेक्शन हैं जो डेटा सेट में बहुत कम होते हैं और जिनके फीचर सिग्नीफिकेंट डेटा से काफी भिन्न होती हैं।
  • आउटलायर एक ऑब्जरवेशन (या ऑब्जरवेशन का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ इन्कन्सीस्टेन्ट प्रतीत होता है। [3]
  • अनोमली एक पॉइंट या पॉइंट का कलेक्शन है जो सुविधाओं के मल्टी-डायमेंशनल स्थान में अन्य पॉइंट से रिलेटिवली डिस्टेंट है।
  • अनोमली डेटा में ऐसे पैटर्न हैं जो नॉर्मल बिहेवियर की अच्छी तरह से विस्तारित नोशन के अनुरूप नहीं हैं। [1]
  • मान लीजिए T एक अविभाज्य गॉसियन वितरण से ऑब्जरवेशन है और O, T से एक पॉइंट है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक आउटलायर है।

एप्लीकेशन

अनोमली डिटेक्शन बहुत बड़ी नंबर और डिफरेंट डोमेन में लागू होता है, और यह अनसुपरवाइज़ड मशीन लर्निंग का एक महत्वपूर्ण सबएरिया है। जैसे कि इसमें साइबर इन्ट्रूशन डिटेक्शन का पता लगाने, फ्रॉड डिटेक्शन, फाल्ट डिटेक्शन, सिस्टम हेल्थ मॉनिटरिंग, ​​​​सेंसर नेटवर्क में इवेंट डिटेक्शन, डिटेक्टिंग इकोसिस्टम डिस्टर्बैंसेस, मशीन विज़न का उपयोग करके इमेजेज में डिफेक्ट का पता लगाने, मेडिसिन डायग्नोसिस और लॉ एनफोर्समेंट में एप्लीकेशन हैं। [4]

1986 में डोरोथी ई. डेनिंग द्वारा इन्ट्रूशन डिटेक्शन वाले सिस्टम (आईडीएस) के लिए अनोमली डिटेक्शन का प्रस्ताव दिया गया था। [5] आईडीएस के लिए अनोमली डिटेक्शन सामान्यतः थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन सॉफ्ट कंप्यूटिंग और इंडक्टिव लर्निंग के साथ भी किया जा सकता है। [6] 1999 तक प्रपोज़ आँकड़ों के प्रकारों में यूजर के प्रोफाइल, वर्कस्टेशन, नेटवर्क, रिमोट होस्ट, यूजर के ग्रुप और फ्रीक्वेंसी, मीन्स, वैरिएंसेस, कोवैरियन्स और स्टैन्डर्ड डेविएशनों पर बेस्ड कार्यक्रम सम्मिलित थे। [7] इन्ट्रूशन डिटेक्शन में अनोमली डिटेक्शन का इन्ट्रूशन मिसयूज़ डिटेक्शन है।

इसका उपयोग प्रायः डेटा प्री-प्रोसेसिंग में डेटासेट से इन्कन्सीस्टेन्ट डेटा को रिमूव करने के लिए किया जाता है। ऐसा कई रीज़न से किया जाता है। एनालिसिस को दूर करने के बाद मीन और स्टैन्डर्ड डेविएशन जैसे डेटा के स्टैटिक्स अधिक एक्यूरेट होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। सुपरवाइज़ड लर्निंग में, डेटासेट से इन्कन्सीस्टेन्ट डेटा को हटाने से प्रायः सिग्नीफिकेंट में स्टेटिस्टिक्स रूप से महत्वपूर्ण वृद्धि होती है। [8][9] अनोमली भी प्रायः पाए जाने वाले डेटा में सबसे महत्वपूर्ण ऑब्जरवेशन होती हैं जैसे कि इन्ट्रूशन का पता लगाना या मेडिसिन इमेजेज में अब्नोर्मलिटीज़ डिटेक्ट करते हैं।

पॉपुलर टेक्नीक

साहित्य में अनोमली डिटेक्शन की कई टेक्नीक प्रपोज़ की गई हैं। [1][10] कुछ पॉपुलर टेक्नीक हैं:

  • स्टेटिस्टिक्स (स्टैन्डर्ड स्कोर, टुकी का रेंज टेस्ट और ग्रब्स का टेस्ट)
  • डेंसिटी-बेस्ड टेक्नीक (K-नीयरेस्ट नेबर एल्गोरिदम, [11][12][13] लोकल आउटलायर फैक्टर, [14] आइसोलेशन फारेस्ट, [15][16] और इस अवनोशन वेरिएशन [17])
  • सबस्पेस-,[18] कोरिलेशन बेस्ड [19] और टेंसर-बेस्ड [20] उच्च-आयामी डेटा के लिए आउटलायर डिटेक्शन [21]
  • वन-क्लास सपोर्ट वेक्टर मशीन [22]
  • रेप्लिकेटर न्यूरल नेटवर्क, [23] अनोमली डिटेक्शन, वैरिएबल ऑटोएनकोडर, [24] लॉन्ग शार्ट-टर्म मेमोरी न्यूरल नेटवर्क्स [25]
  • बायेसियन नेटवर्क [23]
  • हिडन मार्कोव मॉडल (एचएमएम) [23]
  • मिनिमम डेटर्मिनेन्ट कोवैरीअंस [26][27]
  • क्लस्टरिंग: क्लस्टर एनालिसिस-बेस्ड आउटलायर डिटेक्शन [28][29]
  • एसोसिएशन रूल्स फ्रीक्वेंट आइटमसेट डेविएशन
  • फ़ज़ी लॉजिक-बेस्ड आउटलायर डिटेक्शन
  • रैंडम सबस्पेस मेथड का उपयोग करके एन्सेम्बल टेक्नीक, [30][31] स्कोर नोर्मलाइजेशन [32][33] और डिफरेंट सोर्सेज ऑफ़ डाइवर्सिटी [34][35]

विधियों का परफॉरमेंस डेटा सेट और पैरामीटर पर निर्भर करता है, और कई डेटा सेटों और पैरामीटर के कमपैरीजन में विधियों का दूसरे के कमपैरीजन में बहुत कम व्यवस्थित लाभ होता है। [36][37]


एक्सप्लेनेबल अनोमली डिटेक्शन

ऊपर डिसकस किये गए कई मेथड केवल एक अनोमली स्कोर प्रेडिक्शन उत्पन्न करती हैं, जिसे प्रायः यूजर को कम डेटा डेंसिटी (या नेबर डेंसिटी के कमपैरीजन में अपेक्षाकृत कम डेंसिटी) के रीजन में होने वाले पॉइंट के रूप में समझाया जा सकता है। एक्सप्लेनेबल आर्टिफीशियल इंटेलिजेंस में, यूजर हायर एक्सप्लेनेबिलिटी वाले मेथड की मांग करते हैं। कुछ मेथड अधिक डिटेल्ड एक्सप्लनेशन अलाव करता है:

  • सबस्पेस आउटलायर डिग्री (एसओडी) [18] उन ऐट्रिब्यूट्स की डिटेक्शन करता है जहां एक सैंपल नॉर्मल है, और उन ऐट्रिब्यूट्स की डिटेक्शन करता है जिनमें सैंपल एक्सपेक्टेड से डेविएट होता है।
  • कोरिलेशन आउटलायर प्रोबबिलिटीज़ (सीओपी) [19] एक एरर वेक्टर की गणना करें कि एक सैंपल पॉइंट एक्सपेक्टेड लोकेशन से कैसे डेविएट होता है, जिसे एक काउंटर फैकट्यूअल एक्सप्लनेशन के रूप में एक्सप्लेन किया जा सकता है: यदि सैंपल उस स्थान पर ले जाया गया तो वह नॉर्मल होगा।

सॉफ्टवेयर

  • ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई अनोमली डिटेक्शन वाले एल्गोरिदम, साथ ही उनके लिए इंडेक्स अक्सेलरेशन सम्मिलित है।
  • पीवाईओडी एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे स्पेशियली अनोमली डिटेक्शन के लिए डेवलप किया गया है। [38]
  • स्किकिट-लर्न एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए कुछ एल्गोरिदम सम्मिलित हैं।
  • वोल्फ्राम मैथमैटिका कई डेटा टाइप में बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए फंक्शनलिटी प्रदान करता है [39]


डेटासेट

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 1.3 Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID 207172599.
  2. 2.0 2.1 Hawkins, Douglas M. (1980). आउटलेर्स की पहचान. Chapman and Hall London; New York.
  3. 3.0 3.1 Barnett, Vic; Lewis, Lewis (1978). सांख्यिकीय डेटा में आउटलेर्स. John Wiley & Sons Ltd.
  4. Aggarwal, Charu (2017). बाहरी विश्लेषण. Springer Publishing Company, Incorporated. ISBN 978-3319475776.
  5. Denning, D. E. (1987). "एक घुसपैठ-पहचान मॉडल" (PDF). IEEE Transactions on Software Engineering. SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894. S2CID 10028835. Archived (PDF) from the original on June 22, 2015.
  6. Teng, H. S.; Chen, K.; Lu, S. C. (1990). "Adaptive real-time anomaly detection using inductively generated sequential patterns". Proceedings. 1990 IEEE Computer Society Symposium on Research in Security and Privacy (PDF). pp. 278–284. doi:10.1109/RISP.1990.63857. ISBN 978-0-8186-2060-7. S2CID 35632142.
  7. Jones, Anita K.; Sielken, Robert S. (1999). "Computer System Intrusion Detection: A Survey". Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802.
  8. Tomek, Ivan (1976). "संपादित निकटतम-पड़ोसी नियम के साथ एक प्रयोग". IEEE Transactions on Systems, Man, and Cybernetics. 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523.
  9. Smith, M. R.; Martinez, T. (2011). "Improving classification accuracy by identifying and removing instances that should be misclassified" (PDF). The 2011 International Joint Conference on Neural Networks. p. 2690. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571. ISBN 978-1-4244-9635-8. S2CID 5809822.
  10. Zimek, Arthur; Filzmoser, Peter (2018). "There and back again: Outlier detection between statistical reasoning and data mining algorithms" (PDF). Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8 (6): e1280. doi:10.1002/widm.1280. ISSN 1942-4787. S2CID 53305944.
  11. Knorr, E. M.; Ng, R. T.; Tucakov, V. (2000). "Distance-based outliers: Algorithms and applications". The VLDB Journal the International Journal on Very Large Data Bases. 8 (3–4): 237–253. CiteSeerX 10.1.1.43.1842. doi:10.1007/s007780050006. S2CID 11707259.
  12. Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). बड़े डेटा सेट से आउटलेर खनन के लिए कुशल एल्गोरिदम. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. p. 427. doi:10.1145/342009.335437. ISBN 1-58113-217-4.
  13. Angiulli, F.; Pizzuti, C. (2002). उच्च आयामी स्थानों में तेजी से बाहरी जांच. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 2431. p. 15. doi:10.1007/3-540-45681-3_2. ISBN 978-3-540-44037-6.
  14. Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
  15. Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (December 2008). "Isolation Forest". 2008 Eighth IEEE International Conference on Data Mining (in English). pp. 413–422. doi:10.1109/ICDM.2008.17. ISBN 9780769535029. S2CID 6505449.
  16. Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (March 2012). "अलगाव-आधारित विसंगति का पता लगाना". ACM Transactions on Knowledge Discovery from Data (in English). 6 (1): 1–39. doi:10.1145/2133360.2133363. S2CID 207193045.
  17. Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection". Data Mining and Knowledge Discovery. 28: 190–237. doi:10.1007/s10618-012-0300-z. S2CID 19036098.
  18. 18.0 18.1 Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2009). उच्च आयामी डेटा के अक्ष-समानांतर उप-स्थानों में बाह्य जांच. Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. Vol. 5476. p. 831. doi:10.1007/978-3-642-01307-2_86. ISBN 978-3-642-01306-5.
  19. 19.0 19.1 Kriegel, H. P.; Kroger, P.; Schubert, E.; Zimek, A. (2012). मनमाने ढंग से उन्मुख उपस्थानों में बाह्य जांच. 2012 IEEE 12th International Conference on Data Mining. p. 379. doi:10.1109/ICDM.2012.21. ISBN 978-1-4673-4649-8.
  20. Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. 98: 130–147. doi:10.1016/j.knosys.2016.01.027. S2CID 16368060.
  21. Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "उच्च-आयामी संख्यात्मक डेटा में अपर्यवेक्षित बाहरी पहचान पर एक सर्वेक्षण". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161. S2CID 6724536.
  22. Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). "उच्च-आयामी वितरण के समर्थन का अनुमान लगाना". Neural Computation. 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106. doi:10.1162/089976601750264965. PMID 11440593. S2CID 2110475.
  23. 23.0 23.1 23.2 Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan (2002). "Outlier Detection Using Replicator Neural Networks". डेटा वेयरहाउसिंग और नॉलेज डिस्कवरी. Lecture Notes in Computer Science. Vol. 2454. pp. 170–180. CiteSeerX 10.1.1.12.3366. doi:10.1007/3-540-46145-0_17. ISBN 978-3-540-44123-6.
  24. J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015.
  25. Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautman; Agarwal, Puneet (22–24 April 2015). समय श्रृंखला में विसंगति का पता लगाने के लिए दीर्घकालिक अल्पकालिक मेमोरी नेटवर्क. European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (in English). Bruges (Belgium).
  26. Hubert, Mia; Debruyne, Michiel; Rousseeuw, Peter J. (2018). "न्यूनतम सहप्रसरण निर्धारक और विस्तार". WIREs Computational Statistics (in English). 10 (3). doi:10.1002/wics.1421. ISSN 1939-5108. S2CID 67227041.
  27. Hubert, Mia; Debruyne, Michiel (2010). "न्यूनतम सहप्रसरण निर्धारक". WIREs Computational Statistics (in English). 2 (1): 36–43. doi:10.1002/wics.61. ISSN 1939-0068. S2CID 123086172.
  28. He, Z.; Xu, X.; Deng, S. (2003). "क्लस्टर-आधारित स्थानीय आउटलेर्स की खोज करना". Pattern Recognition Letters. 24 (9–10): 1641–1650. Bibcode:2003PaReL..24.1641H. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5.
  29. Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. (2015). "Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection". ACM Transactions on Knowledge Discovery from Data. 10 (1): 5:1–51. doi:10.1145/2733381. S2CID 2887636.
  30. Lazarevic, A.; Kumar, V. (2005). बाहरी पहचान के लिए फ़ीचर बैगिंग. pp. 157–166. CiteSeerX 10.1.1.399.425. doi:10.1145/1081870.1081891. ISBN 978-1-59593-135-1. S2CID 2054204. {{cite book}}: |journal= ignored (help)
  31. Nguyen, H. V.; Ang, H. H.; Gopalkrishnan, V. (2010). यादृच्छिक उपस्थानों पर विषम डिटेक्टरों के समूह के साथ खनन आउटलेयर. Database Systems for Advanced Applications. Lecture Notes in Computer Science. Vol. 5981. p. 368. doi:10.1007/978-3-642-12026-8_29. ISBN 978-3-642-12025-1.
  32. Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). बाहरी स्कोरों की व्याख्या करना और उन्हें एकीकृत करना. Proceedings of the 2011 SIAM International Conference on Data Mining. pp. 13–24. CiteSeerX 10.1.1.232.2719. doi:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.
  33. Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). बाहरी रैंकिंग और बाहरी स्कोर के मूल्यांकन पर. Proceedings of the 2012 SIAM International Conference on Data Mining. pp. 1047–1058. doi:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.
  34. Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). "बिना पर्यवेक्षित बाहरी पहचान के लिए समूह". ACM SIGKDD Explorations Newsletter. 15: 11–22. doi:10.1145/2594473.2594476. S2CID 8065347.
  35. Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). बाह्य पहचान संयोजनों के लिए डेटा गड़बड़ी. Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14. p. 1. doi:10.1145/2618243.2618257. ISBN 978-1-4503-2722-0.
  36. Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
  37. Anomaly detection benchmark data repository of the Ludwig-Maximilians-Universität München; Mirror at University of São Paulo.
  38. Zhao, Yue; Nasrullah, Zain; Li, Zheng (2019). "Pyod: A python toolbox for scalable outlier detection". Journal of Machine Learning Research.
  39. [1] Mathematica documentation