अनोमली डिटेक्शन

From Vigyanwiki
Revision as of 12:53, 27 July 2023 by alpha>Indicwiki (Created page with "{{short description|Approach in data analysis}} {{broader|Outlier}} {{Machine learning|Problems}} {{Information security}} डेटा विश्लेषण में,...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

डेटा विश्लेषण में, विसंगति का पता लगाना (जिसे बाहरी पता लगाना और कभी-कभी नवीनता का पता लगाना भी कहा जाता है) को आम तौर पर दुर्लभ वस्तुओं, घटनाओं या टिप्पणियों की पहचान के रूप में समझा जाता है जो अधिकांश डेटा से महत्वपूर्ण रूप से विचलित होते हैं और एक अच्छी तरह से परिभाषित के अनुरूप नहीं होते हैं। सामान्य व्यवहार की अवधारणा.[1]ऐसे उदाहरण किसी भिन्न तंत्र द्वारा उत्पन्न होने का संदेह पैदा कर सकते हैं,[2] या डेटा के उस सेट के शेष भाग के साथ असंगत प्रतीत होता है।[3] विसंगति का पता लगाने का उपयोग साइबर सुरक्षा, चिकित्सा, मशीन विज़न, सांख्यिकी, तंत्रिका विज्ञान, कानून प्रवर्तन और वित्तीय धोखाधड़ी सहित कई डोमेन में किया जाता है। सांख्यिकीय विश्लेषण में सहायता के लिए शुरू में डेटा से स्पष्ट अस्वीकृति या चूक के लिए विसंगतियों की खोज की गई थी, उदाहरण के लिए माध्य या मानक विचलन की गणना करने के लिए। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर भविष्यवाणियों के लिए भी हटा दिया गया था, और हाल ही में उनका निष्कासन मशीन लर्निंग एल्गोरिदम के प्रदर्शन में सहायता करता है। हालाँकि, कई अनुप्रयोगों में विसंगतियाँ स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित अवलोकन होती हैं, जिन्हें पहचानने और शोर या अप्रासंगिक आउटलेर्स से अलग करने की आवश्यकता होती है।

विसंगति का पता लगाने की तकनीकों की तीन व्यापक श्रेणियां मौजूद हैं।[1]पर्यवेक्षित विसंगति का पता लगाने वाली तकनीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे सामान्य और असामान्य के रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को प्रशिक्षित करना शामिल है। हालाँकि, लेबल किए गए डेटा की सामान्य अनुपलब्धता और कक्षाओं की अंतर्निहित असंतुलित प्रकृति के कारण विसंगति का पता लगाने में इस दृष्टिकोण का उपयोग शायद ही कभी किया जाता है। अर्ध-पर्यवेक्षित विसंगति का पता लगाने वाली तकनीकें मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह सामान्य या असामान्य डेटा का कोई भी संयोजन हो सकता है, लेकिन अधिकतर तकनीकें किसी दिए गए सामान्य प्रशिक्षण डेटा सेट से सामान्य व्यवहार का प्रतिनिधित्व करने वाला एक मॉडल बनाती हैं, और फिर एक परीक्षण उदाहरण उत्पन्न होने की संभावना का परीक्षण करती हैं। आदर्श। अनपर्यवेक्षित विसंगति का पता लगाने वाली तकनीकें मानती हैं कि डेटा लेबल रहित है और उनके व्यापक और प्रासंगिक अनुप्रयोग के कारण अब तक सबसे अधिक उपयोग किया जाता है।

परिभाषा

किसी विसंगति को परिभाषित करने के लिए सांख्यिकीय और कंप्यूटर विज्ञान समुदायों में कई प्रयास किए गए हैं। सबसे अधिक प्रचलित लोगों में शामिल हैं:

  • बाह्य वह अवलोकन है जो अन्य अवलोकनों से इतना अधिक विचलित हो जाता है कि यह संदेह पैदा हो जाता है कि यह एक अलग तंत्र द्वारा उत्पन्न किया गया था।[2] * विसंगतियाँ डेटा के उदाहरण या संग्रह हैं जो डेटा सेट में बहुत कम होते हैं और जिनकी विशेषताएं अधिकांश डेटा से काफी भिन्न होती हैं।
  • आउटलायर एक अवलोकन (या अवलोकनों का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ असंगत प्रतीत होता है।[3]* विसंगति एक बिंदु या बिंदुओं का संग्रह है जो सुविधाओं के बहु-आयामी स्थान में अन्य बिंदुओं से अपेक्षाकृत दूर है।
  • विसंगतियाँ डेटा में ऐसे पैटर्न हैं जो सामान्य व्यवहार की अच्छी तरह से परिभाषित धारणा के अनुरूप नहीं हैं।[1]
  • मान लीजिए T एक अविभाज्य गॉसियन वितरण से अवलोकन है और O, T से एक बिंदु है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक बाहरी है।

अनुप्रयोग

विसंगति का पता लगाना बहुत बड़ी संख्या और विभिन्न प्रकार के डोमेन में लागू होता है, और यह बिना पर्यवेक्षित मशीन लर्निंग का एक महत्वपूर्ण उपक्षेत्र है। जैसे कि इसमें साइबर सुरक्षा घुसपैठ का पता लगाने, धोखाधड़ी का पता लगाने, गलती का पता लगाने, सिस्टम स्वास्थ्य निगरानी, ​​​​सेंसर नेटवर्क में घटना का पता लगाने, पारिस्थितिकी तंत्र की गड़बड़ी का पता लगाने, मशीन दृष्टि का उपयोग करके छवियों में दोष का पता लगाने, चिकित्सा निदान और कानून प्रवर्तन में अनुप्रयोग हैं।[4] 1986 में डोरोथी ई. डेनिंग द्वारा घुसपैठ का पता लगाने वाले सिस्टम (आईडीएस) के लिए विसंगति का पता लगाने का प्रस्ताव दिया गया था।[5] आईडीएस के लिए विसंगति का पता लगाना आम तौर पर थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन सॉफ्ट कंप्यूटिंग और आगमनात्मक शिक्षण के साथ भी किया जा सकता है।[6] 1999 तक प्रस्तावित आँकड़ों के प्रकारों में उपयोगकर्ताओं के प्रोफाइल, वर्कस्टेशन, नेटवर्क, दूरस्थ होस्ट, उपयोगकर्ताओं के समूह और आवृत्तियों, साधनों, भिन्नताओं, सहप्रसरणों और मानक विचलनों पर आधारित कार्यक्रम शामिल थे।[7] घुसपैठ का पता लगाने में विसंगति का पता लगाने का समकक्ष दुरुपयोग का पता लगाना है।

इसका उपयोग अक्सर डेटा प्री-प्रोसेसिंग में डेटासेट से असंगत डेटा को हटाने के लिए किया जाता है। ऐसा कई कारणों से किया जाता है. विसंगतियों को दूर करने के बाद माध्य और मानक विचलन जैसे डेटा के आँकड़े अधिक सटीक होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। पर्यवेक्षित शिक्षण में, डेटासेट से असंगत डेटा को हटाने से अक्सर सटीकता में सांख्यिकीय रूप से महत्वपूर्ण वृद्धि होती है।[8][9] विसंगतियाँ भी अक्सर पाए जाने वाले डेटा में सबसे महत्वपूर्ण अवलोकन होती हैं जैसे कि घुसपैठ का पता लगाना या चिकित्सा छवियों में असामान्यताओं का पता लगाना।

लोकप्रिय तकनीक

साहित्य में विसंगति का पता लगाने की कई तकनीकें प्रस्तावित की गई हैं।[1][10] कुछ लोकप्रिय तकनीकें हैं:

यादृच्छिक उपस्थान विधि पद्धति का उपयोग करके सामूहिक शिक्षण,[30][31] स्कोर सामान्यीकरण[32][33] और विविधता के विभिन्न स्रोत[34][35] विधियों का प्रदर्शन डेटा सेट और मापदंडों पर निर्भर करता है, और कई डेटा सेटों और मापदंडों की तुलना में विधियों का दूसरे की तुलना में बहुत कम व्यवस्थित लाभ होता है।[36][37]


व्याख्या योग्य विसंगति का पता लगाना

ऊपर चर्चा की गई कई विधियाँ केवल एक विसंगति स्कोर भविष्यवाणी उत्पन्न करती हैं, जिसे अक्सर उपयोगकर्ताओं को कम डेटा घनत्व (या पड़ोसी के घनत्व की तुलना में अपेक्षाकृत कम घनत्व) के क्षेत्र में होने वाले बिंदु के रूप में समझाया जा सकता है। समझाने योग्य कृत्रिम बुद्धिमत्ता में, उपयोगकर्ता उच्च व्याख्यात्मकता वाले तरीकों की मांग करते हैं। कुछ विधियाँ अधिक विस्तृत स्पष्टीकरण की अनुमति देती हैं:

  • सबस्पेस आउटलायर डिग्री (एसओडी)[18]उन विशेषताओं की पहचान करता है जहां एक नमूना सामान्य है, और उन विशेषताओं की पहचान करता है जिनमें नमूना अपेक्षित से विचलित होता है।
  • सहसंबंध बाहरी संभावनाएं (सीओपी)[19]एक त्रुटि वेक्टर की गणना करें कि एक नमूना बिंदु अपेक्षित स्थान से कैसे विचलित होता है, जिसे एक प्रतितथ्यात्मक स्पष्टीकरण के रूप में व्याख्या किया जा सकता है: यदि नमूना उस स्थान पर ले जाया गया तो वह सामान्य होगा।

सॉफ्टवेयर

  • ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई विसंगति का पता लगाने वाले एल्गोरिदम, साथ ही उनके लिए सूचकांक त्वरण शामिल है।
  • PyOD एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे विशेष रूप से विसंगति का पता लगाने के लिए विकसित किया गया है।[38]
  • स्किकिट-लर्न एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना पर्यवेक्षित विसंगति का पता लगाने के लिए कुछ एल्गोरिदम शामिल हैं।
  • वोल्फ्राम मैथमैटिका कई डेटा प्रकारों में बिना पर्यवेक्षित विसंगति का पता लगाने के लिए कार्यक्षमता प्रदान करता है [39]


डेटासेट

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 1.3 Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID 207172599.
  2. 2.0 2.1 Hawkins, Douglas M. (1980). आउटलेर्स की पहचान. Chapman and Hall London; New York.
  3. 3.0 3.1 Barnett, Vic; Lewis, Lewis (1978). सांख्यिकीय डेटा में आउटलेर्स. John Wiley & Sons Ltd.
  4. Aggarwal, Charu (2017). बाहरी विश्लेषण. Springer Publishing Company, Incorporated. ISBN 978-3319475776.
  5. Denning, D. E. (1987). "एक घुसपैठ-पहचान मॉडल" (PDF). IEEE Transactions on Software Engineering. SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894. S2CID 10028835. Archived (PDF) from the original on June 22, 2015.
  6. Teng, H. S.; Chen, K.; Lu, S. C. (1990). "Adaptive real-time anomaly detection using inductively generated sequential patterns". Proceedings. 1990 IEEE Computer Society Symposium on Research in Security and Privacy (PDF). pp. 278–284. doi:10.1109/RISP.1990.63857. ISBN 978-0-8186-2060-7. S2CID 35632142.
  7. Jones, Anita K.; Sielken, Robert S. (1999). "Computer System Intrusion Detection: A Survey". Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802.
  8. Tomek, Ivan (1976). "संपादित निकटतम-पड़ोसी नियम के साथ एक प्रयोग". IEEE Transactions on Systems, Man, and Cybernetics. 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523.
  9. Smith, M. R.; Martinez, T. (2011). "Improving classification accuracy by identifying and removing instances that should be misclassified" (PDF). The 2011 International Joint Conference on Neural Networks. p. 2690. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571. ISBN 978-1-4244-9635-8. S2CID 5809822.
  10. Zimek, Arthur; Filzmoser, Peter (2018). "There and back again: Outlier detection between statistical reasoning and data mining algorithms" (PDF). Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8 (6): e1280. doi:10.1002/widm.1280. ISSN 1942-4787. S2CID 53305944.
  11. Knorr, E. M.; Ng, R. T.; Tucakov, V. (2000). "Distance-based outliers: Algorithms and applications". The VLDB Journal the International Journal on Very Large Data Bases. 8 (3–4): 237–253. CiteSeerX 10.1.1.43.1842. doi:10.1007/s007780050006. S2CID 11707259.
  12. Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). बड़े डेटा सेट से आउटलेर खनन के लिए कुशल एल्गोरिदम. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. p. 427. doi:10.1145/342009.335437. ISBN 1-58113-217-4.
  13. Angiulli, F.; Pizzuti, C. (2002). उच्च आयामी स्थानों में तेजी से बाहरी जांच. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 2431. p. 15. doi:10.1007/3-540-45681-3_2. ISBN 978-3-540-44037-6.
  14. Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
  15. Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (December 2008). "Isolation Forest". 2008 Eighth IEEE International Conference on Data Mining (in English). pp. 413–422. doi:10.1109/ICDM.2008.17. ISBN 9780769535029. S2CID 6505449.
  16. Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (March 2012). "अलगाव-आधारित विसंगति का पता लगाना". ACM Transactions on Knowledge Discovery from Data (in English). 6 (1): 1–39. doi:10.1145/2133360.2133363. S2CID 207193045.
  17. Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection". Data Mining and Knowledge Discovery. 28: 190–237. doi:10.1007/s10618-012-0300-z. S2CID 19036098.
  18. 18.0 18.1 Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2009). उच्च आयामी डेटा के अक्ष-समानांतर उप-स्थानों में बाह्य जांच. Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. Vol. 5476. p. 831. doi:10.1007/978-3-642-01307-2_86. ISBN 978-3-642-01306-5.
  19. 19.0 19.1 Kriegel, H. P.; Kroger, P.; Schubert, E.; Zimek, A. (2012). मनमाने ढंग से उन्मुख उपस्थानों में बाह्य जांच. 2012 IEEE 12th International Conference on Data Mining. p. 379. doi:10.1109/ICDM.2012.21. ISBN 978-1-4673-4649-8.
  20. Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. 98: 130–147. doi:10.1016/j.knosys.2016.01.027. S2CID 16368060.
  21. Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "उच्च-आयामी संख्यात्मक डेटा में अपर्यवेक्षित बाहरी पहचान पर एक सर्वेक्षण". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161. S2CID 6724536.
  22. Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). "उच्च-आयामी वितरण के समर्थन का अनुमान लगाना". Neural Computation. 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106. doi:10.1162/089976601750264965. PMID 11440593. S2CID 2110475.
  23. 23.0 23.1 23.2 Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan (2002). "Outlier Detection Using Replicator Neural Networks". डेटा वेयरहाउसिंग और नॉलेज डिस्कवरी. Lecture Notes in Computer Science. Vol. 2454. pp. 170–180. CiteSeerX 10.1.1.12.3366. doi:10.1007/3-540-46145-0_17. ISBN 978-3-540-44123-6.
  24. J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015.
  25. Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautman; Agarwal, Puneet (22–24 April 2015). समय श्रृंखला में विसंगति का पता लगाने के लिए दीर्घकालिक अल्पकालिक मेमोरी नेटवर्क. European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (in English). Bruges (Belgium).
  26. Hubert, Mia; Debruyne, Michiel; Rousseeuw, Peter J. (2018). "न्यूनतम सहप्रसरण निर्धारक और विस्तार". WIREs Computational Statistics (in English). 10 (3). doi:10.1002/wics.1421. ISSN 1939-5108. S2CID 67227041.
  27. Hubert, Mia; Debruyne, Michiel (2010). "न्यूनतम सहप्रसरण निर्धारक". WIREs Computational Statistics (in English). 2 (1): 36–43. doi:10.1002/wics.61. ISSN 1939-0068. S2CID 123086172.
  28. He, Z.; Xu, X.; Deng, S. (2003). "क्लस्टर-आधारित स्थानीय आउटलेर्स की खोज करना". Pattern Recognition Letters. 24 (9–10): 1641–1650. Bibcode:2003PaReL..24.1641H. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5.
  29. Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. (2015). "Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection". ACM Transactions on Knowledge Discovery from Data. 10 (1): 5:1–51. doi:10.1145/2733381. S2CID 2887636.
  30. Lazarevic, A.; Kumar, V. (2005). बाहरी पहचान के लिए फ़ीचर बैगिंग. pp. 157–166. CiteSeerX 10.1.1.399.425. doi:10.1145/1081870.1081891. ISBN 978-1-59593-135-1. S2CID 2054204. {{cite book}}: |journal= ignored (help)
  31. Nguyen, H. V.; Ang, H. H.; Gopalkrishnan, V. (2010). यादृच्छिक उपस्थानों पर विषम डिटेक्टरों के समूह के साथ खनन आउटलेयर. Database Systems for Advanced Applications. Lecture Notes in Computer Science. Vol. 5981. p. 368. doi:10.1007/978-3-642-12026-8_29. ISBN 978-3-642-12025-1.
  32. Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). बाहरी स्कोरों की व्याख्या करना और उन्हें एकीकृत करना. Proceedings of the 2011 SIAM International Conference on Data Mining. pp. 13–24. CiteSeerX 10.1.1.232.2719. doi:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.
  33. Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). बाहरी रैंकिंग और बाहरी स्कोर के मूल्यांकन पर. Proceedings of the 2012 SIAM International Conference on Data Mining. pp. 1047–1058. doi:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.
  34. Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). "बिना पर्यवेक्षित बाहरी पहचान के लिए समूह". ACM SIGKDD Explorations Newsletter. 15: 11–22. doi:10.1145/2594473.2594476. S2CID 8065347.
  35. Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). बाह्य पहचान संयोजनों के लिए डेटा गड़बड़ी. Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14. p. 1. doi:10.1145/2618243.2618257. ISBN 978-1-4503-2722-0.
  36. Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
  37. Anomaly detection benchmark data repository of the Ludwig-Maximilians-Universität München; Mirror at University of São Paulo.
  38. Zhao, Yue; Nasrullah, Zain; Li, Zheng (2019). "Pyod: A python toolbox for scalable outlier detection". Journal of Machine Learning Research.
  39. [1] Mathematica documentation