अनोमली डिटेक्शन

डेटा विश्लेषण में, विसंगति का पता लगाना (जिसे बाहरी पता लगाना और कभी-कभी नवीनता का पता लगाना भी कहा जाता है) को आम तौर पर दुर्लभ वस्तुओं, घटनाओं या टिप्पणियों की पहचान के रूप में समझा जाता है जो अधिकांश डेटा से महत्वपूर्ण रूप से विचलित होते हैं और एक अच्छी तरह से परिभाषित के अनुरूप नहीं होते हैं। सामान्य व्यवहार की अवधारणा. ऐसे उदाहरण किसी भिन्न तंत्र द्वारा उत्पन्न होने का संदेह पैदा कर सकते हैं, या डेटा के उस सेट के शेष भाग के साथ असंगत प्रतीत होता है। विसंगति का पता लगाने का उपयोग साइबर सुरक्षा, चिकित्सा, मशीन विज़न, सांख्यिकी, तंत्रिका विज्ञान, कानून प्रवर्तन और वित्तीय धोखाधड़ी सहित कई डोमेन में किया जाता है। सांख्यिकीय विश्लेषण में सहायता के लिए शुरू में डेटा से स्पष्ट अस्वीकृति या चूक के लिए विसंगतियों की खोज की गई थी, उदाहरण के लिए माध्य या मानक विचलन की गणना करने के लिए। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर भविष्यवाणियों के लिए भी हटा दिया गया था, और हाल ही में उनका निष्कासन मशीन लर्निंग एल्गोरिदम के प्रदर्शन में सहायता करता है। हालाँकि, कई अनुप्रयोगों में विसंगतियाँ स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित अवलोकन होती हैं, जिन्हें पहचानने और शोर या अप्रासंगिक आउटलेर्स से अलग करने की आवश्यकता होती है।

विसंगति का पता लगाने की तकनीकों की तीन व्यापक श्रेणियां मौजूद हैं। पर्यवेक्षित विसंगति का पता लगाने वाली तकनीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे सामान्य और असामान्य के रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को प्रशिक्षित करना शामिल है। हालाँकि, लेबल किए गए डेटा की सामान्य अनुपलब्धता और कक्षाओं की अंतर्निहित असंतुलित प्रकृति के कारण विसंगति का पता लगाने में इस दृष्टिकोण का उपयोग शायद ही कभी किया जाता है। अर्ध-पर्यवेक्षित विसंगति का पता लगाने वाली तकनीकें मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह सामान्य या असामान्य डेटा का कोई भी संयोजन हो सकता है, लेकिन अधिकतर तकनीकें किसी दिए गए सामान्य प्रशिक्षण डेटा सेट से सामान्य व्यवहार का प्रतिनिधित्व करने वाला एक मॉडल बनाती हैं, और फिर एक परीक्षण उदाहरण उत्पन्न होने की संभावना का परीक्षण करती हैं। आदर्श। अनपर्यवेक्षित विसंगति का पता लगाने वाली तकनीकें मानती हैं कि डेटा लेबल रहित है और उनके व्यापक और प्रासंगिक अनुप्रयोग के कारण अब तक सबसे अधिक उपयोग किया जाता है।

परिभाषा
किसी विसंगति को परिभाषित करने के लिए सांख्यिकीय और कंप्यूटर विज्ञान समुदायों में कई प्रयास किए गए हैं। सबसे अधिक प्रचलित लोगों में शामिल हैं:


 * बाह्य वह अवलोकन है जो अन्य अवलोकनों से इतना अधिक विचलित हो जाता है कि यह संदेह पैदा हो जाता है कि यह एक अलग तंत्र द्वारा उत्पन्न किया गया था। * विसंगतियाँ डेटा के उदाहरण या संग्रह हैं जो डेटा सेट में बहुत कम होते हैं और जिनकी विशेषताएं अधिकांश डेटा से काफी भिन्न होती हैं।
 * आउटलायर एक अवलोकन (या अवलोकनों का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ असंगत प्रतीत होता है। * विसंगति एक बिंदु या बिंदुओं का संग्रह है जो सुविधाओं के बहु-आयामी स्थान में अन्य बिंदुओं से अपेक्षाकृत दूर है।
 * विसंगतियाँ डेटा में ऐसे पैटर्न हैं जो सामान्य व्यवहार की अच्छी तरह से परिभाषित धारणा के अनुरूप नहीं हैं।
 * मान लीजिए T एक अविभाज्य गॉसियन वितरण से अवलोकन है और O, T से एक बिंदु है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक बाहरी है।

अनुप्रयोग
विसंगति का पता लगाना बहुत बड़ी संख्या और विभिन्न प्रकार के डोमेन में लागू होता है, और यह बिना पर्यवेक्षित मशीन लर्निंग का एक महत्वपूर्ण उपक्षेत्र है। जैसे कि इसमें साइबर सुरक्षा घुसपैठ का पता लगाने, धोखाधड़ी का पता लगाने, गलती का पता लगाने, सिस्टम स्वास्थ्य निगरानी, ​​​​सेंसर नेटवर्क में घटना का पता लगाने, पारिस्थितिकी तंत्र की गड़बड़ी का पता लगाने, मशीन दृष्टि का उपयोग करके छवियों में दोष का पता लगाने, चिकित्सा निदान और कानून प्रवर्तन में अनुप्रयोग हैं। 1986 में डोरोथी ई. डेनिंग द्वारा घुसपैठ का पता लगाने वाले सिस्टम (आईडीएस) के लिए विसंगति का पता लगाने का प्रस्ताव दिया गया था। आईडीएस के लिए विसंगति का पता लगाना आम तौर पर थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन सॉफ्ट कंप्यूटिंग और आगमनात्मक शिक्षण के साथ भी किया जा सकता है। 1999 तक प्रस्तावित आँकड़ों के प्रकारों में उपयोगकर्ताओं के प्रोफाइल, वर्कस्टेशन, नेटवर्क, दूरस्थ होस्ट, उपयोगकर्ताओं के समूह और आवृत्तियों, साधनों, भिन्नताओं, सहप्रसरणों और मानक विचलनों पर आधारित कार्यक्रम शामिल थे। घुसपैठ का पता लगाने में विसंगति का पता लगाने का समकक्ष दुरुपयोग का पता लगाना है।

इसका उपयोग अक्सर डेटा प्री-प्रोसेसिंग में डेटासेट से असंगत डेटा को हटाने के लिए किया जाता है। ऐसा कई कारणों से किया जाता है. विसंगतियों को दूर करने के बाद माध्य और मानक विचलन जैसे डेटा के आँकड़े अधिक सटीक होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। पर्यवेक्षित शिक्षण में, डेटासेट से असंगत डेटा को हटाने से अक्सर सटीकता में सांख्यिकीय रूप से महत्वपूर्ण वृद्धि होती है। विसंगतियाँ भी अक्सर पाए जाने वाले डेटा में सबसे महत्वपूर्ण अवलोकन होती हैं जैसे कि घुसपैठ का पता लगाना या चिकित्सा छवियों में असामान्यताओं का पता लगाना।

लोकप्रिय तकनीक
साहित्य में विसंगति का पता लगाने की कई तकनीकें प्रस्तावित की गई हैं। कुछ लोकप्रिय तकनीकें हैं:

यादृच्छिक उपस्थान विधि पद्धति का उपयोग करके सामूहिक शिक्षण, स्कोर सामान्यीकरण  और विविधता के विभिन्न स्रोत विधियों का प्रदर्शन डेटा सेट और मापदंडों पर निर्भर करता है, और कई डेटा सेटों और मापदंडों की तुलना में विधियों का दूसरे की तुलना में बहुत कम व्यवस्थित लाभ होता है।
 * सांख्यिकीय (मानक स्कोर|जेड-स्कोर, टुकी का रेंज परीक्षण और ग्रब्स का परीक्षण)
 * घनत्व-आधारित तकनीकें (K-निकटतम पड़ोसी एल्गोरिदम|k-निकटतम पड़ोसी,  स्थानीय बाहरी कारक, अलगाव वन,  और इस अवधारणा के कई और रूप )
 * उपस्थान-, सहसंबंध आधारित और टेंसर-आधारित उच्च-आयामी डेटा के लिए बाहरी पहचान
 * वन-क्लास समर्थन वेक्टर मशीन
 * रेप्लिकेटर तंत्रिका नेटवर्क, ऑटोएनकोडर#विसंगति का पता लगाना, वैरिएबल ऑटोएनकोडर, दीर्घकालिक अल्पकालिक स्मृति तंत्रिका नेटवर्क
 * बायेसियन नेटवर्क * छिपा हुआ मार्कोव मॉडल (एचएमएम) * न्यूनतम सहप्रसरण निर्धारक
 * क्लस्टरिंग: क्लस्टर विश्लेषण-आधारित बाहरी पहचान
 * एसोसिएशन नियम सीखने और लगातार आइटमसेट से विचलन
 * फ़ज़ी लॉजिक-आधारित बाहरी पहचान

व्याख्या योग्य विसंगति का पता लगाना
ऊपर चर्चा की गई कई विधियाँ केवल एक विसंगति स्कोर भविष्यवाणी उत्पन्न करती हैं, जिसे अक्सर उपयोगकर्ताओं को कम डेटा घनत्व (या पड़ोसी के घनत्व की तुलना में अपेक्षाकृत कम घनत्व) के क्षेत्र में होने वाले बिंदु के रूप में समझाया जा सकता है। समझाने योग्य कृत्रिम बुद्धिमत्ता में, उपयोगकर्ता उच्च व्याख्यात्मकता वाले तरीकों की मांग करते हैं। कुछ विधियाँ अधिक विस्तृत स्पष्टीकरण की अनुमति देती हैं:


 * सबस्पेस आउटलायर डिग्री (एसओडी) उन विशेषताओं की पहचान करता है जहां एक नमूना सामान्य है, और उन विशेषताओं की पहचान करता है जिनमें नमूना अपेक्षित से विचलित होता है।
 * सहसंबंध बाहरी संभावनाएं (सीओपी) एक त्रुटि वेक्टर की गणना करें कि एक नमूना बिंदु अपेक्षित स्थान से कैसे विचलित होता है, जिसे एक प्रतितथ्यात्मक स्पष्टीकरण के रूप में व्याख्या किया जा सकता है: यदि नमूना उस स्थान पर ले जाया गया तो वह सामान्य होगा।

सॉफ्टवेयर

 * ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई विसंगति का पता लगाने वाले एल्गोरिदम, साथ ही उनके लिए सूचकांक त्वरण शामिल है।
 * PyOD एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे विशेष रूप से विसंगति का पता लगाने के लिए विकसित किया गया है।
 * स्किकिट-लर्न एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना पर्यवेक्षित विसंगति का पता लगाने के लिए कुछ एल्गोरिदम शामिल हैं।
 * वोल्फ्राम मैथमैटिका कई डेटा प्रकारों में बिना पर्यवेक्षित विसंगति का पता लगाने के लिए कार्यक्षमता प्रदान करता है

डेटासेट

 * विसंगति का पता लगाने वाले बेंचमार्क डेटा रिपॉजिटरी लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट मुन्चेन के सावधानीपूर्वक चुने गए डेटा सेट के साथ; मिरर साओ पाउलो विश्वविद्यालय में।
 * ODDS - ODDS: विभिन्न डोमेन में जमीनी सच्चाई के साथ सार्वजनिक रूप से उपलब्ध बाहरी पहचान डेटासेट का एक बड़ा संग्रह।
 * अनसुपरवाइज्ड एनोमली डिटेक्शन बेंचमार्क हार्वर्ड डेटावर्स में: जमीनी सच्चाई के साथ अनसुपरवाइज्ड एनोमली डिटेक्शन के लिए डेटासेट।
 * KMASH डेटा रिपॉजिटरी रिसर्च डेटा ऑस्ट्रेलिया में जमीनी सच्चाई के साथ 12,000 से अधिक विसंगति का पता लगाने वाले डेटासेट हैं।

यह भी देखें

 * परिवर्तन का पता लगाना
 * सांख्यिकीय प्रक्रिया नियंत्रण
 * नवीनता का पता लगाना
 * पदानुक्रमित लौकिक स्मृति