अनोमली डिटेक्शन

डाटा एनालिसिस में, अनोमली डिटेक्शन (जिसे आउटलायर डिटेक्शन और कभी-कभी नोवेल्टी डिटेक्शन भी कहा जाता है) को नॉर्मलतः रेयर आइटम, इवेंट या ऑब्जरवेशन की आइडेंटिफिकेशन के रूप में समझा जाता है जो मैजोरिटी डाटा से सिग्निफिकैंटली डेविएट होते हैं और नार्मल बेहेवियर की एक अच्छी तरह से डिफाइंड नोशन के कन्फॉर्म नहीं होते हैं। ऐसे एक्साम्पल किसी डिफरेंट मैकेनिज्म द्वारा उत्पन्न होने का ससपिशिअन अराउस कर सकते हैं, या डेटा के उस सेट के रिमेनडर के साथ इन्कन्सीस्टेन्ट अपीयर होता है।

अनोमली डिटेक्शन का उपयोग साइबर सिक्योरिटी, मेडिसिन, मशीन विज़न, स्टेटिस्टिक्स, न्यूरोसाइंस, लॉ एनफोर्समेंट और फाइनेंशियल फ्रॉड सहित कई डोमेन में किया जाता है। स्टेटिस्टिक्स एनालिसिस में हेल्प के लिए स्टार्टिंग में डेटा से क्लियर रिजेक्शन या ओमिशन के लिए एनालिसिस की खोज की गई थी, एक्साम्पल के लिए मीन या स्टैन्डर्ड डेविएशन की गणना करने के लिए की गई थी। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर प्रेडिक्शन के लिए भी हटा दिया गया था, और रिसेंटली उनका रिमूवल मशीन लर्निंग एल्गोरिदम के परफॉरमेंस में हेल्प करता है। हालाँकि, कई ऍप्लिकेशन्स में अनोमालिस स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित ऑब्जरवेशन होती हैं, जिन्हें डिटेक्शनने और नॉइज़ या इर्रेलेवेंट आउटलेर्स से सेपरेट करने की आवश्यकता होती है।

अनोमली डिटेक्शन की टेक्नीकों की तीन ब्रॉड केटेगरी उपस्थित हैं। सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे नॉर्मल और अबनॉर्मल रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को ट्रेनिंग करना इन्क्लूड है। हालाँकि, लेबल किए गए डेटा की नॉर्मल अनअवेलेबिलिटी और क्लास की इन्हेरेंट अनबैलेंस्ड नेचर के कारण अनोमली डिटेक्शन में इस एप्रोच का उपयोग रेयरली कभी किया जाता है। सेमि-सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह नॉर्मल या अबनॉर्मल डेटा का कोई भी कॉम्बिनेशन हो सकता है, लेकिन अधिकतर टेक्नीक किसी दिए गए नॉर्मल प्रलर्निंग डेटा सेट से नॉर्मल बिहेवियर को रिप्रेजेंट करने वाला एक मॉडल बनाती हैं, और फिर एक ट्रेनिंग एक्साम्पल उत्पन्न होने की संभावना का टेस्ट करती हैं। अनसुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा अनलेबल है और उनके वाइडर और रिलेवेंट एप्लीकेशन के कारण अब तक सबसे अधिक उपयोग किया जाता है।

परिभाषा
किसी अनोमली को डिफाइन करने के लिए स्टेटिस्टिक्स और कंप्यूटर साइंस कम्युनिटी में कई एटेम्पट किए गए हैं। सबसे अधिक प्रीवलेंट वन में इन्क्लूड हैं:


 * आउटलायर वह ऑब्जरवेशन है जो अन्य ऑब्जरवेशन से इतना अधिक डेविएट हो जाता है कि यह ससपिशियन अराउस हो जाता है कि यह एक अलग मैकेनिज्म द्वारा जेनेरेट किया गया था।
 * अनोमली डेटा के एक्साम्पल या कलेक्शन हैं जो डेटा सेट में बहुत कम होते हैं और जिनके फीचर सिग्नीफिकेंट डेटा से काफी भिन्न होती हैं।
 * आउटलायर एक ऑब्जरवेशन (या ऑब्जरवेशन का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ इन्कन्सीस्टेन्ट प्रतीत होता है।
 * अनोमली एक पॉइंट या पॉइंट का कलेक्शन है जो सुविधाओं के मल्टी-डायमेंशनल स्थान में अन्य पॉइंट से रिलेटिवली डिस्टेंट है।
 * अनोमली डेटा में ऐसे पैटर्न हैं जो नॉर्मल बिहेवियर की अच्छी तरह से डिफाइंड नोशन के अनुरूप नहीं हैं।
 * मान लीजिए T एक अविभाज्य गॉसियन वितरण से ऑब्जरवेशन है और O, T से एक पॉइंट है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक आउटलायर है।

एप्लीकेशन
अनोमली डिटेक्शन बहुत बड़ी नंबर और डिफरेंट डोमेन में लागू होता है, और यह अनसुपरवाइज़ड मशीन लर्निंग का एक इम्पोर्टेन्टसबएरिया है। जैसे कि इसमें साइबर इन्ट्रूशन डिटेक्शन का पता लगाने, फ्रॉड डिटेक्शन, फाल्ट डिटेक्शन, सिस्टम हेल्थ मॉनिटरिंग, ​​​​सेंसर नेटवर्क में इवेंट डिटेक्शन, डिटेक्टिंग इकोसिस्टम डिस्टर्बैंसेस, मशीन विज़न का उपयोग करके इमेजेज में डिफेक्ट का पता लगाने, मेडिसिन डायग्नोसिस और लॉ एनफोर्समेंट में एप्लीकेशन हैं।

1986 में डोरोथी ई. डेनिंग द्वारा इन्ट्रूशन डिटेक्शन वाले सिस्टम (आईडीएस) के लिए अनोमली डिटेक्शन का प्रस्ताव दिया गया था। आईडीएस के लिए अनोमली डिटेक्शन सामान्यतः थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन सॉफ्ट कंप्यूटिंग और इंडक्टिव लर्निंग के साथ भी किया जा सकता है। 1999 तक प्रपोज़ आँकड़ों के प्रकारों में यूजर के प्रोफाइल, वर्कस्टेशन, नेटवर्क, रिमोट होस्ट, यूजर के ग्रुप और फ्रीक्वेंसी, मीन्स, वैरिएंसेस, कोवैरियन्स और स्टैन्डर्ड डेविएशनों पर बेस्ड कार्यक्रम इन्क्लूड थे। इन्ट्रूशन डिटेक्शन में अनोमली डिटेक्शन का इन्ट्रूशन मिसयूज़ डिटेक्शन है।

इसका उपयोग प्रायः डेटा प्री-प्रोसेसिंग में डेटासेट से इन्कन्सीस्टेन्ट डेटा को रिमूव करने के लिए किया जाता है। ऐसा कई रीज़न से किया जाता है। एनालिसिस को दूर करने के बाद मीन और स्टैन्डर्ड डेविएशन जैसे डेटा के स्टैटिक्स अधिक एक्यूरेट होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। सुपरवाइज़ड लर्निंग में, डेटासेट से इन्कन्सीस्टेन्ट डेटा को हटाने से प्रायः सिग्नीफिकेंट में स्टेटिस्टिक्स रूप से इम्पोर्टेन्टवृद्धि होती है। अनोमली भी प्रायः पाए जाने वाले डेटा में सबसे इम्पोर्टेन्टऑब्जरवेशन होती हैं जैसे कि इन्ट्रूशन का पता लगाना या मेडिसिन इमेजेज में अब्नोर्मलिटीज़ डिटेक्ट करते हैं।

पॉपुलर टेक्नीक
साहित्य में अनोमली डिटेक्शन की कई टेक्नीक प्रपोज़ की गई हैं। कुछ पॉपुलर टेक्नीक हैं:

विधियों का परफॉरमेंस डेटा सेट और पैरामीटर पर निर्भर करता है, और कई डेटा सेटों और पैरामीटर के कमपैरीजन में विधियों का दूसरे के कमपैरीजन में बहुत कम व्यवस्थित लाभ होता है।
 * स्टेटिस्टिक्स (स्टैन्डर्ड स्कोर, टुकी का रेंज टेस्ट और ग्रब्स का टेस्ट)
 * डेंसिटी-बेस्ड टेक्नीक (K-नीयरेस्ट नेबर एल्गोरिदम,  लोकल आउटलायर फैक्टर, आइसोलेशन फारेस्ट,  और इस अवनोशन वेरिएशन )
 * सबस्पेस-, कोरिलेशन बेस्ड और टेंसर-बेस्ड उच्च-आयामी डेटा के लिए आउटलायर डिटेक्शन
 * वन-क्लास सपोर्ट वेक्टर मशीन
 * रेप्लिकेटर न्यूरल नेटवर्क, अनोमली डिटेक्शन, वैरिएबल ऑटोएनकोडर, लॉन्ग शार्ट-टर्म मेमोरी न्यूरल नेटवर्क्स
 * बायेसियन नेटवर्क
 * हिडन मार्कोव मॉडल (एचएमएम)
 * मिनिमम डेटर्मिनेन्ट कोवैरीअंस
 * क्लस्टरिंग: क्लस्टर एनालिसिस-बेस्ड आउटलायर डिटेक्शन
 * एसोसिएशन रूल्स फ्रीक्वेंट आइटमसेट डेविएशन
 * फ़ज़ी लॉजिक-बेस्ड आउटलायर डिटेक्शन
 * रैंडम सबस्पेस मेथड का उपयोग करके एन्सेम्बल टेक्नीक, स्कोर नोर्मलाइजेशन  और डिफरेंट सोर्सेज ऑफ़ डाइवर्सिटी

एक्सप्लेनेबल अनोमली डिटेक्शन
ऊपर डिसकस किये गए कई मेथड केवल एक अनोमली स्कोर प्रेडिक्शन उत्पन्न करती हैं, जिसे प्रायः यूजर को कम डेटा डेंसिटी (या नेबर डेंसिटी के कमपैरीजन में अपेक्षाकृत कम डेंसिटी) के रीजन में होने वाले पॉइंट के रूप में समझाया जा सकता है। एक्सप्लेनेबल आर्टिफीशियल इंटेलिजेंस में, यूजर हायर एक्सप्लेनेबिलिटी वाले मेथड की मांग करते हैं। कुछ मेथड अधिक डिटेल्ड एक्सप्लनेशन अलाव करता है:


 * सबस्पेस आउटलायर डिग्री (एसओडी) उन ऐट्रिब्यूट्स की डिटेक्शन करता है जहां एक सैंपल नॉर्मल है, और उन ऐट्रिब्यूट्स की डिटेक्शन करता है जिनमें सैंपल एक्सपेक्टेड से डेविएट होता है।
 * कोरिलेशन आउटलायर प्रोबबिलिटीज़ (सीओपी) एक एरर वेक्टर की गणना करें कि एक सैंपल पॉइंट एक्सपेक्टेड लोकेशन से कैसे डेविएट होता है, जिसे एक काउंटर फैकट्यूअल एक्सप्लनेशन के रूप में एक्सप्लेन किया जा सकता है: यदि सैंपल उस स्थान पर ले जाया गया तो वह नॉर्मल होगा।

सॉफ्टवेयर

 * ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई अनोमली डिटेक्शन वाले एल्गोरिदम, साथ ही उनके लिए इंडेक्स अक्सेलरेशन इन्क्लूड है।
 * PyOD एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे स्पेशियली अनोमली डिटेक्शन के लिए डेवलप किया गया है।
 * स्किकिट-लर्न एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए कुछ एल्गोरिदम इन्क्लूड हैं।
 * वोल्फ्राम मैथमैटिका कई डेटा टाइप में बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए फंक्शनलिटी प्रदान करता है

डेटासेट

 * अनोमली डिटेक्शन बेंचमार्क डेटा रिपॉजिटरी लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट मुन्चेन के केयरफूली चूज़न डेटा सेट के साथ; साओ पाउलो विश्वविद्यालय में मिरर है।
 * ODDS - ODDS: विभिन्न डोमेन में ग्राउंड ट्रुथ के साथ पब्लिक्ली अवेलेबल आउटलायर डिटेक्शन डेटासेट का एक बड़ा कलेक्शन।
 * अनसुपरवाइज्ड एनोमली डिटेक्शन बेंचमार्क हार्वर्ड डेटावर्स में: ग्राउंड ट्रुथ के साथ अनसुपरवाइज्ड एनोमली डिटेक्शन के लिए डेटासेट।
 * के मैश डेटा रिपॉजिटरी रिसर्च डेटा ऑस्ट्रेलिया में ग्राउंड ट्रुथ के साथ 12,000 से अधिक अनोमली डिटेक्शन वाले डेटासेट हैं।

यह भी देखें

 * चेंज डिटेक्शन
 * स्टैटिस्टिकल प्रोसेस कण्ट्रोल
 * नोवेल्टी डिटेक्शन
 * हाईरारचीकल टेम्पोरल मेमोरी