डेटा माइनिंग
| Part of a series on |
| Machine learning and data mining |
|---|
डेटा माइनिंग बड़े डेटा सेट में पैटर्न निकालने और खोजने की प्रक्रिया है, जिसमें मशीन लर्निंग, सांख्यिकी और डेटाबेस सिस्टम के इंटरसेक्शन के तरीके सम्मिलित हैं।[1]डेटा माइनिंग कंप्यूटर विज्ञान और सांख्यिकी का एक अंतःविषय उपक्षेत्र है, जिसका समग्र लक्ष्य एक डेटा सेट से जानकारी (बुद्धिमान विधियों के साथ) निकालना और सूचना को आगे उपयोग के लिए एक बोधगम्य संरचना में बदलना है।[1][2][3][4] डाटा माइनिंग डाटाबेस प्रक्रिया या केडीडी में नॉलेज डिस्कवरी का एनालिसिस स्टेप है।[5]कच्चे विश्लेषण कदम के अतिरिक्त , इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, सांख्यिकीय मॉडल और सांख्यिकीय निष्कर्ष विचार, दिलचस्प मेट्रिक्स, कम्प्यूटेशनल जटिलता सिद्धांत विचार, खोजी गई संरचनाओं डेटा प्री-प्रोसेसिंग, डेटा विज़ुअलाइज़ेशन और ऑनलाइन कलन विधि भी सम्मिलित है।[1]
डेटा माइनिंग शब्द एक मिथ्या नाम है क्योंकि लक्ष्य बड़ी मात्रा में डेटा से नमूना और ज्ञान का निष्कर्षण है, न कि डेटा स्क्रैपिंग | डेटा का निष्कर्षण (खनन)।[6] यह भी एक मुहावरा है[7] और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण (डेटा संग्रह, सूचना निष्कर्षण, डेटा गोदाम, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धिमत्ता (जैसे, मशीन लर्निंग) सहित निर्णय समर्थन प्रणाली के किसी भी अनुप्रयोग पर लागू होता है। व्यापारिक सूचना। पुस्तक डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड तकनीक विथ जावा (प्रोग्रामिंग भाषा)[8] (जिसमें ज्यादातर मशीन लर्निंग सामग्री सम्मिलित है) को मूल रूप से प्रैक्टिकल मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।[9] अधिकांशता अधिक सामान्य शब्द (बड़े पैमाने पर) डेटा विश्लेषण और विश्लेषण-या, वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।
वास्तविक डेटा खनन कार्य सेमी-विकट है: पहले से अज्ञात, दिलचस्प पैटर्न जैसे डेटा रिकॉर्ड के समूह (क्लस्टर विश्लेषण), असामान्य रिकॉर्ड (विसंगति का पता लगाना), और निर्भरता (कंप्यूटर विज्ञान) निकालने के लिए बड़ी मात्रा में डेटा का स्वचालित या स्वचालित विश्लेषण ) (संघ नियम खनन, अनुक्रमिक पैटर्न खनन)। इसमें सामान्यता स्थानिक सूचकांक जैसी डेटाबेस तकनीकों का उपयोग करना सम्मिलित होता है। इन पैटर्नों को तब इनपुट डेटा के एक प्रकार के सारांश के रूप में देखा जा सकता है, और इसका उपयोग आगे के विश्लेषण में किया जा सकता है या, उदाहरण के लिए, मशीन लर्निंग और भविष्य कहनेवाला विश्लेषण में। उदाहरण के लिए, डेटा माइनिंग कदम डेटा में कई समूहों की पहचान कर सकता है, जिसका उपयोग निर्णय समर्थन प्रणाली द्वारा अधिक सटीक भविष्यवाणी परिणाम प्राप्त करने के लिए किया जा सकता है। न तो डेटा संग्रह, डेटा तैयार करना, न ही परिणाम की व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।
डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।[10] संबंधित शब्द डेटा ड्रेजिंग, डेटा फिशिंग और डेटा स्नूपिंग एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं (या हो सकते हैं)। पैटर्न की खोज की। चूँकि , इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जा सकता है।
व्युत्पत्ति
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में आर्थिक अध्ययन की समीक्षा में प्रकाशित एक लेख में अर्थशास्त्री माइकल लवेल द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।[11][12] लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग (सकारात्मक) से लेकर मछली पकड़ने या स्नूपिंग (नकारात्मक) तक सम्मिलित हैं।
डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में आम तौर पर सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक सैन डिएगो-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;[13] शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, ज्ञान निष्कर्षण आदि सम्मिलित हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो | .kdnuggets.com/meetings/kdd89/ (KDD-1989) और यह शब्द आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। चूँकि , डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।[14] वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।
अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब AAAI प्रायोजन के तहत डाटा माइनिंग एंड नॉलेज डिस्कवरी (KDD-95) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और रामासामी उथुरुसामी ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने एसआईजीकेडीडी न्यूज़लेटर एसआईजीकेडीडी एक्सप्लोरेशन शुरू किया।[15] KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।
पृष्ठभूमि
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s) सम्मिलित हैं।[16] कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , आनुवंशिक कलन विधि (1950), निर्णय वृक्ष सीखना एंड निर्णय नियम (1960), और सपोर्ट वेक्टर मशीन (1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।[17] बड़े डेटा सेट में। यह वास्तविक सीखने और खोज कलन विधि को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके डेटाबेस प्रबंधन के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता (जो सामान्यता गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।
प्रक्रिया
डेटाबेस (केडीडी) प्रक्रिया में ज्ञान की खोज को सामान्यता चरणों के साथ परिभाषित किया जाता है:
- चयन
- प्री-प्रोसेसिंग
- परिवर्तन
- डेटा माइनिंग
- व्याख्या / मूल्यांकन।[5]
चूँकि , यह इस विषय पर कई रूपों में मौजूद है, डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया प्रक्रिया (CRISP-DM) जो छह चरणों को परिभाषित करता है:
- व्यापार की समझ
- डेटा समझ
- डेटा तैयारी
- मॉडलिंग
- मूल्यांकन
- सिस्टम परिनियोजन
या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।
2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्यप्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।[18] इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक सेमा था। चूँकि , 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है,[19] और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और सेमा की तुलना की।[20]
प्री-प्रोसेसिंग
डेटा माइनिंग कलन विधि का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर खनन करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले बहुभिन्नरूपी आँकड़े डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई सांख्यिकीय शोर और लापता डेटा वाले अवलोकनों को हटा देती है।
डाटा माइनिंग
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित हैं:[5]
- विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
- एसोसिएशन नियम सीखना (डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
- क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
- सांख्यिकीय वर्गीकरण - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
- प्रतिगमन विश्लेषण - एक फ़ंक्शन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
- स्वचालित सारांश - विज़ुअलाइज़ेशन और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।
परिणाम सत्यापन
डेटा माइनिंग का अनायास ही दुरुपयोग किया जा सकता है, ऐसे परिणाम उत्पन्न होते हैं जो महत्वपूर्ण प्रतीत होते हैं लेकिन जो वास्तव में भविष्य के समझौते की भविष्यवाणी नहीं करते हैं और डेटा के एक नए नमूने पर पुनरुत्पादन नहीं हो सकते हैं, इसलिए इसका बहुत कम उपयोग होता है। यह कभी-कभी बहुत अधिक परिकल्पनाओं की जांच करने और उचित सांख्यिकीय परिकल्पना परीक्षण नहीं करने के कारण होता है। मशीन लर्निंग में इस समस्या का एक सरल संस्करण ओवेरफिट्टिंग के रूप में जाना जाता है, लेकिन प्रक्रिया के विभिन्न चरणों में एक ही समस्या उत्पन्न हो सकती है और इस प्रकार एक ट्रेन/टेस्ट स्प्लिट- जब भी लागू हो- इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।[21]
डेटा से ज्ञान की खोज का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग कलन विधि द्वारा निर्मित पैटर्न व्यापक डेटा सेट में होते हैं। कलन विधि द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग कलन विधि के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग एल्गोरिथम प्रशिक्षित नहीं था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामी आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, स्पैम को वैध ई-मेल से अलग करने की कोशिश करने वाले डेटा माइनिंग कलन विधि को नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। कलन विधि का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।
यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा खनन चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।
अनुसंधान
नॉलेज डिस्कवरी एंड डेटा माइनिंग (एसआईजीकेडीडी ) पर संगणक तंत्र संस्था (एसीएम ) स्पेशल इंटरेस्ट ग्रुप (SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।[22][23] 1989 से, इस एसीएम SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,[24] और 1999 से इसने एसआईजीकेडीडी एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।[25] डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित हैं:
- सीआईकेएम सम्मेलन - सूचना और ज्ञान प्रबंधन पर एसीएम सम्मेलन
- मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
- केडीडी सम्मेलन - ज्ञान खोज और डेटा खनन पर एसीएम एसआईजीकेडीडी सम्मेलन
कंप्यूटर विज्ञान सम्मेलनों की कई सूची #डेटा प्रबंधन|डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे ICDE सम्मेलन, सिग्मॉड और बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन में डेटा माइनिंग विषय भी मौजूद हैं।
मानक
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रक्रिया (CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड (JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।
निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, जावा डाटा माइनिंग ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।[26]
उल्लेखनीय उपयोग
आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।
गोपनीयता चिंताएं और नैतिकता
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अधिकांशता उपयोगकर्ता समझौते विश्लेषण (नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।[27] जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में गोपनीयता, वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।[28] विशेष रूप से, राष्ट्रीय सुरक्षा या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सर