डेटा माइनिंग

डेटा माइनिंग मशीन लर्निंग, सांख्यिकी और डेटाबेस सिस्टम के इंटरसेक्शन पर विधियों से जुड़े बड़े डेटा सेट में पैटर्न निकालने और खोजने की प्रक्रिया है। डेटा माइनिंग कंप्यूटर विज्ञान और सांख्यिकी का एक अंतःविषय उपक्षेत्र है, जिसका समग्र लक्ष्य एक डेटा सेट से जानकारी (बुद्धिमान विधियों के साथ) निकालना और सूचना को आगे उपयोग के लिए एक बोधगम्य संरचना में बदलना है।  डाटा माइनिंग डाटाबेस प्रोसेस या केडीडी में नॉलेज डिस्कवरी का एनालिसिस स्टेप है। कच्चे विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, सांख्यिकीय मॉडल और सांख्यिकीय निष्कर्ष विचार, दिलचस्प मेट्रिक्स, कम्प्यूटेशनल जटिलता सिद्धांत विचार, खोजी गई संरचनाओं डेटा प्री-प्रोसेसिंग, डेटा विज़ुअलाइज़ेशन और ऑनलाइन एल्गोरिदम भी शामिल है।

डेटा माइनिंग शब्द एक मिथ्या नाम है क्योंकि लक्ष्य बड़ी मात्रा में डेटा से नमूना और ज्ञान का निष्कर्षण है, न कि डेटा स्क्रैपिंग | डेटा का निष्कर्षण (खनन)। यह भी एक मुहावरा है और अक्सर बड़े पैमाने पर डेटा या सूचना प्रसंस्करण (डेटा संग्रह, सूचना निष्कर्षण, डेटा गोदाम, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धिमत्ता (जैसे, मशीन लर्निंग) सहित निर्णय समर्थन प्रणाली के किसी भी अनुप्रयोग पर लागू होता है। व्यापारिक सूचना। पुस्तक डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा (प्रोग्रामिंग भाषा) (जिसमें ज्यादातर मशीन लर्निंग सामग्री शामिल है) को मूल रूप से प्रैक्टिकल मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था। अक्सर अधिक सामान्य शब्द (बड़े पैमाने पर) डेटा विश्लेषण और विश्लेषण-या, वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।

वास्तविक डेटा खनन कार्य सेमी-विकट है: पहले से अज्ञात, दिलचस्प पैटर्न जैसे डेटा रिकॉर्ड के समूह (क्लस्टर विश्लेषण), असामान्य रिकॉर्ड (विसंगति का पता लगाना), और निर्भरता (कंप्यूटर विज्ञान) निकालने के लिए बड़ी मात्रा में डेटा का स्वचालित या स्वचालित विश्लेषण ) (संघ नियम खनन, अनुक्रमिक पैटर्न खनन)। इसमें आमतौर पर स्थानिक सूचकांक जैसी डेटाबेस तकनीकों का उपयोग करना शामिल होता है। इन पैटर्नों को तब इनपुट डेटा के एक प्रकार के सारांश के रूप में देखा जा सकता है, और इसका उपयोग आगे के विश्लेषण में किया जा सकता है या, उदाहरण के लिए, मशीन लर्निंग और भविष्य कहनेवाला विश्लेषण में। उदाहरण के लिए, डेटा माइनिंग कदम डेटा में कई समूहों की पहचान कर सकता है, जिसका उपयोग निर्णय समर्थन प्रणाली द्वारा अधिक सटीक भविष्यवाणी परिणाम प्राप्त करने के लिए किया जा सकता है। न तो डेटा संग्रह, डेटा तैयार करना, न ही परिणाम की व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।

डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है। संबंधित शब्द डेटा ड्रेजिंग, डेटा फिशिंग और डेटा स्नूपिंग एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं (या हो सकते हैं)। पैटर्न की खोज की। हालाँकि, इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जा सकता है।

व्युत्पत्ति
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में आर्थिक अध्ययन की समीक्षा में प्रकाशित एक लेख में अर्थशास्त्री माइकल लवेल द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था। लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग (सकारात्मक) से लेकर मछली पकड़ने या स्नूपिंग (नकारात्मक) तक शामिल हैं।

डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में आम तौर पर सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक सैन डिएगो-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके; शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, ज्ञान निष्कर्षण आदि शामिल हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो | .kdnuggets.com/meetings/kdd89/ (KDD-1989)] और यह शब्द आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। हालाँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया। वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।

अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब AAAI प्रायोजन के तहत डाटा माइनिंग एंड नॉलेज डिस्कवरी (KDD-95) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और रामासामी उथुरुसामी ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने SIGKDD न्यूज़लेटर SIGKDD एक्सप्लोरेशन शुरू किया। KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।

पृष्ठभूमि
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s) शामिल हैं। कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण, आनुवंशिक एल्गोरिदम (1950), निर्णय वृक्ष सीखना एंड निर्णय नियम (1960), और सपोर्ट वेक्टर मशीन (1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है। बड़े डेटा सेट में। यह वास्तविक सीखने और खोज एल्गोरिदम को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके डेटाबेस प्रबंधन के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता (जो आमतौर पर गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।

प्रक्रिया
डेटाबेस (केडीडी) प्रक्रिया में ज्ञान की खोज को आमतौर पर चरणों के साथ परिभाषित किया जाता है:


 * 1) चयन
 * 2) प्री-प्रोसेसिंग
 * 3) परिवर्तन
 * 4) डेटा माइनिंग
 * 5) व्याख्या / मूल्यांकन।

हालाँकि, यह इस विषय पर कई रूपों में मौजूद है, डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया प्रोसेस (CRISP-DM) जो छह चरणों को परिभाषित करता है:


 * 1) व्यापार की समझ
 * 2) डेटा समझ
 * 3) डेटा तैयारी
 * 4) मॉडलिंग
 * 5) मूल्यांकन
 * 6) सिस्टम परिनियोजन

या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।

2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्यप्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है। इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक SEMMA था। हालाँकि, 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रोसेस मॉडल की समीक्षा प्रकाशित की है, और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और SEMMA की तुलना की।

प्री-प्रोसेसिंग
डेटा माइनिंग एल्गोरिदम का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर खनन करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले बहुभिन्नरूपी आँकड़े डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई सांख्यिकीय शोर और लापता डेटा वाले अवलोकनों को हटा देती है।

डाटा माइनिंग
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग शामिल हैं:
 * विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
 * एसोसिएशन नियम सीखना (डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अक्सर एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
 * क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
 * सांख्यिकीय वर्गीकरण - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
 * प्रतिगमन विश्लेषण - एक फ़ंक्शन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
 * स्वचालित सारांश - विज़ुअलाइज़ेशन और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।

परिणाम सत्यापन
डेटा माइनिंग का अनायास ही दुरुपयोग किया जा सकता है, ऐसे परिणाम उत्पन्न होते हैं जो महत्वपूर्ण प्रतीत होते हैं लेकिन जो वास्तव में भविष्य के व्यवहार की भविष्यवाणी नहीं करते हैं और डेटा के एक नए नमूने पर पुनरुत्पादन नहीं हो सकते हैं, इसलिए इसका बहुत कम उपयोग होता है। यह कभी-कभी बहुत अधिक परिकल्पनाओं की जांच करने और उचित सांख्यिकीय परिकल्पना परीक्षण नहीं करने के कारण होता है। मशीन लर्निंग में इस समस्या का एक सरल संस्करण overfitting के रूप में जाना जाता है, लेकिन प्रक्रिया के विभिन्न चरणों में एक ही समस्या उत्पन्न हो सकती है और इस प्रकार एक ट्रेन/टेस्ट स्प्लिट- जब भी लागू हो- इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है। डेटा से ज्ञान की खोज का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग एल्गोरिदम द्वारा निर्मित पैटर्न व्यापक डेटा सेट में होते हैं। एल्गोरिदम द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग एल्गोरिथम प्रशिक्षित नहीं था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामी आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, स्पैम को वैध ई-मेल से अलग करने की कोशिश करने वाले डेटा माइनिंग एल्गोरिदम को नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। एल्गोरिदम का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।

यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा खनन चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

अनुसंधान
नॉलेज डिस्कवरी एंड डेटा माइनिंग (SIGKDD) पर संगणक तंत्र संस्था (ACM) स्पेशल इंटरेस्ट ग्रुप (SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है। 1989 से, इस ACM SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है, और 1999 से इसने SIGKDD एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है। डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में शामिल हैं:


 * CIKM सम्मेलन - सूचना और ज्ञान प्रबंधन पर ACM सम्मेलन
 * मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
 * केडीडी सम्मेलन - ज्ञान खोज और डेटा खनन पर एसीएम एसआईजीकेडीडी सम्मेलन

कंप्यूटर विज्ञान सम्मेलनों की कई सूची #डेटा प्रबंधन|डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे ICDE सम्मेलन, SIGMOD और बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन में डेटा माइनिंग विषय भी मौजूद हैं।

मानक
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस (CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड (JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।

निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, जावा डाटा माइनिंग ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।

उल्लेखनीय उपयोग
आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।

गोपनीयता चिंताएं और नैतिकता
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अक्सर उपयोगकर्ता व्यवहार विश्लेषण (नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है। जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में गोपनीयता, वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं। विशेष रूप से, राष्ट्रीय सुरक्षा या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कुल सूचना जागरूकता कार्यक्रम या ADVISE में, ने गोपनीयता संबंधी चिंताओं को उठाया है। डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो गोपनीयता और डेटा गोपनीयता दायित्वों से समझौता करने वाली जानकारी या पैटर्न को उजागर करता है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। डेटा एकत्रीकरण में डेटा को एक साथ जोड़ना (संभवतः विभिन्न स्रोतों से) एक तरह से होता है जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा की पहचान या अन्यथा स्पष्ट भी हो सकता है)। यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। किसी व्यक्ति की गोपनीयता के लिए खतरा तब सामने आता है जब डेटा, एक बार संकलित हो जाने के बाद, डेटा माइनर, या कोई भी व्यक्ति जिसके पास नए संकलित डेटा सेट तक पहुंच होती है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो जाता है, खासकर जब डेटा मूल रूप से गुमनाम था। इसकी सलाह दी जाती है डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना: * डेटा संग्रह और किसी भी (ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य।
 * डेटा का उपयोग कैसे किया जाएगा।
 * जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे।
 * डेटा तक पहुंच के आसपास सुरक्षा की स्थिति।
 * एकत्रित डेटा को कैसे अपडेट किया जा सकता है।

डेटा को गुमनाम बनाने के लिए संशोधित भी किया जा सकता है, ताकि व्यक्तियों की आसानी से पहचान न हो सके। हालांकि, यहां तक ​​कि डेटा गुमनामी डेटा सेट में संभावित रूप से व्यक्तियों की पहचान की अनुमति देने के लिए पर्याप्त जानकारी हो सकती है, जैसा कि तब हुआ जब पत्रकार खोज इतिहास के एक सेट के आधार पर कई व्यक्तियों को खोजने में सक्षम थे जो अनजाने में एओएल द्वारा जारी किए गए थे। प्रदाता के लिए अग्रणी व्यक्तिगत रूप से पहचान योग्य जानकारी का अनजाने प्रकटीकरण उचित सूचना प्रथाओं का उल्लंघन करता है। यह अविवेक वित्तीय कारण बन सकता है, संकेतित व्यक्ति को भावनात्मक, या शारीरिक नुकसान। निजता के उल्लंघन के एक उदाहरण में, Walgreens के संरक्षकों ने 2011 में कंपनी के खिलाफ बेचने के लिए मुकदमा दायर किया डेटा माइनिंग कंपनियों को प्रिस्क्रिप्शन जानकारी जो बदले में डेटा प्रदान करती हैं दवा कंपनियों को।

यूरोप में स्थिति
यूरोपीय संघ में काफी मजबूत गोपनीयता कानून हैं, और उपभोक्ताओं के अधिकारों को और मजबूत करने के प्रयास चल रहे हैं। हालांकि, इंटरनेशनल सेफ हार्बर प्राइवेसी प्रिंसिपल्स|यू.एस.-ई.यू. 1998 और 2000 के बीच विकसित सेफ हार्बर सिद्धांत, वर्तमान में अमेरिकी कंपनियों द्वारा यूरोपीय उपयोगकर्ताओं को गोपनीयता के शोषण के लिए प्रभावी रूप से उजागर करते हैं। एड्वर्ड स्नोडेन के वैश्विक निगरानी प्रकटीकरण के परिणामस्वरूप, इस समझौते को रद्द करने की चर्चा बढ़ गई है, क्योंकि विशेष रूप से डेटा पूरी तरह से राष्ट्रीय सुरक्षा एजेंसी के सामने आ जाएगा, और संयुक्त राज्य अमेरिका के साथ एक समझौते तक पहुंचने के प्रयास विफल हो गए हैं। विशेष रूप से यूनाइटेड किंगडम में ऐसे मामले सामने आए हैं जब निगमों ने डेटा माइनिंग का उपयोग ग्राहकों के कुछ समूहों को लक्षित करने के लिए किया, जिससे उन्हें अनुचित रूप से उच्च कीमतों का भुगतान करने के लिए मजबूर होना पड़ा। ये समूह निम्न सामाजिक-आर्थिक स्थिति के लोग होते हैं जो डिजिटल मार्केट स्थानों में उनका शोषण करने के तरीकों से परिचित नहीं होते हैं।

संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका में, स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (HIPAA) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को संबोधित किया गया है। HIPAA के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के बारे में सूचित सहमति देना आवश्यक है। एएएचसी का कहना है कि बायोटेक बिजनेस वीक में एक लेख के अनुसार, '[i] एन अभ्यास, एचआईपीएए अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों की तुलना में अधिक सुरक्षा प्रदान नहीं कर सकता है।' इससे भी महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा का नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है। यह डेटा एकत्रीकरण और खनन प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है।

अमेरिकी सूचना गोपनीयता कानून जैसे HIPAA और पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम (FERPA) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा खनन का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है।

यूरोप में स्थिति
यूरोपीय संघ के कॉपीराइट कानून और डेटाबेस निर्देशों के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों (जैसे वेब खनन द्वारा) का खनन कानूनी नहीं है। जहां डेटाबेस यूरोप में शुद्ध डेटा है, हो सकता है कि कोई कॉपीराइट न हो- लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा खनन बौद्धिक संपदा मालिकों के अधिकारों के अधीन हो जाता है जो डेटाबेस डायरेक्टिव द्वारा संरक्षित हैं। हार्ग्रेव्स समीक्षा की सिफारिश पर, इसने ब्रिटेन सरकार को 2014 में अपने कॉपीराइट कानून में संशोधन करने के लिए सामग्री खनन को एक सीमा और कॉपीराइट के अपवाद के रूप में अनुमति देने के लिए प्रेरित किया। जापान के बाद ऐसा करने वाला यूके दुनिया का दूसरा देश था, जिसने 2009 में डेटा माइनिंग के लिए एक अपवाद पेश किया था। हालांकि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री खनन की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। 2020 से भी स्विट्ज़रलैंड डेटा खनन को कला द्वारा निर्धारित कुछ शर्तों के तहत अनुसंधान क्षेत्र में अनुमति देकर विनियमित कर रहा है। स्विस कॉपीराइट अधिनियम के 24d। यह नया लेख 1 अप्रैल 2020 को लागू हुआ। यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की। इस कानूनी मुद्दे के समाधान पर ध्यान, जैसे कि सीमाओं और अपवादों के बजाय लाइसेंसिंग, ने मई 2013 में विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और खुला एक्सेस प्रकाशकों के प्रतिनिधियों को हितधारक संवाद छोड़ने के लिए प्रेरित किया।

संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका का कॉपीराइट कानून, और विशेष रूप से उचित उपयोग के लिए इसका प्रावधान, अमेरिका और अन्य उचित उपयोग वाले देशों जैसे इज़राइल, ताइवान और दक्षिण कोरिया में सामग्री खनन की वैधता को कायम रखता है। जैसा कि सामग्री खनन परिवर्तनकारी है, अर्थात यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के तहत वैध माना जाता है। उदाहरण के लिए, Google पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने निर्णय दिया कि कॉपीराइट पुस्तकों की Google की डिजिटाइज़ेशन परियोजना वैध थी, आंशिक रूप से परिवर्तनकारी उपयोगों के कारण जो डिजिटाइज़ेशन प्रोजेक्ट प्रदर्शित करता है—एक टेक्स्ट और डेटा माइनिंग है.

मुफ्त ओपनएनएन-सोर्स डेटा माइनिंग सॉफ्टवेयर और एप्लिकेशन
नि:शुल्क/ओपन-सोर्स लाइसेंस के तहत निम्नलिखित एप्लिकेशन उपलब्ध हैं। एप्लिकेशन स्रोत कोड तक सार्वजनिक पहुंच भी उपलब्ध है।
 * Carrot2: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क।
 * Chemicalize.org: एक रासायनिक संरचना माइनर और वेब सर्च इंजन।
 * ELKI: जावा (प्रोग्रामिंग भाषा) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना।
 * टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला: एक प्राकृतिक भाषा प्रसंस्करण और भाषा इंजीनियरिंग उपकरण।
 * KNIME: Konstanz Information Miner, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
 * एमओए (मैसिव ऑनलाइन एनालिसिस) | मैसिव ऑनलाइन एनालिसिस (एमओए): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग।
 * बहु अभिव्यक्ति प्रोग्रामिंग: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल।
 * mlpack: C++ भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग एल्गोरिदम का संग्रह।
 * एनएलटीके (प्राकृतिक भाषा टूलकिट): पायथन (प्रोग्रामिंग भाषा) भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट।
 * OpenNN: ओपन न्यूरल नेटवर्क लाइब्रेरी।
 * ऑरेंज (सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन (प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है।
 * PSPP: SPSS के समान जीएनयू परियोजना के तहत डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर
 * आआर (प्रोग्रामिंग भाषा): सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज नारंगी (सॉफ्टवेयर) वातावरण। यह GNU प्रोजेक्ट का हिस्सा है।
 * Scikit-सीखें: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी
 * टॉर्च (मशीन लर्निंग): एक ओपन सोर्स मॉडल | लुआ (प्रोग्रामिंग भाषा) प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग एल्गोरिदम के लिए व्यापक समर्थन के साथ वैज्ञानिक कंप्यूटिंग फ्रेमवर्क के लिए ओपन-सोर्स ध्यान लगा के पढ़ना या सीखना लाइब्रेरी।
 * यूआईएमए: यूआईएमए (अनस्ट्रक्चर्ड इंफॉर्मेशन मैनेजमेंट आर्किटेक्चर) मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है।
 * वीका (मशीन लर्निंग): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर एप्लिकेशन का एक सूट।

मालिकाना डेटा-खनन सॉफ्टवेयर और अनुप्रयोग
निम्नलिखित एप्लिकेशन मालिकाना लाइसेंस के तहत उपलब्ध हैं।


 * एंगॉस नॉलेजस्टूडियो: डेटा माइनिंग टूल
 * LIONsolver: डेटा माइनिंग, बिजनेस इंटेलिजेंस और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर एप्लिकेशन जो लर्निंग एंड इंटेलिजेंट ऑप्टिमाइजेशन (LION) दृष्टिकोण को लागू करता है।
 * बहुविश्लेषक: मेगाप्यूटर इंटेलिजेंस द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर।
 * [[Microsoft विश्लेषण सेवाएँ]]: Microsoft द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर।
 * NetOwl: बहुभाषी टेक्स्ट और एंटिटी एनालिटिक्स उत्पादों का सूट जो डेटा माइनिंग को सक्षम बनाता है।
 * Oracle डेटा माइनिंग: Oracle Corporation द्वारा डेटा माइनिंग सॉफ़्टवेयर।
 * PSeven: DATADVANCE द्वारा प्रदान किया गया इंजीनियरिंग सिमुलेशन और विश्लेषण, बहु-विषयक अनुकूलन और डेटा खनन के स्वचालन के लिए मंच।
 * क्लोकोर ओमिक्स एक्सप्लोरर: डेटा माइनिंग सॉफ्टवेयर।
 * रैपिडमाइनर: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण।
 * एसएएस (सॉफ्टवेयर) # घटक: एसएएस संस्थान द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
 * एसपीएसएस मॉडलर: आईबीएम द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर।
 * आंकड़े डेटा माइनर: स्टेटसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
 * तनाग्रा (मशीन लर्निंग): विज़ुअलाइज़ेशन-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी।
 * वर्टिका: हेवलेट पैकर्ड द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
 * Google क्लाउड प्लेटफ़ॉर्म: Google द्वारा प्रबंधित स्वचालित कस्टम ML मॉडल।
 * Amazon SageMaker: कस्टम ML मॉडल बनाने और उत्पादन करने के लिए Amazon.com द्वारा प्रदान की जाने वाली प्रबंधित सेवा।

यह भी देखें
• Agent mining
 * तरीकों

• Anomaly/outlier/change detection

• Association rule learning

• Bayesian networks

• Classification

• Cluster analysis

• Decision trees

• Ensemble learning

• Factor analysis

• Genetic algorithms

• Intention mining

• Learning classifier system

• Multilinear subspace learning

• Neural networks

• Regression analysis

• Sequence mining

• Structured data analysis

• Support vector machines

• Text mining

• Time series analysis • Analytics
 * एप्लिकेशन डोमेन

• Behavior informatics

• Big data

• Bioinformatics

• Business intelligence

• Data analysis

• Data warehouse

• Decision support system

• Domain driven data mining

• Drug discovery

• Exploratory data analysis

• Predictive analytics

• Web mining
 * आवेदन के उदाहरण

• Automatic number plate recognition in the United Kingdom

• Customer analytics

• Educational data mining

• National Security Agency

• Quantitative structure–activity relationship

• Surveillance / Mass surveillance (e.g., Stellar Wind)
 * संबंधित विषय

डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए (डेटा का विश्लेषण करने के विपरीत), देखें: • Data integration

• Data transformation

• Electronic discovery

• Information extraction

• Information integration

• Named-entity recognition

• Profiling (information science)

• Psychometrics

• Social media mining

• Surveillance capitalism

• Web scraping
 * अन्य संसाधन
 * डेटा वेयरहाउसिंग और खनन का अंतर्राष्ट्रीय जर्नल

अग्रिम पठन

 * Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall, ISBN 0-13-743980-6
 * M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
 * Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press, ISBN 978-0-521-83657-9
 * Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
 * Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
 * Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
 * Liu, Bing (2007, 2011); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, ISBN 3-540-37881-2
 * Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier, ISBN 978-0-12-374765-5
 * Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference, ISBN 978-1-59904-162-9
 * Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining, ISBN 0-321-32136-7
 * Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0
 * Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
 * (See also Free Weka software)
 * Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum
 * Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum

इस पेज में लापता आंतरिक लिंक की सूची

 * आंकड़े
 * डाटा प्रबंधन
 * मूलमंत्र
 * डेटा वेयरहाउस
 * कृत्रिम होशियारी
 * सूचना प्रक्रम
 * आंकड़ा संग्रहण
 * विपणनअभियान
 * एनालिटिक्स
 * एसोसिएशन नियम खनन
 * असंगति का पता लगाये
 * भविष्य बतानेवाला विश्लेषक
 * एक प्राथमिक संभावना
 * जानकारी
 * तंत्रिका - तंत्र
 * एप्लाईड स्टैटस्टिक्स
 * आंकड़ों का बाजार
 * लापता आँकड़े
 * reproducibility
 * प्राप्तकर्ता परिचालन विशेषता
 * अकादमिक जर्नल
 * सीआईकेएम सम्मेलन
 * नॉलेज डिस्कवरी और डेटा माइनिंग पर सम्मेलन
 * मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ नॉलेज डिस्कवरी इन डेटाबेस में यूरोपीय सम्मेलन
 * सूचना और ज्ञान प्रबंधन पर सम्मेलन
 * प्रिडिक्टिव मॉडल मार्कअप लैंग्वेज
 * डेटा माइनिंग के उदाहरण
 * आचार विचार
 * कानून स्थापित करने वाली संस्था
 * कुल समारोह
 * डाटा प्राइवेसी
 * गोपनीयता का उल्लंघन
 * व्यक्तिगत पहचान की जानकारी
 * कॉपीराइट की सीमाएं और अपवाद
 * हरग्रेव्स समीक्षा
 * यूरोपीय संघ का कॉपीराइट कानून
 * Google पुस्तक खोज निपटान समझौता
 * एमओए (व्यापक ऑनलाइन विश्लेषण)
 * ओरेकल डाटा माइनिंग
 * Google क्लाउड प्लेटफ़ॉर्म
 * डेटा वेयरहाउसिंग और माइनिंग का अंतर्राष्ट्रीय जर्नल