डेटा माइनिंग

डेटा माइनिंग बड़े डेटा सेट में पैटर्न निकालने और खोजने की प्रक्रिया है, जिसमें मशीन लर्निंग, सांख्यिकी और डेटाबेस प्रणाली के प्रतिच्छेदन के तरीके सम्मिलित होते हैं।। डेटा माइनिंग कंप्यूटर विज्ञान और सांख्यिकी का एक अंतःविषय उपक्षेत्र है, जिसका समग्र लक्ष्य एक डेटा सेट से जानकारी बुद्धिमान तरीकों के साथ निकालने और आगे के उपयोग के लिए सूचना को एक बोधगम्य संरचना में बदलने का समग्र लक्ष्य रखा गया है।  डाटा माइनिंग डाटाबेस प्रक्रिया या केडीडी में नॉलेज डिस्कवरी का विश्लेषण चरण है। अनिर्मित विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, सांख्यिकीय मॉडल और सांख्यिकीय निष्कर्ष विचार, रुचि और अनुमान मीट्रिक, संगणनात्मक जटिलता सिद्धांत विचार, की खोजी गई संरचनाओं डेटा प्री-प्रोसेसिंग, डेटा दृश्यकरण और ऑनलाइन कलन विधि भी सम्मिलित।

डेटा माइनिंग शब्द एक अनुपयुक्त नाम है, क्योंकि लक्ष्य बड़ी मात्रा में डेटा से नमूना और ज्ञान का निष्कर्षण है न कि डेटा का निष्कर्षण माइनिंग। यह भी एक मुहावरा है और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी के किसी भी रूप में और कृत्रिम बुद्धि, जैसे, मशीन सीखने और व्यापार खुफिया सहित कंप्यूटर निर्णय समर्थन प्रणाली के किसी भी अनुप्रयोग पर लागू होता है।.पुस्तक डेटा माइनिंग, जावा (प्रोग्रामिंग भाषा) हैं। (जिसमें ज्यादातर मशीन लर्निंग सामग्री को कवर करता है) व्यावहारिक मशीन सीखने के उपकरण और तकनीक मूल रूप से व्यावहारिक मशीन सीखने के लिए नाम दिया गया था और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था। अधिकांशता अधिक सामान्य शब्द (बड़े पैमाने पर) डेटा विश्लेषण और विश्लेषण या वास्तविक तरीकों, कृत्रिम बुद्धिमत्ता और मशीन सीखने के संदर्भ में अधिक उपयुक्त होते हैं।

वास्तविक डेटा माइनिंग कार्य, पहले अज्ञात, दिलचस्प प्रतिरूपों जैसे डेटा रिकॉर्ड के समूह (क्लस्टर विश्लेषण), असामान्य रिकॉर्ड (विसंगति संसूचन), और निर्भरता (संगठन नियम माइनिंग, अनुक्रमिक पैटर्न माइनिंग) को निकालने के लिए डेटा की बड़ी मात्रा का अर्ध-स्वचालित या स्वचालित विश्लेषण है.यह सामान्यता स्थानिक सूचकांक जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में प्रयोग किया जाता है। उदाहरण के लिए, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान हो सकती है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जा सकता है,.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, चूँकि ये संपूर्ण केडीडी प्रक्रिया का हिस्सा हैं, जैसे कि अतिरिक्त चरण से संबंधित हैं।

डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना होता है। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।

संबंधित शब्द डेटा ड्रेजिंग, डेटा फिशिंग और डेटा स्नूपिंग एक बड़ी जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित किया जाता है जो विश्वसनीय सांख्यिकीय अनुमानों के लिए अत्यधिक छोटा होता है। तथापि, इन विधियों का प्रयोग बड़ी संख्या वाली जनसंख्या के विरुद्ध परीक्षण के लिए नई परिकल्पनाओं के सृजन में किया जा सकता है।

व्युत्पत्ति
1960 के दशक में सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग पकड़ने या आंकड़े निकालने जैसे शब्दों का उपयोग उन्हें प्राथमिकता परिकल्पना के बिना आंकड़ों के विश्लेषण की बुरी अभ्यास के रूप में मानते थे।1983 में आर्थिक अध्ययनों की समीक्षा में प्रकाशित एक लेख में अर्थशास्त्री माइकल लवेल ने इसी प्रकार की आलोचनात्मक दृष्टि से "डेटा माइनिंग" शब्द का उपयोग किया था। माइकल लवेल इंगित करते है कि अभ्यास किये जा रहे विभिन्न एलीसेस में मास्कवर की प्रक्रिया, जिसमें फिशिंग (पॉजिटिव) या स्नूपिंग नकारात्मक तक सम्मिलित की जाती है।

डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्तया सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक सैन डिएगो आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को व्यापार के लिए उपयोग किया जा सके; शोधकर्ताओं ने परिणामस्वरूप डेटा माइनिंग में बदल दिया। अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, ज्ञान निष्कर्षण आदि सम्मिलित हैं। ग्रेगरी पियाट्स्की-शापीरो ने पहली बार कार्यशाला (केडीडी-1989) के लिए नॉलेज डिस्कवरी शब्द का प्रयोग किया और यह शब्द एअर इंडिया और मशीनी शिक्षण के क्षेत्र में लोकप्रिय हो गया। लेकिन डेटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया। वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।

शैक्षिक समुदाय में प्रमुख अनुसंधान मंचों की शुरुआत 1995 में हुई जब डेटा माइनिंग और नॉलेज डिस्कवरी पर प्रथम अंतर्राष्ट्रीय सम्मेलन एएएआई प्रायोजन के अनुसार मांट्रियल में शुरू किया गया। इसकी सह-अध्यक्षता उस्मा फ़य्याद और रामासामी उथुरुसामी ने की थी। इसके एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने एसआईजीकेडीडी समाचारपत्र एसआईजीकेडीडी अन्वेषण की शुरुआत की। केडीडी अंतर्राष्ट्रीय सम्मेलन 18% से कम के अनुसंधान पत्र प्रस्तुति की स्वीकृति दर से डाटा माइनिंग में प्राथमिक उच्चतम स्तरीय सम्मेलन बन गया। जर्नल डेटा माइनिंग और नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।

पृष्ठभूमि
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s) में सम्मिलित होता है। कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और नियंत्रण करने की क्षमता को बढ़ा दिया है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़ता गया है, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है। और कंप्यूटर विज्ञान में अन्य खोजों की सहायता से, विशेष रूप से मशीन अध्ययन, क्लस्टर विश्लेषण, आनुवंशिक कलन विधि, (1950 के दशक), निर्णय वृक्ष और निर्णय नियम (1960 के दशक), और समर्थन वेक्टर मशीनों (1990) में वृद्धि हुई है। डेटा माइनिंग गुप्त पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है। बड़े डेटा सेटों में यह अनुप्रयुक्त सांख्यिकी और कृत्रिम बुद्धि के अंतराल को पाटता है, जो सामान्तया गणितीय पृष्ठभूमि प्रदान करता है। डेटाबेस प्रबंधन के लिए जिस तरह डेटा संग्रहित और डेटाबेस में अनुक्रमित वास्तविक अधिगम और खोज कलन विधि के निष्पादन के लिए करता है, जो ऐसे उपायों को अक्षरतापूर्वक डेटा सेट में लागू करने की अनुमति देते हैं.

प्रक्रिया
डेटाबेस (केडीडी) प्रक्रिया में नॉलेज डिस्कवरी को सामान्यता चरणों के साथ परिभाषित किया जाता है:


 * 1) चयन
 * 2) प्री-प्रोसेसिंग
 * 3) परिवर्तन
 * 4) डेटा माइनिंग
 * 5) व्याख्या / मूल्यांकन।

चूँकि, यह इस विषय पर कई रूपों में मौजूद है, डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया (क्रिस्प-डीएम) जो छह चरणों को परिभाषित करता है।


 * 1) व्यापार की समझ
 * 2) डेटा समझ
 * 3) डेटा तैयारी
 * 4) मॉडलिंग
 * 5) मूल्यांकन
 * 6) प्रणाली परिनियोजन

या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।

2002, 2004, 2007 और 2014 में आयोजित चुनाव दर्शाते हैं कि क्रिस-डीएम पद्धति डेटा खनिकों द्वारा प्रयोग की जाने वाली प्रमुख कार्यप्रणाली है। इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक सेम्मा था। चूँकि, 3-4 गुना अधिक लोगों ने क्रिस्प-डीएम का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है और अजेवेदो और सैंटोस ने 2008 में क्रिस्प-डीएम और सेम्मा की तुलना की थी।

प्री-प्रोसेसिंग
डेटा माइनिंग कलन विधि के प्रयोग के पहले एक लक्ष्य डेटा सेट अवश्य रखना चाहिए। चूंकि डेटा माइनिंग डेटा में वास्तव में उपस्थित पैटर्नों को उजागर कर सकती है, इसलिए लक्ष्य डेटा सेट इतना बड़ा होना चाहिए कि वह इन पैटर्नों को नियंत्रित कर सके जबकि एक स्वीकार्य समय सीमा के भीतर माइनिंग करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक आम स्रोत डेटा मार्ट या डेटा वेयरहाउस है, डेटा माइनिंग से पहले बहुभिन्नरूपी डेटा सेटों का विश्लेषण करने के लिए प्री सेट को तब साफ किया जाता है। आँकड़ा सफाई सांख्यिकीय शोरर युक्त टिप्पणियों तथा अनुपस्थित डाटा वाले टिप्पणियों को हटा देती है।

डाटा माइनिंग
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित होते हैं।
 * विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
 * संगठन नियम सीखना (निर्भरता मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक को खरीदारी की आदतों पर डेटा एकत्र कर सकता है। संगठन नियम लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
 * क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है, जो किसी न किसी रूप में या अन्य समान हैं।
 * सांख्यिकीय वर्गीकरण - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
 * प्रतिगमन विश्लेषण - एक फलन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
 * स्वचालित सारांश - प्रत्योक्षकरण और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।

परिणाम सत्यापन
डेटा माइनिंग का अनजाने में दुरुपयोग किया जा सकता है, उन परिणामों का उत्पादन जो महत्वपूर्ण प्रतीत होते हैं लेकिन जिन पर वास्तव में भविष्य के व्यवहार की भविष्यवाणी नहीं की जाती और उन्हें डेटा के एक नए नमूने पर नहीं पेश किया जा सकता है, इसलिए इसका बहुत कम उपयोग होता है। यह कभी कभी कई परिकल्पनाओं की जांच के कारण होता है और उचित सांख्यिकीय परिकल्पना परीक्षण नहीं के कारण होता है। मशीन लर्निंग की इस समस्या के सरल संस्करण को ओवरफिटिंग के रूप में जाना जाता है, लेकिन यह एक ही समस्या प्रक्रिया के विभिन्न चरणों में खड़ी हो सकती है और इस प्रकार सभी पर लागू हो जाने पर एक ट्रेन/टेस्ट स्प्लिट जब भी लागू हो इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।

डेटा से नॉलेज डिस्कवरी का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग कलन विधि द्वारा निर्मित पैटर्न व्यापक डेटा सेट में घटित होती है। कलन विधि द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग कलन विधि के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग कलन विधि को प्रशिक्षित नहीं किया गया था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामस्वरूप आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, डेटा माइनिंग कलन विधि जो "स्पैम" को वैध "ई-मेल से अलग करने की कोशिश करता है, उसे नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। कलन विधि का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।

यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा माइनिंग चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

अनुसंधान
नॉलेज डिस्कवरी एंड डेटा माइनिंग (सिग्केडीडी) पर संगणक तंत्र संस्था (एसीएम) विशेष हित समूह (एसआईजी ) इस क्षेत्र की प्रमुख पेशेवर संस्था है। 1989 से, इस एसीएम, एसआईजी ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है, 999 के बाद से इसने दो वार्षिक अकादमिक पत्रिका 'हस्ताक्षरित खोज' प्रकाशित की है।

डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित होता है।


 * सीआईकेएम सम्मेलन - सूचना और ज्ञान प्रबंधन पर एसीएम सम्मेलन
 * मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
 * केडीडी सम्मेलन - ज्ञान खोज और डेटा माइनिंग पर एसीएम एसआईजीकेडीडी सम्मेलन

डेटा माइनिंग के लिए कई डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे आईसीडीई सम्मेलन, सिग्मोड सम्मेलन और बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन में डेटा माइनिंग विषय भी मौजूद हैं।

मानक
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए 1999 में यूरोपीय डाटा माइनिंग के लिए क्रॉस इंडस्ट्री के लिए मानक प्रक्रिया (क्रिस-डीएम 1.0) और 2004 जावा डेटा माइनिंग मानक (जेडीएम 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (क्रिस्प-डीएम 2.0 और जेडीएम 2.0) 2006 में सक्रिय रहा लेकिन तब से रुका हुआ है।.जेडीएम 2.0 को अंतिम मसौदे पर पहुंचने के बिना वापस ले लिया गया था।.

विशेष रूप से पूर्वानुमानित विश्लेषण में उपयोग के लिए निकाले गए मॉडलों के आदान-प्रदान के लिए-मुख्य मानक पूर्वानुमानित मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, जावा डाटा माइनिंग ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित लैंग्वेज है और कई डेटा माइनिंग अनुप्रयोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा माइनिंग कार्य को कवर करता है। चूँकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।

उल्लेखनीय उपयोग
आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।

गोपनीयता चिंताएं और नैतिकता
जबकि डेटा माइनिंग शब्द का स्वयं कोई नैतिक निहितार्थ नहीं हो सकता है, परंतु यह बहुधा प्रयोक्ता व्यवहार विश्लेषण (नैतिक एवं अन्यथा) के संबंध में सूचना के माइनिंग के साथ संबद्ध होता है।।

डेटा माइनिंग का उपयोग किस तरीके से किया जा सकता है। यह कुछ मामलों में और संदर्भों में गोपनीयता, वैधता और नैतिकता से संबंधित प्रश्न उठा सकते हैं। विशेष रूप से, राष्ट्रीय सुरक्षा या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कुल सूचना जागरूकता कार्यक्रम या सलाह में, गोपनीयता संबंधी चिंताएं बढ़ी हैं।

डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो गोपनीयता और डेटा गोपनीयता के दायित्वों के साथ समझौता करने वाली सूचनाओं या पैटर्न को उजागर करती है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। डेटा एकत्रीकरण में डेटा को इस प्रकार से संयोजित करना सम्मिलित होता है (संभवतः विभिन्न स्रोतों से) जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा निगम्य या अन्यथा स्पष्ट रूप से उसकी पहचान हो सकती है)। यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। एक व्यक्ति की गोपनीयता के लिए खतरा तब उत्पन्न होता है जब डेटा, एक बार संकलित, डेटा खनिक, या कोई भी जो नए संकलित डेटा सेट तक पहुँच रखता है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो, विशेष रूप से जब डेटा मूल रूप से गुमनाम थे।

इसकी सलाह दी जाती है डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना
 * डेटा संग्रह और किसी भी (ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य।
 * डेटा का उपयोग कैसे किया जाएगा।
 * जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे।
 * डेटा तक पहुंच के आसपास सुरक्षा की स्थिति।
 * एकत्रित डेटा को कैसे अपडेट किया जा सकता है।

डेटा को गुमनाम बनाने के लिए संशोधित भी किया जा सकता है, ताकि व्यक्ति की पहचान को आसानी से न किया जा सके। चूँकि, यहां तक ​​कि डेटा गुमनामी डेटा सेट में संभावित रूप से व्यक्तियों की पहचान की अनुमति देने के लिए पर्याप्त जानकारी हो सकती है, जैसा कि जब पत्रकार एओ द्वारा जारी किए गए खोज इतिहास के एक समूह के आधार पर अनेक व्यक्तियों को खोजने में सक्षम थे जो अनजाने में एओएल द्वारा जारी किए गए थे।

प्रदाता के लिए अग्रणी व्यक्तिगत रूप से पहचान योग्य जानकारी का अनजाने रहस्योद्घाटन उचित सूचना प्रथाओं का उल्लंघन करता है। यह अविवेक वित्तीय कारण बन सकता है, संकेतित व्यक्ति को भावनात्मक, या शारीरिक नुकसान हो सकता है। गोपनीयता उल्लंघन के एक उदाहरण में, वालग्रीन्स के संरक्षकों ने 2011 में कंपनी के खिलाफ डेटा बेचने के लिए मुकदमा दायर किया। डेटा माइनिंग कंपनियों को जिन्होंने दवा कंपनियों को सूचनाएं उपलब्ध कराई।।

यूरोप में स्थिति
यूरोपीय संघ में काफी मजबूत गोपनीयता कानून हैं, और उपभोक्ताओं के अधिकारों को और मजबूत करने के प्रयास चल रहे हैं। चूँकि, अंतरराष्ट्रीय सेफ हार्बर गोपनीयता सिद्धांत यू.एस.-ई.यू. 1998 और 2000 के बीच विकसित किया गया है। इस समय इसने यूरोपीय प्रयोक्ताओं को अमेरिकी कंपनियों द्वारा गोपनीयता शोषण का प्रभावी रूप से पर्दाफाश किया है। एडवर्ड स्नो डेन के वैश्विक निगरानी प्रकटीकरण के परिणामस्वरूप इस समझौते को रद्द करने पर चर्चा बढ़ गई है, विशेष रूप से आंकड़ों को पूरी तरह राष्ट्रीय सुरक्षा एजेंसी के सामने रखा जाएगा, और संयुक्त राज्य अमेरिका के साथ समझौते पर पहुँचने का प्रयास विफल हो गए हैं।

विशेष रूप से यूनाइटेड किंगडम में ऐसे मामले सामने आए हैं जब निगमों ने डेटा माइनिंग का उपयोग ग्राहकों के कुछ समूहों को लक्षित करने के लिए किया, जिससे उन्हें अनुचित रूप से उच्च कीमतों का भुगतान करने के लिए मजबूर होना पड़ा। ये समूह निम्न सामाजिक-आर्थिक स्थिति के लोग होते हैं जो डिजिटल मार्केट स्थानों में उनका शोषण करने के तरीकों से परिचित नहीं होते हैं।

संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका में, स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (हिपा)) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को को दूर किया है। हिपा के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के संबंध में अपनी जानकारी दी जाने वाली सहमति देने की आवश्यकता होती है, जैसा कि एएचएचसी का कहना है, जैव प्रौद्योगिकी व्यापार सप्ताह में एक लेख के अनुसार, [i] एन अभ्यास, हिपा अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों से ज्यादा सुरक्षा प्रदान नहीं कर सकता है। सबसे महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा के नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है यह डेटा एकत्रीकरण और माइनिंग प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है।

अमेरिकी सूचना गोपनीयता कानून जैसे हिपा और पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम (फेरपा) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं, जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा माइनिंग का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है।

यूरोप में स्थिति
यूरोपीय कॉपीराइट और डेटाबेस कानूनों के अनुसार कॉपीराइट स्वामी की अनुमति के बिना कॉपीराइट कार्यों (जैसे वेब माइनिंग द्वारा) के माइनिंग कानूनी नहीं है। जहां यूरोप में एक डेटाबेस शुद्ध डेटा है,, तो यह हो सकता है कि कोई कॉपीराइट नहीं है लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा माइनिंग बौद्धिक संपदा मालिक के अधिकारों के अधीन हो जाता है, जो डेटाबेस निर्देश द्वारा संरक्षित हैं, हार्ग्रैव्स के पुनर्विलोकन की सिफारिश से ब्रिटेन की सरकार ने अपने कॉपीराइट कानून में 2014 में संशोधन किया ताकि सामग्री माइनिंग को एक सीमा और अपवाद के रूप में प्रदान किया जा सके। जापान के बाद यू.के. विश्व का दूसरा देश था जिसने 2009 में डेटा माइनिंग में एक अपवाद की घोषणा की। चूँकि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री माइनिंग की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। 2020 से लेकर स्विट्जरलैंड भी डाटा माइनिंग को विनियमित करने के लिए इसे कला के अनुसार निर्धारित शर्तों के अंतर्गत प्रदान किया गया है। स्विस कॉपीराइट अधिनियम के 24 डी में यह नया लेख 1 अप्रैल 2020 को लागू हुआ।

यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के अनुसार 2013 में पाठ और डेटा माइनिंग पर हितधारक चर्चा की सुविधा प्रदान की। इस कानूनी मुद्दे के समाधान पर ध्यान केंद्रित करने के कारण विश्वविद्यालयों, अनुसंधानकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों तथा ओपन एक्सेस प्रकाशकों के प्रतिनिधियों ने हितधारक संवाद मई, 2013 में छोड़ने के लिए प्रेरित किया।

संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका का कॉपीराइट कानून और विशेष रूप से उचित उपयोग के लिए इसका प्रावधान अमेरिका में सामग्री माइनिंग की वैधता और इजरायल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों का समर्थन करता है। जैसे-जैसे माइनिंग रूपांतरकारी होता है, अर्थात यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसलिए उसे उचित उपयोग में रखकर विधिमान्य माना जाता है। उदाहरण के लिए, गूगल बुक निपटान के भाग के रूप में इस मामले के पीठासीन न्यायाधीश ने निर्णय दिया कि कॉपीराइट रहित पुस्तकों की अंकरूपण परियोजना कानूनी रूप से सही थी, आंशिक रूप से अंकरूपण परियोजना जिसका अंकरूपण उपयोग हो रहा है, एक टेक्स्ट और डाटा माइनिंग है।.

मुफ्त ओपनएनएन-सोर्स डेटा माइनिंग सॉफ्टवेयर और एप्लिकेशन
नि:शुल्क/ओपन-सोर्स लाइसेंस के अनुसार निम्नलिखित अनुप्रयोग उपलब्ध हैं। अनुप्रयोग स्रोत कोड तक सार्वजनिक पहुंच भी उपलब्ध है।
 * सीएआरआरओटी2: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क।
 * रासायनिक संगठन: एक रासायनिक संरचना माइनर और वेब सर्च इंजन।
 * एल्की: जावा (प्रोग्रामिंग भाषा) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना।
 * टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला: एक प्राकृतिक भाषा प्रसंस्करण और भाषा इंजीनियरिंग उपकरण।
 * केएनआईएमइ: कोंस्टांज इंफॉर्मेशन माइनर, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
 * एमओए (मैसिव ऑनलाइन एनालिसिस): मैसिव ऑनलाइन एनालिसिस (एमओए), जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग।
 * बहु अभिव्यक्ति प्रोग्रामिंग: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल।
 * एमएलपैक: सी++ भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग कलन विधि का संग्रह।
 * एनएलटीके (प्राकृतिक भाषा टूलकिट): पायथन (प्रोग्रामिंग भाषा) भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट।
 * ओपेनएनएन: ओपन न्यूरल नेटवर्क लाइब्रेरी।
 * ऑरेंज (सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन (प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है।
 * पीएसपीपी: एसपीएसएस के समान जीएनयू परियोजना के अनुसार डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर
 * आर (प्रोग्रामिंग भाषा): सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज नारंगी (सॉफ्टवेयर) वातावरण। यह जीएनयू प्रोजेक्ट का हिस्सा है।
 * साइकिट-सीखें: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी
 * टॉर्च (मशीन लर्निंग): एक ओपन सोर्स मॉडल | लुआ (प्रोग्रामिंग भाषा) प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग कलन विधि के लिए व्यापक समर्थन के साथ वैज्ञानिक कंप्यूटिंग फ्रेमवर्क के लिए ओपन-सोर्स ध्यान लगा के पढ़ना या सीखना लाइब्रेरी।
 * यूआईएमए: यूआईएमए असंरचित सूचना प्रबंधन वास्तुकला मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है।
 * वीका (मशीन लर्निंग): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर अनुप्रयोग का एक सूट है।

स्वामित्व डेटा-माइनिंग सॉफ्टवेयर और अनुप्रयोग
निम्नलिखित अनुप्रयोग स्वामित्व लाइसेंस के अनुसार उपलब्ध होते हैं।


 * एंगॉस नॉलेजस्टूडियो: डेटा माइनिंग टूल
 * लायन सॉल्वर: डेटा माइनिंग, व्यापार बुद्धिमत्ता और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर अनुप्रयोग जो सीखना और बुद्धिमान अनुकूलन (लायन) दृष्टिकोण को लागू करता है।
 * बहुविश्लेषक: मेगाप्यूटर बुद्धिमत्ता द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर।
 * माइक्रोसॉफ्ट विश्लेषण सेवाएँ: माइक्रोसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर।
 * नेटआउल: बहुभाषी टेक्स्ट और एंटिटी एनालिटिक्स उत्पादों का सूट जो डेटा माइनिंग को सक्षम बनाता है।
 * ओरेकल डेटा माइनिंग: ओरेकल कॉर्पोरेशन द्वारा डेटा माइनिंग सॉफ़्टवेयर।
 * पीसेवन: डेटाएडवांस द्वारा प्रदान किया गया अभियांत्रिकी सिमुलेशन और विश्लेषण, बहु-विषयक अनुकूलन और डेटा माइनिंग के स्वचालन के लिए मंच।
 * क्लोकोर ओमिक्स अन्वेषक: डेटा माइनिंग सॉफ्टवेयर।
 * रैपिडमाइनर: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण।
 * एसएएस (सॉफ्टवेयर) घटक: एसएएस संस्थान द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
 * एसपीएसएस मॉडलर: आईबीएम द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर।
 * आंकड़े डेटा माइनर: स्टेटसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
 * तनाग्रा (मशीन लर्निंग): प्रत्योक्षकरण-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी।
 * वर्टिका: हेवलेट पैकर्ड द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
 * गूगल क्लाउड प्लेटफ़ॉर्म: गूगल द्वारा प्रबंधित स्वचालित कस्टम एमएल मॉडल।
 * अमेज़न सैजमेकर: कस्टम एमएल मॉडल बनाने और उत्पादन करने के लिए अमेजन डॉट कॉम द्वारा प्रदान की जाने वाली प्रबंधित सेवा।

यह भी देखें
• एजेंट माइनिंग
 * तरीकों

• विसंगति का पता लगाना, विसंगति/बाह्य/परिवर्तन का पता लगाना

• एसोसिएशन रूल लर्निंग

• बायेसियन नेटवर्क एस

• सांख्यिकीय वर्गीकरण • एनालिटिक्स
 * एप्लिकेशन डोमेन

• व्यवहार सूचना विज्ञान

• बिग डेटा
 * आवेदन के उदाहरण

• यूनाइटेड किंगडम में स्वचालित नंबर प्लेट, पहचान डेटा माइनिंग, यूनाइटेड किंगडम में स्वचालित नंबर प्लेट पहचान

• कस्टमर एनालिटिक्स डेटा माइनिंग कस्टमर एनालिटिक्स

• शैक्षिक डाटा माइनिंग

• राष्ट्रीय सुरक्षा एजेंसी डाटा माइनिंग राष्ट्रीय सुरक्षा एजेंसी

• मात्रात्मक संरचना–गतिविधि संबंध डाटा माइनिंग दृष्टिकोण
 * संबंधित विषय

डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए (डेटा का विश्लेषण करने के विपरीत), देखें • डेटा एकीकरण

• डेटा रूपांतरण

• [इलेक्ट्रॉनिक खोज

• सूचना निष्कर्षण

• सूचना एकीकरण

• नामित-निकाय पहचान

• प्रोफाइलिंग (सूचना विज्ञान)

• साइकोमेट्रिक्स

• सोशल मीडिया माइनिंग

• निगरानी पूंजीवाद

• वेब स्क्रेपिंग
 * अन्य संसाधन
 * डेटा वेयरहाउसिंग और माइनिंग का अंतर्राष्ट्रीय जर्नल

अग्रिम पठन

 * Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall, ISBN 0-13-743980-6
 * M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
 * Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press, ISBN 978-0-521-83657-9
 * Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
 * Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
 * Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
 * Liu, Bing (2007, 2011); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, ISBN 3-540-37881-2
 * Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier, ISBN 978-0-12-374765-5
 * Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference, ISBN 978-1-59904-162-9
 * Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining, ISBN 0-321-32136-7
 * Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0
 * Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
 * (See also Free Weka software)
 * Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum
 * Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum

इस पेज में लापता आंतरिक लिंक की सूची

 * आंकड़े
 * डाटा प्रबंधन
 * मूलमंत्र
 * डेटा वेयरहाउस
 * कृत्रिम होशियारी
 * सूचना प्रक्रम
 * आंकड़ा संग्रहण
 * विपणनअभियान
 * एनालिटिक्स
 * संगठन नियम माइनिंग
 * असंगति का पता लगाये
 * भविष्य बतानेवाला विश्लेषक
 * एक प्राथमिक संभावना
 * जानकारी
 * तंत्रिका - तंत्र
 * एप्लाईड स्टैटस्टिक्स
 * आंकड़ों का बाजार
 * लापता आँकड़े
 * reproducibility
 * प्राप्तकर्ता परिचालन विशेषता
 * अकादमिक जर्नल
 * सीआईकेएम सम्मेलन
 * नॉलेज डिस्कवरी और डेटा माइनिंग पर सम्मेलन
 * मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ नॉलेज डिस्कवरी इन डेटाबेस में यूरोपीय सम्मेलन
 * सूचना और ज्ञान प्रबंधन पर सम्मेलन
 * प्रिडिक्टिव मॉडल मार्कअप लैंग्वेज
 * डेटा माइनिंग के उदाहरण
 * आचार विचार
 * कानून स्थापित करने वाली संस्था
 * कुल समारोह
 * डाटा प्राइवेसी
 * गोपनीयता का उल्लंघन
 * व्यक्तिगत पहचान की जानकारी
 * कॉपीराइट की सीमाएं और अपवाद
 * हरग्रेव्स समीक्षा
 * यूरोपीय संघ का कॉपीराइट कानून
 * Google पुस्तक खोज निपटान समझौता
 * एमओए (व्यापक ऑनलाइन विश्लेषण)
 * ओरेकल डाटा माइनिंग
 * Google क्लाउड प्लेटफ़ॉर्म
 * डेटा वेयरहाउसिंग और माइनिंग का अंतर्राष्ट्रीय जर्नल