डेटा माइनिंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{short description|Process of extracting and discovering patterns in large data sets}}
{{short description|Process of extracting and discovering patterns in large data sets}}
{{redirect|वेब माइनिंग|वेब ब्राउज़र-आधारित क्रिप्टोक्यूरेंसी माइनिंग|क्रिप्टोमुद्रा}}
{{redirect|Web mining|web browser-based cryptocurrency mining|cryptocurrency}}
{{Machine learning bar}}
{{Machine learning bar}}
डेटा माइनिंग [[डेटा सेट]] में पैटर्न निकालने और खोजने की प्रक्रिया है, जिसमें [[मशीन लर्निंग]], सांख्यिकी और डेटाबेस प्रणाली के प्रतिच्छेदन के तरीके सम्मिलित होते हैं।।<ref name="acm" /> डेटा माइनिंग [[कंप्यूटर विज्ञान]] और सांख्यिकी का एक [[अंतःविषय]] उपक्षेत्र है, जिसका समग्र लक्ष्य एक डेटा सेट से जानकारी (बुद्धिमान तरीकों के साथ) निकालने और सूचना को एक बोधगम्य संरचना में बदलने का समग्र लक्ष्य रखा गया है।<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=डाटा माइनिंग पाठ्यक्रम|publisher=[[Association for Computing Machinery|ACM]] [[SIGKDD]] |date=2006-04-30 |access-date=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा|year=2010 |url=https://www.britannica.com/EBchecked/topic/1056150/data-mining |access-date=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome|author-link3=Jerome H. Friedman|title=सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|access-date=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han|first1=Jaiwei|title=डाटा माइनिंग: अवधारणाएं और तकनीकें|last2=Kamber|first2=Micheline|last3=Pei|first3=Jian|date=2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd|author-link=Jiawei Han}}</ref> डाटा माइनिंग डाटाबेस प्रक्रिया या केडीडी में नॉलेज डिस्कवरी का विश्लेषण चरण है।<ref name="Fayyad" />अनिर्मित विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, [[सांख्यिकीय मॉडल]] और [[सांख्यिकीय निष्कर्ष]] विचार, रुचि और अनुमान मीट्रिक, [[कम्प्यूटेशनल जटिलता सिद्धांत|संगणनात्मक जटिलता सिद्धांत]] विचार, की खोजी गई संरचनाओं [[डेटा प्री-प्रोसेसिंग]], [[डेटा विज़ुअलाइज़ेशन|डेटा]] [[दृश्यकरण]] और [[ऑनलाइन एल्गोरिदम|ऑनलाइन कलन विधि]] भी सम्मिलित।<ref name="acm" />
डेटा माइनिंग बड़े [[डेटा सेट]] में पैटर्न निकालने और खोजने की प्रक्रिया है, जिसमें [[मशीन लर्निंग]], सांख्यिकी और [[डेटाबेस सिस्टम]] के इंटरसेक्शन के तरीके शामिल हैं।<ref name="acm" />डेटा माइनिंग [[कंप्यूटर विज्ञान]] और सांख्यिकी का एक [[अंतःविषय]] उपक्षेत्र है, जिसका समग्र लक्ष्य एक डेटा सेट से जानकारी (बुद्धिमान विधियों के साथ) निकालना और सूचना को आगे उपयोग के लिए एक बोधगम्य संरचना में बदलना है।<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=डाटा माइनिंग पाठ्यक्रम|publisher=[[Association for Computing Machinery|ACM]] [[SIGKDD]] |date=2006-04-30 |access-date=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा|year=2010 |url=https://www.britannica.com/EBchecked/topic/1056150/data-mining |access-date=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome|author-link3=Jerome H. Friedman|title=सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|access-date=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han|first1=Jaiwei|title=डाटा माइनिंग: अवधारणाएं और तकनीकें|last2=Kamber|first2=Micheline|last3=Pei|first3=Jian|date=2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd|author-link=Jiawei Han}}</ref> डाटा माइनिंग डाटाबेस प्रोसेस या केडीडी में नॉलेज डिस्कवरी का एनालिसिस स्टेप है।<ref name="Fayyad" />कच्चे विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, [[सांख्यिकीय मॉडल]] और [[सांख्यिकीय निष्कर्ष]] विचार, दिलचस्प मेट्रिक्स, [[कम्प्यूटेशनल जटिलता सिद्धांत]] विचार, खोजी गई संरचनाओं [[डेटा प्री-प्रोसेसिंग]], [[डेटा विज़ुअलाइज़ेशन]] और [[ऑनलाइन एल्गोरिदम]] भी शामिल है।<ref name="acm" />


डेटा माइनिंग शब्द एक [[मिथ्या नाम|अनुपयुक्त नाम]] है, क्योंकि लक्ष्य बड़ी मात्रा में डेटा से [[नमूना]] और ज्ञान का निष्कर्षण है न कि डेटा का निष्कर्षण माइनिंग।<ref name="han-kamber">{{cite book|title=डेटा खनन: अवधारणाएं और तकनीकें|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=[[Morgan Kaufmann]]|isbn=978-1-55860-489-6|page=5|quote=इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है|author-link1=Jiawei Han}}</ref> यह भी एक मुहावरा है<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref> और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी के किसी भी रूप में और कृत्रिम बुद्धि, जैसे, मशीन सीखने और व्यापार खुफिया सहित कंप्यूटर [[निर्णय समर्थन प्रणाली]] के किसी भी अनुप्रयोग पर लागू होता है।.पुस्तक डेटा माइनिंग, [[जावा|जावा (प्रोग्रामिंग भाषा)]] हैं।<ref name="witten">{{cite book|title=डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|author-link1=Ian H. Witten}}</ref> (जिसमें ज्यादातर मशीन लर्निंग सामग्री को कवर करता है) व्यावहारिक मशीन सीखने के उपकरण और तकनीक मूल रूप से व्यावहारिक मशीन सीखने के लिए नाम दिया गया था और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|author-link7=Ian H. Witten|year=2010|title=WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।}}</ref> अधिकांशता अधिक सामान्य शब्द (बड़े पैमाने पर) [[डेटा विश्लेषण]] और विश्लेषण या वास्तविक तरीकों, कृत्रिम बुद्धिमत्ता और मशीन सीखने के संदर्भ में अधिक उपयुक्त होते हैं।
डेटा माइनिंग शब्द एक [[मिथ्या नाम]] है क्योंकि लक्ष्य बड़ी मात्रा में डेटा से [[नमूना]] और ज्ञान का निष्कर्षण है, न कि डेटा स्क्रैपिंग | डेटा का निष्कर्षण (खनन)।<ref name="han-kamber">{{cite book|title=डेटा खनन: अवधारणाएं और तकनीकें|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=[[Morgan Kaufmann]]|isbn=978-1-55860-489-6|page=5|quote=इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है|author-link1=Jiawei Han}}</ref> यह भी एक मुहावरा है<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref> और अक्सर बड़े पैमाने पर डेटा या सूचना प्रसंस्करण (डेटा संग्रह, [[सूचना निष्कर्षण]], डेटा गोदाम, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धिमत्ता (जैसे, मशीन लर्निंग) सहित [[निर्णय समर्थन प्रणाली]] के किसी भी अनुप्रयोग पर लागू होता है। [[व्यापारिक सूचना]]। पुस्तक डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ [[जावा (प्रोग्रामिंग भाषा)]]<ref name="witten">{{cite book|title=डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|author-link1=Ian H. Witten}}</ref> (जिसमें ज्यादातर मशीन लर्निंग सामग्री शामिल है) को मूल रूप से प्रैक्टिकल मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|author-link7=Ian H. Witten|year=2010|title=WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।}}</ref> अक्सर अधिक सामान्य शब्द (बड़े पैमाने पर) [[डेटा विश्लेषण]] और विश्लेषण-या, वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।


वास्तविक डेटा माइनिंग कार्य, पहले अज्ञात, दिलचस्प प्रतिरूपों जैसे डेटा रिकॉर्ड के समूह ([[क्लस्टर विश्लेषण]]), असामान्य रिकॉर्ड (विसंगति संसूचन), और [[निर्भरता]] (संगठन नियम माइनिंग, अनुक्रमिक पैटर्न माइनिंग) को निकालने के लिए डेटा की बड़ी मात्रा का अर्ध-स्वचालित या स्वचालित विश्लेषण है.यह सामान्यता [[स्थानिक सूचकांक]] जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में प्रयोग किया जाता है। उदाहरण के लिए, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान हो सकती है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जा सकता है,.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, चूँकि ये संपूर्ण केडीडी प्रक्रिया का हिस्सा हैं, जैसे कि अतिरिक्त चरण से संबंधित हैं।
वास्तविक डेटा खनन कार्य सेमी-विकट है: पहले से अज्ञात, दिलचस्प पैटर्न जैसे डेटा रिकॉर्ड के समूह ([[क्लस्टर विश्लेषण]]), असामान्य रिकॉर्ड (विसंगति का पता लगाना), और [[निर्भरता (कंप्यूटर विज्ञान)]] निकालने के लिए बड़ी मात्रा में डेटा का स्वचालित या स्वचालित विश्लेषण ) (संघ नियम खनन, [[अनुक्रमिक पैटर्न खनन]])। इसमें आमतौर पर [[स्थानिक सूचकांक]] जैसी डेटाबेस तकनीकों का उपयोग करना शामिल होता है। इन पैटर्नों को तब इनपुट डेटा के एक प्रकार के सारांश के रूप में देखा जा सकता है, और इसका उपयोग आगे के विश्लेषण में किया जा सकता है या, उदाहरण के लिए, मशीन लर्निंग और भविष्य कहनेवाला विश्लेषण में। उदाहरण के लिए, डेटा माइनिंग कदम डेटा में कई समूहों की पहचान कर सकता है, जिसका उपयोग निर्णय समर्थन प्रणाली द्वारा अधिक सटीक भविष्यवाणी परिणाम प्राप्त करने के लिए किया जा सकता है। न तो डेटा संग्रह, डेटा तैयार करना, न ही परिणाम की व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।


डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना होता है। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।<ref>Olson, D. L. (2007). Data mining in business services. ''Service Business'', ''1''(3), 181–193. {{doi|10.1007/s11628-006-0014-7}}</ref>
डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।<ref>Olson, D. L. (2007). Data mining in business services. ''Service Business'', ''1''(3), 181–193. {{doi|10.1007/s11628-006-0014-7}}</ref>
 
संबंधित शब्द [[डेटा ड्रेजिंग]], डेटा फिशिंग और [[डेटा स्नूपिंग]] एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं (या हो सकते हैं)। पैटर्न की खोज की। हालाँकि, इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जा सकता है।
संबंधित शब्द [[डेटा ड्रेजिंग]], डेटा फिशिंग और [[डेटा स्नूपिंग]] एक बड़ी जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित किया जाता है जो विश्वसनीय सांख्यिकीय अनुमानों के लिए अत्यधिक छोटा होता है। तथापि, इन विधियों का प्रयोग बड़ी संख्या वाली जनसंख्या के विरुद्ध परीक्षण के लिए नई परिकल्पनाओं के सृजन में किया जा सकता है।


== व्युत्पत्ति ==
== व्युत्पत्ति ==
1960 के दशक में सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग पकड़ने या आंकड़े निकालने जैसे शब्दों का उपयोग उन्हें प्राथमिकता परिकल्पना के बिना आंकड़ों के विश्लेषण की बुरी अभ्यास के रूप में मानते थे।1983 में [[आर्थिक अध्ययनों की समीक्षा]] में प्रकाशित एक लेख में अर्थशास्त्री [[माइकल लवेल]] ने इसी प्रकार की आलोचनात्मक दृष्टि से "डेटा माइनिंग" शब्द का उपयोग किया था।<ref>{{Cite journal|last=Lovell|first=Michael C.|date=1983|title=डेटा माइनिंग|journal=The Review of Economics and Statistics|volume=65|issue=1|pages=1–12|doi=10.2307/1924403|jstor=1924403}}</ref><ref>{{cite book |first1=Wojciech W. |last1=Charemza |first2=Derek F. |last2=Deadman |title=अर्थमितीय अभ्यास में नई दिशाएँ|location=Aldershot |publisher=Edward Elgar |year=1992 |chapter=Data Mining |pages=14–31 |isbn=1-85278-461-X }}</ref> माइकल लवेल इंगित करते है कि अभ्यास किये जा रहे विभिन्न एलीसेस में मास्कवर की प्रक्रिया, जिसमें फिशिंग (पॉजिटिव) या स्नूपिंग नकारात्मक तक सम्मिलित की जाती है।
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में [[आर्थिक अध्ययन की समीक्षा]] में प्रकाशित एक लेख में अर्थशास्त्री [[माइकल लवेल]] द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।<ref>{{Cite journal|last=Lovell|first=Michael C.|date=1983|title=डेटा माइनिंग|journal=The Review of Economics and Statistics|volume=65|issue=1|pages=1–12|doi=10.2307/1924403|jstor=1924403}}</ref><ref>{{cite book |first1=Wojciech W. |last1=Charemza |first2=Derek F. |last2=Deadman |title=अर्थमितीय अभ्यास में नई दिशाएँ|location=Aldershot |publisher=Edward Elgar |year=1992 |chapter=Data Mining |pages=14–31 |isbn=1-85278-461-X }}</ref> लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग (सकारात्मक) से लेकर मछली पकड़ने या स्नूपिंग (नकारात्मक) तक शामिल हैं।


डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्तया सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक [[सैन डिएगो]] आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को व्यापार के लिए उपयोग किया जा सके;<ref name="Mena">{{cite book |last=Mena |first=Jesús |year=2011 |title=कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक|location=Boca Raton, FL |publisher=CRC Press (Taylor & Francis Group) |isbn=978-1-4398-6069-4 }}</ref> शोधकर्ताओं ने परिणामस्वरूप डेटा माइनिंग में बदल दिया। अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, [[ज्ञान निष्कर्षण]] आदि सम्मिलित हैं। ग्रेगरी पियाट्स्की-शापीरो ने पहली बार कार्यशाला (केडीडी-1989) के लिए नॉलेज डिस्कवरी शब्द का प्रयोग किया और यह शब्द एअर इंडिया और मशीनी शिक्षण के क्षेत्र में लोकप्रिय हो गया। लेकिन डेटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।<ref>{{cite web |last1=Piatetsky-Shapiro |first1=Gregory |author-link1=Gregory Piatetsky-Shapiro |last2=Parker |first2=Gary |url=http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-mining-notes.html |title=पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय|publisher=KD Nuggets |year=2011 |work=Introduction to Data Mining |access-date=30 August 2012 }}</ref> वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।
डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में आम तौर पर सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक [[सैन डिएगो]]-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;<ref name="Mena">{{cite book |last=Mena |first=Jesús |year=2011 |title=कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक|location=Boca Raton, FL |publisher=CRC Press (Taylor & Francis Group) |isbn=978-1-4398-6069-4 }}</ref> शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, [[ज्ञान निष्कर्षण]] आदि शामिल हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो | .kdnuggets.com/meetings/kdd89/ (KDD-1989)] और यह शब्द आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। हालाँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।<ref>{{cite web |last1=Piatetsky-Shapiro |first1=Gregory |author-link1=Gregory Piatetsky-Shapiro |last2=Parker |first2=Gary |url=http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-mining-notes.html |title=पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय|publisher=KD Nuggets |year=2011 |work=Introduction to Data Mining |access-date=30 August 2012 }}</ref> वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।


शैक्षिक समुदाय में प्रमुख अनुसंधान मंचों की शुरुआत 1995 में हुई जब [[डेटा माइनिंग|'''डेटा माइनिंग''']] और [[डाटा माइनिंग एंड नॉलेज डिस्कवरी|नॉलेज डिस्कवरी]] पर प्रथम अंतर्राष्ट्रीय सम्मेलन [[एएएआई]] प्रायोजन के अनुसार मांट्रियल में शुरू किया गया। इसकी सह-अध्यक्षता उस्मा फ़य्याद और [[रामासामी उथुरुसामी]] ने की थी। इसके एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने [[SIGKDD|एसआईजीकेडीडी]] समाचारपत्र एसआईजीकेडीडी अन्वेषण की शुरुआत की।<ref name="SIGKDD-explorations">{{cite journal|last1=Fayyad|first1=Usama|author-link=Usama Fayyad|date=15 June 1999|title=प्रधान संपादक द्वारा पहला संपादकीय|url=http://www.kdd.org/explorations/view/june-1999-volume-1-issue-1|journal=SIGKDD Explorations|volume=13|issue=1|pages=102|doi=10.1145/2207243.2207269|access-date=27 December 2010|ref=SIGKDD-explorations|s2cid=13314420}}</ref> केडीडी अंतर्राष्ट्रीय सम्मेलन 18% से कम के अनुसंधान पत्र प्रस्तुति की स्वीकृति दर से डाटा माइनिंग में प्राथमिक उच्चतम स्तरीय सम्मेलन बन गया। जर्नल डेटा माइनिंग और नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।
अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब [[AAAI]] प्रायोजन के तहत [[डाटा माइनिंग एंड नॉलेज डिस्कवरी]] ([[KDD-95]]) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और [[रामासामी उथुरुसामी]] ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने [[SIGKDD]] न्यूज़लेटर SIGKDD एक्सप्लोरेशन शुरू किया।<ref name="SIGKDD-explorations">{{cite journal|last1=Fayyad|first1=Usama|author-link=Usama Fayyad|date=15 June 1999|title=प्रधान संपादक द्वारा पहला संपादकीय|url=http://www.kdd.org/explorations/view/june-1999-volume-1-issue-1|journal=SIGKDD Explorations|volume=13|issue=1|pages=102|doi=10.1145/2207243.2207269|access-date=27 December 2010|ref=SIGKDD-explorations|s2cid=13314420}}</ref> KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।


== पृष्ठभूमि ==
== पृष्ठभूमि ==
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और [[प्रतिगमन विश्लेषण]] (1800s) में सम्मिलित होता है।<ref>{{Cite journal|last=Coenen|first=Frans|date=2011-02-07|title=डेटा माइनिंग: अतीत, वर्तमान और भविष्य|url=https://www.cambridge.org/core/product/identifier/S0269888910000378/type/journal_article|journal=The Knowledge Engineering Review|language=en|volume=26|issue=1|pages=25–29|doi=10.1017/S0269888910000378|s2cid=6487637|issn=0269-8889}}</ref> कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और नियंत्रण करने की क्षमता को बढ़ा दिया है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़ता गया है, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है। और कंप्यूटर विज्ञान में अन्य खोजों की सहायता से, विशेष रूप से मशीन अध्ययन, क्लस्टर विश्लेषण, [[आनुवंशिक एल्गोरिदम|आनुवंशिक कलन विधि]], (1950 के दशक), [[निर्णय वृक्ष और निर्णय नियम]] (1960 के दशक), और समर्थन वेक्टर मशीनों (1990) में वृद्धि हुई है। डेटा माइनिंग गुप्त पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम|year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref> बड़े डेटा सेटों में यह अनुप्रयुक्त सांख्यिकी और कृत्रिम बुद्धि के अंतराल को पाटता है, जो सामान्तया गणितीय पृष्ठभूमि प्रदान करता है। [[डेटाबेस प्रबंधन]] के लिए जिस तरह डेटा संग्रहित और डेटाबेस में अनुक्रमित वास्तविक अधिगम और खोज कलन विधि के निष्पादन के लिए करता है, जो ऐसे उपायों को अक्षरतापूर्वक डेटा सेट में लागू करने की अनुमति देते हैं.
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और [[प्रतिगमन विश्लेषण]] (1800s) शामिल हैं।<ref>{{Cite journal|last=Coenen|first=Frans|date=2011-02-07|title=डेटा माइनिंग: अतीत, वर्तमान और भविष्य|url=https://www.cambridge.org/core/product/identifier/S0269888910000378/type/journal_article|journal=The Knowledge Engineering Review|language=en|volume=26|issue=1|pages=25–29|doi=10.1017/S0269888910000378|s2cid=6487637|issn=0269-8889}}</ref> कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , [[आनुवंशिक एल्गोरिदम]] (1950), [[निर्णय वृक्ष सीखना]] एंड [[निर्णय नियम]] (1960), और सपोर्ट वेक्टर मशीन (1990)डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम|year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref> बड़े डेटा सेट में। यह वास्तविक सीखने और खोज एल्गोरिदम को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके [[डेटाबेस प्रबंधन]] के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता (जो आमतौर पर गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।


== प्रक्रिया ==
== प्रक्रिया ==
डेटाबेस (केडीडी) प्रक्रिया में नॉलेज डिस्कवरी को सामान्यता चरणों के साथ परिभाषित किया जाता है:
डेटाबेस (केडीडी) प्रक्रिया में ज्ञान की खोज को आमतौर पर चरणों के साथ परिभाषित किया जाता है:


# चयन
# चयन
Line 31: Line 30:
# व्याख्या / मूल्यांकन।<ref name="Fayyad" />
# व्याख्या / मूल्यांकन।<ref name="Fayyad" />


चूँकि, यह इस विषय पर कई रूपों में मौजूद है, [[डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया]] (क्रिस्प-डीएम) जो छह चरणों को परिभाषित करता है।
हालाँकि, यह इस विषय पर कई रूपों में मौजूद है, [[डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया]] प्रोसेस (CRISP-DM) जो छह चरणों को परिभाषित करता है:


#व्यापार की समझ
#व्यापार की समझ
Line 38: Line 37:
# मॉडलिंग
# मॉडलिंग
# मूल्यांकन
# मूल्यांकन
# प्रणाली परिनियोजन
# सिस्टम परिनियोजन


या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।
या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।


2002, 2004, 2007 और 2014 में आयोजित चुनाव दर्शाते हैं कि क्रिस-डीएम पद्धति डेटा खनिकों द्वारा प्रयोग की जाने वाली प्रमुख कार्यप्रणाली है।<ref>[[Gregory Piatetsky-Shapiro]] (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2014) [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक सेम्मा था। चूँकि, 3-4 गुना अधिक लोगों ने क्रिस्प-डीएम का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है<ref name="kurgan">Lukasz Kurgan and Petr Musilek: [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 "A survey of Knowledge Discovery and Data Mining process models"]. ''The Knowledge Engineering Review''. Volume 21 Issue 1, March 2006, pp&nbsp;1–24, Cambridge University Press, New York, {{doi|10.1017/S0269888906000737}}</ref> और अजेवेदो और सैंटोस ने 2008 में क्रिस्प-डीएम और सेम्मा की तुलना की थी।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. [http://www.iadis.net/dl/final_uploads/200812P033.pdf KDD, SEMMA and CRISP-DM: a parallel overview] {{webarchive|url=https://web.archive.org/web/20130109114939/http://www.iadis.net/dl/final_uploads/200812P033.pdf |date=2013-01-09 }}. In Proceedings of the IADIS European Conference on Data Mining 2008, pp&nbsp;182–185.</ref>
2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्यप्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।<ref>[[Gregory Piatetsky-Shapiro]] (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2014) [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक [[SEMMA]] था। हालाँकि, 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रोसेस मॉडल की समीक्षा प्रकाशित की है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek: [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 "A survey of Knowledge Discovery and Data Mining process models"]. ''The Knowledge Engineering Review''. Volume 21 Issue 1, March 2006, pp&nbsp;1–24, Cambridge University Press, New York, {{doi|10.1017/S0269888906000737}}</ref> और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और SEMMA की तुलना की।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. [http://www.iadis.net/dl/final_uploads/200812P033.pdf KDD, SEMMA and CRISP-DM: a parallel overview] {{webarchive|url=https://web.archive.org/web/20130109114939/http://www.iadis.net/dl/final_uploads/200812P033.pdf |date=2013-01-09 }}. In Proceedings of the IADIS European Conference on Data Mining 2008, pp&nbsp;182–185.</ref>
 
 
=== प्री-प्रोसेसिंग ===
=== प्री-प्रोसेसिंग ===
डेटा माइनिंग कलन विधि के प्रयोग के पहले एक लक्ष्य डेटा सेट अवश्य रखना चाहिए। चूंकि डेटा माइनिंग डेटा में वास्तव में उपस्थित पैटर्नों को उजागर कर सकती है, इसलिए लक्ष्य डेटा सेट इतना बड़ा होना चाहिए कि वह इन पैटर्नों को नियंत्रित कर सके जबकि एक स्वीकार्य समय सीमा के भीतर माइनिंग करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक आम स्रोत डेटा मार्ट या डेटा वेयरहाउस है, डेटा माइनिंग से पहले [[बहुभिन्नरूपी]] डेटा सेटों का विश्लेषण करने के लिए प्री सेट को तब साफ किया जाता है। आँकड़ा सफाई [[सांख्यिकीय शोर]]र युक्त टिप्पणियों तथा अनुपस्थित डाटा वाले टिप्पणियों को हटा देती है।
डेटा माइनिंग एल्गोरिदम का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर खनन करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले [[बहुभिन्नरूपी आँकड़े]] डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई [[सांख्यिकीय शोर]] और लापता डेटा वाले अवलोकनों को हटा देती है।


=== डाटा माइनिंग ===
=== डाटा माइनिंग ===
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित होते हैं।<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |author-link1=Usama Fayyad |last2=Piatetsky-Shapiro |first2=Gregory|author-link2=Gregory Piatetsky-Shapiro |last3=Smyth |first3=Padhraic |title=डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक|year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-url=https://ghostarchive.org/archive/20221009/http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-date=2022-10-09 |url-status=live |access-date = 17 December 2008 }}</ref>
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग शामिल हैं:<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |author-link1=Usama Fayyad |last2=Piatetsky-Shapiro |first2=Gregory|author-link2=Gregory Piatetsky-Shapiro |last3=Smyth |first3=Padhraic |title=डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक|year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-url=https://ghostarchive.org/archive/20221009/http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-date=2022-10-09 |url-status=live |access-date = 17 December 2008 }}</ref>
* विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
* विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
* [[एसोसिएशन नियम सीखना|संगठन नियम सीखना]] (निर्भरता मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक को खरीदारी की आदतों पर डेटा एकत्र कर सकता है। संगठन नियम लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
* [[एसोसिएशन नियम सीखना]] (डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अक्सर एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
* क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है, जो किसी किसी रूप में या अन्य समान हैं।
* क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
* [[सांख्यिकीय वर्गीकरण]] - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
* [[सांख्यिकीय वर्गीकरण]] - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
* प्रतिगमन विश्लेषण - एक फलन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
* प्रतिगमन विश्लेषण - एक फ़ंक्शन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
* [[स्वचालित सारांश]] - प्रत्योक्षकरण और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।
* [[स्वचालित सारांश]] - विज़ुअलाइज़ेशन और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।


=== परिणाम सत्यापन ===
=== परिणाम सत्यापन ===
[[File:Spurious correlations - spelling bee spiders.svg|thumb|upright=1.75|सांख्यिकीविद् टायलर विगेन द्वारा संचालित एक बॉट के माध्यम से डेटा ड्रेजिंग द्वारा उत्पादित डेटा का एक उदाहरण, स्पष्ट रूप से स्पेलिंग बी प्रतियोगिता जीतने वाले सर्वश्रेष्ठ शब्द और जहरीली मकड़ियों द्वारा मारे गए संयुक्त राज्य में लोगों की संख्या के बीच एक करीबी लिंक दिखा रहा है। रुझानों में समानता जाहिर तौर पर एक संयोग है।]]डेटा माइनिंग का अनजाने में दुरुपयोग किया जा सकता है, उन परिणामों का उत्पादन जो महत्वपूर्ण प्रतीत होते हैं लेकिन जिन पर वास्तव में भविष्य के व्यवहार की भविष्यवाणी नहीं की जाती और उन्हें डेटा के एक नए नमूने पर नहीं पेश किया जा सकता है, इसलिए इसका बहुत कम उपयोग होता है। यह कभी कभी कई परिकल्पनाओं की जांच के कारण होता है और उचित [[सांख्यिकीय परिकल्पना]] [[परीक्षण]] नहीं के कारण होता है। मशीन लर्निंग की इस समस्या के सरल संस्करण को [[overfitting|ओवरफिटिंग]] के रूप में जाना जाता है, लेकिन यह एक ही समस्या प्रक्रिया के विभिन्न चरणों में खड़ी हो सकती है और इस प्रकार सभी पर लागू हो जाने पर एक ट्रेन/टेस्ट स्प्लिट जब भी लागू हो इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।<ref name="hawkins">{{cite journal | last1 = Hawkins | first1 = Douglas M | year = 2004 | title = ओवरफिटिंग की समस्या| journal = Journal of Chemical Information and Computer Sciences | volume = 44 | issue = 1| pages = 1–12 | doi=10.1021/ci0342472| pmid = 14741005 }}</ref>
[[File:Spurious correlations - spelling bee spiders.svg|thumb|upright=1.75|सांख्यिकीविद् टायलर विगेन द्वारा संचालित एक बॉट के माध्यम से डेटा ड्रेजिंग द्वारा उत्पादित डेटा का एक उदाहरण, स्पष्ट रूप से स्पेलिंग बी प्रतियोगिता जीतने वाले सर्वश्रेष्ठ शब्द और जहरीली मकड़ियों द्वारा मारे गए संयुक्त राज्य में लोगों की संख्या के बीच एक करीबी लिंक दिखा रहा है। रुझानों में समानता जाहिर तौर पर एक संयोग है।]]डेटा माइनिंग का अनायास ही दुरुपयोग किया जा सकता है, ऐसे परिणाम उत्पन्न होते हैं जो महत्वपूर्ण प्रतीत होते हैं लेकिन जो वास्तव में भविष्य के व्यवहार की भविष्यवाणी नहीं करते हैं और डेटा के एक नए नमूने पर पुनरुत्पादन नहीं हो सकते हैं, इसलिए इसका बहुत कम उपयोग होता है। यह कभी-कभी बहुत अधिक परिकल्पनाओं की जांच करने और उचित [[सांख्यिकीय परिकल्पना परीक्षण]] नहीं करने के कारण होता है। मशीन लर्निंग में इस समस्या का एक सरल संस्करण [[overfitting]] के रूप में जाना जाता है, लेकिन प्रक्रिया के विभिन्न चरणों में एक ही समस्या उत्पन्न हो सकती है और इस प्रकार एक ट्रेन/टेस्ट स्प्लिट- जब भी लागू हो- इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।<ref name="hawkins">{{cite journal | last1 = Hawkins | first1 = Douglas M | year = 2004 | title = ओवरफिटिंग की समस्या| journal = Journal of Chemical Information and Computer Sciences | volume = 44 | issue = 1| pages = 1–12 | doi=10.1021/ci0342472| pmid = 14741005 }}</ref>
डेटा से ज्ञान की खोज का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग एल्गोरिदम द्वारा निर्मित पैटर्न व्यापक डेटा सेट में होते हैं। एल्गोरिदम द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग एल्गोरिथम प्रशिक्षित नहीं था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामी आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, स्पैम को वैध ई-मेल से अलग करने की कोशिश करने वाले डेटा माइनिंग एल्गोरिदम को नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। एल्गोरिदम का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।


डेटा से नॉलेज डिस्कवरी का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग कलन विधि द्वारा निर्मित पैटर्न व्यापक डेटा सेट में घटित होती है। कलन विधि द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग कलन विधि के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग कलन विधि को प्रशिक्षित नहीं किया गया था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामस्वरूप आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, डेटा माइनिंग कलन विधि जो "स्पैम" को वैध "ई-मेल से अलग करने की कोशिश करता है, उसे नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। कलन विधि का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।
यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा खनन चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।


यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा माइनिंग चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।
== अनुसंधान ==
== अनुसंधान ==
नॉलेज डिस्कवरी एंड डेटा माइनिंग (सिग्केडीडी) पर [[संगणक तंत्र संस्था]] (एसीएम) विशेष हित समूह (एसआईजी ) इस क्षेत्र की प्रमुख पेशेवर संस्था है।<ref>{{cite web|url=http://academic.research.microsoft.com/?SearchDomain=2&SubDomain=7&entitytype=2|title=Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन| publisher=[[Microsoft Academic Search]]}}</ref><ref>{{cite web|url=https://scholar.google.de/citations?view_op=top_venues&vq=eng_datamininganalysis|title=Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण|publisher=[[Google Scholar]]}}</ref> 1989 से, इस एसीएम, एसआईजी ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,<ref>[http://www.kdd.org/conferences.php Proceedings] {{Webarchive|url=https://web.archive.org/web/20100430120252/http://www.kdd.org/conferences.php |date=2010-04-30 }}, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.</ref> 999 के बाद से इसने दो वार्षिक अकादमिक पत्रिका 'हस्ताक्षरित खोज' प्रकाशित की है।<ref>[http://www.kdd.org/explorations/about.php SIGKDD Explorations], ACM, New York.</ref>
नॉलेज डिस्कवरी एंड डेटा माइनिंग (SIGKDD) पर [[संगणक तंत्र संस्था]] (ACM) स्पेशल इंटरेस्ट ग्रुप (SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।<ref>{{cite web|url=http://academic.research.microsoft.com/?SearchDomain=2&SubDomain=7&entitytype=2|title=Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन| publisher=[[Microsoft Academic Search]]}}</ref><ref>{{cite web|url=https://scholar.google.de/citations?view_op=top_venues&vq=eng_datamininganalysis|title=Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण|publisher=[[Google Scholar]]}}</ref> 1989 से, इस ACM SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,<ref>[http://www.kdd.org/conferences.php Proceedings] {{Webarchive|url=https://web.archive.org/web/20100430120252/http://www.kdd.org/conferences.php |date=2010-04-30 }}, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.</ref> और 1999 से इसने SIGKDD एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।<ref>[http://www.kdd.org/explorations/about.php SIGKDD Explorations], ACM, New York.</ref>
डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में शामिल हैं:


डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित होता है।
* CIKM सम्मेलन - सूचना और ज्ञान प्रबंधन पर ACM सम्मेलन
 
* सीआईकेएम सम्मेलन - सूचना और ज्ञान प्रबंधन पर एसीएम सम्मेलन
* मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
* मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
* [[केडीडी सम्मेलन]] - ज्ञान खोज और डेटा माइनिंग पर एसीएम एसआईजीकेडीडी सम्मेलन
* [[केडीडी सम्मेलन]] - ज्ञान खोज और डेटा खनन पर एसीएम एसआईजीकेडीडी सम्मेलन


डेटा माइनिंग के लिए कई डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे आईसीडीई सम्मेलन, सिग्मोड सम्मेलन और [[बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन]] में डेटा माइनिंग विषय भी मौजूद हैं।
कंप्यूटर विज्ञान सम्मेलनों की कई सूची #डेटा प्रबंधन|डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे ICDE सम्मेलन, [[SIGMOD]] और [[बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन]] में डेटा माइनिंग विषय भी मौजूद हैं।


== मानक ==
== मानक ==
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए 1999 में यूरोपीय [[डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस|डाटा माइनिंग के लिए क्रॉस इंडस्ट्री के]] लिए मानक प्रक्रिया (क्रिस-डीएम 1.0) और 2004 जावा डेटा माइनिंग मानक (जेडीएम 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (क्रिस्प-डीएम 2.0 और जेडीएम 2.0) 2006 में सक्रिय रहा लेकिन तब से रुका हुआ है।.जेडीएम 2.0 को अंतिम मसौदे पर पहुंचने के बिना वापस ले लिया गया था।.
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन [[डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस]] (CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड (JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।
 
निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, [[जावा डाटा माइनिंग]] ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।<ref>{{Cite book | last1 = Günnemann | first1 = Stephan | last2 = Kremer | first2 = Hardy | last3 = Seidl | first3 = Thomas | doi = 10.1145/2023598.2023605 | chapter = An extension of the PMML standard to subspace clustering models | title = प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही| page = 48 | year = 2011 | isbn = 978-1-4503-0837-3 | s2cid = 14967969 }}</ref>
 


विशेष रूप से पूर्वानुमानित विश्लेषण में उपयोग के लिए निकाले गए मॉडलों के आदान-प्रदान के लिए-मुख्य मानक पूर्वानुमानित मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, [[जावा डाटा माइनिंग]] ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित लैंग्वेज है और कई डेटा माइनिंग अनुप्रयोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा माइनिंग कार्य को कवर करता है। चूँकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।<ref>{{Cite book | last1 = Günnemann | first1 = Stephan | last2 = Kremer | first2 = Hardy | last3 = Seidl | first3 = Thomas | doi = 10.1145/2023598.2023605 | chapter = An extension of the PMML standard to subspace clustering models | title = प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही| page = 48 | year = 2011 | isbn = 978-1-4503-0837-3 | s2cid = 14967969 }}</ref>
== उल्लेखनीय उपयोग ==
== उल्लेखनीय उपयोग ==
{{Main|डाटा माइनिंग के उदाहरण}}
{{Main|Examples of data mining}}
{{Category see also|एप्लाइड डाटा माइनिंग}}
{{Category see also|Applied data mining}}
आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।
आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।


==गोपनीयता चिंताएं और नैतिकता==
==गोपनीयता चिंताएं और नैतिकता==
जबकि डेटा माइनिंग शब्द का स्वयं कोई नैतिक निहितार्थ नहीं हो सकता है, परंतु यह बहुधा प्रयोक्ता व्यवहार विश्लेषण (नैतिक एवं अन्यथा) के संबंध में सूचना के माइनिंग के साथ संबद्ध होता है।।<ref>{{cite journal |author=Seltzer, William |title=डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे|url=https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-date=2022-10-09 |url-status=live|publisher = American Statistical Association|journal = ASA Section on Government Statistics|date = 2005 }}</ref>
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अक्सर उपयोगकर्ता व्यवहार विश्लेषण (नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।<ref>{{cite journal |author=Seltzer, William |title=डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे|url=https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-date=2022-10-09 |url-status=live|publisher = American Statistical Association|journal = ASA Section on Government Statistics|date = 2005 }}</ref>
 
जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में [[गोपनीयता]], वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।<ref>{{cite journal |author=Pitts, Chip |title=अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो|url=http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |journal=Washington Spectator |date=15 March 2007 |url-status=dead |archive-url=https://web.archive.org/web/20071128015201/http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |archive-date=2007-11-28 }}</ref> विशेष रूप से, [[राष्ट्रीय सुरक्षा]] या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कि कुल सूचना जागरूकता कार्यक्रम या [[ADVISE]] में, ने गोपनीयता संबंधी चिंताओं को उठाया है।<ref>{{cite journal |author=Taipale, Kim A. |title=डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा|url=http://www.stlr.org/cite.cgi?volume=5&article=2 |journal=Columbia Science and Technology Law Review |volume=5 |issue=2 |date=15 December 2003 |ssrn=546782 |oclc=45263753 |access-date=21 April 2004 |archive-date=5 November 2014 |archive-url=https://web.archive.org/web/20141105035644/http://www.stlr.org/cite.cgi?volume=5&article=2 |url-status=dead }}</ref><ref>{{cite web|last1=Resig|first1=John|title=माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क|url=https://johnresig.com/files/research/SIAMPaper.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://johnresig.com/files/research/SIAMPaper.pdf |archive-date=2022-10-09 |url-status=live|access-date=16 March 2018}}</ref>
डेटा माइनिंग का उपयोग किस तरीके से किया जा सकता है। यह कुछ मामलों में और संदर्भों में [[गोपनीयता, वैधता]] और नैतिकता से संबंधित प्रश्न उठा सकते हैं।<ref>{{cite journal |author=Pitts, Chip |title=अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो|url=http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |journal=Washington Spectator |date=15 March 2007 |url-status=dead |archive-url=https://web.archive.org/web/20071128015201/http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |archive-date=2007-11-28 }}</ref> विशेष रूप से, [[राष्ट्रीय सुरक्षा]] या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कुल सूचना जागरूकता कार्यक्रम या सलाह में, गोपनीयता संबंधी चिंताएं बढ़ी हैं।<ref>{{cite journal |author=Taipale, Kim A. |title=डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा|url=http://www.stlr.org/cite.cgi?volume=5&article=2 |journal=Columbia Science and Technology Law Review |volume=5 |issue=2 |date=15 December 2003 |ssrn=546782 |oclc=45263753 |access-date=21 April 2004 |archive-date=5 November 2014 |archive-url=https://web.archive.org/web/20141105035644/http://www.stlr.org/cite.cgi?volume=5&article=2 |url-status=dead }}</ref><ref>{{cite web|last1=Resig|first1=John|title=माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क|url=https://johnresig.com/files/research/SIAMPaper.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://johnresig.com/files/research/SIAMPaper.pdf |archive-date=2022-10-09 |url-status=live|access-date=16 March 2018}}</ref>
डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो [[गोपनीयता]] और डेटा गोपनीयता दायित्वों से समझौता करने वाली जानकारी या पैटर्न को उजागर करता है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। [[डेटा एकत्रीकरण]] में डेटा को एक साथ जोड़ना (संभवतः विभिन्न स्रोतों से) एक तरह से होता है जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा की पहचान या अन्यथा स्पष्ट भी हो सकता है)।<ref name="NASCIO">[http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf ''Think Before You Dig: Privacy Implications of Data Mining & Aggregation''] {{webarchive|url=https://web.archive.org/web/20081217063043/http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf |date=2008-12-17 }}, NASCIO Research Brief, September 2004</ref> यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। किसी व्यक्ति की गोपनीयता के लिए खतरा तब सामने आता है जब डेटा, एक बार संकलित हो जाने के बाद, डेटा माइनर, या कोई भी व्यक्ति जिसके पास नए संकलित डेटा सेट तक पहुंच होती है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो जाता है, खासकर जब डेटा मूल रूप से गुमनाम था।<ref>{{cite magazine |first=Paul |last=Ohm |title=बर्बादी का डाटाबेस मत बनाओ|magazine=Harvard Business Review |url=http://blogs.hbr.org/cs/2012/08/dont_build_a_database_of_ruin.html}}</ref>
 
इसकी सलाह दी जाती है{{according to whom|date=August 2019}} डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना:<ref name="NASCIO" />* डेटा संग्रह और किसी भी (ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य।
डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो [[गोपनीयता]] और डेटा गोपनीयता के दायित्वों के साथ समझौता करने वाली सूचनाओं या पैटर्न को उजागर करती है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। [[डेटा एकत्रीकरण]] में डेटा को इस प्रकार से संयोजित करना सम्मिलित होता है (संभवतः विभिन्न स्रोतों से) जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा निगम्य या अन्यथा स्पष्ट रूप से उसकी पहचान हो सकती है)।<ref name="NASCIO">[http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf ''Think Before You Dig: Privacy Implications of Data Mining & Aggregation''] {{webarchive|url=https://web.archive.org/web/20081217063043/http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf |date=2008-12-17 }}, NASCIO Research Brief, September 2004</ref> यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। एक व्यक्ति की गोपनीयता के लिए खतरा तब उत्पन्न होता है जब डेटा, एक बार संकलित, डेटा खनिक, या कोई भी जो नए संकलित डेटा सेट तक पहुँच रखता है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो, विशेष रूप से जब डेटा मूल रूप से गुमनाम थे।<ref>{{cite magazine |first=Paul |last=Ohm |title=बर्बादी का डाटाबेस मत बनाओ|magazine=Harvard Business Review |url=http://blogs.hbr.org/cs/2012/08/dont_build_a_database_of_ruin.html}}</ref>
* डेटा का उपयोग कैसे किया जाएगा।
 
इसकी सलाह दी जाती है{{according to whom|date=August 2019}} डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना<ref name="NASCIO" />
* डेटा संग्रह और किसी भी (ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य।
*डेटा का उपयोग कैसे किया जाएगा।
* जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे।
* जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे।
* डेटा तक पहुंच के आसपास सुरक्षा की स्थिति।
* डेटा तक पहुंच के आसपास सुरक्षा की स्थिति।
* एकत्रित डेटा को कैसे अपडेट किया जा सकता है।
* एकत्रित डेटा को कैसे अपडेट किया जा सकता है।


डेटा को गुमनाम बनाने के लिए संशोधित भी किया जा सकता है, ताकि व्यक्ति की पहचान को आसानी से न किया जा सके।<ref name="NASCIO" />चूँकि, यहां तक ​​कि [[डेटा गुमनामी]] डेटा सेट में संभावित रूप से व्यक्तियों की पहचान की अनुमति देने के लिए पर्याप्त जानकारी हो सकती है, जैसा कि जब पत्रकार एओ द्वारा जारी किए गए खोज इतिहास के एक समूह के आधार पर अनेक व्यक्तियों को खोजने में सक्षम थे जो अनजाने में एओएल द्वारा जारी किए गए थे।<ref>[http://www.securityfocus.com/brief/277 ''AOL search data identified individuals''], SecurityFocus, August 2006</ref>
डेटा को गुमनाम बनाने के लिए संशोधित भी किया जा सकता है, ताकि व्यक्तियों की आसानी से पहचान हो सके।<ref name="NASCIO" />हालांकि, यहां तक ​​कि [[डेटा गुमनामी]] डेटा सेट में संभावित रूप से व्यक्तियों की पहचान की अनुमति देने के लिए पर्याप्त जानकारी हो सकती है, जैसा कि तब हुआ जब पत्रकार खोज इतिहास के एक सेट के आधार पर कई व्यक्तियों को खोजने में सक्षम थे जो अनजाने में एओएल द्वारा जारी किए गए थे।<ref>[http://www.securityfocus.com/brief/277 ''AOL search data identified individuals''], SecurityFocus, August 2006</ref>
प्रदाता के लिए अग्रणी व्यक्तिगत रूप से पहचान योग्य जानकारी का अनजाने प्रकटीकरण उचित सूचना प्रथाओं का उल्लंघन करता है। यह अविवेक वित्तीय कारण बन सकता है,
संकेतित व्यक्ति को भावनात्मक, या शारीरिक नुकसान। निजता के उल्लंघन के एक उदाहरण में, Walgreens के संरक्षकों ने 2011 में कंपनी के खिलाफ बेचने के लिए मुकदमा दायर किया
डेटा माइनिंग कंपनियों को प्रिस्क्रिप्शन जानकारी जो बदले में डेटा प्रदान करती हैं
दवा कंपनियों को।<ref>{{Cite journal|title = गोपनीयता, सुरक्षा और उपभोक्ता कल्याण पर बिग डेटा का प्रभाव|journal = Telecommunications Policy|pages = 1134–1145|volume = 38|issue = 11|doi = 10.1016/j.telpol.2014.10.002|first = Nir|last = Kshetri|year = 2014|url = http://libres.uncg.edu/ir/uncg/f/N_Kshetri_Big_2014.pdf}}</ref>
 


प्रदाता के लिए अग्रणी व्यक्तिगत रूप से पहचान योग्य जानकारी का अनजाने रहस्योद्घाटन उचित सूचना प्रथाओं का उल्लंघन करता है। यह अविवेक वित्तीय कारण बन सकता है, संकेतित व्यक्ति को भावनात्मक, या शारीरिक नुकसान हो सकता है। गोपनीयता उल्लंघन के एक उदाहरण में, वालग्रीन्स के संरक्षकों ने 2011 में कंपनी के खिलाफ डेटा बेचने के लिए मुकदमा दायर किया। डेटा माइनिंग कंपनियों को जिन्होंने दवा कंपनियों को सूचनाएं उपलब्ध कराई।।<ref>{{Cite journal|title = गोपनीयता, सुरक्षा और उपभोक्ता कल्याण पर बिग डेटा का प्रभाव|journal = Telecommunications Policy|pages = 1134–1145|volume = 38|issue = 11|doi = 10.1016/j.telpol.2014.10.002|first = Nir|last = Kshetri|year = 2014|url = http://libres.uncg.edu/ir/uncg/f/N_Kshetri_Big_2014.pdf}}</ref>
===यूरोप में स्थिति===
===यूरोप में स्थिति===


[[यूरोपीय संघ]] में काफी मजबूत गोपनीयता कानून हैं, और उपभोक्ताओं के अधिकारों को और मजबूत करने के प्रयास चल रहे हैं। चूँकि, अंतरराष्ट्रीय सेफ हार्बर गोपनीयता सिद्धांत यू.एस.-ई.यू. 1998 और 2000 के बीच विकसित किया गया है। इस समय इसने यूरोपीय प्रयोक्ताओं को अमेरिकी कंपनियों द्वारा गोपनीयता शोषण का प्रभावी रूप से पर्दाफाश किया है। [[एडवर्ड स्नो डेन]] के [[वैश्विक निगरानी प्रकटीकरण]] के परिणामस्वरूप इस समझौते को रद्द करने पर चर्चा बढ़ गई है, विशेष रूप से आंकड़ों को पूरी तरह [[राष्ट्रीय सुरक्षा एजेंसी]] के सामने रखा जाएगा, और संयुक्त राज्य अमेरिका के साथ समझौते पर पहुँचने का प्रयास विफल हो गए हैं।<ref>{{cite web |url=https://crsreports.congress.gov/product/pdf/R/R44257/7 |title=यू.एस.-ई.यू. डेटा प्राइवेसी: सेफ हार्बर से प्राइवेसी शील्ड तक|last1=Weiss |first1=Martin A. |last2=Archick |first2=Kristin |date=19 May 2016 |agency=Congressional Research Service |location=Washington, D.C. |page=6 |format=PDF |id=R44257 |access-date=9 April 2020 |quote=6 अक्टूबर, 2015 को, [[यूरोपीय संघ का न्यायलय|CJEU]]&nbsp;... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented. |archive-date=9 April 2020 |archive-url=https://web.archive.org/web/20200409134413/https://crsreports.congress.gov/product/pdf/R/R44257/7 |url-status=dead }}</ref>
[[यूरोपीय संघ]] में काफी मजबूत गोपनीयता कानून हैं, और उपभोक्ताओं के अधिकारों को और मजबूत करने के प्रयास चल रहे हैं। हालांकि, इंटरनेशनल सेफ हार्बर प्राइवेसी प्रिंसिपल्स|यू.एस.-ई.यू. 1998 और 2000 के बीच विकसित सेफ हार्बर सिद्धांत, वर्तमान में अमेरिकी कंपनियों द्वारा यूरोपीय उपयोगकर्ताओं को गोपनीयता के शोषण के लिए प्रभावी रूप से उजागर करते हैं। [[एड्वर्ड स्नोडेन]] के [[वैश्विक निगरानी प्रकटीकरण]] के परिणामस्वरूप, इस समझौते को रद्द करने की चर्चा बढ़ गई है, क्योंकि विशेष रूप से डेटा पूरी तरह से [[राष्ट्रीय सुरक्षा एजेंसी]] के सामने जाएगा, और संयुक्त राज्य अमेरिका के साथ एक समझौते तक पहुंचने के प्रयास विफल हो गए हैं।<ref>{{cite web |url=https://crsreports.congress.gov/product/pdf/R/R44257/7 |title=यू.एस.-ई.यू. डेटा प्राइवेसी: सेफ हार्बर से प्राइवेसी शील्ड तक|last1=Weiss |first1=Martin A. |last2=Archick |first2=Kristin |date=19 May 2016 |agency=Congressional Research Service |location=Washington, D.C. |page=6 |format=PDF |id=R44257 |access-date=9 April 2020 |quote=6 अक्टूबर, 2015 को, [[यूरोपीय संघ का न्यायलय|CJEU]]&nbsp;... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented. |archive-date=9 April 2020 |archive-url=https://web.archive.org/web/20200409134413/https://crsreports.congress.gov/product/pdf/R/R44257/7 |url-status=dead }}</ref>
विशेष रूप से यूनाइटेड किंगडम में ऐसे मामले सामने आए हैं जब निगमों ने डेटा माइनिंग का उपयोग ग्राहकों के कुछ समूहों को लक्षित करने के लिए किया, जिससे उन्हें अनुचित रूप से उच्च कीमतों का भुगतान करने के लिए मजबूर होना पड़ा। ये समूह निम्न सामाजिक-आर्थिक स्थिति के लोग होते हैं जो डिजिटल मार्केट स्थानों में उनका शोषण करने के तरीकों से परिचित नहीं होते हैं।<ref>{{Cite web |last=Parker |first=George |date=2018-09-30 |title=ब्रिटेन की कंपनियां ग्राहकों का शोषण करने के लिए बिग डेटा का इस्तेमाल कर रही हैं|url=https://www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647 |archive-url=https://ghostarchive.org/archive/20221210/https://www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647 |archive-date=2022-12-10 |url-access=subscription |access-date=2022-12-04 |website=Financial Times}}</ref>
 


विशेष रूप से यूनाइटेड किंगडम में ऐसे मामले सामने आए हैं जब निगमों ने डेटा माइनिंग का उपयोग ग्राहकों के कुछ समूहों को लक्षित करने के लिए किया, जिससे उन्हें अनुचित रूप से उच्च कीमतों का भुगतान करने के लिए मजबूर होना पड़ा। ये समूह निम्न सामाजिक-आर्थिक स्थिति के लोग होते हैं जो डिजिटल मार्केट स्थानों में उनका शोषण करने के तरीकों से परिचित नहीं होते हैं।<ref>{{Cite web |last=Parker |first=George |date=2018-09-30 |title=ब्रिटेन की कंपनियां ग्राहकों का शोषण करने के लिए बिग डेटा का इस्तेमाल कर रही हैं|url=https://www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647 |url-access=subscription |access-date=2022-12-04 |website=Financial Times}}</ref>
=== संयुक्त राज्य अमेरिका में स्थिति ===
=== संयुक्त राज्य अमेरिका में स्थिति ===


संयुक्त राज्य अमेरिका में, [[स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम]] (हिपा)) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को को दूर किया है। हिपा के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के संबंध में अपनी जानकारी दी जाने वाली सहमति देने की आवश्यकता होती है, जैसा कि एएचएचसी का कहना है, जैव प्रौद्योगिकी व्यापार सप्ताह में एक लेख के अनुसार, [i] एन अभ्यास, हिपा अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों से ज्यादा सुरक्षा प्रदान नहीं कर सकता है। सबसे महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा के नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है<ref>Biotech Business Week Editors (June 30, 2008); ''BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research'', Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic</ref> यह डेटा एकत्रीकरण और माइनिंग प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है।
संयुक्त राज्य अमेरिका में, [[स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम]] (HIPAA) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को संबोधित किया गया है। HIPAA के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के बारे में सूचित सहमति देना आवश्यक है। एएएचसी का कहना है कि बायोटेक बिजनेस वीक में एक लेख के अनुसार, '[i] एन अभ्यास, एचआईपीएए अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों की तुलना में अधिक सुरक्षा प्रदान नहीं कर सकता है।' इससे भी महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा का नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है।<ref>Biotech Business Week Editors (June 30, 2008); ''BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research'', Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic</ref> यह डेटा एकत्रीकरण और खनन प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है।


अमेरिकी सूचना गोपनीयता कानून जैसे हिपा और [[पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम]] (फेरपा) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं, जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा माइनिंग का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है।
अमेरिकी सूचना गोपनीयता कानून जैसे HIPAA और [[पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम]] (FERPA) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा खनन का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है।


== कॉपीराइट कानून ==
== कॉपीराइट कानून ==
Line 113: Line 116:
===यूरोप में स्थिति===
===यूरोप में स्थिति===


यूरोपीय कॉपीराइट और [[डेटाबेस कानूनों]] के अनुसार कॉपीराइट स्वामी की अनुमति के बिना कॉपीराइट कार्यों (जैसे वेब माइनिंग द्वारा) के माइनिंग कानूनी नहीं है। जहां यूरोप में एक डेटाबेस शुद्ध डेटा है,, तो यह हो सकता है कि कोई कॉपीराइट नहीं है लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा माइनिंग [[बौद्धिक संपदा]] मालिक के अधिकारों के अधीन हो जाता है, जो डेटाबेस निर्देश द्वारा संरक्षित हैं, हार्ग्रैव्स के पुनर्विलोकन की सिफारिश से ब्रिटेन की सरकार ने अपने कॉपीराइट कानून में 2014 में संशोधन किया ताकि सामग्री माइनिंग को एक सीमा और अपवाद के रूप में प्रदान किया जा सके। जापान के बाद यू.के. विश्व का दूसरा देश था जिसने 2009 में डेटा माइनिंग में एक अपवाद की घोषणा की। चूँकि, [[सूचना सोसायटी निर्देश]] (2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री माइनिंग की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। 2020 से लेकर स्विट्जरलैंड भी डाटा माइनिंग को विनियमित करने के लिए इसे कला के अनुसार निर्धारित शर्तों के अंतर्गत प्रदान किया गया है। स्विस कॉपीराइट अधिनियम के 24 डी में यह नया लेख 1 अप्रैल 2020 को लागू हुआ।<ref>{{Cite web|url=https://www.fedlex.admin.ch/eli/cc/1993/1798_1798_1798/en#art_24_d|title=फेडेक्स}}</ref>
यूरोपीय संघ के कॉपीराइट कानून और [[डेटाबेस निर्देश]]ों के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों (जैसे वेब खनन द्वारा) का खनन कानूनी नहीं है। जहां डेटाबेस यूरोप में शुद्ध डेटा है, हो सकता है कि कोई कॉपीराइट न हो- लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा खनन [[बौद्धिक संपदा]] मालिकों के अधिकारों के अधीन हो जाता है जो डेटाबेस डायरेक्टिव द्वारा संरक्षित हैं। हार्ग्रेव्स समीक्षा की सिफारिश पर, इसने ब्रिटेन सरकार को 2014 में अपने कॉपीराइट कानून में संशोधन करने के लिए सामग्री खनन को एक सीमा और कॉपीराइट के अपवाद के रूप में अनुमति देने के लिए प्रेरित किया।<ref>[http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ UK Researchers Given Data Mining Right Under New UK Copyright Laws.] {{webarchive |url=https://web.archive.org/web/20140609020315/http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ |date=June 9, 2014 }} ''Out-Law.com.''  Retrieved 14 November 2014</ref> जापान के बाद ऐसा करने वाला यूके दुनिया का दूसरा देश था, जिसने 2009 में डेटा माइनिंग के लिए एक अपवाद पेश किया था। हालांकि, [[सूचना सोसायटी निर्देश]] (2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री खनन की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है।
2020 से भी स्विट्ज़रलैंड डेटा खनन को कला द्वारा निर्धारित कुछ शर्तों के तहत अनुसंधान क्षेत्र में अनुमति देकर विनियमित कर रहा है। स्विस कॉपीराइट अधिनियम के 24d। यह नया लेख 1 अप्रैल 2020 को लागू हुआ।<ref>{{Cite web|url=https://www.fedlex.admin.ch/eli/cc/1993/1798_1798_1798/en#art_24_d|title=फेडेक्स}}</ref>
[[यूरोपीय आयोग]] ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की।<ref>{{cite web|title=यूरोप के लिए लाइसेंस - संरचित हितधारक संवाद 2013|url=http://ec.europa.eu/licences-for-europe-dialogue/en/content/about-site|website=European Commission|access-date=14 November 2014}}</ref> इस कानूनी मुद्दे के समाधान पर ध्यान, जैसे कि सीमाओं और अपवादों के बजाय लाइसेंसिंग, ने मई 2013 में विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और [[खुला एक्सेस]] प्रकाशकों के प्रतिनिधियों को हितधारक संवाद छोड़ने के लिए प्रेरित किया।<ref>{{cite web|title=पाठ और डेटा खनन: इसका महत्व और यूरोप में परिवर्तन की आवश्यकता|url=http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|website=Association of European Research Libraries|access-date=14 November 2014|archive-date=29 November 2014|archive-url=https://web.archive.org/web/20141129021244/http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|url-status=dead}}</ref>


[[यूरोपीय आयोग]] ने यूरोप के लिए लाइसेंस के अनुसार 2013 में पाठ और डेटा माइनिंग पर हितधारक चर्चा की सुविधा प्रदान की।<ref>{{cite web|title=यूरोप के लिए लाइसेंस - संरचित हितधारक संवाद 2013|url=http://ec.europa.eu/licences-for-europe-dialogue/en/content/about-site|website=European Commission|access-date=14 November 2014}}</ref> इस कानूनी मुद्दे के समाधान पर ध्यान केंद्रित करने के कारण विश्वविद्यालयों, अनुसंधानकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों तथा [[खुला एक्सेस|ओपन एक्सेस]] प्रकाशकों के प्रतिनिधियों ने हितधारक संवाद मई, 2013 में छोड़ने के लिए प्रेरित किया।<ref>{{cite web|title=पाठ और डेटा खनन: इसका महत्व और यूरोप में परिवर्तन की आवश्यकता|url=http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|website=Association of European Research Libraries|access-date=14 November 2014|archive-date=29 November 2014|archive-url=https://web.archive.org/web/20141129021244/http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|url-status=dead}}</ref>


=== संयुक्त राज्य अमेरिका में स्थिति ===
=== संयुक्त राज्य अमेरिका में स्थिति ===


[[संयुक्त राज्य अमेरिका का कॉपीराइट कानून]] और विशेष रूप से [[उचित उपयोग]] के लिए इसका प्रावधान अमेरिका में सामग्री माइनिंग की वैधता और इजरायल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों का समर्थन करता है। जैसे-जैसे माइनिंग रूपांतरकारी होता है, अर्थात यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसलिए उसे उचित उपयोग में रखकर विधिमान्य माना जाता है। उदाहरण के लिए, गूगल बुक निपटान के भाग के रूप में इस मामले के पीठासीन न्यायाधीश ने निर्णय दिया कि कॉपीराइट रहित पुस्तकों की अंकरूपण परियोजना कानूनी रूप से सही थी, आंशिक रूप से अंकरूपण परियोजना जिसका अंकरूपण उपयोग हो रहा है, एक टेक्स्ट और डाटा माइनिंग है।.<ref>{{cite web|title=न्यायाधीश Google पुस्तकें के पक्ष में सारांश निर्णय देता है - एक उचित उपयोग जीत|url=http://www.lexology.com/library/detail.aspx?g=a18c5b92-5a20-4d1d-a098-a3095046a88e|website=Lexology.com|date = 19 November 2013|publisher=Antonelli Law Ltd|access-date=14 November 2014}}</ref>
[[संयुक्त राज्य अमेरिका का कॉपीराइट कानून]], और विशेष रूप से [[उचित उपयोग]] के लिए इसका प्रावधान, अमेरिका और अन्य उचित उपयोग वाले देशों जैसे इज़राइल, ताइवान और दक्षिण कोरिया में सामग्री खनन की वैधता को कायम रखता है। जैसा कि सामग्री खनन परिवर्तनकारी है, अर्थात यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के तहत वैध माना जाता है। उदाहरण के लिए, Google पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने निर्णय दिया कि कॉपीराइट पुस्तकों की Google की डिजिटाइज़ेशन परियोजना वैध थी, आंशिक रूप से परिवर्तनकारी उपयोगों के कारण जो डिजिटाइज़ेशन प्रोजेक्ट प्रदर्शित करता है—एक टेक्स्ट और डेटा माइनिंग है .<ref>{{cite web|title=न्यायाधीश Google पुस्तकें के पक्ष में सारांश निर्णय देता है - एक उचित उपयोग जीत|url=http://www.lexology.com/library/detail.aspx?g=a18c5b92-5a20-4d1d-a098-a3095046a88e|website=Lexology.com|date = 19 November 2013|publisher=Antonelli Law Ltd|access-date=14 November 2014}}</ref>
 
 
== सॉफ्टवेयर ==
== सॉफ्टवेयर ==
{{Category see also|डाटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर}}
{{Category see also|Data mining and machine learning software}}




===मुफ्त [[ओपनएनएन]]-सोर्स डेटा माइनिंग सॉफ्टवेयर और एप्लिकेशन===
===मुफ्त [[ओपनएनएन]]-सोर्स डेटा माइनिंग सॉफ्टवेयर और एप्लिकेशन===
नि:शुल्क/ओपन-सोर्स लाइसेंस के अनुसार निम्नलिखित अनुप्रयोग उपलब्ध हैं। अनुप्रयोग स्रोत कोड तक सार्वजनिक पहुंच भी उपलब्ध है।
नि:शुल्क/ओपन-सोर्स लाइसेंस के तहत निम्नलिखित एप्लिकेशन उपलब्ध हैं। एप्लिकेशन स्रोत कोड तक सार्वजनिक पहुंच भी उपलब्ध है।
* [[Carrot2|सीएआरआरओटी2]]: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क।
* [[Carrot2]]: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क।
* रासायनिक संगठन: एक रासायनिक संरचना माइनर और वेब सर्च इंजन।
* Chemicalize.org: एक रासायनिक संरचना माइनर और वेब सर्च इंजन।
* [[ELKI|एल्की]]: जावा ([[प्रोग्रामिंग भाषा]]) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना।
* [[ELKI]]: जावा ([[प्रोग्रामिंग भाषा]]) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना।
* [[टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला]]: एक [[प्राकृतिक भाषा प्रसंस्करण]] और भाषा इंजीनियरिंग उपकरण।
* [[टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला]]: एक [[प्राकृतिक भाषा प्रसंस्करण]] और भाषा इंजीनियरिंग उपकरण।
* [[KNIME|केएनआईएमइ]]: कोंस्टांज इंफॉर्मेशन माइनर, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
* [[KNIME]]: Konstanz Information Miner, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
* एमओए (मैसिव ऑनलाइन एनालिसिस): मैसिव ऑनलाइन एनालिसिस (एमओए), जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग।
* एमओए (मैसिव ऑनलाइन एनालिसिस) | मैसिव ऑनलाइन एनालिसिस (एमओए): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग।
* [[बहु अभिव्यक्ति प्रोग्रामिंग]]: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल।
* [[बहु अभिव्यक्ति प्रोग्रामिंग]]: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल।
* [[mlpack|एमएलपैक]]: [[C++|सी++]] भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग कलन विधि का संग्रह।
* [[mlpack]]: [[C++]] भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग एल्गोरिदम का संग्रह।
* [[एनएलटीके]] ([[प्राकृतिक भाषा टूलकिट]]): [[पायथन (प्रोग्रामिंग भाषा)]] भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट।
* [[एनएलटीके]] ([[प्राकृतिक भाषा टूलकिट]]): [[पायथन (प्रोग्रामिंग भाषा)]] भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट।
* ओपेनएनएन: ओपन न्यूरल नेटवर्क लाइब्रेरी।
* OpenNN: ओपन न्यूरल नेटवर्क लाइब्रेरी।
* ऑरेंज (सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन (प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है।
* ऑरेंज (सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन (प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है।
*[[पीएसपीपी: एसपीएसएस]] के समान [[जीएनयू परियोजना]] के अनुसार डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर
*[[PSPP]]: [[SPSS]] के समान [[जीएनयू परियोजना]] के तहत डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर
* [[आर (प्रोग्रामिंग भाषा)]]: सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज [[नारंगी (सॉफ्टवेयर)]] वातावरण। यह जीएनयू प्रोजेक्ट का हिस्सा है।
* [[आर (प्रोग्रामिंग भाषा)]]: सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज [[नारंगी (सॉफ्टवेयर)]] वातावरण। यह GNU प्रोजेक्ट का हिस्सा है।
* [[Scikit-सीखें|साइकिट-सीखें]]: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी
* [[Scikit-सीखें]]: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी
* टॉर्च (मशीन लर्निंग): एक [[ओपन सोर्स मॉडल]] | [[लुआ (प्रोग्रामिंग भाषा)]] प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग कलन विधि के लिए व्यापक समर्थन के साथ [[वैज्ञानिक कंप्यूटिंग]] फ्रेमवर्क के लिए ओपन-सोर्स [[ध्यान लगा के पढ़ना या सीखना]] लाइब्रेरी।
* टॉर्च (मशीन लर्निंग): एक [[ओपन सोर्स मॉडल]] | [[लुआ (प्रोग्रामिंग भाषा)]] प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग एल्गोरिदम के लिए व्यापक समर्थन के साथ [[वैज्ञानिक कंप्यूटिंग]] फ्रेमवर्क के लिए ओपन-सोर्स [[ध्यान लगा के पढ़ना या सीखना]] लाइब्रेरी।
* यूआईएमए: यूआईएमए असंरचित सूचना प्रबंधन वास्तुकला मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है।
* यूआईएमए: यूआईएमए (अनस्ट्रक्चर्ड इंफॉर्मेशन मैनेजमेंट आर्किटेक्चर) मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है।
* वीका (मशीन लर्निंग): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर अनुप्रयोग का एक सूट है।
* वीका (मशीन लर्निंग): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर एप्लिकेशन का एक सूट।


=== स्वामित्व डेटा-माइनिंग सॉफ्टवेयर और अनुप्रयोग ===
=== मालिकाना डेटा-खनन सॉफ्टवेयर और अनुप्रयोग ===
निम्नलिखित अनुप्रयोग स्वामित्व लाइसेंस के अनुसार उपलब्ध होते हैं।
निम्नलिखित एप्लिकेशन मालिकाना लाइसेंस के तहत उपलब्ध हैं।


* [[एंगॉस]] नॉलेजस्टूडियो: डेटा माइनिंग टूल
* [[एंगॉस]] नॉलेजस्टूडियो: डेटा माइनिंग टूल
* [[LIONsolver|लायन सॉल्वर]]: डेटा माइनिंग, व्यापार बुद्धिमत्ता और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर अनुप्रयोग जो सीखना और बुद्धिमान अनुकूलन (लायन) दृष्टिकोण को लागू करता है।
* [[LIONsolver]]: डेटा माइनिंग, बिजनेस इंटेलिजेंस और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर एप्लिकेशन जो लर्निंग एंड इंटेलिजेंट ऑप्टिमाइजेशन (LION) दृष्टिकोण को लागू करता है।
* [[बहुविश्लेषक]]: मेगाप्यूटर बुद्धिमत्ता द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर।
* [[बहुविश्लेषक]]: मेगाप्यूटर इंटेलिजेंस द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर।
* [[Microsoft|माइक्रोसॉफ्ट]] विश्लेषण सेवाएँ: माइक्रोसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर।
* [[[[Microsoft]] विश्लेषण सेवाएँ]]: Microsoft द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर।
* [[NetOwl|नेटआउल]]: बहुभाषी टेक्स्ट और एंटिटी एनालिटिक्स उत्पादों का सूट जो डेटा माइनिंग को सक्षम बनाता है।
* [[NetOwl]]: बहुभाषी टेक्स्ट और एंटिटी एनालिटिक्स उत्पादों का सूट जो डेटा माइनिंग को सक्षम बनाता है।
* ओरेकल डेटा माइनिंग: [[Oracle Corporation|ओरेकल कॉर्पोरेशन]] द्वारा डेटा माइनिंग सॉफ़्टवेयर।
* Oracle डेटा माइनिंग: [[Oracle Corporation]] द्वारा डेटा माइनिंग सॉफ़्टवेयर।
* [[PSeven|पीसेवन]]: [[DATADVANCE|डेटाएडवांस]] द्वारा प्रदान किया गया अभियांत्रिकी सिमुलेशन और विश्लेषण, बहु-विषयक अनुकूलन और डेटा माइनिंग के स्वचालन के लिए मंच।
* [[PSeven]]: [[DATADVANCE]] द्वारा प्रदान किया गया इंजीनियरिंग सिमुलेशन और विश्लेषण, बहु-विषयक अनुकूलन और डेटा खनन के स्वचालन के लिए मंच।
* [[क्लोकोर]] ओमिक्स अन्वेषक: डेटा माइनिंग सॉफ्टवेयर।
* [[क्लोकोर]] ओमिक्स एक्सप्लोरर: डेटा माइनिंग सॉफ्टवेयर।
* [[रैपिडमाइनर]]: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण। <!-- Latest version is NOT opensource -->
* [[रैपिडमाइनर]]: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण। <!-- Latest version is NOT opensource -->
* एसएएस (सॉफ्टवेयर) घटक: [[एसएएस संस्थान]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
* एसएएस (सॉफ्टवेयर) # घटक: [[एसएएस संस्थान]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
* [[एसपीएसएस मॉडलर]]: [[आईबीएम]] द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर।
* [[एसपीएसएस मॉडलर]]: [[आईबीएम]] द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर।
* [[आंकड़े]] डेटा माइनर: [[स्टेटसॉफ्ट]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
* [[आंकड़े]] डेटा माइनर: [[स्टेटसॉफ्ट]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
* तनाग्रा (मशीन लर्निंग): प्रत्योक्षकरण-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी।
* तनाग्रा (मशीन लर्निंग): विज़ुअलाइज़ेशन-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी।
* वर्टिका: [[हेवलेट पैकर्ड]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
* वर्टिका: [[हेवलेट पैकर्ड]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
* [[Google|गूगल]] क्लाउड प्लेटफ़ॉर्म: गूगल द्वारा प्रबंधित स्वचालित कस्टम एमएल मॉडल।
* [[Google]] क्लाउड प्लेटफ़ॉर्म: Google द्वारा प्रबंधित स्वचालित कस्टम ML मॉडल।
* [[Amazon SageMaker|अमेज़न सैजमेकर]]: कस्टम एमएल मॉडल बनाने और उत्पादन करने के लिए अमेजन डॉट कॉम द्वारा प्रदान की जाने वाली प्रबंधित सेवा।
* [[Amazon SageMaker]]: कस्टम ML मॉडल बनाने और उत्पादन करने के लिए Amazon.com द्वारा प्रदान की जाने वाली प्रबंधित सेवा।


== यह भी देखें ==
== यह भी देखें ==
; तरीकों
; तरीकों
{{columns-list|colwidth=22em|
{{columns-list|colwidth=22em|
* एजेंट माइनिंग
* [[Agent mining]]
विसंगति का पता लगाना, विसंगति/बाह्य/परिवर्तन का पता लगाना
* [[Anomaly detection|Anomaly/outlier/change detection]]
* एसोसिएशन रूल लर्निंग
* [[Association rule learning]]
* बायेसियन नेटवर्क एस
* [[Bayesian network]]s
* सांख्यिकीय वर्गीकरण{{!}}वर्गीकरण
* [[Statistical classification|Classification]]
* क्लस्टर विश्लेषण
* [[Cluster analysis]]
* निर्णय के पेड़
* [[Decision tree]]s
* पहनावा सीखना
* [[Ensemble learning]]
* कारक विश्लेषण
* [[Factor analysis]]
* आनुवंशिक कलन विधि
* [[Genetic algorithms]]
* इरादा माइनिंग
* [[Intention mining]]
* लर्निंग क्लासिफायर सिस्टम
* [[Learning classifier system]]
* बहुरेखीय उप-स्थान सीखना
* [[Multilinear subspace learning]]
* कृत्रिम तंत्रिका नेटवर्क{{!}}तंत्रिका नेटवर्क एस
* [[Artificial neural network|Neural network]]s
* प्रतिगमन विश्लेषण
* [[Regression analysis]]
* अनुक्रम खनन
* [[Sequence mining]]
* संरचित डेटा विश्लेषण (सांख्यिकी) {{!}} संरचित डेटा विश्लेषण
* [[Structured data analysis (statistics)|Structured data analysis]]
* समर्थन वेक्टर मशीन
* [[Support vector machines]]
* टेक्स्ट माइनिंग
* [[Text mining]]
*समय श्रृंखला समय श्रृंखला विश्लेषण}}
* [[Time series|Time series analysis]]
 
}}
; एप्लिकेशन डोमेन
; एप्लिकेशन डोमेन
{{columns-list|colwidth=22em|* एनालिटिक्स
{{columns-list|colwidth=22em|
* व्यवहार सूचना विज्ञान
* [[Analytics]]
* बिग डेटा{{!}}बिग डेटा
* [[Behavior informatics]]
* जैव सूचना विज्ञान
* [[Big Data|Big data]]
* व्यापारिक सूचना
* [[Bioinformatics]]
* डेटा विश्लेषण
* [[Business intelligence]]
* डेटा वेयरहाउस
* [[Data analysis]]
*निर्णय समर्थन प्रणाली
* [[Data warehouse]]
* डोमेन संचालित डेटा माइनिंग
* [[Decision support system]]
* [[दवाओं की खोज]]
* [[Domain driven data mining]]
*अन्वेषणात्मक डेटा विश्लेषण
* [[Drug discovery]]
* भविष्य बतानेवाला विश्लेषक
* [[Exploratory data analysis]]
* वेब माइनिंग}}
* [[Predictive analytics]]
* [[Web mining]]
}}
; आवेदन के उदाहरण
; आवेदन के उदाहरण
{{Main|डाटा माइनिंग के उदाहरण}}
{{Main|Examples of data mining}}
{{Category see also|एप्लाइड डाटा माइनिंग}}
{{Category see also|Applied data mining}}
{{columns-list|colwidth=22em|*यूनाइटेड किंगडम में स्वचालित नंबर प्लेट, पहचान डेटा माइनिंग, यूनाइटेड किंगडम में स्वचालित नंबर प्लेट पहचान
{{columns-list|colwidth=22em|
*कस्टमर एनालिटिक्स डेटा माइनिंग कस्टमर एनालिटिक्स
*[[Automatic number plate recognition in the United Kingdom#Data mining|Automatic number plate recognition in the United Kingdom]]
*शैक्षिक डाटा माइनिंग
*[[Customer analytics#Data mining|Customer analytics]]
*राष्ट्रीय सुरक्षा एजेंसी डाटा माइनिंग राष्ट्रीय सुरक्षा एजेंसी
*[[Educational data mining]]
*मात्रात्मक संरचना–गतिविधि संबंध डाटा माइनिंग दृष्टिकोण{{!}}मात्रात्मक संरचना गतिविधि संबंध
*[[National Security Agency#Data mining|National Security Agency]]
*सर्विलांस डेटा माइनिंग और प्रोफाइलिंग सर्विलेंस / मास सर्विलांस डेटा माइनिंग मास सर्विलांस, (जैसे, स्टेलर विंड (कोड नाम){{!}}स्टेलर विंड)}}
*[[Quantitative structure–activity relationship#Data mining approach|Quantitative structure–activity relationship]]
*[[Surveillance#Data mining and profiling|Surveillance]] / [[Mass surveillance#Data mining|Mass surveillance]] (e.g., [[Stellar Wind (code name)|Stellar Wind]])
}}
; संबंधित विषय
; संबंधित विषय


डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए (डेटा का विश्लेषण करने के विपरीत), देखें
डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए (डेटा का विश्लेषण करने के विपरीत), देखें:
{{columns-list|colwidth=22em|* डेटा एकीकरण
{{columns-list|colwidth=22em|
* डेटा रूपांतरण
* [[Data integration]]
*[इलेक्ट्रॉनिक खोज
* [[Data transformation]]
* सूचना निष्कर्षण
* [[Electronic discovery]]
* सूचना एकीकरण
* [[Information extraction]]
* नामित-निकाय पहचान
* [[Information integration]]
* प्रोफाइलिंग (सूचना विज्ञान)
* [[Named-entity recognition]]
* साइकोमेट्रिक्स
* [[Profiling (information science)]]
* सोशल मीडिया माइनिंग
* [[Psychometrics]]
* निगरानी पूंजीवाद
* [[Social media mining]]
* वेब स्क्रेपिंग}}
* [[Surveillance capitalism]]
* [[Web scraping]]
}}
;अन्य संसाधन
;अन्य संसाधन
*डेटा वेयरहाउसिंग और माइनिंग का अंतर्राष्ट्रीय जर्नल
*डेटा वेयरहाउसिंग और खनन का अंतर्राष्ट्रीय जर्नल


==संदर्भ==
==संदर्भ==
Line 257: Line 271:
*डाटा प्रबंधन
*डाटा प्रबंधन
*मूलमंत्र
*मूलमंत्र
*आंकड़ा संग्रहण
*सूचना प्रक्रम
*डेटा वेयरहाउस
*डेटा वेयरहाउस
*कृत्रिम होशियारी
*कृत्रिम होशियारी
*सूचना प्रक्रम
*एसोसिएशन नियम खनन
*आंकड़ा संग्रहण
*भविष्य बतानेवाला विश्लेषक
*असंगति का पता लगाये
*विपणनअभियान
*विपणनअभियान
*एनालिटिक्स
*एनालिटिक्स
*संगठन नियम माइनिंग
*असंगति का पता लगाये
*भविष्य बतानेवाला विश्लेषक
*एक प्राथमिक संभावना
*एक प्राथमिक संभावना
*जानकारी
*जानकारी
Line 275: Line 289:
*प्राप्तकर्ता परिचालन विशेषता
*प्राप्तकर्ता परिचालन विशेषता
*अकादमिक जर्नल
*अकादमिक जर्नल
*मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ नॉलेज डिस्कवरी इन डेटाबेस में यूरोपीय सम्मेलन
*सूचना और ज्ञान प्रबंधन पर सम्मेलन
*सीआईकेएम सम्मेलन
*सीआईकेएम सम्मेलन
*नॉलेज डिस्कवरी और डेटा माइनिंग पर सम्मेलन
*नॉलेज डिस्कवरी और डेटा माइनिंग पर सम्मेलन
*मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ नॉलेज डिस्कवरी इन डेटाबेस में यूरोपीय सम्मेलन
*सूचना और ज्ञान प्रबंधन पर सम्मेलन
*प्रिडिक्टिव मॉडल मार्कअप लैंग्वेज
*प्रिडिक्टिव मॉडल मार्कअप लैंग्वेज
*डेटा माइनिंग के उदाहरण
*डेटा माइनिंग के उदाहरण
Line 287: Line 301:
*गोपनीयता का उल्लंघन
*गोपनीयता का उल्लंघन
*व्यक्तिगत पहचान की जानकारी
*व्यक्तिगत पहचान की जानकारी
*यूरोपीय संघ का कॉपीराइट कानून
*हरग्रेव्स समीक्षा
*कॉपीराइट की सीमाएं और अपवाद
*कॉपीराइट की सीमाएं और अपवाद
*हरग्रेव्स समीक्षा
*यूरोपीय संघ का कॉपीराइट कानून
*Google पुस्तक खोज निपटान समझौता
*Google पुस्तक खोज निपटान समझौता
*एमओए (व्यापक ऑनलाइन विश्लेषण)
*एमओए (व्यापक ऑनलाइन विश्लेषण)
Line 311: Line 325:


[[Category: Machine Translated Page]]
[[Category: Machine Translated Page]]
[[Category:Created On 05/12/2022]]
[[Category:Created On 14/12/2022]]

Revision as of 10:54, 14 December 2022

डेटा माइनिंग बड़े डेटा सेट में पैटर्न निकालने और खोजने की प्रक्रिया है, जिसमें मशीन लर्निंग, सांख्यिकी और डेटाबेस सिस्टम के इंटरसेक्शन के तरीके शामिल हैं।[1]डेटा माइनिंग कंप्यूटर विज्ञान और सांख्यिकी का एक अंतःविषय उपक्षेत्र है, जिसका समग्र लक्ष्य एक डेटा सेट से जानकारी (बुद्धिमान विधियों के साथ) निकालना और सूचना को आगे उपयोग के लिए एक बोधगम्य संरचना में बदलना है।[1][2][3][4] डाटा माइनिंग डाटाबेस प्रोसेस या केडीडी में नॉलेज डिस्कवरी का एनालिसिस स्टेप है।[5]कच्चे विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, सांख्यिकीय मॉडल और सांख्यिकीय निष्कर्ष विचार, दिलचस्प मेट्रिक्स, कम्प्यूटेशनल जटिलता सिद्धांत विचार, खोजी गई संरचनाओं डेटा प्री-प्रोसेसिंग, डेटा विज़ुअलाइज़ेशन और ऑनलाइन एल्गोरिदम भी शामिल है।[1]

डेटा माइनिंग शब्द एक मिथ्या नाम है क्योंकि लक्ष्य बड़ी मात्रा में डेटा से नमूना और ज्ञान का निष्कर्षण है, न कि डेटा स्क्रैपिंग | डेटा का निष्कर्षण (खनन)।[6] यह भी एक मुहावरा है[7] और अक्सर बड़े पैमाने पर डेटा या सूचना प्रसंस्करण (डेटा संग्रह, सूचना निष्कर्षण, डेटा गोदाम, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धिमत्ता (जैसे, मशीन लर्निंग) सहित निर्णय समर्थन प्रणाली के किसी भी अनुप्रयोग पर लागू होता है। व्यापारिक सूचना। पुस्तक डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा (प्रोग्रामिंग भाषा)[8] (जिसमें ज्यादातर मशीन लर्निंग सामग्री शामिल है) को मूल रूप से प्रैक्टिकल मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।[9] अक्सर अधिक सामान्य शब्द (बड़े पैमाने पर) डेटा विश्लेषण और विश्लेषण-या, वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।

वास्तविक डेटा खनन कार्य सेमी-विकट है: पहले से अज्ञात, दिलचस्प पैटर्न जैसे डेटा रिकॉर्ड के समूह (क्लस्टर विश्लेषण), असामान्य रिकॉर्ड (विसंगति का पता लगाना), और निर्भरता (कंप्यूटर विज्ञान) निकालने के लिए बड़ी मात्रा में डेटा का स्वचालित या स्वचालित विश्लेषण ) (संघ नियम खनन, अनुक्रमिक पैटर्न खनन)। इसमें आमतौर पर स्थानिक सूचकांक जैसी डेटाबेस तकनीकों का उपयोग करना शामिल होता है। इन पैटर्नों को तब इनपुट डेटा के एक प्रकार के सारांश के रूप में देखा जा सकता है, और इसका उपयोग आगे के विश्लेषण में किया जा सकता है या, उदाहरण के लिए, मशीन लर्निंग और भविष्य कहनेवाला विश्लेषण में। उदाहरण के लिए, डेटा माइनिंग कदम डेटा में कई समूहों की पहचान कर सकता है, जिसका उपयोग निर्णय समर्थन प्रणाली द्वारा अधिक सटीक भविष्यवाणी परिणाम प्राप्त करने के लिए किया जा सकता है। न तो डेटा संग्रह, डेटा तैयार करना, न ही परिणाम की व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।

डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।[10] संबंधित शब्द डेटा ड्रेजिंग, डेटा फिशिंग और डेटा स्नूपिंग एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं (या हो सकते हैं)। पैटर्न की खोज की। हालाँकि, इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जा सकता है।

व्युत्पत्ति

1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में आर्थिक अध्ययन की समीक्षा में प्रकाशित एक लेख में अर्थशास्त्री माइकल लवेल द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।[11][12] लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग (सकारात्मक) से लेकर मछली पकड़ने या स्नूपिंग (नकारात्मक) तक शामिल हैं।

डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में आम तौर पर सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक सैन डिएगो-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;[13] शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, ज्ञान निष्कर्षण आदि शामिल हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो | .kdnuggets.com/meetings/kdd89/ (KDD-1989)] और यह शब्द आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। हालाँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।[14] वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।

अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब AAAI प्रायोजन के तहत डाटा माइनिंग एंड नॉलेज डिस्कवरी (KDD-95) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और रामासामी उथुरुसामी ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने SIGKDD न्यूज़लेटर SIGKDD एक्सप्लोरेशन शुरू किया।[15] KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।

पृष्ठभूमि

डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s) शामिल हैं।[16] कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , आनुवंशिक एल्गोरिदम (1950), निर्णय वृक्ष सीखना एंड निर्णय नियम (1960), और सपोर्ट वेक्टर मशीन (1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।[17] बड़े डेटा सेट में। यह वास्तविक सीखने और खोज एल्गोरिदम को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके डेटाबेस प्रबंधन के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता (जो आमतौर पर गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।

प्रक्रिया

डेटाबेस (केडीडी) प्रक्रिया में ज्ञान की खोज को आमतौर पर चरणों के साथ परिभाषित किया जाता है:

  1. चयन
  2. प्री-प्रोसेसिंग
  3. परिवर्तन
  4. डेटा माइनिंग
  5. व्याख्या / मूल्यांकन।[5]

हालाँकि, यह इस विषय पर कई रूपों में मौजूद है, डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया प्रोसेस (CRISP-DM) जो छह चरणों को परिभाषित करता है:

  1. व्यापार की समझ
  2. डेटा समझ
  3. डेटा तैयारी
  4. मॉडलिंग
  5. मूल्यांकन
  6. सिस्टम परिनियोजन

या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।

2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्यप्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।[18] इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक SEMMA था। हालाँकि, 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रोसेस मॉडल की समीक्षा प्रकाशित की है,[19] और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और SEMMA की तुलना की।[20]


प्री-प्रोसेसिंग

डेटा माइनिंग एल्गोरिदम का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर खनन करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले बहुभिन्नरूपी आँकड़े डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई सांख्यिकीय शोर और लापता डेटा वाले अवलोकनों को हटा देती है।

डाटा माइनिंग

डेटा माइनिंग में कार्यों के छह सामान्य वर्ग शामिल हैं:[5]

  • विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
  • एसोसिएशन नियम सीखना (डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अक्सर एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
  • क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
  • सांख्यिकीय वर्गीकरण - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
  • प्रतिगमन विश्लेषण - एक फ़ंक्शन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
  • स्वचालित सारांश - विज़ुअलाइज़ेशन और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।

परिणाम सत्यापन

File:Spurious correlations - spelling bee spiders.svg
सांख्यिकीविद् टायलर विगेन द्वारा संचालित एक बॉट के माध्यम से डेटा ड्रेजिंग द्वारा उत्पादित डेटा का एक उदाहरण, स्पष्ट रूप से स्पेलिंग बी प्रतियोगिता जीतने वाले सर्वश्रेष्ठ शब्द और जहरीली मकड़ियों द्वारा मारे गए संयुक्त राज्य में लोगों की संख्या के बीच एक करीबी लिंक दिखा रहा है। रुझानों में समानता जाहिर तौर पर एक संयोग है।

डेटा माइनिंग का अनायास ही दुरुपयोग किया जा सकता है, ऐसे परिणाम उत्पन्न होते हैं जो महत्वपूर्ण प्रतीत होते हैं लेकिन जो वास्तव में भविष्य के व्यवहार की भविष्यवाणी नहीं करते हैं और डेटा के एक नए नमूने पर पुनरुत्पादन नहीं हो सकते हैं, इसलिए इसका बहुत कम उपयोग होता है। यह कभी-कभी बहुत अधिक परिकल्पनाओं की जांच करने और उचित सांख्यिकीय परिकल्पना परीक्षण नहीं करने के कारण होता है। मशीन लर्निंग में इस समस्या का एक सरल संस्करण overfitting के रूप में जाना जाता है, लेकिन प्रक्रिया के विभिन्न चरणों में एक ही समस्या उत्पन्न हो सकती है और इस प्रकार एक ट्रेन/टेस्ट स्प्लिट- जब भी लागू हो- इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।[21]

डेटा से ज्ञान की खोज का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग एल्गोरिदम द्वारा निर्मित पैटर्न व्यापक डेटा सेट में होते हैं। एल्गोरिदम द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग एल्गोरिथम प्रशिक्षित नहीं था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामी आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, स्पैम को वैध ई-मेल से अलग करने की कोशिश करने वाले डेटा माइनिंग एल्गोरिदम को नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। एल्गोरिदम का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।

यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा खनन चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

अनुसंधान

नॉलेज डिस्कवरी एंड डेटा माइनिंग (SIGKDD) पर संगणक तंत्र संस्था (ACM) स्पेशल इंटरेस्ट ग्रुप (SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।[22][23] 1989 से, इस ACM SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,[24] और 1999 से इसने SIGKDD एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।[25] डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में शामिल हैं:

  • CIKM सम्मेलन - सूचना और ज्ञान प्रबंधन पर ACM सम्मेलन
  • मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
  • केडीडी सम्मेलन - ज्ञान खोज और डेटा खनन पर एसीएम एसआईजीकेडीडी सम्मेलन

कंप्यूटर विज्ञान सम्मेलनों की कई सूची #डेटा प्रबंधन|डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे ICDE सम्मेलन, SIGMOD और बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन में डेटा माइनिंग विषय भी मौजूद हैं।

मानक

डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस (CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड (JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।

निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, जावा डाटा माइनिंग ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।[26]


उल्लेखनीय उपयोग

आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।

गोपनीयता चिंताएं और नैतिकता

जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अक्सर उपयोगकर्ता व्यवहार विश्लेषण (नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।[27] जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में गोपनीयता, वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।[28] विशेष रूप से, राष्ट्रीय सुरक्षा या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कि कुल सूचना जागरूकता कार्यक्रम या ADVISE में, ने गोपनीयता संबंधी चिंताओं को उठाया है।[29][30] डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो गोपनीयता और डेटा गोपनीयता दायित्वों से समझौता करने वाली जानकारी या पैटर्न को उजागर करता है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। डेटा एकत्रीकरण में डेटा को एक साथ जोड़ना (संभवतः विभिन्न स्रोतों से) एक तरह से होता है जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा की पहचान या अन्यथा स्पष्ट भी हो सकता है)।[31] यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। किसी व्यक्ति की गोपनीयता के लिए खतरा तब सामने आता है जब डेटा, एक बार संकलित हो जाने के बाद, डेटा माइनर, या कोई भी व्यक्ति जिसके पास नए संकलित डेटा सेट तक पहुंच होती है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो जाता है, खासकर जब डेटा मूल रूप से गुमनाम था।[32] इसकी सलाह दी जाती है[according to whom?] डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना:[31]* डेटा संग्रह और किसी भी (ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य।

  • डेटा का उपयोग कैसे किया जाएगा।
  • जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे।
  • डेटा तक पहुंच के आसपास सुरक्षा की स्थिति।
  • एकत्रित डेटा को कैसे अपडेट किया जा सकता है।

डेटा को गुमनाम बनाने के लिए संशोधित भी किया जा सकता है, ताकि व्यक्तियों की आसानी से पहचान न हो सके।[31]हालांकि, यहां तक ​​कि डेटा गुमनामी डेटा सेट में संभावित रूप से व्यक्तियों की पहचान की अनुमति देने के लिए पर्याप्त जानकारी हो सकती है, जैसा कि तब हुआ जब पत्रकार खोज इतिहास के एक सेट के आधार पर कई व्यक्तियों को खोजने में सक्षम थे जो अनजाने में एओएल द्वारा जारी किए गए थे।[33] प्रदाता के लिए अग्रणी व्यक्तिगत रूप से पहचान योग्य जानकारी का अनजाने प्रकटीकरण उचित सूचना प्रथाओं का उल्लंघन करता है। यह अविवेक वित्तीय कारण बन सकता है, संकेतित व्यक्ति को भावनात्मक, या शारीरिक नुकसान। निजता के उल्लंघन के एक उदाहरण में, Walgreens के संरक्षकों ने 2011 में कंपनी के खिलाफ बेचने के लिए मुकदमा दायर किया डेटा माइनिंग कंपनियों को प्रिस्क्रिप्शन जानकारी जो बदले में डेटा प्रदान करती हैं दवा कंपनियों को।[34]


यूरोप में स्थिति

यूरोपीय संघ में काफी मजबूत गोपनीयता कानून हैं, और उपभोक्ताओं के अधिकारों को और मजबूत करने के प्रयास चल रहे हैं। हालांकि, इंटरनेशनल सेफ हार्बर प्राइवेसी प्रिंसिपल्स|यू.एस.-ई.यू. 1998 और 2000 के बीच विकसित सेफ हार्बर सिद्धांत, वर्तमान में अमेरिकी कंपनियों द्वारा यूरोपीय उपयोगकर्ताओं को गोपनीयता के शोषण के लिए प्रभावी रूप से उजागर करते हैं। एड्वर्ड स्नोडेन के वैश्विक निगरानी प्रकटीकरण के परिणामस्वरूप, इस समझौते को रद्द करने की चर्चा बढ़ गई है, क्योंकि विशेष रूप से डेटा पूरी तरह से राष्ट्रीय सुरक्षा एजेंसी के सामने आ जाएगा, और संयुक्त राज्य अमेरिका के साथ एक समझौते तक पहुंचने के प्रयास विफल हो गए हैं।[35] विशेष रूप से यूनाइटेड किंगडम में ऐसे मामले सामने आए हैं जब निगमों ने डेटा माइनिंग का उपयोग ग्राहकों के कुछ समूहों को लक्षित करने के लिए किया, जिससे उन्हें अनुचित रूप से उच्च कीमतों का भुगतान करने के लिए मजबूर होना पड़ा। ये समूह निम्न सामाजिक-आर्थिक स्थिति के लोग होते हैं जो डिजिटल मार्केट स्थानों में उनका शोषण करने के तरीकों से परिचित नहीं होते हैं।[36]


संयुक्त राज्य अमेरिका में स्थिति

संयुक्त राज्य अमेरिका में, स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (HIPAA) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को संबोधित किया गया है। HIPAA के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के बारे में सूचित सहमति देना आवश्यक है। एएएचसी का कहना है कि बायोटेक बिजनेस वीक में एक लेख के अनुसार, '[i] एन अभ्यास, एचआईपीएए अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों की तुलना में अधिक सुरक्षा प्रदान नहीं कर सकता है।' इससे भी महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा का नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है।[37] यह डेटा एकत्रीकरण और खनन प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है।

अमेरिकी सूचना गोपनीयता कानून जैसे HIPAA और पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम (FERPA) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा खनन का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है।

कॉपीराइट कानून

यूरोप में स्थिति

यूरोपीय संघ के कॉपीराइट कानून और डेटाबेस निर्देशों के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों (जैसे वेब खनन द्वारा) का खनन कानूनी नहीं है। जहां डेटाबेस यूरोप में शुद्ध डेटा है, हो सकता है कि कोई कॉपीराइट न हो- लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा खनन बौद्धिक संपदा मालिकों के अधिकारों के अधीन हो जाता है जो डेटाबेस डायरेक्टिव द्वारा संरक्षित हैं। हार्ग्रेव्स समीक्षा की सिफारिश पर, इसने ब्रिटेन सरकार को 2014 में अपने कॉपीराइट कानून में संशोधन करने के लिए सामग्री खनन को एक सीमा और कॉपीराइट के अपवाद के रूप में अनुमति देने के लिए प्रेरित किया।[38] जापान के बाद ऐसा करने वाला यूके दुनिया का दूसरा देश था, जिसने 2009 में डेटा माइनिंग के लिए एक अपवाद पेश किया था। हालांकि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री खनन की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। 2020 से भी स्विट्ज़रलैंड डेटा खनन को कला द्वारा निर्धारित कुछ शर्तों के तहत अनुसंधान क्षेत्र में अनुमति देकर विनियमित कर रहा है। स्विस कॉपीराइट अधिनियम के 24d। यह नया लेख 1 अप्रैल 2020 को लागू हुआ।[39] यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की।[40] इस कानूनी मुद्दे के समाधान पर ध्यान, जैसे कि सीमाओं और अपवादों के बजाय लाइसेंसिंग, ने मई 2013 में विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और खुला एक्सेस प्रकाशकों के प्रतिनिधियों को हितधारक संवाद छोड़ने के लिए प्रेरित किया।[41]


संयुक्त राज्य अमेरिका में स्थिति

संयुक्त राज्य अमेरिका का कॉपीराइट कानून, और विशेष रूप से उचित उपयोग के लिए इसका प्रावधान, अमेरिका और अन्य उचित उपयोग वाले देशों जैसे इज़राइल, ताइवान और दक्षिण कोरिया में सामग्री खनन की वैधता को कायम रखता है। जैसा कि सामग्री खनन परिवर्तनकारी है, अर्थात यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के तहत वैध माना जाता है। उदाहरण के लिए, Google पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने निर्णय दिया कि कॉपीराइट पुस्तकों की Google की डिजिटाइज़ेशन परियोजना वैध थी, आंशिक रूप से परिवर्तनकारी उपयोगों के कारण जो डिजिटाइज़ेशन प्रोजेक्ट प्रदर्शित करता है—एक टेक्स्ट और डेटा माइनिंग है .[42]


सॉफ्टवेयर


मुफ्त ओपनएनएन-सोर्स डेटा माइनिंग सॉफ्टवेयर और एप्लिकेशन

नि:शुल्क/ओपन-सोर्स लाइसेंस के तहत निम्नलिखित एप्लिकेशन उपलब्ध हैं। एप्लिकेशन स्रोत कोड तक सार्वजनिक पहुंच भी उपलब्ध है।

  • Carrot2: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क।
  • Chemicalize.org: एक रासायनिक संरचना माइनर और वेब सर्च इंजन।
  • ELKI: जावा (प्रोग्रामिंग भाषा) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना।
  • टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला: एक प्राकृतिक भाषा प्रसंस्करण और भाषा इंजीनियरिंग उपकरण।
  • KNIME: Konstanz Information Miner, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
  • एमओए (मैसिव ऑनलाइन एनालिसिस) | मैसिव ऑनलाइन एनालिसिस (एमओए): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग।
  • बहु अभिव्यक्ति प्रोग्रामिंग: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल।
  • mlpack: C++ भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग एल्गोरिदम का संग्रह।
  • एनएलटीके (प्राकृतिक भाषा टूलकिट): पायथन (प्रोग्रामिंग भाषा) भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट।
  • OpenNN: ओपन न्यूरल नेटवर्क लाइब्रेरी।
  • ऑरेंज (सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन (प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है।
  • PSPP: SPSS के समान जीएनयू परियोजना के तहत डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर
  • आर (प्रोग्रामिंग भाषा): सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज नारंगी (सॉफ्टवेयर) वातावरण। यह GNU प्रोजेक्ट का हिस्सा है।
  • Scikit-सीखें: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी
  • टॉर्च (मशीन लर्निंग): एक ओपन सोर्स मॉडल | लुआ (प्रोग्रामिंग भाषा) प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग एल्गोरिदम के लिए व्यापक समर्थन के साथ वैज्ञानिक कंप्यूटिंग फ्रेमवर्क के लिए ओपन-सोर्स ध्यान लगा के पढ़ना या सीखना लाइब्रेरी।
  • यूआईएमए: यूआईएमए (अनस्ट्रक्चर्ड इंफॉर्मेशन मैनेजमेंट आर्किटेक्चर) मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है।
  • वीका (मशीन लर्निंग): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर एप्लिकेशन का एक सूट।

मालिकाना डेटा-खनन सॉफ्टवेयर और अनुप्रयोग

निम्नलिखित एप्लिकेशन मालिकाना लाइसेंस के तहत उपलब्ध हैं।

  • एंगॉस नॉलेजस्टूडियो: डेटा माइनिंग टूल
  • LIONsolver: डेटा माइनिंग, बिजनेस इंटेलिजेंस और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर एप्लिकेशन जो लर्निंग एंड इंटेलिजेंट ऑप्टिमाइजेशन (LION) दृष्टिकोण को लागू करता है।
  • बहुविश्लेषक: मेगाप्यूटर इंटेलिजेंस द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर।
  • [[Microsoft विश्लेषण सेवाएँ]]: Microsoft द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर।
  • NetOwl: बहुभाषी टेक्स्ट और एंटिटी एनालिटिक्स उत्पादों का सूट जो डेटा माइनिंग को सक्षम बनाता है।
  • Oracle डेटा माइनिंग: Oracle Corporation द्वारा डेटा माइनिंग सॉफ़्टवेयर।
  • PSeven: DATADVANCE द्वारा प्रदान किया गया इंजीनियरिंग सिमुलेशन और विश्लेषण, बहु-विषयक अनुकूलन और डेटा खनन के स्वचालन के लिए मंच।
  • क्लोकोर ओमिक्स एक्सप्लोरर: डेटा माइनिंग सॉफ्टवेयर।
  • रैपिडमाइनर: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण।
  • एसएएस (सॉफ्टवेयर) # घटक: एसएएस संस्थान द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
  • एसपीएसएस मॉडलर: आईबीएम द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर।
  • आंकड़े डेटा माइनर: स्टेटसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
  • तनाग्रा (मशीन लर्निंग): विज़ुअलाइज़ेशन-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी।
  • वर्टिका: हेवलेट पैकर्ड द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
  • Google क्लाउड प्लेटफ़ॉर्म: Google द्वारा प्रबंधित स्वचालित कस्टम ML मॉडल।
  • Amazon SageMaker: कस्टम ML मॉडल बनाने और उत्पादन करने के लिए Amazon.com द्वारा प्रदान की जाने वाली प्रबंधित सेवा।

यह भी देखें

तरीकों
एप्लिकेशन डोमेन
आवेदन के उदाहरण
संबंधित विषय

डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए (डेटा का विश्लेषण करने के विपरीत), देखें:

अन्य संसाधन
  • डेटा वेयरहाउसिंग और खनन का अंतर्राष्ट्रीय जर्नल

संदर्भ

  1. 1.0 1.1 1.2 "डाटा माइनिंग पाठ्यक्रम". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27.
  2. Clifton, Christopher (2010). "एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा". Retrieved 2010-12-09.
  3. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी". Archived from the original on 2009-11-10. Retrieved 2012-08-07.
  4. Han, Jaiwei; Kamber, Micheline; Pei, Jian (2011). डाटा माइनिंग: अवधारणाएं और तकनीकें (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
  5. 5.0 5.1 5.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 17 December 2008.
  6. Han, Jiawei; Kamber, Micheline (2001). डेटा खनन: अवधारणाएं और तकनीकें. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6. इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है
  7. OKAIRP 2005 Fall Conference, Arizona State University Archived 2014-02-01 at the Wayback Machine
  8. Witten, Ian H.; Frank, Eibe; Hall, Mark A. (2011). डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
  9. Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है". Journal of Machine Learning Research. 11: 2533–2541. मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।
  10. Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181–193. doi:10.1007/s11628-006-0014-7
  11. Lovell, Michael C. (1983). "डेटा माइनिंग". The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
  12. Charemza, Wojciech W.; Deadman, Derek F. (1992). "Data Mining". अर्थमितीय अभ्यास में नई दिशाएँ. Aldershot: Edward Elgar. pp. 14–31. ISBN 1-85278-461-X.
  13. Mena, Jesús (2011). कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
  14. Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय". Introduction to Data Mining. KD Nuggets. Retrieved 30 August 2012.
  15. Fayyad, Usama (15 June 1999). "प्रधान संपादक द्वारा पहला संपादकीय". SIGKDD Explorations. 13 (1): 102. doi:10.1145/2207243.2207269. S2CID 13314420. Retrieved 27 December 2010.
  16. Coenen, Frans (2011-02-07). "डेटा माइनिंग: अतीत, वर्तमान और भविष्य". The Knowledge Engineering Review (in English). 26 (1): 25–29. doi:10.1017/S0269888910000378. ISSN 0269-8889. S2CID 6487637.
  17. Kantardzic, Mehmed (2003). डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
  18. Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
  19. Lukasz Kurgan and Petr Musilek: "A survey of Knowledge Discovery and Data Mining process models". The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, doi:10.1017/S0269888906000737
  20. Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Archived 2013-01-09 at the Wayback Machine. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  21. Hawkins, Douglas M (2004). "ओवरफिटिंग की समस्या". Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
  22. "Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन". Microsoft Academic Search.
  23. "Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण". Google Scholar.
  24. Proceedings Archived 2010-04-30 at the Wayback Machine, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.
  25. SIGKDD Explorations, ACM, New York.
  26. Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "An extension of the PMML standard to subspace clustering models". प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही. p. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID 14967969.
  27. Seltzer, William (2005). "डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे" (PDF). ASA Section on Government Statistics. American Statistical Association. Archived (PDF) from the original on 2022-10-09.
  28. Pitts, Chip (15 March 2007). "अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो". Washington Spectator. Archived from the original on 2007-11-28.
  29. Taipale, Kim A. (15 December 2003). "डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा". Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782. Archived from the original on 5 November 2014. Retrieved 21 April 2004.
  30. Resig, John. "माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 16 March 2018.
  31. 31.0 31.1 31.2 Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 2008-12-17 at the Wayback Machine, NASCIO Research Brief, September 2004
  32. Ohm, Paul. "बर्बादी का डाटाबेस मत बनाओ". Harvard Business Review.
  33. AOL search data identified individuals, SecurityFocus, August 2006
  34. Kshetri, Nir (2014). "गोपनीयता, सुरक्षा और उपभोक्ता कल्याण पर बिग डेटा का प्रभाव" (PDF). Telecommunications Policy. 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002.
  35. Weiss, Martin A.; Archick, Kristin (19 May 2016). "यू.एस.-ई.यू. डेटा प्राइवेसी: सेफ हार्बर से प्राइवेसी शील्ड तक". Washington, D.C. Congressional Research Service. p. 6. R44257. Archived from the original (PDF) on 9 April 2020. Retrieved 9 April 2020. 6 अक्टूबर, 2015 को, CJEU ... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented.
  36. Parker, George (2018-09-30). "ब्रिटेन की कंपनियां ग्राहकों का शोषण करने के लिए बिग डेटा का इस्तेमाल कर रही हैं". Financial Times. Archived from the original on 2022-12-10. Retrieved 2022-12-04.
  37. Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
  38. UK Researchers Given Data Mining Right Under New UK Copyright Laws. Archived June 9, 2014, at the Wayback Machine Out-Law.com. Retrieved 14 November 2014
  39. "फेडेक्स".
  40. "यूरोप के लिए लाइसेंस - संरचित हितधारक संवाद 2013". European Commission. Retrieved 14 November 2014.
  41. "पाठ और डेटा खनन: इसका महत्व और यूरोप में परिवर्तन की आवश्यकता". Association of European Research Libraries. Archived from the original on 29 November 2014. Retrieved 14 November 2014.
  42. "न्यायाधीश Google पुस्तकें के पक्ष में सारांश निर्णय देता है - एक उचित उपयोग जीत". Lexology.com. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.


अग्रिम पठन


इस पेज में लापता आंतरिक लिंक की सूची

  • आंकड़े
  • डाटा प्रबंधन
  • मूलमंत्र
  • आंकड़ा संग्रहण
  • सूचना प्रक्रम
  • डेटा वेयरहाउस
  • कृत्रिम होशियारी
  • एसोसिएशन नियम खनन
  • भविष्य बतानेवाला विश्लेषक
  • असंगति का पता लगाये
  • विपणनअभियान
  • एनालिटिक्स
  • एक प्राथमिक संभावना
  • जानकारी
  • तंत्रिका - तंत्र
  • एप्लाईड स्टैटस्टिक्स
  • आंकड़ों का बाजार
  • लापता आँकड़े
  • reproducibility
  • प्राप्तकर्ता परिचालन विशेषता
  • अकादमिक जर्नल
  • मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ नॉलेज डिस्कवरी इन डेटाबेस में यूरोपीय सम्मेलन
  • सूचना और ज्ञान प्रबंधन पर सम्मेलन
  • सीआईकेएम सम्मेलन
  • नॉलेज डिस्कवरी और डेटा माइनिंग पर सम्मेलन
  • प्रिडिक्टिव मॉडल मार्कअप लैंग्वेज
  • डेटा माइनिंग के उदाहरण
  • आचार विचार
  • कानून स्थापित करने वाली संस्था
  • कुल समारोह
  • डाटा प्राइवेसी
  • गोपनीयता का उल्लंघन
  • व्यक्तिगत पहचान की जानकारी
  • यूरोपीय संघ का कॉपीराइट कानून
  • हरग्रेव्स समीक्षा
  • कॉपीराइट की सीमाएं और अपवाद
  • Google पुस्तक खोज निपटान समझौता
  • एमओए (व्यापक ऑनलाइन विश्लेषण)
  • ओरेकल डाटा माइनिंग
  • Google क्लाउड प्लेटफ़ॉर्म
  • डेटा वेयरहाउसिंग और माइनिंग का अंतर्राष्ट्रीय जर्नल

बाहरी संबंध