डेटा माइनिंग: Difference between revisions
No edit summary |
No edit summary |
||
| (4 intermediate revisions by 4 users not shown) | |||
| Line 2: | Line 2: | ||
{{redirect|वेब माइनिंग|वेब ब्राउज़र आधारित क्रिप्टोक्यूरेंसी माइनिंग|क्रिप्टोकरेंसी}} | {{redirect|वेब माइनिंग|वेब ब्राउज़र आधारित क्रिप्टोक्यूरेंसी माइनिंग|क्रिप्टोकरेंसी}} | ||
{{Machine learning bar}} | {{Machine learning bar}} | ||
डेटा माइनिंग [[मशीन लर्निंग]], सांख्यिकी और [[डेटाबेस प्रणालियों]] के प्रतिच्छेदन से संबंधित बड़े डेटा सेटों के पैटर्न को निकालने और खोजने की प्रक्रिया है।<ref name="acm" /> डेटा माइनिंग [[कंप्यूटर विज्ञान]] और सांख्यिकी का एक [[अंतःविषय]] उपक्षेत्र है, जिसमें (बुद्धिमान तरीकों के साथ) डेटा सेट से सूचना निकालने और आगे उपयोग के लिए एक सुगम संरचना में बदलने का लक्ष्य रखा गया है<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=डाटा माइनिंग पाठ्यक्रम|publisher=[[Association for Computing Machinery|ACM]] [[SIGKDD]] |date=2006-04-30 |access-date=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा|year=2010 |url=https://www.britannica.com/EBchecked/topic/1056150/data-mining |access-date=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome|author-link3=Jerome H. Friedman|title=सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|access-date=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han|first1=Jaiwei|title=डाटा माइनिंग: अवधारणाएं और तकनीकें|last2=Kamber|first2=Micheline|last3=Pei|first3=Jian|date=2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd|author-link=Jiawei Han}}</ref> डेटा माइनिंग "ज्ञान खोज डेटाबेस में प्रक्रिया का विश्लेषण चरण है, या केडीडी।<ref name="Fayyad" /> रॉ विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, [[सांख्यिकीय मॉडल]] और [[सांख्यिकीय निष्कर्ष]] विचार, दिलचस्प मेट्रिक्स, [[कम्प्यूटेशनल जटिलता सिद्धांत|जटिलता सिद्धांत]] विचार, खोजी गई संरचनाओं का [[पोस्ट-प्रोसेसिंग]], [[डेटा विज़ुअलाइज़ेशन]] और ऑनलाइन अपडेटिंग भी सम्मिलित है।<ref name="acm" /> | डेटा माइनिंग [[मशीन लर्निंग]], सांख्यिकी और [[डेटाबेस प्रणालियों]] के प्रतिच्छेदन से संबंधित बड़े डेटा सेटों के पैटर्न को निकालने और खोजने की प्रक्रिया है।<ref name="acm" /> डेटा माइनिंग [[कंप्यूटर विज्ञान]] और सांख्यिकी का एक [[अंतःविषय]] उपक्षेत्र है, जिसमें(बुद्धिमान तरीकों के साथ) डेटा सेट से सूचना निकालने और आगे उपयोग के लिए एक सुगम संरचना में बदलने का लक्ष्य रखा गया है<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=डाटा माइनिंग पाठ्यक्रम|publisher=[[Association for Computing Machinery|ACM]] [[SIGKDD]] |date=2006-04-30 |access-date=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा|year=2010 |url=https://www.britannica.com/EBchecked/topic/1056150/data-mining |access-date=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome|author-link3=Jerome H. Friedman|title=सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|access-date=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han|first1=Jaiwei|title=डाटा माइनिंग: अवधारणाएं और तकनीकें|last2=Kamber|first2=Micheline|last3=Pei|first3=Jian|date=2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd|author-link=Jiawei Han}}</ref> डेटा माइनिंग "ज्ञान खोज डेटाबेस में प्रक्रिया का विश्लेषण चरण है, या केडीडी।<ref name="Fayyad" /> रॉ विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, [[सांख्यिकीय मॉडल]] और [[सांख्यिकीय निष्कर्ष]] विचार, दिलचस्प मेट्रिक्स, [[कम्प्यूटेशनल जटिलता सिद्धांत|जटिलता सिद्धांत]] विचार, खोजी गई संरचनाओं का [[पोस्ट-प्रोसेसिंग]], [[डेटा विज़ुअलाइज़ेशन]] और ऑनलाइन अपडेटिंग भी सम्मिलित है।<ref name="acm" /> | ||
शब्द डेटा माइनिंग एक [[मिथ्या नाम]] है। क्योंकि लक्ष्य बड़ी मात्रा में डेटा से [[पैटर्न]] और ज्ञान का निष्कर्षण है, न कि डेटा का निष्कर्षण (माइनिंग)<ref name="han-kamber">{{cite book|title=डेटा खनन: अवधारणाएं और तकनीकें|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=[[Morgan Kaufmann]]|isbn=978-1-55860-489-6|page=5|quote=इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है|author-link1=Jiawei Han}}</ref> यह भी एक मुहावरा है<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref> और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण (संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धि सहित कंप्यूटर [[निर्णय समर्थन प्रणाली]] के किसी भी अनुप्रयोग पर लागू होता है। मशीन लर्निंग और [[व्यापारिक सूचना|व्यापारिक]] इंटेलिजेंस। द बुक डेटा माइनिंग प्रायोगिक मशीन लर्निंग टूल्स एंड टेक्निक्स और [[जावा (प्रोग्रामिंग भाषा)]] है<ref name="witten">{{cite book|title=डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|author-link1=Ian H. Witten}}</ref> जिसमें ज्यादातर मशीन लर्निंग सामग्री सम्मिलित होती और मूल रूप से प्रायोगिक मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|author-link7=Ian H. Witten|year=2010|title=WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।}}</ref> अधिकांशता सामान्य शब्द (बड़े पैमाने पर) [[डेटा विश्लेषण]] और या वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं। | शब्द डेटा माइनिंग एक [[मिथ्या नाम]] है। क्योंकि लक्ष्य बड़ी मात्रा में डेटा से [[पैटर्न]] और ज्ञान का निष्कर्षण है, न कि डेटा का निष्कर्षण(माइनिंग)<ref name="han-kamber">{{cite book|title=डेटा खनन: अवधारणाएं और तकनीकें|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=[[Morgan Kaufmann]]|isbn=978-1-55860-489-6|page=5|quote=इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है|author-link1=Jiawei Han}}</ref> यह भी एक मुहावरा है<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref> और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण(संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धि सहित कंप्यूटर [[निर्णय समर्थन प्रणाली]] के किसी भी अनुप्रयोग पर लागू होता है। मशीन लर्निंग और [[व्यापारिक सूचना|व्यापारिक]] इंटेलिजेंस। द बुक डेटा माइनिंग प्रायोगिक मशीन लर्निंग टूल्स एंड टेक्निक्स और [[जावा (प्रोग्रामिंग भाषा)|जावा(प्रोग्रामिंग भाषा)]] है<ref name="witten">{{cite book|title=डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|author-link1=Ian H. Witten}}</ref> जिसमें ज्यादातर मशीन लर्निंग सामग्री सम्मिलित होती और मूल रूप से प्रायोगिक मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|author-link7=Ian H. Witten|year=2010|title=WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।}}</ref> अधिकांशता सामान्य शब्द(बड़े पैमाने पर) [[डेटा विश्लेषण]] और या वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं। | ||
वास्तविक डेटा खनन कार्य डेटा अभिलेखों के समूह (क्लस्टर विश्लेषण), असामान्य रिकॉर्ड (विसंगति पहचान), और निर्भरता (एसोसिएशन नियम खनन, अनुक्रमिक पैटर्न खनन) को निकालने के लिए बड़ी मात्रा में डेटा के अर्ध-स्वचालित या स्वचालित विश्लेषण है। | वास्तविक डेटा खनन कार्य डेटा अभिलेखों के समूह(क्लस्टर विश्लेषण), असामान्य रिकॉर्ड(विसंगति पहचान), और निर्भरता(एसोसिएशन नियम खनन, अनुक्रमिक पैटर्न खनन) को निकालने के लिए बड़ी मात्रा में डेटा के अर्ध-स्वचालित या स्वचालित विश्लेषण है। | ||
.यह आमतौर पर [[स्थानिक सूचकांक]] जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान कर सकता है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जाता है.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।। | .यह आमतौर पर [[स्थानिक सूचकांक]] जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान कर सकता है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जाता है.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।। | ||
डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।<ref>Olson, D. L. (2007). Data mining in business services. ''Service Business'', ''1''(3), 181–193. {{doi|10.1007/s11628-006-0014-7}}</ref> | डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।<ref>Olson, D. L. (2007). Data mining in business services. ''Service Business'', ''1''(3), 181–193. {{doi|10.1007/s11628-006-0014-7}}</ref> | ||
संबंधित शब्द [[डेटा ड्रेजिंग]], डेटा फिशिंग और [[डेटा स्नूपिंग]] एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं (या हो सकते हैं)। पैटर्न की खोज की। चूँकि , इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जाता है। | संबंधित शब्द [[डेटा ड्रेजिंग]], डेटा फिशिंग और [[डेटा स्नूपिंग]] एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं(या हो सकते हैं)। पैटर्न की खोज की। चूँकि , इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जाता है। | ||
== व्युत्पत्ति == | == व्युत्पत्ति == | ||
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में [[आर्थिक अध्ययन की समीक्षा]] में प्रकाशित एक लेख में अर्थशास्त्री [[माइकल लवेल]] द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।<ref>{{Cite journal|last=Lovell|first=Michael C.|date=1983|title=डेटा माइनिंग|journal=The Review of Economics and Statistics|volume=65|issue=1|pages=1–12|doi=10.2307/1924403|jstor=1924403}}</ref><ref>{{cite book |first1=Wojciech W. |last1=Charemza |first2=Derek F. |last2=Deadman |title=अर्थमितीय अभ्यास में नई दिशाएँ|location=Aldershot |publisher=Edward Elgar |year=1992 |chapter=Data Mining |pages=14–31 |isbn=1-85278-461-X }}</ref> लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग (सकारात्मक) से लेकर फिशिंग पकड़ने या स्नूपिंग (नकारात्मक) तक सम्मिलित हैं। | 1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में [[आर्थिक अध्ययन की समीक्षा]] में प्रकाशित एक लेख में अर्थशास्त्री [[माइकल लवेल]] द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।<ref>{{Cite journal|last=Lovell|first=Michael C.|date=1983|title=डेटा माइनिंग|journal=The Review of Economics and Statistics|volume=65|issue=1|pages=1–12|doi=10.2307/1924403|jstor=1924403}}</ref><ref>{{cite book |first1=Wojciech W. |last1=Charemza |first2=Derek F. |last2=Deadman |title=अर्थमितीय अभ्यास में नई दिशाएँ|location=Aldershot |publisher=Edward Elgar |year=1992 |chapter=Data Mining |pages=14–31 |isbn=1-85278-461-X }}</ref> लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग(सकारात्मक) से लेकर फिशिंग पकड़ने या स्नूपिंग(नकारात्मक) तक सम्मिलित हैं। | ||
डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्यता सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक [[सैन डिएगो]]-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;<ref name="Mena">{{cite book |last=Mena |first=Jesús |year=2011 |title=कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक|location=Boca Raton, FL |publisher=CRC Press (Taylor & Francis Group) |isbn=978-1-4398-6069-4 }}</ref> शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, [[ज्ञान निष्कर्षण]] आदि सम्मिलित हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो, (KDD-1989) में यह शब्द कृत्रिम बुद्धिमत्ता और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। चूँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।<ref>{{cite web |last1=Piatetsky-Shapiro |first1=Gregory |author-link1=Gregory Piatetsky-Shapiro |last2=Parker |first2=Gary |url=http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-mining-notes.html |title=पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय|publisher=KD Nuggets |year=2011 |work=Introduction to Data Mining |access-date=30 August 2012 }}</ref> वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है। | डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्यता सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक [[सैन डिएगो]]-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;<ref name="Mena">{{cite book |last=Mena |first=Jesús |year=2011 |title=कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक|location=Boca Raton, FL |publisher=CRC Press (Taylor & Francis Group) |isbn=978-1-4398-6069-4 }}</ref> शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, [[ज्ञान निष्कर्षण]] आदि सम्मिलित हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो,(KDD-1989) में यह शब्द कृत्रिम बुद्धिमत्ता और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। चूँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।<ref>{{cite web |last1=Piatetsky-Shapiro |first1=Gregory |author-link1=Gregory Piatetsky-Shapiro |last2=Parker |first2=Gary |url=http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-mining-notes.html |title=पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय|publisher=KD Nuggets |year=2011 |work=Introduction to Data Mining |access-date=30 August 2012 }}</ref> वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है। | ||
अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब [[AAAI]] प्रायोजन के तहत [[डाटा माइनिंग एंड नॉलेज डिस्कवरी]] ([[KDD-95]]) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और [[रामासामी उथुरुसामी]] ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने [[SIGKDD|एसआईजीकेडीडी]] समाचार पत्र एसआईजीकेडीडी अन्वेषण शुरू किया।<ref name="SIGKDD-explorations">{{cite journal|last1=Fayyad|first1=Usama|author-link=Usama Fayyad|date=15 June 1999|title=प्रधान संपादक द्वारा पहला संपादकीय|url=http://www.kdd.org/explorations/view/june-1999-volume-1-issue-1|journal=SIGKDD Explorations|volume=13|issue=1|pages=102|doi=10.1145/2207243.2207269|access-date=27 December 2010|ref=SIGKDD-explorations|s2cid=13314420}}</ref> KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है। | अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब [[AAAI]] प्रायोजन के तहत [[डाटा माइनिंग एंड नॉलेज डिस्कवरी]]([[KDD-95]]) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और [[रामासामी उथुरुसामी]] ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने [[SIGKDD|एसआईजीकेडीडी]] समाचार पत्र एसआईजीकेडीडी अन्वेषण शुरू किया।<ref name="SIGKDD-explorations">{{cite journal|last1=Fayyad|first1=Usama|author-link=Usama Fayyad|date=15 June 1999|title=प्रधान संपादक द्वारा पहला संपादकीय|url=http://www.kdd.org/explorations/view/june-1999-volume-1-issue-1|journal=SIGKDD Explorations|volume=13|issue=1|pages=102|doi=10.1145/2207243.2207269|access-date=27 December 2010|ref=SIGKDD-explorations|s2cid=13314420}}</ref> KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है। | ||
== पृष्ठभूमि == | == पृष्ठभूमि == | ||
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और [[प्रतिगमन विश्लेषण]] (1800s) सम्मिलित हैं।<ref>{{Cite journal|last=Coenen|first=Frans|date=2011-02-07|title=डेटा माइनिंग: अतीत, वर्तमान और भविष्य|url=https://www.cambridge.org/core/product/identifier/S0269888910000378/type/journal_article|journal=The Knowledge Engineering Review|language=en|volume=26|issue=1|pages=25–29|doi=10.1017/S0269888910000378|s2cid=6487637|issn=0269-8889}}</ref> कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , [[आनुवंशिक एल्गोरिदम|आनुवंशिक]] कलन विधि (1950), [[निर्णय वृक्ष सीखना]] एंड [[निर्णय नियम]] (1960), और सपोर्ट वेक्टर मशीन (1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम|year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref> बड़े डेटा सेट में यह वास्तविक सीखने और खोज कलन विधि को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके [[डेटाबेस प्रबंधन]] के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता (जो सामान्यता गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट। | डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय(1700s) और [[प्रतिगमन विश्लेषण]](1800s) सम्मिलित हैं।<ref>{{Cite journal|last=Coenen|first=Frans|date=2011-02-07|title=डेटा माइनिंग: अतीत, वर्तमान और भविष्य|url=https://www.cambridge.org/core/product/identifier/S0269888910000378/type/journal_article|journal=The Knowledge Engineering Review|language=en|volume=26|issue=1|pages=25–29|doi=10.1017/S0269888910000378|s2cid=6487637|issn=0269-8889}}</ref> कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , [[आनुवंशिक एल्गोरिदम|आनुवंशिक]] कलन विधि(1950), [[निर्णय वृक्ष सीखना]] एंड [[निर्णय नियम]](1960), और सपोर्ट वेक्टर मशीन(1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम|year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref> बड़े डेटा सेट में यह वास्तविक सीखने और खोज कलन विधि को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके [[डेटाबेस प्रबंधन]] के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता(जो सामान्यता गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट। | ||
== प्रक्रिया == | == प्रक्रिया == | ||
डेटाबेस (केडीडी) प्रक्रिया में ज्ञान की खोज को सामान्यता चरणों के साथ परिभाषित किया जाता है: | डेटाबेस(केडीडी) प्रक्रिया में ज्ञान की खोज को सामान्यता चरणों के साथ परिभाषित किया जाता है: | ||
# चयन | # चयन | ||
| Line 32: | Line 32: | ||
# व्याख्या / मूल्यांकन।<ref name="Fayyad" /> | # व्याख्या / मूल्यांकन।<ref name="Fayyad" /> | ||
चूँकि , यह इस विषय पर कई रूपों में मौजूद है, [[डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया]] (CRISP-DM) जो छह चरणों को परिभाषित करता है | चूँकि , यह इस विषय पर कई रूपों में मौजूद है, [[डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया]](CRISP-DM) जो छह चरणों को परिभाषित करता है | ||
#व्यापार की समझ | #व्यापार की समझ | ||
| Line 41: | Line 41: | ||
# सिस्टम परिनियोजन | # सिस्टम परिनियोजन | ||
या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन। | या एक सरलीकृत प्रक्रिया जैसे(1) प्री-प्रोसेसिंग,(2) डेटा माइनिंग, और(3) परिणाम सत्यापन। | ||
2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्य प्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।<ref>[[Gregory Piatetsky-Shapiro]] (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2014) [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक [[SEMMA|सेमा]] था। चूँकि , 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek: [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 "A survey of Knowledge Discovery and Data Mining process models"]. ''The Knowledge Engineering Review''. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, {{doi|10.1017/S0269888906000737}}</ref> और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और सेमा की तुलना की।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. [http://www.iadis.net/dl/final_uploads/200812P033.pdf KDD, SEMMA and CRISP-DM: a parallel overview] {{webarchive|url=https://web.archive.org/web/20130109114939/http://www.iadis.net/dl/final_uploads/200812P033.pdf |date=2013-01-09 }}. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref> | 2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्य प्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।<ref>[[Gregory Piatetsky-Shapiro]] (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2014) [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक [[SEMMA|सेमा]] था। चूँकि , 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek: [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 "A survey of Knowledge Discovery and Data Mining process models"]. ''The Knowledge Engineering Review''. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, {{doi|10.1017/S0269888906000737}}</ref> और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और सेमा की तुलना की।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. [http://www.iadis.net/dl/final_uploads/200812P033.pdf KDD, SEMMA and CRISP-DM: a parallel overview] {{webarchive|url=https://web.archive.org/web/20130109114939/http://www.iadis.net/dl/final_uploads/200812P033.pdf |date=2013-01-09 }}. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref> | ||
| Line 47: | Line 47: | ||
=== प्री-प्रोसेसिंग === | === प्री-प्रोसेसिंग === | ||
डेटा माइनिंग कलन विधि का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर | डेटा माइनिंग कलन विधि का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर माइनिंग करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले [[बहुभिन्नरूपी आँकड़े]] डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई [[सांख्यिकीय शोर]] और लापता डेटा वाले अवलोकनों को हटा देती है। | ||
=== डाटा माइनिंग === | === डाटा माइनिंग === | ||
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित हैं:<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |author-link1=Usama Fayyad |last2=Piatetsky-Shapiro |first2=Gregory|author-link2=Gregory Piatetsky-Shapiro |last3=Smyth |first3=Padhraic |title=डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक|year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-url=https://ghostarchive.org/archive/20221009/http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-date=2022-10-09 |url-status=live |access-date = 17 December 2008 }}</ref> | डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित हैं:<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |author-link1=Usama Fayyad |last2=Piatetsky-Shapiro |first2=Gregory|author-link2=Gregory Piatetsky-Shapiro |last3=Smyth |first3=Padhraic |title=डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक|year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-url=https://ghostarchive.org/archive/20221009/http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-date=2022-10-09 |url-status=live |access-date = 17 December 2008 }}</ref> | ||
* विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है। | * विसंगति का पता लगाना(बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है। | ||
* [[एसोसिएशन नियम सीखना]] (डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है। | * [[एसोसिएशन नियम सीखना]](डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है। | ||
* क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं। | * क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं। | ||
* [[सांख्यिकीय वर्गीकरण]] - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है। | * [[सांख्यिकीय वर्गीकरण]] - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है। | ||
| Line 65: | Line 65: | ||
== अनुसंधान == | == अनुसंधान == | ||
नॉलेज डिस्कवरी एंड डेटा माइनिंग (एसआईजीकेडीडी ) पर [[संगणक तंत्र संस्था]] (एसीएम ) स्पेशल इंटरेस्ट ग्रुप (SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।<ref>{{cite web|url=http://academic.research.microsoft.com/?SearchDomain=2&SubDomain=7&entitytype=2|title=Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन| publisher=[[Microsoft Academic Search]]}}</ref><ref>{{cite web|url=https://scholar.google.de/citations?view_op=top_venues&vq=eng_datamininganalysis|title=Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण|publisher=[[Google Scholar]]}}</ref> 1989 से, इस एसीएम SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,<ref>[http://www.kdd.org/conferences.php Proceedings] {{Webarchive|url=https://web.archive.org/web/20100430120252/http://www.kdd.org/conferences.php |date=2010-04-30 }}, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.</ref> और 1999 से इसने एसआईजीकेडीडी एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।<ref>[http://www.kdd.org/explorations/about.php SIGKDD Explorations], ACM, New York.</ref> | नॉलेज डिस्कवरी एंड डेटा माइनिंग(एसआईजीकेडीडी ) पर [[संगणक तंत्र संस्था]](एसीएम ) स्पेशल इंटरेस्ट ग्रुप(SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।<ref>{{cite web|url=http://academic.research.microsoft.com/?SearchDomain=2&SubDomain=7&entitytype=2|title=Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन| publisher=[[Microsoft Academic Search]]}}</ref><ref>{{cite web|url=https://scholar.google.de/citations?view_op=top_venues&vq=eng_datamininganalysis|title=Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण|publisher=[[Google Scholar]]}}</ref> 1989 से, इस एसीएम SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,<ref>[http://www.kdd.org/conferences.php Proceedings] {{Webarchive|url=https://web.archive.org/web/20100430120252/http://www.kdd.org/conferences.php |date=2010-04-30 }}, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.</ref> और 1999 से इसने एसआईजीकेडीडी एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।<ref>[http://www.kdd.org/explorations/about.php SIGKDD Explorations], ACM, New York.</ref> | ||
डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित हैं: | डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित हैं: | ||
| Line 75: | Line 75: | ||
== मानक == | == मानक == | ||
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन [[डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस|डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड]] प्रक्रिया (CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड (JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया। | डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन [[डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस|डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड]] प्रक्रिया(CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड(JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास(CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया। | ||
निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, [[जावा डाटा माइनिंग]] ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।<ref>{{Cite book | last1 = Günnemann | first1 = Stephan | last2 = Kremer | first2 = Hardy | last3 = Seidl | first3 = Thomas | doi = 10.1145/2023598.2023605 | chapter = An extension of the PMML standard to subspace clustering models | title = प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही| page = 48 | year = 2011 | isbn = 978-1-4503-0837-3 | s2cid = 14967969 }}</ref> | निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज(पीएमएमएल) है, [[जावा डाटा माइनिंग]] ग्रुप(डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार(उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।<ref>{{Cite book | last1 = Günnemann | first1 = Stephan | last2 = Kremer | first2 = Hardy | last3 = Seidl | first3 = Thomas | doi = 10.1145/2023598.2023605 | chapter = An extension of the PMML standard to subspace clustering models | title = प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही| page = 48 | year = 2011 | isbn = 978-1-4503-0837-3 | s2cid = 14967969 }}</ref> | ||
| Line 86: | Line 86: | ||
==गोपनीयता चिंताएं और नैतिकता== | ==गोपनीयता चिंताएं और नैतिकता== | ||
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अधिकांशता उपयोगकर्ता समझौते विश्लेषण (नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।<ref>{{cite journal |author=Seltzer, William |title=डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे|url=https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-date=2022-10-09 |url-status=live|publisher = American Statistical Association|journal = ASA Section on Government Statistics|date = 2005 }}</ref> | जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अधिकांशता उपयोगकर्ता समझौते विश्लेषण(नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।<ref>{{cite journal |author=Seltzer, William |title=डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे|url=https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-date=2022-10-09 |url-status=live|publisher = American Statistical Association|journal = ASA Section on Government Statistics|date = 2005 }}</ref> | ||
जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में [[गोपनीयता]], वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।<ref>{{cite journal |author=Pitts, Chip |title=अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो|url=http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |journal=Washington Spectator |date=15 March 2007 |url-status=dead |archive-url=https://web.archive.org/web/20071128015201/http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |archive-date=2007-11-28 }}</ref> विशेष रूप से, [[राष्ट्रीय सुरक्षा]] या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कि कुल सूचना जागरूकता कार्यक्रम या [[ADVISE]] में, ने गोपनीयता संबंधी चिंताओं को उठाया है।<ref>{{cite journal |author=Taipale, Kim A. |title=डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा|url=http://www.stlr.org/cite.cgi?volume=5&article=2 |journal=Columbia Science and Technology Law Review |volume=5 |issue=2 |date=15 December 2003 |ssrn=546782 |oclc=45263753 |access-date=21 April 2004 |archive-date=5 November 2014 |archive-url=https://web.archive.org/web/20141105035644/http://www.stlr.org/cite.cgi?volume=5&article=2 |url-status=dead }}</ref><ref>{{cite web|last1=Resig|first1=John|title=माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क|url=https://johnresig.com/files/research/SIAMPaper.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://johnresig.com/files/research/SIAMPaper.pdf |archive-date=2022-10-09 |url-status=live|access-date=16 March 2018}}</ref>डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो [[गोपनीयता]] और डेटा गोपनीयता दायित्वों से समझौता करने वाली जानकारी या पैटर्न को उजागर करता है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। [[डेटा एकत्रीकरण]] में डेटा को एक साथ जोड़ना (संभवतः विभिन्न स्रोतों से) एक तरह से होता है जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा की पहचान या अन्यथा स्पष्ट भी हो सकता है)।<ref name="NASCIO">[http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf ''Think Before You Dig: Privacy Implications of Data Mining & Aggregation''] {{webarchive|url=https://web.archive.org/web/20081217063043/http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf |date=2008-12-17 }}, NASCIO Research Brief, September 2004</ref> यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। किसी व्यक्ति की गोपनीयता के लिए खतरा तब सामने आता है जब डेटा, एक बार संकलित हो जाने के बाद, डेटा माइनर, या कोई भी व्यक्ति जिसके पास नए संकलित डेटा सेट तक पहुंच होती है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो जाता है, खासकर जब डेटा मूल रूप से गुमनाम था।<ref>{{cite magazine |first=Paul |last=Ohm |title=बर्बादी का डाटाबेस मत बनाओ|magazine=Harvard Business Review |url=http://blogs.hbr.org/cs/2012/08/dont_build_a_database_of_ruin.html}}</ref> | जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में [[गोपनीयता]], वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।<ref>{{cite journal |author=Pitts, Chip |title=अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो|url=http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |journal=Washington Spectator |date=15 March 2007 |url-status=dead |archive-url=https://web.archive.org/web/20071128015201/http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |archive-date=2007-11-28 }}</ref> विशेष रूप से, [[राष्ट्रीय सुरक्षा]] या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कि कुल सूचना जागरूकता कार्यक्रम या [[ADVISE]] में, ने गोपनीयता संबंधी चिंताओं को उठाया है।<ref>{{cite journal |author=Taipale, Kim A. |title=डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा|url=http://www.stlr.org/cite.cgi?volume=5&article=2 |journal=Columbia Science and Technology Law Review |volume=5 |issue=2 |date=15 December 2003 |ssrn=546782 |oclc=45263753 |access-date=21 April 2004 |archive-date=5 November 2014 |archive-url=https://web.archive.org/web/20141105035644/http://www.stlr.org/cite.cgi?volume=5&article=2 |url-status=dead }}</ref><ref>{{cite web|last1=Resig|first1=John|title=माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क|url=https://johnresig.com/files/research/SIAMPaper.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://johnresig.com/files/research/SIAMPaper.pdf |archive-date=2022-10-09 |url-status=live|access-date=16 March 2018}}</ref>डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो [[गोपनीयता]] और डेटा गोपनीयता दायित्वों से समझौता करने वाली जानकारी या पैटर्न को उजागर करता है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। [[डेटा एकत्रीकरण]] में डेटा को एक साथ जोड़ना(संभवतः विभिन्न स्रोतों से) एक तरह से होता है जो विश्लेषण की सुविधा देता है(लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा की पहचान या अन्यथा स्पष्ट भी हो सकता है)।<ref name="NASCIO">[http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf ''Think Before You Dig: Privacy Implications of Data Mining & Aggregation''] {{webarchive|url=https://web.archive.org/web/20081217063043/http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf |date=2008-12-17 }}, NASCIO Research Brief, September 2004</ref> यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। किसी व्यक्ति की गोपनीयता के लिए खतरा तब सामने आता है जब डेटा, एक बार संकलित हो जाने के बाद, डेटा माइनर, या कोई भी व्यक्ति जिसके पास नए संकलित डेटा सेट तक पहुंच होती है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो जाता है, खासकर जब डेटा मूल रूप से गुमनाम था।<ref>{{cite magazine |first=Paul |last=Ohm |title=बर्बादी का डाटाबेस मत बनाओ|magazine=Harvard Business Review |url=http://blogs.hbr.org/cs/2012/08/dont_build_a_database_of_ruin.html}}</ref> | ||
इसकी सलाह दी जाती है{{according to whom|date=August 2019}} डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना:<ref name="NASCIO" />* डेटा संग्रह और किसी भी (ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य। | इसकी सलाह दी जाती है{{according to whom|date=August 2019}} डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना:<ref name="NASCIO" />* डेटा संग्रह और किसी भी(ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य। | ||
* डेटा का उपयोग कैसे किया जाएगा। | * डेटा का उपयोग कैसे किया जाएगा। | ||
* जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे। | * जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे। | ||
| Line 109: | Line 109: | ||
=== संयुक्त राज्य अमेरिका में स्थिति === | === संयुक्त राज्य अमेरिका में स्थिति === | ||
संयुक्त राज्य अमेरिका में, [[स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम]] (HIPAA) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को संबोधित किया गया है। HIPAA के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के बारे में सूचित सहमति देना आवश्यक है। एएएचसी का कहना है कि बायोटेक बिजनेस वीक में एक लेख के अनुसार, '[i] एन अभ्यास, एचआईपीएए अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों की तुलना में अधिक सुरक्षा प्रदान नहीं कर सकता है।' इससे भी महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा का नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है।<ref>Biotech Business Week Editors (June 30, 2008); ''BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research'', Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic</ref> यह डेटा एकत्रीकरण और खनन प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है। | संयुक्त राज्य अमेरिका में, [[स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम]](HIPAA) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को संबोधित किया गया है। HIPAA के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के बारे में सूचित सहमति देना आवश्यक है। एएएचसी का कहना है कि बायोटेक बिजनेस वीक में एक लेख के अनुसार, '[i] एन अभ्यास, एचआईपीएए अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों की तुलना में अधिक सुरक्षा प्रदान नहीं कर सकता है।' इससे भी महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा का नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है।<ref>Biotech Business Week Editors (June 30, 2008); ''BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research'', Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic</ref> यह डेटा एकत्रीकरण और खनन प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है। | ||
अमेरिकी सूचना गोपनीयता कानून जैसे HIPAA और [[पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम]] (FERPA) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा खनन का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है। | अमेरिकी सूचना गोपनीयता कानून जैसे HIPAA और [[पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम]](FERPA) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा खनन का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है। | ||
== कॉपीराइट कानून == | == कॉपीराइट कानून == | ||
| Line 117: | Line 117: | ||
===यूरोप में स्थिति=== | ===यूरोप में स्थिति=== | ||
यूरोपीय संघ के कॉपीराइट कानून और [[डेटाबेस निर्देश]]ों के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों (जैसे वेब खनन द्वारा) का खनन कानूनी नहीं है। जहां डेटाबेस यूरोप में शुद्ध डेटा है, हो सकता है कि कोई कॉपीराइट न हो- लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा खनन [[बौद्धिक संपदा]] मालिकों के अधिकारों के अधीन हो जाता है जो डेटाबेस डायरेक्टिव द्वारा संरक्षित हैं। हार्ग्रेव्स समीक्षा की सिफारिश पर, इसने ब्रिटेन सरकार को 2014 में अपने कॉपीराइट कानून में संशोधन करने के लिए सामग्री खनन को एक सीमा और कॉपीराइट के अपवाद के रूप में अनुमति देने के लिए प्रेरित किया।<ref>[http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ UK Researchers Given Data Mining Right Under New UK Copyright Laws.] {{webarchive |url=https://web.archive.org/web/20140609020315/http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ |date=June 9, 2014 }} ''Out-Law.com.'' Retrieved 14 November 2014</ref> जापान के बाद ऐसा करने वाला यूके दुनिया का दूसरा देश था, जिसने 2009 में डेटा माइनिंग के लिए एक अपवाद पेश किया था। हालांकि, [[सूचना सोसायटी निर्देश]] (2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री खनन की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। | यूरोपीय संघ के कॉपीराइट कानून और [[डेटाबेस निर्देश]]ों के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों(जैसे वेब खनन द्वारा) का खनन कानूनी नहीं है। जहां डेटाबेस यूरोप में शुद्ध डेटा है, हो सकता है कि कोई कॉपीराइट न हो- लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा खनन [[बौद्धिक संपदा]] मालिकों के अधिकारों के अधीन हो जाता है जो डेटाबेस डायरेक्टिव द्वारा संरक्षित हैं। हार्ग्रेव्स समीक्षा की सिफारिश पर, इसने ब्रिटेन सरकार को 2014 में अपने कॉपीराइट कानून में संशोधन करने के लिए सामग्री खनन को एक सीमा और कॉपीराइट के अपवाद के रूप में अनुमति देने के लिए प्रेरित किया।<ref>[http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ UK Researchers Given Data Mining Right Under New UK Copyright Laws.] {{webarchive |url=https://web.archive.org/web/20140609020315/http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ |date=June 9, 2014 }} ''Out-Law.com.'' Retrieved 14 November 2014</ref> जापान के बाद ऐसा करने वाला यूके दुनिया का दूसरा देश था, जिसने 2009 में डेटा माइनिंग के लिए एक अपवाद पेश किया था। हालांकि, [[सूचना सोसायटी निर्देश]](2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री खनन की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। | ||
2020 से भी स्विट्ज़रलैंड डेटा खनन को कला द्वारा निर्धारित कुछ शर्तों के तहत अनुसंधान क्षेत्र में अनुमति देकर विनियमित कर रहा है। स्विस कॉपीराइट अधिनियम के 24d। यह नया लेख 1 अप्रैल 2020 को लागू हुआ।<ref>{{Cite web|url=https://www.fedlex.admin.ch/eli/cc/1993/1798_1798_1798/en#art_24_d|title=फेडेक्स}}</ref> | 2020 से भी स्विट्ज़रलैंड डेटा खनन को कला द्वारा निर्धारित कुछ शर्तों के तहत अनुसंधान क्षेत्र में अनुमति देकर विनियमित कर रहा है। स्विस कॉपीराइट अधिनियम के 24d। यह नया लेख 1 अप्रैल 2020 को लागू हुआ।<ref>{{Cite web|url=https://www.fedlex.admin.ch/eli/cc/1993/1798_1798_1798/en#art_24_d|title=फेडेक्स}}</ref> | ||
[[यूरोपीय आयोग]] ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की।<ref>{{cite web|title=यूरोप के लिए लाइसेंस - संरचित हितधारक संवाद 2013|url=http://ec.europa.eu/licences-for-europe-dialogue/en/content/about-site|website=European Commission|access-date=14 November 2014}}</ref> इस कानूनी मुद्दे के समाधान पर ध्यान, जैसे कि सीमाओं और अपवादों के अतिरिक्त लाइसेंसिंग, ने मई 2013 में विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और [[खुला एक्सेस|ओपन एक्सेस]] प्रकाशकों के प्रतिनिधियों को हितधारक संवाद छोड़ने के लिए प्रेरित किया।<ref>{{cite web|title=पाठ और डेटा खनन: इसका महत्व और यूरोप में परिवर्तन की आवश्यकता|url=http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|website=Association of European Research Libraries|access-date=14 November 2014|archive-date=29 November 2014|archive-url=https://web.archive.org/web/20141129021244/http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|url-status=dead}}</ref> | [[यूरोपीय आयोग]] ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की।<ref>{{cite web|title=यूरोप के लिए लाइसेंस - संरचित हितधारक संवाद 2013|url=http://ec.europa.eu/licences-for-europe-dialogue/en/content/about-site|website=European Commission|access-date=14 November 2014}}</ref> इस कानूनी मुद्दे के समाधान पर ध्यान, जैसे कि सीमाओं और अपवादों के अतिरिक्त लाइसेंसिंग, ने मई 2013 में विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और [[खुला एक्सेस|ओपन एक्सेस]] प्रकाशकों के प्रतिनिधियों को हितधारक संवाद छोड़ने के लिए प्रेरित किया।<ref>{{cite web|title=पाठ और डेटा खनन: इसका महत्व और यूरोप में परिवर्तन की आवश्यकता|url=http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|website=Association of European Research Libraries|access-date=14 November 2014|archive-date=29 November 2014|archive-url=https://web.archive.org/web/20141129021244/http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|url-status=dead}}</ref> | ||
| Line 135: | Line 135: | ||
* [[Carrot2|केरुट2]]: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क। | * [[Carrot2|केरुट2]]: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क। | ||
* Chemicalize.org: एक रासायनिक संरचना माइनर और वेब सर्च इंजन। | * Chemicalize.org: एक रासायनिक संरचना माइनर और वेब सर्च इंजन। | ||
* [[ELKI|एल्की]]: जावा ([[प्रोग्रामिंग भाषा]]) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना। | * [[ELKI|एल्की]]: जावा([[प्रोग्रामिंग भाषा]]) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना। | ||
* [[टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला]]: एक [[प्राकृतिक भाषा प्रसंस्करण]] और भाषा इंजीनियरिंग उपकरण। | * [[टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला]]: एक [[प्राकृतिक भाषा प्रसंस्करण]] और भाषा इंजीनियरिंग उपकरण। | ||
* के[[KNIME|नीम]]: Konstanz Information Miner, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क। | * के[[KNIME|नीम]]: Konstanz Information Miner, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क। | ||
* एमओए (मैसिव ऑनलाइन एनालिसिस) | मैसिव ऑनलाइन एनालिसिस (एमओए): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग। | * एमओए(मैसिव ऑनलाइन एनालिसिस) | मैसिव ऑनलाइन एनालिसिस(एमओए): जावा(प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग। | ||
* [[बहु अभिव्यक्ति प्रोग्रामिंग]]: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल। | * [[बहु अभिव्यक्ति प्रोग्रामिंग]]: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल। | ||
* [[mlpack|एमएलपैक]]: [[C++]] भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग कलन विधि का संग्रह। | * [[mlpack|एमएलपैक]]: [[C++]] भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग कलन विधि का संग्रह। | ||
* [[एनएलटीके]] ([[प्राकृतिक भाषा टूलकिट]]): [[पायथन (प्रोग्रामिंग भाषा)]] भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट। | * [[एनएलटीके]]([[प्राकृतिक भाषा टूलकिट]]): [[पायथन (प्रोग्रामिंग भाषा)|पायथन(प्रोग्रामिंग भाषा)]] भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण(एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट। | ||
* ओपन : ओपन न्यूरल नेटवर्क लाइब्रेरी। | * ओपन : ओपन न्यूरल नेटवर्क लाइब्रेरी। | ||
* ऑरेंज (सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन (प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है। | * ऑरेंज(सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन(प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है। | ||
*[[PSPP]]: [[SPSS]] के समान [[जीएनयू परियोजना]] के तहत डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर | *[[PSPP]]: [[SPSS]] के समान [[जीएनयू परियोजना]] के तहत डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर | ||
* आ[[आर (प्रोग्रामिंग भाषा)]]: सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज [[नारंगी (सॉफ्टवेयर)]] वातावरण। यह GNU प्रोजेक्ट का हिस्सा है। | * आ[[आर (प्रोग्रामिंग भाषा)|आर(प्रोग्रामिंग भाषा)]]: सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज [[नारंगी (सॉफ्टवेयर)|नारंगी(सॉफ्टवेयर)]] वातावरण। यह GNU प्रोजेक्ट का हिस्सा है। | ||
* [[Scikit-सीखें]]: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी | * [[Scikit-सीखें]]: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी | ||
* टॉर्च (मशीन लर्निंग): एक [[ओपन सोर्स मॉडल]] | [[लुआ (प्रोग्रामिंग भाषा)]] प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग कलन विधि के लिए व्यापक समर्थन के साथ [[वैज्ञानिक कंप्यूटिंग]] फ्रेमवर्क के लिए ओपन-सोर्स [[ध्यान लगा के पढ़ना या सीखना]] लाइब्रेरी। | * टॉर्च(मशीन लर्निंग): एक [[ओपन सोर्स मॉडल]] | [[लुआ (प्रोग्रामिंग भाषा)|लुआ(प्रोग्रामिंग भाषा)]] प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग कलन विधि के लिए व्यापक समर्थन के साथ [[वैज्ञानिक कंप्यूटिंग]] फ्रेमवर्क के लिए ओपन-सोर्स [[ध्यान लगा के पढ़ना या सीखना]] लाइब्रेरी। | ||
* यूआईएमए: यूआईएमए (अनस्ट्रक्चर्ड इंफॉर्मेशन मैनेजमेंट आर्किटेक्चर) मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है। | * यूआईएमए: यूआईएमए(अनस्ट्रक्चर्ड इंफॉर्मेशन मैनेजमेंट आर्किटेक्चर) मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है। | ||
* वीका (मशीन लर्निंग): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर एप्लिकेशन का एक सूट। | * वीका(मशीन लर्निंग): जावा(प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर एप्लिकेशन का एक सूट। | ||
=== मालिकाना डेटा-खनन सॉफ्टवेयर और अनुप्रयोग === | === मालिकाना डेटा-खनन सॉफ्टवेयर और अनुप्रयोग === | ||
| Line 155: | Line 155: | ||
* [[एंगॉस]] नॉलेजस्टूडियो: डेटा माइनिंग टूल | * [[एंगॉस]] नॉलेजस्टूडियो: डेटा माइनिंग टूल | ||
* [[LIONsolver]]: डेटा माइनिंग, बिजनेस इंटेलिजेंस और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर एप्लिकेशन जो लर्निंग एंड इंटेलिजेंट ऑप्टिमाइजेशन (LION) दृष्टिकोण को लागू करता है। | * [[LIONsolver]]: डेटा माइनिंग, बिजनेस इंटेलिजेंस और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर एप्लिकेशन जो लर्निंग एंड इंटेलिजेंट ऑप्टिमाइजेशन(LION) दृष्टिकोण को लागू करता है। | ||
* [[बहुविश्लेषक]]: मेगाप्यूटर इंटेलिजेंस द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर। | * [[बहुविश्लेषक]]: मेगाप्यूटर इंटेलिजेंस द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर। | ||
* [[[[Microsoft]] विश्लेषण सेवाएँ]]: Microsoft द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर। | * [[[[Microsoft]] विश्लेषण सेवाएँ]]: Microsoft द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर। | ||
| Line 163: | Line 163: | ||
* [[क्लोकोर]] ओमिक्स एक्सप्लोरर: डेटा माइनिंग सॉफ्टवेयर। | * [[क्लोकोर]] ओमिक्स एक्सप्लोरर: डेटा माइनिंग सॉफ्टवेयर। | ||
* [[रैपिडमाइनर]]: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण। <!-- Latest version is NOT opensource --> | * [[रैपिडमाइनर]]: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण। <!-- Latest version is NOT opensource --> | ||
* एसएएस (सॉफ्टवेयर) # घटक: [[एसएएस संस्थान]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर। | * एसएएस(सॉफ्टवेयर) # घटक: [[एसएएस संस्थान]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर। | ||
* [[एसपीएसएस मॉडलर]]: [[आईबीएम]] द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर। | * [[एसपीएसएस मॉडलर]]: [[आईबीएम]] द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर। | ||
* [[आंकड़े]] डेटा माइनर: [[स्टेटसॉफ्ट]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर। | * [[आंकड़े]] डेटा माइनर: [[स्टेटसॉफ्ट]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर। | ||
* तनाग्रा (मशीन लर्निंग): विज़ुअलाइज़ेशन-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी। | * तनाग्रा(मशीन लर्निंग): विज़ुअलाइज़ेशन-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी। | ||
* वर्टिका: [[हेवलेट पैकर्ड]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर। | * वर्टिका: [[हेवलेट पैकर्ड]] द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर। | ||
* [[Google]] क्लाउड प्लेटफ़ॉर्म: Google द्वारा प्रबंधित स्वचालित कस्टम ML मॉडल। | * [[Google]] क्लाउड प्लेटफ़ॉर्म: Google द्वारा प्रबंधित स्वचालित कस्टम ML मॉडल। | ||
| Line 225: | Line 225: | ||
; संबंधित विषय | ; संबंधित विषय | ||
डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए (डेटा का विश्लेषण करने के विपरीत), देखें: | डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए(डेटा का विश्लेषण करने के विपरीत), देखें: | ||
{{columns-list|colwidth=22em| | {{columns-list|colwidth=22em| | ||
* [[Data integration]] | * [[Data integration]] | ||
| Line 266: | Line 266: | ||
==बाहरी संबंध== | ==बाहरी संबंध== | ||
{{Commons category|Data mining}} | {{Commons category|Data mining}} | ||
| Line 321: | Line 277: | ||
{{Authority control}} | {{Authority control}} | ||
{{DEFAULTSORT:Data Mining}} | {{DEFAULTSORT:Data Mining}} | ||
[[Category: | [[Category:All articles with specifically marked weasel-worded phrases|Data Mining]] | ||
[[Category:Created On 14/12/2022]] | [[Category:Articles with Curlie links|Data Mining]] | ||
[[Category:Articles with hatnote templates targeting a nonexistent page|Data Mining]] | |||
[[Category:Articles with invalid date parameter in template|Data Mining]] | |||
[[Category:Articles with short description|Data Mining]] | |||
[[Category:Articles with specifically marked weasel-worded phrases from August 2019|Data Mining]] | |||
[[Category:CS1 English-language sources (en)]] | |||
[[Category:CS1 français-language sources (fr)]] | |||
[[Category:CS1 maint]] | |||
[[Category:CS1 Ελληνικά-language sources (el)]] | |||
[[Category:Citation Style 1 templates|W]] | |||
[[Category:Collapse templates|Data Mining]] | |||
[[Category:Created On 14/12/2022|Data Mining]] | |||
[[Category:Exclude in print|Data Mining]] | |||
[[Category:Interwiki category linking templates|Data Mining]] | |||
[[Category:Interwiki link templates|Data Mining]] | |||
[[Category:Lua-based templates|Data Mining]] | |||
[[Category:Machine Translated Page|Data Mining]] | |||
[[Category:Missing redirects|Data Mining]] | |||
[[Category:Multi-column templates|Data Mining]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists|Data Mining]] | |||
[[Category:Pages using div col with small parameter|Data Mining]] | |||
[[Category:Pages with script errors|Data Mining]] | |||
[[Category:Short description with empty Wikidata description|Data Mining]] | |||
[[Category:Sidebars with styles needing conversion|Data Mining]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready|Data Mining]] | |||
[[Category:Templates based on the Citation/CS1 Lua module]] | |||
[[Category:Templates generating COinS|Cite web]] | |||
[[Category:Templates generating microformats|Data Mining]] | |||
[[Category:Templates that add a tracking category|Data Mining]] | |||
[[Category:Templates that are not mobile friendly|Data Mining]] | |||
[[Category:Templates used by AutoWikiBrowser|Cite web]] | |||
[[Category:Templates using TemplateData|Data Mining]] | |||
[[Category:Templates using under-protected Lua modules|Data Mining]] | |||
[[Category:Webarchive template wayback links]] | |||
[[Category:Wikimedia Commons templates|Data Mining]] | |||
[[Category:Wikipedia fully protected templates|Div col]] | |||
[[Category:Wikipedia metatemplates|Data Mining]] | |||
[[Category:औपचारिक विज्ञान|Data Mining]] | |||
[[Category:डाटा माइनिंग| ]] | |||
Latest revision as of 14:02, 15 December 2022
| Part of a series on |
| Machine learning and data mining |
|---|
| Scatterplot featuring a linear support vector machine's decision boundary (dashed line) |
डेटा माइनिंग मशीन लर्निंग, सांख्यिकी और डेटाबेस प्रणालियों के प्रतिच्छेदन से संबंधित बड़े डेटा सेटों के पैटर्न को निकालने और खोजने की प्रक्रिया है।[1] डेटा माइनिंग कंप्यूटर विज्ञान और सांख्यिकी का एक अंतःविषय उपक्षेत्र है, जिसमें(बुद्धिमान तरीकों के साथ) डेटा सेट से सूचना निकालने और आगे उपयोग के लिए एक सुगम संरचना में बदलने का लक्ष्य रखा गया है[1][2][3][4] डेटा माइनिंग "ज्ञान खोज डेटाबेस में प्रक्रिया का विश्लेषण चरण है, या केडीडी।[5] रॉ विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, सांख्यिकीय मॉडल और सांख्यिकीय निष्कर्ष विचार, दिलचस्प मेट्रिक्स, जटिलता सिद्धांत विचार, खोजी गई संरचनाओं का पोस्ट-प्रोसेसिंग, डेटा विज़ुअलाइज़ेशन और ऑनलाइन अपडेटिंग भी सम्मिलित है।[1]
शब्द डेटा माइनिंग एक मिथ्या नाम है। क्योंकि लक्ष्य बड़ी मात्रा में डेटा से पैटर्न और ज्ञान का निष्कर्षण है, न कि डेटा का निष्कर्षण(माइनिंग)[6] यह भी एक मुहावरा है[7] और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण(संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धि सहित कंप्यूटर निर्णय समर्थन प्रणाली के किसी भी अनुप्रयोग पर लागू होता है। मशीन लर्निंग और व्यापारिक इंटेलिजेंस। द बुक डेटा माइनिंग प्रायोगिक मशीन लर्निंग टूल्स एंड टेक्निक्स और जावा(प्रोग्रामिंग भाषा) है[8] जिसमें ज्यादातर मशीन लर्निंग सामग्री सम्मिलित होती और मूल रूप से प्रायोगिक मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।[9] अधिकांशता सामान्य शब्द(बड़े पैमाने पर) डेटा विश्लेषण और या वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।
वास्तविक डेटा खनन कार्य डेटा अभिलेखों के समूह(क्लस्टर विश्लेषण), असामान्य रिकॉर्ड(विसंगति पहचान), और निर्भरता(एसोसिएशन नियम खनन, अनुक्रमिक पैटर्न खनन) को निकालने के लिए बड़ी मात्रा में डेटा के अर्ध-स्वचालित या स्वचालित विश्लेषण है।
.यह आमतौर पर स्थानिक सूचकांक जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान कर सकता है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जाता है.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।।
डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।[10] संबंधित शब्द डेटा ड्रेजिंग, डेटा फिशिंग और डेटा स्नूपिंग एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं(या हो सकते हैं)। पैटर्न की खोज की। चूँकि , इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जाता है।
व्युत्पत्ति
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में आर्थिक अध्ययन की समीक्षा में प्रकाशित एक लेख में अर्थशास्त्री माइकल लवेल द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।[11][12] लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग(सकारात्मक) से लेकर फिशिंग पकड़ने या स्नूपिंग(नकारात्मक) तक सम्मिलित हैं।
डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्यता सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक सैन डिएगो-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;[13] शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, ज्ञान निष्कर्षण आदि सम्मिलित हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो,(KDD-1989) में यह शब्द कृत्रिम बुद्धिमत्ता और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। चूँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।[14] वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।
अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब AAAI प्रायोजन के तहत डाटा माइनिंग एंड नॉलेज डिस्कवरी(KDD-95) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और रामासामी उथुरुसामी ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने एसआईजीकेडीडी समाचार पत्र एसआईजीकेडीडी अन्वेषण शुरू किया।[15] KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।
पृष्ठभूमि
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय(1700s) और प्रतिगमन विश्लेषण(1800s) सम्मिलित हैं।[16] कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , आनुवंशिक कलन विधि(1950), निर्णय वृक्ष सीखना एंड निर्णय नियम(1960), और सपोर्ट वेक्टर मशीन(1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।[17] बड़े डेटा सेट में यह वास्तविक सीखने और खोज कलन विधि को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके डेटाबेस प्रबंधन के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता(जो सामान्यता गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।
प्रक्रिया
डेटाबेस(केडीडी) प्रक्रिया में ज्ञान की खोज को सामान्यता चरणों के साथ परिभाषित किया जाता है:
- चयन
- प्री-प्रोसेसिंग
- परिवर्तन
- डेटा माइनिंग
- व्याख्या / मूल्यांकन।[5]
चूँकि , यह इस विषय पर कई रूपों में मौजूद है, डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया(CRISP-DM) जो छह चरणों को परिभाषित करता है
- व्यापार की समझ
- डेटा समझ
- डेटा तैयारी
- मॉडलिंग
- मूल्यांकन
- सिस्टम परिनियोजन
या एक सरलीकृत प्रक्रिया जैसे(1) प्री-प्रोसेसिंग,(2) डेटा माइनिंग, और(3) परिणाम सत्यापन।
2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्य प्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।[18] इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक सेमा था। चूँकि , 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है,[19] और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और सेमा की तुलना की।[20]
प्री-प्रोसेसिंग
डेटा माइनिंग कलन विधि का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर माइनिंग करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले बहुभिन्नरूपी आँकड़े डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई सांख्यिकीय शोर और लापता डेटा वाले अवलोकनों को हटा देती है।
डाटा माइनिंग
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित हैं:[5]
- विसंगति का पता लगाना(बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
- एसोसिएशन नियम सीखना(डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
- क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
- सांख्यिकीय वर्गीकरण - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
- प्रतिगमन विश्लेषण - एक फ़ंक्शन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
- स्वचालित सारांश - विज़ुअलाइज़ेशन और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।
परिणाम सत्यापन
डेटा माइनिंग का अनायास ही दुरुपयोग किया जा सकता है, ऐसे परिणाम उत्पन्न होते हैं जो महत्वपूर्ण प्रतीत होते हैं लेकिन जो वास्तव में भविष्य के समझौते की भविष्यवाणी नहीं करते हैं और डेटा के एक नए नमूने पर पुनरुत्पादन नहीं हो सकते हैं, इसलिए इसका बहुत कम उपयोग होता है। यह कभी-कभी बहुत अधिक परिकल्पनाओं की जांच करने और उचित सांख्यिकीय परिकल्पना परीक्षण नहीं करने के कारण होता है। मशीन लर्निंग में इस समस्या का एक सरल संस्करण ओवेरफिट्टिंग के रूप में जाना जाता है, लेकिन प्रक्रिया के विभिन्न चरणों में एक ही समस्या उत्पन्न हो सकती है और इस प्रकार एक ट्रेन/टेस्ट स्प्लिट- जब भी लागू हो- इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।[21]
डेटा से ज्ञान की खोज का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग कलन विधि द्वारा निर्मित पैटर्न व्यापक डेटा सेट में होते हैं। कलन विधि द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग कलन विधि के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग एल्गोरिथम प्रशिक्षित नहीं था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामी आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, स्पैम को वैध ई-मेल से अलग करने की कोशिश करने वाले डेटा माइनिंग कलन विधि को नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। कलन विधि का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।
यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा खनन चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।
अनुसंधान
नॉलेज डिस्कवरी एंड डेटा माइनिंग(एसआईजीकेडीडी ) पर संगणक तंत्र संस्था(एसीएम ) स्पेशल इंटरेस्ट ग्रुप(SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।[22][23] 1989 से, इस एसीएम SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,[24] और 1999 से इसने एसआईजीकेडीडी एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।[25] डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित हैं:
- सीआईकेएम सम्मेलन - सूचना और ज्ञान प्रबंधन पर एसीएम सम्मेलन
- मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
- केडीडी सम्मेलन - ज्ञान खोज और डेटा खनन पर एसीएम एसआईजीकेडीडी सम्मेलन
कंप्यूटर विज्ञान सम्मेलनों की कई सूची #डेटा प्रबंधन|डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे ICDE सम्मेलन, सिग्मॉड और बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन में डेटा माइनिंग विषय भी मौजूद हैं।
मानक
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रक्रिया(CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड(JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास(CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।
निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज(पीएमएमएल) है, जावा डाटा माइनिंग ग्रुप(डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार(उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।[26]
उल्लेखनीय उपयोग
आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।
गोपनीयता चिंताएं और नैतिकता
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अधिकांशता उपयोगकर्ता समझौते विश्लेषण(नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।[27] जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में गोपनीयता, वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।[28] विशेष रूप से, राष्ट्रीय सुरक्षा या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कि कुल सूचना जागरूकता कार्यक्रम या ADVISE में, ने गोपनीयता संबंधी चिंताओं को उठाया है।[29][30]डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो गोपनीयता और डेटा गोपनीयता दायित्वों से समझौता करने वाली जानकारी या पैटर्न को उजागर करता है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। डेटा एकत्रीकरण में डेटा को एक साथ जोड़ना(संभवतः विभिन्न स्रोतों से) एक तरह से होता है जो विश्लेषण की सुविधा देता है(लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा की पहचान या अन्यथा स्पष्ट भी हो सकता है)।[31] यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। किसी व्यक्ति की गोपनीयता के लिए खतरा तब सामने आता है जब डेटा, एक बार संकलित हो जाने के बाद, डेटा माइनर, या कोई भी व्यक्ति जिसके पास नए संकलित डेटा सेट तक पहुंच होती है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो जाता है, खासकर जब डेटा मूल रूप से गुमनाम था।[32] इसकी सलाह दी जाती है[according to whom?] डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना:[31]* डेटा संग्रह और किसी भी(ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य।
- डेटा का उपयोग कैसे किया जाएगा।
- जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे।
- डेटा तक पहुंच के आसपास सुरक्षा की स्थिति।
- एकत्रित डेटा को कैसे अपडेट किया जा सकता है।
डेटा को गुमनाम बनाने के लिए संशोधित भी किया जा सकता है, ताकि व्यक्तियों की आसानी से पहचान न हो सके।[31]हालांकि, यहां तक कि डेटा गुमनामी डेटा सेट में संभावित रूप से व्यक्तियों की पहचान की अनुमति देने के लिए पर्याप्त जानकारी हो सकती है, जैसा कि तब हुआ जब पत्रकार खोज इतिहास के एक सेट के आधार पर कई व्यक्तियों को खोजने में सक्षम थे जो अनजाने में एओएल द्वारा जारी किए गए थे।[33] प्रदाता के लिए अग्रणी व्यक्तिगत रूप से पहचान योग्य जानकारी का अनजाने प्रकटीकरण उचित सूचना प्रथाओं का उल्लंघन करता है। यह अविवेक वित्तीय कारण बन सकता है, संकेतित व्यक्ति को भावनात्मक, या शारीरिक नुकसान। निजता के उल्लंघन के एक उदाहरण में, Walgreens के संरक्षकों ने 2011 में कंपनी के खिलाफ बेचने के लिए मुकदमा दायर किया डेटा माइनिंग कंपनियों को प्रिस्क्रिप्शन जानकारी जो बदले में डेटा प्रदान करती हैं दवा कंपनियों को।[34]
यूरोप में स्थिति
यूरोपीय संघ में काफी मजबूत गोपनीयता कानून हैं, और उपभोक्ताओं के अधिकारों को और मजबूत करने के प्रयास चल रहे हैं। हालांकि, इंटरनेशनल सेफ हार्बर प्राइवेसी प्रिंसिपल्स|यू.एस.-ई.यू. 1998 और 2000 के बीच विकसित सेफ हार्बर सिद्धांत, वर्तमान में अमेरिकी कंपनियों द्वारा यूरोपीय उपयोगकर्ताओं को गोपनीयता के शोषण के लिए प्रभावी रूप से उजागर करते हैं। एड्वर्ड स्नोडेन के वैश्विक निगरानी प्रकटीकरण के परिणामस्वरूप, इस समझौते को रद्द करने की चर्चा बढ़ गई है, क्योंकि विशेष रूप से डेटा पूरी तरह से राष्ट्रीय सुरक्षा एजेंसी के सामने आ जाएगा, और संयुक्त राज्य अमेरिका के साथ एक समझौते तक पहुंचने के प्रयास विफल हो गए हैं।[35] विशेष रूप से यूनाइटेड किंगडम में ऐसे मामले सामने आए हैं जब निगमों ने डेटा माइनिंग का उपयोग ग्राहकों के कुछ समूहों को लक्षित करने के लिए किया, जिससे उन्हें अनुचित रूप से उच्च कीमतों का भुगतान करने के लिए मजबूर होना पड़ा। ये समूह निम्न सामाजिक-आर्थिक स्थिति के लोग होते हैं जो डिजिटल मार्केट स्थानों में उनका शोषण करने के तरीकों से परिचित नहीं होते हैं।[36]
संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका में, स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम(HIPAA) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को संबोधित किया गया है। HIPAA के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के बारे में सूचित सहमति देना आवश्यक है। एएएचसी का कहना है कि बायोटेक बिजनेस वीक में एक लेख के अनुसार, '[i] एन अभ्यास, एचआईपीएए अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों की तुलना में अधिक सुरक्षा प्रदान नहीं कर सकता है।' इससे भी महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा का नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है।[37] यह डेटा एकत्रीकरण और खनन प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है।
अमेरिकी सूचना गोपनीयता कानून जैसे HIPAA और पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम(FERPA) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा खनन का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है।
कॉपीराइट कानून
यूरोप में स्थिति
यूरोपीय संघ के कॉपीराइट कानून और डेटाबेस निर्देशों के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों(जैसे वेब खनन द्वारा) का खनन कानूनी नहीं है। जहां डेटाबेस यूरोप में शुद्ध डेटा है, हो सकता है कि कोई कॉपीराइट न हो- लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा खनन बौद्धिक संपदा मालिकों के अधिकारों के अधीन हो जाता है जो डेटाबेस डायरेक्टिव द्वारा संरक्षित हैं। हार्ग्रेव्स समीक्षा की सिफारिश पर, इसने ब्रिटेन सरकार को 2014 में अपने कॉपीराइट कानून में संशोधन करने के लिए सामग्री खनन को एक सीमा और कॉपीराइट के अपवाद के रूप में अनुमति देने के लिए प्रेरित किया।[38] जापान के बाद ऐसा करने वाला यूके दुनिया का दूसरा देश था, जिसने 2009 में डेटा माइनिंग के लिए एक अपवाद पेश किया था। हालांकि, सूचना सोसायटी निर्देश(2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री खनन की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। 2020 से भी स्विट्ज़रलैंड डेटा खनन को कला द्वारा निर्धारित कुछ शर्तों के तहत अनुसंधान क्षेत्र में अनुमति देकर विनियमित कर रहा है। स्विस कॉपीराइट अधिनियम के 24d। यह नया लेख 1 अप्रैल 2020 को लागू हुआ।[39] यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की।[40] इस कानूनी मुद्दे के समाधान पर ध्यान, जैसे कि सीमाओं और अपवादों के अतिरिक्त लाइसेंसिंग, ने मई 2013 में विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और ओपन एक्सेस प्रकाशकों के प्रतिनिधियों को हितधारक संवाद छोड़ने के लिए प्रेरित किया।[41]
संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका का कॉपीराइट कानून, और विशेष रूप से उचित उपयोग के लिए इसका प्रावधान, अमेरिका और अन्य उचित उपयोग वाले देशों जैसे इज़राइल, ताइवान और दक्षिण कोरिया में सामग्री खनन की वैधता को कायम रखता है। जैसा कि सामग्री खनन परिवर्तनकारी है, अर्थात यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के तहत वैध माना जाता है। उदाहरण के लिए, गूगल पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने निर्णय दिया कि कॉपीराइट पुस्तकों की Google की डिजिटाइज़ेशन परियोजना वैध थी, आंशिक रूप से परिवर्तनकारी उपयोगों के कारण जो डिजिटाइज़ेशन प्रोजेक्ट प्रदर्शित करता है—एक टेक्स्ट और डेटा माइनिंग है .[42]
सॉफ्टवेयर
मुफ्त ओपनएनएन-सोर्स डेटा माइनिंग सॉफ्टवेयर और एप्लिकेशन
नि:शुल्क/ओपन-सोर्स लाइसेंस के तहत निम्नलिखित एप्लिकेशन उपलब्ध हैं। एप्लिकेशन स्रोत कोड तक सार्वजनिक पहुंच भी उपलब्ध है।
- केरुट2: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क।
- Chemicalize.org: एक रासायनिक संरचना माइनर और वेब सर्च इंजन।
- एल्की: जावा(प्रोग्रामिंग भाषा) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना।
- टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला: एक प्राकृतिक भाषा प्रसंस्करण और भाषा इंजीनियरिंग उपकरण।
- केनीम: Konstanz Information Miner, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
- एमओए(मैसिव ऑनलाइन एनालिसिस) | मैसिव ऑनलाइन एनालिसिस(एमओए): जावा(प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग।
- बहु अभिव्यक्ति प्रोग्रामिंग: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल।
- एमएलपैक: C++ भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग कलन विधि का संग्रह।
- एनएलटीके(प्राकृतिक भाषा टूलकिट): पायथन(प्रोग्रामिंग भाषा) भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण(एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट।
- ओपन : ओपन न्यूरल नेटवर्क लाइब्रेरी।
- ऑरेंज(सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन(प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है।
- PSPP: SPSS के समान जीएनयू परियोजना के तहत डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर
- आआर(प्रोग्रामिंग भाषा): सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज नारंगी(सॉफ्टवेयर) वातावरण। यह GNU प्रोजेक्ट का हिस्सा है।
- Scikit-सीखें: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी
- टॉर्च(मशीन लर्निंग): एक ओपन सोर्स मॉडल | लुआ(प्रोग्रामिंग भाषा) प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग कलन विधि के लिए व्यापक समर्थन के साथ वैज्ञानिक कंप्यूटिंग फ्रेमवर्क के लिए ओपन-सोर्स ध्यान लगा के पढ़ना या सीखना लाइब्रेरी।
- यूआईएमए: यूआईएमए(अनस्ट्रक्चर्ड इंफॉर्मेशन मैनेजमेंट आर्किटेक्चर) मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है।
- वीका(मशीन लर्निंग): जावा(प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर एप्लिकेशन का एक सूट।
मालिकाना डेटा-खनन सॉफ्टवेयर और अनुप्रयोग
निम्नलिखित एप्लिकेशन मालिकाना लाइसेंस के तहत उपलब्ध हैं।
- एंगॉस नॉलेजस्टूडियो: डेटा माइनिंग टूल
- LIONsolver: डेटा माइनिंग, बिजनेस इंटेलिजेंस और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर एप्लिकेशन जो लर्निंग एंड इंटेलिजेंट ऑप्टिमाइजेशन(LION) दृष्टिकोण को लागू करता है।
- बहुविश्लेषक: मेगाप्यूटर इंटेलिजेंस द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर।
- [[Microsoft विश्लेषण सेवाएँ]]: Microsoft द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर।
- NetOwl: बहुभाषी टेक्स्ट और एंटिटी एनालिटिक्स उत्पादों का सूट जो डेटा माइनिंग को सक्षम बनाता है।
- Oracle डेटा माइनिंग: Oracle Corporation द्वारा डेटा माइनिंग सॉफ़्टवेयर।
- PSeven: DATADVANCE द्वारा प्रदान किया गया इंजीनियरिंग सिमुलेशन और विश्लेषण, बहु-विषयक अनुकूलन और डेटा खनन के स्वचालन के लिए मंच।
- क्लोकोर ओमिक्स एक्सप्लोरर: डेटा माइनिंग सॉफ्टवेयर।
- रैपिडमाइनर: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण।
- एसएएस(सॉफ्टवेयर) # घटक: एसएएस संस्थान द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
- एसपीएसएस मॉडलर: आईबीएम द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर।
- आंकड़े डेटा माइनर: स्टेटसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
- तनाग्रा(मशीन लर्निंग): विज़ुअलाइज़ेशन-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी।
- वर्टिका: हेवलेट पैकर्ड द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
- Google क्लाउड प्लेटफ़ॉर्म: Google द्वारा प्रबंधित स्वचालित कस्टम ML मॉडल।
- Amazon SageMaker: कस्टम ML मॉडल बनाने और उत्पादन करने के लिए Amazon.com द्वारा प्रदान की जाने वाली प्रबंधित सेवा।
यह भी देखें
- तरीकों
- Agent mining
- Anomaly/outlier/change detection
- Association rule learning
- Bayesian networks
- Classification
- Cluster analysis
- Decision trees
- Ensemble learning
- Factor analysis
- Genetic algorithms
- Intention mining
- Learning classifier system
- Multilinear subspace learning
- Neural networks
- Regression analysis
- Sequence mining
- Structured data analysis
- Support vector machines
- Text mining
- Time series analysis
- एप्लिकेशन डोमेन
- आवेदन के उदाहरण
- संबंधित विषय
डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए(डेटा का विश्लेषण करने के विपरीत), देखें:
- अन्य संसाधन
- डेटा वेयरहाउसिंग और खनन का अंतर्राष्ट्रीय जर्नल
संदर्भ
- ↑ 1.0 1.1 1.2 "डाटा माइनिंग पाठ्यक्रम". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27.
- ↑ Clifton, Christopher (2010). "एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा". Retrieved 2010-12-09.
- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी". Archived from the original on 2009-11-10. Retrieved 2012-08-07.
- ↑ Han, Jaiwei; Kamber, Micheline; Pei, Jian (2011). डाटा माइनिंग: अवधारणाएं और तकनीकें (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
- ↑ 5.0 5.1 5.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 17 December 2008.
- ↑ Han, Jiawei; Kamber, Micheline (2001). डेटा खनन: अवधारणाएं और तकनीकें. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6.
इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है
- ↑ OKAIRP 2005 Fall Conference, Arizona State University Archived 2014-02-01 at the Wayback Machine
- ↑ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (2011). डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
- ↑ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है". Journal of Machine Learning Research. 11: 2533–2541.
मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।
- ↑ Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181–193. doi:10.1007/s11628-006-0014-7
- ↑ Lovell, Michael C. (1983). "डेटा माइनिंग". The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
- ↑ Charemza, Wojciech W.; Deadman, Derek F. (1992). "Data Mining". अर्थमितीय अभ्यास में नई दिशाएँ. Aldershot: Edward Elgar. pp. 14–31. ISBN 1-85278-461-X.
- ↑ Mena, Jesús (2011). कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
- ↑ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय". Introduction to Data Mining. KD Nuggets. Retrieved 30 August 2012.
- ↑ Fayyad, Usama (15 June 1999). "प्रधान संपादक द्वारा पहला संपादकीय". SIGKDD Explorations. 13 (1): 102. doi:10.1145/2207243.2207269. S2CID 13314420. Retrieved 27 December 2010.
- ↑ Coenen, Frans (2011-02-07). "डेटा माइनिंग: अतीत, वर्तमान और भविष्य". The Knowledge Engineering Review (in English). 26 (1): 25–29. doi:10.1017/S0269888910000378. ISSN 0269-8889. S2CID 6487637.
- ↑ Kantardzic, Mehmed (2003). डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
- ↑ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
- ↑ Lukasz Kurgan and Petr Musilek: "A survey of Knowledge Discovery and Data Mining process models". The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, doi:10.1017/S0269888906000737
- ↑ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Archived 2013-01-09 at the Wayback Machine. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
- ↑ Hawkins, Douglas M (2004). "ओवरफिटिंग की समस्या". Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
- ↑ "Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन". Microsoft Academic Search.
- ↑ "Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण". Google Scholar.
- ↑ Proceedings Archived 2010-04-30 at the Wayback Machine, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.
- ↑ SIGKDD Explorations, ACM, New York.
- ↑ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "An extension of the PMML standard to subspace clustering models". प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही. p. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID 14967969.
- ↑ Seltzer, William (2005). "डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे" (PDF). ASA Section on Government Statistics. American Statistical Association. Archived (PDF) from the original on 2022-10-09.
- ↑ Pitts, Chip (15 March 2007). "अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो". Washington Spectator. Archived from the original on 2007-11-28.
- ↑ Taipale, Kim A. (15 December 2003). "डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा". Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782. Archived from the original on 5 November 2014. Retrieved 21 April 2004.
- ↑ Resig, John. "माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 16 March 2018.
- ↑ 31.0 31.1 31.2 Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 2008-12-17 at the Wayback Machine, NASCIO Research Brief, September 2004
- ↑ Ohm, Paul. "बर्बादी का डाटाबेस मत बनाओ". Harvard Business Review.
- ↑ AOL search data identified individuals, SecurityFocus, August 2006
- ↑ Kshetri, Nir (2014). "गोपनीयता, सुरक्षा और उपभोक्ता कल्याण पर बिग डेटा का प्रभाव" (PDF). Telecommunications Policy. 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002.
- ↑ Weiss, Martin A.; Archick, Kristin (19 May 2016). "यू.एस.-ई.यू. डेटा प्राइवेसी: सेफ हार्बर से प्राइवेसी शील्ड तक". Washington, D.C. Congressional Research Service. p. 6. R44257. Archived from the original (PDF) on 9 April 2020. Retrieved 9 April 2020.
6 अक्टूबर, 2015 को, CJEU ... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented.
- ↑ Parker, George (2018-09-30). "ब्रिटेन की कंपनियां ग्राहकों का शोषण करने के लिए बिग डेटा का इस्तेमाल कर रही हैं". Financial Times. Archived from the original on 2022-12-10. Retrieved 2022-12-04.
- ↑ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
- ↑ UK Researchers Given Data Mining Right Under New UK Copyright Laws. Archived June 9, 2014, at the Wayback Machine Out-Law.com. Retrieved 14 November 2014
- ↑ "फेडेक्स".
- ↑ "यूरोप के लिए लाइसेंस - संरचित हितधारक संवाद 2013". European Commission. Retrieved 14 November 2014.
- ↑ "पाठ और डेटा खनन: इसका महत्व और यूरोप में परिवर्तन की आवश्यकता". Association of European Research Libraries. Archived from the original on 29 November 2014. Retrieved 14 November 2014.
- ↑ "न्यायाधीश Google पुस्तकें के पक्ष में सारांश निर्णय देता है - एक उचित उपयोग जीत". Lexology.com. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.
अग्रिम पठन
- Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall, ISBN 0-13-743980-6
- M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
- Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press, ISBN 978-0-521-83657-9
- Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
- Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
- Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
- Liu, Bing (2007, 2011); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, ISBN 3-540-37881-2
- Murphy, Chris (16 May 2011). "Is Data Mining Free Speech?". InformationWeek: 12.
- Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier, ISBN 978-0-12-374765-5
- Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference, ISBN 978-1-59904-162-9
- Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining, ISBN 0-321-32136-7
- Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0
- Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
- Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0. (See also Free Weka software)
- Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum