डेटा माइनिंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(5 intermediate revisions by 4 users not shown)
Line 2: Line 2:
{{redirect|वेब माइनिंग|वेब ब्राउज़र आधारित क्रिप्टोक्यूरेंसी माइनिंग|क्रिप्टोकरेंसी}}
{{redirect|वेब माइनिंग|वेब ब्राउज़र आधारित क्रिप्टोक्यूरेंसी माइनिंग|क्रिप्टोकरेंसी}}
{{Machine learning bar}}
{{Machine learning bar}}
डेटा माइनिंग [[मशीन लर्निंग]], सांख्यिकी और [[डेटाबेस प्रणालियों]] के प्रतिच्छेदन से संबंधित बड़े डेटा सेटों के पैटर्न को निकालने और खोजने की प्रक्रिया है।<ref name="acm" /> डेटा माइनिंग [[कंप्यूटर विज्ञान]] और सांख्यिकी का एक [[अंतःविषय]] उपक्षेत्र है, जिसमें (बुद्धिमान तरीकों के साथ) डेटा सेट से सूचना निकालने और आगे उपयोग के लिए एक सुगम संरचना में बदलने का लक्ष्य रखा गया है<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=डाटा माइनिंग पाठ्यक्रम|publisher=[[Association for Computing Machinery|ACM]] [[SIGKDD]] |date=2006-04-30 |access-date=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा|year=2010 |url=https://www.britannica.com/EBchecked/topic/1056150/data-mining |access-date=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome|author-link3=Jerome H. Friedman|title=सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|access-date=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han|first1=Jaiwei|title=डाटा माइनिंग: अवधारणाएं और तकनीकें|last2=Kamber|first2=Micheline|last3=Pei|first3=Jian|date=2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd|author-link=Jiawei Han}}</ref> डेटा माइनिंग "ज्ञान खोज डेटाबेस में प्रक्रिया का विश्लेषण चरण है, या केडीडी।<ref name="Fayyad" /> रॉ विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, [[सांख्यिकीय मॉडल]] और [[सांख्यिकीय निष्कर्ष]] विचार, दिलचस्प मेट्रिक्स, [[कम्प्यूटेशनल जटिलता सिद्धांत|जटिलता सिद्धांत]] विचार, खोजी गई संरचनाओं का [[पोस्ट-प्रोसेसिंग]], [[डेटा विज़ुअलाइज़ेशन]] और ऑनलाइन अपडेटिंग भी सम्मिलित है।<ref name="acm" />  
डेटा माइनिंग [[मशीन लर्निंग]], सांख्यिकी और [[डेटाबेस प्रणालियों]] के प्रतिच्छेदन से संबंधित बड़े डेटा सेटों के पैटर्न को निकालने और खोजने की प्रक्रिया है।<ref name="acm" /> डेटा माइनिंग [[कंप्यूटर विज्ञान]] और सांख्यिकी का एक [[अंतःविषय]] उपक्षेत्र है, जिसमें(बुद्धिमान तरीकों के साथ) डेटा सेट से सूचना निकालने और आगे उपयोग के लिए एक सुगम संरचना में बदलने का लक्ष्य रखा गया है<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=डाटा माइनिंग पाठ्यक्रम|publisher=[[Association for Computing Machinery|ACM]] [[SIGKDD]] |date=2006-04-30 |access-date=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा|year=2010 |url=https://www.britannica.com/EBchecked/topic/1056150/data-mining |access-date=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|author-link1=Trevor Hastie|last2=Tibshirani|first2=Robert|author-link2=Robert Tibshirani|last3=Friedman|first3=Jerome|author-link3=Jerome H. Friedman|title=सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|access-date=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han|first1=Jaiwei|title=डाटा माइनिंग: अवधारणाएं और तकनीकें|last2=Kamber|first2=Micheline|last3=Pei|first3=Jian|date=2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd|author-link=Jiawei Han}}</ref> डेटा माइनिंग "ज्ञान खोज डेटाबेस में प्रक्रिया का विश्लेषण चरण है, या केडीडी।<ref name="Fayyad" /> रॉ विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, [[सांख्यिकीय मॉडल]] और [[सांख्यिकीय निष्कर्ष]] विचार, दिलचस्प मेट्रिक्स, [[कम्प्यूटेशनल जटिलता सिद्धांत|जटिलता सिद्धांत]] विचार, खोजी गई संरचनाओं का [[पोस्ट-प्रोसेसिंग]], [[डेटा विज़ुअलाइज़ेशन]] और ऑनलाइन अपडेटिंग भी सम्मिलित है।<ref name="acm" />  


शब्द डेटा माइनिंग एक [[मिथ्या नाम]] है। क्योंकि लक्ष्य बड़ी मात्रा में डेटा से [[पैटर्न]] और ज्ञान का निष्कर्षण है, न कि डेटा का निष्कर्षण (माइनिंग)<ref name="han-kamber">{{cite book|title=डेटा खनन: अवधारणाएं और तकनीकें|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=[[Morgan Kaufmann]]|isbn=978-1-55860-489-6|page=5|quote=इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है|author-link1=Jiawei Han}}</ref> यह भी एक मुहावरा है<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref> और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण (संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धि सहित कंप्यूटर [[निर्णय समर्थन प्रणाली]] के किसी भी अनुप्रयोग पर लागू होता है। मशीन लर्निंग और [[व्यापारिक सूचना|व्यापारिक]] इंटेलिजेंस। द बुक डेटा माइनिंग प्रायोगिक मशीन लर्निंग टूल्स एंड टेक्निक्स और [[जावा (प्रोग्रामिंग भाषा)]] है<ref name="witten">{{cite book|title=डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|author-link1=Ian H. Witten}}</ref> जिसमें ज्यादातर मशीन लर्निंग सामग्री सम्मिलित होती और मूल रूप से प्रायोगिक मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|author-link7=Ian H. Witten|year=2010|title=WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।}}</ref> अधिकांशता सामान्य शब्द (बड़े पैमाने पर) [[डेटा विश्लेषण]] और या वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।
शब्द डेटा माइनिंग एक [[मिथ्या नाम]] है। क्योंकि लक्ष्य बड़ी मात्रा में डेटा से [[पैटर्न]] और ज्ञान का निष्कर्षण है, न कि डेटा का निष्कर्षण(माइनिंग)<ref name="han-kamber">{{cite book|title=डेटा खनन: अवधारणाएं और तकनीकें|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=[[Morgan Kaufmann]]|isbn=978-1-55860-489-6|page=5|quote=इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है|author-link1=Jiawei Han}}</ref> यह भी एक मुहावरा है<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref> और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण(संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धि सहित कंप्यूटर [[निर्णय समर्थन प्रणाली]] के किसी भी अनुप्रयोग पर लागू होता है। मशीन लर्निंग और [[व्यापारिक सूचना|व्यापारिक]] इंटेलिजेंस। द बुक डेटा माइनिंग प्रायोगिक मशीन लर्निंग टूल्स एंड टेक्निक्स और [[जावा (प्रोग्रामिंग भाषा)|जावा(प्रोग्रामिंग भाषा)]] है<ref name="witten">{{cite book|title=डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|author-link1=Ian H. Witten}}</ref> जिसमें ज्यादातर मशीन लर्निंग सामग्री सम्मिलित होती और मूल रूप से प्रायोगिक मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|author-link7=Ian H. Witten|year=2010|title=WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।}}</ref> अधिकांशता सामान्य शब्द(बड़े पैमाने पर) [[डेटा विश्लेषण]] और या वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।


वास्तविक डेटा खनन कार्य डेटा अभिलेखों के समूह (क्लस्टर विश्लेषण), असामान्य रिकॉर्ड (विसंगति पहचान), और निर्भरता (एसोसिएशन नियम खनन, अनुक्रमिक पैटर्न खनन) को निकालने के लिए बड़ी मात्रा में डेटा के अर्ध-स्वचालित या स्वचालित विश्लेषण है।  
वास्तविक डेटा खनन कार्य डेटा अभिलेखों के समूह(क्लस्टर विश्लेषण), असामान्य रिकॉर्ड(विसंगति पहचान), और निर्भरता(एसोसिएशन नियम खनन, अनुक्रमिक पैटर्न खनन) को निकालने के लिए बड़ी मात्रा में डेटा के अर्ध-स्वचालित या स्वचालित विश्लेषण है।  


.यह आमतौर पर [[स्थानिक सूचकांक]] जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान कर सकता है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जाता है.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।।
.यह आमतौर पर [[स्थानिक सूचकांक]] जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान कर सकता है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जाता है.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।।


डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।<ref>Olson, D. L. (2007). Data mining in business services. ''Service Business'', ''1''(3), 181–193. {{doi|10.1007/s11628-006-0014-7}}</ref>
डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।<ref>Olson, D. L. (2007). Data mining in business services. ''Service Business'', ''1''(3), 181–193. {{doi|10.1007/s11628-006-0014-7}}</ref>
संबंधित शब्द [[डेटा ड्रेजिंग]], डेटा फिशिंग और [[डेटा स्नूपिंग]] एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं (या हो सकते हैं)। पैटर्न की खोज की। चूँकि , इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जाता है।
संबंधित शब्द [[डेटा ड्रेजिंग]], डेटा फिशिंग और [[डेटा स्नूपिंग]] एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं(या हो सकते हैं)। पैटर्न की खोज की। चूँकि , इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जाता है।


== व्युत्पत्ति ==
== व्युत्पत्ति ==
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में [[आर्थिक अध्ययन की समीक्षा]] में प्रकाशित एक लेख में अर्थशास्त्री [[माइकल लवेल]] द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।<ref>{{Cite journal|last=Lovell|first=Michael C.|date=1983|title=डेटा माइनिंग|journal=The Review of Economics and Statistics|volume=65|issue=1|pages=1–12|doi=10.2307/1924403|jstor=1924403}}</ref><ref>{{cite book |first1=Wojciech W. |last1=Charemza |first2=Derek F. |last2=Deadman |title=अर्थमितीय अभ्यास में नई दिशाएँ|location=Aldershot |publisher=Edward Elgar |year=1992 |chapter=Data Mining |pages=14–31 |isbn=1-85278-461-X }}</ref> लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग (सकारात्मक) से लेकर फिशिंग पकड़ने या स्नूपिंग (नकारात्मक) तक सम्मिलित हैं।
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में [[आर्थिक अध्ययन की समीक्षा]] में प्रकाशित एक लेख में अर्थशास्त्री [[माइकल लवेल]] द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।<ref>{{Cite journal|last=Lovell|first=Michael C.|date=1983|title=डेटा माइनिंग|journal=The Review of Economics and Statistics|volume=65|issue=1|pages=1–12|doi=10.2307/1924403|jstor=1924403}}</ref><ref>{{cite book |first1=Wojciech W. |last1=Charemza |first2=Derek F. |last2=Deadman |title=अर्थमितीय अभ्यास में नई दिशाएँ|location=Aldershot |publisher=Edward Elgar |year=1992 |chapter=Data Mining |pages=14–31 |isbn=1-85278-461-X }}</ref> लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग(सकारात्मक) से लेकर फिशिंग पकड़ने या स्नूपिंग(नकारात्मक) तक सम्मिलित हैं।


डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्यता सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक [[सैन डिएगो]]-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;<ref name="Mena">{{cite book |last=Mena |first=Jesús |year=2011 |title=कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक|location=Boca Raton, FL |publisher=CRC Press (Taylor & Francis Group) |isbn=978-1-4398-6069-4 }}</ref> शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, [[ज्ञान निष्कर्षण]] आदि सम्मिलित हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो, (KDD-1989) में यह शब्द कृत्रिम बुद्धिमत्ता और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। चूँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।<ref>{{cite web |last1=Piatetsky-Shapiro |first1=Gregory |author-link1=Gregory Piatetsky-Shapiro |last2=Parker |first2=Gary |url=http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-mining-notes.html |title=पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय|publisher=KD Nuggets |year=2011 |work=Introduction to Data Mining |access-date=30 August 2012 }}</ref> वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।
डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्यता सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक [[सैन डिएगो]]-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;<ref name="Mena">{{cite book |last=Mena |first=Jesús |year=2011 |title=कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक|location=Boca Raton, FL |publisher=CRC Press (Taylor & Francis Group) |isbn=978-1-4398-6069-4 }}</ref> शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, [[ज्ञान निष्कर्षण]] आदि सम्मिलित हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो,(KDD-1989) में यह शब्द कृत्रिम बुद्धिमत्ता और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। चूँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।<ref>{{cite web |last1=Piatetsky-Shapiro |first1=Gregory |author-link1=Gregory Piatetsky-Shapiro |last2=Parker |first2=Gary |url=http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-mining-notes.html |title=पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय|publisher=KD Nuggets |year=2011 |work=Introduction to Data Mining |access-date=30 August 2012 }}</ref> वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।


अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब [[AAAI]] प्रायोजन के तहत [[डाटा माइनिंग एंड नॉलेज डिस्कवरी]] ([[KDD-95]]) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और [[रामासामी उथुरुसामी]] ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने [[SIGKDD|एसआईजीकेडीडी]] समाचार पत्र एसआईजीकेडीडी अन्वेषण शुरू किया।<ref name="SIGKDD-explorations">{{cite journal|last1=Fayyad|first1=Usama|author-link=Usama Fayyad|date=15 June 1999|title=प्रधान संपादक द्वारा पहला संपादकीय|url=http://www.kdd.org/explorations/view/june-1999-volume-1-issue-1|journal=SIGKDD Explorations|volume=13|issue=1|pages=102|doi=10.1145/2207243.2207269|access-date=27 December 2010|ref=SIGKDD-explorations|s2cid=13314420}}</ref> KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।
अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब [[AAAI]] प्रायोजन के तहत [[डाटा माइनिंग एंड नॉलेज डिस्कवरी]]([[KDD-95]]) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और [[रामासामी उथुरुसामी]] ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने [[SIGKDD|एसआईजीकेडीडी]] समाचार पत्र एसआईजीकेडीडी अन्वेषण शुरू किया।<ref name="SIGKDD-explorations">{{cite journal|last1=Fayyad|first1=Usama|author-link=Usama Fayyad|date=15 June 1999|title=प्रधान संपादक द्वारा पहला संपादकीय|url=http://www.kdd.org/explorations/view/june-1999-volume-1-issue-1|journal=SIGKDD Explorations|volume=13|issue=1|pages=102|doi=10.1145/2207243.2207269|access-date=27 December 2010|ref=SIGKDD-explorations|s2cid=13314420}}</ref> KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।


== पृष्ठभूमि ==
== पृष्ठभूमि ==
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और [[प्रतिगमन विश्लेषण]] (1800s) सम्मिलित हैं।<ref>{{Cite journal|last=Coenen|first=Frans|date=2011-02-07|title=डेटा माइनिंग: अतीत, वर्तमान और भविष्य|url=https://www.cambridge.org/core/product/identifier/S0269888910000378/type/journal_article|journal=The Knowledge Engineering Review|language=en|volume=26|issue=1|pages=25–29|doi=10.1017/S0269888910000378|s2cid=6487637|issn=0269-8889}}</ref> कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , [[आनुवंशिक एल्गोरिदम|आनुवंशिक]] कलन विधि (1950), [[निर्णय वृक्ष सीखना]] एंड [[निर्णय नियम]] (1960), और सपोर्ट वेक्टर मशीन (1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम|year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref> बड़े डेटा सेट में यह वास्तविक सीखने और खोज कलन विधि को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके [[डेटाबेस प्रबंधन]] के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता (जो सामान्यता गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय(1700s) और [[प्रतिगमन विश्लेषण]](1800s) सम्मिलित हैं।<ref>{{Cite journal|last=Coenen|first=Frans|date=2011-02-07|title=डेटा माइनिंग: अतीत, वर्तमान और भविष्य|url=https://www.cambridge.org/core/product/identifier/S0269888910000378/type/journal_article|journal=The Knowledge Engineering Review|language=en|volume=26|issue=1|pages=25–29|doi=10.1017/S0269888910000378|s2cid=6487637|issn=0269-8889}}</ref> कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , [[आनुवंशिक एल्गोरिदम|आनुवंशिक]] कलन विधि(1950), [[निर्णय वृक्ष सीखना]] एंड [[निर्णय नियम]](1960), और सपोर्ट वेक्टर मशीन(1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम|year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref> बड़े डेटा सेट में यह वास्तविक सीखने और खोज कलन विधि को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके [[डेटाबेस प्रबंधन]] के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता(जो सामान्यता गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।


== प्रक्रिया ==
== प्रक्रिया ==
डेटाबेस (केडीडी) प्रक्रिया में ज्ञान की खोज को सामान्यता चरणों के साथ परिभाषित किया जाता है:
डेटाबेस(केडीडी) प्रक्रिया में ज्ञान की खोज को सामान्यता चरणों के साथ परिभाषित किया जाता है:


# चयन
# चयन
Line 32: Line 32:
# व्याख्या / मूल्यांकन।<ref name="Fayyad" />
# व्याख्या / मूल्यांकन।<ref name="Fayyad" />


चूँकि , यह इस विषय पर कई रूपों में मौजूद है, [[डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया]] प्रक्रिया (CRISP-DM) जो छह चरणों को परिभाषित करता है:
चूँकि , यह इस विषय पर कई रूपों में मौजूद है, [[डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया]](CRISP-DM) जो छह चरणों को परिभाषित करता है


#व्यापार की समझ
#व्यापार की समझ
Line 41: Line 41:
# सिस्टम परिनियोजन
# सिस्टम परिनियोजन


या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।
या एक सरलीकृत प्रक्रिया जैसे(1) प्री-प्रोसेसिंग,(2) डेटा माइनिंग, और(3) परिणाम सत्यापन।


2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्यप्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।<ref>[[Gregory Piatetsky-Shapiro]] (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2014) [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक [[SEMMA|सेमा]] था। चूँकि , 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek: [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 "A survey of Knowledge Discovery and Data Mining process models"]. ''The Knowledge Engineering Review''. Volume 21 Issue 1, March 2006, pp&nbsp;1–24, Cambridge University Press, New York, {{doi|10.1017/S0269888906000737}}</ref> और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और सेमा की तुलना की।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. [http://www.iadis.net/dl/final_uploads/200812P033.pdf KDD, SEMMA and CRISP-DM: a parallel overview] {{webarchive|url=https://web.archive.org/web/20130109114939/http://www.iadis.net/dl/final_uploads/200812P033.pdf |date=2013-01-09 }}. In Proceedings of the IADIS European Conference on Data Mining 2008, pp&nbsp;182–185.</ref>
2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्य प्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।<ref>[[Gregory Piatetsky-Shapiro]] (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2014) [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक [[SEMMA|सेमा]] था। चूँकि , 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek: [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 "A survey of Knowledge Discovery and Data Mining process models"]. ''The Knowledge Engineering Review''. Volume 21 Issue 1, March 2006, pp&nbsp;1–24, Cambridge University Press, New York, {{doi|10.1017/S0269888906000737}}</ref> और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और सेमा की तुलना की।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. [http://www.iadis.net/dl/final_uploads/200812P033.pdf KDD, SEMMA and CRISP-DM: a parallel overview] {{webarchive|url=https://web.archive.org/web/20130109114939/http://www.iadis.net/dl/final_uploads/200812P033.pdf |date=2013-01-09 }}. In Proceedings of the IADIS European Conference on Data Mining 2008, pp&nbsp;182–185.</ref>




=== प्री-प्रोसेसिंग ===
=== प्री-प्रोसेसिंग ===
डेटा माइनिंग कलन विधि का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर खनन करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले [[बहुभिन्नरूपी आँकड़े]] डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई [[सांख्यिकीय शोर]] और लापता डेटा वाले अवलोकनों को हटा देती है।
डेटा माइनिंग कलन विधि का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर माइनिंग करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले [[बहुभिन्नरूपी आँकड़े]] डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई [[सांख्यिकीय शोर]] और लापता डेटा वाले अवलोकनों को हटा देती है।


=== डाटा माइनिंग ===
=== डाटा माइनिंग ===
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित हैं:<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |author-link1=Usama Fayyad |last2=Piatetsky-Shapiro |first2=Gregory|author-link2=Gregory Piatetsky-Shapiro |last3=Smyth |first3=Padhraic |title=डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक|year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-url=https://ghostarchive.org/archive/20221009/http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-date=2022-10-09 |url-status=live |access-date = 17 December 2008 }}</ref>
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित हैं:<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |author-link1=Usama Fayyad |last2=Piatetsky-Shapiro |first2=Gregory|author-link2=Gregory Piatetsky-Shapiro |last3=Smyth |first3=Padhraic |title=डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक|year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-url=https://ghostarchive.org/archive/20221009/http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |archive-date=2022-10-09 |url-status=live |access-date = 17 December 2008 }}</ref>
* विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
* विसंगति का पता लगाना(बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
* [[एसोसिएशन नियम सीखना]] (डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
* [[एसोसिएशन नियम सीखना]](डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
* क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
* क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
* [[सांख्यिकीय वर्गीकरण]] - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
* [[सांख्यिकीय वर्गीकरण]] - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
Line 65: Line 65:


== अनुसंधान ==
== अनुसंधान ==
नॉलेज डिस्कवरी एंड डेटा माइनिंग (एसआईजीकेडीडी ) पर [[संगणक तंत्र संस्था]] (एसीएम ) स्पेशल इंटरेस्ट ग्रुप (SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।<ref>{{cite web|url=http://academic.research.microsoft.com/?SearchDomain=2&SubDomain=7&entitytype=2|title=Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन| publisher=[[Microsoft Academic Search]]}}</ref><ref>{{cite web|url=https://scholar.google.de/citations?view_op=top_venues&vq=eng_datamininganalysis|title=Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण|publisher=[[Google Scholar]]}}</ref> 1989 से, इस एसीएम SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,<ref>[http://www.kdd.org/conferences.php Proceedings] {{Webarchive|url=https://web.archive.org/web/20100430120252/http://www.kdd.org/conferences.php |date=2010-04-30 }}, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.</ref> और 1999 से इसने एसआईजीकेडीडी एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।<ref>[http://www.kdd.org/explorations/about.php SIGKDD Explorations], ACM, New York.</ref>
नॉलेज डिस्कवरी एंड डेटा माइनिंग(एसआईजीकेडीडी ) पर [[संगणक तंत्र संस्था]](एसीएम ) स्पेशल इंटरेस्ट ग्रुप(SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।<ref>{{cite web|url=http://academic.research.microsoft.com/?SearchDomain=2&SubDomain=7&entitytype=2|title=Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन| publisher=[[Microsoft Academic Search]]}}</ref><ref>{{cite web|url=https://scholar.google.de/citations?view_op=top_venues&vq=eng_datamininganalysis|title=Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण|publisher=[[Google Scholar]]}}</ref> 1989 से, इस एसीएम SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,<ref>[http://www.kdd.org/conferences.php Proceedings] {{Webarchive|url=https://web.archive.org/web/20100430120252/http://www.kdd.org/conferences.php |date=2010-04-30 }}, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.</ref> और 1999 से इसने एसआईजीकेडीडी एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।<ref>[http://www.kdd.org/explorations/about.php SIGKDD Explorations], ACM, New York.</ref>
डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित हैं:
डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित हैं:


Line 75: Line 75:


== मानक ==
== मानक ==
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन [[डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस|डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड]] प्रक्रिया (CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड (JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन [[डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस|डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड]] प्रक्रिया(CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड(JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास(CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।


निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, [[जावा डाटा माइनिंग]] ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।<ref>{{Cite book | last1 = Günnemann | first1 = Stephan | last2 = Kremer | first2 = Hardy | last3 = Seidl | first3 = Thomas | doi = 10.1145/2023598.2023605 | chapter = An extension of the PMML standard to subspace clustering models | title = प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही| page = 48 | year = 2011 | isbn = 978-1-4503-0837-3 | s2cid = 14967969 }}</ref>
निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज(पीएमएमएल) है, [[जावा डाटा माइनिंग]] ग्रुप(डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार(उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।<ref>{{Cite book | last1 = Günnemann | first1 = Stephan | last2 = Kremer | first2 = Hardy | last3 = Seidl | first3 = Thomas | doi = 10.1145/2023598.2023605 | chapter = An extension of the PMML standard to subspace clustering models | title = प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही| page = 48 | year = 2011 | isbn = 978-1-4503-0837-3 | s2cid = 14967969 }}</ref>




Line 86: Line 86:


==गोपनीयता चिंताएं और नैतिकता==
==गोपनीयता चिंताएं और नैतिकता==
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अधिकांशता उपयोगकर्ता समझौते विश्लेषण (नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।<ref>{{cite journal |author=Seltzer, William |title=डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे|url=https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-date=2022-10-09 |url-status=live|publisher = American Statistical Association|journal = ASA Section on Government Statistics|date = 2005 }}</ref>
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अधिकांशता उपयोगकर्ता समझौते विश्लेषण(नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।<ref>{{cite journal |author=Seltzer, William |title=डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे|url=https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf |archive-date=2022-10-09 |url-status=live|publisher = American Statistical Association|journal = ASA Section on Government Statistics|date = 2005 }}</ref>
जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में [[गोपनीयता]], वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।<ref>{{cite journal |author=Pitts, Chip |title=अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो|url=http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |journal=Washington Spectator |date=15 March 2007 |url-status=dead |archive-url=https://web.archive.org/web/20071128015201/http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm |archive-date=2007-11-28 }}</ref> विशेष रूप से, [[राष्ट्रीय सुरक्षा]] या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कि कुल सूचना जागरूकता कार्यक्रम या [[ADVISE]] में, ने गोपनीयता संबंधी चिंताओं को उठाया है।<ref>{{cite journal |author=Taipale, Kim A. |title=डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा|url=http://www.stlr.org/cite.cgi?volume=5&article=2 |journal=Columbia Science and Technology Law Review |volume=5 |issue=2 |date=15 December 2003 |ssrn=546782 |oclc=45263753 |access-date=21 April 2004 |archive-date=5 November 2014 |archive-url=https://web.archive.org/web/20141105035644/http://www.stlr.org/cite.cgi?volume=5&article=2 |url-status=dead }}</ref><ref>{{cite web|last1=Resig|first1=John|title=माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क|url=https://johnresig.com/files/research/SIAMPaper.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://johnresig.com/files/research/SIAMPaper.pdf |archive-date=2022-10-09 |url-status=live|access-date=16 March 2018}}</ref>डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो [[गोपनीयता]] और डेटा गोपनीयता दायित्वों से समझौता करने वाली जानकारी या पैटर्न को उजागर करता है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। [[डेटा एकत्रीकरण]] में डेटा को एक साथ जोड़ना (संभवतः विभिन्न स्रोतों से) एक तरह से होता है जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा की पहचान या अन्यथा स्पष्ट भी हो सकता है)।<ref name="NASCIO">[http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf ''Think Before You Dig: Privacy Implications of Data Mining & Aggregation''] {{webarchive|url=https://web.archive.org/web/20081217063043/http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf |date=2008-12-17 }}, NASCIO Research Brief, September 2004</ref> यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। किसी व्यक्ति की गोपनीयता के लिए खतरा तब सामने आता है जब डेटा, एक बार संकलित हो जाने के बाद, डेटा माइनर, या कोई भी व्यक्ति जिसके पास नए संकलित डेटा सेट तक पहुंच होती है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो जाता है, खासकर जब डेटा मूल रूप से गुमनाम था।<ref>{{cite magazine |first=Paul |last=Ohm |title=बर्बादी का डाटाबेस मत बनाओ|magazine=Harvard Business Review |url=http://blogs.hbr.org/cs/2012/08/dont_build_a_database_of_ruin.html}}</ref>
जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ माम