डेटा माइनिंग: Difference between revisions
No edit summary |
m (added Category:Vigyan Ready using HotCat) |
||
| Line 283: | Line 283: | ||
[[Category: Machine Translated Page]] | [[Category: Machine Translated Page]] | ||
[[Category:Created On 14/12/2022]] | [[Category:Created On 14/12/2022]] | ||
[[Category:Vigyan Ready]] | |||
Revision as of 12:55, 15 December 2022
| Part of a series on |
| Machine learning and data mining |
|---|
डेटा माइनिंग मशीन लर्निंग, सांख्यिकी और डेटाबेस प्रणालियों के प्रतिच्छेदन से संबंधित बड़े डेटा सेटों के पैटर्न को निकालने और खोजने की प्रक्रिया है।[1] डेटा माइनिंग कंप्यूटर विज्ञान और सांख्यिकी का एक अंतःविषय उपक्षेत्र है, जिसमें(बुद्धिमान तरीकों के साथ) डेटा सेट से सूचना निकालने और आगे उपयोग के लिए एक सुगम संरचना में बदलने का लक्ष्य रखा गया है[1][2][3][4] डेटा माइनिंग "ज्ञान खोज डेटाबेस में प्रक्रिया का विश्लेषण चरण है, या केडीडी।[5] रॉ विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, सांख्यिकीय मॉडल और सांख्यिकीय निष्कर्ष विचार, दिलचस्प मेट्रिक्स, जटिलता सिद्धांत विचार, खोजी गई संरचनाओं का पोस्ट-प्रोसेसिंग, डेटा विज़ुअलाइज़ेशन और ऑनलाइन अपडेटिंग भी सम्मिलित है।[1]
शब्द डेटा माइनिंग एक मिथ्या नाम है। क्योंकि लक्ष्य बड़ी मात्रा में डेटा से पैटर्न और ज्ञान का निष्कर्षण है, न कि डेटा का निष्कर्षण(माइनिंग)[6] यह भी एक मुहावरा है[7] और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण(संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी) के साथ-साथ कृत्रिम बुद्धि सहित कंप्यूटर निर्णय समर्थन प्रणाली के किसी भी अनुप्रयोग पर लागू होता है। मशीन लर्निंग और व्यापारिक इंटेलिजेंस। द बुक डेटा माइनिंग प्रायोगिक मशीन लर्निंग टूल्स एंड टेक्निक्स और जावा(प्रोग्रामिंग भाषा) है[8] जिसमें ज्यादातर मशीन लर्निंग सामग्री सम्मिलित होती और मूल रूप से प्रायोगिक मशीन लर्निंग का नाम दिया जाना था, और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।[9] अधिकांशता सामान्य शब्द(बड़े पैमाने पर) डेटा विश्लेषण और या वास्तविक तरीकों, कृत्रिम बुद्धि और मशीन सीखने का जिक्र करते समय-अधिक उपयुक्त होते हैं।
वास्तविक डेटा खनन कार्य डेटा अभिलेखों के समूह(क्लस्टर विश्लेषण), असामान्य रिकॉर्ड(विसंगति पहचान), और निर्भरता(एसोसिएशन नियम खनन, अनुक्रमिक पैटर्न खनन) को निकालने के लिए बड़ी मात्रा में डेटा के अर्ध-स्वचालित या स्वचालित विश्लेषण है।
.यह आमतौर पर स्थानिक सूचकांक जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान कर सकता है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जाता है.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, हालांकि वे अतिरिक्त चरणों के रूप में समग्र केडीडी प्रक्रिया से संबंधित हैं।।
डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।[10] संबंधित शब्द डेटा ड्रेजिंग, डेटा फिशिंग और डेटा स्नूपिंग एक बड़े जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित करते हैं जो किसी भी डेटा की वैधता के बारे में किए जाने वाले विश्वसनीय सांख्यिकीय अनुमानों के लिए बहुत छोटे हैं(या हो सकते हैं)। पैटर्न की खोज की। चूँकि , इन विधियों का उपयोग बड़ी डेटा आबादी के खिलाफ परीक्षण करने के लिए नई परिकल्पनाएँ बनाने में किया जाता है।
व्युत्पत्ति
1960 के दशक में, सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग या डेटा ड्रेजिंग जैसे शब्दों का इस्तेमाल किया था, जिसे वे A प्राथमिकता संभाव्यता के बिना डेटा का विश्लेषण करने के बुरे अभ्यास के रूप में मानते थे। 1983 में आर्थिक अध्ययन की समीक्षा में प्रकाशित एक लेख में अर्थशास्त्री माइकल लवेल द्वारा डेटा माइनिंग शब्द का उपयोग इसी तरह के महत्वपूर्ण तरीके से किया गया था।[11][12] लवेल इंगित करता है कि अभ्यास विभिन्न प्रकार के उपनामों के तहत होता है, जिसमें प्रयोग(सकारात्मक) से लेकर फिशिंग पकड़ने या स्नूपिंग(नकारात्मक) तक सम्मिलित हैं।
डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्यता सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग ™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक सैन डिएगो-आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को पिच किया जा सके;[13] शोधकर्ताओं ने फलस्वरूप डाटा माइनिंग की ओर रुख किया। उपयोग किए गए अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, ज्ञान निष्कर्षण आदि सम्मिलित हैं। ग्रेगरी I. पियाटेट्स्की-शापिरो,(KDD-1989) में यह शब्द कृत्रिम बुद्धिमत्ता और मशीन लर्निंग समुदाय में अधिक लोकप्रिय हो गया। चूँकि, डाटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।[14] वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।
अकादमिक समुदाय में, अनुसंधान के लिए प्रमुख मंचों की शुरुआत 1995 में हुई जब AAAI प्रायोजन के तहत डाटा माइनिंग एंड नॉलेज डिस्कवरी(KDD-95) पर पहला अंतर्राष्ट्रीय सम्मेलन मॉन्ट्रियल में शुरू किया गया था। इसकी सह-अध्यक्षता उस्मा फ़य्याद और रामासामी उथुरुसामी ने की थी। एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने एसआईजीकेडीडी समाचार पत्र एसआईजीकेडीडी अन्वेषण शुरू किया।[15] KDD अंतर्राष्ट्रीय सम्मेलन 18% से कम शोध पत्र प्रस्तुत करने की स्वीकृति दर के साथ डेटा माइनिंग में प्राथमिक उच्चतम गुणवत्ता वाला सम्मेलन बन गया। जर्नल डेटा माइनिंग एंड नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।
पृष्ठभूमि
डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय(1700s) और प्रतिगमन विश्लेषण(1800s) सम्मिलित हैं।[16] कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और हेरफेर करने की क्षमता में वृद्धि की है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़े हैं, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है, कंप्यूटर विज्ञान में अन्य खोजों से सहायता प्राप्त हुई है, विशेष रूप से मशीन सीखने के क्षेत्र में, जैसे तंत्रिका नेटवर्क, क्लस्टर विश्लेषण , आनुवंशिक कलन विधि(1950), निर्णय वृक्ष सीखना एंड निर्णय नियम(1960), और सपोर्ट वेक्टर मशीन(1990)। डेटा माइनिंग छिपे हुए पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।[17] बड़े डेटा सेट में यह वास्तविक सीखने और खोज कलन विधि को अधिक कुशलता से निष्पादित करने के लिए डेटाबेस में डेटा संग्रहीत और अनुक्रमित करने के तरीके का शोषण करके डेटाबेस प्रबंधन के लिए लागू आंकड़ों और कृत्रिम बुद्धिमत्ता(जो सामान्यता गणितीय पृष्ठभूमि प्रदान करता है) से अंतर को पाटता है, इस तरह के तरीकों को लागू करने की अनुमति देता है। कभी-बड़ा डेटा सेट।
प्रक्रिया
डेटाबेस(केडीडी) प्रक्रिया में ज्ञान की खोज को सामान्यता चरणों के साथ परिभाषित किया जाता है:
- चयन
- प्री-प्रोसेसिंग
- परिवर्तन
- डेटा माइनिंग
- व्याख्या / मूल्यांकन।[5]
चूँकि , यह इस विषय पर कई रूपों में मौजूद है, डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया(CRISP-DM) जो छह चरणों को परिभाषित करता है
- व्यापार की समझ
- डेटा समझ
- डेटा तैयारी
- मॉडलिंग
- मूल्यांकन
- सिस्टम परिनियोजन
या एक सरलीकृत प्रक्रिया जैसे(1) प्री-प्रोसेसिंग,(2) डेटा माइनिंग, और(3) परिणाम सत्यापन।
2002, 2004, 2007 और 2014 में किए गए चुनावों से पता चलता है कि CRISP-DM कार्य प्रणाली डेटा खनिकों द्वारा उपयोग की जाने वाली प्रमुख पद्धति है।[18] इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक सेमा था। चूँकि , 3-4 गुना अधिक लोगों ने CRISP-DM का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है,[19] और अजेवेदो और सैंटोस ने 2008 में CRISP-DM और सेमा की तुलना की।[20]
प्री-प्रोसेसिंग
डेटा माइनिंग कलन विधि का उपयोग करने से पहले, लक्ष्य डेटा सेट को इकट्ठा किया जाना चाहिए। जैसा कि डेटा माइनिंग केवल डेटा में वास्तव में मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डेटा सेट इन पैटर्नों को समाहित करने के लिए पर्याप्त बड़ा होना चाहिए, जबकि स्वीकार्य समय सीमा के भीतर माइनिंग करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक सामान्य स्रोत डेटा मार्ट या डेटा वेयरहाउस है। डेटा माइनिंग से पहले बहुभिन्नरूपी आँकड़े डेटा सेट का विश्लेषण करने के लिए प्री-प्रोसेसिंग आवश्यक है। लक्ष्य सेट को तब साफ किया जाता है। डेटा की सफाई सांख्यिकीय शोर और लापता डेटा वाले अवलोकनों को हटा देती है।
डाटा माइनिंग
डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित हैं:[5]
- विसंगति का पता लगाना(बाह्य / परिवर्तन / विचलन का पता लगाना) - असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
- एसोसिएशन नियम सीखना(डिपेंडेंसी मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक की खरीदारी की आदतों पर डेटा एकत्र कर सकता है। एसोसिएशन रूल लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
- क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है जो किसी तरह या किसी अन्य समान हैं।
- सांख्यिकीय वर्गीकरण - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
- प्रतिगमन विश्लेषण - एक फ़ंक्शन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
- स्वचालित सारांश - विज़ुअलाइज़ेशन और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।
परिणाम सत्यापन
डेटा माइनिंग का अनायास ही दुरुपयोग किया जा सकता है, ऐसे परिणाम उत्पन्न होते हैं जो महत्वपूर्ण प्रतीत होते हैं लेकिन जो वास्तव में भविष्य के समझौते की भविष्यवाणी नहीं करते हैं और डेटा के एक नए नमूने पर पुनरुत्पादन नहीं हो सकते हैं, इसलिए इसका बहुत कम उपयोग होता है। यह कभी-कभी बहुत अधिक परिकल्पनाओं की जांच करने और उचित सांख्यिकीय परिकल्पना परीक्षण नहीं करने के कारण होता है। मशीन लर्निंग में इस समस्या का एक सरल संस्करण ओवेरफिट्टिंग के रूप में जाना जाता है, लेकिन प्रक्रिया के विभिन्न चरणों में एक ही समस्या उत्पन्न हो सकती है और इस प्रकार एक ट्रेन/टेस्ट स्प्लिट- जब भी लागू हो- इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।[21]
डेटा से ज्ञान की खोज का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग कलन विधि द्वारा निर्मित पैटर्न व्यापक डेटा सेट में होते हैं। कलन विधि द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग कलन विधि के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग एल्गोरिथम प्रशिक्षित नहीं था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामी आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, स्पैम को वैध ई-मेल से अलग करने की कोशिश करने वाले डेटा माइनिंग कलन विधि को नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। कलन विधि का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।
यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा खनन चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।
अनुसंधान
नॉलेज डिस्कवरी एंड डेटा माइनिंग(एसआईजीकेडीडी ) पर संगणक तंत्र संस्था(एसीएम ) स्पेशल इंटरेस्ट ग्रुप(SIG) इस क्षेत्र की प्रमुख पेशेवर संस्था है।[22][23] 1989 से, इस एसीएम SIG ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,[24] और 1999 से इसने एसआईजीकेडीडी एक्सप्लोरेशन नामक द्विवार्षिक अकादमिक पत्रिका प्रकाशित की है।[25] डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित हैं:
- सीआईकेएम सम्मेलन - सूचना और ज्ञान प्रबंधन पर एसीएम सम्मेलन
- मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
- केडीडी सम्मेलन - ज्ञान खोज और डेटा खनन पर एसीएम एसआईजीकेडीडी सम्मेलन
कंप्यूटर विज्ञान सम्मेलनों की कई सूची #डेटा प्रबंधन|डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे ICDE सम्मेलन, सिग्मॉड और बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन में डेटा माइनिंग विषय भी मौजूद हैं।
मानक
डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए, 1999 यूरोपियन डाटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रक्रिया(CRISP-DM 1.0) और 2004 Java डेटा माइनिंग स्टैंडर्ड(JDM 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास(CRISP-DM 2.0 और JDM 2.0) 2006 में सक्रिय था लेकिन तब से रुका हुआ है। JDM 2.0 को अंतिम मसौदे पर पहुंचे बिना वापस ले लिया गया।
निकाले गए मॉडलों का आदान-प्रदान करने के लिए- विशेष रूप से भविष्यवाणिय विश्लेषिकी में उपयोग के लिए- मुख्य मानक भविष्यवाणी मॉडल मार्कअप लैंग्वेज(पीएमएमएल) है, जावा डाटा माइनिंग ग्रुप(डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित भाषा है और कई लोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। डेटा खनन अनुप्रयोगों। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा खनन कार्य को कवर करता है। हालांकि, कवर करने के लिए विस्तार(उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।[26]
उल्लेखनीय उपयोग
आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।
गोपनीयता चिंताएं और नैतिकता
जबकि डेटा माइनिंग शब्द का कोई नैतिक प्रभाव नहीं हो सकता है, यह अधिकांशता उपयोगकर्ता समझौते विश्लेषण(नैतिक और अन्यथा) के संबंध में जानकारी के खनन से जुड़ा होता है।[27] जिन तरीकों से डेटा माइनिंग का उपयोग किया जा सकता है, वे कुछ मामलों और संदर्भों में गोपनीयता, वैधता और नैतिकता के संबंध में प्रश्न उठा सकते हैं।[28] विशेष रूप से, राष्ट्रीय सुरक्षा या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्