डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया

डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया, जिसे CRISP-DM के नाम से जाना जाता है, एक खुला मानक प्रक्रिया मॉडल है जो डेटा खनन विशेषज्ञों द्वारा उपयोग किए जाने वाले सामान्य दृष्टिकोण का वर्णन करता है। यह सबसे व्यापक रूप से उपयोग किया जाने वाला एनालिटिक्स मॉडल है। 2015 में, आईबीएम ने एनालिटिक्स सॉल्यूशंस एकीकृत विधि  फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स नामक एक नई पद्धति जारी की।  (एएसयूएम-डीएम के रूप में भी जाना जाता है), जो सीआरआईएसपी-डीएम को परिष्कृत और विस्तारित करता है।

इतिहास
सीआरआईएसपी-डीएम की कल्पना 1996 में की गई थी और 1997 में सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम के वित्तपोषण पहल के तहत यह एक यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियों ने किया था: इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल), टेराडाटा, डेमलर एजी, एनसीआर निगम , और OHRA, एक बीमा कंपनी।

यह कोर कंसोर्टियम परियोजना में विभिन्न अनुभव लेकर आया। बाद में ISL का अधिग्रहण कर लिया गया और SPSS Inc. में विलय कर दिया गया। कंप्यूटर की दिग्गज कंपनी NCR कॉर्पोरेशन ने टेराडेटा डेटा वेयरहाउस और अपना स्वयं का डेटा माइनिंग सॉफ़्टवेयर तैयार किया। डेमलर-बेंज के पास एक महत्वपूर्ण डेटा माइनिंग टीम थी। OHRA डेटा माइनिंग के संभावित उपयोग का पता लगाना शुरू कर रहा था।

कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी CRISP-DM SIG कार्यशाला में प्रस्तुत किया गया था। और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया। 2006 और 2008 के बीच, एक CRISP-DM 2.0 SIG का गठन किया गया था, और CRISP-DM प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी। इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है। हालाँकि, समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट, और CRISP-DM 2.0 SIG वेबसाइट दोनों अब सक्रिय नहीं हैं।

जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी CRISP-DM का उपयोग करते हैं,  IBM प्राथमिक निगम है जो वर्तमान में CRISP-DM प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने CRISP-DM दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने SPSS मॉडलर उत्पाद में शामिल किया है।

वर्तमान शोध के आधार पर, CRISP-DM अपने विभिन्न फायदों के कारण डेटा-माइनिंग मॉडल का सबसे व्यापक रूप से इस्तेमाल किया जाने वाला रूप है, जिसने डेटा माइनिंग उद्योगों में मौजूदा समस्याओं को हल किया है। इस मॉडल की कुछ कमियाँ यह हैं कि यह परियोजना प्रबंधन गतिविधियाँ नहीं करता है। सीआरआईएसपी-डीएम की सफलता काफी हद तक इस तथ्य के कारण है कि यह उद्योग, उपकरण और अनुप्रयोग तटस्थ है।

प्रमुख चरण
CRISP-DM डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:
 * व्यावसायिक समझ
 * डेटा को समझना
 * डेटा तैयारी
 * मॉडलिंग
 * मूल्यांकन
 * तैनाती

चरणों का क्रम सख्त नहीं है और आमतौर पर विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। समाधान तैनात किए जाने के बाद डेटा खनन प्रक्रिया जारी रहती है। प्रक्रिया के दौरान सीखे गए सबक नए, अक्सर अधिक केंद्रित व्यावसायिक प्रश्नों को जन्म दे सकते हैं, और बाद की डेटा माइनिंग प्रक्रियाओं को पिछले अनुभवों से लाभ होगा।

मतदान
2002, 2004, 2007 और 2014 में एक ही वेबसाइट (KDnuggets) पर किए गए सर्वेक्षणों से पता चलता है कि यह उद्योग डेटा खनिकों द्वारा उपयोग की जाने वाली अग्रणी पद्धति थी जिन्होंने सर्वेक्षण का जवाब देने का निर्णय लिया।   इन चुनावों में नामित एकमात्र अन्य डेटा माइनिंग दृष्टिकोण SEMMA था। हालाँकि, एसएएस संस्थान स्पष्ट रूप से कहता है कि SEMMA एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा। सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा शामिल है, और एज़ेवेडो और सैंटोस की 2008 में CRISP-DM और SEMMA की तुलना। कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में शुरू हुए, लेकिन जून 2015 तक, एक नया संस्करण नहीं आया, और वेबसाइट के साथ जिम्मेदार विशेष रुचि समूह (एसआईजी) लंबे समय से गायब है (देखें #इतिहास|सीआरआईएसपी-डीएम का इतिहास) ).