डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया

डेटा माइनिंग के लिए क्रॉस-उद्योग मानक प्रक्रिया, जिसे क्रिस्प-डीएम के रूप में जाना जाता है, एक खुला मानक प्रक्रिया मॉडल है जो डेटा माइनिंग विशेषज्ञों द्वारा उपयोग की जाने वाली सामान्य दृष्टियों को वर्णित करता है। यह सबसे अधिक प्रयोग की जाने वाली वैश्लेषिकी मॉडल है। 2015 में, आईबीएम ने एक नई विधि जारी की जिसे एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स के लिए एकीकृत विधि एएसयूएम-डीएम के नाम से जाना जाता है, जो सीआरआईएसपी-डीएम को संशोधित और विस्तारित करती है।

इतिहास
सीआरआईएसपी-डीएम की सृजन वर्ष 1996 में हुई और 1997 में सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम के वित्तपोषण पहल के अंतर्गत यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियाँ : इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल), टेराडाटा, डेमलर एजी, एनसीआर निगम, और ओएचआरए, ने किया था

इस मुख्य संघ ने परियोजना में विभिन्न अनुभव लाए थे। आइएसएल को बाद में अधिग्रहण किया गया और एसपीएसएस में विलयित किया गया। कंप्यूटर जागतिक एनसीआर कॉर्पोरेशन नेटेराडाटा डेटा वेयरहाउस और अपने डेटा माइनिंग सॉफ़्टवेयर का उत्पादन किया। डैम्लर-बेंज में एक महत्वपूर्ण डेटा माइनिंग टीम थी। ओएचआरए ने डेटा माइनिंग के पोटेंशियल उपयोग की खोज करना प्रारतंभ किया था।

कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी क्रिस्प-डीएम एसआईजी कार्यशाला में प्रस्तुत किया गया था। और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया। 2006 और 2008 के बीच, एक क्रिस्प-डीएम 2.0 एसआईजी का गठन किया गया था, और क्रिस्प-डीएम प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी। इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है,यद्यपि समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट, और क्रिस्प-डीएम  2.0 एसआईजी वेबसाइट दोनों अब सक्रिय नहीं हैं।

जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी क्रिस्प-डीएम का उपयोग करते हैं,  आईबीएम प्राथमिक निगम है जो वर्तमान में क्रिस्प-डीएम प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने क्रिस्प-डीएम दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने  एसपीएसएस मॉडलर उत्पाद में सम्मिलित किया है।

वर्तमान अनुसंधान के आधार पर,क्रिस्प-डीएम डेटा-माइनिंग मॉडल की सबसे अधिक प्रयोग की जाने वाली रूप है क्योंकि इसके कई लाभ हैं जो डेटा-माइनिंग उद्योग में उपस्थित समस्याओं को हल करते हैं। इस मॉडल की कुछ कमियों में यह है कि इसमें परियोजना प्रबंधन गतिविधाएं नहीं होती हैं। सीआरआईएसपी-डीएम की सफलता का बड़ा हिस्सा इस बात के कारण जोड़ा जा सकता है कि यह उद्योग, उपकरण और अनुप्रयोग निष्पक्ष है।

प्रमुख चरण
क्रिस्प-डीएम डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:
 * व्यावसायिक समझ
 * डेटा को समझना
 * डेटा समझ
 * मॉडलिंग
 * मूल्यांकन
 * परिनियोजन

चरणों की क्रमबद्धता सख्त नहीं होती है और सामान्यतः विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। एक डेटा माइनिंग प्रक्रिया एक समाधान को लागू करने के बाद भी जारी रहती है।इस प्रक्रिया के समय प्राप्त अनुभव नई, प्रायः अधिक ध्यानित व्यापार प्रश्नों को प्रेरित कर सकते हैं, और आगामी डेटा माइनिंग प्रक्रियाओं को पूर्ववत अनुभवों से लाभ होगा।

मतदान
2002, 2004, 2007 और 2014 में एक ही वेबसाइट (KDnuggets) पर किए गए सर्वेक्षणों से पता चलता है कि यह उद्योग डेटा खनिकों द्वारा उपयोग की जाने वाली अग्रणी पद्धति थी जिन्होंने सर्वेक्षण का जवाब देने का निर्णय लिया।   इन चुनावों में नामित एकमात्र अन्य डेटा माइनिंग दृष्टिकोण SEMMA था। हालाँकि, एसएएस संस्थान स्पष्ट रूप से कहता है कि SEMMA एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा। सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा शामिल है, और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम     और SEMMA की तुलना। कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में शुरू हुए, लेकिन जून 2015 तक, एक नया संस्करण नहीं आया, और वेबसाइट के साथ जिम्मेदार विशेष रुचि समूह (एसआईजी) लंबे समय से गायब है (देखें #इतिहास|सीआरआईएसपी-डीएम का इतिहास) ).