संघ नियम अधिगम

एसोसिएशन रूल लर्निंग एक नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए एसोसिएशन रूल लर्निंग एक नियम-आधारित मशीन लर्निंग विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है। विभिन्न मदों के साथ किसी दिए गए लेन-देन में, एसोसिएशन नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।

मजबूत नियमों की अवधारणा के आधार पर राकेश अग्रवाल (कंप्यूटर वैज्ञानिक), टॉमाज़ इमेलिंस्की और अरुण स्वामी सुपरमार्केट में बिक्री केन्द्र (POS) सिस्टम द्वारा अभिलेख किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए संगठन नियम पेश किए। उदाहरण के लिए, नियम$$\{\mathrm{onions, potatoes}\} \Rightarrow \{\mathrm{burger}\}$$ एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार मूल्य निर्धारण या उत्पाद लगाने की क्रिया (प्लेसमेंट)।

उपरोक्त उदाहरण के अलावा बाजार टोकरी विश्लेषण संघ के नियम आज वेब उपयोग खनन, अनुचित हस्तक्षेप, निरंतर उत्पादन और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। अनुक्रम खनन (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।

संगठन (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।

परिभाषा
[[File:Association Rule Mining Venn Diagram.png|thumb|डेटासेट के आइटमसेट X और Y के बीच जुड़ाव दिखाने के लिए एक वेन आरेख। आइटम X वाले सभी लेन-देन सर्कल के सफेद, बाएं हिस्से में स्थित हैं, जबकि Y वाले लाल रंग और दाईं ओर हैं। X और Y दोनों वाले कोई भी लेन-देन मध्य में स्थित होते हैं और गुलाबी रंग के होते हैं।

इस ग्राफ से जानकारी को दर्शाने के लिए कई अवधारणाओं का उपयोग किया जा सकता है। उदाहरण के लिए, यदि कोई सभी लेन-देन को गुलाबी खंड में लेता है और उन्हें लेनदेन की कुल राशि से विभाजित करता है (लेन-देन में X (सफेद) + लेन-देन जिसमें Y (लाल) होता है), तो आउटपुट को समर्थन के रूप में जाना जाएगा। विश्वास के रूप में जानी जाने वाली विधि का परिणाम प्राप्त करने का एक उदाहरण, कोई भी सभी लेन-देन को बीच में (गुलाबी) ले सकता है और उन्हें उन सभी लेनदेन से विभाजित कर सकता है जिनमें Y (लाल और गुलाबी) होता है।

इस स्थिति में, Y पूर्ववर्ती है और X परिणामी है।]]अग्रवाल, इमिलिंस्की, स्वामी द्वारा मूल परिभाषा के बाद संघ नियम खनन की समस्या को इस प्रकार परिभाषित किया गया है:

होने देना $$I=\{i_1, i_2,\ldots,i_n\}$$ का एक सेट हो $$n$$ बाइनरी गुण आइटम कहा जाता है।

होने देना $$D = \{t_1, t_2, \ldots, t_m\}$$ लेन-देन का एक सेट जिसे डेटाबेस कहा जाता है।

प्रत्येक लेन-देन में $$D$$ एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है $$I$$.

एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:

$$X \Rightarrow Y$$, जहाँ पे $$X, Y \subseteq I$$.

अग्रवाल, इमिलिंस्की, स्वामी में एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, $$X \Rightarrow i_j$$ के लिये $$i_j \in I$$.

प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है $$X$$ तथा $$Y$$ जहाँ पे $$X$$ पूर्ववर्ती या बाएं हाथ की ओर (LHS) और $$Y$$ परिणामी या दाहिनी ओर (RHS) कहा जाता है। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन $$X \Rightarrow Y$$ को अक्सर $$X$$ तब $$Y$$ के रुप में पढ़ा जाता है, जहां पूर्ववर्ती ($$X$$) और परिणामी ($$Y$$) है। इसका तात्पर्य यह है कि सिद्धांत रूप में जब भी $$X$$ डेटासेट में होता है तब $$Y$$ भी होगा।

प्रक्रिया
एसोसिएशन के नियम बार -बार if-then पैटर्न के लिए डेटा खोज कर और समर्थन और विश्वास के तहत एक निश्चित मानदंड का उपयोग करके सबसे महत्वपूर्ण रिश्ते क्या हैं, इसे परिभाषित करने के लिए बनाए जाते हैं। समर्थन इस बात का प्रमाण है कि दिए गए डेटा में कोई वस्तु कितनी बार दिखाई देती है, क्योंकि विश्वास को परिभाषित किया जाता है कि कितनी बार if-then कथन सत्य पाए जाते हैं। हालाँकि, एक तीसरा मानदंड है जिसका उपयोग किया जा सकता है, इसे लिफ्ट कहा जाता है और इसका उपयोग अपेक्षित आत्मविश्वास और वास्तविक आत्मविश्वास की तुलना करने के लिए किया जा सकता है। लिफ़्ट यह दर्शाएगा कि if-then कथन के सत्य होने की कितनी बार अपेक्षा की जाती है।

एसोसिएशन के नियम आइटम सेट से गणना करने के लिए बनाए जाते हैं, जो दो या दो से अधिक आइटम द्वारा बनाए जाते हैं। यदि डेटा से सभी संभावित आइटमसेट के विश्लेषण से नियम बनाए गए होते तो इतने सारे नियम होते कि उनका कोई अर्थ नहीं होता। यही कारण है कि एसोसिएशन के नियम आम तौर पर उन नियमों से बनाए जाते हैं जो डेटा द्वारा अच्छी तरह से दर्शाए जाते हैं।

कई अलग-अलग डेटा खनन तकनीकें हैं जिनका उपयोग आप कुछ विश्लेषणों और परिणामों को खोजने के लिए कर सकते हैं, उदाहरण के लिए वर्गीकरण विश्लेषण, क्लस्टरिंग विश्लेषण और प्रतिगमन विश्लेषण है। आपको किस तकनीक का उपयोग करना चाहिए यह इस बात पर निर्भर करता है कि आप अपने डेटा के साथ क्या खोज रहे हैं। एसोसिएशन के नियमों का मुख्य रूप से विश्लेषणविद्या (एनालिटिक्स) खोजने और ग्राहक व्यवहार की भविष्यवाणी करने के लिए उपयोग किया जाता है। वर्गीकरण विश्लेषण के लिए, सबसे अधिक इसका उपयोग प्रश्न पूछने, निर्णय लेने और व्यवहार की भविष्यवाणी करने के लिए किया जाएगा। क्लस्टरिंग विश्लेषण का मुख्य रूप से उपयोग तब किया जाता है जब डेटा के भीतर संभावित संबंधों के बारे में कोई अनुमान नहीं लगाया जाता है। प्रतिगमन विश्लेषण का उपयोग तब किया जाता है जब आप कई स्वतंत्र चरों से निरंतर आश्रित के मूल्य की भविष्यवाणी करना चाहते हैं।

फ़ायदे
एसोसिएशन के नियमों का उपयोग करने के कई लाभ हैं जैसे पैटर्न ढूंढना जो डेटा सेट के बीच सहसंबंधों और सह-घटनाओं को समझने में मदद करता है। एसोसिएशन के नियमों का उपयोग करने वाला एक बहुत अच्छा वास्तविक दुनिया का उदाहरण दवा होगा। चिकित्सा रोगियों के निदान में मदद करने के लिए एसोसिएशन के नियमों का उपयोग करती है। रोगियों का निदान करते समय विचार करने के लिए कई चर होते हैं क्योंकि कई रोग समान लक्षण साझा करेंगे। एसोसिएशन के नियमों के उपयोग के साथ, डॉक्टर पिछले मामलों से लक्षण संबंधों की तुलना करके बीमारी की सशर्त संभावना निर्धारित कर सकते हैं।

पतन
हालाँकि, एसोसिएशन के नियम भी कई अलग-अलग गिरावटों का कारण बनते हैं जैसे कि खनन एल्गोरिथम के लिए उपयुक्त पैरामीटर और थ्रेसहोल्ड सेटिंग्स खोजना। लेकिन बड़ी संख्या में खोजे गए नियमों का पतन भी है। इसका कारण यह है कि यह इस बात की गारंटी नहीं देता है कि नियम प्रासंगिक पाए जाएंगे, लेकिन इससे एल्गोरिथम का प्रदर्शन कम हो सकता है। कभी-कभी कार्यान्वित एल्गोरिदम में बहुत अधिक चर और पैरामीटर होते हैं। जिन लोगों के पास डेटा माइनिंग की अच्छी अवधारणा नहीं है, उनके लिए इसे समझने में परेशानी हो सकती है।

थ्रेशोल्ड
एसोसिएशन के नियमों का उपयोग करते समय, आप केवल समर्थन और विश्वास का उपयोग करने की सबसे अधिक संभावना रखते हैं। हालांकि, इसका मतलब है कि आपको एक ही समय में उपयोगकर्ता-निर्दिष्ट न्यूनतम समर्थन और उपयोगकर्ता-निर्दिष्ट न्यूनतम विश्वास को पूरा करना होगा। आम तौर पर, एसोसिएशन नियम जनरेशन को दो अलग-अलग चरणों में विभाजित किया जाता है जिन्हें लागू करने की आवश्यकता होती है:


 * 1) डेटाबेस में मौजूद सभी लगातार आइटम्स को खोजने के लिए एक न्यूनतम समर्थन सीमा।
 * 2) नियम बनाने के लिए बार-बार मिलने वाले आइटमसेट के लिए न्यूनतम कॉन्फिडेंस थ्रेशोल्ड।

सपोर्ट थ्रेशोल्ड 30% है, कॉन्फिडेंस थ्रेशोल्ड 50% है

बाईं ओर की तालिका मूल असंगठित डेटा है और दाईं ओर की तालिका थ्रेसहोल्ड द्वारा व्यवस्थित है। इस मामले में आइटम सी समर्थन और विश्वास दोनों के लिए दहलीज से बेहतर है, यही कारण है कि यह पहले है। आइटम ए दूसरे स्थान पर है क्योंकि इसकी दहलीज मान हाजिर हैं। आइटम डी ने समर्थन की सीमा को पूरा किया है, लेकिन विश्वास के लिए नहीं। आइटम बी ने समर्थन या विश्वास के लिए सीमा को पूरा नहीं किया है और यही कारण है कि यह अंतिम है।

डेटाबेस में सभी बार-बार आने वाले आइटम्स को ढूंढना आसान काम नहीं है क्योंकि इसमें सभी संभावित आइटम्स से सभी संभावित आइटम संयोजनों को खोजने के लिए सभी डेटा के माध्यम से जाना शामिल है। संभावित आइटमसेट का सेट सत्ता स्थापित $I$ पर सेट की गई शक्ति है और इसका आकार $$2^n-1$$ हैं, निश्चित रूप से इसका मतलब खाली सेट को बाहर करना है जो वैध आइटमसेट नहीं माना जाता है। हालांकि, पावर सेट का आकार आइटम $n$ की संख्या में तेजी से बढ़ेगा जो कि पावर सेट $I$ के भीतर है। समर्थन की डाउनवर्ड-क्लोजर प्रॉपर्टी का उपयोग करके एक कुशल खोज संभव है (जिसे एंटी-मोनोटोनिसिटी भी कहा जाता है ). यह इस बात की गारंटी देता है कि लगातार आइटमसेट और उसके सभी सबसेट भी अक्सर होते हैं और इस प्रकार बारंबार आइटमसेट के सबसेट के रूप में कोई दुर्लभ आइटमसेट नहीं होगा। इस संपत्ति का शोषण, कुशल एल्गोरिदम (जैसे एप्रीओरी और एक्लाट ) सभी लगातार आइटम सेट पा सकते हैं।

उपयोगी अवधारणाएँ
अवधारणाओं को स्पष्ट करने के लिए, हम सुपरमार्केट डोमेन से एक छोटे से उदाहरण का उपयोग करते हैं। तालिका 2 एक छोटा डेटाबेस दिखाता है जिसमें आइटम होते हैं, जहां प्रत्येक प्रविष्टि में, मान 1 का मतलब संबंधित लेनदेन में आइटम की उपस्थिति होता है, और मान 0 उस लेनदेन में किसी आइटम की अनुपस्थिति का प्रतिनिधित्व करता है। वस्तुओं (आइटम्स) का सेट है $$I= \{\mathrm{milk, bread, butter, beer, diapers, eggs, fruit}\}$$.

सुपरमार्केट के लिए एक उदाहरण नियम हो सकता है $$\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}$$ मतलब अगर मक्खन और ब्रेड खरीदा जाता है तो ग्राहक दूध भी खरीदते हैं।

सभी संभावित नियमों के सेट से दिलचस्प नियमों का चयन करने के लिए, महत्व और रुचि के विभिन्न उपायों पर प्रतिबंध का उपयोग किया जाता है। सबसे प्रसिद्ध बाधाएँ समर्थन और विश्वास पर न्यूनतम सीमाएँ हैं।

माना $$X, Y$$ आइटम सेट हो, $$X \Rightarrow Y$$ एक एसोसिएशन नियम और $T$ किसी दिए गए डेटाबेस के लेनदेन का एक सेट हैं।

नोट: यह उदाहरण अत्यंत छोटा है। व्यावहारिक अनुप्रयोगों में, एक नियम को सांख्यिकीय रूप से महत्वपूर्ण माने जाने से पहले कई सौ लेन-देन के समर्थन की आवश्यकता होती है और डेटासेट में अक्सर हजारों या लाखों लेन-देन होते हैं।

समर्थन
समर्थन इस बात का संकेत है कि डेटासेट में आइटमसेट कितनी बार दिखाई देता है।

हमारे उदाहरण में, लिखित रूप से समर्थन की व्याख्या करना आसान हो सकता है $$support = P(A\cap B)= \frac{(\text{number of transactions containing }A\text{ and }B)}\text{ (total number of transactions)} $$ जहां ए और बी अलग-अलग आइटम सेट होते हैं जो लेनदेन में एक ही समय में होते हैं।

एक उदाहरण के रूप में तालिका 2 का उपयोग करते हुए, आइटमसेट $$X=\{\mathrm{beer, diapers}\}$$ का सहारा है $$1/5=0.2$$ चूंकि यह सभी लेनदेन के 20% (5 में से 1 लेनदेन) में होता है। एक्स के समर्थन का तर्क पूर्व शर्तों का एक सेट है और इस प्रकार अधिक प्रतिबंधात्मक हो जाता है क्योंकि यह बढ़ता है (अधिक समावेशी के बजाय)।

इसके अलावा, आइटमसेट $$Y=\{\mathrm{milk, bread, butter}\}$$ का सहारा है $$1/5=0.2$$ जैसा कि यह सभी लेनदेन के 20% में भी दिखाई देता है।

पूर्ववर्ती और परिणाम का उपयोग करते समय यह एक डेटा माइनर को पूरे डेटा सेट की तुलना में एक साथ खरीदे जाने वाले कई आइटमों के समर्थन को निर्धारित करने की अनुमति देता है। उदाहरण के लिए, तालिका 2 दर्शाती है कि यदि दूध खरीदा जाता है तो खरीदी गई ब्रेड को 0.4 या 40% का समर्थन प्राप्त होता है। ऐसा इसलिए क्योंकि 5 में से 2 ट्रांजैक्शन में दूध और ब्रेड दोनों ही खरीदे जाते हैं। इस उदाहरण जैसे छोटे डेटा सेट में कुछ नमूने होने पर मजबूत सहसंबंध देखना कठिन होता है लेकिन जब डेटा सेट बड़ा हो जाता है, तो सुपरमार्केट उदाहरण में दो या दो से अधिक उत्पादों के बीच सहसंबंध खोजने के लिए समर्थन का उपयोग किया जा सकता है।

न्यूनतम समर्थन थ्रेसहोल्ड यह निर्धारित करने के लिए उपयोगी है कि कौन से आइटम सेट पसंद किए जाते हैं या दिलचस्प हैं।

यदि हम तालिका 3 में समर्थन सीमा को ≥0.4 पर सेट करते हैं, तो $$\{\mathrm{milk}\} \Rightarrow \{\mathrm{eggs}\}$$ हटा दिया जाएगा क्योंकि यह 0.4 की न्यूनतम सीमा को पूरा नहीं करता था। न्यूनतम दहलीज का उपयोग उन नमूनों को हटाने के लिए किया जाता है जहां डेटासेट में नमूने को महत्वपूर्ण या दिलचस्प मानने के लिए पर्याप्त मजबूत समर्थन या विश्वास नहीं है।

दिलचस्प नमूने खोजने का एक और तरीका है (समर्थन) एक्स (आत्मविश्वास); यह एक डेटा माइनर को उन नमूनों को देखने की अनुमति देता है जहां डेटासेट में हाइलाइट किए जाने के लिए समर्थन और आत्मविश्वास काफी अधिक है और वस्तुओं के बीच संबंध के बारे में अधिक जानकारी प्राप्त करने के लिए नमूने को करीब से देखने का संकेत देता है।

संपूर्ण डेटासेट की तुलना में उत्पादों के बीच संबंध खोजने के लिए समर्थन फायदेमंद हो सकता है, जबकि विश्वास एक या अधिक वस्तुओं और अन्य वस्तुओं के बीच संबंध को देखता है। नीचे एक तालिका है जो आत्मविश्वास मूल्यों को प्राप्त करने के लिए तालिका 4 से जानकारी का उपयोग करके समर्थन और समर्थन x विश्वास के बीच तुलना और विपरीतता दिखाती है।

का समर्थन $X$ इसके संबंध में $T$ डेटासेट में लेन-देन के अनुपात के रूप में परिभाषित किया गया है जिसमें आइटमसेट मौजूद हैं $X$ द्वारा लेन-देन को अस्वीकार करना $$(i,t)$$ जहाँ पे $i$ लेन-देन की विशिष्ट पहचानकर्ता है और $t$ इसका आइटमसेट है, समर्थन को इस प्रकार लिखा जा सकता है:

$$\mathrm{support\,of\,X} = \frac{|\{(i,t) \in T : X \subseteq t \}|}{|T|}$$

अधिक जटिल डेटासेट को परिभाषित करते समय इस संकेतन का उपयोग किया जा सकता है जहां आइटम और आइटमसेट ऊपर हमारे सुपरमार्केट उदाहरण के रूप में आसान नहीं हो सकते हैं। अन्य उदाहरण जहाँ समर्थन का उपयोग किया जा सकता है, आनुवंशिक उत्परिवर्तन के समूहों को खोजने में है जो एक बीमारी का कारण बनने के लिए सामूहिक रूप से काम करते हैं, उन ग्राहकों की संख्या की जांच करते हैं जो अपग्रेड ऑफ़र का जवाब देते हैं, और यह पता लगाते हैं कि किसी दवा की दुकान में कौन से उत्पाद कभी एक साथ नहीं खरीदे जाते हैं।

आत्मविश्वास
विश्वास सभी लेन-देन के का प्रतिशत है जो X को संतुष्ट करता है जो Y को भी संतुष्ट करता है।

इसके संबंध में $T$ एक संघ नियम का विश्वास मूल्य है, जिसे अक्सर $$X \Rightarrow Y$$ के रूप में निरूपित किया जाता हैं, मौजूद X मानों की कुल राशि के लिए $X$ तथा $Y$ दोनों लेनदेन का अनुपात है, जहां $X$ पूर्ववर्ती है और $Y$ परिणामी है।

कॉन्फिडेंस की व्याख्या सशर्त संभाव्यता के अनुमान के रूप में समझा जा सकता है $$P(E_Y | E_X)$$, लेन-देन में नियम के आरएचएस को खोजने की संभावना इस शर्त के तहत है कि इन लेनदेन में एलएचएस भी शामिल है।

इसे आमतौर पर इस रूप में दर्शाया गया है:

$$\mathrm{conf}(X \Rightarrow Y) = P(Y | X) = \frac{\mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) }=\frac{\text{number of transactions containing }X\text{ and }Y}{\text{number of transactions containing }X}$$

समीकरण दर्शाता है कि केवल X वाले लेनदेन के अनुपात में डेटासेट के भीतर लेन-देन X और Y की सह-घटना की गणना करके विश्वास की गणना की जा सकती है। इसका मतलब है कि X और Y दोनों में लेन-देन की संख्या को केवल X में उन लोगों द्वारा विभाजित किया गया है।

उदाहरण के लिए, तालिका 2 नियम दिखाता है $$\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}$$ जिसमें $$\frac{1/5}{1/5}=\frac{0.2}{0.2}=1.0$$ डेटासेट में, जो दर्शाता है कि हर बार जब कोई ग्राहक मक्खन और ब्रेड खरीदता है तो वे दूध भी खरीदते हैं। यह विशेष उदाहरण मक्खन और ब्रेड दोनों वाले लेनदेन के लिए नियम को 100% सही होने का प्रदर्शन करता है। नियम$$\{\mathrm{fruit}\} \Rightarrow \{\mathrm{eggs}\}$$ का आत्मविश्वास है $$\frac{2/5}{3/5}=\frac{0.4}{0.6}=0.67$$, इससे पता चलता है कि फल लाए जाने के 67% बार अंडे खरीदे जाते हैं। इस विशेष डेटासेट के भीतर फलों को कुल 3 बार खरीदा जाता है, जिसमें से दो बार अंडे की खरीदारी होती है।

बड़े डेटासेट के लिए, न्यूनतम सीमा, या प्रतिशत कटऑफ़, विश्वास के लिए आइटम संबंधों को निर्धारित करने के लिए उपयोगी हो सकता है। तालिका 2 में कुछ डेटा के लिए इस पद्धति को लागू करते समय, आवश्यकताओं को पूरा नहीं करने वाली जानकारी हटा दी जाती है। तालिका 4 एसोसिएशन नियम उदाहरण दिखाती है जहां विश्वास के लिए न्यूनतम सीमा 0.5 (50%) है। कोई भी डेटा जिसमें कम से कम 0.5 का विश्वास नहीं है, को छोड़ दिया गया है। थ्रेसहोल्ड उत्पन्न करने से वस्तुओं के बीच जुड़ाव मजबूत हो जाता है क्योंकि डेटा को सबसे अधिक सह-घटित करने पर जोर देकर आगे शोध किया जाता है। तालिका समर्थन x विश्वास कॉलम को लागू करने के लिए तालिका 3 से विश्वास जानकारी का उपयोग करती है, जहां केवल एक अवधारणा के बजाय, उनके विश्वास और समर्थन दोनों के माध्यम से वस्तुओं के बीच संबंध को हाइलाइट किया जाता है। समर्थन एक्स कॉन्फिडेंस द्वारा नियमों की रैंकिंग किसी विशेष नियम के विश्वास को उसके समर्थन से गुणा करती है और अक्सर वस्तुओं के बीच संबंधों की अधिक गहन समझ के लिए लागू की जाती है।

कुल मिलाकर, एसोसिएशन रूल माइनिंग में विश्वास का उपयोग करना डेटा संबंधों के प्रति जागरूकता लाने का एक शानदार तरीका है। इसका सबसे बड़ा लाभ सेट के भीतर विशेष वस्तुओं के बीच एक दूसरे से संबंध को उजागर करना है, क्योंकि यह वस्तुओं की सह-घटनाओं की तुलना विशिष्ट नियम में पूर्ववर्ती की कुल घटना से करता है। हालांकि, संघ नियम खनन में हर अवधारणा के लिए विश्वास सबसे अच्छा तरीका नहीं है। इसका उपयोग करने का नुकसान यह है कि यह संघों पर एकाधिक अंतर दृष्टिकोण प्रदान नहीं करता है। समर्थन के विपरीत, उदाहरण के लिए, विश्वास संपूर्ण डेटासेट की तुलना में कुछ वस्तुओं के बीच संबंधों का परिप्रेक्ष्य प्रदान नहीं करता है, इसलिए दूध और रोटी, उदाहरण के लिए, विश्वास के लिए 100% समय हो सकता है, इसमें केवल 0.4 का समर्थन होता है (40%)। यही कारण है कि कि रिश्तों को परिभाषित करने के लिए लगातार एक अवधारणा पर निर्भर रहने के बजाय अन्य दृष्टिकोणों को देखना महत्वपूर्ण है, जैसे कि समर्थन x विश्वास।

लिफ्ट
लिफ्ट के नियम को इस प्रकार परिभाषित किया गया है:

$$ \mathrm{lift}(X\Rightarrow Y) = \frac{ \mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) \times \mathrm{supp}(Y) } $$

X और Y स्वतंत्र होने पर अपेक्षित समर्थन के लिए देखे गए समर्थन का अनुपात।

उदाहरण के लिए, नियम $$\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}$$ की लिफ्ट है $$\frac{0.2}{0.4 \times 0.4} = 1.25 $$.

यदि नियम में 1 की वृद्धि होती है, तो इसका अर्थ यह होगा कि पूर्ववर्ती और परिणामी होने की संभावना एक दूसरे से स्वतंत्र हैं। जब दो घटनाएँ एक-दूसरे से स्वतंत्र होती हैं तो उन दो घटनाओं को शामिल करते हुए कोई नियम नहीं बनाया जा सकता।

यदि लिफ़्ट > 1 है, तो इससे हमें पता चलता है कि वे दो घटनाएँ किस हद तक एक दूसरे पर निर्भर हैं और उन नियमों को भविष्य के डेटा सेटों में परिणाम की भविष्यवाणी करने के लिए संभावित रूप से उपयोगी बनाती हैं।

यदि लिफ्ट <1 है, तो इससे हमें पता चलता है कि आइटम एक दूसरे के स्थानापन्न हैं। इसका मतलब यह है कि एक वस्तु की उपस्थिति का दूसरे वस्तु की उपस्थिति पर और इसके अलावा नकारात्मक प्रभाव पड़ता है।

लिफ़्ट का मूल्य यह है कि यह नियम के समर्थन और समग्र डेटा सेट दोनों पर विचार करता है।

दोषसिद्धि
एक नियम की सजा के रूप में परिभाषित किया गया है $$ \mathrm{conv}(X\Rightarrow Y) =\frac{ 1 - \mathrm{supp}(Y) }{ 1 - \mathrm{conf}(X\Rightarrow Y)}$$.

उदाहरण के लिए, नियम $$\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}$$ का दृढ़ विश्वास है $$\frac{1 - 0.4}{1 - 0.5} = 1.2 $$और अपेक्षित आवृत्ति के अनुपात के रूप में व्याख्या की जा सकती है जो X बिना Y के होता है (अर्थात् वह आवृत्ति जो नियम गलत भविष्यवाणी करता है) यदि X और Y स्वतंत्र रूप से गलत भविष्यवाणियों की देखी गई आवृत्ति से विभाजित थे। इस उदाहरण में, 1.2 का दृढ़ विश्वास मूल्य दर्शाता है कि नियम $$\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}$$ यदि X और Y के बीच संबंध पूरी तरह से यादृच्छिक मौका था तो 20% अधिक बार (1.2 गुना अधिक बार) गलत होगा।

दिलचस्पता के वैकल्पिक उपाय
विश्वास के अतिरिक्त नियमों के लिए रोचकता के अन्य उपाय प्रस्तावित किए गए हैं। कुछ लोकप्रिय उपाय हैं:

कई उपाय और उनकी तुलना टैन एट अल और हस्लर द्वारा प्रस्तुत किए गए हैं। ऐसी तकनीकों की तलाश करना जो उपयोगकर्ता को ज्ञात हो (और इन मॉडलों को दिलचस्प उपायों के रूप में उपयोग करना) वर्तमान में "व्यक्तिपरक दिलचस्पता" (सब्जेक्टिव इंटरेस्टिंग) के नाम से एक सक्रिय शोध प्रवृत्ति है।
 * सर्व-विश्वास
 * सामूहिक शक्ति
 * उत्तोलन

इतिहास
एसोसिएशन नियमों की अवधारणा विशेष रूप से अग्रवाल एट अल के 1993 के लेख के कारण लोकप्रिय हुई थी। जिसने अप्रैल 2021 तक गूगल (Google) विद्वान के अनुसार 23,790 से अधिक उद्धरण प्राप्त किए हैं और इस प्रकार यह डेटा खनन क्षेत्र में सबसे अधिक उद्धृत पत्रों में से एक है। हालाँकि, जिसे अब एसोसिएशन नियम कहा जाता है उसे 1966 के लेख्य गुहा पर पेश किया जा चुका है जो पेट्र हाजेक एट अल द्वारा विकसित एक सामान्य डेटा खनन विधि हैं।

सभी एसोसिएशन नियमों को खोजने के लिए न्यूनतम समर्थन और विश्वास का प्रारंभिक (लगभग 1989) उपयोग विशेषता आधारित नमूने की बनावट (मॉडलिंग) ढांचा है, जिसमें सभी नियम पाए गए $$\mathrm{supp}(X)$$ तथा $$\mathrm{conf}(X \Rightarrow Y)$$ उपयोगकर्ता परिभाषित बाधाओं (यूज़र डिफ़ाइंड कंस्ट्रेंट्स) से बड़ा है।

सांख्यिकीय रूप से ध्वनि संघ
संघों की खोज के लिए मानक दृष्टिकोण की एक सीमा यह है कि बड़ी संख्या में संभावित संघों की खोज करके उन वस्तुओं के संग्रह की तलाश की जा सकती है जो संबंधित प्रतीत होते हैं, कई नकली संघों को खोजने का एक बड़ा जोखिम है। ये उन वस्तुओं का संग्रह हैं जो डेटा में अप्रत्याशित आवृत्ति के साथ सह-घटित होते हैं लेकिन ऐसा केवल संयोग से होता है। उदाहरण के लिए, मान लीजिए कि हम 10,000 वस्तुओं के संग्रह पर विचार कर रहे हैं और ऐसे नियमों की तलाश कर रहे हैं जिनमें बाईं ओर दो आइटम हैं और दाईं ओर 1 आइटम है लगभग 1,000,000,000,000 ऐसे नियम हैं। यदि हम 0.05 के महत्व स्तर के साथ स्वतंत्रता के लिए एक सांख्यिकीय परीक्षण लागू करते हैं तो इसका मतलब है कि अगर कोई संबंध नहीं है तो नियम को स्वीकार करने की केवल 5% संभावना है। अगर हम मानते हैं कि कोई संबंध नहीं हैं तो भी हमें 50,000,000,000 नियम खोजने की उम्मीद करनी चाहिए। सांख्यिकीय रूप से ध्वनि संघ खोज इस जोखिम को नियंत्रित करता है, ज्यादातर मामलों में उपयोगकर्ता द्वारा निर्दिष्ट महत्व स्तर पर किसी नकली संघों को खोजने के जोखिम को कम करता है।

एल्गोरिदम
एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।

कुछ जाने-माने एल्गोरिदम एप्रीओरी एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।

एप्रीओरी एल्गोरिथम
एप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।

अवलोकन: एप्रीओरी एल्गोरिथ्म "नीचे ऊपर" (बॉटम अप) दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम (उम्मीदवार पीढ़ी के रूप में जाना जाने वाला एक कदम) बढ़ाया जाता है और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज" (breadth-first search) और हैश ट्री (Hass tree structure) संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।

उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है। अब हम प्रत्येक वर्ण की घटनाओं की संख्या की गणना करके लगातार आइटम सेट उत्पन्न करेंगे। इसे समर्थन मूल्य खोजने के रूप में भी जाना जाता है। फिर हम एक न्यूनतम समर्थन सीमा चुनकर सेट आइटम की छँटाई करेंगे। एल्गोरिथम के इस पास के लिए हम 3 चुनेंगे। चूंकि सभी समर्थन मूल्य तीन या उससे ऊपर हैं इसलिए कोई छंटाई नहीं है। लगातार आइटम सेट {ए}, {बी}, {सी}, और {डी} है। इसके बाद हम इनपुट सेट में म्यूटेशन के जोड़े की गिनती करके प्रक्रिया को दोहराएंगे। अब हम अपना मिनिमम सपोर्ट वैल्यू 4 कर देंगे तो प्रूनिंग के बाद सिर्फ {a,d} और {c,d} ही रह जाएगा। अब हम ट्रिपलेट्स का संयोजन बनाने के लिए फ़्रीक्वेंट आइटम सेट का उपयोग करेंगे। फिर हम इनपुट सेट में म्यूटेशन के तीन गुना होने की घटनाओं की गणना करके प्रक्रिया को दोहराएंगे। चूंकि हमारे पास केवल एक आइटम है, चौगुनी के संयोजन का अगला सेट खाली है इसलिए एल्गोरिथ्म बंद हो जाएगा।

लाभ और सीमाएं:
Apriori की कुछ सीमाएँ हैं। उम्मीदवार पीढ़ी के परिणामस्वरूप बड़े उम्मीदवार सेट हो सकते हैं। उदाहरण के लिए एक 10^4 लगातार 1-आइटमसेट 10^7 उम्मीदवार 2-आइटमसेट उत्पन्न करेगा। एल्गोरिथम को डेटाबेस को बार-बार स्कैन करने की आवश्यकता होती है, विशिष्ट n+1 स्कैन होने के लिए जहां n सबसे लंबे पैटर्न की लंबाई है। Apriori Eclat एल्गोरिथम की तुलना में धीमा है। हालाँकि, जब डेटासेट बड़ा होता है तो Eclat की तुलना में Apriori अच्छा प्रदर्शन करता है। ऐसा इसलिए है क्योंकि Eclat एल्गोरिथम में यदि डेटासेट बहुत बड़ा है तो मेमोरी के लिए tid-सूचियाँ बहुत बड़ी हो जाती हैं। FP-ग्रोथ ने Apriori और Eclat को पीछे छोड़ दिया है। यह एफपी-ग्रोथ एल्गोरिदम के कारण एक कॉम्पैक्ट डेटा संरचना का उपयोग करके उम्मीदवार पीढ़ी या परीक्षण नहीं होने और केवल एक डेटाबेस स्कैन होने के कारण है।

एक्लाट एल्गोरिथम
एक्लाट (alt. ECLAT, समतुल्य वर्ग परिवर्तन के लिए खड़ा है) एक बैक ट्रैकिंग एल्गोरिदम है, जो गहराई से पहली खोज (DFS) फैशन में लगातार आइटमसेट जाली ग्राफ का पता लगाता है। जबकि Apriori एल्गोरिथम में उपयोग किया जाने वाला ब्रेड्थ-फर्स्ट सर्च (BFS) ट्रैवर्सल किसी आइटमसेट के प्रत्येक सबसेट की जाँच करने से पहले उसकी जाँच करेगा, DFS ट्रैवर्सल बड़े आइटमसेट की जाँच करता है और नीचे की ओर downward closure property के आधार पर इसके कुछ सबसेट के समर्थन की जाँच करने से बचा सकता है। इसके अलावा यह लगभग निश्चित रूप से कम मेमोरी का उपयोग करेगा क्योंकि डीएफएस में बीएफएस की तुलना में कम जगह की जटिलता है।

इसे स्पष्ट करने के लिए, एक लगातार आइटमसेट {ए, बी, सी} होने दें। डीएफएस निम्नलिखित क्रम में लगातार आइटमसेट जाली में नोड्स की जांच कर सकता है: {ए} → {ए, बी} → {ए, बी, सी}, जिस बिंदु पर यह ज्ञात है कि {बी}, {सी}, { ए, सी}, {बी, सी} सभी डाउनवर्ड-क्लोजर प्रॉपर्टी द्वारा समर्थन बाधा को संतुष्ट करते हैं। बीएफएस अंत में जांच करने से पहले {ए, बी, सी} के प्रत्येक सबसेट का पता लगाएगा। जैसे-जैसे एक आइटमसेट का आकार बढ़ता है, इसके उपसमुच्चयों की संख्या संयोजी विस्फोट से गुजरती है।

यह स्थानीयता-बढ़ाने वाले गुणों के साथ अनुक्रमिक और साथ ही समानांतर निष्पादन दोनों के लिए उपयुक्त है।

एफपी-विकास एल्गोरिथम
एफपी लगातार पैटर्न के लिए संदर्भित किया जाता है।

पहले पास में, एल्गोरिथ्म लेन-देन के डेटासेट में आइटम (विशेषता-मूल्य जोड़े) की आवृत्ति की गणना करता है और इन गणनाओं को 'हेडर टेबल' में संग्रहीत करता है। दूसरे पास में, यह एफपी-ट्री स्ट्रक्चर को ट्राइ में ट्रांजेक्शन डालकर बनाता है।

प्रत्येक लेन-देन में वस्तुओं को डालने से पहले डेटासेट में उनकी आवृत्ति के अवरोही क्रम द्वारा क्रमबद्ध किया जाना चाहिए ताकि ट्री को जल्दी से संसाधित किया जा सके।

प्रत्येक लेन-देन में आइटम जो न्यूनतम समर्थन आवश्यकता को पूरा नहीं करते हैं, उन्हें छोड़ दिया जाता है। यदि कई लेन-देन सबसे अधिक बार आइटम साझा करते हैं, तो एफपी-ट्री ट्री रूट के करीब उच्च संपीड़न प्रदान करता है।

मुख्य डेटासेट के इस संकुचित संस्करण का पुनरावर्ती प्रसंस्करण उम्मीदवार वस्तुओं को उत्पन्न करने और उन्हें पूरे डेटाबेस के विरुद्ध परीक्षण करने के बजाय लगातार आइटम सेट को सीधे बढ़ाता है (जैसा कि एप्रियोरी एल्गोरिथम में)।

ग्रोथ हेडर टेबल के नीचे से शुरू होती है यानी उस आइटम में समाप्त होने वाले सभी सॉर्ट किए गए लेन-देन को ढूंढकर सबसे कम समर्थन वाला आइटम। इस आइटम को $$I$$ कहते हैं।

एक नया सशर्त ट्री बनाया जाता है जो मूल एफपी-ट्री $$I$$ पर प्रक्षेपित होता है। अनुमानित पेड़ में सभी नोड्स के समर्थन को फिर से गिना जाता है, प्रत्येक नोड को उसके बच्चों की संख्या का योग मिलता है। नोड्स (और इसलिए सबट्रीज़) जो न्यूनतम समर्थन को पूरा नहीं करते हैं, काट दिए जाते हैं। पुनरावर्ती विकास तब समाप्त होता है जब $$I$$ पर कोई भी व्यक्तिगत आइटम न्यूनतम समर्थन सीमा को पूरा नहीं करता है। रूट से $$I$$ तक परिणामी पाथ लगातार आइटमसेट होंगे। इस कदम के बाद, मूल एफपी-ट्री के अगले कम से कम समर्थित हेडर आइटम के साथ प्रसंस्करण जारी रहता है।

एक बार पुनरावर्ती प्रक्रिया पूरी हो जाने के बाद सभी लगातार आइटम सेट मिल जाएंगे और संघ (एसोसिएशन) नियम निर्माण शुरू हो जाएगा।

ASSOC
ASSOC प्रक्रिया एक गुहा (GUHA) विधि है जो तेज़ बिटस्ट्रिंगसंचालन का उपयोग करके सामान्यीकृत एसोसिएशन नियमों के लिए खनन करती है। इस पद्धति द्वारा खनन किए गए संघ के नियम एप्रियोरी द्वारा उन आउटपुट की तुलना में अधिक सामान्य हैं, उदाहरण के लिए वस्तुओं का संयोजन और संयोजन दोनों के साथ जोड़ा जा सकता है पूर्ववर्ती और नियम के परिणाम के बीच संबंध न्यूनतम समर्थन और विश्वास स्थापित करने तक सीमित नहीं है जैसा कि एप्रियोरी: समर्थित ब्याज उपायों के मनमाने संयोजन का उपयोग किया जा सकता है।

ओपस खोज
ओपस (OPUS) नियम की खोज के लिए एक कार्यक्षम एल्गोरिदम है, जो कि अधिकांश विकल्पों के विपरीत, न्यूनतम समर्थन जैसे मोनोटोन या एंटी-मोनोटोन बाधाओं की आवश्यकता नहीं होती है। प्रारंभ में एक निश्चित परिणाम के लिए नियम खोजने के लिए उपयोग किया जाता था इसे बाद में परिणाम के रूप में किसी भी आइटम के साथयमों को खोजने के लिए विस्तारित किया गया था। लोकप्रिय मैग्नम ओपस (OPUS) एसोसिएशन डिस्कवरी सिस्टम में ओपस खोज मुख्य तकनीक है।

विद्या
एसोसिएशन रूल माइनिंग के बारे में एक प्रसिद्ध कहानी बीयर और डायपर की कहानी है। सुपरमार्केट दुकानदारों के व्यवहार के एक कथित सर्वेक्षण में पता चला कि डायपर खरीदने वाले ग्राहक (संभवतः युवा पुरुष) भी बीयर खरीदने की प्रवृत्ति रखते हैं। यह उपाख्यान इस बात के उदाहरण के रूप में लोकप्रिय हुआ कि रोज़मर्रा के डेटा से अनपेक्षित संघ नियम कैसे पाए जा सकते हैं। कहानी में कितनी सच्चाई है इस पर अलग-अलग राय है। डैनियल पॉवर्स कहते हैं:

"1992 में, टेराडाटा में एक खुदरा परामर्श समूह के प्रबंधक थॉमस ब्लिशोक और उनके कर्मचारियों ने लगभग 25 ओस्को ड्रग स्टोर से 1.2 मिलियन मार्केट बास्केट का विश्लेषण तैयार किया। एफ़िनिटी की पहचान करने के लिए डेटाबेस क्वेरीज़ विकसित की गईं। विश्लेषण से पता चला कि शाम 5:00 से 7:00 बजे के बीच उपभोक्ताओं ने बीयर और डायपर खरीदे। ओस्को (Osco) के प्रबंधकों ने बियर और डायपर के बीच संबंधों का शोषण नहीं किया, उत्पादों को अलमारियों पर एक साथ रखकर।"

अन्य प्रकार के संघ नियम खनन
मल्टी-रिलेशनशिप एसोसिएशन रूल्स: मल्टी-रिलेशनल एसोसिएशन रूल्स (MRAR) एसोसिएशन नियम हैं जहाँ प्रत्येक आइटम में कई संबंध हो सकते हैं। ये संबंध संस्थाओं के बीच अप्रत्यक्ष संबंध का संकेत देते हैं। निम्नलिखित एमआरएआर पर विचार करें जहां पहले आइटम में तीन संबंध शामिल हैं लिव इन, निकट और आर्द्र: "जो लोग एक ऐसे स्थान पर रहते हैं जो आर्द्र जलवायु वाले शहर के पास है और 20 वर्ष से कम उम्र के हैं -> उनकी स्वास्थ्य स्थिति अच्छी है"। ऐसे संघ नियम RDBMS डेटा या सिमेंटिक वेब डेटा से निकाले जा सकते हैं। कंट्रास्ट सेट लर्निंग साहचर्य सीखने का एक रूप है। कंट्रास्ट सेट शिक्षार्थी उन नियमों का उपयोग करते हैं जो सबसेट में उनके वितरण में सार्थक रूप से भिन्न होते हैं।

वेटेड क्लास लर्निंग साहचर्य सीखने का एक और रूप है जिसमें डेटा माइनिंग परिणामों के उपभोक्ता के लिए चिंता के एक विशेष मुद्दे पर ध्यान देने के लिए कक्षाओं को भार सौंपा जा सकता है।

हाई-ऑर्डर पैटर्न डिस्कवरी हाई-ऑर्डर (पॉलीथेटिक) पैटर्न या इवेंट एसोसिएशन को पकड़ने की सुविधा प्रदान करती है जो जटिल वास्तविक दुनिया डेटा के लिए आंतरिक हैं।

के-ऑप्टिमल पैटर्न डिस्कवरी एसोसिएशन नियम सीखने के लिए मानक दृष्टिकोण का एक विकल्प प्रदान करता है जिसके लिए आवश्यक है कि प्रत्येक पैटर्न डेटा में बार-बार दिखाई दे।

अनुमानित फ़्रीक्वेंट आइटमसेट माइनिंग फ़्रीक्वेंट आइटमसेट माइनिंग का एक आरामदेह संस्करण है जो कुछ पंक्तियों में कुछ आइटमों को 0 होने की अनुमति देता है। सामान्यीकृत एसोसिएशन नियम पदानुक्रमित वर्गीकरण (अवधारणा पदानुक्रम)

क्वांटिटेटिव एसोसिएशन रूल्स श्रेणीबद्ध और मात्रात्मक डेटा

इंटरवल डेटा एसोसिएशन नियम उदा। उम्र को 5 साल में बांट कर इन्क्रीमेंट किया गया

अनुक्रमिक पैटर्न खनन उन परवर्ती का पता लगाता है जो मिनसअप से अधिक के लिए सामान्य हैं अनुक्रम डेटाबेस में अनुक्रम, जहां minsup उपयोगकर्ता द्वारा निर्धारित किया जाता है। एक अनुक्रम लेन-देन की एक आदेशित सूची है। सबस्पेस क्लस्टरिंग, एक विशिष्ट प्रकार का क्लस्टरिंग उच्च-आयामी डेटा, विशिष्ट क्लस्टरिंग मॉडल के लिए डाउनवर्ड-क्लोजर प्रॉपर्टी के आधार पर कई रूपों में भी है। वार्मर को एसीई डाटा माइनिंग सूट के हिस्से के रूप में भेज दिया गया है। यह पहले क्रम के संबंधपरक नियमों के लिए संघ नियम सीखने की अनुमति देता है।

यह भी देखें

 * अनुक्रम खनन
 * उत्पादन प्रणाली (कंप्यूटर विज्ञान)
 * लर्निंग क्लासिफायर सिस्टम
 * नियम-आधारित मशीन लर्निंग

ग्रंथ सूची

 * एनोटेटेड बिब्लियोग्राफी ऑन एसोसिएशन रूल्स एम. हैस्लर द्वारा

श्रेणी:डेटा प्रबंधन श्रेणी:डेटा खनन