संघ नियम अधिगम

बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए एसोसिएशन रूल लर्निंग एक नियम-आधारित मशीन लर्निंग विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है। विभिन्न मदों के साथ किसी दिए गए लेन-देन में, एसोसिएशन नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।

मजबूत नियमों की अवधारणा के आधार पर, राकेश अग्रवाल (कंप्यूटर वैज्ञानिक), टॉमाज़ इमेलिंस्की और अरुण स्वामी सुपरमार्केट में बिक्री केन्द्र (POS) सिस्टम द्वारा रिकॉर्ड किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए एसोसिएशन नियम पेश किए। उदाहरण के लिए, नियम $$\{\mathrm{onions, potatoes}\} \Rightarrow \{\mathrm{burger}\}$$ एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार मूल्य निर्धारण या उत्पाद प्लेसमेंट।

उपरोक्त उदाहरण के अलावा बाजार टोकरी विश्लेषण संघ के नियम आज वेब उपयोग खनन, घुसपैठ का पता लगाने, निरंतर उत्पादन और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। अनुक्रम खनन के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।

एसोसिएशन नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा माइनिंग में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना कठिन बना सकते हैं, जिन्हें समझने में कई नियम कठिन हैं।

परिभाषा
[[File:Association Rule Mining Venn Diagram.png|thumb|डेटासेट के आइटमसेट X और Y के बीच जुड़ाव दिखाने के लिए एक वेन आरेख। आइटम X वाले सभी लेन-देन सर्कल के सफेद, बाएं हिस्से में स्थित हैं, जबकि Y वाले लाल रंग और दाईं ओर हैं। X और Y दोनों वाले कोई भी लेन-देन मध्य में स्थित होते हैं और गुलाबी रंग के होते हैं।

इस ग्राफ से जानकारी को दर्शाने के लिए कई अवधारणाओं का उपयोग किया जा सकता है। उदाहरण के लिए, यदि कोई सभी लेन-देन को गुलाबी खंड में लेता है और उन्हें लेनदेन की कुल राशि से विभाजित करता है (लेन-देन में X (सफेद) + लेन-देन जिसमें Y (लाल) होता है), तो आउटपुट को समर्थन के रूप में जाना जाएगा। विश्वास के रूप में जानी जाने वाली विधि का परिणाम प्राप्त करने का एक उदाहरण, कोई भी सभी लेन-देन को बीच में (गुलाबी) ले सकता है और उन्हें उन सभी लेनदेन से विभाजित कर सकता है जिनमें Y (लाल और गुलाबी) होता है।

इस स्थिति में, Y पूर्ववर्ती है और X परिणामी है।]]अग्रवाल, इमिलिंस्की, स्वामी द्वारा मूल परिभाषा के बाद संघ नियम खनन की समस्या को इस प्रकार परिभाषित किया गया है:

होने देना $$I=\{i_1, i_2,\ldots,i_n\}$$ का एक सेट हो $$n$$ बाइनरी गुण आइटम कहा जाता है।

होने देना $$D = \{t_1, t_2, \ldots, t_m\}$$ लेन-देन का एक सेट हो जिसे डेटाबेस कहा जाता है।

प्रत्येक लेन-देन में $$D$$ एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है $$I$$.

एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:

$$X \Rightarrow Y$$, कहाँ पे $$X, Y \subseteq I$$.

अग्रवाल, इमिलिंस्की, स्वामी में एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, $$X \Rightarrow i_j$$ के लिये $$i_j \in I$$.

प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है, $$X$$ तथा $$Y$$, कहाँ पे $$X$$ पूर्ववर्ती या बाएं हाथ की ओर (LHS) कहा जाता है और $$Y$$ परिणामी या दाहिनी ओर (आरएचएस)। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है, जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन $$X \Rightarrow Y$$ अक्सर पढ़ा जाता है $$X$$ फिर $$Y$$, जहां पूर्ववर्ती ($$X$$ ) अगर और परिणामी है ($$Y$$) तब है। इसका तात्पर्य यह है कि, सिद्धांत रूप में, जब भी $$X$$ डेटासेट में होता है, तब $$Y$$ साथ ही होगा।

प्रक्रिया
एसोसिएशन के नियम बार-बार अगर-तो पैटर्न के लिए डेटा खोज कर और सबसे महत्वपूर्ण रिश्ते क्या हैं, इसे परिभाषित करने के लिए समर्थन और विश्वास के तहत एक निश्चित मानदंड का उपयोग करके बनाए जाते हैं। समर्थन इस बात का प्रमाण है कि दिए गए डेटा में कोई वस्तु कितनी बार दिखाई देती है, क्योंकि विश्वास को परिभाषित किया जाता है कि कितनी बार यदि-तब कथन सत्य पाए जाते हैं। हालाँकि, एक तीसरा मानदंड है जिसका उपयोग किया जा सकता है, इसे लिफ्ट कहा जाता है और इसका उपयोग अपेक्षित आत्मविश्वास और वास्तविक आत्मविश्वास की तुलना करने के लिए किया जा सकता है। लिफ़्ट यह दर्शाएगा कि यदि-फिर कथन के सत्य होने की कितनी बार अपेक्षा की जाती है।

एसोसिएशन के नियम आइटम सेट से गणना करने के लिए बनाए जाते हैं, जो दो या दो से अधिक आइटम द्वारा बनाए जाते हैं। यदि डेटा से सभी संभावित आइटमसेट के विश्लेषण से नियम बनाए गए होते तो इतने सारे नियम होते कि उनका कोई अर्थ नहीं होता। यही कारण है कि एसोसिएशन के नियम आम तौर पर उन नियमों से बनाए जाते हैं जो डेटा द्वारा अच्छी तरह से दर्शाए जाते हैं।

कई अलग-अलग डेटा माइनिंग तकनीकें हैं जिनका उपयोग आप कुछ विश्लेषणों और परिणामों को खोजने के लिए कर सकते हैं, उदाहरण के लिए, वर्गीकरण विश्लेषण, क्लस्टरिंग विश्लेषण और प्रतिगमन विश्लेषण है। आपको किस तकनीक का उपयोग करना चाहिए यह इस बात पर निर्भर करता है कि आप अपने डेटा के साथ क्या खोज रहे हैं। एसोसिएशन के नियमों का मुख्य रूप से एनालिटिक्स खोजने और ग्राहक व्यवहार की भविष्यवाणी करने के लिए उपयोग किया जाता है। वर्गीकरण विश्लेषण के लिए, सबसे अधिक संभावना इसका उपयोग प्रश्न पूछने, निर्णय लेने और व्यवहार की भविष्यवाणी करने के लिए किया जाएगा। क्लस्टरिंग विश्लेषण का मुख्य रूप से उपयोग तब किया जाता है जब डेटा के भीतर संभावित संबंधों के बारे में कोई अनुमान नहीं लगाया जाता है। प्रतिगमन विश्लेषण का उपयोग तब किया जाता है जब आप कई स्वतंत्र चरों से निरंतर आश्रित के मूल्य की भविष्यवाणी करना चाहते हैं।

फ़ायदे

एसोसिएशन के नियमों का उपयोग करने के कई लाभ हैं जैसे पैटर्न ढूंढना जो डेटा सेट के बीच सहसंबंधों और सह-घटनाओं को समझने में मदद करता है। एसोसिएशन के नियमों का उपयोग करने वाला एक बहुत अच्छा वास्तविक दुनिया का उदाहरण दवा होगा। चिकित्सा रोगियों के निदान में मदद करने के लिए एसोसिएशन के नियमों का उपयोग करती है। रोगियों का निदान करते समय विचार करने के लिए कई चर होते हैं क्योंकि कई रोग समान लक्षण साझा करेंगे। एसोसिएशन के नियमों के उपयोग के साथ, डॉक्टर पिछले मामलों से लक्षण संबंधों की तुलना करके बीमारी की सशर्त संभावना निर्धारित कर सकते हैं। पतन

हालाँकि, एसोसिएशन के नियम भी कई अलग-अलग गिरावटों का कारण बनते हैं जैसे कि खनन एल्गोरिथम के लिए उपयुक्त पैरामीटर और थ्रेसहोल्ड सेटिंग्स खोजना। लेकिन बड़ी संख्या में खोजे गए नियमों का पतन भी है। इसका कारण यह है कि यह इस बात की गारंटी नहीं देता है कि नियम प्रासंगिक पाए जाएंगे, लेकिन इससे एल्गोरिथम का प्रदर्शन कम हो सकता है। कभी-कभी कार्यान्वित एल्गोरिदम में बहुत अधिक चर और पैरामीटर होते हैं। जिन लोगों के पास डेटा माइनिंग की अच्छी अवधारणा नहीं है, उनके लिए इसे समझने में परेशानी हो सकती है।

Thresholdsएसोसिएशन के नियमों का उपयोग करते समय, आप केवल समर्थन और विश्वास का उपयोग करने की सबसे अधिक संभावना रखते हैं। हालांकि, इसका मतलब है कि आपको एक ही समय में उपयोगकर्ता-निर्दिष्ट न्यूनतम समर्थन और उपयोगकर्ता-निर्दिष्ट न्यूनतम विश्वास को पूरा करना होगा। आम तौर पर, एसोसिएशन नियम जनरेशन को दो अलग-अलग चरणों में विभाजित किया जाता है जिन्हें लागू करने की आवश्यकता होती है:


 * 1) डेटाबेस में मौजूद सभी लगातार आइटम्स को खोजने के लिए एक न्यूनतम समर्थन सीमा।
 * 2) नियम बनाने के लिए पाए जाने वाले बारंबार आइटमसेट के लिए न्यूनतम कॉन्फिडेंस थ्रेशोल्ड।

सपोर्ट थ्रेशोल्ड 30% है, कॉन्फिडेंस थ्रेशोल्ड 50% है

बाईं ओर की तालिका मूल असंगठित डेटा है और दाईं ओर की तालिका थ्रेसहोल्ड द्वारा व्यवस्थित है। इस मामले में आइटम सी समर्थन और विश्वास दोनों के लिए दहलीज से बेहतर है, यही कारण है कि यह पहले है। आइटम ए दूसरे स्थान पर है क्योंकि इसकी दहलीज मान हाजिर हैं। आइटम डी ने समर्थन की सीमा को पूरा किया है, लेकिन विश्वास के लिए नहीं। आइटम बी ने समर्थन या विश्वास के लिए सीमा को पूरा नहीं किया है और यही कारण है कि यह अंतिम है।

डेटाबेस में सभी बार-बार आने वाले आइटम्स को ढूंढना आसान काम नहीं है क्योंकि इसमें सभी संभावित आइटम्स से सभी संभावित आइटम संयोजनों को खोजने के लिए सभी डेटा के माध्यम से जाना शामिल है। संभावित आइटमसेट का सेट सत्ता स्थापित ओवर है $I$ और आकार है $$2^n-1$$, निश्चित रूप से इसका मतलब खाली सेट को बाहर करना है जिसे वैध आइटमसेट नहीं माना जाता है। हालांकि, आइटम की संख्या में पावर सेट का आकार तेजी से बढ़ेगा $n$ जो कि पावर सेट के भीतर है $I$. समर्थन की डाउनवर्ड-क्लोजर प्रॉपर्टी का उपयोग करके एक कुशल खोज संभव है (जिसे एंटी-मोनोटोनिसिटी भी कहा जाता है ). यह इस बात की गारंटी देता है कि लगातार आइटमसेट और उसके सभी सबसेट भी अक्सर होते हैं और इस प्रकार बारंबार आइटमसेट के सबसेट के रूप में कोई दुर्लभ आइटमसेट नहीं होगा। इस संपत्ति का शोषण, कुशल एल्गोरिदम (जैसे, Apriori और एक्लाट ) सभी लगातार आइटम सेट पा सकते हैं।

उपयोगी अवधारणाएँ
अवधारणाओं को स्पष्ट करने के लिए, हम सुपरमार्केट डोमेन से एक छोटे से उदाहरण का उपयोग करते हैं। तालिका 2 एक छोटा डेटाबेस दिखाता है जिसमें आइटम होते हैं, जहां प्रत्येक प्रविष्टि में, मान 1 का मतलब संबंधित लेनदेन में आइटम की उपस्थिति होता है, और मान 0 उस लेनदेन में किसी आइटम की अनुपस्थिति का प्रतिनिधित्व करता है। वस्तुओं का सेट है $$I= \{\mathrm{milk, bread, butter, beer, diapers, eggs, fruit}\}$$.

सुपरमार्केट के लिए एक उदाहरण नियम हो सकता है $$\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}$$ मतलब अगर मक्खन और ब्रेड खरीदा जाता है तो ग्राहक दूध भी खरीदते हैं।

सभी संभावित नियमों के सेट से दिलचस्प नियमों का चयन करने के लिए, महत्व और रुचि के विभिन्न उपायों पर प्रतिबंध का उपयोग किया जाता है। सबसे प्रसिद्ध बाधाएँ समर्थन और विश्वास पर न्यूनतम सीमाएँ हैं।

होने देना $$X, Y$$ आइटम सेट हो, $$X \Rightarrow Y$$ एक एसोसिएशन नियम और $T$ किसी दिए गए डेटाबेस के लेनदेन का एक सेट।

नोट: यह उदाहरण अत्यंत छोटा है। व्यावहारिक अनुप्रयोगों में, एक नियम को सांख्यिकीय रूप से महत्वपूर्ण माने जाने से पहले कई सौ लेन-देन के समर्थन की आवश्यकता होती है, और डेटासेट में अक्सर हजारों या लाखों लेन-देन होते हैं।

समर्थन
समर्थन इस बात का संकेत है कि डेटासेट में आइटमसेट कितनी बार दिखाई देता है।

हमारे उदाहरण में, लिखित रूप से समर्थन की व्याख्या करना आसान हो सकता है $$support = P(A\cap B)= \frac{(\text{number of transactions containing }A\text{ and }B)}\text{ (total number of transactions)} $$ जहां ए और बी अलग-अलग आइटम सेट होते हैं जो लेनदेन में एक ही समय में होते हैं।

एक उदाहरण के रूप में तालिका 2 का उपयोग करते हुए, आइटमसेट $$X=\{\mathrm{beer, diapers}\}$$ का सहारा है $$1/5=0.2$$ चूंकि यह सभी लेनदेन के 20% (5 में से 1 लेनदेन) में होता है। एक्स के समर्थन का तर्क पूर्व शर्त का एक सेट है, और इस प्रकार अधिक प्रतिबंधात्मक हो जाता है क्योंकि यह बढ़ता है (अधिक समावेशी के बजाय)। इसके अलावा, आइटमसेट $$Y=\{\mathrm{milk, bread, butter}\}$$ का सहारा है $$1/5=0.2$$ जैसा कि यह सभी लेनदेन के 20% में भी दिखाई देता है।

पूर्ववर्ती और परिणाम का उपयोग करते समय, यह एक डेटा माइनर को पूरे डेटा सेट की तुलना में एक साथ खरीदे जाने वाले कई आइटमों के समर्थन को निर्धारित करने की अनुमति देता है। उदाहरण के लिए, तालिका 2 दर्शाती है कि यदि दूध खरीदा जाता है, तो खरीदी गई ब्रेड को 0.4 या 40% का समर्थन प्राप्त होता है। ऐसा इसलिए क्योंकि 5 में से 2 ट्रांजैक्शन में दूध और ब्रेड दोनों ही खरीदे जाते हैं। इस उदाहरण जैसे छोटे डेटा सेट में, कुछ नमूने होने पर मजबूत सहसंबंध देखना कठिन होता है, लेकिन जब डेटा सेट बड़ा हो जाता है, तो सुपरमार्केट उदाहरण में दो या दो से अधिक उत्पादों के बीच सहसंबंध खोजने के लिए समर्थन का उपयोग किया जा सकता है।

न्यूनतम समर्थन थ्रेसहोल्ड यह निर्धारित करने के लिए उपयोगी है कि कौन से आइटम सेट पसंद किए जाते हैं या दिलचस्प हैं।

यदि हम तालिका 3 में समर्थन सीमा को ≥0.4 पर सेट करते हैं, तो $$\{\mathrm{milk}\} \Rightarrow \{\mathrm{eggs}\}$$ हटा दिया जाएगा क्योंकि यह 0.4 की न्यूनतम सीमा को पूरा नहीं करता था। न्यूनतम दहलीज का उपयोग उन नमूनों को हटाने के लिए किया जाता है जहां डेटासेट में नमूने को महत्वपूर्ण या दिलचस्प मानने के लिए पर्याप्त मजबूत समर्थन या विश्वास नहीं है।

दिलचस्प नमूने खोजने का एक और तरीका है (समर्थन) एक्स (आत्मविश्वास); यह एक डेटा माइनर को उन नमूनों को देखने की अनुमति देता है जहां डेटासेट में हाइलाइट किए जाने के लिए समर्थन और आत्मविश्वास काफी अधिक है और वस्तुओं के बीच संबंध के बारे में अधिक जानकारी प्राप्त करने के लिए नमूने को करीब से देखने का संकेत देता है।

संपूर्ण डेटासेट की तुलना में उत्पादों के बीच संबंध खोजने के लिए समर्थन फायदेमंद हो सकता है, जबकि विश्वास एक या अधिक वस्तुओं और अन्य वस्तुओं के बीच संबंध को देखता है। नीचे एक तालिका है जो आत्मविश्वास मूल्यों को प्राप्त करने के लिए तालिका 4 से जानकारी का उपयोग करके समर्थन और समर्थन x विश्वास के बीच तुलना और विपरीतता दिखाती है।

का समर्थन $X$ इसके संबंध में $T$ डेटासेट में लेन-देन के अनुपात के रूप में परिभाषित किया गया है जिसमें आइटमसेट शामिल है $X$. द्वारा लेन-देन को अस्वीकार करना $$(i,t)$$ कहाँ पे $i$ लेन-देन की विशिष्ट पहचानकर्ता है और $t$ इसका आइटमसेट है, समर्थन को इस प्रकार लिखा जा सकता है:

$$\mathrm{support\,of\,X} = \frac{|\{(i,t) \in T : X \subseteq t \}|}{|T|}$$ अधिक जटिल डेटासेट को परिभाषित करते समय इस संकेतन का उपयोग किया जा सकता है जहां आइटम और आइटमसेट ऊपर हमारे सुपरमार्केट उदाहरण के रूप में आसान नहीं हो सकते हैं। अन्य उदाहरण जहाँ समर्थन का उपयोग किया जा सकता है, आनुवंशिक उत्परिवर्तन के समूहों को खोजने में है जो एक बीमारी का कारण बनने के लिए सामूहिक रूप से काम करते हैं, उन ग्राहकों की संख्या की जांच करते हैं जो अपग्रेड ऑफ़र का जवाब देते हैं, और यह पता लगाते हैं कि किसी दवा की दुकान में कौन से उत्पाद कभी एक साथ नहीं खरीदे जाते हैं।

आत्मविश्वास
विश्वास सभी लेन-देन के संतोषजनक होने का प्रतिशत है $X$ जो संतुष्ट भी करता है $Y$. इसके संबंध में $T$, एक संघ नियम का विश्वास मूल्य, जिसे अक्सर के रूप में निरूपित किया जाता है $$X \Rightarrow Y$$, दोनों वाले लेन-देन का अनुपात है $X$ तथा $Y$ की कुल राशि के लिए $X$ मूल्य मौजूद हैं, जहां $X$ पूर्ववर्ती है और $Y$ परिणामी है।

कॉन्फिडेंस की व्याख्या सशर्त संभाव्यता के अनुमान के रूप में भी की जा सकती है $$P(E_Y | E_X)$$, लेन-देन में नियम के आरएचएस को खोजने की संभावना इस शर्त के तहत है कि इन लेनदेन में एलएचएस भी शामिल है। इसे आमतौर पर इस रूप में दर्शाया गया है:

$$\mathrm{conf}(X \Rightarrow Y) = P(Y | X) = \frac{\mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) }=\frac{\text{number of transactions containing }X\text{ and }Y}{\text{number of transactions containing }X}$$ समीकरण दर्शाता है कि लेन-देन की सह-घटना की गणना करके विश्वास की गणना की जा सकती है $X$ तथा $Y$ केवल लेनदेन के अनुपात में डेटासेट के भीतर $X$. इसका मतलब है कि दोनों में लेन-देन की संख्या $X$ तथा $Y$ बस में उन लोगों द्वारा विभाजित किया गया है $X$.

उदाहरण के लिए, तालिका 2 नियम दिखाता है $$\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}$$ जिसका भरोसा हो $$\frac{1/5}{1/5}=\frac{0.2}{0.2}=1.0$$ डेटासेट में, जो दर्शाता है कि हर बार जब कोई ग्राहक मक्खन और ब्रेड खरीदता है, तो वे दूध भी खरीदते हैं। यह विशेष उदाहरण मक्खन और ब्रेड दोनों वाले लेनदेन के लिए नियम को 100% सही होने का प्रदर्शन करता है। नियम $$\{\mathrm{fruit}\} \Rightarrow \{\mathrm{eggs}\}$$हालांकि, का भरोसा है $$\frac{2/5}{3/5}=\frac{0.4}{0.6}=0.67$$. इससे पता चलता है कि फल लाए जाने के 67% बार अंडे खरीदे जाते हैं। इस विशेष डेटासेट के भीतर, फलों को कुल 3 बार खरीदा जाता है, जिसमें से दो बार अंडे की खरीदारी होती है।

बड़े डेटासेट के लिए, न्यूनतम सीमा, या प्रतिशत कटऑफ़, विश्वास के लिए आइटम संबंधों को निर्धारित करने के लिए उपयोगी हो सकता है। तालिका 2 में कुछ डेटा के लिए इस पद्धति को लागू करते समय, आवश्यकताओं को पूरा नहीं करने वाली जानकारी हटा दी जाती है। तालिका 4 एसोसिएशन नियम उदाहरण दिखाती है जहां विश्वास के लिए न्यूनतम सीमा 0.5 (50%) है। कोई भी डेटा जिसमें कम से कम 0.5 का विश्वास नहीं है, को छोड़ दिया गया है। थ्रेसहोल्ड उत्पन्न करने से वस्तुओं के बीच जुड़ाव मजबूत हो जाता है क्योंकि डेटा को सबसे अधिक सह-घटित करने पर जोर देकर आगे शोध किया जाता है। तालिका समर्थन x विश्वास कॉलम को लागू करने के लिए तालिका 3 से विश्वास जानकारी का उपयोग करती है, जहां केवल एक अवधारणा के बजाय, उनके विश्वास और समर्थन दोनों के माध्यम से वस्तुओं के बीच संबंध को हाइलाइट किया जाता है। समर्थन एक्स कॉन्फिडेंस द्वारा नियमों की रैंकिंग किसी विशेष नियम के विश्वास को उसके समर्थन से गुणा करती है और अक्सर वस्तुओं के बीच संबंधों की अधिक गहन समझ के लिए लागू की जाती है।

कुल मिलाकर, एसोसिएशन रूल माइनिंग में विश्वास का उपयोग करना डेटा संबंधों के प्रति जागरूकता लाने का एक शानदार तरीका है। इसका सबसे बड़ा लाभ सेट के भीतर विशेष वस्तुओं के बीच एक दूसरे से संबंध को उजागर करना है, क्योंकि यह वस्तुओं की सह-घटनाओं की तुलना विशिष्ट नियम में पूर्ववर्ती की कुल घटना से करता है। हालांकि, संघ नियम खनन में हर अवधारणा के लिए विश्वास सबसे अच्छा तरीका नहीं है। इसका उपयोग करने का नुकसान यह है कि यह संघों पर एकाधिक अंतर दृष्टिकोण प्रदान नहीं करता है। समर्थन के विपरीत, उदाहरण के लिए, विश्वास संपूर्ण डेटासेट की तुलना में कुछ वस्तुओं के बीच संबंधों का परिप्रेक्ष्य प्रदान नहीं करता है, इसलिए दूध और रोटी, उदाहरण के लिए, विश्वास के लिए 100% समय हो सकता है, इसमें केवल 0.4 का समर्थन होता है (40%)। यही कारण है कि अन्य दृष्टिकोणों को देखना महत्वपूर्ण है, जैसे समर्थन एक्स विश्वास, केवल एक अवधारणा पर भरोसा करने के बजाय लगातार संबंधों को परिभाषित करें।

लिफ्ट
किसी नियम की लिफ्ट (डाटा माइनिंग) को इस प्रकार परिभाषित किया गया है:

$$ \mathrm{lift}(X\Rightarrow Y) = \frac{ \mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) \times \mathrm{supp}(Y) } $$ या एक्स और वाई स्वतंत्रता (संभावना सिद्धांत) होने पर अपेक्षित समर्थन का अनुपात।

उदाहरण के लिए, नियम $$\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}$$ की लिफ्ट है $$\frac{0.2}{0.4 \times 0.4} = 1.25 $$.

यदि नियम में 1 की वृद्धि होती है, तो इसका अर्थ यह होगा कि पूर्ववर्ती और परिणामी होने की संभावना एक दूसरे से स्वतंत्र हैं। जब दो घटनाएँ एक-दूसरे से स्वतंत्र होती हैं, तो उन दो घटनाओं को शामिल करते हुए कोई नियम नहीं बनाया जा सकता।

यदि लिफ़्ट > 1 है, तो इससे हमें पता चलता है कि वे दो घटनाएँ किस हद तक एक दूसरे पर निर्भर हैं, और उन नियमों को भविष्य के डेटा सेटों में परिणाम की भविष्यवाणी करने के लिए संभावित रूप से उपयोगी बनाती हैं।

यदि लिफ्ट <1 है, तो इससे हमें पता चलता है कि आइटम एक दूसरे के स्थानापन्न हैं। इसका मतलब यह है कि एक वस्तु की उपस्थिति का दूसरे वस्तु की उपस्थिति पर नकारात्मक प्रभाव पड़ता है और इसके विपरीत।

लिफ़्ट का मूल्य यह है कि यह नियम के समर्थन और समग्र डेटा सेट दोनों पर विचार करता है।

दोषसिद्धि
एक नियम की सजा के रूप में परिभाषित किया गया है $$ \mathrm{conv}(X\Rightarrow Y) =\frac{ 1 - \mathrm{supp}(Y) }{ 1 - \mathrm{conf}(X\Rightarrow Y)}$$. उदाहरण के लिए, नियम $$\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}$$ का दृढ़ विश्वास है $$\frac{1 - 0.4}{1 - 0.5} = 1.2 $$, और अपेक्षित आवृत्ति के अनुपात के रूप में व्याख्या की जा सकती है कि X बिना Y के होता है (अर्थात्, वह आवृत्ति जो नियम गलत भविष्यवाणी करता है) यदि X और Y स्वतंत्र रूप से गलत भविष्यवाणियों की देखी गई आवृत्ति से विभाजित थे। इस उदाहरण में, 1.2 का दृढ़ विश्वास मूल्य दर्शाता है कि नियम $$\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}$$ यदि X और Y के बीच संबंध पूरी तरह से यादृच्छिक मौका था तो 20% अधिक बार (1.2 गुना अधिक बार) गलत होगा।

दिलचस्पता के वैकल्पिक उपाय
विश्वास के अतिरिक्त, नियमों के लिए रोचकता के अन्य उपाय प्रस्तावित किए गए हैं। कुछ लोकप्रिय उपाय हैं:

टैन एट अल द्वारा कई और उपाय प्रस्तुत किए गए हैं और उनकी तुलना की गई है। और हस्लर द्वारा। ऐसी तकनीकों की तलाश करना जो उपयोगकर्ता को ज्ञात हो (और इन मॉडलों को दिलचस्प उपायों के रूप में उपयोग करना) को मॉडल कर सके, वर्तमान में सब्जेक्टिव इंटरेस्टिंग के नाम से एक सक्रिय शोध प्रवृत्ति है।
 * सर्व-विश्वास
 * सामूहिक शक्ति
 * फ़ायदा उठाना

इतिहास
एसोसिएशन नियमों की अवधारणा विशेष रूप से अग्रवाल एट अल के 1993 के लेख के कारण लोकप्रिय हुई थी। जिसने अप्रैल 2021 तक Google विद्वान के अनुसार 23,790 से अधिक उद्धरण प्राप्त किए हैं, और इस प्रकार यह डेटा माइनिंग क्षेत्र में सबसे अधिक उद्धृत पत्रों में से एक है। हालाँकि, जिसे अब एसोसिएशन नियम कहा जाता है, उसे 1966 के पेपर में पहले ही पेश किया जा चुका है गुहा पर, पेट्र हाजेक एट अल द्वारा विकसित एक सामान्य डेटा माइनिंग विधि। रेफरी नाम = पोस्टर>

सभी एसोसिएशन नियमों को खोजने के लिए न्यूनतम समर्थन और विश्वास का प्रारंभिक (लगभग 1989) उपयोग फीचर आधारित मॉडलिंग ढांचा है, जिसमें सभी नियम पाए गए $$\mathrm{supp}(X)$$ तथा $$\mathrm{conf}(X \Rightarrow Y)$$ उपयोगकर्ता परिभाषित बाधाओं से अधिक।

सांख्यिकीय रूप से ध्वनि संघ
संघों की खोज के लिए मानक दृष्टिकोण की एक सीमा यह है कि बड़ी संख्या में संभावित संघों की खोज करके उन वस्तुओं के संग्रह की तलाश की जा सकती है जो संबंधित प्रतीत होते हैं, कई नकली संघों को खोजने का एक बड़ा जोखिम है। ये उन वस्तुओं का संग्रह हैं जो डेटा में अप्रत्याशित आवृत्ति के साथ सह-घटित होते हैं, लेकिन ऐसा केवल संयोग से होता है। उदाहरण के लिए, मान लीजिए कि हम 10,000 वस्तुओं के संग्रह पर विचार कर रहे हैं और ऐसे नियमों की तलाश कर रहे हैं जिनमें बाईं ओर दो आइटम हैं और दाईं ओर 1 आइटम है। लगभग 1,000,000,000,000 ऐसे नियम हैं। यदि हम 0.05 के महत्व स्तर के साथ स्वतंत्रता के लिए एक सांख्यिकीय परीक्षण लागू करते हैं तो इसका मतलब है कि अगर कोई संबंध नहीं है तो नियम को स्वीकार करने की केवल 5% संभावना है। अगर हम मानते हैं कि कोई संबंध नहीं हैं, तो भी हमें 50,000,000,000 नियम खोजने की उम्मीद करनी चाहिए। सांख्यिकीय रूप से ध्वनि संघ खोज इस जोखिम को नियंत्रित करता है, ज्यादातर मामलों में उपयोगकर्ता द्वारा निर्दिष्ट महत्व स्तर पर किसी नकली संघों को खोजने के जोखिम को कम करता है।

एल्गोरिदम
एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।

कुछ जाने-माने एल्गोरिदम Apriori एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।

एप्रीओरी एल्गोरिथम
अप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।

अवलोकन: एप्रीओरी एल्गोरिथ्म एक बॉटम अप दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम ('उम्मीदवार पीढ़ी'' के रूप में जाना जाता है) में एक आइटम बढ़ाया जाता है, और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज और एक हैश ट्री (लगातार डेटा संरचना) संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।

उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है। अब हम प्रत्येक वर्ण की घटनाओं की संख्या की गणना करके लगातार आइटम सेट उत्पन्न करेंगे। इसे समर्थन मूल्य खोजने के रूप में भी जाना जाता है। फिर हम एक न्यूनतम समर्थन सीमा चुनकर सेट आइटम की छँटाई करेंगे। एल्गोरिथम के इस पास के लिए हम 3 चुनेंगे। चूंकि सभी समर्थन मूल्य तीन या उससे ऊपर हैं इसलिए कोई छंटाई नहीं है। लगातार आइटम सेट {ए}, {बी}, {सी}, और {डी} है। इसके बाद हम इनपुट सेट में म्यूटेशन के जोड़े की गिनती करके प्रक्रिया को दोहराएंगे। अब हम अपना मिनिमम सपोर्ट वैल्यू 4 कर देंगे तो प्रूनिंग के बाद सिर्फ {a,d} और {c,d} ही रह जाएगा। अब हम ट्रिपलेट्स का संयोजन बनाने के लिए फ़्रीक्वेंट आइटम सेट का उपयोग करेंगे। फिर हम इनपुट सेट में म्यूटेशन के तीन गुना होने की घटनाओं की गणना करके प्रक्रिया को दोहराएंगे। चूंकि हमारे पास केवल एक आइटम है, चौगुनी के संयोजन का अगला सेट खाली है इसलिए एल्गोरिथ्म बंद हो जाएगा।

लाभ और सीमाएं:

Apriori की कुछ सीमाएँ हैं। उम्मीदवार पीढ़ी के परिणामस्वरूप बड़े उम्मीदवार सेट हो सकते हैं। उदाहरण के लिए एक 10^4 लगातार 1-आइटमसेट 10^7 उम्मीदवार 2-आइटमसेट उत्पन्न करेगा। एल्गोरिथम को डेटाबेस को बार-बार स्कैन करने की आवश्यकता होती है, विशिष्ट n+1 स्कैन होने के लिए जहां n सबसे लंबे पैटर्न की लंबाई है। Apriori Eclat एल्गोरिथम की तुलना में धीमा है। हालाँकि, जब डेटासेट बड़ा होता है तो Eclat की तुलना में Apriori अच्छा प्रदर्शन करता है। ऐसा इसलिए है क्योंकि Eclat एल्गोरिथम में यदि डेटासेट बहुत बड़ा है तो मेमोरी के लिए tid-सूचियाँ बहुत बड़ी हो जाती हैं। FP-ग्रोथ ने Apriori और Eclat को पीछे छोड़ दिया है। यह एफपी-ग्रोथ एल्गोरिदम के कारण एक कॉम्पैक्ट डेटा संरचना का उपयोग करके उम्मीदवार पीढ़ी या परीक्षण नहीं होने और केवल एक डेटाबेस स्कैन होने के कारण है।

शार्क एल्गोरिथम
चमकना (alt. ECLAT, समतुल्य वर्ग परिवर्तन के लिए खड़ा है) एक बैक ट्रैकिंग एल्गोरिदम है, जो गहराई से पहली खोज (डीएफएस) फैशन में लगातार आइटमसेट जाली ग्राफ को पार करता है। जबकि Apriori एल्गोरिथम में उपयोग किया जाने वाला गहराई-पहली खोज (BFS) ट्रैवर्सल किसी आइटमसेट के प्रत्येक सबसेट की जाँच करने से पहले उसकी जाँच करेगा, DFS ट्रैवर्सल बड़े आइटमसेट की जाँच करता है और नीचे की ओर के आधार पर इसके कुछ सबसेट के समर्थन की जाँच करने से बचा सकता है। -करीब संपत्ति। इसके अलावा यह लगभग निश्चित रूप से कम मेमोरी का उपयोग करेगा क्योंकि डीएफएस में बीएफएस की तुलना में कम जगह की जटिलता है।

इसे स्पष्ट करने के लिए, एक लगातार आइटमसेट {ए, बी, सी} होने दें। डीएफएस निम्नलिखित क्रम में लगातार आइटमसेट जाली में नोड्स की जांच कर सकता है: {ए} → {ए, बी} → {ए, बी, सी}, जिस बिंदु पर यह ज्ञात है कि {बी}, {सी}, { ए, सी}, {बी, सी} सभी डाउनवर्ड-क्लोजर प्रॉपर्टी द्वारा समर्थन बाधा को संतुष्ट करते हैं। बीएफएस अंत में जांच करने से पहले {ए, बी, सी} के प्रत्येक सबसेट का पता लगाएगा। जैसे-जैसे एक आइटमसेट का आकार बढ़ता है, इसके उपसमुच्चयों की संख्या संयोजी विस्फोट से गुजरती है।

यह स्थानीयता-बढ़ाने वाले गुणों के साथ अनुक्रमिक और साथ ही समानांतर निष्पादन दोनों के लिए उपयुक्त है।

एफपी-विकास एल्गोरिथम
FP,लगातार पैटर्न के लिए खड़ा है। पहले पास में, एल्गोरिथ्म लेन-देन के डेटासेट में आइटम (विशेषता-मूल्य जोड़े) की घटनाओं की गणना करता है, और इन गणनाओं को 'हेडर टेबल' में संग्रहीत करता है। दूसरे पास में, यह एफपी-कोशिश करें स्ट्रक्चर को ट्राइ में ट्रांजेक्शन डालकर बनाता है।

प्रत्येक लेन-देन में वस्तुओं को डालने से पहले डेटासेट में उनकी आवृत्ति के अवरोही क्रम द्वारा क्रमबद्ध किया जाना चाहिए ताकि पेड़ को जल्दी से संसाधित किया जा सके। प्रत्येक लेन-देन में आइटम जो न्यूनतम समर्थन आवश्यकता को पूरा नहीं करते हैं, उन्हें छोड़ दिया जाता है। यदि कई लेन-देन सबसे अधिक बार आइटम साझा करते हैं, तो एफपी-ट्री ट्री रूट के करीब उच्च संपीड़न प्रदान करता है।

मुख्य डेटासेट के इस संकुचित संस्करण का पुनरावर्ती प्रसंस्करण उम्मीदवार वस्तुओं को उत्पन्न करने और उन्हें पूरे डेटाबेस के विरुद्ध परीक्षण करने के बजाय लगातार आइटम सेट को सीधे बढ़ाता है (जैसा कि एप्रियोरी एल्गोरिथम में)।

ग्रोथ हेडर टेबल के नीचे से शुरू होती है यानी उस आइटम में समाप्त होने वाले सभी सॉर्ट किए गए लेन-देन को ढूंढकर सबसे कम समर्थन वाला आइटम। इस आइटम को कॉल करें $$I$$.

एक नया सशर्त वृक्ष बनाया जाता है जो मूल एफपी-वृक्ष पर प्रक्षेपित होता है $$I$$. अनुमानित पेड़ में सभी नोड्स के समर्थन को फिर से गिना जाता है, प्रत्येक नोड को उसके बच्चों की संख्या का योग मिलता है। नोड्स (और इसलिए सबट्रीज़) जो न्यूनतम समर्थन को पूरा नहीं करते हैं, काट दिए जाते हैं। पुनरावर्ती विकास तब समाप्त होता है जब कोई व्यक्तिगत आइटम सशर्त नहीं होता है $$I$$ न्यूनतम समर्थन सीमा को पूरा करें। रूट से परिणामी पथ $$I$$ बार-बार आइटमसेट होंगे। इस कदम के बाद, मूल एफपी-ट्री के अगले कम से कम समर्थित हेडर आइटम के साथ प्रसंस्करण जारी रहता है।

एक बार पुनरावर्ती प्रक्रिया पूरी हो जाने के बाद, सभी लगातार आइटम सेट मिल जाएंगे, और एसोसिएशन नियम बनाना शुरू हो जाएगा।

ASSOC
ASSOC प्रक्रिया एक GUHA विधि है जो तेज़ bitstring्स संचालन का उपयोग करके सामान्यीकृत एसोसिएशन नियमों के लिए खनन करती है। इस पद्धति द्वारा खनन किए गए संघ के नियम apriori द्वारा उन आउटपुट की तुलना में अधिक सामान्य हैं, उदाहरण के लिए वस्तुओं को संयोजन और संयोजन दोनों के साथ जोड़ा जा सकता है और पूर्ववर्ती और नियम के परिणाम के बीच संबंध apriori के रूप में न्यूनतम समर्थन और विश्वास स्थापित करने तक सीमित नहीं है: समर्थित ब्याज उपायों के मनमाने संयोजन का उपयोग किया जा सकता है।

ओपस खोज
ओपस नियम की खोज के लिए एक कुशल एल्गोरिदम है, जो कि अधिकांश विकल्पों के विपरीत, न्यूनतम समर्थन जैसे मोनोटोन या एंटी-मोनोटोन बाधाओं की आवश्यकता नहीं होती है। प्रारंभ में एक निश्चित परिणाम के लिए नियम खोजते थे इसे बाद में परिणाम के रूप में किसी भी आइटम के साथ नियमों को खोजने के लिए बढ़ा दिया गया है। लोकप्रिय मैग्नम ओपस एसोसिएशन डिस्कवरी सिस्टम में ओपस सर्च मुख्य तकनीक है।

विद्या
एसोसिएशन रूल माइनिंग के बारे में एक प्रसिद्ध कहानी बीयर और डायपर की कहानी है। सुपरमार्केट दुकानदारों के व्यवहार के एक कथित सर्वेक्षण में पता चला कि डायपर खरीदने वाले ग्राहक (संभवतः युवा पुरुष) भी बीयर खरीदने की प्रवृत्ति रखते हैं। यह उपाख्यान इस बात के उदाहरण के रूप में लोकप्रिय हुआ कि रोज़मर्रा के डेटा से अनपेक्षित संघ नियम कैसे पाए जा सकते हैं। कहानी कितनी सच है, इस पर अलग-अलग राय है। डैनियल पॉवर्स कहते हैं:

"1992 में, टेराडाटा में एक खुदरा परामर्श समूह के प्रबंधक थॉमस ब्लिशोक और उनके कर्मचारियों ने लगभग 25 ओस्को ड्रग स्टोर से 1.2 मिलियन मार्केट बास्केट का विश्लेषण तैयार किया। एफ़िनिटी की पहचान करने के लिए डेटाबेस क्वेरीज़ विकसित की गईं। विश्लेषण से पता चला कि शाम 5:00 से 7:00 बजे के बीच। कि उपभोक्ताओं ने बीयर और डायपर खरीदे। ओस्को के प्रबंधकों ने बियर और डायपर के बीच संबंध को अलमारियों पर उत्पादों को पास-पास ले जाकर नहीं भुनाया।"

अन्य प्रकार के संघ नियम खनन
मल्टी-रिलेशनशिप एसोसिएशन रूल्स: मल्टी-रिलेशनल एसोसिएशन रूल्स (MRAR) एसोसिएशन नियम हैं जहाँ प्रत्येक आइटम में कई संबंध हो सकते हैं। ये संबंध संस्थाओं के बीच अप्रत्यक्ष संबंध का संकेत देते हैं। निम्नलिखित एमआरएआर पर विचार करें जहां पहले आइटम में तीन संबंध शामिल हैं लिव इन, निकट और आर्द्र: आर्द्र जलवायु प्रकार वाले शहर और 20 वर्ष से युवा भी हैं -> उनकी स्वास्थ्य स्थिति अच्छी है"। ऐसे संघ नियम RDBMS डेटा या सिमेंटिक वेब डेटा से निकाले जा सकते हैं। कंट्रास्ट सेट लर्निंग साहचर्य सीखने का एक रूप है। कंट्रास्ट सेट शिक्षार्थी उन नियमों का उपयोग करते हैं जो सबसेट में उनके वितरण में अर्थपूर्ण रूप से भिन्न होते हैं। वेटेड क्लास लर्निंग साहचर्य सीखने का एक और रूप है जिसमें डेटा माइनिंग परिणामों के उपभोक्ता के लिए चिंता के एक विशेष मुद्दे पर ध्यान देने के लिए कक्षाओं को भार सौंपा जा सकता है।

हाई-ऑर्डर पैटर्न डिस्कवरी हाई-ऑर्डर (पॉलीथेटिक) पैटर्न या इवेंट एसोसिएशन को पकड़ने की सुविधा प्रदान करती है जो जटिल वास्तविक दुनिया डेटा के लिए आंतरिक हैं। के-इष्टतम पैटर्न खोज एसोसिएशन नियम सीखने के लिए मानक दृष्टिकोण का एक विकल्प प्रदान करता है जिसके लिए आवश्यक है कि प्रत्येक पैटर्न डेटा में बार-बार दिखाई दे।

अनुमानित फ़्रीक्वेंट आइटमसेट माइनिंग फ़्रीक्वेंट आइटमसेट माइनिंग का एक आरामदेह संस्करण है जो कुछ पंक्तियों में कुछ आइटमों को 0 होने की अनुमति देता है। सामान्यीकृत एसोसिएशन नियम पदानुक्रमित वर्गीकरण (अवधारणा पदानुक्रम)

क्वांटिटेटिव एसोसिएशन रूल्स श्रेणीबद्ध और मात्रात्मक डेटा

इंटरवल डेटा एसोसिएशन नियम उदा। उम्र को 5 साल में बांट कर इन्क्रीमेंट किया गया

अनुक्रमिक पैटर्न खनन उन परवर्ती का पता लगाता है जो मिनसअप से अधिक के लिए सामान्य हैं अनुक्रम डेटाबेस में अनुक्रम, जहां minsup उपयोगकर्ता द्वारा निर्धारित किया जाता है। एक अनुक्रम लेन-देन की एक आदेशित सूची है। सबस्पेस क्लस्टरिंग, एक विशिष्ट प्रकार का क्लस्टरिंग उच्च-आयामी डेटा, विशिष्ट क्लस्टरिंग मॉडल के लिए डाउनवर्ड-क्लोजर प्रॉपर्टी के आधार पर कई रूपों में भी है। वार्मर को एसीई डाटा माइनिंग सूट के हिस्से के रूप में भेज दिया गया है। यह पहले क्रम के संबंधपरक नियमों के लिए संघ नियम सीखने की अनुमति देता है।

यह भी देखें

 * अनुक्रम खनन
 * उत्पादन प्रणाली (कंप्यूटर विज्ञान)
 * लर्निंग क्लासिफायर सिस्टम
 * नियम-आधारित मशीन लर्निंग

ग्रंथ सूची

 * एनोटेटेड बिब्लियोग्राफी ऑन एसोसिएशन रूल्स एम. हैस्लर द्वारा

श्रेणी:डेटा प्रबंधन श्रेणी:डेटा खनन