संघ नियम अधिगम

From Vigyanwiki

एसोसिएशन रूल लर्निंग एक नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए एसोसिएशन रूल लर्निंग एक नियम-आधारित मशीन लर्निंग विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है।[1] विभिन्न मदों के साथ किसी दिए गए लेन-देन में, एसोसिएशन नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।

मजबूत नियमों की अवधारणा के आधार पर राकेश अग्रवाल (कंप्यूटर वैज्ञानिक), टॉमाज़ इमेलिंस्की और अरुण स्वामी[2] सुपरमार्केट में बिक्री केन्द्र (POS) सिस्टम द्वारा अभिलेख किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए संगठन नियम पेश किए। उदाहरण के लिए, नियम एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार मूल्य निर्धारण या उत्पाद लगाने की क्रिया (प्लेसमेंट)।

उपरोक्त उदाहरण के अलावा बाजार टोकरी विश्लेषण संघ के नियम आज वेब उपयोग खनन, अनुचित हस्तक्षेप, निरंतर उत्पादन और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। अनुक्रम खनन (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।

संगठन (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।[3]


परिभाषा

डेटासेट के आइटमसेट X और Y के बीच जुड़ाव दिखाने के लिए एक वेन आरेख। आइटम X वाले सभी लेन-देन सर्कल के सफेद, बाएं हिस्से में स्थित हैं, जबकि Y वाले लाल रंग और दाईं ओर हैं। X और Y दोनों वाले कोई भी लेन-देन मध्य में स्थित होते हैं और गुलाबी रंग के होते हैं। इस ग्राफ से जानकारी को दर्शाने के लिए कई अवधारणाओं का उपयोग किया जा सकता है। उदाहरण के लिए, यदि कोई सभी लेन-देन को गुलाबी खंड में लेता है और उन्हें लेनदेन की कुल राशि से विभाजित करता है (लेन-देन में X (सफेद) + लेन-देन जिसमें Y (लाल) होता है), तो आउटपुट को समर्थन के रूप में जाना जाएगा। विश्वास के रूप में जानी जाने वाली विधि का परिणाम प्राप्त करने का एक उदाहरण, कोई भी सभी लेन-देन को बीच में (गुलाबी) ले सकता है और उन्हें उन सभी लेनदेन से विभाजित कर सकता है जिनमें Y (लाल और गुलाबी) होता है। इस स्थिति में, Y पूर्ववर्ती है और X परिणामी है।

अग्रवाल, इमिलिंस्की, स्वामी द्वारा मूल परिभाषा के बाद[2]संघ नियम खनन की समस्या को इस प्रकार परिभाषित किया गया है:

होने देना का एक सेट हो बाइनरी गुण आइटम कहा जाता है।

होने देना लेन-देन का एक सेट जिसे डेटाबेस कहा जाता है।

प्रत्येक लेन-देन में एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है .

एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:

, जहाँ पे .

अग्रवाल, इमिलिंस्की, स्वामी में[2]एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, के लिये .

प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है तथा जहाँ पे पूर्ववर्ती या बाएं हाथ की ओर (LHS) और परिणामी या दाहिनी ओर (RHS) कहा जाता है। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन को अक्सर तब के रुप में पढ़ा जाता है, जहां पूर्ववर्ती () और परिणामी () है। इसका तात्पर्य यह है कि सिद्धांत रूप में जब भी डेटासेट में होता है तब भी होगा।

प्रक्रिया

एसोसिएशन के नियम बार -बार if-then पैटर्न के लिए डेटा खोज कर और समर्थन और विश्वास के तहत एक निश्चित मानदंड का उपयोग करके सबसे महत्वपूर्ण रिश्ते क्या हैं, इसे परिभाषित करने के लिए बनाए जाते हैं। समर्थन इस बात का प्रमाण है कि दिए गए डेटा में कोई वस्तु कितनी बार दिखाई देती है, क्योंकि विश्वास को परिभाषित किया जाता है कि कितनी बार if-then कथन सत्य पाए जाते हैं। हालाँकि, एक तीसरा मानदंड है जिसका उपयोग किया जा सकता है, इसे लिफ्ट कहा जाता है और इसका उपयोग अपेक्षित आत्मविश्वास और वास्तविक आत्मविश्वास की तुलना करने के लिए किया जा सकता है। लिफ़्ट यह दर्शाएगा कि if-then कथन के सत्य होने की कितनी बार अपेक्षा की जाती है।

एसोसिएशन के नियम आइटम सेट से गणना करने के लिए बनाए जाते हैं, जो दो या दो से अधिक आइटम द्वारा बनाए जाते हैं। यदि डेटा से सभी संभावित आइटमसेट के विश्लेषण से नियम बनाए गए होते तो इतने सारे नियम होते कि उनका कोई अर्थ नहीं होता। यही कारण है कि एसोसिएशन के नियम आम तौर पर उन नियमों से बनाए जाते हैं जो डेटा द्वारा अच्छी तरह से दर्शाए जाते हैं।

कई अलग-अलग डेटा खनन तकनीकें हैं जिनका उपयोग आप कुछ विश्लेषणों और परिणामों को खोजने के लिए कर सकते हैं, उदाहरण के लिए वर्गीकरण विश्लेषण, क्लस्टरिंग विश्लेषण और प्रतिगमन विश्लेषण है।[4] आपको किस तकनीक का उपयोग करना चाहिए यह इस बात पर निर्भर करता है कि आप अपने डेटा के साथ क्या खोज रहे हैं। एसोसिएशन के नियमों का मुख्य रूप से विश्लेषणविद्या (एनालिटिक्स) खोजने और ग्राहक व्यवहार की भविष्यवाणी करने के लिए उपयोग किया जाता है। वर्गीकरण विश्लेषण के लिए, सबसे अधिक इसका उपयोग प्रश्न पूछने, निर्णय लेने और व्यवहार की भविष्यवाणी करने के लिए किया जाएगा।[5] क्लस्टरिंग विश्लेषण का मुख्य रूप से उपयोग तब किया जाता है जब डेटा के भीतर संभावित संबंधों के बारे में कोई अनुमान नहीं लगाया जाता है।[5]प्रतिगमन विश्लेषण का उपयोग तब किया जाता है जब आप कई स्वतंत्र चरों से निरंतर आश्रित के मूल्य की भविष्यवाणी करना चाहते हैं।[5]

फ़ायदे

एसोसिएशन के नियमों का उपयोग करने के कई लाभ हैं जैसे पैटर्न ढूंढना जो डेटा सेट के बीच सहसंबंधों और सह-घटनाओं को समझने में मदद करता है। एसोसिएशन के नियमों का उपयोग करने वाला एक बहुत अच्छा वास्तविक दुनिया का उदाहरण दवा होगा। चिकित्सा रोगियों के निदान में मदद करने के लिए एसोसिएशन के नियमों का उपयोग करती है। रोगियों का निदान करते समय विचार करने के लिए कई चर होते हैं क्योंकि कई रोग समान लक्षण साझा करेंगे। एसोसिएशन के नियमों के उपयोग के साथ, डॉक्टर पिछले मामलों से लक्षण संबंधों की तुलना करके बीमारी की सशर्त संभावना निर्धारित कर सकते हैं।[6]

पतन

हालाँकि, एसोसिएशन के नियम भी कई अलग-अलग गिरावटों का कारण बनते हैं जैसे कि खनन एल्गोरिथम के लिए उपयुक्त पैरामीटर और थ्रेसहोल्ड सेटिंग्स खोजना। लेकिन बड़ी संख्या में खोजे गए नियमों का पतन भी है। इसका कारण यह है कि यह इस बात की गारंटी नहीं देता है कि नियम प्रासंगिक पाए जाएंगे, लेकिन इससे एल्गोरिथम का प्रदर्शन कम हो सकता है। कभी-कभी कार्यान्वित एल्गोरिदम में बहुत अधिक चर और पैरामीटर होते हैं। जिन लोगों के पास डेटा माइनिंग की अच्छी अवधारणा नहीं है, उनके लिए इसे समझने में परेशानी हो सकती है।[7]

थ्रेशोल्ड

फ़्रीक्वेंट आइटमसेट जाली, जहाँ बॉक्स का रंग इंगित करता है कि कितने लेन-देन में आइटम का संयोजन है। ध्यान दें कि जाली के निचले स्तरों में उनके मूल वस्तुओं की न्यूनतम संख्या हो सकती है; उदा. {एसी} में अधिकतम आइटम हो सकते हैं। इसे डाउनवर्ड-क्लोजर प्रॉपर्टी कहा जाता है।[2]

एसोसिएशन के नियमों का उपयोग करते समय, आप केवल समर्थन और विश्वास का उपयोग करने की सबसे अधिक संभावना रखते हैं। हालांकि, इसका मतलब है कि आपको एक ही समय में उपयोगकर्ता-निर्दिष्ट न्यूनतम समर्थन और उपयोगकर्ता-निर्दिष्ट न्यूनतम विश्वास को पूरा करना होगा। आम तौर पर, एसोसिएशन नियम जनरेशन को दो अलग-अलग चरणों में विभाजित किया जाता है जिन्हें लागू करने की आवश्यकता होती है:

  1. डेटाबेस में मौजूद सभी लगातार आइटम्स को खोजने के लिए एक न्यूनतम समर्थन सीमा।
  2. नियम बनाने के लिए बार-बार मिलने वाले आइटमसेट के लिए न्यूनतम कॉन्फिडेंस थ्रेशोल्ड।
तालिका 1. समर्थन और विश्वास के लिए दहलीज का उदाहरण।
Items Support Confidence Items Support Confidence
Item A 30% 50% Item C 45% 55%
Item B 15% 25% Item A 30% 50%
Item C 45% 55% Item D 35% 40%
Item D 35% 40% Item B 15% 25%

सपोर्ट थ्रेशोल्ड 30% है, कॉन्फिडेंस थ्रेशोल्ड 50% है

बाईं ओर की तालिका मूल असंगठित डेटा है और दाईं ओर की तालिका थ्रेसहोल्ड द्वारा व्यवस्थित है। इस मामले में आइटम सी समर्थन और विश्वास दोनों के लिए दहलीज से बेहतर है, यही कारण है कि यह पहले है। आइटम ए दूसरे स्थान पर है क्योंकि इसकी दहलीज मान हाजिर हैं। आइटम डी ने समर्थन की सीमा को पूरा किया है, लेकिन विश्वास के लिए नहीं। आइटम बी ने समर्थन या विश्वास के लिए सीमा को पूरा नहीं किया है और यही कारण है कि यह अंतिम है।

डेटाबेस में सभी बार-बार आने वाले आइटम्स को ढूंढना आसान काम नहीं है क्योंकि इसमें सभी संभावित आइटम्स से सभी संभावित आइटम संयोजनों को खोजने के लिए सभी डेटा के माध्यम से जाना शामिल है। संभावित आइटमसेट का सेट सत्ता स्थापित I पर सेट की गई शक्ति है और इसका आकार हैं, निश्चित रूप से इसका मतलब खाली सेट को बाहर करना है जो वैध आइटमसेट नहीं माना जाता है। हालांकि, पावर सेट का आकार आइटम n की संख्या में तेजी से बढ़ेगा जो कि पावर सेट I के भीतर है। समर्थन की डाउनवर्ड-क्लोजर प्रॉपर्टी का उपयोग करके एक कुशल खोज संभव है[2][8] (जिसे एंटी-मोनोटोनिसिटी भी कहा जाता है[9]). यह इस बात की गारंटी देता है कि लगातार आइटमसेट और उसके सभी सबसेट भी अक्सर होते हैं और इस प्रकार बारंबार आइटमसेट के सबसेट के रूप में कोई दुर्लभ आइटमसेट नहीं होगा। इस संपत्ति का शोषण, कुशल एल्गोरिदम (जैसे एप्रीओरी[10] और एक्लाट[11]) सभी लगातार आइटम सेट पा सकते हैं।

उपयोगी अवधारणाएँ

तालिका 2. उदाहरण डेटाबेस 5 लेनदेन और 5 आइटम के साथ
transaction ID milk bread butter beer diapers eggs fruit
1 1 1 0 0 0 0 1
2 0 0 1 0 0 1 1
3 0 0 0 1 1 0 0
4 1 1 1 0 0 1 1
5 0 1 0 0 0 0 0

अवधारणाओं को स्पष्ट करने के लिए, हम सुपरमार्केट डोमेन से एक छोटे से उदाहरण का उपयोग करते हैं। तालिका 2 एक छोटा डेटाबेस दिखाता है जिसमें आइटम होते हैं, जहां प्रत्येक प्रविष्टि में, मान 1 का मतलब संबंधित लेनदेन में आइटम की उपस्थिति होता है, और मान 0 उस लेनदेन में किसी आइटम की अनुपस्थिति का प्रतिनिधित्व करता है। वस्तुओं (आइटम्स) का सेट है .

सुपरमार्केट के लिए एक उदाहरण नियम हो सकता है मतलब अगर मक्खन और ब्रेड खरीदा जाता है तो ग्राहक दूध भी खरीदते हैं।

सभी संभावित नियमों के सेट से दिलचस्प नियमों का चयन करने के लिए, महत्व और रुचि के विभिन्न उपायों पर प्रतिबंध का उपयोग किया जाता है। सबसे प्रसिद्ध बाधाएँ समर्थन और विश्वास पर न्यूनतम सीमाएँ हैं।

माना आइटम सेट हो, एक एसोसिएशन नियम और T किसी दिए गए डेटाबेस के लेनदेन का एक सेट हैं।

नोट: यह उदाहरण अत्यंत छोटा है। व्यावहारिक अनुप्रयोगों में, एक नियम को सांख्यिकीय रूप से महत्वपूर्ण माने जाने से पहले कई सौ लेन-देन के समर्थन की आवश्यकता होती है[citation needed] और डेटासेट में अक्सर हजारों या लाखों लेन-देन होते हैं।

समर्थन

समर्थन इस बात का संकेत है कि डेटासेट में आइटमसेट कितनी बार दिखाई देता है।

हमारे उदाहरण में, लिखित रूप से समर्थन की व्याख्या करना आसान हो सकता है [12] जहां ए और बी अलग-अलग आइटम सेट होते हैं जो लेनदेन में एक ही समय में होते हैं।

एक उदाहरण के रूप में तालिका 2 का उपयोग करते हुए, आइटमसेट का सहारा है चूंकि यह सभी लेनदेन के 20% (5 में से 1 लेनदेन) में होता है। एक्स के समर्थन का तर्क पूर्व शर्त का एक सेट है, और इस प्रकार अधिक प्रतिबंधात्मक हो जाता है क्योंकि यह बढ़ता है (अधिक समावेशी के बजाय)।[13] इसके अलावा, आइटमसेट का सहारा है जैसा कि यह सभी लेनदेन के 20% में भी दिखाई देता है।

पूर्ववर्ती और परिणाम का उपयोग करते समय, यह एक डेटा माइनर को पूरे डेटा सेट की तुलना में एक साथ खरीदे जाने वाले कई आइटमों के समर्थन को निर्धारित करने की अनुमति देता है। उदाहरण के लिए, तालिका 2 दर्शाती है कि यदि दूध खरीदा जाता है, तो खरीदी गई ब्रेड को 0.4 या 40% का समर्थन प्राप्त होता है। ऐसा इसलिए क्योंकि 5 में से 2 ट्रांजैक्शन में दूध और ब्रेड दोनों ही खरीदे जाते हैं। इस उदाहरण जैसे छोटे डेटा सेट में, कुछ नमूने होने पर मजबूत सहसंबंध देखना कठिन होता है, लेकिन जब डेटा सेट बड़ा हो जाता है, तो सुपरमार्केट उदाहरण में दो या दो से अधिक उत्पादों के बीच सहसंबंध खोजने के लिए समर्थन का उपयोग किया जा सकता है।

न्यूनतम समर्थन थ्रेसहोल्ड यह निर्धारित करने के लिए उपयोगी है कि कौन से आइटम सेट पसंद किए जाते हैं या दिलचस्प हैं।

यदि हम तालिका 3 में समर्थन सीमा को ≥0.4 पर सेट करते हैं, तो हटा दिया जाएगा क्योंकि यह 0.4 की न्यूनतम सीमा को पूरा नहीं करता था। न्यूनतम दहलीज का उपयोग उन नमूनों को हटाने के लिए किया जाता है जहां डेटासेट में नमूने को महत्वपूर्ण या दिलचस्प मानने के लिए पर्याप्त मजबूत समर्थन या विश्वास नहीं है।

दिलचस्प नमूने खोजने का एक और तरीका है (समर्थन) एक्स (आत्मविश्वास); यह एक डेटा माइनर को उन नमूनों को देखने की अनुमति देता है जहां डेटासेट में हाइलाइट किए जाने के लिए समर्थन और आत्मविश्वास काफी अधिक है और वस्तुओं के बीच संबंध के बारे में अधिक जानकारी प्राप्त करने के लिए नमूने को करीब से देखने का संकेत देता है।

संपूर्ण डेटासेट की तुलना में उत्पादों के बीच संबंध खोजने के लिए समर्थन फायदेमंद हो सकता है, जबकि विश्वास एक या अधिक वस्तुओं और अन्य वस्तुओं के बीच संबंध को देखता है। नीचे एक तालिका है जो आत्मविश्वास मूल्यों को प्राप्त करने के लिए तालिका 4 से जानकारी का उपयोग करके समर्थन और समर्थन x विश्वास के बीच तुलना और विपरीतता दिखाती है।

Table 3. Example of Support, and support X confidence
if Antecedent then Consequent support support X confidence
if buy milk, then buy bread 2/5= 0.4 0.4X1.0= 0.4
if buy milk, then buy eggs 1/5= 0.2 0.2X0.5= 0.1
if buy bread, then buy fruit 2/5= 0.4 0.4X0.66= 0.264
if buy fruit, then buy eggs 2/5= 0.4 0.4X0.66= 0.264
if buy milk and bread, then buy fruit 2/5= 0.4 0.4X1.0= 0.4

का समर्थन X इसके संबंध में T डेटासेट में लेन-देन के अनुपात के रूप में परिभाषित किया गया है जिसमें आइटमसेट शामिल है X. द्वारा लेन-देन को अस्वीकार करना कहाँ पे i लेन-देन की विशिष्ट पहचानकर्ता है और t इसका आइटमसेट है, समर्थन को इस प्रकार लिखा जा सकता है:

अधिक जटिल डेटासेट को परिभाषित करते समय इस संकेतन का उपयोग किया जा सकता है जहां आइटम और आइटमसेट ऊपर हमारे सुपरमार्केट उदाहरण के रूप में आसान नहीं हो सकते हैं। अन्य उदाहरण जहाँ समर्थन का उपयोग किया जा सकता है, आनुवंशिक उत्परिवर्तन के समूहों को खोजने में है जो एक बीमारी का कारण बनने के लिए सामूहिक रूप से काम करते हैं, उन ग्राहकों की संख्या की जांच करते हैं जो अपग्रेड ऑफ़र का जवाब देते हैं, और यह पता लगाते हैं कि किसी दवा की दुकान में कौन से उत्पाद कभी एक साथ नहीं खरीदे जाते हैं।[12]


आत्मविश्वास

विश्वास सभी लेन-देन के संतोषजनक होने का प्रतिशत है X जो संतुष्ट भी करता है Y.[14] इसके संबंध में T, एक संघ नियम का विश्वास मूल्य, जिसे अक्सर के रूप में निरूपित किया जाता है , दोनों वाले लेन-देन का अनुपात है X तथा Y की कुल राशि के लिए X मूल्य मौजूद हैं, जहां X पूर्ववर्ती है और Y परिणामी है।

कॉन्फिडेंस की व्याख्या सशर्त संभाव्यता के अनुमान के रूप में भी की जा सकती है , लेन-देन में नियम के आरएचएस को खोजने की संभावना इस शर्त के तहत है कि इन लेनदेन में एलएचएस भी शामिल है।[13][15] इसे आमतौर पर इस रूप में दर्शाया गया है:

समीकरण दर्शाता है कि लेन-देन की सह-घटना की गणना करके विश्वास की गणना की जा सकती है X तथा Y केवल लेनदेन के अनुपात में डेटासेट के भीतर X. इसका मतलब है कि दोनों में लेन-देन की संख्या X तथा Y बस में उन लोगों द्वारा विभाजित किया गया है X .

उदाहरण के लिए, तालिका 2 नियम दिखाता है जिसका भरोसा हो डेटासेट में, जो दर्शाता है कि हर बार जब कोई ग्राहक मक्खन और ब्रेड खरीदता है, तो वे दूध भी खरीदते हैं। यह विशेष उदाहरण मक्खन और ब्रेड दोनों वाले लेनदेन के लिए नियम को 100% सही होने का प्रदर्शन करता है। नियम हालांकि, का भरोसा है . इससे पता चलता है कि फल लाए जाने के 67% बार अंडे खरीदे जाते हैं। इस विशेष डेटासेट के भीतर, फलों को कुल 3 बार खरीदा जाता है, जिसमें से दो बार अंडे की खरीदारी होती है।

बड़े डेटासेट के लिए, न्यूनतम सीमा, या प्रतिशत कटऑफ़, विश्वास के लिए आइटम संबंधों को निर्धारित करने के लिए उपयोगी हो सकता है। तालिका 2 में कुछ डेटा के लिए इस पद्धति को लागू करते समय, आवश्यकताओं को पूरा नहीं करने वाली जानकारी हटा दी जाती है। तालिका 4 एसोसिएशन नियम उदाहरण दिखाती है जहां विश्वास के लिए न्यूनतम सीमा 0.5 (50%) है। कोई भी डेटा जिसमें कम से कम 0.5 का विश्वास नहीं है, को छोड़ दिया गया है। थ्रेसहोल्ड उत्पन्न करने से वस्तुओं के बीच जुड़ाव मजबूत हो जाता है क्योंकि डेटा को सबसे अधिक सह-घटित करने पर जोर देकर आगे शोध किया जाता है। तालिका समर्थन x विश्वास कॉलम को लागू करने के लिए तालिका 3 से विश्वास जानकारी का उपयोग करती है, जहां केवल एक अवधारणा के बजाय, उनके विश्वास और समर्थन दोनों के माध्यम से वस्तुओं के बीच संबंध को हाइलाइट किया जाता है। समर्थन एक्स कॉन्फिडेंस द्वारा नियमों की रैंकिंग किसी विशेष नियम के विश्वास को उसके समर्थन से गुणा करती है और अक्सर वस्तुओं के बीच संबंधों की अधिक गहन समझ के लिए लागू की जाती है।

Table 4. Example of Confidence and Support x Confidence
if Antecedent then Consequent Confidence Support x Confidence
if buy milk, then buy bread 2/2= 1.0 0.4X1.0= 0.4
if buy milk, then buy eggs 1/2= 0.5 0.2X0.5= 0.1
if buy bread, then buy fruit 2/3= 0.66 0.4X0.66= 0.264
if buy fruit, then buy eggs 2/3= 0.66 0.4X0.66= 0.264
if buy milk and bread, then buy fruit 2/2= 1.0 0.4X1.0= 0.4

कुल मिलाकर, एसोसिएशन रूल माइनिंग में विश्वास का उपयोग करना डेटा संबंधों के प्रति जागरूकता लाने का एक शानदार तरीका है। इसका सबसे बड़ा लाभ सेट के भीतर विशेष वस्तुओं के बीच एक दूसरे से संबंध को उजागर करना है, क्योंकि यह वस्तुओं की सह-घटनाओं की तुलना विशिष्ट नियम में पूर्ववर्ती की कुल घटना से करता है। हालांकि, संघ नियम खनन में हर अवधारणा के लिए विश्वास सबसे अच्छा तरीका नहीं है। इसका उपयोग करने का नुकसान यह है कि यह संघों पर एकाधिक अंतर दृष्टिकोण प्रदान नहीं करता है। समर्थन के विपरीत, उदाहरण के लिए, विश्वास संपूर्ण डेटासेट की तुलना में कुछ वस्तुओं के बीच संबंधों का परिप्रेक्ष्य प्रदान नहीं करता है, इसलिए दूध और रोटी, उदाहरण के लिए, विश्वास के लिए 100% समय हो सकता है, इसमें केवल 0.4 का समर्थन होता है (40%)। यही कारण है कि अन्य दृष्टिकोणों को देखना महत्वपूर्ण है, जैसे समर्थन एक्स विश्वास, केवल एक अवधारणा पर भरोसा करने के बजाय लगातार संबंधों को परिभाषित करें।

लिफ्ट

किसी नियम की लिफ्ट (डाटा माइनिंग) को इस प्रकार परिभाषित किया गया है:

या एक्स और वाई स्वतंत्रता (संभावना सिद्धांत) होने पर अपेक्षित समर्थन का अनुपात।

उदाहरण के लिए, नियम की लिफ्ट है .

यदि नियम में 1 की वृद्धि होती है, तो इसका अर्थ यह होगा कि पूर्ववर्ती और परिणामी होने की संभावना एक दूसरे से स्वतंत्र हैं। जब दो घटनाएँ एक-दूसरे से स्वतंत्र होती हैं, तो उन दो घटनाओं को शामिल करते हुए कोई नियम नहीं बनाया जा सकता।

यदि लिफ़्ट > 1 है, तो इससे हमें पता चलता है कि वे दो घटनाएँ किस हद तक एक दूसरे पर निर्भर हैं, और उन नियमों को भविष्य के डेटा सेटों में परिणाम की भविष्यवाणी करने के लिए संभावित रूप से उपयोगी बनाती हैं।

यदि लिफ्ट <1 है, तो इससे हमें पता चलता है कि आइटम एक दूसरे के स्थानापन्न हैं। इसका मतलब यह है कि एक वस्तु की उपस्थिति का दूसरे वस्तु की उपस्थिति पर नकारात्मक प्रभाव पड़ता है और इसके विपरीत।

लिफ़्ट का मूल्य यह है कि यह नियम के समर्थन और समग्र डेटा सेट दोनों पर विचार करता है।[13]


दोषसिद्धि

एक नियम की सजा के रूप में परिभाषित किया गया है .[16] उदाहरण के लिए, नियम का दृढ़ विश्वास है , और अपेक्षित आवृत्ति के अनुपात के रूप में व्याख्या की जा सकती है कि X बिना Y के होता है (अर्थात्, वह आवृत्ति जो नियम गलत भविष्यवाणी करता है) यदि X और Y स्वतंत्र रूप से गलत भविष्यवाणियों की देखी गई आवृत्ति से विभाजित थे। इस उदाहरण में, 1.2 का दृढ़ विश्वास मूल्य दर्शाता है कि नियम यदि X और Y के बीच संबंध पूरी तरह से यादृच्छिक मौका था तो 20% अधिक बार (1.2 गुना अधिक बार) गलत होगा।

दिलचस्पता के वैकल्पिक उपाय

विश्वास के अतिरिक्त, नियमों के लिए रोचकता के अन्य उपाय प्रस्तावित किए गए हैं। कुछ लोकप्रिय उपाय हैं:

  • सर्व-विश्वास[17]
  • सामूहिक शक्ति[18]
  • फ़ायदा उठाना[19]

टैन एट अल द्वारा कई और उपाय प्रस्तुत किए गए हैं और उनकी तुलना की गई है।[20] और हस्लर द्वारा।[21] ऐसी तकनीकों की तलाश करना जो उपयोगकर्ता को ज्ञात हो (और इन मॉडलों को दिलचस्प उपायों के रूप में उपयोग करना) को मॉडल कर सके, वर्तमान में सब्जेक्टिव इंटरेस्टिंग के नाम से एक सक्रिय शोध प्रवृत्ति है।

इतिहास

एसोसिएशन नियमों की अवधारणा विशेष रूप से अग्रवाल एट अल के 1993 के लेख के कारण लोकप्रिय हुई थी।[2]जिसने अप्रैल 2021 तक Google विद्वान के अनुसार 23,790 से अधिक उद्धरण प्राप्त किए हैं, और इस प्रकार यह डेटा माइनिंग क्षेत्र में सबसे अधिक उद्धृत पत्रों में से एक है। हालाँकि, जिसे अब एसोसिएशन नियम कहा जाता है, उसे 1966 के पेपर में पहले ही पेश किया जा चुका है[22] गुहा पर, पेट्र हाजेक एट अल द्वारा विकसित एक सामान्य डेटा माइनिंग विधि। रेफरी नाम = पोस्टर>Hájek, Petr; Rauch, Jan; Coufal, David; Feglar, Tomáš (2004). "The GUHA Method, Data Preprocessing and Mining". डाटा माइनिंग अनुप्रयोगों के लिए डाटाबेस समर्थन. Lecture Notes in Computer Science. Vol. 2682. pp. 135–153. doi:10.1007/978-3-540-44497-8_7. ISBN 978-3-540-22479-2.</रेफरी>

सभी एसोसिएशन नियमों को खोजने के लिए न्यूनतम समर्थन और विश्वास का प्रारंभिक (लगभग 1989) उपयोग फीचर आधारित मॉडलिंग ढांचा है, जिसमें सभी नियम पाए गए तथा उपयोगकर्ता परिभाषित बाधाओं से अधिक।[23]


सांख्यिकीय रूप से ध्वनि संघ

संघों की खोज के लिए मानक दृष्टिकोण की एक सीमा यह है कि बड़ी संख्या में संभावित संघों की खोज करके उन वस्तुओं के संग्रह की तलाश की जा सकती है जो संबंधित प्रतीत होते हैं, कई नकली संघों को खोजने का एक बड़ा जोखिम है। ये उन वस्तुओं का संग्रह हैं जो डेटा में अप्रत्याशित आवृत्ति के साथ सह-घटित होते हैं, लेकिन ऐसा केवल संयोग से होता है। उदाहरण के लिए, मान लीजिए कि हम 10,000 वस्तुओं के संग्रह पर विचार कर रहे हैं और ऐसे नियमों की तलाश कर रहे हैं जिनमें बाईं ओर दो आइटम हैं और दाईं ओर 1 आइटम है। लगभग 1,000,000,000,000 ऐसे नियम हैं। यदि हम 0.05 के महत्व स्तर के साथ स्वतंत्रता के लिए एक सांख्यिकीय परीक्षण लागू करते हैं तो इसका मतलब है कि अगर कोई संबंध नहीं है तो नियम को स्वीकार करने की केवल 5% संभावना है। अगर हम मानते हैं कि कोई संबंध नहीं हैं, तो भी हमें 50,000,000,000 नियम खोजने की उम्मीद करनी चाहिए। सांख्यिकीय रूप से ध्वनि संघ खोज[24][25] इस जोखिम को नियंत्रित करता है, ज्यादातर मामलों में उपयोगकर्ता द्वारा निर्दिष्ट महत्व स्तर पर किसी नकली संघों को खोजने के जोखिम को कम करता है।

एल्गोरिदम

एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।

कुछ जाने-माने एल्गोरिदम Apriori एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।

एप्रीओरी एल्गोरिथम

अप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।

एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख

अवलोकन: एप्रीओरी एल्गोरिथ्म एक बॉटम अप दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम ('उम्मीदवार पीढ़ी के रूप में जाना जाता है) में एक आइटम बढ़ाया जाता है, और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज और एक हैश ट्री (लगातार डेटा संरचना) संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।

उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है।

Input Set
{a, b} {c, d} {a, d} {a, e} {b, d} {a, b, d} {a, c, d} {a, b, c, d}

अब हम प्रत्येक वर्ण की घटनाओं की संख्या की गणना करके लगातार आइटम सेट उत्पन्न करेंगे। इसे समर्थन मूल्य खोजने के रूप में भी जाना जाता है। फिर हम एक न्यूनतम समर्थन सीमा चुनकर सेट आइटम की छँटाई करेंगे। एल्गोरिथम के इस पास के लिए हम 3 चुनेंगे।

Support Values
a b c d
6 4 3 6

चूंकि सभी समर्थन मूल्य तीन या उससे ऊपर हैं इसलिए कोई छंटाई नहीं है। लगातार आइटम सेट {ए}, {बी}, {सी}, और {डी} है। इसके बाद हम इनपुट सेट में म्यूटेशन के जोड़े की गिनती करके प्रक्रिया को दोहराएंगे।

Support Values
{a, b} {a, c} {a, d} {b, c} {b, d} {c, d}
3 2 4 1 3 4

अब हम अपना मिनिमम सपोर्ट वैल्यू 4 कर देंगे तो प्रूनिंग के बाद सिर्फ {a,d} और {c,d} ही रह जाएगा। अब हम ट्रिपलेट्स का संयोजन बनाने के लिए फ़्रीक्वेंट आइटम सेट का उपयोग करेंगे। फिर हम इनपुट सेट में म्यूटेशन के तीन गुना होने की घटनाओं की गणना करके प्रक्रिया को दोहराएंगे।

Support Values
{a, c, d}
2

चूंकि हमारे पास केवल एक आइटम है, चौगुनी के संयोजन का अगला सेट खाली है इसलिए एल्गोरिथ्म बंद हो जाएगा।

लाभ और सीमाएं:

Apriori की कुछ सीमाएँ हैं। उम्मीदवार पीढ़ी के परिणामस्वरूप बड़े उम्मीदवार सेट हो सकते हैं। उदाहरण के लिए एक 10^4 लगातार 1-आइटमसेट 10^7 उम्मीदवार 2-आइटमसेट उत्पन्न करेगा। एल्गोरिथम को डेटाबेस को बार-बार स्कैन करने की आवश्यकता होती है, विशिष्ट n+1 स्कैन होने के लिए जहां n सबसे लंबे पैटर्न की लंबाई है। Apriori Eclat एल्गोरिथम की तुलना में धीमा है। हालाँकि, जब डेटासेट बड़ा होता है तो Eclat की तुलना में Apriori अच्छा प्रदर्शन करता है। ऐसा इसलिए है क्योंकि Eclat एल्गोरिथम में यदि डेटासेट बहुत बड़ा है तो मेमोरी के लिए tid-सूचियाँ बहुत बड़ी हो जाती हैं। FP-ग्रोथ ने Apriori और Eclat को पीछे छोड़ दिया है। यह एफपी-ग्रोथ एल्गोरिदम के कारण एक कॉम्पैक्ट डेटा संरचना का उपयोग करके उम्मीदवार पीढ़ी या परीक्षण नहीं होने और केवल एक डेटाबेस स्कैन होने के कारण है।[26]


शार्क एल्गोरिथम

चमकना[11](alt. ECLAT, समतुल्य वर्ग परिवर्तन के लिए खड़ा है) एक बैक ट्रैकिंग एल्गोरिदम है, जो गहराई से पहली खोज (डीएफएस) फैशन में लगातार आइटमसेट जाली ग्राफ को पार करता है। जबकि Apriori एल्गोरिथम में उपयोग किया जाने वाला गहराई-पहली खोज (BFS) ट्रैवर्सल किसी आइटमसेट के प्रत्येक सबसेट की जाँच करने से पहले उसकी जाँच करेगा, DFS ट्रैवर्सल बड़े आइटमसेट की जाँच करता है और नीचे की ओर के आधार पर इसके कुछ सबसेट के समर्थन की जाँच करने से बचा सकता है। -करीब संपत्ति। इसके अलावा यह लगभग निश्चित रूप से कम मेमोरी का उपयोग करेगा क्योंकि डीएफएस में बीएफएस की तुलना में कम जगह की जटिलता है।

इसे स्पष्ट करने के लिए, एक लगातार आइटमसेट {ए, बी, सी} होने दें। डीएफएस निम्नलिखित क्रम में लगातार आइटमसेट जाली में नोड्स की जांच कर सकता है: {ए} → {ए, बी} → {ए, बी, सी}, जिस बिंदु पर यह ज्ञात है कि {बी}, {सी}, { ए, सी}, {बी, सी} सभी डाउनवर्ड-क्लोजर प्रॉपर्टी द्वारा समर्थन बाधा को संतुष्ट करते हैं। बीएफएस अंत में जांच करने से पहले {ए, बी, सी} के प्रत्येक सबसेट का पता लगाएगा। जैसे-जैसे एक आइटमसेट का आकार बढ़ता है, इसके उपसमुच्चयों की संख्या संयोजी विस्फोट से गुजरती है।

यह स्थानीयता-बढ़ाने वाले गुणों के साथ अनुक्रमिक और साथ ही समानांतर निष्पादन दोनों के लिए उपयुक्त है।[27][28]


एफपी-विकास एल्गोरिथम

FP,लगातार पैटर्न के लिए खड़ा है।[29] पहले पास में, एल्गोरिथ्म लेन-देन के डेटासेट में आइटम (विशेषता-मूल्य जोड़े) की घटनाओं की गणना करता है, और इन गणनाओं को 'हेडर टेबल' में संग्रहीत करता है। दूसरे पास में, यह एफपी-कोशिश करें स्ट्रक्चर को ट्राइ में ट्रांजेक्शन डालकर बनाता है।

प्रत्येक लेन-देन में वस्तुओं को डालने से पहले डेटासेट में उनकी आवृत्ति के अवरोही क्रम द्वारा क्रमबद्ध किया जाना चाहिए ताकि पेड़ को जल्दी से संसाधित किया जा सके। प्रत्येक लेन-देन में आइटम जो न्यूनतम समर्थन आवश्यकता को पूरा नहीं करते हैं, उन्हें छोड़ दिया जाता है। यदि कई लेन-देन सबसे अधिक बार आइटम साझा करते हैं, तो एफपी-ट्री ट्री रूट के करीब उच्च संपीड़न प्रदान करता है।

मुख्य डेटासेट के इस संकुचित संस्करण का पुनरावर्ती प्रसंस्करण उम्मीदवार वस्तुओं को उत्पन्न करने और उन्हें पूरे डेटाबेस के विरुद्ध परीक्षण करने के बजाय लगातार आइटम सेट को सीधे बढ़ाता है (जैसा कि एप्रियोरी एल्गोरिथम में)।

ग्रोथ हेडर टेबल के नीचे से शुरू होती है यानी उस आइटम में समाप्त होने वाले सभी सॉर्ट किए गए लेन-देन को ढूंढकर सबसे कम समर्थन वाला आइटम। इस आइटम को कॉल करें .

एक नया सशर्त वृक्ष बनाया जाता है जो मूल एफपी-वृक्ष पर प्रक्षेपित होता है . अनुमानित पेड़ में सभी नोड्स के समर्थन को फिर से गिना जाता है, प्रत्येक नोड को उसके बच्चों की संख्या का योग मिलता है। नोड्स (और इसलिए सबट्रीज़) जो न्यूनतम समर्थन को पूरा नहीं करते हैं, काट दिए जाते हैं। पुनरावर्ती विकास तब समाप्त होता है जब कोई व्यक्तिगत आइटम सशर्त नहीं होता है न्यूनतम समर्थन सीमा को पूरा करें। रूट से परिणामी पथ बार-बार आइटमसेट होंगे। इस कदम के बाद, मूल एफपी-ट्री के अगले कम से कम समर्थित हेडर आइटम के साथ प्रसंस्करण जारी रहता है।

एक बार पुनरावर्ती प्रक्रिया पूरी हो जाने के बाद, सभी लगातार आइटम सेट मिल जाएंगे, और एसोसिएशन नियम बनाना शुरू हो जाएगा।[30]


अन्य

ASSOC

ASSOC प्रक्रिया[31] एक GUHA विधि है जो तेज़ bitstring्स संचालन का उपयोग करके सामान्यीकृत एसोसिएशन नियमों के लिए खनन करती है। इस पद्धति द्वारा खनन किए गए संघ के नियम apriori द्वारा उन आउटपुट की तुलना में अधिक सामान्य हैं, उदाहरण के लिए वस्तुओं को संयोजन और संयोजन दोनों के साथ जोड़ा जा सकता है और पूर्ववर्ती और नियम के परिणाम के बीच संबंध apriori के रूप में न्यूनतम समर्थन और विश्वास स्थापित करने तक सीमित नहीं है: समर्थित ब्याज उपायों के मनमाने संयोजन का उपयोग किया जा सकता है।

ओपस खोज

ओपस नियम की खोज के लिए एक कुशल एल्गोरिदम है, जो कि अधिकांश विकल्पों के विपरीत, न्यूनतम समर्थन जैसे मोनोटोन या एंटी-मोनोटोन बाधाओं की आवश्यकता नहीं होती है।[32] प्रारंभ में एक निश्चित परिणाम के लिए नियम खोजते थे[32][33] इसे बाद में परिणाम के रूप में किसी भी आइटम के साथ नियमों को खोजने के लिए बढ़ा दिया गया है।[34] लोकप्रिय मैग्नम ओपस एसोसिएशन डिस्कवरी सिस्टम में ओपस सर्च मुख्य तकनीक है।

विद्या

एसोसिएशन रूल माइनिंग के बारे में एक प्रसिद्ध कहानी बीयर और डायपर की कहानी है। सुपरमार्केट दुकानदारों के व्यवहार के एक कथित सर्वेक्षण में पता चला कि डायपर खरीदने वाले ग्राहक (संभवतः युवा पुरुष) भी बीयर खरीदने की प्रवृत्ति रखते हैं। यह उपाख्यान इस बात के उदाहरण के रूप में लोकप्रिय हुआ कि रोज़मर्रा के डेटा से अनपेक्षित संघ नियम कैसे पाए जा सकते हैं। कहानी कितनी सच है, इस पर अलग-अलग राय है।[35] डैनियल पॉवर्स कहते हैं:[35]

1992 में, टेराडाटा में एक खुदरा परामर्श समूह के प्रबंधक थॉमस ब्लिशोक और उनके कर्मचारियों ने लगभग 25 ओस्को ड्रग स्टोर से 1.2 मिलियन मार्केट बास्केट का विश्लेषण तैयार किया। एफ़िनिटी की पहचान करने के लिए डेटाबेस क्वेरीज़ विकसित की गईं। विश्लेषण से पता चला कि शाम 5:00 से 7:00 बजे के बीच। कि उपभोक्ताओं ने बीयर और डायपर खरीदे। ओस्को के प्रबंधकों ने बियर और डायपर के बीच संबंध को अलमारियों पर उत्पादों को पास-पास ले जाकर नहीं भुनाया।

अन्य प्रकार के संघ नियम खनन

मल्टी-रिलेशनशिप एसोसिएशन रूल्स: मल्टी-रिलेशनल एसोसिएशन रूल्स (MRAR) एसोसिएशन नियम हैं जहाँ प्रत्येक आइटम में कई संबंध हो सकते हैं। ये संबंध संस्थाओं के बीच अप्रत्यक्ष संबंध का संकेत देते हैं। निम्नलिखित एमआरएआर पर विचार करें जहां पहले आइटम में तीन संबंध शामिल हैं लिव इन, निकट और आर्द्र: आर्द्र जलवायु प्रकार वाले शहर और 20 वर्ष से युवा भी हैं -> उनकी स्वास्थ्य स्थिति अच्छी है"। ऐसे संघ नियम RDBMS डेटा या सिमेंटिक वेब डेटा से निकाले जा सकते हैं।[36] कंट्रास्ट सेट लर्निंग साहचर्य सीखने का एक रूप है। कंट्रास्ट सेट शिक्षार्थी उन नियमों का उपयोग करते हैं जो सबसेट में उनके वितरण में अर्थपूर्ण रूप से भिन्न होते हैं।[37][38] वेटेड क्लास लर्निंग साहचर्य सीखने का एक और रूप है जिसमें डेटा माइनिंग परिणामों के उपभोक्ता के लिए चिंता के एक विशेष मुद्दे पर ध्यान देने के लिए कक्षाओं को भार सौंपा जा सकता है।

हाई-ऑर्डर पैटर्न डिस्कवरी हाई-ऑर्डर (पॉलीथेटिक) पैटर्न या इवेंट एसोसिएशन को पकड़ने की सुविधा प्रदान करती है जो जटिल वास्तविक दुनिया डेटा के लिए आंतरिक हैं। [39] के-इष्टतम पैटर्न खोज एसोसिएशन नियम सीखने के लिए मानक दृष्टिकोण का एक विकल्प प्रदान करता है जिसके लिए आवश्यक है कि प्रत्येक पैटर्न डेटा में बार-बार दिखाई दे।

अनुमानित फ़्रीक्वेंट आइटमसेट माइनिंग फ़्रीक्वेंट आइटमसेट माइनिंग का एक आरामदेह संस्करण है जो कुछ पंक्तियों में कुछ आइटमों को 0 होने की अनुमति देता है।[40] सामान्यीकृत एसोसिएशन नियम पदानुक्रमित वर्गीकरण (अवधारणा पदानुक्रम)

क्वांटिटेटिव एसोसिएशन रूल्स श्रेणीबद्ध और मात्रात्मक डेटा

इंटरवल डेटा एसोसिएशन नियम उदा। उम्र को 5 साल में बांट कर इन्क्रीमेंट किया गया

अनुक्रमिक पैटर्न खनन उन परवर्ती का पता लगाता है जो मिनसअप से अधिक के लिए सामान्य हैं[clarification needed] अनुक्रम डेटाबेस में अनुक्रम, जहां minsup उपयोगकर्ता द्वारा निर्धारित किया जाता है। एक अनुक्रम लेन-देन की एक आदेशित सूची है।[41] सबस्पेस क्लस्टरिंग, एक विशिष्ट प्रकार का क्लस्टरिंग उच्च-आयामी डेटा, विशिष्ट क्लस्टरिंग मॉडल के लिए डाउनवर्ड-क्लोजर प्रॉपर्टी के आधार पर कई रूपों में भी है।[42] वार्मर को एसीई डाटा माइनिंग सूट के हिस्से के रूप में भेज दिया गया है। यह पहले क्रम के संबंधपरक नियमों के लिए संघ नियम सीखने की अनुमति देता है।[43]


यह भी देखें

संदर्भ

  1. Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
  2. 2.0 2.1 2.2 2.3 2.4 2.5 Agrawal, R.; Imieliński, T.; Swami, A. (1993). "Mining association rules between sets of items in large databases". डेटा के प्रबंधन पर 1993 एसीएम सिग्मॉड अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - सिग्मॉड '93. p. 207. CiteSeerX 10.1.1.40.6984. doi:10.1145/170035.170072. ISBN 978-0897915922. S2CID 490415.
  3. Garcia, Enrique (2007). "लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान" (PDF). Sci2s. Archived (PDF) from the original on 2009-12-23.
  4. "डाटा माइनिंग तकनीक: विचार करने के लिए शीर्ष 5". Precisely (in English). 2021-11-08. Retrieved 2021-12-10.
  5. 5.0 5.1 5.2 "16 डाटा माइनिंग तकनीक: पूरी सूची - Talend". Talend - A Leader in Data Integration & Data Integrity (in English). Retrieved 2021-12-10.
  6. "डेटा माइनिंग (एसोसिएशन रूल माइनिंग) में एसोसिएशन नियम क्या हैं?". SearchBusinessAnalytics (in English). Retrieved 2021-12-10.
  7. "लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान". ResearchGate (in English). Retrieved 2021-12-10.
  8. Tan, Pang-Ning; Michael, Steinbach; Kumar, Vipin (2005). "Chapter 6. Association Analysis: Basic Concepts and Algorithms" (PDF). डाटा माइनिंग का परिचय. Addison-Wesley. ISBN 978-0-321-32136-7.
  9. Jian Pei; Jiawei Han; Lakshmanan, L.V.S. (2001). "Mining frequent itemsets with convertible constraints". डाटा इंजीनियरिंग पर 17वां अंतर्राष्ट्रीय सम्मेलन की कार्यवाही. pp. 433–442. CiteSeerX 10.1.1.205.2150. doi:10.1109/ICDE.2001.914856. ISBN 978-0-7695-1001-9. S2CID 1080975.
  10. Agrawal, Rakesh; and Srikant, Ramakrishnan; Fast algorithms for mining association rules in large databases Archived 2015-02-25 at the Wayback Machine, in Bocca, Jorge B.; Jarke, Matthias; and Zaniolo, Carlo; editors, Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), Santiago, Chile, September 1994, pages 487-499
  11. 11.0 11.1 Zaki, M. J. (2000). "एसोसिएशन माइनिंग के लिए स्केलेबल एल्गोरिदम". IEEE Transactions on Knowledge and Data Engineering. 12 (3): 372–390. CiteSeerX 10.1.1.79.9448. doi:10.1109/69.846291.
  12. 12.0 12.1 Larose, Daniel T.; Larose, Chantal D. (2014-06-23). डेटा में ज्ञान की खोज. doi:10.1002/9781118874059. ISBN 9781118874059.
  13. 13.0 13.1 13.2 Hahsler, Michael (2005). "एरूल्स का परिचय - माइनिंग एसोसिएशन रूल्स और बारंबार आइटम सेट के लिए एक कम्प्यूटेशनल वातावरण" (PDF). Journal of Statistical Software. doi:10.18637/jss.v014.i15.
  14. Wong, Pak (1999). "टेक्स्ट माइनिंग के लिए विज़ुअलाइज़िंग एसोसिएशन नियम" (PDF). BSTU Laboratory of Artificial Neural Networks. Archived (PDF) from the original on 2021-11-29.
  15. Hipp, J.; Güntzer, U.; Nakhaeizadeh, G. (2000). "एसोसिएशन नियम खनन के लिए एल्गोरिदम --- एक सामान्य सर्वेक्षण और तुलना". ACM SIGKDD Explorations Newsletter. 2: 58–64. CiteSeerX 10.1.1.38.5305. doi:10.1145/360402.360421. S2CID 9248096.
  16. Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D.; Tsur, Shalom (1997). "Dynamic itemset counting and implication rules for market basket data". डेटा के प्रबंधन पर 1997 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '97. pp. 255–264. CiteSeerX 10.1.1.41.6476. doi:10.1145/253260.253325. ISBN 978-0897919111. S2CID 15385590.
  17. Omiecinski, E.R. (2003). "डेटाबेस में खनन संघों के लिए वैकल्पिक ब्याज उपाय". IEEE Transactions on Knowledge and Data Engineering. 15: 57–69. CiteSeerX 10.1.1.329.5344. doi:10.1109/TKDE.2003.1161582.
  18. Aggarwal, Charu C.; Yu, Philip S. (1998). "A new framework for itemset generation". डेटाबेस सिस्टम के सिद्धांतों पर सत्रहवीं ACM SIGACT-SIGMOD-SIGART संगोष्ठी की कार्यवाही - PODS '98. pp. 18–24. CiteSeerX 10.1.1.24.714. doi:10.1145/275487.275490. ISBN 978-0897919968. S2CID 11934586.
  19. Piatetsky-Shapiro, Gregory; Discovery, analysis, and presentation of strong rules, Knowledge Discovery in Databases, 1991, pp. 229-248
  20. Tan, Pang-Ning; Kumar, Vipin; Srivastava, Jaideep (2004). "एसोसिएशन विश्लेषण के लिए सही उद्देश्य माप का चयन करना". Information Systems. 29 (4): 293–313. CiteSeerX 10.1.1.331.4740. doi:10.1016/S0306-4379(03)00072-3.
  21. Michael Hahsler (2015). A Probabilistic Comparison of Commonly Used Interest Measures for Association Rules. https://mhahsler.github.io/arules/docs/measures
  22. Hájek, P.; Havel, I.; Chytil, M. (1966). "स्वचालित परिकल्पना निर्धारण की गुहा विधि". Computing. 1 (4): 293–308. doi:10.1007/BF02345483. S2CID 10511114.
  23. Webb, Geoffrey (1989). "छात्र मॉडलिंग के लिए एक मशीन लर्निंग दृष्टिकोण". Proceedings of the Third Australian Joint Conference on Artificial Intelligence (AI 89): 195–205.
  24. Webb, Geoffrey I. (2007). "महत्वपूर्ण पैटर्न की खोज". Machine Learning. 68: 1–33. doi:10.1007/s10994-007-5006-x.
  25. Gionis, Aristides; Mannila, Heikki; Mielikäinen, Taneli; Tsaparas, Panayiotis (2007). "स्वैप रैंडमाइजेशन के माध्यम से डेटा माइनिंग परिणामों का आकलन करना". ACM Transactions on Knowledge Discovery from Data. 1 (3): 14–es. CiteSeerX 10.1.1.141.2607. doi:10.1145/1297332.1297338. S2CID 52305658.
  26. Heaton, Jeff (2017-01-30). "एप्रीओरी, एक्लाट या एफपी-ग्रोथ फ़्रीक्वेंट आइटमसेट माइनिंग एल्गोरिथम के पक्ष में डेटासेट विशेषताओं की तुलना करना". arXiv:1701.09042 [cs.DB].
  27. Zaki, Mohammed Javeed; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "एसोसिएशन नियमों की फास्ट डिस्कवरी के लिए नए एल्गोरिदम": 283–286. CiteSeerX 10.1.1.42.3283. hdl:1802/501. {{cite journal}}: Cite journal requires |journal= (help)
  28. Zaki, Mohammed J.; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "एसोसिएशन नियमों की खोज के लिए समानांतर एल्गोरिदम". Data Mining and Knowledge Discovery. 1 (4): 343–373. doi:10.1023/A:1009773317876. S2CID 10038675.
  29. Han (2000). "Mining Frequent Patterns Without Candidate Generation". डेटा के प्रबंधन पर 2000 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '00. pp. 1–12. CiteSeerX 10.1.1.40.4436. doi:10.1145/342009.335372. ISBN 978-1581132175. S2CID 6059661. {{cite book}}: |journal= ignored (help)
  30. Witten, Frank, Hall: Data mining practical machine learning tools and techniques, 3rd edition[page needed]
  31. Hájek, Petr; Havránek, Tomáš (1978). मशीनीकरण परिकल्पना गठन: एक सामान्य सिद्धांत के लिए गणितीय नींव. Springer-Verlag. ISBN 978-3-540-08738-0.
  32. 32.0 32.1 Webb, Geoffrey I. (1995); OPUS: An Efficient Admissible Algorithm for Unordered Search, Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, pp. 431-465 online access
  33. Bayardo, Roberto J. Jr.; Agrawal, Rakesh; Gunopulos, Dimitrios (2000). "बड़े, सघन डेटाबेस में बाधा-आधारित नियम खनन". Data Mining and Knowledge Discovery. 4 (2): 217–240. doi:10.1023/A:1009895914772. S2CID 5120441.
  34. Webb, Geoffrey I. (2000). "Efficient search for association rules". नॉलेज डिस्कवरी और डेटा माइनिंग पर छठे ACM SIGKDD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - KDD '00. pp. 99–107. CiteSeerX 10.1.1.33.1309. doi:10.1145/347090.347112. ISBN 978-1581132335. S2CID 5444097.
  35. 35.0 35.1 "डीएसएस न्यूज: वॉल्यूम। 3, संख्या 23".
  36. Ramezani, Reza, Mohamad Sunni ee, and Mohammad Ali Nematbakhsh; MRAR: Mining Multi-Relation Association Rules, Journal of Computing and Security, 1, no. 2 (2014)
  37. GI Webb and S. Butler and D. Newlands (2003). समूहों के बीच अंतर का पता लगाने पर. KDD'03 Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
  38. Menzies, T.; Ying Hu (2003). "कम्प्यूटिंग अभ्यास - बहुत व्यस्त लोगों के लिए डाटा माइनिंग". Computer. 36 (11): 22–29. doi:10.1109/MC.2003.1244531.
  39. Wong, A.K.C.; Yang Wang (1997). "असतत-मूल्यवान डेटा से उच्च-क्रम पैटर्न की खोज". IEEE Transactions on Knowledge and Data Engineering. 9 (6): 877–893. CiteSeerX 10.1.1.189.1704. doi:10.1109/69.649314.
  40. Liu, Jinze; Paulsen, Susan; Sun, Xing; Wang, Wei; Nobel, Andrew; Prins, Jan (2006). "Mining Approximate Frequent Itemsets in the Presence of Noise: Algorithm and Analysis". डाटा माइनिंग पर 2006 SIAM अंतर्राष्ट्रीय सम्मेलन की कार्यवाही. pp. 407–418. CiteSeerX 10.1.1.215.3599. doi:10.1137/1.9781611972764.36. ISBN 978-0-89871-611-5.
  41. Zaki, Mohammed J. (2001); SPADE: An Efficient Algorithm for Mining Frequent Sequences, Machine Learning Journal, 42, pp. 31–60
  42. Zimek, Arthur; Assent, Ira; Vreeken, Jilles (2014). बार-बार पैटर्न खनन. pp. 403–423. doi:10.1007/978-3-319-07821-2_16. ISBN 978-3-319-07820-5.
  43. King, R. D.; Srinivasan, A.; Dehaspe, L. (Feb 2001). "वार्मर: रासायनिक डेटा के लिए एक डेटा माइनिंग टूल।". J Comput Aided Mol Des. 15 (2): 173–81. Bibcode:2001JCAMD..15..173K. doi:10.1023/A:1008171016861. PMID 11272703. S2CID 3055046.



ग्रंथ सूची


श्रेणी:डेटा प्रबंधन श्रेणी:डेटा खनन