संघ नियम अधिगम: Difference between revisions

From Vigyanwiki
No edit summary
Line 258: Line 258:
एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।
एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।


कुछ जाने-माने एल्गोरिदम Apriori एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।
कुछ जाने-माने एल्गोरिदम एप्रीओरी एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।


=== एप्रीओरी एल्गोरिथम ===
=== एप्रीओरी एल्गोरिथम ===
अप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।
एप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।


[[File:APriori.png|thumb|357x357px|एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख]]अवलोकन: एप्रीओरी एल्गोरिथ्म एक बॉटम अप दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम ('उम्मीदवार पीढ़ी'' के रूप में जाना जाता है) में एक आइटम बढ़ाया जाता है, और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज और एक [[हैश ट्री (लगातार डेटा संरचना)]] संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।
[[File:APriori.png|thumb|357x357px|एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख]]अवलोकन: एप्रीओरी एल्गोरिथ्म "नीचे ऊपर" (बॉटम अप) दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम (उम्मीदवार पीढ़ी'' के रूप में जाना जाने वाला एक कदम) बढ़ाया जाता है और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज" (breadth-first search) और [[हैश ट्री (लगातार डेटा संरचना)|हैश ट्री (Hass tree structure)]] संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।''


उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है।
उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है।
  {| class="wikitable"
  {| class="wikitable"
|+Input Set
|+इनपुट सेट
!{a,  b}
!{a,  b}
!{c, d}
!{c, d}

Revision as of 15:12, 14 December 2022

एसोसिएशन रूल लर्निंग एक नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए एसोसिएशन रूल लर्निंग एक नियम-आधारित मशीन लर्निंग विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है।[1] विभिन्न मदों के साथ किसी दिए गए लेन-देन में, एसोसिएशन नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।

मजबूत नियमों की अवधारणा के आधार पर राकेश अग्रवाल (कंप्यूटर वैज्ञानिक), टॉमाज़ इमेलिंस्की और अरुण स्वामी[2] सुपरमार्केट में बिक्री केन्द्र (POS) सिस्टम द्वारा अभिलेख किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए संगठन नियम पेश किए। उदाहरण के लिए, नियम एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार मूल्य निर्धारण या उत्पाद लगाने की क्रिया (प्लेसमेंट)।

उपरोक्त उदाहरण के अलावा बाजार टोकरी विश्लेषण संघ के नियम आज वेब उपयोग खनन, अनुचित हस्तक्षेप, निरंतर उत्पादन और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। अनुक्रम खनन (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।

संगठन (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।[3]


परिभाषा

File:Association Rule Mining Venn Diagram.png
डेटासेट के आइटमसेट X और Y के बीच जुड़ाव दिखाने के लिए एक वेन आरेख। आइटम X वाले सभी लेन-देन सर्कल के सफेद, बाएं हिस्से में स्थित हैं, जबकि Y वाले लाल रंग और दाईं ओर हैं। X और Y दोनों वाले कोई भी लेन-देन मध्य में स्थित होते हैं और गुलाबी रंग के होते हैं। इस ग्राफ से जानकारी को दर्शाने के लिए कई अवधारणाओं का उपयोग किया जा सकता है। उदाहरण के लिए, यदि कोई सभी लेन-देन को गुलाबी खंड में लेता है और उन्हें लेनदेन की कुल राशि से विभाजित करता है (लेन-देन में X (सफेद) + लेन-देन जिसमें Y (लाल) होता है), तो आउटपुट को समर्थन के रूप में जाना जाएगा। विश्वास के रूप में जानी जाने वाली विधि का परिणाम प्राप्त करने का एक उदाहरण, कोई भी सभी लेन-देन को बीच में (गुलाबी) ले सकता है और उन्हें उन सभी लेनदेन से विभाजित कर सकता है जिनमें Y (लाल और गुलाबी) होता है। इस स्थिति में, Y पूर्ववर्ती है और X परिणामी है।

अग्रवाल, इमिलिंस्की, स्वामी द्वारा मूल परिभाषा के बाद[2]संघ नियम खनन की समस्या को इस प्रकार परिभाषित किया गया है:

होने देना का एक सेट हो बाइनरी गुण आइटम कहा जाता है।

होने देना लेन-देन का एक सेट जिसे डेटाबेस कहा जाता है।

प्रत्येक लेन-देन में एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है .

एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:

, जहाँ पे .

अग्रवाल, इमिलिंस्की, स्वामी में[2]एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, के लिये .

प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है तथा जहाँ पे पूर्ववर्ती या बाएं हाथ की ओर (LHS) और परिणामी या दाहिनी ओर (RHS) कहा जाता है। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन को अक्सर तब