संघ नियम अधिगम: Difference between revisions

Revision as of 15:12, 14 December 2022

एसोसिएशन रूल लर्निंग एक नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए एसोसिएशन रूल लर्निंग एक नियम-आधारित मशीन लर्निंग विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है।^[1] विभिन्न मदों के साथ किसी दिए गए लेन-देन में, एसोसिएशन नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।

मजबूत नियमों की अवधारणा के आधार पर राकेश अग्रवाल (कंप्यूटर वैज्ञानिक), टॉमाज़ इमेलिंस्की और अरुण स्वामी^[2] सुपरमार्केट में बिक्री केन्द्र (POS) सिस्टम द्वारा अभिलेख किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए संगठन नियम पेश किए। उदाहरण के लिए, नियम $\{\mathrm {onions,potatoes} \}\Rightarrow \{\mathrm {burger} \}$ एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार मूल्य निर्धारण या उत्पाद लगाने की क्रिया (प्लेसमेंट)।

उपरोक्त उदाहरण के अलावा बाजार टोकरी विश्लेषण संघ के नियम आज वेब उपयोग खनन, अनुचित हस्तक्षेप, निरंतर उत्पादन और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। अनुक्रम खनन (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।

संगठन (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।^[3]

परिभाषा

File:Association Rule Mining Venn Diagram.png

डेटासेट के आइटमसेट X और Y के बीच जुड़ाव दिखाने के लिए एक वेन आरेख। आइटम X वाले सभी लेन-देन सर्कल के सफेद, बाएं हिस्से में स्थित हैं, जबकि Y वाले लाल रंग और दाईं ओर हैं। X और Y दोनों वाले कोई भी लेन-देन मध्य में स्थित होते हैं और गुलाबी रंग के होते हैं। इस ग्राफ से जानकारी को दर्शाने के लिए कई अवधारणाओं का उपयोग किया जा सकता है। उदाहरण के लिए, यदि कोई सभी लेन-देन को गुलाबी खंड में लेता है और उन्हें लेनदेन की कुल राशि से विभाजित करता है (लेन-देन में X (सफेद) + लेन-देन जिसमें Y (लाल) होता है), तो आउटपुट को समर्थन के रूप में जाना जाएगा। विश्वास के रूप में जानी जाने वाली विधि का परिणाम प्राप्त करने का एक उदाहरण, कोई भी सभी लेन-देन को बीच में (गुलाबी) ले सकता है और उन्हें उन सभी लेनदेन से विभाजित कर सकता है जिनमें Y (लाल और गुलाबी) होता है। इस स्थिति में, Y पूर्ववर्ती है और X परिणामी है।

अग्रवाल, इमिलिंस्की, स्वामी द्वारा मूल परिभाषा के बाद^[2]संघ नियम खनन की समस्या को इस प्रकार परिभाषित किया गया है:

होने देना $I=\{i_{1},i_{2},\ldots ,i_{n}\}$ का एक सेट हो $n$ बाइनरी गुण आइटम कहा जाता है।

होने देना $D=\{t_{1},t_{2},\ldots ,t_{m}\}$ लेन-देन का एक सेट जिसे डेटाबेस कहा जाता है।

प्रत्येक लेन-देन में $D$ एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है $I$ .

एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:

$X\Rightarrow Y$ , जहाँ पे $X,Y\subseteq I$ .

अग्रवाल, इमिलिंस्की, स्वामी में^[2]एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, $X\Rightarrow i_{j}$ के लिये $i_{j}\in I$ .

प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है $X$ तथा $Y$ जहाँ पे $X$ पूर्ववर्ती या बाएं हाथ की ओर (LHS) और $Y$ परिणामी या दाहिनी ओर (RHS) कहा जाता है। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन $X\Rightarrow Y$ को अक्सर $X$ तब

[1]

[2]

[3]

@@ Line 258: / Line 258: @@
 एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।
-कुछ जाने-माने एल्गोरिदम Apriori एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।
+कुछ जाने-माने एल्गोरिदम एप्रीओरी एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।
 === एप्रीओरी एल्गोरिथम ===
-अप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।
+एप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।
-[[File:APriori.png|thumb|357x357px|एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख]]अवलोकन: एप्रीओरी एल्गोरिथ्म एक बॉटम अप दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम ('उम्मीदवार पीढ़ी'' के रूप में जाना जाता है) में एक आइटम बढ़ाया जाता है, और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज और एक [[हैश ट्री (लगातार डेटा संरचना)]] संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।
+[[File:APriori.png|thumb|357x357px|एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख]]अवलोकन: एप्रीओरी एल्गोरिथ्म "नीचे ऊपर" (बॉटम अप) दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम (उम्मीदवार पीढ़ी'' के रूप में जाना जाने वाला एक कदम) बढ़ाया जाता है और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज" (breadth-first search) और  [[हैश ट्री (लगातार डेटा संरचना)|हैश ट्री (Hass tree structure)]] संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।''
 उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है।
   {| class="wikitable"
-|+Input Set
+|+इनपुट सेट
 !{a,  b}
 !{c, d}

Anonymous

Search

संघ नियम अधिगम: Difference between revisions

Namespaces

More

Page actions

Revision as of 15:12, 14 December 2022

Contents

परिभाषा