संघ नियम अधिगम: Difference between revisions

From Vigyanwiki
No edit summary
 
(39 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Short description|Method for discovering interesting relations between variables in databases}}
{{Short description|Method for discovering interesting relations between variables in databases}}
{{Machine learning|Problems}}
{{Machine learning|Problems}}
एसोसिएशन रूल लर्निंग एक नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए एसोसिएशन रूल लर्निंग एक नियम-आधारित मशीन लर्निंग विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है।<ref name="piatetsky">Piatetsky-Shapiro, Gregory (1991), ''Discovery, analysis, and presentation of strong rules'', in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., ''Knowledge Discovery in Databases'', AAAI/MIT Press, Cambridge, MA.</ref> विभिन्न मदों के साथ किसी दिए गए लेन-देन में, एसोसिएशन नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।
नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए संघ नियम सीखना (एसोसिएशन रूल लर्निंग) एक नियम-आधारित यंत्र अधिगम विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है।<ref name="piatetsky">Piatetsky-Shapiro, Gregory (1991), ''Discovery, analysis, and presentation of strong rules'', in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., ''Knowledge Discovery in Databases'', AAAI/MIT Press, Cambridge, MA.</ref> विभिन्न मदों के साथ किसी दिए गए लेन-देन में, संघ (एसोसिएशन) नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।


मजबूत नियमों की अवधारणा के आधार पर, [[राकेश अग्रवाल (कंप्यूटर वैज्ञानिक)]], टॉमाज़ इमेलिंस्की और अरुण स्वामी<ref name="mining">{{Cite book | last1 = Agrawal | first1 = R. | last2 = Imieliński | first2 = T. | last3 = Swami | first3 = A. | doi = 10.1145/170035.170072 | chapter = Mining association rules between sets of items in large databases | title = डेटा के प्रबंधन पर 1993 एसीएम सिग्मॉड अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - सिग्मॉड '93| pages = 207 | year = 1993 | isbn = 978-0897915922 | citeseerx = 10.1.1.40.6984 | s2cid = 490415 }}</ref> सुपरमार्केट में [[बिक्री केन्द्र]] (POS) सिस्टम द्वारा रिकॉर्ड किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए एसोसिएशन नियम पेश किए। उदाहरण के लिए, नियम <math>\{\mathrm{onions, potatoes}\} \Rightarrow \{\mathrm{burger}\}</math> एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार [[मूल्य निर्धारण]] या उत्पाद लगाने की क्रिया (प्लेसमेंट)।
मजबूत नियमों की अवधारणा के आधार पर [[राकेश अग्रवाल (कंप्यूटर वैज्ञानिक)]], टॉमाज़ इमेलिंस्की और अरुण स्वामी<ref name="mining">{{Cite book | last1 = Agrawal | first1 = R. | last2 = Imieliński | first2 = T. | last3 = Swami | first3 = A. | doi = 10.1145/170035.170072 | chapter = Mining association rules between sets of items in large databases | title = डेटा के प्रबंधन पर 1993 एसीएम सिग्मॉड अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - सिग्मॉड '93| pages = 207 | year = 1993 | isbn = 978-0897915922 | citeseerx = 10.1.1.40.6984 | s2cid = 490415 }}</ref> सुपरमार्केट में [[बिक्री केन्द्र]] (POS) सिस्टम द्वारा अभिलेख किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए संगठन नियम पेश किए। उदाहरण के लिए, नियम<math>\{\mathrm{onions, potatoes}\} \Rightarrow \{\mathrm{burger}\}</math> एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार [[मूल्य निर्धारण]] या उत्पाद लगाने की क्रिया (प्लेसमेंट)।


उपरोक्त उदाहरण के अलावा [[बाजार टोकरी विश्लेषण]] संघ के नियम आज [[वेब उपयोग खनन]], घुसपैठ का पता लगाने, [[निरंतर उत्पादन]] और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। [[अनुक्रम खनन]] (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।
उपरोक्त उदाहरण के अलावा [[बाजार टोकरी विश्लेषण]] संघ के नियम आज [[वेब उपयोग खनन]], अनुचित हस्तक्षेप, [[निरंतर उत्पादन]] और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। [[अनुक्रम खनन]] (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।


संघ (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।<ref>{{Cite web|last=Garcia|first=Enrique|date=2007|title=लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान|url=https://sci2s.ugr.es/keel/pdf/specific/congreso/3-associationrules-Final.pdf|url-status=live|website=Sci2s|archive-url=https://web.archive.org/web/20091223124403/http://sci2s.ugr.es/keel/pdf/specific/congreso/3-associationrules-Final.pdf |archive-date=2009-12-23 }}</ref>
संगठन (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।<ref>{{Cite web|last=Garcia|first=Enrique|date=2007|title=लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान|url=https://sci2s.ugr.es/keel/pdf/specific/congreso/3-associationrules-Final.pdf|url-status=live|website=Sci2s|archive-url=https://web.archive.org/web/20091223124403/http://sci2s.ugr.es/keel/pdf/specific/congreso/3-associationrules-Final.pdf |archive-date=2009-12-23 }}</ref>




Line 19: Line 19:
होने देना <math>I=\{i_1, i_2,\ldots,i_n\}</math> का एक सेट हो <math>n</math> बाइनरी गुण आइटम कहा जाता है।
होने देना <math>I=\{i_1, i_2,\ldots,i_n\}</math> का एक सेट हो <math>n</math> बाइनरी गुण आइटम कहा जाता है।


होने देना <math>D = \{t_1, t_2, \ldots, t_m\}</math> लेन-देन का एक सेट हो जिसे डेटाबेस कहा जाता है।
होने देना <math>D = \{t_1, t_2, \ldots, t_m\}</math> लेन-देन का एक सेट जिसे डेटाबेस कहा जाता है।


प्रत्येक लेन-देन में <math>D</math> एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है <math>I</math>.
प्रत्येक लेन-देन में <math>D</math> एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है <math>I</math>.
Line 25: Line 25:
एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:
एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:


<math>X \Rightarrow Y</math>, कहाँ पे <math>X, Y \subseteq I</math>.
<math>X \Rightarrow Y</math>, जहाँ पे <math>X, Y \subseteq I</math>.


अग्रवाल, इमिलिंस्की, स्वामी में<ref name="mining" />एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, <math>X \Rightarrow i_j</math> के लिये <math>i_j \in I</math>.
अग्रवाल, इमिलिंस्की, स्वामी में<ref name="mining" />एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, <math>X \Rightarrow i_j</math> के लिये <math>i_j \in I</math>.


प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है, <math>X</math> तथा <math>Y</math>, कहाँ पे <math>X</math> पूर्ववर्ती या बाएं हाथ की ओर (LHS) कहा जाता है और <math>Y</math> परिणामी या दाहिनी ओर (आरएचएस)एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है, जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन <math>X \Rightarrow Y</math> अक्सर पढ़ा जाता है <math>X</math> फिर <math>Y</math>, जहां पूर्ववर्ती (<math>X</math> ) अगर और परिणामी है (<math>Y</math>) तब है। इसका तात्पर्य यह है कि, सिद्धांत रूप में, जब भी <math>X</math> डेटासेट में होता है, तब <math>Y</math> साथ ही होगा।
प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है <math>X</math> तथा <math>Y</math> जहाँ पे <math>X</math> पूर्ववर्ती या बाएं हाथ की ओर (LHS) और <math>Y</math> परिणामी या दाहिनी ओर (RHS) कहा जाता है। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन <math>X \Rightarrow Y</math> को अक्सर <math>X</math> तब <math>Y</math> के रुप में पढ़ा जाता है, जहां पूर्ववर्ती (<math>X</math>) और परिणामी (<math>Y</math>) है। इसका तात्पर्य यह है कि सिद्धांत रूप में जब भी <math>X</math> डेटासेट में होता है तब <math>Y</math> भी होगा।


== प्रक्रिया ==
== प्रक्रिया ==
एसोसिएशन के नियम बार-बार अगर-तो पैटर्न के लिए डेटा खोज कर और सबसे महत्वपूर्ण रिश्ते क्या हैं, इसे परिभाषित करने के लिए समर्थन और विश्वास के तहत एक निश्चित मानदंड का उपयोग करके बनाए जाते हैं। समर्थन इस बात का प्रमाण है कि दिए गए डेटा में कोई वस्तु कितनी बार दिखाई देती है, क्योंकि विश्वास को परिभाषित किया जाता है कि कितनी बार यदि-तब कथन सत्य पाए जाते हैं। हालाँकि, एक तीसरा मानदंड है जिसका उपयोग किया जा सकता है, इसे लिफ्ट कहा जाता है और इसका उपयोग अपेक्षित आत्मविश्वास और वास्तविक आत्मविश्वास की तुलना करने के लिए किया जा सकता है। लिफ़्ट यह दर्शाएगा कि यदि-फिर कथन के सत्य होने की कितनी बार अपेक्षा की जाती है।
एसोसिएशन के नियम बार -बार if-then पैटर्न के लिए डेटा खोज कर और समर्थन और विश्वास के तहत एक निश्चित मानदंड का उपयोग करके सबसे महत्वपूर्ण रिश्ते क्या हैं, इसे परिभाषित करने के लिए बनाए जाते हैं। समर्थन इस बात का प्रमाण है कि दिए गए डेटा में कोई वस्तु कितनी बार दिखाई देती है, क्योंकि विश्वास को परिभाषित किया जाता है कि कितनी बार if-then कथन सत्य पाए जाते हैं। हालाँकि, एक तीसरा मानदंड है जिसका उपयोग किया जा सकता है, इसे लिफ्ट कहा जाता है और इसका उपयोग अपेक्षित आत्मविश्वास और वास्तविक आत्मविश्वास की तुलना करने के लिए किया जा सकता है। लिफ़्ट यह दर्शाएगा कि if-then कथन के सत्य होने की कितनी बार अपेक्षा की जाती है।


एसोसिएशन के नियम आइटम सेट से गणना करने के लिए बनाए जाते हैं, जो दो या दो से अधिक आइटम द्वारा बनाए जाते हैं। यदि डेटा से सभी संभावित आइटमसेट के विश्लेषण से नियम बनाए गए होते तो इतने सारे नियम होते कि उनका कोई अर्थ नहीं होता। यही कारण है कि एसोसिएशन के नियम आम तौर पर उन नियमों से बनाए जाते हैं जो डेटा द्वारा अच्छी तरह से दर्शाए जाते हैं।
एसोसिएशन के नियम आइटम सेट से गणना करने के लिए बनाए जाते हैं, जो दो या दो से अधिक आइटम द्वारा बनाए जाते हैं। यदि डेटा से सभी संभावित आइटमसेट के विश्लेषण से नियम बनाए गए होते तो इतने सारे नियम होते कि उनका कोई अर्थ नहीं होता। यही कारण है कि एसोसिएशन के नियम आम तौर पर उन नियमों से बनाए जाते हैं जो डेटा द्वारा अच्छी तरह से दर्शाए जाते हैं।


कई अलग-अलग डेटा माइनिंग तकनीकें हैं जिनका उपयोग आप कुछ विश्लेषणों और परिणामों को खोजने के लिए कर सकते हैं, उदाहरण के लिए, वर्गीकरण विश्लेषण, क्लस्टरिंग विश्लेषण और प्रतिगमन विश्लेषण है।<ref>{{Cite web|date=2021-11-08|title=डाटा माइनिंग तकनीक: विचार करने के लिए शीर्ष 5|url=https://www.precisely.com/blog/datagovernance/top-5-data-mining-techniques|access-date=2021-12-10|website=Precisely|language=en-US}}</ref> आपको किस तकनीक का उपयोग करना चाहिए यह इस बात पर निर्भर करता है कि आप अपने डेटा के साथ क्या खोज रहे हैं। एसोसिएशन के नियमों का मुख्य रूप से एनालिटिक्स खोजने और ग्राहक व्यवहार की भविष्यवाणी करने के लिए उपयोग किया जाता है। वर्गीकरण विश्लेषण के लिए, सबसे अधिक संभावना इसका उपयोग प्रश्न पूछने, निर्णय लेने और व्यवहार की भविष्यवाणी करने के लिए किया जाएगा।<ref name=":2">{{Cite web|title=16 डाटा माइनिंग तकनीक: पूरी सूची - Talend|url=https://www.talend.com/resources/data-mining-techniques/|access-date=2021-12-10|website=Talend - A Leader in Data Integration & Data Integrity|language=en}}</ref> क्लस्टरिंग विश्लेषण का मुख्य रूप से उपयोग तब किया जाता है जब डेटा के भीतर संभावित संबंधों के बारे में कोई अनुमान नहीं लगाया जाता है।<ref name=":2"/>प्रतिगमन विश्लेषण का उपयोग तब किया जाता है जब आप कई स्वतंत्र चरों से निरंतर आश्रित के मूल्य की भविष्यवाणी करना चाहते हैं।<ref name=":2"/>
कई अलग-अलग डेटा खनन तकनीकें हैं जिनका उपयोग आप कुछ विश्लेषणों और परिणामों को खोजने के लिए कर सकते हैं, उदाहरण के लिए वर्गीकरण विश्लेषण, क्लस्टरिंग विश्लेषण और प्रतिगमन विश्लेषण है।<ref>{{Cite web|date=2021-11-08|title=डाटा माइनिंग तकनीक: विचार करने के लिए शीर्ष 5|url=https://www.precisely.com/blog/datagovernance/top-5-data-mining-techniques|access-date=2021-12-10|website=Precisely|language=en-US}}</ref> आपको किस तकनीक का उपयोग करना चाहिए यह इस बात पर निर्भर करता है कि आप अपने डेटा के साथ क्या खोज रहे हैं। एसोसिएशन के नियमों का मुख्य रूप से विश्लेषणविद्या (एनालिटिक्स) खोजने और ग्राहक व्यवहार की भविष्यवाणी करने के लिए उपयोग किया जाता है। वर्गीकरण विश्लेषण के लिए, सबसे अधिक इसका उपयोग प्रश्न पूछने, निर्णय लेने और व्यवहार की भविष्यवाणी करने के लिए किया जाएगा।<ref name=":2">{{Cite web|title=16 डाटा माइनिंग तकनीक: पूरी सूची - Talend|url=https://www.talend.com/resources/data-mining-techniques/|access-date=2021-12-10|website=Talend - A Leader in Data Integration & Data Integrity|language=en}}</ref> क्लस्टरिंग विश्लेषण का मुख्य रूप से उपयोग तब किया जाता है जब डेटा के भीतर संभावित संबंधों के बारे में कोई अनुमान नहीं लगाया जाता है।<ref name=":2"/>प्रतिगमन विश्लेषण का उपयोग तब किया जाता है जब आप कई स्वतंत्र चरों से निरंतर आश्रित के मूल्य की भविष्यवाणी करना चाहते हैं।<ref name=":2"/>
 
फ़ायदे


=== फ़ायदे ===
एसोसिएशन के नियमों का उपयोग करने के कई लाभ हैं जैसे पैटर्न ढूंढना जो डेटा सेट के बीच सहसंबंधों और सह-घटनाओं को समझने में मदद करता है। एसोसिएशन के नियमों का उपयोग करने वाला एक बहुत अच्छा वास्तविक दुनिया का उदाहरण दवा होगा। चिकित्सा रोगियों के निदान में मदद करने के लिए एसोसिएशन के नियमों का उपयोग करती है। रोगियों का निदान करते समय विचार करने के लिए कई चर होते हैं क्योंकि कई रोग समान लक्षण साझा करेंगे। एसोसिएशन के नियमों के उपयोग के साथ, डॉक्टर पिछले मामलों से लक्षण संबंधों की तुलना करके बीमारी की सशर्त संभावना निर्धारित कर सकते हैं।<ref>{{Cite web|title=डेटा माइनिंग (एसोसिएशन रूल माइनिंग) में एसोसिएशन नियम क्या हैं?|url=https://searchbusinessanalytics.techtarget.com/definition/association-rules-in-data-mining|access-date=2021-12-10|website=SearchBusinessAnalytics|language=en}}</ref>
एसोसिएशन के नियमों का उपयोग करने के कई लाभ हैं जैसे पैटर्न ढूंढना जो डेटा सेट के बीच सहसंबंधों और सह-घटनाओं को समझने में मदद करता है। एसोसिएशन के नियमों का उपयोग करने वाला एक बहुत अच्छा वास्तविक दुनिया का उदाहरण दवा होगा। चिकित्सा रोगियों के निदान में मदद करने के लिए एसोसिएशन के नियमों का उपयोग करती है। रोगियों का निदान करते समय विचार करने के लिए कई चर होते हैं क्योंकि कई रोग समान लक्षण साझा करेंगे। एसोसिएशन के नियमों के उपयोग के साथ, डॉक्टर पिछले मामलों से लक्षण संबंधों की तुलना करके बीमारी की सशर्त संभावना निर्धारित कर सकते हैं।<ref>{{Cite web|title=डेटा माइनिंग (एसोसिएशन रूल माइनिंग) में एसोसिएशन नियम क्या हैं?|url=https://searchbusinessanalytics.techtarget.com/definition/association-rules-in-data-mining|access-date=2021-12-10|website=SearchBusinessAnalytics|language=en}}</ref>
पतन


=== पतन ===
हालाँकि, एसोसिएशन के नियम भी कई अलग-अलग गिरावटों का कारण बनते हैं जैसे कि खनन एल्गोरिथम के लिए उपयुक्त पैरामीटर और थ्रेसहोल्ड सेटिंग्स खोजना। लेकिन बड़ी संख्या में खोजे गए नियमों का पतन भी है। इसका कारण यह है कि यह इस बात की गारंटी नहीं देता है कि नियम प्रासंगिक पाए जाएंगे, लेकिन इससे एल्गोरिथम का प्रदर्शन कम हो सकता है। कभी-कभी कार्यान्वित एल्गोरिदम में बहुत अधिक चर और पैरामीटर होते हैं। जिन लोगों के पास डेटा माइनिंग की अच्छी अवधारणा नहीं है, उनके लिए इसे समझने में परेशानी हो सकती है।<ref>{{Cite web|title=लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान|url=https://www.researchgate.net/publication/289657906|access-date=2021-12-10|website=ResearchGate|language=en}}</ref>
हालाँकि, एसोसिएशन के नियम भी कई अलग-अलग गिरावटों का कारण बनते हैं जैसे कि खनन एल्गोरिथम के लिए उपयुक्त पैरामीटर और थ्रेसहोल्ड सेटिंग्स खोजना। लेकिन बड़ी संख्या में खोजे गए नियमों का पतन भी है। इसका कारण यह है कि यह इस बात की गारंटी नहीं देता है कि नियम प्रासंगिक पाए जाएंगे, लेकिन इससे एल्गोरिथम का प्रदर्शन कम हो सकता है। कभी-कभी कार्यान्वित एल्गोरिदम में बहुत अधिक चर और पैरामीटर होते हैं। जिन लोगों के पास डेटा माइनिंग की अच्छी अवधारणा नहीं है, उनके लिए इसे समझने में परेशानी हो सकती है।<ref>{{Cite web|title=लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान|url=https://www.researchgate.net/publication/289657906|access-date=2021-12-10|website=ResearchGate|language=en}}</ref>


'''Thresholds'''[[File:FrequentItems.png|thumb|फ़्रीक्वेंट आइटमसेट जाली, जहाँ बॉक्स का रंग इंगित करता है कि कितने लेन-देन में आइटम का संयोजन है। ध्यान दें कि जाली के निचले स्तरों में उनके मूल वस्तुओं की न्यूनतम संख्या हो सकती है; उदा. {एसी} में ज्यादा से ज्यादा ही हो सकता है <math>\min(a,c)</math> सामान। इसे डाउनवर्ड-क्लोजर प्रॉपर्टी कहा जाता है।<ref name="mining" />]]एसोसिएशन के नियमों का उपयोग करते समय, आप केवल समर्थन और विश्वास का उपयोग करने की सबसे अधिक संभावना रखते हैं। हालांकि, इसका मतलब है कि आपको एक ही समय में उपयोगकर्ता-निर्दिष्ट न्यूनतम समर्थन और उपयोगकर्ता-निर्दिष्ट न्यूनतम विश्वास को पूरा करना होगा। आम तौर पर, एसोसिएशन नियम जनरेशन को दो अलग-अलग चरणों में विभाजित किया जाता है जिन्हें लागू करने की आवश्यकता होती है:
=== '''थ्रेशोल्ड''' ===
[[File:FrequentItems.png|thumb|फ़्रीक्वेंट आइटमसेट जाली, जहाँ बॉक्स का रंग इंगित करता है कि कितने लेन-देन में आइटम का संयोजन है। ध्यान दें कि जाली के निचले स्तरों में उनके मूल वस्तुओं की न्यूनतम संख्या हो सकती है; उदा. {एसी} में अधिकतम <math>\min(a,c)</math> आइटम हो सकते हैं। इसे डाउनवर्ड-क्लोजर प्रॉपर्टी कहा जाता है।<ref name="mining" />]]एसोसिएशन के नियमों का उपयोग करते समय, आप केवल समर्थन और विश्वास का उपयोग करने की सबसे अधिक संभावना रखते हैं। हालांकि, इसका मतलब है कि आपको एक ही समय में उपयोगकर्ता-निर्दिष्ट न्यूनतम समर्थन और उपयोगकर्ता-निर्दिष्ट न्यूनतम विश्वास को पूरा करना होगा। आम तौर पर, एसोसिएशन नियम जनरेशन को दो अलग-अलग चरणों में विभाजित किया जाता है जिन्हें लागू करने की आवश्यकता होती है:


# डेटाबेस में मौजूद सभी लगातार आइटम्स को खोजने के लिए एक न्यूनतम समर्थन सीमा।
# डेटाबेस में मौजूद सभी लगातार आइटम्स को खोजने के लिए एक न्यूनतम समर्थन सीमा।
# नियम बनाने के लिए पाए जाने वाले बारंबार आइटमसेट के लिए न्यूनतम कॉन्फिडेंस थ्रेशोल्ड।
# नियम बनाने के लिए बार-बार मिलने वाले आइटमसेट के लिए न्यूनतम कॉन्फिडेंस थ्रेशोल्ड।


{| class="wikitable"
{| class="wikitable"
|+Table 1. Example of '''Threshold for''' Support and Confidence.
|+तालिका 1. समर्थन और विश्वास के लिए दहलीज का उदाहरण।
! scope="col" | Items
! scope="col" | सामान
! scope="col" | Support
! scope="col" | सहायता
! scope="col" | Confidence
! scope="col" | आत्मविश्वास
| rowspan="5" style="border: none; background: none;" |
| rowspan="5" style="border: none; background: none;" |
! scope="col" | Items
! scope="col" | सामान
! scope="col" | Support
! scope="col" | सहायता
! scope="col" | Confidence
! scope="col" | आत्मविश्वास
|-
|-
| Item A || 30%|| 50% || Item C || 45%|| 55%
| आइटम ए || 30%|| 50% || आइटम सी || 45%|| 55%
|-
|-
| Item B || 15%|| 25% || Item A || 30%|| 50%
| आइटम बी || 15%|| 25% || आइटम ए || 30%|| 50%
|-
|-
| Item C || 45%|| 55% || Item D || 35%|| 40%
| आइटम सी || 45%|| 55% || आइटम डी || 35%|| 40%
|-
|-
| Item D || 35%|| 40% || Item B || 15%|| 25%
| आइटम डी || 35%|| 40% || आइटम बी || 15%|| 25%
|}
|}
सपोर्ट थ्रेशोल्ड 30% है, कॉन्फिडेंस थ्रेशोल्ड 50% है
सपोर्ट थ्रेशोल्ड 30% है, कॉन्फिडेंस थ्रेशोल्ड 50% है
Line 72: Line 72:
बाईं ओर की तालिका मूल असंगठित डेटा है और दाईं ओर की तालिका थ्रेसहोल्ड द्वारा व्यवस्थित है। इस मामले में आइटम सी समर्थन और विश्वास दोनों के लिए दहलीज से बेहतर है, यही कारण है कि यह पहले है। आइटम ए दूसरे स्थान पर है क्योंकि इसकी दहलीज मान हाजिर हैं। आइटम डी ने समर्थन की सीमा को पूरा किया है, लेकिन विश्वास के लिए नहीं। आइटम बी ने समर्थन या विश्वास के लिए सीमा को पूरा नहीं किया है और यही कारण है कि यह अंतिम है।
बाईं ओर की तालिका मूल असंगठित डेटा है और दाईं ओर की तालिका थ्रेसहोल्ड द्वारा व्यवस्थित है। इस मामले में आइटम सी समर्थन और विश्वास दोनों के लिए दहलीज से बेहतर है, यही कारण है कि यह पहले है। आइटम ए दूसरे स्थान पर है क्योंकि इसकी दहलीज मान हाजिर हैं। आइटम डी ने समर्थन की सीमा को पूरा किया है, लेकिन विश्वास के लिए नहीं। आइटम बी ने समर्थन या विश्वास के लिए सीमा को पूरा नहीं किया है और यही कारण है कि यह अंतिम है।


डेटाबेस में सभी बार-बार आने वाले आइटम्स को ढूंढना आसान काम नहीं है क्योंकि इसमें सभी संभावित आइटम्स से सभी संभावित आइटम संयोजनों को खोजने के लिए सभी डेटा के माध्यम से जाना शामिल है। संभावित आइटमसेट का सेट [[सत्ता स्थापित]] ओवर है {{mvar|I}} और आकार है <math>2^n-1</math> , निश्चित रूप से इसका मतलब खाली सेट को बाहर करना है जिसे वैध आइटमसेट नहीं माना जाता है। हालांकि, आइटम की संख्या में पावर सेट का आकार तेजी से बढ़ेगा {{mvar|n}} जो कि पावर सेट के भीतर है {{mvar|I}}. समर्थन की ''डाउनवर्ड-क्लोजर प्रॉपर्टी'' का उपयोग करके एक कुशल खोज संभव है<ref name="mining" /><ref>{{cite book|last1=Tan|first1=Pang-Ning|title=डाटा माइनिंग का परिचय|last2=Michael|first2=Steinbach|last3=Kumar|first3=Vipin|publisher=[[Addison-Wesley]]|year=2005|isbn=978-0-321-32136-7|chapter=Chapter 6. Association Analysis: Basic Concepts and Algorithms|chapter-url=http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf}}</ref> (जिसे एंटी-मोनोटोनिसिटी भी कहा जाता है<ref name="pei">{{cite book|last1=Jian Pei|title=डाटा इंजीनियरिंग पर 17वां अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|last2=Jiawei Han|last3=Lakshmanan|first3=L.V.S.|year=2001|isbn=978-0-7695-1001-9|pages=433–442|chapter=Mining frequent itemsets with convertible constraints|citeseerx=10.1.1.205.2150|doi=10.1109/ICDE.2001.914856|s2cid=1080975}}</ref>). यह इस बात की गारंटी देता है कि लगातार आइटमसेट और उसके सभी सबसेट भी अक्सर होते हैं और इस प्रकार बारंबार आइटमसेट के सबसेट के रूप में कोई दुर्लभ आइटमसेट नहीं होगा। इस संपत्ति का शोषण, कुशल एल्गोरिदम (जैसे, Apriori<ref name="apriori">Agrawal, Rakesh; and Srikant, Ramakrishnan; [http://rakesh.agrawal-family.com/papers/vldb94apriori.pdf ''Fast algorithms for mining association rules in large databases''] {{Webarchive|url=https://web.archive.org/web/20150225213708/http://rakesh.agrawal-family.com/papers/vldb94apriori.pdf|date=2015-02-25}}, in Bocca, Jorge B.; Jarke, Matthias; and Zaniolo, Carlo; editors, ''Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), Santiago, Chile, September 1994'', pages 487-499</ref> और एक्लाट<ref name="eclat">{{Cite journal|last1=Zaki|first1=M. J.|year=2000|title=एसोसिएशन माइनिंग के लिए स्केलेबल एल्गोरिदम|journal=IEEE Transactions on Knowledge and Data Engineering|volume=12|issue=3|pages=372–390|citeseerx=10.1.1.79.9448|doi=10.1109/69.846291}}</ref>) सभी लगातार आइटम सेट पा सकते हैं।
डेटाबेस में सभी बार-बार आने वाले आइटम्स को ढूंढना आसान काम नहीं है क्योंकि इसमें सभी संभावित आइटम्स से सभी संभावित आइटम संयोजनों को खोजने के लिए सभी डेटा के माध्यम से जाना शामिल है। संभावित आइटमसेट का सेट [[सत्ता स्थापित]] {{mvar|I}} पर सेट की गई शक्ति है और इसका आकार <math>2^n-1</math> हैं, निश्चित रूप से इसका मतलब खाली सेट को बाहर करना है जो वैध आइटमसेट नहीं माना जाता है। हालांकि, पावर सेट का आकार आइटम {{mvar|n}} की संख्या में तेजी से बढ़ेगा जो कि पावर सेट {{mvar|I}} के भीतर है। समर्थन की ''डाउनवर्ड-क्लोजर प्रॉपर्टी'' का उपयोग करके एक कुशल खोज संभव है<ref name="mining" /><ref>{{cite book|last1=Tan|first1=Pang-Ning|title=डाटा माइनिंग का परिचय|last2=Michael|first2=Steinbach|last3=Kumar|first3=Vipin|publisher=[[Addison-Wesley]]|year=2005|isbn=978-0-321-32136-7|chapter=Chapter 6. Association Analysis: Basic Concepts and Algorithms|chapter-url=http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf}}</ref> (जिसे एंटी-मोनोटोनिसिटी भी कहा जाता है<ref name="pei">{{cite book|last1=Jian Pei|title=डाटा इंजीनियरिंग पर 17वां अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|last2=Jiawei Han|last3=Lakshmanan|first3=L.V.S.|year=2001|isbn=978-0-7695-1001-9|pages=433–442|chapter=Mining frequent itemsets with convertible constraints|citeseerx=10.1.1.205.2150|doi=10.1109/ICDE.2001.914856|s2cid=1080975}}</ref>). यह इस बात की गारंटी देता है कि लगातार आइटमसेट और उसके सभी सबसेट भी अक्सर होते हैं और इस प्रकार बारंबार आइटमसेट के सबसेट के रूप में कोई दुर्लभ आइटमसेट नहीं होगा। इस संपत्ति का शोषण, कुशल एल्गोरिदम (जैसे एप्रीओरी<ref name="apriori">Agrawal, Rakesh; and Srikant, Ramakrishnan; [http://rakesh.agrawal-family.com/papers/vldb94apriori.pdf ''Fast algorithms for mining association rules in large databases''] {{Webarchive|url=https://web.archive.org/web/20150225213708/http://rakesh.agrawal-family.com/papers/vldb94apriori.pdf|date=2015-02-25}}, in Bocca, Jorge B.; Jarke, Matthias; and Zaniolo, Carlo; editors, ''Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), Santiago, Chile, September 1994'', pages 487-499</ref> और एक्लाट<ref name="eclat">{{Cite journal|last1=Zaki|first1=M. J.|year=2000|title=एसोसिएशन माइनिंग के लिए स्केलेबल एल्गोरिदम|journal=IEEE Transactions on Knowledge and Data Engineering|volume=12|issue=3|pages=372–390|citeseerx=10.1.1.79.9448|doi=10.1109/69.846291}}</ref>) सभी लगातार आइटम सेट पा सकते हैं।


== उपयोगी अवधारणाएँ ==
== उपयोगी अवधारणाएँ ==
{|class="wikitable" style="float: right; margin-left: 1em;"
{|class="wikitable" style="float: right; margin-left: 1em;"
|+ Table 2. Example database with 5 transactions and 5 items
|+ तालिका 2. उदाहरण डेटाबेस 5 लेनदेन और 5 आइटम के साथ
|-
|-
! transaction ID !! milk !! bread !! butter !! beer !! diapers
! लेन-देन आईडी !! दूध !! रोटी !! मक्खन !! बीयर !! डायपर
!eggs
!अंडे
!fruit
!फल
|-
|-
| 1 || 1 || 1 || 0 || 0 || 0
| 1 || 1 || 1 || 0 || 0 || 0
Line 103: Line 103:
|-
|-
|}
|}
अवधारणाओं को स्पष्ट करने के लिए, हम सुपरमार्केट डोमेन से एक छोटे से उदाहरण का उपयोग करते हैं। तालिका 2 एक छोटा डेटाबेस दिखाता है जिसमें आइटम होते हैं, जहां प्रत्येक प्रविष्टि में, मान 1 का मतलब संबंधित लेनदेन में आइटम की उपस्थिति होता है, और मान 0 उस लेनदेन में किसी आइटम की अनुपस्थिति का प्रतिनिधित्व करता है। वस्तुओं का सेट है <math>I= \{\mathrm{milk, bread, butter, beer, diapers, eggs, fruit}\}</math>.
अवधारणाओं को स्पष्ट करने के लिए, हम सुपरमार्केट डोमेन से एक छोटे से उदाहरण का उपयोग करते हैं। तालिका 2 एक छोटा डेटाबेस दिखाता है जिसमें आइटम होते हैं, जहां प्रत्येक प्रविष्टि में, मान 1 का मतलब संबंधित लेनदेन में आइटम की उपस्थिति होता है, और मान 0 उस लेनदेन में किसी आइटम की अनुपस्थिति का प्रतिनिधित्व करता है। वस्तुओं (आइटम्स) का सेट है <math>I= \{\mathrm{milk, bread, butter, beer, diapers, eggs, fruit}\}</math>.


सुपरमार्केट के लिए एक उदाहरण नियम हो सकता है <math>\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}</math> मतलब अगर मक्खन और ब्रेड खरीदा जाता है तो ग्राहक दूध भी खरीदते हैं।
सुपरमार्केट के लिए एक उदाहरण नियम हो सकता है <math>\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}</math> मतलब अगर मक्खन और ब्रेड खरीदा जाता है तो ग्राहक दूध भी खरीदते हैं।
Line 109: Line 109:
सभी संभावित नियमों के सेट से दिलचस्प नियमों का चयन करने के लिए, महत्व और रुचि के विभिन्न उपायों पर प्रतिबंध का उपयोग किया जाता है। सबसे प्रसिद्ध बाधाएँ समर्थन और विश्वास पर न्यूनतम सीमाएँ हैं।
सभी संभावित नियमों के सेट से दिलचस्प नियमों का चयन करने के लिए, महत्व और रुचि के विभिन्न उपायों पर प्रतिबंध का उपयोग किया जाता है। सबसे प्रसिद्ध बाधाएँ समर्थन और विश्वास पर न्यूनतम सीमाएँ हैं।


होने देना <math>X, Y</math> आइटम सेट हो, <math>X \Rightarrow Y</math> एक एसोसिएशन नियम और {{mvar|T}} किसी दिए गए डेटाबेस के लेनदेन का एक सेट।
माना <math>X, Y</math> आइटम सेट हो, <math>X \Rightarrow Y</math> एक एसोसिएशन नियम और {{mvar|T}} किसी दिए गए डेटाबेस के लेनदेन का एक सेट हैं।


नोट: यह उदाहरण अत्यंत छोटा है। व्यावहारिक अनुप्रयोगों में, एक नियम को सांख्यिकीय रूप से महत्वपूर्ण माने जाने से पहले कई सौ लेन-देन के समर्थन की आवश्यकता होती है,{{citation needed|date=March 2021}} और डेटासेट में अक्सर हजारों या लाखों लेन-देन होते हैं।
नोट: यह उदाहरण अत्यंत छोटा है। व्यावहारिक अनुप्रयोगों में, एक नियम को सांख्यिकीय रूप से महत्वपूर्ण माने जाने से पहले कई सौ लेन-देन के समर्थन की आवश्यकता होती है {{citation needed|date=March 2021}} और डेटासेट में अक्सर हजारों या लाखों लेन-देन होते हैं।


=== समर्थन ===
=== समर्थन ===
Line 118: Line 118:
हमारे उदाहरण में, लिखित रूप से समर्थन की व्याख्या करना आसान हो सकता है <math>support = P(A\cap B)= \frac{(\text{number of transactions containing }A\text{ and }B)}\text{ (total number of transactions)}  </math> <ref name=":1">{{Cite book|last1=Larose|first1=Daniel T.|last2=Larose|first2=Chantal D.|date=2014-06-23|title=डेटा में ज्ञान की खोज|url=http://dx.doi.org/10.1002/9781118874059|doi=10.1002/9781118874059|isbn=9781118874059}}</ref> जहां ए और बी अलग-अलग आइटम सेट होते हैं जो लेनदेन में एक ही समय में होते हैं।
हमारे उदाहरण में, लिखित रूप से समर्थन की व्याख्या करना आसान हो सकता है <math>support = P(A\cap B)= \frac{(\text{number of transactions containing }A\text{ and }B)}\text{ (total number of transactions)}  </math> <ref name=":1">{{Cite book|last1=Larose|first1=Daniel T.|last2=Larose|first2=Chantal D.|date=2014-06-23|title=डेटा में ज्ञान की खोज|url=http://dx.doi.org/10.1002/9781118874059|doi=10.1002/9781118874059|isbn=9781118874059}}</ref> जहां ए और बी अलग-अलग आइटम सेट होते हैं जो लेनदेन में एक ही समय में होते हैं।


एक उदाहरण के रूप में तालिका 2 का उपयोग करते हुए, आइटमसेट <math>X=\{\mathrm{beer, diapers}\}</math> का सहारा है <math>1/5=0.2</math> चूंकि यह सभी लेनदेन के 20% (5 में से 1 लेनदेन) में होता है। एक्स के समर्थन का तर्क पूर्व शर्त का एक सेट है, और इस प्रकार अधिक प्रतिबंधात्मक हो जाता है क्योंकि यह बढ़ता है (अधिक समावेशी के बजाय)।<ref name=":0">{{Cite journal|last=Hahsler|first=Michael|date=2005|title=एरूल्स का परिचय - माइनिंग एसोसिएशन रूल्स और बारंबार आइटम सेट के लिए एक कम्प्यूटेशनल वातावरण|url=https://mran.revolutionanalytics.com/web/packages/arules/vignettes/arules.pdf|journal=Journal of Statistical Software|doi=10.18637/jss.v014.i15|doi-access=free}}</ref>
एक उदाहरण के रूप में तालिका 2 का उपयोग करते हुए, आइटमसेट <math>X=\{\mathrm{beer, diapers}\}</math> का सहारा है <math>1/5=0.2</math> चूंकि यह सभी लेनदेन के 20% (5 में से 1 लेनदेन) में होता है। एक्स के समर्थन का तर्क पूर्व शर्तों का एक सेट है और इस प्रकार अधिक प्रतिबंधात्मक हो जाता है क्योंकि यह बढ़ता है (अधिक समावेशी के बजाय)।<ref name=":0">{{Cite journal|last=Hahsler|first=Michael|date=2005|title=एरूल्स का परिचय - माइनिंग एसोसिएशन रूल्स और बारंबार आइटम सेट के लिए एक कम्प्यूटेशनल वातावरण|url=https://mran.revolutionanalytics.com/web/packages/arules/vignettes/arules.pdf|journal=Journal of Statistical Software|doi=10.18637/jss.v014.i15|doi-access=free}}</ref>
 
इसके अलावा, आइटमसेट <math>Y=\{\mathrm{milk, bread, butter}\}</math> का सहारा है <math>1/5=0.2</math> जैसा कि यह सभी लेनदेन के 20% में भी दिखाई देता है।
इसके अलावा, आइटमसेट <math>Y=\{\mathrm{milk, bread, butter}\}</math> का सहारा है <math>1/5=0.2</math> जैसा कि यह सभी लेनदेन के 20% में भी दिखाई देता है।


पूर्ववर्ती और परिणाम का उपयोग करते समय, यह एक डेटा माइनर को पूरे डेटा सेट की तुलना में एक साथ खरीदे जाने वाले कई आइटमों के समर्थन को निर्धारित करने की अनुमति देता है। उदाहरण के लिए, तालिका 2 दर्शाती है कि यदि दूध खरीदा जाता है, तो खरीदी गई ब्रेड को 0.4 या 40% का समर्थन प्राप्त होता है। ऐसा इसलिए क्योंकि 5 में से 2 ट्रांजैक्शन में दूध और ब्रेड दोनों ही खरीदे जाते हैं। इस उदाहरण जैसे छोटे डेटा सेट में, कुछ नमूने होने पर मजबूत सहसंबंध देखना कठिन होता है, लेकिन जब डेटा सेट बड़ा हो जाता है, तो सुपरमार्केट उदाहरण में दो या दो से अधिक उत्पादों के बीच सहसंबंध खोजने के लिए समर्थन का उपयोग किया जा सकता है।
पूर्ववर्ती और परिणाम का उपयोग करते समय यह एक डेटा माइनर को पूरे डेटा सेट की तुलना में एक साथ खरीदे जाने वाले कई आइटमों के समर्थन को निर्धारित करने की अनुमति देता है। उदाहरण के लिए, तालिका 2 दर्शाती है कि यदि दूध खरीदा जाता है तो खरीदी गई ब्रेड को 0.4 या 40% का समर्थन प्राप्त होता है। ऐसा इसलिए क्योंकि 5 में से 2 ट्रांजैक्शन में दूध और ब्रेड दोनों ही खरीदे जाते हैं। इस उदाहरण जैसे छोटे डेटा सेट में कुछ नमूने होने पर मजबूत सहसंबंध देखना कठिन होता है लेकिन जब डेटा सेट बड़ा हो जाता है, तो सुपरमार्केट उदाहरण में दो या दो से अधिक उत्पादों के बीच सहसंबंध खोजने के लिए समर्थन का उपयोग किया जा सकता है।


न्यूनतम समर्थन थ्रेसहोल्ड यह निर्धारित करने के लिए उपयोगी है कि कौन से आइटम सेट पसंद किए जाते हैं या दिलचस्प हैं।
न्यूनतम समर्थन थ्रेसहोल्ड यह निर्धारित करने के लिए उपयोगी है कि कौन से आइटम सेट पसंद किए जाते हैं या दिलचस्प हैं।
Line 132: Line 133:


{| class="wikitable sortable"
{| class="wikitable sortable"
|+Table 3. Example of Support, and support X confidence
|+तालिका 3. समर्थन का उदाहरण, और X विश्वास का समर्थन करें
!if Antecedent then Consequent
!यदि पूर्ववर्ती तो परिणामी
!support
!सहयोग
!support X confidence
!एक्स विश्वास का समर्थन करें
|-
|-
|if buy milk, then buy bread
|दूध खरीदो तो रोटी खरीदो
|2/5= 0.4
|2/5 = 0.4
|0.4X1.0= 0.4
|0.4X1.0= 0.4
|-
|-
|if buy milk, then buy eggs
|दूध खरीदो, तो अंडे खरीदो
|1/5= 0.2
|1/5 = 0.2
|0.2X0.5= 0.1
|0.2X0.5= 0.1
|-
|-
|if buy bread, then buy fruit
|रोटी खरीदो, तो फल खरीदो
|2/5= 0.4
|2/5 = 0.4
|0.4X0.66= 0.264
|0.4X0.66= 0.264
|-
|-
|if buy fruit, then buy eggs
|फल खरीदो तो अंडे खरीदो
|2/5= 0.4
|2/5 = 0.4
|0.4X0.66= 0.264
|0.4X0.66= 0.264
|-
|-
|if buy milk and bread, then buy fruit
|दूध रोटी खरीदो तो फल खरीदो
|2/5= 0.4
|2/5 = 0.4
|0.4X1.0= 0.4
|0.4X1.0= 0.4
|}
|}
का समर्थन {{mvar|X}} इसके संबंध में {{mvar|T}} डेटासेट में लेन-देन के अनुपात के रूप में परिभाषित किया गया है जिसमें आइटमसेट शामिल है {{mvar|X}}. द्वारा लेन-देन को अस्वीकार करना <math>(i,t)</math> कहाँ पे {{mvar|i}} लेन-देन की विशिष्ट पहचानकर्ता है और {{mvar|t}} इसका आइटमसेट है, समर्थन को इस प्रकार लिखा जा सकता है:
का समर्थन {{mvar|X}} इसके संबंध में {{mvar|T}} डेटासेट में लेन-देन के अनुपात के रूप में परिभाषित किया गया है जिसमें आइटमसेट मौजूद हैं  {{mvar|X}} द्वारा लेन-देन को अस्वीकार करना <math>(i,t)</math> जहाँ पे {{mvar|i}} लेन-देन की विशिष्ट पहचानकर्ता है और {{mvar|t}} इसका आइटमसेट है, समर्थन को इस प्रकार लिखा जा सकता है:


<math>\mathrm{support\,of\,X} = \frac{|\{(i,t) \in T : X \subseteq t \}|}{|T|}</math>
<math>\mathrm{support\,of\,X} = \frac{|\{(i,t) \in T : X \subseteq t \}|}{|T|}</math>
अधिक जटिल डेटासेट को परिभाषित करते समय इस संकेतन का उपयोग किया जा सकता है जहां आइटम और आइटमसेट ऊपर हमारे सुपरमार्केट उदाहरण के रूप में आसान नहीं हो सकते हैं। अन्य उदाहरण जहाँ समर्थन का उपयोग किया जा सकता है, आनुवंशिक उत्परिवर्तन के समूहों को खोजने में है जो एक बीमारी का कारण बनने के लिए सामूहिक रूप से काम करते हैं, उन ग्राहकों की संख्या की जांच करते हैं जो अपग्रेड ऑफ़र का जवाब देते हैं, और यह पता लगाते हैं कि किसी दवा की दुकान में कौन से उत्पाद कभी एक साथ नहीं खरीदे जाते हैं।<ref name=":1" />
अधिक जटिल डेटासेट को परिभाषित करते समय इस संकेतन का उपयोग किया जा सकता है जहां आइटम और आइटमसेट ऊपर हमारे सुपरमार्केट उदाहरण के रूप में आसान नहीं हो सकते हैं। अन्य उदाहरण जहाँ समर्थन का उपयोग किया जा सकता है, आनुवंशिक उत्परिवर्तन के समूहों को खोजने में है जो एक बीमारी का कारण बनने के लिए सामूहिक रूप से काम करते हैं, उन ग्राहकों की संख्या की जांच करते हैं जो अपग्रेड ऑफ़र का जवाब देते हैं, और यह पता लगाते हैं कि किसी दवा की दुकान में कौन से उत्पाद कभी एक साथ नहीं खरीदे जाते हैं।<ref name=":1" />




=== आत्मविश्वास ===
=== आत्मविश्वास ===
विश्वास सभी लेन-देन के संतोषजनक होने का प्रतिशत है {{mvar|X}} जो संतुष्ट भी करता है {{mvar|Y}}.<ref>{{Cite web|last=Wong|first=Pak|date=1999|title=टेक्स्ट माइनिंग के लिए विज़ुअलाइज़िंग एसोसिएशन नियम|url=https://neuro.bstu.by/ai/Data-mining/Stock-market/InfoVis1999Association.pdf|url-status=live|website=BSTU Laboratory of Artificial Neural Networks|archive-url=https://web.archive.org/web/20211129082512/https://neuro.bstu.by/ai/Data-mining/Stock-market/InfoVis1999Association.pdf |archive-date=2021-11-29 }}</ref>
विश्वास सभी लेन-देन के का प्रतिशत है जो X को संतुष्ट करता है जो Y को भी संतुष्ट करता है।<ref>{{Cite web|last=Wong|first=Pak|date=1999|title=टेक्स्ट माइनिंग के लिए विज़ुअलाइज़िंग एसोसिएशन नियम|url=https://neuro.bstu.by/ai/Data-mining/Stock-market/InfoVis1999Association.pdf|url-status=live|website=BSTU Laboratory of Artificial Neural Networks|archive-url=https://web.archive.org/web/20211129082512/https://neuro.bstu.by/ai/Data-mining/Stock-market/InfoVis1999Association.pdf |archive-date=2021-11-29 }}</ref>
इसके संबंध में {{mvar|T}}, एक संघ नियम का विश्वास मूल्य, जिसे अक्सर के रूप में निरूपित किया जाता है <math>X \Rightarrow Y</math>, दोनों वाले लेन-देन का अनुपात है {{mvar|X}} तथा {{mvar|Y}} की कुल राशि के लिए {{mvar|X}} मूल्य मौजूद हैं, जहां {{mvar|X}} पूर्ववर्ती है और {{mvar|Y}} परिणामी है।
 
इसके संबंध में {{mvar|T}} एक संघ नियम का विश्वास मूल्य है, जिसे अक्सर <math>X \Rightarrow Y</math> के रूप में निरूपित किया जाता हैं, मौजूद X मानों की कुल राशि के लिए {{mvar|X}} तथा {{mvar|Y}} दोनों लेनदेन का अनुपात है, जहां {{mvar|X}} पूर्ववर्ती है और {{mvar|Y}} परिणामी है।
 
कॉन्फिडेंस की व्याख्या [[सशर्त संभाव्यता]] के अनुमान के रूप में समझा जा सकता है <math>P(E_Y | E_X)</math>, लेन-देन में नियम के आरएचएस को खोजने की संभावना इस शर्त के तहत है कि इन लेनदेन में एलएचएस भी शामिल है।<ref name=":0" /><ref name="hipp">{{Cite journal | last1 = Hipp | first1 = J. | last2 = Güntzer | first2 = U. | last3 = Nakhaeizadeh | first3 = G. | title = एसोसिएशन नियम खनन के लिए एल्गोरिदम --- एक सामान्य सर्वेक्षण और तुलना| doi = 10.1145/360402.360421 | journal = ACM SIGKDD Explorations Newsletter | volume = 2 | pages = 58–64 | year = 2000 | citeseerx = 10.1.1.38.5305 | s2cid = 9248096 }}</ref>


कॉन्फिडेंस की व्याख्या [[सशर्त संभाव्यता]] के अनुमान के रूप में भी की जा सकती है <math>P(E_Y | E_X)</math>, लेन-देन में नियम के आरएचएस को खोजने की संभावना इस शर्त के तहत है कि इन लेनदेन में एलएचएस भी शामिल है।<ref name=":0" /><ref name="hipp">{{Cite journal | last1 = Hipp | first1 = J. | last2 = Güntzer | first2 = U. | last3 = Nakhaeizadeh | first3 = G. | title = एसोसिएशन नियम खनन के लिए एल्गोरिदम --- एक सामान्य सर्वेक्षण और तुलना| doi = 10.1145/360402.360421 | journal = ACM SIGKDD Explorations Newsletter | volume = 2 | pages = 58–64 | year = 2000 | citeseerx = 10.1.1.38.5305 | s2cid = 9248096 }}</ref>
इसे आमतौर पर इस रूप में दर्शाया गया है:
इसे आमतौर पर इस रूप में दर्शाया गया है:


<math>\mathrm{conf}(X \Rightarrow Y) = P(Y | X) = \frac{\mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) }=\frac{\text{number of transactions containing }X\text{ and }Y}{\text{number of transactions containing }X}</math>
<math>\mathrm{conf}(X \Rightarrow Y) = P(Y | X) = \frac{\mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) }=\frac{\text{number of transactions containing }X\text{ and }Y}{\text{number of transactions containing }X}</math>
समीकरण दर्शाता है कि लेन-देन की सह-घटना की गणना करके विश्वास की गणना की जा सकती है {{mvar|X}} तथा {{mvar|Y}} केवल लेनदेन के अनुपात में डेटासेट के भीतर {{mvar|X}}. इसका मतलब है कि दोनों में लेन-देन की संख्या  {{mvar|X}} तथा {{mvar|Y}} बस में उन लोगों द्वारा विभाजित किया गया है {{mvar|X}} .


उदाहरण के लिए, तालिका 2 नियम दिखाता है <math>\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}</math> जिसका भरोसा हो <math>\frac{1/5}{1/5}=\frac{0.2}{0.2}=1.0</math> डेटासेट में, जो दर्शाता है कि हर बार जब कोई ग्राहक मक्खन और ब्रेड खरीदता है, तो वे दूध भी खरीदते हैं। यह विशेष उदाहरण मक्खन और ब्रेड दोनों वाले लेनदेन के लिए नियम को 100% सही होने का प्रदर्शन करता है। नियम <math>\{\mathrm{fruit}\} \Rightarrow \{\mathrm{eggs}\}</math>हालांकि, का भरोसा है <math>\frac{2/5}{3/5}=\frac{0.4}{0.6}=0.67</math>. इससे पता चलता है कि फल लाए जाने के 67% बार अंडे खरीदे जाते हैं। इस विशेष डेटासेट के भीतर, फलों को कुल 3 बार खरीदा जाता है, जिसमें से दो बार अंडे की खरीदारी होती है।
समीकरण दर्शाता है कि केवल X वाले लेनदेन के अनुपात में डेटासेट के भीतर लेन-देन X और Y की सह-घटना की गणना करके विश्वास की गणना की जा सकती है। इसका मतलब है कि X और Y दोनों में लेन-देन की संख्या को केवल X में उन लोगों द्वारा विभाजित किया गया है।
 
उदाहरण के लिए, तालिका 2 नियम दिखाता है <math>\{\mathrm{butter, bread}\} \Rightarrow \{\mathrm{milk}\}</math> जिसमें  <math>\frac{1/5}{1/5}=\frac{0.2}{0.2}=1.0</math> डेटासेट में, जो दर्शाता है कि हर बार जब कोई ग्राहक मक्खन और ब्रेड खरीदता है तो वे दूध भी खरीदते हैं। यह विशेष उदाहरण मक्खन और ब्रेड दोनों वाले लेनदेन के लिए नियम को 100% सही होने का प्रदर्शन करता है। नियम<math>\{\mathrm{fruit}\} \Rightarrow \{\mathrm{eggs}\}</math> का आत्मविश्वास है <math>\frac{2/5}{3/5}=\frac{0.4}{0.6}=0.67</math>, इससे पता चलता है कि फल लाए जाने के 67% बार अंडे खरीदे जाते हैं। इस विशेष डेटासेट के भीतर फलों को कुल 3 बार खरीदा जाता है, जिसमें से दो बार अंडे की खरीदारी होती है।


बड़े डेटासेट के लिए, न्यूनतम सीमा, या प्रतिशत कटऑफ़, विश्वास के लिए आइटम संबंधों को निर्धारित करने के लिए उपयोगी हो सकता है। तालिका 2 में कुछ डेटा के लिए इस पद्धति को लागू करते समय, आवश्यकताओं को पूरा नहीं करने वाली जानकारी हटा दी जाती है। तालिका 4 एसोसिएशन नियम उदाहरण दिखाती है जहां विश्वास के लिए न्यूनतम सीमा 0.5 (50%) है। कोई भी डेटा जिसमें कम से कम 0.5 का विश्वास नहीं है, को छोड़ दिया गया है। थ्रेसहोल्ड उत्पन्न करने से वस्तुओं के बीच जुड़ाव मजबूत हो जाता है क्योंकि डेटा को सबसे अधिक सह-घटित करने पर जोर देकर आगे शोध किया जाता है। तालिका समर्थन x विश्वास कॉलम को लागू करने के लिए तालिका 3 से विश्वास जानकारी का उपयोग करती है, जहां केवल एक अवधारणा के बजाय, उनके विश्वास और समर्थन दोनों के माध्यम से वस्तुओं के बीच संबंध को हाइलाइट किया जाता है। समर्थन एक्स कॉन्फिडेंस द्वारा नियमों की रैंकिंग किसी विशेष नियम के विश्वास को उसके समर्थन से गुणा करती है और अक्सर वस्तुओं के बीच संबंधों की अधिक गहन समझ के लिए लागू की जाती है।   
बड़े डेटासेट के लिए, न्यूनतम सीमा, या प्रतिशत कटऑफ़, विश्वास के लिए आइटम संबंधों को निर्धारित करने के लिए उपयोगी हो सकता है। तालिका 2 में कुछ डेटा के लिए इस पद्धति को लागू करते समय, आवश्यकताओं को पूरा नहीं करने वाली जानकारी हटा दी जाती है। तालिका 4 एसोसिएशन नियम उदाहरण दिखाती है जहां विश्वास के लिए न्यूनतम सीमा 0.5 (50%) है। कोई भी डेटा जिसमें कम से कम 0.5 का विश्वास नहीं है, को छोड़ दिया गया है। थ्रेसहोल्ड उत्पन्न करने से वस्तुओं के बीच जुड़ाव मजबूत हो जाता है क्योंकि डेटा को सबसे अधिक सह-घटित करने पर जोर देकर आगे शोध किया जाता है। तालिका समर्थन x विश्वास कॉलम को लागू करने के लिए तालिका 3 से विश्वास जानकारी का उपयोग करती है, जहां केवल एक अवधारणा के बजाय, उनके विश्वास और समर्थन दोनों के माध्यम से वस्तुओं के बीच संबंध को हाइलाइट किया जाता है। समर्थन एक्स कॉन्फिडेंस द्वारा नियमों की रैंकिंग किसी विशेष नियम के विश्वास को उसके समर्थन से गुणा करती है और अक्सर वस्तुओं के बीच संबंधों की अधिक गहन समझ के लिए लागू की जाती है।   


{| class="wikitable sortable"
{| class="wikitable sortable"
|+Table 4. Example of Confidence and Support x Confidence
|+तालिका 4. विश्वास और समर्थन x विश्वास का उदाहरण
!if Antecedent then Consequent
!यदि पूर्ववर्ती तो परिणामी
!Confidence
!आत्मविश्वास
!Support x Confidence
!समर्थन एक्स विश्वास
|-
|-
|if buy milk, then buy bread
|दूध खरीदो तो रोटी खरीदो
|2/2= 1.0
|2/2 = 1.0
|0.4X1.0= 0.4
|0.4X1.0= 0.4
|-
|-
|if buy milk, then buy eggs
|दूध खरीदो, तो अंडे खरीदो
|1/2= 0.5
|1/2 = 0.5
|0.2X0.5= 0.1
|0.2X0.5= 0.1
|-
|-
|if buy bread, then buy fruit
|रोटी खरीदो, तो फल खरीदो
|2/3= 0.66
|2/3 = 0.66
|0.4X0.66= 0.264
|0.4X0.66= 0.264
|-
|-
|if buy fruit, then buy eggs
|फल खरीदो तो अंडे खरीदो
|2/3= 0.66
|2/3 = 0.66
|0.4X0.66= 0.264
|0.4X0.66= 0.264
|-
|-
|if buy milk and bread, then buy fruit
|दूध रोटी खरीदो तो फल खरीदो
|2/2= 1.0
|2/2 = 1.0
|0.4X1.0= 0.4
|0.4X1.0= 0.4
|}
|}
कुल मिलाकर, एसोसिएशन रूल माइनिंग में विश्वास का उपयोग करना डेटा संबंधों के प्रति जागरूकता लाने का एक शानदार तरीका है। इसका सबसे बड़ा लाभ सेट के भीतर विशेष वस्तुओं के बीच एक दूसरे से संबंध को उजागर करना है, क्योंकि यह वस्तुओं की सह-घटनाओं की तुलना विशिष्ट नियम में पूर्ववर्ती की कुल घटना से करता है। हालांकि, संघ नियम खनन में हर अवधारणा के लिए विश्वास सबसे अच्छा तरीका नहीं है। इसका उपयोग करने का नुकसान यह है कि यह संघों पर एकाधिक अंतर दृष्टिकोण प्रदान नहीं करता है। समर्थन के विपरीत, उदाहरण के लिए, विश्वास संपूर्ण डेटासेट की तुलना में कुछ वस्तुओं के बीच संबंधों का परिप्रेक्ष्य प्रदान नहीं करता है, इसलिए दूध और रोटी, उदाहरण के लिए, विश्वास के लिए 100% समय हो सकता है, इसमें केवल 0.4 का समर्थन होता है (40%)। यही कारण है कि अन्य दृष्टिकोणों को देखना महत्वपूर्ण है, जैसे समर्थन एक्स विश्वास, केवल एक अवधारणा पर भरोसा करने के बजाय लगातार संबंधों को परिभाषित करें।
कुल मिलाकर, एसोसिएशन रूल माइनिंग में विश्वास का उपयोग करना डेटा संबंधों के प्रति जागरूकता लाने का एक शानदार तरीका है। इसका सबसे बड़ा लाभ सेट के भीतर विशेष वस्तुओं के बीच एक दूसरे से संबंध को उजागर करना है, क्योंकि यह वस्तुओं की सह-घटनाओं की तुलना विशिष्ट नियम में पूर्ववर्ती की कुल घटना से करता है। हालांकि, संघ नियम खनन में हर अवधारणा के लिए विश्वास सबसे अच्छा तरीका नहीं है। इसका उपयोग करने का नुकसान यह है कि यह संघों पर एकाधिक अंतर दृष्टिकोण प्रदान नहीं करता है। समर्थन के विपरीत, उदाहरण के लिए, विश्वास संपूर्ण डेटासेट की तुलना में कुछ वस्तुओं के बीच संबंधों का परिप्रेक्ष्य प्रदान नहीं करता है, इसलिए दूध और रोटी, उदाहरण के लिए, विश्वास के लिए 100% समय हो सकता है, इसमें केवल 0.4 का समर्थन होता है (40%)। यही कारण है कि कि रिश्तों को परिभाषित करने के लिए लगातार एक अवधारणा पर निर्भर रहने के बजाय अन्य दृष्टिकोणों को देखना महत्वपूर्ण है, जैसे कि समर्थन x विश्वास।


=== लिफ्ट ===
=== लिफ्ट ===
किसी नियम की [[लिफ्ट (डाटा माइनिंग)]] को इस प्रकार परिभाषित किया गया है:
[[लिफ्ट (डाटा माइनिंग)|लिफ्ट]] के नियम को इस प्रकार परिभाषित किया गया है:


<math> \mathrm{lift}(X\Rightarrow Y) = \frac{ \mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) \times \mathrm{supp}(Y) } </math>
<math> \mathrm{lift}(X\Rightarrow Y) = \frac{ \mathrm{supp}(X \cap Y)}{ \mathrm{supp}(X) \times \mathrm{supp}(Y) } </math>
या एक्स और वाई [[स्वतंत्रता (संभावना सिद्धांत)]] होने पर अपेक्षित समर्थन का अनुपात।
 
 
 
X और Y [[स्वतंत्रता (संभावना सिद्धांत)|स्वतंत्र]] होने पर अपेक्षित समर्थन के लिए देखे गए समर्थन का अनुपात।


उदाहरण के लिए, नियम <math>\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}</math> की लिफ्ट है <math>\frac{0.2}{0.4 \times 0.4} = 1.25 </math>.
उदाहरण के लिए, नियम <math>\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}</math> की लिफ्ट है <math>\frac{0.2}{0.4 \times 0.4} = 1.25 </math>.


यदि नियम में 1 की वृद्धि होती है, तो इसका अर्थ यह होगा कि पूर्ववर्ती और परिणामी होने की संभावना एक दूसरे से स्वतंत्र हैं। जब दो घटनाएँ एक-दूसरे से स्वतंत्र होती हैं, तो उन दो घटनाओं को शामिल करते हुए कोई नियम नहीं बनाया जा सकता।
यदि नियम में 1 की वृद्धि होती है, तो इसका अर्थ यह होगा कि पूर्ववर्ती और परिणामी होने की संभावना एक दूसरे से स्वतंत्र हैं। जब दो घटनाएँ एक-दूसरे से स्वतंत्र होती हैं तो उन दो घटनाओं को शामिल करते हुए कोई नियम नहीं बनाया जा सकता।


यदि लिफ़्ट > 1 है, तो इससे हमें पता चलता है कि वे दो घटनाएँ किस हद तक एक दूसरे पर निर्भर हैं, और उन नियमों को भविष्य के डेटा सेटों में परिणाम की भविष्यवाणी करने के लिए संभावित रूप से उपयोगी बनाती हैं।
यदि लिफ़्ट > 1 है, तो इससे हमें पता चलता है कि वे दो घटनाएँ किस हद तक एक दूसरे पर निर्भर हैं और उन नियमों को भविष्य के डेटा सेटों में परिणाम की भविष्यवाणी करने के लिए संभावित रूप से उपयोगी बनाती हैं।


यदि लिफ्ट <1 है, तो इससे हमें पता चलता है कि आइटम एक दूसरे के स्थानापन्न हैं। इसका मतलब यह है कि एक वस्तु की उपस्थिति का दूसरे वस्तु की उपस्थिति पर नकारात्मक प्रभाव पड़ता है और इसके विपरीत।
यदि लिफ्ट <1 है, तो इससे हमें पता चलता है कि आइटम एक दूसरे के स्थानापन्न हैं। इसका मतलब यह है कि एक वस्तु की उपस्थिति का दूसरे वस्तु की उपस्थिति पर और इसके अलावा नकारात्मक प्रभाव पड़ता है।


लिफ़्ट का मूल्य यह है कि यह नियम के समर्थन और समग्र डेटा सेट दोनों पर विचार करता है।<ref name=":0" />
लिफ़्ट का मूल्य यह है कि यह नियम के समर्थन और समग्र डेटा सेट दोनों पर विचार करता है।<ref name=":0" />
Line 224: Line 233:
=== दोषसिद्धि ===
=== दोषसिद्धि ===
एक नियम की सजा के रूप में परिभाषित किया गया है <math> \mathrm{conv}(X\Rightarrow Y) =\frac{ 1 - \mathrm{supp}(Y) }{ 1 - \mathrm{conf}(X\Rightarrow Y)}</math>.<ref name="brin-dynamic-itemset1">{{cite book |doi=10.1145/253260.253325 |chapter=Dynamic itemset counting and implication rules for market basket data |title=डेटा के प्रबंधन पर 1997 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '97|pages=255–264 |year=1997 |last1=Brin |first1=Sergey |last2=Motwani |first2=Rajeev |last3=Ullman |first3=Jeffrey D. |last4=Tsur |first4=Shalom |isbn=978-0897919111 |citeseerx=10.1.1.41.6476 |s2cid=15385590 }}</ref>
एक नियम की सजा के रूप में परिभाषित किया गया है <math> \mathrm{conv}(X\Rightarrow Y) =\frac{ 1 - \mathrm{supp}(Y) }{ 1 - \mathrm{conf}(X\Rightarrow Y)}</math>.<ref name="brin-dynamic-itemset1">{{cite book |doi=10.1145/253260.253325 |chapter=Dynamic itemset counting and implication rules for market basket data |title=डेटा के प्रबंधन पर 1997 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '97|pages=255–264 |year=1997 |last1=Brin |first1=Sergey |last2=Motwani |first2=Rajeev |last3=Ullman |first3=Jeffrey D. |last4=Tsur |first4=Shalom |isbn=978-0897919111 |citeseerx=10.1.1.41.6476 |s2cid=15385590 }}</ref>
उदाहरण के लिए, नियम <math>\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}</math> का दृढ़ विश्वास है <math>\frac{1 - 0.4}{1 - 0.5} = 1.2 </math>, और अपेक्षित आवृत्ति के अनुपात के रूप में व्याख्या की जा सकती है कि X बिना Y के होता है (अर्थात्, वह आवृत्ति जो नियम गलत भविष्यवाणी करता है) यदि X और Y स्वतंत्र रूप से गलत भविष्यवाणियों की देखी गई आवृत्ति से विभाजित थे। इस उदाहरण में, 1.2 का दृढ़ विश्वास मूल्य दर्शाता है कि नियम <math>\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}</math> यदि X और Y के बीच संबंध पूरी तरह से यादृच्छिक मौका था तो 20% अधिक बार (1.2 गुना अधिक बार) गलत होगा।
 
उदाहरण के लिए, नियम <math>\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}</math> का दृढ़ विश्वास है <math>\frac{1 - 0.4}{1 - 0.5} = 1.2 </math>और अपेक्षित आवृत्ति के अनुपात के रूप में व्याख्या की जा सकती है जो X बिना Y के होता है (अर्थात् वह आवृत्ति जो नियम गलत भविष्यवाणी करता है) यदि X और Y स्वतंत्र रूप से गलत भविष्यवाणियों की देखी गई आवृत्ति से विभाजित थे। इस उदाहरण में, 1.2 का दृढ़ विश्वास मूल्य दर्शाता है कि नियम <math>\{\mathrm{milk, bread}\} \Rightarrow \{\mathrm{butter}\}</math> यदि X और Y के बीच संबंध पूरी तरह से यादृच्छिक मौका था तो 20% अधिक बार (1.2 गुना अधिक बार) गलत होगा।


=== दिलचस्पता के वैकल्पिक उपाय ===
=== दिलचस्पता के वैकल्पिक उपाय ===
विश्वास के अतिरिक्त, नियमों के लिए रोचकता के अन्य उपाय प्रस्तावित किए गए हैं। कुछ लोकप्रिय उपाय हैं:
विश्वास के अतिरिक्त नियमों के लिए रोचकता के अन्य उपाय प्रस्तावित किए गए हैं। कुछ लोकप्रिय उपाय हैं:


* सर्व-विश्वास<ref name="allconfidence">{{cite journal |doi=10.1109/TKDE.2003.1161582 |title=डेटाबेस में खनन संघों के लिए वैकल्पिक ब्याज उपाय|journal=IEEE Transactions on Knowledge and Data Engineering |volume=15 |pages=57–69 |year=2003 |last1=Omiecinski |first1=E.R. |citeseerx=10.1.1.329.5344 }}</ref>
* सर्व-विश्वास<ref name="allconfidence">{{cite journal |doi=10.1109/TKDE.2003.1161582 |title=डेटाबेस में खनन संघों के लिए वैकल्पिक ब्याज उपाय|journal=IEEE Transactions on Knowledge and Data Engineering |volume=15 |pages=57–69 |year=2003 |last1=Omiecinski |first1=E.R. |citeseerx=10.1.1.329.5344 }}</ref>
* सामूहिक शक्ति<ref name="collectivestrength">{{cite book |doi=10.1145/275487.275490 |chapter=A new framework for itemset generation |title=डेटाबेस सिस्टम के सिद्धांतों पर सत्रहवीं ACM SIGACT-SIGMOD-SIGART संगोष्ठी की कार्यवाही - PODS '98|pages=18–24 |year=1998 |last1=Aggarwal |first1=Charu C. |last2=Yu |first2=Philip S. |isbn=978-0897919968 |citeseerx=10.1.1.24.714 |s2cid=11934586 }}</ref>
* सामूहिक शक्ति<ref name="collectivestrength">{{cite book |doi=10.1145/275487.275490 |chapter=A new framework for itemset generation |title=डेटाबेस सिस्टम के सिद्धांतों पर सत्रहवीं ACM SIGACT-SIGMOD-SIGART संगोष्ठी की कार्यवाही - PODS '98|pages=18–24 |year=1998 |last1=Aggarwal |first1=Charu C. |last2=Yu |first2=Philip S. |isbn=978-0897919968 |citeseerx=10.1.1.24.714 |s2cid=11934586 }}</ref>
* फ़ायदा उठाना<ref name="leverage">Piatetsky-Shapiro, Gregory; ''Discovery, analysis, and presentation of strong rules'', Knowledge Discovery in Databases, 1991, pp. 229-248</ref>
* उत्तोलन<ref name="leverage">Piatetsky-Shapiro, Gregory; ''Discovery, analysis, and presentation of strong rules'', Knowledge Discovery in Databases, 1991, pp. 229-248</ref>
टैन एट अल द्वारा कई और उपाय प्रस्तुत किए गए हैं और उनकी तुलना की गई है।<ref name="measurescomp">{{cite journal |doi=10.1016/S0306-4379(03)00072-3 |title=एसोसिएशन विश्लेषण के लिए सही उद्देश्य माप का चयन करना|journal=Information Systems |volume=29 |issue=4 |pages=293–313 |year=2004 |last1=Tan |first1=Pang-Ning |last2=Kumar |first2=Vipin |last3=Srivastava |first3=Jaideep |citeseerx=10.1.1.331.4740 }}</ref> और हस्लर द्वारा।<ref name="michael.hahsler.net">Michael Hahsler (2015). A Probabilistic Comparison of Commonly Used Interest Measures for Association Rules. https://mhahsler.github.io/arules/docs/measures</ref> ऐसी तकनीकों की तलाश करना जो उपयोगकर्ता को ज्ञात हो (और इन मॉडलों को दिलचस्प उपायों के रूप में उपयोग करना) को मॉडल कर सके, वर्तमान में सब्जेक्टिव इंटरेस्टिंग के नाम से एक सक्रिय शोध प्रवृत्ति है।
कई उपाय और उनकी तुलना <ref name="measurescomp">{{cite journal |doi=10.1016/S0306-4379(03)00072-3 |title=एसोसिएशन विश्लेषण के लिए सही उद्देश्य माप का चयन करना|journal=Information Systems |volume=29 |issue=4 |pages=293–313 |year=2004 |last1=Tan |first1=Pang-Ning |last2=Kumar |first2=Vipin |last3=Srivastava |first3=Jaideep |citeseerx=10.1.1.331.4740 }}</ref> टैन एट अल और हस्लर द्वारा प्रस्तुत किए गए हैं। <ref name="michael.hahsler.net">Michael Hahsler (2015). A Probabilistic Comparison of Commonly Used Interest Measures for Association Rules. https://mhahsler.github.io/arules/docs/measures</ref> ऐसी तकनीकों की तलाश करना जो उपयोगकर्ता को ज्ञात हो (और इन मॉडलों को दिलचस्प उपायों के रूप में उपयोग करना) वर्तमान में "व्यक्तिपरक दिलचस्पता" (सब्जेक्टिव इंटरेस्टिंग) के नाम से एक सक्रिय शोध प्रवृत्ति है।


== इतिहास ==
== इतिहास ==
एसोसिएशन नियमों की अवधारणा विशेष रूप से अग्रवाल एट अल के 1993 के लेख के कारण लोकप्रिय हुई थी।<ref name="mining" />जिसने अप्रैल 2021 तक Google विद्वान के अनुसार 23,790 से अधिक उद्धरण प्राप्त किए हैं, और इस प्रकार यह डेटा माइनिंग क्षेत्र में सबसे अधिक उद्धृत पत्रों में से एक है। हालाँकि, जिसे अब एसोसिएशन नियम कहा जाता है, उसे 1966 के पेपर में पहले ही पेश किया जा चुका है<ref name="guha_oldest">{{cite journal |doi=10.1007/BF02345483 |title=स्वचालित परिकल्पना निर्धारण की गुहा विधि|journal=Computing |volume=1 |issue=4 |pages=293–308 |year=1966 |last1=Hájek |first1=P. |last2=Havel |first2=I. |last3=Chytil |first3=M. |s2cid=10511114 }}</ref> गुहा पर, पेट्र हाजेक एट अल द्वारा विकसित एक सामान्य डेटा माइनिंग विधि। रेफरी नाम = पोस्टर>{{cite book |doi=10.1007/978-3-540-44497-8_7 |chapter=The GUHA Method, Data Preprocessing and Mining |title=डाटा माइनिंग अनुप्रयोगों के लिए डाटाबेस समर्थन|volume=2682 |pages=135–153 |series=Lecture Notes in Computer Science |year=2004 |last1=Hájek |first1=Petr |last2=Rauch |first2=Jan |last3=Coufal |first3=David |last4=Feglar |first4=Tomáš |isbn=978-3-540-22479-2 }}</रेफरी>
एसोसिएशन नियमों की अवधारणा विशेष रूप से अग्रवाल एट अल के 1993 के लेख के कारण लोकप्रिय हुई थी।<ref name="mining" />जिसने अप्रैल 2021 तक गूगल (Google) विद्वान के अनुसार 23,790 से अधिक उद्धरण प्राप्त किए हैं और इस प्रकार यह डेटा खनन क्षेत्र में सबसे अधिक उद्धृत पत्रों में से एक है। हालाँकि, जिसे अब एसोसिएशन नियम कहा जाता है उसे 1966 के लेख्य गुहा पर पेश किया जा चुका है जो <ref name="guha_oldest">{{cite journal |doi=10.1007/BF02345483 |title=स्वचालित परिकल्पना निर्धारण की गुहा विधि|journal=Computing |volume=1 |issue=4 |pages=293–308 |year=1966 |last1=Hájek |first1=P. |last2=Havel |first2=I. |last3=Chytil |first3=M. |s2cid=10511114 }}</ref> पेट्र हाजेक एट अल द्वारा विकसित एक सामान्य डेटा खनन विधि हैं।


सभी एसोसिएशन नियमों को खोजने के लिए न्यूनतम समर्थन और विश्वास का प्रारंभिक (लगभग 1989) उपयोग फीचर आधारित मॉडलिंग ढांचा है, जिसमें सभी नियम पाए गए <math>\mathrm{supp}(X)</math> तथा <math>\mathrm{conf}(X \Rightarrow Y)</math> उपयोगकर्ता परिभाषित बाधाओं से अधिक।<ref>{{cite journal|last1=Webb|first1=Geoffrey|title=छात्र मॉडलिंग के लिए एक मशीन लर्निंग दृष्टिकोण|journal=Proceedings of the Third Australian Joint Conference on Artificial Intelligence (AI 89)|date=1989|pages=195–205}}</ref>
सभी एसोसिएशन नियमों को खोजने के लिए न्यूनतम समर्थन और विश्वास का प्रारंभिक (लगभग 1989) उपयोग विशेषता आधारित नमूने की बनावट (मॉडलिंग) ढांचा है, जिसमें सभी नियम पाए गए <math>\mathrm{supp}(X)</math> तथा <math>\mathrm{conf}(X \Rightarrow Y)</math> उपयोगकर्ता परिभाषित बाधाओं (यूज़र डिफ़ाइंड कंस्ट्रेंट्स) से बड़ा है।<ref>{{cite journal|last1=Webb|first1=Geoffrey|title=छात्र मॉडलिंग के लिए एक मशीन लर्निंग दृष्टिकोण|journal=Proceedings of the Third Australian Joint Conference on Artificial Intelligence (AI 89)|date=1989|pages=195–205}}</ref>




== सांख्यिकीय रूप से ध्वनि संघ ==
== सांख्यिकीय रूप से ध्वनि संघ ==


संघों की खोज के लिए मानक दृष्टिकोण की एक सीमा यह है कि बड़ी संख्या में संभावित संघों की खोज करके उन वस्तुओं के संग्रह की तलाश की जा सकती है जो संबंधित प्रतीत होते हैं, कई नकली संघों को खोजने का एक बड़ा जोखिम है। ये उन वस्तुओं का संग्रह हैं जो डेटा में अप्रत्याशित आवृत्ति के साथ सह-घटित होते हैं, लेकिन ऐसा केवल संयोग से होता है। उदाहरण के लिए, मान लीजिए कि हम 10,000 वस्तुओं के संग्रह पर विचार कर रहे हैं और ऐसे नियमों की तलाश कर रहे हैं जिनमें बाईं ओर दो आइटम हैं और दाईं ओर 1 आइटम है। लगभग 1,000,000,000,000 ऐसे नियम हैं। यदि हम 0.05 के महत्व स्तर के साथ स्वतंत्रता के लिए एक सांख्यिकीय परीक्षण लागू करते हैं तो इसका मतलब है कि अगर कोई संबंध नहीं है तो नियम को स्वीकार करने की केवल 5% संभावना है। अगर हम मानते हैं कि कोई संबंध नहीं हैं, तो भी हमें 50,000,000,000 नियम खोजने की उम्मीद करनी चाहिए। सांख्यिकीय रूप से ध्वनि संघ खोज<ref>{{cite journal |doi=10.1007/s10994-007-5006-x |title=महत्वपूर्ण पैटर्न की खोज|journal=Machine Learning |volume=68 |pages=1–33 |year=2007 |last1=Webb |first1=Geoffrey I. |doi-access=free }}</ref><ref>{{cite journal |doi=10.1145/1297332.1297338 |title=स्वैप रैंडमाइजेशन के माध्यम से डेटा माइनिंग परिणामों का आकलन करना|journal=ACM Transactions on Knowledge Discovery from Data |volume=1 |issue=3 |pages=14–es |year=2007 |last1=Gionis |first1=Aristides |last2=Mannila |first2=Heikki |last3=Mielikäinen |first3=Taneli |last4=Tsaparas |first4=Panayiotis |citeseerx=10.1.1.141.2607 |s2cid=52305658 }}</ref> इस जोखिम को नियंत्रित करता है, ज्यादातर मामलों में उपयोगकर्ता द्वारा निर्दिष्ट महत्व स्तर पर किसी नकली संघों को खोजने के जोखिम को कम करता है।
संघों की खोज के लिए मानक दृष्टिकोण की एक सीमा यह है कि बड़ी संख्या में संभावित संघों की खोज करके उन वस्तुओं के संग्रह की तलाश की जा सकती है जो संबंधित प्रतीत होते हैं, कई नकली संघों को खोजने का एक बड़ा जोखिम है। ये उन वस्तुओं का संग्रह हैं जो डेटा में अप्रत्याशित आवृत्ति के साथ सह-घटित होते हैं लेकिन ऐसा केवल संयोग से होता है। उदाहरण के लिए, मान लीजिए कि हम 10,000 वस्तुओं के संग्रह पर विचार कर रहे हैं और ऐसे नियमों की तलाश कर रहे हैं जिनमें बाईं ओर दो आइटम हैं और दाईं ओर 1 आइटम है लगभग 1,000,000,000,000 ऐसे नियम हैं। यदि हम 0.05 के महत्व स्तर के साथ स्वतंत्रता के लिए एक सांख्यिकीय परीक्षण लागू करते हैं तो इसका मतलब है कि अगर कोई संबंध नहीं है तो नियम को स्वीकार करने की केवल 5% संभावना है। अगर हम मानते हैं कि कोई संबंध नहीं हैं तो भी हमें 50,000,000,000 नियम खोजने की उम्मीद करनी चाहिए। सांख्यिकीय रूप से ध्वनि संघ खोज<ref>{{cite journal |doi=10.1007/s10994-007-5006-x |title=महत्वपूर्ण पैटर्न की खोज|journal=Machine Learning |volume=68 |pages=1–33 |year=2007 |last1=Webb |first1=Geoffrey I. |doi-access=free }}</ref><ref>{{cite journal |doi=10.1145/1297332.1297338 |title=स्वैप रैंडमाइजेशन के माध्यम से डेटा माइनिंग परिणामों का आकलन करना|journal=ACM Transactions on Knowledge Discovery from Data |volume=1 |issue=3 |pages=14–es |year=2007 |last1=Gionis |first1=Aristides |last2=Mannila |first2=Heikki |last3=Mielikäinen |first3=Taneli |last4=Tsaparas |first4=Panayiotis |citeseerx=10.1.1.141.2607 |s2cid=52305658 }}</ref> इस जोखिम को नियंत्रित करता है, ज्यादातर मामलों में उपयोगकर्ता द्वारा निर्दिष्ट महत्व स्तर पर किसी नकली संघों को खोजने के जोखिम को कम करता है।


== एल्गोरिदम ==
== एल्गोरिदम ==
Line 248: Line 258:
एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।
एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।


कुछ जाने-माने एल्गोरिदम Apriori एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।
कुछ जाने-माने एल्गोरिदम एप्रीओरी एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।


=== एप्रीओरी एल्गोरिथम ===
=== एप्रीओरी एल्गोरिथम ===
अप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।
एप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।


[[File:APriori.png|thumb|357x357px|एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख]]अवलोकन: एप्रीओरी एल्गोरिथ्म एक बॉटम अप दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम ('उम्मीदवार पीढ़ी'' के रूप में जाना जाता है) में एक आइटम बढ़ाया जाता है, और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज और एक [[हैश ट्री (लगातार डेटा संरचना)]] संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।
[[File:APriori.png|thumb|357x357px|एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख]]अवलोकन: एप्रीओरी एल्गोरिथ्म "नीचे ऊपर" (बॉटम अप) दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम (उम्मीदवार पीढ़ी'' के रूप में जाना जाने वाला एक कदम) बढ़ाया जाता है और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज" (breadth-first search) और [[हैश ट्री (लगातार डेटा संरचना)|हैश ट्री (Hass tree structure)]] संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।''


उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है।
उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है।
  {| class="wikitable"
  {| class="wikitable"
|+Input Set
|+इनपुट सेट
!{a,  b}
!{a,  b}
!{c, d}
!{c, d}
Line 269: Line 279:
अब हम प्रत्येक वर्ण की घटनाओं की संख्या की गणना करके लगातार आइटम सेट उत्पन्न करेंगे। इसे समर्थन मूल्य खोजने के रूप में भी जाना जाता है। फिर हम एक न्यूनतम समर्थन सीमा चुनकर सेट आइटम की छँटाई करेंगे। एल्गोरिथम के इस पास के लिए हम 3 चुनेंगे।
अब हम प्रत्येक वर्ण की घटनाओं की संख्या की गणना करके लगातार आइटम सेट उत्पन्न करेंगे। इसे समर्थन मूल्य खोजने के रूप में भी जाना जाता है। फिर हम एक न्यूनतम समर्थन सीमा चुनकर सेट आइटम की छँटाई करेंगे। एल्गोरिथम के इस पास के लिए हम 3 चुनेंगे।
  {| class="wikitable"
  {| class="wikitable"
|+Support Values
|+समर्थन मूल्य
!a
!a
!b
!b
Line 282: Line 292:
चूंकि सभी समर्थन मूल्य तीन या उससे ऊपर हैं इसलिए कोई छंटाई नहीं है। लगातार आइटम सेट {ए}, {बी}, {सी}, और {डी} है। इसके बाद हम इनपुट सेट में म्यूटेशन के जोड़े की गिनती करके प्रक्रिया को दोहराएंगे।
चूंकि सभी समर्थन मूल्य तीन या उससे ऊपर हैं इसलिए कोई छंटाई नहीं है। लगातार आइटम सेट {ए}, {बी}, {सी}, और {डी} है। इसके बाद हम इनपुट सेट में म्यूटेशन के जोड़े की गिनती करके प्रक्रिया को दोहराएंगे।
  {| class="wikitable"
  {| class="wikitable"
|+Support Values
|+समर्थन मूल्य
!{a, b}
!{a, b}
!{a, c}
!{a, c}
Line 299: Line 309:
अब हम अपना मिनिमम सपोर्ट वैल्यू 4 कर देंगे तो प्रूनिंग के बाद सिर्फ {a,d} और {c,d} ही रह जाएगा। अब हम ट्रिपलेट्स का संयोजन बनाने के लिए फ़्रीक्वेंट आइटम सेट का उपयोग करेंगे। फिर हम इनपुट सेट में म्यूटेशन के तीन गुना होने की घटनाओं की गणना करके प्रक्रिया को दोहराएंगे।
अब हम अपना मिनिमम सपोर्ट वैल्यू 4 कर देंगे तो प्रूनिंग के बाद सिर्फ {a,d} और {c,d} ही रह जाएगा। अब हम ट्रिपलेट्स का संयोजन बनाने के लिए फ़्रीक्वेंट आइटम सेट का उपयोग करेंगे। फिर हम इनपुट सेट में म्यूटेशन के तीन गुना होने की घटनाओं की गणना करके प्रक्रिया को दोहराएंगे।
  {| class="wikitable"
  {| class="wikitable"
|+Support Values
|+समर्थन मूल्य
!{a, c, d}
!{a, c, d}
|-
|-
Line 306: Line 316:
चूंकि हमारे पास केवल एक आइटम है, चौगुनी के संयोजन का अगला सेट खाली है इसलिए एल्गोरिथ्म बंद हो जाएगा।
चूंकि हमारे पास केवल एक आइटम है, चौगुनी के संयोजन का अगला सेट खाली है इसलिए एल्गोरिथ्म बंद हो जाएगा।


लाभ और सीमाएं:
==== लाभ और सीमाएं: ====
 
Apriori की कुछ सीमाएँ हैं। उम्मीदवार पीढ़ी के परिणामस्वरूप बड़े उम्मीदवार सेट हो सकते हैं। उदाहरण के लिए एक 10^4 लगातार 1-आइटमसेट 10^7 उम्मीदवार 2-आइटमसेट उत्पन्न करेगा। एल्गोरिथम को डेटाबेस को बार-बार स्कैन करने की आवश्यकता होती है, विशिष्ट n+1 स्कैन होने के लिए जहां n सबसे लंबे पैटर्न की लंबाई है। Apriori Eclat एल्गोरिथम की तुलना में धीमा है। हालाँकि, जब डेटासेट बड़ा होता है तो Eclat की तुलना में Apriori अच्छा प्रदर्शन करता है। ऐसा इसलिए है क्योंकि Eclat एल्गोरिथम में यदि डेटासेट बहुत बड़ा है तो मेमोरी के लिए tid-सूचियाँ बहुत बड़ी हो जाती हैं। FP-ग्रोथ ने Apriori और Eclat को पीछे छोड़ दिया है। यह एफपी-ग्रोथ एल्गोरिदम के कारण एक कॉम्पैक्ट डेटा संरचना का उपयोग करके उम्मीदवार पीढ़ी या परीक्षण नहीं होने और केवल एक डेटाबेस स्कैन होने के कारण है।<ref>{{cite arXiv|last=Heaton|first=Jeff|date=2017-01-30|title=एप्रीओरी, एक्लाट या एफपी-ग्रोथ फ़्रीक्वेंट आइटमसेट माइनिंग एल्गोरिथम के पक्ष में डेटासेट विशेषताओं की तुलना करना|class=cs.DB|eprint=1701.09042}}</ref>
Apriori की कुछ सीमाएँ हैं। उम्मीदवार पीढ़ी के परिणामस्वरूप बड़े उम्मीदवार सेट हो सकते हैं। उदाहरण के लिए एक 10^4 लगातार 1-आइटमसेट 10^7 उम्मीदवार 2-आइटमसेट उत्पन्न करेगा। एल्गोरिथम को डेटाबेस को बार-बार स्कैन करने की आवश्यकता होती है, विशिष्ट n+1 स्कैन होने के लिए जहां n सबसे लंबे पैटर्न की लंबाई है। Apriori Eclat एल्गोरिथम की तुलना में धीमा है। हालाँकि, जब डेटासेट बड़ा होता है तो Eclat की तुलना में Apriori अच्छा प्रदर्शन करता है। ऐसा इसलिए है क्योंकि Eclat एल्गोरिथम में यदि डेटासेट बहुत बड़ा है तो मेमोरी के लिए tid-सूचियाँ बहुत बड़ी हो जाती हैं। FP-ग्रोथ ने Apriori और Eclat को पीछे छोड़ दिया है। यह एफपी-ग्रोथ एल्गोरिदम के कारण एक कॉम्पैक्ट डेटा संरचना का उपयोग करके उम्मीदवार पीढ़ी या परीक्षण नहीं होने और केवल एक डेटाबेस स्कैन होने के कारण है।<ref>{{cite arXiv|last=Heaton|first=Jeff|date=2017-01-30|title=एप्रीओरी, एक्लाट या एफपी-ग्रोथ फ़्रीक्वेंट आइटमसेट माइनिंग एल्गोरिथम के पक्ष में डेटासेट विशेषताओं की तुलना करना|class=cs.DB|eprint=1701.09042}}</ref>




=== शार्क एल्गोरिथम ===
=== एक्लाट एल्गोरिथम ===


चमकना<ref name="eclat" />(alt. ECLAT, समतुल्य वर्ग परिवर्तन के लिए खड़ा है) एक [[बैक ट्रैकिंग]] एल्गोरिदम है, जो गहराई से पहली खोज (डीएफएस) फैशन में लगातार आइटमसेट जाली ग्राफ को पार करता है। जबकि Apriori एल्गोरिथम में उपयोग किया जाने वाला [[गहराई-पहली खोज]] (BFS) ट्रैवर्सल किसी आइटमसेट के प्रत्येक सबसेट की जाँच करने से पहले उसकी जाँच करेगा, DFS ट्रैवर्सल बड़े आइटमसेट की जाँच करता है और नीचे की ओर के आधार पर इसके कुछ सबसेट के समर्थन की जाँच करने से बचा सकता है। -करीब संपत्ति। इसके अलावा यह लगभग निश्चित रूप से कम मेमोरी का उपयोग करेगा क्योंकि डीएफएस में बीएफएस की तुलना में कम जगह की जटिलता है।
एक्लाट<ref name="eclat" />(alt. ECLAT, समतुल्य वर्ग परिवर्तन के लिए खड़ा है) एक [[बैक ट्रैकिंग]] एल्गोरिदम है, जो गहराई से पहली खोज (DFS) फैशन में लगातार आइटमसेट जाली ग्राफ का पता लगाता है। जबकि Apriori एल्गोरिथम में उपयोग किया जाने वाला ब्रेड्थ-फर्स्ट सर्च (BFS) ट्रैवर्सल किसी आइटमसेट के प्रत्येक सबसेट की जाँच करने से पहले उसकी जाँच करेगा, DFS ट्रैवर्सल बड़े आइटमसेट की जाँच करता है और नीचे की ओर downward closure property  के आधार पर इसके कुछ सबसेट के समर्थन की जाँच करने से बचा सकता है। इसके अलावा यह लगभग निश्चित रूप से कम मेमोरी का उपयोग करेगा क्योंकि डीएफएस में बीएफएस की तुलना में कम जगह की जटिलता है।


इसे स्पष्ट करने के लिए, एक लगातार आइटमसेट {ए, बी, सी} होने दें। डीएफएस निम्नलिखित क्रम में लगातार आइटमसेट जाली में नोड्स की जांच कर सकता है: {ए} → {ए, बी} → {ए, बी, सी}, जिस बिंदु पर यह ज्ञात है कि {बी}, {सी}, { ए, सी}, {बी, सी} सभी डाउनवर्ड-क्लोजर प्रॉपर्टी द्वारा समर्थन बाधा को संतुष्ट करते हैं। बीएफएस अंत में जांच करने से पहले {ए, बी, सी} के प्रत्येक सबसेट का पता लगाएगा। जैसे-जैसे एक आइटमसेट का आकार बढ़ता है, इसके उपसमुच्चयों की संख्या संयोजी विस्फोट से गुजरती है।
इसे स्पष्ट करने के लिए, एक लगातार आइटमसेट {ए, बी, सी} होने दें। डीएफएस निम्नलिखित क्रम में लगातार आइटमसेट जाली में नोड्स की जांच कर सकता है: {ए} → {ए, बी} → {ए, बी, सी}, जिस बिंदु पर यह ज्ञात है कि {बी}, {सी}, { ए, सी}, {बी, सी} सभी डाउनवर्ड-क्लोजर प्रॉपर्टी द्वारा समर्थन बाधा को संतुष्ट करते हैं। बीएफएस अंत में जांच करने से पहले {ए, बी, सी} के प्रत्येक सबसेट का पता लगाएगा। जैसे-जैसे एक आइटमसेट का आकार बढ़ता है, इसके उपसमुच्चयों की संख्या संयोजी विस्फोट से गुजरती है।
Line 322: Line 331:
=== एफपी-विकास एल्गोरिथम ===
=== एफपी-विकास एल्गोरिथम ===


FP,लगातार पैटर्न के लिए खड़ा है।<ref>{{cite book|last1=Han|title=डेटा के प्रबंधन पर 2000 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '00|chapter=Mining Frequent Patterns Without Candidate Generation|journal=Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data|date=2000|volume=SIGMOD '00|pages=1–12|doi=10.1145/342009.335372|isbn=978-1581132175|citeseerx=10.1.1.40.4436|s2cid=6059661}}</ref>
एफपी लगातार पैटर्न के लिए संदर्भित किया जाता है।<ref>{{cite book|last1=Han|title=डेटा के प्रबंधन पर 2000 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '00|chapter=Mining Frequent Patterns Without Candidate Generation|journal=Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data|date=2000|volume=SIGMOD '00|pages=1–12|doi=10.1145/342009.335372|isbn=978-1581132175|citeseerx=10.1.1.40.4436|s2cid=6059661}}</ref>
पहले पास में, एल्गोरिथ्म लेन-देन के डेटासेट में आइटम (विशेषता-मूल्य जोड़े) की घटनाओं की गणना करता है, और इन गणनाओं को 'हेडर टेबल' में संग्रहीत करता है। दूसरे पास में, यह एफपी-[[कोशिश करें]] स्ट्रक्चर को ट्राइ में ट्रांजेक्शन डालकर बनाता है।
 
पहले पास में, एल्गोरिथ्म लेन-देन के डेटासेट में आइटम (विशेषता-मूल्य जोड़े) की आवृत्ति की गणना करता है और इन गणनाओं को 'हेडर टेबल' में संग्रहीत करता है। दूसरे पास में, यह एफपी-ट्री स्ट्रक्चर को ट्राइ में ट्रांजेक्शन डालकर बनाता है।
 
प्रत्येक लेन-देन में वस्तुओं को डालने से पहले डेटासेट में उनकी आवृत्ति के अवरोही क्रम द्वारा क्रमबद्ध किया जाना चाहिए ताकि ट्री को जल्दी से संसाधित किया जा सके।


प्रत्येक लेन-देन में वस्तुओं को डालने से पहले डेटासेट में उनकी आवृत्ति के अवरोही क्रम द्वारा क्रमबद्ध किया जाना चाहिए ताकि पेड़ को जल्दी से संसाधित किया जा सके।
प्रत्येक लेन-देन में आइटम जो न्यूनतम समर्थन आवश्यकता को पूरा नहीं करते हैं, उन्हें छोड़ दिया जाता है।
प्रत्येक लेन-देन में आइटम जो न्यूनतम समर्थन आवश्यकता को पूरा नहीं करते हैं, उन्हें छोड़ दिया जाता है।
यदि कई लेन-देन सबसे अधिक बार आइटम साझा करते हैं, तो एफपी-ट्री ट्री रूट के करीब उच्च संपीड़न प्रदान करता है।
यदि कई लेन-देन सबसे अधिक बार आइटम साझा करते हैं, तो एफपी-ट्री ट्री रूट के करीब उच्च संपीड़न प्रदान करता है।
Line 331: Line 342:
मुख्य डेटासेट के इस संकुचित संस्करण का पुनरावर्ती प्रसंस्करण उम्मीदवार वस्तुओं को उत्पन्न करने और उन्हें पूरे डेटाबेस के विरुद्ध परीक्षण करने के बजाय लगातार आइटम सेट को सीधे बढ़ाता है (जैसा कि एप्रियोरी एल्गोरिथम में)।
मुख्य डेटासेट के इस संकुचित संस्करण का पुनरावर्ती प्रसंस्करण उम्मीदवार वस्तुओं को उत्पन्न करने और उन्हें पूरे डेटाबेस के विरुद्ध परीक्षण करने के बजाय लगातार आइटम सेट को सीधे बढ़ाता है (जैसा कि एप्रियोरी एल्गोरिथम में)।


ग्रोथ हेडर टेबल के नीचे से शुरू होती है यानी उस आइटम में समाप्त होने वाले सभी सॉर्ट किए गए लेन-देन को ढूंढकर सबसे कम समर्थन वाला आइटम। इस आइटम को कॉल करें <math>I</math>.
ग्रोथ हेडर टेबल के नीचे से शुरू होती है यानी उस आइटम में समाप्त होने वाले सभी सॉर्ट किए गए लेन-देन को ढूंढकर सबसे कम समर्थन वाला आइटम। इस आइटम को <math>I</math> कहते हैं।


एक नया सशर्त वृक्ष बनाया जाता है जो मूल एफपी-वृक्ष पर प्रक्षेपित होता है <math>I</math>. अनुमानित पेड़ में सभी नोड्स के समर्थन को फिर से गिना जाता है, प्रत्येक नोड को उसके बच्चों की संख्या का योग मिलता है। नोड्स (और इसलिए सबट्रीज़) जो न्यूनतम समर्थन को पूरा नहीं करते हैं, काट दिए जाते हैं। पुनरावर्ती विकास तब समाप्त होता है जब कोई व्यक्तिगत आइटम सशर्त नहीं होता है <math>I</math> न्यूनतम समर्थन सीमा को पूरा करें। रूट से परिणामी पथ <math>I</math> बार-बार आइटमसेट होंगे। इस कदम के बाद, मूल एफपी-ट्री के अगले कम से कम समर्थित हेडर आइटम के साथ प्रसंस्करण जारी रहता है।
एक नया सशर्त ट्री बनाया जाता है जो मूल एफपी-ट्री <math>I</math> पर प्रक्षेपित होता है। अनुमानित पेड़ में सभी नोड्स के समर्थन को फिर से गिना जाता है, प्रत्येक नोड को उसके बच्चों की संख्या का योग मिलता है। नोड्स (और इसलिए सबट्रीज़) जो न्यूनतम समर्थन को पूरा नहीं करते हैं, काट दिए जाते हैं। पुनरावर्ती विकास तब समाप्त होता है जब <math>I</math> पर कोई भी व्यक्तिगत आइटम न्यूनतम समर्थन सीमा को पूरा नहीं करता है। रूट से <math>I</math> तक परिणामी पाथ लगातार आइटमसेट होंगे। इस कदम के बाद, मूल एफपी-ट्री के अगले कम से कम समर्थित हेडर आइटम के साथ प्रसंस्करण जारी रहता है।


एक बार पुनरावर्ती प्रक्रिया पूरी हो जाने के बाद, सभी लगातार आइटम सेट मिल जाएंगे, और एसोसिएशन नियम बनाना शुरू हो जाएगा।<ref>Witten, Frank, Hall: Data mining practical machine learning tools and techniques, 3rd edition{{page needed|date=January 2019}}</ref>
एक बार पुनरावर्ती प्रक्रिया पूरी हो जाने के बाद सभी लगातार आइटम सेट मिल जाएंगे और संघ (एसोसिएशन) नियम निर्माण शुरू हो जाएगा।<ref>Witten, Frank, Hall: Data mining practical machine learning tools and techniques, 3rd edition{{page needed|date=January 2019}}</ref>




Line 342: Line 353:
==== ASSOC ====
==== ASSOC ====


ASSOC प्रक्रिया<ref>{{cite book |last=Hájek |first=Petr |author2=Havránek, Tomáš |title=मशीनीकरण परिकल्पना गठन: एक सामान्य सिद्धांत के लिए गणितीय नींव|publisher=Springer-Verlag |year=1978 |isbn=978-3-540-08738-0 |url=http://www.cs.cas.cz/hajek/guhabook/ }}</ref> एक GUHA विधि है जो तेज़ [[bitstring]]्स संचालन का उपयोग करके सामान्यीकृत एसोसिएशन नियमों के लिए खनन करती है। इस पद्धति द्वारा खनन किए गए संघ के नियम apriori द्वारा उन आउटपुट की तुलना में अधिक सामान्य हैं, उदाहरण के लिए वस्तुओं को संयोजन और संयोजन दोनों के साथ जोड़ा जा सकता है और पूर्ववर्ती और नियम के परिणाम के बीच संबंध apriori के रूप में न्यूनतम समर्थन और विश्वास स्थापित करने तक सीमित नहीं है: समर्थित ब्याज उपायों के मनमाने संयोजन का उपयोग किया जा सकता है।
ASSOC प्रक्रिया<ref>{{cite book |last=Hájek |first=Petr |author2=Havránek, Tomáš |title=मशीनीकरण परिकल्पना गठन: एक सामान्य सिद्धांत के लिए गणितीय नींव|publisher=Springer-Verlag |year=1978 |isbn=978-3-540-08738-0 |url=http://www.cs.cas.cz/hajek/guhabook/ }}</ref> एक गुहा (GUHA) विधि है जो तेज़ [[bitstring|बिटस्ट्रिंग]]संचालन का उपयोग करके सामान्यीकृत एसोसिएशन नियमों के लिए खनन करती है। इस पद्धति द्वारा खनन किए गए संघ के नियम एप्रियोरी द्वारा उन आउटपुट की तुलना में अधिक सामान्य हैं, उदाहरण के लिए वस्तुओं का संयोजन और संयोजन दोनों के साथ जोड़ा जा सकता है पूर्ववर्ती और नियम के परिणाम के बीच संबंध न्यूनतम समर्थन और विश्वास स्थापित करने तक सीमित नहीं है जैसा कि एप्रियोरी: समर्थित ब्याज उपायों के मनमाने संयोजन का उपयोग किया जा सकता है।


==== ओपस खोज ====
==== ओपस खोज ====


ओपस नियम की खोज के लिए एक कुशल एल्गोरिदम है, जो कि अधिकांश विकल्पों के विपरीत, न्यूनतम समर्थन जैसे मोनोटोन या एंटी-मोनोटोन बाधाओं की आवश्यकता नहीं होती है।<ref name=OPUS>Webb, Geoffrey I. (1995); ''OPUS: An Efficient Admissible Algorithm for Unordered Search'', Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, pp. 431-465 [http://webarchive.loc.gov/all/20011118141304/http://www.cs.washington.edu/research/jair/abstracts/webb95a.html online access]</ref> प्रारंभ में एक निश्चित परिणाम के लिए नियम खोजते थे<ref name="OPUS" /><ref name="Bayardo">{{Cite journal |doi=10.1023/A:1009895914772 |last1=Bayardo |first1=Roberto J. Jr. |last2=Agrawal |first2=Rakesh |last3=Gunopulos |first3=Dimitrios |year=2000 |title=बड़े, सघन डेटाबेस में बाधा-आधारित नियम खनन|journal=Data Mining and Knowledge Discovery |volume=4 |issue=2 |pages=217–240 |s2cid=5120441 }}</ref> इसे बाद में परिणाम के रूप में किसी भी आइटम के साथ नियमों को खोजने के लिए बढ़ा दिया गया है।<ref name="webb">{{cite book |doi=10.1145/347090.347112 |chapter=Efficient search for association rules |title=नॉलेज डिस्कवरी और डेटा माइनिंग पर छठे ACM SIGKDD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - KDD '00|pages=99–107 |year=2000 |last1=Webb |first1=Geoffrey I. |isbn=978-1581132335 |citeseerx=10.1.1.33.1309 |s2cid=5444097 }}</ref> लोकप्रिय मैग्नम ओपस एसोसिएशन डिस्कवरी सिस्टम में ओपस सर्च मुख्य तकनीक है।
ओपस (OPUS) नियम की खोज के लिए एक कार्यक्षम एल्गोरिदम है, जो कि अधिकांश विकल्पों के विपरीत, न्यूनतम समर्थन जैसे मोनोटोन या एंटी-मोनोटोन बाधाओं की आवश्यकता नहीं होती है।<ref name=OPUS>Webb, Geoffrey I. (1995); ''OPUS: An Efficient Admissible Algorithm for Unordered Search'', Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, pp. 431-465 [http://webarchive.loc.gov/all/20011118141304/http://www.cs.washington.edu/research/jair/abstracts/webb95a.html online access]</ref> प्रारंभ में एक निश्चित परिणाम के लिए नियम खोजने के लिए उपयोग किया जाता था<ref name="OPUS" /><ref name="Bayardo">{{Cite journal |doi=10.1023/A:1009895914772 |last1=Bayardo |first1=Roberto J. Jr. |last2=Agrawal |first2=Rakesh |last3=Gunopulos |first3=Dimitrios |year=2000 |title=बड़े, सघन डेटाबेस में बाधा-आधारित नियम खनन|journal=Data Mining and Knowledge Discovery |volume=4 |issue=2 |pages=217–240 |s2cid=5120441 }}</ref> इसे बाद में परिणाम के रूप में किसी भी आइटम के साथयमों को खोजने के लिए विस्तारित किया गया था।<ref name="webb">{{cite book |doi=10.1145/347090.347112 |chapter=Efficient search for association rules |title=नॉलेज डिस्कवरी और डेटा माइनिंग पर छठे ACM SIGKDD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - KDD '00|pages=99–107 |year=2000 |last1=Webb |first1=Geoffrey I. |isbn=978-1581132335 |citeseerx=10.1.1.33.1309 |s2cid=5444097 }}</ref> लोकप्रिय मैग्नम ओपस (OPUS) एसोसिएशन डिस्कवरी सिस्टम में ओपस खोज मुख्य तकनीक है।


== विद्या ==
== विद्या ==
एसोसिएशन रूल माइनिंग के बारे में एक प्रसिद्ध कहानी बीयर और डायपर की कहानी है। सुपरमार्केट दुकानदारों के व्यवहार के एक कथित सर्वेक्षण में पता चला कि डायपर खरीदने वाले ग्राहक (संभवतः युवा पुरुष) भी बीयर खरीदने की प्रवृत्ति रखते हैं। यह उपाख्यान इस बात के उदाहरण के रूप में लोकप्रिय हुआ कि रोज़मर्रा के डेटा से अनपेक्षित संघ नियम कैसे पाए जा सकते हैं। कहानी कितनी सच है, इस पर अलग-अलग राय है।<ref name="dss">{{Cite web | url=http://www.dssresources.com/newsletters/66.php | title=डीएसएस न्यूज: वॉल्यूम। 3, संख्या 23}}</ref> डैनियल पॉवर्स कहते हैं:<ref name="dss" />
एसोसिएशन रूल माइनिंग के बारे में एक प्रसिद्ध कहानी बीयर और डायपर की कहानी है। सुपरमार्केट दुकानदारों के व्यवहार के एक कथित सर्वेक्षण में पता चला कि डायपर खरीदने वाले ग्राहक (संभवतः युवा पुरुष) भी बीयर खरीदने की प्रवृत्ति रखते हैं। यह उपाख्यान इस बात के उदाहरण के रूप में लोकप्रिय हुआ कि रोज़मर्रा के डेटा से अनपेक्षित संघ नियम कैसे पाए जा सकते हैं। कहानी में कितनी सच्चाई है इस पर अलग-अलग राय है।<ref name="dss">{{Cite web | url=http://www.dssresources.com/newsletters/66.php | title=डीएसएस न्यूज: वॉल्यूम। 3, संख्या 23}}</ref> डैनियल पॉवर्स कहते हैं:<ref name="dss" />


<blockquote>1992 में, [[टेराडाटा]] में एक खुदरा परामर्श समूह के प्रबंधक थॉमस ब्लिशोक और उनके कर्मचारियों ने लगभग 25 ओस्को ड्रग स्टोर से 1.2 मिलियन मार्केट बास्केट का विश्लेषण तैयार किया। एफ़िनिटी की पहचान करने के लिए डेटाबेस क्वेरीज़ विकसित की गईं। विश्लेषण से पता चला कि शाम 5:00 से 7:00 बजे के बीच। कि उपभोक्ताओं ने बीयर और डायपर खरीदे। ओस्को के प्रबंधकों ने बियर और डायपर के बीच संबंध को अलमारियों पर उत्पादों को पास-पास ले जाकर नहीं भुनाया।</blockquote>
<blockquote>1992 में, [[टेराडाटा]] में एक खुदरा परामर्श समूह के प्रबंधक थॉमस ब्लिशोक और उनके कर्मचारियों ने लगभग 25 ओस्को ड्रग स्टोर से 1.2 मिलियन मार्केट बास्केट का विश्लेषण तैयार किया। एफ़िनिटी की पहचान करने के लिए डेटाबेस क्वेरीज़ विकसित की गईं। विश्लेषण से पता चला कि शाम 5:00 से 7:00 बजे के बीच उपभोक्ताओं ने बीयर और डायपर खरीदे। ओस्को (Osco) के प्रबंधकों ने बियर और डायपर के बीच संबंधों का शोषण नहीं किया, उत्पादों को अलमारियों पर एक साथ रखकर।</blockquote>


== अन्य प्रकार के संघ नियम खनन ==
== अन्य प्रकार के संघ नियम खनन ==


मल्टी-रिलेशनशिप एसोसिएशन रूल्स: मल्टी-रिलेशनल एसोसिएशन रूल्स (MRAR) एसोसिएशन नियम हैं जहाँ प्रत्येक आइटम में कई संबंध हो सकते हैं। ये संबंध संस्थाओं के बीच अप्रत्यक्ष संबंध का संकेत देते हैं। निम्नलिखित एमआरएआर पर विचार करें जहां पहले आइटम में तीन संबंध शामिल हैं ''लिव इन'', ''निकट'' और ''आर्द्र'': ''आर्द्र'' जलवायु प्रकार वाले शहर और 20 वर्ष से ''युवा'' भी हैं -> उनकी ''स्वास्थ्य स्थिति'' अच्छी है"। ऐसे संघ नियम RDBMS डेटा या सिमेंटिक वेब डेटा से निकाले जा सकते हैं।<ref name="MRAR: Mining Multi-Relation Association Rules">Ramezani, Reza, Mohamad Sunni
मल्टी-रिलेशनशिप एसोसिएशन रूल्स: मल्टी-रिलेशनल एसोसिएशन रूल्स (MRAR) एसोसिएशन नियम हैं जहाँ प्रत्येक आइटम में कई संबंध हो सकते हैं। ये संबंध संस्थाओं के बीच अप्रत्यक्ष संबंध का संकेत देते हैं। निम्नलिखित एमआरएआर पर विचार करें जहां पहले आइटम में तीन संबंध शामिल हैं ''लिव इन'', ''निकट'' और ''आर्द्र'': ''"जो लोग एक ऐसे स्थान पर रहते हैं जो आर्द्र जलवायु वाले शहर के पास है और 20 वर्ष से कम उम्र के हैं -> उनकी स्वास्थ्य स्थिति अच्छी है"''। ऐसे संघ नियम RDBMS डेटा या सिमेंटिक वेब डेटा से निकाले जा सकते हैं।<ref name="MRAR: Mining Multi-Relation Association Rules">Ramezani, Reza, Mohamad Sunni
ee, and Mohammad Ali Nematbakhsh; ''MRAR: Mining Multi-Relation Association Rules'', Journal of Computing and Security, 1, no. 2 (2014)</ref>
ee, and Mohammad Ali Nematbakhsh; ''MRAR: Mining Multi-Relation Association Rules'', Journal of Computing and Security, 1, no. 2 (2014)</ref>[[कंट्रास्ट सेट लर्निंग]] साहचर्य सीखने का एक रूप है। कंट्रास्ट सेट शिक्षार्थी उन नियमों का उपयोग करते हैं जो सबसेट में उनके वितरण में सार्थक रूप से भिन्न होते हैं।<ref name="webb03">{{cite conference
[[कंट्रास्ट सेट लर्निंग]] साहचर्य सीखने का एक रूप है। कंट्रास्ट सेट शिक्षार्थी उन नियमों का उपयोग करते हैं जो सबसेट में उनके वितरण में अर्थपूर्ण रूप से भिन्न होते हैं।<ref name="webb03">{{cite conference
  | author = GI Webb and S. Butler and D. Newlands
  | author = GI Webb and S. Butler and D. Newlands
  | year = 2003
  | year = 2003
Line 364: Line 374:
  }}
  }}
</ref><ref name="busy">{{cite journal |doi=10.1109/MC.2003.1244531 |title=कम्प्यूटिंग अभ्यास - बहुत व्यस्त लोगों के लिए डाटा माइनिंग|journal=Computer |volume=36 |issue=11 |pages=22–29 |year=2003 |last1=Menzies |first1=T. |last2=Ying Hu }}</ref>
</ref><ref name="busy">{{cite journal |doi=10.1109/MC.2003.1244531 |title=कम्प्यूटिंग अभ्यास - बहुत व्यस्त लोगों के लिए डाटा माइनिंग|journal=Computer |volume=36 |issue=11 |pages=22–29 |year=2003 |last1=Menzies |first1=T. |last2=Ying Hu }}</ref>
वेटेड क्लास लर्निंग साहचर्य सीखने का एक और रूप है जिसमें डेटा माइनिंग परिणामों के उपभोक्ता के लिए चिंता के एक विशेष मुद्दे पर ध्यान देने के लिए कक्षाओं को भार सौंपा जा सकता है।
वेटेड क्लास लर्निंग साहचर्य सीखने का एक और रूप है जिसमें डेटा माइनिंग परिणामों के उपभोक्ता के लिए चिंता के एक विशेष मुद्दे पर ध्यान देने के लिए कक्षाओं को भार सौंपा जा सकता है।


हाई-ऑर्डर पैटर्न डिस्कवरी हाई-ऑर्डर (पॉलीथेटिक) पैटर्न या इवेंट एसोसिएशन को पकड़ने की सुविधा प्रदान करती है जो जटिल वास्तविक दुनिया डेटा के लिए आंतरिक हैं।
हाई-ऑर्डर पैटर्न डिस्कवरी हाई-ऑर्डर (पॉलीथेटिक) पैटर्न या इवेंट एसोसिएशन को पकड़ने की सुविधा प्रदान करती है जो जटिल वास्तविक दुनिया डेटा के लिए आंतरिक हैं।
<ref name="discovere">{{cite journal |doi=10.1109/69.649314 |title=असतत-मूल्यवान डेटा से उच्च-क्रम पैटर्न की खोज|journal=IEEE Transactions on Knowledge and Data Engineering |volume=9 |issue=6 |pages=877–893 |year=1997 |last1=Wong |first1=A.K.C. |last2=Yang Wang |citeseerx=10.1.1.189.1704 }}</ref>
<ref name="discovere">{{cite journal |doi=10.1109/69.649314 |title=असतत-मूल्यवान डेटा से उच्च-क्रम पैटर्न की खोज|journal=IEEE Transactions on Knowledge and Data Engineering |volume=9 |issue=6 |pages=877–893 |year=1997 |last1=Wong |first1=A.K.C. |last2=Yang Wang |citeseerx=10.1.1.189.1704 }}</ref>
[[के-इष्टतम पैटर्न खोज]] एसोसिएशन नियम सीखने के लिए मानक दृष्टिकोण का एक विकल्प प्रदान करता है जिसके लिए आवश्यक है कि प्रत्येक पैटर्न डेटा में बार-बार दिखाई दे।
 
[[के-इष्टतम पैटर्न खोज|के-ऑप्टिमल पैटर्न डिस्कवरी]] एसोसिएशन नियम सीखने के लिए मानक दृष्टिकोण का एक विकल्प प्रदान करता है जिसके लिए आवश्यक है कि प्रत्येक पैटर्न डेटा में बार-बार दिखाई दे।


अनुमानित फ़्रीक्वेंट आइटमसेट माइनिंग फ़्रीक्वेंट आइटमसेट माइनिंग का एक आरामदेह संस्करण है जो कुछ पंक्तियों में कुछ आइटमों को 0 होने की अनुमति देता है।<ref>{{cite book |doi=10.1137/1.9781611972764.36 |chapter=Mining Approximate Frequent Itemsets in the Presence of Noise: Algorithm and Analysis |title=डाटा माइनिंग पर 2006 SIAM अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|pages=407–418 |year=2006 |last1=Liu |first1=Jinze |last2=Paulsen |first2=Susan |last3=Sun |first3=Xing |last4=Wang |first4=Wei |last5=Nobel |first5=Andrew |last6=Prins |first6=Jan |isbn=978-0-89871-611-5 |citeseerx=10.1.1.215.3599 }}</ref>
अनुमानित फ़्रीक्वेंट आइटमसेट माइनिंग फ़्रीक्वेंट आइटमसेट माइनिंग का एक आरामदेह संस्करण है जो कुछ पंक्तियों में कुछ आइटमों को 0 होने की अनुमति देता है।<ref>{{cite book |doi=10.1137/1.9781611972764.36 |chapter=Mining Approximate Frequent Itemsets in the Presence of Noise: Algorithm and Analysis |title=डाटा माइनिंग पर 2006 SIAM अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|pages=407–418 |year=2006 |last1=Liu |first1=Jinze |last2=Paulsen |first2=Susan |last3=Sun |first3=Xing |last4=Wang |first4=Wei |last5=Nobel |first5=Andrew |last6=Prins |first6=Jan |isbn=978-0-89871-611-5 |citeseerx=10.1.1.215.3599 }}</ref>
Line 377: Line 389:
इंटरवल डेटा एसोसिएशन नियम उदा। उम्र को 5 साल में बांट कर इन्क्रीमेंट किया गया
इंटरवल डेटा एसोसिएशन नियम उदा। उम्र को 5 साल में बांट कर इन्क्रीमेंट किया गया


[[अनुक्रमिक पैटर्न खनन]] उन परवर्ती का पता लगाता है जो मिनसअप से अधिक के लिए सामान्य हैं{{clarify|What is minsup?|date=October 2019}} अनुक्रम डेटाबेस में अनुक्रम, जहां minsup उपयोगकर्ता द्वारा निर्धारित किया जाता है। एक अनुक्रम लेन-देन की एक आदेशित सूची है।<ref name="sequence">Zaki, Mohammed J. (2001); ''SPADE: An Efficient Algorithm for Mining Frequent Sequences'', Machine Learning Journal, 42, pp. 31–60</ref>
[[अनुक्रमिक पैटर्न खनन]] उन परवर्ती का पता लगाता है जो {{clarify|What is minsup?|date=October 2019}} अनुक्रम डेटाबेस में अनुक्रम जहां मिनसअप उपयोगकर्ता द्वारा निर्धारित किया जाता है। अनुक्रम लेन-देन की एक क्रमबद्ध सूची है।<ref name="sequence">Zaki, Mohammed J. (2001); ''SPADE: An Efficient Algorithm for Mining Frequent Sequences'', Machine Learning Journal, 42, pp. 31–60</ref>
सबस्पेस क्लस्टरिंग, एक विशिष्ट प्रकार का [[क्लस्टरिंग उच्च-आयामी डेटा]], विशिष्ट क्लस्टरिंग मॉडल के लिए डाउनवर्ड-क्लोजर प्रॉपर्टी के आधार पर कई रूपों में भी है।<ref name="ZimekAssent2014">{{cite book|last1=Zimek|first1=Arthur|title=बार-बार पैटर्न खनन|last2=Assent|first2=Ira|last3=Vreeken|first3=Jilles|year=2014|pages=403–423|doi=10.1007/978-3-319-07821-2_16|isbn=978-3-319-07820-5}}</ref>
 
सबस्पेस क्लस्टरिंग, एक विशिष्ट प्रकार का [[क्लस्टरिंग उच्च-आयामी डेटा]], विशिष्ट क्लस्टरिंग मॉडल के लिए डाउनवर्ड-क्लोजर प्रॉपर्टी के कई रूपों में आधारित है।<ref name="ZimekAssent2014">{{cite book|last1=Zimek|first1=Arthur|title=बार-बार पैटर्न खनन|last2=Assent|first2=Ira|last3=Vreeken|first3=Jilles|year=2014|pages=403–423|doi=10.1007/978-3-319-07821-2_16|isbn=978-3-319-07820-5}}</ref>
 
वार्मर को एसीई डाटा माइनिंग सूट के हिस्से के रूप में भेज दिया गया है। यह पहले क्रम के संबंधपरक नियमों के लिए संघ नियम सीखने की अनुमति देता है।<ref>{{cite journal | pmid = 11272703 | volume=15 | issue=2 | title=वार्मर: रासायनिक डेटा के लिए एक डेटा माइनिंग टूल।| date=Feb 2001 | journal=J Comput Aided Mol Des | pages=173–81| last1=King | first1=R. D. | last2=Srinivasan | first2=A. | last3=Dehaspe | first3=L. | bibcode=2001JCAMD..15..173K | doi=10.1023/A:1008171016861 | s2cid=3055046 }}</ref>
वार्मर को एसीई डाटा माइनिंग सूट के हिस्से के रूप में भेज दिया गया है। यह पहले क्रम के संबंधपरक नियमों के लिए संघ नियम सीखने की अनुमति देता है।<ref>{{cite journal | pmid = 11272703 | volume=15 | issue=2 | title=वार्मर: रासायनिक डेटा के लिए एक डेटा माइनिंग टूल।| date=Feb 2001 | journal=J Comput Aided Mol Des | pages=173–81| last1=King | first1=R. D. | last2=Srinivasan | first2=A. | last3=Dehaspe | first3=L. | bibcode=2001JCAMD..15..173K | doi=10.1023/A:1008171016861 | s2cid=3055046 }}</ref>




Line 418: Line 433:
श्रेणी:डेटा खनन
श्रेणी:डेटा खनन


 
[[Category:All articles with unsourced statements|Association Rule Learning]]
[[Category: Machine Translated Page]]
[[Category:Articles prone to spam from February 2016|Association Rule Learning]]
[[Category:Created On 05/12/2022]]
[[Category:Articles with invalid date parameter in template|Association Rule Learning]]
[[Category:Articles with short description|Association Rule Learning]]
[[Category:Articles with unsourced statements from March 2021|Association Rule Learning]]
[[Category:CS1]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 errors]]
[[Category:CS1 français-language sources (fr)]]
[[Category:CS1 maint]]
[[Category:CS1 Ελληνικά-language sources (el)]]
[[Category:Citation Style 1 templates|W]]
[[Category:Collapse templates]]
[[Category:Created On 05/12/2022|Association Rule Learning]]
[[Category:Machine Translated Page|Association Rule Learning]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors|Association Rule Learning]]
[[Category:Short description with empty Wikidata description|Association Rule Learning]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Association Rule Learning]]
[[Category:Templates based on the Citation/CS1 Lua module]]
[[Category:Templates generating COinS|Cite web]]
[[Category:Templates generating microformats]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates used by AutoWikiBrowser|Cite web]]
[[Category:Templates using TemplateData]]
[[Category:Webarchive template wayback links]]
[[Category:Wikipedia articles needing clarification from October 2019|Association Rule Learning]]
[[Category:Wikipedia articles needing page number citations from January 2019]]
[[Category:Wikipedia fully protected templates|Cite web]]
[[Category:Wikipedia metatemplates]]

Latest revision as of 14:58, 24 August 2023

नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए संघ नियम सीखना (एसोसिएशन रूल लर्निंग) एक नियम-आधारित यंत्र अधिगम विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है।[1] विभिन्न मदों के साथ किसी दिए गए लेन-देन में, संघ (एसोसिएशन) नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।

मजबूत नियमों की अवधारणा के आधार पर राकेश अग्रवाल (कंप्यूटर वैज्ञानिक), टॉमाज़ इमेलिंस्की और अरुण स्वामी[2] सुपरमार्केट में बिक्री केन्द्र (POS) सिस्टम द्वारा अभिलेख किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए संगठन नियम पेश किए। उदाहरण के लिए, नियम एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार मूल्य निर्धारण या उत्पाद लगाने की क्रिया (प्लेसमेंट)।

उपरोक्त उदाहरण के अलावा बाजार टोकरी विश्लेषण संघ के नियम आज वेब उपयोग खनन, अनुचित हस्तक्षेप, निरंतर उत्पादन और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। अनुक्रम खनन (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।

संगठन (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।[3]


परिभाषा

डेटासेट के आइटमसेट X और Y के बीच जुड़ाव दिखाने के लिए एक वेन आरेख। आइटम X वाले सभी लेन-देन सर्कल के सफेद, बाएं हिस्से में स्थित हैं, जबकि Y वाले लाल रंग और दाईं ओर हैं। X और Y दोनों वाले कोई भी लेन-देन मध्य में स्थित होते हैं और गुलाबी रंग के होते हैं। इस ग्राफ से जानकारी को दर्शाने के लिए कई अवधारणाओं का उपयोग किया जा सकता है। उदाहरण के लिए, यदि कोई सभी लेन-देन को गुलाबी खंड में लेता है और उन्हें लेनदेन की कुल राशि से विभाजित करता है (लेन-देन में X (सफेद) + लेन-देन जिसमें Y (लाल) होता है), तो आउटपुट को समर्थन के रूप में जाना जाएगा। विश्वास के रूप में जानी जाने वाली विधि का परिणाम प्राप्त करने का एक उदाहरण, कोई भी सभी लेन-देन को बीच में (गुलाबी) ले सकता है और उन्हें उन सभी लेनदेन से विभाजित कर सकता है जिनमें Y (लाल और गुलाबी) होता है। इस स्थिति में, Y पूर्ववर्ती है और X परिणामी है।

अग्रवाल, इमिलिंस्की, स्वामी द्वारा मूल परिभाषा के बाद[2]संघ नियम खनन की समस्या को इस प्रकार परिभाषित किया गया है:

होने देना का एक सेट हो बाइनरी गुण आइटम कहा जाता है।

होने देना लेन-देन का एक सेट जिसे डेटाबेस कहा जाता है।

प्रत्येक लेन-देन में एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है .

एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:

, जहाँ पे .

अग्रवाल, इमिलिंस्की, स्वामी में[2]एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, के लिये .

प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है तथा जहाँ पे पूर्ववर्ती या बाएं हाथ की ओर (LHS) और परिणामी या दाहिनी ओर (RHS) कहा जाता है। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन को अक्सर तब के रुप में पढ़ा जाता है, जहां पूर्ववर्ती () और परिणामी () है। इसका तात्पर्य यह है कि सिद्धांत रूप में जब भी डेटासेट में होता है तब भी होगा।

प्रक्रिया

एसोसिएशन के नियम बार -बार if-then पैटर्न के लिए डेटा खोज कर और समर्थन और विश्वास के तहत एक निश्चित मानदंड का उपयोग करके सबसे महत्वपूर्ण रिश्ते क्या हैं, इसे परिभाषित करने के लिए बनाए जाते हैं। समर्थन इस बात का प्रमाण है कि दिए गए डेटा में कोई वस्तु कितनी बार दिखाई देती है, क्योंकि विश्वास को परिभाषित किया जाता है कि कितनी बार if-then कथन सत्य पाए जाते हैं। हालाँकि, एक तीसरा मानदंड है जिसका उपयोग किया जा सकता है, इसे लिफ्ट कहा जाता है और इसका उपयोग अपेक्षित आत्मविश्वास और वास्तविक आत्मविश्वास की तुलना करने के लिए किया जा सकता है। लिफ़्ट यह दर्शाएगा कि if-then कथन के सत्य होने की कितनी बार अपेक्षा की जाती है।

एसोसिएशन के नियम आइटम सेट से गणना करने के लिए बनाए जाते हैं, जो दो या दो से अधिक आइटम द्वारा बनाए जाते हैं। यदि डेटा से सभी संभावित आइटमसेट के विश्लेषण से नियम बनाए गए होते तो इतने सारे नियम होते कि उनका कोई अर्थ नहीं होता। यही कारण है कि एसोसिएशन के नियम आम तौर पर उन नियमों से बनाए जाते हैं जो डेटा द्वारा अच्छी तरह से दर्शाए जाते हैं।

कई अलग-अलग डेटा खनन तकनीकें हैं जिनका उपयोग आप कुछ विश्लेषणों और परिणामों को खोजने के लिए कर सकते हैं, उदाहरण के लिए वर्गीकरण विश्लेषण, क्लस्टरिंग विश्लेषण और प्रतिगमन विश्लेषण है।[4] आपको किस तकनीक का उपयोग करना चाहिए यह इस बात पर निर्भर करता है कि आप अपने डेटा के साथ क्या खोज रहे हैं। एसोसिएशन के नियमों का मुख्य रूप से विश्लेषणविद्या (एनालिटिक्स) खोजने और ग्राहक व्यवहार की भविष्यवाणी करने के लिए उपयोग किया जाता है। वर्गीकरण विश्लेषण के लिए, सबसे अधिक इसका उपयोग प्रश्न पूछने, निर्णय लेने और व्यवहार की भविष्यवाणी करने के लिए किया जाएगा।[5] क्लस्टरिंग विश्लेषण का मुख्य रूप से उपयोग तब किया जाता है जब डेटा के भीतर संभावित संबंधों के बारे में कोई अनुमान नहीं लगाया जाता है।[5]प्रतिगमन विश्लेषण का उपयोग तब किया जाता है जब आप कई स्वतंत्र चरों से निरंतर आश्रित के मूल्य की भविष्यवाणी करना चाहते हैं।[5]

फ़ायदे

एसोसिएशन के नियमों का उपयोग करने के कई लाभ हैं जैसे पैटर्न ढूंढना जो डेटा सेट के बीच सहसंबंधों और सह-घटनाओं को समझने में मदद करता है। एसोसिएशन के नियमों का उपयोग करने वाला एक बहुत अच्छा वास्तविक दुनिया का उदाहरण दवा होगा। चिकित्सा रोगियों के निदान में मदद करने के लिए एसोसिएशन के नियमों का उपयोग करती है। रोगियों का निदान करते समय विचार करने के लिए कई चर होते हैं क्योंकि कई रोग समान लक्षण साझा करेंगे। एसोसिएशन के नियमों के उपयोग के साथ, डॉक्टर पिछले मामलों से लक्षण संबंधों की तुलना करके बीमारी की सशर्त संभावना निर्धारित कर सकते हैं।[6]

पतन

हालाँकि, एसोसिएशन के नियम भी कई अलग-अलग गिरावटों का कारण बनते हैं जैसे कि खनन एल्गोरिथम के लिए उपयुक्त पैरामीटर और थ्रेसहोल्ड सेटिंग्स खोजना। लेकिन बड़ी संख्या में खोजे गए नियमों का पतन भी है। इसका कारण यह है कि यह इस बात की गारंटी नहीं देता है कि नियम प्रासंगिक पाए जाएंगे, लेकिन इससे एल्गोरिथम का प्रदर्शन कम हो सकता है। कभी-कभी कार्यान्वित एल्गोरिदम में बहुत अधिक चर और पैरामीटर होते हैं। जिन लोगों के पास डेटा माइनिंग की अच्छी अवधारणा नहीं है, उनके लिए इसे समझने में परेशानी हो सकती है।[7]

थ्रेशोल्ड

फ़्रीक्वेंट आइटमसेट जाली, जहाँ बॉक्स का रंग इंगित करता है कि कितने लेन-देन में आइटम का संयोजन है। ध्यान दें कि जाली के निचले स्तरों में उनके मूल वस्तुओं की न्यूनतम संख्या हो सकती है; उदा. {एसी} में अधिकतम आइटम हो सकते हैं। इसे डाउनवर्ड-क्लोजर प्रॉपर्टी कहा जाता है।[2]

एसोसिएशन के नियमों का उपयोग करते समय, आप केवल समर्थन और विश्वास का उपयोग करने की सबसे अधिक संभावना रखते हैं। हालांकि, इसका मतलब है कि आपको एक ही समय में उपयोगकर्ता-निर्दिष्ट न्यूनतम समर्थन और उपयोगकर्ता-निर्दिष्ट न्यूनतम विश्वास को पूरा करना होगा। आम तौर पर, एसोसिएशन नियम जनरेशन को दो अलग-अलग चरणों में विभाजित किया जाता है जिन्हें लागू करने की आवश्यकता होती है:

  1. डेटाबेस में मौजूद सभी लगातार आइटम्स को खोजने के लिए एक न्यूनतम समर्थन सीमा।
  2. नियम बनाने के लिए बार-बार मिलने वाले आइटमसेट के लिए न्यूनतम कॉन्फिडेंस थ्रेशोल्ड।
तालिका 1. समर्थन और विश्वास के लिए दहलीज का उदाहरण।
सामान सहायता आत्मविश्वास सामान सहायता आत्मविश्वास
आइटम ए 30% 50% आइटम सी 45% 55%
आइटम बी 15% 25% आइटम ए 30% 50%
आइटम सी 45% 55% आइटम डी 35% 40%
आइटम डी 35% 40% आइटम बी 15% 25%

सपोर्ट थ्रेशोल्ड 30% है, कॉन्फिडेंस थ्रेशोल्ड 50% है

बाईं ओर की तालिका मूल असंगठित डेटा है और दाईं ओर की तालिका थ्रेसहोल्ड द्वारा व्यवस्थित है। इस मामले में आइटम सी समर्थन और विश्वास दोनों के लिए दहलीज से बेहतर है, यही कारण है कि यह पहले है। आइटम ए दूसरे स्थान पर है क्योंकि इसकी दहलीज मान हाजिर हैं। आइटम डी ने समर्थन की सीमा को पूरा किया है, लेकिन विश्वास के लिए नहीं। आइटम बी ने समर्थन या विश्वास के लिए सीमा को पूरा नहीं किया है और यही कारण है कि यह अंतिम है।

डेटाबेस में सभी बार-बार आने वाले आइटम्स को ढूंढना आसान काम नहीं है क्योंकि इसमें सभी संभावित आइटम्स से सभी संभावित आइटम संयोजनों को खोजने के लिए सभी डेटा के माध्यम से जाना शामिल है। संभावित आइटमसेट का सेट सत्ता स्थापित I पर सेट की गई शक्ति है और इसका आकार हैं, निश्चित रूप से इसका मतलब खाली सेट को बाहर करना है जो वैध आइटमसेट नहीं माना जाता है। हालांकि, पावर सेट का आकार आइटम n की संख्या में तेजी से बढ़ेगा जो कि पावर सेट I के भीतर है। समर्थन की डाउनवर्ड-क्लोजर प्रॉपर्टी का उपयोग करके एक कुशल खोज संभव है[2][8] (जिसे एंटी-मोनोटोनिसिटी भी कहा जाता है[9]). यह इस बात की गारंटी देता है कि लगातार आइटमसेट और उसके सभी सबसेट भी अक्सर होते हैं और इस प्रकार बारंबार आइटमसेट के सबसेट के रूप में कोई दुर्लभ आइटमसेट नहीं होगा। इस संपत्ति का शोषण, कुशल एल्गोरिदम (जैसे एप्रीओरी[10] और एक्लाट[11]) सभी लगातार आइटम सेट पा सकते हैं।

उपयोगी अवधारणाएँ

तालिका 2. उदाहरण डेटाबेस 5 लेनदेन और 5 आइटम के साथ
लेन-देन आईडी दूध रोटी मक्खन बीयर डायपर अंडे फल
1 1 1 0 0 0 0 1
2 0 0 1 0 0 1 1
3 0 0 0 1 1 0 0
4 1 1 1 0 0 1 1
5 0 1 0 0 0 0 0

अवधारणाओं को स्पष्ट करने के लिए, हम सुपरमार्केट डोमेन से एक छोटे से उदाहरण का उपयोग करते हैं। तालिका 2 एक छोटा डेटाबेस दिखाता है जिसमें आइटम होते हैं, जहां प्रत्येक प्रविष्टि में, मान 1 का मतलब संबंधित लेनदेन में आइटम की उपस्थिति होता है, और मान 0 उस लेनदेन में किसी आइटम की अनुपस्थिति का प्रतिनिधित्व करता है। वस्तुओं (आइटम्स) का सेट है .

सुपरमार्केट के लिए एक उदाहरण नियम हो सकता है मतलब अगर मक्खन और ब्रेड खरीदा जाता है तो ग्राहक दूध भी खरीदते हैं।

सभी संभावित नियमों के सेट से दिलचस्प नियमों का चयन करने के लिए, महत्व और रुचि के विभिन्न उपायों पर प्रतिबंध का उपयोग किया जाता है। सबसे प्रसिद्ध बाधाएँ समर्थन और विश्वास पर न्यूनतम सीमाएँ हैं।

माना आइटम सेट हो, एक एसोसिएशन नियम और T किसी दिए गए डेटाबेस के लेनदेन का एक सेट हैं।

नोट: यह उदाहरण अत्यंत छोटा है। व्यावहारिक अनुप्रयोगों में, एक नियम को सांख्यिकीय रूप से महत्वपूर्ण माने जाने से पहले कई सौ लेन-देन के समर्थन की आवश्यकता होती है[citation needed] और डेटासेट में अक्सर हजारों या लाखों लेन-देन होते हैं।

समर्थन

समर्थन इस बात का संकेत है कि डेटासेट में आइटमसेट कितनी बार दिखाई देता है।

हमारे उदाहरण में, लिखित रूप से समर्थन की व्याख्या करना आसान हो सकता है [12] जहां ए और बी अलग-अलग आइटम सेट होते हैं जो लेनदेन में एक ही समय में होते हैं।

एक उदाहरण के रूप में तालिका 2 का उपयोग करते हुए, आइटमसेट का सहारा है चूंकि यह सभी लेनदेन के 20% (5 में से 1 लेनदेन) में होता है। एक्स के समर्थन का तर्क पूर्व शर्तों का एक सेट है और इस प्रकार अधिक प्रतिबंधात्मक हो जाता है क्योंकि यह बढ़ता है (अधिक समावेशी के बजाय)।[13]

इसके अलावा, आइटमसेट का सहारा है जैसा कि यह सभी लेनदेन के 20% में भी दिखाई देता है।

पूर्ववर्ती और परिणाम का उपयोग करते समय यह एक डेटा माइनर को पूरे डेटा सेट की तुलना में एक साथ खरीदे जाने वाले कई आइटमों के समर्थन को निर्धारित करने की अनुमति देता है। उदाहरण के लिए, तालिका 2 दर्शाती है कि यदि दूध खरीदा जाता है तो खरीदी गई ब्रेड को 0.4 या 40% का समर्थन प्राप्त होता है। ऐसा इसलिए क्योंकि 5 में से 2 ट्रांजैक्शन में दूध और ब्रेड दोनों ही खरीदे जाते हैं। इस उदाहरण जैसे छोटे डेटा सेट में कुछ नमूने होने पर मजबूत सहसंबंध देखना कठिन होता है लेकिन जब डेटा सेट बड़ा हो जाता है, तो सुपरमार्केट उदाहरण में दो या दो से अधिक उत्पादों के बीच सहसंबंध खोजने के लिए समर्थन का उपयोग किया जा सकता है।

न्यूनतम समर्थन थ्रेसहोल्ड यह निर्धारित करने के लिए उपयोगी है कि कौन से आइटम सेट पसंद किए जाते हैं या दिलचस्प हैं।

यदि हम तालिका 3 में समर्थन सीमा को ≥0.4 पर सेट करते हैं, तो हटा दिया जाएगा क्योंकि यह 0.4 की न्यूनतम सीमा को पूरा नहीं करता था। न्यूनतम दहलीज का उपयोग उन नमूनों को हटाने के लिए किया जाता है जहां डेटासेट में नमूने को महत्वपूर्ण या दिलचस्प मानने के लिए पर्याप्त मजबूत समर्थन या विश्वास नहीं है।

दिलचस्प नमूने खोजने का एक और तरीका है (समर्थन) एक्स (आत्मविश्वास); यह एक डेटा माइनर को उन नमूनों को देखने की अनुमति देता है जहां डेटासेट में हाइलाइट किए जाने के लिए समर्थन और आत्मविश्वास काफी अधिक है और वस्तुओं के बीच संबंध के बारे में अधिक जानकारी प्राप्त करने के लिए नमूने को करीब से देखने का संकेत देता है।

संपूर्ण डेटासेट की तुलना में उत्पादों के बीच संबंध खोजने के लिए समर्थन फायदेमंद हो सकता है, जबकि विश्वास एक या अधिक वस्तुओं और अन्य वस्तुओं के बीच संबंध को देखता है। नीचे एक तालिका है जो आत्मविश्वास मूल्यों को प्राप्त करने के लिए तालिका 4 से जानकारी का उपयोग करके समर्थन और समर्थन x विश्वास के बीच तुलना और विपरीतता दिखाती है।

तालिका 3. समर्थन का उदाहरण, और X विश्वास का समर्थन करें
यदि पूर्ववर्ती तो परिणामी सहयोग एक्स विश्वास का समर्थन करें
दूध खरीदो तो रोटी खरीदो 2/5 = 0.4 0.4X1.0= 0.4
दूध खरीदो, तो अंडे खरीदो 1/5 = 0.2 0.2X0.5= 0.1
रोटी खरीदो, तो फल खरीदो 2/5 = 0.4 0.4X0.66= 0.264
फल खरीदो तो अंडे खरीदो 2/5 = 0.4 0.4X0.66= 0.264
दूध रोटी खरीदो तो फल खरीदो 2/5 = 0.4 0.4X1.0= 0.4

का समर्थन X इसके संबंध में T डेटासेट में लेन-देन के अनुपात के रूप में परिभाषित किया गया है जिसमें आइटमसेट मौजूद हैं X द्वारा लेन-देन को अस्वीकार करना जहाँ पे i लेन-देन की विशिष्ट पहचानकर्ता है और t इसका आइटमसेट है, समर्थन को इस प्रकार लिखा जा सकता है:

अधिक जटिल डेटासेट को परिभाषित करते समय इस संकेतन का उपयोग किया जा सकता है जहां आइटम और आइटमसेट ऊपर हमारे सुपरमार्केट उदाहरण के रूप में आसान नहीं हो सकते हैं। अन्य उदाहरण जहाँ समर्थन का उपयोग किया जा सकता है, आनुवंशिक उत्परिवर्तन के समूहों को खोजने में है जो एक बीमारी का कारण बनने के लिए सामूहिक रूप से काम करते हैं, उन ग्राहकों की संख्या की जांच करते हैं जो अपग्रेड ऑफ़र का जवाब देते हैं, और यह पता लगाते हैं कि किसी दवा की दुकान में कौन से उत्पाद कभी एक साथ नहीं खरीदे जाते हैं।[12]


आत्मविश्वास

विश्वास सभी लेन-देन के का प्रतिशत है जो X को संतुष्ट करता है जो Y को भी संतुष्ट करता है।[14]

इसके संबंध में T एक संघ नियम का विश्वास मूल्य है, जिसे अक्सर के रूप में निरूपित किया जाता हैं, मौजूद X मानों की कुल राशि के लिए X तथा Y दोनों लेनदेन का अनुपात है, जहां X पूर्ववर्ती है और Y परिणामी है।

कॉन्फिडेंस की व्याख्या सशर्त संभाव्यता के अनुमान के रूप में समझा जा सकता है , लेन-देन में नियम के आरएचएस को खोजने की संभावना इस शर्त के तहत है कि इन लेनदेन में एलएचएस भी शामिल है।[13][15]

इसे आमतौर पर इस रूप में दर्शाया गया है:

समीकरण दर्शाता है कि केवल X वाले लेनदेन के अनुपात में डेटासेट के भीतर लेन-देन X और Y की सह-घटना की गणना करके विश्वास की गणना की जा सकती है। इसका मतलब है कि X और Y दोनों में लेन-देन की संख्या को केवल X में उन लोगों द्वारा विभाजित किया गया है।

उदाहरण के लिए, तालिका 2 नियम दिखाता है जिसमें डेटासेट में, जो दर्शाता है कि हर बार जब कोई ग्राहक मक्खन और ब्रेड खरीदता है तो वे दूध भी खरीदते हैं। यह विशेष उदाहरण मक्खन और ब्रेड दोनों वाले लेनदेन के लिए नियम को 100% सही होने का प्रदर्शन करता है। नियम का आत्मविश्वास है , इससे पता चलता है कि फल लाए जाने के 67% बार अंडे खरीदे जाते हैं। इस विशेष डेटासेट के भीतर फलों को कुल 3 बार खरीदा जाता है, जिसमें से दो बार अंडे की खरीदारी होती है।

बड़े डेटासेट के लिए, न्यूनतम सीमा, या प्रतिशत कटऑफ़, विश्वास के लिए आइटम संबंधों को निर्धारित करने के लिए उपयोगी हो सकता है। तालिका 2 में कुछ डेटा के लिए इस पद्धति को लागू करते समय, आवश्यकताओं को पूरा नहीं करने वाली जानकारी हटा दी जाती है। तालिका 4 एसोसिएशन नियम उदाहरण दिखाती है जहां विश्वास के लिए न्यूनतम सीमा 0.5 (50%) है। कोई भी डेटा जिसमें कम से कम 0.5 का विश्वास नहीं है, को छोड़ दिया गया है। थ्रेसहोल्ड उत्पन्न करने से वस्तुओं के बीच जुड़ाव मजबूत हो जाता है क्योंकि डेटा को सबसे अधिक सह-घटित करने पर जोर देकर आगे शोध किया जाता है। तालिका समर्थन x विश्वास कॉलम को लागू करने के लिए तालिका 3 से विश्वास जानकारी का उपयोग करती है, जहां केवल एक अवधारणा के बजाय, उनके विश्वास और समर्थन दोनों के माध्यम से वस्तुओं के बीच संबंध को हाइलाइट किया जाता है। समर्थन एक्स कॉन्फिडेंस द्वारा नियमों की रैंकिंग किसी विशेष नियम के विश्वास को उसके समर्थन से गुणा करती है और अक्सर वस्तुओं के बीच संबंधों की अधिक गहन समझ के लिए लागू की जाती है।

तालिका 4. विश्वास और समर्थन x विश्वास का उदाहरण
यदि पूर्ववर्ती तो परिणामी आत्मविश्वास समर्थन एक्स विश्वास
दूध खरीदो तो रोटी खरीदो 2/2 = 1.0 0.4X1.0= 0.4
दूध खरीदो, तो अंडे खरीदो 1/2 = 0.5 0.2X0.5= 0.1
रोटी खरीदो, तो फल खरीदो 2/3 = 0.66 0.4X0.66= 0.264
फल खरीदो तो अंडे खरीदो 2/3 = 0.66 0.4X0.66= 0.264
दूध रोटी खरीदो तो फल खरीदो 2/2 = 1.0 0.4X1.0= 0.4

कुल मिलाकर, एसोसिएशन रूल माइनिंग में विश्वास का उपयोग करना डेटा संबंधों के प्रति जागरूकता लाने का एक शानदार तरीका है। इसका सबसे बड़ा लाभ सेट के भीतर विशेष वस्तुओं के बीच एक दूसरे से संबंध को उजागर करना है, क्योंकि यह वस्तुओं की सह-घटनाओं की तुलना विशिष्ट नियम में पूर्ववर्ती की कुल घटना से करता है। हालांकि, संघ नियम खनन में हर अवधारणा के लिए विश्वास सबसे अच्छा तरीका नहीं है। इसका उपयोग करने का नुकसान यह है कि यह संघों पर एकाधिक अंतर दृष्टिकोण प्रदान नहीं करता है। समर्थन के विपरीत, उदाहरण के लिए, विश्वास संपूर्ण डेटासेट की तुलना में कुछ वस्तुओं के बीच संबंधों का परिप्रेक्ष्य प्रदान नहीं करता है, इसलिए दूध और रोटी, उदाहरण के लिए, विश्वास के लिए 100% समय हो सकता है, इसमें केवल 0.4 का समर्थन होता है (40%)। यही कारण है कि कि रिश्तों को परिभाषित करने के लिए लगातार एक अवधारणा पर निर्भर रहने के बजाय अन्य दृष्टिकोणों को देखना महत्वपूर्ण है, जैसे कि समर्थन x विश्वास।

लिफ्ट

लिफ्ट के नियम को इस प्रकार परिभाषित किया गया है:


X और Y स्वतंत्र होने पर अपेक्षित समर्थन के लिए देखे गए समर्थन का अनुपात।

उदाहरण के लिए, नियम की लिफ्ट है .

यदि नियम में 1 की वृद्धि होती है, तो इसका अर्थ यह होगा कि पूर्ववर्ती और परिणामी होने की संभावना एक दूसरे से स्वतंत्र हैं। जब दो घटनाएँ एक-दूसरे से स्वतंत्र होती हैं तो उन दो घटनाओं को शामिल करते हुए कोई नियम नहीं बनाया जा सकता।

यदि लिफ़्ट > 1 है, तो इससे हमें पता चलता है कि वे दो घटनाएँ किस हद तक एक दूसरे पर निर्भर हैं और उन नियमों को भविष्य के डेटा सेटों में परिणाम की भविष्यवाणी करने के लिए संभावित रूप से उपयोगी बनाती हैं।

यदि लिफ्ट <1 है, तो इससे हमें पता चलता है कि आइटम एक दूसरे के स्थानापन्न हैं। इसका मतलब यह है कि एक वस्तु की उपस्थिति का दूसरे वस्तु की उपस्थिति पर और इसके अलावा नकारात्मक प्रभाव पड़ता है।

लिफ़्ट का मूल्य यह है कि यह नियम के समर्थन और समग्र डेटा सेट दोनों पर विचार करता है।[13]


दोषसिद्धि

एक नियम की सजा के रूप में परिभाषित किया गया है .[16]

उदाहरण के लिए, नियम का दृढ़ विश्वास है और अपेक्षित आवृत्ति के अनुपात के रूप में व्याख्या की जा सकती है जो X बिना Y के होता है (अर्थात् वह आवृत्ति जो नियम गलत भविष्यवाणी करता है) यदि X और Y स्वतंत्र रूप से गलत भविष्यवाणियों की देखी गई आवृत्ति से विभाजित थे। इस उदाहरण में, 1.2 का दृढ़ विश्वास मूल्य दर्शाता है कि नियम यदि X और Y के बीच संबंध पूरी तरह से यादृच्छिक मौका था तो 20% अधिक बार (1.2 गुना अधिक बार) गलत होगा।

दिलचस्पता के वैकल्पिक उपाय

विश्वास के अतिरिक्त नियमों के लिए रोचकता के अन्य उपाय प्रस्तावित किए गए हैं। कुछ लोकप्रिय उपाय हैं:

  • सर्व-विश्वास[17]
  • सामूहिक शक्ति[18]
  • उत्तोलन[19]

कई उपाय और उनकी तुलना [20] टैन एट अल और हस्लर द्वारा प्रस्तुत किए गए हैं। [21] ऐसी तकनीकों की तलाश करना जो उपयोगकर्ता को ज्ञात हो (और इन मॉडलों को दिलचस्प उपायों के रूप में उपयोग करना) वर्तमान में "व्यक्तिपरक दिलचस्पता" (सब्जेक्टिव इंटरेस्टिंग) के नाम से एक सक्रिय शोध प्रवृत्ति है।

इतिहास

एसोसिएशन नियमों की अवधारणा विशेष रूप से अग्रवाल एट अल के 1993 के लेख के कारण लोकप्रिय हुई थी।[2]जिसने अप्रैल 2021 तक गूगल (Google) विद्वान के अनुसार 23,790 से अधिक उद्धरण प्राप्त किए हैं और इस प्रकार यह डेटा खनन क्षेत्र में सबसे अधिक उद्धृत पत्रों में से एक है। हालाँकि, जिसे अब एसोसिएशन नियम कहा जाता है उसे 1966 के लेख्य गुहा पर पेश किया जा चुका है जो [22] पेट्र हाजेक एट अल द्वारा विकसित एक सामान्य डेटा खनन विधि हैं।

सभी एसोसिएशन नियमों को खोजने के लिए न्यूनतम समर्थन और विश्वास का प्रारंभिक (लगभग 1989) उपयोग विशेषता आधारित नमूने की बनावट (मॉडलिंग) ढांचा है, जिसमें सभी नियम पाए गए तथा उपयोगकर्ता परिभाषित बाधाओं (यूज़र डिफ़ाइंड कंस्ट्रेंट्स) से बड़ा है।[23]


सांख्यिकीय रूप से ध्वनि संघ

संघों की खोज के लिए मानक दृष्टिकोण की एक सीमा यह है कि बड़ी संख्या में संभावित संघों की खोज करके उन वस्तुओं के संग्रह की तलाश की जा सकती है जो संबंधित प्रतीत होते हैं, कई नकली संघों को खोजने का एक बड़ा जोखिम है। ये उन वस्तुओं का संग्रह हैं जो डेटा में अप्रत्याशित आवृत्ति के साथ सह-घटित होते हैं लेकिन ऐसा केवल संयोग से होता है। उदाहरण के लिए, मान लीजिए कि हम 10,000 वस्तुओं के संग्रह पर विचार कर रहे हैं और ऐसे नियमों की तलाश कर रहे हैं जिनमें बाईं ओर दो आइटम हैं और दाईं ओर 1 आइटम है लगभग 1,000,000,000,000 ऐसे नियम हैं। यदि हम 0.05 के महत्व स्तर के साथ स्वतंत्रता के लिए एक सांख्यिकीय परीक्षण लागू करते हैं तो इसका मतलब है कि अगर कोई संबंध नहीं है तो नियम को स्वीकार करने की केवल 5% संभावना है। अगर हम मानते हैं कि कोई संबंध नहीं हैं तो भी हमें 50,000,000,000 नियम खोजने की उम्मीद करनी चाहिए। सांख्यिकीय रूप से ध्वनि संघ खोज[24][25] इस जोखिम को नियंत्रित करता है, ज्यादातर मामलों में उपयोगकर्ता द्वारा निर्दिष्ट महत्व स्तर पर किसी नकली संघों को खोजने के जोखिम को कम करता है।

एल्गोरिदम

एसोसिएशन नियम बनाने के लिए कई एल्गोरिदम प्रस्तावित किए गए हैं।

कुछ जाने-माने एल्गोरिदम एप्रीओरी एल्गोरिथम, Eclat और FP-Growth हैं, लेकिन वे केवल आधा काम करते हैं, क्योंकि वे लगातार आइटमसेट खनन के लिए एल्गोरिदम हैं। एक डेटाबेस में पाए जाने वाले लगातार आइटम्स से नियम बनाने के बाद एक और कदम उठाने की जरूरत है।

एप्रीओरी एल्गोरिथम

एप्रीओरी 1994 में आर. अग्रवाल और आर. श्रीकांत द्वारा लगातार आइटम सेट माइनिंग और एसोसिएशन रूल लर्निंग के लिए दिया जाता है। यह डेटाबेस में लगातार अलग-अलग आइटमों की पहचान करके आगे बढ़ता है और उन्हें बड़े और बड़े आइटम सेटों तक विस्तारित करता है, जब तक वे आइटम सेट पर्याप्त रूप से दिखाई देते हैं। एल्गोरिद्म का नाम Apriori है क्योंकि यह लगातार आइटमसेट गुणों के पूर्व ज्ञान का उपयोग करता है।

एप्रियोरी एल्गोरिथम के लिए नियंत्रण प्रवाह आरेख

अवलोकन: एप्रीओरी एल्गोरिथ्म "नीचे ऊपर" (बॉटम अप) दृष्टिकोण का उपयोग करता है, जहां लगातार सबसेट एक समय में एक आइटम (उम्मीदवार पीढ़ी के रूप में जाना जाने वाला एक कदम) बढ़ाया जाता है और डेटा के खिलाफ उम्मीदवारों के समूहों का परीक्षण किया जाता है। एल्गोरिथम समाप्त हो जाता है जब कोई और सफल एक्सटेंशन नहीं मिलता है। Apriori उम्मीदवार आइटम सेट को कुशलता से गिनने के लिए चौड़ाई-पहली खोज" (breadth-first search) और हैश ट्री (Hass tree structure) संरचना का उपयोग करता है। यह लंबाई के आइटम सेट से लंबाई के उम्मीदवार आइटम सेट उत्पन्न करता है। फिर यह उन उम्मीदवारों की छँटाई करता है जिनके उप-पैटर्न कम होते हैं। डाउनवर्ड क्लोजर लेम्मा के अनुसार, कैंडिडेट सेट में सभी फ़्रीक्वेंट-लेंथ आइटम सेट होते हैं। उसके बाद, यह उम्मीदवारों के बीच लगातार आइटम सेट निर्धारित करने के लिए लेन-देन डेटाबेस को स्कैन करता है।

उदाहरण: मान लें कि प्रत्येक पंक्ति एक कैंसर का नमूना है जिसमें वर्णमाला में एक वर्ण द्वारा लेबल किए गए म्यूटेशन का एक निश्चित संयोजन है। उदाहरण के लिए एक पंक्ति में {ए, सी} हो सकता है जिसका अर्थ है कि यह उत्परिवर्तन 'ए' और उत्परिवर्तन 'सी' से प्रभावित है।

इनपुट सेट
{a, b} {c, d} {a, d} {a, e} {b, d} {a, b, d} {a, c, d} {a, b, c, d}

अब हम प्रत्येक वर्ण की घटनाओं की संख्या की गणना करके लगातार आइटम सेट उत्पन्न करेंगे। इसे समर्थन मूल्य खोजने के रूप में भी जाना जाता है। फिर हम एक न्यूनतम समर्थन सीमा चुनकर सेट आइटम की छँटाई करेंगे। एल्गोरिथम के इस पास के लिए हम 3 चुनेंगे।

समर्थन मूल्य
a b c d
6 4 3 6

चूंकि सभी समर्थन मूल्य तीन या उससे ऊपर हैं इसलिए कोई छंटाई नहीं है। लगातार आइटम सेट {ए}, {बी}, {सी}, और {डी} है। इसके बाद हम इनपुट सेट में म्यूटेशन के जोड़े की गिनती करके प्रक्रिया को दोहराएंगे।

समर्थन मूल्य
{a, b} {a, c} {a, d} {b, c} {b, d} {c, d}
3 2 4 1 3 4

अब हम अपना मिनिमम सपोर्ट वैल्यू 4 कर देंगे तो प्रूनिंग के बाद सिर्फ {a,d} और {c,d} ही रह जाएगा। अब हम ट्रिपलेट्स का संयोजन बनाने के लिए फ़्रीक्वेंट आइटम सेट का उपयोग करेंगे। फिर हम इनपुट सेट में म्यूटेशन के तीन गुना होने की घटनाओं की गणना करके प्रक्रिया को दोहराएंगे।

समर्थन मूल्य
{a, c, d}
2

चूंकि हमारे पास केवल एक आइटम है, चौगुनी के संयोजन का अगला सेट खाली है इसलिए एल्गोरिथ्म बंद हो जाएगा।

लाभ और सीमाएं:

Apriori की कुछ सीमाएँ हैं। उम्मीदवार पीढ़ी के परिणामस्वरूप बड़े उम्मीदवार सेट हो सकते हैं। उदाहरण के लिए एक 10^4 लगातार 1-आइटमसेट 10^7 उम्मीदवार 2-आइटमसेट उत्पन्न करेगा। एल्गोरिथम को डेटाबेस को बार-बार स्कैन करने की आवश्यकता होती है, विशिष्ट n+1 स्कैन होने के लिए जहां n सबसे लंबे पैटर्न की लंबाई है। Apriori Eclat एल्गोरिथम की तुलना में धीमा है। हालाँकि, जब डेटासेट बड़ा होता है तो Eclat की तुलना में Apriori अच्छा प्रदर्शन करता है। ऐसा इसलिए है क्योंकि Eclat एल्गोरिथम में यदि डेटासेट बहुत बड़ा है तो मेमोरी के लिए tid-सूचियाँ बहुत बड़ी हो जाती हैं। FP-ग्रोथ ने Apriori और Eclat को पीछे छोड़ दिया है। यह एफपी-ग्रोथ एल्गोरिदम के कारण एक कॉम्पैक्ट डेटा संरचना का उपयोग करके उम्मीदवार पीढ़ी या परीक्षण नहीं होने और केवल एक डेटाबेस स्कैन होने के कारण है।[26]


एक्लाट एल्गोरिथम

एक्लाट[11](alt. ECLAT, समतुल्य वर्ग परिवर्तन के लिए खड़ा है) एक बैक ट्रैकिंग एल्गोरिदम है, जो गहराई से पहली खोज (DFS) फैशन में लगातार आइटमसेट जाली ग्राफ का पता लगाता है। जबकि Apriori एल्गोरिथम में उपयोग किया जाने वाला ब्रेड्थ-फर्स्ट सर्च (BFS) ट्रैवर्सल किसी आइटमसेट के प्रत्येक सबसेट की जाँच करने से पहले उसकी जाँच करेगा, DFS ट्रैवर्सल बड़े आइटमसेट की जाँच करता है और नीचे की ओर downward closure property के आधार पर इसके कुछ सबसेट के समर्थन की जाँच करने से बचा सकता है। इसके अलावा यह लगभग निश्चित रूप से कम मेमोरी का उपयोग करेगा क्योंकि डीएफएस में बीएफएस की तुलना में कम जगह की जटिलता है।

इसे स्पष्ट करने के लिए, एक लगातार आइटमसेट {ए, बी, सी} होने दें। डीएफएस निम्नलिखित क्रम में लगातार आइटमसेट जाली में नोड्स की जांच कर सकता है: {ए} → {ए, बी} → {ए, बी, सी}, जिस बिंदु पर यह ज्ञात है कि {बी}, {सी}, { ए, सी}, {बी, सी} सभी डाउनवर्ड-क्लोजर प्रॉपर्टी द्वारा समर्थन बाधा को संतुष्ट करते हैं। बीएफएस अंत में जांच करने से पहले {ए, बी, सी} के प्रत्येक सबसेट का पता लगाएगा। जैसे-जैसे एक आइटमसेट का आकार बढ़ता है, इसके उपसमुच्चयों की संख्या संयोजी विस्फोट से गुजरती है।

यह स्थानीयता-बढ़ाने वाले गुणों के साथ अनुक्रमिक और साथ ही समानांतर निष्पादन दोनों के लिए उपयुक्त है।[27][28]


एफपी-विकास एल्गोरिथम

एफपी लगातार पैटर्न के लिए संदर्भित किया जाता है।[29]

पहले पास में, एल्गोरिथ्म लेन-देन के डेटासेट में आइटम (विशेषता-मूल्य जोड़े) की आवृत्ति की गणना करता है और इन गणनाओं को 'हेडर टेबल' में संग्रहीत करता है। दूसरे पास में, यह एफपी-ट्री स्ट्रक्चर को ट्राइ में ट्रांजेक्शन डालकर बनाता है।

प्रत्येक लेन-देन में वस्तुओं को डालने से पहले डेटासेट में उनकी आवृत्ति के अवरोही क्रम द्वारा क्रमबद्ध किया जाना चाहिए ताकि ट्री को जल्दी से संसाधित किया जा सके।

प्रत्येक लेन-देन में आइटम जो न्यूनतम समर्थन आवश्यकता को पूरा नहीं करते हैं, उन्हें छोड़ दिया जाता है। यदि कई लेन-देन सबसे अधिक बार आइटम साझा करते हैं, तो एफपी-ट्री ट्री रूट के करीब उच्च संपीड़न प्रदान करता है।

मुख्य डेटासेट के इस संकुचित संस्करण का पुनरावर्ती प्रसंस्करण उम्मीदवार वस्तुओं को उत्पन्न करने और उन्हें पूरे डेटाबेस के विरुद्ध परीक्षण करने के बजाय लगातार आइटम सेट को सीधे बढ़ाता है (जैसा कि एप्रियोरी एल्गोरिथम में)।

ग्रोथ हेडर टेबल के नीचे से शुरू होती है यानी उस आइटम में समाप्त होने वाले सभी सॉर्ट किए गए लेन-देन को ढूंढकर सबसे कम समर्थन वाला आइटम। इस आइटम को कहते हैं।

एक नया सशर्त ट्री बनाया जाता है जो मूल एफपी-ट्री पर प्रक्षेपित होता है। अनुमानित पेड़ में सभी नोड्स के समर्थन को फिर से गिना जाता है, प्रत्येक नोड को उसके बच्चों की संख्या का योग मिलता है। नोड्स (और इसलिए सबट्रीज़) जो न्यूनतम समर्थन को पूरा नहीं करते हैं, काट दिए जाते हैं। पुनरावर्ती विकास तब समाप्त होता है जब पर कोई भी व्यक्तिगत आइटम न्यूनतम समर्थन सीमा को पूरा नहीं करता है। रूट से तक परिणामी पाथ लगातार आइटमसेट होंगे। इस कदम के बाद, मूल एफपी-ट्री के अगले कम से कम समर्थित हेडर आइटम के साथ प्रसंस्करण जारी रहता है।

एक बार पुनरावर्ती प्रक्रिया पूरी हो जाने के बाद सभी लगातार आइटम सेट मिल जाएंगे और संघ (एसोसिएशन) नियम निर्माण शुरू हो जाएगा।[30]


अन्य

ASSOC

ASSOC प्रक्रिया[31] एक गुहा (GUHA) विधि है जो तेज़ बिटस्ट्रिंगसंचालन का उपयोग करके सामान्यीकृत एसोसिएशन नियमों के लिए खनन करती है। इस पद्धति द्वारा खनन किए गए संघ के नियम एप्रियोरी द्वारा उन आउटपुट की तुलना में अधिक सामान्य हैं, उदाहरण के लिए वस्तुओं का संयोजन और संयोजन दोनों के साथ जोड़ा जा सकता है पूर्ववर्ती और नियम के परिणाम के बीच संबंध न्यूनतम समर्थन और विश्वास स्थापित करने तक सीमित नहीं है जैसा कि एप्रियोरी: समर्थित ब्याज उपायों के मनमाने संयोजन का उपयोग किया जा सकता है।

ओपस खोज

ओपस (OPUS) नियम की खोज के लिए एक कार्यक्षम एल्गोरिदम है, जो कि अधिकांश विकल्पों के विपरीत, न्यूनतम समर्थन जैसे मोनोटोन या एंटी-मोनोटोन बाधाओं की आवश्यकता नहीं होती है।[32] प्रारंभ में एक निश्चित परिणाम के लिए नियम खोजने के लिए उपयोग किया जाता था[32][33] इसे बाद में परिणाम के रूप में किसी भी आइटम के साथयमों को खोजने के लिए विस्तारित किया गया था।[34] लोकप्रिय मैग्नम ओपस (OPUS) एसोसिएशन डिस्कवरी सिस्टम में ओपस खोज मुख्य तकनीक है।

विद्या

एसोसिएशन रूल माइनिंग के बारे में एक प्रसिद्ध कहानी बीयर और डायपर की कहानी है। सुपरमार्केट दुकानदारों के व्यवहार के एक कथित सर्वेक्षण में पता चला कि डायपर खरीदने वाले ग्राहक (संभवतः युवा पुरुष) भी बीयर खरीदने की प्रवृत्ति रखते हैं। यह उपाख्यान इस बात के उदाहरण के रूप में लोकप्रिय हुआ कि रोज़मर्रा के डेटा से अनपेक्षित संघ नियम कैसे पाए जा सकते हैं। कहानी में कितनी सच्चाई है इस पर अलग-अलग राय है।[35] डैनियल पॉवर्स कहते हैं:[35]

1992 में, टेराडाटा में एक खुदरा परामर्श समूह के प्रबंधक थॉमस ब्लिशोक और उनके कर्मचारियों ने लगभग 25 ओस्को ड्रग स्टोर से 1.2 मिलियन मार्केट बास्केट का विश्लेषण तैयार किया। एफ़िनिटी की पहचान करने के लिए डेटाबेस क्वेरीज़ विकसित की गईं। विश्लेषण से पता चला कि शाम 5:00 से 7:00 बजे के बीच उपभोक्ताओं ने बीयर और डायपर खरीदे। ओस्को (Osco) के प्रबंधकों ने बियर और डायपर के बीच संबंधों का शोषण नहीं किया, उत्पादों को अलमारियों पर एक साथ रखकर।

अन्य प्रकार के संघ नियम खनन

मल्टी-रिलेशनशिप एसोसिएशन रूल्स: मल्टी-रिलेशनल एसोसिएशन रूल्स (MRAR) एसोसिएशन नियम हैं जहाँ प्रत्येक आइटम में कई संबंध हो सकते हैं। ये संबंध संस्थाओं के बीच अप्रत्यक्ष संबंध का संकेत देते हैं। निम्नलिखित एमआरएआर पर विचार करें जहां पहले आइटम में तीन संबंध शामिल हैं लिव इन, निकट और आर्द्र: "जो लोग एक ऐसे स्थान पर रहते हैं जो आर्द्र जलवायु वाले शहर के पास है और 20 वर्ष से कम उम्र के हैं -> उनकी स्वास्थ्य स्थिति अच्छी है"। ऐसे संघ नियम RDBMS डेटा या सिमेंटिक वेब डेटा से निकाले जा सकते हैं।[36]कंट्रास्ट सेट लर्निंग साहचर्य सीखने का एक रूप है। कंट्रास्ट सेट शिक्षार्थी उन नियमों का उपयोग करते हैं जो सबसेट में उनके वितरण में सार्थक रूप से भिन्न होते हैं।[37][38]

वेटेड क्लास लर्निंग साहचर्य सीखने का एक और रूप है जिसमें डेटा माइनिंग परिणामों के उपभोक्ता के लिए चिंता के एक विशेष मुद्दे पर ध्यान देने के लिए कक्षाओं को भार सौंपा जा सकता है।

हाई-ऑर्डर पैटर्न डिस्कवरी हाई-ऑर्डर (पॉलीथेटिक) पैटर्न या इवेंट एसोसिएशन को पकड़ने की सुविधा प्रदान करती है जो जटिल वास्तविक दुनिया डेटा के लिए आंतरिक हैं। [39]

के-ऑप्टिमल पैटर्न डिस्कवरी एसोसिएशन नियम सीखने के लिए मानक दृष्टिकोण का एक विकल्प प्रदान करता है जिसके लिए आवश्यक है कि प्रत्येक पैटर्न डेटा में बार-बार दिखाई दे।

अनुमानित फ़्रीक्वेंट आइटमसेट माइनिंग फ़्रीक्वेंट आइटमसेट माइनिंग का एक आरामदेह संस्करण है जो कुछ पंक्तियों में कुछ आइटमों को 0 होने की अनुमति देता है।[40] सामान्यीकृत एसोसिएशन नियम पदानुक्रमित वर्गीकरण (अवधारणा पदानुक्रम)

क्वांटिटेटिव एसोसिएशन रूल्स श्रेणीबद्ध और मात्रात्मक डेटा

इंटरवल डेटा एसोसिएशन नियम उदा। उम्र को 5 साल में बांट कर इन्क्रीमेंट किया गया

अनुक्रमिक पैटर्न खनन उन परवर्ती का पता लगाता है जो[clarification needed] अनुक्रम डेटाबेस में अनुक्रम जहां मिनसअप उपयोगकर्ता द्वारा निर्धारित किया जाता है। अनुक्रम लेन-देन की एक क्रमबद्ध सूची है।[41]

सबस्पेस क्लस्टरिंग, एक विशिष्ट प्रकार का क्लस्टरिंग उच्च-आयामी डेटा, विशिष्ट क्लस्टरिंग मॉडल के लिए डाउनवर्ड-क्लोजर प्रॉपर्टी के कई रूपों में आधारित है।[42]

वार्मर को एसीई डाटा माइनिंग सूट के हिस्से के रूप में भेज दिया गया है। यह पहले क्रम के संबंधपरक नियमों के लिए संघ नियम सीखने की अनुमति देता है।[43]


यह भी देखें

संदर्भ

  1. Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
  2. 2.0 2.1 2.2 2.3 2.4 2.5 Agrawal, R.; Imieliński, T.; Swami, A. (1993). "Mining association rules between sets of items in large databases". डेटा के प्रबंधन पर 1993 एसीएम सिग्मॉड अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - सिग्मॉड '93. p. 207. CiteSeerX 10.1.1.40.6984. doi:10.1145/170035.170072. ISBN 978-0897915922. S2CID 490415.
  3. Garcia, Enrique (2007). "लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान" (PDF). Sci2s. Archived (PDF) from the original on 2009-12-23.
  4. "डाटा माइनिंग तकनीक: विचार करने के लिए शीर्ष 5". Precisely (in English). 2021-11-08. Retrieved 2021-12-10.
  5. 5.0 5.1 5.2 "16 डाटा माइनिंग तकनीक: पूरी सूची - Talend". Talend - A Leader in Data Integration & Data Integrity (in English). Retrieved 2021-12-10.
  6. "डेटा माइनिंग (एसोसिएशन रूल माइनिंग) में एसोसिएशन नियम क्या हैं?". SearchBusinessAnalytics (in English). Retrieved 2021-12-10.
  7. "लर्निंग मैनेजमेंट सिस्टम में एसोसिएशन रूल माइनिंग को लागू करने की कमियां और समाधान". ResearchGate (in English). Retrieved 2021-12-10.
  8. Tan, Pang-Ning; Michael, Steinbach; Kumar, Vipin (2005). "Chapter 6. Association Analysis: Basic Concepts and Algorithms" (PDF). डाटा माइनिंग का परिचय. Addison-Wesley. ISBN 978-0-321-32136-7.
  9. Jian Pei; Jiawei Han; Lakshmanan, L.V.S. (2001). "Mining frequent itemsets with convertible constraints". डाटा इंजीनियरिंग पर 17वां अंतर्राष्ट्रीय सम्मेलन की कार्यवाही. pp. 433–442. CiteSeerX 10.1.1.205.2150. doi:10.1109/ICDE.2001.914856. ISBN 978-0-7695-1001-9. S2CID 1080975.
  10. Agrawal, Rakesh; and Srikant, Ramakrishnan; Fast algorithms for mining association rules in large databases Archived 2015-02-25 at the Wayback Machine, in Bocca, Jorge B.; Jarke, Matthias; and Zaniolo, Carlo; editors, Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), Santiago, Chile, September 1994, pages 487-499
  11. 11.0 11.1 Zaki, M. J. (2000). "एसोसिएशन माइनिंग के लिए स्केलेबल एल्गोरिदम". IEEE Transactions on Knowledge and Data Engineering. 12 (3): 372–390. CiteSeerX 10.1.1.79.9448. doi:10.1109/69.846291.
  12. 12.0 12.1 Larose, Daniel T.; Larose, Chantal D. (2014-06-23). डेटा में ज्ञान की खोज. doi:10.1002/9781118874059. ISBN 9781118874059.
  13. 13.0 13.1 13.2 Hahsler, Michael (2005). "एरूल्स का परिचय - माइनिंग एसोसिएशन रूल्स और बारंबार आइटम सेट के लिए एक कम्प्यूटेशनल वातावरण" (PDF). Journal of Statistical Software. doi:10.18637/jss.v014.i15.
  14. Wong, Pak (1999). "टेक्स्ट माइनिंग के लिए विज़ुअलाइज़िंग एसोसिएशन नियम" (PDF). BSTU Laboratory of Artificial Neural Networks. Archived (PDF) from the original on 2021-11-29.
  15. Hipp, J.; Güntzer, U.; Nakhaeizadeh, G. (2000). "एसोसिएशन नियम खनन के लिए एल्गोरिदम --- एक सामान्य सर्वेक्षण और तुलना". ACM SIGKDD Explorations Newsletter. 2: 58–64. CiteSeerX 10.1.1.38.5305. doi:10.1145/360402.360421. S2CID 9248096.
  16. Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D.; Tsur, Shalom (1997). "Dynamic itemset counting and implication rules for market basket data". डेटा के प्रबंधन पर 1997 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '97. pp. 255–264. CiteSeerX 10.1.1.41.6476. doi:10.1145/253260.253325. ISBN 978-0897919111. S2CID 15385590.
  17. Omiecinski, E.R. (2003). "डेटाबेस में खनन संघों के लिए वैकल्पिक ब्याज उपाय". IEEE Transactions on Knowledge and Data Engineering. 15: 57–69. CiteSeerX 10.1.1.329.5344. doi:10.1109/TKDE.2003.1161582.
  18. Aggarwal, Charu C.; Yu, Philip S. (1998). "A new framework for itemset generation". डेटाबेस सिस्टम के सिद्धांतों पर सत्रहवीं ACM SIGACT-SIGMOD-SIGART संगोष्ठी की कार्यवाही - PODS '98. pp. 18–24. CiteSeerX 10.1.1.24.714. doi:10.1145/275487.275490. ISBN 978-0897919968. S2CID 11934586.
  19. Piatetsky-Shapiro, Gregory; Discovery, analysis, and presentation of strong rules, Knowledge Discovery in Databases, 1991, pp. 229-248
  20. Tan, Pang-Ning; Kumar, Vipin; Srivastava, Jaideep (2004). "एसोसिएशन विश्लेषण के लिए सही उद्देश्य माप का चयन करना". Information Systems. 29 (4): 293–313. CiteSeerX 10.1.1.331.4740. doi:10.1016/S0306-4379(03)00072-3.
  21. Michael Hahsler (2015). A Probabilistic Comparison of Commonly Used Interest Measures for Association Rules. https://mhahsler.github.io/arules/docs/measures
  22. Hájek, P.; Havel, I.; Chytil, M. (1966). "स्वचालित परिकल्पना निर्धारण की गुहा विधि". Computing. 1 (4): 293–308. doi:10.1007/BF02345483. S2CID 10511114.
  23. Webb, Geoffrey (1989). "छात्र मॉडलिंग के लिए एक मशीन लर्निंग दृष्टिकोण". Proceedings of the Third Australian Joint Conference on Artificial Intelligence (AI 89): 195–205.
  24. Webb, Geoffrey I. (2007). "महत्वपूर्ण पैटर्न की खोज". Machine Learning. 68: 1–33. doi:10.1007/s10994-007-5006-x.
  25. Gionis, Aristides; Mannila, Heikki; Mielikäinen, Taneli; Tsaparas, Panayiotis (2007). "स्वैप रैंडमाइजेशन के माध्यम से डेटा माइनिंग परिणामों का आकलन करना". ACM Transactions on Knowledge Discovery from Data. 1 (3): 14–es. CiteSeerX 10.1.1.141.2607. doi:10.1145/1297332.1297338. S2CID 52305658.
  26. Heaton, Jeff (2017-01-30). "एप्रीओरी, एक्लाट या एफपी-ग्रोथ फ़्रीक्वेंट आइटमसेट माइनिंग एल्गोरिथम के पक्ष में डेटासेट विशेषताओं की तुलना करना". arXiv:1701.09042 [cs.DB].
  27. Zaki, Mohammed Javeed; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "एसोसिएशन नियमों की फास्ट डिस्कवरी के लिए नए एल्गोरिदम": 283–286. CiteSeerX 10.1.1.42.3283. hdl:1802/501. {{cite journal}}: Cite journal requires |journal= (help)
  28. Zaki, Mohammed J.; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "एसोसिएशन नियमों की खोज के लिए समानांतर एल्गोरिदम". Data Mining and Knowledge Discovery. 1 (4): 343–373. doi:10.1023/A:1009773317876. S2CID 10038675.
  29. Han (2000). "Mining Frequent Patterns Without Candidate Generation". डेटा के प्रबंधन पर 2000 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - SIGMOD '00. pp. 1–12. CiteSeerX 10.1.1.40.4436. doi:10.1145/342009.335372. ISBN 978-1581132175. S2CID 6059661. {{cite book}}: |journal= ignored (help)
  30. Witten, Frank, Hall: Data mining practical machine learning tools and techniques, 3rd edition[page needed]
  31. Hájek, Petr; Havránek, Tomáš (1978). मशीनीकरण परिकल्पना गठन: एक सामान्य सिद्धांत के लिए गणितीय नींव. Springer-Verlag. ISBN 978-3-540-08738-0.
  32. 32.0 32.1 Webb, Geoffrey I. (1995); OPUS: An Efficient Admissible Algorithm for Unordered Search, Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, pp. 431-465 online access
  33. Bayardo, Roberto J. Jr.; Agrawal, Rakesh; Gunopulos, Dimitrios (2000). "बड़े, सघन डेटाबेस में बाधा-आधारित नियम खनन". Data Mining and Knowledge Discovery. 4 (2): 217–240. doi:10.1023/A:1009895914772. S2CID 5120441.
  34. Webb, Geoffrey I. (2000). "Efficient search for association rules". नॉलेज डिस्कवरी और डेटा माइनिंग पर छठे ACM SIGKDD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - KDD '00. pp. 99–107. CiteSeerX 10.1.1.33.1309. doi:10.1145/347090.347112. ISBN 978-1581132335. S2CID 5444097.
  35. 35.0 35.1 "डीएसएस न्यूज: वॉल्यूम। 3, संख्या 23".
  36. Ramezani, Reza, Mohamad Sunni ee, and Mohammad Ali Nematbakhsh; MRAR: Mining Multi-Relation Association Rules, Journal of Computing and Security, 1, no. 2 (2014)
  37. GI Webb and S. Butler and D. Newlands (2003). समूहों के बीच अंतर का पता लगाने पर. KDD'03 Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
  38. Menzies, T.; Ying Hu (2003). "कम्प्यूटिंग अभ्यास - बहुत व्यस्त लोगों के लिए डाटा माइनिंग". Computer. 36 (11): 22–29. doi:10.1109/MC.2003.1244531.
  39. Wong, A.K.C.; Yang Wang (1997). "असतत-मूल्यवान डेटा से उच्च-क्रम पैटर्न की खोज". IEEE Transactions on Knowledge and Data Engineering. 9 (6): 877–893. CiteSeerX 10.1.1.189.1704. doi:10.1109/69.649314.
  40. Liu, Jinze; Paulsen, Susan; Sun, Xing; Wang, Wei; Nobel, Andrew; Prins, Jan (2006). "Mining Approximate Frequent Itemsets in the Presence of Noise: Algorithm and Analysis". डाटा माइनिंग पर 2006 SIAM अंतर्राष्ट्रीय सम्मेलन की कार्यवाही. pp. 407–418. CiteSeerX 10.1.1.215.3599. doi:10.1137/1.9781611972764.36. ISBN 978-0-89871-611-5.
  41. Zaki, Mohammed J. (2001); SPADE: An Efficient Algorithm for Mining Frequent Sequences, Machine Learning Journal, 42, pp. 31–60
  42. Zimek, Arthur; Assent, Ira; Vreeken, Jilles (2014). बार-बार पैटर्न खनन. pp. 403–423. doi:10.1007/978-3-319-07821-2_16. ISBN 978-3-319-07820-5.
  43. King, R. D.; Srinivasan, A.; Dehaspe, L. (Feb 2001). "वार्मर: रासायनिक डेटा के लिए एक डेटा माइनिंग टूल।". J Comput Aided Mol Des. 15 (2): 173–81. Bibcode:2001JCAMD..15..173K. doi:10.1023/A:1008171016861. PMID 11272703. S2CID 3055046.



ग्रंथ सूची


श्रेणी:डेटा प्रबंधन श्रेणी:डेटा खनन