संघ नियम अधिगम: Difference between revisions

From Vigyanwiki
No edit summary
Line 436: Line 436:
[[Category: Machine Translated Page]]
[[Category: Machine Translated Page]]
[[Category:Created On 05/12/2022]]
[[Category:Created On 05/12/2022]]
[[Category:Vigyan Ready]]

Revision as of 10:49, 21 December 2022

नियम-आधारित बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज के लिए संघ नियम सीखना (एसोसिएशन रूल लर्निंग) एक नियम-आधारित यंत्र अधिगम विधि है। इसका उद्देश्य दिलचस्पता के कुछ उपायों का उपयोग करके डेटाबेस में खोजे गए मजबूत नियमों की पहचान करना है।[1] विभिन्न मदों के साथ किसी दिए गए लेन-देन में, संघ (एसोसिएशन) नियम उन नियमों की खोज करने के लिए होते हैं जो यह निर्धारित करते हैं कि कुछ आइटम कैसे या क्यों जुड़े हुए हैं।

मजबूत नियमों की अवधारणा के आधार पर राकेश अग्रवाल (कंप्यूटर वैज्ञानिक), टॉमाज़ इमेलिंस्की और अरुण स्वामी[2] सुपरमार्केट में बिक्री केन्द्र (POS) सिस्टम द्वारा अभिलेख किए गए बड़े पैमाने के लेन-देन डेटा में उत्पादों के बीच नियमितता की खोज के लिए संगठन नियम पेश किए। उदाहरण के लिए, नियम एक सुपरमार्केट के बिक्री डेटा में पाया गया है कि अगर कोई ग्राहक प्याज और आलू एक साथ खरीदता है, तो वे हैमबर्गर मांस भी खरीद सकते हैं। इस तरह की जानकारी का उपयोग विपणन गतिविधियों के बारे में निर्णय लेने के आधार के रूप में किया जा सकता है, जैसे, प्रचार मूल्य निर्धारण या उत्पाद लगाने की क्रिया (प्लेसमेंट)।

उपरोक्त उदाहरण के अलावा बाजार टोकरी विश्लेषण संघ के नियम आज वेब उपयोग खनन, अनुचित हस्तक्षेप, निरंतर उत्पादन और जैव सूचना विज्ञान सहित कई अनुप्रयोग क्षेत्रों में कार्यरत हैं। अनुक्रम खनन (सीक्वेंस माइनिंग) के विपरीत, एसोसिएशन रूल लर्निंग आमतौर पर लेनदेन के भीतर या लेनदेन के दौरान वस्तुओं के क्रम पर विचार नहीं करता है।

संगठन (एसोसिएशन) नियम एल्गोरिथ्म में ही विभिन्न पैरामीटर होते हैं जो डेटा खनन (माइनिंग) में कुछ विशेषज्ञता के बिना उन लोगों के लिए इसे निष्पादित करना मुश्किल बना सकते हैं, जिन्हें समझना मुश्किल है।[3]


परिभाषा

डेटासेट के आइटमसेट X और Y के बीच जुड़ाव दिखाने के लिए एक वेन आरेख। आइटम X वाले सभी लेन-देन सर्कल के सफेद, बाएं हिस्से में स्थित हैं, जबकि Y वाले लाल रंग और दाईं ओर हैं। X और Y दोनों वाले कोई भी लेन-देन मध्य में स्थित होते हैं और गुलाबी रंग के होते हैं। इस ग्राफ से जानकारी को दर्शाने के लिए कई अवधारणाओं का उपयोग किया जा सकता है। उदाहरण के लिए, यदि कोई सभी लेन-देन को गुलाबी खंड में लेता है और उन्हें लेनदेन की कुल राशि से विभाजित करता है (लेन-देन में X (सफेद) + लेन-देन जिसमें Y (लाल) होता है), तो आउटपुट को समर्थन के रूप में जाना जाएगा। विश्वास के रूप में जानी जाने वाली विधि का परिणाम प्राप्त करने का एक उदाहरण, कोई भी सभी लेन-देन को बीच में (गुलाबी) ले सकता है और उन्हें उन सभी लेनदेन से विभाजित कर सकता है जिनमें Y (लाल और गुलाबी) होता है। इस स्थिति में, Y पूर्ववर्ती है और X परिणामी है।

अग्रवाल, इमिलिंस्की, स्वामी द्वारा मूल परिभाषा के बाद[2]संघ नियम खनन की समस्या को इस प्रकार परिभाषित किया गया है:

होने देना का एक सेट हो बाइनरी गुण आइटम कहा जाता है।

होने देना लेन-देन का एक सेट जिसे डेटाबेस कहा जाता है।

प्रत्येक लेन-देन में एक अद्वितीय लेन-देन आईडी है और इसमें आइटम का एक सबसेट शामिल है .

एक नियम को फॉर्म के निहितार्थ के रूप में परिभाषित किया गया है:

, जहाँ पे .

अग्रवाल, इमिलिंस्की, स्वामी में[2]एक नियम केवल एक सेट और एक आइटम के बीच परिभाषित किया गया है, के लिये .

प्रत्येक नियम आइटम के दो अलग-अलग सेटों से बना होता है, जिन्हें आइटमसेट के रूप में भी जाना जाता है तथा जहाँ पे पूर्ववर्ती या बाएं हाथ की ओर (LHS) और परिणामी या दाहिनी ओर (RHS) कहा जाता है। एंटीसेडेंट वह आइटम है जो डेटा में पाया जा सकता है जबकि परिणामी आइटम एंटीसेडेंट के साथ संयुक्त होने पर पाया जाता है। कथन को अक्सर तब के रुप में पढ़ा जाता है, जहां पूर्ववर्ती () और परिणामी () है। इसका तात्पर्य यह है कि सिद्धांत रूप में जब भी डेटासेट में होता है तब भी होगा।

प्रक्रिया

एसोसिएशन के नियम बार -बार if-then पैटर्न के लिए डेटा खोज कर और समर्थन और विश्वास के तहत एक निश्चित मानदंड का उपयोग करके सबसे महत्वपूर्ण रिश्ते क्या हैं, इसे परिभाषित करने के लिए बनाए जाते हैं। समर्थन इस बात का प्रमाण है कि दिए गए डेटा में कोई वस्तु कितनी बार दिखाई देती है, क्योंकि विश्वास को परिभाषित किया जाता है कि कितनी बार if-then कथन सत्य पाए जाते हैं। हालाँकि, एक तीसरा मानदंड है जिसका उपयोग किया जा सकता है, इसे लिफ्ट कहा जाता है और इसका उपयोग अपेक्षित आत्मविश्वास और वास्तविक आत्मविश्वास की तुलना करने के लिए किया जा सकता है। लिफ़्ट यह दर्शाएगा कि if-then कथन के सत्य होने की कितनी बार अपेक्षा की जाती है।

एसोसिएशन के नियम आइटम सेट से गणना करने के लिए बनाए जाते हैं, जो दो या दो से अधिक आइटम द्वारा बनाए जाते हैं। यदि डेटा से सभी संभावित आइटमसेट के विश्लेषण से नियम बनाए गए होते तो इतने सारे नियम होते कि उनका कोई अर्थ नहीं होता। यही कारण है कि एसोसिएशन के नियम आम तौर पर उन नियमों से बनाए जाते हैं जो डेटा द्वारा अच्छी तरह से दर्शाए जाते हैं।

कई अलग-अलग डेटा खनन तकनीकें हैं जिनका उपयोग आप कुछ विश्लेषणों और परिणामों को खोजने के लिए कर सकते हैं, उदाहरण के लिए वर्गीकरण विश्लेषण, क्लस्टरिंग विश्लेषण और प्रतिगमन विश्लेषण है।[4] आपको किस तकनीक का उपयोग करना चाहिए यह इस बात पर निर्भर करता है कि आप अपने डेटा के साथ क्या खोज रहे हैं। एसोसिएशन के नियमों का मुख्य रूप से विश्लेषणविद्या (एनालिटिक्स) खोजने और ग्राहक व्यवहार की भविष्यवाणी करने के लिए उपयोग किया जाता है। वर्गीकरण विश्लेषण के लिए, सबसे अधिक इसका उपयोग प्रश्न पूछने, निर्णय लेने और व्यवहार की भविष्यवाणी करने के लिए किया जाएगा।[5] क्लस्टरिंग विश्लेषण का मुख्य रूप से उपयोग तब किया जाता है जब डेटा के भीतर संभावित संबंधों के बारे में कोई अनुमान नहीं लगाया जाता है।[5]प्रतिगमन विश्लेषण का उपयोग तब किया जाता है जब आप कई स्वतंत्र चरों से निरंतर आश्रित के मूल्य की भविष्यवाणी करना चाहते हैं।[5]

फ़ायदे

एसोसिएशन के नियमों का उपयोग करने के कई लाभ हैं जैसे पैटर्न ढूंढना जो डेटा सेट के बीच सहसंबंधों और सह-घटनाओं को समझने में मदद करता है। एसोसिएशन के नियमों का उपयोग करने वाला एक बहुत अच्छा वास्तविक दुनिया का उदाहरण दवा होगा। चिकित्सा रोगियों के निदान में मदद करने के लिए एसोसिएशन के नियमों का उपयोग करती है। रोगियों का निदान करते समय विचार करने के लिए कई