रफ़ सेट: Difference between revisions
No edit summary |
No edit summary |
||
| Line 154: | Line 154: | ||
===विशेषता निर्भरता=== | ===विशेषता निर्भरता=== | ||
डेटाबेस विश्लेषण या डेटा अधिग्रहण के सबसे महत्वपूर्ण पहलुओं में से | डेटाबेस विश्लेषण या डेटा अधिग्रहण के सबसे महत्वपूर्ण पहलुओं में से विशेषता निर्भरता की शोध है; अर्थात्, हम यह पता लगाना चाहते हैं कि कौन से चर किस अन्य चर से दृढ़ता से संबंधित हैं। सामान्यतः, यह ये स्थिर रिश्ते हैं जो परिक्षण का उत्तरदायित्व लेंगे, एवं जो अंततः भविष्य कहनेवाला मॉडलिंग में उपयोगी होंगे। | ||
रफ सेट सिद्धांत में, निर्भरता की धारणा को | रफ सेट सिद्धांत में, निर्भरता की धारणा को सरलता से परिभाषित किया गया है। आइए हम विशेषताओं के दो (असंबद्ध) सेट लें, सेट <math>P</math> एवं सेट <math>Q</math>, एवं पूछताछ करें कि उनके मध्य किस स्तर की निर्भरता प्राप्त होती है। प्रत्येक विशेषता सेट (अविवेकी) तुल्यता वर्ग संरचना को प्रेरित करता है, तुल्यता वर्ग <math>P</math> द्वारा दिए गए <math>[x]_P</math>, एवं तुल्यता वर्ग <math>Q</math> द्वारा द्वारा दिए गए <math>[x]_Q</math> प्रेरित होते हैं। | ||
<math>[x]_Q = \{Q_1, Q_2, Q_3, \dots, Q_N \}</math>, कहाँ <math>Q_i</math> विशेषता सेट द्वारा प्रेरित समतुल्य-वर्ग संरचना से दिया गया समतुल्य वर्ग <math>Q</math>है। फिर, विशेषता सेट की निर्भरता <math>Q</math> विशेषता सेट पर <math>P</math>, <math>\gamma_{P}(Q)</math>, द्वारा दिया गया है | |||
:<math> | :<math> | ||
\gamma_{P}(Q) = \frac{\sum_{i=1}^N \left | {\underline P}Q_i \right |} {\left | \mathbb{U} \right |} \leq 1 | \gamma_{P}(Q) = \frac{\sum_{i=1}^N \left | {\underline P}Q_i \right |} {\left | \mathbb{U} \right |} \leq 1 | ||
</math> | </math> | ||
अर्थात् प्रत्येक समतुल्य वर्ग के लिए <math>Q_i</math> में <math>[x]_Q</math>, हम इसके निचले सन्निकटन के आकार को विशेषताओं | अर्थात् प्रत्येक समतुल्य वर्ग के लिए <math>Q_i</math> में <math>[x]_Q</math>, हम इसके निचले सन्निकटन के आकार को विशेषताओं <math>P</math> द्वारा जोड़ते हैं। <math>{\underline P}Q_i</math> यह सन्निकटन (जैसा कि ऊपर है, मनमाने सेट के लिए <math>X</math>) उन वस्तुओं की संख्या है जो विशेषता सेट <math>P</math> पर हैं<sub>,</sub> लक्ष्य निर्धारित से संबंधित के रूप में सकारात्मक रूप से <math>Q_i</math> पहचाना जा सकता है। सभी समतुल्य वर्गों <math>[x]_Q</math>में जोड़ा गया , उपरोक्त अंश वस्तुओं की कुल संख्या का प्रतिनिधित्व करता है जो विशेषता सेट <math>P</math> पर आधारित है, विशेषताओं द्वारा प्रेरित वर्गीकरण के अनुसार सकारात्मक रूप से <math>Q</math> वर्गीकृत किया जा सकता है, इसलिए निर्भरता अनुपात ऐसी वर्गीकृत वस्तुओं के अनुपात (संपूर्ण ब्रह्मांड के अंदर) को व्यक्त करता है। निर्भरता <math>\gamma_{P}(Q)</math> सूचना प्रणाली में ऐसी वस्तुओं के अनुपात के रूप में व्याख्या की जा सकती है जिसके लिए विशेषताओं के मूल्यों को जानना पर्याप्त है <math>P</math> में विशेषताओं के मान निर्धारित करने के लिए <math>Q</math>. | ||
निर्भरता पर विचार करने का एक एवं, सहज, विधिप्रेरित विभाजन को लेना है <math>Q</math> लक्ष्य वर्ग के रूप में <math>C</math>, एवं विचार करें <math>P</math> लक्ष्य वर्ग के पुनर्निर्माण के लिए हम जिस विशेषता सेट का उपयोग करना चाहते हैं <math>C</math>. यदि <math>P</math> पूर्णतः पुनर्निर्माण कर सकता है <math>C</math>, तब <math>Q</math> पूर्णतः निर्भर करता है <math>P</math>; यदि <math>P</math> इसका परिणाम खराब एवं संभवतः यादृच्छिक पुनर्निर्माण होता है <math>C</math>, तब <math>Q</math> पर निर्भर नहीं है <math>P</math> बिलकुल। | निर्भरता पर विचार करने का एक एवं, सहज, विधिप्रेरित विभाजन को लेना है <math>Q</math> लक्ष्य वर्ग के रूप में <math>C</math>, एवं विचार करें <math>P</math> लक्ष्य वर्ग के पुनर्निर्माण के लिए हम जिस विशेषता सेट का उपयोग करना चाहते हैं <math>C</math>. यदि <math>P</math> पूर्णतः पुनर्निर्माण कर सकता है <math>C</math>, तब <math>Q</math> पूर्णतः निर्भर करता है <math>P</math>; यदि <math>P</math> इसका परिणाम खराब एवं संभवतः यादृच्छिक पुनर्निर्माण होता है <math>C</math>, तब <math>Q</math> पर निर्भर नहीं है <math>P</math> बिलकुल। | ||
| Line 181: | Line 181: | ||
:<math>(P_i=a) \land (P_j=b) \land \dots \land (P_k=c) \to (Q=d)</math> | :<math>(P_i=a) \land (P_j=b) \land \dots \land (P_k=c) \to (Q=d)</math> | ||
कहाँ <math>\{a, b, c, \dots\}</math> उनकी संबंधित विशेषताओं के डोमेन से वैध मान हैं। यह [[एसोसिएशन नियम]]ों का एक विशिष्ट रूप है, एवं इसमें मदों की संख्या है <math>\mathbb{U}</math> जो स्थिति/पूर्ववृत्त से मेल खाता हो, उसे नियम का समर्थन कहा जाता है। ऐसे नियम निकालने की विधि इसमें दी गई है {{Harvtxt|Ziarko|Shan|1995}} प्रत्येक व्यक्तिगत मूल्य के अनुरूप एक निर्णय मैट्रिक्स बनाना है <math>d</math> निर्णय विशेषता का <math>Q</math>. अनौपचारिक रूप से, मूल्य के लिए निर्णय मैट्रिक्स <math>d</math> निर्णय विशेषता का <math>Q</math> सभी विशेषता-मूल्य युग्मों को सूचीबद्ध करता है जो वस्तुओं के | कहाँ <math>\{a, b, c, \dots\}</math> उनकी संबंधित विशेषताओं के डोमेन से वैध मान हैं। यह [[एसोसिएशन नियम]]ों का एक विशिष्ट रूप है, एवं इसमें मदों की संख्या है <math>\mathbb{U}</math> जो स्थिति/पूर्ववृत्त से मेल खाता हो, उसे नियम का समर्थन कहा जाता है। ऐसे नियम निकालने की विधि इसमें दी गई है {{Harvtxt|Ziarko|Shan|1995}} प्रत्येक व्यक्तिगत मूल्य के अनुरूप एक निर्णय मैट्रिक्स बनाना है <math>d</math> निर्णय विशेषता का <math>Q</math>. अनौपचारिक रूप से, मूल्य के लिए निर्णय मैट्रिक्स <math>d</math> निर्णय विशेषता का <math>Q</math> सभी विशेषता-मूल्य युग्मों को सूचीबद्ध करता है जो वस्तुओं के मध्य भिन्न होते हैं <math>Q = d </math> एवं <math>Q \ne d</math>. | ||
इसे उदाहरण द्वारा सबसे अच्छी तरह से समझाया गया है (जो बहुत सारे नोटेशन से भी बचाता है)। ऊपर दी गई तालिका पर विचार करें, एवं आइए <math>P_{4}</math> निर्णय परिवर्तनशील बनें (अर्थात, निहितार्थ के दाईं ओर चर) एवं रहने दें <math>\{P_1,P_2,P_3\}</math> स्थिति चर बनें (निहितार्थ के बाईं ओर)। हम ध्यान दें कि निर्णय परिवर्तनशील है <math>P_{4}</math> अर्थात् दो भिन्न मान ग्रहण करता है <math>\{1, 2\}</math>. हम प्रत्येक मामले को भिन्न से देखते हैं। | इसे उदाहरण द्वारा सबसे अच्छी तरह से समझाया गया है (जो बहुत सारे नोटेशन से भी बचाता है)। ऊपर दी गई तालिका पर विचार करें, एवं आइए <math>P_{4}</math> निर्णय परिवर्तनशील बनें (अर्थात, निहितार्थ के दाईं ओर चर) एवं रहने दें <math>\{P_1,P_2,P_3\}</math> स्थिति चर बनें (निहितार्थ के बाईं ओर)। हम ध्यान दें कि निर्णय परिवर्तनशील है <math>P_{4}</math> अर्थात् दो भिन्न मान ग्रहण करता है <math>\{1, 2\}</math>. हम प्रत्येक मामले को भिन्न से देखते हैं। | ||
सबसे पहले, हम मामले को देखते हैं <math>P_{4}=1</math>, एवं हम विभाजित हो जाते हैं <math>\mathbb{U}</math> उन वस्तुओं में जिनके पास है <math>P_{4}=1</math> एवं जिनके पास है <math>P_{4} \ne 1</math>. (ध्यान दें कि ऑब्जेक्ट के साथ <math>P_{4} \ne 1</math> इस मामले में केवल वे वस्तुएं हैं जो हैं <math>P_{4}=2</math>, किन्तुसामान्य रूप में, <math>P_{4} \ne 1</math> इसमें वे सभी वस्तुएँ सम्मिलित होंगी जिनके लिए कोई मूल्य हो <math>P_{4}</math> के अतिरिक्त अन्य <math>P_{4}=1</math>, एवं वस्तुओं के ऐसे कई वर्ग हो सकते हैं (उदाहरण के लिए, जिनके पास <math>P_{4}=2,3,4,etc.</math>).) इस मामले में, वस्तुओं का होना <math>P_{4}=1</math> हैं <math>\{O_1,O_2,O_3,O_7,O_{10}\}</math> जबकि जो वस्तुएं हैं <math>P_{4} \ne 1</math> हैं <math>\{O_4,O_5,O_6,O_8,O_9\}</math>. के लिए निर्णय मैट्रिक्स <math>P_{4}=1</math> वस्तुओं के | सबसे पहले, हम मामले को देखते हैं <math>P_{4}=1</math>, एवं हम विभाजित हो जाते हैं <math>\mathbb{U}</math> उन वस्तुओं में जिनके पास है <math>P_{4}=1</math> एवं जिनके पास है <math>P_{4} \ne 1</math>. (ध्यान दें कि ऑब्जेक्ट के साथ <math>P_{4} \ne 1</math> इस मामले में केवल वे वस्तुएं हैं जो हैं <math>P_{4}=2</math>, किन्तुसामान्य रूप में, <math>P_{4} \ne 1</math> इसमें वे सभी वस्तुएँ सम्मिलित होंगी जिनके लिए कोई मूल्य हो <math>P_{4}</math> के अतिरिक्त अन्य <math>P_{4}=1</math>, एवं वस्तुओं के ऐसे कई वर्ग हो सकते हैं (उदाहरण के लिए, जिनके पास <math>P_{4}=2,3,4,etc.</math>).) इस मामले में, वस्तुओं का होना <math>P_{4}=1</math> हैं <math>\{O_1,O_2,O_3,O_7,O_{10}\}</math> जबकि जो वस्तुएं हैं <math>P_{4} \ne 1</math> हैं <math>\{O_4,O_5,O_6,O_8,O_9\}</math>. के लिए निर्णय मैट्रिक्स <math>P_{4}=1</math> वस्तुओं के मध्य सभी अंतरों को सूचीबद्ध करता है <math>P_{4}=1</math> एवं जिनके पास है <math>P_{4} \ne 1</math>; अर्थात्, निर्णय मैट्रिक्स मध्य के सभी अंतरों को सूचीबद्ध करता है <math>\{O_1,O_2,O_3,O_7,O_{10}\}</math> एवं <math>\{O_4,O_5,O_6,O_8,O_9\}</math>. हम सकारात्मक वस्तुएँ डालते हैं (<math>P_{4}=1</math>) पंक्तियों एवं नकारात्मक वस्तुओं के रूप में <math>P_{4} \ne 1</math> स्तंभों के रूप में. | ||
:{| class="wikitable" style="text-align:center; width:30%" border="1" | :{| class="wikitable" style="text-align:center; width:30%" border="1" | ||
| Line 250: | Line 250: | ||
अवधारणा के निचले सन्निकटन से प्रेरित नियम निश्चित रूप से अवधारणा का वर्णन करते हैं, इसलिए ऐसे नियमों को निश्चित कहा जाता है। दूसरी ओर, अवधारणा के ऊपरी सन्निकटन से प्रेरित नियम संभवतः अवधारणा का वर्णन करते हैं, इसलिए इन नियमों को संभव कहा जाता है। नियम प्रेरण के लिए LERS तीन एल्गोरिदम का उपयोग करता है: LEM1, LEM2, एवं IRIM। | अवधारणा के निचले सन्निकटन से प्रेरित नियम निश्चित रूप से अवधारणा का वर्णन करते हैं, इसलिए ऐसे नियमों को निश्चित कहा जाता है। दूसरी ओर, अवधारणा के ऊपरी सन्निकटन से प्रेरित नियम संभवतः अवधारणा का वर्णन करते हैं, इसलिए इन नियमों को संभव कहा जाता है। नियम प्रेरण के लिए LERS तीन एल्गोरिदम का उपयोग करता है: LEM1, LEM2, एवं IRIM। | ||
LERS का LEM2 एल्गोरिदम प्रायः नियम प्रेरण के लिए उपयोग किया जाता है एवं इसका उपयोग न केवल LERS में बल्कि अन्य प्रणालियों में भी किया जाता है, उदाहरण के लिए, RSES (बज़ान एट अल। (2004) में। LEM2 विशेषता-मूल्य जोड़े के | LERS का LEM2 एल्गोरिदम प्रायः नियम प्रेरण के लिए उपयोग किया जाता है एवं इसका उपयोग न केवल LERS में बल्कि अन्य प्रणालियों में भी किया जाता है, उदाहरण के लिए, RSES (बज़ान एट अल। (2004) में। LEM2 विशेषता-मूल्य जोड़े के शोध स्थान की शोध करता है। इसका इनपुट डेटा सेट एक अवधारणा का निचला या ऊपरी सन्निकटन है, इसलिए इसका इनपुट डेटा सेट हमेशा सुसंगत होता है। सामान्यतः, LEM2 एक स्थानीय कवरिंग की गणना करता है एवं फिर इसे एक नियम सेट में परिवर्तित करता है। हम LEM2 एल्गोरिथ्म का वर्णन करने के लिए कुछ परिभाषाएँ उद्धृत करेंगे। | ||
LEM2 एल्गोरिथ्म एक विशेषता-मूल्य जोड़ी ब्लॉक के विचार पर आधारित है। होने देना <math>X</math> निर्णय-मूल्य जोड़ी द्वारा दर्शाई गई अवधारणा का एक अन्य-रिक्त निचला या ऊपरी सन्निकटन हो <math>(d, w)</math>. तय करना <math>X</math> एक सेट पर निर्भर करता है <math>T</math> विशेषता-मूल्य जोड़े का <math>t = (a, v)</math> यदि एवं केवल अगर | LEM2 एल्गोरिथ्म एक विशेषता-मूल्य जोड़ी ब्लॉक के विचार पर आधारित है। होने देना <math>X</math> निर्णय-मूल्य जोड़ी द्वारा दर्शाई गई अवधारणा का एक अन्य-रिक्त निचला या ऊपरी सन्निकटन हो <math>(d, w)</math>. तय करना <math>X</math> एक सेट पर निर्भर करता है <math>T</math> विशेषता-मूल्य जोड़े का <math>t = (a, v)</math> यदि एवं केवल अगर | ||
| Line 277: | Line 277: | ||
==अपूर्ण डेटा== | ==अपूर्ण डेटा== | ||
अपूर्ण डेटा सेट से नियम प्रेरण के लिए रफ सेट सिद्धांत उपयोगी है। इस दृष्टिकोण का उपयोग करके हम तीन प्रकार के लुप्त विशेषता मानों के | अपूर्ण डेटा सेट से नियम प्रेरण के लिए रफ सेट सिद्धांत उपयोगी है। इस दृष्टिकोण का उपयोग करके हम तीन प्रकार के लुप्त विशेषता मानों के मध्य अंतर कर सकते हैं: खोए हुए मान (वे मान जो रिकॉर्ड किए गए थे किन्तुवर्तमान में अनुपलब्ध हैं), विशेषता-अवधारणा मान (इन लुप्त विशेषता मानों को उसी अवधारणा तक सीमित किसी भी विशेषता मान द्वारा प्रतिस्थापित किया जा सकता है) , एवं शर्तों की परवाह न करें (मूल मूल्य अप्रासंगिक थे)। एक अवधारणा (वर्ग) एक ही तरह से वर्गीकृत (या निदान) की गई सभी वस्तुओं का एक समूह है। | ||
लापता विशेषता मानों वाले दो विशेष डेटा सेटों का बड़े पैमाने पर अध्ययन किया गया: पहले मामले में, सभी लापता विशेषता मान खो गए थे (स्टेफ़ानोव्स्की एवं त्सुकियास, 2001), दूसरे मामले में, सभी लापता विशेषता मान परवाह नहीं करने वाली स्थिति में थे (क्रिस्ज़किविज़, 1999) . | लापता विशेषता मानों वाले दो विशेष डेटा सेटों का बड़े पैमाने पर अध्ययन किया गया: पहले मामले में, सभी लापता विशेषता मान खो गए थे (स्टेफ़ानोव्स्की एवं त्सुकियास, 2001), दूसरे मामले में, सभी लापता विशेषता मान परवाह नहीं करने वाली स्थिति में थे (क्रिस्ज़किविज़, 1999) . | ||
Revision as of 10:35, 6 July 2023
कंप्यूटर विज्ञान में, रफ सेट, जिसे प्रथम बार पोलिश कंप्यूटर वैज्ञानिक ज़डज़िस्लाव आई. पावलक द्वारा वर्णित किया गया था, सेट की जोड़ी के संदर्भ में क्रिस्प सेट (अर्थात , पारंपरिक सेट) का ऐसा औपचारिक अनुमान है जो निचला एवं ऊपरी सन्निकटन देता है। मूल सेट रफ सेट थ्योरी (पावलक 1991) के मानक संस्करण में, निचले एवं ऊपरीसन्निकटन सेट क्रिस्प सेट होते हैं, किन्तु अन्य विविधताओं में, अनुमानित सेट अस्पष्ट सेट हो सकते हैं।
परिभाषाएँ
निम्नलिखित अनुभाग में कुछ प्रमुख परिभाषाओं के साथ, रफ सेट सिद्धांत के बुनियादी आकृति का अवलोकन सम्मिलित है, जैसा कि मूल रूप से ज़ेडज़िस्लाव आई. पावलक द्वारा प्रस्तावित किया गया हैं। रफ सेट के अधिक औपचारिक गुण एवं सीमाएँ पावलक (1991) एवं उद्धृत संदर्भों में प्राप्त सकती हैं। रफ सेट के प्रारंभिक एवं बुनियादी सिद्धांत को कभी-कभी पावलक रफ सेट या क्लासिकल रफ सेट के रूप में संदर्भित किया जाता है, जो कि वर्तमान के विस्तार एवं सामान्यीकरण से भिन्न करने का साधन है।
सूचना प्रणाली संरचना
सूचना प्रणाली (विशेषता-मूल्य प्रणाली) बनें, जहां वस्तुओं (ब्रह्मांड) का अन्य-रिक्त सीमित सेट है, ऐसी विशेषताओं का अन्य-रिक्त, सीमित सेट है प्रत्येक के लिए है। मानों का वह समूह है जो विशेषता देता है लग सकता है। सूचना तालिका मान से निर्दिष्ट करती है। प्रत्येक विशेषता के लिए एवं आपत्ति ब्रह्मांड में होता है। किसी के साथ संबद्ध तुल्यता संबंध है है।
संबंध ए कहा जाता है - अविवेकपूर्ण संबंध. का विभाजन के सभी समतुल्य वर्गों का एक परिवार है एवं द्वारा दर्शाया गया है (या ).
यदि