डेटा प्रबंधन की समूह विधि

डेटा हैंडलिंग की समूह विधि (जीएमडीएच) मल्टी-पैरामीट्रिक डेटासेट के कंप्यूटर-आधारित गणितीय मॉडलिंग के लिए आगमनात्मक एल्गोरिदम का एक परिवार है जो मॉडल के पूरी तरह से स्वचालित संरचनात्मक और पैरामीट्रिक अनुकूलन की सुविधा देता है।

जीएमडीएच का उपयोग डेटा खनन, ज्ञान खोज, पूर्वानुमान, जटिल सिस्टम मॉडलिंग, अनुकूलन (गणित) और पैटर्न पहचान जैसे क्षेत्रों में किया जाता है। जीएमडीएच एल्गोरिदम को आगमनात्मक प्रक्रिया की विशेषता होती है जो धीरे-धीरे जटिल बहुपद मॉडलों को छांटती है और बाहरी मानदंड के माध्यम से सर्वोत्तम समाधान का चयन करती है।

एकाधिक इनपुट और एक आउटपुट वाला एक जीएमडीएच मॉडल बेस फ़ंक्शन (1) के घटकों का एक सबसेट है:


 * $$ Y(x_1,\dots,x_n)=a_0+\sum\limits_{i = 1}^m a_i f_i$$

जहाँ एफiप्राथमिक कार्य इनपुट के विभिन्न सेटों पर निर्भर होते हैं, aiगुणांक हैं और m आधार फ़ंक्शन घटकों की संख्या है।

सर्वोत्तम समाधान खोजने के लिए, जीएमडीएच एल्गोरिदम बेस फ़ंक्शन (1) के विभिन्न घटक उपसमुच्चय पर विचार करता है जिन्हें आंशिक मॉडल कहा जाता है। इन मॉडलों के गुणांकों का अनुमान न्यूनतम वर्ग विधि द्वारा लगाया जाता है। जीएमडीएच एल्गोरिदम धीरे-धीरे आंशिक मॉडल घटकों की संख्या बढ़ाता है और बाहरी मानदंड के न्यूनतम मूल्य द्वारा इंगित इष्टतम जटिलता के साथ एक मॉडल संरचना ढूंढता है। इस प्रक्रिया को मॉडलों का स्व-संगठन कहा जाता है।

जीएमडीएच में उपयोग किए जाने वाले पहले आधार फ़ंक्शन के रूप में, धीरे-धीरे जटिल वीनर श्रृंखला थी | कोलमोगोरोव-गैबोर बहुपद (2):


 * $$ Y(x_1,\dots,x_n) = a_0+\sum\limits_{i = 1}^n {a_i} x_i+\sum\limits_{i = 1}^n

{\sum\limits_{j = i}^n {a_{i j} } } x_i x_j+\sum\limits_{i = 1}^n {\sum\limits_{j = i}^n{\sum\limits_{k = j}^n {a_{i j k} } } }x_i x_j x_k+\cdots $$ आमतौर पर दूसरी डिग्री तक के कार्यों वाले अधिक सरल आंशिक मॉडल का उपयोग किया जाता है।

आगमनात्मक एल्गोरिदम को बहुपद तंत्रिका नेटवर्क के रूप में भी जाना जाता है। जुर्गन श्मिधुबर ने जीएमडीएच को पहली गहन शिक्षण विधियों में से एक बताया, और टिप्पणी की कि इसका उपयोग 1971 की शुरुआत में आठ-परत तंत्रिका जाल को प्रशिक्षित करने के लिए किया गया था।

इतिहास
इस पद्धति की शुरुआत 1968 में कीव में साइबरनेटिक्स संस्थान में प्रो. एलेक्सी ग्रिगोरेविच इवाख्नेंको|एलेक्सी जी. इवाख्नेंको द्वारा की गई थी। यह आगमनात्मक दृष्टिकोण शुरू से ही एक कंप्यूटर-आधारित पद्धति थी, इसलिए कंप्यूटर प्रोग्राम और एल्गोरिदम का एक सेट नए सैद्धांतिक सिद्धांतों के आधार पर प्राप्त प्राथमिक व्यावहारिक परिणाम थे। लेखक की ओपन कोड शेयरिंग नीति की बदौलत यह विधि दुनिया भर में बड़ी संख्या में वैज्ञानिक प्रयोगशालाओं में तेजी से स्थापित हो गई। चूँकि अधिकांश नियमित कार्य कंप्यूटर पर स्थानांतरित हो जाते हैं, वस्तुनिष्ठ परिणाम पर मानव प्रभाव का प्रभाव कम हो जाता है। वास्तव में, इस दृष्टिकोण को कृत्रिम होशियारी  थीसिस के कार्यान्वयन में से एक माना जा सकता है, जिसमें कहा गया है कि एक कंप्यूटर मनुष्यों के लिए शक्तिशाली सलाहकार के रूप में कार्य कर सकता है।

जीएमडीएच के विकास में विज्ञान के विभिन्न क्षेत्रों के विचारों का संश्लेषण शामिल है: ब्लैक बॉक्स की साइबरनेटिक अवधारणा और क्रमिक सिद्धांत जोड़ीदार फ़ीचर चयन का चयन (आनुवंशिक एल्गोरिथ्म), गोडेल की अपूर्णता प्रमेय और डेनिस गैबोर | गैबोर के निर्णय की स्वतंत्रता का सिद्धांत, जोसेफ अधेमार|अधेमर की ग़लती और एंथोनी स्टैफ़ोर्ड बीयर|बीयर का बाहरी परिवर्धन का सिद्धांत। जीएमडीएच अनिश्चितता के तहत प्रयोगात्मक डेटा के लिए मॉडलों की संरचनात्मक-पैरामीट्रिक प्रणाली पहचान के लिए समस्याओं को हल करने की मूल विधि है। ऐसी समस्या गणितीय मॉडल के निर्माण में होती है जो जांच की गई वस्तु या प्रक्रिया के अज्ञात पैटर्न का अनुमान लगाती है। यह इसके बारे में उस जानकारी का उपयोग करता है जो डेटा में निहित है। जीएमडीएच निम्नलिखित सिद्धांतों के सक्रिय अनुप्रयोग द्वारा मॉडलिंग के अन्य तरीकों से भिन्न है: स्वचालित मॉडल निर्माण, अनिर्णायक निर्णय, और इष्टतम जटिलता के मॉडल खोजने के लिए बाहरी मानदंडों द्वारा लगातार चयन। इसमें स्वचालित मॉडल संरचना निर्माण के लिए एक मूल बहुस्तरीय प्रक्रिया थी, जो जोड़ीदार क्रमिक विशेषताओं पर विचार करते हुए जैविक चयन की प्रक्रिया का अनुकरण करती है। ऐसी प्रक्रिया वर्तमान में डीप लर्निंग नेटवर्क में उपयोग की जाती है। इष्टतम मॉडल की तुलना करने और चुनने के लिए, डेटा नमूने के दो या अधिक उपसमूहों का उपयोग किया जाता है। इससे प्रारंभिक धारणाओं से बचना संभव हो जाता है, क्योंकि नमूना विभाजन इष्टतम मॉडल के स्वचालित निर्माण के दौरान विभिन्न प्रकार की अनिश्चितता को स्पष्ट रूप से स्वीकार करता है।

विकास के दौरान शोर डेटा और शोर (इलेक्ट्रॉनिक्स) के साथ चैनल (संचार) से गुजरने वाले सिग्नल के लिए मॉडल बनाने की समस्या के बीच एक जैविक सादृश्य स्थापित किया गया था। इससे शोर-प्रतिरक्षा मॉडलिंग के सिद्धांत की नींव रखना संभव हो गया। इस सिद्धांत का मुख्य परिणाम यह है कि इष्टतम पूर्वानुमानित मॉडल की जटिलता डेटा में अनिश्चितता के स्तर पर निर्भर करती है: यह स्तर जितना अधिक होगा (उदाहरण के लिए शोर के कारण) - उतना ही सरल इष्टतम मॉडल (कम अनुमानित मापदंडों के साथ) होना चाहिए। इसने फजी सेट में शोर भिन्नता के स्तर के लिए इष्टतम मॉडल जटिलता के स्वचालित अनुकूलन की एक संरचनात्मक प्रेरण विधि के रूप में जीएमडीएच सिद्धांत के विकास की शुरुआत की। इसलिए, जीएमडीएच को अक्सर प्रयोगात्मक डेटा से ज्ञान निष्कर्षण के लिए मूल सूचना प्रौद्योगिकी माना जाता है।

1968-1971 की अवधि पहचान, पैटर्न पहचान और अल्पकालिक पूर्वानुमान की समस्याओं के समाधान के लिए केवल नियमितता मानदंड के अनुप्रयोग की विशेषता है। संदर्भ फ़ंक्शन के रूप में बहुपद, तार्किक जाल, फ़ज़ी ज़ादेह सेट और बेयस संभाव्यता सूत्र का उपयोग किया गया था। नए दृष्टिकोण के साथ पूर्वानुमान की अत्यधिक सटीकता से लेखक प्रेरित हुए। शोर प्रतिरक्षा की जांच नहीं की गई।

अवधि 1972-1975। शोर वाले डेटा और अपूर्ण सूचना आधार के मॉडलिंग की समस्या का समाधान किया गया। शोर प्रतिरोधक क्षमता बढ़ाने के लिए बहुमानदंड चयन और अतिरिक्त प्राथमिक जानकारी का उपयोग प्रस्तावित किया गया था। सर्वोत्तम प्रयोगों से पता चला है कि अतिरिक्त मानदंड द्वारा इष्टतम मॉडल की विस्तारित परिभाषा के साथ शोर स्तर सिग्नल से दस गुना अधिक हो सकता है। फिर शैनन के सामान्य संचार सिद्धांत के प्रमेय का उपयोग करके इसमें सुधार किया गया।

अवधि 1976-1979। बहुस्तरीय जीएमडीएच एल्गोरिदम के अभिसरण की जांच की गई। यह दिखाया गया कि कुछ बहुस्तरीय एल्गोरिदम में बहुपरतीय त्रुटि होती है - जो नियंत्रण प्रणालियों की स्थैतिक त्रुटि के समान होती है। 1977 में बहुस्तरीय जीएमडीएच एल्गोरिदम द्वारा वस्तुनिष्ठ प्रणाली विश्लेषण समस्याओं का समाधान प्रस्तावित किया गया था। यह पता चला कि मानदंड समूह द्वारा छँटाई करने से समीकरणों की एकमात्र इष्टतम प्रणाली मिलती है और इसलिए जटिल वस्तु तत्वों, उनके मुख्य इनपुट और आउटपुट चर को दिखाया जाता है।

अवधि 1980-1988। अनेक महत्वपूर्ण सैद्धान्तिक परिणाम प्राप्त हुए। यह स्पष्ट हो गया कि दीर्घकालिक पूर्वानुमान के लिए पूर्ण भौतिक मॉडल का उपयोग नहीं किया जा सकता है। यह साबित हो गया है कि जीएमडीएच के गैर-भौतिक मॉडल प्रतिगमन विश्लेषण के भौतिक मॉडल की तुलना में अनुमान और पूर्वानुमान के लिए अधिक सटीक हैं। मॉडलिंग के लिए दो अलग-अलग समय के पैमाने का उपयोग करने वाले दो-स्तरीय एल्गोरिदम विकसित किए गए थे।

1989 से फजी ऑब्जेक्ट के गैर-पैरामीट्रिक मॉडलिंग के लिए नए एल्गोरिदम (एसी, ओसीसी, पीएफ) और विशेषज्ञ प्रणालियों के लिए एसएलपी विकसित और जांच की गई। जीएमडीएच विकास के वर्तमान चरण को मल्टीप्रोसेसर कंप्यूटरों के लिए गहन शिक्षण न्यूरोनेट और समानांतर आगमनात्मक एल्गोरिदम के विकास के रूप में वर्णित किया जा सकता है।

बाहरी मानदंड
बाहरी मानदंड जीएमडीएच की प्रमुख विशेषताओं में से एक है। मानदंड मॉडल की आवश्यकताओं का वर्णन करता है, उदाहरण के लिए न्यूनतम वर्गों का न्यूनतमकरण। इसकी गणना हमेशा डेटा नमूने के एक अलग हिस्से के साथ की जाती है जिसका उपयोग गुणांक के अनुमान के लिए नहीं किया गया है। इससे इनपुट डेटा में अनिश्चितता के स्तर के अनुसार इष्टतम जटिलता के मॉडल का चयन करना संभव हो जाता है। कई लोकप्रिय मानदंड हैं:


 * नियमितता का मानदंड (सीआर) - नमूना बी पर एक मॉडल का न्यूनतम वर्ग।
 * न्यूनतम पूर्वाग्रह या संगति का मानदंड - दो अलग-अलग नमूनों ए और बी के आधार पर विकसित दो मॉडलों के अनुमानित आउटपुट (या गुणांक वैक्टर) के बीच अंतर की एक वर्ग त्रुटि, नमूना बी पर अनुमानित वर्ग आउटपुट द्वारा विभाजित। का उपयोग करके मॉडल की तुलना यह सुसंगत मॉडल प्राप्त करने और शोर वाले डेटा से छिपे हुए भौतिक नियम को पुनर्प्राप्त करने में सक्षम बनाता है। * क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन मानदंड।

जीएमडीएच
का उपयोग करके मॉडल विकास का एक सरल विवरण

जीएमडीएच का उपयोग करके मॉडलिंग के लिए, केवल चयन मानदंड और अधिकतम मॉडल जटिलता पूर्व-चयनित हैं। फिर, डिज़ाइन प्रक्रिया पहली परत से शुरू होती है और आगे बढ़ती है। छिपी हुई परतों में परतों और न्यूरॉन्स की संख्या, मॉडल संरचना स्वचालित रूप से निर्धारित होती है। स्वीकार्य इनपुट के सभी संभावित संयोजनों (सभी संभावित न्यूरॉन्स) पर विचार किया जा सकता है। फिर बहुपद गुणांकों को उपलब्ध न्यूनतम तरीकों में से एक जैसे एकवचन मूल्य अपघटन (प्रशिक्षण डेटा के साथ) का उपयोग करके निर्धारित किया जाता है। फिर, बेहतर बाहरी मानदंड मान वाले न्यूरॉन्स (डेटा के परीक्षण के लिए) रखे जाते हैं, और अन्य हटा दिए जाते हैं। यदि परत के सर्वश्रेष्ठ न्यूरॉन के लिए बाहरी मानदंड न्यूनतम तक पहुंच जाता है या रुकने वाले मानदंड से अधिक हो जाता है, तो नेटवर्क डिज़ाइन पूरा हो जाता है और अंतिम परत के सर्वश्रेष्ठ न्यूरॉन की बहुपद अभिव्यक्ति को गणितीय भविष्यवाणी फ़ंक्शन के रूप में पेश किया जाता है; यदि नहीं, तो अगली परत तैयार हो जाएगी और यह प्रक्रिया चलती रहेगी।

जीएमडीएच-प्रकार तंत्रिका नेटवर्क
आंशिक मॉडल पर विचार के लिए ऑर्डर चुनने के कई अलग-अलग तरीके हैं। जीएमडीएच में उपयोग किया जाने वाला सबसे पहला विचार आदेश और जिसे मूल रूप से मल्टीलेयर इंडक्टिव प्रक्रिया कहा जाता है, सबसे लोकप्रिय है। यह बेस फ़ंक्शन से उत्पन्न धीरे-धीरे जटिल मॉडलों को छांटना है। सर्वोत्तम मॉडल को न्यूनतम बाहरी मानदंड विशेषता द्वारा दर्शाया जाता है। बहुस्तरीय प्रक्रिया न्यूरॉन्स के बहुपद सक्रियण कार्य के साथ कृत्रिम तंत्रिका नेटवर्क के बराबर है। इसलिए, ऐसे दृष्टिकोण वाले एल्गोरिदम को आमतौर पर जीएमडीएच-प्रकार न्यूरल नेटवर्क या पॉलीनोमियल न्यूरल नेटवर्क के रूप में जाना जाता है। ली ने दिखाया कि जीएमडीएच-प्रकार के तंत्रिका नेटवर्क ने सिंगल एक्सपोनेंशियल स्मूथ, डबल एक्सपोनेंशियल स्मूथ, एआरआईएमए और बैक-प्रोपेगेशन न्यूरल नेटवर्क जैसे शास्त्रीय पूर्वानुमान एल्गोरिदम से बेहतर प्रदर्शन किया।

कॉम्बिनेटोरियल जीएमडीएच
आंशिक मॉडलों पर विचार करने के लिए एक और महत्वपूर्ण दृष्टिकोण जो अधिक से अधिक लोकप्रिय हो रहा है वह एक संयुक्त खोज है जो या तो सीमित है या पूर्ण है। इस दृष्टिकोण के बहुपद तंत्रिका नेटवर्क के मुकाबले कुछ फायदे हैं, लेकिन इसके लिए काफी कम्प्यूटेशनल शक्ति की आवश्यकता होती है और इस प्रकार यह बड़ी संख्या में इनपुट वाली वस्तुओं के लिए प्रभावी नहीं है। कॉम्बिनेटोरियल जीएमडीएच की एक महत्वपूर्ण उपलब्धि यह है कि यदि इनपुट डेटा में शोर का स्तर शून्य से अधिक है तो यह रैखिक प्रतिगमन दृष्टिकोण से पूरी तरह से बेहतर प्रदर्शन करता है। यह गारंटी देता है कि संपूर्ण सॉर्टिंग के दौरान सबसे इष्टतम मॉडल स्थापित किया जाएगा।

बेसिक कॉम्बिनेटोरियल एल्गोरिदम निम्नलिखित चरण बनाता है:


 * डेटा सैंपल को कम से कम दो सैंपल ए और बी में विभाजित करता है।
 * लगातार बढ़ती जटिलता के साथ आंशिक मॉडल के अनुसार ए से उप-नमूने उत्पन्न करता है।
 * मॉडल जटिलता की प्रत्येक परत पर आंशिक मॉडल के गुणांक का अनुमान लगाता है।
 * नमूना बी पर मॉडल के लिए बाहरी मानदंड के मूल्य की गणना करता है।
 * मानदंड के न्यूनतम मूल्य द्वारा इंगित सर्वोत्तम मॉडल (मॉडल का सेट) चुनता है।
 * इष्टतम जटिलता के चयनित मॉडल के लिए संपूर्ण डेटा नमूने पर गुणांकों की पुनर्गणना करें।

जीएमडीएच-प्रकार के तंत्रिका नेटवर्क के विपरीत, कॉम्बिनेटोरियल एल्गोरिदम आमतौर पर जटिलता के निश्चित स्तर पर नहीं रुकता है क्योंकि मानदंड मान में वृद्धि का एक बिंदु केवल एक स्थानीय न्यूनतम हो सकता है, चित्र 1 देखें।

एल्गोरिदम

 * कॉम्बिनेटोरियल (COMBI)
 * बहुस्तरीय पुनरावृत्त (एमआईए)
 * जीएन
 * वस्तुनिष्ठ प्रणाली विश्लेषण (ओएसए)
 * हार्मोनिक
 * दो स्तरीय (ARIMAD)
 * गुणक-योगात्मक (एमएए)
 * वस्तुनिष्ठ कंप्यूटर क्लस्टरीकरण (ओसीसी);
 * पॉइंटिंग फिंगर (पीएफ) क्लस्टराइजेशन एल्गोरिदम;
 * एनालॉग कॉम्प्लेक्सिंग (एसी)
 * हार्मोनिक पुनर्विवेचन
 * सांख्यिकीय निर्णयों के बहुस्तरीय सिद्धांत (एमटीएसडी) के आधार पर एल्गोरिदम
 * अनुकूली मॉडल विकास का समूह (गेम)

सॉफ़्टवेयर की सूची

 * फर्जी गेम प्रोजेक्ट - खुला स्रोत। क्रॉस-प्लेटफ़ॉर्म।
 * GEvom - शैक्षणिक उपयोग के लिए अनुरोध पर निःशुल्क। केवल विंडोज़.
 * GMDH Shell - GMDH-आधारित, पूर्वानुमानित विश्लेषण और समय श्रृंखला पूर्वानुमान सॉफ्टवेयर। निःशुल्क शैक्षणिक लाइसेंसिंग और निःशुल्क परीक्षण संस्करण उपलब्ध है। केवल विंडोज़.
 * नॉलेजमाइनर - वाणिज्यिक उत्पाद। केवल मैक ओएस एक्स। निःशुल्क डेमो संस्करण उपलब्ध है।
 * पीएनएन डिस्कवरी क्लाइंट - वाणिज्यिक उत्पाद।
 * साइंसी आरपीएफ! - फ्रीवेयर, ओपन सोर्स।
 * wGMDH - वेका (मशीन लर्निंग) प्लगइन, ओपन सोर्स।
 * R पैकेज - खुला स्रोत।
 * प्रतिगमन कार्यों के लिए आर पैकेज - खुला स्रोत।
 * एमआईए एल्गोरिदम की पायथन लाइब्रेरी - खुला स्रोत।

बाहरी संबंध

 * Library of GMDH books and articles
 * Group Method of Data Handling

अग्रिम पठन

 * A.G. Ivakhnenko. Heuristic Self-Organization in Problems of Engineering Cybernetics, Automatica, vol.6, 1970 — p. 207-219.
 * S.J. Farlow. Self-Organizing Methods in Modelling: GMDH Type Algorithms. New-York, Bazel: Marcel Decker Inc., 1984, 350 p.
 * H.R. Madala, A.G. Ivakhnenko. Inductive Learning Algorithms for Complex Systems Modeling. CRC Press, Boca Raton, 1994.