सार्वभौमिक सन्निकटन प्रमेय

गणित के कृत्रिम तंत्रिका नेटवर्क सिद्धांत में, सार्वभौमिक सन्निकटन प्रमेय वे परिणाम हैं जो सूचित करते हैं कि तंत्रिका नेटवर्क सैद्धान्तिक रूप से क्या सीख सकते हैं अर्थात ये प्रमेय उन एक दिए गए फलन समष्टि के भीतर एक विधिकलनात्मक रूप से उत्पन्न फलन वर्ग के घन समुच्चय को स्थापित करते हैं। सामान्यतः, ये परिणाम दो यूक्लिडियन समष्टियों के बीच सतत फलनों के स्थान पर फीडफॉरवर्ड न्यूरल नेटवर्क की सन्निकटन क्षमताओं सन्निकटन सघन अभिसरण सांस्थिति से संबंधित हैं।

यद्यपि, गैर-यूक्लिडियन समष्टियों के बीच भी विभिन्न प्रकार के परिणाम हैं और अन्य सामान्यतः उपयोग किए जाने वाले संरचना और, अधिक सामान्यतः, विधिकलन द्वारा उत्पन्न फलनों के समुच्चय, जैसे संवलन तंत्रिका नेटवर्क (सीएनएन) संरचना,  त्रिज्यीय आधार फलन, या विशिष्ट गुणों वाले तंत्रिका नेटवर्क आदि।  अधिकांश सार्वभौमिक सन्निकटन प्रमेयों को दो वर्गों में विभाजित किया जा सकता है। पहला कृत्रिम तंत्रिकाओं की एक यादृच्छिक संख्या के साथ तंत्रिका नेटवर्क की अनुमानित क्षमताओं को निर्धारित करता है और दूसरा छिपी हुई परतों की एक यादृच्छिक संख्या के साथ विषय पर ध्यान केंद्रित करता है, प्रत्येक वर्ग में सीमित संख्या में कृत्रिम तंत्रिकाएँ होती है। इन दो वर्गों के अतिरिक्त, तंत्रिका नेटवर्क के लिए छिपी हुई परतों की सीमित संख्या और प्रत्येक परत में सीमित संख्या में तंत्रिकाओं के साथ सार्वभौमिक सन्निकटन प्रमेय भी सम्मिलित हैं।

सार्वभौमिक सन्निकटन प्रमेय का अर्थ है कि उचित भार दिए जाने पर तंत्रिका नेटवर्क विभिन्न प्रकार के रोचक कार्यों का प्रतिनिधित्व कर सकते हैं। दूसरी ओर, वे सामान्यतः भार के लिए कोई निर्माण प्रदान नहीं करते हैं, बल्कि केवल यह बताते हैं कि ऐसा निर्माण संभव है।

इतिहास
सिग्मॉइड फलन, सक्रियण फलनों के लिए यादृच्छिक चौड़ाई परप्रेक्ष्य के पहले संस्करणों में से एक जॉर्ज साइबेंको द्वारा 1989 में सिद्ध किया गया था। कूरट हॉर्निक, मैक्सवेल स्टिंचकॉम्ब और हेल्बर्ट व्हाइट ने 1989 में प्रदर्शित किया कि कम से कम एक छिपी हुई परत वाले बहुपरत फ़ीड-फ़ॉरवर्ड नेटवर्क सार्वभौमिक सन्निकटन हैं। हॉर्निक ने 1991 में भी प्रदर्शित किया था की यह सक्रियण फलन का विशिष्ट विकल्प नहीं है, बल्कि बहुपरत फ़ीड-फ़ॉरवर्ड संरचना ही है जो तंत्रिका नेटवर्क को सार्वभौमिक सन्निकटनकर्ता होने की क्षमता प्रदान करती है। 1993 में मोशे लेश्नो एट अल और बाद में 1999 में एलन पिंकस द्वारा प्रदर्शित किया गया कि सार्वभौमिक सन्निकटन गुण एक गैर-बहुपद सक्रियण फलन के बराबर है। 2022 में, शेन ज़ुओवेई, हाइझाओ यांग और शिजुन झांग गहरे और विस्तृत रीलू (ReLU) तंत्रिका नेटवर्क द्वारा लक्ष्य फलन का अनुमान लगाने के लिए आवश्यक गहराई और चौड़ाई पर सटीक मात्रात्मक जानकारी प्राप्त की गई।

यादृच्छिक गहराई के परिप्रेक्ष्य का अध्ययन 2003 में गुस्ताफ ग्रिपेनबर्ग जैसे कई लेखकों द्वारा भी किया गया था, दिमित्री यारोत्स्की, 2017 में झोउ लू एट अल, 2018 में बोरिस हैनिन और मार्क सेल्के जिन्होंने रीलू सक्रियण फलन के साथ तंत्रिका नेटवर्क पर ध्यान केंद्रित किया। 2020 में, पैट्रिक किडगर और टेरी लियोन्स उन परिणामों को सामान्य सक्रियण कार्यों के साथ तंत्रिका नेटवर्क तक विस्तारित किया गया, जैसे टैन, जीएलयू, या स्विश, और 2022 में, उनके परिणाम को लियोनी पापोन और अनास्तासिस क्रैटसियोस द्वारा मात्रात्मक बनाया गया था जिन्होंने लक्ष्य फलन और सक्रियण फलन की नियमितता के आधार पर स्पष्ट गहराई का अनुमान लगाया।

सार्वभौमिकता के लिए न्यूनतम संभावित चौड़ाई के प्रश्न का पहली बार 2021 में अध्ययन किया गया था, पार्क एट अल ने एलपी स्पेस के सार्वभौमिक सन्निकटन के लिए आवश्यक न्यूनतम चौड़ाई Lp प्राप्त की जो सक्रियण कार्यों के रूप में दिष्टकारी तंत्रिका नेटवर्क के साथ फीडफॉरवर्ड न्यूरल नेटवर्क का उपयोग करके कार्य करता है। इसी तरह के परिणाम जो सीधे अवशिष्ट तंत्रिका नेटवर्क पर लागू किए जा सकते हैं, उसी वर्ष नियंत्रण सिद्धांत तर्कों का उपयोग करके पाउलो तबुआडा और बहमन घरेसिफ़र्ड द्वारा भी प्राप्त किए गए थे। 2023 में, सी.ए.आई सार्वभौमिक सन्निकटन के लिए बाध्य इष्टतम न्यूनतम चौड़ाई प्राप्त की गई।

परिबद्ध गहराई तथा परिबद्ध चौड़ाई के परिप्रेक्ष्य का अध्ययन पहली बार 1999 में मायोरोव और पिंकस द्वारा किया गया था। उन्होंने प्रदर्शित किया कि ऐसा एक विश्लेषणात्मक सिग्मोइडल सक्रियण फलन उपलब्ध है जिसके द्वारा दो छिपी हुई स्तर के कृत्रिम तंत्रिका नेटवर्क्स जिनमें छिपे हुए स्तरों में सीमित संख्या की इकाइयाँ होती हैं, वे एक सार्वभौमिक अद्यापक होते हैं। विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने एक स्मूद सिग्मॉइडल सक्रियण फलन का निर्माण किया, जो छिपी हुई परतों में कम इकाइयों के साथ दो छिपी हुई परत फीडफॉरवर्ड न्यूरल नेटवर्क के लिए सार्वभौमिक सन्निकटन गुण प्रदान करता है। यह 2018 के लेख में रचनात्मक रूप से सिद्ध हुआ था परिमित चौड़ाई वाले एकल छिपे हुए परत नेटवर्क अभी भी अविभाज्य कार्यों के लिए सार्वभौमिक सन्निकटन हैं, परंतु यह गुण अब बहुपरिवर्तनीय कार्यों के लिए सत्य नहीं है।

प्रमेय के कई विस्तार उपलब्ध हैं, जैसे असंतत सक्रियण फलन, अविस्तृत क्षेत्र, प्रमाणित नेटवर्क, यादृच्छिक तंत्रिका नेटवर्क, और वैकल्पिक नेटवर्क संरचना तथा सांस्थिति आदि।

यादृच्छिक-चौड़ाई प्रकर्ण
1980s-1990s में कई पेपर्स, जैसे कि जॉर्ज साइबेंको और कुर्त हॉरनिक आदि, ने कुछ ऐसे सार्वभौमिक सन्निकटन प्रमेय स्थापित किए जो किसी भी चौड़ाई और सीमित गहराई के लिए सत्य थे। समीक्षा के लिए को देखे। निम्नलिखित को सबसे अधिक बार उद्धृत किया गया है:

इस तरह के एक $$f$$ पहली परत के लिए समान निर्माण का उपयोग करके और बाद की परतों के साथ इकाई फलन का अनुमान लगाकर अधिक गहराई के नेटवर्क द्वारा भी अनुमान लगाया जा सकता है।

$$

छिपी हुई परतों के निर्गत को एक साथ गुणा करने की अनुमति देकर बहुपद के साथ समस्या को दूर किया जा सकता है (पीआई-सिग्मा नेटवर्क), जिससे सामान्यीकरण प्राप्त होता है:

यादृच्छिक-गहराई प्रकर्ण
प्रमेय के 'दोहरे' संस्करण परिमित चौड़ाई और यादृच्छिक गहराई के नेटवर्क पर विचार करते हैं। झोउ लू एट अल द्वारा यादृच्छिक गहराई के प्रकर्ण के लिए सार्वभौमिक सन्निकटन प्रमेय का एक प्रकार सिद्ध किया गया था। 2017 में उन्होंने प्रदर्शित किया कि रिलू सक्रियण फलनों के साथ चौड़ाई n+4 के नेटवर्क L1 दूरी के संबंध में n-आयामी निविष्ट समष्टि पर किसी भी लेब्सग्यू एकीकरण $$L^{1}$$ का अनुमान लगाया जा सकता है। यह भी प्रदर्शित किया गया कि यदि चौड़ाई n से कम या उसके बराबर थी, तो किसी भी लेबेस्ग एकीकरण फलन का अनुमान लगाने की यह सामान्य अभिव्यंजक क्षमता लुप्त हो गई थी। उसी समाचार पत्र में यह प्रदर्शित किया गया कि चौड़ाई n+1 वाले रिलू नेटवर्क n-आयामी निविष्ट चर के किसी भी सतत फलन फलन को अनुमानित करने के लिए पर्याप्त थे। निम्नलिखित परिशोधन, इष्टतम न्यूनतम चौड़ाई निर्दिष्ट करता है जिसके लिए ऐसा अनुमान संभव है।

सार्वजनिक सन्निकटन सिद्धांत (L1 दूरी, रेलू सक्रियण, विविध गहराई, न्यूनतम चौड़ाई). किसी भी बोक्नर–लेबेग p-अंशी फलन $$f : \mathbb R^n \to \mathbb R^m$$ और किसी भी $$\epsilon > 0$$ के लिए, एक पूर्ण जड़न रेलू संजाल $$F$$ का एक परिमित चौड़ाई $$d_m = \max{n + 1, m}$$ के साथ उपलब्ध है, जिसमें निम्नलिखित प्रमेय लागू होता है
 * $$\int_{\mathbb R^n} |f(x) - F(x)|^p \mathrm{d}x < \epsilon.$$


 * $$ \int _ { \mathbb { R } ^ { n } } \left\| f ( x ) - F _ { } ( x ) \right\|^p \mathrm { d } x < \epsilon$$.

इसके अतिरिक्त एक ऐसा फलन $$f \in L^p(\mathbb{R}^n, \mathbb{R}^m)$$ और कुछ $$\epsilon > 0$$ उपलब्ध है, जिसके लिए उपर्युक्त सन्निकटन सीमा को संतुष्ट करने वाली किसी भी पूर्ण जड़न रेलू संजाल की चौड़ाई $$d_m = \max{n + 1 ,m}$$ से कम नहीं होती है।

टिप्पणी: यदि सक्रियण को लीकी-रेएलयू द्वारा प्रतिस्थापित किया जाता है, और निविष्ट एक सघन क्षेत्र में प्रतिबंधित है, तो सटीक न्यूनतम चौड़ाई $$d _ { m }= \max\{n,m,2\}$$ है।

मात्रात्मक सुधार: उस मामले में, जब $$\mathcal{X} = [0, 1]^d$$ और $$D = 1$$ होता है और $$\sigma$$ रीलू सक्रियण फ़ंक्शन होता है, तो एक रीलू संजाल के लिए $$\varepsilon$$ त्रुटि प्राप्त करने के लिए आवश्यक गहराई और चौड़ाई की निश्चित गहराई और चौड़ाई भी जानी जाती है। और यदि उसले मल्ल फ़ंक्शन $$f$$ होता है, तो आवश्यक परतों की संख्या और उनकी चौड़ाई आधारी हो सकती है। यदि $$f$$ मल्ल नहीं है, तो यदि $$f$$ अतिरिक्त "संरचना" स्वीकार करता है, तो आयाम का बन्ध तोड़ा जा सकता है।

साथ ही, के मुख्य परिणाम से निम्नलिखित सीमांत चौड़ाई वाले संजालों के लिए निम्नलिखित सार्वजनिक सन्निकटन सिद्धांत देता है (इसके लिए पहले प्रकार के इस परिणाम के लिए देखें )।

सार्वजनिक सन्निकटन सिद्धांत (समान गैर-एफ़ाइन सक्रियण, विविध गहराई, परिसीमित चौड़ाई). $$\mathcal{X}$$ को $$\mathbb{R}^d$$ के एक संकुचित उपसमुच्चय माना जाता है। $$\sigma:\mathbb{R} \to \mathbb{R}$$ कोई ऐसा गैर-एफ़ाइन सतत फ़ंक्शन है जो कम से कम एक बिंदु पर सतत विभिन्नता वाला है, उस बिंदु पर उसका विभिन्नता शून्य नहीं है। $$\mathcal{N}{d,D:d+D+2}^\sigma$$ को $$d$$ इनपुट न्यूरॉन, $$D$$ आउटपुट न्यूरॉन, और हर एक छुपे हुए न्यूरॉन के साथ $$d + D + 2$$ न्यूरॉन होने वाले हर सामान्य छुपे हुए न्यूरॉन को सक्रियण $$\sigma$$ और प्रत्येक आउटपुट न्यूरॉन को उसके सक्रियण के रूप में पहचानकारी फ़ंक्शन रखकर पूर्ण फ़ीड-फ़ॉरवर्ड न्यूरल संजाल की जगह है, जिसमें इनपुट श्रेणी $$\phi$$ और आउटपुट श्रेणी $$\rho$$ होती है। तो किसी भी $$\varepsilon > 0$$ और किसी भी $$f \in C(\mathcal{X}, \mathbb{R}^D)$$ के लिए, ऐसा $$\hat{f} \in \mathcal{N}{d,D:d+D+2}^\sigma$$ मौजूद होता है जिसके लिए



\sup_{x \in \mathcal{X}} \left|\hat{f}(x) - f(x)\right| < \varepsilon. $$

दूसरे शब्दों में, $$\mathcal{N}$$ एकार्थिक संघटन की एकार्थिक गैर-संघटन की श्रेणी के आगामी में घने समूह में है $$C(\mathcal{X}; \mathbb{R}^D)$$ के संदर्भ में, समरूप संघटन की श्रेणी के साथ।

मात्रात्मक सुधार: $$f$$ को $$\varepsilon$$ सटीकता के लिए आवश्यक परिमाण की श्रेणी और प्रत्येक श्रेणी की चौड़ाई प्राप्त होती है; और, परिणाम $$\mathcal{X}$$ और $$\mathbb{R}^D$$ को किसी भी नॉन-सकारात्मक रिमानियन मैनिफ़ोल्ड के साथ परिवर्तन पर भी सत्य है।

विविध गहराई प्रकरण के लिए कुछ आवश्यक उपबंध प्रस्तावित किए गए हैं, परंतु ज्ञात प्रस्तावित और आवश्यक उपबंधों के बीच अब भी एक अंतर है।

परिबद्ध गहराई और परिबद्ध चौड़ाई प्रकर्ण
परतों की सीमित संख्या के साथ तंत्रिका नेटवर्क की अनुमानित क्षमताओं पर पहला परिणाम, प्रत्येक में सीमित संख्या में कृत्रिम न्यूरॉन्स होते हैं, मायोरोव और पिंकस द्वारा प्राप्त किया गया था। उनके उल्लेखनीय परिणाम से पता चला कि ऐसे नेटवर्क सार्वभौमिक अनुमानक हो सकते हैं और इस संपत्ति को प्राप्त करने के लिए दो छिपी हुई परतें पर्याप्त हैं।  सार्वभौमिक सन्निकटन प्रमेय: एक सक्रियण फलन मौजूद है $$\sigma$$ जो विश्लेषणात्मक है, सख्ती से बढ़ रहा है और सिग्मोइडल और निम्नलिखित संपत्ति है: किसी के लिए $$ f\in C[0,1]^{d}$$ और $$ \varepsilon >0$$ वहाँ स्थिरांक मौजूद हैं $$d_{i}, c_{ij}, \theta _{ij}, \gamma _{i}$$, और वैक्टर $$ \mathbf{w}^{ij}\in \mathbb{R}^{d}$$ जिसके लिए

<गणित प्रदर्शन='ब्लॉक'> \left\vert f(\mathbf{x})-\sum_{i=1}^{6d+3}d_{i}\sigma\left( \sum_{j=1}^{3d}c_{ij}\sigma(\mathbf{w}^{ij}\cdot \mathbf{x-}\theta _{ij})-\गामा _{i}\दाएं) \दाएं\vert <\varepsilon

सभी के लिए गणित> \mathbf{x}=(x_{1},...,x_{d})\in [0,1]^{d}. 

यह अस्तित्व का परिणाम है. इसमें कहा गया है कि सीमित गहराई और सीमित चौड़ाई वाले नेटवर्क के लिए सार्वभौमिक सन्निकटन संपत्ति प्रदान करने वाले सक्रियण फलन मौजूद हैं। कुछ विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने संख्यात्मक पैरामीटर के आधार पर कुशलतापूर्वक ऐसे सक्रियण कार्यों का निर्माण किया। विकसित एल्गोरिदम किसी को वास्तविक अक्ष के किसी भी बिंदु पर सक्रियण कार्यों की तुरंत गणना करने की अनुमति देता है। एल्गोरिदम और संबंधित कंप्यूटर कोड के लिए देखें। सैद्धांतिक परिणाम निम्नानुसार तैयार किया जा सकता है।  सार्वभौमिक सन्निकटन प्रमेय: होने देना  $$ [a,b]$$ वास्तविक रेखा का एक परिमित खंड बनें, $$ s=b-a$$ और $$ \lambda$$ कोई भी धनात्मक संख्या हो. फिर कोई एल्गोरिदमिक रूप से एक गणना योग्य सिग्मोइडल सक्रियण फलन का निर्माण कर सकता है $$ \sigma \colon \mathbb{R} \to \mathbb{R}$$, जो असीम रूप से भिन्न है, सख्ती से बढ़ रहा है $$ (-\infty, s) $$, $$ \lambda$$ -सख्ती से बढ़ रहा है $$ [s,+\infty) $$, और निम्नलिखित गुणों को संतुष्ट करता है:

1) किसी के लिए $$ f \in C[a,b] $$ और $$ \varepsilon > 0$$ वहाँ संख्याएँ मौजूद हैं $$ c_1,c_2,\theta_1$$ और $$ \theta_2$$ ऐसा कि सभी के लिए $$x \in [a,b] $$ <गणित डिस्प्ले='ब्लॉक'> |f(x) - c_1 \sigma(x - \theta_1) - c_2 \sigma(x - \theta_2)| < \varepsilon

2) किसी भी सतत कार्य के लिए गणित>एफपर गणित>डी-आयामी बॉक्स $$[a,b]^{d}$$ और $$\varepsilon >0$$, वहाँ स्थिरांक मौजूद हैं $$e_p$$, $$c_{pq}$$, $$\theta_{pq}$$ और $$\zeta_p$$ ऐसी कि असमानता <गणित प्रदर्शन='ब्लॉक'> \बाएँ| F(\mathbf{x}) - \sum_{p=1}^{2d+2} e_p \sigma \left( \sum_{q=1}^{d} c_{pq} \sigma(\mathbf{w }^{q} \cdot \mathbf{x} - \theta_{pq}) - \zeta_p \right) \right| < \varepsilon सभी के लिए धारण करता है गणित>\mathbf{x} = (x_1, \ldots, x_d) \in [a, b]^{d} . यहाँ वजन $$\mathbf{w}^{q}$$, $$q = 1, \ldots, d$$, निम्नानुसार तय किए गए हैं: <गणित प्रदर्शन='ब्लॉक'> \mathbf{w}^{1} = (1, 0, \ldots, 0), \quad \mathbf{w}^{2} = (0, 1, \ldots, 0 ), \quad \ldots, \quad \mathbf{w}^{d} = (0, 0, \ldots, 1).  इसके अलावा, सभी गुणांक गणित>e_p, एक को छोड़कर, बराबर हैं। 

यहाँ "$$ \sigma \colon \mathbb{R} \to \mathbb{R}$$ है $$\lambda$$-कुछ सेट पर सख्ती से बढ़ोतरी हो रही है $$X$$” इसका मतलब है कि सख्ती से बढ़ता हुआ कार्य मौजूद है $$u \colon X \to \mathbb{R}$$ ऐसा है कि $$|\sigma(x) - u(x)| \le \lambda$$ सभी के लिए $$x \in X$$. जाहिर है, ए $$\lambda$$-बढ़ता हुआ फलन सामान्य बढ़ते हुए फलन की तरह व्यवहार करता है $$\lambda$$ छोटा हो जाता है. गहराई-चौड़ाई शब्दावली में, उपरोक्त प्रमेय कहता है कि कुछ सक्रियण कार्यों के लिए गहराई-$$2$$ चौड़ाई-$$2$$ नेटवर्क अविभाज्य कार्यों और गहराई के लिए सार्वभौमिक सन्निकटन हैं-$$3$$ चौड़ाई-$$ (2d+2) $$ नेटवर्क सार्वभौमिक सन्निकटन हैं $$d$$-परिवर्तनीय कार्य ($$d>1$$).

ग्राफ़ इनपुट
ग्राफ़ पर (या ग्राफ़ समरूपता पर) उपयोगी सार्वभौमिक फलन सन्निकटन प्राप्त करना एक लंबे समय से चली आ रही समस्या रही है। लोकप्रिय ग्राफ कन्वोल्यूशनल न्यूरल नेटवर्क (जीसीएन या जीएनएन) को वेइस्फिलर-लेमन ग्राफ समरूपता  परीक्षण के रूप में भेदभावपूर्ण बनाया जा सकता है। 2020 में, एक सार्वभौमिक सन्निकटन प्रमेय परिणाम ब्रुएल-गेब्रियलसन द्वारा स्थापित किया गया था, जिसमें प्रदर्शित किया गया था कि कुछ विशेषण गुणों के साथ ग्राफ़ प्रतिनिधित्व, सीमित ग्राफ़ पर सार्वभौमिक फलन सन्निकटन और असीमित ग्राफ़ पर प्रतिबंधित सार्वभौमिक फलन सन्निकटन के लिए पर्याप्त है, साथ में $$O($$#किनारे$$\times$$#नोड्स$$)$$-रनटाइम विधि जो बेंचमार्क के संग्रह पर अत्याधुनिक प्रदर्शन करती है।

यह भी देखें

 * कोलमोगोरोव-अर्नोल्ड प्रतिनिधित्व प्रमेय
 * प्रतिनिधि प्रमेय
 * कोई निःशुल्क लंच प्रमेय नहीं
 * स्टोन-वीयरस्ट्रैस प्रमेय
 * फोरियर श्रेणी