सार्वभौमिक सन्निकटन प्रमेय

गणित के कृत्रिम तंत्रिका नेटवर्क सिद्धांत में, सार्वभौमिक सन्निकटन प्रमेय वे परिणाम हैं जो सूचित करते हैं कि तंत्रिका नेटवर्क सैद्धान्तिक रूप से क्या सीख सकते हैं अर्थात ये प्रमेय उन एक दिए गए फलन समष्टि के भीतर एक विधिकलनात्मक रूप से उत्पन्न फलन वर्ग के घन समुच्चय को स्थापित करते हैं। सामान्यतः, ये परिणाम दो यूक्लिडियन समष्टियों के बीच सतत फलनों के स्थान पर फीडफॉरवर्ड न्यूरल नेटवर्क की सन्निकटन क्षमताओं सन्निकटन सघन अभिसरण सांस्थिति से संबंधित हैं।

यद्यपि, गैर-यूक्लिडियन समष्टियों के बीच भी विभिन्न प्रकार के परिणाम हैं और अन्य सामान्यतः उपयोग किए जाने वाले संरचना और, अधिक सामान्यतः, विधिकलन द्वारा उत्पन्न फलनों के समुच्चय, जैसे संवलन तंत्रिका नेटवर्क (सीएनएन) संरचना,  त्रिज्यीय आधार फलन, या विशिष्ट गुणों वाले तंत्रिका नेटवर्क आदि।  अधिकांश सार्वभौमिक सन्निकटन प्रमेयों को दो वर्गों में विभाजित किया जा सकता है। पहला कृत्रिम तंत्रिकाओं की एक यादृच्छिक संख्या के साथ तंत्रिका नेटवर्क की अनुमानित क्षमताओं को निर्धारित करता है और दूसरा छिपी हुई परतों की एक यादृच्छिक संख्या के साथ विषय पर ध्यान केंद्रित करता है, प्रत्येक वर्ग में सीमित संख्या में कृत्रिम तंत्रिकाएँ होती है। इन दो वर्गों के अतिरिक्त, तंत्रिका नेटवर्क के लिए छिपी हुई परतों की सीमित संख्या और प्रत्येक परत में सीमित संख्या में तंत्रिकाओं के साथ सार्वभौमिक सन्निकटन प्रमेय भी सम्मिलित हैं।

सार्वभौमिक सन्निकटन प्रमेय का अर्थ है कि उचित भार दिए जाने पर तंत्रिका नेटवर्क विभिन्न प्रकार के रोचक कार्यों का प्रतिनिधित्व कर सकते हैं। दूसरी ओर, वे सामान्यतः वज़न के लिए कोई निर्माण प्रदान नहीं करते हैं, बल्कि केवल यह बताते हैं कि ऐसा निर्माण संभव है।

इतिहास
सिग्मॉइड फ़ंक्शन सक्रियण फ़ंक्शंस के लिए मनमानी चौड़ाई मामले के पहले संस्करणों में से एक जॉर्ज साइबेंको द्वारा 1989 में सिद्ध किया गया था। Kurt Hornik, मैक्सवेल स्टिंचकॉम्ब और हेल्बर्ट व्हाइट  ने 1989 में दिखाया कि कम से कम एक छिपी हुई परत वाले बहुपरत फ़ीड-फ़ॉरवर्ड नेटवर्क सार्वभौमिक सन्निकटन हैं। हॉर्निक ने 1991 में भी दिखाया था यह सक्रियण फ़ंक्शन का विशिष्ट विकल्प नहीं है, बल्कि मल्टीलेयर फ़ीड-फ़ॉरवर्ड संरचना ही है जो तंत्रिका नेटवर्क को सार्वभौमिक सन्निकटनकर्ता होने की क्षमता देता है। 1993 में मोशे लेश्नो एट अल और बाद में 1999 में एलन पिंकस दिखाया गया कि सार्वभौमिक सन्निकटन गुण एक गैर-बहुपद सक्रियण फ़ंक्शन के बराबर है। 2022 में, शेन ज़ुओवेई, हाइझाओ यांग और शिजुन झांग गहरे और विस्तृत ReLU तंत्रिका नेटवर्क द्वारा लक्ष्य फ़ंक्शन का अनुमान लगाने के लिए आवश्यक गहराई और चौड़ाई पर सटीक मात्रात्मक जानकारी प्राप्त की गई।

मनमानी गहराई के मामले का अध्ययन 2003 में गुस्ताफ ग्रिपेनबर्ग जैसे कई लेखकों द्वारा भी किया गया था, दिमित्री यारोत्स्की, 2017 में झोउ लू एट अल, 2018 में बोरिस हैनिन और मार्क सेल्के जिन्होंने ReLU सक्रियण फ़ंक्शन के साथ तंत्रिका नेटवर्क पर ध्यान केंद्रित किया। 2020 में, पैट्रिक किडगर और टेरी लियोन्स उन परिणामों को सामान्य सक्रियण कार्यों के साथ तंत्रिका नेटवर्क तक विस्तारित किया गया, जैसे टैन, जीएलयू, या स्विश, और 2022 में, उनके परिणाम को लियोनी पापोन और अनास्तासिस क्रैटसियोस द्वारा मात्रात्मक बनाया गया था जिन्होंने लक्ष्य फ़ंक्शन और सक्रियण फ़ंक्शन की नियमितता के आधार पर स्पष्ट गहराई का अनुमान लगाया।

सार्वभौमिकता के लिए न्यूनतम संभावित चौड़ाई के प्रश्न का पहली बार 2021 में अध्ययन किया गया था, पार्क एट अल ने एलपी स्पेस के सार्वभौमिक सन्निकटन के लिए आवश्यक न्यूनतम चौड़ाई प्राप्त की|एलपी सक्रियण कार्यों के रूप में रेक्टिफायर (तंत्रिका नेटवर्क) के साथ फीडफॉरवर्ड न्यूरल नेटवर्क का उपयोग करके कार्य करता है। इसी तरह के परिणाम जो सीधे अवशिष्ट तंत्रिका नेटवर्क पर लागू किए जा सकते हैं, उसी वर्ष नियंत्रण सिद्धांत | नियंत्रण-सैद्धांतिक तर्कों का उपयोग करके पाउलो तबुआडा और बहमन घरेसिफ़र्ड द्वारा भी प्राप्त किए गए थे। 2023 में, सी.ए.आई सार्वभौमिक सन्निकटन के लिए बाध्य इष्टतम न्यूनतम चौड़ाई प्राप्त की।

बंधी हुई गहराई और बंधी हुई चौड़ाई के मामले का अध्ययन पहली बार 1999 में मायोरोव और पिंकस द्वारा किया गया था। उन्होंने दिखाया कि एक विश्लेषणात्मक सिग्मोइडल सक्रियण फ़ंक्शन मौजूद है जैसे कि छिपी हुई परतों में इकाइयों की सीमित संख्या वाले दो छिपे हुए परत तंत्रिका नेटवर्क सार्वभौमिक सन्निकटन हैं। विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने एक चिकनी सिग्मॉइडल सक्रियण फ़ंक्शन का निर्माण किया, जो छिपी हुई परतों में कम इकाइयों के साथ दो छिपी हुई परत फीडफॉरवर्ड न्यूरल नेटवर्क के लिए सार्वभौमिक सन्निकटन संपत्ति प्रदान करता है। यह 2018 के पेपर में रचनात्मक रूप से साबित हुआ था सीमित चौड़ाई वाले एकल छिपे हुए परत नेटवर्क अभी भी अविभाज्य कार्यों के लिए सार्वभौमिक सन्निकटन हैं, लेकिन यह गुण अब बहुपरिवर्तनीय कार्यों के लिए सत्य नहीं है।

प्रमेय के कई विस्तार मौजूद हैं, जैसे असंतत सक्रियण कार्य, नॉनकॉम्पैक्ट डोमेन, प्रमाणित नेटवर्क, यादृच्छिक तंत्रिका नेटवर्क, और वैकल्पिक नेटवर्क संरचना और टोपोलॉजी।

मनमानी-चौड़ाई का मामला
1980-1990 के दशक में जॉर्ज साइबेंको और के पत्रों की बाढ़ आ गई Kurt Hornik आदि ने मनमानी चौड़ाई और सीमित गहराई के लिए कई सार्वभौमिक सन्निकटन प्रमेय स्थापित किए। देखना समीक्षा के लिए. निम्नलिखित को सबसे अधिक बार उद्धृत किया गया है:

इस तरह के एक $$f$$ पहली परत के लिए समान निर्माण का उपयोग करके और बाद की परतों के साथ पहचान फ़ंक्शन का अनुमान लगाकर अधिक गहराई के नेटवर्क द्वारा भी अनुमान लगाया जा सकता है।

$$

छिपी हुई परतों के आउटपुट को एक साथ गुणा करने की अनुमति देकर बहुपद के साथ समस्या को दूर किया जा सकता है (पीआई-सिग्मा नेटवर्क), जिससे सामान्यीकरण प्राप्त होता है:

मनमाना-गहराई वाला मामला
प्रमेय के 'दोहरे' संस्करण सीमित चौड़ाई और मनमानी गहराई के नेटवर्क पर विचार करते हैं। झोउ लू एट अल द्वारा मनमानी गहराई के मामले के लिए सार्वभौमिक सन्निकटन प्रमेय का एक प्रकार सिद्ध किया गया था। 2017 में. उन्होंने दिखाया कि ReLU सक्रियण कार्यों के साथ चौड़ाई n+4 के नेटवर्क L1 दूरी के संबंध में n-आयामी इनपुट स्थान पर किसी भी Lebesgue एकीकरण का अनुमान लगा सकते हैं|$$L^{1}$$ यदि नेटवर्क की गहराई बढ़ने दी जाए तो दूरी। यह भी दिखाया गया कि यदि चौड़ाई n से कम या उसके बराबर थी, तो किसी भी लेबेस्ग इंटीग्रेबल फ़ंक्शन का अनुमान लगाने की यह सामान्य अभिव्यंजक शक्ति खो गई थी। उसी अखबार में यह दिखाया गया कि चौड़ाई n+1 वाले ReLU नेटवर्क n-आयामी इनपुट चर के किसी भी सतत फ़ंक्शन फ़ंक्शन को अनुमानित करने के लिए पर्याप्त थे। निम्नलिखित परिशोधन, इष्टतम न्यूनतम चौड़ाई निर्दिष्ट करता है जिसके लिए ऐसा अनुमान संभव है और इसके कारण है।  सार्वभौमिक सन्निकटन प्रमेय (L1 दूरी, ReLU सक्रियण, मनमानी गहराई, न्यूनतम चौड़ाई)। किसी भी Bochner इंटीग्रल के लिए|Bochner–Lebesgue p-इंटीग्रेबल फ़ंक्शन $$f : \mathbb { R } ^ { n } \rightarrow \mathbb { R } ^ { m }$$ और कोई भी $$\epsilon > 0$$, एक पूरी तरह पूरी तरह से जुड़ा हुआ नेटवर्क मौजूद है|पूरी तरह से कनेक्टेड ReLU नेटवर्क $$F$$ बिलकुल चौड़ाई का $$d _ { m }= \max\{{n + 1},m\}$$, संतुष्टि देने वाला


 * $$ \int _ { \mathbb { R } ^ { n } } \left\| f ( x ) - F _ { } ( x ) \right\|^p \mathrm { d } x < \epsilon$$.

इसके अलावा, एक फ़ंक्शन मौजूद है $$f \in L^p(\mathbb{R}^n,\mathbb{R}^m)$$ और कुछ $$\epsilon >0$$, जिसके लिए कोई पूरी तरह से कनेक्टेड नेटवर्क नहीं है|से कम चौड़ाई का पूरी तरह से कनेक्टेड ReLU नेटवर्क है $$d _ { m }= \max\{{n + 1},m\}$$ उपरोक्त सन्निकटन सीमा को संतुष्ट करना।

टिप्पणी: यदि सक्रियण को लीकी-रेएलयू द्वारा प्रतिस्थापित किया जाता है, और इनपुट एक कॉम्पैक्ट डोमेन में प्रतिबंधित है, तो सटीक न्यूनतम चौड़ाई है $$d _ { m }= \max\{n,m,2\}$$.

मात्रात्मक शोधन: मामले में कहाँ, कब $$\mathcal{X}=[0,1]^d$$ और $$D=1$$ और कहाँ $$\sigma$$ रेक्टिफायर (तंत्रिका नेटवर्क) है तो, एक ReLU नेटवर्क को प्राप्त करने के लिए सटीक गहराई और चौड़ाई $$\varepsilon$$ त्रुटि भी ज्ञात है. यदि, इसके अलावा, लक्ष्य फ़ंक्शन $$f$$ चिकनी है तो परतों की आवश्यक संख्या और उनकी चौड़ाई तेजी से छोटी हो सकती है। भले ही $$f$$ सहज नहीं है, यदि आयामीता का अभिशाप तोड़ा जा सकता है $$f$$ अतिरिक्त रचनात्मक संरचना को स्वीकार करता है। 

साथ में, का केंद्रीय परिणाम सीमित चौड़ाई वाले नेटवर्क के लिए निम्नलिखित सार्वभौमिक सन्निकटन प्रमेय उत्पन्न होता है (सीएफ भी)। इस तरह के पहले परिणाम के लिए)।

 सार्वभौमिक सन्निकटन प्रमेय (समान गैर-एफ़िन परिवर्तन सक्रियण, मनमाना गहन शिक्षण, बाधित चौड़ाई)। होने देना $$\mathcal{X}$$ का एक कॉम्पैक्ट सेट बनें $$\mathbb{R}^d$$. होने देना $$\sigma:\mathbb{R}\to\mathbb{R}$$ कोई भी गैर-एफ़िन परिवर्तन सतत फ़ंक्शन फ़ंक्शन हो जो कि कम से कम एक बिंदु पर अवकलनीय फ़ंक्शन#डिफ़रेंशियाबिलिटी वर्ग हो, उस बिंदु पर गैर-शून्य व्युत्पन्न हो। होने देना $$\mathcal{N}_{d,D:d+D+2}^{\sigma}$$ फ़ीड-फ़ॉरवर्ड तंत्रिका नेटवर्क के स्थान को निरूपित करें $$d$$ इनपुट न्यूरॉन्स, $$D$$ आउटपुट न्यूरॉन्स, और प्रत्येक के साथ छिपी हुई परतों की एक मनमानी संख्या $$d + D + 2$$ न्यूरॉन्स, जैसे कि प्रत्येक छिपे हुए न्यूरॉन में सक्रियण कार्य होता है $$\sigma$$ और प्रत्येक आउटपुट न्यूरॉन में इनपुट परत के साथ सक्रियण फ़ंक्शन के रूप में पहचान फ़ंक्शन होता है $$ \phi $$, और आउटपुट परत $$ \rho$$. फिर कोई भी दिया $$\varepsilon>0$$ और कोई भी $$f\in C(\mathcal{X},\mathbb{R}^D)$$, वहां मौजूद $$\hat{f}\in \mathcal{N}_{d,D:d+D+2}^{\sigma}$$ ऐसा है कि



\sup_{x \in \mathcal{X}}\,\left\|\hat{f}(x)-f(x)\right\| < \varepsilon. $$ दूसरे शब्दों में, $$\mathcal{N}$$ घना सेट है $$C(\mathcal{X}; \mathbb{R}^D)$$ एकसमान अभिसरण की टोपोलॉजी के संबंध में।

मात्रात्मक शोधन: परतों की संख्या और प्रत्येक परत की चौड़ाई लगभग f के लिए आवश्यक है $$\varepsilon$$ परिशुद्धता ज्ञात; इसके अलावा, परिणाम तब सत्य होता है $$\mathcal{X}$$ और $$\mathbb{R}^D$$किसी भी गैर-सकारात्मक रूप से घुमावदार रीमैनियन मैनिफोल्ड के साथ प्रतिस्थापित किया जाता है। 

बंधी हुई चौड़ाई, मनमानी गहराई के मामले के लिए कुछ आवश्यक शर्तें स्थापित की गई हैं, लेकिन ज्ञात पर्याप्त और आवश्यक शर्तों के बीच अभी भी एक अंतर है।

बंधी हुई गहराई और बंधी हुई चौड़ाई का मामला
परतों की सीमित संख्या के साथ तंत्रिका नेटवर्क की अनुमानित क्षमताओं पर पहला परिणाम, प्रत्येक में सीमित संख्या में कृत्रिम न्यूरॉन्स होते हैं, मायोरोव और पिंकस द्वारा प्राप्त किया गया था। उनके उल्लेखनीय परिणाम से पता चला कि ऐसे नेटवर्क सार्वभौमिक अनुमानक हो सकते हैं और इस संपत्ति को प्राप्त करने के लिए दो छिपी हुई परतें पर्याप्त हैं।  सार्वभौमिक सन्निकटन प्रमेय: एक सक्रियण फ़ंक्शन मौजूद है $$\sigma$$ जो विश्लेषणात्मक है, सख्ती से बढ़ रहा है और सिग्मोइडल और निम्नलिखित संपत्ति है: किसी के लिए $$ f\in C[0,1]^{d}$$ और $$ \varepsilon >0$$ वहाँ स्थिरांक मौजूद हैं $$d_{i}, c_{ij}, \theta _{ij}, \gamma _{i}$$, और वैक्टर $$ \mathbf{w}^{ij}\in \mathbb{R}^{d}$$ जिसके लिए

<गणित प्रदर्शन='ब्लॉक'> \left\vert f(\mathbf{x})-\sum_{i=1}^{6d+3}d_{i}\sigma\left( \sum_{j=1}^{3d}c_{ij}\sigma(\mathbf{w}^{ij}\cdot \mathbf{x-}\theta _{ij})-\गामा _{i}\दाएं) \दाएं\vert <\varepsilon

सभी के लिए गणित> \mathbf{x}=(x_{1},...,x_{d})\in [0,1]^{d}. 

यह अस्तित्व का परिणाम है. इसमें कहा गया है कि सीमित गहराई और सीमित चौड़ाई वाले नेटवर्क के लिए सार्वभौमिक सन्निकटन संपत्ति प्रदान करने वाले सक्रियण फ़ंक्शन मौजूद हैं। कुछ विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने संख्यात्मक पैरामीटर के आधार पर कुशलतापूर्वक ऐसे सक्रियण कार्यों का निर्माण किया। विकसित एल्गोरिदम किसी को वास्तविक अक्ष के किसी भी बिंदु पर सक्रियण कार्यों की तुरंत गणना करने की अनुमति देता है। एल्गोरिदम और संबंधित कंप्यूटर कोड के लिए देखें। सैद्धांतिक परिणाम निम्नानुसार तैयार किया जा सकता है।  सार्वभौमिक सन्निकटन प्रमेय: होने देना  $$ [a,b]$$ वास्तविक रेखा का एक परिमित खंड बनें, $$ s=b-a$$ और $$ \lambda$$ कोई भी धनात्मक संख्या हो. फिर कोई एल्गोरिदमिक रूप से एक गणना योग्य सिग्मोइडल सक्रियण फ़ंक्शन का निर्माण कर सकता है $$ \sigma \colon \mathbb{R} \to \mathbb{R}$$, जो असीम रूप से भिन्न है, सख्ती से बढ़ रहा है $$ (-\infty, s) $$, $$ \lambda$$ -सख्ती से बढ़ रहा है $$ [s,+\infty) $$, और निम्नलिखित गुणों को संतुष्ट करता है:

1) किसी के लिए $$ f \in C[a,b] $$ और $$ \varepsilon > 0$$ वहाँ संख्याएँ मौजूद हैं $$ c_1,c_2,\theta_1$$ और $$ \theta_2$$ ऐसा कि सभी के लिए $$x \in [a,b] $$ <गणित डिस्प्ले='ब्लॉक'> |f(x) - c_1 \sigma(x - \theta_1) - c_2 \sigma(x - \theta_2)| < \varepsilon

2) किसी भी सतत कार्य के लिए गणित>एफपर गणित>डी-आयामी बॉक्स $$[a,b]^{d}$$ और $$\varepsilon >0$$, वहाँ स्थिरांक मौजूद हैं $$e_p$$, $$c_{pq}$$, $$\theta_{pq}$$ और $$\zeta_p$$ ऐसी कि असमानता <गणित प्रदर्शन='ब्लॉक'> \बाएँ| F(\mathbf{x}) - \sum_{p=1}^{2d+2} e_p \sigma \left( \sum_{q=1}^{d} c_{pq} \sigma(\mathbf{w }^{q} \cdot \mathbf{x} - \theta_{pq}) - \zeta_p \right) \right| < \varepsilon सभी के लिए धारण करता है गणित>\mathbf{x} = (x_1, \ldots, x_d) \in [a, b]^{d} . यहाँ वजन $$\mathbf{w}^{q}$$, $$q = 1, \ldots, d$$, निम्नानुसार तय किए गए हैं: <गणित प्रदर्शन='ब्लॉक'> \mathbf{w}^{1} = (1, 0, \ldots, 0), \quad \mathbf{w}^{2} = (0, 1, \ldots, 0 ), \quad \ldots, \quad \mathbf{w}^{d} = (0, 0, \ldots, 1).  इसके अलावा, सभी गुणांक गणित>e_p, एक को छोड़कर, बराबर हैं। 

यहाँ "$$ \sigma \colon \mathbb{R} \to \mathbb{R}$$ है $$\lambda$$-कुछ सेट पर सख्ती से बढ़ोतरी हो रही है $$X$$” इसका मतलब है कि सख्ती से बढ़ता हुआ कार्य मौजूद है $$u \colon X \to \mathbb{R}$$ ऐसा है कि $$|\sigma(x) - u(x)| \le \lambda$$ सभी के लिए $$x \in X$$. जाहिर है, ए $$\lambda$$-बढ़ता हुआ फलन सामान्य बढ़ते हुए फलन की तरह व्यवहार करता है $$\lambda$$ छोटा हो जाता है. गहराई-चौड़ाई शब्दावली में, उपरोक्त प्रमेय कहता है कि कुछ सक्रियण कार्यों के लिए गहराई-$$2$$ चौड़ाई-$$2$$ नेटवर्क अविभाज्य कार्यों और गहराई के लिए सार्वभौमिक सन्निकटन हैं-$$3$$ चौड़ाई-$$ (2d+2) $$ नेटवर्क सार्वभौमिक सन्निकटन हैं $$d$$-परिवर्तनीय कार्य ($$d>1$$).

ग्राफ़ इनपुट
ग्राफ़ पर (या ग्राफ़ समरूपता पर) उपयोगी सार्वभौमिक फ़ंक्शन सन्निकटन प्राप्त करना एक लंबे समय से चली आ रही समस्या रही है। लोकप्रिय ग्राफ कन्वोल्यूशनल न्यूरल नेटवर्क (जीसीएन या जीएनएन) को वेइस्फिलर-लेमन ग्राफ समरूपता  परीक्षण के रूप में भेदभावपूर्ण बनाया जा सकता है। 2020 में, एक सार्वभौमिक सन्निकटन प्रमेय परिणाम ब्रुएल-गेब्रियलसन द्वारा स्थापित किया गया था, जिसमें दिखाया गया था कि कुछ विशेषण गुणों के साथ ग्राफ़ प्रतिनिधित्व, सीमित ग्राफ़ पर सार्वभौमिक फ़ंक्शन सन्निकटन और असीमित ग्राफ़ पर प्रतिबंधित सार्वभौमिक फ़ंक्शन सन्निकटन के लिए पर्याप्त है, साथ में $$O($$#किनारे$$\times$$#नोड्स$$)$$-रनटाइम विधि जो बेंचमार्क के संग्रह पर अत्याधुनिक प्रदर्शन करती है।

यह भी देखें

 * कोलमोगोरोव-अर्नोल्ड प्रतिनिधित्व प्रमेय
 * प्रतिनिधि प्रमेय
 * कोई निःशुल्क लंच प्रमेय नहीं
 * स्टोन-वीयरस्ट्रैस प्रमेय
 * फोरियर श्रेणी