तंत्रिका नेटवर्क गाऊसी प्रक्रिया

बायेसियन नेटवर्क घटनाओं की संभावनाओं को निर्दिष्ट करने के लिए मॉडलिंग उपकरण है, और इस प्रकार मॉडल की भविष्यवाणियों में अनिश्चितता को चिह्नित करता है। डीप लर्निंग और कृत्रिम तंत्रिका नेटवर्क ऐसे दृष्टिकोण हैं जिनका उपयोग यंत्र अधिगम में कम्प्यूटेशनल मॉडल बनाने के लिए किया जाता है जो प्रशिक्षण उदाहरणों से सीखते हैं। बायेसियन तंत्रिका नेटवर्क इन क्षेत्रों का विलय करते हैं। वे प्रकार के कृत्रिम तंत्रिका नेटवर्क हैं जिनके सांख्यिकीय पैरामीटर और पूर्वानुमान दोनों संभाव्य हैं। जबकि मानक कृत्रिम तंत्रिका नेटवर्क अधिकांश गलत भविष्यवाणियों पर भी उच्च विश्वास प्रदान करते हैं, बायेसियन तंत्रिका नेटवर्क अधिक त्रुटिहीन रूप से मूल्यांकन कर सकते हैं कि उनकी भविष्यवाणियां सही होने की कितनी संभावना है।

तंत्रिका नेटवर्क गाऊसी प्रक्रियाएं (एनएनजीपी) विशेष सीमा में बायेसियन तंत्रिका नेटवर्क के बराबर हैं,       और बायेसियन तंत्रिका नेटवर्क का मूल्यांकन करने के लिए बंद-रूप अभिव्यक्ति तरीका प्रदान करें। वे गाऊसी प्रक्रिया संभाव्यता वितरण हैं जो संबंधित बायेसियन तंत्रिका नेटवर्क द्वारा की गई भविष्यवाणियों पर वितरण का वर्णन करता है। कृत्रिम तंत्रिका नेटवर्क में गणना सामान्यतः कृत्रिम न्यूरॉन्स की अनुक्रमिक लेयर्स में व्यवस्थित की जाती है। लेयर में न्यूरॉन्स की संख्या को लेयर की चौड़ाई कहा जाता है। एनएनजीपी और बायेसियन तंत्रिका नेटवर्क के बीच समानता तब होती है जब बायेसियन तंत्रिका नेटवर्क में लेयरें अनन्तित रूप से चौड़ी (आंकड़ा देखें) हो जाती हैं। यह बड़ी चौड़ाई सीमा व्यावहारिक रुचि की है, क्योंकि लेयर की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले तंत्रिका नेटवर्क सामान्यतः बेहतर प्रदर्शन करते हैं।

एनएनजीपी कई अन्य संदर्भों में भी दिखाई देता है: यह व्यापक गैर-बायेसियन कृत्रिम तंत्रिका नेटवर्क द्वारा उनके मापदंडों के यादृच्छिक आरंभीकरण के बाद, किन्तु प्रशिक्षण से पहले की गई भविष्यवाणियों पर वितरण का वर्णन करता है; यह तंत्रिका स्पर्शरेखा कर्नेल भविष्यवाणी समीकरणों में शब्द के रूप में प्रकट होता है; इसका उपयोग डीप सूचना प्रसार में यह बताने के लिए किया जाता है कि हाइपरपैरामीटर और आर्किटेक्चर प्रशिक्षित करने योग्य होंगे या नहीं। यह तंत्रिका नेटवर्क की अन्य बड़ी चौड़ाई सीमाओं से संबंधित है।

कार्टून चित्रण
तंत्रिका नेटवर्क के मापदंडों की प्रत्येक सेटिंग $$\theta$$ तंत्रिका नेटवर्क द्वारा गणना किए गए विशिष्ट फ़ंक्शन से मेल खाता है। पूर्व वितरण $$p(\theta)$$ इसलिए तंत्रिका नेटवर्क मापदंडों पर नेटवर्क द्वारा गणना किए गए कार्यों पर पूर्व वितरण से मेल खाता है। जैसे-जैसे तंत्रिका नेटवर्क को अनन्त रूप से व्यापक बनाया जाता है, कार्यों पर यह वितरण कई आर्किटेक्चर के लिए गॉसियन प्रक्रिया में परिवर्तित हो जाता है।

दाईं ओर का चित्र दो इनपुट $$x$$ और $$x^*$$ के लिए एक तंत्रिका नेटवर्क के एक-आयामी आउटपुट $$z^L(\cdot;\theta)$$ को एक-दूसरे के विरुद्ध प्लॉट करता है। काले बिंदु $$p(\theta)$$ से पैरामीटर के यादृच्छिक ड्रॉ के लिए इन इनपुट पर तंत्रिका नेटवर्क द्वारा गणना किए गए फ़ंक्शन को दिखाते हैं। लाल रेखाएं नेटवर्क आउटपुट $$z^L(x;\theta)$$ और $$z^L(x^*;\theta)$$ पर $$p(\theta)$$ द्वारा प्रेरित संयुक्त वितरण के लिए आइसो-संभाव्यता रूपरेखा हैं। यह पैरामीटर स्पेस में वितरण $$p(\theta)$$ के अनुरूप फ़ंक्शन स्पेस में वितरण है, और काले बिंदु इस वितरण से नमूने हैं। अनन्तित व्यापक तंत्रिका नेटवर्क के लिए, चूंकि तंत्रिका नेटवर्क द्वारा गणना किए गए कार्यों पर वितरण एक गाऊसी प्रक्रिया है नेटवर्क आउटपुट पर संयुक्त वितरण नेटवर्क इनपुट के किसी भी सीमित सेट के लिए एक बहुभिन्नरूपी गाऊसी है।

इस अनुभाग में उपयोग किया गया नोटेशन एनएनजीपी और पूरी तरह से जुड़े नेटवर्क के बीच पत्राचार प्राप्त करने के लिए नीचे उपयोग किए गए नोटेशन के समान है, और अधिक विवरण वहां पाया जा सकता है।

आर्किटेक्चर जो एनएनजीपी के अनुरूप है
अनन्त रूप से विस्तृत बायेसियन तंत्रिका नेटवर्क और एनएनजीपी के बीच समानता को निम्न के लिए दिखाया गया है: एकल छिपी हुई लेयर और गहरी पूरी तरह से दृढ़ तंत्रिका नेटवर्क   क्योंकि प्रति लेयर इकाइयों की संख्या अनंत तक ले जाती है; चैनलों की संख्या के रूप में कन्वेन्शनल न्यूरल नेटवर्क को अनंत तक ले जाया जाता है; [8] [9] [10] ट्रांसफॉर्मर नेटवर्क को ध्यान प्रमुखों की संख्या के रूप में अनंत तक ले जाया जाता है; आवर्तक तंत्रिका नेटवर्क को इकाइयों की संख्या के रूप में अनंत तक ले जाया जाता है। वास्तव में, यह एनएनजीपी पत्राचार लगभग किसी भी वास्तुकला के लिए लागू होता है: सामान्यतः, यदि एक वास्तुकला को केवल मैट्रिक्स गुणन और समन्वयात्मक गैर-रैखिकता (यानी एक टेंसर प्रोग्राम) के माध्यम से व्यक्त किया जा सकता है, तो इसमें एक अनंत-चौड़ाई वाला जीपी होता है।

इसमें विशेष रूप से मल्टीलेयर परसेप्ट्रॉन, आवर्ती तंत्रिका नेटवर्क (जैसे एलएसटीएम, जीआरयू), (एनडी या ग्राफ) कनवल्शन, पूलिंग, स्किप कनेक्शन, ध्यान, बैच सामान्यीकरण, और/या लेयर सामान्यीकरण से बने सभी फीडफॉरवर्ड या आवर्ती तंत्रिका नेटवर्क सम्मिलित हैं।

अनन्त रूप से व्यापक पूरी तरह से जुड़े नेटवर्क और गाऊसी प्रक्रिया के बीच पत्राचार
यह खंड पूरी तरह से जुड़े आर्किटेक्चर के विशिष्ट मामले के लिए अनन्त रूप से व्यापक तंत्रिका नेटवर्क और गॉसियन प्रक्रियाओं के बीच पत्राचार पर विस्तार करता है। यह प्रमाण स्केच प्रदान करता है जिसमें बताया गया है कि पत्राचार क्यों होता है, और पूरी तरह से जुड़े नेटवर्क के लिए एनएनजीपी के विशिष्ट कार्यात्मक रूप का परिचय देता है। प्रूफ़ स्केच नोवाक, एट अल., 2018 के दृष्टिकोण का बारीकी से अनुसरण करता है।

नेटवर्क आर्किटेक्चर विनिर्देश
फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के बराबर है।

इनपुट $$x$$ के साथ एक पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें, पैरामीटर $$\theta$$ जिसमें नेटवर्क में प्रत्येक लेयर $$l$$ के लिए वजन $$W^l$$ और पूर्वाग्रह $$b^l$$, पूर्व-सक्रियण (पूर्व-गैर-रैखिकता) $$z^l$$, सक्रियण (पोस्ट-नॉनलाइनरिटी) $$y^l$$, बिंदुवार नॉनलाइनरिटी $$\phi(\cdot)$$, और लेयर चौड़ाई $$n^l$$ सम्मिलित हैं। सरलता के लिए, रीडआउट वेक्टर $$z^L$$ की चौड़ाई $$n^{L+1}$$ को 1 माना जाता है। इस नेटवर्क के मापदंडों में एक पूर्व वितरण $$p(\theta)$$ होता है, जिसमें प्रत्येक वजन और पूर्वाग्रह के लिए आइसोट्रोपिक गॉसियन सम्मिलित होता है, जिसमें लेयर की चौड़ाई के साथ वजन के विचरण को विपरीत रूप से मापा जाता है। इस नेटवर्क को दाईं ओर के चित्र में दर्शाया गया है, और समीकरणों के निम्नलिखित सेट द्वारा वर्णित किया गया है:



$$z^l | y^l$$ गाऊसी प्रक्रिया है
हम पहले देखते हैं कि पूर्व-सक्रियण $$z^l$$ का वर्णन पूर्ववर्ती सक्रियण $$y^l$$ पर वातानुकूलित गाऊसी प्रक्रिया द्वारा किया जाता है। यह परिणाम सीमित चौड़ाई पर भी स्थिर रहता है।

प्रत्येक पूर्व-सक्रियण $$z^l_i$$ गॉसियन यादृच्छिक चर का एक भारित योग है, जो भार $$W^l_{ij}$$ और पूर्वाग्रह $$b^l_i$$ के अनुरूप है, जहां गुणांक उनमें से प्रत्येक गाऊसी चर के लिए पूर्ववर्ती सक्रियण $$y^l_j$$ हैं। चूँकि वे शून्य-माध्य गाऊसी का एक भारित योग हैं, $$z^l_i$$ स्वयं शून्य-माध्य गाऊसी (गुणांक y$$y^l_j$$ पर आधारित) हैं। चूँकि $$z^l$$ $$y^l$$ के किसी भी सेट के लिए संयुक्त रूप से गॉसियन हैं, इसलिए उन्हें पूर्ववर्ती सक्रियण $$y^l$$ पर वातानुकूलित गॉसियन प्रक्रिया द्वारा वर्णित किया गया है। इस गॉसियन प्रक्रिया का सहप्रसरण या कर्नेल वजन और पूर्वाग्रह प्रसरण $$\sigma_w^2$$ और $$\sigma_b^2$$ पर निर्भर करता है, साथ ही दूसरे क्षण मैट्रिक्स $$K^l$$ पर भी निर्भर करता है। पूर्ववर्ती सक्रियण $$y^l$$,

वजन पैमाने का प्रभाव $$\sigma^2_w$$ सहप्रसरण मैट्रिक्स $$K^l$$ में योगदान को पुनः स्केल करना है, जबकि पूर्वाग्रह सभी इनपुटों के लिए साझा किया जाता है, इत्यादि $$\sigma_b^2$$ इसे बनाएं $$z^l_i$$ विभिन्न डेटा बिंदुओं के लिए अधिक समान और सहप्रसरण मैट्रिक्स को स्थिर मैट्रिक्स की तरह बनाता है।

$$z^l | K^l$$ गाऊसी प्रक्रिया है
पूर्व-सक्रियण $$z^l$$ केवल इसके दूसरे क्षण मैट्रिक्स $$K^l$$ के माध्यम से $$y^l$$ पर निर्भर करता है। इस कारण से, हम कह सकते हैं कि $$z^l$$ एक गाऊसी प्रक्रिया है जो $$y^l$$ पर आधारित होने के अतिरिक्त $$K^l$$ पर आधारित है।



लेयर की चौड़ाई के रूप में $$n^l \rightarrow \infty$$, $$K^l \mid K^{l-1}$$ नियतिवादी हो जाता है
जैसा कि पहले परिभाषित किया गया था, $$K^l$$ का दूसरा क्षण मैट्रिक्स $$y^l$$ है। तब से $$y^l$$ गैर-रैखिकता लागू करने के बाद सक्रियण वेक्टर $$\phi$$ है, इसे $$\phi\left(z^{l-1}\right)$$ से प्रतिस्थापित किया जा सकता है, जिसके परिणामस्वरूप संशोधित समीकरण व्यक्त होता है $$K^l$$ के लिए $$l>0$$ के अनुसार $$z^{l-1}$$,

हमने यह पहले ही तय कर लिया है $$z^{l-1} | K^{l-1}$$ गाऊसी प्रक्रिया है। इसका अर्थ है कि योग परिभाषित $$K^l$$ औसत ओवर है $$n^l$$ गॉसियन प्रक्रिया से नमूने जो कि कार्य है $$K^{l-1}$$,

लेयर की चौड़ाई के रूप में $$n^l$$ अनंत तक जाता है, यह औसत खत्म हो गया $$n^l$$ गाऊसी प्रक्रिया के नमूनों को गाऊसी प्रक्रिया के अभिन्न अंग से बदला जा सकता है:

तो, अनंत चौड़ाई में दूसरे क्षण मैट्रिक्स को सीमित करें $$K^l$$ इनपुट की प्रत्येक जोड़ी के लिए $$x$$ और $$x'$$ के उत्पाद के 2डी गॉसियन पर अभिन्न के रूप में व्यक्त किया जा सकता है $$\phi(z)$$ और $$\phi(z')$$. ऐसी कई स्थितियाँ हैं जहाँ इसे विश्लेषणात्मक रूप से हल किया गया है, जैसे कि जब $$\phi(\cdot)$$ एक ReLU, ELU, GELU, या त्रुटि फ़ंक्शन अरैखिकता है। यहां तक कि जब इसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है, क्योंकि यह एक 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है।, क्योंकि यह 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है। यह अभिन्न अंग नियतिवादी है, इसलिए $$K^l | K^{l-1}$$ नियतिवादी है।

आशुलिपि के लिए, हम कार्यात्मक को परिभाषित करते हैं $$F$$, जो इनपुट के सभी जोड़े के लिए इस 2d इंटीग्रल की गणना करने से मेल खाता है, और जो मैप $$K^{l-1}$$ में $$K^l$$ करता है,



 $$z^L \mid x$$ एनएनजीपी हैं

उस अवलोकन को पुनरावर्ती रूप से लागू करके $$K^l \mid K^{l-1}$$ के रूप में नियतिवादी है $$n^l \rightarrow \infty$$, $$K^L$$ के नियतात्मक कार्य $$K^0$$ के रूप में लिखा जा सकता है,

जहां $$F^L$$ कार्यात्मक $$F$$ को क्रमिक रूप से $$L$$ बार लागू करने का संकेत देता है। इस अभिव्यक्ति को आगे के अवलोकनों के साथ जोड़कर कि इनपुट परत दूसरा क्षण मैट्रिक्स $$K^0(x,x')=\frac{1}{n^0} \sum_i x_i x'_i$$ इनपुट का नियतात्मक कार्य $$x$$ है, ओर वो $$z^L | K^L$$ गाऊसी प्रक्रिया है, तंत्रिका नेटवर्क के आउटपुट को इसके इनपुट के संदर्भ में गाऊसी प्रक्रिया के रूप में व्यक्त किया जा सकता है,



सॉफ्टवेयर लाइब्रेरी
न्यूरल टैंगेंट्स स्वतंत्र और ओपन-सोर्स पायथन (प्रोग्रामिंग भाषा) लाइब्रेरी है जिसका उपयोग विभिन्न सामान्य एएनएन आर्किटेक्चर के अनुरूप एनएनजीपी और न्यूरल टैंगेंट कर्नेल के साथ कंप्यूटिंग और अनुमान लगाने के लिए किया जाता है।