तंत्रिका नेटवर्क गाऊसी प्रक्रिया

बायेसियन नेटवर्क घटनाओं की संभावनाओं को निर्दिष्ट करने के लिए एक मॉडलिंग उपकरण है, और इस प्रकार एक मॉडल की भविष्यवाणियों में अनिश्चितता को चिह्नित करता है। ध्यान लगा के पढ़ना या सीखना और कृत्रिम तंत्रिका नेटवर्क ऐसे दृष्टिकोण हैं जिनका उपयोग यंत्र अधिगम  में कम्प्यूटेशनल मॉडल बनाने के लिए किया जाता है जो प्रशिक्षण उदाहरणों से सीखते हैं। बायेसियन तंत्रिका नेटवर्क इन क्षेत्रों का विलय करते हैं। वे एक प्रकार के कृत्रिम तंत्रिका नेटवर्क हैं जिनके सांख्यिकीय पैरामीटर और पूर्वानुमान दोनों संभाव्य हैं।  जबकि मानक कृत्रिम तंत्रिका नेटवर्क अक्सर गलत भविष्यवाणियों पर भी उच्च विश्वास प्रदान करते हैं, बायेसियन तंत्रिका नेटवर्क अधिक सटीक रूप से मूल्यांकन कर सकते हैं कि उनकी भविष्यवाणियां सही होने की कितनी संभावना है।

तंत्रिका नेटवर्क गाऊसी प्रक्रियाएं (एनएनजीपी) एक विशेष सीमा में बायेसियन तंत्रिका नेटवर्क के बराबर हैं,     और बायेसियन तंत्रिका नेटवर्क का मूल्यांकन करने के लिए एक बंद-रूप अभिव्यक्ति तरीका प्रदान करें। वे एक गाऊसी प्रक्रिया संभाव्यता वितरण हैं जो संबंधित बायेसियन तंत्रिका नेटवर्क द्वारा की गई भविष्यवाणियों पर वितरण का वर्णन करता है। कृत्रिम तंत्रिका नेटवर्क में गणना आमतौर पर कृत्रिम न्यूरॉन्स की अनुक्रमिक परतों में व्यवस्थित की जाती है। एक परत में न्यूरॉन्स की संख्या को परत की चौड़ाई कहा जाता है। एनएनजीपी और बायेसियन तंत्रिका नेटवर्क के बीच समानता तब होती है जब बायेसियन तंत्रिका नेटवर्क में परतें असीमित रूप से चौड़ी हो जाती हैं (आंकड़ा देखें)। यह तंत्रिका नेटवर्क की बड़ी चौड़ाई सीमा व्यावहारिक रुचि की है, क्योंकि परत की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले तंत्रिका नेटवर्क आमतौर पर बेहतर प्रदर्शन करते हैं। एनएनजीपी कई अन्य संदर्भों में भी दिखाई देता है: यह व्यापक गैर-बायेसियन कृत्रिम तंत्रिका नेटवर्क द्वारा उनके मापदंडों के यादृच्छिक आरंभीकरण के बाद, लेकिन प्रशिक्षण से पहले की गई भविष्यवाणियों पर वितरण का वर्णन करता है; यह तंत्रिका स्पर्शरेखा कर्नेल भविष्यवाणी समीकरणों में एक शब्द के रूप में प्रकट होता है; इसका उपयोग गहन सूचना प्रसार में यह बताने के लिए किया जाता है कि हाइपरपैरामीटर और आर्किटेक्चर प्रशिक्षित करने योग्य होंगे या नहीं। यह तंत्रिका नेटवर्क की अन्य बड़ी चौड़ाई सीमाओं से संबंधित है।

एक कार्टून चित्रण
तंत्रिका नेटवर्क के मापदंडों की प्रत्येक सेटिंग $$\theta$$ तंत्रिका नेटवर्क द्वारा गणना किए गए एक विशिष्ट फ़ंक्शन से मेल खाता है। एक पूर्व वितरण $$p(\theta)$$ इसलिए तंत्रिका नेटवर्क मापदंडों पर नेटवर्क द्वारा गणना किए गए कार्यों पर पूर्व वितरण से मेल खाता है। जैसे-जैसे तंत्रिका नेटवर्क को असीम रूप से व्यापक बनाया जाता है, कार्यों पर यह वितरण कई आर्किटेक्चर के लिए गॉसियन प्रक्रिया में परिवर्तित हो जाता है।

दाईं ओर का चित्र एक-आयामी आउटपुट को प्लॉट करता है $$z^L(\cdot;\theta)$$ दो इनपुट के लिए एक तंत्रिका नेटवर्क का $$x$$ और $$x^*$$ एक दूसरे के खिलाफ। काले बिंदु पैरामीटर के यादृच्छिक ड्रॉ के लिए इन इनपुट पर तंत्रिका नेटवर्क द्वारा गणना किए गए फ़ंक्शन को दिखाते हैं $$p(\theta)$$. लाल रेखाएं नेटवर्क आउटपुट पर संयुक्त वितरण के लिए आईएसओ-संभाव्यता रूपरेखा हैं $$z^L(x;\theta)$$ और $$z^L(x^*;\theta)$$ प्रेरक $$p(\theta)$$. यह वितरण के अनुरूप फ़ंक्शन स्पेस में वितरण है $$p(\theta)$$ पैरामीटर स्पेस में, और काले बिंदु इस वितरण से नमूने हैं। असीम रूप से विस्तृत तंत्रिका नेटवर्क के लिए, चूंकि तंत्रिका नेटवर्क द्वारा गणना किए गए कार्यों पर वितरण एक गाऊसी प्रक्रिया है, नेटवर्क आउटपुट पर संयुक्त वितरण नेटवर्क इनपुट के किसी भी सीमित सेट के लिए एक बहुभिन्नरूपी गाऊसी प्रक्रिया है।

इस अनुभाग में उपयोग किया गया नोटेशन एनएनजीपी और पूरी तरह से जुड़े नेटवर्क के बीच पत्राचार प्राप्त करने के लिए नीचे उपयोग किए गए नोटेशन के समान है, और अधिक विवरण वहां पाया जा सकता है।

आर्किटेक्चर जो एनएनजीपी के अनुरूप है
असीम रूप से विस्तृत बायेसियन तंत्रिका नेटवर्क और एनएनजीपी के बीच समानता को निम्न के लिए दर्शाया गया है: एकल छिपी हुई परत और गहरा प्रति परत इकाइयों की संख्या अनंत तक ले जाने पर पूरी तरह से जुड़े नेटवर्क; चैनलों की संख्या को अनंत तक ले जाने पर दृढ़ तंत्रिका नेटवर्क;  ट्रांसफॉर्मर नेटवर्क में ध्यान प्रमुखों की संख्या को अनंत तक ले जाया जाता है; आवर्तक तंत्रिका नेटवर्क को इकाइयों की संख्या के रूप में अनंत तक ले जाया जाता है। वास्तव में, यह एनएनजीपी पत्राचार लगभग किसी भी आर्किटेक्चर के लिए लागू होता है: आम तौर पर, यदि किसी आर्किटेक्चर को केवल मैट्रिक्स गुणन और समन्वयात्मक गैर-रैखिकता (यानी एक टेंसर प्रोग्राम) के माध्यम से व्यक्त किया जा सकता है, तो इसमें एक अनंत-चौड़ाई वाला जीपी होता है। इसमें विशेष रूप से मल्टीलेयर परसेप्ट्रॉन, आवर्ती तंत्रिका नेटवर्क (जैसे एलएसटीएम, गेटेड आवर्तक इकाई), (एनडी या ग्राफ) कन्वेन्शनल न्यूरल नेटवर्क, पूलिंग, स्किप कनेक्शन, ध्यान, बैच सामान्यीकरण, और/या परत सामान्यीकरण से बने सभी फीडफॉरवर्ड या आवर्ती तंत्रिका नेटवर्क शामिल हैं।

एक असीम रूप से व्यापक पूरी तरह से जुड़े नेटवर्क और एक गाऊसी प्रक्रिया के बीच पत्राचार
यह खंड पूरी तरह से जुड़े आर्किटेक्चर के विशिष्ट मामले के लिए असीम रूप से व्यापक तंत्रिका नेटवर्क और गॉसियन प्रक्रियाओं के बीच पत्राचार पर विस्तार करता है। यह एक प्रमाण स्केच प्रदान करता है जिसमें बताया गया है कि पत्राचार क्यों होता है, और पूरी तरह से जुड़े नेटवर्क के लिए एनएनजीपी के विशिष्ट कार्यात्मक रूप का परिचय देता है। प्रूफ़ स्केच नोवाक, एट अल., 2018 के दृष्टिकोण का बारीकी से अनुसरण करता है।

नेटवर्क आर्किटेक्चर विनिर्देश
फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एक एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के बराबर है।

इनपुट के साथ पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें $$x$$, पैरामीटर $$\theta$$ वजन से मिलकर $$W^l$$ और पक्षपात $$b^l$$ प्रत्येक परत के लिए $$l$$ नेटवर्क में, पूर्व-सक्रियण (पूर्व-गैर-रैखिकता) $$z^l$$, सक्रियण (पोस्ट-नॉनलाइनरिटी) $$y^l$$, बिंदुवार अरैखिकता $$\phi(\cdot)$$, और परत की चौड़ाई $$n^l$$. सरलता के लिए, चौड़ाई $$n^{L+1}$$ रीडआउट वेक्टर का $$z^L$$ 1 माना जाता है। इस नेटवर्क के मापदंडों का पूर्व वितरण है $$p(\theta)$$, जिसमें प्रत्येक वजन और पूर्वाग्रह के लिए एक आइसोट्रोपिक गॉसियन शामिल होता है, जिसमें परत की चौड़ाई के साथ वजन के विचरण को विपरीत रूप से मापा जाता है। इस नेटवर्क को दाईं ओर के चित्र में दर्शाया गया है, और समीकरणों के निम्नलिखित सेट द्वारा वर्णित किया गया है:



$$z^l | y^l$$ एक गाऊसी प्रक्रिया है
हम सबसे पहले यह देखते हैं कि पूर्व-सक्रियण $$z^l$$ पूर्ववर्ती सक्रियणों पर वातानुकूलित गाऊसी प्रक्रिया द्वारा वर्णित हैं $$y^l$$. यह परिणाम सीमित चौड़ाई पर भी कायम रहता है। प्रत्येक पूर्व-सक्रियण $$z^l_i$$ वज़न के अनुरूप गॉसियन यादृच्छिक चर का भारित योग है $$W^l_{ij}$$ और पक्षपात $$b^l_i$$, जहां उन गाऊसी चरों में से प्रत्येक के लिए गुणांक पूर्ववर्ती सक्रियण हैं $$y^l_j$$. क्योंकि वे शून्य-माध्य गाऊसी का भारित योग हैं $$z^l_i$$ स्वयं शून्य-माध्य गॉसियन हैं (गुणांकों पर आधारित)। $$y^l_j$$). के बाद से $$z^l$$ के किसी भी सेट के लिए संयुक्त रूप से गाऊसी हैं $$y^l$$, उन्हें पूर्ववर्ती सक्रियणों पर वातानुकूलित गाऊसी प्रक्रिया द्वारा वर्णित किया गया है $$y^l$$. इस गाऊसी प्रक्रिया का सहप्रसरण या कर्नेल वजन और पूर्वाग्रह प्रसरण पर निर्भर करता है $$\sigma_w^2$$ और $$\sigma_b^2$$, साथ ही दूसरा क्षण मैट्रिक्स $$K^l$$ पूर्ववर्ती सक्रियणों में से $$y^l$$,

वजन पैमाने का प्रभाव $$\sigma^2_w$$ सहप्रसरण मैट्रिक्स में योगदान को पुनः स्केल करना है $$K^l$$, जबकि पूर्वाग्रह सभी इनपुटों के लिए साझा किया जाता है, इत्यादि $$\sigma_b^2$$ इसे बनाएं $$z^l_i$$ विभिन्न डेटा बिंदुओं के लिए अधिक समान और सहप्रसरण मैट्रिक्स को एक स्थिर मैट्रिक्स की तरह बनाता है।

$$z^l | K^l$$ एक गाऊसी प्रक्रिया है
पूर्व-सक्रियण $$z^l$$ केवल पर निर्भर हैं $$y^l$$ इसके दूसरे क्षण मैट्रिक्स के माध्यम से $$K^l$$. इस वजह से हम ऐसा कह सकते हैं $$z^l$$ एक गॉसियन प्रक्रिया पर आधारित है $$K^l$$, बजाय वातानुकूलित पर $$y^l$$,



परत की चौड़ाई के रूप में $$n^l \rightarrow \infty$$, $$K^l \mid K^{l-1}$$ नियतिवादी हो जाता है
जैसा कि पहले परिभाषित किया गया था, $$K^l$$ का दूसरा क्षण मैट्रिक्स है $$y^l$$. तब से $$y^l$$ गैर-रैखिकता लागू करने के बाद सक्रियण वेक्टर है $$\phi$$, इसे प्रतिस्थापित किया जा सकता है $$\phi\left(z^{l-1}\right)$$, जिसके परिणामस्वरूप एक संशोधित समीकरण व्यक्त होता है $$K^l$$ के लिए $$l>0$$ के अनुसार $$z^{l-1}$$,

हमने यह पहले ही तय कर लिया है $$z^{l-1} | K^{l-1}$$ एक गाऊसी प्रक्रिया है. इसका मतलब है कि योग परिभाषित $$K^l$$ एक औसत ओवर है $$n^l$$ गॉसियन प्रक्रिया से नमूने जो कि एक कार्य है $$K^{l-1}$$,

परत की चौड़ाई के रूप में $$n^l$$ अनंत तक जाता है, यह औसत खत्म हो गया $$n^l$$ गाऊसी प्रक्रिया के नमूनों को गाऊसी प्रक्रिया के एक अभिन्न अंग से बदला जा सकता है:

तो, अनंत चौड़ाई में दूसरे क्षण मैट्रिक्स को सीमित करें $$K^l$$ इनपुट की प्रत्येक जोड़ी के लिए $$x$$ और $$x'$$ के उत्पाद के 2डी गॉसियन पर एक अभिन्न के रूप में व्यक्त किया जा सकता है $$\phi(z)$$ और $$\phi(z')$$. ऐसी कई स्थितियाँ हैं जहाँ इसे विश्लेषणात्मक रूप से हल किया गया है, जैसे कि कब $$\phi(\cdot)$$ एक रेक्टिफायर (तंत्रिका नेटवर्क) है, अप अप अप या त्रुटि फ़ंक्शन अरेखीयता यहां तक ​​कि जब इसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है, क्योंकि यह एक 2डी इंटीग्रल है, इसे आम तौर पर संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है। यह अभिन्न अंग नियतिवादी है, इसलिए $$K^l | K^{l-1}$$ नियतिवादी है.

आशुलिपि के लिए, हम एक कार्यात्मक को परिभाषित करते हैं $$F$$, जो इनपुट के सभी जोड़े के लिए इस 2d इंटीग्रल की गणना करने से मेल खाता है, और जो मैप करता है $$K^{l-1}$$ में $$K^l$$,



$$z^L \mid x$$ एक एनएनजीपी
है

उस अवलोकन को पुनरावर्ती रूप से लागू करके $$K^l \mid K^{l-1}$$ के रूप में नियतिवादी है $$n^l \rightarrow \infty$$, $$K^L$$ के एक नियतात्मक कार्य के रूप में लिखा जा सकता है $$K^0$$,

कहाँ $$F^L$$ कार्यात्मकता लागू करने का संकेत देता है $$F$$ क्रमिक रूप से $$L$$ बार. इस अभिव्यक्ति को आगे के अवलोकनों के साथ जोड़कर कि इनपुट परत दूसरा क्षण मैट्रिक्स $$K^0(x,x')=\frac{1}{n^0} \sum_i x_i x'_i$$ इनपुट का एक नियतात्मक कार्य है $$x$$, ओर वो $$z^L | K^L$$ एक गाऊसी प्रक्रिया है, तंत्रिका नेटवर्क के आउटपुट को इसके इनपुट के संदर्भ में एक गाऊसी प्रक्रिया के रूप में व्यक्त किया जा सकता है,



सॉफ्टवेयर लाइब्रेरी
न्यूरल टैंगेंट्स एक स्वतंत्र और ओपन-सोर्स पायथन (प्रोग्रामिंग भाषा) लाइब्रेरी है जिसका उपयोग विभिन्न सामान्य एएनएन आर्किटेक्चर के अनुरूप एनएनजीपी और न्यूरल टैंगेंट कर्नेल के साथ कंप्यूटिंग और अनुमान लगाने के लिए किया जाता है।