दिष्टकारी (तंत्रिका नेटवर्क)

कृत्रिम तंत्रिका नेटवर्क के संदर्भ में, रेक्टिफायर या ReLU (रेक्टिफाइड लीनियर यूनिट) सक्रियण फ़ंक्शन एक सक्रियण फ़ंक्शन है जिसे इसके तर्क के सकारात्मक भाग के रूप में परिभाषित किया गया है:

जहां x न्यूरॉन का इनपुट है। इसे रैंप समारोह के रूप में भी जाना जाता है और यह विद्युत अभियन्त्रण  में आधे-तरंग सुधार के अनुरूप है। यह सक्रियण फ़ंक्शन 1969 में कुनिहिको फुकुशिमा द्वारा पदानुक्रमित तंत्रिका नेटवर्क में दृश्य सुविधा निष्कर्षण के संदर्भ में पेश किया गया था।   बाद में यह तर्क दिया गया कि इसमें मजबूत जैविक प्रेरणाएँ और गणितीय औचित्य हैं।  2011 में यह पाया गया कि यह गहरे नेटवर्क के बेहतर प्रशिक्षण को सक्षम बनाता है, 2011 से पहले व्यापक रूप से उपयोग किए जाने वाले सक्रियण कार्यों की तुलना में, उदाहरण के लिए, लॉजिस्टिक फ़ंक्शन (जो संभाव्यता सिद्धांत से प्रेरित है;  संभार तन्त्र परावर्तन  देखें) और यह अधिक व्यावहारिक है समकक्ष, अतिशयोक्तिपूर्ण स्पर्शरेखा। दिष्टकारी है,, गहन शिक्षण के लिए सबसे लोकप्रिय सक्रियण फ़ंक्शन। रेक्टिफाइड रैखिक इकाइयां कंप्यूटर दृष्टि में अनुप्रयोग ढूंढती हैं और वाक् पहचान गहन शिक्षण और कम्प्यूटेशनल तंत्रिका विज्ञान का उपयोग करना।

लाभ

 * विरल सक्रियण: उदाहरण के लिए, यादृच्छिक रूप से आरंभ किए गए नेटवर्क में, केवल लगभग 50% छिपी हुई इकाइयाँ सक्रिय होती हैं (एक गैर-शून्य आउटपुट होता है)।
 * बेहतर ग्रेडिएंट प्रसार: दोनों दिशाओं में संतृप्त सिग्मोइडल सक्रियण कार्यों की तुलना में कम गायब होने वाली ग्रेडिएंट समस्या। * कुशल गणना: केवल तुलना, जोड़ और गुणा।
 * स्केल-अपरिवर्तनीय: $$\max(0, ax) = a \max(0, x) \text{ for } a \geq 0$$.

तंत्रिका अमूर्त पिरामिड में विशिष्ट उत्तेजना और अनिर्दिष्ट अवरोध को अलग करने के लिए सुधारात्मक सक्रियण कार्यों का उपयोग किया गया था, जिसे कई कंप्यूटर दृष्टि कार्यों को सीखने के लिए पर्यवेक्षित तरीके से प्रशिक्षित किया गया था। 2011 में, गैर-रैखिकता के रूप में रेक्टिफायर का उपयोग बिना पर्यवेक्षण के सीखना  प्री-ट्रेनिंग की आवश्यकता के बिना गहन  पर्यवेक्षित अध्ययन  न्यूरल नेटवर्क को प्रशिक्षित करने में सक्षम बनाता है। सिग्मॉइड फ़ंक्शन या समान सक्रियण फ़ंक्शंस की तुलना में रेक्टिफाइड रैखिक इकाइयाँ, बड़े और जटिल डेटासेट पर गहरे तंत्रिका आर्किटेक्चर के तेज़ और प्रभावी प्रशिक्षण की अनुमति देती हैं।

संभावित समस्याएँ

 * शून्य पर अभेद्य; हालाँकि, यह कहीं और भिन्न है, और शून्य पर व्युत्पन्न का मान मनमाने ढंग से 0 या 1 चुना जा सकता है।
 * शून्य केन्द्रित नहीं.
 * असीमित.
 * मरती हुई ReLU समस्या: ReLU (सुधारित रैखिक इकाई) न्यूरॉन्स को कभी-कभी ऐसी स्थिति में धकेल दिया जा सकता है जहां वे अनिवार्य रूप से सभी इनपुट के लिए निष्क्रिय हो जाते हैं। इस अवस्था में, कोई भी ग्रेडिएंट न्यूरॉन के माध्यम से पीछे की ओर प्रवाहित नहीं होता है, और इसलिए न्यूरॉन हमेशा के लिए निष्क्रिय अवस्था में फंस जाता है और मर जाता है। यह लुप्त हो रही ग्रेडिएंट समस्या का एक रूप है। कुछ मामलों में, नेटवर्क में बड़ी संख्या में न्यूरॉन्स मृत अवस्था में फंस सकते हैं, जिससे प्रभावी रूप से मॉडल क्षमता कम हो सकती है। यह समस्या आम तौर पर तब उत्पन्न होती है जब सीखने की दर बहुत अधिक निर्धारित की जाती है। इसके बजाय लीकी ReLUs का उपयोग करके इसे कम किया जा सकता है, जो x <0 के लिए एक छोटा सा सकारात्मक ढलान निर्दिष्ट करता है; हालाँकि, प्रदर्शन कम हो गया है।

लीक ReLU
जब इकाई सक्रिय नहीं होती है तो लीकी ReLUs एक छोटे, सकारात्मक ग्रेडिएंट की अनुमति देते हैं, लुप्त हो रही ग्रेडिएंट समस्या को कम करने में मदद करना।

पैरामीट्रिक ReLU
पैरामीट्रिक ReLUs (PReLUs) रिसाव के गुणांक को एक पैरामीटर में बनाकर इस विचार को आगे ले जाते हैं जिसे अन्य तंत्रिका-नेटवर्क मापदंडों के साथ सीखा जाता है।

ध्यान दें कि ≤ 1 के लिए, यह इसके बराबर है
 * $$f(x) = \max(x, ax)$$

और इस प्रकार इसका मैक्सआउट नेटवर्क से संबंध है।

गाऊसी-त्रुटि रैखिक इकाई (GELU)
GELU रेक्टिफायर का एक सहज सन्निकटन है:

जहां Φ(x) मानक सामान्य वितरण का संचयी वितरण फ़ंक्शन है। $$\Phi(x) = P(X \leqslant x)$$ यह सक्रियण फ़ंक्शन इस आलेख के प्रारंभ में दिए गए चित्र में दिखाया गया है। जब x < 0 होता है तो इसमें एक गैर-मोनोटोनिक "बम्प" होता है और यह BERT_(भाषा_मॉडल) जैसे मॉडलों के लिए डिफ़ॉल्ट सक्रियण के रूप में कार्य करता है।

सिलु
SiLU (सिग्मॉइड लीनियर यूनिट) या स्विश फ़ंक्शन यह एक और सहज सन्निकटन है, जिसे सबसे पहले GELU पेपर में गढ़ा गया था:

कहाँ $$\operatorname{sigmoid}(x)$$ सिग्मॉइड फ़ंक्शन है.

सॉफ्टप्लस
रेक्टिफायर का सहज सन्निकटन विश्लेषणात्मक कार्य है

जिसे सॉफ्टप्लस कहा जाता है या स्मूथरेलू फ़ंक्शन। बड़े नकारात्मक के लिए $$x$$ यह मोटे तौर पर है $$\ln 1$$, तो 0 से ठीक ऊपर, जबकि बड़े सकारात्मक के लिए $$x$$ यह मोटे तौर पर है $$\ln(e^x)$$, तो बस ऊपर $$x$$.

एक तीक्ष्णता पैरामीटर $$k$$ शामिल किया जा सकता है:

सॉफ्टप्लस का व्युत्पन्न लॉजिस्टिक फ़ंक्शन है।

लॉजिस्टिक सिग्मॉइड फ़ंक्शन रेक्टिफायर के व्युत्पन्न, हेविसाइड स्टेप फ़ंक्शन का एक सहज अनुमान है।

सिंगल-वेरिएबल सॉफ्टप्लस का बहुपरिवर्तनीय सामान्यीकरण LogSumExp है जिसमें पहला तर्क शून्य पर सेट है:
 * $$\operatorname{LSE_0}^+(x_1, \dots, x_n) := \operatorname{LSE}(0, x_1, \dots, x_n) = \ln\left(1 + e^{x_1} + \cdots + e^{x_n} \right).$$

LogSumExp फ़ंक्शन है
 * $$\operatorname{LSE}(x_1, \dots, x_n) = \ln\left(e^{x_1} + \cdots + e^{x_n}\right),$$

और इसका ग्रेडिएंट सॉफ्टमैक्स फ़ंक्शन है; शून्य पर सेट किए गए पहले तर्क के साथ सॉफ्टमैक्स लॉजिस्टिक फ़ंक्शन का बहुपरिवर्तनीय सामान्यीकरण है। मशीन लर्निंग में LogSumExp और Softmax दोनों का उपयोग किया जाता है।

ईएलयू
घातीय रैखिक इकाइयाँ माध्य सक्रियणों को शून्य के करीब बनाने का प्रयास करती हैं, जिससे सीखने की गति बढ़ती है। यह दिखाया गया है कि ELUs ReLUs की तुलना में उच्च वर्गीकरण सटीकता प्राप्त कर सकते हैं।

इन सूत्रों में, $$a$$ एक हाइपरपैरामीटर (मशीन लर्निंग) है | हाइपर-पैरामीटर जिसे बाधा के साथ ट्यून किया जाना है $$a \geq 0$$.

ELU को स्थानांतरित ReLU (SReLU) के एक सुचारू संस्करण के रूप में देखा जा सकता है, जिसका स्वरूप है $$f(x) = \max(-a, x)$$, की वही व्याख्या दी गई है $$a$$.

मिश
मिश फ़ंक्शन का उपयोग रेक्टिफायर के सुचारू सन्निकटन के रूप में भी किया जा सकता है। इसे इस प्रकार परिभाषित किया गया है


 * $$f(x) = x \tanh\big(\operatorname{softplus}(x)\big),$$

कहाँ $$\tanh(x)$$ अतिशयोक्तिपूर्ण स्पर्शज्या है, और $$\operatorname{softplus}(x)$$ सॉफ्टप्लस फ़ंक्शन है।

मिश गैर- एकरस और स्व-गेटेड है। यह स्विश (फ़ंक्शन) से प्रेरित था, जो स्वयं ReLU का एक प्रकार था।

स्क्वायरप्लस
स्क्वायरप्लस कार्य है
 * $$\operatorname{squareplus}_b(x) = \frac{x + \sqrt{x^2 + b}}{2}$$

कहाँ $$b \geq 0$$ एक हाइपरपैरामीटर है जो पास के घुमावदार क्षेत्र का आकार निर्धारित करता है $$x = 0$$. (उदाहरण के लिए, देना $$b = 0$$ ReLU उत्पन्न करता है, और देता है $$b = 4$$ धात्विक माध्य फलन प्राप्त होता है।) स्क्वायरप्लस सॉफ्टप्लस के साथ कई गुण साझा करता है: यह मोनोटोनिक फ़ंक्शन है, सख्ती से सकारात्मक (गणित), 0 के रूप में पहुंचता है $$x \to -\infty$$, पहचान के रूप में दृष्टिकोण करता है $$x \to +\infty$$, और है $$C^\infty$$ सुचारू कार्य. हालाँकि, स्क्वायरप्लस की गणना केवल बीजगणितीय कार्यों का उपयोग करके की जा सकती है, जिससे यह उन सेटिंग्स के लिए उपयुक्त है जहां कम्प्यूटेशनल संसाधन या निर्देश सेट सीमित हैं। इसके अतिरिक्त, स्क्वेयरप्लस को संख्यात्मक स्थिरता सुनिश्चित करने के लिए किसी विशेष विचार की आवश्यकता नहीं होती है $$x$$ बड़ी है।

यह भी देखें

 * सॉफ्टमैक्स फ़ंक्शन
 * सिग्मॉइड फ़ंक्शन
 * टोबिट मॉडल
 * परत (गहन शिक्षा)