दिष्टकारी (तंत्रिका नेटवर्क)

कृत्रिम तंत्रिका नेटवर्क के संदर्भ में, रेक्टिफायर या ReLU (रेक्टिफाइड लीनियर यूनिट) सक्रियण फलन है जिसे इसके तर्क के अनुसार धनात्मक भाग के रूप में परिभाषित किया गया है:

जहां x न्यूरॉन का इनपुट है। इसे रैंप समारोह के रूप में भी जाना जाता है, और इस कारण यह विद्युत अभियन्त्रण में आधे-तरंग सुधार के अनुरूप है। यह सक्रियण फलन 1969 में कुनिहिको फुकुशिमा द्वारा पदानुक्रमित तंत्रिका नेटवर्क में दृश्य सुविधा निष्कर्षण के संदर्भ में प्रस्तुत किया गया था।  इसके पश्चात यह तर्क दिया गया कि इसमें शक्तिशाली जैविक प्रेरणाएँ और गणितीय औचित्य भी सम्मिलित हैं।  इसके आधार पर 2011 में यह पाया गया कि यह गहरे नेटवर्क के उच्चतम प्रशिक्षण को सक्षम बनाता है, इस प्रकार 2011 से पहले व्यापक रूप से उपयोग किए जाने वाले सक्रियण कार्यों की तुलना में उदाहरण के लिए लॉजिस्टिक फलन जो संभाव्यता सिद्धांत से प्रेरित है, जिसके लिए संभार तन्त्र परावर्तन के देखा जा सकता हैं और यह अधिक व्यावहारिक भी है, इसके समकक्ष, अतिशयोक्तिपूर्ण स्पर्शरेखा या दिष्टकारी है, इसकी गहन शिक्षण के लिए सबसे लोकप्रिय सक्रियण फलन उपलब्ध हैं।

रेक्टिफाइड रैखिक इकाइयां कंप्यूटर दृष्टि में अनुप्रयोग को ढूंढती हैं और इसके कारण वाक् पहचान मुख्य रूप से गहन शिक्षण और कम्प्यूटेशनल तंत्रिका विज्ञान का उपयोग करता हैं।

लाभ

 * विरल सक्रियण: उदाहरण के लिए, यादृच्छिक रूप से आरंभ किए गए नेटवर्क में, केवल लगभग 50% छिपी हुई इकाइयाँ सक्रिय होती हैं, इस प्रकार यह गैर-शून्य आउटपुट होता है।
 * इसके उच्चतम ग्रेडिएंट प्रसार के लिए यह दोनों दिशाओं में संतृप्त सिग्मोइडल सक्रियण कार्यों की तुलना में कम विलुप्त होने वाली ग्रेडिएंट समस्या का हल हैं।
 * कुशल गणना: केवल तुलना, जोड़ और गुणा करने में सहायक हैं।
 * स्केल-अपरिवर्तनीय: $$\max(0, ax) = a \max(0, x) \text{ for } a \geq 0$$ हैं।

तंत्रिका अमूर्त पिरामिड में विशिष्ट उत्तेजना और अनिर्दिष्ट अवरोध को अलग करने के लिए सुधारात्मक सक्रियण कार्यों का उपयोग किया गया था, जिसे कई कंप्यूटर दृष्टि कार्यों को सीखने के लिए पर्यवेक्षित तरीके से प्रशिक्षित किया गया था। इस कारण 2011 में, गैर-रैखिकता के रूप में रेक्टिफायर का उपयोग बिना पर्यवेक्षण के सीखना प्री-ट्रेनिंग की आवश्यकता के बिना गहन पर्यवेक्षित अध्ययन न्यूरल नेटवर्क को प्रशिक्षित करने में सक्षम बनाता है। सिग्मॉइड फलन या समान सक्रियण फलन की तुलना में रेक्टिफाइड रैखिक इकाइयाँ, बड़े और जटिल डेटासेट पर गहरे तंत्रिका आर्किटेक्चर के तेज़ और प्रभावी प्रशिक्षण की अनुमति देती हैं।

संभावित समस्याएँ

 * शून्य पर अभेद्य, चूंकि, यह कहीं और भिन्न है, और शून्य पर व्युत्पन्न का मान मनमाने ढंग से 0 या 1 चुना जा सकता है।
 * शून्य केन्द्रित नहीं.
 * असीमित.
 * खत्म होने वाली ReLU समस्याएं: ReLU (सुधारित रैखिक इकाई) मुख्यतः न्यूरॉन्स को कभी-कभी ऐसी स्थिति में धकेल दिया जाता है जहां वे अनिवार्य रूप से सभी इनपुट के लिए निष्क्रिय हो जाते हैं। इस अवस्था में, कोई भी ग्रेडिएंट न्यूरॉन के माध्यम से पीछे की ओर प्रवाहित नहीं होता है, और इसलिए न्यूरॉन सदैव के लिए निष्क्रिय अवस्था में फंस जाता है और खत्म हो जाता है। यह लुप्त हो रही ग्रेडिएंट समस्या का रूप है। कुछ स्थितियों में, नेटवर्क में बड़ी संख्या में न्यूरॉन्स मृत अवस्था में फंस सकते हैं, जिससे प्रभावी रूप से प्रारूप क्षमता कम हो सकती है। यह समस्या सामान्यतः तब उत्पन्न होती है, जब सीखने की दर बहुत अधिक निर्धारित की जाती है। इसके अतिरिक्त लीकी ReLUs का उपयोग करके इसे कम किया जा सकता है, जो x <0 के लिए छोटा सा धनात्मक प्रवणता निर्दिष्ट करता है, चूंकि इसका प्रदर्शन कम हो गया है।

लीक ReLU
जब इकाई सक्रिय नहीं होती है तो लीकी ReLUs छोटे, धनात्मक ग्रेडिएंट की अनुमति देते हैं, जो लुप्त होने वाली ग्रेडिएंट समस्या को कम करने में सहायता करता हैं।

पैरामीट्रिक ReLU
पैरामीट्रिक ReLUs (PReLUs) रिसाव के गुणांक को पैरामीटर में बनाकर इस विचार को आगे ले जाते हैं जिसे अन्य तंत्रिका-नेटवर्क मापदंडों के साथ सीखा जाता है।

ध्यान दें कि ≤ 1 के लिए, यह इसके बराबर है
 * $$f(x) = \max(x, ax)$$

और इस प्रकार इसका मैक्सआउट नेटवर्क से संबंध है।

गाऊसी-त्रुटि रैखिक इकाई (GELU)
GELU रेक्टिफायर का सहज फलन है:

जहां Φ(x) मानक सामान्य वितरण का संचयी वितरण फलन है। इस प्रकार $$\Phi(x) = P(X \leqslant x)$$ समीकरण प्राप्त होता हैं।

यह सक्रियण फलन इस आलेख के प्रारंभ में दिए गए चित्र में दिखाया गया है। जब x < 0 होता है, तो इसमें गैर-मोनोटोनिक "बम्प" होता है और यह BERT_(भाषा_प्रारूप) जैसे प्रारूपों के लिए डिफ़ॉल्ट सक्रियण के रूप में कार्य करता है।

सिलु
SiLU (सिग्मॉइड लीनियर यूनिट) या स्विश फलन मुख्यतः सहज फलन है, जिसे सबसे पहले GELU पेपर में गढ़ा गया था:

कहाँ $$\operatorname{sigmoid}(x)$$ सिग्मॉइड फलन है.

सॉफ्टप्लस
रेक्टिफायर का सहज फलन विश्लेषणात्मक कार्य है

जिसे सॉफ्टप्लस या स्मूथरेलू फलन कहा जाता है इस प्रकार बड़े ऋणात्मक मान के लिए $$x$$ यह मुख्य रूप से  $$\ln 1$$ मान के लिए उपयोग करते है, तो इस प्रकार यह 0 से ठीक ऊपर प्राप्त होता हैं, जबकि इस प्रकार के बड़े धनात्मक मानों के लिए $$x$$ को मुख्य रूप से $$\ln(e^x)$$ के ऊपर रखते है, तो इस प्रकार $$x$$ का मान इस प्रकार प्राप्त होता हैं।

एक तीक्ष्णता पैरामीटर $$k$$ सम्मिलित किया जा सकता है:

सॉफ्टप्लस का व्युत्पन्न लॉजिस्टिक फलन है।

लॉजिस्टिक सिग्मॉइड फलन रेक्टिफायर के व्युत्पन्न, हेविसाइड स्टेप फलन का सहज अनुमान है।

सिंगल-वेरिएबल सॉफ्टप्लस का बहुपरिवर्तनीय सामान्यीकरण LogSumExp है, जिसमें पहला तर्क शून्य पर स्थिर रहता है:
 * $$\operatorname{LSE_0}^+(x_1, \dots, x_n) := \operatorname{LSE}(0, x_1, \dots, x_n) = \ln\left(1 + e^{x_1} + \cdots + e^{x_n} \right).$$

LogSumExp फलन है।
 * $$\operatorname{LSE}(x_1, \dots, x_n) = \ln\left(e^{x_1} + \cdots + e^{x_n}\right),$$

और इसका ग्रेडिएंट सॉफ्टमैक्स फलन है, जो शून्य पर स्थिर किए गए पहले तर्क के साथ सॉफ्टमैक्स लॉजिस्टिक फलन का बहुपरिवर्तनीय सामान्यीकरण है। इसके आधार पर मशीन लर्निंग में LogSumExp और Softmax दोनों का उपयोग किया जाता है।

ईएलयू
घातीय रैखिक इकाइयाँ माध्य सक्रियणों को शून्य को समीप बनाने का प्रयास करती हैं, जिससे सीखने की गति बढ़ती है। यह दिखाया गया है कि ELUs ReLUs की तुलना में उच्च वर्गीकरण सटीकता प्राप्त कर सकते हैं।

इन सूत्रों में, $$a$$ हाइपरपैरामीटर (मशीन लर्निंग) है | हाइपर-पैरामीटर जिसे बाधा के साथ $$a \geq 0$$ ट्यून किया जाना है।

ELU को स्थानांतरित ReLU (SReLU) के सुचारू संस्करण के रूप में देखा जा सकता है, जिसका स्वरूप $$f(x) = \max(-a, x)$$ है। इस प्रकार $$a$$ की वही व्याख्या दी गई है।

मिश
मिश फलन का उपयोग रेक्टिफायर के सुचारू फलन के रूप में भी किया जा सकता है। इसे इस प्रकार परिभाषित किया गया है


 * $$f(x) = x \tanh\big(\operatorname{softplus}(x)\big),$$

जहाँ $$\tanh(x)$$ अतिशयोक्तिपूर्ण स्पर्शज्या है, और $$\operatorname{softplus}(x)$$ सॉफ्टप्लस फलन है।

मिश गैर- एकरस और स्व-गेटेड है। यह स्विश (फलन) से प्रेरित था, जो स्वयं ReLU का प्रकार था।

स्क्वायरप्लस
स्क्वायरप्लस फलन है।
 * $$\operatorname{squareplus}_b(x) = \frac{x + \sqrt{x^2 + b}}{2}$$

जहाँ $$b \geq 0$$ हाइपरपैरामीटर है जो पास के घुमावदार क्षेत्र का आकार $$x = 0$$ निर्धारित करता है। उदाहरण के लिए, देना $$b = 0$$ ReLU उत्पन्न करता है, और यह $$b = 4$$ मान देता है, जिसके द्वारा धात्विक माध्य फलन प्राप्त होता है।

स्क्वायरप्लस सॉफ्टप्लस के साथ कई गुण साझा करता है: यह मोनोटोनिक फलन है, इसका सख्ती से धनात्मक (गणित), 0 के रूप में $$x \to -\infty$$ तक पहुंचता है, इसकी पहचान के लिए $$x \to +\infty$$ दृष्टिकोण उपयोग किया जाता है, और इसका मान $$C^\infty$$ है। जो सुचारू कार्य करने में सफल हैं। चूंकि स्क्वायरप्लस की गणना केवल बीजगणितीय फलन का उपयोग करके की जा सकती है, जिससे यह उन सेटिंग्स के लिए उपयुक्त है, जहां कम्प्यूटेशनल संसाधन या निर्देश सेट सीमित हैं। इसके अतिरिक्त, स्क्वेयरप्लस को संख्यात्मक स्थिरता सुनिश्चित करने के लिए किसी विशेष विचार की आवश्यकता नहीं होती है, जो $$x$$ के मान से अधिक है।

यह भी देखें

 * सॉफ्टमैक्स फलन
 * सिग्मॉइड फलन
 * टोबिट प्रारूप
 * परत (गहन शिक्षा)