स्विश फलन

स्विश फ़ंक्शन एक फ़ंक्शन (गणित) है जिसे निम्नानुसार परिभाषित किया गया है:


 * Swish.svg$$\operatorname{swish}(x) = x \operatorname{sigmoid}(\beta x) = \frac{x}{1+e^{-\beta x}}.$$

जहां β या तो स्थिर है या मॉडल के आधार पर प्रशिक्षित करने योग्य पैरामीटर है। β= 1 के लिए, फ़ंक्शन सिग्मॉइड लीनियर यूनिट के बराबर हो जाता है या SiLU, पहली बार 2016 में रेक्टिफायर (तंत्रिका नेटवर्क) के साथ प्रस्तावित किया गया था। SiLU को बाद में 2017 में सिग्मॉइड-वेटेड लीनियर यूनिट (SiL) फ़ंक्शन के रूप में सुदृढीकरण सीखने में उपयोग किया गया था। SiLU / SiL को इसकी प्रारंभिक खोज के एक साल बाद फिर से स्विश के रूप में फिर से खोजा गया, मूल रूप से सीखने योग्य पैरामीटर β के बिना प्रस्तावित किया गया था, ताकि β निहित रूप से 1 के बराबर हो। फिर सीखने योग्य पैरामीटर β के साथ सक्रियता का प्रस्ताव देने के लिए स्विश पेपर को अपडेट किया गया, हालांकि शोधकर्ता आमतौर पर β= 1 देते हैं और सीखने योग्य पैरामीटर β का उपयोग नहीं करते हैं। β = 0 के लिए, फ़ंक्शन स्केल किए गए रैखिक फ़ंक्शन f(x) = x/2 में बदल जाता है। β→ ∞ के साथ, सिग्मॉइड फ़ंक्शन घटक 0-1 फ़ंक्शन बिंदुवार पहुंचता है, इसलिए स्वाइप ReLU फ़ंक्शन बिंदुवार पहुंचता है। इस प्रकार, इसे एक स्मूथिंग फ़ंक्शन के रूप में देखा जा सकता है जो एक रेखीय फ़ंक्शन और ReLU फ़ंक्शन के बीच गैर-रैखिक रूप से प्रक्षेपित होता है। यह फ़ंक्शन गैर-एकरसता का उपयोग करता है, और इस संपत्ति के साथ अन्य सक्रियण कार्यों के प्रस्ताव को प्रभावित कर सकता है जैसे कि मिश (फ़ंक्शन)। सकारात्मक मूल्यों पर विचार करते समय, स्विश सिग्मॉइड सिकुड़न फ़ंक्शन का एक विशेष मामला है जिसे में परिभाषित किया गया है (इस संदर्भ के समीकरण (3) द्वारा दिया गया दोगुना पैरामीटरयुक्त सिग्मॉइड संकोचन रूप देखें)।

अनुप्रयोग
2017 में, ImageNet डेटा पर विश्लेषण करने के बाद, Google के शोधकर्ताओं ने संकेत दिया कि ReLU और सिग्मॉइड फ़ंक्शंस की तुलना में कृत्रिम तंत्रिका नेटवर्क में सक्रियण फ़ंक्शन के रूप में इस फ़ंक्शन का उपयोग करने से प्रदर्शन में सुधार होता है। यह माना जाता है कि सुधार का एक कारण यह है कि स्विश फ़ंक्शन backpropagation के दौरान लुप्त हो रही ढाल की समस्या को कम करने में मदद करता है।