हिंज लॉस: Difference between revisions
No edit summary |
No edit summary |
||
| Line 4: | Line 4: | ||
:<math>\ell(y) = \max(0, 1-t \cdot y)</math> | :<math>\ell(y) = \max(0, 1-t \cdot y)</math> | ||
ध्यान दें कि <math>y</math> क्लासिफायरियर के निर्णय फ़ंक्शन का कच्चा आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, <math>y = \mathbf{w} \cdot \mathbf{x} + b</math>, कहाँ <math>(\mathbf{w},b)</math> [[हाइपरप्लेन]] के पैरामीटर हैं और <math>\mathbf{x}</math> इनपुट वेरिएबल है। | ध्यान दें कि <math>y</math> क्लासिफायरियर के निर्णय फ़ंक्शन का कच्चा आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, <math>y = \mathbf{w} \cdot \mathbf{x} + b</math>, कहाँ <math>(\mathbf{w},b)</math> [[हाइपरप्लेन|हाइपरसमतल]] के पैरामीटर हैं और <math>\mathbf{x}</math> इनपुट वेरिएबल है। | ||
कब {{mvar|t}} और {{mvar|y}} का चिन्ह (अर्थ) एक ही है {{mvar|y}} सही वर्ग की भविष्यवाणी करता है) और <math>|y| \ge 1</math>, काज हानि <math>\ell(y) = 0</math>. जब उनके विपरीत लक्षण हों, <math>\ell(y)</math> के साथ रैखिक रूप से बढ़ता है {{mvar|y}}, और इसी प्रकार यदि <math>|y| < 1</math>, यदि उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं)। | कब {{mvar|t}} और {{mvar|y}} का चिन्ह (अर्थ) एक ही है {{mvar|y}} सही वर्ग की भविष्यवाणी करता है) और <math>|y| \ge 1</math>, काज हानि <math>\ell(y) = 0</math>. जब उनके विपरीत लक्षण हों, <math>\ell(y)</math> के साथ रैखिक रूप से बढ़ता है {{mvar|y}}, और इसी प्रकार यदि <math>|y| < 1</math>, यदि उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं)। | ||
| Line 27: | Line 27: | ||
==अनुकूलन== | ==अनुकूलन== | ||
हिंज हानि एक [[उत्तल कार्य]] है, इसलिए मशीन लर्निंग में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह [[विभेदक कार्य]] नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबडेरिवेटिव # सबग्रेडिएंट है {{math|'''w'''}}स्कोर फ़ंक्शन के साथ एक रैखिक एसवीएम का <math>y = \mathbf{w} \cdot \mathbf{x}</math> जो कि दिया गया है | हिंज हानि एक [[उत्तल कार्य]] है, इसलिए मशीन लर्निंग में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह [[विभेदक कार्य|अवकल कार्य]] नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबडेरिवेटिव # सबग्रेडिएंट है {{math|'''w'''}}स्कोर फ़ंक्शन के साथ एक रैखिक एसवीएम का <math>y = \mathbf{w} \cdot \mathbf{x}</math> जो कि दिया गया है | ||
:<math>\frac{\partial\ell}{\partial w_i} = \begin{cases} | :<math>\frac{\partial\ell}{\partial w_i} = \begin{cases} | ||
| Line 34: | Line 34: | ||
\end{cases}</math> | \end{cases}</math> | ||
[[File:Hinge loss variants.svg|thumb|एक फ़ंक्शन के रूप में काज हानि के तीन प्रकारों का | [[File:Hinge loss variants.svg|thumb|एक फ़ंक्शन के रूप में काज हानि के तीन प्रकारों का आलेख {{math|''z'' {{=}} ''ty''}}: सामान्य संस्करण (नीला), इसका वर्गाकार (हरा), और रेनी और स्रेब्रो द्वारा टुकड़ा-वार चिकना संस्करण (लाल)। y-अक्ष है {{math|''l(y)''}} काज हानि, और x-अक्ष पैरामीटर है {{mvar|t}}]]चूंकि, काज हानि के व्युत्पन्न के पश्चात से <math>ty = 1</math> अपरिभाषित है, अनुकूलन के लिए [[ चिकनाई ]] संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो<ref>{{cite conference |title=Loss Functions for Preference Levels: Regression with Discrete Ordered Labels |first1=Jason D. M. |last1=Rennie |first2=Nathan |last2=Srebro |conference=Proc. [[IJCAI]] Multidisciplinary Workshop on Advances in Preference Handling |year=2005 |url=http://ttic.uchicago.edu/~nati/Publications/RennieSrebroIJCAI05.pdf}}</ref> | ||
:<math>\ell(y) = \begin{cases} | :<math>\ell(y) = \begin{cases} | ||
\frac{1}{2} - ty & \text{if} ~~ ty \le 0, \\ | \frac{1}{2} - ty & \text{if} ~~ ty \le 0, \\ | ||
Revision as of 23:32, 4 August 2023
यंत्र अधिगम में, हिंज लॉस एक हानि फ़ंक्शन है जिसका उपयोग सांख्यिकीय वर्गीकरण के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के लिए किया जाता है, विशेष रूप से समर्थन वेक्टर यंत्र ों (एसवीएम) के लिए।[1]
किसी इच्छित आउटपुट के लिए t = ±1 और एक क्लासिफायर स्कोर y, भविष्यवाणी का टिका हानि y परिभाषित किया जाता है
ध्यान दें कि क्लासिफायरियर के निर्णय फ़ंक्शन का कच्चा आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, , कहाँ हाइपरसमतल के पैरामीटर हैं और इनपुट वेरिएबल है।
कब t और y का चिन्ह (अर्थ) एक ही है y सही वर्ग की भविष्यवाणी करता है) और , काज हानि . जब उनके विपरीत लक्षण हों, के साथ रैखिक रूप से बढ़ता है y, और इसी प्रकार यदि , यदि उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं)।
एक्सटेंशन
जबकि बाइनरी एसवीएम को सामान्यतः एक-बनाम-सभी या एक-बनाम-एक फैशन में मल्टीक्लास वर्गीकरण तक विस्तारित किया जाता है,[2] इस प्रकार के अंत के लिए काज हानि को स्वयं बढ़ाना भी संभव है। मल्टीक्लास हिंज लॉस के कई भिन्न-भिन्न रूप प्रस्तावित किए गए हैं।[3] उदाहरण के लिए, क्रैमर और सिंगर[4] इसे एक रैखिक वर्गीकारक के रूप में परिभाषित किया गया है[5]
कहाँ लक्ष्य लेबल है, और मॉडल पैरामीटर हैं.
वेस्टन और वॉटकिंस ने एक समान परिभाषा प्रदान की, लेकिन अधिकतम के अतिरिक्त योग के साथ:[6][3]
संरचित भविष्यवाणी में, काज हानि को आगे संरचित आउटपुट स्थानों तक बढ़ाया जा सकता है। मार्जिन रीस्केलिंग के साथ संरचित समर्थन वेक्टर मशीन निम्नलिखित संस्करण का उपयोग करती है, जहां w एसवीएम के मापदंडों को दर्शाता है, y एसवीएम की भविष्यवाणियां, φ संयुक्त सुविधा फ़ंक्शन, और Δ हैमिंग हानि:
अनुकूलन
हिंज हानि एक उत्तल कार्य है, इसलिए मशीन लर्निंग में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह अवकल कार्य नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबडेरिवेटिव # सबग्रेडिएंट है wस्कोर फ़ंक्शन के साथ एक रैखिक एसवीएम का जो कि दिया गया है