हिंज लॉस

यंत्र अधिगम में, हिंज लॉस एक हानि फ़ंक्शन है जिसका उपयोग सांख्यिकीय वर्गीकरण के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के लिए किया जाता है, विशेष रूप से  समर्थन वेक्टर यंत्र ों (एसवीएम) के लिए। किसी इच्छित आउटपुट के लिए $t = 1$ और एक क्लासिफायर स्कोर $y$, भविष्यवाणी का टिका नुकसान $y$ परिभाषित किया जाता है


 * $$\ell(y) = \max(0, 1-t \cdot y)$$

ध्यान दें कि $$y$$ क्लासिफायरियर के निर्णय फ़ंक्शन का कच्चा आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, $$y = \mathbf{w} \cdot \mathbf{x} + b$$, कहाँ $$(\mathbf{w},b)$$ हाइपरप्लेन के पैरामीटर हैं और $$\mathbf{x}$$ इनपुट वेरिएबल है।

कब $y$ और $t$ का चिन्ह (अर्थ) एक ही है $y$ सही वर्ग की भविष्यवाणी करता है) और $$|y| \ge 1$$, काज हानि $$\ell(y) = 0$$. जब उनके विपरीत लक्षण हों, $$\ell(y)$$ के साथ रैखिक रूप से बढ़ता है $y$, और इसी प्रकार यदि $$|y| < 1$$, भले ही उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं)।

एक्सटेंशन
जबकि बाइनरी एसवीएम को आमतौर पर एक-बनाम-सभी या एक-बनाम-एक फैशन में मल्टीक्लास वर्गीकरण तक विस्तारित किया जाता है, इस तरह के अंत के लिए काज हानि को स्वयं बढ़ाना भी संभव है। मल्टीक्लास हिंज लॉस के कई अलग-अलग रूप प्रस्तावित किए गए हैं। उदाहरण के लिए, क्रैमर और सिंगर इसे एक रैखिक वर्गीकारक के रूप में परिभाषित किया गया है
 * $$\ell(y) = \max(0, 1 + \max_{y \ne t} \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})$$

कहाँ $$t$$ लक्ष्य लेबल है, $$\mathbf{w}_t$$ और $$\mathbf{w}_y$$ मॉडल पैरामीटर हैं.

वेस्टन और वॉटकिंस ने एक समान परिभाषा प्रदान की, लेकिन अधिकतम के बजाय योग के साथ:


 * $$\ell(y) = \sum_{y \ne t} \max(0, 1 + \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})$$

संरचित भविष्यवाणी में, काज हानि को आगे संरचित आउटपुट स्थानों तक बढ़ाया जा सकता है। मार्जिन रीस्केलिंग के साथ संरचित समर्थन वेक्टर मशीन निम्नलिखित संस्करण का उपयोग करती है, जहां $y < 1$ एसवीएम के मापदंडों को दर्शाता है, $t = ±1$ एसवीएम की भविष्यवाणियां, $y$ संयुक्त सुविधा फ़ंक्शन, और $w$ हैमिंग हानि:


 * $$\begin{align}

\ell(\mathbf{y}) & = \max(0, \Delta(\mathbf{y}, \mathbf{t}) + \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{y}) \rangle - \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{t}) \rangle) \\ & = \max(0, \max_{y \in \mathcal{Y}} \left( \Delta(\mathbf{y}, \mathbf{t}) + \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{y}) \rangle \right) - \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{t}) \rangle) \end{align}$$

अनुकूलन
हिंज हानि एक उत्तल कार्य है, इसलिए मशीन लर्निंग में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह विभेदक कार्य नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबडेरिवेटिव # सबग्रेडिएंट है $y$स्कोर फ़ंक्शन के साथ एक रैखिक एसवीएम का $$y = \mathbf{w} \cdot \mathbf{x}$$ जो कि दिया गया है


 * $$\frac{\partial\ell}{\partial w_i} = \begin{cases}

-t \cdot x_i & \text{if } t \cdot y < 1 \\ 0           & \text{otherwise} \end{cases}$$

हालाँकि, काज हानि के व्युत्पन्न के बाद से $$ty = 1$$ अपरिभाषित है, अनुकूलन के लिए चिकनाई  संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो
 * $$\ell(y) = \begin{cases}

\frac{1}{2} - ty      & \text{if}  ty \le 0, \\ \frac{1}{2} (1 - ty)^2 & \text{if} 0 < ty < 1, \\ 0                     & \text{if}  1 \le ty \end{cases}$$ या चतुर्भुज रूप से चिकना किया गया


 * $$\ell_\gamma(y) = \begin{cases}

\frac{1}{2\gamma} \max(0, 1 - ty)^2 & \text{if} ty \ge 1 - \gamma \\ 1 - \frac{\gamma}{2} - ty          & \text{otherwise} \end{cases}$$ झांग द्वारा सुझाया गया। वर्गीकरण के लिए ह्यूबर लॉस#वेरिएंट $$L$$ इस हानि फ़ंक्शन का एक विशेष मामला है $$\gamma = 2$$, विशेष रूप से $$L(t,y) = 4 \ell_2(y)$$.