हिंज लॉस

मशीन लर्निंग में, हिंज लॉस एक हानि फलन के रूप में है। जिसका उपयोग सांख्यिकीय क्लासिफायर के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के लिए किया जाता है, विशेष रूप से सपोर्ट वेक्टर मशीन  (एसवीएम) के । रूप में किया जाता है किसी इच्छित आउटपुट के लिए $t = 1$ और एक क्लासिफायर स्कोर y के लिए, भविष्यवाणी y के हिंज लॉस को इस प्रकार परिभाषित किया गया है.


 * $$\ell(y) = \max(0, 1-t \cdot y)$$

ध्यान दें कि $$y$$ क्लासिफायर के निर्णय फलन का कच्चा आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, $$y = \mathbf{w} \cdot \mathbf{x} + b$$, जहाँ $$(\mathbf{w},b)$$ हाइपरप्लेन के पैरामीटर के रूप में हैं और $$\mathbf{x}$$ इनपुट वेरिएबल है।

जब $y$ और $t$ के चिन्ह का (अर्थ) एक ही है, $y$ सही वर्ग की भविष्यवाणी करता है और $$|y| \ge 1$$, काज हानि $$\ell(y) = 0$$. जब उनके विपरीत लक्षण हों, $$\ell(y)$$ के साथ रैखिक रूप से बढ़ता है $y$, और इसी प्रकार यदि $$|y| < 1$$, यदि उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं होता है)।

एक्सटेंशन
जबकि बाइनरी एसवीएम को सामान्यतः एक बनाम सभी या एक बनाम एक फैशन में मल्टीक्लास वर्गीकरण के रूप में विस्तारित किया जाता है,

इस तरह के अंत के लिए हिंज लॉस का विस्तार करना भी संभव है। मल्टीक्लास हिंज लॉस के कई भिन्न-भिन्न रूप प्रस्तावित किए गए हैं। उदाहरण के लिए, क्रैमर और सिंगर

इसे एक रैखिक क्लासिफायर के रूप में परिभाषित किया गया है
 * $$\ell(y) = \max(0, 1 + \max_{y \ne t} \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})$$

जहाँ $$t$$ लक्ष्य लेबल है, $$\mathbf{w}_t$$ और $$\mathbf{w}_y$$ मॉडल पैरामीटर के रूप हैं.

वेस्टन और वॉटकिंस ने एक समान परिभाषा प्रदान की लेकिन अधिकतम अतिरिक्त योग के साथ किया जाता है:


 * $$\ell(y) = \sum_{y \ne t} \max(0, 1 + \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})$$

संरचित भविष्यवाणी में, काज हानि को आगे संरचित आउटपुट समष्टि के रूप में बढ़ाया जा सकता है। मार्जिन रीस्केलिंग के साथ संरचित सपोर्ट वेक्टर मशीन निम्नलिखित वेरिएंट का उपयोग करते है, जहां $y < 1$ एसवीएम के मापदंडों को दर्शाता है, $t = ±1$ एसवीएम की भविष्यवाणियां, $y$ संयुक्त सुविधा फलन और $w$ हैमिंग हानि:के रूप में होते है.


 * $$\begin{align}

\ell(\mathbf{y}) & = \max(0, \Delta(\mathbf{y}, \mathbf{t}) + \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{y}) \rangle - \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{t}) \rangle) \\ & = \max(0, \max_{y \in \mathcal{Y}} \left( \Delta(\mathbf{y}, \mathbf{t}) + \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{y}) \rangle \right) - \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{t}) \rangle) \end{align}$$

अनुकूलन
हिंज हानि एक उत्तल कार्य है, इसलिए मशीन लर्निंग के रूप में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह अवकल कार्य के रूप में नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबडेरिवेटिव # सबग्रेडिएंट है $y$ स्कोर फलन के साथ एक रैखिक एसवीएम का $$y = \mathbf{w} \cdot \mathbf{x}$$ जो कि दिया गया है


 * $$\frac{\partial\ell}{\partial w_i} = \begin{cases}

-t \cdot x_i & \text{if } t \cdot y < 1 \\ 0           & \text{otherwise} \end{cases}$$

चूंकि, काज हानि के व्युत्पन्न के पश्चात से $$ty = 1$$ अपरिभाषित है, अनुकूलन के लिए चिकनाई  संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो
 * $$\ell(y) = \begin{cases}

\frac{1}{2} - ty      & \text{if}  ty \le 0, \\ \frac{1}{2} (1 - ty)^2 & \text{if} 0 < ty < 1, \\ 0                     & \text{if}  1 \le ty \end{cases}$$ या चतुर्भुज रूप से चिकना किया गया


 * $$\ell_\gamma(y) = \begin{cases}

\frac{1}{2\gamma} \max(0, 1 - ty)^2 & \text{if} ty \ge 1 - \gamma \\ 1 - \frac{\gamma}{2} - ty          & \text{otherwise} \end{cases}$$ झांग द्वारा सुझाया गया। वर्गीकरण के लिए ह्यूबर लॉस#वेरिएंट $$L$$ इस हानि फलन का एक विशेष स्थिति है $$\gamma = 2$$, विशेष रूप से $$L(t,y) = 4 \ell_2(y)$$.