वर्गीकरण के लिए हानि फलन

यंत्र अधिगम और गणितीय अनुकूलन में, वर्गीकरण के लिए हानि फ़ंक्शन कम्प्यूटेशनल रूप से व्यवहार्य हानि फ़ंक्शन हैं जो सांख्यिकीय वर्गीकरण में भविष्यवाणियों की अशुद्धि के लिए भुगतान की गई कीमत का प्रतिनिधित्व करते हैं (पहचानने की समस्याएं कि कोई विशेष अवलोकन किस श्रेणी से संबंधित है)। दिया गया $$\mathcal{X}$$ सभी संभावित इनपुट के स्थान के रूप में (आमतौर पर)। $$\mathcal{X} \subset \mathbb{R}^d$$), और $$\mathcal{Y} = \{ -1,1 \}$$ लेबल के सेट (संभावित आउटपुट) के रूप में, वर्गीकरण एल्गोरिदम का एक विशिष्ट लक्ष्य एक फ़ंक्शन ढूंढना है $$f: \mathcal{X} \to \mathcal{Y}$$ जो किसी लेबल की सबसे अच्छी भविष्यवाणी करता है $$y$$ किसी दिए गए इनपुट के लिए $$\vec{x}$$. हालाँकि, अधूरी जानकारी, माप में शोर, या अंतर्निहित प्रक्रिया में संभाव्य घटकों के कारण, यह संभव है $$\vec{x}$$ अलग उत्पन्न करने के लिए $$y$$. परिणामस्वरूप, सीखने की समस्या का लक्ष्य अपेक्षित हानि (जिसे जोखिम के रूप में भी जाना जाता है) को कम करना है, जिसे इस प्रकार परिभाषित किया गया है
 * $$I[f] = \displaystyle \int_{\mathcal{X} \times \mathcal{Y}} V(f(\vec{x}),y) \, p(\vec{x},y) \, d\vec{x} \, dy$$

कहाँ $$V(f(\vec{x}),y)$$ एक दिया गया हानि फ़ंक्शन है, और $$p(\vec{x},y)$$ डेटा उत्पन्न करने वाली प्रक्रिया का संभाव्यता घनत्व फ़ंक्शन है, जिसे समकक्ष रूप से लिखा जा सकता है


 * $$p(\vec{x},y)=p(y\mid\vec{x}) p(\vec{x}).$$

वर्गीकरण के भीतर, आमतौर पर उपयोग किए जाने वाले कई हानि फ़ंक्शन केवल वास्तविक लेबल के उत्पाद के संदर्भ में लिखे जाते हैं $$y$$ और अनुमानित लेबल $$f(\vec{x})$$. इसलिए, उन्हें केवल एक चर के कार्यों के रूप में परिभाषित किया जा सकता है $$\upsilon=y f(\vec{x})$$, ताकि $$V(f(\vec{x}),y) = \phi(yf(\vec{x})) = \phi(\upsilon)$$ उपयुक्त रूप से चुने गए फ़ंक्शन के साथ $$\phi:\mathbb{R}\to\mathbb{R}$$. इन्हें मार्जिन-आधारित हानि फ़ंक्शन कहा जाता है। मार्जिन-आधारित हानि फ़ंक्शन को चुनना चुनने के समान है $$\phi$$. इस ढांचे के भीतर हानि फ़ंक्शन का चयन इष्टतम को प्रभावित करता है $$f^{*}_\phi$$ जो अपेक्षित जोखिम को कम करता है।

बाइनरी वर्गीकरण के मामले में, ऊपर निर्दिष्ट अभिन्न से अपेक्षित जोखिम की गणना को सरल बनाना संभव है। विशेष रूप से,



\begin{align} I[f] & = \int_{\mathcal{X} \times \mathcal{Y}} V(f(\vec{x}),y) \, p(\vec{x},y) \,d\vec{x} \,dy \\[6pt] & = \int_\mathcal{X} \int_\mathcal{Y} \phi(yf(\vec{x})) \, p(y\mid\vec{x}) \, p(\vec{x}) \,dy \,d\vec{x} \\[6pt] & = \int_\mathcal{X} [\phi(f(\vec{x})) \, p(1\mid\vec{x}) + \phi(-f(\vec{x})) \, p(-1\mid\vec{x})]\, p(\vec{x})\,d\vec{x} \\[6pt] & = \int_\mathcal{X} [\phi(f(\vec{x})) \, p(1\mid\vec{x}) + \phi(-f(\vec{x})) \, (1-p(1\mid\vec{x}))]\, p(\vec{x})\,d\vec{x} \end{align} $$ दूसरी समानता ऊपर वर्णित गुणों से मिलती है। तीसरी समानता इस तथ्य से उत्पन्न होती है कि 1 और −1 ही एकमात्र संभावित मान हैं $$y$$, और चौथा क्योंकि $$p(-1\mid x)=1-p(1\mid x)$$. कोष्ठक के भीतर शब्द $$ [\phi(f(\vec{x})) p(1\mid\vec{x})+\phi(-f(\vec{x})) (1-p(1\mid\vec{x}))] $$ सशर्त जोखिम के रूप में जाना जाता है।

कोई भी इसे मिनिमाइज़र के रूप में हल कर सकता है $$I[f]$$ के संबंध में अंतिम समानता के कार्यात्मक व्युत्पन्न को लेकर $$f$$ और व्युत्पन्न को 0 के बराबर सेट करना। इसका परिणाम निम्नलिखित समीकरण होगा



\frac{\partial \phi(f)}{\partial f}\eta + \frac{\partial \phi(-f)}{\partial f}(1-\eta)=0 \;\;\;\;\;(1) $$

जो सशर्त जोखिम के व्युत्पन्न को शून्य के बराबर निर्धारित करने के बराबर है।

वर्गीकरण की द्विआधारी प्रकृति को देखते हुए, हानि फ़ंक्शन के लिए एक प्राकृतिक चयन (झूठी सकारात्मक और झूठी नकारात्मक के लिए समान लागत मानते हुए) 0-1 हानि फ़ंक्शन (0-1 संकेतक फ़ंक्शन) होगा, जो 0 का मान लेता है यदि अनुमानित वर्गीकरण वास्तविक वर्ग के बराबर होता है या 1 यदि अनुमानित वर्गीकरण वास्तविक वर्ग से मेल नहीं खाता है। यह चयन किसके द्वारा प्रतिरूपित किया गया है?
 * $$V(f(\vec{x}),y)=H(-yf(\vec{x}))$$

कहाँ $$H$$ हेविसाइड स्टेप फ़ंक्शन को इंगित करता है। हालाँकि, यह हानि फ़ंक्शन गैर-उत्तल और गैर-सुचारू है, और इष्टतम समाधान के लिए समाधान एक एनपी कठिन  कॉम्बिनेटोरियल अनुकूलन समस्या है। परिणामस्वरूप, हानि फ़ंक्शन सरोगेट्स को प्रतिस्थापित करना बेहतर होता है जो आमतौर पर उपयोग किए जाने वाले शिक्षण एल्गोरिदम के लिए ट्रैक करने योग्य होते हैं, क्योंकि उनके पास उत्तल और चिकनी होने जैसे सुविधाजनक गुण होते हैं। उनकी कम्प्यूटेशनल ट्रैक्टेबिलिटी के अलावा, कोई यह दिखा सकता है कि इन हानि सरोगेट्स का उपयोग करके सीखने की समस्या का समाधान मूल वर्गीकरण समस्या के वास्तविक समाधान की पुनर्प्राप्ति की अनुमति देता है। इनमें से कुछ सरोगेट्स का वर्णन नीचे दिया गया है।

व्यवहार में, संभाव्यता वितरण $$p(\vec{x},y)$$ अज्ञात है। परिणामस्वरूप, के एक प्रशिक्षण सेट का उपयोग करना $$n$$ आईआईडी नमूना बिंदु


 * $$S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\}$$

डेटा नमूना स्थान से लिया गया, कोई अनुभवजन्य जोखिम को कम करना चाहता है


 * $$I_S[f] = \frac{1}{n} \sum_{i=1}^n V( f(\vec{x}_i),y_i)$$

अपेक्षित जोखिम के लिए एक प्रॉक्सी के रूप में। (अधिक विस्तृत विवरण के लिए सांख्यिकीय शिक्षण सिद्धांत देखें।)

बेयस संगति
बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम $$f^*_{0/1}$$, यानी, जो शून्य-एक हानि से जुड़े अपेक्षित जोखिम को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और के रूप में है


 * $$f^*_{0/1}(\vec{x}) \;=\; \begin{cases} \;\;\;1& \text{if }p(1\mid\vec{x}) > p(-1\mid \vec{x}) \\ \;\;\;0 & \text{if }p(1\mid\vec{x}) =  p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) <  p(-1\mid\vec{x}) \end{cases}$$.

एक हानि फ़ंक्शन को वर्गीकरण-कैलिब्रेटेड या बेयस सुसंगत कहा जाता है यदि यह इष्टतम है $$f^*_{\phi}$$ इस प्रकार कि $$f^*_{0/1}(\vec{x}) = \operatorname{sgn}(f^*_{\phi}(\vec{x}))$$और इस प्रकार बेयस निर्णय नियम के तहत इष्टतम है। बेयस लगातार हानि फ़ंक्शन हमें बेयस इष्टतम निर्णय फ़ंक्शन खोजने की अनुमति देता है $$f^*_{\phi}$$ अपेक्षित जोखिम को सीधे कम करके और संभाव्यता घनत्व कार्यों को स्पष्ट रूप से मॉडल किए बिना।

उत्तल मार्जिन हानि के लिए $$\phi(\upsilon)$$, ऐसा दिखाया जा सकता है $$\phi(\upsilon)$$ क्या बेयस सुसंगत है यदि और केवल यदि यह 0 और पर अवकलनीय है $$\phi'(0)<0$$. फिर भी, यह परिणाम गैर-उत्तल बेयस लगातार हानि कार्यों के अस्तित्व को बाहर नहीं करता है। एक अधिक सामान्य परिणाम बताता है कि बेयस लगातार हानि फ़ंक्शन निम्नलिखित फॉर्मूलेशन का उपयोग करके उत्पन्न किया जा सकता है
 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] \;\;\;\;\;(2)$$,

कहाँ $$f(\eta), (0\leq \eta \leq 1)$$ क्या कोई व्युत्क्रमणीय फलन ऐसा है? $$f^{-1}(-v)=1-f^{-1}(v)$$ और $$C(\eta)$$ क्या कोई अवकलनीय सख्ती से अवतल कार्य है जैसे कि $$C(\eta)=C(1-\eta)$$. तालिका-I कुछ उदाहरण विकल्पों के लिए उत्पन्न बेयस लगातार हानि फ़ंक्शन दिखाता है $$C(\eta)$$ और $$f^{-1}(v)$$. ध्यान दें कि सैवेज और स्पर्शरेखा हानि उत्तल नहीं हैं। इस तरह के गैर-उत्तल हानि कार्यों को वर्गीकरण में आउटलेर्स से निपटने में उपयोगी दिखाया गया है। (2) से उत्पन्न सभी हानि कार्यों के लिए, पश्च संभाव्यता $$p(y=1|\vec{x})$$ इनवर्टिबल लिंक फ़ंक्शन का उपयोग करके पाया जा सकता है $$p(y=1|\vec{x})=\eta=f^{-1}(v)$$. ऐसे हानि फ़ंक्शन जहां उलटे लिंक का उपयोग करके पिछली संभावना को पुनर्प्राप्त किया जा सकता है, उचित हानि फ़ंक्शन कहलाते हैं। अपेक्षित जोखिम को न्यूनतम करने वाला एकमात्र उपाय, $$f^*_{\phi}$$, उपरोक्त उत्पन्न हानि कार्यों से जुड़े समीकरण (1) से सीधे पाया जा सकता है और संबंधित के बराबर दिखाया जा सकता है $$ f(\eta) $$. यह गैर-उत्तल हानि कार्यों के लिए भी लागू होता है, जिसका अर्थ है कि ग्रेडिएंट डिसेंट आधारित एल्गोरिदम जैसे ग्रेडिएंट बूस्टिंग का उपयोग मिनिमाइज़र के निर्माण के लिए किया जा सकता है।

उचित हानि कार्य, हानि मार्जिन और नियमितीकरण
उचित हानि कार्यों के लिए, हानि मार्जिन को इस प्रकार परिभाषित किया जा सकता है $$\mu_{\phi}=-\frac{\phi'(0)}{\phi''(0)}$$ और क्लासिफायरियर के नियमितीकरण गुणों से सीधे संबंधित दिखाया गया है। विशेष रूप से बड़े मार्जिन का हानि फ़ंक्शन नियमितीकरण को बढ़ाता है और पिछली संभावना का बेहतर अनुमान उत्पन्न करता है। उदाहरण के लिए, लॉजिस्टिक हानि के लिए हानि मार्जिन को बढ़ाया जा सकता है $$\gamma$$ पैरामीटर और लॉजिस्टिक हानि को इस रूप में लिखना $$\frac{1}{\gamma}\log(1+e^{-\gamma v})$$ जहां छोटा है $$0<\gamma<1$$ हानि का मार्जिन बढ़ जाता है. यह दिखाया गया है कि यह सीधे तौर पर ग्रेडिएंट बूस्टिंग में सीखने की दर को कम करने के बराबर है $$F_m(x) = F_{m-1}(x) + \gamma h_m(x),$$ जहां घट रही है $$\gamma$$ बूस्टेड क्लासिफायरियर के नियमितीकरण में सुधार करता है। सिद्धांत यह स्पष्ट करता है कि जब सीखने की दर $$\gamma$$ का उपयोग किया जाता है, पश्च संभाव्यता को पुनः प्राप्त करने का सही सूत्र अब है $$\eta=f^{-1}(\gamma F(x))$$.

निष्कर्ष में, बड़े मार्जिन (छोटे) के साथ हानि फ़ंक्शन चुनकर $$\gamma$$) हम नियमितीकरण बढ़ाते हैं और पश्च संभाव्यता के अपने अनुमानों में सुधार करते हैं जो बदले में अंतिम क्लासिफायरियर के आरओसी वक्र में सुधार करता है।

वर्ग हानि
जबकि आमतौर पर प्रतिगमन में उपयोग किया जाता है, वर्ग हानि फ़ंक्शन को फ़ंक्शन के रूप में फिर से लिखा जा सकता है $$\phi(yf(\vec{x}))$$ और वर्गीकरण के लिए उपयोग किया जाता है। इसे निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 4(\frac{1}{2}(v+1))(1-\frac{1}{2}(v+1))+(1-\frac{1}{2}(v+1))(4-8(\frac{1}{2}(v+1)))=(1-v)^2.$$

वर्ग हानि फ़ंक्शन उत्तल और चिकना दोनों है। हालाँकि, वर्ग हानि फ़ंक्शन आउटलेर्स को अत्यधिक दंडित करता है, जिससे लॉजिस्टिक हानि या हिंज हानि फ़ंक्शन की तुलना में धीमी अभिसरण दर (नमूना जटिलता के संबंध में) होती है। इसके अलावा, ऐसे फ़ंक्शन जो उच्च मान उत्पन्न करते हैं $$f(\vec{x})$$ कुछ के लिए $$x \in X$$ के उच्च मूल्यों के कारण, वर्ग हानि फ़ंक्शन के साथ खराब प्रदर्शन करेगा $$yf(\vec{x})$$ चाहे कोई भी लक्षण दिखे, कठोर दंड दिया जाएगा $$y$$ और $$f(\vec{x})$$ मिलान।

वर्ग हानि फ़ंक्शन का एक लाभ यह है कि इसकी संरचना नियमितीकरण मापदंडों के आसान क्रॉस सत्यापन के लिए उधार देती है। विशेष रूप से तिखोनोव नियमितीकरण के लिए, कोई लीव-वन-आउट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके नियमितीकरण पैरामीटर को उसी समय में हल कर सकता है, जितना किसी एक समस्या को हल करने में लगेगा। का मिनिमाइज़र $$I[f]$$ वर्ग हानि फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Square}= 2\eta-1=2p(1\mid x)-1.$$

लॉजिस्टिक हानि
लॉजिस्टिक हानि फ़ंक्शन निम्नानुसार (2) और तालिका- I का उपयोग करके उत्पन्न किया जा सकता है


 * $$\begin{align}

\phi(v) &= C[f^{-1}(v)]+\left(1-f^{-1}(v)\right)\, C'\left[f^{-1}(v)\right] \\ &= \frac{1}{\log(2)}\left [\frac{-e^v}{1+e^v}\log\frac{e^v}{1+e^v}-\left(1-\frac{e^v}{1+e^v}\right)\log\left(1-\frac{e^v}{1+e^v}\right)\right ]+\left(1-\frac{e^v}{1+e^v}\right) \left [\frac{-1}{\log(2)}\log\left(\frac{\frac{e^v}{1+e^v}}{1-\frac{e^v}{1+e^v}}\right)\right] \\ &=\frac{1}{\log(2)}\log(1+e^{-v}). \end{align} $$ लॉजिस्टिक हानि उत्तल है और नकारात्मक मूल्यों के लिए रैखिक रूप से बढ़ती है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। लॉजिस्टिक लॉस का उपयोग लॉगिटबूस्ट  में किया जाता है।

का मिनिमाइज़र $$I[f]$$ लॉजिस्टिक लॉस फ़ंक्शन को सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Logistic}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).$$

यह फ़ंक्शन कब अपरिभाषित है $$p(1\mid x)=1$$ या $$p(1\mid x)=0$$ (क्रमशः ∞ और −∞ की ओर रुझान), लेकिन एक सहज वक्र की भविष्यवाणी करता है जो कब बढ़ता है $$p(1\mid x)$$ जब बढ़ता है और 0 के बराबर हो जाता है $$p(1\mid x)= 0.5$$.

यह जांचना आसान है कि लॉजिस्टिक लॉस और बाइनरी क्रॉस एन्ट्रापी लॉस (लॉग लॉस) वास्तव में एक ही हैं (गुणात्मक स्थिरांक तक) $$\frac{1}{\log(2)}$$). क्रॉस एन्ट्रापी हानि अनुभवजन्य वितरण और अनुमानित वितरण के बीच कुल्बैक-लीब्लर विचलन से निकटता से संबंधित है। आधुनिक गहन शिक्षण में क्रॉस एन्ट्रॉपी हानि सर्वव्यापी है।

घातीय हानि
घातांकीय हानि फ़ंक्शन निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है


 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 2\sqrt{\left(\frac{e^{2v}}{1+e^{2v}}\right)\left(1-\frac{e^{2v}}{1+e^{2v}}\right)}+\left(1-\frac{e^{2v}}{1+e^{2v}}\right)\left(\frac{1-\frac{2e^{2v}}{1+e^{2v}}}{\sqrt{\frac{e^{2v}}{1+e^{2v}}(1-\frac{e^{2v}}{1+e^{2v}})}}\right) = e^{-v}$$

घातीय हानि उत्तल है और नकारात्मक मूल्यों के लिए तेजी से बढ़ती है जो इसे आउटलेर्स के प्रति अधिक संवेदनशील बनाती है। घातीय हानि का उपयोग AdaBoost में किया जाता है।

का मिनिमाइज़र $$I[f]$$ घातीय हानि फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Exp}= \frac{1}{2}\log\left(\frac{\eta}{1-\eta}\right)=\frac{1}{2}\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).$$

बर्बर हानि
सैवेज हानि निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है


 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = \left(\frac{e^v}{1+e^v}\right)\left(1-\frac{e^v}{1+e^v}\right)+\left(1-\frac{e^v}{1+e^v}\right)\left(1-\frac{2e^v}{1+e^v}\right) = \frac{1}{(1+e^v)^2}.$$

सैवेज लॉस अर्ध-उत्तल है और बड़े नकारात्मक मूल्यों से घिरा है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाता है। सैवेज लॉस का उपयोग ग्रेडिएंट बूस्टिंग और सैवेजबूस्ट एल्गोरिदम में किया गया है।

का मिनिमाइज़र $$I[f]$$ सैवेज लॉस फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Savage}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).$$

स्पर्शरेखा हानि
स्पर्शरेखा हानि निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है



\begin{align} \phi(v) & = C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 4(\arctan(v)+\frac{1}{2})(1-(\arctan(v)+\frac{1}{2}))+(1-(\arctan(v)+\frac{1}{2}))(4-8(\arctan(v)+\frac{1}{2}))\\ & = (2\arctan(v)-1)^2. \end{align} $$ स्पर्शरेखा हानि अर्ध-उत्तल है और बड़े नकारात्मक मूल्यों के लिए बाध्य है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। दिलचस्प बात यह है कि टेंगेंट हानि उन डेटा बिंदुओं पर एक निश्चित जुर्माना भी लगाती है जिन्हें बहुत सही ढंग से वर्गीकृत किया गया है। इससे डेटा सेट पर अति-प्रशिक्षण को रोकने में मदद मिल सकती है। टैंगेंट लॉस का उपयोग ग्रेडिएंट बूस्टिंग, टैंगेंटबूस्ट एल्गोरिदम और वैकल्पिक निर्णय वनों में किया गया है। का मिनिमाइज़र $$I[f]$$ स्पर्शरेखा हानि फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Tangent}= \tan(\eta-\frac{1}{2})=\tan(p(1\mid x)-\frac{1}{2}).$$

काज हानि
हिंज लॉस फ़ंक्शन को इसके साथ परिभाषित किया गया है $$\phi(\upsilon) = \max(0, 1-\upsilon) = [1-\upsilon]_{+}$$, कहाँ $$[a]_{+} = \max(0,a)$$ सकारात्मक भाग कार्य है.


 * $$V(f(\vec{x}),y) = \max(0, 1-yf(\vec{x})) = [1 - yf(\vec{x}) ]_{+}.$$

काज हानि 0-1 संकेतक फ़ंक्शन पर अपेक्षाकृत तंग, उत्तल ऊपरी सीमा प्रदान करती है। विशेष रूप से, हिंज हानि 0-1 सूचक फ़ंक्शन के बराबर होती है जब $$\operatorname{sgn}(f(\vec{x})) = y$$ और $$|yf(\vec{x})| \geq 1$$. इसके अलावा, इस नुकसान का अनुभवजन्य जोखिम न्यूनतमकरण समर्थन वेक्टर मशीन  (एसवीएम) के लिए शास्त्रीय फॉर्मूलेशन के बराबर है। समर्थन वैक्टर की मार्जिन सीमाओं के बाहर स्थित सही ढंग से वर्गीकृत बिंदुओं को दंडित नहीं किया जाता है, जबकि मार्जिन सीमाओं के भीतर या हाइपरप्लेन के गलत तरफ के बिंदुओं को सही सीमा से उनकी दूरी की तुलना में रैखिक फैशन में दंडित किया जाता है।

जबकि काज हानि फ़ंक्शन उत्तल और निरंतर दोनों है, यह सुचारू नहीं है (अलग नहीं किया जा सकता है)। $$yf(\vec{x})=1$$. नतीजतन, हिंज लॉस फ़ंक्शन का उपयोग ढतला हुआ वंश  तरीकों या स्टोकेस्टिक ग्रेडिएंट डिसेंट तरीकों के साथ नहीं किया जा सकता है जो पूरे डोमेन पर भिन्नता पर निर्भर करते हैं। हालाँकि, हिंज लॉस में एक सबग्रेडिएंट होता है $$yf(\vec{x})=1$$, जो उपग्रेडिएंट विधि के उपयोग की अनुमति देता है।  हिंज लॉस फ़ंक्शन का उपयोग करने वाले एसवीएम को द्विघात प्रोग्रामिंग का उपयोग करके भी हल किया जा सकता है।

का मिनिमाइज़र $$I[f]$$ काज हानि समारोह के लिए है


 * $$f^*_\text{Hinge}(\vec{x}) \;=\; \begin{cases} 1& \text{if }p(1\mid\vec{x}) > p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) <  p(-1\mid\vec{x}) \end{cases}$$

कब $$p(1\mid x) \ne 0.5$$, जो 0-1 संकेतक फ़ंक्शन से मेल खाता है। यह निष्कर्ष हिंज हानि को काफी आकर्षक बनाता है, क्योंकि अपेक्षित जोखिम और हिंज हानि फ़ंक्शन के संकेत के बीच अंतर पर सीमाएं लगाई जा सकती हैं। हिंज हानि को (2) से प्राप्त नहीं किया जा सकता है $$f^*_{\text{Hinge}}$$ उलटा नहीं है.

सामान्यीकृत चिकनी काज हानि
पैरामीटर के साथ सामान्यीकृत चिकनी काज हानि फ़ंक्शन $$\alpha$$ परिभाषित किया जाता है


 * $$f^*_\alpha(z) \;=\; \begin{cases} \frac{\alpha}{\alpha + 1} - z & \text{if }z \leq 0 \\ \frac{1}{\alpha + 1}z^{\alpha + 1} - z + \frac{\alpha}{\alpha + 1} & \text{if } 0<z<1 \\ 0 & \text{if } z \geq 1 \end{cases},$$

कहाँ
 * $$z = yf(\vec{x}).$$

यह नीरस रूप से बढ़ रहा है और 0 तक पहुंच जाता है $$z = 1$$.

यह भी देखें

 * विभिन्न प्रोग्रामिंग
 * स्कोरिंग समारोह