वर्गीकरण के लिए हानि फलन

मशीन लर्निंग और गणितीय अनुकूलन में वर्गीकरण के लिए हानि फलन अभिकलनात्मक रूप से व्यवहार्य हानि फलन के रूप में हैं, जो सांख्यिकीय वर्गीकरण में भविष्यवाणियों की अशुद्धि के लिए भुगतान की गई कीमत का प्रतिनिधित्व करते हैं यहाँ पहचानने की समस्याएं कि कोई विशेष अवलोकन किस श्रेणी से संबंधित है। दिया गया $$\mathcal{X}$$ सभी संभावित इनपुट के समष्टि के रूप में सामान्यतःहोती है। ($$\mathcal{X} \subset \mathbb{R}^d$$) और $$\mathcal{Y} = \{ -1,1 \}$$ लेबल के सेट संभावित आउटपुट के रूप में वर्गीकरण एल्गोरिदम का एक विशिष्ट लक्ष्य के रूप में एक फलन ढूंढना है.$$f: \mathcal{X} \to \mathcal{Y}$$ जो किसी लेबल की सबसे अच्छी भविष्यवाणी करता है $$y$$ किसी दिए गए इनपुट के लिए $$\vec{x}$$. चूंकि अधूरी जानकारी माप में शोर या अंतर्निहित प्रक्रिया में संभाव्य घटकों के कारण यह संभव है $$\vec{x}$$ भिन्न उत्पन्न करने के लिए $$y$$. परिणामस्वरूप सीखने की समस्या का लक्ष्य अपेक्षित हानि को कम करना है, जिसे हानि के रूप में भी जाना जाता है, जिसे इस प्रकार परिभाषित किया गया है.
 * $$I[f] = \displaystyle \int_{\mathcal{X} \times \mathcal{Y}} V(f(\vec{x}),y) \, p(\vec{x},y) \, d\vec{x} \, dy$$

जहाँ $$V(f(\vec{x}),y)$$ एक दिया गया हानि फलन है और $$p(\vec{x},y)$$ डेटा उत्पन्न करने वाली प्रक्रिया का संभाव्यता घनत्व फलन है, जिसे समकक्ष रूप से लिखा जा सकता है


 * $$p(\vec{x},y)=p(y\mid\vec{x}) p(\vec{x}).$$

वर्गीकरण के भीतर सामान्यतः उपयोग किए जाने वाले कई हानि फलन मात्र वास्तविक लेबल के उत्पाद के संदर्भ के रूप में लिखे जाते हैं $$y$$ और अनुमानित लेबल $$f(\vec{x})$$. इसलिए उन्हें मात्र एक चर के कार्यों के रूप में परिभाषित किया जा सकता है $$\upsilon=y f(\vec{x})$$, जिससे की $$V(f(\vec{x}),y) = \phi(yf(\vec{x})) = \phi(\upsilon)$$ उपयुक्त रूप से चुने गए फलन के साथ $$\phi:\mathbb{R}\to\mathbb{R}$$. इन्हें मार्जिन-आधारित हानि फलन कहा जाता है। मार्जिन-आधारित हानि फलन को चुनना चुनने के समान है $$\phi$$. इस ढांचे के भीतर हानि फलन का चयन इष्टतम को प्रभावित करता है $$f^{*}_\phi$$ जो अपेक्षित हानि को कम करता है।

बाइनरी वर्गीकरण के मामले में ऊपर निर्दिष्ट अभिन्न से अपेक्षित हानि की गणना को सरल बनाना संभव है। विशेष रूप से,



\begin{align} I[f] & = \int_{\mathcal{X} \times \mathcal{Y}} V(f(\vec{x}),y) \, p(\vec{x},y) \,d\vec{x} \,dy \\[6pt] & = \int_\mathcal{X} \int_\mathcal{Y} \phi(yf(\vec{x})) \, p(y\mid\vec{x}) \, p(\vec{x}) \,dy \,d\vec{x} \\[6pt] & = \int_\mathcal{X} [\phi(f(\vec{x})) \, p(1\mid\vec{x}) + \phi(-f(\vec{x})) \, p(-1\mid\vec{x})]\, p(\vec{x})\,d\vec{x} \\[6pt] & = \int_\mathcal{X} [\phi(f(\vec{x})) \, p(1\mid\vec{x}) + \phi(-f(\vec{x})) \, (1-p(1\mid\vec{x}))]\, p(\vec{x})\,d\vec{x} \end{align} $$ दूसरी समानता ऊपर वर्णित गुणों से मिलती है। तीसरी समानता इस तथ्य से उत्पन्न होती है कि 1 और −1 ही एकमात्र संभावित मान हैं $$y$$, और चौथा क्योंकि $$p(-1\mid x)=1-p(1\mid x)$$. कोष्ठक के भीतर शब्द $$ [\phi(f(\vec{x})) p(1\mid\vec{x})+\phi(-f(\vec{x})) (1-p(1\mid\vec{x}))] $$ सशर्त हानि के रूप में जाना जाता है।

कोई भी इसे मिनिमाइज़र के रूप में हल कर सकता है $$I[f]$$ के संबंध में अंतिम समानता के कार्यात्मक व्युत्पन्न को लेकर $$f$$ और व्युत्पन्न को 0 के समतुल्य सेट करना होता है। इसका परिणाम निम्नलिखित समीकरण होता है.



\frac{\partial \phi(f)}{\partial f}\eta + \frac{\partial \phi(-f)}{\partial f}(1-\eta)=0 \;\;\;\;\;(1) $$

जो सशर्त हानि के व्युत्पन्न को शून्य के समतुल्य निर्धारित करने के समतुल्य है।

वर्गीकरण की द्विआधारी प्रकृति को देखते हुए, हानि फलन के लिए एक प्राकृतिक चयन झूठी धनात्मक और झूठी ऋणात्मक के लिए समान लागत मानते हुए. 0-1 हानि फलन 0-1 संकेतक फलन के रूप में होगा, जो अनुमानित वर्गीकरण के बराबर होने पर 0 का मान लेता है। यदि अनुमानित वर्गीकरण वास्तविक वर्ग से मेल नहीं खाता है तो सही वर्ग या 1। यह चयन किसके द्वारा प्रतिरूपित किया गया है?
 * $$V(f(\vec{x}),y)=H(-yf(\vec{x}))$$

जहाँ $$H$$ हेविसाइड स्टेप फलन को इंगित करता है।

चूंकि यह हानि फलन गैर-उत्तल और गैर-सुचारू रूप में है और इष्टतम समाधान के लिए समाधान एक एनपी हार्ड कॉम्बिनेटोरियल अनुकूलन समस्या के रूप में है। परिणामस्वरूप, हानि फलन सरोगेट्स को प्रतिस्थापित करना उत्तम होता है, जो सामान्यतः उपयोग किए जाने वाले शिक्षण एल्गोरिदम के लिए ट्रैक करने योग्य होते हैं, क्योंकि उनके पास उत्तल और स्मूथ होने जैसे सुविधाजनक गुण होते हैं। उनकी अभिकलनात्मक ट्रैक्टेबिलिटी के अतिरिक्त कोई यह दिखा सकता है, कि इन हानि सरोगेट्स का उपयोग करके सीखने की समस्या का समाधान मूल वर्गीकरण समस्या के वास्तविक समाधान की पुनर्प्राप्ति की अनुमति देता है। इनमें से कुछ सरोगेट्स का वर्णन नीचे दिया गया है।

व्यवहार में संभाव्यता वितरण $$p(\vec{x},y)$$ अज्ञात है। परिणामस्वरूप, के एक प्रशिक्षण सेट का उपयोग करना $$n$$ आईआईडी नमूना बिंदु है।


 * $$S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\}$$

डेटा नमूना समष्टि से लिया गया, कोई अनुभवजन्य हानि को कम करना चाहता है.


 * $$I_S[f] = \frac{1}{n} \sum_{i=1}^n V( f(\vec{x}_i),y_i)$$

अपेक्षित हानि के लिए एक प्रॉक्सी के रूप में। (अधिक विस्तृत विवरण के लिए सांख्यिकीय शिक्षण सिद्धांत देखें।)

बेयस संगति
बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम $$f^*_{0/1}$$, अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और यह उसके रूप में होता है


 * $$f^*_{0/1}(\vec{x}) \;=\; \begin{cases} \;\;\;1& \text{if }p(1\mid\vec{x}) > p(-1\mid \vec{x}) \\ \;\;\;0 & \text{if }p(1\mid\vec{x}) =  p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) <  p(-1\mid\vec{x}) \end{cases}$$.

एक हानि फलन को वर्गीकरण-कैलिब्रेटेड या बेयस सुसंगत कहा जाता है यदि यह इष्टतम है $$f^*_{\phi}$$ इस प्रकार कि $$f^*_{0/1}(\vec{x}) = \operatorname{sgn}(f^*_{\phi}(\vec{x}))$$और इस प्रकार बेयस निर्णय नियम के अनुसार इष्टतम है। बेयस लगातार हानि फलन हमें बेयस इष्टतम निर्णय फलन खोजने की अनुमति देता है $$f^*_{\phi}$$ अपेक्षित हानि को सीधे कम करके और संभाव्यता घनत्व कार्यों को स्पष्ट रूप से मॉडल किए बिना होता है।

उत्तल मार्जिन हानि के लिए $$\phi(\upsilon)$$, ऐसा दिखाया जा सकता है $$\phi(\upsilon)$$ क्या बेयस सुसंगत है यदि और मात्र यदि यह 0 और पर अवकलनीय है $$\phi'(0)<0$$. फिर भी यह परिणाम गैर-उत्तल बेयस लगातार हानि कार्यों के अस्तित्व को बाहर नहीं करता है। एक अधिक सामान्य परिणाम बताता है, कि बेयस लगातार हानि फलन निम्नलिखित फॉर्मूलेशन के रूप में उपयोग करके उत्पन्न किया जा सकता है
 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] \;\;\;\;\;(2)$$,

जहाँ $$f(\eta), (0\leq \eta \leq 1)$$ ऐसा कोई व्युत्क्रमणीय फलन ऐसा है, $$f^{-1}(-v)=1-f^{-1}(v)$$ और $$C(\eta)$$ कोई भी अवकलनीय सख्ती से अवतल फलन है, जैसे कि $$C(\eta)=C(1-\eta)$$. तालिका-I कुछ उदाहरण विकल्पों के लिए उत्पन्न बेयस लगातार हानि फलन दिखाता है $$C(\eta)$$ और $$f^{-1}(v)$$. ध्यान दें कि सैवेज और स्पर्शरेखा हानि उत्तल के रूप में नहीं हैं। इस प्रकार के गैर-उत्तल हानि कार्यों को वर्गीकरण में आउटलेर्स से निपटने में उपयोगी दिखाया गया है। (2) से उत्पन्न सभी हानि कार्यों के लिए, पश्च संभाव्यता $$p(y=1|\vec{x})$$ इनवर्टिबल लिंक फलन के रूप में उपयोग करते हुए पाया जा सकता है $$p(y=1|\vec{x})=\eta=f^{-1}(v)$$. ऐसे हानि फलन जहां उलटे लिंक का उपयोग करके पिछली संभावना को पुनर्प्राप्त किया जा सकता है, उचित हानि फलन कहलाते हैं। अपेक्षित हानि को न्यूनतम करने वाला एकमात्र उपाय, $$f^*_{\phi}$$, उपरोक्त उत्पन्न हानि कार्यों से जुड़े समीकरण (1) से सीधे पाया जा सकता है और संबंधित के समतुल्य दिखाया जा सकता है $$ f(\eta) $$. यह गैर-उत्तल हानि कार्यों के लिए भी लागू होता है, जिसका अर्थ है, कि ग्रेडिएंट डिसेंट आधारित एल्गोरिदम जैसे ग्रेडिएंट बूस्टिंग का उपयोग मिनिमाइज़र के निर्माण के लिए किया जा सकता है।

उचित हानि कार्य, हानि मार्जिन और नियमितीकरण
उचित हानि कार्यों के लिए, हानि मार्जिन को इस प्रकार परिभाषित किया जा सकता है $$\mu_{\phi}=-\frac{\phi'(0)}{\phi''(0)}$$ और क्लासिफायरियर के नियमितीकरण गुणों से सीधे संबंधित दिखाया गया है। विशेष रूप से बड़े मार्जिन का हानि फलन नियमितीकरण को बढ़ाता है और पिछली संभावना का उत्तम अनुमान उत्पन्न करता है। उदाहरण के लिए, लॉजिस्टिक हानि के लिए हानि मार्जिन को बढ़ाया जा सकता है $$\gamma$$ पैरामीटर और लॉजिस्टिक हानि को इस रूप में लिखना $$\frac{1}{\gamma}\log(1+e^{-\gamma v})$$ जहां छोटा है $$0<\gamma<1$$ हानि का मार्जिन बढ़ जाता है. यह दिखाया गया है कि यह सीधे तौर पर ग्रेडिएंट बूस्टिंग में सीखने की दर को कम करने के समतुल्य है $$F_m(x) = F_{m-1}(x) + \gamma h_m(x),$$ जहां घट रही है $$\gamma$$ बूस्टेड क्लासिफायरियर के नियमितीकरण में सुधार करता है। सिद्धांत यह स्पष्ट करता है कि जब सीखने की दर $$\gamma$$ का उपयोग किया जाता है, पश्च संभाव्यता को पुनः प्राप्त करने का सही सूत्र अब है $$\eta=f^{-1}(\gamma F(x))$$.

निष्कर्ष में बड़े मार्जिन छोटे के साथ हानि फलन चुनकर $$\gamma$$ हम नियमितीकरण बढ़ाते हैं और पश्च संभाव्यता के अपने अनुमानों में सुधार करते हैं जो बदले में अंतिम क्लासिफायरियर के आरओसी वक्र के रूप में सुधार करता है।

वर्ग हानि
जबकि सामान्यतः प्रतिगमन के रूप में उपयोग किया जाता है, वर्ग हानि फलन को फलन के रूप में फिर से लिखा जा सकता है $$\phi(yf(\vec{x}))$$ और वर्गीकरण के लिए उपयोग किया जाता है। इसे निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 4(\frac{1}{2}(v+1))(1-\frac{1}{2}(v+1))+(1-\frac{1}{2}(v+1))(4-8(\frac{1}{2}(v+1)))=(1-v)^2.$$

वर्ग हानि फलन उत्तल और स्मूथ दोनों है। चूंकि वर्ग हानि फलन आउटलेर्स को अत्यधिक दंडित करता है, जिससे लॉजिस्टिक हानि या हिंज हानि फलन की तुलना में धीमी अभिसरण दर (नमूना सम्मिश्रता के संबंध में) होती है। इसके अतिरिक्त ऐसे फलन जो उच्च मान उत्पन्न करते हैं $$f(\vec{x})$$ कुछ के लिए $$x \in X$$ के उच्च मूल्यों के कारण, वर्ग हानि फलन के साथ खराब प्रदर्शन करेगा $$yf(\vec{x})$$ चाहे कोई भी लक्षण दिखे, कठोर दंड दिया जाएगा $$y$$ और $$f(\vec{x})$$ मिलान।

वर्ग हानि फलन का एक लाभ यह है कि इसकी संरचना नियमितीकरण मापदंडों के सरल क्रॉस सत्यापन के लिए उधार देती है। विशेष रूप से तिखोनोव रेगुलरिज़शन के लिए कोई लीव-वन-आउट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके नियमितीकरण पैरामीटर को उसी समय में हल कर सकता है, जितना किसी एक समस्या को हल करने में लगेगा।

का मिनिमाइज़र $$I[f]$$ वर्ग हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Square}= 2\eta-1=2p(1\mid x)-1.$$

लॉजिस्टिक हानि
लॉजिस्टिक हानि फलन निम्नानुसार (2) और तालिका- I के रूप में उपयोग करके उत्पन्न किया जा सकता है.


 * $$\begin{align}

\phi(v) &= C[f^{-1}(v)]+\left(1-f^{-1}(v)\right)\, C'\left[f^{-1}(v)\right] \\ &= \frac{1}{\log(2)}\left [\frac{-e^v}{1+e^v}\log\frac{e^v}{1+e^v}-\left(1-\frac{e^v}{1+e^v}\right)\log\left(1-\frac{e^v}{1+e^v}\right)\right ]+\left(1-\frac{e^v}{1+e^v}\right) \left [\frac{-1}{\log(2)}\log\left(\frac{\frac{e^v}{1+e^v}}{1-\frac{e^v}{1+e^v}}\right)\right] \\ &=\frac{1}{\log(2)}\log(1+e^{-v}). \end{align} $$ लॉजिस्टिक हानि उत्तल है और ऋणात्मक मूल्यों के लिए रैखिक रूप से बढ़ती है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। लॉजिस्टिकहानि का उपयोग लॉगिटबूस्ट के रूप में किया जाता है।

का मिनिमाइज़र $$I[f]$$ लॉजिस्टिकहानि फलन को सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Logistic}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).$$

यह फलन जब अपरिभाषित है $$p(1\mid x)=1$$ या $$p(1\mid x)=0$$ (क्रमशः ∞ और −∞ की ओर रुझान), लेकिन एक सहज वक्र की भविष्यवाणी करता है, जो तब बढ़ता है $$p(1\mid x)$$ जब बढ़ता है और 0 के समतुल्य हो जाता है $$p(1\mid x)= 0.5$$.

यह जांचना सरल है कि लॉजिस्टिकहानि और बाइनरी क्रॉस एन्ट्रापीहानि (लॉगहानि) वास्तव में एक ही हैं (गुणात्मक स्थिरांक तक) $$\frac{1}{\log(2)}$$). क्रॉस एन्ट्रापी हानि अनुभवजन्य वितरण और अनुमानित वितरण के बीच कुल्बैक-लीब्लर विचलन से निकटता से संबंधित है। आधुनिक गहन शिक्षण में क्रॉस एन्ट्रॉपी हानि के रूप में सर्वव्यापी है।

घातीय हानि
घातांकीय हानि फलन निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है


 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 2\sqrt{\left(\frac{e^{2v}}{1+e^{2v}}\right)\left(1-\frac{e^{2v}}{1+e^{2v}}\right)}+\left(1-\frac{e^{2v}}{1+e^{2v}}\right)\left(\frac{1-\frac{2e^{2v}}{1+e^{2v}}}{\sqrt{\frac{e^{2v}}{1+e^{2v}}(1-\frac{e^{2v}}{1+e^{2v}})}}\right) = e^{-v}$$

घातीय हानि उत्तल है और ऋणात्मक मूल्यों के लिए तेजी से बढ़ती है जो इसे आउटलेर्स के प्रति अधिक संवेदनशील बनाती है। घातीय हानि का उपयोग एडाबूस्ट में किया जाता है।

का मिनिमाइज़र $$I[f]$$ घातीय हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है


 * $$f^*_\text{Exp}= \frac{1}{2}\log\left(\frac{\eta}{1-\eta}\right)=\frac{1}{2}\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).$$

बर्बर हानि
सैवेज हानि निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है


 * $$\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = \left(\frac{e^v}{1+e^v}\right)\left(1-\frac{e^v}{1+e^v}\right)+\left(1-\frac{e^v}{1+e^v}\right)\left(1-\frac{2e^v}{1+e^v}\right) = \frac{1}{(1+e^v)^2}.$$

सैवेज हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों से घिरा है, जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाता है। सैवेज हानि का उपयोग ग्रेडिएंट बूस्टिंग और सैवेज बूस्ट एल्गोरिदम के रूप में किया गया है।

मिनिमाइज़र $$I[f]$$ सैवेज हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है.


 * $$f^*_\text{Savage}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).$$

स्पर्शरेखा हानि
स्पर्शरेखा हानि निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है



\begin{align} \phi(v) & = C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 4(\arctan(v)+\frac{1}{2})(1-(\arctan(v)+\frac{1}{2}))+(1-(\arctan(v)+\frac{1}{2}))(4-8(\arctan(v)+\frac{1}{2}))\\ & = (2\arctan(v)-1)^2. \end{align} $$ स्पर्शरेखा हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों के लिए बाध्य है, जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। रोचक बात यह है कि स्पर्शरेखा हानि उन डेटा बिंदुओं पर एक निश्चित जुर्माना भी लगाती है, जिन्हें बहुत सही ढंग से वर्गीकृत किया गया है। इससे डेटा सेट पर अति-प्रशिक्षण को रोकने में सहायता मिल सकती है। स्पर्शरेखा हानि का उपयोग ग्रेडिएंट बूस्टिंग, टैंगेंटबूस्ट एल्गोरिदम और वैकल्पिक निर्णय वनों में किया गया है।

मिनिमाइज़र $$I[f]$$ स्पर्शरेखा हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है.


 * $$f^*_\text{Tangent}= \tan(\eta-\frac{1}{2})=\tan(p(1\mid x)-\frac{1}{2}).$$

हिंज हानि
हिंज हानि फलन को इसके साथ परिभाषित किया गया है $$\phi(\upsilon) = \max(0, 1-\upsilon) = [1-\upsilon]_{+}$$, कहाँ $$[a]_{+} = \max(0,a)$$ धनात्मक भाग के रूप में कार्य है.


 * $$V(f(\vec{x}),y) = \max(0, 1-yf(\vec{x})) = [1 - yf(\vec{x}) ]_{+}.$$

हिंज हानि 0-1 संकेतक फलन पर अपेक्षाकृत तंग, उत्तल ऊपरी सीमा प्रदान करती है। विशेष रूप से, हिंज हानि 0-1 सूचक फलन के समतुल्य होती है जब $$\operatorname{sgn}(f(\vec{x})) = y$$ और $$|yf(\vec{x})| \geq 1$$. इसके अतिरिक्त, इस हानि का अनुभवजन्य हानि न्यूनतमकरण समर्थन वेक्टर मशीन  (एसवीएम) के लिए मौलिक फॉर्मूलेशन के समतुल्य है। समर्थन वैक्टर की मार्जिन सीमाओं के बाहर स्थित सही ढंग से वर्गीकृत बिंदुओं को दंडित नहीं किया जाता है, जबकि मार्जिन सीमाओं के भीतर या हाइपर समतल के गलत तरफ के बिंदुओं को सही सीमा से उनकी दूरी की तुलना में रैखिक फैशन में दंडित किया जाता है।

जबकि हिंज हानि फलन उत्तल और निरंतर दोनों है, यह सुचारू नहीं है, भिन्न नहीं किया जा सकता है। $$yf(\vec{x})=1$$.परिणाम स्वरुप, हिंज हानि फलन का उपयोग ग्रेडिएंट डिसेंट विधियों या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधियों के साथ नहीं किया जा सकता है, जो पूरे डोमेन पर भिन्नता पर निर्भर करते हैं। चूंकि, हिंज हानि में एक सबग्रेडिएंट होता है $$yf(\vec{x})=1$$, जो उपग्रेडिएंट विधि के उपयोग की अनुमति देता है।  हिंज हानि फलन का उपयोग करने वाले एसवीएम को द्विघात प्रोग्रामिंग का उपयोग करके भी हल किया जा सकता है।

मिनिमाइज़र $$I[f]$$हिंज हानि फलन के लिए है


 * $$f^*_\text{Hinge}(\vec{x}) \;=\; \begin{cases} 1& \text{if }p(1\mid\vec{x}) > p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) <  p(-1\mid\vec{x}) \end{cases}$$

जब $$p(1\mid x) \ne 0.5$$, जो 0-1 संकेतक फलन से मेल खाता है। यह निष्कर्ष हिंज हानि को अधिक आकर्षक बनाता है, क्योंकि अपेक्षित हानि और हिंज हानि फलन के संकेत के बीच अंतर पर सीमाएं लगाई जा सकती हैं। हिंज हानि को (2) से प्राप्त नहीं किया जा सकता है $$f^*_{\text{Hinge}}$$ उलटा नहीं है.

सामान्यीकृत स्मूथ हिंज हानि
पैरामीटर के साथ सामान्यीकृत स्मूथ हिंज हानि फलन $$\alpha$$ परिभाषित किया जाता है


 * $$f^*_\alpha(z) \;=\; \begin{cases} \frac{\alpha}{\alpha + 1} - z & \text{if }z \leq 0 \\ \frac{1}{\alpha + 1}z^{\alpha + 1} - z + \frac{\alpha}{\alpha + 1} & \text{if } 0<z<1 \\ 0 & \text{if } z \geq 1 \end{cases},$$

कहाँ
 * $$z = yf(\vec{x}).$$

यह नीरस रूप से बढ़ रहा है और 0 तक पहुंच जाता है $$z = 1$$.

यह भी देखें

 * विभेदक प्रोग्रामिंग
 * स्कोरिंग फलन