नियमितीकरण (गणित)

गणित, सांख्यिकी, गणितीय वित्त में, कंप्यूटर विज्ञान, विशेष रूप से यंत्र अधिगम  और व्युत्क्रम समस्याओं में, नियमितीकरण एक ऐसी प्रक्रिया है जो परिणाम उत्तर को सरल बना देती है। इसका उपयोग अक्सर गलत समस्याओं के परिणाम प्राप्त करने या ओवरफिटिंग को रोकने के लिए किया जाता है। हालाँकि नियमितीकरण प्रक्रियाओं को कई तरीकों से विभाजित किया जा सकता है, निम्नलिखित चित्रण विशेष रूप से सहायक है:
 * जब भी कोई स्पष्ट रूप से अनुकूलन समस्या में कोई शब्द जोड़ता है तो स्पष्ट नियमितीकरण नियमितीकरण होता है। ये शर्तें प्राथमिकताएं, दंड या बाधाएं हो सकती हैं। स्पष्ट नियमितीकरण का प्रयोग सामान्यतौर पर खराब अनुकूलन समस्याओं के साथ किया जाता है। नियमितीकरण शब्द, या जुर्माना, इष्टतम समाधान को अद्वितीय बनाने के लिए अनुकूलन फलन पर लागत लगाता है।
 * अंतर्निहित नियमितीकरण नियमितीकरण के अन्य सभी रूप हैं। इसमें, उदाहरण के लिए, जल्दी रोकना, एक मजबूत हानि फलन का उपयोग करना और आउटलेर्स को त्यागना सम्मिलित है। आधुनिक मशीन लर्निंग दृष्टिकोण में अंतर्निहित नियमितीकरण अनिवार्य रूप से सर्वव्यापी है, जिसमें गहरे तंत्रिका नेटवर्क के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट और एन्सेम्बल तरीके (जैसे कि यादृच्छिक वन और ग्रेडिएंट बूस्टेड पेड़) सम्मिलित हैं।

स्पष्ट नियमितीकरण में, समस्या या मॉडल से स्वतंत्र, हमेशा एक डेटा शब्द होता है, जो माप की संभावना से मेल खाता है और एक नियमितीकरण शब्द जो पूर्व से मेल खाता है। बायेसियन आँकड़ों का उपयोग करके दोनों को मिलाकर, कोई पश्च की गणना कर सकता है, जिसमें दोनों सूचना स्रोत सम्मिलित हैं और इसलिए अनुमान प्रक्रिया को स्थिर किया गया है। दोनों उद्देश्यों का आदान-प्रदान करके, कोई व्यक्ति डेटा का अधिक आदी होना या सामान्यीकरण लागू करना (ओवरफिटिंग को रोकने के लिए) चुनता है। सभी संभावित नियमितीकरणों से निपटने वाली एक पूरी अनुसंधान शाखा है। व्यवहार में, कोई सामान्यतौर पर एक विशिष्ट नियमितीकरण का प्रयास करता है और फिर विकल्प को सही ठहराने के लिए उस नियमितीकरण से मेल खाने वाले संभाव्यता घनत्व का पता लगाता है। यह सामान्य ज्ञान या अंतर्ज्ञान से शारीरिक रूप से प्रेरित भी हो सकता है।

मशीन लर्निंग में, डेटा शब्द प्रशिक्षण डेटा से मेल खाता है और नियमितीकरण या तो मॉडल का विकल्प है या एल्गोरिदम में संशोधन है। इसका उद्देश्य हमेशा सामान्यीकरण त्रुटि को कम करना है, यानी मूल्यांकन सेट पर प्रशिक्षित मॉडल के साथ त्रुटि स्कोर, न कि प्रशिक्षण डेटा। नियमितीकरण के शुरुआती उपयोगों में से एक तिखोनोव नियमितीकरण है, जो कम से कम वर्गों की विधि से संबंधित है।

वर्गीकरण
क्लासिफायर का अनुभवजन्य सीखना (एक सीमित डेटा सेट से) हमेशा एक अनिर्धारित समस्या है, क्योंकि यह किसी भी फलन का अनुमान लगाने का प्रयास करता है $$x$$ केवल उदाहरण दिए गए हैं $$x_1, x_2, ... x_n$$.

एक नियमितीकरण शब्द (या नियमितीकरणकर्ता) $$R(f)$$ वर्गीकरण के लिए हानि फलन में जोड़ा गया है:
 * $$\min_f \sum_{i=1}^{n} V(f(x_i), y_i) + \lambda R(f)$$

कहाँ $$V$$ एक अंतर्निहित हानि फलन है जो भविष्यवाणी की लागत का वर्णन करता है $$f(x)$$ जब लेबल है $$y$$, जैसे वर्गीकरण के लिए हानि फलन#स्क्वायर हानि या हिंज हानि; और $$\lambda$$ एक पैरामीटर है जो नियमितीकरण शब्द के महत्व को नियंत्रित करता है। $$R(f)$$ सामान्यतौर पर इसकी जटिलता पर जुर्माना लगाने के लिए चुना जाता है $$f$$. उपयोग की गई जटिलता की ठोस धारणाओं में सुचारू कार्य के लिए प्रतिबंध और मानक वेक्टर स्थान पर सीमाएँ सम्मिलित हैं।

नियमितीकरण के लिए एक सैद्धांतिक औचित्य यह है कि यह समाधान पर ओकाम के रेजर को लागू करने का प्रयास करता है (जैसा कि ऊपर दिए गए चित्र में दर्शाया गया है, जहां हरे रंग के फलन, सरल वाले को प्राथमिकता दी जा सकती है)। बायेसियन अनुमान के दृष्टिकोण से, कई नियमितीकरण तकनीकें मॉडल मापदंडों पर कुछ पूर्व संभाव्यता वितरण लागू करने के अनुरूप हैं। नियमितीकरण कई उद्देश्यों को पूरा कर सकता है, जिसमें सरल मॉडल सीखना, मॉडल को विरल बनाने के लिए प्रेरित करना और समूह संरचना शुरू करना सम्मिलित है सीखने की समस्या में।

यही विचार विज्ञान के अनेक क्षेत्रों में उत्पन्न हुआ। अभिन्न समीकरणों (तिखोनोव नियमितीकरण) पर लागू नियमितीकरण का एक सरल रूप अनिवार्य रूप से डेटा को फिट करने और समाधान के एक मानक को कम करने के बीच एक व्यापार-बंद है। हाल ही में, कुल भिन्नता नियमितीकरण सहित गैर-रेखीय नियमितीकरण विधियां लोकप्रिय हो गई हैं।

सामान्यीकरण
किसी सीखे गए मॉडल की सामान्यीकरण क्षमता में सुधार के लिए नियमितीकरण को एक तकनीक के रूप में प्रेरित किया जा सकता है।

इस सीखने की समस्या का लक्ष्य एक ऐसा फलन ढूंढना है जो परिणाम (लेबल) को फिट करता है या भविष्यवाणी करता है जो सभी संभावित निविष्ट और लेबल पर अपेक्षित त्रुटि को कम करता है। किसी फलन की अपेक्षित त्रुटि $$f_n$$ है:


 * $$ I[f_n] = \int_{X \times Y} V(f_n(x),y) \rho(x,y) \, dx \, dy $$

कहाँ $$X$$ और $$Y$$ निविष्ट डेटा के डोमेन हैं $$x$$ और उनके लेबल $$y$$ क्रमश।

सामान्यतौर पर सीखने की समस्याओं में, केवल निविष्ट डेटा और लेबल का एक सबसेट उपलब्ध होता है, जिसे कुछ शोर के साथ मापा जाता है। इसलिए, अपेक्षित त्रुटि मापने योग्य नहीं है, और उपलब्ध सर्वोत्तम विकल्प अनुभवजन्य त्रुटि है $$ N $$ उपलब्ध नमूने:


 * $$ I_S[f_n] = \frac{1}{n} \sum_{i=1}^N V(f_n(\hat x_i), \hat y_i) $$

उपलब्ध फलन समष्टि (औपचारिक रूप से, पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि) की जटिलता पर सीमा के बिना, एक मॉडल सीखा जाएगा जो सरोगेट अनुभवजन्य त्रुटि पर शून्य नुकसान उठाता है। यदि माप (उदाहरण के लिए) $$x_i$$) शोर के साथ बनाए गए थे, यह मॉडल ओवरफिटिंग से ग्रस्त हो सकता है और खराब अपेक्षित त्रुटि प्रदर्शित कर सकता है। नियमितीकरण मॉडल के निर्माण के लिए उपयोग किए जाने वाले फलन स्थान के कुछ क्षेत्रों की खोज के लिए दंड का परिचय देता है, जो सामान्यीकरण में सुधार कर सकता है।

तिखोनोव नियमितीकरण
इन तकनीकों का नाम एंड्री निकोलाइविच तिखोनोव के नाम पर रखा गया है, जिन्होंने अभिन्न समीकरणों में नियमितीकरण लागू किया और कई अन्य क्षेत्रों में महत्वपूर्ण योगदान दिया।

एक रैखिक कार्य सीखते समय $$f$$, एक अज्ञात सदिश स्थल द्वारा विशेषता $$w$$ ऐसा है कि $$f(x) = w \cdot x$$, कोई भी जोड़ सकता है $$L_2$$-वेक्टर का मानदंड $$w$$ छोटे मानदंडों वाले समाधानों को प्राथमिकता देने के लिए हानि की अभिव्यक्ति के लिए। तिखोनोव नियमितीकरण सबसे आम रूपों में से एक है। इसे रिज रिग्रेशन के नाम से भी जाना जाता है। इसे इस प्रकार व्यक्त किया गया है:


 * $$\min_w \sum_{i=1}^{n} V(\hat x_i \cdot w, \hat y_i) + \lambda \|w\|_{2}^{2}$$,

कहाँ $$(\hat x_i, \hat y_i), \, 1 \leq i \leq n,$$ प्रशिक्षण के लिए उपयोग किए गए नमूनों का प्रतिनिधित्व करेगा।

एक सामान्य फलन के मामले में, इसके पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि में फलन का मानदंड है:


 * $$\min_f \sum_{i=1}^{n} V(f(\hat x_i), \hat y_i) + \lambda \|f\|_{\mathcal{H}}^{2}$$

के रूप में $$L_2$$ मानक विभेदनीय कार्य है#उच्च आयामों में विभेदीकरण, सीखने को ढतला हुआ वंश  द्वारा उन्नत किया जा सकता है।

तिखोनोव-नियमित न्यूनतम वर्ग
न्यूनतम वर्ग हानि फलन और तिखोनोव नियमितीकरण के साथ सीखने की समस्या को विश्लेषणात्मक रूप से हल किया जा सकता है। मैट्रिक्स रूप में लिखा गया, इष्टतम $$w$$ वह है जिसके संबंध में हानि का ग्रेडिएंट कार्य करता है $$w$$ 0 है.


 * $$\min_w \frac{1}{n} (\hat X w - Y)^T(\hat X w - Y)+ \lambda \|w\|_{2}^{2}$$
 * $$\nabla_w = \frac{2}{n} \hat X^T (\hat X w - Y) + 2 \lambda w$$
 * $$0 = \hat X^T (\hat X w - Y) + n \lambda w$$ (प्रथम क्रम की स्थिति)


 * $$w = (\hat X^T \hat X + \lambda n I)^{-1} (\hat X^T Y)$$

अनुकूलन समस्या के निर्माण से, अन्य मान $$w$$ हानि फलन के लिए बड़े मान दें। इसे दूसरे व्युत्पन्न की जांच करके सत्यापित किया जा सकता है $$\nabla_{ww}$$.

प्रशिक्षण के दौरान यह एल्गोरिथम लेता है $$O(d^3 + nd^2)$$ समय की जटिलता. शर्तें मैट्रिक्स व्युत्क्रम और गणना के अनुरूप हैं $$X^T X$$, क्रमश। परीक्षण होता है $$O(nd)$$ समय।

जल्दी रुकना
जल्दी रुकने को समय पर नियमितीकरण के रूप में देखा जा सकता है। सहज रूप से, ग्रेडिएंट डिसेंट जैसी प्रशिक्षण प्रक्रिया बढ़ती पुनरावृत्तियों के साथ अधिक से अधिक जटिल कार्यों को सीखने की प्रवृत्ति रखती है। समय के लिए नियमितीकरण करके, सामान्यीकरण में सुधार करके मॉडल जटिलता को नियंत्रित किया जा सकता है।

प्रारंभिक रोक को प्रशिक्षण के लिए एक डेटा सेट, सत्यापन के लिए एक सांख्यिकीय रूप से स्वतंत्र डेटा सेट और परीक्षण के लिए दूसरे का उपयोग करके कार्यान्वित किया जाता है। मॉडल को तब तक प्रशिक्षित किया जाता है जब तक सत्यापन सेट पर प्रदर्शन में सुधार नहीं होता है और फिर परीक्षण सेट पर लागू किया जाता है।

न्यूनतम वर्गों में सैद्धांतिक प्रेरणा
एक व्युत्क्रमणीय मैट्रिक्स के लिए न्यूमैन श्रृंखला के परिमित सन्निकटन पर विचार करें $A$ कहाँ $$\| I-A \| < 1$$:


 * $$\sum_{i=0}^{T-1}(I-A)^i \approx A^{-1}$$

इसका उपयोग अनियमित न्यूनतम वर्गों के विश्लेषणात्मक समाधान का अनुमान लगाने के लिए किया जा सकता है, यदि $&gamma;$ यह सुनिश्चित करने के लिए पेश किया गया है कि मानदंड एक से कम है।


 * $$w_T = \frac{\gamma}{n} \sum_{i=0}^{T-1} ( I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y$$

अनियमित न्यूनतम वर्ग सीखने की समस्या का सटीक समाधान अनुभवजन्य त्रुटि को कम करता है, लेकिन विफल हो सकता है। सीमित करके $T$, उपरोक्त एल्गोरिदम में एकमात्र मुफ़्त पैरामीटर, समस्या को समय के लिए नियमित किया जाता है, जिससे इसके सामान्यीकरण में सुधार हो सकता है।

उपरोक्त एल्गोरिदम अनुभवजन्य जोखिम के लिए ग्रेडिएंट डिसेंट पुनरावृत्तियों की संख्या को सीमित करने के बराबर है


 * $$I_s[w] = \frac{1}{2n} \| \hat X w - \hat Y \|^{2}_{\mathbb{R}^n}$$

ग्रेडिएंट डिसेंट अपडेट के साथ:


 * $$\begin{align}

w_0 &= 0 \\ w_{t+1} &= (I - \frac{\gamma}{n} \hat X^T \hat X)w_t + \frac{\gamma}{n}\hat X^T \hat Y \end{align}$$ आधार मामला तुच्छ है. आगमनात्मक मामला इस प्रकार सिद्ध होता है:


 * $$\begin{align}

w_{T} &= (I - \frac{\gamma}{n} \hat X^T \hat X)\frac{\gamma}{n} \sum_{i=0}^{T-2}(I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y + \frac{\gamma}{n}\hat X^T \hat Y \\ &= \frac{\gamma}{n} \sum_{i=1}^{T-1}(I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y + \frac{\gamma}{n}\hat X^T \hat Y \\ &= \frac{\gamma}{n} \sum_{i=0}^{T-1}(I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y \end{align}$$

विरलता के लिए नियमितकर्ता
मान लीजिए कि एक शब्दकोश $$\phi_j$$ आयाम के साथ $$p$$ ऐसा दिया गया है कि फलन समष्टि में एक फलन को इस प्रकार व्यक्त किया जा सकता है:


 * $$f(x) = \sum_{j=1}^{p} \phi_j(x) w_j$$

विरलता प्रतिबंध लागू करना $$w$$ इससे सरल और अधिक व्याख्या योग्य मॉडल बन सकते हैं। यह कम्प्यूटेशनल जीवविज्ञान जैसे कई वास्तविक जीवन अनुप्रयोगों में उपयोगी है। एक उदाहरण भविष्यवाणी शक्ति को अधिकतम करते हुए चिकित्सा परीक्षण करने की लागत को कम करने के लिए किसी बीमारी के लिए एक सरल भविष्य कहनेवाला परीक्षण विकसित करना है।

एक समझदार विरलता बाधा नॉर्म (गणित)| है$$L_0$$ आदर्श $$\|w\|_0$$, गैर-शून्य तत्वों की संख्या के रूप में परिभाषित किया गया है $$w$$. हल करना ए $$L_0$$ हालाँकि, नियमित सीखने की समस्या को एनपी-कठोरता |एनपी-हार्ड के रूप में प्रदर्शित किया गया है। टैक्सीकैब ज्यामिति|$$L_1$$ नॉर्म (नॉर्म (गणित) भी देखें) का उपयोग इष्टतम नॉर्म (गणित) का अनुमान लगाने के लिए किया जा सकता है|$$L_0$$उत्तल विश्राम के माध्यम से आदर्श। यह दिखाया जा सकता है कि नॉर्म (गणित)|$$L_1$$मानदंड विरलता को प्रेरित करता है। न्यूनतम वर्गों के मामले में, इस समस्या को सांख्यिकी में लासो (सांख्यिकी) और सिग्नल प्रोसेसिंग में आधार खोज के रूप में जाना जाता है।


 * $$\min_{w \in \mathbb{R}^p} \frac{1}{n} \|\hat X w - \hat Y \|^2 + \lambda \|w\|_{1}$$

नॉर्म (गणित)|$$L_1$$नियमितीकरण कभी-कभी गैर-अद्वितीय समाधान उत्पन्न कर सकता है। चित्र में एक सरल उदाहरण दिया गया है जब संभावित समाधानों का स्थान 45 डिग्री रेखा पर होता है। यह कुछ अनुप्रयोगों के लिए समस्याग्रस्त हो सकता है, और नॉर्म (गणित)| के संयोजन से इसे दूर किया जा सकता है$$L_1$$नॉर्म (गणित) के साथ|$$L_2$$इलास्टिक नेट नियमितीकरण में नियमितीकरण, जो निम्नलिखित रूप लेता है:
 * $$\min_{w \in \mathbb{R}^p} \frac{1}{n} \|\hat X w - \hat Y \|^2 + \lambda (\alpha \|w\|_{1} + (1 - \alpha)\|w\|_{2}^{2}), \alpha \in [0, 1]$$

इलास्टिक नेट नियमितीकरण में समूहीकरण प्रभाव होता है, जहां सहसंबद्ध निविष्ट सुविधाओं को समान महत्व दिया जाता है।

इलास्टिक नेट नियमितीकरण सामान्यतौर पर व्यवहार में उपयोग किया जाता है और कई मशीन लर्निंग लाइब्रेरी में लागू किया जाता है।

समीपस्थ विधियाँ
जबकि नॉर्म (गणित)|$$L_1$$नॉर्म के परिणामस्वरूप एनपी-हार्ड समस्या नहीं होती, नॉर्म (गणित)|$$L_1$$मानदंड उत्तल है, लेकिन x = 0 पर किंक के कारण कड़ाई से भिन्न नहीं है। सबग्रेडिएंट विधियां जो उप-व्युत्पन्न पर निर्भर करती हैं, उनका उपयोग नॉर्म (गणित) को हल करने के लिए किया जा सकता है।$$L_1$$नियमित सीखने की समस्याएँ। हालाँकि, समीपस्थ तरीकों के माध्यम से तेजी से अभिसरण प्राप्त किया जा सकता है।

एक समस्या के लिए $$\min_{w \in H} F(w) + R(w)$$ ऐसा है कि $$F$$ लिप्सचिट्ज़ निरंतर ग्रेडिएंट (जैसे कि न्यूनतम वर्ग हानि फलन) के साथ उत्तल, निरंतर, भिन्न है, और $$R$$ उत्तल, सतत और उचित है, तो समस्या को हल करने की समीपस्थ विधि इस प्रकार है। सबसे पहले समीपस्थ संचालक को परिभाषित करें


 * $$\operatorname{prox}_R(v) = \operatorname{argmin}\limits_{w \in \mathbb{R}^D} \{ R(w) + \frac{1}{2}\|w-v\|^2\}, $$

और फिर पुनरावृत्त करें


 * $$w_{k+1} = \operatorname{prox}\limits_{\gamma, R}(w_k - \gamma \nabla F(w_k))$$

समीपस्थ विधि पुनरावृत्तीय रूप से ग्रेडिएंट डिसेंट निष्पादित करती है और फिर परिणाम को अनुमत स्थान पर वापस प्रोजेक्ट करती है $$R$$.

कब $$R$$ नॉर्म (गणित) है|$$L_1$$रेगुलराइज़र, समीपस्थ संचालक सॉफ्ट-थ्रेसहोल्डिंग संचालक के बराबर है,


 * $$S_\lambda(v)f(n) = \begin{cases} v_i - \lambda, & \text{if }v_i > \lambda \\ 0, & \text{if } v_i \in [-\lambda, \lambda] \\ v_i + \lambda, & \text{if }v_i < - \lambda \end{cases}$$

यह कुशल गणना की अनुमति देता है।

ओवरलैप के बिना समूह विरलता
सुविधाओं के समूहों को विरल बाधा द्वारा नियमित किया जा सकता है, जो अनुकूलन समस्या में कुछ पूर्व ज्ञान को व्यक्त करने के लिए उपयोगी हो सकता है।

गैर-अतिव्यापी ज्ञात समूहों वाले रैखिक मॉडल के मामले में, एक नियमितकर्ता को परिभाषित किया जा सकता है:


 * $$R(w) = \sum_{g=1}^G \|w_g\|_2,$$ कहाँ $$\|w_g\|_2 = \sqrt{\sum_{j=1}^{|G_g|}(w_g^j)^2}$$

इसे एक नियमितीकरणकर्ता को प्रेरित करने के रूप में देखा जा सकता है $$L_2$$ प्रत्येक समूह के सदस्यों पर मानदंड का अनुसरण किया जाता है $$L_1$$ समूहों पर आदर्श.

इसे समीपस्थ विधि द्वारा हल किया जा सकता है, जहां समीपस्थ संचालक एक ब्लॉक-वार सॉफ्ट-थ्रेशोल्डिंग फलन है:


 * $$\operatorname{prox}\limits_{\lambda, R, g}(w_g) = \begin{cases} (1 - \frac{\lambda}{\|w_g\|_2})w_g, & \text{if } \|w_g\|_2 > \lambda \\ 0, & \text{if } \|w_g\|_2 \leq \lambda \end{cases}$$

ओवरलैप के साथ समूह विरलता
ओवरलैप के बिना समूह विरलता के लिए वर्णित एल्गोरिदम को उस मामले में लागू किया जा सकता है जहां समूह कुछ स्थितियों में ओवरलैप करते हैं। इसके परिणामस्वरूप संभवतः कुछ समूहों में सभी शून्य तत्व होंगे, और अन्य समूहों में कुछ गैर-शून्य और कुछ शून्य तत्व होंगे।

यदि समूह संरचना को संरक्षित करना वांछित है, तो एक नया नियमितकर्ता परिभाषित किया जा सकता है:


 * $$R(w) = \inf \left\{ \sum_{g=1}^G \|w_g\|_2 : w = \sum_{g=1}^G \bar w_g \right\}$$

प्रत्येक के लिए $$w_g$$, $$\bar w_g$$ वेक्टर के रूप में परिभाषित किया गया है जैसे कि प्रतिबंध $$\bar w_g$$ समूह को $$g$$ के बराबर होती है $$w_g$$ और अन्य सभी प्रविष्टियाँ $$\bar w_g$$ शून्य हैं. नियमितकर्ता इष्टतम विघटन पाता है $$w$$ भागों में. इसे कई समूहों में मौजूद सभी तत्वों की नकल के रूप में देखा जा सकता है। इस रेगुलराइज़र के साथ सीखने की समस्याओं को समीपस्थ विधि से जटिलता के साथ भी हल किया जा सकता है। समीपस्थ संचालक की गणना बंद रूप में नहीं की जा सकती है, लेकिन इसे प्रभावी ढंग से पुनरावृत्त रूप से हल किया जा सकता है, जो समीपस्थ विधि पुनरावृत्ति के भीतर एक आंतरिक पुनरावृत्ति को प्रेरित करता है।

अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता
जब निविष्ट उदाहरणों की तुलना में लेबल इकट्ठा करना अधिक महंगा होता है, तो अर्ध-पर्यवेक्षित शिक्षण उपयोगी हो सकता है। रेगुलराइज़र को उन मॉडलों को सीखने के लिए शिक्षण एल्गोरिदम का मार्गदर्शन करने के लिए डिज़ाइन किया गया है जो बिना पर्यवेक्षित प्रशिक्षण नमूनों की संरचना का सम्मान करते हैं। यदि एक सममित वजन मैट्रिक्स $$W$$ दिया गया है, एक नियमितकर्ता को परिभाषित किया जा सकता है:


 * $$R(f) = \sum_{i,j} w_{ij}(f(x_i) - f(x_j))^2$$

अगर $$W_{ij}$$ बिंदुओं के लिए कुछ दूरी मीट्रिक के परिणाम को एन्कोड करता है $$x_i$$ और $$x_j$$, यह वांछनीय है कि $$f(x_i) \approx f(x_j)$$. यह रेगुलराइज़र इस अंतर्ज्ञान को पकड़ता है, और इसके बराबर है:


 * $$R(f) = \bar f^T L \bar f$$ कहाँ $$L = D- W$$ द्वारा प्रेरित ग्राफ का लाप्लासियन मैट्रिक्स है $$W$$.

अनुकूलन समस्या $$\min_{f \in \mathbb{R}^m} R(f), m = u + l$$ बाधा होने पर विश्लेषणात्मक रूप से हल किया जा सकता है $$f(x_i) = y_i$$ सभी पर्यवेक्षित नमूनों के लिए लागू किया जाता है। वेक्टर का लेबल वाला भाग $$f$$ इसलिए स्पष्ट है. का लेबल रहित भाग $$f$$ इसके लिए हल किया गया है:


 * $$\min_{f_u \in \mathbb{R}^u} f^T L f = \min_{f_u \in \mathbb{R}^u} \{ f^T_u L_{uu} f_u + f^T_l L_{lu} f_u + f^T_u L_{ul} f_l \}$$
 * $$\nabla_{f_u} = 2L_{uu}f_u + 2L_{ul}Y$$
 * $$f_u = L_{uu}^\dagger (L_{ul} Y)$$

छद्म-विपरीत इसलिए लिया जा सकता है क्योंकि $$L_{ul}$$ के समान ही सीमा होती है $$L_{uu}$$.

मल्टीटास्क सीखने के लिए नियमितकर्ता
मल्टीटास्क लर्निंग के मामले में, $$T$$ समस्याओं पर एक साथ विचार किया जाता है, प्रत्येक समस्या किसी न किसी तरह से संबंधित होती है। लक्ष्य सीखना है $$T$$ कार्य, आदर्श रूप से कार्यों की संबंधितता से शक्ति उधार लेते हैं, जिनमें पूर्वानुमान लगाने की शक्ति होती है। यह मैट्रिक्स सीखने के बराबर है $$W: T \times D$$.

स्तंभों पर विरल नियमितकर्ता

 * $$R(w) = \sum_{i=1}^D \|W\|_{2,1}$$

यह रेगुलराइज़र प्रत्येक कॉलम पर एक L2 मानदंड और सभी कॉलमों पर एक L1 मानदंड को परिभाषित करता है। इसे समीपस्थ तरीकों से हल किया जा सकता है।

परमाणु मानक नियमितीकरण

 * $$R(w) = \|\sigma(W)\|_1$$ कहाँ $$\sigma(W)$$ के एकवचन मूल्य अपघटन में eigenvalues ​​​​और eigenvectors है $$W$$.

माध्य-विवश नियमितीकरण

 * $$R(f_1 \cdots f_T) = \sum_{t=1}^T \|f_t - \frac{1}{T} \sum_{s=1}^T f_s \|_{H_k}^2$$

यह नियमितकर्ता प्रत्येक कार्य के लिए सीखे गए कार्यों को सभी कार्यों में कार्यों के समग्र औसत के समान होने के लिए बाध्य करता है। यह पूर्व सूचना व्यक्त करने के लिए उपयोगी है जिसे प्रत्येक कार्य द्वारा एक-दूसरे कार्य के साथ साझा करने की अपेक्षा की जाती है। एक उदाहरण दिन के अलग-अलग समय पर मापे गए रक्त आयरन के स्तर की भविष्यवाणी करना है, जहां प्रत्येक कार्य एक व्यक्ति का प्रतिनिधित्व करता है।

संकुल माध्य-विवश नियमितीकरण

 * $$R(f_1 \cdots f_T) = \sum_{r=1}^C \sum_{t \in I(r)} \|f_t - \frac{1}{I(r)} \sum_{s \in I(r)} f_s\|_{H_k}^2$$ कहाँ $$I(r)$$ कार्यों का एक समूह है.

यह रेगुलराइज़र माध्य-विवश रेगुलराइज़र के समान है, लेकिन इसके अपेक्षा एक ही क्लस्टर के भीतर कार्यों के बीच समानता को लागू करता है। यह अधिक जटिल पूर्व जानकारी प्राप्त कर सकता है। इस तकनीक का उपयोग NetFlix  अनुशंसाओं की भविष्यवाणी करने के लिए किया गया है। एक क्लस्टर उन लोगों के समूह के अनुरूप होगा जो समान प्राथमिकताएँ साझा करते हैं।

ग्राफ-आधारित समानता
उपरोक्त से अधिक सामान्यतः, कार्यों के बीच समानता को एक फलन द्वारा परिभाषित किया जा सकता है। रेगुलराइज़र मॉडल को समान कार्यों के लिए समान कार्य सीखने के लिए प्रोत्साहित करता है।


 * $$R(f_1 \cdots f_T) = \sum_{t,s=1, t \neq s}^T \| f_t - f_s \|^2 M_{ts} $$ किसी दिए गए सममित समानता मैट्रिक्स के लिए $$M$$.

सांख्यिकी और मशीन लर्निंग में नियमितीकरण के अन्य उपयोग
बायेसियन मॉडल तुलना विधियां पूर्व संभाव्यता का उपयोग करती हैं जो (सामान्यतौर पर) अधिक जटिल मॉडलों को कम संभावना देती है। प्रसिद्ध मॉडल चयन तकनीकों में अकाइक सूचना मानदंड (एआईसी), न्यूनतम विवरण लंबाई (एमडीएल), और बायेसियन सूचना मानदंड (बीआईसी) सम्मिलित हैं। ओवरफिटिंग को नियंत्रित करने के वैकल्पिक तरीकों में नियमितीकरण सम्मिलित नहीं है जिसमें क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन सम्मिलित है।

रैखिक मॉडल में नियमितीकरण के विभिन्न तरीकों के अनुप्रयोगों के उदाहरण हैं:

यह भी देखें

 * नियमितीकरण की बायेसियन व्याख्या
 * पूर्वाग्रह-विचरण ट्रेडऑफ़
 * मैट्रिक्स नियमितीकरण
 * वर्णक्रमीय फ़िल्टरिंग द्वारा नियमितीकरण
 * न्यूनतम वर्गों को नियमित किया गया
 * लैग्रेंज गुणक