नियमितीकरण (गणित)

गणित, सांख्यिकी, गणितीय वित्त में, कंप्यूटर विज्ञान, विशेष रूप से यंत्र अधिगम  और व्युत्क्रम समस्याओं में, नियमितीकरण एक ऐसी प्रक्रिया है जो परिणाम उत्तर को सरल बना देती है। इसका उपयोग अक्सर गलत समस्याओं के परिणाम प्राप्त करने या ओवरफिटिंग को रोकने के लिए किया जाता है। हालाँकि नियमितीकरण प्रक्रियाओं को कई तरीकों से विभाजित किया जा सकता है, निम्नलिखित चित्रण विशेष रूप से सहायक है:
 * जब भी कोई स्पष्ट रूप से अनुकूलन समस्या में कोई शब्द जोड़ता है तो स्पष्ट नियमितीकरण नियमितीकरण होता है। ये शर्तें प्राथमिकताएं, दंड या बाधाएं हो सकती हैं। स्पष्ट नियमितीकरण का प्रयोग आम तौर पर खराब अनुकूलन समस्याओं के साथ किया जाता है। नियमितीकरण शब्द, या जुर्माना, इष्टतम समाधान को अद्वितीय बनाने के लिए अनुकूलन फ़ंक्शन पर लागत लगाता है।
 * अंतर्निहित नियमितीकरण नियमितीकरण के अन्य सभी रूप हैं। इसमें, उदाहरण के लिए, जल्दी रोकना, एक मजबूत हानि फ़ंक्शन का उपयोग करना और आउटलेर्स को त्यागना शामिल है। आधुनिक मशीन लर्निंग दृष्टिकोण में अंतर्निहित नियमितीकरण अनिवार्य रूप से सर्वव्यापी है, जिसमें गहरे तंत्रिका नेटवर्क के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट और एन्सेम्बल तरीके (जैसे कि यादृच्छिक वन और ग्रेडिएंट बूस्टेड पेड़) शामिल हैं।

स्पष्ट नियमितीकरण में, समस्या या मॉडल से स्वतंत्र, हमेशा एक डेटा शब्द होता है, जो माप की संभावना से मेल खाता है और एक नियमितीकरण शब्द जो पूर्व से मेल खाता है। बायेसियन आँकड़ों का उपयोग करके दोनों को मिलाकर, कोई पश्च की गणना कर सकता है, जिसमें दोनों सूचना स्रोत शामिल हैं और इसलिए अनुमान प्रक्रिया को स्थिर किया गया है। दोनों उद्देश्यों का आदान-प्रदान करके, कोई व्यक्ति डेटा का अधिक आदी होना या सामान्यीकरण लागू करना (ओवरफिटिंग को रोकने के लिए) चुनता है। सभी संभावित नियमितीकरणों से निपटने वाली एक पूरी अनुसंधान शाखा है। व्यवहार में, कोई आमतौर पर एक विशिष्ट नियमितीकरण का प्रयास करता है और फिर विकल्प को सही ठहराने के लिए उस नियमितीकरण से मेल खाने वाले संभाव्यता घनत्व का पता लगाता है। यह सामान्य ज्ञान या अंतर्ज्ञान से शारीरिक रूप से प्रेरित भी हो सकता है।

मशीन लर्निंग में, डेटा शब्द प्रशिक्षण डेटा से मेल खाता है और नियमितीकरण या तो मॉडल का विकल्प है या एल्गोरिदम में संशोधन है। इसका उद्देश्य हमेशा सामान्यीकरण त्रुटि को कम करना है, यानी मूल्यांकन सेट पर प्रशिक्षित मॉडल के साथ त्रुटि स्कोर, न कि प्रशिक्षण डेटा। नियमितीकरण के शुरुआती उपयोगों में से एक तिखोनोव नियमितीकरण है, जो कम से कम वर्गों की विधि से संबंधित है।

वर्गीकरण
क्लासिफायर का अनुभवजन्य सीखना (एक सीमित डेटा सेट से) हमेशा एक अनिर्धारित समस्या है, क्योंकि यह किसी भी फ़ंक्शन का अनुमान लगाने का प्रयास करता है $$x$$ केवल उदाहरण दिए गए हैं $$x_1, x_2, ... x_n$$.

एक नियमितीकरण शब्द (या नियमितीकरणकर्ता) $$R(f)$$ वर्गीकरण के लिए हानि फ़ंक्शन में जोड़ा गया है:
 * $$\min_f \sum_{i=1}^{n} V(f(x_i), y_i) + \lambda R(f)$$

कहाँ $$V$$ एक अंतर्निहित हानि फ़ंक्शन है जो भविष्यवाणी की लागत का वर्णन करता है $$f(x)$$ जब लेबल है $$y$$, जैसे वर्गीकरण के लिए हानि फ़ंक्शन#स्क्वायर हानि या हिंज हानि; और $$\lambda$$ एक पैरामीटर है जो नियमितीकरण शब्द के महत्व को नियंत्रित करता है। $$R(f)$$ आमतौर पर इसकी जटिलता पर जुर्माना लगाने के लिए चुना जाता है $$f$$. उपयोग की गई जटिलता की ठोस धारणाओं में सुचारू कार्य के लिए प्रतिबंध और मानक वेक्टर स्थान पर सीमाएँ शामिल हैं।

नियमितीकरण के लिए एक सैद्धांतिक औचित्य यह है कि यह समाधान पर ओकाम के रेजर को लागू करने का प्रयास करता है (जैसा कि ऊपर दिए गए चित्र में दर्शाया गया है, जहां हरे रंग के फ़ंक्शन, सरल वाले को प्राथमिकता दी जा सकती है)। बायेसियन अनुमान के दृष्टिकोण से, कई नियमितीकरण तकनीकें मॉडल मापदंडों पर कुछ पूर्व संभाव्यता वितरण लागू करने के अनुरूप हैं। नियमितीकरण कई उद्देश्यों को पूरा कर सकता है, जिसमें सरल मॉडल सीखना, मॉडल को विरल बनाने के लिए प्रेरित करना और समूह संरचना शुरू करना शामिल है सीखने की समस्या में।

यही विचार विज्ञान के अनेक क्षेत्रों में उत्पन्न हुआ। अभिन्न समीकरणों (तिखोनोव नियमितीकरण) पर लागू नियमितीकरण का एक सरल रूप अनिवार्य रूप से डेटा को फिट करने और समाधान के एक मानक को कम करने के बीच एक व्यापार-बंद है। हाल ही में, कुल भिन्नता नियमितीकरण सहित गैर-रेखीय नियमितीकरण विधियां लोकप्रिय हो गई हैं।

सामान्यीकरण
किसी सीखे गए मॉडल की सामान्यीकरण क्षमता में सुधार के लिए नियमितीकरण को एक तकनीक के रूप में प्रेरित किया जा सकता है।

इस सीखने की समस्या का लक्ष्य एक ऐसा फ़ंक्शन ढूंढना है जो परिणाम (लेबल) को फिट करता है या भविष्यवाणी करता है जो सभी संभावित इनपुट और लेबल पर अपेक्षित त्रुटि को कम करता है। किसी फ़ंक्शन की अपेक्षित त्रुटि $$f_n$$ है:


 * $$ I[f_n] = \int_{X \times Y} V(f_n(x),y) \rho(x,y) \, dx \, dy $$

कहाँ $$X$$ और $$Y$$ इनपुट डेटा के डोमेन हैं $$x$$ और उनके लेबल $$y$$ क्रमश।

आमतौर पर सीखने की समस्याओं में, केवल इनपुट डेटा और लेबल का एक सबसेट उपलब्ध होता है, जिसे कुछ शोर के साथ मापा जाता है। इसलिए, अपेक्षित त्रुटि मापने योग्य नहीं है, और उपलब्ध सर्वोत्तम विकल्प अनुभवजन्य त्रुटि है $$ N $$ उपलब्ध नमूने:


 * $$ I_S[f_n] = \frac{1}{n} \sum_{i=1}^N V(f_n(\hat x_i), \hat y_i) $$

उपलब्ध फ़ंक्शन स्पेस (औपचारिक रूप से, पुनरुत्पादित कर्नेल हिल्बर्ट स्पेस) की जटिलता पर सीमा के बिना, एक मॉडल सीखा जाएगा जो सरोगेट अनुभवजन्य त्रुटि पर शून्य नुकसान उठाता है। यदि माप (उदाहरण के लिए) $$x_i$$) शोर के साथ बनाए गए थे, यह मॉडल ओवरफिटिंग से ग्रस्त हो सकता है और खराब अपेक्षित त्रुटि प्रदर्शित कर सकता है। नियमितीकरण मॉडल के निर्माण के लिए उपयोग किए जाने वाले फ़ंक्शन स्थान के कुछ क्षेत्रों की खोज के लिए दंड का परिचय देता है, जो सामान्यीकरण में सुधार कर सकता है।

तिखोनोव नियमितीकरण
इन तकनीकों का नाम एंड्री निकोलाइविच तिखोनोव के नाम पर रखा गया है, जिन्होंने अभिन्न समीकरणों में नियमितीकरण लागू किया और कई अन्य क्षेत्रों में महत्वपूर्ण योगदान दिया।

एक रैखिक कार्य सीखते समय $$f$$, एक अज्ञात सदिश स्थल द्वारा विशेषता $$w$$ ऐसा है कि $$f(x) = w \cdot x$$, कोई भी जोड़ सकता है $$L_2$$-वेक्टर का मानदंड $$w$$ छोटे मानदंडों वाले समाधानों को प्राथमिकता देने के लिए हानि की अभिव्यक्ति के लिए। तिखोनोव नियमितीकरण सबसे आम रूपों में से एक है। इसे रिज रिग्रेशन के नाम से भी जाना जाता है। इसे इस प्रकार व्यक्त किया गया है:


 * $$\min_w \sum_{i=1}^{n} V(\hat x_i \cdot w, \hat y_i) + \lambda \|w\|_{2}^{2}$$,

कहाँ $$(\hat x_i, \hat y_i), \, 1 \leq i \leq n,$$ प्रशिक्षण के लिए उपयोग किए गए नमूनों का प्रतिनिधित्व करेगा।

एक सामान्य फ़ंक्शन के मामले में, इसके पुनरुत्पादित कर्नेल हिल्बर्ट स्पेस में फ़ंक्शन का मानदंड है:


 * $$\min_f \sum_{i=1}^{n} V(f(\hat x_i), \hat y_i) + \lambda \|f\|_{\mathcal{H}}^{2}$$

के रूप में $$L_2$$ मानक विभेदनीय कार्य है#उच्च आयामों में विभेदीकरण, सीखने को ढतला हुआ वंश  द्वारा उन्नत किया जा सकता है।

तिखोनोव-नियमित न्यूनतम वर्ग
न्यूनतम वर्ग हानि फ़ंक्शन और तिखोनोव नियमितीकरण के साथ सीखने की समस्या को विश्लेषणात्मक रूप से हल किया जा सकता है। मैट्रिक्स रूप में लिखा गया, इष्टतम $$w$$ वह है जिसके संबंध में हानि का ग्रेडिएंट कार्य करता है $$w$$ 0 है.


 * $$\min_w \frac{1}{n} (\hat X w - Y)^T(\hat X w - Y)+ \lambda \|w\|_{2}^{2}$$
 * $$\nabla_w = \frac{2}{n} \hat X^T (\hat X w - Y) + 2 \lambda w$$
 * $$0 = \hat X^T (\hat X w - Y) + n \lambda w$$ (प्रथम क्रम की स्थिति)


 * $$w = (\hat X^T \hat X + \lambda n I)^{-1} (\hat X^T Y)$$

अनुकूलन समस्या के निर्माण से, अन्य मान $$w$$ हानि फ़ंक्शन के लिए बड़े मान दें। इसे दूसरे व्युत्पन्न की जांच करके सत्यापित किया जा सकता है $$\nabla_{ww}$$.

प्रशिक्षण के दौरान यह एल्गोरिथम लेता है $$O(d^3 + nd^2)$$ समय की जटिलता. शर्तें मैट्रिक्स व्युत्क्रम और गणना के अनुरूप हैं $$X^T X$$, क्रमश। परीक्षण होता है $$O(nd)$$ समय।

जल्दी रुकना
जल्दी रुकने को समय पर नियमितीकरण के रूप में देखा जा सकता है। सहज रूप से, ग्रेडिएंट डिसेंट जैसी प्रशिक्षण प्रक्रिया बढ़ती पुनरावृत्तियों के साथ अधिक से अधिक जटिल कार्यों को सीखने की प्रवृत्ति रखती है। समय के लिए नियमितीकरण करके, सामान्यीकरण में सुधार करके मॉडल जटिलता को नियंत्रित किया जा सकता है।

प्रारंभिक रोक को प्रशिक्षण के लिए एक डेटा सेट, सत्यापन के लिए एक सांख्यिकीय रूप से स्वतंत्र डेटा सेट और परीक्षण के लिए दूसरे का उपयोग करके कार्यान्वित किया जाता है। मॉडल को तब तक प्रशिक्षित किया जाता है जब तक सत्यापन सेट पर प्रदर्शन में सुधार नहीं होता है और फिर परीक्षण सेट पर लागू किया जाता है।

न्यूनतम वर्गों में सैद्धांतिक प्रेरणा
एक व्युत्क्रमणीय मैट्रिक्स के लिए न्यूमैन श्रृंखला के परिमित सन्निकटन पर विचार करें $A$ कहाँ $$\| I-A \| < 1$$:


 * $$\sum_{i=0}^{T-1}(I-A)^i \approx A^{-1}$$

इसका उपयोग अनियमित न्यूनतम वर्गों के विश्लेषणात्मक समाधान का अनुमान लगाने के लिए किया जा सकता है, यदि $&gamma;$ यह सुनिश्चित करने के लिए पेश किया गया है कि मानदंड एक से कम है।


 * $$w_T = \frac{\gamma}{n} \sum_{i=0}^{T-1} ( I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y$$

अनियमित न्यूनतम वर्ग सीखने की समस्या का सटीक समाधान अनुभवजन्य त्रुटि को कम करता है, लेकिन विफल हो सकता है। सीमित करके $T$, उपरोक्त एल्गोरिदम में एकमात्र मुफ़्त पैरामीटर, समस्या को समय के लिए नियमित किया जाता है, जिससे इसके सामान्यीकरण में सुधार हो सकता है।

उपरोक्त एल्गोरिदम अनुभवजन्य जोखिम के लिए ग्रेडिएंट डिसेंट पुनरावृत्तियों की संख्या को सीमित करने के बराबर है


 * $$I_s[w] = \frac{1}{2n} \| \hat X w - \hat Y \|^{2}_{\mathbb{R}^n}$$

ग्रेडिएंट डिसेंट अपडेट के साथ:


 * $$\begin{align}

w_0 &= 0 \\ w_{t+1} &= (I - \frac{\gamma}{n} \hat X^T \hat X)w_t + \frac{\gamma}{n}\hat X^T \hat Y \end{align}$$ आधार मामला तुच्छ है. आगमनात्मक मामला इस प्रकार सिद्ध होता है:


 * $$\begin{align}

w_{T} &= (I - \frac{\gamma}{n} \hat X^T \hat X)\frac{\gamma}{n} \sum_{i=0}^{T-2}(I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y + \frac{\gamma}{n}\hat X^T \hat Y \\ &= \frac{\gamma}{n} \sum_{i=1}^{T-1}(I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y + \frac{\gamma}{n}\hat X^T \hat Y \\ &= \frac{\gamma}{n} \sum_{i=0}^{T-1}(I - \frac{\gamma}{n} \hat X^T \hat X )^i \hat X^T \hat Y \end{align}$$

विरलता के लिए नियमितकर्ता
मान लीजिए कि एक शब्दकोश $$\phi_j$$ आयाम के साथ $$p$$ ऐसा दिया गया है कि फ़ंक्शन स्पेस में एक फ़ंक्शन को इस प्रकार व्यक्त किया जा सकता है:


 * $$f(x) = \sum_{j=1}^{p} \phi_j(x) w_j$$

विरलता प्रतिबंध लागू करना $$w$$ इससे सरल और अधिक व्याख्या योग्य मॉडल बन सकते हैं। यह कम्प्यूटेशनल जीवविज्ञान जैसे कई वास्तविक जीवन अनुप्रयोगों में उपयोगी है। एक उदाहरण भविष्यवाणी शक्ति को अधिकतम करते हुए चिकित्सा परीक्षण करने की लागत को कम करने के लिए किसी बीमारी के लिए एक सरल भविष्य कहनेवाला परीक्षण विकसित करना है।

एक समझदार विरलता बाधा नॉर्म (गणित)| है$$L_0$$ आदर्श $$\|w\|_0$$, गैर-शून्य तत्वों की संख्या के रूप में परिभाषित किया गया है $$w$$. हल करना ए $$L_0$$ हालाँकि, नियमित सीखने की समस्या को एनपी-कठोरता |एनपी-हार्ड के रूप में प्रदर्शित किया गया है। टैक्सीकैब ज्यामिति|$$L_1$$ नॉर्म (नॉर्म (गणित) भी देखें) का उपयोग इष्टतम नॉर्म (गणित) का अनुमान लगाने के लिए किया जा सकता है|$$L_0$$उत्तल विश्राम के माध्यम से आदर्श। यह दिखाया जा सकता है कि नॉर्म (गणित)|$$L_1$$मानदंड विरलता को प्रेरित करता है। न्यूनतम वर्गों के मामले में, इस समस्या को सांख्यिकी में लासो (सांख्यिकी) और सिग्नल प्रोसेसिंग में आधार खोज के रूप में जाना जाता है।


 * $$\min_{w \in \mathbb{R}^p} \frac{1}{n} \|\hat X w - \hat Y \|^2 + \lambda \|w\|_{1}$$

नॉर्म (गणित)|$$L_1$$नियमितीकरण कभी-कभी गैर-अद्वितीय समाधान उत्पन्न कर सकता है। चित्र में एक सरल उदाहरण दिया गया है जब संभावित समाधानों का स्थान 45 डिग्री रेखा पर होता है। यह कुछ अनुप्रयोगों के लिए समस्याग्रस्त हो सकता है, और नॉर्म (गणित)| के संयोजन से इसे दूर किया जा सकता है$$L_1$$नॉर्म (गणित) के साथ|$$L_2$$इलास्टिक नेट नियमितीकरण में नियमितीकरण, जो निम्नलिखित रूप लेता है:
 * $$\min_{w \in \mathbb{R}^p} \frac{1}{n} \|\hat X w - \hat Y \|^2 + \lambda (\alpha \|w\|_{1} + (1 - \alpha)\|w\|_{2}^{2}), \alpha \in [0, 1]$$

इलास्टिक नेट नियमितीकरण में समूहीकरण प्रभाव होता है, जहां सहसंबद्ध इनपुट सुविधाओं को समान महत्व दिया जाता है।

इलास्टिक नेट नियमितीकरण आमतौर पर व्यवहार में उपयोग किया जाता है और कई मशीन लर्निंग लाइब्रेरी में लागू किया जाता है।

समीपस्थ विधियाँ
जबकि नॉर्म (गणित)|$$L_1$$नॉर्म के परिणामस्वरूप एनपी-हार्ड समस्या नहीं होती, नॉर्म (गणित)|$$L_1$$मानदंड उत्तल है, लेकिन x = 0 पर किंक के कारण कड़ाई से भिन्न नहीं है। सबग्रेडिएंट विधियां जो उप-व्युत्पन्न पर निर्भर करती हैं, उनका उपयोग नॉर्म (गणित) को हल करने के लिए किया जा सकता है।$$L_1$$नियमित सीखने की समस्याएँ। हालाँकि, समीपस्थ तरीकों के माध्यम से तेजी से अभिसरण प्राप्त किया जा सकता है।

एक समस्या के लिए $$\min_{w \in H} F(w) + R(w)$$ ऐसा है कि $$F$$ लिप्सचिट्ज़ निरंतर ग्रेडिएंट (जैसे कि न्यूनतम वर्ग हानि फ़ंक्शन) के साथ उत्तल, निरंतर, भिन्न है, और $$R$$ उत्तल, सतत और उचित है, तो समस्या को हल करने की समीपस्थ विधि इस प्रकार है। सबसे पहले समीपस्थ ऑपरेटर को परिभाषित करें


 * $$\operatorname{prox}_R(v) = \operatorname{argmin}\limits_{w \in \mathbb{R}^D} \{ R(w) + \frac{1}{2}\|w-v\|^2\}, $$

और फिर पुनरावृत्त करें


 * $$w_{k+1} = \operatorname{prox}\limits_{\gamma, R}(w_k - \gamma \nabla F(w_k))$$

समीपस्थ विधि पुनरावृत्तीय रूप से ग्रेडिएंट डिसेंट निष्पादित करती है और फिर परिणाम को अनुमत स्थान पर वापस प्रोजेक्ट करती है $$R$$.

कब $$R$$ नॉर्म (गणित) है|$$L_1$$रेगुलराइज़र, समीपस्थ ऑपरेटर सॉफ्ट-थ्रेसहोल्डिंग ऑपरेटर के बराबर है,


 * $$S_\lambda(v)f(n) = \begin{cases} v_i - \lambda, & \text{if }v_i > \lambda \\ 0, & \text{if } v_i \in [-\lambda, \lambda] \\ v_i + \lambda, & \text{if }v_i < - \lambda \end{cases}$$

यह कुशल गणना की अनुमति देता है।

ओवरलैप के बिना समूह विरलता
सुविधाओं के समूहों को विरल बाधा द्वारा नियमित किया जा सकता है, जो अनुकूलन समस्या में कुछ पूर्व ज्ञान को व्यक्त करने के लिए उपयोगी हो सकता है।

गैर-अतिव्यापी ज्ञात समूहों वाले रैखिक मॉडल के मामले में, एक नियमितकर्ता को परिभाषित किया जा सकता है:


 * $$R(w) = \sum_{g=1}^G \|w_g\|_2,$$ कहाँ $$\|w_g\|_2 = \sqrt{\sum_{j=1}^{|G_g|}(w_g^j)^2}$$

इसे एक नियमितीकरणकर्ता को प्रेरित करने के रूप में देखा जा सकता है $$L_2$$ प्रत्येक समूह के सदस्यों पर मानदंड का अनुसरण किया जाता है $$L_1$$ समूहों पर आदर्श.

इसे समीपस्थ विधि द्वारा हल किया जा सकता है, जहां समीपस्थ ऑपरेटर एक ब्लॉक-वार सॉफ्ट-थ्रेशोल्डिंग फ़ंक्शन है:


 * $$\operatorname{prox}\limits_{\lambda, R, g}(w_g) = \begin{cases} (1 - \frac{\lambda}{\|w_g\|_2})w_g, & \text{if } \|w_g\|_2 > \lambda \\ 0, & \text{if } \|w_g\|_2 \leq \lambda \end{cases}$$

ओवरलैप के साथ समूह विरलता
ओवरलैप के बिना समूह विरलता के लिए वर्णित एल्गोरिदम को उस मामले में लागू किया जा सकता है जहां समूह कुछ स्थितियों में ओवरलैप करते हैं। इसके परिणामस्वरूप संभवतः कुछ समूहों में सभी शून्य तत्व होंगे, और अन्य समूहों में कुछ गैर-शून्य और कुछ शून्य तत्व होंगे।

यदि समूह संरचना को संरक्षित करना वांछित है, तो एक नया नियमितकर्ता परिभाषित किया जा सकता है:


 * $$R(w) = \inf \left\{ \sum_{g=1}^G \|w_g\|_2 : w = \sum_{g=1}^G \bar w_g \right\}$$

प्रत्येक के लिए $$w_g$$, $$\bar w_g$$ वेक्टर के रूप में परिभाषित किया गया है जैसे कि प्रतिबंध $$\bar w_g$$ समूह को $$g$$ के बराबर होती है $$w_g$$ और अन्य सभी प्रविष्टियाँ $$\bar w_g$$ शून्य हैं. नियमितकर्ता इष्टतम विघटन पाता है $$w$$ भागों में. इसे कई समूहों में मौजूद सभी तत्वों की नकल के रूप में देखा जा सकता है। इस रेगुलराइज़र के साथ सीखने की समस्याओं को समीपस्थ विधि से जटिलता के साथ भी हल किया जा सकता है। समीपस्थ ऑपरेटर की गणना बंद रूप में नहीं की जा सकती है, लेकिन इसे प्रभावी ढंग से पुनरावृत्त रूप से हल किया जा सकता है, जो समीपस्थ विधि पुनरावृत्ति के भीतर एक आंतरिक पुनरावृत्ति को प्रेरित करता है।

अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता
जब इनपुट उदाहरणों की तुलना में लेबल इकट्ठा करना अधिक महंगा होता है, तो अर्ध-पर्यवेक्षित शिक्षण उपयोगी हो सकता है। रेगुलराइज़र को उन मॉडलों को सीखने के लिए शिक्षण एल्गोरिदम का मार्गदर्शन करने के लिए डिज़ाइन किया गया है जो बिना पर्यवेक्षित प्रशिक्षण नमूनों की संरचना का सम्मान करते हैं। यदि एक सममित वजन मैट्रिक्स $$W$$ दिया गया है, एक नियमितकर्ता को परिभाषित किया जा सकता है:


 * $$R(f) = \sum_{i,j} w_{ij}(f(x_i) - f(x_j))^2$$

अगर $$W_{ij}$$ बिंदुओं के लिए कुछ दूरी मीट्रिक के परिणाम को एन्कोड करता है $$x_i$$ और $$x_j$$, यह वांछनीय है कि $$f(x_i) \approx f(x_j)$$. यह रेगुलराइज़र इस अंतर्ज्ञान को पकड़ता है, और इसके बराबर है:


 * $$R(f) = \bar f^T L \bar f$$ कहाँ $$L = D- W$$ द्वारा प्रेरित ग्राफ का लाप्लासियन मैट्रिक्स है $$W$$.

अनुकूलन समस्या $$\min_{f \in \mathbb{R}^m} R(f), m = u + l$$ बाधा होने पर विश्लेषणात्मक रूप से हल किया जा सकता है $$f(x_i) = y_i$$ सभी पर्यवेक्षित नमूनों के लिए लागू किया जाता है। वेक्टर का लेबल वाला भाग $$f$$ इसलिए स्पष्ट है. का लेबल रहित भाग $$f$$ इसके लिए हल किया गया है:


 * $$\min_{f_u \in \mathbb{R}^u} f^T L f = \min_{f_u \in \mathbb{R}^u} \{ f^T_u L_{uu} f_u + f^T_l L_{lu} f_u + f^T_u L_{ul} f_l \}$$
 * $$\nabla_{f_u} = 2L_{uu}f_u + 2L_{ul}Y$$
 * $$f_u = L_{uu}^\dagger (L_{ul} Y)$$

छद्म-विपरीत इसलिए लिया जा सकता है क्योंकि $$L_{ul}$$ के समान ही सीमा होती है $$L_{uu}$$.

मल्टीटास्क सीखने के लिए नियमितकर्ता
मल्टीटास्क लर्निंग के मामले में, $$T$$ समस्याओं पर एक साथ विचार किया जाता है, प्रत्येक समस्या किसी न किसी तरह से संबंधित होती है। लक्ष्य सीखना है $$T$$ कार्य, आदर्श रूप से कार्यों की संबंधितता से शक्ति उधार लेते हैं, जिनमें पूर्वानुमान लगाने की शक्ति होती है। यह मैट्रिक्स सीखने के बराबर है $$W: T \times D$$.

स्तंभों पर विरल नियमितकर्ता

 * $$R(w) = \sum_{i=1}^D \|W\|_{2,1}$$

यह रेगुलराइज़र प्रत्येक कॉलम पर एक L2 मानदंड और सभी कॉलमों पर एक L1 मानदंड को परिभाषित करता है। इसे समीपस्थ तरीकों से हल किया जा सकता है।

परमाणु मानक नियमितीकरण

 * $$R(w) = \|\sigma(W)\|_1$$ कहाँ $$\sigma(W)$$ के एकवचन मूल्य अपघटन में eigenvalues ​​​​और eigenvectors है $$W$$.

माध्य-विवश नियमितीकरण

 * $$R(f_1 \cdots f_T) = \sum_{t=1}^T \|f_t - \frac{1}{T} \sum_{s=1}^T f_s \|_{H_k}^2$$

यह नियमितकर्ता प्रत्येक कार्य के लिए सीखे गए कार्यों को सभी कार्यों में कार्यों के समग्र औसत के समान होने के लिए बाध्य करता है। यह पूर्व सूचना व्यक्त करने के लिए उपयोगी है जिसे प्रत्येक कार्य द्वारा एक-दूसरे कार्य के साथ साझा करने की अपेक्षा की जाती है। एक उदाहरण दिन के अलग-अलग समय पर मापे गए रक्त आयरन के स्तर की भविष्यवाणी करना है, जहां प्रत्येक कार्य एक व्यक्ति का प्रतिनिधित्व करता है।

संकुल माध्य-विवश नियमितीकरण

 * $$R(f_1 \cdots f_T) = \sum_{r=1}^C \sum_{t \in I(r)} \|f_t - \frac{1}{I(r)} \sum_{s \in I(r)} f_s\|_{H_k}^2$$ कहाँ $$I(r)$$ कार्यों का एक समूह है.

यह रेगुलराइज़र माध्य-विवश रेगुलराइज़र के समान है, लेकिन इसके बजाय एक ही क्लस्टर के भीतर कार्यों के बीच समानता को लागू करता है। यह अधिक जटिल पूर्व जानकारी प्राप्त कर सकता है। इस तकनीक का उपयोग NetFlix  अनुशंसाओं की भविष्यवाणी करने के लिए किया गया है। एक क्लस्टर उन लोगों के समूह के अनुरूप होगा जो समान प्राथमिकताएँ साझा करते हैं।

ग्राफ-आधारित समानता
उपरोक्त से अधिक सामान्यतः, कार्यों के बीच समानता को एक फ़ंक्शन द्वारा परिभाषित किया जा सकता है। रेगुलराइज़र मॉडल को समान कार्यों के लिए समान कार्य सीखने के लिए प्रोत्साहित करता है।


 * $$R(f_1 \cdots f_T) = \sum_{t,s=1, t \neq s}^T \| f_t - f_s \|^2 M_{ts} $$ किसी दिए गए सममित समानता मैट्रिक्स के लिए $$M$$.

सांख्यिकी और मशीन लर्निंग में नियमितीकरण के अन्य उपयोग
बायेसियन मॉडल तुलना विधियां पूर्व संभाव्यता का उपयोग करती हैं जो (आमतौर पर) अधिक जटिल मॉडलों को कम संभावना देती है। प्रसिद्ध मॉडल चयन तकनीकों में अकाइक सूचना मानदंड (एआईसी), न्यूनतम विवरण लंबाई (एमडीएल), और बायेसियन सूचना मानदंड (बीआईसी) शामिल हैं। ओवरफिटिंग को नियंत्रित करने के वैकल्पिक तरीकों में नियमितीकरण शामिल नहीं है जिसमें क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन शामिल है।

रैखिक मॉडल में नियमितीकरण के विभिन्न तरीकों के अनुप्रयोगों के उदाहरण हैं:

यह भी देखें

 * नियमितीकरण की बायेसियन व्याख्या
 * पूर्वाग्रह-विचरण ट्रेडऑफ़
 * मैट्रिक्स नियमितीकरण
 * वर्णक्रमीय फ़िल्टरिंग द्वारा नियमितीकरण
 * न्यूनतम वर्गों को नियमित किया गया
 * लैग्रेंज गुणक