सामान्यीकरण त्रुटि

यंत्र अधिगम और सांख्यिकीय शिक्षण सिद्धांत में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए, सामान्यीकरण त्रुटि (आउट-ऑफ़-प्रतिदर्श त्रुटि या जोखिम के रूप में भी जाना जाता है ) इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के लिए परिणाम मूल्यों की यथार्थ रूप से पूर्वानुमान करने में सक्षम है। क्योंकि अधिगम के एल्गोरिदम का मूल्यांकन परिमित प्रतिदर्श पर किया जाता है, अधिगम के एल्गोरिदम का मूल्यांकन प्रतिचयन त्रुटि के प्रति सुग्राही हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर पूर्वानुमान त्रुटि का मापन नए डेटा पर पूर्वानुमान करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। अधिगम एल्गोरिथम में अत्युपपन्न से परिवर्जन सामान्यीकरण त्रुटि को कम किया जा सकता है। यंत्र अधिगम एल्गोरिद्म के प्रदर्शन की कल्पना उन कथानक द्वारा की जाती है जो अधिगम की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के अनुमानों के मान दिखाते हैं, जिन्हें अधिगमन वक्र कहा जाता है।

परिभाषा
अधिगम की समस्या में, लक्ष्य एक फलन $$f_n(\vec{x})$$ विकसित करना है जो प्रत्येक निवेश डेटा $$\vec{x}$$ के लिए उत्‍पाद मान $$y$$ की पूर्वानुमान करता है। सबस्क्रिप्ट $$n$$ इंगित करता है कि फलन $$f_n$$ $$n$$ डेटा बिंदुओं के डेटा समुच्चय के आधार पर विकसित किया गया है। $$\vec{x}$$ और $$y$$ के सभी संभावित मूल्यों पर सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम $$I[f]$$ किसी विशेष फलन $$f$$ का हानि फलन $$V(f)$$ का अपेक्षित मूल्य है:
 * $$ I[f] = \int_{X \times Y} V(f(\vec{x}),y) \rho(\vec{x},y) d\vec{x} dy, $$

कहाँ $$\rho(\vec{x},y)$$ $$\vec{x}$$ और $$y$$ के लिए अज्ञात संयुक्त प्रायिकता वितरण है।

संयुक्त संभाव्यता वितरण $$\rho$$ को जाने बिना, $$I[f]$$ की गणना करना असंभव है। इसके बदले, हम प्रतिदर्श डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। $$n$$ डेटा बिंदुओं को देखते हुए, एक अभ्यर्थी फलन $$f$$ की अनुभवजन्य त्रुटि है:
 * $$ I_n[f] = \frac{1}{n} \sum_{i=1}^n V(f(\vec{x}_i),y_i) $$

एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:
 * $$ \lim_{n \rightarrow \infty} I[f] - I_n[f] = 0$$

डेटा-आश्रित फलन $$f_n$$ की सामान्यीकरण त्रुटि $$I[f_n]$$ का विशेष महत्व है जो प्रतिदर्श के आधार पर एक अधिगम एल्गोरिद्म द्वारा पाया जाता है। पुनः, एक अज्ञात संभाव्यता वितरण के लिए, $$I[f_n]$$ की गणना नहीं की जा सकती। इसके बदले, सांख्यिकीय शिक्षण सिद्धांत में कई समस्याओं का उद्देश्य सामान्यीकरण त्रुटि और संभाव्यता में अनुभवजन्य त्रुटि के अंतर को बाध्य या चिह्नित करना है:

P_G = P(I[f_n] - I_n[f_n] \leq \epsilon) \geq 1 - \delta_n $$ यही, लक्ष्य संभाव्यता $$1 - \delta_n$$ को चिह्नित करना है कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि $$\epsilon$$ बाध्य है (सामान्यतः $$\delta$$ और $$n$$ पर निर्भर करता है)। कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता मानकों को पूरा करती है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (निवेश का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध हानि है और दो स्थिरता स्थितियों को पूरा करती है, तो यह सामान्यीकरण करेगी। पहली स्थिरता की स्थिति, लीव-वन-आउट अंतः वैधीकरण स्थिरता, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट अंतः वैधीकरण का उपयोग किया जाता है, तो $$n\rightarrow \infty$$ के रूप में शून्य में परिवर्तित होना चाहिए। दूसरी स्थिति, अपेक्षित-टू-लीव-वन-आउट त्रुटि स्थिरता (जिसे परिकल्पना स्थिरता के रूप में भी जाना जाता है, यदि $$L_1$$ मानक में काम कर रहा हो) पूरी होती है, यदि एक डेटा बिंदु पर छोड़ा हुआ डेटा बिंदु पर पूर्वानुमान नहीं बदलता है। प्रशिक्षण डेटासमुच्चय से हटा दिया गया है।

इन स्थिति को औपचारिक रूप दिया जा सकता है:

लीव-वन-आउट अंतः वैधीकरण स्थिरता
एक एल्गोरिथ्म $$L$$ में $$CVloo$$ स्थिरता होती है, यदि प्रत्येक $$n$$ के लिए एक $$\beta_{CV}^{(n)}$$ और $$\delta_{CV}^{(n)}$$ उपस्थित हो, जैसे कि:
 * $$\forall i\in\{1,...,n\}, \mathbb{P}_S\{|V(f_{S^i},z_i)-V(f_S,z_i)|\leq\beta_{CV}^{(n)}\}\geq1-\delta_{CV}^{(n)}$$

और $$\beta_{CV}^{(n)}$$ और $$\delta_{CV}^{(n)}$$ शून्य के रूप में जाते हैं क्योंकि $$n$$ अनंत तक जाता है।

अपेक्षित-लीव-वन-आउट त्रुटि स्थिरता
एक एल्गोरिथ्म $$L$$ में $$Eloo_{err}$$ स्थिरता है यदि प्रत्येक $$n$$ के लिए एक $$\beta_{EL}^m$$ और एक $$\delta_{EL}^m$$ उपस्थित है जैसे कि:
 * $$\forall i\in\{1,...,n\}, \mathbb{P}_S\left\{\left|I[f_S]-\frac{1}{n}\sum_{i=1}^N V\left(f_{S^{i}},z_i\right)\right|\leq\beta_{EL}^{(n)}\right\}\geq1-\delta_{EL}^{(n)}$$

$$\beta_{EL}^{(n)}$$ और $$\delta_{EL}^{(n)}$$ के साथ $$n\rightarrow\infty$$ के लिए शून्य हो रहा है।

$$L_1$$ मानक के लीव-वन-आउट स्थिरता के लिए, यह परिकल्पना स्थिरता के समान है:
 * $$ \mathbb{E}_{S,z}[|V(f_S,z) - V(f_{S^i},z)|] \leq \beta_H^{(n)} $$

$$\beta_H^{(n)}$$ के साथ शून्य हो रहा है क्योंकि $$n$$ अनंत तक जाता है।

एल्गोरिदम सिद्ध स्थिरता के साथ
कई एल्गोरिदम स्थिर प्रमाणित हुए हैं और इसके परिणामस्वरूप उनकी सामान्यीकरण त्रुटि की सीमाएं हैं। इन एल्गोरिदम की सूची और स्थिरता प्रमाणित करने वाले दस्तावेज़ यहां उपलब्ध हैं।

अत्युपपन्न से संबंध
सामान्यीकरण त्रुटि और अत्युपपन्न की अवधारणाएं निकट से संबंधित हैं। अत्युपपन्न तब होती है जब सीखा हुआ फलन $$f_S$$ प्रतिदर्श में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फलन प्रशिक्षण समुच्चय पर अच्छा प्रदर्शन करेगा लेकिन $$x$$ और $$y$$ के संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा। इस प्रकार, जितना अधिक अत्युपपन्न होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।

अंतः वैधीकरण विधियों का उपयोग करके अत्युपपन्न की मात्रा का परीक्षण किया जा सकता है, जो प्रतिदर्श को अनुकारित प्रशिक्षण प्रतिदर्श और परीक्षण प्रतिदर्श में विभाजित करता है। मॉडल को तब प्रशिक्षण प्रतिदर्श पर प्रशिक्षित किया जाता है और परीक्षण प्रतिदर्श पर मूल्यांकन किया जाता है। परीक्षण प्रतिदर्श पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए $$x$$ और $$y$$ के संयुक्त संभाव्यता वितरण से एक यादृच्छिक प्रतिदर्श का प्रतिनिधित्व करता है। यह परीक्षण प्रतिदर्श हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।

अत्युपपन्न को रोकने के लिए कई एल्गोरिदम उपस्थित हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल फलन (तिखोनोव नियमितीकरण के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को या तो स्पष्ट रूप से फलन के रूप में या न्यूनीकरण फलन (इवानोव नियमितीकरण) में बाधाओं को जोड़कर विवश किया जा सकता है।

एक फलन खोजने का दृष्टिकोण जो अत्युपपन्न नहीं करता है, एक ऐसे फलन को खोजने के लक्ष्य के साथ है जो डेटा की विशेष विशेषताओं को अधिकृत करने के लिए पर्याप्त रूप से जटिल है। इसे पूर्वाग्रह-विचरण व्यापार के रूप में जाना जाता है। अत्युपपन्न से बचने के लिए एक फलन को सरल रखने से परिणामी भविष्यवाणियों में पूर्वाग्रह हो सकता है, जबकि इसे और अधिक जटिल होने की अनुमति देने से अत्युपपन्न और भविष्यवाणियों में उच्च विचरण होता है। दोनों को एक साथ कम करना संभव नहीं है।

अग्रिम पठन

 * Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press.
 * Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847-854.
 * White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell.
 * Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847-854.
 * White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell.