ऑनलाइन मशीन लर्निंग

कंप्यूटर विज्ञान में ऑनलाइन यंत्र अधिगम मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक फेज पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा समुच्चय पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए आउट ऑफ़ कोर एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को डायनामिक रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट पूर्वानुमान ऑनलाइन शिक्षण एल्गोरिदम में कैटेस्ट्रोफिक इंटरफेरेंस का खतरा हो सकता है, एक समस्या जिसे इंक्रीमेंटल शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।

परिचय
पर्यवेक्षित शिक्षण की सेटिंग में, $$ f : X \to Y$$ का एक फलन सीखा जाना है, जहां $$X$$ को इनपुट के स्थान के रूप में और $$Y$$ को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से पूर्वानुमान करता है जो $$X \times Y$$ पर संयुक्त संभाव्यता वितरण $$p(x,y)$$ से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण $$p(x,y)$$ का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों $$(x_1, y_1), \ldots, (x_n, y_n)$$ के प्रशिक्षण समुच्चय तक पहुंच होती है। इस सेटिंग में, हानि फलन को $$V : Y \times Y \to \mathbb{R}$$ के रूप में दिया गया है, जैसे कि $$ V(f(x), y)$$ अनुमानित मान $$f(x)$$ और वास्तविक मान के मध्य अंतर को मापता है जो की $$y$$ आदर्श लक्ष्य एक फलन $$f \in \mathcal{H}$$ का चयन करना है, जहां $$\mathcal{H}$$ फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।

ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण
सांख्यिकीय शिक्षण मॉडल में, प्रशिक्षण नमूना $$ (x_i,y_i) $$ को वास्तविक वितरण $$p(x,y)$$ से लिया गया माना जाता है और इसका उद्देश्य अपेक्षित "खतरा" को कम करना है।
 * $$I[f] = \mathbb{E}[V(f(x), y)] = \int V(f(x), y)\,dp(x, y) \ .$$

इस स्थिति में एक सामान्य प्रतिमान अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण या नियमित अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण (समान्यत: तिखोनोव नियमितीकरण) के माध्यम से एक फलन $$\hat{f}$$ का अनुमान लगाना है। यहां हानि फलन का विकल्प अनेक प्रसिद्ध शिक्षण एल्गोरिदम को उत्पन्न करता है जैसे कि नियमित न्यूनतम वर्ग और समर्थन सदिश मशीनें इस श्रेणी में एक विशुद्ध रूप से ऑनलाइन मॉडल केवल नए इनपुट $$(x_{t+1},y_{t+1})$$, वर्तमान सर्वोत्तम भविष्यवक्ता $$ f_{t} $$ और कुछ अतिरिक्त संग्रहीत जानकारी (जिसमें समान्यत: प्रशिक्षण डेटा आकार से स्वतंत्र संचयन आवश्यकताओं की अपेक्षा की जाती है) के आधार पर सीखेगा अनेक फॉर्मूलेशन के लिए, उदाहरण के लिए नॉनलाइनियर कर्नेल विधियां, वास्तविक ऑनलाइन सीखना संभव नहीं है, चूँकि पुनरावर्ती एल्गोरिदम के साथ हाइब्रिड ऑनलाइन सीखने का एक रूप उपयोग किया जा सकता है जहां $$f_{t+1}$$ को $$f_t$$ और सभी पिछले डेटा पर निर्भर होने की अनुमति है अंक $$(x_1, y_1), \ldots, (x_t, y_t)$$ इस स्थिति में, स्थान की आवश्यकताओं के स्थिर रहने की अब आश्वासन नहीं है क्योंकि इसके लिए सभी पिछले डेटा बिंदुओं को संग्रहीत करने की आवश्यकता होती है, किंतु बैच सीखने की तकनीकों की तुलना में समाधान में नए डेटा बिंदु को जोड़ने के साथ गणना करने में कम समय लग सकता है।

उपरोक्त उद्देश्यों पर नियंत्रण पाने के लिए एक सामान्य रणनीति मिनी-बैचों का उपयोग करके सीखना है, जो एक समय में $$ b \ge 1 $$ डेटा बिंदुओं के एक छोटे बैच को संसाधित करता है, इसे प्रशिक्षण की कुल संख्या से बहुत कम $$ b $$ के लिए छद्म-ऑनलाइन शिक्षण माना जा सकता है। अंक. मशीन लर्निंग एल्गोरिदम के अनुकूलित आउट-ऑफ-कोर वर्जन प्राप्त करने के लिए प्रशिक्षण डेटा को बार-बार पास करने के साथ मिनी-बैच तकनीकों का उपयोग किया जाता है, उदाहरण के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट बैकप्रॉपैगेशन के साथ संयुक्त होने पर, यह वर्तमान में कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक प्रशिक्षण पद्धति है।

उदाहरण: रैखिक न्यूनतम वर्ग
ऑनलाइन शिक्षण में विभिन्न प्रकार के विचारों को समझाने के लिए रैखिक न्यूनतम वर्गों का सरल उदाहरण उपयोग किया जाता है। विचार इतने सामान्य हैं कि उन्हें अन्य सेटिंग्स पर प्रयुक्त किया जा सकता है, उदाहरण के लिए अन्य उत्तल हानि कार्यों के साथ है।

बैच लर्निंग
$$f$$ के साथ पर्यवेक्षित शिक्षण की सेटिंग पर विचार करें, जो कि सीखा जाने वाला एक रैखिक कार्य है:
 * $$ f(x_j) = \langle w,x_j\rangle = w \cdot x_j $$

जहां $$ x_j \in \mathbb{R}^d$$ इनपुट (डेटा बिंदु) का एक सदिश है और $$w \in \mathbb{R}^d $$ एक रैखिक फ़िल्टर सदिश है। लक्ष्य फ़िल्टर सदिश $$w$$ की गणना करना है। इस प्रयोजन के लिए, एक वर्ग हानि फलन है
 * $$ V(f(x_j), y_j) = (f(x_j) - y_j)^2 = (\langle w,x_j\rangle - y_j)^2 $$

सदिश $$w$$ की गणना करने के लिए उपयोग किया जाता है जो अनुभवजन्य हानि को कम करता है
 * $$ I_n[w] = \sum_{j=1}^{n} V(\langle w,x_j\rangle,y_j) = \sum_{j=1}^{n} (x_j^Tw-y_j)^2 $$ कहाँ
 * $$y_j \in \mathbb{R} $$.

मान लीजिए कि $$X$$ $$ i \times d $$ डेटा आव्यूह है और $$y \in \mathbb{R}^i$$ पहले $$i$$ डेटा बिंदुओं के आने के पश्चात् लक्ष्य मानों का स्तम्भ सदिश है। यह मानते हुए कि सहप्रसरण आव्यूह $$ \Sigma_i = X^T X$$ विपरीत है (अन्यथा अधिमान्य नियमितीकरण के साथ इसी तरह से आगे बढ़ना उत्तम है), रैखिक न्यूनतम वर्ग समस्या का सबसे अच्छा समाधान $$ f^*(x) = \langle w^*, x \rangle $$ इस प्रकार दिया गया है
 * $$ w^* = (X^TX)^{-1}X^T y = \Sigma_i^{-1} \sum_{j=1}^{i} x_j y_j $$.

अब, सहप्रसरण आव्यूह $$ \Sigma_i = \sum_{j=1}^{i} x_j x_j^T $$की गणना करने में समय लगता है $$ O(id^2) $$, $$d \times d$$ आव्यूह को व्युत्क्रम में समय लगता है जबकि $$O(d^3)$$ शेष गुणन में समय $$O(d^2)$$ लगता है, जिससे कुल समय मिलता है जब $$O(id^2 + d^3)$$ डेटासेट में $$n$$ कुल बिंदु होते हैं, तो प्रत्येक डेटापॉइंट $$i=1, \ldots, n$$ के आने के पश्चात् समाधान की पुन: गणना करने के लिए, अनुभवहीन दृष्टिकोण में कुल सम्मिश्र्ता $$O(n^2d^2 + nd^3)$$ होगी। ध्यान दें कि जब आव्यूह $$ \Sigma_i $$ को संग्रहीत किया जाता है, तो प्रत्येक फेज में इसे अपडेट करने के लिए केवल $$ x_{i+1}x_{i+1}^T $$ जोड़ने की आवश्यकता होती है, जिसमें $$ O(d^2) $$ समय लगता है, जिससे कुल समय घटकर $$O(nd^2 + nd^3) = O(nd^3)$$ हो जाता है, किंतु अतिरिक्त संचयन स्थान के साथ $$ O(d^2) $$ संग्रह $$ \Sigma_i $$.करता है

ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग
पुनरावर्ती न्यूनतम वर्ग (आरएलएस) एल्गोरिदम न्यूनतम वर्ग समस्या के लिए एक ऑनलाइन दृष्टिकोण पर विचार करता है। यह दिखाया जा सकता है कि $$ \textstyle w_0 = 0 \in \mathbb{R}^d$$ और $$\textstyle \Gamma_0 = I \in \mathbb{R}^{d \times d}$$ को आरंभ करके, पिछले अनुभाग में दी गई रैखिक न्यूनतम वर्ग समस्या का समाधान निम्नलिखित पुनरावृत्ति द्वारा गणना की जा सकती है:
 * $$ \Gamma_i=\Gamma_{i-1}-\frac{\Gamma_{i-1}x_i x_i^T \Gamma_{i-1}}{1+x_i^T\Gamma_{i-1}x_i} $$
 * $$w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)$$

उपरोक्त पुनरावृत्ति एल्गोरिथ्म को $$ i $$ इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है. प्रमाण यह भी दर्शाता है कि $$ \Gamma_i = \Sigma_i^{-1} $$. कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है (पुनरावर्ती न्यूनतम वर्ग देखें)।

इस एल्गोरिथम के $$n$$ चरणों की सम्मिश्रता $$O(nd^2)$$ है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक फेज $$i$$ पर संचयन की आवश्यकता आव्यूह $$\Gamma_i$$ को संग्रहीत करने की है, जो $$O(d^2)$$ पर स्थिर है। उस स्थिति के लिए जब $$ \Sigma_i $$ विपरीत नहीं है, समस्या हानि फलन $$ \sum_{j=1}^{n} (x_j^Tw - y_j)^2 + \lambda || w ||_2^2 $$ के नियमित वर्जन पर विचार करें। फिर, यह दिखाना सरल है कि वही एल्गोरिदम $$ \Gamma_0 = (I + \lambda I)^{-1} $$ के साथ कार्य करता है, और पुनरावृत्तियां $$ \Gamma_i = (\Sigma_i + \lambda I)^{-1} $$ देने के लिए आगे बढ़ती हैं।

स्टोकेस्टिक ग्रेडिएंट डिसेंट
जब यह
 * $$\textstyle w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)$$ द्वारा प्रतिस्थापित किया जाता है
 * $$ \textstyle w_i = w_{i-1}-\gamma_i x_i(x_i^T w_{i-1}-y_i) = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_i \rangle, y_i)$$ या $$\Gamma_i \in \mathbb{R}^{d\times d}$$ द्वारा$$\gamma_i \in \mathbb{R}$$, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, इस एल्गोरिथ्म के $$n$$ चरणों की सम्मिश्र्ता घटकर $$O(nd)$$ हो जाती है। प्रत्येक फेज पर संचयन आवश्यकताएँ $$i$$$$O(d)$$ पर स्थिर हैं।

चूँकि, अपेक्षित आपत्तिपूर्ण न्यूनीकरण समस्या को हल करने के लिए फेज आकार $$\gamma_i$$ को सावधानी से चुनने की आवश्यकता है, जैसा कि ऊपर बताया गया है। एक क्षयकारी फेज आकार $$ \gamma_i \approx \frac{1}{\sqrt{i}}, $$ चुनकर कोई औसत पुनरावृत्त $$ \overline{w}_n = \frac{1}{n} \sum_{i=1}^{n} w_i $$ के अभिसरण को सिद्ध कर सकता है। यह सेटिंग स्टोकेस्टिक अनुकूलन का एक विशेष स्थिति है, जो अनुकूलन में एक प्रसिद्ध समस्या है।

इंक्रीमेंटल स्टोकेस्टिक ग्रेडिएंट डिसेंट
वास्तव में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है इंक्रीमेंटल ग्रेडिएंट विधि कहलाती है और एक पुनरावृत्ति से मेल खाती है
 * $$ \textstyle w_i = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_{t_i} \rangle, y_{t_i})$$
 * स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम $$ t_i $$ को यह तय करने के लिए चुना जाता है कि $$ i $$-वां फेज में किस प्रशिक्षण बिंदु का दौरा किया जाता है। ऐसा क्रम स्टोकेस्टिक या नियतिवादी हो सकता है। फिर पुनरावृत्तियों की संख्या को अंकों की संख्या से अलग कर दिया जाता है (प्रत्येक बिंदु पर एक से अधिक बार विचार किया जा सकता है)। अनुभवजन्य आपत्तिपूर्ण को न्यूनतम प्रदान करने के लिए इंक्रीमेंटल स्लोप विधि को दिखाया जा सकता है। अनेक शब्दों के योग से बने वस्तुनिष्ठ कार्यों पर विचार करते समय इंक्रीमेंटल तकनीकें लाभान्वित हो सकती हैं। एक बहुत बड़े डेटासेट से संबंधित एक अनुभवजन्य त्रुटि है।

कर्नेल विधियाँ
उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां मापदंड एक अनंत आयामी स्थान बनाते हैं) तक विस्तारित करने के लिए कर्नेल का उपयोग किया जा सकता है। संबंधित प्रक्रिया अब वास्तव में ऑनलाइन नहीं होगी और इसमें सभी डेटा बिंदुओं को संग्रहीत करना सम्मिलित होगा, किंतु यह अभी भी ब्रूट फोर्स विधि से तेज़ है। यह चर्चा वर्ग हानि के स्थिति तक ही सीमित है, चूँकि इसे किसी भी उत्तल हानि तक बढ़ाया जा सकता है। इसे एक आसान प्रेरण द्वारा दिखाया जा सकता है कि यदि $$ X_i $$ डेटा आव्यूह है और $$ w_i $$ SGD एल्गोरिदम के $$ i $$ चरणों के पश्चात् आउटपुट है, तो,
 * $$ w_i = X_i^T c_i $$
 * जहाँ $$ \textstyle c_i = ((c_i)_1, (c_i)_2, ..., (c_i)_i) \in \mathbb{R}^i$$ और क्रम $$ c_i $$ प्रत्यावर्तन को संतुष्ट करता है:
 * $$ c_0 = 0 $$
 * $$ (c_i)_j = (c_{i-1})_j, j=1,2,...,i-1 $$ और
 * $$ (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1} (c_{i-1})_j\langle x_j, x_i \rangle\Big) $$

ध्यान दें कि यहां $$ \langle x_j, x_i \rangle $$ केवल $$ \mathbb{R}^d $$ पर मानक कर्नेल है, और भविष्यवक्ता रूप का है
 * $$ f_i(x) = \langle w_{i-1},x \rangle = \sum_{j=1}^{i-1} (c_{i-1})_j \langle x_j,x \rangle $$.

अब, यदि इसके स्थान पर एक सामान्य कर्नेल $$ K $$ प्रस्तुत किया जाता है और भविष्यवक्ता को रहने दिया जाता है
 * $$ f_i(x) = \sum_{j=1}^{i-1} (c_{i-1})_j K(x_j,x) $$

फिर वही प्रमाण यह भी दिखाएगा कि उपरोक्त रिकर्सन को बदलकर कम से कम वर्ग हानि को कम करने वाला भविष्यवक्ता प्राप्त किया जाता है
 * $$ (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1}(c_{i-1})_j K(x_j,x_i) \Big)$$

उपरोक्त अभिव्यक्ति को $$ c_i $$ को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। $$ n $$-वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता$$ O(n^2 d k) $$ है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है। इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी मापदंड स्पेस $$ \textstyle w_{i} \in \mathbb{R}^d $$ से संभवतः अनंत आयामी सुविधा तक आंदोलन की अनुमति दी है, जो कि कर्नेल $$ K $$ द्वारा दर्शाया गया है, इसके अतिरिक्त पैरामीटर्स $$ \textstyle c_{i} \in \mathbb{R}^i $$ के स्थान पर रिकर्सन निष्पादित किया गया है, जिसका आयाम समान है प्रशिक्षण डेटासेट के आकार के रूप में। सामान्य रूप से यह निरूपक प्रमेय का परिणाम है।

ऑनलाइन उत्तल अनुकूलन
ऑनलाइन उत्तल अनुकूलन (OCO) निर्णय लेने के लिए एक सामान्य रूपरेखा है जो कुशल एल्गोरिदम की अनुमति देने के लिए उत्तल अनुकूलन का लाभ उठाती है। बार-बार गेम खेलने की रूपरेखा इस प्रकार है:

$$ t = 1,2,...,T $$ के लिए
 * शिक्षार्थी को इनपुट $$ x_t $$ प्राप्त होता है
 * शिक्षार्थी एक निश्चित उत्तल समुच्चय $$ S $$ से $$ w_t $$ आउटपुट देता है।
 * प्रकृति एक उत्तल हानि फलन $$ v_t : S \rightarrow \mathbb{R} $$ वापस भेजती है.
 * सीखने वाले को हानि होता है $$v_t(w_t)$$ और वह अपने मॉडल को अपडेट करता है

लक्ष्य पछतावे को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु $$ u \in S$$ की हानि के मध्य अंतर को कम करना है। उदाहरण के रूप से, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल समुच्चय $$ S = \mathbb{R}^d $$ से आते हैं, और प्रकृति उत्तल हानि फलन $$ v_t(w) = ( \langle w,x_t \rangle - y_t )^2 $$ को वापस भेजती है। यहां ध्यान दें कि $$ y_t $$ को स्पष्ट रूप से $$ v_t $$ के साथ भेजा गया है।

चूँकि, कुछ ऑनलाइन पूर्वानुमान समस्याएं OCO के फ्रेम वर्क में स्थित नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, अवतलीकरण के लिए दो सरल तकनीकों का उपयोग किया जाता है: यादृच्छिकीकरण और सरोगेट लॉस फलन है.

कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं:

लीडर का अनुसरण करें (एफटीएल)
सीखने का सबसे सरल नियम यह है कि (वर्तमान फेज में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी अवधि की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड $$ t $$ दिया जाता है द्वारा:
 * $$ w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1} v_i(w) $$

इस प्रकार इस पद्धति को एक ग्रीडी एल्गोरिदम के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन $$ v_t(w) = || w - x_t ||_2^2 $$ है), कोई एक रिग्रेट सीमा दिखा सकता है जो $$ \log(T) $$ के रूप में बढ़ती है। चूँकि, ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।

नियमित लीडर का अनुसरण करें (एफटीआरएल)
यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम रिग्रेट सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण फलन $$ R : S \rightarrow \mathbb{R} $$ चुना जाता है और सीखने का कार्य $t$ चक्र में किया जाता है निम्नलिखित अनुसार:
 * $$ w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1}v_i(w) + R(w) $$

एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति रूप $$ v_t(w) = \langle w,z_t \rangle $$ के हानि कार्यों को वापस भेजती है। इसके अतिरिक्त $$ S = \mathbb{R}^d $$ मान लीजिए कि नियमितीकरण फलन $$ R(w) = \frac{1}{2 \eta} ||w||_2^2 $$ को कुछ धनात्मक संख्या $$ \eta $$ के लिए चुना गया है। फिर, कोई यह दिखा सकता है कि रिग्रेट कम से कम पुनरावृत्ति बन जाता है

ध्यान दें कि इसे $$ w_{t+1} = w_t - \eta \nabla v_t(w_t) $$ के रूप में फिर से लिखा जा सकता है, जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है।

यदि S इसके अतिरिक्त $$ \mathbb{R}^d $$ का कुछ उत्तल उपस्थान है, तो S को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा
 * $$ w_{t+1} = \Pi_S(- \eta \sum_{i=1}^{t} z_i) = \Pi_S(\eta \theta_{t+1}) $$

इस एल्गोरिदम को आलसी प्रक्षेपण के रूप में जाना जाता है, क्योंकि सदिश $$ \theta_{t+1} $$ ग्रेडिएंट्स को जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, रिग्रेट $$ O(\sqrt{T}) $$ से घिरा है, और इस प्रकार वांछित के अनुसार औसत रिग्रेट 0 हो जाता है।

ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी)
उपरोक्त रैखिक हानि फलन $$ v_t(w) = \langle w, z_t \rangle $$के लिए खेदजनक सिद्ध हुआ। किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्यीकृत करने के लिए ,$$ \partial v_t(w_t) $$के सबग्रेडिएंट $$ v_t $$ का उपयोग $$ v_t $$ के पास $$ w_t $$ के रैखिक सन्निकटन के रूप में किया जाता है, जिससे ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम बनता है:

प्रारंभिक मापदंड $$ \eta, w_1 = 0 $$

$$ t = 1,2,...,T $$ के लिए
 * $$ w_t $$ का उपयोग करके पूर्वानुमान करें, प्रकृति से $$f_t$$ प्राप्त करें।
 * चुनना $$z_t \in \partial v_t(w_t)$$
 * यदि $$ S = \mathbb{R}^d $$, के रूप में $$ w_{t+1} = w_t - \eta z_t$$ अद्यतन करें
 * यदि $$ S = \mathbb{R}^d $$, तो संचयी ग्रेडिएंट्स को $$ S $$ अथार्त $$ w_{t+1} = \Pi_S(\eta\theta_{t+1}), \theta_{t+1} = \theta_t + z_t$$ पर प्रोजेक्ट करें।

वर्गीकरण के लिए एसवीएम के ऑनलाइन वर्जन के लिए $$ O(\sqrt{T}) $$ अफसोस सीमा प्राप्त करने के लिए कोई ओएसडी एल्गोरिथ्म का उपयोग कर सकता है, जो हिंज लॉस $$ v_t(w) = \max \{ 0, 1 - y_t(w \cdot x_t) \} $$ का उपयोग करता है।

अन्य एल्गोरिदम
जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। इच्छित रूप से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई ऑनलाइन मिरर डीसेंट का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह एडाग्रैड एल्गोरिथ्म की ओर ले जाता है। यूक्लिडियन नियमितीकरण के लिए, कोई व्यक्ति $$ O(\sqrt{T}) $$ की रिग्रेट सीमा दिखा सकता है, जिसे दृढ़ता से उत्तल और एक्सप-अवतल हानि कार्यों के लिए $$ O(\log T) $$ तक और उत्तम बनाया जा सकता है।

निरंतर सीखना
निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में निरंतर सुधार करना है जिसमे सूचना की धाराएँ. निरंतर परिवर्तन वास्तविक विश्व में परस्पर क्रिया करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं। चूँकि, गैर-स्थिर डेटा वितरण से इंक्रीमेंटल रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के पश्चात् से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है। समान्यत: कैटास्ट्रोफिक फोर्गेत्टिंग की ओर ले जाता है।

ऑनलाइन शिक्षण की व्याख्या
ऑनलाइन शिक्षण के प्रतिमान की शिक्षण मॉडल की इच्छा के आधार पर अलग-अलग व्याख्याएं हैं, जिनमें से प्रत्येक के कार्यों के अनुक्रम की पूर्वानुमानित गुणवत्ता के बारे में अलग-अलग निहितार्थ हैं। इस $$f_1, f_2, \ldots, f_n$$ विचार के लिए प्रोटोटाइपिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग किया जाता है। जैसा कि ऊपर उल्लेख किया गया है, इसकी पुनरावृत्ति द्वारा दी गई है
 * $$ \textstyle w_t = w_{t-1} - \gamma_t \nabla V(\langle w_{t-1}, x_t \rangle, y_t)$$

पहली व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि पर विचार करती है जैसा कि ऊपर परिभाषित अपेक्षित आपत्तिपूर्ण $$I[w]$$ को कम करने की समस्या पर प्रयुक्त होता है। इसलिए, डेटा की अनंत धारा के स्थिति में, चूंकि उदाहरण $$(x_1, y_1), (x_2, y_2), \ldots $$ को आई.आई.डी. द्वारा खींचा गया माना जाता है। वितरण $$p(x,y)$$ से, उपरोक्त पुनरावृत्ति में $$V(\cdot, \cdot)$$ के ग्रेडिएंट का क्रम एक i.i.d है। अपेक्षित आपत्तिपूर्ण $$I[w]$$ के ग्रेडिएंट के स्टोकेस्टिक अनुमानों का नमूना और इसलिए कोई विचलन $$I[w_t] - I[w^\ast]$$ को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि के लिए सम्मिश्रता परिणाम प्रयुक्त कर सकता है, जहां $$w^\ast$$ $$I[w]$$ का न्यूनतम है। यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष स्थितियों में सम्मिश्रता परिणाम प्राप्त किए जा सकते हैं।

दूसरी व्याख्या एक परिमित प्रशिक्षण समुच्चय के स्थिति पर प्रयुक्त होती है और एसजीडी एल्गोरिदम को इंक्रीमेंटल ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है। इस स्थिति में, कोई इसके अतिरिक्त अनुभवजन्य आपत्तिपूर्ण को देखता है:
 * $$I_n[w] = \frac{1}{n}\sum_{i = 1}^nV(\langle w,x_i \rangle, y_i) \ .$$

चूँकि इंक्रीमेंटल ग्रेडिएंट डिसेंट पुनरावृत्तियों में $$V(\cdot, \cdot)$$ के ग्रेडिएंट भी $$I_n[w]$$ के ग्रेडिएंट के स्टोकेस्टिक अनुमान हैं, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि से भी संबंधित है, किंतु इसे न्यूनतम करने के लिए प्रयुक्त किया जाता है अपेक्षित आपत्तिपूर्ण के विपरीत अनुभवजन्य आपत्तिपूर्ण है । चूंकि यह व्याख्या अनुभवजन्य आपत्तिपूर्ण की चिंता करती है जिसमे न कि अपेक्षित आपत्तिपूर्ण की, इसलिए डेटा के माध्यम से कई बार गुजरने की सरलता से अनुमति दी जाती है और वास्तव में विचलन $$I_n[w_t] - I_n[w^\ast_n]$$ पर कड़ी सीमाएं प्रयुक्त होती हैं।, जहां $$w^\ast_n$$ , $$I_n[w]$$का न्यूनतम है।

कार्यान्वयन

 * वोवपल वैबिट: ओपन-सोर्स फास्ट आउट-ऑफ-कोर ऑनलाइन लर्निंग सिस्टम जो अनेक मशीन लर्निंग रिडक्शन, महत्व भार और विभिन्न हानि कार्यों और अनुकूलन एल्गोरिदम के चयन का समर्थन करने के लिए उल्लेखनीय है। यह प्रशिक्षण डेटा की मात्रा से स्वतंत्र सुविधाओं के समुच्चय के आकार को सीमित करने के लिए फ़ीचर हैशिंग का उपयोग करता है।
 * स्किकिट-लर्न: एल्गोरिदम के आउट-ऑफ-कोर कार्यान्वयन प्रदान करता है
 * वर्गीकरण: परसेप्ट्रॉन, स्टोकेस्टिक ग्रेडिएंट डिसेंट, नाइव बेयस क्लासिफायरियर
 * प्रतिगमन: एसजीडी प्रतिगामी, निष्क्रिय आक्रामक प्रतिगामी।
 * क्लस्टरिंग: मिनी-बैच के-मीन्स।
 * फ़ीचर निष्कर्षण: मिनी-बैच शब्दकोश सीखना, प्रमुख घटक विश्लेषण।

यह भी देखें
सीखने के प्रतिमान
 * इंक्रीमेंटल शिक्षा
 * लेजी लर्निंग
 * ऑफ़लाइन शिक्षण, विपरीत मॉडल
 * सुदृढीकरण सीखना
 * बहु-सशस्त्र बैंडिट
 * पर्यवेक्षित अध्ययन

सामान्य एल्गोरिदम
 * ऑनलाइन एल्गोरिदम
 * ऑनलाइन अनुकूलन
 * स्ट्रीमिंग एल्गोरिदम
 * स्टोकेस्टिक ग्रेडिएंट डिसेंट

सीखने के मॉडल
 * अनुकूली अनुनाद सिद्धांत
 * पदानुक्रमित लौकिक मेमोरी
 * k-निकटतम समीप एल्गोरिथ्म
 * सदिश परिमाणीकरण सीखना
 * परसेप्ट्रॉन

बाहरी संबंध

 * 6.883: Online Methods in Machine Learning: Theory and Applications. Alexander Rakhlin. MIT