ऑटोएन्कोडर

एक स्वतः कूटलेखन एक प्रकार का कृत्रिम तंत्रिका जाल है जिसका उपयोग बिना लेबल वाले डेटा (अनियंत्रित शिक्षा) की कुशल कोडिंग को सीखने के लिए किया जाता है। एक स्वतः कूटलेखन दो फलन सीखता है: एक कूटलेखन फलन जो इनपुट डेटा को रूपांतरित करता है, और एक कूटवाचन फलन जो कूटलिखित विषयबोधक से इनपुट डेटा को फिर से बनाता है। स्वतः कूटलेखन डेटा के एक समुच्चय के लिए, सामान्यतः आयामीता में कमी के लिए कुशल कोडिंग (कूटलेखन) सीखता है,।

उपयोगी गुण ग्रहण करने के लिए सीखे गए अभ्यावेदन को बाध्य करने के उद्देश्य से परिवर्ती उपलब्ध हैं। उदाहरण नियमित स्वतः कूटलेखन (विरल, डेनोइजिंग और संकोचक) हैं, जो बाद के सांख्यिकीय वर्गीकरण फलन के लिए सीखने के विषयबोधक में प्रभावी हैं, और परिवर्तनशील स्वतः कूटलेखन, प्रजनक मॉडल के रूप में अनुप्रयोगों के साथ। स्वतः कूटलेखन चेहरे की पहचान सहित कई समस्याओं पर लागू होते हैं, विशेष गुण संसूचक, विसंगति का पता लगाना और शब्दों का अर्थ प्राप्त करना। स्वतः कूटलेखन भी प्रजनक मॉडल हैं जो बेतरतीब ढंग से नया डेटा उत्पन्न कर सकते हैं जो इनपुट डेटा (प्रशिक्षण डेटा) के समान है।

परिभाषा
एक स्वतः कूटलेखन को निम्नलिखित घटकों द्वारा परिभाषित किया गया है: दो समुच्चय: डिकोड किए गए संदेशों $$\mathcal X$$ का स्थान कूटलिखित संदेशों $$\mathcal Z$$ का स्थान. लगभग सदैव, दोनों $$\mathcal X$$ और $$\mathcal Z$$ यूक्लिडियन रिक्त स्थान हैं, अर्थात्,

कुछ $$m, n$$. के लिए$$\mathcal X = \R^m, \mathcal Z = \R^n$$ "फलन के दो प्राचलीकरण परिवार: कूटलेखक परिवार $E_\phi:\mathcal{X} \rightarrow \mathcal{Z}$, द्वारा प्राचलीकरण $\phi$; कूटवाचन परिवार $D_\theta:\mathcal{Z} \rightarrow \mathcal{X}$, द्वारा प्राचलीकरण $\theta$"किसी $$x\in \mathcal X$$ के लिए भी हम सामान्यतः $$z = E_\phi(x)$$ लिखते हैं, और इसे कोड, अव्यक्त चर, अव्यक्त प्रतिनिधित्व, अव्यक्त सदिश, आदि के रूप में देखें। इसके विपरीत, किसी के लिए $$z\in \mathcal Z$$, हम सामान्यतः लिखते हैं $$x' = D_\theta(z)$$, और इसे (डिकोडेड) संदेश के रूप में देखें।

सामान्यतः, कूटलेखक और कूटवाचन दोनों को बहुपरत परसेप्ट्रॉन के रूप में परिभाषित किया जाता है। उदाहरण के लिए, एक परत एमएलपी कूटलेखक $$E_\phi$$ है:


 * $$E_\phi(\mathbf x) = \sigma(Wx+b)$$

जहाँ $$\sigma$$ अवग्रह फलन या परिशोधित रेखीय इकाई जैसे अवयव-वार सक्रियण फलन है, $$W$$ एक आव्यूह है जिसे वजन कहा जाता है, और $$b$$ एक सदिश है जिसे पूर्वाग्रह कहा जाता है।

एक स्वतः कूटलेखन का प्रशिक्षण
एक स्वतः कूटलेखन, अपने आप में, केवल दो फलन का एक टपल है। इसकी गुणवत्ता का न्याय करने के लिए, हमें एक फलन की आवश्यकता है। एक फलन एक संदर्भ संभाव्यता वितरण द्वारा परिभाषित किया गया है $$\mu_{ref}$$ ऊपर $$\mathcal X$$, और एक पुनर्निर्माण गुणवत्ता फलन $$d: \mathcal X \times \mathcal X \to [0, \infty]$$, ऐसा है कि $$x'$$ से अलग होना $$x$$. $$d(x, x')$$ कितना मापता है।

उन के साथ, हम स्वतः कूटलेखन के लिए हानि फलन को परिभाषित कर सकते हैं। $$L(\theta, \phi) := \mathbb \mathbb E_{x\sim \mu_{ref}}[d(x, D_\theta(E_\phi(x)))]$$दिए गए फलन के लिए इष्टतम स्वतः कूटलेखन $$(\mu_{ref}, d)$$ तब है $$\arg\min_{\theta, \phi}L(\theta, \phi)$$. इष्टतम स्वतः कूटलेखन की खोज किसी भी गणितीय अनुकूलन तकनीक द्वारा पूरी की जा सकती है, लेकिन सामान्यतः ढाल वंश द्वारा। इस खोज प्रक्रिया को स्वतः कूटलेखन प्रशिक्षण कहा जाता है।

ज्यादातर स्थितियों में, संदर्भ वितरण केवल डेटा समुच्चय द्वारा दिया गया अनुभवजन्य माप है $$\{x_1, ..., x_N\} \subset \mathcal X$$, ताकि$$\mu_{ref} = \frac{1}{N}\sum_{i=1}^N \delta_{x_i}$$ और जहाँ $$\delta_{x_i}$$ डिरैक माप है, और गुणवत्ता फलन केवल L2 हानि है: $$d(x, x') = \|x - x'\|_2^2$$. तब इष्टतम स्वतः कूटलेखन की खोज की समस्या सिर्फ एक कम वर्ग है | कम से कम वर्ग अनुकूलन:$$\min_{\theta, \phi} L(\theta, \phi), \text{where } L(\theta, \phi) = \frac{1}{N}\sum_{i=1}^N \|x_i - D_\theta(E_\phi(x_i))\|_2^2$$

व्याख्या
एक स्वतः कूटलेखन के दो मुख्य भाग होते हैं: एक कूटलेखक जो संदेश को एक कोड में मानचित्रित करता है, और एक कूटवाचन जो कोड से संदेश d का पुनर्निर्माण करता है। एक इष्टतम स्वतः कूटलेखन पुनर्निर्माण गुणवत्ता फलन d द्वारा परिभाषित "बिल्कुल सही के करीब" के साथ यथासंभव पूर्ण पुनर्निर्माण के करीब प्रदर्शन करेगा।

कॉपी करने के फलन को पूरी तरह से करने का सबसे सरल तरीका सिग्नल की नकल करना होगा। इस व्यवहार को दबाने के लिए, कोड स्थान $$\mathcal Z$$ सामान्यतः संदेश $$\mathcal{X}$$स्थान की तुलना में कम आयाम होते हैं ।

ऐसे स्वतः कूटलेखन को अंडरकंप्लीट कहा जाता है। इसे डेटा संपीड़न संदेश, या आयामीता में कमी के रूप में व्याख्या किया जा सकता है।

एक आदर्श अपूर्ण स्वतः कूटलेखन की सीमा पर, हर संभव कोड $$z$$ कोड स्थान में किसी संदेश को कूटलेखन करने के लिए उपयोग किया जाता है $$x$$ जो वास्तव में वितरण में दिखाई देता है $$\mu_{ref}$$, और कूटवाचन भी सही है: $$D_\theta(E_\phi(x)) = x$$. इस आदर्श स्वतः कूटलेखन का उपयोग इसके कूटवाचन मनमाने कोड को फीड करके वास्तविक संदेशों से अप्रभेद्य संदेशों को उत्पन्न करने के लिए किया जा सकता है। $$z$$ और $$D_\theta(z)$$,प्राप्त करना जो एक संदेश $$\mu_{ref}$$.है जो वास्तव में वितरण में प्रकट होता है

यदि कोड स्थान $$\mathcal Z$$ इसका आयाम (अपूर्ण) से बड़ा है, या संदेश स्थान के बराबर है $$\mathcal{X}$$, या छिपी हुई इकाइयों को पर्याप्त क्षमता दी जाती है, एक स्वतः कूटलेखन पहचान फलन सीख सकता है और बेकार हो सकता है। हालाँकि, प्रायोगिक परिणामों में पाया गया कि अधूरे स्वतः कूटलेखन में अभी भी सीखने की सुविधा हो सकती है।

आदर्श समुच्चय सेटिंग में, कोड आयाम और मॉडल क्षमता को मॉडल किए जाने वाले डेटा वितरण की जटिलता के आधार पर समुच्चय किया जा सकता है। ऐसा करने का एक मानक तरीका मूल स्वतः कूटलेखन में संशोधन जोड़ना है, जिसका विवरण नीचे दिया गया है।

इतिहास
क्रेमर द्वारा स्वतः कूटलेखन को पहले प्रधान घटक विश्लेषण (पीसीए) के एक गैर-रैखिक सामान्यीकरण के रूप में प्रस्तावित किया गया था। स्वतः कूटलेखन को ऑटो सहयोगी भी कहा जाता है, या डायबोलो नेटवर्क। 1990 के दशक की शुरुआत में इसके पहले आवेदन की तारीख। उनका सबसे पारंपरिक अनुप्रयोग विमीयता समानयन या विशेष गुण लर्निंग था, लेकिन डेटा के प्रजनक मॉडल सीखने के लिए इस अवधारणा का व्यापक रूप से उपयोग किया जाने लगा।  2010 के कुछ सबसे शक्तिशाली कृत्रिम एआई में ध्यान लगा के पढ़ना या सीखना न्यूरल नेटवर्क के अंदर स्वतः कूटलेखन सम्मलित थे।

नियमित स्वतः कूटलेखन
स्वतः कूटलेखन को पहचान फलन सीखने से रोकने और महत्वपूर्ण सूचनाओं को आकर्षित करने और समृद्ध अभ्यावेदन सीखने की उनकी क्षमता में सुधार करने के लिए विभिन्न तकनीकें उपलब्ध हैं।

विरल स्वतः कूटलेखन (एसएई)
तंत्रिकाविज्ञान में विरल कोडिंग परिकल्पना से प्रेरित, विरल स्वतः कूटलेखन स्वतः कूटलेखन के परिवर्ती हैं, जैसे कि कोड $$E_\phi(x)$$ संदेशों के लिए विरल कोड होते हैं, अर्थात, $$E_\phi(x)$$ अधिकांश प्रविष्टियों में शून्य के करीब है। विरल स्वतः कूटलेखन में इनपुट की तुलना में अधिक (कम के अतिरिक्त ) छिपी हुई इकाइयाँ सम्मलित हो सकती हैं, लेकिन एक ही समय में केवल कुछ ही छिपी हुई इकाइयों को सक्रिय होने की अनुमति है। विरलता को प्रोत्साहित करने से वर्गीकरण फलन के प्रदर्शन में सुधार होता है। विरलता को लागू करने के दो मुख्य तरीके हैं। एक तरीका यह है कि अव्यक्त कोड की उच्चतम-के सक्रियता को छोड़कर सभी को शून्य पर दबा दिया जाए। यह के -विरल स्वतः कूटलेखन है।

के -विरल स्वतः कूटलेखन एक मानक स्वतः कूटलेखन की अव्यक्त परत में निम्न के -विरल फलन सम्मिलित करता है:$$f_k(x_1, ..., x_n) = (x_1 b_1, ..., x_n b_n)$$जहाँ $$b_i = 1$$ और 0 अन्यथा अगर $$|x_i|$$ शीर्ष k में रैंक करता है, ।

बैकप्रोपैगेटिंग के माध्यम से $$f_k$$ सरल है: के लिए अनुप्रवण को 0 पर समुच्चय करें $$b_i = 0$$ प्रविष्टियाँ, और के लिए अनुप्रवण रखें $$b_i=1$$ प्रविष्टियाँ। यह अनिवार्य रूप से एक सामान्यीकृत शुद्ध करनेवाला (तंत्रिका जाल ) फलन है।

दूसरा तरीका के -विरल स्वतः कूटलेखन का विश्राम (सन्निकटन) है। विरलता को मजबूर करने के अतिरिक्त, हम एक विरल नियमितीकरण हानि जोड़ते हैं, फिर इसके लिए अनुकूलन करते हैं$$\min_{\theta, \phi}L(\theta, \phi) + \lambda L_{sparsity} (\theta, \phi)$$जहाँ $$\lambda > 0$$ मापता है कि हम कितनी विरलता लागू करना चाहते हैं।

बता दें कि स्वतः कूटलेखन संरचना है $$K$$ परतें। अविरलता नियमितीकरण हानि को परिभाषित करने के लिए, हमें वांछित अविरलता की आवश्यकता होती है $$\hat \rho_k$$ प्रत्येक परत के लिए, एक वजन $$w_k$$ प्रत्येक विरलता और एक फलन को कितना लागू करना है $$s: [0, 1]\times [0, 1] \to [0, \infty]$$ यह मापने के लिए कि दो अविरलता में कितना अंतर है।

प्रत्येक इनपुट के लिए $$x$$ दें, प्रत्येक परत में सक्रियण की वास्तविक विरलता $$k$$ होना$$\rho_k(x) = \frac 1n \sum_{i=1}^n a_{k, i}(x)$$जहाँ $$a_{k, i}(x)$$ $$i$$ -वें न्यूरॉन $$k$$ -वें इनपुट पर परत $$x$$. में सक्रियता है

इनपुट पर विरलता हानि $$x$$ एक परत के लिए है $$s(\hat\rho_k, \rho_k(x))$$, और संपूर्ण स्वतः कूटलेखन के लिए विरलता नियमितीकरण हानि विरलता हानियों का अपेक्षित भारित योग है:$$L_{sparsity}(\theta, \phi) = \mathbb \mathbb E_{x\sim\mu_X}\left[\sum_{k\in 1:K} w_k s(\hat\rho_k, \rho_k(x)) \right]$$सामान्यतः, फलन $$s$$ या तो कुल्बैक-लीब्लर अपसारित है | कुल्बैक-लीब्लर (केएल) विचलन, जैसा कि
 * $$s(\rho, \hat\rho) = KL(\rho || \hat{\rho}) = \rho \log \frac{\rho}{\hat{\rho}}+(1- \rho)\log \frac{1-\rho}{1-\hat{\rho}}$$

या L1 हानि, जैसा $$s(\rho, \hat\rho) = |\rho- \hat\rho|$$, या L2 नुकसान, जैसा $$s(\rho, \hat\rho) = |\rho- \hat\rho|^2$$.

वैकल्पिक रूप से, अविरलता नियमितीकरण हानि को किसी भी वांछित अविरलता के संदर्भ के बिना परिभाषित किया जा सकता है, लेकिन जितना संभव हो उतना अविरलता को बल दें। इस प्रकरणों में, एक विरल नियमितीकरण हानि के रूप में हो सकता है $$L_{sparsity}(\theta, \phi) = \mathbb \mathbb E_{x\sim\mu_X}\left[ \sum_{k\in 1:K} w_k \|h_k\| \right]$$जहाँ $$h_k$$ में सक्रियण सदिश है $$k$$ स्वतः कूटलेखन की -वीं परत। नियम $$\|\cdot\|$$ सामान्यतः L1 मानदंड (L1 विरल स्वतः कूटलेखन देता है) या L2 मानदंड (L2 विरल स्वतः कूटलेखन देता है)।

डीनोइजिंग स्वतः कूटलेखन (डीएई)
डीनोइजिंग स्वतः कूटलेखन (डीएई) पुनर्निर्माण मानदंड को बदलकर एक अच्छा विषयबोधक प्राप्त करने का प्रयास करते हैं।

एक डीएई को मानक स्वतः कूटलेखन में शोर प्रक्रिया जोड़कर परिभाषित किया जाता है। एक शोर प्रक्रिया को संभाव्यता वितरण द्वारा परिभाषित किया गया है $$\mu_T$$ फलन से अधिक $$T:\mathcal X \to \mathcal X$$. अर्थात फलन $$x\in \mathcal X$$ $$T$$ संदेश लेता है, और इसे शोर वाले संस्करण $$\mu_T$$.में बदल देता है $$T(x)$$. कार्यक्रम $$T$$ संभाव्यता वितरण के साथ यादृच्छिक रूप से चुना जाता है

एक दिया हुआ फलन दिया $$(\mu_{ref}, d)$$डीएई के प्रशिक्षण की समस्या अनुकूलन समस्या है:$$\min_{\theta, \phi}L(\theta, \phi) = \mathbb \mathbb E_{x\sim \mu_X, T\sim\mu_T}[d(x, (D_\theta\circ E_\phi \circ T)(x))]$$यही है, इष्टतम डीएई को कोई शोर संदेश लेना चाहिए और शोर के बिना मूल संदेश को पुनर्प्राप्त करने का प्रयास करना चाहिए, इस प्रकार इसका नाम डीनोइजिंग होता है। परिवर्तन संबंधी स्वतः कूटलेखन (वीएई) परिवर्तन संबंधी बायेसियन विधियों के परिवारों से संबंधित हैं।

सामान्यतः, शोर प्रक्रिया $$T$$ केवल प्रशिक्षण और परीक्षण के समय लागू किया जाता है, डाउनस्ट्रीम उपयोग के समय नहीं लागू किया जाता है।

डीएई का उपयोग दो मान्यताओं पर निर्भर करता है: उदाहरण शोर प्रक्रियाओं में सम्मलित हैं:
 * उन संदेशों के विषयबोधक उपलब्ध हैं जो अपेक्षाकृत स्थिर हैं और हमारे द्वारा सामना किए जाने वाले शोर के प्रकार के लिए मजबूत हैं;
 * उक्त विषयबोधक इनपुट वितरण में संरचनाओं को आकर्षित करते हैं जो हमारे उद्देश्यों के लिए उपयोगी होते हैं।


 * योज्य आइसोट्रोपिक योगात्मक सफेद गाऊसी शोर,
 * मास्किंग शोर (इनपुट का एक अंश यादृच्छिक रूप से चुना जाता है और 0 पर समुच्चय होता है)
 * नमक और काली मिर्च का शोर (इनपुट का एक अंश बेतरतीब ढंग से चुना जाता है और बेतरतीब ढंग से इसके न्यूनतम या अधिकतम मूल्य पर समुच्चय किया जाता है)।

संविदात्मक स्वतः कूटलेखन (सीएई)
एक संविदात्मक स्वतः कूटलेखन मानक स्वतः कूटलेखन हानि के लिए संविदात्मक नियमितीकरण हानि जोड़ता है:$$\min_{\theta, \phi}L(\theta, \phi) + \lambda L_{contractive} (\theta, \phi)$$जहाँ $$\lambda > 0$$ मापता है कि हम कितना अनुबंधात्मकता लागू करना चाहते हैं। संविदात्मक नियमितीकरण हानि को जैकबियन आव्यूह के अपेक्षित फ्रोबेनियस मानदंड और इनपुट के संबंध में एन्कोडर सक्रियण के निर्धारक के रूप में परिभाषित किया गया है:$$L_{contractive}(\theta, \phi) = \mathbb E_{x\sim \mu_{ref}} \|\nabla_x E_\phi(x) \|_F^2$$क्या समझने के लिए $$L_{contractive}$$ उपाय, इस तथ्य पर ध्यान दें$$\|E_\phi(x + \delta x) - E_\phi(x)\|_2 \leq \|\nabla_x E_\phi(x) \|_F \|\delta x\|_2$$किसी संदेश के लिए $$x\in \mathcal X$$, और इस में छोटी भिन्नता $$\delta x$$ होता है। इस प्रकार, यदि $$\|\nabla_x E_\phi(x) \|_F^2$$ छोटा है, तो इसका तात्पर्य यह है कि संदेश का एक छोटा पड़ोस उसके कोड के एक छोटे से पड़ोस में मानचित्रित करता है। यह एक वांछित संपत्ति है, क्योंकि इसका तात्पर्य यह है कि संदेश में छोटी भिन्नता इसके कोड में छोटी, अनुमानतः शून्य भी भिन्नता की ओर ले जाती है, जैसे कि दो चित्र समान कैसे दिख सकते हैं, भले ही वे बिल्कुल समान न हों।

डीएई को सीएई की एक अतिसूक्ष्म सीमा के रूप में समझा जा सकता है: छोटे गॉसियन इनपुट शोर की सीमा में, डीएई पुनर्निर्माण फलन को छोटे लेकिन परिमित आकार के इनपुट अस्तव्यस्तता का विरोध करते हैं, जबकि सीएई निकाले गए सुविधाओं को अनंत इनपुट अस्तव्यस्तता का विरोध करते हैं।

कंक्रीट स्वतः कूटलेखन
कंक्रीट स्वतः कूटलेखन असतत सुविधा चयन के लिए डिज़ाइन किया गया है। एक ठोस स्वतः कूटलेखन अव्यक्त स्थान को केवल उपयोगकर्ता द्वारा निर्दिष्ट सुविधाओं की संख्या से युक्त करने के लिए बाध्य करता है। कंक्रीट स्वतः कूटलेखन विशेष गुण चयनकर्ता परत के माध्यम से ग्रेडियेंट को पारित करने की अनुमति देने के लिए श्रेणीबद्ध वितरण के निरंतर विश्राम (सन्निकटन) का उपयोग करता है, जो पुनर्निर्माण नुकसान को कम करने वाले इनपुट सुविधाओं के इष्टतम सबसमुच्चय को सीखने के लिए मानक वापस प्रसार का उपयोग करना संभव बनाता है।

परिवर्तनशील स्वतः कूटलेखन (वीएई)
परिवर्तन संबंधी स्वतः कूटलेखन (वीएई) परिवर्तन संबंधी बायेसियन विधियों के परिवारों से संबंधित हैं। बुनियादी स्वतः कूटलेखन के साथ वास्तुशिल्प समानता के बावजूद, वीएई विभिन्न लक्ष्यों के साथ और पूरी तरह से अलग गणितीय सूत्रीकरण के साथ वास्तुकला हैं। अव्यक्त स्थान इस प्रकरणों में एक निश्चित सदिश के अतिरिक्त वितरण के मिश्रण से बना है।

एक इनपुट डेटासमुच्चय दिया गया $$x$$ एक अज्ञात संभाव्यता फलन द्वारा विशेषता $$P(x)$$ और एक बहुभिन्नरूपी अव्यक्त कूटलेखन सदिश $$z$$, उद्देश्य डेटा को वितरण के रूप में मॉडल करना है $$p_\theta(x)$$, साथ $$\theta$$ नेटवर्क मापदंडों के समुच्चय के रूप में परिभाषित किया गया है जिससे $$p_\theta(x) = \int_{z}p_\theta(x,z)dz $$.

गहराई के लाभ
स्वतः कूटलेखन को अक्सर सिंगल लेयर कूटलेखक और सिंगल लेयर कूटवाचन के साथ प्रशिक्षित किया जाता है, लेकिन कई लेयर्ड (डीप) कूटलेखक और कूटवाचन का उपयोग करने से कई फायदे मिलते हैं।


 * गहराई कुछ फलन का विषयबोधक करने की संगणनात्मक लागत को तेजी से कम कर सकती है। * गहराई कुछ फलन को सीखने के लिए आवश्यक प्रशिक्षण डेटा की मात्रा को तेजी से कम कर सकती है। * प्रयोगात्मक रूप से, गहरे स्वतः कूटलेखन उथले या रैखिक स्वतः कूटलेखन की तुलना में बेहतर संपीड़न उत्पन्न करते हैं।

प्रशिक्षण
जेफ्री हिंटन ने कई-स्तरित गहरे स्वतः कूटलेखन के प्रशिक्षण के लिए गहरी विश्वास नेटवर्क तकनीक विकसित की। उनकी पद्धति में दो परतों के प्रत्येक पड़ोसी समुच्चय को एक प्रतिबंधित बोल्ट्जमान मशीन के रूप में इलाज करना सम्मलित है, जिससे पूर्व-प्रशिक्षण एक अच्छे समाधान का अनुमान लगा सके, फिर परिणामों को ठीक करने के लिए बैकप्रोपैजेशन का उपयोग करना इत्यादि सम्मलित है।

शोधकर्ताओं ने इस बात पर बहस की है कि क्या संयुक्त प्रशिक्षण (अर्थात अनुकूलन के लिए एक वैश्विक पुनर्निर्माण उद्देश्य के साथ पूरे संरचना को एक साथ प्रशिक्षण देना) गहरे ऑटो-कूटलेखक के लिए बेहतर होगा। 2015 के एक अध्ययन से पता चला है कि संयुक्त प्रशिक्षण परतवार विधि की तुलना में वर्गीकरण के लिए अधिक प्रतिनिधि सुविधाओं के साथ बेहतर डेटा मॉडल सीखता है। हालांकि, उनके प्रयोगों से पता चला है कि संयुक्त प्रशिक्षण की सफलता अपनाई गई नियमितीकरण रणनीतियों पर बहुत अधिक निर्भर करती है।

अनुप्रयोग
स्वतः कूटलेखन के दो मुख्य अनुप्रयोग हैं आयामीता में कमी और सूचना पुनर्प्राप्ति, लेकिन आधुनिक विविधताओं को अन्य फलन में लागू किया गया है।

आयाम में कमी
आयामीता में कमी पहले गहन शिक्षण अनुप्रयोगों में से एक थी।

हिंटन के 2006 के अध्ययन के लिए, उन्होंने प्रतिबंधित बोल्ट्जमैन मशीन के ढेर के साथ एक बहु-परत स्वतः कूटलेखन का पूर्व-प्रशिक्षण दिया और फिर 30 न्यूरॉन्स की बाधा को मारने तक धीरे-धीरे छोटी छिपी परतों के साथ एक गहरे स्वतः कूटलेखन को प्रारंभ करने के लिए अपने वजन का उपयोग किया। कोड के परिणामी 30 आयामों ने एक प्रमुख घटक विश्लेषण (पीसीए) के पहले 30 घटकों की तुलना में एक छोटी पुनर्निर्माण त्रुटि उत्पन्न की, और एक विषयबोधक सीखा जो व्याख्या करने के लिए गुणात्मक रूप से आसान था, डेटा समूहों को स्पष्ट रूप से अलग करनाइत्यादि।

आयामों का विषयबोधक वर्गीकरण जैसे फलन पर प्रदर्शन में सुधार कर सकता है। सूचना पुनर्प्राप्ति लाभ विशेष रूप से उस खोज में आयामीता में कमी से कुछ प्रकार के निम्न आयामी स्थानों में अधिक कुशल हो सकते हैं। दरअसल, आयामीता में कमी की पहचान शब्दार्थ से संबंधित उदाहरणों को एक दूसरे के पास रखना है।

प्रमुख घटक विश्लेषण
यदि रैखिक सक्रियण का उपयोग किया जाता है, या केवल एक सिग्मॉइड छिपी हुई परत होती है, तो एक स्वतः कूटलेखन का इष्टतम समाधान प्रमुख घटक विश्लेषण (पीसीए) से दृढ़ता से संबंधित होता है। आकार की एक छिपी हुई परत के साथ एक स्वतः कूटलेखन का वजन $$p$$ (जहाँ $$p$$ इनपुट के आकार से कम है) उसी सदिश सबस्पेस को फैलाते हैं जो पहले द्वारा फैलाया गया था $$p$$ प्रमुख घटक, और स्वतः कूटलेखन का आउटपुट इस उप-स्थान पर एक ऑर्थोगोनल प्रक्षेपण है। स्वतः कूटलेखन वजन प्रमुख घटकों के बराबर नहीं होते हैं, और आम तौर पर ऑर्थोगोनल नहीं होते हैं, फिर भी एकवचन मूल्य अपघटन का उपयोग करके मुख्य घटकों को उनसे पुनर्प्राप्त किया जा सकता है। हालांकि, स्वतः कूटलेखन की क्षमता उनकी गैर-रैखिकता में रहती है, जिससे मॉडल को पीसीए की तुलना में अधिक शक्तिशाली सामान्यीकरण सीखने की अनुमति मिलती है, और काफी कम सूचना हानि के साथ इनपुट का पुनर्निर्माण करने की अनुमति मिलती है।

सूचना पुनर्प्राप्ति
सूचना पुनर्प्राप्ति लाभ विशेष रूप से उस खोज में आयामीता में कमी से कुछ प्रकार के निम्न आयामी स्थानों में अधिक कुशल हो सकते हैं। 2007 में रस सलाखुतदीनोव और हिंटन द्वारा प्रस्तावित सिमेंटिक हैशिंग के लिए स्वतः कूटलेखन वास्तव में लागू किए गए थे। कम-आयामी बाइनरी कोड बनाने के लिए एल्गोरिदम को प्रशिक्षित करके, सभी डेटाबेस प्रविष्टियों को हैश तालिका मैपिंग बाइनरी कोड वैक्टर में प्रविष्टियों में संग्रहीत किया जा सकता है। यह तालिका तब क्वेरी के समान बाइनरी कोड वाली सभी प्रविष्टियों को लौटाकर या क्वेरी कूटलेखन से कुछ बिट्स को फ़्लिप करके थोड़ी कम समान प्रविष्टियों को वापस करके सूचना पुनर्प्राप्ति का समर्थन करेगी।

विसंगति का पता लगाना
स्वतः कूटलेखन के लिए एक अन्य एप्लिकेशन विसंगति का पता लगाना है।  पहले वर्णित कुछ बाधाओं के तहत प्रशिक्षण डेटा में सबसे मुख्य विशेषताओं को दोहराने के लिए सीखकर, मॉडल को सबसे अधिक बार देखी जाने वाली विशेषताओं को सटीक रूप से पुन: उत्पन्न करने के लिए सीखने के लिए प्रोत्साहित किया जाता है। विसंगतियों का सामना करते समय, मॉडल को अपने पुनर्निर्माण के प्रदर्शन को खराब करना चाहिए। स्वतः कूटलेखन के लिए एक अन्य एप्लिकेशन विसंगति का पता लगाना है। ज्यादातर स्थितियों में, स्वतः कूटलेखन को प्रशिक्षित करने के लिए केवल सामान्य उदाहरणों वाले डेटा का उपयोग किया जाता है; दूसरों में, अवलोकन समुच्चय की तुलना में विसंगतियों की आवृत्ति कम होती है जिससे सीखा विषयबोधक में इसके योगदान को अनदेखा किया जा सके। प्रशिक्षण के बाद, अपरिचित असंगत डेटा के साथ ऐसा करने में विफल होने पर, स्वतः कूटलेखन सामान्य डेटा को सटीक रूप से पुनर्निर्माण करेगा। पुनर्निर्माण त्रुटि (मूल डेटा और इसके निम्न आयामी पुनर्निर्माण के बीच की त्रुटि) का उपयोग विसंगतियों का पता लगाने के लिए एक विसंगति स्कोर के रूप में किया जाता है।

हाल के साहित्य ने हालांकि दिखाया है कि कुछ स्वतः कूटलेखन मॉडल, विपरीत रूप से, विषम उदाहरणों के पुनर्निर्माण में बहुत अच्छे हो सकते हैं और फलस्वरूप विसंगति का पता लगाने में सक्षम नहीं हो सकते हैं।

प्रतिबिम्ब प्रसंस्करण
प्रतिबिम्ब प्रसंस्करण में स्वतः कूटलेखन की विशेषताएँ उपयोगी होती हैं।पारंपरिक स्वतः कूटलेखन के विपरीत, आउटपुट इनपुट से मेल नहीं खाता - यह दूसरी भाषा में है।

एक उदाहरण हानिपूर्ण छवि संपीड़न में पाया जा सकता है, जहां स्वतः कूटलेखन ने अन्य तरीकों से बेहतर प्रदर्शन किया और जेपीईजी 2000 के विरूद्ध प्रतिस्पर्धी प्रमाणित हुए।

प्रतिबिम्ब प्रीप्रसंस्करण में स्वतः कूटलेखन का एक अन्य उपयोगी अनुप्रयोग छवि डीनोइजिंग है।

स्वतः कूटलेखन को अधिक मांग वाले संदर्भों में उपयोग किया जाता है जैसे कि मेडिकल इमेजिंग जहां उनका उपयोग प्रतिबिम्ब डीनोइज़िंग के लिए किया गया है साथ ही सुपर संकल्प छवि-सहायता निदान में, प्रयोगों ने स्तन कैंसर का पता लगाने के लिए स्वतः कूटलेखन लागू किया है और अल्जाइमर रोग के संज्ञानात्मक गिरावट और एमआरआई के साथ प्रशिक्षित एक स्वतः कूटलेखन की गुप्त विशेषताओं के बीच संबंध मॉडलिंग के लिए स्वतः कूटलेखन लागू किया है।

दवा की खोज
2019 में वैरिएंटल स्वतः कूटलेखन के साथ उत्पन्न अणुओं को चूहों में प्रयोगात्मक रूप से मान्य किया गया था।

लोकप्रियता भविष्यवाणी
हाल ही में, एक स्टैक्ड स्वतः कूटलेखन ढांचे ने सोशल मीडिया पोस्ट की लोकप्रियता की भविष्यवाणी करने में आशाजनक परिणाम उत्पन्न किए, जो ऑनलाइन विज्ञापन रणनीतियों के लिए सहायक है।

मशीनी अनुवाद
मशीनी अनुवाद के लिए स्वतः कूटलेखन लागू किया गया है, जिसे सामान्यतः तंत्रिका मशीन अनुवाद (एनएमटी) के रूप में जाना जाता है। पारंपरिक स्वतः कूटलेखन के विपरीत, आउटपुट इनपुट से मेल नहीं खाता - यह दूसरी भाषा में है। एनएमटी में, ग्रंथों को सीखने की प्रक्रिया में कूटलेखन किए जाने वाले अनुक्रमों के रूप में माना जाता है, जबकि लक्ष्य भाषा (भाषाओं) में कूटवाचन साइड अनुक्रम उत्पन्न होते हैं। भाषा-विशिष्ट स्वतः कूटलेखन सीखने की प्रक्रिया में और अधिक भाषाई विशेषताओं को सम्मलित करते हैं, जैसे कि चीनी अपघटन सुविधाएँ। मशीन अनुवाद अभी भी अनुमानतः ही कभी स्वतः कूटलेखन के साथ किया जाता है, बल्कि ट्रांसफार्मर (मशीन लर्निंग मॉडल) नेटवर्क के साथ किया जाता है।

यह भी देखें

 * विषयबोधक सीखना
 * विरल शब्दकोश सीखने
 * ध्यान लगा के पढ़ना या सीखना