जनरेटिव प्रतिकूल नेटवर्क

जनरेटिव प्रतिकूल नेटवर्क (GAN) यंत्र अधिगम फ्रेमवर्क का वर्ग है और जेनेरेटिव AI के लिए प्रमुख फ्रेमवर्क है। अवधारणा को प्रारंभ में जून 2014 में इयान गुडफेलो और उनके सहयोगियों द्वारा विकसित किया गया था। जीएएन में, दो तंत्रिका नेटवर्क शून्य-राशि के खेल के रूप में एक दूसरे के साथ प्रतिस्पर्धा करते हैं, जहां एजेंट का लाभ दूसरे एजेंट का हानि होता है।

प्रशिक्षण सेट को देखते हुए, यह तकनीक प्रशिक्षण सेट के समान आँकड़ों के साथ नया डेटा उत्पन्न करना सीखती है। उदाहरण के लिए, चित्रों पर प्रशिक्षित जीएएन नई चित्र उत्पन्न कर सकता है जो मानव पर्यवेक्षकों के लिए कम से कम सतही रूप से प्रामाणिक दिखती हैं, जिनमें कई यथार्थवादी विशेषताएँ होती हैं। चूँकि मूल रूप से अप्रशिक्षित शिक्षा के लिए जनरेटिव मॉडल के रूप में प्रस्तावित किया गया था, जीएएन अर्ध-पर्यवेक्षित शिक्षा के लिए भी उपयोगी सिद्ध हुए हैं।

जीएएन का मुख्य विचार विवेचक के माध्यम से अप्रत्यक्ष प्रशिक्षण पर आधारित है, अन्य तंत्रिका नेटवर्क जो यह बता सकता है कि इनपुट कितना यथार्थवादी लगता है, जिसे स्वयं भी गतिशील रूप से अपडेट किया जा रहा है।

इसका अर्थ है कि जनरेटर को किसी विशिष्ट छवि की दूरी को कम करने के लिए प्रशिक्षित नहीं किया जाता है, बल्कि विवेचक को मूर्ख बनाने के लिए प्रशिक्षित किया जाता है। यह मॉडल को अप्रशिक्षित विधि से सीखने में सक्षम बनाता है।

दोनों नेटवर्क के बीच विकासवादी हथियारों की दौड़ के साथ जीएएन विकासवादी जीव विज्ञान में अनुकरण के समान हैं।

गणितीय
मूल जीएएन को निम्नलिखित खेल सिद्धांत के रूप में परिभाषित किया गया है:

प्रत्येक प्रायिकता स्थान $$(\Omega, \mu_{ref})$$ जीएएन गेम को परिभाषित करता है।

2 खिलाड़ी हैं: जनरेटर और विवेचक

जनरेटर की रणनीति (गेम सिद्धांत) है $$\mathcal P(\Omega)$$, सभी संभाव्यता उपायों का सेट $$\mu_G$$ पर $$\Omega$$ है।

विवेचक की रणनीति सेट मार्कोव गुठली का सेट है $$\mu_D: \Omega \to \mathcal P[0, 1]$$, जहाँ $$\mathcal P[0, 1]$$ संभाव्यता उपायों का सेट है $$[0, 1]$$ है।

जीएएन गेम शून्य-राशि वाला गेम है, जिसमें ऑब्जेक्टिव फलन होता है।$$L(\mu_G, \mu_D) := \mathbb{E}_{x\sim \mu_{ref}, y\sim \mu_D(x)}[\ln y] + \mathbb{E}_{x\sim \mu_G, y\sim \mu_D(x)}[\ln (1-y)].$$ जनरेटर का उद्देश्य उद्देश्य को कम करना है, और विवेचक का उद्देश्य उद्देश्य को अधिकतम करना है।

जेनरेटर का काम अप्रोच करना है $$\mu_G \approx \mu_{ref}$$, अर्थात्, संदर्भ वितरण के साथ जितना संभव हो सके अपने स्वयं के आउटपुट वितरण का मिलान करना। विवेचक का कार्य 1 के समीप मान को आउटपुट करना है जब इनपुट संदर्भ वितरण से प्रतीत होता है, और 0 के समीप मान को आउटपुट करने के लिए जब इनपुट ऐसा लगता है जैसे यह जनरेटर वितरण से आया है।

व्यवहार में
जनरेटिव मॉडल उम्मीदवारों को उत्पन्न करता है जबकि विवेकशील मॉडल उनका मूल्यांकन करता है। प्रतियोगिता डेटा वितरण के संदर्भ में संचालित होती है। सामान्यतः, जनरेटिव नेटवर्क अव्यक्त स्थान से ब्याज के डेटा वितरण के लिए मैप करना सीखता है, जबकि विवेकशील नेटवर्क जनरेटर द्वारा उत्पादित उम्मीदवारों को सही डेटा वितरण से अलग करता है। जनरेटिव नेटवर्क का प्रशिक्षण उद्देश्य भेदभावपूर्ण नेटवर्क की त्रुटि दर को बढ़ाना है (यानी, नए उम्मीदवारों का उत्पादन करके भेदभाव करने वाले नेटवर्क को मूर्ख बनाना है जो कि भेदभाव करने वाले को लगता है कि संश्लेषित नहीं हैं (वास्तविक डेटा वितरण का भाग हैं)।

ज्ञात डेटासेट विवेचक के लिए प्रारंभिक प्रशिक्षण डेटा के रूप में कार्य करता है। प्रशिक्षण में इसे प्रशिक्षण डेटासेट से नमूने के साथ प्रस्तुत करना सम्मिलित है जब तक कि यह स्वीकार्य सटीकता प्राप्त नहीं कर लेता। जनरेटर को इस आधार पर प्रशिक्षित किया जाता है कि क्या वह भेदभाव करने वाले को बेवकूफ बनाने में सफल होता है। सामान्यतः, जनरेटर को यादृच्छिक इनपुट के साथ वरीयता दी जाती है जिसे पूर्वनिर्धारित अव्यक्त स्थान (जैसे बहुभिन्नरूपी सामान्य वितरण) से नमूना लिया जाता है। उसके बाद, जनरेटर द्वारा संश्लेषित उम्मीदवारों का मूल्यांकन विवेचक द्वारा किया जाता है। दोनों नेटवर्क पर स्वतंत्र बैकप्रोपैगेशन प्रक्रियाएं प्रयुक्त की जाती हैं जिससे जनरेटर अच्छे नमूने तैयार कर सके, जबकि विवेचक सिंथेटिक नमूनों को चिह्नित करने में अधिक कुशल हो जाता है। जब छवि निर्माण के लिए उपयोग किया जाता है, तो जनरेटर सामान्यतः विसंक्रमणीय तंत्रिका नेटवर्क होता है, और विवेचक दृढ़ तंत्रिका नेटवर्क होता है।

अन्य सांख्यिकीय मशीन सीखने के विधियों से संबंध
जीएएन अंतर्निहित जनरेटिव मॉडल हैं, जिसका अर्थ है कि वे स्पष्ट रूप से संभावना कार्य को मॉडल नहीं करते हैं और न ही प्रवाह-आधारित जनरेटिव मॉडल जैसे विकल्पों के विपरीत किसी दिए गए नमूने के अनुरूप अव्यक्त चर को खोजने के लिए साधन प्रदान करते हैं। पूरी तरह से दिखाई देने वाले विश्वास नेटवर्क जैसे कि वेवनेट और पिक्सेलआरएनएन और सामान्य रूप से ऑटोरेग्रेसिव मॉडल की तुलना में, जीएएन नेटवर्क के माध्यम से कई पास के अतिरिक्त एक पास में पूरा नमूना उत्पन्न कर सकते हैं।

बोल्ट्जमान मशीनों और अरैखिक स्वतंत्र घटक विश्लेषण की तुलना में, नेटवर्क द्वारा उपयोग किए जाने वाले फलन के प्रकार पर कोई प्रतिबंध नहीं है।

चूंकि तंत्रिका नेटवर्क सार्वभौमिक सन्निकटन प्रमेय हैं, जीएएन स्पर्शोन्मुख सिद्धांत (सांख्यिकी) हैं। भिन्नात्मक ऑटोएन्कोडर्स सार्वभौमिक सन्निकटन हो सकते हैं, लेकिन यह 2017 तक सिद्ध नहीं हुआ है।

उपाय-सैद्धांतिक विचार
यह खंड इन विधियों के पीछे कुछ गणितीय सिद्धांत प्रदान करता है।

माप सिद्धांत पर आधारित प्रायिकता अभिगृहीतों में, प्रायिकता स्थान को भी σ-बीजगणित से लैस करने की आवश्यकता होती है। परिणामस्वरूप, जीएएन गेम की अधिक कठोर परिभाषा से निम्नलिखित परिवर्तन होंगे: प्रत्येक प्रायिकता स्थान $$(\Omega, \mathcal B, \mu_{ref})$$ जीएएन गेम को परिभाषित करता है।

जनरेटर की रणनीति सेट है $$\mathcal P(\Omega, \mathcal B)$$, सभी संभाव्यता उपायों का सेट $$\mu_G$$ माप-स्थान पर $$(\Omega, \mathcal B)$$ है।

विवेचक की रणनीति सेट मार्कोव गुठली का सेट है $$\mu_D: (\Omega, \mathcal B) \to \mathcal P([0, 1], \mathcal B([0, 1]))$$, जहाँ $$\mathcal B([0, 1])$$ बोरेल बीजगणित है बोरेल σ-बीजगणित पर $$[0, 1]$$ है। चूंकि मापनीयता के मुद्दे व्यवहार में कभी उत्पन्न नहीं होते हैं, ये आगे हमारे लिए चिंता का विषय नहीं होंगे।

रणनीति सेट का विकल्प
ऊपर वर्णित जीएएन गेम के सबसे सामान्य संस्करण में, विवेचक के लिए निर्धारित रणनीति में सभी मार्कोव गुठली सम्मिलित हैं $$\mu_D: \Omega \to {\mathcal {P}}[0,1]$$, और जनरेटर के लिए निर्धारित रणनीति में मनमाने ढंग से संभाव्यता वितरण सम्मिलित हैं $$\mu_G$$ पर $$\Omega$$ है।

चूँकि, जैसा कि नीचे दिखाया गया है, किसी के खिलाफ इष्टतम भेदभावपूर्ण रणनीति $$\mu_G$$ नियतात्मक है, इसलिए विवेचक की रणनीतियों को नियतात्मक कार्यों तक सीमित करने में व्यापकता का कोई हानि नहीं है $$D:\Omega \to [0, 1]$$. अधिकांश अनुप्रयोगों में, $$D$$ गहरा तंत्रिका नेटवर्क कार्य है।

जनरेटर के लिए, जबकि $$\mu_G$$ सैद्धांतिक रूप से कोई भी संगणनीय संभाव्यता वितरण हो सकता है, व्यवहार में, इसे सामान्यतः पुशफॉरवर्ड उपाय के रूप में प्रयुक्त किया जाता है: $$\mu_G = \mu_Z \circ G^{-1}$$. यानी यादृच्छिक चर के साथ प्रारंभ करें $$z \sim \mu_Z$$, जहाँ $$\mu_Z$$ प्रायिकता बंटन है जिसकी गणना करना सरलहै (जैसे सतत समान वितरण, या सामान्य वितरण), फिर फलन परिभाषित करें $$G: \Omega_Z \to \Omega$$. फिर वितरण $$\mu_G$$ का वितरण $$G(z)$$ है।

परिणामस्वरूप, जनरेटर की रणनीति को सामान्यतः बस के रूप में परिभाषित किया जाता है $$G$$, जा रहा है $$z \sim \mu_Z$$ अंतर्निहित। इस औपचारिकता में जीएएन खेल का उद्देश्य है।$$L(G, D) := \mathbb{E}_{x\sim \mu_{ref}}[\ln D(x)] + \mathbb{E}_{z\sim \mu_Z}[\ln (1-D(G(z))].$$

जनरेटिव रीपैरामेट्रिजेशन
GAN आर्किटेक्चर के दो मुख्य घटक हैं। खेल के रूप में अनुकूलन कास्टिंग कर रहा है $$\min_G \max_D L(G, D)$$, जो सामान्य प्रकार के अनुकूलन से अलग है, प्रपत्र का $$\min_\theta L(\theta)$$. अन्य का अपघटन है $$\mu_G $$ में $$\mu_Z \circ G^{-1}$$, जिसे रीपैरामेट्रिजेशन ट्रिक के रूप में समझा जा सकता है।

इसके महत्व को देखने के लिए, जीएएन की तुलना जनरेटिव मॉडल सीखने के पिछले विधियों से करनी चाहिए, जो अधिकतम संभावना अनुमान और संबंधित रणनीतियों में उत्पन्न होने वाली आगमनात्मक संभाव्य संगणना से ग्रस्त थे।

वहीं, किंगमा और वेलिंग और रेजेंडे एट अल। सामान्य स्टोचैस्टिक बैकप्रोपैजेशन विधि में पुनर्मूल्यांकन का ही विचार विकसित किया। इसके पहले अनुप्रयोगों में परिवर्तनशील ऑटोएन्कोडर था।

मूव ऑर्डर और रणनीतिक संतुलन
मूल पेपर में, साथ ही साथ बाद के पेपर में, सामान्यतः यह माना जाता है कि जनरेटर पहले चलता है, और विवेचक दूसरे स्थान पर चलता है, इस प्रकार निम्न मिनीमैक्स गेम देता है:$$\min_{\mu_G}\max_{\mu_D} L(\mu_G, \mu_D) := \mathbb{E}_{x\sim \mu_{ref}, y\sim \mu_D(x)}[\ln y] + \mathbb{E}_{x\sim \mu_G, y\sim \mu_D(x)}[\ln (1-y)].$$ यदि जेनरेटर और भेदभाव करने वाला दोनों की रणनीति सेट को सीमित संख्या में रणनीतियों द्वारा फैलाया जाता है, तो मिनिमैक्स प्रमेय द्वारा,$$\min_{\mu_G}\max_{\mu_D} L(\mu_G, \mu_D)= \max_{\mu_D}\min_{\mu_G} L(\mu_G, \mu_D)$$अर्थात्, स्थानांतरण क्रम कोई मायने नहीं रखता।

चूँकि, चूंकि रणनीति सेट दोनों को सूक्ष्म रूप से फैलाया नहीं गया है, मिनिमैक्स प्रमेय प्रयुक्त नहीं होता है, और संतुलन का विचार साधारण हो जाता है। बुद्धि के लिए, संतुलन की निम्नलिखित विभिन्न अवधारणाएँ हैं:

\hat \mu_D \in \arg\max_{\mu_D} L(\hat\mu_G, \mu_D), \quad $$ \hat \mu_G \in \arg\min_{\mu_G} L(\mu_G,\hat \mu_D),$$ * नैश संतुलन $$(\hat \mu_D, \hat\mu_G) $$, जो साथ चलने के क्रम में स्थिर है:$$\hat \mu_D \in \arg\max_{\mu_D} L(\hat\mu_G, \mu_D), \quad \hat \mu_G \in \arg\min_{\mu_G} L(\mu_G, \hat\mu_D)$$ सामान्य खेलों के लिए, इन संतुलनों का सहमत होना, या अस्तित्व में होना भी आवश्यक नहीं है। मूल जीएएन खेल के लिए, ये सभी संतुलन उपस्थित हैं और सभी समान हैं। चूँकि, अधिक सामान्य जीएएन खेलों के लिए, ये आवश्यक रूप से उपस्थित नहीं हैं, या सहमत हैं।
 * संतुलन जब जनरेटर पहले चलता है, और विवेचक दूसरे स्थान पर चलता है:$$\hat \mu_G \in \arg\min_{\mu_G}\max_{\mu_D} L(\mu_G,\mu_D),\quad
 * संतुलन जब विवेचक पहले चलता है, और जनरेटर दूसरा चलता है:$$\hat \mu_D \in \arg\max_{\mu_D}\min_{\mu_G} L(\mu_G, \mu_D), \quad

GAN खेल के लिए मुख्य प्रमेय
मूल GAN पेपर ने निम्नलिखित दो प्रमेयों को सिद्ध किया: $$

व्याख्या: किसी निश्चित जनरेटर रणनीति के लिए $$\mu_G$$, इष्टतम विवेचक संदर्भ वितरण और जनरेटर वितरण के बीच संभावना अनुपात का ट्रैक रखता है:$$\frac{D(x)}{1-D(x)} = \frac{d\mu_{ref}}{d\mu_G}(x) = \frac{\mu_{ref}(dx)}{\mu_G(dx)}; \quad D(x) = \sigma(\ln\mu_{ref}(dx) - \ln\mu_{G}(dx))$$जहा $$\sigma$$ रसद फलन है।

विशेष रूप से, यदि किसी छवि के लिए पूर्व संभाव्यता $$x$$ संदर्भ वितरण से आने के बराबर है $$\frac 12$$, तब $$D(x)$$ बस पश्च संभाव्यता है कि $$x$$ संदर्भ वितरण से आया:$$D(x) = Pr(x \text{ came from reference distribution} | x).$$

$$

अस्थिर अभिसरण
जबकि जीएएन गेम में अद्वितीय वैश्विक संतुलन बिंदु होता है, जब जनरेटर और विवेचक दोनों के पास अपने संपूर्ण रणनीति सेट तक पहुंच होती है, जब उनके पास प्रतिबंधित रणनीति सेट होती है, तो संतुलन की गारंटी नहीं होती है।

व्यवहार में, जनरेटर के पास केवल फॉर्म के उपायों तक ही पहुंच होती है $$\mu_Z \circ G_\theta^{-1}$$, जहाँ $$G_\theta$$ मापदंडों के साथ तंत्रिका नेटवर्क द्वारा गणना की जाने वाली फलन $$\theta$$ हैऔर $$\mu_Z$$ सरलता से नमूना वितरण है, जैसे समान या सामान्य वितरण। इसी तरह, विवेचक के पास केवल फॉर्म के कार्यों तक ही पहुंच होती है $$D_\zeta$$, मापदंडों के साथ एक तंत्रिका नेटवर्क द्वारा गणना की गई एक फलन $$\zeta$$. ये प्रतिबंधित रणनीति सेट उनके संपूर्ण रणनीति सेटों का एक छोटा सा भाग लेते हैं।

इसके अतिरिक्त, तथापि एक संतुलन अभी भी उपस्थित हो, यह केवल सभी संभावित तंत्रिका नेटवर्क कार्यों के उच्च-आयामी स्थान में खोज कर पाया जा सकता है। संतुलन खोजने के लिए ढाल वंश का उपयोग करने की मानक रणनीति अधिकांशतः जीएएन के लिए काम नहीं करती है, और अधिकांशतः खेल कई विफलता मोडों में से एक में गिर जाता है। अभिसरण स्थिरता में सुधार करने के लिए, कुछ प्रशिक्षण रणनीतियाँ एक सरलकार्य से प्रारंभ होती हैं, जैसे कम-रिज़ॉल्यूशन वाली छवियां बनाना या साधारण छवियां (एक समान पृष्ठभूमि वाली एक वस्तु), और प्रशिक्षण के समय कार्य की कठिनाई को धीरे-धीरे बढ़ाएं। यह अनिवार्य रूप से पाठ्यचर्या सीखने की योजना को प्रयुक्त करने के लिए अनुवाद करता है।

मोड पतन
जीएएन अधिकांशतः मोड पतन से पीड़ित होते हैं जहां वे ठीक से सामान्यीकरण करने में विफल होते हैं, इनपुट डेटा से संपूर्ण मोड गायब होते हैं। उदाहरण के लिए, एमएनआईएसटी डेटासेट पर प्रशिक्षित एक जीएएन जिसमें प्रत्येक अंक के कई नमूने होते हैं, केवल अंक 0 के चित्र उत्पन्न कर सकते हैं। इसे पहले पेपर में अपने आसपास देखो नाम दिया गया था।

एक विधि यह हो सकता है कि यदि जनरेटर विवेचक की तुलना में बहुत तीव्रता से सीखता है। यदि विवेचक $$D$$ स्थिर रखा जाता है, तो इष्टतम जनरेटर केवल के तत्वों का उत्पादन करेगा $$\arg\max_x D(x)$$. उदाहरण के लिए, यदि एमएनआईएसटी डेटासेट बनाने के लिए जीएएन प्रशिक्षण के समय, कुछ युगों के लिए, विवेचक किसी तरह अंक 0 को अन्य अंकों की तुलना में थोड़ा अधिक पसंद करता है, तो जनरेटर केवल अंक 0 उत्पन्न करने का अवसर जब्त कर सकता है, फिर स्थानीय से बचने में असमर्थ हो सकता है विवेचक के सुधार के बाद न्यूनतम। कुछ शोधकर्ता मूल समस्या को एक कमजोर भेदभावपूर्ण नेटवर्क मानते हैं जो चूक के पैटर्न को नोटिस करने में विफल रहता है, जबकि अन्य उद्देश्य कार्य के खराब विकल्प को दोष देते हैं। कई समाधान प्रस्तावित किए गए हैं, लेकिन यह अभी भी एक खुली समस्या है।

यहां तक ​​कि अत्याधुनिक आर्किटेक्चर, बिगगैन (2019) भी मोड के पतन से नहीं बच सका। लेखकों ने प्रशिक्षण के बाद के चरणों में पतन की अनुमति देने का सहारा लिया, जिस समय तक एक मॉडल को अच्छे परिणाम प्राप्त करने के लिए पर्याप्त रूप से प्रशिक्षित किया जाता है।

दो टाइम-स्केल अपडेट रूल
जनरेटर की सीखने की दर को विवेचक की तुलना में कम करके जीएएन अभिसरण को अधिक स्थिर बनाने के लिए दो समय-स्तरीय अद्यतन नियम (टीटीयूआर) का प्रस्ताव है। लेखकों ने तर्क दिया कि जनरेटर को विवेचक की तुलना में धीमी गति से आगे बढ़ना चाहिए, जिससे यह अपनी एकत्रित जानकारी को कैप्चर किए बिना विवेचक को नए क्षेत्रों में तीव्रता से न चलाए।

उन्होंने सिद्ध कर दिया कि गेम का एक सामान्य वर्ग जिसमें जीएएन गेम सम्मिलित है, जब टीटीयूआर के अनुसार प्रशिक्षित किया जाता है, तो एक स्थिर स्थानीय नैश संतुलन के लिए हल्के अनुमानों के अनुसार अभिसरण करता है।

उन्होंने स्टोचैस्टिक अनुकूलन का उपयोग करने का भी प्रस्ताव दिया मोड पतन से बचने के लिए, साथ ही जीएएन प्रदर्शन के मूल्यांकन के लिए फ्रेचेट स्थापना दूरी है।

गायब हो रही ढाल
इसके विपरीत, यदि विवेचक जनरेटर की तुलना में बहुत तीव्रता से सीखता है, तो विवेचक लगभग पूरी तरह से अंतर कर सकता है $$\mu_{G_\theta}, \mu_{ref}$$. ऐसे में जनरेटर $$G_\theta$$ बहुत अधिक हानि के साथ फंस सकता है चाहे वह किसी भी दिशा में बदल जाए $$\theta$$, जिसका अर्थ है कि ढाल $$\nabla_\theta L(G_\theta, D_\zeta)$$ शून्य के समीप होगा। ऐसी स्थिति में, जनरेटर सीख नहीं सकता है, गायब होने वाली ढाल समस्या की स्थितियों सहज रूप से बोलना, विवेचक बहुत अच्छा है, और चूंकि जनरेटर अपने भुगतान को अच्छे बनाने के लिए कोई छोटा कदम नहीं उठा सकता है (केवल छोटे कदमों को ग्रेडिएंट डिसेंट में माना जाता है), यह कोशिश भी नहीं करता है।

इस समस्या को हल करने के लिए महत्वपूर्ण विधि वासरस्टीन जीएएन है।

मूल्यांकन
GAN का मूल्यांकन सामान्यतः इंसेप्शन स्कोर (आईएस) द्वारा किया जाता है, जो यह मापता है कि जनरेटर के आउटपुट कितने विविध हैं (जैसा कि इमेज वर्गीकरण द्वारा वर्गीकृत किया गया है, सामान्यतः इंसेप्शन v3 या फ्रीचेट इंसेप्शन डिस्टेंस (एफआईडी), जो मापता है कि जनरेटर का आउटपुट कितना समान है। संदर्भ सेट के लिए हैं (जैसा कि सीखी हुई छवि फ़ीचराइज़र द्वारा वर्गीकृत किया गया है, जैसे कि इसकी अंतिम परत के बिना इनसेप्शन-वी 3)। छवि निर्माण के लिए नए जीएएन आर्किटेक्चर का प्रस्ताव करने वाले कई पेपर रिपोर्ट करते हैं कि कैसे उनके आर्किटेक्चर एफआईडी या आईएस पर कला की स्थिति को तोड़ते हैं।

अन्य मूल्यांकन पद्धति लर्न्ड अवधारणात्मक इमेज पैच समानता (एलपीआईपीएस) है, जो सीखे हुए इमेज भविष्यकारक से प्रारंभ होती है। $$f_\theta: \text{Image} \to \R^n$$, और के सेट पर पर्यवेक्षित शिक्षण द्वारा इसे अच्छे बनाता है $$(x, x', \text{PerceptualDifference}(x, x'))$$, जहाँ $$x$$ छवि है, $$x'$$ इसका परेशान संस्करण है, और $$\text{PerceptualDifference}(x, x')$$ यह कितना भिन्न है, जैसा कि मानव विषयों द्वारा रिपोर्ट किया गया है। मॉडल को फ़ाइनट्यून किया गया है जिससे यह अनुमानित हो सके $$\|f_\theta(x) - f_\theta(x')\| \approx \text{PerceptualDifference}(x, x')$$. यह परिष्कृत मॉडल तब परिभाषित करने के लिए उपयोग किया जाता है $$\text{LPIPS}(x, x') := \|f_\theta(x) - f_\theta(x')\| $$.

में अन्य मूल्यांकन विधियों की समीक्षा की जाती है।

वेरिएंट
GAN वेरिएंट का वास्तविक चिड़ियाघर है। कुछ सबसे प्रमुख इस प्रकार हैं:

सशर्त गण
सशर्त जीएएन मानक जीएएन के समान हैं, सिवाय इसके कि वे अतिरिक्त जानकारी के आधार पर मॉडल को सशर्त रूप से नमूने उत्पन्न करने की अनुमति देते हैं। उदाहरण के लिए, यदि हम एक कुत्ते की चित्र के साथ बिल्ली का चेहरा उत्पन्न करना चाहते हैं, तो हम सशर्त जीएएन का उपयोग कर सकते हैं।

GAN गेम में जनरेटर $$\mu_G$$ उत्पन्न करता है, प्रायिकता स्थान पर प्रायिकता बंटन $$\Omega$$. यह सशर्त जीएएन के विचार की ओर जाता है, जहां पर संभाव्यता वितरण उत्पन्न करने के अतिरिक्त $$\Omega$$, जनरेटर अलग संभाव्यता वितरण उत्पन्न करता है $$\mu_G(c)$$ पर $$\Omega$$, प्रत्येक दिए गए वर्ग लेबल के लिए $$c$$.है।

उदाहरण के लिए, इमेज नेट की तरह दिखने वाली छवियों को उत्पन्न करने के लिए, जनरेटर को कैट लेबल दिए जाने पर बिल्ली की चित्र उत्पन्न करने में सक्षम होना चाहिए।

मूल पेपर में, लेखकों ने नोट किया कि जेनरेटर और भेदभाव करने वाला दोनों को लेबल प्रदान करके जीएएन को तुच्छ रूप से सशर्त जीएएन तक बढ़ाया जा सकता है।

विशेष रूप से, सशर्त जीएएन गेम केवल जीएएन गेम है जिसमें क्लास लेबल दिए गए हैं:$$L(\mu_G, D) := \mathbb{E}_{c \sim \mu_C, x\sim \mu_{ref}(c)}[\ln D(x, c)] + \mathbb{E}_{c \sim \mu_C, x\sim \mu_G(c)}[\ln (1-D(x, c))]$$जहाँ $$\mu_C$$ वर्गों पर संभाव्यता वितरण है, $$\mu_{ref}(c)$$ कक्षा की वास्तविक छवियों का संभाव्यता वितरण है $$c$$, और $$\mu_G(c)$$ वर्ग लेबल दिए जाने पर जेनरेटर द्वारा उत्पन्न छवियों की संभाव्यता वितरण $$c$$.

2017 में, सशर्त जीएएन ने इमेजनेट की 1000 छवि कक्षाएं उत्पन्न करना सीखा जाता है।

GAN वैकल्पिक आर्किटेक्चर के साथ
GAN गेम सामान्य ढांचा है और इसे जनरेटर के किसी भी उचित पैरामीट्रिजेशन के साथ चलाया जा सकता है $$G$$ और भेदभाव करनेवाला $$D$$. मूल पेपर में, लेखकों ने बहुपरत परसेप्ट्रॉन नेटवर्क और दृढ़ तंत्रिका नेटवर्क का उपयोग करके इसका प्रदर्शन किया। कई वैकल्पिक आर्किटेक्चर की कोशिश की गई है।

डीप कन्वेन्शनल जीएएन (DCGAN): जनरेटर और भेदभाव करने वाला दोनों के लिए, केवल गहरे नेटवर्क का उपयोग किया जाता है, जिसमें पूरी तरह से कनवल्शन-डिकोनवोल्यूशन लेयर्स होते हैं, यानी पूरी तरह से कन्वेन्शनल नेटवर्क आत्म-ध्यान जीएएन (सागन): डीसीजीएएन के साथ प्रारंभ होता है, फिर जनरेटर और भेदभाव करने वाला के लिए अवशिष्ट रूप से जुड़े मानक ध्यान तंत्र आत्म-ध्यान मॉड्यूल जोड़ता है।

परिवर्तनशील ऑटोएन्कोडर जीएएन (वेगन): जनरेटर के लिए परिवर्तनशील ऑटोएन्कोडर (वीएई) का उपयोग करता है।

ट्रांसफार्मर गण (ट्रांसगान): जेनरेटर और भेदभाव करने वाला दोनों के लिए शुद्ध ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) आर्किटेक्चर का उपयोग करता है, जो पूरी तरह से कनवल्शन-डिकोनवोल्यूशन लेयर्स से रहित है।

प्रवाह-गण: जनरेटर के लिए फ्लो-आधारित जनरेटिव मॉडल का उपयोग करता है, जिससे संभावित कार्य की कुशल गणना की अनुमति मिलती है।

वैकल्पिक उद्देश्यों के साथजीएएन
जेनरेटर और भेदभाव करने वाला के हानि कार्यों को बदलकर कई जीएएन वेरिएंट प्राप्त किए जाते हैं।

मूल गण:

हम मूल जीएएन उद्देश्य को तुलना के लिए अधिक सुविधाजनक रूप में पुन: व्यवस्थित करते हैं:$$\begin{cases} \min_D L_D(D, \mu_G) = -\mathbb{E}_{x\sim \mu_{G}}[\ln D(x)] - \mathbb{E}_{x\sim \mu_{ref}}[\ln (1-D(x))]\\ \min_G L_G(D, \mu_G) = -\mathbb{E}_{x\sim \mu_G}[\ln (1-D(x))] \end{cases}$$ मूलजीएएन, गैर-संतृप्त हानि:

तीव्रता से अभिसरण के लिए मूल पेपर में जनरेटर के लिए इस उद्देश्य की सिफारिश की गई थी। $$L_G = \mathbb{E}_{x\sim \mu_G}[\ln D(x)]$$इस उद्देश्य का उपयोग करने के प्रभाव का विश्लेषण Arjovsky et al की धारा 2.2.2 में किया गया है। मूलजीएएन, अधिकतम संभावना:

$$L_G = \mathbb{E}_{x\sim \mu_G}[(\exp \circ \sigma^{-1}\circ D) (x)]$$जहाँ $$\sigma$$ लॉजिस्टिक फलन है। जब विवेचक इष्टतम होता है, तो जनरेटर ग्रेडिएंट अधिकतम संभावना अनुमान के समान होता है, तथापि जीएएन स्वयं अधिकतम संभावना अनुमान नहीं लगा सकता है।

काज हानि जीएएन: $$ L_{D} = -\mathbb{E}_{x\sim{p}_{ref}}\left[\min\left(0, -1 + D\left(x\right)\right)\right] -\mathbb{E}_{x\sim\mu_G}\left[\min\left(0, -1 - D\left(x\right)\right)\right] $$$$ L_{G} = -\mathbb{E}_{x\sim \mu_G} [D\left(x\right)] $$न्यूनतम वर्ग जीएएन: $$L_D = \mathbb{E}_{x\sim \mu_{ref}}[(D(x)-b)^2] + \mathbb{E}_{x\sim \mu_G}[(D(x)-a)^2]$$$$L_G = \mathbb{E}_{x\sim \mu_G}[(D(x)-c)^2]$$जहाँ $$a, b, c$$ चुने जाने वाले पैरामीटर हैं। लेखकों ने सिफारिश की $$a = -1, b = 1, c = 0$$.

वासेरस्टीन बाय (डब्ल्यूजीएएन)
वासरस्टीन जीएएन जीएएन गेम को दो बिंदुओं पर संशोधित करता है:

इसका उद्देश्य मोड पतन की समस्या को हल करना है (ऊपर देखें) लेखकों का दावा है कि किसी भी प्रयोग में हमने डब्ल्यूजीएएन एल्गोरिथम के लिए मोड पतन का प्रमाण नहीं देखा।
 * विवेचक की रणनीति सेट प्रकार के मापने योग्य कार्यों का सेट है $$D: \Omega \to \R$$ बंधे हुए लिप्सचिट्ज़ मानदंड के साथ: $$\|D\|_L \leq K $$, जहाँ $$K $$ निश्चित सकारात्मक स्थिरांक है।
 * उद्देश्य है$$L_{WGAN}(\mu_G, D) := \mathbb{E}_{x\sim \mu_G}[D(x)] -\mathbb E_{x\sim \mu_{ref}}[D(x)]$$

प्रतिकूल ऑटोएन्कोडर
प्रतिकूल ऑटोएन्कोडर (AAE) जीएएन की तुलना में अधिक ऑटो एनकोडर है। विचार सादे ऑटोएन्कोडर के साथ प्रारंभ करना है, लेकिन संदर्भ वितरण (अधिकांशतः सामान्य वितरण) से अव्यक्त वैक्टरों में भेदभाव करने के लिए विवेचक को प्रशिक्षित करें।

इन्फोगन
सशर्त जीएएन में, जनरेटर शोर वेक्टर दोनों प्राप्त करता है $$z$$ और लेबल $$c$$, और छवि बनाता है $$G(z, c)$$. विवेचक छवि-लेबल जोड़े प्राप्त करता है $$(x, c)$$, और गणना करता $$D(x, c)$$ है

जब प्रशिक्षण डेटासेट को लेबल नहीं किया जाता है, सशर्त जीएएन सीधे काम नहीं करता है।

इन्फोगन का विचार यह तय करना है कि अव्यक्त स्थान में प्रत्येक अव्यक्त वेक्टर को विघटित किया जा सकता है $$(z, c)$$: असंपीड्य शोर भाग $$z$$, और जानकारीपूर्ण लेबल भाग $$c$$, और जनरेटर को अधिकतम करने के लिए प्रोत्साहित करके, डिक्री का पालन करने के लिए प्रोत्साहित करें $$I(c, G(z, c))$$, के बीच आपसी जानकारी $$c$$ और $$G(z, c)$$, आपसी जानकारी पर कोई मांग नहीं करते हुए $$z$$ बीच में $$G(z, c)$$ है

दुर्भाग्य से, $$I(c, G(z, c))$$ सामान्य रूप से अट्रैक्टिव है, इन्फोगन का मुख्य विचार वैरिएशनल म्यूचुअल इंफॉर्मेशन मैक्सिमाइजेशन है: निचली सीमा को अधिकतम करके अप्रत्यक्ष रूप से इसे अधिकतम करें$$ {\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c|G(z,c))]; \quad I(c, G(z, c)) \geq \sup_Q \hat I(G, Q)$$जहाँ $$ Q$$ प्रकार के सभी मार्कोव गुठली पर पर्वतमाला $$ Q: \Omega_Y \to \mathcal P(\Omega_C)$$.

इन्फोगन गेम को इस प्रकार परिभाषित किया गया है: तीन प्रायिकता स्थान इन्फोगन गेम को परिभाषित करते हैं:


 * $$(\Omega_X, \mu_{ref})$$, संदर्भ छवियों का स्थान।
 * $$(\Omega_Z, \mu_Z)$$निश्चित यादृच्छिक शोर जनरेटर।
 * $$(\Omega_C, \mu_C)$$निश्चित यादृच्छिक सूचना जनरेटर।

2 टीमों में 3 खिलाड़ी हैं: जनरेटर, क्यू, और विवेचक टीम में जनरेटर और Q हैं, और दूसरी टीम में भेदभाव करने वाला है।

उद्देश्य फलन है$$L(G, Q, D) = L_{GAN}(G, D) - \lambda \hat I(G, Q)$$जहाँ $$ L_{GAN}(G, D) = \mathbb{E}_{x\sim \mu_{ref}, }[\ln D(x)] + \mathbb{E}_{z\sim \mu_Z}[\ln (1-D(G(z, c)))]$$ मूल जीएएन गेम उद्देश्य है, और $$ \hat I(G, Q) = \mathbb E_{z\sim\mu_Z, c\sim\mu_C}[\ln Q(c | G(z, c))]$$

जेनरेटर-q टीम का उद्देश्य उद्देश्य को कम करना है, और विवेचक का लक्ष्य इसे अधिकतम करना है:$$\min_{G, Q} \max_D L(G, Q, D)$$

द्विदिश गण (बिगन)
मानक जीएएन जनरेटर प्रकार का कार्य है $$G: \Omega_Z\to \Omega_X$$, यानी यह अव्यक्त स्थान से मानचित्रण है $$\Omega_Z$$ छवि स्थान के लिए $$\Omega_X$$. इसे डिकोडिंग प्रक्रिया के रूप में समझा जा सकता है, जिससे प्रत्येक अव्यक्त वेक्टर $$z\in \Omega_Z$$ छवि के लिए कोड $$x\in \Omega_X$$है और जनरेटर डिकोडिंग करता है। यह स्वाभाविक रूप से एक अन्य नेटवर्क को प्रशिक्षित करने के विचार की ओर जाता है जो एनकोडर-जनरेटर जोड़ी से ऑटोएन्कोडर बनाकर एन्कोडिंग करता है।

पहले से ही मूल पेपर में, लेखकों ने नोट किया कि भविष्यवाणी करने के लिए सहायक नेटवर्क को प्रशिक्षित करके अनुमानित अनुमान लगाया जा सकता है $$z$$ दिया गया $$x$$. द्विदिश जीएएन आर्किटेक्चर ठीक यही करता है। BiGAN को इस प्रकार परिभाषित किया गया है: दो प्रायिकता स्थान BiGAN गेम को परिभाषित करते हैं:


 * $$(\Omega_X, \mu_{X})$$, संदर्भ छवियों का स्थान।
 * $$(\Omega_Z, \mu_Z)$$, गुप्त स्थान।

2 टीमों में 3 खिलाड़ी हैं: जनरेटर, एनकोडर और भेदभाव करने वाला। जनरेटर और एनकोडर टीम में हैं, और भेदभाव करने वाला दूसरी टीम में हैं।

जनरेटर की रणनीतियाँ कार्य हैं $$G:\Omega_Z \to \Omega_X$$, और एनकोडर की रणनीतियाँ कार्य हैं $$E:\Omega_X \to \Omega_Z$$. विवेचक की रणनीतियाँ कार्य $$D:\Omega_X \to [0, 1]$$ हैं।

उद्देश्य फलन है।$$L(G, E, D) = \mathbb E_{x\sim \mu_X}[\ln D(x, E(x))] + \mathbb E_{z\sim \mu_Z}[\ln (1-D(G(z), z))]$$ जेनरेटर-एनकोडर टीम का उद्देश्य उद्देश्य को कम करना है, और विवेचक का लक्ष्य इसे अधिकतम करना है:$$\min_{G, E} \max_D L(G, E, D)$$ पेपर में, उन्होंने उद्देश्य की अधिक सारगर्भित परिभाषा इस प्रकार दी:$$L(G, E, D) = \mathbb E_{(x, z)\sim \mu_{E, X}}[\ln D(x, z)] + \mathbb E_{(x, z)\sim \mu_{G, Z}}[\ln (1-D(x, z))]$$जहाँ $$\mu_{E, X}(dx, dz) = \mu_X(dx) \cdot \delta_{E(x)}(dz)$$ संभाव्यता वितरण चालू है $$\Omega_X\times \Omega_Z$$ पुशफॉरवर्ड माप | पुशिंग द्वारा प्राप्त किया गया $$\mu_X$$ के माध्यम से अग्रेषित करें $$x \mapsto (x, E(x))$$, और $$\mu_{G, Z}(dx, dz) = \delta_{G(z)}(dx)\cdot \mu_Z(dz) $$ संभाव्यता वितरण चालू है $$\Omega_X\times \Omega_Z$$ धक्का देकर प्राप्त किया $$\mu_Z$$ के माध्यम से अग्रेषित करें $$z \mapsto (G(x), z)$$.

द्विदिश मॉडल के अनुप्रयोगों में अर्ध-पर्यवेक्षित शिक्षण सम्मिलित है, व्याख्यात्मक कृत्रिम बुद्धि, और तंत्रिका मशीन अनुवाद है।

साइकिलगण
साइकिलगैन दो डोमेन के बीच अनुवाद करने के लिए आर्किटेक्चर है, जैसे कि घोड़ों की चित्र और जेब्रा की चित्र, या रात के शहरों की चित्र और दिन के शहरों की चित्र।

साइकिलगैन गेम को इस प्रकार परिभाषित किया गया है: दो प्रायिकता स्थान हैं $$(\Omega_X, \mu_X), (\Omega_Y, \mu_Y)$$, आगे और पीछे अनुवाद के लिए आवश्यक दो डोमेन के अनुरूप।

2 टीमों में 4 खिलाड़ी हैं: जनरेटर $$G_X: \Omega_X \to \Omega_Y, G_Y: \Omega_Y \to \Omega_X$$, और भेदभाव करने वाले $$D_X: \Omega_X\to [0, 1], D_Y:\Omega_Y\to [0, 1]$$.

उद्देश्य फलन है$$L(G_X, G_Y, D_X, D_Y) = L_{GAN}(G_X, D_X) +L_{GAN}(G_Y, D_Y) + \lambda L_{cycle}(G_X, G_Y)$$जहाँ $$\lambda$$ सकारात्मक समायोज्य पैरामीटर है, $$L_{GAN}$$ जीएएन गेम का उद्देश्य है, और $$L_{cycle}$$ चक्र संगति हानि है:$$L_{cycle}(G_X, G_Y) = E_{x\sim \mu_X} \|G_X(G_Y(x)) - x\| + E_{y\sim \mu_Y} \|G_Y(G_X(y)) - y\|$$जनरेटर का लक्ष्य उद्देश्य को कम करना है, और भेदभाव करने वालों का लक्ष्य इसे अधिकतम करना है:$$\min_{G_X, G_Y} \max_{D_X, D_Y} L(G_X, G_Y, D_X, D_Y)$$ pix2pix जैसे पिछले काम के विपरीत, जिसके लिए युग्मित प्रशिक्षण डेटा की आवश्यकता होती है, साइकिलगैन को युग्मित डेटा की आवश्यकता नहीं होती है। उदाहरण के लिए, Pix2pix मॉडल को प्रशिक्षित करने के लिए गर्मियों के दृश्यों के फोटो को सर्दियों के दृश्यों के फोटो और बैक में बदलने के लिए, डेटासेट में गर्मियों और सर्दियों में एक ही स्थान के जोड़े होने चाहिए, एक ही कोण पर शूट किए गए; साइकिलगैन को केवल गर्मियों के दृश्यों की चित्रों के सेट और सर्दियों के दृश्यों की चित्रों के असंबंधित सेट की आवश्यकता होगी।

बिगगैन
बिगगैन अनिवार्य रूप से स्व-ध्यान जीएएन है जिसे बड़े पैमाने पर (80 मिलियन मापदंडों तक) इमेजनेट की बड़ी छवियां (512 x 512 रिज़ॉल्यूशन तक) उत्पन्न करने के लिए प्रशिक्षित किया गया है, जिसमें इसे अभिसरण करने के लिए कई इंजीनियरिंग ट्रिक्स हैं।

उलटा डेटा वृद्धि
अपर्याप्त प्रशिक्षण डेटा होने पर, संदर्भ वितरण $$\mu_{ref}$$ प्रशिक्षण डाटासेट द्वारा दिए गए अनुभवजन्य उपाय द्वारा अच्छी तरह से अनुमानित नहीं किया जा सकता है। ऐसे मामलों में, जीएएन को छोटे डेटासेट पर प्रशिक्षण देने के लिए डेटा संवर्द्धन प्रयुक्त किया जा सकता है। चूँकि, भोली डेटा वृद्धि अपनी समस्याएं लाती है।

मूल जीएएन गेम पर विचार करें, जिसे थोड़ा सुधारा गया है:$$\begin{cases} \min_D L_D(D, \mu_G) = -\mathbb{E}_{x\sim \mu_{ref}}[\ln D(x)] - \mathbb{E}_{x\sim \mu_G}[\ln (1-D(x))]\\ \min_G L_G(D, \mu_G) = -\mathbb{E}_{x\sim \mu_G}[\ln (1-D(x))] \end{cases}$$अब हम सिमेंटिक-संरक्षित रूपांतरणों को बेतरतीब ढंग से नमूना करके डेटा वृद्धि का उपयोग करते हैं $$T: \Omega \to \Omega$$ और सुधारित जीएएन गेम प्राप्त करने के लिए उन्हें डेटासेट पर प्रयुक्त करना:$$\begin{cases} \min_D L_D(D, \mu_G) = -\mathbb{E}_{x\sim \mu_{ref}, T\sim \mu_{trans}}[\ln D(T(x))] - \mathbb{E}_{x\sim \mu_G}[\ln (1-D(x))]\\ \min_G L_G(D, \mu_G) = -\mathbb{E}_{x\sim \mu_G}[\ln (1-D(x))] \end{cases}$$यह भिन्न वितरण वाले जीएएन गेम के समतुल्य है $$\mu_{ref}'$$, द्वारा नमूना लिया गया $$T(x)$$, साथ $$x\sim \mu_{ref}, T\sim \mu_{trans}$$. उदाहरण के लिए, यदि $$\mu_{ref}$$ इमेजनेट में छवियों का वितरण है, और $$\mu_{trans}$$ नमूने पहचान-संभाव्यता 0.5 के साथ बदलते हैं, और क्षैतिज-प्रतिबिंब प्रायिकता 0.5 के साथ, फिर $$\mu_{ref}'$$ इमेजनेट में छवियों का वितरण और क्षैतिज रूप से प्रतिबिंबित इमेजनेट, संयुक्त है।

इस तरह के प्रशिक्षण का परिणाम एक जनरेटर होगा जो नकल करता है $$\mu_{ref}'$$. उदाहरण के लिए, यदि डेटा संवर्द्धन यादृच्छिक काट-छाँट का उपयोग करता है, तो यह उन छवियों को उत्पन्न करेगा जो ऐसी दिखती हैं जैसे वे यादृच्छिक रूप से क्रॉप की गई हों।

समाधान उत्पन्न और वास्तविक दोनों छवियों के लिए डेटा वृद्धि को प्रयुक्त करना है:$$\begin{cases} \min_D L_D(D, \mu_G) = -\mathbb{E}_{x\sim \mu_{ref}, T\sim \mu_{trans}}[\ln D(T(x))] - \mathbb{E}_{x\sim \mu_G, T\sim \mu_{trans}}[\ln (1-D(T(x)))]\\ \min_G L_G(D, \mu_G) = -\mathbb{E}_{x\sim \mu_G, T\sim \mu_{trans}}[\ln (1-D(T(x)))] \end{cases}$$लेखकों ने केवल 100-चित्र-बड़े डेटासेट का उपयोग करके उच्च-गुणवत्ता वाली पीढ़ी का प्रदर्शन किया। स्टाइलगैन-2-ADA पेपर डेटा वृद्धि पर एक और बिंदु बताता है: यह उलटा होना चाहिए। इमेजनेट चित्र बनाने के उदाहरण के साथ जारी रखें। यदि डेटा संवर्द्धन बेतरतीब ढंग से चित्र को 0, 90, 180, 270 डिग्री से समान संभावना के साथ घुमाता है, तो जनरेटर के लिए यह जानने का कोई विधि नहीं है कि सही अभिविन्यास कौन सा है: दो जनरेटर पर विचार करें $$G, G'$$, ऐसा कि किसी भी अव्यक्त के लिए $$z$$, उत्पन्न छवि $$G(z)$$ का 90 डिग्री का घुमाव है $$G'(z)$$. उन्हें ठीक वैसी ही अपेक्षित हानि होगी, और इसलिए न तो दूसरे पर वरीयता दी जाती है।

समाधान केवल उलटा डेटा वृद्धि का उपयोग करना है: समान संभावना के साथ चित्र को 0, 90, 180, 270 डिग्री से बेतरतीब ढंग से घुमाने के अतिरिक्त, चित्र को 0.1 संभावना के साथ 90, 180, 270 डिग्री से बेतरतीब ढंग से घुमाने के लिए उपयोग करें, और चित्र को ऐसे ही रखें यह 0.7 संभावना के साथ है। इस तरह, जनरेटर को अभी भी छवियों को उसी तरह से उन्मुख रखने के लिए पुरस्कृत किया जाता है जैसे कि अन-ऑगमेंटेड इमेजनेट पिक्चर्स है

संक्षेप में, यादृच्छिक रूप से नमूना परिवर्तन का प्रभाव $$T: \Omega \to \Omega$$ वितरण से $$\mu_{trans}$$ मार्कोव कर्नेल को परिभाषित करना है $$K_{trans}: \Omega \to \mathcal P (\Omega)$$. फिर, डेटा-संवर्धित जीएएन गेम जनरेटर को कुछ खोजने के लिए प्रेरित करता है $$\hat \mu_G\in \mathcal P(\Omega)$$, ऐसा है कि $$K_{trans}*\mu_{ref} = K_{trans}*\hat\mu_{G}$$जहाँ $$*$$ प्रायिकता बंटन का कनवल्शन है। मार्कोव कर्नेल होने पर डेटा-वृद्धि विधि को उलटा होने के लिए परिभाषित किया जाता है $$K_{trans}$$ बिगगैन$$K_{trans}*\mu= K_{trans}*\mu' \implies \mu = \mu' \quad \forall \mu, \mu' \in \mathcal P(\Omega)$$परिभाषा के तुरंत बाद, हम देखते हैं कि कई व्युत्क्रमणीय डेटा-वृद्धि विधियों की रचना के परिणामस्वरूप एक और व्युत्क्रमणीय विधि होती है। साथ ही परिभाषा के अनुसार, यदि डेटा-संवर्द्धन विधि व्युत्क्रमणीय है, तो इसे जीएएन गेम में उपयोग करने से इष्टतम रणनीति नहीं बदलती है $$\hat \mu_G$$ जनरेटर के लिए, जो अभी भी $$\mu_{ref}$$ है।

उल्टे मार्कोव गुठली के दो प्रोटोटाइपिक उदाहरण हैं:

असतत स्थितियों: उलटा स्टोकेस्टिक मैट्रिक्स, कब $$\Omega$$ परिमित है।

उदाहरण के लिए, यदि $$\Omega = \{\uparrow, \downarrow, \leftarrow, \rightarrow\}$$ तीर की चार छवियों का सेट है, जो 4 दिशाओं में इंगित करता है, और डेटा संवर्द्धन संभावना के साथ चित्र को 90, 180, 270 डिग्री से बेतरतीब ढंग से घुमाता है $$p$$, और चित्र को संभाव्यता के साथ वैसा ही रखें $$(1-3p)$$, फिर मार्कोव कर्नेल $$K_{trans}$$ स्टोकेस्टिक मैट्रिक्स के रूप में दर्शाया जा सकता है:$$[K_{trans}] = \begin{bmatrix} (1-3p) & p & p & p \\ p & (1-3p) & p & p \\ p & p & (1-3p) & p \\ p & p & p & (1-3p) \end{bmatrix}$$ और $$K_{trans}$$ उलटा कर्नेल iff है $$[K_{trans}]$$ व्युत्क्रमणीय मैट्रिक्स है, अर्थात $$p \neq 1/4$$.

सतत स्थितियों: गॉसियन कर्नेल, कब $$\Omega = \R^n$$ कुछ के लिए $$n \geq 1$$.

उदाहरण के लिए, यदि $$\Omega = \R^{256^2}$$ 256x256 छवियों का स्थान है, और डेटा-वृद्धि विधि गाऊसी शोर उत्पन्न करती है $$z\sim \mathcal N(0, I_{256^2})$$, फिर जोड़िए $$\epsilon z$$ छवि के लिए, फिर $$K_{trans}$$ के घनत्व फलन द्वारा सिर्फ कनवल्शन है $$\mathcal N(0, \epsilon^2 I_{256^2})$$. यह उलटा है, क्योंकि गॉसियन द्वारा कनवल्शन सिर्फ गर्म गिरी द्वारा कनवल्शन है, इसलिए कोई भी $$\mu\in\mathcal P(\R^n)$$, जटिल वितरण $$K_{trans} * \mu$$ गर्म करके प्राप्त किया जा सकता है $$\R^n$$ के अनुसार ठीक है $$\mu$$, फिर समय की प्रतीक्षा करें $$\epsilon^2/4$$. इससे हम संभल सकते हैं $$\mu$$ के लिए समय में ऊष्मा समीकरण को पीछे की ओर चलाकर $$\epsilon^2/4$$ है।

उलटे डेटा संवर्द्धन के अधिक उदाहरण कागज में पाए जाते हैं।

सिंगन
सिंगन प्रशिक्षण डेटा के रूप में केवल छवि का उपयोग करके और उस पर डेटा वृद्धि करके डेटा वृद्धि को सीमित करता है। जीएएन आर्किटेक्चर को मल्टी-स्केल पाइपलाइन का उपयोग करके इस प्रशिक्षण पद्धति के अनुकूल बनाया गया है।

जनरेटर $$G$$ जनरेटर के पिरामिड में विघटित हो जाता है $$G = G_1 \circ G_2 \circ \cdots \circ G_N$$, जिसमें सबसे कम छवि उत्पन्न होती है $$G_N(z_N)$$ सबसे कम रिज़ॉल्यूशन पर, फिर जेनरेट की गई इमेज को स्केल अप किया जाता है $$r(G_N(z_N))$$, और छवि उत्पन्न करने के लिए अगले स्तर तक खिलाया गया $$G_{N-1}(z_{N-1} + r(G_N(z_N)))$$ उच्च संकल्प पर, और इसी तरह। विवेचक पिरामिड में भी विघटित हो जाता है।

स्टाइलगैन श्रृंखला
स्टाइलगैन परिवार ए NVIDIA के अनुसंधान प्रभाग द्वारा प्रकाशित आर्किटेक्चर की श्रृंखला है।

प्रगतिशील गण
प्रगतिशील गण बड़े पैमाने पर छवि निर्माण के लिए जीएएन को प्रशिक्षित करने की विधि है, जीएएन जनरेटर को छोटे से बड़े पैमाने पर पिरामिड फैशन में विकसित करके। सिंगन की तरह, यह जनरेटर को विघटित करता है$$G = G_1 \circ G_2 \circ \cdots \circ G_N$$, और विवेचक के रूप में $$D = D_1 \circ D_2 \circ \cdots \circ D_N$$ है।

प्रशिक्षण के समय, सबसे पहले $$G_N, D_N$$ जीएएन गेम में 4x4 चित्र बनाने के लिए उपयोग किया जाता है। तब $$G_{N-1}, D_{N-1}$$ जीएएन गेम के दूसरे चरण तक पहुंचने के लिए जोड़ा जाता है, 8x8 इमेज जेनरेट करने के लिए, और इसी तरह, जब तक हम 1024x1024 इमेज जेनरेट करने के लिए जीएएन गेम तक नहीं पहुंच जाते है।

GAN गेम के चरणों के बीच झटके से बचने के लिए, प्रत्येक नई परत को मिश्रित किया जाता है (कागज का चित्र 2 ) उदाहरण के लिए, दूसरे चरण का जीएएन गेम इस तरह प्रारंभ होता है:


 * ठीक पहले, जीएएन गेम में जोड़ी होती है $$G_N, D_N$$ 4x4 छवियों का निर्माण और भेदभाव करना।
 * इसके ठीक बाद, जीएएन गेम में जोड़ी होती है $$((1-\alpha) + \alpha\cdot G_{N-1})\circ u \circ G_N, D_N \circ d \circ ((1-\alpha) + \alpha\cdot D_{N-1})$$ 8x8 छवियों को उत्पन्न करना और विभेद करना। यहाँ, कार्य $$u, d$$ इमेज अप- और डाउन-सैंपलिंग फलन हैं, और $$\alpha$$ ब्लेंड-इन फैक्टर है (इमेज कंपोज़िंग में अल्फा रचना की तरह) जो सरलता से 0 से 1 तक ग्लाइड होता है।

स्टाइलगैन-1
स्टाइलगैन-1 को तंत्रिका शैली हस्तांतरण के साथ प्रगतिशील जीएएन के संयोजन के रूप में डिज़ाइन किया गया है। स्टाइलगैन-1 का प्रमुख वास्तुशिल्प विकल्प प्रगतिशील जीएएन के समान प्रगतिशील विकास तंत्र है। प्रत्येक उत्पन्न छवि स्थिर के रूप में प्रारंभ होती है $$4\times 4 \times 512$$ सरणी, और बार-बार स्टाइल ब्लॉक के माध्यम से पारित किया गया। प्रत्येक स्टाइल ब्लॉक एफाइन ट्रांसफ़ॉर्म (एडेप्टिव इंस्टेंस नॉर्मलाइज़ेशन) के माध्यम से स्टाइल लेटेंट वेक्टर को प्रयुक्त करता है, ठीक उसी तरह जैसे न्यूरल स्टाइल ट्रांसफर ग्रामियन मैट्रिक्स का उपयोग करता है। यह तब शोर जोड़ता है, और सामान्य करता है (अर्थ घटाएं, फिर विचरण से विभाजित करें)।

प्रशिक्षण के समय, सामान्यतः प्रति छवि केवल शैली के अव्यक्त वेक्टर का उपयोग किया जाता है, लेकिन कभी-कभी दो (नियमित मिश्रण मिश्रण) प्रत्येक शैली ब्लॉक को अन्य शैली ब्लॉकों से सहायता की अपेक्षा किए बिना स्वतंत्र रूप से अपनी शैलीकरण करने के लिए प्रोत्साहित करने के लिए (क्योंकि वे पूरी तरह से अलग प्राप्त कर सकते हैं) शैली अव्यक्त वेक्टर) प्रशिक्षण के बाद, प्रत्येक स्टाइल ब्लॉक में कई स्टाइल लेटेंट वैक्टर डाले जा सकते हैं। निचली परतों को खिलाए गए वे बड़े पैमाने की शैलियों को नियंत्रित करते हैं, और जो उच्च परतों को खिलाए जाते हैं वे बारीक-बारीक शैलियों को नियंत्रित करते हैं।

शैली-दो छवियों के बीच मिश्रण $$x, x'$$ भी किया जा सकता है। सबसे पहले, खोजने के लिए ग्रेडिएंट डिसेंट रन करें $$z, z'$$ ऐसा है कि $$G(z)\approx x, G(z')\approx x'$$. इसे स्टाइल लेटेंट स्पेस में इमेज को वापस प्रोजेक्ट करना कहा जाता है। तब, $$z$$ निम्न शैली ब्लॉकों को खिलाया जा सकता है, और $$z'$$ उच्च शैली के ब्लॉक के लिए, समग्र छवि उत्पन्न करने के लिए जिसमें बड़े पैमाने की शैली है $$x$$, और की बारीक-बारीक शैली $$x'$$. इस तरह से कई चित्र भी बनाए जा सकते हैं।

स्टाइलगैन-2
स्टाइलगैन-2, स्टाइलगैन-1 पर सुधार करता है, इसके अतिरिक्त कनवल्शन लेयर के वेट को बदलने के लिए स्टाइल लेटेंट वेक्टर का उपयोग करके, इस प्रकार बूँद की समस्या को हल करता है।

यह स्टाइलगैन-2-ADA द्वारा अद्यतन किया गया था (ADA अनुकूली के लिए खड़ा है), जो ऊपर वर्णित के रूप में उलटा डेटा वृद्धि का उपयोग करता है। यह शून्य से प्रारंभ करके प्रयुक्त किए गए डेटा संवर्द्धन की मात्रा को भी ट्यून करता है, और धीरे-धीरे इसे तब तक बढ़ाता है जब तक कि ओवरफिटिंग ह्यूरिस्टिक लक्ष्य स्तर तक नहीं पहुंच जाता, इस प्रकार अनुकूली नाम है।

स्टाइलगैन-3
स्टाइलगण-3 बनावट चिपकाने की समस्या को हल करके स्टाइलगैन-2 में सुधार करता है, जिसे आधिकारिक वीडियो में देखा जा सकता है। उन्होंने निक्विस्ट-शैनन सैंपलिंग प्रमेय द्वारा समस्या का विश्लेषण किया, और तर्क दिया कि जनरेटर में परतें उन पिक्सेल में उच्च-आवृत्ति सिग्नल का लाभ उठाना सीखती हैं, जिन पर वे काम करते हैं।

इसे हल करने के लिए, उन्होंने प्रत्येक जनरेटर की परतों के बीच सख्त लो पास फिल्टर लगाने का प्रस्ताव दिया, जिससे जनरेटर को पिक्सेल पर तरह से संचालित करने के लिए मजबूर किया जा सके, जो निरंतर संकेतों का प्रतिनिधित्व करते हैं, अतिरिक्त उन पर केवल असतत संकेतों के संचालन के। उन्होंने और अधिक फ़िल्टर (सिग्नल प्रोसेसिंग) का उपयोग करके घूर्णी और अनुवादात्मक आक्रमण को प्रयुक्त किया। परिणामी स्टाइलगैन-3 बनावट से चिपकी समस्या को हल करने में सक्षम है, साथ ही ऐसी छवियां उत्पन्न करता है जो सरलता से घूमती हैं और अनुवाद करती हैं।

अनुप्रयोग
GAN एप्लिकेशन तीव्रता से बढ़े हैं।

फैशन, कला और विज्ञापन
कला उत्पन्न करने के लिए जीएएन का उपयोग किया जा सकता है; कगार ने मार्च 2019 में लिखा था कि जीएएन द्वारा बनाई गई छवियां समकालीन एआई कला का परिभाषित रूप बन गई हैं। जीएएन का उपयोग चित्रों को पेंट करने के लिए भी किया जा सकता है या किसी मॉडल, फोटोग्राफर या मेकअप कलाकार को किराए पर लेने या स्टूडियो और परिवहन के लिए भुगतान करने की आवश्यकता के बिना काल्पनिक फैशन मॉडल की चित्र बनाएं। वर्चुअल शैडो जेनरेशन के लिए जीएएन का भी प्रयोग किया गया है।

इंटरएक्टिव मीडिया
2020 में, मनोवैज्ञानिक वेब हॉरर श्रृंखला बेन डूब दया की अगली कड़ी में मुख्य प्रतिपक्षी बनाने के लिए व्यापक कला का उपयोग किया गया था। लेखक बाद में स्वतंत्र कलाकारों के लिए संपत्ति उत्पन्न करने में सहायता करने की उनकी क्षमता के लिए जीएएन अनुप्रयोगों की प्रशंसा करने के लिए आगे बढ़ेंगे जो बजट और जनशक्ति पर कम हैं।

विज्ञान
जीएएन छवि बहाली खगोल फोटोग्राफी कर सकते हैं और डार्क मैटर रिसर्च के लिए गुरुत्वाकर्षण लेंस िंग का अनुकरण करें।  उनका उपयोग 2019 में अंतरिक्ष में एक विशेष दिशा में गहरे द्रव्य के वितरण को सफलतापूर्वक मॉडल करने और गुरुत्वाकर्षण लेंसिंग की भविष्यवाणी करने के लिए किया गया था।

जीएएन को उच्च ऊर्जा जेट गठन के मॉडलिंग के तेज़ और सटीक विधि के रूप में प्रस्तावित किया गया है और कण भौतिकी के कैलोरीमीटर (कण भौतिकी) के माध्यम से कण बौछार की मॉडलिंग | उच्च-ऊर्जा भौतिकी प्रयोग।   कण भौतिकी प्रयोगों के कम्प्यूटेशनल रूप से महंगे सिमुलेशन में जीएएन को सटीक रूप से अनुमानित अड़चनों के लिए प्रशिक्षित किया गया है। वर्तमान और प्रस्तावित सीईआरएन प्रयोगों के संदर्भ में अनुप्रयोगों ने सिमुलेशन में तीव्रता लाने और/या सिमुलेशन निष्ठा में सुधार के लिए इन विधियों की क्षमता का प्रदर्शन किया है।

वीडियो गेम
2018 में, छवि स्केलिंग की विधि के रूप में जीएएन मॉड (वीडियो गेमिंग) समुदाय तक पहुंच गया| उन्हें खेल के मूल संकल्प में फिट करने के लिए (परिणामों के साथ स्थानिक एंटी-अलियासिंग की सुपर सैंपलिंग विधि। एंटी-अलियासिंग)। उचित प्रशिक्षण के साथ, जीएएन मूल विवरण, रंग आदि के मूल स्तर को पूरी तरह से बनाए रखते हुए, मूल की तुलना में उच्च गुणवत्ता में स्पष्ट और तेज 2d बनावट छवि परिमाण प्रदान करते हैं। व्यापक जीएएन उपयोग के ज्ञात उदाहरणों में फाइनल फैंटेसी VIII, अंतिम काल्पनिक IX, रेजिडेंट सम्मिलित हैं। एविल (2002 वीडियो गेम) एचडी रेमास्टर, और मैक्स पायने है।

एआई उत्पन्न वीडियो
वीडियो के लिए आर्टिफिशियल इंटेलिजेंस कला टेक्स्ट-टू-वीडियो मॉडल के रूप में टेक्स्ट से वीडियो उत्पन्न करने के लिए एआई का उपयोग करता है।

दुर्भावनापूर्ण एप्लिकेशन के बारे में चिंताएं
जनरेट किए गए पोर्ट्रेट का एक और उदाहरण

भयावह उद्देश्यों के लिए जीएएन-आधारित मानव छवि संश्लेषण के संभावित उपयोग के बारे में चिंता व्यक्त की गई है, उदाहरण के लिए, नकली, संभवतः आपत्तिजनक, चित्र और वीडियो बनाने के लिए नकली सोशल मीडिया प्रोफाइल के निर्माण को स्वचालित करने के लिए जीएएन का उपयोग उन लोगों की अद्वितीय, यथार्थवादी प्रोफ़ाइल फ़ोटो बनाने के लिए किया जा सकता है जो उपस्थित नहीं हैं।

2019 में कैलिफोर्निया राज्य पर विचार किया गया

और 3 अक्टूबर, 2019 को पारित बिल AB-602, जो मानव छवि संश्लेषण के उपयोग पर प्रतिबंध लगाता है। दर्शाए गए लोगों की सहमति के बिना नकली पोर्नोग्राफ़ी बनाने की तकनीकें, और बिल AB-730, जो किसी के हेरफेर किए गए वीडियो के वितरण पर रोक लगाता है चुनाव के 60 दिनों के भीतर राजनीतिक उम्मीदवार। दोनों विधेयक विधानसभा सदस्य मार्क बर्मन द्वारा लिखे गए थे और गवर्नर गेविन न्यूसम द्वारा हस्ताक्षरित थे। 2020 में नियम प्रयुक्त हुए।

डीएआरपीए का मीडिया फोरेंसिक कार्यक्रम नकली मीडिया का मुकाबला करने के विधियों का अध्ययन करता है, जिसमें जीएएन का उपयोग करके निर्मित नकली मीडिया भी सम्मिलित है।

सीखने को स्थानांतरित करें
स्टेट-ऑफ-आर्ट ट्रांसफर लर्निंग रिसर्च जीएएन का उपयोग अव्यक्त सुविधा स्थान के संरेखण को प्रयुक्त करने के लिए करता है, जैसे कि गहन सुदृढीकरण सीखने में। यह उस विवेचक को स्रोत और लक्ष्य कार्य के एम्बेडिंग को फीड करके काम करता है जो संदर्भ का अनुमान लगाने की कोशिश करता है। परिणामी हानि तब (उलटा) एनकोडर के माध्यम से वापस प्रचारित किया जाता है।

विविध अनुप्रयोग
जीएएन का उपयोग प्रारंभिक निदान में सहायता करने वाली ग्लूकोमैटस छवियों का पता लगाने के लिए किया जा सकता है जो आंशिक या कुल हानि से बचने के लिए आवश्यक है।

दृष्टि का जीएएन जो फोटोयथार्थवादी प्रतिपादन छवियों का उत्पादन करते हैं, का उपयोग आंतरिक डिजाइन, औद्योगिक डिजाइन, जूते, की कल्पना करने के लिए किया जा सकता है। बैग, और कपड़ों के सामान या पीसी गेम्स के दृश्यों के लिए आइटम। फेसबुक द्वारा ऐसे नेटवर्कों के उपयोग की सूचना मिली थी। मृत ऐतिहासिक आंकड़ों के फोरेंसिक चेहरे के पुनर्निर्माण के लिए जीएएन का प्रयोग किया गया है।

जीएएन कई छवियों से 3D पुनर्निर्माण कर सकते हैं, 3डी बिंदु बादलों के रूप में उपन्यास वस्तुओं को उत्पन्न करें, और वीडियो में गति के मॉडल पैटर्न जीएएन का उपयोग चेहरे की चित्रों को यह दिखाने के लिए किया जा सकता है कि किसी व्यक्ति की उपस्थिति उम्र के साथ कैसे बदल सकती है।

जीएएन का उपयोग नक्शों में अनुपलब्ध सुविधाओं को पेंट करने, मानचित्रकला में मानचित्र शैलियों को स्थानांतरित करने के लिए भी किया जा सकता है या सड़क दृश्य इमेजरी में वृद्धि करें जीएएन पर प्रासंगिक प्रतिक्रिया का उपयोग छवियों को उत्पन्न करने और छवि खोज प्रणालियों को बदलने के लिए किया जा सकता है।

गैर-रैखिक गतिशील प्रणालियों के लिए इष्टतम नियंत्रण इनपुट उत्पन्न करने के लिए नेटवर्क को प्रशिक्षित करने के लिए जीएएन की भिन्नता का उपयोग किया जाता है। जहां भेदभावपूर्ण नेटवर्क को एक आलोचक के रूप में जाना जाता है जो समाधान की इष्टतमता की जांच करता है और जनरेटिव नेटवर्क को अनुकूली नेटवर्क के रूप में जाना जाता है जो इष्टतम नियंत्रण उत्पन्न करता है। आलोचक और अनुकूली नेटवर्क एक दूसरे को एक गैर-रैखिक इष्टतम नियंत्रण का अनुमान लगाने के लिए प्रशिक्षित करते हैं।

विशिष्ट घरों पर जलवायु परिवर्तन के प्रभाव की कल्पना करने के लिए जीएएन का उपयोग किया गया है।

Speech2Face नामक एक जीएएन मॉडल किसी व्यक्ति की आवाज़ सुनने के बाद उसके चेहरे की एक छवि का पुनर्निर्माण कर सकता है।

2016 में जीएएन का उपयोग कैंसर, सूजन और फाइब्रोसिस में फंसे विभिन्न प्रकार के प्रोटीन लक्ष्यों के लिए नए अणु उत्पन्न करने के लिए किया गया था। 2019 में जीएएन-जनित अणुओं को प्रायोगिक रूप से चूहों में सभी तरह से मान्य किया गया था।

जबकि अधिकांश जीएएन एप्लिकेशन इमेज प्रोसेसिंग में हैं, समय-श्रृंखला डेटा के साथ भी काम किया गया है। उदाहरण के लिए, मशीन सीखने के लिए ऊर्जा डेटा उत्पन्न करने के लिए पुनरावर्ती जीएएन (R-जीएएन) का उपयोग किया गया है।

इतिहास
1991 में, जुएरगेन श्मिटुबर ने जनरेटिव और एडवर्सेरियल न्यूरल नेटवर्क प्रकाशित किए जो शून्य-राशि के खेल के रूप में एक दूसरे के साथ प्रतिस्पर्धा करते हैं, जहां एक नेटवर्क का लाभ दूसरे नेटवर्क का हानि होता है।  पहला नेटवर्क प्रसंभाव्यता वाला एक जनरेटिव मॉडल है जो आउटपुट पैटर्न पर प्रायिकता वितरण को मॉडल करता है। दूसरा नेटवर्क इन पैटर्नों के लिए पर्यावरण की प्रतिक्रियाओं की भविष्यवाणी करने के लिए ग्रेडिएंट डिसेंट द्वारा सीखता है। इसे कृत्रिम जिज्ञासा कहा जाता था। आधुनिक जीएएन (2014) के लिए, पहले नेटवर्क का आउटपुट दिए गए सेट में है या नहीं, इसके आधार पर पर्यावरणीय प्रतिक्रिया 1 या 0 है।

अन्य लोगों के समान विचार थे लेकिन उन्हें समान रूप से विकसित नहीं किया। 2010 में ओली नीमिटालो द्वारा ब्लॉग पोस्ट में प्रतिकूल नेटवर्क से जुड़े एक विचार को प्रकाशित किया गया था। इस विचार को कभी प्रयुक्त नहीं किया गया था और इसमें जनरेटर में स्टोचैस्टिसिटी सम्मिलित नहीं थी और इस तरह यह एक जनरेटिव मॉडल नहीं था। इसे अब एक सशर्त जीएएन या cGAN के रूप में जाना जाता है। 2013 में ली, गौसी और ग्रॉस द्वारा जानवरों के व्यवहार को मॉडल करने के लिए जीएएन के समान एक विचार का प्रयोग किया गया था।

जीएएन के लिए एक अन्य प्रेरणा शोर-विपरीत अनुमान था, जो जीएएन के समान हानि फलन का उपयोग करता है और गुडफेलो ने 2010-2014 में पीएचडी के समय अध्ययन किया था।

प्रतिकूल मशीन लर्निंग के जनरेटिव मॉडलिंग के अतिरिक्त अन्य उपयोग हैं और इसे तंत्रिका नेटवर्क के अतिरिक्त अन्य मॉडलों पर प्रयुक्त किया जा सकता है। नियंत्रण सिद्धांत में, तंत्रिका नेटवर्क पर आधारित प्रतिकूल शिक्षा का उपयोग 2006 में एक गेम थ्योरिटिक अर्थ में मजबूत नियंत्रकों को प्रशिक्षित करने के लिए किया गया था, एक मिनिमाइज़र पॉलिसी, कंट्रोलर और एक मैक्सिमाइज़र पॉलिसी, गड़बड़ी के बीच पुनरावृत्तियों को वैकल्पिक करके।

2017 में, पिक्सेल-सटीकता के अतिरिक्त यथार्थवादी बनावट पर ध्यान केंद्रित करने वाली छवि वृद्धि के लिए एक जीएएन का उपयोग किया गया था, जो उच्च आवर्धन पर उच्च छवि गुणवत्ता का उत्पादन करता था। 2017 में, पहले चेहरे उत्पन्न हुए थे। इन्हें फरवरी 2018 में ग्रैंड पैलैस में प्रदर्शित किया गया था। स्टाइलगैन द्वारा उत्पन्न चेहरे 2019 में डीपफेक के साथ तुलना की।  स्टाइल-आधारित जीएएन - यथार्थवादी कृत्रिम चेहरे बनाना और ट्यूनिंग करना

2017 की प्रारंभ में, जीएएन प्रौद्योगिकी ने एक नए विकसित कार्यान्वयन की उपस्थिति के साथ ललित कला क्षेत्र में अपनी उपस्थिति महसूस करना प्रारंभ कर दिया था, जिसके बारे में कहा जाता था कि वह अद्वितीय और आकर्षक अमूर्त चित्रों को उत्पन्न करने में सक्षम होने की दहलीज को पार कर गया था, और इस प्रकार एक कैन को डब किया गया था। रचनात्मक विरोधात्मक नेटवर्क के लिए।

क्रिएटिव प्रतिकूल नेटवर्क्स, स्टाइल्स के बारे में सीखकर और स्टाइल नॉर्म्स से हटकर "कला" उत्पन्न करना 2018 की पेंटिंग एडमंड डी बेलामी को बनाने के लिए जीएएन प्रणाली का उपयोग किया गया था, जो US$432,500 में बिकी की एआई कला $432,500 में बिकती है मूल कैन टीम के सदस्यों द्वारा 2019 के आरंभिक लेख में उस प्रणाली के साथ आगे की प्रगति पर चर्चा की गई, और एआई-सक्षम कला के लिए समग्र संभावनाओं पर भी विचार किया गया।

मई 2019 में, सैमसंग के शोधकर्ताओं ने एक जीएएन-आधारित प्रणाली का प्रदर्शन किया, जो उस व्यक्ति की केवल एक चित्र को देखते हुए बोलने वाले व्यक्ति के वीडियो बनाती है।

अगस्त 2019 में, सशर्तजीएएन-LSTM (GitHub पर स्रोतों का संदर्भ लें का उपयोग करके गीत से न्यूरल मेलोडी जनरेशन के लिए पेयर लिरिक्स और मेलोडी अलाइनमेंट के साथ 12,197 MIDI गानों वाला एक बड़ा डेटासेट बनाया गया था। -कंडीशन्ड-न्यूरल-मेलोडी-जेनरेशन एआई मेलोडी जेनरेशन लिरिक्स)।

मई 2020 में, एनवीडिया के शोधकर्ताओं ने पीएसी-मैन के खेल को केवल खेलते हुए देखकर उसे फिर से बनाने के लिए एक एआई प्रणाली (जिसे गेमगैन कहा जाता है) सिखाया।

बाहरी संबंध

 * This Person Does Not Exist – photorealistic images of people who do not exist, generated by स्टाइलगैन
 * This Cat Does Not Exist – photorealistic images of cats who do not exist, generated by स्टाइलगैन
 * This Person Does Not Exist – photorealistic images of people who do not exist, generated by स्टाइलगैन
 * This Cat Does Not Exist – photorealistic images of cats who do not exist, generated by स्टाइलगैन