जीपीटी-3: Difference between revisions
No edit summary |
No edit summary |
||
| Line 40: | Line 40: | ||
== पृष्ठभूमि == | == पृष्ठभूमि == | ||
{{further|अधिक जानकारी: GPT-2 § पृष्ठभूमि}} | {{further|अधिक जानकारी: GPT-2 § पृष्ठभूमि}} | ||
[[अर्थशास्त्री]] के अनुसार बेहतर एल्गोरिदम, शक्तिशाली कंप्यूटर और डिजीटल डेटा में वृद्धि ने 2010 में नई तकनीकों के साथ [[ यंत्र अधिगम ]] में क्रांति को बढ़ावा दिया है, जिसके परिणामस्वरूप भाषा में हेरफेर सहित "कार्यों में तेजी से सुधार" हुआ है।<ref name="theeconomist_20200611">{{Cite news| issn = 0013-0613| title = एआई की सीमाओं को समझने की शुरुआत हो रही है| newspaper = The Economist| date = June 11, 2020| access-date = July 31, 2020| url = https://www.economist.com/technology-quarterly/2020/06/11/an-understanding-of-ais-limitations-is-starting-to-sink-in| archive-date = July 31, 2020| archive-url = https://web.archive.org/web/20200731060114/https://www.economist.com/technology-quarterly/2020/06/11/an-understanding-of-ais-limitations-is-starting-to-sink-in| url-status = live}</ref> सॉफ़्टवेयर मॉडल को हज़ारों या लाखों उदाहरणों का उपयोग करके सीखने के लिए प्रशिक्षित किया जाता है{{nbsp}}... "संरचना ... मस्तिष्क के तंत्रिका वास्तुकला पर आधारित" है।<ref name="theeconomist_20200611" />प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में उपयोग कि जाने वाली एक वास्तुकला एक [[कृत्रिम तंत्रिका नेटवर्क|तंत्रिका नेटवर्क]] है जो एक गहन शिक्षण मॉडल पर आधारित है जिसे पहली बार 2017 में पेश किया गया था- ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) वास्तुकला।<ref name="Polosukhin_2017">{{cite arXiv|last1=Polosukhin|first1=Illia|last2=Kaiser|first2=Lukasz|last3=Gomez|first3=Aidan N.|last4=Jones|first4=Llion|last5=Uszkoreit|first5=Jakob|last6=Parmar|first6=Niki|last7=Shazeer|first7=Noam|last8=Vaswani|first8=Ashish|date=2017-06-12|title=अटेंशन इज़ ऑल यू नीड|eprint=1706.03762|class=cs.CL}</ref> कई एनएलपी प्रणालियां प्रसंस्करण, खनन, आयोजन, जोड़ने और शाब्दिक | [[अर्थशास्त्री]] के अनुसार बेहतर एल्गोरिदम, शक्तिशाली कंप्यूटर और डिजीटल डेटा में वृद्धि ने 2010 में नई तकनीकों के साथ [[ यंत्र अधिगम ]] में क्रांति को बढ़ावा दिया है, जिसके परिणामस्वरूप भाषा में हेरफेर सहित "कार्यों में तेजी से सुधार" हुआ है।<ref name="theeconomist_20200611">{{Cite news| issn = 0013-0613| title = एआई की सीमाओं को समझने की शुरुआत हो रही है| newspaper = The Economist| date = June 11, 2020| access-date = July 31, 2020| url = https://www.economist.com/technology-quarterly/2020/06/11/an-understanding-of-ais-limitations-is-starting-to-sink-in| archive-date = July 31, 2020| archive-url = https://web.archive.org/web/20200731060114/https://www.economist.com/technology-quarterly/2020/06/11/an-understanding-of-ais-limitations-is-starting-to-sink-in| url-status = live}</ref> सॉफ़्टवेयर मॉडल को हज़ारों या लाखों उदाहरणों का उपयोग करके सीखने के लिए प्रशिक्षित किया जाता है{{nbsp}}... "संरचना ... मस्तिष्क के तंत्रिका वास्तुकला पर आधारित" है।<ref name="theeconomist_20200611" />प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में उपयोग कि जाने वाली एक वास्तुकला एक [[कृत्रिम तंत्रिका नेटवर्क|तंत्रिका नेटवर्क]] है जो एक गहन शिक्षण मॉडल पर आधारित है जिसे पहली बार 2017 में पेश किया गया था- ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) वास्तुकला।<ref name="Polosukhin_2017">{{cite arXiv|last1=Polosukhin|first1=Illia|last2=Kaiser|first2=Lukasz|last3=Gomez|first3=Aidan N.|last4=Jones|first4=Llion|last5=Uszkoreit|first5=Jakob|last6=Parmar|first6=Niki|last7=Shazeer|first7=Noam|last8=Vaswani|first8=Ashish|date=2017-06-12|title=अटेंशन इज़ ऑल यू नीड|eprint=1706.03762|class=cs.CL}</ref> कई एनएलपी प्रणालियां प्रसंस्करण, खनन, आयोजन, जोड़ने और शाब्दिक निवेश के विपरीत होने के साथ-साथ प्रश्नों के सही उत्तर देने में सक्षम हैं।<ref name="thomsonreuters_nd">{{Cite web| title = प्राकृतिक भाषा प्रसंस्करण| access-date = 2020-07-31| url = https://www.thomsonreuters.com/en/artificial-intelligence/natural-language-processing.html| archive-date = August 22, 2020| archive-url = https://web.archive.org/web/20200822144104/https://www.thomsonreuters.com/en/artificial-intelligence/natural-language-processing.html| url-status = live}}</ref> | ||
11 जून 2018, को ओपन एआई के शोधकर्ताओं और इंजीनियरों ने पहला जनरेटिव पूर्व-प्रशिक्षित ट्रांसफॉर्मर (जीपीटी) का परिचय दिया गया था{{mdash}}एक प्रकार का [[जनरेटिव आर्टिफिशियल इंटेलिजेंस|जनरेटिव लार्ज लैंग्वेज मॉडल]]जो [[डेटासेट (मशीन लर्निंग)]] के माध्यम से एक विशाल और विविध [[टेक्स्ट कॉर्पस]] के साथ पूर्व-प्रशिक्षित होता है, जिसके बाद भेदभावपूर्ण [[फाइन-ट्यूनिंग (मशीन लर्निंग)]] होता है। किसी विशिष्ट कार्य पर ध्यान केंद्रित करने के लिए विवेकपूर्ण फाइन-ट्यूनिंग द्वारा जीपीटी मॉडल ट्रांसफ़ॉर्मर-आधारित डीप लर्निंग न्यूरल नेटवर्क वास्तुकला हैं। उस बिंदु तक सबसे अच्छा प्रदर्शन करने वाले तंत्रिका एनएलपी मॉडल ने सामान्यतौर पर बड़ी मात्रा में शारीरिक रूप से नामपत्र किए गए डेटा से सीखने की निगरानी की जिसने इसे बहुत बड़े भाषा मॉडल को प्रशिक्षित करने के लिए निषेधात्मक रूप से महंगा और समय लेने वाला बना दिया।<ref name="OpenAI_Radford_20200611" /> | 11 जून 2018, को ओपन एआई के शोधकर्ताओं और इंजीनियरों ने पहला जनरेटिव पूर्व-प्रशिक्षित ट्रांसफॉर्मर (जीपीटी) का परिचय दिया गया था{{mdash}}एक प्रकार का [[जनरेटिव आर्टिफिशियल इंटेलिजेंस|जनरेटिव लार्ज लैंग्वेज मॉडल]]जो [[डेटासेट (मशीन लर्निंग)]] के माध्यम से एक विशाल और विविध [[टेक्स्ट कॉर्पस]] के साथ पूर्व-प्रशिक्षित होता है, जिसके बाद भेदभावपूर्ण [[फाइन-ट्यूनिंग (मशीन लर्निंग)]] होता है। किसी विशिष्ट कार्य पर ध्यान केंद्रित करने के लिए विवेकपूर्ण फाइन-ट्यूनिंग द्वारा जीपीटी मॉडल ट्रांसफ़ॉर्मर-आधारित डीप लर्निंग न्यूरल नेटवर्क वास्तुकला हैं। उस बिंदु तक सबसे अच्छा प्रदर्शन करने वाले तंत्रिका एनएलपी मॉडल ने सामान्यतौर पर बड़ी मात्रा में शारीरिक रूप से नामपत्र किए गए डेटा से सीखने की निगरानी की जिसने इसे बहुत बड़े भाषा मॉडल को प्रशिक्षित करने के लिए निषेधात्मक रूप से महंगा और समय लेने वाला बना दिया।<ref name="OpenAI_Radford_20200611" /> | ||
| Line 55: | Line 55: | ||
}} | }} | ||
28 मई 2020 को ओपन एआई में 31 इंजीनियरों और शोधकर्ताओं के एक समूह द्वारा एक [[arXiv]] प्रीप्रिंट ने जीपीटी-3 के विकास का वर्णन किया जो तीसरी पीढ़ी का "अत्याधुनिक भाषा मॉडल" है।<ref name="preprint" /><ref name="analyticsindiamag_Sagar_20200603">{{Cite magazine| last = Sagar| first = Ram| title = OpenAI ने GPT-3 जारी किया, जो अब तक का सबसे बड़ा मॉडल है| magazine = Analytics India Magazine| access-date = July 31, 2020| date = June 3, 2020| url = https://analyticsindiamag.com/open-ai-gpt-3-language-model/| archive-date = August 4, 2020| archive-url = https://web.archive.org/web/20200804173452/https://analyticsindiamag.com/open-ai-gpt-3-language-model/| url-status = live}</ref> टीम ने जीपीटी-3 की क्षमता को अपने पूर्ववर्ती जीपीटी-2 की तुलना में परिमाण के दो क्रमों की वृद्धि की, {{cite web |title=लैंग्वेज मॉडल्स अनसुपर्वाइज्ड मल्टीटास्क लर्नर्स हैं|url=https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |access-date=December 4, 2019 |quote="GPT-2, एक 1.5B पैरामीटर ट्रांसफॉर्मर है"|website=openai.com |archive-date=December 12, 2019 |archive-url=https://web.archive.org/web/20191212223916/https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |url-status=live }}<nowiki></ref></nowiki>जिससे जीपीटी-3 को अब तक का सबसे बड़ा गैर-विरल भाषा मॉडल बन | 28 मई 2020 को ओपन एआई में 31 इंजीनियरों और शोधकर्ताओं के एक समूह द्वारा एक [[arXiv]] प्रीप्रिंट ने जीपीटी-3 के विकास का वर्णन किया जो तीसरी पीढ़ी का "अत्याधुनिक भाषा मॉडल" है।<ref name="preprint" /><ref name="analyticsindiamag_Sagar_20200603">{{Cite magazine| last = Sagar| first = Ram| title = OpenAI ने GPT-3 जारी किया, जो अब तक का सबसे बड़ा मॉडल है| magazine = Analytics India Magazine| access-date = July 31, 2020| date = June 3, 2020| url = https://analyticsindiamag.com/open-ai-gpt-3-language-model/| archive-date = August 4, 2020| archive-url = https://web.archive.org/web/20200804173452/https://analyticsindiamag.com/open-ai-gpt-3-language-model/| url-status = live}</ref> टीम ने जीपीटी-3 की क्षमता को अपने पूर्ववर्ती जीपीटी-2 की तुलना में परिमाण के दो क्रमों की वृद्धि की, {{cite web |title=लैंग्वेज मॉडल्स अनसुपर्वाइज्ड मल्टीटास्क लर्नर्स हैं|url=https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |access-date=December 4, 2019 |quote="GPT-2, एक 1.5B पैरामीटर ट्रांसफॉर्मर है"|website=openai.com |archive-date=December 12, 2019 |archive-url=https://web.archive.org/web/20191212223916/https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |url-status=live }}<nowiki></ref></nowiki>जिससे जीपीटी-3 को अब तक का सबसे बड़ा गैर-विरल भाषा मॉडल बन गया<ref name="preprint"/>{{rp|14|quote="Since we increase the capacity by over two orders of magnitude from GPT-2 to GPT-3"}}<ref name="CNBC_Shead_20200723">{{Cite news| last = Shead| first = Sam| title = हर कोई एआई के बारे में क्यों बात कर रहा है? एलोन मस्क-समर्थित लैब द्वारा जारी किया गया टेक्स्ट जनरेटर| work = CNBC| access-date = July 31, 2020| date = July 23, 2020| url = https://www.cnbc.com/2020/07/23/openai-gpt3-explainer.html| archive-date = July 30, 2020| archive-url = https://web.archive.org/web/20200730123130/https://www.cnbc.com/2020/07/23/openai-gpt3-explainer.html| url-status = live}} 28 मई और 22 जुलाई, 2020 के बीच चार प्रीप्रिंट जारी किए गए थे।</ref> क्योंकि जीपीटी-3 संरचनात्मक रूप से अपने पूर्ववर्तियों के समान है,<ref name="preprint" />इसकी अधिक सटीकता को इसकी बढ़ी हुई क्षमता और अधिक संख्या में मापदंडों के लिए जिम्मेदार ठहराया जाता है।<ref name="ZDNet_Tiernan_20200601">{{Cite web| last = Ray| first = Tiernan| date = June 1, 2020| title = OpenAI का विशाल GPT-3 AI के लिए भाषा मॉडल की सीमाओं पर संकेत देता है| work = ZDNet| access-date = July 31, 2020| url = https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/| archive-date = June 1, 2020| archive-url = https://web.archive.org/web/20200601081629/https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/| url-status = live}</ref> जीपीटी-3 की क्षमता माइक्रोसॉफ्ट के ट्यूरिंग एनएलजी की तुलना में दस गुना अधिक है जो उस समय ज्ञात अगला सबसे बड़ा एनएलपी मॉडल था।<ref name="analyticsindiamag_Sagar_20200603" /> | ||
लैम्बडालैब्स ने 2020 में एक [[जीपीयू]] पर जीपीटी-3 को प्रशिक्षित करने के लिए लगभग $4.6 मिलियन अमेरिकी डॉलर और 355 वर्षों की अनुमानित लागत का अनुमान लगाया,<ref name="lambdalabs">{{Citation | first1 = Chuan | last1 = Li | title = OpenAI's GPT-3 Language Model: A Technical Overview | date = June 3, 2020 | url = https://lambdalabs.com/blog/demystifying-gpt-3 | access-date = March 27, 2023 | archive-date = March 27, 2023 | archive-url = https://web.archive.org/web/20230327213811/https://lambdalabs.com/blog/demystifying-gpt-3 | url-status = live }}</ref> समानांतर में अधिक जीपीयू का उपयोग करके समय के साथ कम वास्तविक प्रशिक्षण। | लैम्बडालैब्स ने 2020 में एक [[जीपीयू]] पर जीपीटी-3 को प्रशिक्षित करने के लिए लगभग $4.6 मिलियन अमेरिकी डॉलर और 355 वर्षों की अनुमानित लागत का अनुमान लगाया,<ref name="lambdalabs">{{Citation | first1 = Chuan | last1 = Li | title = OpenAI's GPT-3 Language Model: A Technical Overview | date = June 3, 2020 | url = https://lambdalabs.com/blog/demystifying-gpt-3 | access-date = March 27, 2023 | archive-date = March 27, 2023 | archive-url = https://web.archive.org/web/20230327213811/https://lambdalabs.com/blog/demystifying-gpt-3 | url-status = live }}</ref> समानांतर में अधिक जीपीयू का उपयोग करके समय के साथ कम वास्तविक प्रशिक्षण। | ||
जीपीटी-3 के लिए भारित पूर्व-प्रशिक्षण डेटासेट का साठ प्रतिशत [[ सामान्य क्रॉल ]] के निस्पंदन किए गए संस्करण से आता है जिसमें 410 बिलियन [[बाइट जोड़ी एन्कोडिंग|बाइट जोड़ी]]-एन्कोडेड टोकन सम्मिलित हैं।<ref name="preprint" />{{rp|9}} अन्य स्रोत | जीपीटी-3 के लिए भारित पूर्व-प्रशिक्षण डेटासेट का साठ प्रतिशत [[ सामान्य क्रॉल ]] के निस्पंदन किए गए संस्करण से आता है जिसमें 410 बिलियन [[बाइट जोड़ी एन्कोडिंग|बाइट जोड़ी]]-एन्कोडेड टोकन सम्मिलित हैं।<ref name="preprint" />{{rp|9}} अन्य स्रोत वेब टेक्सट 2 से 19 बिलियन टोकन है जो 22% का प्रतिनिधित्व करते हैं, Books1 से 12 बिलियन टोकन 8% का प्रतिनिधित्व करते हैं, 55 बिलियन टोकन Books2 से 8% का प्रतिनिधित्व करते हैं, और 3 बिलियन टोकन विकिपीडिया से 3% का प्रतिनिधित्व करते हैं।<ref name="preprint" />{{rp|9}} जीपीटी-3 को सैकड़ों अरबों शब्दों पर प्रशिक्षित किया गया था और यह सीएसएस, जेएसएक्स और पायथन अन्य में कोडिंग करने में भी सक्षम है।<ref name="Medium_Bussler_20200721" /> | ||
{| class="wikitable" | {| class="wikitable" | ||
| Line 88: | Line 88: | ||
| style="text-align:right; padding-right: 2em;" | 3% | | style="text-align:right; padding-right: 2em;" | 3% | ||
|} | |} | ||
चूँकि जीपीटी-3 का प्रशिक्षण डेटा सर्वव्यापी था इसलिए इसे विशिष्ट भाषा कार्यों के लिए और प्रशिक्षण की आवश्यकता नहीं है।<ref name="Medium_Bussler_20200721" />प्रशिक्षण डेटा में कभी-कभार जहरीली भाषा होती है और जीपीटी-3 कभी-कभी अपने प्रशिक्षण डेटा की नकल करने के परिणामस्वरूप जहरीली भाषा उत्पन्न करता है। वाशिंगटन विश्वविद्यालय के एक अध्ययन में पाया गया कि जीपीटी-3 ने [[GPT-2|जीपीटी-2]] और सीटीआरएल के समान प्राकृतिक भाषा प्रसंस्करण मॉडल की तुलना में विषाक्तता स्तर पर जहरीली भाषा का उत्पादन किया। विवृत एआई ने जीपीटी-3 द्वारा उत्पन्न विषाक्त भाषा की मात्रा को सीमित करने के लिए कई रणनीतियाँ लागू की हैं। परिणामस्वरूप जीपीटी-3 ने अपने पूर्ववर्ती मॉडल जीपीटी-1 की तुलना में कम जहरीली भाषा का उत्पादन किया, हालांकि इसने CTRL विकी की तुलना में जहरीली भाषा की अधिक पीढ़ियों और उच्च विषाक्तता दोनों का उत्पादन किया, जो पूरी तरह से विकिपीडिया डेटा पर प्रशिक्षित भाषा मॉडल है।<ref>{{Citation | first1 = Samuel | last1 = Gehman | first2 = Suchin | last2 = Gururangan | first3 = Maarten | last3 = Sap | first4 = Yejin | last4 = Choi | first5 = Noah A. | last5 = Smith | title = REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models | pages = 3356–3369 | publisher = Association for Computational Linguistics | date = 16–20 November 2020 | arxiv = 2009.11462 }}</ref> | चूँकि जीपीटी-3 का प्रशिक्षण डेटा सर्वव्यापी था इसलिए इसे विशिष्ट भाषा कार्यों के लिए और प्रशिक्षण की आवश्यकता नहीं है।<ref name="Medium_Bussler_20200721" />प्रशिक्षण डेटा में कभी-कभार जहरीली भाषा होती है और जीपीटी-3 कभी-कभी अपने प्रशिक्षण डेटा की नकल करने के परिणामस्वरूप जहरीली भाषा उत्पन्न करता है। वाशिंगटन विश्वविद्यालय के एक अध्ययन में पाया गया कि जीपीटी-3 ने [[GPT-2|जीपीटी-2]] और सीटीआरएल के समान प्राकृतिक भाषा प्रसंस्करण मॉडल की तुलना में विषाक्तता स्तर पर जहरीली भाषा का उत्पादन किया। विवृत एआई ने जीपीटी-3 द्वारा उत्पन्न विषाक्त भाषा की मात्रा को सीमित करने के लिए कई रणनीतियाँ लागू की हैं। परिणामस्वरूप जीपीटी-3 ने अपने पूर्ववर्ती मॉडल जीपीटी-1 की तुलना में कम जहरीली भाषा का उत्पादन किया, हालांकि इसने सीटीआरएल(CTRL) विकी की तुलना में जहरीली भाषा की अधिक पीढ़ियों और उच्च विषाक्तता दोनों का उत्पादन किया, जो पूरी तरह से विकिपीडिया डेटा पर प्रशिक्षित भाषा मॉडल है।<ref>{{Citation | first1 = Samuel | last1 = Gehman | first2 = Suchin | last2 = Gururangan | first3 = Maarten | last3 = Sap | first4 = Yejin | last4 = Choi | first5 = Noah A. | last5 = Smith | title = REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models | pages = 3356–3369 | publisher = Association for Computational Linguistics | date = 16–20 November 2020 | arxiv = 2009.11462 }}</ref> | ||
11 जून 2020 को विवृत एआई ने घोषणा की कि उपयोगकर्ता इसके उपयोगकर्ता के अनुकूल जीपीटी-3 एपीआई - एक मशीन लर्निंग टूलसेट | 11 जून 2020 को विवृत एआई ने घोषणा की कि उपयोगकर्ता इसके उपयोगकर्ता के अनुकूल जीपीटी-3 एपीआई - एक मशीन लर्निंग टूलसेट तक पहुँच का अनुरोध कर सकते हैं - विवृत एआई को इस नई तकनीक की ताकत और सीमाओं का पता लगाने में मदद करने के लिए।<ref name="OpenAI_20200611">{{cite web |url=https://openai.com/blog/openai-api/ |date=June 11, 2020 |work=OpenAI |title=ओपनएआई एपीआई|access-date=July 31, 2020 |archive-date=June 11, 2020 |archive-url=https://web.archive.org/web/20200611150951/https://openai.com/blog/openai-api/ |url-status=live }}</ref><ref name="techcrunch_20200601">{{Cite web |title=OpenAI अपनी टेक्स्ट-आधारित AI क्षमताओं के लिए एक सर्व-उद्देश्यीय API बनाता है|work=TechCrunch |date=June 11, 2020 |access-date=July 31, 2020 |url= https://techcrunch.com/2020/06/11/openai-makes-an-all-purpose-api-for-its-text-based-ai-capabilities/ |quote=यदि आप कभी भी OpenAI के प्रशंसित मशीन लर्निंग टूलसेट को आज़माना चाहते हैं, तो यह बहुत आसान हो गया है। कंपनी ने एक एपीआई जारी किया है जो डेवलपर्स को अपने एआई टूल्स को "लगभग किसी भी अंग्रेजी भाषा के कार्य" पर कॉल करने देता है।|last=Coldewey|first=Devin|archive-url=https://web.archive.org/web/20211027000059/https://techcrunch.com/2020/06/11/openai-makes-an-all-purpose-api-for-its-text-based-ai-capabilities/|archive-date=October 27, 2021|url-status=live}}</ref> आमंत्रण में बताया गया है कि कैसे इस एपीआई में एक सामान्य-उद्देश्य वाला टेक्स्ट इन, टेक्स्ट आउट अंतराफलक है जो सामान्य एकल उपयोग-स्थिति के बजाय लगभग किसी भी अंग्रेजी भाषा के कार्य को पूरा कर सकता है।<ref name="OpenAI_20200611" />एक उपयोगकर्ता के अनुसार जिसकी विवृत एआई जीपीटी-3 एपीआई की एक निजी प्रारंभिक रिलीज़ तक पहुंच थी, जीपीटी-3 केवल कुछ सरल संकेतों के साथ आश्चर्यजनक रूप से सुसंगत पाठ लिखने में अच्छा था।<ref name="Arram_20200709"><nowiki>{{Cite web| last = Arram| title = GPT-3: एक ऐसा AI जो लगभग कुछ भी लिखने में बेहद अच्छा है| work = Arram Sabeti| access-date = July 31, 2020| date = July 9, 2020| url = </nowiki>https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/| archive-date = July 20, 2020| archive-url = https://web.archive.org/web/20200720192137/https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/| url-status = live}</ref> एक प्रारंभिक प्रयोग में 80 अमेरिकी विषयों को न्याय करने के लिए कहा गया था कि क्या लघु ~200 शब्दों के लेख मनुष्यों या जीपीटी-3 द्वारा लिखे गए थे। प्रतिभागियों ने 52% समय सही ढंग से निर्णय लिया यादृच्छिक अनुमान लगाने से केवल थोड़ा बेहतर किया।<ref name="preprint" /> | ||
18 नवंबर 2021 को विवृत एआई ने घोषणा की कि पर्याप्त सुरक्षा उपायों को लागू किया गया है कि इसके | 18 नवंबर 2021 को विवृत एआई ने घोषणा की कि पर्याप्त सुरक्षा उपायों को लागू किया गया है कि इसके एपीआई तक पहुंच अप्रतिबंधित होगी।<ref>{{Cite web |date=2021-11-18 |title=ओपनएआई का एपीआई अब बिना प्रतीक्षा सूची के उपलब्ध है|url=https://openai.com/blog/api-no-waitlist/ |access-date=2022-11-05 |website=OpenAI |language=en |archive-date=November 5, 2022 |archive-url=https://web.archive.org/web/20221105195042/https://openai.com/blog/api-no-waitlist/ |url-status=live }}</ref> विवृत एआई ने विकासक को एक कंटेंट मॉडरेशन उपकरण प्रदान किया है जो उन्हें विवृत एआई की सामग्री नीति का पालन करने में मदद करता है।<ref>{{Cite web |title=ओपनएआई एपीआई|url=https://beta.openai.com/ |access-date=2022-11-05 |website=beta.openai.com |language=en |archive-date=December 23, 2022 |archive-url=https://web.archive.org/web/20221223073027/https://beta.openai.com/ |url-status=live }}</ref> 27 जनवरी 2022 को विवृत एआई ने घोषणा की कि इसके नवीनतम जीपीटी-3 भाषा मॉडल, जिन्हें सामूहिक रूप से अनुदेशित जीपीटी के रूप में जाना जाता है, अब उनके [[API|एपीआई]] पर उपयोग की जाने वाली डिफ़ॉल्ट भाषा मॉडल थी। विवृत एआई के अनुसार अनुदेशित जीपीटी ने ऐसी सामग्री का उत्पादन किया जो निर्देशों का बेहतर ढंग से पालन करके कम गढ़े हुए तथ्यों को उत्पन्न करके और कुछ हद तक कम विषाक्त सामग्री का उत्पादन करके उपयोगकर्ता के इरादों से बेहतर ढंग से जुड़ा हुआ था।<ref>{{Cite web |date=2022-01-27 |title=निर्देशों का पालन करने के लिए भाषा मॉडल को संरेखित करना|url=https://openai.com/blog/instruction-following/ |access-date=2022-11-05 |website=OpenAI |language=en |archive-date=November 5, 2022 |archive-url=https://web.archive.org/web/20221105195041/https://openai.com/blog/instruction-following/ |url-status=live }}</ref> | ||
क्योंकि जीपीटी-3 ऐसे समाचार लेख उत्पन्न कर सकता है जिन्हें मानव मूल्यांकनकर्ताओं को मनुष्यों द्वारा लिखे गए लेखों से अलग करने में कठिनाई होती है,<ref name="analyticsindiamag_Sagar_20200603" />जीपीटी-3 में भाषा मॉडलों के लाभकारी और हानिकारक दोनों अनुप्रयोगों को आगे बढ़ाने की क्षमता है।<ref name="preprint" />{{rp|34}} अपने 28 मई, 2020 के लेख्य में, शोधकर्ताओं ने "जीपीटी-3 के हानिकारक प्रभावों" का विस्तार से वर्णन किया<ref name="analyticsindiamag_Sagar_20200603" />जिसमें गलत सूचना, [[स्पैमिंग]], [[फ़िशिंग]], [[प्रक्रिया का दुरुपयोग|कानूनी और सरकारी प्रक्रियाओं का दुरुपयोग]], [[अकादमिक बेईमानी|कपटपूर्ण शैक्षणिक निबंध लेखन]] और सोशल इंजीनियरिंग [[बहाना|का बहाना बनाना]] सम्मिलित हैं।<ref name="preprint" />लेखक [[जोखिम प्रबंधन]] पर शोध करने के लिए इन खतरों की ओर ध्यान आकर्षित करते हैं।<ref name="preprint" />{{rp|34}} | क्योंकि जीपीटी-3 ऐसे समाचार लेख उत्पन्न कर सकता है जिन्हें मानव मूल्यांकनकर्ताओं को मनुष्यों द्वारा लिखे गए लेखों से अलग करने में कठिनाई होती है,<ref name="analyticsindiamag_Sagar_20200603" />जीपीटी-3 में भाषा मॉडलों के लाभकारी और हानिकारक दोनों अनुप्रयोगों को आगे बढ़ाने की क्षमता है।<ref name="preprint" />{{rp|34}} अपने 28 मई, 2020 के लेख्य में, शोधकर्ताओं ने "जीपीटी-3 के हानिकारक प्रभावों" का विस्तार से वर्णन किया<ref name="analyticsindiamag_Sagar_20200603" />जिसमें गलत सूचना, [[स्पैमिंग]], [[फ़िशिंग]], [[प्रक्रिया का दुरुपयोग|कानूनी और सरकारी प्रक्रियाओं का दुरुपयोग]], [[अकादमिक बेईमानी|कपटपूर्ण शैक्षणिक निबंध लेखन]] और सोशल इंजीनियरिंग [[बहाना|का बहाना बनाना]] सम्मिलित हैं।<ref name="preprint" />लेखक [[जोखिम प्रबंधन]] पर शोध करने के लिए इन खतरों की ओर ध्यान आकर्षित करते हैं।<ref name="preprint" />{{rp|34}} | ||
| Line 98: | Line 98: | ||
जीपीटी-3 शून्य-शॉट और कुछ-शॉट सीखने (एक-शॉट सहित) करने में सक्षम है।<ref name="preprint" /> | जीपीटी-3 शून्य-शॉट और कुछ-शॉट सीखने (एक-शॉट सहित) करने में सक्षम है।<ref name="preprint" /> | ||
जून 2022 में, अलमीरा उस्मानोविक थुनस्ट्रॉम ने लिखा कि जीपीटी-3 स्वयं पर एक लेख का प्राथमिक लेखक था, जिसे उन्होंने प्रकाशन के लिए प्रस्तुत किया था | जून 2022 में, अलमीरा उस्मानोविक थुनस्ट्रॉम ने लिखा कि जीपीटी-3 स्वयं पर एक लेख का प्राथमिक लेखक था, जिसे उन्होंने प्रकाशन के लिए प्रस्तुत किया था<ref name="Thunström 2022">{{cite web |last=Thunström |first=Almira Osmanovic |title=हमने GPT-3 से अपने बारे में एक अकादमिक पेपर लिखने को कहा - फिर हमने इसे प्रकाशित करने की कोशिश की|website=Scientific American |date=2022-06-30 |url=https://www.scientificamerican.com/article/we-asked-gpt-3-to-write-an-academic-paper-about-itself-then-we-tried-to-get-it-published/ |access-date=2022-06-30 |archive-date=June 30, 2022 |archive-url=https://web.archive.org/web/20220630233635/https://www.scientificamerican.com/article/we-asked-gpt-3-to-write-an-academic-paper-about-itself-then-we-tried-to-get-it-published/ |url-status=live }}</ref> और इसकी समीक्षा पूरी होने की प्रतीक्षा करते हुए इसे पूर्व-प्रकाशित किया गया था।<ref name="Transformer Thunström Steingrimsson 2022">{{cite web |last1=Transformer |first1=Gpt Generative Pretrained |last2=Thunström |first2=Almira Osmanovic |last3=Steingrimsson |first3=Steinn |title=क्या GPT-3 न्यूनतम मानव इनपुट के साथ अपने आप में एक अकादमिक पेपर लिख सकता है?|website=Archive ouverte HAL |date=2022-06-21 |url=https://hal.archives-ouvertes.fr/hal-03701250 |language=fr |access-date=2022-06-30 |archive-date=June 30, 2022 |archive-url=https://web.archive.org/web/20220630233635/https://hal.archives-ouvertes.fr/hal-03701250 |url-status=live }}</ref> | ||
== मॉडल == | == मॉडल == | ||
Revision as of 23:43, 25 May 2023
| Original author(s) | OpenAI[1] |
|---|---|
| Initial release | June 11, 2020 (beta) |
| Predecessor | GPT-2 |
| Successor | GPT-3.5 |
| Type | |
| Website | openai |
जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर 3 (जीपीटी-3) 2020 में ओपन एआई द्वारा जारी एक स्वप्रतिगामी भाषा मॉडल है जो मानव-समान टेक्स्ट बनाने के लिए डीप लर्निंग का उपयोग करता है। जब एक संकेत दिया जाता है, तो यह पाठ उत्पन्न करेगा जो संकेत को जारी रखता है।
वस्तुकला एक डिकोडर-ओनली ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) है जिसमें 2048-लेक्सिकल विश्लेषण-लंबा संदर्भ और 175 बिलियन पैरामीटर (मशीन लर्निंग) का अभूतपूर्व आकार है, जिसे इकट्ठा करने के लिए 800GB की आवश्यकता होती है। मॉडल को जनरेटिव प्री-ट्रेनिंग का उपयोग करके प्रशिक्षित किया गया था, यह भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है कि अगला टोकन पिछले टोकन के आधार पर क्या है। मॉडल ने कई कार्यों पर मजबूत जीरो-शॉट लर्निंग और कुछ-शॉट लर्निंग (प्राकृतिक भाषा प्रसंस्करण) का प्रदर्शन किया।[2]
जीपीटी-2, जीपीटी-3 का उत्तराधिकारी ओपन एआई एक सैन फ्रांसिस्को स्थित कृत्रिम बुद्धिमत्ता अनुसंधान प्रयोगशाला द्वारा निर्मित नींव मॉडल की एक जीपीटी श्रृंखला में तीसरी पीढ़ी का भाषा पूर्वानुमान मॉडल है।[3]जीपीटी-3 जिसे मई 2020 में प्रस्तुत किया गया था और जुलाई 2020 तक बीटा परीक्षण में था,[4] पूर्व-प्रशिक्षित भाषा अभ्यावेदन की प्राकृतिक भाषा प्रसंस्करण (NLP) प्रणालियों में एक प्रवृत्ति का हिस्सा है।[1]
जीपीटी-3 द्वारा उत्पन्न पाठ की गुणवत्ता इतनी अधिक है कि यह निर्धारित करना मुश्किल हो सकता है कि यह किसी मानव द्वारा लिखा गया था या नहीं, जिसके लाभ और जोखिम दोनों हैं।[5]इकतीस ओपन एआई शोधकर्ताओं और इंजीनियरों ने जीपीटी-3 को प्रस्तुत करते हुए 28 मई 2020 को मूल लेख्य प्रस्तुत किया। अपने लेख्य में उन्होंने जीपीटी-3 के संभावित खतरों के बारे में आगाह किया और जोखिम को कम करने के लिए अनुसंधान का आह्वान किया।[1]: 34 डेविड चाल्मर्स एक ऑस्ट्रेलियाई दार्शनिक ने जीपीटी-3 को अब तक निर्मित सबसे दिलचस्प और महत्वपूर्ण एआई प्रणालियों में से एक के रूप में वर्णित किया।[6]द न्यू यॉर्क टाइम्स में अप्रैल 2022 की समीक्षा में जीपीटी-3 की क्षमताओं का वर्णन किया गया है, जो मानव के समतुल्य प्रवाह के साथ मूल गद्य लिखने में सक्षम हैं।[7]
माइक्रोसॉफ्ट ने 22 सितंबर 2020 को घोषणा की कि उसने जीपीटी-3 के "अनन्य" उपयोग का लाइसेंस प्राप्त कर लिया है, अन्य अभी भी आउटपुट प्राप्त करने के लिए सार्वजनिक एपीआई का उपयोग कर सकते हैं, लेकिन केवल माइक्रोसॉफ्ट के पास जीपीटी-3 के अंतर्निहित मॉडल तक पहुंच है।[8]
पृष्ठभूमि
अर्थशास्त्री के अनुसार बेहतर एल्गोरिदम, शक्तिशाली कंप्यूटर और डिजीटल डेटा में वृद्धि ने 2010 में नई तकनीकों के साथ यंत्र अधिगम में क्रांति को बढ़ावा दिया है, जिसके परिणामस्वरूप भाषा में हेरफेर सहित "कार्यों में तेजी से सुधार" हुआ है।[9] सॉफ़्टवेयर मॉडल को हज़ारों या लाखों उदाहरणों का उपयोग करके सीखने के लिए प्रशिक्षित किया जाता है ... "संरचना ... मस्तिष्क के तंत्रिका वास्तुकला पर आधारित" है।[9]प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में उपयोग कि जाने वाली एक वास्तुकला एक तंत्रिका नेटवर्क है जो एक गहन शिक्षण मॉडल पर आधारित है जिसे पहली बार 2017 में पेश किया गया था- ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) वास्तुकला।[10] कई एनएलपी प्रणालियां प्रसंस्करण, खनन, आयोजन, जोड़ने और शाब्दिक निवेश के विपरीत होने के साथ-साथ प्रश्नों के सही उत्तर देने में सक्षम हैं।[11]
11 जून 2018, को ओपन एआई के शोधकर्ताओं और इंजीनियरों ने पहला जनरेटिव पूर्व-प्रशिक्षित ट्रांसफॉर्मर (जीपीटी) का परिचय दिया गया था—एक प्रकार का जनरेटिव लार्ज लैंग्वेज मॉडलजो डेटासेट (मशीन लर्निंग) के माध्यम से एक विशाल और विविध टेक्स्ट कॉर्पस के साथ पूर्व-प्रशिक्षित होता है, जिसके बाद भेदभावपूर्ण फाइन-ट्यूनिंग (मशीन लर्निंग) होता है। किसी विशिष्ट कार्य पर ध्यान केंद्रित करने के लिए विवेकपूर्ण फाइन-ट्यूनिंग द्वारा जीपीटी मॉडल ट्रांसफ़ॉर्मर-आधारित डीप लर्निंग न्यूरल नेटवर्क वास्तुकला हैं। उस बिंदु तक सबसे अच्छा प्रदर्शन करने वाले तंत्रिका एनएलपी मॉडल ने सामान्यतौर पर बड़ी मात्रा में शारीरिक रूप से नामपत्र किए गए डेटा से सीखने की निगरानी की जिसने इसे बहुत बड़े भाषा मॉडल को प्रशिक्षित करने के लिए निषेधात्मक रूप से महंगा और समय लेने वाला बना दिया।[2]
उस पहले जीपीटी मॉडल को "जीपीटी-1" के रूप में जाना जाता है और उसके बाद फरवरी 2019 में "जीपीटी-2" का अनुसरण किया गया। जीपीटी-2 को जीपीटी-1 के प्रत्यक्ष स्केल-अप के रूप में बनाया गया था जिसमें इसके पैरामीटर गणना और डेटासेट आकार दोनों में 10 गुना वृद्धि हुई थी। इसमें 1.5 बिलियन पैरामीटर थे और इसे 8 मिलियन वेब पेजों के डेटासेट पर प्रशिक्षित किया गया था।[12] फरवरी 2020 में, माइक्रोसॉफ्ट ने अपना ट्यूरिंग नेचुरल लैंग्वेज जनरेशन (T-NLG) पेश किया जिसके बारे में दावा किया गया था कि यह 17 बिलियन मापदंडों पर प्रकाशित अब तक का सबसे बड़ा भाषा मॉडल है।[13] इसने विभिन्न प्रकार के कार्यों में किसी भी अन्य भाषा मॉडल से बेहतर प्रदर्शन किया जिसमें पाठों का सारांश और प्रश्नों के उत्तर सम्मिलित था।
प्रशिक्षण और क्षमताएं
The construct of “learning styles” is problematic because it fails to account for the processes through which learning styles are shaped. Some students might develop a particular learning style because they have had particular experiences. Others might develop a particular learning style by trying to accommodate to a learning environment that was not well suited to their learning needs. Ultimately, we need to understand the interactions among learning styles and environmental and personal factors, and how these shape how we learn and the kinds of learning we experience.
– Text generated by Mike Sharples[14]
28 मई 2020 को ओपन एआई में 31 इंजीनियरों और शोधकर्ताओं के एक समूह द्वारा एक arXiv प्रीप्रिंट ने जीपीटी-3 के विकास का वर्णन किया जो तीसरी पीढ़ी का "अत्याधुनिक भाषा मॉडल" है।[1][5] टीम ने जीपीटी-3 की क्षमता को अपने पूर्ववर्ती जीपीटी-2 की तुलना में परिमाण के दो क्रमों की वृद्धि की, "लैंग्वेज मॉडल्स अनसुपर्वाइज्ड मल्टीटास्क लर्नर्स हैं" (PDF). openai.com. Archived (PDF) from the original on December 12, 2019. Retrieved December 4, 2019. GPT-2, एक 1.5B पैरामीटर ट्रांसफॉर्मर है
</ref>जिससे जीपीटी-3 को अब तक का सबसे बड़ा गैर-विरल भाषा मॉडल बन गया[1]: 14 [3] क्योंकि जीपीटी-3 संरचनात्मक रूप से अपने पूर्ववर्तियों के समान है,[1]इसकी अधिक सटीकता को इसकी बढ़ी हुई क्षमता और अधिक संख्या में मापदंडों के लिए जिम्मेदार ठहराया जाता है।[15] जीपीटी-3 की क्षमता माइक्रोसॉफ्ट के ट्यूरिंग एनएलजी की तुलना में दस गुना अधिक है जो उस समय ज्ञात अगला सबसे बड़ा एनएलपी मॉडल था।<