जीपीटी-3: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 55: Line 55:
}}
}}


28 मई, 2020 को, OpenAI में 31 इंजीनियरों और शोधकर्ताओं के एक समूह द्वारा एक [[arXiv]] प्रीप्रिंट ने GPT-3 के विकास का वर्णन किया, जो तीसरी पीढ़ी का "अत्याधुनिक भाषा मॉडल" है।<ref name="preprint" /><ref name="analyticsindiamag_Sagar_20200603">{{Cite magazine| last = Sagar| first = Ram| title = OpenAI ने GPT-3 जारी किया, जो अब तक का सबसे बड़ा मॉडल है| magazine = Analytics India Magazine| access-date = July 31, 2020| date = June 3, 2020| url = https://analyticsindiamag.com/open-ai-gpt-3-language-model/| archive-date = August 4, 2020| archive-url = https://web.archive.org/web/20200804173452/https://analyticsindiamag.com/open-ai-gpt-3-language-model/| url-status = live}</ref> टीम ने GPT-3 की क्षमता को अपने पूर्ववर्ती GPT-2 की तुलना में परिमाण के दो क्रमों की वृद्धि की, रेफरी नाम = gpt2-साथ-उद्धरण>{{cite web |title=लैंग्वेज मॉडल्स अनसुपर्वाइज्ड मल्टीटास्क लर्नर्स हैं|url=https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |access-date=December 4, 2019 |quote="GPT-2, एक 1.5B पैरामीटर ट्रांसफॉर्मर है"|website=openai.com |archive-date=December 12, 2019 |archive-url=https://web.archive.org/web/20191212223916/https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |url-status=live }}<nowiki></ref></nowiki>जिससे GPT-3 को अब तक का सबसे बड़ा गैर-विरल भाषा मॉडल बन गया।<ref name="preprint"/>{{rp|14|quote="Since we increase the capacity by over two orders of magnitude from GPT-2 to GPT-3"}}<ref name="CNBC_Shead_20200723">{{Cite news| last = Shead| first = Sam| title = हर कोई एआई के बारे में क्यों बात कर रहा है? एलोन मस्क-समर्थित लैब द्वारा जारी किया गया टेक्स्ट जनरेटर| work = CNBC| access-date = July 31, 2020| date = July 23, 2020| url = https://www.cnbc.com/2020/07/23/openai-gpt3-explainer.html| archive-date = July 30, 2020| archive-url = https://web.archive.org/web/20200730123130/https://www.cnbc.com/2020/07/23/openai-gpt3-explainer.html| url-status = live}} 28 मई और 22 जुलाई, 2020 के बीच चार प्रीप्रिंट जारी किए गए थे।</ref> क्योंकि GPT-3 संरचनात्मक रूप से अपने पूर्ववर्तियों के समान है,<ref name="preprint" />इसकी अधिक सटीकता को इसकी बढ़ी हुई क्षमता और अधिक संख्या में मापदंडों के लिए जिम्मेदार ठहराया जाता है।<ref name="ZDNet_Tiernan_20200601">{{Cite web| last = Ray| first = Tiernan| date = June 1, 2020| title = OpenAI का विशाल GPT-3 AI के लिए भाषा मॉडल की सीमाओं पर संकेत देता है| work = ZDNet| access-date = July 31, 2020| url = https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/| archive-date = June 1, 2020| archive-url = https://web.archive.org/web/20200601081629/https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/| url-status = live}</ref> जीपीटी-3 की क्षमता माइक्रोसॉफ्ट के ट्यूरिंग एनएलजी की तुलना में दस गुना अधिक है, जो उस समय ज्ञात अगला सबसे बड़ा एनएलपी मॉडल था।<ref name="analyticsindiamag_Sagar_20200603" />
28 मई 2020 को OpenAI में 31 इंजीनियरों और शोधकर्ताओं के एक समूह द्वारा एक [[arXiv]] प्रीप्रिंट ने GPT-3 के विकास का वर्णन किया जो तीसरी पीढ़ी का "अत्याधुनिक भाषा मॉडल" है।<ref name="preprint" /><ref name="analyticsindiamag_Sagar_20200603">{{Cite magazine| last = Sagar| first = Ram| title = OpenAI ने GPT-3 जारी किया, जो अब तक का सबसे बड़ा मॉडल है| magazine = Analytics India Magazine| access-date = July 31, 2020| date = June 3, 2020| url = https://analyticsindiamag.com/open-ai-gpt-3-language-model/| archive-date = August 4, 2020| archive-url = https://web.archive.org/web/20200804173452/https://analyticsindiamag.com/open-ai-gpt-3-language-model/| url-status = live}</ref> टीम ने GPT-3 की क्षमता को अपने पूर्ववर्ती GPT-2 की तुलना में परिमाण के दो क्रमों की वृद्धि की, {{cite web |title=लैंग्वेज मॉडल्स अनसुपर्वाइज्ड मल्टीटास्क लर्नर्स हैं|url=https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |access-date=December 4, 2019 |quote="GPT-2, एक 1.5B पैरामीटर ट्रांसफॉर्मर है"|website=openai.com |archive-date=December 12, 2019 |archive-url=https://web.archive.org/web/20191212223916/https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf |url-status=live }}<nowiki></ref></nowiki>जिससे GPT-3 को अब तक का सबसे बड़ा गैर-विरल भाषा मॉडल बन गया।<ref name="preprint"/>{{rp|14|quote="Since we increase the capacity by over two orders of magnitude from GPT-2 to GPT-3"}}<ref name="CNBC_Shead_20200723">{{Cite news| last = Shead| first = Sam| title = हर कोई एआई के बारे में क्यों बात कर रहा है? एलोन मस्क-समर्थित लैब द्वारा जारी किया गया टेक्स्ट जनरेटर| work = CNBC| access-date = July 31, 2020| date = July 23, 2020| url = https://www.cnbc.com/2020/07/23/openai-gpt3-explainer.html| archive-date = July 30, 2020| archive-url = https://web.archive.org/web/20200730123130/https://www.cnbc.com/2020/07/23/openai-gpt3-explainer.html| url-status = live}} 28 मई और 22 जुलाई, 2020 के बीच चार प्रीप्रिंट जारी किए गए थे।</ref> क्योंकि GPT-3 संरचनात्मक रूप से अपने पूर्ववर्तियों के समान है,<ref name="preprint" />इसकी अधिक सटीकता को इसकी बढ़ी हुई क्षमता और अधिक संख्या में मापदंडों के लिए जिम्मेदार ठहराया जाता है।<ref name="ZDNet_Tiernan_20200601">{{Cite web| last = Ray| first = Tiernan| date = June 1, 2020| title = OpenAI का विशाल GPT-3 AI के लिए भाषा मॉडल की सीमाओं पर संकेत देता है| work = ZDNet| access-date = July 31, 2020| url = https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/| archive-date = June 1, 2020| archive-url = https://web.archive.org/web/20200601081629/https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/| url-status = live}</ref> जीपीटी-3 की क्षमता माइक्रोसॉफ्ट के ट्यूरिंग एनएलजी की तुलना में दस गुना अधिक है जो उस समय ज्ञात अगला सबसे बड़ा एनएलपी मॉडल था।<ref name="analyticsindiamag_Sagar_20200603" />


लैम्बडालैब्स ने 2020 में एक [[जीपीयू]] पर GPT-3 को प्रशिक्षित करने के लिए लगभग $4.6 मिलियन अमेरिकी डॉलर और 355 वर्षों की अनुमानित लागत का अनुमान लगाया,<ref name="lambdalabs">{{Citation | first1 = Chuan | last1 = Li | title = OpenAI's GPT-3 Language Model: A Technical Overview | date = June 3, 2020 | url = https://lambdalabs.com/blog/demystifying-gpt-3 | access-date = March 27, 2023 | archive-date = March 27, 2023 | archive-url = https://web.archive.org/web/20230327213811/https://lambdalabs.com/blog/demystifying-gpt-3 | url-status = live }}</ref> समानांतर में अधिक जीपीयू का उपयोग करके समय के साथ कम वास्तविक प्रशिक्षण।
लैम्बडालैब्स ने 2020 में एक [[जीपीयू]] पर GPT-3 को प्रशिक्षित करने के लिए लगभग $4.6 मिलियन अमेरिकी डॉलर और 355 वर्षों की अनुमानित लागत का अनुमान लगाया,<ref name="lambdalabs">{{Citation | first1 = Chuan | last1 = Li | title = OpenAI's GPT-3 Language Model: A Technical Overview | date = June 3, 2020 | url = https://lambdalabs.com/blog/demystifying-gpt-3 | access-date = March 27, 2023 | archive-date = March 27, 2023 | archive-url = https://web.archive.org/web/20230327213811/https://lambdalabs.com/blog/demystifying-gpt-3 | url-status = live }}</ref> समानांतर में अधिक जीपीयू का उपयोग करके समय के साथ कम वास्तविक प्रशिक्षण।
Line 88: Line 88:
| style="text-align:right; padding-right: 2em;" | 3%
| style="text-align:right; padding-right: 2em;" | 3%
|}
|}
चूँकि GPT-3 का प्रशिक्षण डेटा सर्वव्यापी था, इसलिए इसे विशिष्ट भाषा कार्यों के लिए और प्रशिक्षण की आवश्यकता नहीं है।<ref name="Medium_Bussler_20200721" />प्रशिक्षण डेटा में कभी-कभार जहरीली भाषा होती है और GPT-3 कभी-कभी अपने प्रशिक्षण डेटा की नकल करने के परिणामस्वरूप जहरीली भाषा उत्पन्न करता है। वाशिंगटन विश्वविद्यालय के एक अध्ययन में पाया गया कि GPT-3 ने [[GPT-2]] और CTRL के समान प्राकृतिक भाषा प्रसंस्करण मॉडल की तुलना में विषाक्तता स्तर पर जहरीली भाषा का उत्पादन किया। OpenAI ने GPT-3 द्वारा उत्पन्न विषाक्त भाषा की मात्रा को सीमित करने के लिए कई रणनीतियाँ लागू की हैं। परिणामस्वरूप, GPT-3 ने अपने पूर्ववर्ती मॉडल, GPT-1 की तुलना में कम जहरीली भाषा का उत्पादन किया, हालांकि इसने CTRL विकी की तुलना में जहरीली भाषा की अधिक पीढ़ियों और उच्च विषाक्तता दोनों का उत्पादन किया, जो पूरी तरह से विकिपीडिया डेटा पर प्रशिक्षित भाषा मॉडल है।<ref>{{Citation | first1 = Samuel | last1 = Gehman | first2 = Suchin | last2 = Gururangan | first3 = Maarten | last3 = Sap | first4 = Yejin | last4 = Choi | first5 = Noah A. | last5 = Smith  | title = REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models | pages = 3356–3369 | publisher = Association for Computational Linguistics | date = 16–20 November 2020 | arxiv = 2009.11462 }}</ref>
चूँकि GPT-3 का प्रशिक्षण डेटा सर्वव्यापी था इसलिए इसे विशिष्ट भाषा कार्यों के लिए और प्रशिक्षण की आवश्यकता नहीं है।<ref name="Medium_Bussler_20200721" />प्रशिक्षण डेटा में कभी-कभार जहरीली भाषा होती है और GPT-3 कभी-कभी अपने प्रशिक्षण डेटा की नकल करने के परिणामस्वरूप जहरीली भाषा उत्पन्न करता है। वाशिंगटन विश्वविद्यालय के एक अध्ययन में पाया गया कि GPT-3 ने [[GPT-2]] और CTRL के समान प्राकृतिक भाषा प्रसंस्करण मॉडल की तुलना में विषाक्तता स्तर पर जहरीली भाषा का उत्पादन किया। OpenAI ने GPT-3 द्वारा उत्पन्न विषाक्त भाषा की मात्रा को सीमित करने के लिए कई रणनीतियाँ लागू की हैं। परिणामस्वरूप GPT-3 ने अपने पूर्ववर्ती मॉडल GPT-1 की तुलना में कम जहरीली भाषा का उत्पादन किया, हालांकि इसने CTRL विकी की तुलना में जहरीली भाषा की अधिक पीढ़ियों और उच्च विषाक्तता दोनों का उत्पादन किया, जो पूरी तरह से विकिपीडिया डेटा पर प्रशिक्षित भाषा मॉडल है।<ref>{{Citation | first1 = Samuel | last1 = Gehman | first2 = Suchin | last2 = Gururangan | first3 = Maarten | last3 = Sap | first4 = Yejin | last4 = Choi | first5 = Noah A. | last5 = Smith  | title = REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models | pages = 3356–3369 | publisher = Association for Computational Linguistics | date = 16–20 November 2020 | arxiv = 2009.11462 }}</ref>
11 जून, 2020 को, OpenAI ने घोषणा की कि उपयोगकर्ता इसके उपयोगकर्ता के अनुकूल GPT-3 API - एक मशीन लर्निंग टूलसेट - तक पहुँच का अनुरोध कर सकते हैं - OpenAI को इस नई तकनीक की ताकत और सीमाओं का पता लगाने में मदद करने के लिए।<ref name="OpenAI_20200611">{{cite web |url=https://openai.com/blog/openai-api/ |date=June 11, 2020 |work=OpenAI |title=ओपनएआई एपीआई|access-date=July 31, 2020 |archive-date=June 11, 2020 |archive-url=https://web.archive.org/web/20200611150951/https://openai.com/blog/openai-api/ |url-status=live }}</ref><ref name="techcrunch_20200601">{{Cite web |title=OpenAI अपनी टेक्स्ट-आधारित AI क्षमताओं के लिए एक सर्व-उद्देश्यीय API बनाता है|work=TechCrunch |date=June 11, 2020 |access-date=July 31, 2020 |url= https://techcrunch.com/2020/06/11/openai-makes-an-all-purpose-api-for-its-text-based-ai-capabilities/ |quote=यदि आप कभी भी OpenAI के प्रशंसित मशीन लर्निंग टूलसेट को आज़माना चाहते हैं, तो यह बहुत आसान हो गया है। कंपनी ने एक एपीआई जारी किया है जो डेवलपर्स को अपने एआई टूल्स को "लगभग किसी भी अंग्रेजी भाषा के कार्य" पर कॉल करने देता है।|last=Coldewey|first=Devin|archive-url=https://web.archive.org/web/20211027000059/https://techcrunch.com/2020/06/11/openai-makes-an-all-purpose-api-for-its-text-based-ai-capabilities/|archive-date=October 27, 2021|url-status=live}}</ref> आमंत्रण में बताया गया है कि कैसे इस API में एक सामान्य-उद्देश्य वाला टेक्स्ट इन, टेक्स्ट आउट इंटरफ़ेस है जो सामान्य एकल उपयोग-मामले के बजाय लगभग किसी भी अंग्रेजी भाषा के कार्य को पूरा कर सकता है।<ref name="OpenAI_20200611" />एक उपयोगकर्ता के अनुसार, जिसकी OpenAI GPT-3 API की एक निजी प्रारंभिक रिलीज़ तक पहुंच थी, GPT-3 केवल कुछ सरल संकेतों के साथ आश्चर्यजनक रूप से सुसंगत पाठ लिखने में अच्छा था।<ref name="Arram_20200709">{{Cite web| last = Arram| title = GPT-3: एक ऐसा AI जो लगभग कुछ भी लिखने में बेहद अच्छा है| work = Arram Sabeti| access-date = July 31, 2020| date = July 9, 2020| url = https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/| archive-date = July 20, 2020| archive-url = https://web.archive.org/web/20200720192137/https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/| url-status = live}</ref> एक प्रारंभिक प्रयोग में 80 अमेरिकी विषयों को न्याय करने के लिए कहा गया था कि क्या लघु ~200 शब्दों के लेख मनुष्यों या GPT-3 द्वारा लिखे गए थे। प्रतिभागियों ने 52% समय सही ढंग से आंका, यादृच्छिक अनुमान लगाने से केवल थोड़ा बेहतर किया।<ref name="preprint" />
 
11 जून 2020 को OpenAI ने घोषणा की कि उपयोगकर्ता इसके उपयोगकर्ता के अनुकूल GPT-3 API - एक मशीन लर्निंग टूलसेट - तक पहुँच का अनुरोध कर सकते हैं - OpenAI को इस नई तकनीक की ताकत और सीमाओं का पता लगाने में मदद करने के लिए।<ref name="OpenAI_20200611">{{cite web |url=https://openai.com/blog/openai-api/ |date=June 11, 2020 |work=OpenAI |title=ओपनएआई एपीआई|access-date=July 31, 2020 |archive-date=June 11, 2020 |archive-url=https://web.archive.org/web/20200611150951/https://openai.com/blog/openai-api/ |url-status=live }}</ref><ref name="techcrunch_20200601">{{Cite web |title=OpenAI अपनी टेक्स्ट-आधारित AI क्षमताओं के लिए एक सर्व-उद्देश्यीय API बनाता है|work=TechCrunch |date=June 11, 2020 |access-date=July 31, 2020 |url= https://techcrunch.com/2020/06/11/openai-makes-an-all-purpose-api-for-its-text-based-ai-capabilities/ |quote=यदि आप कभी भी OpenAI के प्रशंसित मशीन लर्निंग टूलसेट को आज़माना चाहते हैं, तो यह बहुत आसान हो गया है। कंपनी ने एक एपीआई जारी किया है जो डेवलपर्स को अपने एआई टूल्स को "लगभग किसी भी अंग्रेजी भाषा के कार्य" पर कॉल करने देता है।|last=Coldewey|first=Devin|archive-url=https://web.archive.org/web/20211027000059/https://techcrunch.com/2020/06/11/openai-makes-an-all-purpose-api-for-its-text-based-ai-capabilities/|archive-date=October 27, 2021|url-status=live}}</ref> आमंत्रण में बताया गया है कि कैसे इस API में एक सामान्य-उद्देश्य वाला टेक्स्ट इन, टेक्स्ट आउट इंटरफ़ेस है जो सामान्य एकल उपयोग-मामले के बजाय लगभग किसी भी अंग्रेजी भाषा के कार्य को पूरा कर सकता है।<ref name="OpenAI_20200611" />एक उपयोगकर्ता के अनुसार जिसकी OpenAI GPT-3 API की एक निजी प्रारंभिक रिलीज़ तक पहुंच थी, GPT-3 केवल कुछ सरल संकेतों के साथ आश्चर्यजनक रूप से सुसंगत पाठ लिखने में अच्छा था।<ref name="Arram_20200709"><nowiki>{{Cite web| last = Arram| title = GPT-3: एक ऐसा AI जो लगभग कुछ भी लिखने में बेहद अच्छा है| work = Arram Sabeti| access-date = July 31, 2020| date = July 9, 2020| url = </nowiki>https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/| archive-date = July 20, 2020| archive-url = https://web.archive.org/web/20200720192137/https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/| url-status = live}</ref> एक प्रारंभिक प्रयोग में 80 अमेरिकी विषयों को न्याय करने के लिए कहा गया था कि क्या लघु ~200 शब्दों के लेख मनुष्यों या GPT-3 द्वारा लिखे गए थे। प्रतिभागियों ने 52% समय सही ढंग से निर्णय लिया यादृच्छिक अनुमान लगाने से केवल थोड़ा बेहतर किया।<ref name="preprint" />
 
18 नवंबर 2021 को OpenAI ने घोषणा की कि पर्याप्त सुरक्षा उपायों को लागू किया गया है  कि इसके API तक पहुंच अप्रतिबंधित होगी।<ref>{{Cite web |date=2021-11-18 |title=ओपनएआई का एपीआई अब बिना प्रतीक्षा सूची के उपलब्ध है|url=https://openai.com/blog/api-no-waitlist/ |access-date=2022-11-05 |website=OpenAI |language=en |archive-date=November 5, 2022 |archive-url=https://web.archive.org/web/20221105195042/https://openai.com/blog/api-no-waitlist/ |url-status=live }}</ref> OpenAI ने डेवलपर्स को एक कंटेंट मॉडरेशन टूल प्रदान किया है जो उन्हें OpenAI की सामग्री नीति का पालन करने में मदद करता है।<ref>{{Cite web |title=ओपनएआई एपीआई|url=https://beta.openai.com/ |access-date=2022-11-05 |website=beta.openai.com |language=en |archive-date=December 23, 2022 |archive-url=https://web.archive.org/web/20221223073027/https://beta.openai.com/ |url-status=live }}</ref> 27 जनवरी 2022 को OpenAI ने घोषणा की कि इसके नवीनतम GPT-3 भाषा मॉडल, जिन्हें सामूहिक रूप से InstructGPT के रूप में जाना जाता है, अब उनके [[API]] पर उपयोग की जाने वाली डिफ़ॉल्ट भाषा मॉडल थी। OpenAI के अनुसार InstructGPT ने ऐसी सामग्री का उत्पादन किया जो निर्देशों का बेहतर ढंग से पालन करके, कम गढ़े हुए तथ्यों को उत्पन्न करके, और कुछ हद तक कम विषाक्त सामग्री का उत्पादन करके उपयोगकर्ता के इरादों से बेहतर ढंग से जुड़ा हुआ था।<ref>{{Cite web |date=2022-01-27 |title=निर्देशों का पालन करने के लिए भाषा मॉडल को संरेखित करना|url=https://openai.com/blog/instruction-following/ |access-date=2022-11-05 |website=OpenAI |language=en |archive-date=November 5, 2022 |archive-url=https://web.archive.org/web/20221105195041/https://openai.com/blog/instruction-following/ |url-status=live }}</ref>


18 नवंबर, 2021 को, OpenAI ने घोषणा की कि पर्याप्त सुरक्षा उपाय लागू किए गए थे कि इसके API तक पहुंच अप्रतिबंधित होगी।<ref>{{Cite web |date=2021-11-18 |title=ओपनएआई का एपीआई अब बिना प्रतीक्षा सूची के उपलब्ध है|url=https://openai.com/blog/api-no-waitlist/ |access-date=2022-11-05 |website=OpenAI |language=en |archive-date=November 5, 2022 |archive-url=https://web.archive.org/web/20221105195042/https://openai.com/blog/api-no-waitlist/ |url-status=live }}</ref> OpenAI ने डेवलपर्स को एक कंटेंट मॉडरेशन टूल प्रदान किया है जो उन्हें OpenAI की सामग्री नीति का पालन करने में मदद करता है।<ref>{{Cite web |title=ओपनएआई एपीआई|url=https://beta.openai.com/ |access-date=2022-11-05 |website=beta.openai.com |language=en |archive-date=December 23, 2022 |archive-url=https://web.archive.org/web/20221223073027/https://beta.openai.com/ |url-status=live }}</ref> 27 जनवरी, 2022 को, OpenAI ने घोषणा की कि इसके नवीनतम GPT-3 भाषा मॉडल, जिन्हें सामूहिक रूप से InstructGPT के रूप में जाना जाता है, अब उनके [[API]] पर उपयोग की जाने वाली डिफ़ॉल्ट भाषा मॉडल थी। OpenAI के अनुसार, InstructGPT ने ऐसी सामग्री का उत्पादन किया जो बेहतर निर्देशों का पालन करके, कम गढ़े हुए तथ्यों को उत्पन्न करके, और कुछ हद तक कम विषाक्त सामग्री का उत्पादन करके उपयोगकर्ता के इरादों से बेहतर ढंग से जुड़ा हुआ था।<ref>{{Cite web |date=2022-01-27 |title=निर्देशों का पालन करने के लिए भाषा मॉडल को संरेखित करना|url=https://openai.com/blog/instruction-following/ |access-date=2022-11-05 |website=OpenAI |language=en |archive-date=November 5, 2022 |archive-url=https://web.archive.org/web/20221105195041/https://openai.com/blog/instruction-following/ |url-status=live }}</ref>
क्योंकि GPT-3 ऐसे समाचार लेख उत्पन्न कर सकता है जिन्हें मानव मूल्यांकनकर्ताओं को मनुष्यों द्वारा लिखे गए लेखों से अलग करने में कठिनाई होती है,<ref name="analyticsindiamag_Sagar_20200603" />GPT-3 में भाषा मॉडलों के लाभकारी और हानिकारक दोनों अनुप्रयोगों को आगे बढ़ाने की क्षमता है।<ref name="preprint" />{{rp|34}} अपने 28 मई, 2020 के पेपर में, शोधकर्ताओं ने GPT-3 के संभावित हानिकारक प्रभावों का विस्तार से वर्णन किया<ref name="analyticsindiamag_Sagar_20200603" />जिसमें गलत सूचना, [[स्पैमिंग]], [[फ़िशिंग]], [[प्रक्रिया का दुरुपयोग]], [[अकादमिक बेईमानी]] लेखन और सोशल इंजीनियरिंग [[बहाना]] शामिल हैं।<ref name="preprint" />लेखक [[जोखिम प्रबंधन]] पर शोध करने के लिए इन खतरों की ओर ध्यान आकर्षित करते हैं।<ref name="preprint" />{{rp|34}}
क्योंकि GPT-3 ऐसे समाचार लेख उत्पन्न कर सकता है जिन्हें मानव मूल्यांकनकर्ताओं को मनुष्यों द्वारा लिखे गए लेखों से अलग करने में कठिनाई होती है,<ref name="analyticsindiamag_Sagar_20200603" />GPT-3 में भाषा मॉडलों के लाभकारी और हानिकारक दोनों अनुप्रयोगों को आगे बढ़ाने की क्षमता है।<ref name="preprint" />{{rp|34}} अपने 28 मई, 2020 के पेपर में, शोधकर्ताओं ने GPT-3 के संभावित हानिकारक प्रभावों का विस्तार से वर्णन किया<ref name="analyticsindiamag_Sagar_20200603" />जिसमें गलत सूचना, [[स्पैमिंग]], [[फ़िशिंग]], [[प्रक्रिया का दुरुपयोग]], [[अकादमिक बेईमानी]] लेखन और सोशल इंजीनियरिंग [[बहाना]] शामिल हैं।<ref name="preprint" />लेखक [[जोखिम प्रबंधन]] पर शोध करने के लिए इन खतरों की ओर ध्यान आकर्षित करते हैं।<ref name="preprint" />{{rp|34}}



Revision as of 14:01, 23 May 2023

जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर 3(GPT-3)
Original author(s)OpenAI[1]
Initial releaseJune 11, 2020 (beta)
PredecessorGPT-2
SuccessorGPT-3.5
Type
Websiteopenai.com/blog/openai-api

जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर 3 (GPT-3) 2020 में OpenAI द्वारा जारी एक ऑटोरेग्रेसिव लैंग्वेज मॉडल है जो मानव-समान टेक्स्ट बनाने के लिए डीप लर्निंग का उपयोग करता है। जब एक संकेत दिया जाता है, तो यह पाठ उत्पन्न करेगा जो संकेत को जारी रखता है।

आर्किटेक्चर एक डिकोडर-ओनली ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) है जिसमें 2048-लेक्सिकल विश्लेषण-लंबा संदर्भ और 175 बिलियन पैरामीटर (मशीन लर्निंग) का अभूतपूर्व आकार है, जिसे स्टोर करने के लिए 800GB की आवश्यकता होती है। मॉडल को जनरेटिव प्री-ट्रेनिंग का उपयोग करके प्रशिक्षित किया गया था, यह भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है कि अगला टोकन पिछले टोकन के आधार पर क्या है। मॉडल ने कई कार्यों पर मजबूत जीरो-शॉट लर्निंग और कुछ-शॉट लर्निंग (प्राकृतिक भाषा प्रसंस्करण) का प्रदर्शन किया।[2]

GPT-2, GPT-3 का उत्तराधिकारी OpenAI एक सैन फ्रांसिस्को स्थित कृत्रिम बुद्धिमत्ता अनुसंधान प्रयोगशाला द्वारा निर्मित नींव मॉडल की एक GPT श्रृंखला में तीसरी पीढ़ी का भाषा पूर्वानुमान मॉडल है।[3]GPT-3 जिसे मई 2020 में प्रस्तुत किया गया था और जुलाई 2020 तक बीटा परीक्षण में था,[4] पूर्व-प्रशिक्षित भाषा अभ्यावेदन की प्राकृतिक भाषा प्रसंस्करण (NLP) प्रणालियों में एक प्रवृत्ति का हिस्सा है।[1]

GPT-3 द्वारा उत्पन्न पाठ की गुणवत्ता इतनी अधिक है कि यह निर्धारित करना मुश्किल हो सकता है कि यह किसी मानव द्वारा लिखा गया था या नहीं, जिसके लाभ और जोखिम दोनों हैं।[5]इकतीस OpenAI शोधकर्ताओं और इंजीनियरों ने GPT-3 को प्रस्तुत करते हुए 28 मई 2020 को मूल लेख्य प्रस्तुत किया। अपने लेख्य में उन्होंने GPT-3 के संभावित खतरों के बारे में आगाह किया और जोखिम को कम करने के लिए अनुसंधान का आह्वान किया।[1]: 34  डेविड चाल्मर्स एक ऑस्ट्रेलियाई दार्शनिक ने GPT-3 को अब तक निर्मित सबसे दिलचस्प और महत्वपूर्ण AI प्रणालियों में से एक के रूप में वर्णित किया।[6]द न्यू यॉर्क टाइम्स में अप्रैल 2022 की समीक्षा में GPT-3 की क्षमताओं का वर्णन किया गया है, जो मानव के समतुल्य प्रवाह के साथ मूल गद्य लिखने में सक्षम हैं।[7]

माइक्रोसॉफ्ट ने 22 सितंबर 2020 को घोषणा की कि उसने GPT-3 के "अनन्य" उपयोग का लाइसेंस प्राप्त कर लिया है, अन्य अभी भी आउटपुट प्राप्त करने के लिए सार्वजनिक एपीआई का उपयोग कर सकते हैं, लेकिन केवल माइक्रोसॉफ्ट के पास GPT-3 के अंतर्निहित मॉडल तक पहुंच है।[8]


पृष्ठभूमि

अर्थशास्त्री के अनुसार बेहतर एल्गोरिदम, शक्तिशाली कंप्यूटर और डिजीटल डेटा में वृद्धि ने 2010 में नई तकनीकों के साथ यंत्र अधिगम में क्रांति को बढ़ावा दिया है, जिसके परिणामस्वरूप भाषा में हेरफेर सहित "कार्यों में तेजी से सुधार" हुआ है।[9] सॉफ़्टवेयर मॉडल को हज़ारों या लाखों उदाहरणों का उपयोग करके सीखने के लिए प्रशिक्षित किया जाता है ... "संरचना ... मस्तिष्क के तंत्रिका वास्तुकला पर आधारित" है।[9]प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में उपयोग कि जाने वाली एक वास्तुकला एक तंत्रिका नेटवर्क है जो एक गहन शिक्षण मॉडल पर आधारित है जिसे पहली बार 2017 में पेश किया गया था- ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) वास्तुकला।[10] कई एनएलपी प्रणालियां प्रसंस्करण, खनन, आयोजन, जोड़ने और शाब्दिक इनपुट के विपरीत होने के साथ-साथ प्रश्नों के सही उत्तर देने में सक्षम हैं।[11]

11 जून 2018, को OpenAI के शोधकर्ताओं और इंजीनियरों ने पहला जनरेटिव पूर्व-प्रशिक्षित ट्रांसफॉर्मर (GPT) का परिचय दिया गया था—एक प्रकार का जनरेटिव लार्ज लैंग्वेज मॉडलजो डेटासेट (मशीन लर्निंग) के माध्यम से एक विशाल और विविध टेक्स्ट कॉर्पस के साथ पूर्व-प्रशिक्षित होता है, जिसके बाद भेदभावपूर्ण फाइन-ट्यूनिंग (मशीन लर्निंग) होता है। किसी विशिष्ट कार्य पर ध्यान केंद्रित करने के लिए विवेकपूर्ण फाइन-ट्यूनिंग द्वारा GPT मॉडल ट्रांसफ़ॉर्मर-आधारित डीप लर्निंग न्यूरल नेटवर्क आर्किटेक्चर हैं। उस बिंदु तक सबसे अच्छा प्रदर्शन करने वाले तंत्रिका एनएलपी मॉडल ने सामान्यतौर पर बड़ी मात्रा में मैन्युअल रूप से लेबल किए गए डेटा से सीखने की निगरानी की जिसने इसे बहुत बड़े भाषा मॉडल को प्रशिक्षित करने के लिए निषेधात्मक रूप से महंगा और समय लेने वाला बना दिया।[2]

उस पहले GPT मॉडल को "GPT-1" के रूप में जाना जाता है और उसके बाद फरवरी 2019 में "GPT-2" का अनुसरण किया गया। GPT-2 को GPT-1 के प्रत्यक्ष स्केल-अप के रूप में बनाया गया था जिसमें इसके पैरामीटर काउंट और डेटासेट आकार दोनों में 10 गुना वृद्धि हुई थी। इसमें 1.5 बिलियन पैरामीटर थे और इसे 8 मिलियन वेब पेजों के डेटासेट पर प्रशिक्षित किया गया था।[12] फरवरी 2020 में, Microsoft ने अपना ट्यूरिंग नेचुरल लैंग्वेज जनरेशन (T-NLG) पेश किया जिसके बारे में दावा किया गया था कि यह 17 बिलियन मापदंडों पर प्रकाशित अब तक का सबसे बड़ा भाषा मॉडल है।[13] इसने विभिन्न प्रकार के कार्यों में किसी भी अन्य भाषा मॉडल से बेहतर प्रदर्शन किया जिसमें पाठों का सारांश और प्रश्नों के उत्तर सम्मिलित था।

प्रशिक्षण और क्षमताएं

A sample student essay about pedagogy written by GPT-3

The construct of “learning styles” is problematic because it fails to account for the processes through which learning styles are shaped. Some students might develop a particular learning style because they have had particular experiences. Others might develop a particular learning style by trying to accommodate to a learning environment that was not well suited to their learning needs. Ultimately, we need to understand the interactions among learning styles and environmental and personal factors, and how these shape how we learn and the kinds of learning we experience.

– Text generated by Mike Sharples[14]

28 मई 2020 को OpenAI में 31 इंजीनियरों और शोधकर्ताओं के एक समूह द्वारा एक arXiv प्रीप्रिंट ने GPT-3 के विकास का वर्णन किया जो तीसरी पीढ़ी का "अत्याधुनिक भाषा मॉडल" है।[1][5] टीम ने GPT-3 की क्षमता को अपने पूर्ववर्ती GPT-2 की तुलना में परिमाण के दो क्रमों की वृद्धि की, "लैंग्वेज मॉडल्स अनसुपर्वाइज्ड मल्टीटास्क लर्नर्स हैं" (PDF). openai.com. Archived (PDF) from the original on December 12, 2019. Retrieved December 4, 2019. GPT-2, एक 1.5B पैरामीटर ट्रांसफॉर्मर है</ref>जिससे GPT-3 को अब तक का सबसे बड़ा गैर-विरल भाषा मॉडल बन गया।[1]: 14[3] क्योंकि GPT-3 संरचनात्मक रूप से अपने पूर्ववर्तियों के समान है,[1]इसकी अधिक सटीकता को इसकी बढ़ी हुई क्षमता और अधिक संख्या में मापदंडों के लिए जिम्मेदार ठहराया जाता है।[15] जीपीटी-3 की क्षमता माइक्रोसॉफ्ट के ट्यूरिंग एनएलजी की तुलना में दस गुना अधिक है जो उस समय ज्ञात अगला सबसे बड़ा एनएलपी मॉडल था।[5]

लैम्बडालैब्स ने 2020 में एक जीपीयू पर GPT-3 को प्रशिक्षित करने के लिए लगभग $4.6 मिलियन अमेरिकी डॉलर और 355 वर्षों की अनुमानित लागत का अनुमान लगाया,[16] समानांतर में अधिक जीपीयू का उपयोग करके समय के साथ कम वास्तविक प्रशिक्षण।

GPT-3 के लिए भारित पूर्व-प्रशिक्षण डेटासेट का साठ प्रतिशत सामान्य क्रॉल के फ़िल्टर किए गए संस्करण से आता है जिसमें 410 बिलियन बाइट जोड़ी-एन्कोडेड टोकन सम्मिलित हैं।[1]: 9  अन्य स्रोत WebText2 से 19 बिलियन टोकन है जो 22% का प्रतिनिधित्व करते हैं, Books1 से 12 बिलियन टोकन 8% का प्रतिनिधित्व करते हैं, 55 बिलियन टोकन Books2 से 8% का प्रतिनिधित्व करते हैं, और 3 बिलियन टोकन विकिपीडिया से 3% का प्रतिनिधित्व करते हैं।[1]: 9  GPT-3 को सैकड़ों अरबों शब्दों पर प्रशिक्षित किया गया था और यह CSS, JSX और पायथन अन्य में कोडिंग करने में भी सक्षम है।[4]

GPT-3 प्रशिक्षण डेटा[1]: 9 
Dataset # tokens Proportion
within training
Common Crawl 410 billion 60%
WebText2 19 billion 22%
Books1 12 billion 8%
Books2 55 billion 8%
Wikipedia 3 billion 3%

चूँकि GPT-3 का प्रशिक्षण डेटा सर्वव्यापी था इसलिए इसे विशिष्ट भाषा कार्यों के लिए और प्रशिक्षण की आवश्यकता नहीं है।[4]प्रशिक्षण डेटा में कभी-कभार जहरीली भाषा होती है और GPT-3 कभी-कभी अपने प्रशिक्षण डेटा की नकल करने के परिणामस्वरूप जहरीली भाषा उत्पन्न करता है। वाशिंगटन विश्वविद्यालय के एक अध्ययन में पाया गया कि GPT-3 ने GPT-2 और CTRL के समान प्राकृतिक भाषा प्रसंस्करण मॉडल की तुलना में विषाक्तता स्तर पर जहरीली भाषा का उत्पादन किया। OpenAI ने GPT-3 द्वारा उत्पन्न विषाक्त भाषा की मात्रा को सीमित करने के लिए कई रणनीतियाँ लागू की हैं। परिणामस्वरूप GPT-3 ने अपने पूर्ववर्ती मॉडल GPT-1 की तुलना में कम जहरीली भाषा का उत्पादन किया, हालांकि इसने CTRL विकी की तुलना में जहरीली भाषा की अधिक पीढ़ियों और उच्च विषाक्तता दोनों का उत्पादन किया, जो पूरी तरह से विकिपीडिया डेटा पर प्रशिक्षित भाषा मॉडल है।[17]

11 जून 2020 को OpenAI ने घोषणा की कि उपयोगकर्ता इसके उपयोगकर्ता के अनुकूल GPT-3 API - एक मशीन लर्निंग टूलसेट - तक पहुँच का अनुरोध कर सकते हैं - OpenAI को इस नई तकनीक की ताकत और सीमाओं का पता लगाने में मदद करने के लिए।[18][19] आमंत्रण में बताया गया है कि कैसे इस API में एक सामान्य-उद्देश्य वाला टेक्स्ट इन, टेक्स्ट आउट इंटरफ़ेस है जो सामान्य एकल उपयोग-मामले के बजाय लगभग किसी भी अंग्रेजी भाषा के कार्य को पूरा कर सकता है।[18]एक उपयोगकर्ता के अनुसार जिसकी OpenAI GPT-3 API की एक निजी प्रारंभिक रिलीज़ तक पहुंच थी, GPT-3 केवल कुछ सरल संकेतों के साथ आश्चर्यजनक रूप से सुसंगत पाठ लिखने में अच्छा था।[20] एक प्रारंभिक प्रयोग में 80 अमेरिकी विषयों को न्याय करने के लिए कहा गया था कि क्या लघु ~200 शब्दों के लेख मनुष्यों या GPT-3 द्वारा लिखे गए थे। प्रतिभागियों ने 52% समय सही ढंग से निर्णय लिया यादृच्छिक अनुमान लगाने से केवल थोड़ा बेहतर किया।[1]

18 नवंबर 2021 को OpenAI ने घोषणा की कि पर्याप्त सुरक्षा उपायों को लागू किया गया है कि इसके API तक पहुंच अप्रतिबंधित होगी।[21] OpenAI ने डेवलपर्स को एक कंटेंट मॉडरेशन टूल प्रदान किया है जो उन्हें OpenAI की सामग्री नीति का पालन करने में मदद करता है।[22] 27 जनवरी 2022 को OpenAI ने घोषणा की कि इसके नवीनतम GPT-3 भाषा मॉडल, जिन्हें सामूहिक रूप से InstructGPT के रूप में जाना जाता है, अब उनके API पर उपयोग की जाने वाली डिफ़ॉल्ट भाषा मॉडल थी। OpenAI के अनुसार InstructGPT ने ऐसी सामग्री का उत्पादन किया जो निर्देशों का बेहतर ढंग से पालन करके, कम गढ़े हुए तथ्यों को उत्पन्न करके, और कुछ हद तक कम विषाक्त सामग्री का उत्पादन करके उपयोगकर्ता के इरादों से बेहतर ढंग से जुड़ा हुआ था।[23]

क्योंकि GPT-3 ऐसे समाचार लेख उत्पन्न कर सकता है जिन्हें मानव मूल्यांकनकर्ताओं को मनुष्यों द्वारा लिखे गए लेखों से अलग करने में कठिनाई होती है,[5]GPT-3 में भाषा मॉडलों के लाभकारी और हानिकारक दोनों अनुप्रयोगों को आगे बढ़ाने की क्षमता है।[1]: 34  अपने 28 मई, 2020 के पेपर में, शोधकर्ताओं ने GPT-3 के संभावित हानिकारक प्रभावों का विस्तार से वर्णन किया[5]जिसमें गलत सूचना, स्पैमिंग, फ़िशिंग, प्रक्रिया का दुरुपयोग, अकादमिक बेईमानी लेखन और सोशल इंजीनियरिंग बहाना शामिल हैं।[1]लेखक जोखिम प्रबंधन पर शोध करने के लिए इन खतरों की ओर ध्यान आकर्षित करते हैं।[1]: 34 

GPT-3 शून्य-शॉट और कुछ-शॉट सीखने (एक-शॉट सहित) करने में सक्षम है।[1]

जून 2022 में, अल्मीरा उस्मानोविक थुनस्ट्रॉम ने लिखा कि GPT-3 अपने आप में एक लेख का प्राथमिक लेखक था, जिसे उन्होंने प्रकाशन के लिए प्रस्तुत किया था,[24] और यह कि इसकी समीक्षा पूरी होने की प्रतीक्षा करते हुए इसे पूर्व-प्रकाशित किया गया था।[25]

मॉडल

सात मॉडल हैं।[26] इनमें #GPT-3.5|GPT-3.5 और OpenAI कोडेक्स शामिल नहीं हैं।

  • पाठ-क्यूरी-001
  • टेक्स्ट-बबेज-001
  • पाठ-अदा-001
  • दा विंसी
  • क्यूरी
  • बकवास
  • अदा

रिसेप्शन

अनुप्रयोग

  • GPT-3, विशेष रूप से OpenAI कोडेक्स, GitHub Copilot का आधार है, जो एक कोड पूर्णता और जनरेशन सॉफ़्टवेयर है जिसका उपयोग विभिन्न कोड संपादकों और IDE में किया जा सकता है।[27][28]
  • GPT-3 का उपयोग कुछ Microsoft उत्पादों में पारंपरिक भाषा को औपचारिक कंप्यूटर कोड में अनुवाद करने के लिए किया जाता है।[29][30]
  • कोडेक्सडीबी में GPT-3 का इस्तेमाल किया गया है[31] SQL प्रसंस्करण के लिए क्वेरी-विशिष्ट कोड उत्पन्न करने के लिए।
  • GPT-3 का उपयोग जेसन रोहरर द्वारा प्रोजेक्ट दिसंबर नाम के एक रेट्रो-थीम वाले चैटबॉट प्रोजेक्ट में किया गया है, जो ऑनलाइन उपलब्ध है और उपयोगकर्ताओं को GPT-3 तकनीक का उपयोग करके कई AI के साथ बातचीत करने की अनुमति देता है।[32]
  • GPT-3 का उपयोग अभिभावक द्वारा AI के मानव के लिए हानिकारक होने के बारे में एक लेख लिखने के लिए किया गया था। इसमें कुछ विचार दिए गए और आठ अलग-अलग निबंध तैयार किए गए, जिन्हें अंततः एक लेख में मिला दिया गया।[33]
  • GPT-3 का उपयोग AI डंगऑन में किया गया था, जो पाठ-आधारित साहसिक खेल उत्पन्न करता है। बाद में OpenAI ने जनरेट की गई सामग्री के संबंध में अपनी नीति में बदलाव के बाद इसे एक प्रतिस्पर्धी मॉडल से बदल दिया।[34][35]
  • GPT-3 का उपयोग प्रतिलिपि (प्रकाशन) और अन्य विपणन सामग्री लिखने में सहायता के लिए किया जाता है।[36]
  • ड्रेक्सेल विश्वविद्यालय के 2022 के एक अध्ययन ने सुझाव दिया कि जीपीटी-3-आधारित सिस्टम का उपयोग अल्जाइमर रोग के शुरुआती लक्षणों की जांच के लिए किया जा सकता है।[37][38]

समीक्षा

दी न्यू यौर्क टाइम्स में जुलाई 2020 की समीक्षा में, फरहाद मंजू ने कहा कि GPT-3 की कंप्यूटर कोड, कविता और गद्य उत्पन्न करने की क्षमता न केवल अद्भुत, डरावनी और विनम्र है, बल्कि थोड़ी भयानक से भी अधिक है।[39]

  • डेली नूस ने GPT-3 पर नौ दार्शनिकों द्वारा लेखों की एक श्रृंखला प्रस्तुत की।