एआई त्वरक: Difference between revisions
No edit summary |
No edit summary |
||
| Line 1: | Line 1: | ||
{{Short description|Hardware acceleration unit for artificial intelligence tasks}} | {{Short description|Hardware acceleration unit for artificial intelligence tasks}} | ||
'''एआई त्वरक''' एक विशेष तकनीकी त्वरक<ref>{{cite web |url=https://www.v3.co.uk/v3-uk/news/3014293/intel-unveils-movidius-compute-stick-usb-ai-accelerator |title=इंटेल ने Movidius Compute Stick USB AI Accelerator पेश किया|date=July 21, 2017 |access-date=August 11, 2017 |url-status=dead |archive-url=https://web.archive.org/web/20170811193632/https://www.v3.co.uk/v3-uk/news/3014293/intel-unveils-movidius-compute-stick-usb-ai-accelerator |archive-date=August 11, 2017 }}</ref> या कंप्यूटर सिस्टम <ref>{{cite web |url=https://insidehpc.com/2017/06/inspurs-unveils-gx4-ai-accelerator/ |title=Inspurs unveils GX4 AI Accelerator |date=June 21, 2017}}</ref><ref>{{citation |title=Neural Magic raises $15 million to boost AI inferencing speed on off-the-shelf processors |last=Wiggers |first=Kyle |date=November 6, 2019 |url=https://venturebeat.com/2019/11/06/neural-magic-raises-15-million-to-boost-ai-training-speed-on-off-the-shelf-processors/ |publication-date=November 6, 2019 |orig-year=2019 |archive-url=https://web.archive.org/web/20200306120524/https://venturebeat.com/2019/11/06/neural-magic-raises-15-million-to-boost-ai-training-speed-on-off-the-shelf-processors/ |archive-date=March 6, 2020 |access-date=March 14, 2020}}</ref> की एक श्रेणी है जो [[कृत्रिम तंत्रिका नेटवर्क]] और [[मशीन दृष्टि]] एप्लिकेशन को त्वरित करने के लिए डिज़ाइन की गई होती है, जिसमें कृत्रिम संज्ञानी नेटवर्क और मशीन विज़न सम्मलित होते हैं। सामान्यतः ये अनुप्रयोगों में [[रोबोटिक]], [[चीजों की इंटरनेट|इंटरनेट ऑफ थिंग्स]] और अन्य [[डेटा (कंप्यूटिंग)]]-प्रभावित या सेंसर-नियंत्रित कार्यों के लिए होते हैं।<ref>{{cite web |url=https://www.eetimes.com/google-designing-ai-processors/ |title=Google Designing AI Processors}} Google using its own AI accelerators.</ref> ये अधिकांशतः कई कोर डिजाइन होते हैं और सामान्यतः [[सटीक (कंप्यूटर विज्ञान)]] कम-परिशुद्धता अंकगणित, उपन्यास [[डेटाफ्लो आर्किटेक्चर]] या [[इन-मेमोरी कंप्यूटिंग]] क्षमता पर ध्यान केंद्रित करते हैं। {{As of|2018}}, एक साधारण AI एकीक चिप में अब अरबों में भी मॉसफेट [[ट्रांजिस्टर की गिनती|ट्रांजिस्टर]] होते हैं।<ref name="computerhistory2018">{{cite web |title=13 Sextillion & Counting: The Long & Winding Road to the Most Frequently Manufactured Human Artifact in History |url=https://computerhistory.org/blog/13-sextillion-counting-the-long-winding-road-to-the-most-frequently-manufactured-human-artifact-in-history/?key=13-sextillion-counting-the-long-winding-road-to-the-most-frequently-manufactured-human-artifact-in-history |date=April 2, 2018 |website=[[Computer History Museum]] |access-date=July 28, 2019}}</ref> इस श्रेणी में उपकरणों के लिए कई विक्रेता-विशिष्ट शब्द उपस्थित होते हैं, और यह एक [[प्रमुख डिजाइन]] के बिना उभरती हुई प्रौद्योगिकियां हैं। | |||
== इतिहास == | == इतिहास == | ||
कंप्यूटर सिस्टम ने सीपीयू के साथ विशेष उद्दीपकों का उपयोग विशेष कार्यों के लिए किया जाता रहा है, जिसे [[ सह प्रोसेसर |कोप्रोसेसर]] के रूप में जाना जाता है। प्रमुख एप्लिकेशन-विशिष्ट हार्डवेयर इकाइयों में ग्राफिक्स के लिए [[ कंप्यूटर चित्रलेख |कंप्यूटर चित्रलेख]] , [[ अच्छा पत्रक |अच्छा पत्रक]] , [[ ग्राफ़िक्स प्रोसेसिंग युनिट |ग्राफ़िक्स प्रोसेसिंग युनिट]] और [[डिजिटल सिग्नल प्रोसेसर]] के लिए [[वीडियो कार्ड]] सम्मलित हैं। जैसा कि 2010 के दशक में गहन शिक्षण और आर्टिफिशियल इंटेलिजेंस वर्कलोड प्रमुखता से बढ़ा, विशेष हार्डवेयर इकाइयां विकसित की गईं या उपस्थित उत्पादों से इन कार्यों को हार्डवेयर त्वरण के लिए अनुकूलित किया गया। AI त्वरक के प्रदर्शन का मूल्यांकन करने के लिए MLPerf जैसे बेंचमार्क का उपयोग किया जा सकता है।<ref>{{cite web | url=https://www.theregister.com/2022/09/09/nvidia_hopper_mlperf/ | title=Nvidia claims 'record performance' for Hopper MLPerf debut }}</ref> | कंप्यूटर सिस्टम ने सीपीयू के साथ विशेष उद्दीपकों का उपयोग विशेष कार्यों के लिए किया जाता रहा है, जिसे [[ सह प्रोसेसर |कोप्रोसेसर]] के रूप में जाना जाता है। प्रमुख एप्लिकेशन-विशिष्ट हार्डवेयर इकाइयों में ग्राफिक्स के लिए [[ कंप्यूटर चित्रलेख |कंप्यूटर चित्रलेख]] , [[ अच्छा पत्रक |अच्छा पत्रक]] , [[ ग्राफ़िक्स प्रोसेसिंग युनिट |ग्राफ़िक्स प्रोसेसिंग युनिट]] और [[डिजिटल सिग्नल प्रोसेसर]] के लिए [[वीडियो कार्ड]] सम्मलित हैं। जैसा कि 2010 के दशक में गहन शिक्षण और आर्टिफिशियल इंटेलिजेंस वर्कलोड प्रमुखता से बढ़ा, विशेष हार्डवेयर इकाइयां विकसित की गईं या उपस्थित उत्पादों से इन कार्यों को हार्डवेयर त्वरण के लिए अनुकूलित किया गया। AI त्वरक के प्रदर्शन का मूल्यांकन करने के लिए MLPerf जैसे बेंचमार्क का उपयोग किया जा सकता है।<ref>{{cite web | url=https://www.theregister.com/2022/09/09/nvidia_hopper_mlperf/ | title=Nvidia claims 'record performance' for Hopper MLPerf debut }}</ref> | ||
=== प्रारंभिक प्रयास === | === प्रारंभिक प्रयास === | ||
पहली प्रयासों में [[इंटेल]] के ETANN 80170NX में न्यूरल फंक्शन की गणना के लिए एनालॉग सर्किट सम्मलित किए गए था।<ref>John C. Dvorak: ''Intel’s 80170 chip has the theoretical intelligence of a cockroach'' in PC Magazine Volume 9 Number 10 (May 1990), p. 77, [https://archive.org/details/PC_Magazine_1990_05_29_v9n10/page/n83/mode/2up], retrieved May 16, 2021</ref> बाद में नेस्टर/इंटेल [[Ni1000]] जैसे सभी-डिजिटल चिप्स का अनुसरण किया गया था। 1993 की प्रारंभिक में, | पहली प्रयासों में [[इंटेल]] के ETANN 80170NX में न्यूरल फंक्शन की गणना के लिए एनालॉग सर्किट सम्मलित किए गए था।<ref>John C. Dvorak: ''Intel’s 80170 chip has the theoretical intelligence of a cockroach'' in PC Magazine Volume 9 Number 10 (May 1990), p. 77, [https://archive.org/details/PC_Magazine_1990_05_29_v9n10/page/n83/mode/2up], retrieved May 16, 2021</ref> बाद में नेस्टर/इंटेल [[Ni1000]] जैसे सभी-डिजिटल चिप्स का अनुसरण किया गया था। 1993 की प्रारंभिक में, ऑप्टिकल कैरेक्टर मान्यता सॉफ़्टवेयर को गति देने के लिए डिजिटल सिग्नल प्रोसेसर का उपयोग तंत्रिका नेटवर्क त्वरक के रूप में किया गया था।<ref>{{cite web |url=https://www.youtube.com/watch?v=FwFduRA_L6Q |title=convolutional neural network demo from 1993 featuring DSP32 accelerator|website=[[YouTube]] }}</ref> 1990 के दशक में, तंत्रिका नेटवर्क सिमुलेशन सहित विभिन्न अनुप्रयोगों के उद्देश्य से कार्यस्थानों के लिए समानांतर उच्च-थ्रूपुट सिस्टम बनाने का भी प्रयास किया गया था।<ref name="krste">{{Cite web|url=http://people.eecs.berkeley.edu/~krste/papers/cns-injs1993.ps|title=design of a connectionist network supercomputer}}</ref><ref name="krste general purpose">{{cite web |title=सामान्य प्रयोजन के कंप्यूटर का अंत (नहीं)| website=[[YouTube]] |url=https://www.youtube.com/watch?v=VtJthbiiTBQ}}This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)</ref><ref>{{cite book |doi=10.1109/IPPS.1995.395862 |title=Proceedings of 9th International Parallel Processing Symposium |pages=774–781 |year=1995 |last1=Ramacher |first1=U. |last2=Raab |first2=W. |last3=Hachmann |first3=J.A.U. |last4=Beichter |first4=J. |last5=Bruls |first5=N. |last6=Wesseling |first6=M. |last7=Sicheneder |first7=E. |last8=Glass |first8=J. |last9=Wurz |first9=A. |last10=Manner |first10=R. |isbn=978-0-8186-7074-9 |citeseerx=10.1.1.27.6410 |s2cid=16364797}}</ref> [[क्षेत्र में प्रोग्राम की जा सकने वाली द्वार श्रंखला]] त्वरक भी पहली बार 1990 के दशक में दोनों अनुमानों के लिए खोजे गए थे।<ref name="fpga-inference">{{Cite web|url=https://www.researchgate.net/publication/2318589|title=Space Efficient Neural Net Implementation}}</ref> और प्रशिक्षण <ref name="fpga-training">{{cite book |chapter=A Generic Building Block for Hopfield Neural Networks with On-Chip Learning |year=1996 |doi=10.1109/ISCAS.1996.598474 |s2cid=17630664 |title=1996 IEEE International Symposium on Circuits and Systems. Circuits and Systems Connecting the World. ISCAS 96 |last1=Gschwind |first1=M. |last2=Salapura |first2=V. |last3=Maischberger |first3=O. |pages=49–52 |isbn=0-7803-3073-0}}</ref> दोनों के लिए अन्वेषण किए गए था। 2015 में [[क्वालकॉम स्नैपड्रैगन 820]] के साथ [[स्मार्टफोन]] में एआई त्वरक्स का इस्तेमाल शुरू हुआ था।<ref>{{Cite web|title=क्वालकॉम नई स्नैपड्रैगन मशीन लर्निंग सॉफ्टवेयर डेवलपमेंट किट के साथ आपके मोबाइल उपकरणों को स्मार्ट बनाने में मदद करता है|url=https://www.qualcomm.com/news/releases/2016/05/02/qualcomm-helps-make-your-mobile-devices-smarter-new-snapdragon-machine|url-status=live|website=Qualcomm}}</ref><ref>{{Cite web|last=Rubin|first=Ben Fox|title=Qualcomm का Zeroth प्लेटफॉर्म आपके स्मार्टफोन को ज्यादा स्मार्ट बना सकता है|url=https://www.cnet.com/tech/mobile/qualcomms-zeroth-platform-could-make-your-smartphone-much-smarter/|access-date=September 28, 2021|website=CNET|language=en}}</ref> | ||
=== विषम कंप्यूटिंग === | === विषम कंप्यूटिंग === | ||
{{Main|विषम कंप्यूटिंग}} | {{Main|विषम कंप्यूटिंग}} | ||
विषमसाधन कंप्यूटिंग का मतलब होता है किसी एकल सिस्टम या एकल चिप में कई विशेषकृत प्रोसेसरों को सम्मलित करना, जो प्रतिष्ठित प्रकार के कार्य के लिए अनुकूलित होते हैं। आर्किटेक्चर जैसे [[सेल (माइक्रोप्रोसेसर)]]<ref name="cell">{{cite journal |title=सेल के मल्टीकोर आर्किटेक्चर में सिनर्जिस्टिक प्रोसेसिंग|year=2006 |doi=10.1109/MM.2006.41 |s2cid=17834015 |last1=Gschwind |first1=Michael |last2=Hofstee |first2=H. Peter |last3=Flachs |first3=Brian |last4=Hopkins |first4=Martin |last5=Watanabe |first5=Yukio |last6=Yamazaki |first6=Takeshi |journal=IEEE Micro |volume=26 |issue=2 |pages=10–24}}</ref> में AI | विषमसाधन कंप्यूटिंग का मतलब होता है किसी एकल सिस्टम या एकल चिप में कई विशेषकृत प्रोसेसरों को सम्मलित करना, जो प्रतिष्ठित प्रकार के कार्य के लिए अनुकूलित होते हैं। आर्किटेक्चर जैसे [[सेल (माइक्रोप्रोसेसर)]]<ref name="cell">{{cite journal |title=सेल के मल्टीकोर आर्किटेक्चर में सिनर्जिस्टिक प्रोसेसिंग|year=2006 |doi=10.1109/MM.2006.41 |s2cid=17834015 |last1=Gschwind |first1=Michael |last2=Hofstee |first2=H. Peter |last3=Flachs |first3=Brian |last4=Hopkins |first4=Martin |last5=Watanabe |first5=Yukio |last6=Yamazaki |first6=Takeshi |journal=IEEE Micro |volume=26 |issue=2 |pages=10–24}}</ref> में AI त्वरक्स के समर्थन में सामरिक विशेषताएं होती हैं, जिनमें सम्मिलित निम्न परिशुद्धता गणना, डेटाफ्लो आर्किटेक्चर, और लेटेंसी के स्थान पर 'संचार क्षमता' को प्राथमिकता देना सम्मलित होती है। निम्न परिशुद्धता डेटा प्रकार के समर्थन के साथ, सेल माइक्रोप्रोसेसर को बाद में कई कार्यों<ref>{{cite journal |title=बायोमोलेक्युलर सिमुलेशन के लिए सेल प्रोसेसर का प्रदर्शन|journal=Computer Physics Communications |volume=176 |issue=11–12 |pages=660–664 |arxiv=physics/0611201 |doi=10.1016/j.cpc.2007.02.107 |year=2007 |last1=De Fabritiis |first1=G. |bibcode=2007CoPhC.176..660D |s2cid=13871063}}</ref><ref>{{cite book |title=सेल आर्किटेक्चर पर वीडियो प्रोसेसिंग और रिट्रीवल|citeseerx=10.1.1.138.5133}}</ref><ref>{{cite book |doi=10.1109/RT.2006.280210 |title=2006 IEEE Symposium on Interactive Ray Tracing |pages=15–23 |year=2006 |last1=Benthin |first1=Carsten |last2=Wald |first2=Ingo |last3=Scherbaum |first3=Michael |last4=Friedrich |first4=Heiko |isbn=978-1-4244-0693-7 |citeseerx=10.1.1.67.8982 |s2cid=1198101}}</ref> <ref>{{Cite web|url=https://www.teco.edu/~scholz/papers/ScholzDiploma.pdf|title=Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals}}</ref> में सम्मलित किया गया, जिसमें AI भी सम्मलित है।<ref>{{cite book |doi=10.1109/ccnc08.2007.235 |title=2008 5th IEEE Consumer Communications and Networking Conference |pages=1030–1034 |year=2008 |last1=Kwon |first1=Bomjun |last2=Choi |first2=Taiho |last3=Chung |first3=Heejin |last4=Kim |first4=Geonho |isbn=978-1-4244-1457-4 |s2cid=14429828}}</ref><ref>{{cite book |doi=10.1007/978-3-540-85451-7_71 |title=Euro-Par 2008 – Parallel Processing |volume=5168 |pages=665–675 |series=Lecture Notes in Computer Science |year=2008 |last1=Duan |first1=Rubing |last2=Strey |first2=Alfred |isbn=978-3-540-85450-0}}</ref> | ||
2000 के दशक में, सीपीयू में भी विस्तारित [[SIMD]] इकाइयों का व्यापक उपयोग हुआ, वीडियो और गेमिंग लोड के प्रेरणा से; साथ ही निम्न परिशुद्धता डेटा प्रकार का समर्थन भी किया गया है।<ref>{{cite web |title=AVX के साथ वीडियो के प्रदर्शन में सुधार|url=https://software.intel.com/content/www/us/en/develop/articles/improving-the-compute-performance-of-video-processing-software-using-avx-advanced-vector-extensions-instructions.html |date=February 8, 2012}}</ref> सीपीयू की प्रदर्शन में वृद्धि के कारण, इसका उपयोग भी AI कार्यों को चलाने के लिए हो रहा है। सीपीयू माध्यम या मध्यम अस्पष्टता वाले डीएनएन में, बिखरी हुई डीएनएन में और कम-बैच-साइज़ स्थितियों में बेहतर होते हैं। | 2000 के दशक में, सीपीयू में भी विस्तारित [[SIMD]] इकाइयों का व्यापक उपयोग हुआ, वीडियो और गेमिंग लोड के प्रेरणा से; साथ ही निम्न परिशुद्धता डेटा प्रकार का समर्थन भी किया गया है।<ref>{{cite web |title=AVX के साथ वीडियो के प्रदर्शन में सुधार|url=https://software.intel.com/content/www/us/en/develop/articles/improving-the-compute-performance-of-video-processing-software-using-avx-advanced-vector-extensions-instructions.html |date=February 8, 2012}}</ref> सीपीयू की प्रदर्शन में वृद्धि के कारण, इसका उपयोग भी AI कार्यों को चलाने के लिए हो रहा है। सीपीयू माध्यम या मध्यम अस्पष्टता वाले डीएनएन में, बिखरी हुई डीएनएन में और कम-बैच-साइज़ स्थितियों में बेहतर होते हैं। | ||
| Line 19: | Line 15: | ||
=== जीपीयू का प्रयोग === | === जीपीयू का प्रयोग === | ||
ग्राफिक्स प्रोसेसिंग यूनिट या जीपीयू की विशेषज्ञ हार्डवेयर में छवि के प्रसंस्करण और स्थानीय छवि गुणों की गणना के लिए उपयोग किया जाता है। न्यूरल नेटवर्क और [[ग्राफिक्स पाइपलाइन]] का गणितीय आधार समान होती है, शर्मनाक रूप से समानांतर कार्य जिसमें मैट्रिसेस सम्मलित हैं, अग्रणी जीपीयू मशीन सीखने के कार्यों के लिए तेजी से उपयोग किया जाता है।<ref>{{cite web |url=https://hal.inria.fr/inria-00112631/document |title=microsoft research/pixel shaders/MNIST}}</ref><ref>{{Cite web|url=http://igoro.com/archive/how-gpu-came-to-be-used-for-general-computation/|title=How GPU came to be used for general computation}}</ref><ref>{{Cite web|url=https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf|title=ImageNet Classification with Deep Convolutional Neural Networks}}</ref> {{As of|2016}}, GPUs AI कार्य के लिए लोकप्रिय हैं, और वे प्रशिक्षण के लिए गहन शिक्षण की सुविधा के लिए एक दिशा में विकसित होना जारी रखते हैं<ref>{{cite web |title=एनवीडिया गहन शिक्षा के विकास को चला रहा है|url=https://insidehpc.com/2016/05/nvidia-driving-the-development-of-deep-learning/ |date=May 17, 2016}}</ref> और [[सेल्फ ड्राइविंग कार]] जैसे उपकरणों में निष्कर्ष।<ref>{{cite web |title=एनवीडिया ने सेल्फ ड्राइविंग कारों के लिए पेश किया सुपरकंप्यूटर|url=http://gas2.org/2016/01/06/nvidia-introduces-supercomputer-for-self-driving-cars/ |date=January 6, 2016}}</ref> एनवीडिया [[एनवीलिंक]] जैसे जीपीयू डेवलपर्स डेटाफ्लो वर्कलोड एआई लाभ के प्रकार के लिए अतिरिक्त संयोजी क्षमता विकसित कर रहे हैं।<ref>{{cite web |title=कैसे nvlink तेज और आसान मल्टी GPU कंप्यूटिंग को सक्षम करेगा|url=https://developer.nvidia.com/blog/how-nvlink-will-enable-faster-easier-multi-gpu-computing/ |date=November 14, 2014}}</ref> जैसा कि एआई त्वरण के लिए जीपीयू को तेजी से लागू किया गया है, जीपीयू निर्माताओं ने इन कार्यों को और तेज करने के लिए [[ तंत्रिका नेटवर्क |तंत्रिका नेटवर्क]] -एप्लिकेशन-विशिष्ट एकीकृत सर्किट हार्डवेयर को सम्मलित किया है।<ref>"[https://www.researchgate.net/publication/329802520_A_Survey_on_Optimized_Implementation_of_Deep_Learning_Models_on_the_NVIDIA_Jetson_Platform A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform]", 2019</ref><ref name="CUDA9">{{cite web |first=Mark |last=Harris |url=https://developer.nvidia.com/blog/cuda-9-features-revealed/ |title=CUDA 9 Features Revealed: Volta, Cooperative Groups and More |date=May 11, 2017 |access-date=August 12, 2017}}</ref> टेंसर [[प्रोसेसर कोर]] का उद्देश्य तंत्रिका नेटवर्क के प्रशिक्षण को गति देना है।<ref name="CUDA9"/> | ग्राफिक्स प्रोसेसिंग यूनिट या जीपीयू की विशेषज्ञ हार्डवेयर में छवि के प्रसंस्करण और स्थानीय छवि गुणों की गणना के लिए उपयोग किया जाता है। न्यूरल नेटवर्क और [[ग्राफिक्स पाइपलाइन]] का गणितीय आधार समान होती है, शर्मनाक रूप से समानांतर कार्य जिसमें मैट्रिसेस सम्मलित हैं, अग्रणी जीपीयू मशीन सीखने के कार्यों के लिए तेजी से उपयोग किया जाता है।<ref>{{cite web |url=https://hal.inria.fr/inria-00112631/document |title=microsoft research/pixel shaders/MNIST}}</ref><ref>{{Cite web|url=http://igoro.com/archive/how-gpu-came-to-be-used-for-general-computation/|title=How GPU came to be used for general computation}}</ref><ref>{{Cite web|url=https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf|title=ImageNet Classification with Deep Convolutional Neural Networks}}</ref> {{As of|2016}}, GPUs AI कार्य के लिए लोकप्रिय हैं, और वे प्रशिक्षण के लिए गहन शिक्षण की सुविधा के लिए एक दिशा में विकसित होना जारी रखते हैं<ref>{{cite web |title=एनवीडिया गहन शिक्षा के विकास को चला रहा है|url=https://insidehpc.com/2016/05/nvidia-driving-the-development-of-deep-learning/ |date=May 17, 2016}}</ref> और [[सेल्फ ड्राइविंग कार]] जैसे उपकरणों में निष्कर्ष।<ref>{{cite web |title=एनवीडिया ने सेल्फ ड्राइविंग कारों के लिए पेश किया सुपरकंप्यूटर|url=http://gas2.org/2016/01/06/nvidia-introduces-supercomputer-for-self-driving-cars/ |date=January 6, 2016}}</ref> एनवीडिया [[एनवीलिंक]] जैसे जीपीयू डेवलपर्स डेटाफ्लो वर्कलोड एआई लाभ के प्रकार के लिए अतिरिक्त संयोजी क्षमता विकसित कर रहे हैं।<ref>{{cite web |title=कैसे nvlink तेज और आसान मल्टी GPU कंप्यूटिंग को सक्षम करेगा|url=https://developer.nvidia.com/blog/how-nvlink-will-enable-faster-easier-multi-gpu-computing/ |date=November 14, 2014}}</ref> जैसा कि एआई त्वरण के लिए जीपीयू को तेजी से लागू किया गया है, जीपीयू निर्माताओं ने इन कार्यों को और तेज करने के लिए [[ तंत्रिका नेटवर्क |तंत्रिका नेटवर्क]] -एप्लिकेशन-विशिष्ट एकीकृत सर्किट हार्डवेयर को सम्मलित किया है।<ref>"[https://www.researchgate.net/publication/329802520_A_Survey_on_Optimized_Implementation_of_Deep_Learning_Models_on_the_NVIDIA_Jetson_Platform A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform]", 2019</ref><ref name="CUDA9">{{cite web |first=Mark |last=Harris |url=https://developer.nvidia.com/blog/cuda-9-features-revealed/ |title=CUDA 9 Features Revealed: Volta, Cooperative Groups and More |date=May 11, 2017 |access-date=August 12, 2017}}</ref> टेंसर [[प्रोसेसर कोर]] का उद्देश्य तंत्रिका नेटवर्क के प्रशिक्षण को गति देना है।<ref name="CUDA9"/> | ||
=== FPGAs का प्रयोग === | === FPGAs का प्रयोग === | ||
डीप लर्निंग फ्रेमवर्क अभी भी विकसित हो रहे हैं, जिससे कारण कस्टम हार्डवेयर डिजाइन करना कठिन हो गया है। [[पुन: कॉन्फ़िगर करने योग्य कंप्यूटिंग]] डिवाइस जैसे कि फील्ड-प्रोग्रामेबल गेट एरेज़ (FPGA) हार्डवेयर, फ्रेमवर्क और सॉफ़्टवेयर एकीकृत डिज़ाइन को विकसित करना आसान बनाते हैं।<ref>{{cite journal |last1=Sefat |first1=Md Syadus |last2=Aslan |first2=Semih |last3=Kellington |first3=Jeffrey W |last4=Qasem |first4=Apan |date=August 2019 |title=CAPI-आधारित FPGA पर डीप न्यूरल नेटवर्क में हॉटस्पॉट को गति देना|url=https://ieeexplore.ieee.org/document/8855410 |journal=2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS) |pages=248–256 |doi=10.1109/HPCC/SmartCity/DSS.2019.00048 |isbn=978-1-7281-2058-4 |s2cid=203656070}}</ref><ref name="fpga-inference" /><ref name="fpga-training" /><ref>{{cite web |url=http://www.nextplatform.com/2016/08/23/fpga-based-deep-learning-accelerators-take-asics/ |title=एफपीजीए आधारित डीप लर्निंग एक्सेलेरेटर्स एएसआईसी से मुकाबला करते हैं|date=August 23, 2016 |website=The Next Platform |access-date=September 7, 2016}}</ref> | डीप लर्निंग फ्रेमवर्क अभी भी विकसित हो रहे हैं, जिससे कारण कस्टम हार्डवेयर डिजाइन करना कठिन हो गया है। [[पुन: कॉन्फ़िगर करने योग्य कंप्यूटिंग]] डिवाइस जैसे कि फील्ड-प्रोग्रामेबल गेट एरेज़ (FPGA) हार्डवेयर, फ्रेमवर्क और सॉफ़्टवेयर एकीकृत डिज़ाइन को विकसित करना आसान बनाते हैं।<ref>{{cite journal |last1=Sefat |first1=Md Syadus |last2=Aslan |first2=Semih |last3=Kellington |first3=Jeffrey W |last4=Qasem |first4=Apan |date=August 2019 |title=CAPI-आधारित FPGA पर डीप न्यूरल नेटवर्क में हॉटस्पॉट को गति देना|url=https://ieeexplore.ieee.org/document/8855410 |journal=2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS) |pages=248–256 |doi=10.1109/HPCC/SmartCity/DSS.2019.00048 |isbn=978-1-7281-2058-4 |s2cid=203656070}}</ref><ref name="fpga-inference" /><ref name="fpga-training" /><ref>{{cite web |url=http://www.nextplatform.com/2016/08/23/fpga-based-deep-learning-accelerators-take-asics/ |title=एफपीजीए आधारित डीप लर्निंग एक्सेलेरेटर्स एएसआईसी से मुकाबला करते हैं|date=August 23, 2016 |website=The Next Platform |access-date=September 7, 2016}}</ref> | ||
| Line 27: | Line 21: | ||
=== समर्पित एआई त्वरक ASICs का उद्भव === | === समर्पित एआई त्वरक ASICs का उद्भव === | ||
जबकि जीपीयू और एफपीजीए एआई से संबंधित कार्यों के लिए सीपीयू की समानता में कहीं उत्तम प्रदर्शन करते हैं, दक्षता में 10 तक का कारक<ref>{{cite web |url=https://techreport.com/news/30155/google-boosts-machine-learning-with-its-tensor-processing-unit/ |title=Google अपने Tensor Processing Unit के साथ मशीन लर्निंग को बढ़ावा देता है|date=May 19, 2016 |access-date=September 13, 2016}}</ref><ref>{{cite web |url=https://www.sciencedaily.com/releases/2016/02/160203134840.htm |title=चिप मोबाइल उपकरणों में गहन शिक्षा ला सकती है|date=February 3, 2016 |website=www.sciencedaily.com |access-date=September 13, 2016}}</ref> एप्लिकेशन-विशिष्ट एकीकृत सर्किट (ASIC) के माध्यम से अधिक विशिष्ट डिज़ाइन के साथ प्राप्त किया जा सकता है। | जबकि जीपीयू और एफपीजीए एआई से संबंधित कार्यों के लिए सीपीयू की समानता में कहीं उत्तम प्रदर्शन करते हैं, दक्षता में 10 तक का कारक<ref>{{cite web |url=https://techreport.com/news/30155/google-boosts-machine-learning-with-its-tensor-processing-unit/ |title=Google अपने Tensor Processing Unit के साथ मशीन लर्निंग को बढ़ावा देता है|date=May 19, 2016 |access-date=September 13, 2016}}</ref><ref>{{cite web |url=https://www.sciencedaily.com/releases/2016/02/160203134840.htm |title=चिप मोबाइल उपकरणों में गहन शिक्षा ला सकती है|date=February 3, 2016 |website=www.sciencedaily.com |access-date=September 13, 2016}}</ref> एप्लिकेशन-विशिष्ट एकीकृत सर्किट (ASIC) के माध्यम से अधिक विशिष्ट डिज़ाइन के साथ प्राप्त किया जा सकता है। इन त्वरकों में समर्पित की गई हैं की योजनाएँ, जैसे अनुकूलित मेमोरी का उपयोग और गणना के लिए कम प्रेसिजन अंकगणित का उपयोग करके गणना की गति और परिगणना की गतिविधि को बढ़ाने के लिए।<ref name="lowprecision">{{Cite web|url=http://proceedings.mlr.press/v37/gupta15.pdf|title=Deep Learning with Limited Numerical Precision}}</ref><ref>{{cite arXiv |title=XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks |eprint=1603.05279 |last1=Rastegari |first1=Mohammad |last2=Ordonez |first2=Vicente |last3=Redmon |first3=Joseph |last4=Farhadi |first4=Ali |class=cs.CV |year=2016}}</ref> कुछ लो प्रेसिजन फ्लोटिंग-प्वाइंट प्रारूप जैसे हैंफ प्रेसिजन और बीफ्लोट16 [[फ़्लोटिंग-पॉइंट प्रारूप]] के उपयोग से एआई त्वरण में उपयोग किए जाते हैं।<ref>{{cite web |title=इंटेल ने त्वरित एआई प्रशिक्षण के लिए नर्वाना न्यूरल नेट एल-1000 का अनावरण किया|author=Khari Johnson |work=VentureBeat |date=May 23, 2018 |access-date=May 23, 2018 |url=https://venturebeat.com/2018/05/23/intel-unveils-nervana-neural-net-l-1000-for-accelerated-ai-training/ |quote=...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.}}</ref><ref name="top5_Inte">{{cite web |title=इंटेल ने एआई पोर्टफोलियो के लिए नया रोडमैप पेश किया|author=Michael Feldman |work=TOP500 Supercomputer Sites |date=May 23, 2018 |access-date=May 23, 2018 |url=https://www.top500.org/news/intel-lays-out-new-roadmap-for-ai-portfolio/ |quote=इंटेल की योजना अपने सभी AI उत्पादों में इस प्रारूप का समर्थन करने की है, जिसमें Xeon और FPGA लाइनें शामिल हैं}}</ref><ref name="toms_Inte">{{cite web |title=इंटेल 2019 में अपना पहला न्यूरल नेटवर्क प्रोसेसर स्प्रिंग क्रेस्ट लॉन्च करेगा|author=Lucian Armasu |work=Tom's Hardware |date=May 23, 2018 |access-date=May 23, 2018 |url=https://www.tomshardware.com/news/intel-neural-network-processor-lake-crest,37105.html |quote=Intel ने कहा कि NNP-L1000 bfloat16 को भी सपोर्ट करेगा, एक न्यूमेरिकल फॉर्मेट जिसे न्यूरल नेटवर्क के लिए सभी ML इंडस्ट्री प्लेयर्स द्वारा अपनाया जा रहा है। कंपनी अपने FPGAs, Xeons और अन्य ML उत्पादों में bfloat16 का भी समर्थन करेगी। Nervana NNP-L1000 2019 में रिलीज होने वाली है।}}</ref><ref name="clou_Avai">{{cite web |title=उपलब्ध TensorFlow ऑप्स {{!}} क्लाउड TPU {{!}} Google क्लाउड|work=Google Cloud |access-date=May 23, 2018 |url=https://cloud.google.com/tpu/docs/tensorflow-ops |quote=यह पृष्ठ क्लाउड टीपीयू पर उपलब्ध TensorFlow Python APIs और ग्राफ़ ऑपरेटरों को सूचीबद्ध करता है।}}</ref><ref name="blog_Comp">{{cite web |title=Google के TPUv2 की तुलना ResNet-50 पर Nvidia के V100 से करना|author=Elmar Haußmann |work=RiseML Blog |date=April 26, 2018 |access-date=May 23, 2018 |url=https://blog.riseml.com/comparing-google-tpuv2-against-nvidia-v100-on-resnet-50-c2bbb6a51e5e |quote=क्लाउड टीपीयू के लिए, Google ने सिफारिश की है कि हम TensorFlow 1.7.0 के साथ आधिकारिक टीपीयू रिपॉजिटरी से bfloat16 कार्यान्वयन का उपयोग करें। टीपीयू और जीपीयू दोनों कार्यान्वयन संबंधित वास्तुकला पर मिश्रित-सटीक संगणना का उपयोग करते हैं और अधिकांश टेंसरों को अर्ध-परिशुद्धता के साथ संग्रहीत करते हैं।|url-status=dead |archive-url=https://web.archive.org/web/20180426200043/https://blog.riseml.com/comparing-google-tpuv2-against-nvidia-v100-on-resnet-50-c2bbb6a51e5e |archive-date=April 26, 2018 }}</ref><ref name="gith_tens">{{cite web |title=TPU पर BFloat16 का उपयोग करते हुए ResNet-50|author=Tensorflow Authors |work=Google |date=February 28, 2018 |access-date=May 23, 2018 |url=https://github.com/tensorflow/tpu/tree/master/models/experimental/resnet_bfloat16}}{{Dead link |date=April 2019 |bot=InternetArchiveBot |fix-attempted=yes}}</ref><ref name="arxiv_1711.10604"><nowiki>{{cite report |title=टेंसरफ्लो वितरण|author=Joshua V. Dillon |author2=Ian Langmore |author3=Dustin Tran |author4=Eugene Brevdo |author5=Srinivas Vasudevan |author6=Dave Moore |author7=Brian Patton |author8=Alex Alemi |author9=Matt Hoffman |author10=Rif A. Saurous |date=November 28, 2017 |id=Accessed May 23, 2018 |arxiv=1711.10604 |quote=All operations in टेंसरफ्लो वितरणare numerically stable across half, single, and double floating-point precisions (as TensorFlow dtypes: tf.bfloat16 (truncated floating point), tf.float16, tf.float32, tf.float64). Class constructors have a validate_args flag for numerical asserts |bibcode=2017arXiv171110604D}</nowiki></ref> गूगल, क्वालकॉम, अमेज़न, एप्पल, फेसबुक, एएमड और सैमसंग जैसी कंपनियां अपने-अपने AI ASIC डिजाइन कर रही हैं।{{cite web |title=गूगल ने एक शक्तिशाली नई AI चिप और सुपरकंप्यूटर का खुलासा किया|url=https://www.technologyreview.com/2017/05/17/151656/google-reveals-a-powerful-new-ai-chip-and-supercomputer/ |access-date=July 27, 2021 |website=एमआईटी प्रौद्योगिकी समीक्षा |language=en}}<ref>{{cite web |title=What to Expect From Apple's Neural Engine in the A11 Bionic SoC – ExtremeTech |url=https://www.extremetech.com/mobile/255780-apple-neural-engine-a11-bionic-soc |access-date=July 27, 2021 |website=www.extremetech.com}}</ref><ref>{{cite web |url=https://social.techcrunch.com/2018/04/18/facebook-has-a-new-job-posting-calling-for-chip-designers/ |title=फेसबुक के पास चिप डिजाइनरों के लिए एक नई जॉब पोस्टिंग है|date=April 19, 2018 }}</ref><ref>{{cite news |title=फेसबुक AI चिप की दौड़ में Amazon और Google से जुड़ता है|url=https://www.ft.com/content/1c2aab18-3337-11e9-bd3a-8b2a211d90d5 |newspaper=Financial Times|date=February 18, 2019 }}</ref><ref>{{cite web |last=Amadeo |first=Ron |date=May 11, 2021 |title=सैमसंग और एएमडी कथित तौर पर इस साल के अंत में ऐप्पल के एम1 एसओसी को टक्कर देंगे|url=https://arstechnica.com/gadgets/2021/05/report-the-samsung-amd-exynos-soc-will-be-out-for-laptops-this-year/ |access-date=July 28, 2021 |website=Ars Technica |language=en-us}}</ref><ref>{{Cite web|last=Smith|first=Ryan|title=The AI Race Expands: Qualcomm Reveals "Cloud AI 100" Family of Datacenter AI Inference Accelerators for 2020|url=https://www.anandtech.com/show/14187/qualcomm-reveals-cloud-ai-100-family-of-datacenter-ai-inference-accelerators-for-2020|access-date=September 28, 2021|website=www.anandtech.com}}</ref> मस्तिष्क ने डीप लर्निंग वर्कलोड को सपोर्ट करने के लिए उद्योग में सबसे बड़े प्रोसेसर, दूसरी पीढ़ी के वेफर स्केल इंजन (डब्ल्यूएसई-2) पर आधारित एक समर्पित एआई एक्सीलरेटर भी बनाया है।<ref>{{Cite web |last=Woodie |first=Alex |date=2021-11-01 |title=सेरेब्रस डीप लर्निंग वर्कलोड के लिए त्वरक हिट करता है|url=https://www.datanami.com/2021/11/01/cerebras-hits-the-accelerator-for-deep-learning-workloads/ |access-date=2022-08-03 |website=Datanami}}</ref><ref>{{Cite web |date=2021-04-20 |title=Cerebras launches new AI supercomputing processor with 2.6 trillion transistors |url=https://venturebeat.com/2021/04/20/cerebras-systems-launches-new-ai-supercomputing-processor-with-2-6-trillion-transistors/ |access-date=2022-08-03 |website=VentureBeat |language=en-US}}</ref> | ||
| Line 78: | Line 72: | ||
*[http://eyeriss.mit.edu/ Eyeriss Project], MIT | *[http://eyeriss.mit.edu/ Eyeriss Project], MIT | ||
*https://alphaics.ai/ | *https://alphaics.ai/ | ||
[[Category:All articles containing potentially dated statements]] | [[Category:All articles containing potentially dated statements]] | ||
Latest revision as of 16:29, 26 October 2023
एआई त्वरक एक विशेष तकनीकी त्वरक[1] या कंप्यूटर सिस्टम [2][3] की एक श्रेणी है जो कृत्रिम तंत्रिका नेटवर्क और मशीन दृष्टि एप्लिकेशन को त्वरित करने के लिए डिज़ाइन की गई होती है, जिसमें कृत्रिम संज्ञानी नेटवर्क और मशीन विज़न सम्मलित होते हैं। सामान्यतः ये अनुप्रयोगों में रोबोटिक, इंटरनेट ऑफ थिंग्स और अन्य डेटा (कंप्यूटिंग)-प्रभावित या सेंसर-नियंत्रित कार्यों के लिए होते हैं।[4] ये अधिकांशतः कई कोर डिजाइन होते हैं और सामान्यतः सटीक (कंप्यूटर विज्ञान) कम-परिशुद्धता अंकगणित, उपन्यास डेटाफ्लो आर्किटेक्चर या इन-मेमोरी कंप्यूटिंग क्षमता पर ध्यान केंद्रित करते हैं। As of 2018[update], एक साधारण AI एकीक चिप में अब अरबों में भी मॉसफेट ट्रांजिस्टर होते हैं।[5] इस श्रेणी में उपकरणों के लिए कई विक्रेता-विशिष्ट शब्द उपस्थित होते हैं, और यह एक प्रमुख डिजाइन के बिना उभरती हुई प्रौद्योगिकियां हैं।
इतिहास
कंप्यूटर सिस्टम ने सीपीयू के साथ विशेष उद्दीपकों का उपयोग विशेष कार्यों के लिए किया जाता रहा है, जिसे कोप्रोसेसर के रूप में जाना जाता है। प्रमुख एप्लिकेशन-विशिष्ट हार्डवेयर इकाइयों में ग्राफिक्स के लिए कंप्यूटर चित्रलेख , अच्छा पत्रक , ग्राफ़िक्स प्रोसेसिंग युनिट और डिजिटल सिग्नल प्रोसेसर के लिए वीडियो कार्ड सम्मलित हैं। जैसा कि 2010 के दशक में गहन शिक्षण और आर्टिफिशियल इंटेलिजेंस वर्कलोड प्रमुखता से बढ़ा, विशेष हार्डवेयर इकाइयां विकसित की गईं या उपस्थित उत्पादों से इन कार्यों को हार्डवेयर त्वरण के लिए अनुकूलित किया गया। AI त्वरक के प्रदर्शन का मूल्यांकन करने के लिए MLPerf जैसे बेंचमार्क का उपयोग किया जा सकता है।[6]
प्रारंभिक प्रयास
पहली प्रयासों में इंटेल के ETANN 80170NX में न्यूरल फंक्शन की गणना के लिए एनालॉग सर्किट सम्मलित किए गए था।[7] बाद में नेस्टर/इंटेल Ni1000 जैसे सभी-डिजिटल चिप्स का अनुसरण किया गया था। 1993 की प्रारंभिक में, ऑप्टिकल कैरेक्टर मान्यता सॉफ़्टवेयर को गति देने के लिए डिजिटल सिग्नल प्रोसेसर का उपयोग तंत्रिका नेटवर्क त्वरक के रूप में किया गया था।[8] 1990 के दशक में, तंत्रिका नेटवर्क सिमुलेशन सहित विभिन्न अनुप्रयोगों के उद्देश्य से कार्यस्थानों के लिए समानांतर उच्च-थ्रूपुट सिस्टम बनाने का भी प्रयास किया गया था।[9][10][11] क्षेत्र में प्रोग्राम की जा सकने वाली द्वार श्रंखला त्वरक भी पहली बार 1990 के दशक में दोनों अनुमानों के लिए खोजे गए थे।[12] और प्रशिक्षण [13] दोनों के लिए अन्वेषण किए गए था। 2015 में क्वालकॉम स्नैपड्रैगन 820 के साथ स्मार्टफोन में एआई त्वरक्स का इस्तेमाल शुरू हुआ था।[14][15]