इमेज नेट

इमेजनेट प्रोजेक्ट एक बड़ा विज़ुअल डेटाबेस है जिसे वस्तु पहचान की रूपरेखा रिसर्च में उपयोग के लिए डिज़ाइन किया गया है। 14 मिलियन से अधिक छवियों को परियोजना द्वारा हाथ से एनोटेट किया गया है यह इंगित करने के लिए कि कौन सी वस्तुओं को चित्रित किया गया है और कम से कम दस लाख छवियों में, बाउंडिंग बॉक्स भी प्रदान किए गए हैं। इमेजनेट में 20,000 से अधिक श्रेणियां हैं, एक विशिष्ट श्रेणी के साथ, जैसे कि गुब्बारा या स्ट्रॉबेरी, जिसमें कई सौ चित्र होते हैं। तृतीय-पक्ष छवि URL के एनोटेशन का डेटाबेस सीधे इमेजनेट से स्वतंत्र रूप से उपलब्ध है, हालांकि वास्तविक छवियों का स्वामित्व इमेजनेट के पास नहीं है। 2010 के बाद से, इमेजनेट परियोजना एक वार्षिक सॉफ्टवेयर प्रतियोगिता, इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (#History_of_the_ImageNet_challenge) चलाती है, जहाँ सॉफ़्टवेयर प्रोग्राम वस्तुओं और दृश्यों को सही ढंग से वर्गीकृत करने और उनका पता लगाने के लिए प्रतिस्पर्धा करते हैं। चुनौती एक हजार गैर-अतिव्यापी वर्गों की छंटनी की गई सूची का उपयोग करती है।

गहरी शिक्षा के लिए महत्व
30 सितंबर 2012 को, एक दृढ़ तंत्रिका नेटवर्क (सीएनएन) जिसे एलेक्सनेट कहा जाता है ImageNet 2012 चैलेंज में 15.3% की शीर्ष-5 त्रुटि हासिल की, जो उपविजेता की तुलना में 10.8 प्रतिशत अंक कम है। प्रशिक्षण के दौरान ग्राफ़िक्स प्रोसेसिंग युनिट  (जीपीयू) के उपयोग के कारण इसे संभव बनाया गया था। गहन शिक्षण क्रांति का एक अनिवार्य घटक। अर्थशास्त्री के अनुसार, न केवल एआई समुदाय के भीतर बल्कि पूरे प्रौद्योगिकी उद्योग में लोगों ने अचानक ध्यान देना शुरू कर दिया। 2015 में, Microsoft के ResNets द्वारा 100 से अधिक परतों के साथ एलेक्सनेट को पीछे छोड़ दिया गया था, जिसने इमेजनेट 2015 प्रतियोगिता जीती थी।

डेटाबेस का इतिहास
एआई शोधकर्ता फी-फी ली ने 2006 में इमेजनेट के विचार पर काम करना शुरू किया। ऐसे समय में जब अधिकांश एआई अनुसंधान मॉडल और एल्गोरिदम पर केंद्रित थे, ली एआई एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा का विस्तार और सुधार करना चाहते थे। 2007 में, ली ने प्रोजेक्ट पर चर्चा करने के लिए शब्दतंत्र  के रचनाकारों में से एक, प्रिंसटन के प्रोफेसर क्रिश्चियन फेलबौम से मुलाकात की। इस बैठक के परिणामस्वरूप, ली ने वर्डनेट के शब्द डेटाबेस से शुरू करते हुए और इसकी कई विशेषताओं का उपयोग करते हुए इमेजनेट का निर्माण शुरू किया।

प्रिंसटन में एक सहायक प्रोफेसर के रूप में, ली ने इमेजनेट परियोजना पर काम करने के लिए शोधकर्ताओं की एक टीम को इकट्ठा किया। उन्होंने छवियों के वर्गीकरण में सहायता के लिए अमेज़ॅन मैकेनिकल तुर्क का इस्तेमाल किया।

उन्होंने फ़्लोरिडा कंप्यूटर विजन और पैटर्न पहचान पर सम्मेलनCVPR) पर 2009 के सम्मेलन में पोस्टर के रूप में पहली बार अपना डेटाबेस प्रस्तुत किया।

डेटासेट
इमेजनेट इसकी एनोटेशन प्रक्रिया को क्राउडसोर्स करता है। छवि-स्तरीय एनोटेशन एक छवि में एक वस्तु वर्ग की उपस्थिति या अनुपस्थिति का संकेत देते हैं, जैसे कि इस छवि में बाघ हैं या इस छवि में कोई बाघ नहीं हैं। ऑब्जेक्ट-स्तरीय एनोटेशन संकेतित ऑब्जेक्ट (दृश्यमान भाग) के चारों ओर एक बाउंडिंग बॉक्स प्रदान करते हैं। इमेजनेट वस्तुओं को वर्गीकृत करने के लिए व्यापक वर्डनेट स्कीमा के एक प्रकार का उपयोग करता है, जो सूक्ष्म वर्गीकरण को प्रदर्शित करने के लिए कुत्ते की नस्लों की 120 श्रेणियों के साथ संवर्धित है। वर्डनेट उपयोग का एक नकारात्मक पक्ष यह है कि इमेजनेट के लिए इष्टतम होने की तुलना में श्रेणियां अधिक उन्नत हो सकती हैं: अधिकांश लोग इस दुर्लभ प्रकार के डिप्लोडोकस की तुलना में लेडी गागा या आईपॉड मिनी में अधिक रुचि रखते हैं। 2012 में इमेजनेट अमेज़ॅन मैकेनिकल तुर्क का दुनिया का सबसे बड़ा शैक्षणिक उपयोगकर्ता था। औसत कार्यकर्ता ने प्रति मिनट 50 छवियों की पहचान की।

डेटासेट के सबसेट
विभिन्न संदर्भों में उपयोग किए जाने वाले इमेजनेट डेटासेट के विभिन्न उपसमुच्चय हैं। ImageNet के सबसे अधिक उपयोग किए जाने वाले सबसेट में से एक ImageNet लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (ILSVRC) 2012-2017 छवि वर्गीकरण और स्थानीयकरण डेटासेट है। इसे अनुसंधान साहित्य में ImageNet-1K या ILSVRC2017 के रूप में भी संदर्भित किया गया है, जो मूल ILSVRC चुनौती को दर्शाता है जिसमें 1,000 वर्ग शामिल थे। ImageNet-1K में 1,281,167 प्रशिक्षण चित्र, 50,000 सत्यापन चित्र और 100,000 परीक्षण चित्र शामिल हैं। पूर्ण मूल डेटासेट को ImageNet-21K कहा जाता है। ImageNet-21k में 14,197,122 चित्र हैं, जो 21,841 वर्गों में विभाजित हैं। कुछ पेपर इसे गोल करते हैं और इसे ImageNet-22k नाम देते हैं।

इमेजनेट चुनौती का इतिहास
आईएलएसवीआरसी का लक्ष्य 2005 में स्थापित छोटे पैमाने के पास्कल वीओसी चुनौती के नक्शेकदम पर चलना है, जिसमें केवल लगभग 20,000 छवियां और बीस वस्तु वर्ग शामिल हैं। इमेजनेट को लोकतांत्रित करने के लिए, फी-फी ली ने पास्कल वीओसी टीम को 2010 में शुरू होने वाले एक सहयोग का प्रस्ताव दिया, जहां अनुसंधान दल दिए गए डेटा सेट पर उनके एल्गोरिदम का मूल्यांकन करें, और कई दृश्य पहचान कार्यों पर उच्च सटीकता प्राप्त करने के लिए प्रतिस्पर्धा करें।

परिणामी वार्षिक प्रतियोगिता को अब ImageNet लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (ILSVRC) के रूप में जाना जाता है। ILSVRC पूर्ण इमेजनेट स्कीमा द्वारा वर्गीकृत 120 कुत्तों की नस्लों में से 90 सहित केवल 1000 छवि श्रेणियों या वर्गों की छंटनी की गई सूची का उपयोग करता है। 2010 के दशक में छवि प्रसंस्करण में नाटकीय प्रगति देखी गई। 2011 के आसपास, एक अच्छा ILSVRC वर्गीकरण शीर्ष-5 त्रुटि दर 25% थी। 2012 में, एलेक्सनेट नामक एक गहन संवेदी तंत्रिका नेटवर्क ने 16% हासिल किया; अगले कुछ वर्षों में, शीर्ष-5 त्रुटि दर कुछ प्रतिशत तक गिर गई। जबकि 2012 की सफलता ने उन सभी टुकड़ों को जोड़ दिया जो पहले थे, नाटकीय मात्रात्मक सुधार ने उद्योग-व्यापी कृत्रिम बुद्धि उछाल की शुरुआत को चिह्नित किया। 2015 तक, Microsoft के शोधकर्ताओं ने बताया कि संकीर्ण ILSVRC कार्यों में उनके CNN मानव क्षमता से अधिक हो गए। हालाँकि, चुनौती के आयोजकों में से एक के रूप में, ओल्गा रसाकोवस्की ने 2015 में बताया, कार्यक्रमों को केवल एक हजार श्रेणियों में से एक के रूप में छवियों की पहचान करनी है; मनुष्य बड़ी संख्या में श्रेणियों को पहचान सकते हैं, और (कार्यक्रमों के विपरीत) एक छवि के संदर्भ का न्याय कर सकते हैं। 2014 तक, पचास से अधिक संस्थानों ने ILSVRC में भाग लिया। 2017 में, 38 प्रतिस्पर्धी टीमों में से 29 की सटीकता 95% से अधिक थी। 2017 में इमेजनेट ने कहा कि यह 2018 में एक नई, अधिक कठिन चुनौती पेश करेगा जिसमें प्राकृतिक भाषा का उपयोग करके 3डी वस्तुओं को वर्गीकृत करना शामिल है। क्योंकि 3D डेटा बनाना पहले से मौजूद 2D इमेज को एनोटेट करने की तुलना में अधिक महंगा है, डेटासेट के छोटे होने की उम्मीद है। इस क्षेत्र में प्रगति के अनुप्रयोग रोबोटिक नेविगेशन से लेकर संवर्धित वास्तविकता तक होंगे।

इमेजनेट में पूर्वाग्रह
2019 में इमेजनेट और वर्डनेट की कई परतों (वर्गीकरण (सामान्य)सामान्य), ऑब्जेक्ट क्लास और लेबलिंग) के इतिहास के एक अध्ययन में बताया गया है कि कैसे एल्गोरिथम पूर्वाग्रह सभी प्रकार की छवियों के लिए अधिकांश वर्गीकरण दृष्टिकोणों में गहराई से अंतर्निहित है।   इमेजनेट पूर्वाग्रह के विभिन्न स्रोतों को संबोधित करने के लिए काम कर रहा है।

यह भी देखें

 * कंप्यूटर दृष्टि
 * मशीन लर्निंग रिसर्च के लिए डेटासेट की सूची
 * वर्डनेट