इमेज नेट

इमेज नेट प्रोजेक्ट एक बड़ा दृश्य डेटाबेस है जिसे वस्तु पहचान की रूपरेखा अनुसंधान में उपयोग के लिए अभिकल्प किया गया है। 14 मिलियन से अधिक चित्रों को परियोजना द्वारा हाथ से सूचीत किया गया है यह इंगित करने के लिए कि कौन सी वस्तुओं को चित्रित किया जाए और कम से कम दस लाख चित्र में, सीमांकन बॉक्स भी प्रदान किए गए हैं। इमेजनेट में एक विशिष्ट श्रेणी के साथ 20,000 से अधिक श्रेणियां हैं, जैसे कि बैलून या स्ट्रॉबेरी, जिसमें कई सौ चित्र सम्मलित हैं। तृतीय-पक्ष चित्र यूआरएल के सूची का डेटाबेस सीधे इमेजनेट से स्वतंत्र रूप से उपलब्ध है, चूंकि वास्तविक चित्र का स्वामित्व इमेजनेट के पास नहीं है। 2010 के पश्चात से, इमेजनेट परियोजना एक वार्षिक सॉफ्टवेयर प्रतियोगिता, इमेजनेट लार्ज स्केल विज़ुअल रिकग्निशन चैलेंज (आईएलएसवीआरसी) चलाती है, जहाँ सॉफ्टवेयर प्रोग्राम वस्तुओं और दृश्यों को सही ढंग से वर्गीकृत करने और पहचानने के लिए प्रतिस्पर्धा करते हैं। वह चुनौती एक हजार गैर-अतिव्यापी वर्गों की "छंटनी" सूची का उपयोग करती है।

गहरी शिक्षा के लिए महत्व
30 सितंबर 2012 को, एलेक्सनेट नामक एक दृढ़ तंत्रिका नेटवर्क (सीएनएन) ने इमेजनेट 2012 चैलेंज में 15.3% की शीर्ष -5 त्रुटि प्राप्त की, जो उपविजेता की तुलना में 10.8 प्रतिशत अंक कम है। प्रशिक्षण के समय ग्राफ़िक्स प्रोसेसिंग युनिट (जीपीयू) के उपयोग के कारण इसे संभव गहन शिक्षण क्रांति का एक अनिवार्य घटक बनाया गया था। अर्थशास्त्री के अनुसार, अचानक लोगों ने केवल एआई समुदाय के भीतर ही नहीं बल्कि पूरे प्रौद्योगिकी उद्योग पर ध्यान देना शुरू कर दिया।

2015 में, एलेक्सनेट को 100 से अधिक परतों के साथ माइक्रोसॉफ्ट के बहुत गहरे सीएनएन द्वारा मात दी गई थी, जिसने इमेजनेट 2015 प्रतियोगिता जीती थी।

डेटाबेस का इतिहास
एआई शोधकर्ता फी-फी ली ने 2006 में इमेजनेट के विचार पर काम करना शुरू किया। ऐसे समय में जब अधिकांश एआई अनुसंधान प्रतिरूप और एल्गोरिदम पर केंद्रित थे, ली एआई एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा का विस्तार और सुधार करना चाहते थे। 2007 में, ली ने प्रोजेक्ट पर चर्चा करने के लिए शब्दतंत्र के रचनाकारों में से एक, प्रिंसटन के प्रोफेसर क्रिश्चियन फेलबौम से भेंट की। इस बैठक के परिणामस्वरूप, ली ने इमेजनेट का निर्माण वर्डनेट के शब्द डेटाबेस से शुरू किया और इसकी कई विशेषताओं का उपयोग किया।

प्रिंसटन में एक सहायक प्रोफेसर के रूप में, ली ने इमेजनेट परियोजना पर काम करने के लिए शोधकर्ताओं की एक टीम को संघटित किया। उन्होंने चित्रों के वर्गीकरण में सहायता के लिए अमेज़ॅन मैकेनिकल तुर्क का उपयोग किया।

उन्होंने फ़्लोरिडा में कंप्यूटर विजन और पैटर्न पहचान पर सम्मेलन (सीवीपीआर) पर 2009 के सम्मेलन में विज्ञापन देने के रूप में पहली बार अपना डेटाबेस प्रस्तुत किया।

डेटासेट
इमेजनेट इसकी सूची प्रक्रिया को क्राउडसोर्स करता है। चित्र-स्तरीय सूची एक चित्र में एक वस्तु वर्ग की उपस्थिति या अनुपस्थिति का संकेत देते हैं, जैसे "इस चित्र में बाघ हैं" या "इस चित्र में कोई बाघ नहीं हैं"। वस्तु-स्तरीय सूची संकेतित वस्तु (दृश्यमान भाग) के चारों ओर एक सीमांकन बॉक्स प्रदान करते हैं। इमेजनेट वस्तुओं को वर्गीकृत करने के लिए बड़े पैमाने पर एक प्रकार के वर्डनेट स्कीमा का उपयोग करता है, जो सूक्ष्म वर्गीकरण को प्रदर्शित करने के लिए कुत्ते की नस्लों की 120 श्रेणियों के साथ संवर्धित है। वर्डनेट उपयोग का एक नकारात्मक पक्ष यह है कि इमेजनेट के लिए इष्टतम होने की तुलना में श्रेणियां अधिक उन्नत हो सकती हैं: अधिकांश लोग लेडी गागा या आईपॉड मिनी में इस दुर्लभ प्रकार के डिप्लोडोकस से अधिक रुचि रखते हैं। 2012 में इमेजनेट मैकेनिकल तुर्क का दुनिया का सबसे बड़ा शैक्षणिक उपयोगकर्ता था। औसत कार्यकर्ता ने प्रति मिनट 50 चित्रों की पहचान की।

डेटासेट के सबसेट
विभिन्न संदर्भों में उपयोग किए जाने वाले इमेजनेट डेटासेट के विभिन्न उपसमुच्चय हैं। इमेजनेट के सबसे अधिक उपयोग किए जाने वाले उपसमुच्चय में से एक इमेजनेट लार्ज स्केल विज़ुअल रिकग्निशन चैलेंज (आईएलएसवीआरसी) 2012-2017 इमेज क्लासिफिकेशन एंड लोकलाइजेशन डेटासेट" है। इसे अनुसंधान साहित्य में इमेजनेट-1K या आईएलएसवीआरसी 2017 के रूप में भी संदर्भित किया गया है, जो मूल आईएलएसवीआरसी की चुनौती को दर्शाता है जिसमें 1,000 क्लास सम्मलित थे। इमेजनेट-1K में 1,281,167 प्रशिक्षण चित्र, 50,000 मान्यकरण चित्र और 100,000 परीक्षण चित्र सम्मलित हैं। पूर्ण मूल डेटासेट को इमेजनेट-21K कहा जाता है। इमेजनेट-21k में 14,197,122 चित्र हैं, जो 21,841 क्लास में विभाजित हैं। कुछ पेपर इसे पुष्ट करते हैं और इसे इमेजनेट-22k नाम देते हैं।

इमेजनेट चुनौती का इतिहास
आईएलएसवीआरसी का उद्देश्य 2005 में स्थापित छोटे पैमाने के पास्कल वीओसी चुनौती के "पदचिह्नों पर चलना" है, जिसमें केवल प्राय 20,000 चित्र और बीस वस्तु क्लास सम्मलित थे। इमेजनेट को "लोकतांत्रिक" बनाने के लिए, फी-फी ली ने पास्कल वीओसी टीम को एक सहयोग का प्रस्ताव दिया, जो 2010 में शुरू हुआ, जहां अनुसंधान दल दिए गए डेटा सेट पर अपने एल्गोरिदम का मूल्यांकन करेंगे, और कई दृश्य पहचान कार्यों पर उच्च सटीकता प्राप्त करने के लिए प्रतिस्पर्धा करेंगे।

परिणामी वार्षिक प्रतियोगिता को अब इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (आईएलएसवीआरसी) के रूप में जाना जाता है। आईएलएसवीआरसी केवल 1000 चित्र श्रेणियों या "क्लास" की "छंटनी" सूची का उपयोग करता है, जिसमें पूर्ण इमेजनेट स्कीमा द्वारा वर्गीकृत 120 कुत्तों की नस्लों में से 90 सम्मलित हैं। 2010 के दशक में चित्र प्रसंस्करण में नाटकीय प्रगति देखी गई। 2011 के आसपास, एक अच्छा आईएलएसवीआरसी वर्गीकरण जिसके शीर्ष-5 में त्रुटि दर 25% थी। 2012 में, एलेक्सनेट नामक एक डीप लर्निंग न्यूरल नेटवर्क ने त्रुटि दर 16% प्राप्त कि; अगले कुछ वर्षों में, शीर्ष-5 त्रुटि दर कुछ प्रतिशत तक गिर गई। जबकि 2012 की सफलता "संयुक्त टुकड़े जो पहले वहां थे", नाटकीय मात्रात्मक सुधार ने एक उद्योग-व्यापी कृत्रिम बुद्धि उछाल की शुरुआत को चिह्नित किया। 2015 तक, माइक्रोसॉफ्ट के शोधकर्ताओं ने बताया कि संकीर्ण आईएलएसवीआरसी कार्यों में उनके सीएनएन मानव क्षमता से अधिक हो गए है। चूंकि, चुनौती के आयोजकों में से एक के रूप में, ओल्गा रसाकोवस्की ने 2015 में बताया, कार्यक्रमों को केवल एक हजार श्रेणियों में से एक के रूप में चित्र की पहचान करनी है; मनुष्य बड़ी संख्या में श्रेणियों को पहचान सकते हैं, और (कार्यक्रमों के विपरीत) एक चित्र के संदर्भ का न्याय कर सकते हैं।

2014 तक, पचास से अधिक संस्थानों ने आईएलएसवीआरसी में भाग लिया। 2017 में, 38 प्रतिस्पर्धी टीमों में से 29 की सटीकता 95% से अधिक थी। 2017 में इमेजनेट ने कहा कि यह 2018 में एक नई, अधिक कठिन चुनौती प्रस्तुत करेगा जिसमें प्राकृतिक भाषा का उपयोग करके 3डी वस्तुओं को वर्गीकृत करना सम्मलित होगा। क्योंकि 3डी डेटा बनाना पहले से उपस्थित 2डी चित्र को सूची करने की तुलना में अधिक महंगा है, तथा डेटासेट के छोटे होने की उम्मीद है। इस क्षेत्र में प्रगति के अनुप्रयोग रोबोटिक मार्गदर्शन से लेकर संवर्धित वास्तविकता तक होंगे।

इमेजनेट में पूर्वाग्रह
2019 में इमेजनेट और वर्डनेट की कई परतों (टैक्सोनॉमी, ऑब्जेक्ट क्लासेस और लेबलिंग) के इतिहास के एक अध्ययन में बताया गया है कि कैसे सभी प्रकार के चित्रों के लिए अधिकांश वर्गीकरण (सामान्य) दृष्टिकोणों में एल्गोरिथम पूर्वाग्रह गहराई से अंतर्निहित है।   इमेजनेट पूर्वाग्रह के विभिन्न स्रोतों को संबोधित करने के लिए काम कर रहा है।

यह भी देखें

 * कंप्यूटर दृष्टि
 * मशीन लर्निंग रिसर्च के लिए डेटासेट की सूची
 * वर्डनेट