हाइपरपैरामीटर अनुकूलन

यंत्र अधिगम में हाइपरपैरामीटर अनुकूलन या ट्यूनिंग लर्निंग एल्गोरिथम के लिए इष्टतम हाइपरपैरामीटर मशीन लर्निंग के लिए समुच्चय चुने जाने की प्रमुख समस्या है। हाइपरपैरामीटर ऐसा पैरामीटर है जिसका मान ज्ञात करने की प्रक्रिया को नियंत्रित करने के लिए इसका उपयोग किया जाता है। इसके विपरीत, अन्य मापदंडों के लिए सामान्यतः नोड भार के मान उपयोग किए जाते हैं।

एक ही प्रकार की मशीन लर्निंग के प्रारूप को अलग-अलग डेटा के प्रारूप को सामान्य बनाने के लिए अलग-अलग बाधाओं के लिए उसके भार या ज्ञात करने की दरों की आवश्यकता होती हैं। इन उपायों को हाइपरपरमेटर्स कहा जाता है, और इन्हें ट्यून करना पड़ता है जिससे कि प्रारूप मशीन लर्निंग की समस्या को उत्तम विधि से हल किया जा सके। हाइपरपैरामीटर अनुकूलन हाइपरपरमेटर्स का टपल ढूंढता है जो इष्टतम प्रारूप उत्पन्न करता है तथा जो दिए गए स्वतंत्र डेटा पर पूर्वनिर्धारित हानि से फलन को कम करता है। ऑब्जेक्टिव फलन हाइपरपरमेटर्स का टपल लेता है और संबंधित हानि लौटाता है। क्रॉस-वैलिडेशन (सांख्यिकी) या क्रॉस-वैलिडेशन का उपयोग अधिकांशतः इस सामान्यीकरण प्रदर्शन का अनुमान लगाने के लिए किया जाता है।

ग्रिड सर्च
हाइपरपरमीटर अनुकूलन करने की पारंपरिक विधि ग्रिड सर्च या पैरामीटर स्वीप के द्वारा उपयोग की जाती है, जो लर्निंग एल्गोरिदम के हाइपरपेरामीटर स्पेस को पारंपरिक रूप से निर्दिष्ट उपसमुच्चय के माध्यम से केवल क्रूर-बल सर्च के रूप में उपयोग करता हैं। ग्रिड सर्च एल्गोरिथ्म को कुछ प्रदर्शन मीट्रिक द्वारा निर्देशित किया जाना चाहिए, जिसे सामान्यतः क्रॉस-सत्यापन (सांख्यिकी) द्वारा मापा जाता है। प्रशिक्षण समुच्चय पर क्रॉस-सत्यापन या होल्ड-आउट सत्यापन समुच्चय पर मूल्यांकन करने के लिए उपयोग किया जाता हैं।

चूंकि मशीन लर्निंग के पैरामीटर स्थान में कुछ मापदंडों के लिए वास्तविक-मूल्यवान या असीमित मान स्थान सम्मिलित हो सकते हैं, इस प्रकार ग्रिड सर्च को लागू करने से पहले पारंपरिक रूप से निर्धारित सीमा और विवेक की आवश्यक हो सकती हैं।

उदाहरण के लिए, रेडियल आधार फलन कर्नेल से लैस विशिष्ट सॉफ्ट-मार्जिन समर्थन वेक्टर यंत्र सांख्यिकीय वर्गीकरण में कम से कम दो हाइपरपैरामीटर होते हैं जिन्हें किसी डेटा पर अच्छे प्रदर्शन के लिए नियमितीकरण स्थिरांक C और कर्नेल हाइपरपैरामीटर γ द्वारा ट्यून करने की आवश्यकता होती है। दोनों पैरामीटर निरंतर उपयोग में रहते हैं, इसलिए ग्रिड सर्च करने के लिए, प्रत्येक के लिए उचित मूल्यों का सीमित समुच्चय चुनता है।


 * $$C \in \{10, 100, 1000\}$$
 * $$\gamma \in \{0.1, 0.2, 0.5, 1.0\}$$

ग्रिड सर्च तब इन दो समुच्चयों के कार्टेशियन उत्पाद में प्रत्येक संयोजन (C, γ) के साथ एसवीएम को प्रशिक्षित करती है और आयोजित-आउट सत्यापन समुच्चय पर उनके प्रदर्शन का मूल्यांकन करती है (या प्रशिक्षण समुच्चय पर आंतरिक क्रॉस-सत्यापन द्वारा, जिस स्थिति में कई एसवीएम प्रति जोड़ी प्रशिक्षित हैं)। इस प्रकार अंत में, ग्रिड सर्च एल्गोरिदम उन समुच्चयिंग्स को आउटपुट करता है जो सत्यापन प्रक्रिया में उच्चतम स्कोर प्राप्त करते हैं।

ग्रिड सर्च आयामीता के अभिशाप से ग्रस्त है, लेकिन अधिकांशतः शर्मनाक रूप से समानांतर होती है क्योंकि इसके द्वारा मूल्यांकन की जाने वाली हाइपरपरमीटर समुच्चयिंग्स सामान्यतः दूसरे से स्वतंत्र होती हैं।



यादृच्छिक सर्च
यादृच्छिक सर्च सभी संयोजनों की संपूर्ण गणना को यादृच्छिक रूप से चुनकर प्रतिस्थापित करती है। यह केवल ऊपर वर्णित असतत समुच्चयिंग पर लागू किया जा सकता है, लेकिन निरंतर और मिश्रित रिक्त स्थान के लिए भी सामान्यीकृत किया जा सकता है। यह ग्रिड सर्च से उत्तम प्रदर्शन कर सकता है, खासकर तब जब बहुत कम संख्या में हाइपरपैरामीटर मशीन लर्निंग एल्गोरिदम के अंतिम प्रदर्शन को प्रभावित करते हैं। इस स्थिति में, अनुकूलन समस्या को कम आंतरिक आयाम कहा जाता है। यादृच्छिक सर्च भी शर्मनाक रूप से समानांतर रहते हैं, और इसके अतिरिक्त वितरण को निर्दिष्ट करके पूर्व ज्ञान को सम्मिलित करने की अनुमति देता है जिससे इसके लिए प्रमाण लिया जा सके। इसकी सरलता के अतिरिक्त यादृच्छिक सर्च महत्वपूर्ण आधार-रेखाओं में से बनी हुई है जिसके विरुद्ध नए हाइपरपैरामीटर अनुकूलन विधियों के प्रदर्शन की तुलना की जा सकती है।



बायेसियन अनुकूलन
बायेसियन अनुकूलन नॉइज़ ब्लैक-बॉक्स फलन के लिए वैश्विक अनुकूलन विधि है। हाइपरपैरामीटर अनुकूलन के लिए लागू होने वाले बायेसियन अनुकूलन फलन मैपिंग का संभाव्य प्रारूप बनाता है जो हाइपरपैरामीटर मानों से सत्यापन समुच्चय पर मूल्यांकन किए गए उद्देश्य के लिए होता है। वर्तमान प्रारूप के आधार पर सबसे उत्तम हाइपरपैरामीटर कॉन्फ़िगरेशन का पुनरावृत्त रूप से मूल्यांकन करके इसे अपडेट करने के पश्चात बायेसियन अनुकूलन का उद्देश्य इस फलन के बारे में और विशेष रूप से इष्टतम रूप के स्थान के बारे में अधिक से अधिक जानकारी प्रकट करने वाली टिप्पणियों को एकत्रित करना है। यह अन्वेषण हाइपरपैरामीटर के लिए परिणाम सबसे अनिश्चित है और शोषण (हाइपरपैरामीटर इष्टतम के समीप होने की उम्मीद) को संतुलित करने का प्रयास करता है। व्यवहार में बायेसियन अनुकूलन दिखाया गया है   ग्रिड सर्च और यादृच्छिक सर्च की तुलना में कम मूल्यांकन में उत्तम परिणाम प्राप्त करने के लिए, प्रयोगों को चलाने से पहले उनकी गुणवत्ता के बारे में तर्क करने की क्षमता के कारण हैं।

ग्रेडिएंट-आधारित अनुकूलन
विशिष्ट शिक्षण एल्गोरिदम के लिए, हाइपरपैरामीटर के संबंध में ग्रेडिएंट की गणना करना संभव है और फिर ढतला हुए क्रम का उपयोग करके हाइपरपैरामीटर का अनुकूलन करना आवश्यक होता हैं। इन विधियों का पहला उपयोग तंत्रिका नेटवर्क पर केंद्रित था। इसके पश्चात इन विधियों को अन्य प्रारूपों या लॉजिस्टिक रिग्रेशन जैसे सपोर्ट वेक्टर मशीनों तक बढ़ा दिया गया है।

हाइपरपैरामीटर के संबंध में ढाल प्राप्त करने के लिए अलग दृष्टिकोण स्वचालित भेदभाव का उपयोग करके पुनरावृत्त अनुकूलन एल्गोरिदम के चरणों को अलग करने में होता है। इस दिशा में और वर्तमान समय के अनुसार हाइपरग्रेडिएंट्स फंक्शन की गणना करने के लिए अंतर्निहित फलन प्रमेय का उपयोग करता है और उलटा हेस्सियन के स्थिर सन्निकटन का प्रस्ताव करता है। यह विधि लाखों हाइपरपैरामीटरों को मापती है और इसके लिए निरंतर मेमोरी की आवश्यकता होती है।

एक अलग दृष्टिकोण में, हाइपरनेटवर्क को सर्वश्रेष्ठ प्रतिक्रिया फलन का अनुमान लगाने के लिए प्रशिक्षित किया जाता है। इस पद्धति के लाभ में से यह है कि यह असतत हाइपरपरमेटर्स को भी संभाल सकता है। स्व-ट्यूनिंग नेटवर्क हाइपरनेटवर्क के लिए कॉम्पैक्ट प्रतिनिधित्व चुनकर इस दृष्टिकोण का स्मृति कुशल संस्करण प्रदान करता हैं। अभी हाल ही में Δ-STN हाइपरनेटवर्क के थोड़े पुनर्मूल्यांकन द्वारा इस पद्धति में और सुधार किया है जो प्रशिक्षण को गति देता है। Δ-STN भी वज़न में नेटवर्क को रेखीयकृत करके सर्वोत्तम-प्रतिक्रिया वाले जेकोबियन का उत्तम सन्निकटन प्राप्त करता है, इसलिए वज़न में बड़े परिवर्तनों के अनावश्यक अरैखिक प्रभावों को दूर करता है।

हाइपरनेटवर्क दृष्टिकोण के अलावा, ग्रेडिएंट-आधारित विधियों का उपयोग असतत हाइपरपैरामीटर को भी मापदंडों की निरंतर छूट को अपनाकर अनुकूलित करने के लिए किया जा सकता है। इस प्रकार के तरीकों का व्यापक रूप से तंत्रिका संरचना सर्च में संरचना हाइपरपैरामीटर के अनुकूलन के लिए उपयोग किया गया है।

विकासवादी अनुकूलन
विकासवादी अनुकूलन ध्वनि वाले ब्लैक-बॉक्स कार्यों के वैश्विक अनुकूलन के लिए पद्धति है। हाइपरपैरामीटर अनुकूलन में, विकासवादी अनुकूलन किसी दिए गए एल्गोरिथम के लिए हाइपरपैरामीटर के स्थान की सर्च करने के लिए विकासवादी एल्गोरिदम का उपयोग करता है। इवोल्यूशनरी हाइपरपैरामीटर अनुकूलन एवोल्यूशनरी एल्गोरिथम का अनुसरण करता है इस प्रकार विकास की जैविक अवधारणा से प्रेरित कार्यान्वयन इस प्रकार हैं:


 * 1) यादृच्छिक समाधानों की प्रारंभिक आबादी बनाएं (अर्ताथ विभिन्न तरीकों से हाइपरपरमेटर्स के टुपल्स उत्पन्न करें, जिनकी गिनती सामान्यतः 100+ होती हैं)
 * 2) हाइपरपैरामीटर टुपल्स का मूल्यांकन करें और उनके फिटनेस कार्य को प्राप्त करें (उदाहरण के लिए, सांख्यिकी में 10-गुना क्रॉस-सत्यापन या उन हाइपरपैरामीटर के साथ मशीन लर्निंग एल्गोरिदम की क्रॉस-सत्यापन सटीकता को प्रकट करता हैं।
 * 3) हाइपरपैरामीटर टुपल्स को उनकी सापेक्ष फिटनेस के आधार पर रैंक किया जाता हैं।
 * 4) क्रॉसओवर (जेनेटिक एल्गोरिथम) और म्यूटेशन (जेनेटिक एल्गोरिथम) के माध्यम से उत्पन्न होने वाले नए हाइपरपरमीटर ट्यूपल्स के साथ सबसे बुरे प्रदर्शन करने वाले हाइपरपैरामीटर ट्यूपल्स के रूप में परिवर्तित किया जाता हैं।
 * 5) चरण 2-4 को तब तक दोहराएं जब तक कि एल्गोरिदम प्रदर्शन संतोषजनक न हो जाए या एल्गोरिदम प्रदर्शन में सुधार नहीं होता हैं।

सांख्यिकीय मशीन लर्निंग एल्गोरिदम के लिए हाइपरपरमीटर अनुकूलन में इवोल्यूशनरी अनुकूलन का उपयोग किया जाता हैं, स्वचालित मशीन लर्निंग, विशिष्ट तंत्रिका नेटवर्क और डीप लर्निंग डीप न्यूरल नेटवर्क संरचना सर्च, साथ ही गहरे तंत्रिका नेटवर्क में भार का प्रशिक्षण किया जाता हैं।

जनसंख्या आधारित
जनसंख्या आधारित प्रशिक्षण (PBT) हाइपरपैरामीटर मान और नेटवर्क भार दोनों सीखता है। अलग-अलग हाइपरपरमेटर्स का उपयोग करते हुए, कई लर्निंग की प्रक्रियाएँ स्वतंत्र रूप से संचालित होती हैं। विकासवादी विधियों की तरह, खराब प्रदर्शन करने वाले प्रारूप को पुनरावृत्त रूप से उन प्रारूपों से परिवर्तित कर दिया जाता है जो उत्तम प्रदर्शन करने वालों के आधार पर संशोधित हाइपरपैरामीटर मान और भार अपनाते हैं। यह प्रतिस्थापन प्रारूप वार्म स्टार्टिंग पीबीटी और अन्य विकासवादी विधियों के बीच प्राथमिक अंतर है। पीबीटी इस प्रकार हाइपरपरमेटर्स को विकसित करने की अनुमति देता है और पारंपरिक हाइपरट्यूनिंग की आवश्यकता को समाप्त करता है। प्रक्रिया प्रारूप संरचना, हानि कार्यों या प्रशिक्षण प्रक्रियाओं के बारे में कोई धारणा नहीं बनाती है।

पीबीटी और इसके वेरिएंट अनुकूलतम विधि हैं: वे प्रारूप के प्रशिक्षण के दौरान हाइपरपरमेटर्स को अपडेट करते हैं। इसके विपरीत गैर-अनुकूली विधियों में पूरे प्रशिक्षण के लिए हाइपरपरमेटर्स के निरंतर समुच्चय को असाइन करने के लिए उप-इष्टतम रणनीति होती है।

प्रारंभिक रोक-आधारित
प्रारंभिक रोक आधारित हाइपरपैरामीटर अनुकूलन एल्गोरिदम का वर्ग निरंतर और असतत हाइपरपैरामीटर के बड़े सर्च स्थानों के लिए बनाया गया है, मुख्य रूप से जब हाइपरपैरामीटर के समुच्चय के प्रदर्शन का मूल्यांकन करने के लिए कम्प्यूटेशनल लागत अधिक है। इरेस पुनरावृत्त रेसिंग एल्गोरिथ्म को लागू करता है, जो खराब प्रदर्शन करने वालों को छोड़ने के लिए सांख्यिकीय परीक्षणों का उपयोग करते हुए, सबसे आशाजनक कॉन्फ़िगरेशन के आसपास सर्च को केंद्रित करता है।

एक और प्रारंभिक रोक हाइपरपैरामीटर अनुकूलन एल्गोरिथम क्रमिक पड़ाव (एसएचए) है, जो यादृच्छिक सर्च के रूप में प्रारंभ होता है लेकिन समय-समय पर कम प्रदर्शन वाले प्रारूप को कम करता है, जिससे अधिक आशाजनक प्रारूप पर कम्प्यूटेशनल संसाधनों पर ध्यान केंद्रित किया जाता है। अतुल्यकालिक क्रमिक आधान (आशा) कम प्रदर्शन करने वाले प्रारूपों का समकालिक रूप से मूल्यांकन और छँटाई करने की आवश्यकता को हटाकर एसएचए के संसाधन उपयोग प्रोफ़ाइल में और सुधार करता है। हाइपरबैंड उच्च स्तरीय अर्ली स्टॉपिंग-आधारित एल्गोरिथम है जो अधिक व्यापक रूप से लागू होने और कम आवश्यक इनपुट के साथ छंटाई आक्रामकता के विभिन्न स्तरों के साथ कई बार एसएचए या आशा को आमंत्रित करता है।

अन्य
चमकीले आधार की क्रिया और वर्णक्रमीय विधि दृष्टिकोण भी विकसित किए हैं।

यह भी देखें

 * स्वचालित मशीन लर्निंग
 * तंत्रिका संरचना सर्च
 * मेटा-अनुकूलन
 * प्रारूप चयन
 * स्व ट्यूनिंग
 * एक्सजीबूस्ट