कंस्ट्रक्टिंग स्किल ट्री

कंस्ट्रक्टिंग स्किल ट्री (सीएसटी) एक पदानुक्रमित सुदृढीकरण अधिगम कलन विधि है, जो प्रदर्शन से प्राप्त नमूना समाधान प्रक्षेपवक्र के एक समूह से स्किल ट्री का निर्माण कर सकती है। सीएसटी प्रत्येक प्रदर्शन प्रक्षेपवक्र को स्किल में विभाजित करने और परिणामों को एक स्किल ट्री में एकीकृत करने के लिए एक वृद्धिशील एमएपी (अधिकतम एक पश्चवर्ती) परिवर्तन बिंदु पहचान कलन विधि का उपयोग करता है। सीएसटी को 2010 में जॉर्ज कोनिडारिस, स्कॉट कुइंडर्स्मा, एंड्रयू बार्टो और रोड्रिट्ज़ समूह द्वारा प्रस्तुत किया गया था।

कलन विधि
सीएसटी में मुख्य रूप से तीन भाग होते हैं, परिवर्तन बिंदु पहचान, संरेखण और विलय सीएसटी का मुख्य केंद्र ऑनलाइन परिवर्तन बिंदु का पता है। परिवर्तन बिंदु का पता कलन विधि का उपयोग डेटा को स्किल में विभाजित करने के लिए किया जाता है, और रियायती इनाम के योग का उपयोग करता है, $$R_t$$ लक्ष्य प्रतिगमन चर के रूप में प्रत्येक स्किल को एक उपयुक्त सार सौंपा गया है। सीएसटी की कम्प्यूटेशनल जटिलता को नियंत्रित करने के लिए एक कण फिल्टर का उपयोग किया जाता है।

परिवर्तन बिंदु पहचान कलन विधि निम्नानुसार कार्यान्वित किया गया है। समय के लिए डेटा $$ t\in T $$ और मॉडल $Q$ पूर्व के साथ $$p(q\in Q)$$ दिया जाता है। कलन विधि को समय से एक खंड में योग्य करने में सक्षम माना जाता है $$j+1$$ को $t$ मॉडल का उपयोग करना $q$ योग्य होने की संभावना के साथ $$ P(j,t,q)^{}_{}$$ गाऊसी नॉइज़ के साथ एक रेखीय प्रतिगमन मॉडल की गणना करने के लिए प्रयोग किया जाता है $$ P(j,t,q)$$, गॉसियन नॉइज़ का मतलब शून्य होता है, और विचरण जो पश्चात में होता है।$$\mathrm{InverseGamma}\left(\frac{v}{2}, \frac{u}{2}\right)$$, प्रत्येक वजन के लिए पूर्व इस प्रकार $$ \mathrm{Normal}(0, \sigma^{2} \delta)  $$ है।

योग्य होने की संभावना $$ P(j,t,q)$$ निम्नलिखित समीकरण द्वारा गणना की जाती है।



P(j,t,q)=\frac{\pi^{-\frac{n}{2}}}{\delta^m}\left|(A+D)^{-1}\right|^{\frac{1}{2}}\frac{u^{\frac{v}{2}}}{(y+u)^{\frac{u+v}{2}}}\frac{\Gamma(\frac{n+v}{2})}{\Gamma({\frac{v}{2}})} $$ फिर, सीएसटी समय पर परिवर्तन बिंदु की प्रायिकता की गणना करता है $j$ मॉडल के साथ $q$, $$ P_t(j,q) $$ और $$ P^\text{MAP}_j $$ विटरबी कलन विधि का उपयोग करता है।



P_t(j,q)=(1-G(t-j-1))P(j,t,q)p(q)P^\text{MAP}_j $$

P^\text{MAP}_{j}=\max_{i,q}\frac{P_j(i,q)g(j-i)}{1-G(j-i-1)}, \forall j<t $$ मापदंडों और चर का विवरण इस प्रकार है;



A=\sum^t_{i=j}\Phi(x_i)\Phi(x_i)^T $$

\Phi(x_i) $$: एम आधार कार्यों का एक वेक्टर राज्य में मूल्यांकन $$x_i$$ किया गया है।

y=(\sum^t_{i=j}R^2_{i})-b^T(A+D)^{-1}b $$

b=\sum^t_{i=j}R_i\Phi(x_i) $$

R_i=\sum^T_{j=i}\gamma^{j-i}r_{j} $$
 * $\gamma$: गामा फंक्शन
 * $$ n=t-j $$
 * $m$: Q के आधार कार्यों की संख्या है।
 * $D$: विकर्ण पर $$ \delta^{-1} $$ के साथ एक एम बाय एम मैट्रिक्स और कहीं और शून्य

स्किल की लंबाई $l$ को पैरामीटर के साथ एक ज्यामितीय वितरण का पालन करने के लिए माना जाता $p$ है।



g^{}_{}(l)=(1-p)^{l-1}p $$

G^{}_{}(l)=(1-(1-p)^l) $$

p^{}_{}=\frac{1}{k} $$
 * $k$: अपेक्षित स्किल लंबाई

उपरोक्त विधि का उपयोग करके, सीएसटी डेटा को स्किल श्रृंखला में विभाजित कर सकता है। परिवर्तन बिंदु का पता की समय जटिलता $$O(NL)$$ है और स्टोरेज साइज $$O(Nc)$$ है, जहां $N$ कणों की संख्या है, $L$ कंप्यूटिंग का समय है $$P(j,t,q)$$, और $$O(c)$$ परिवर्तन बिंदु हैं।

अगला चरण संरेखण है। सीएसटी को घटक स्किल को संरेखित करने की आवश्यकता है क्योंकि परिवर्तन-बिंदु ठीक उसी स्थान पर नहीं होता है। इस प्रकार, जब पहले प्रक्षेपवक्र को खंडित करने के पश्चात दूसरे प्रक्षेपवक्र को खंडित किया जाता है, तो दूसरे प्रक्षेपवक्र में परिवर्तन बिंदु के स्थान पर इसका पूर्वाग्रह होता है। यह पूर्वाग्रह गाऊसी के मिश्रण का अनुसरण करता है।

अंतिम चरण विलय कर रहा है। सीएसटी स्किल चेन को स्किल ट्री में मर्ज करता है। सीएसटी एक ही स्किल आवंटित करके प्रक्षेपवक्र खंडों की एक जोड़ी को मिला देता है। सभी प्रक्षेपवक्रों का एक ही लक्ष्य होता है और यह अपने अंतिम खंडों से प्रारंभ करके दो श्रृंखलाओं को मिला देता है। यदि दो खंड सांख्यिकीय रूप से समान हैं, तो यह उन्हें विलीन कर देता है। यह प्रक्रिया तब तक दोहराई जाती है जब तक कि यह स्किल खंडों की एक जोड़ी को मर्ज करने में विफल नहीं हो जाती। $$ P(j,t,q) $$ यह निर्धारित करने के लिए उपयोग किया जाता है कि क्या प्रक्षेपवक्र की एक जोड़ी को एक स्किल या दो भिन्न-भिन्न स्किल के रूप में उत्तम विधि से तैयार किया गया है।

स्यूडोकोड
निम्नलिखित स्यूडोकोड परिवर्तन बिंदु पहचान कलन विधि का वर्णन करता है:

कण:= []; प्रत्येक आने वाले डेटा बिंदु को संसाधित करें टी = 1 के लिए: टी करते हैं // सभी कणों के लिए योग्य संभावनाओं की गणना करें p ∈ कणों के लिए p_tjqp:= (1 − G(t − p.pos − 1)) × p.fit_prob × model_prior(p.model) × p.prev_एमएपी p.एमएपी := p_tjq × g(t−p.pos) / (1 − G(t − p.pos − 1)) अंत  // यदि आवश्यक हो तो फ़िल्टर करें  यदि कणों की संख्या ≥ N तो कण: = कण_फ़िल्टर (पी.एमएपी, एम) अंत // विटरबी पथ निर्धारित करें टी = 1 के लिए करो मैक्स_पथ: = [] max_एमएपीM:= 1/|Q| अन्य मैक्स_पार्टिकल: = $max p$ पी.एमएपी max_pathh:= max_particle.path ∪ max_particle max_एमएपी: = max_particle.एमएपी अंत // समय टी पर एक परिवर्तन बिंदु के लिए नए कण बनाएं क्यू ∈ क्यू के लिए करते हैं new_p_:= create_particle(मॉडल=क्यू, स्थिति=टी, पिछला_एमएपी=मैक्स_एमएपी, पथ=मैक्स_पथ) पी�:= पी ∪ new_p अंत // सभी कणों को अपडेट करें p ∈ P के लिए कण�:= update_particle(current_state, current_reward, p)    अंत अंत // अंतिम बिंदु पर सबसे संभावित पथ लौटाएं वापसी max_path

फ़ंक्शन अपडेट_पार्टिकल (current_state, current_reward, कण) है पः=कण r_t_:= current_reward // इनिशियलाइज़ेशन यदि टी = 0 तो p.A.:= शून्य मैट्रिक्स (अपराह्न, अपराह्न) p.bp:= शून्य सदिश(p.m)        p.z := शून्य सदिश (अपराह्न) p.sum rs:= 0 p.tr1:= 0 p.tr2 := 0 यदि अंत // वर्तमान स्थिति के लिए आधार फ़ंक्शन वेक्टर की गणना करें Φ$t$ := p.Φ(currentstate) // पर्याप्त आंकड़े अपडेट करें p.A.:= p.A + Φt}पीएचआई$T t$ p.z:= 𝛾p.z + एफ$t$ p.bb:= p.b + r$t$ p.z    p.tr11:= 1 + 𝛾$2$ p.tr1 p.sum rr:= योग p.r + r$2 t$ p.tr1 + 2𝛾आर$t$ p.tr2 p.tr2:= 𝛾p.tr2 + आर$t$ p.tr1 p.fit_probb:= कंप्यूट_योग्य_प्रोब (पी, वी, यू, डेल्टा, 𝛾)

अनुमान
सीटीएस मानता है कि प्रदर्शित स्किल एक पेड़ का निर्माण करते हैं, डोमेन इनाम फंक्शन ज्ञात है और स्किल की एक जोड़ी को विलय करने के लिए सबसे अच्छा मॉडल व्यक्तिगत रूप से दोनों का प्रतिनिधित्व करने के लिए चुना गया मॉडल है।

लाभ
स्किल श्रृंखलन की तुलना में सीएसटी बहुत तेजी से सीखने वाला कलन विधि है। उच्च आयामी नीतियों को सीखने के लिए सीएसटी लागू किया जा सकता है।

असफल प्रकरण भी स्किल में सुधार कर सकता है। एजेंट केंद्रित सुविधाओं का उपयोग करके संगृहीत स्किल का उपयोग अन्य समस्याओं के लिए किया जा सकता है।

उपयोग करता है
सीएसटी का उपयोग पिनबॉल डोमेन में मानव प्रदर्शन से स्किल प्राप्त करने के लिए किया गया है। इसका उपयोग मोबाइल मैनिपुलेटर पर मानव प्रदर्शन से स्किल प्राप्त करने के लिए भी किया गया है।

यह भी देखें

 * प्रीफ्रंटल कॉर्टेक्स बेसल गैन्ग्लिया वर्किंग मेमोरी
 * स्टेट-एक्शन-इनाम-स्टेट-एक्शन
 * सामन मानचित्रण

संदर्भ