न्यूरोकंप्यूटेशनल भाषण प्रसंस्करण

न्यूरोकम्प्यूटेशनल स्पीच प्रोसेसिंग भाषण उत्पादन और भाषण धारणा का कंप्यूटर-सिमुलेशन है, जो स्पीच प्रोडक्शन और स्पीच परसेप्शन की प्राकृतिक न्यूरोनल प्रक्रियाओं का जिक्र करता है, जैसा कि वे मानव तंत्रिका तंत्र (केंद्रीय तंत्रिका तंत्र और परिधीय तंत्रिका तंत्र) में होते हैं। यह विषय तंत्रिका विज्ञान और कम्प्यूटेशनल तंत्रिका विज्ञान पर आधारित है।

निरीक्षण
भाषण प्रसंस्करण के न्यूरोकंप्यूटेशनल मॉडल जटिल हैं। उनमें कम से कम अनुभूति, मोटर प्रणाली और संवेदी प्रणाली शामिल है।

भाषण प्रसंस्करण के न्यूरोकम्प्यूटेशनल मॉडल के संज्ञानात्मक या भाषाई भाग में तंत्रिका सक्रियण या भाषण उत्पादन के पक्ष में ध्वन्यात्मक प्रतिनिधित्व की पीढ़ी शामिल है (उदाहरण के लिए अरडी रूलोफ्स द्वारा विकसित लेवलट मॉडल का न्यूरोकम्प्यूटेशनल और विस्तारित संस्करण: वीवर++ साथ ही भाषण धारणा या पढ़ने की समझ के पक्ष में तंत्रिका सक्रियण या इरादे या अर्थ की पीढ़ी।

भाषण प्रसंस्करण के न्यूरोकम्प्यूटेशनल मॉडल की मोटर प्रणाली भाषण आइटम के ध्वन्यात्मक प्रतिनिधित्व के साथ शुरू होती है, मोटर योजना को सक्रिय करती है और उस विशेष भाषण आइटम की अभिव्यक्ति के तरीके के साथ समाप्त होती है (यह भी देखें: कलात्मक ध्वन्यात्मकता)।

भाषण प्रसंस्करण के न्यूरोकम्प्यूटेशनल मॉडल की संवेदी प्रणाली भाषण आइटम (ध्वनिक ध्वन्यात्मकता) के ध्वनिक संकेत के साथ शुरू होती है, उस संकेत के लिए श्रवण ध्वन्यात्मकता उत्पन्न करती है और उस भाषण वस्तु के लिए ध्वन्यात्मक प्रतिनिधित्व सक्रिय करती है।

न्यूरोकंप्यूटेशनल स्पीच प्रोसेसिंग विषय
न्यूरोकम्प्यूटेशनल भाषण प्रसंस्करण कृत्रिम तंत्रिका नेटवर्क द्वारा भाषण प्रसंस्करण है। न्यूरल मैप्स, मैपिंग और पाथवे, जैसा कि नीचे बताया गया है, मॉडल स्ट्रक्चर हैं, यानी कृत्रिम न्यूरल नेटवर्क के भीतर महत्वपूर्ण स्ट्रक्चर हैं।

तंत्रिका मानचित्र
कृत्रिम तंत्रिका नेटवर्क को तीन प्रकार के तंत्रिका मानचित्रों में अलग किया जा सकता है, जिन्हें "परतें" भी कहा जाता है:
 * 1) इनपुट मैप्स (भाषण प्रसंस्करण के मामले में: श्रवण प्रांतस्था के भीतर प्राथमिक श्रवण मानचित्र, सोमाटोसेंसरी प्रांतस्था के भीतर प्राथमिक सोमाटोसेंसरी मानचित्र),
 * 2) आउटपुट मैप्स (प्राथमिक मोटर प्रांतस्था के भीतर प्राथमिक मोटर मैप),
 * 3) उच्च स्तरीय कॉर्टिकल मानचित्र (जिसे "छिपी हुई परतें" भी कहा जाता है)।

"न्यूरल मैप" शब्द को "न्यूरल लेयर" शब्द के ऊपर पसंद किया गया है, क्योंकि कॉर्टिकल न्यूरल मैप को इंटरकनेक्टेड न्यूरॉन्स के 2डी-मैप के रूप में तैयार किया जाना चाहिए (उदाहरण के लिए स्व-संगठित मानचित्र की तरह; चित्र 1 भी देखें)। इस प्रकार, इस 2डी-नक्शे के भीतर प्रत्येक "मॉडल न्यूरॉन" या "कृत्रिम न्यूरॉन" शारीरिक रूप से कॉर्टिकल कॉलम द्वारा दर्शाया जाता है क्योंकि सेरेब्रल प्रांतस्था शारीरिक रूप से स्तरित संरचना प्रदर्शित करता है।

तंत्रिका प्रतिनिधित्व (तंत्रिका राज्य)
कृत्रिम तंत्रिका नेटवर्क के भीतर तंत्रिका प्रतिनिधित्व विशिष्ट तंत्रिका मानचित्र के भीतर अस्थायी रूप से सक्रिय (तंत्रिका) अवस्था है। प्रत्येक तंत्रिका अवस्था को विशिष्ट तंत्रिका सक्रियण पैटर्न द्वारा दर्शाया जाता है। यह सक्रियण पैटर्न भाषण प्रसंस्करण के दौरान बदलता है (उदाहरण के लिए शब्दांश से शब्दांश तक)।

एसीटी मॉडल में (नीचे देखें), यह माना जाता है कि श्रवण राज्य मानचित्र के भीतर "श्रवण स्पेक्ट्रोग्राम" (चित्र 2 देखें) द्वारा श्रवण राज्य का प्रतिनिधित्व किया जा सकता है। यह श्रवण राज्य मानचित्र श्रवण संघ प्रांतस्था (सेरेब्रल प्रांतस्था देखें) में स्थित माना जाता है।

सोमाटोसेंसरी अवस्था को स्पर्शनीय और प्रोप्रियोसेप्टिव अवस्था में विभाजित किया जा सकता है और सोमाटोसेंसरी स्टेट मैप के भीतर विशिष्ट तंत्रिका सक्रियण पैटर्न द्वारा दर्शाया जा सकता है। यह राज्य मानचित्र सोमैटोसेंसरी एसोसिएशन प्रांतस्था में स्थित माना जाता है (सेरेब्रल प्रांतस्था, सोमैटोसेंसरी सिस्टम, सोमैटोसेंसरी प्रांतस्था देखें)।

मोटर योजना राज्य को मोटर योजना का प्रतिनिधित्व करने के लिए माना जा सकता है, अर्थात विशिष्ट शब्दांश या लंबे भाषण आइटम (जैसे शब्द, लघु वाक्यांश) के लिए भाषण अभिव्यक्ति की योजना बनाना। यह राज्य मानचित्र प्रीमोटर कोर्टेक्स में स्थित माना जाता है, जबकि प्रत्येक भाषण आर्टिक्यूलेटर का तात्कालिक (या निचला स्तर) सक्रियण प्राथमिक मोटर प्रांतस्था (मोटर प्रांतस्था देखें) के भीतर होता है।

संवेदी और मोटर मानचित्रों में होने वाले तंत्रिका प्रतिनिधित्व (जैसा कि ऊपर पेश किया गया है) वितरित प्रतिनिधित्व हैं (हिंटन एट अल। 1968) ): संवेदी या मोटर मानचित्र के भीतर प्रत्येक न्यूरॉन कम या ज्यादा सक्रिय होता है, जिससे विशिष्ट सक्रियण पैटर्न होता है।

वाक् ध्वनि मानचित्र में होने वाली वाक् इकाइयों के लिए तंत्रिका प्रतिनिधित्व (नीचे देखें: दिवा मॉडल) समयनिष्ठ या स्थानीय प्रतिनिधित्व है। प्रत्येक भाषण आइटम या भाषण इकाई को विशिष्ट न्यूरॉन (मॉडल सेल, नीचे देखें) द्वारा दर्शाया गया है।

न्यूरल मैपिंग (सिनैप्टिक प्रोजेक्शन)
न्यूरल मैपिंग दो कॉर्टिकल न्यूरल मैप्स को जोड़ती है। न्यूरल मैपिंग (न्यूरल पाथवे के विपरीत) अपने न्यूरल लिंक वेट को समायोजित करके प्रशिक्षण जानकारी संग्रहीत करते हैं (कृत्रिम न्यूरॉन, कृत्रिम तंत्रिका नेटवर्क देखें)। न्यूरल मैपिंग संवेदी या मोटर स्थिति के संवेदी या मोटर राज्य के वितरित प्रतिनिधित्व (ऊपर देखें) को दूसरे मानचित्र के भीतर समयनिष्ठ या स्थानीय सक्रियण से उत्पन्न करने या सक्रिय करने में सक्षम हैं (उदाहरण के लिए भाषण ध्वनि मानचित्र से मोटर तक सिनैप्टिक प्रोजेक्शन देखें) मानचित्र, श्रवण लक्ष्य क्षेत्र मानचित्र, या दिवा मॉडल में सोमैटोसेंसरी लक्ष्य क्षेत्र मानचित्र, नीचे समझाया गया; या उदाहरण के लिए ध्वन्यात्मक मानचित्र से श्रवण राज्य मानचित्र और एसीटी मॉडल में मोटर योजना राज्य मानचित्र के लिए तंत्रिका मानचित्रण देखें, नीचे समझाया गया है और चित्र 3).

दो न्यूरल मैप्स के बीच न्यूरल मैपिंग कॉम्पैक्ट या घने हैं: न्यूरल मैप के प्रत्येक न्यूरॉन दूसरे न्यूरल मैप के प्रत्येक न्यूरॉन (लगभग) के साथ जुड़े हुए हैं (कई-से-कई-कनेक्शन, कृत्रिम तंत्रिका नेटवर्क देखें)। न्यूरल मैपिंग के लिए इस घनत्व मानदंड के कारण, न्यूरल मैपिंग जो न्यूरल मैपिंग से जुड़े हुए हैं, दूसरे से बहुत दूर नहीं हैं।

तंत्रिका पथ
न्यूरल मैपिंग के विपरीत न्यूरल पाथवे न्यूरल मैप्स को कनेक्ट कर सकते हैं जो बहुत दूर हैं (उदाहरण के लिए विभिन्न कॉर्टिकल लोब में, सेरेब्रल प्रांतस्था देखें)। कार्यात्मक या मॉडलिंग के दृष्टिकोण से, तंत्रिका मार्ग मुख्य रूप से इस जानकारी को संसाधित किए बिना सूचना को अग्रेषित करते हैं। न्यूरल मैपिंग की तुलना में न्यूरल पाथवे को बहुत कम न्यूरल कनेक्शन की आवश्यकता होती है। दोनों न्यूरल मानचित्रों के न्यूरॉन्स के -से- कनेक्शन का उपयोग करके तंत्रिका पथ का मॉडल तैयार किया जा सकता है (स्थलाकृतिक मानचित्रण देखें और सोमैटोटोपिक व्यवस्था देखें)।

उदाहरण: दो न्यूरल मैप्स के मामले में, प्रत्येक में 1,000 मॉडल न्यूरॉन्स होते हैं, न्यूरल मैपिंग के लिए 1,000,000 न्यूरल कनेक्शन (मैनी-टू-मैनी-कनेक्शन) तक की आवश्यकता होती है, जबकि न्यूरल पाथवे कनेक्शन के मामले में केवल 1,000 कनेक्शन की आवश्यकता होती है।

इसके अलावा, न्यूरल मैपिंग के भीतर कनेक्शन के लिंक वेट को प्रशिक्षण के दौरान समायोजित किया जाता है, जबकि न्यूरल पाथवे के मामले में न्यूरल कनेक्शन को प्रशिक्षित करने की आवश्यकता नहीं होती है (प्रत्येक कनेक्शन अधिकतम प्रदर्शनी है)।

दिवा मॉडल
भाषण उत्पादन के न्यूरोकम्प्यूटेशनल मॉडलिंग में अग्रणी दृष्टिकोण बोस्टन विश्वविद्यालय में फ्रैंक एच. गींतर और उनके समूह द्वारा विकसित दिवा मॉडल है।   मॉडल ध्वन्यात्मक और न्यूरोइमेजिंग डेटा की विस्तृत श्रृंखला के लिए खाता है, लेकिन - प्रत्येक न्यूरोकंप्यूटेशनल मॉडल की तरह - कुछ हद तक सट्टा रहता है।

मॉडल की संरचना
दिवा मॉडल का संगठन या संरचना चित्र 4 में दिखाया गया है।

भाषण ध्वनि नक्शा: प्रारंभिक बिंदु के रूप में ध्वन्यात्मक प्रतिनिधित्व
भाषण ध्वनि नक्शा - ब्रोका के क्षेत्र (बाएं ललाट ऑपेरकुलम) के अवर और पीछे के हिस्से में स्थित माना जाता है - भाषा-विशिष्ट भाषण इकाइयों (ध्वनियों, अक्षरों, शब्दों, लघु वाक्यांशों) का प्रतिनिधित्व करता है (ध्वन्यात्मक रूप से निर्दिष्ट)। प्रत्येक भाषण इकाई (मुख्य रूप से शब्दांश; उदाहरण के लिए शब्दांश और शब्द हथेली / पाम /, शब्दांश / पीए /, / टा /, / का /, ...) भाषण ध्वनि मानचित्र के भीतर विशिष्ट मॉडल सेल द्वारा प्रस्तुत किया जाता है (अर्थात समयनिष्ठ तंत्रिका प्रतिनिधित्व, ऊपर देखें)। प्रत्येक मॉडल सेल (कृत्रिम न्यूरॉन देखें) न्यूरॉन्स की छोटी आबादी से मेल खाती है जो निकट सीमा पर स्थित हैं और जो साथ आग लगाते हैं।

फीडफॉरवर्ड कंट्रोल: मोटर अभ्यावेदन को सक्रिय करना
स्पीच साउंड मैप के भीतर प्रत्येक न्यूरॉन (मॉडल सेल, कृत्रिम न्यूरॉन) को सक्रिय किया जा सकता है और बाद में मोटर मैप की ओर फॉरवर्ड मोटर कमांड को सक्रिय करता है, जिसे आर्टिकुलेटरी वेलोसिटी और पोजिशन मैप कहा जाता है। उस मोटर मैप के स्तर पर सक्रिय तंत्रिका प्रतिनिधित्व भाषण इकाई की अभिव्यक्ति को निर्धारित करता है, अर्थात उस भाषण इकाई के उत्पादन के लिए समय अंतराल के दौरान सभी आर्टिकुलेटर्स (होंठ, जीभ, वेलम, ग्लोटिस) को नियंत्रित करता है। फॉरवर्ड कंट्रोल में सेरिबैलम जैसी सबकोर्टिकल संरचनाएं भी शामिल होती हैं, जिन्हें यहां विस्तार से नहीं बताया गया है।

वाक् इकाई उन वाक् मदों की मात्रा का प्रतिनिधित्व करती है जिन्हें ही ध्वन्यात्मक श्रेणी में निर्दिष्ट किया जा सकता है। इस प्रकार, प्रत्येक भाषण इकाई को भाषण ध्वनि मानचित्र के भीतर विशिष्ट न्यूरॉन द्वारा दर्शाया जाता है, जबकि भाषण इकाई की प्राप्ति कुछ कलात्मक और ध्वनिक परिवर्तनशीलता प्रदर्शित कर सकती है। यह ध्वन्यात्मक परिवर्तनशीलता दिवा मॉडल में संवेदी लक्ष्य क्षेत्रों को परिभाषित करने की प्रेरणा है (देखें गुएन्थर एट अल। 1998)।

कलात्मक मॉडल: सोमैटोसेंसरी और श्रवण प्रतिक्रिया जानकारी उत्पन्न करना
मोटर मैप के भीतर सक्रियण पैटर्न भाषण आइटम के लिए सभी मॉडल आर्टिकुलेटर्स (होंठ, जीभ, वेलम, ग्लोटिस) के आंदोलन पैटर्न को निर्धारित करता है। मॉडल को ओवरलोड न करने के लिए, न्यूरोमस्क्यूलर संधि का कोई विस्तृत मॉडलिंग नहीं किया जाता है। कलात्मक संश्लेषण का उपयोग आर्टिक्यूलेटर मूवमेंट उत्पन्न करने के लिए किया जाता है, जो समय-भिन्न वोकल ट्रैक्ट की पीढ़ी और प्रत्येक विशेष स्पीच आइटम के लिए ध्वनिक ध्वन्यात्मकता की पीढ़ी की अनुमति देता है।

कृत्रिम होशियारी के संदर्भ में आर्टिकुलेटरी मॉडल को प्लांट कहा जा सकता है (अर्थात सिस्टम, जिसे मस्तिष्क द्वारा नियंत्रित किया जाता है); यह न्यूरोनल स्पीच प्रोसेसिंग सिस्टम के सन्निहित अनुभूति के हिस्से का प्रतिनिधित्व करता है। कलात्मक मॉडल संवेदी प्रणाली उत्पन्न करता है जो दिवा मॉडल के लिए प्रतिक्रिया जानकारी उत्पन्न करने का आधार है (नीचे देखें: प्रतिक्रिया नियंत्रण)।

प्रतिक्रिया नियंत्रण: संवेदी लक्ष्य क्षेत्र, राज्य मानचित्र और त्रुटि मानचित्र
तरफ कलात्मक मॉडल संवेदी प्रणाली उत्पन्न करता है, यानी प्रत्येक भाषण इकाई के लिए श्रवण स्थिति जो श्रवण राज्य मानचित्र (वितरित प्रतिनिधित्व) के भीतर न्यूरल रूप से प्रतिनिधित्व करती है, और प्रत्येक भाषण इकाई के लिए सोमैटोसेंसरी राज्य जो सोमैटोसेंसरी राज्य मानचित्र के भीतर तंत्रिका रूप से प्रतिनिधित्व करती है (वितरित प्रतिनिधित्व भी)। श्रवण राज्य मानचित्र को लौकिक प्रांतस्था में स्थित माना जाता है जबकि सोमाटोसेंसरी राज्य मानचित्र को पार्श्विका प्रांतस्था में स्थित माना जाता है।

दूसरी ओर, भाषण ध्वनि मानचित्र, यदि विशिष्ट भाषण इकाई (एकल न्यूरॉन सक्रियण; समयनिष्ठ सक्रियण) के लिए सक्रिय किया जाता है, तो भाषण ध्वनि मानचित्र और श्रवण लक्ष्य क्षेत्र मानचित्र और भाषण ध्वनि मानचित्र और सोमाटोसेंसरी लक्ष्य क्षेत्र के बीच सिनैप्टिक अनुमानों द्वारा संवेदी जानकारी को सक्रिय करता है। नक्शा। श्रवण और सोमाटोसेंसरी लक्ष्य क्षेत्रों को श्रवण प्रांतस्था में स्थित माना जाता है। उच्च-क्रम श्रवण कॉर्टिकल क्षेत्र और सोमाटोसेंसरी प्रांतस्था में। उच्च-क्रम सोमाटोसेंसरी कॉर्टिकल क्षेत्र क्रमशः। ये लक्ष्य क्षेत्र संवेदी सक्रियण पैटर्न - जो प्रत्येक भाषण इकाई के लिए मौजूद हैं - भाषा अधिग्रहण के दौरान सीखे जाते हैं (नकली प्रशिक्षण द्वारा; नीचे देखें: सीखना)।

नतीजतन, दो प्रकार की संवेदी जानकारी उपलब्ध होती है यदि भाषण इकाई भाषण ध्वनि मानचित्र के स्तर पर सक्रिय होती है: (i) सीखा संवेदी लक्ष्य क्षेत्र (यानी भाषण इकाई के लिए संवेदी राज्य का इरादा) और (ii) संवेदी राज्य सक्रियण पैटर्न जिसके परिणामस्वरूप विशिष्ट भाषण इकाई (यानी वर्तमान संवेदी अवस्था, जो उस विशेष भाषण इकाई के वर्तमान उत्पादन और अभिव्यक्ति को दर्शाती है) के संभावित रूप से अपूर्ण निष्पादन (अभिव्यक्ति) से। दोनों प्रकार की संवेदी सूचनाओं को संवेदी त्रुटि मानचित्रों में प्रक्षेपित किया जाता है, अर्थात श्रवण त्रुटि मानचित्र को जिसे टेम्पोरल कोर्टेक्स (जैसे श्रवण राज्य मानचित्र) में स्थित माना जाता है और सोमाटोसेंसरी त्रुटि मानचित्र को पार्श्विका में स्थित माना जाता है। प्रांतस्था (सोमैटोसेंसरी स्टेट मैप की तरह) (चित्र 4 देखें)।

यदि वर्तमान संवेदी स्थिति अभीष्ट संवेदी स्थिति से विचलित होती है, तो दोनों त्रुटि मानचित्र प्रतिक्रिया आदेश उत्पन्न कर रहे हैं जो मोटर मानचित्र की ओर प्रक्षेपित होते हैं और जो मोटर सक्रियण पैटर्न को ठीक करने में सक्षम होते हैं और बाद में उत्पादन के तहत भाषण इकाई की अभिव्यक्ति होती है। इस प्रकार, कुल मिलाकर, मोटर मैप का सक्रियण पैटर्न न केवल भाषण इकाई के लिए सीखे गए विशिष्ट फीडफॉर्वर्ड कमांड से प्रभावित होता है (और भाषण ध्वनि मानचित्र से सिनैप्टिक प्रोजेक्शन द्वारा उत्पन्न होता है) बल्कि इसके स्तर पर उत्पन्न फीडबैक कमांड द्वारा भी प्रभावित होता है। संवेदी त्रुटि मानचित्र (चित्र 4 देखें)।

सीखना (मॉडलिंग भाषण अधिग्रहण)
जबकि भाषण प्रसंस्करण के न्यूरोसाइंटिफिक मॉडल की संरचना (दिवा मॉडल के लिए चित्र 4 में दी गई) मुख्य रूप से विकास द्वारा निर्धारित की जाती है, (भाषा-विशिष्ट) ज्ञान के साथ-साथ (भाषा-विशिष्ट) बोलने के कौशल के दौरान सीखा और प्रशिक्षित किया जाता है। भाषा अधिग्रहण। दिवा मॉडल के मामले में यह माना जाता है कि नवजात शिशु के पास पहले से संरचित (भाषा-विशिष्ट) भाषण ध्वनि मानचित्र उपलब्ध नहीं है; यानी भाषण ध्वनि मानचित्र के भीतर कोई न्यूरॉन किसी भी भाषण इकाई से संबंधित नहीं है। बल्कि भाषण ध्वनि मानचित्र के संगठन के साथ-साथ मोटर मानचित्र और संवेदी लक्ष्य क्षेत्र मानचित्रों के अनुमानों के ट्यूनिंग को भाषण अधिग्रहण के दौरान सीखा या प्रशिक्षित किया जाता है। प्रारंभिक भाषण अधिग्रहण के दो महत्वपूर्ण चरणों को दिवा दृष्टिकोण में प्रतिरूपित किया गया है: बकबक करके और नकल करके सीखना।

बड़बड़ाना
बड़बड़ाने के दौरान संवेदी त्रुटि मानचित्रों और मोटर मानचित्रों के बीच अन्तर्ग्रथनी अनुमानों को ट्यून किया जाता है। यह प्रशिक्षण अर्ध-यादृच्छिक फीडफॉरवर्ड कमांड, यानी दिवा मॉडल बैबल्स की मात्रा उत्पन्न करके किया जाता है। इनमें से प्रत्येक बबलिंग कमांड आर्टिकुलेटरी आइटम के उत्पादन की ओर जाता है, जिसे पूर्व-भाषाई (यानी गैर-भाषा-विशिष्ट) भाषण आइटम के रूप में भी लेबल किया जाता है (यानी आर्टिकुलेटरी मॉडल बबलिंग मोटर कमांड के आधार पर आर्टिकुलेटरी मूवमेंट पैटर्न उत्पन्न करता है)। इसके बाद, ध्वनिक संकेत उत्पन्न होता है।

कलात्मक और ध्वनिक संकेत के आधार पर, प्रत्येक (पूर्व-भाषाई) भाषण आइटम के लिए संवेदी राज्य मानचित्र (चित्र 4 देखें) के स्तर पर विशिष्ट श्रवण और सोमैटोसेंसरी राज्य पैटर्न सक्रिय होता है। इस बिंदु पर दिवा मॉडल में विभिन्न भाषण मदों के लिए संवेदी और संबंधित मोटर सक्रियण पैटर्न उपलब्ध है, जो मॉडल को संवेदी त्रुटि मानचित्रों और मोटर मानचित्र के बीच अन्तर्ग्रथनी अनुमानों को ट्यून करने में सक्षम बनाता है। इस प्रकार, बड़बड़ाने के दौरान दिवा मॉडल फीडबैक कमांड सीखता है (यानी विशिष्ट संवेदी इनपुट के लिए उचित (फीडबैक) मोटर कमांड कैसे तैयार करें)।

नकल
नकल के दौरान दिवा मॉडल अपने स्पीच साउंड मैप को व्यवस्थित करता है और स्पीच साउंड मैप और मोटर मैप के बीच सिनैप्टिक प्रोजेक्शन को ट्यून करता है - यानी फॉरवर्ड मोटर कमांड की ट्यूनिंग - साथ ही स्पीच साउंड मैप और संवेदी लक्ष्य क्षेत्रों के बीच सिनैप्टिक प्रोजेक्शन (चित्र 4 देखें)।. भाषा-विशिष्ट भाषण इकाइयों (जैसे पृथक भाषण ध्वनियाँ, शब्दांश, शब्द, लघु वाक्यांश) की प्राप्ति का प्रतिनिधित्व करने वाले ध्वनिक भाषण संकेतों की मात्रा के लिए मॉडल को उजागर करके नकली प्रशिक्षण किया जाता है।

भाषण ध्वनि मानचित्र और श्रवण लक्ष्य क्षेत्र मानचित्र के बीच सिनैप्टिक अनुमानों का ट्यूनिंग भाषण ध्वनि मानचित्र के न्यूरॉन को उस भाषण आइटम के ध्वन्यात्मक प्रतिनिधित्व के लिए असाइन करके और उस भाषण आइटम के श्रवण प्रतिनिधित्व के साथ जोड़कर पूरा किया जाता है, जो सक्रिय होता है। श्रवण लक्ष्य क्षेत्र मानचित्र पर। श्रवण क्षेत्र (अर्थात भाषण इकाई की श्रवण परिवर्तनशीलता का विनिर्देश) होता है, क्योंकि विशिष्ट भाषण इकाई (यानी विशिष्ट ध्वन्यात्मक प्रतिनिधित्व) को कई (थोड़ा) अलग ध्वनिक (श्रवण) बोध (भाषण मद के बीच अंतर के लिए) द्वारा महसूस किया जा सकता है और स्पीच यूनिट ऊपर देखें: फीडफॉरवर्ड कंट्रोल)।

स्पीच साउंड मैप और मोटर मैप (यानी फॉरवर्ड मोटर कमांड की ट्यूनिंग) के बीच सिनैप्टिक प्रोजेक्शन की ट्यूनिंग फीडबैक कमांड की सहायता से पूरी की जाती है, क्योंकि सेंसरी एरर मैप और मोटर मैप के बीच अनुमान पहले से ही बबलिंग ट्रेनिंग के दौरान ट्यून किए गए थे (ऊपर देखें). इस प्रकार दिवा मॉडल उचित फीडफॉरवर्ड मोटर कमांड खोजने का प्रयास करके श्रवण भाषण वस्तु की नकल करने की कोशिश करता है। इसके बाद, मॉडल उस भाषण आइटम के लिए पहले से सीखे गए श्रवण लक्ष्य क्षेत्र (इच्छित संवेदी अवस्था) के साथ परिणामी संवेदी आउटपुट (उस प्रयास की अभिव्यक्ति के बाद वर्तमान संवेदी स्थिति) की तुलना करता है। फिर मॉडल श्रवण प्रतिक्रिया प्रणाली के श्रवण त्रुटि मानचित्र से उत्पन्न वर्तमान फीडबैक मोटर कमांड द्वारा वर्तमान फीडफॉरवर्ड मोटर कमांड को अपडेट करता है। इस प्रक्रिया को कई बार दोहराया जा सकता है (कई प्रयास)। दिवा मॉडल कोशिश करने के प्रयास से वर्तमान और इच्छित श्रवण स्थिति के बीच घटते श्रवण अंतर के साथ वाक् वस्तु का उत्पादन करने में सक्षम है।

नकल के दौरान दिवा मॉडल स्पीच साउंड मैप से सोमाटोसेंसरी टारगेट रीजन मैप में सिनैप्टिक प्रोजेक्शन को ट्यून करने में भी सक्षम है, क्योंकि प्रत्येक नया नकली प्रयास स्पीच आइटम का नया आर्टिक्यूलेशन पैदा करता है और इस तरह सोमातोसेंसोरी स्टेट पैटर्न पैदा करता है जो ध्वन्यात्मक प्रतिनिधित्व से जुड़ा होता है। उस भाषण मद की।

एफ 1 का वास्तविक समय गड़बड़ी: श्रवण प्रतिक्रिया का प्रभाव
जबकि भाषण अधिग्रहण के दौरान श्रवण प्रतिक्रिया सबसे महत्वपूर्ण है, अगर मॉडल ने प्रत्येक भाषण इकाई के लिए उचित फीडफॉर्वर्ड मोटर कमांड सीखा है तो इसे कम सक्रिय किया जा सकता है। लेकिन यह दिखाया गया है कि श्रवण गड़बड़ी के मामले में श्रवण प्रतिक्रिया को दृढ़ता से सह-सक्रिय करने की आवश्यकता है (उदाहरण के लिए फॉर्मेंट फ्रीक्वेंसी को स्थानांतरित करना, टूरविल एट अल। 2005)। यह दृश्य गड़बड़ी के दौरान आंदोलनों तक पहुंचने पर दृश्य प्रतिक्रिया के मजबूत प्रभाव के बराबर है (उदाहरण के लिए प्रिज्म (ऑप्टिक्स) के माध्यम से देखने के द्वारा वस्तुओं के स्थान को स्थानांतरित करना)।

जबड़े का अप्रत्याशित अवरोधन: सोमैटोसेंसरी फीडबैक का प्रभाव
श्रवण प्रतिक्रिया के तुलनीय तरीके से, सोमाटोसेंसरी प्रतिक्रिया भी भाषण उत्पादन के दौरान दृढ़ता से सह-सक्रिय हो सकती है, उदा। जबड़े के अचानक अवरुद्ध होने के मामले में (टूरविल एट अल. 2005)।

अधिनियम मॉडल
स्पीच प्रोसेसिंग के न्यूरोकंप्यूटेशनल मॉडलिंग में और दृष्टिकोण बर्न्ड जे. क्रॉगर और उनके समूह द्वारा विकसित एसीटी मॉडल है। आरडब्ल्यूटीएच आचेन विश्वविद्यालय, जर्मनी में (क्रोगर एट अल। 2014, क्रॉगर एट अल। 2009, क्रॉगर एट अल। 2011 ). अधिनियम मॉडल बड़े हिस्से में दिवा मॉडल के अनुरूप है। एसीटी मॉडल मोटर लक्ष्य रिपॉजिटरी पर केंद्रित है (यानी मोटर कौशल के लिए दीर्घकालिक स्मृति, मानसिक पाठ्यक्रम की तुलना में, लेवलट और व्हील्डन 1994 देखें ), जिसे दिवा मॉडल में विस्तार से नहीं बताया गया है। इसके अलावा, एसीटी मॉडल स्पष्ट रूप से मोटर लक्ष्य के स्तर का परिचय देता है, यानी भाषण वस्तुओं के उत्पादन के लिए उच्च स्तरीय मोटर विवरण (मोटर लक्ष्य, मोटर प्रांतस्था देखें)। एसीटी मॉडल - किसी भी न्यूरोकंप्यूटेशनल मॉडल की तरह - कुछ हद तक सट्टा बना हुआ है।

संरचना
एसीटी मॉडल का संगठन या संरचना चित्र 5 में दिया गया है।

भाषण उत्पादन के लिए, एसीटी मॉडल भाषण आइटम (ध्वन्यात्मक मानचित्र) के ध्वन्यात्मक के सक्रियण के साथ शुरू होता है। लगातार शब्दांश के मामले में, ध्वन्यात्मकता के स्तर पर सह-सक्रियण होता है, जिससे संवेदी प्रणाली के स्तर पर और मोटर प्रणाली के सह-सक्रियण के लिए संवेदी तंत्र के स्तर पर और सह-सक्रियण होता है। मोटर योजना मानचित्र का स्तर। दुर्लभ शब्दांश के मामले में, मोटर लक्ष्य के लिए प्रयास उस भाषण आइटम के लिए मोटर योजना मॉड्यूल द्वारा ध्वन्यात्मक मानचित्र के माध्यम से ध्वन्यात्मक समान भाषण वस्तुओं के लिए मोटर योजनाओं को सक्रिय करके उत्पन्न किया जाता है (क्रॉगर एट अल देखें। 2011) ). मोटर लक्ष्य या वोकल ट्रैक्ट एक्शन स्कोर में अस्थायी रूप से ओवरलैपिंग वोकल ट्रैक्ट एक्शन शामिल होते हैं, जिन्हें प्रोग्राम किया जाता है और बाद में मोटर कार्यक्रम | मोटर प्रोग्रामिंग, निष्पादन और नियंत्रण मॉड्यूल द्वारा निष्पादित किया जाता है। (इच्छित) मोटर योजना के सही निष्पादन को नियंत्रित करने के लिए इस मॉड्यूल को रीयल-टाइम सोमैटोसेंसरी फीडबैक जानकारी मिलती है। मोटर प्रोग्रामिंग प्राथमिक मोटर प्रांतस्था के स्तर पर सक्रियण पैटर्न की ओर ले जाती है और बाद में न्यूरोमस्कुलर जंक्शन को सक्रिय करती है। मोटोनूरॉन स्नायु उत्पन्न करते हैं और बाद में सभी आर्टिकुलेटरी ध्वन्यात्मक (होंठ, जीभ, वेलम, ग्लोटिस) के आंदोलन पैटर्न। ध्वनिक ध्वन्यात्मकता उत्पन्न करने के लिए कलात्मक संश्लेषण का उपयोग किया जाता है।

कलात्मक ध्वन्यात्मकता और ध्वनिक ध्वन्यात्मक प्रतिक्रिया संकेतों का उपयोग संवेदी प्रीप्रोसेसिंग मॉड्यूल के माध्यम से सोमाटोसेंसरी और श्रवण प्रणाली उत्पन्न करने के लिए किया जाता है, जिसे श्रवण और सोमैटोसेंसरी मानचित्र की ओर अग्रेषित किया जाता है। संवेदी-ध्वन्यात्मक प्रसंस्करण मॉड्यूल के स्तर पर, श्रवण और सोमाटोसेंसरी जानकारी को अल्पकालिक स्मृति में संग्रहीत किया जाता है और बाहरी संवेदी संकेत (ES, चित्र 5, जो संवेदी प्रतिक्रिया पाश के माध्यम से सक्रिय होते हैं) की तुलना पहले से ही प्रशिक्षित की जा सकती है। संवेदी संकेत (TS, चित्र 5, जो ध्वन्यात्मक मानचित्र के माध्यम से सक्रिय होते हैं)। श्रवण और सोमाटोसेंसरी त्रुटि संकेत उत्पन्न हो सकते हैं यदि बाहरी और इच्छित (प्रशिक्षित) संवेदी संकेत स्पष्ट रूप से भिन्न हैं (cf. दिवा मॉडल)।

चित्र 5 में हल्का हरा क्षेत्र उन तंत्रिका मानचित्रों और प्रसंस्करण मॉड्यूल को इंगित करता है, जो शब्दांश को पूरी इकाई के रूप में संसाधित करते हैं (विशिष्ट प्रसंस्करण समय विंडो लगभग 100 एमएस और अधिक)। इस प्रसंस्करण में ध्वन्यात्मक मानचित्र और संवेदी-ध्वन्यात्मक प्रसंस्करण मॉड्यूल और सीधे जुड़े मोटर योजना राज्य मानचित्र के भीतर सीधे जुड़े संवेदी राज्य मानचित्र शामिल हैं, जबकि प्राथमिक मोटर मानचित्र के साथ-साथ (प्राथमिक) श्रवण और (प्राथमिक) सोमैटोसेंसरी मानचित्र प्रक्रिया छोटी होती है टाइम विंडो (अधिनियम मॉडल में लगभग 10 एमएस)।

एसीटी मॉडल के भीतर तंत्रिका मानचित्रों का काल्पनिक मोटर प्रांतस्था चित्र 6 में दिखाया गया है। प्राथमिक मोटर और प्राथमिक संवेदी मानचित्रों के काल्पनिक स्थान मैजेंटा में दिए गए हैं, मोटर योजना राज्य मानचित्र और संवेदी राज्य मानचित्रों के काल्पनिक स्थान (संवेदी-ध्वन्यात्मक के भीतर) प्रसंस्करण मॉड्यूल, दिवा में त्रुटि मानचित्रों की तुलना में) नारंगी रंग में दिया गया है, और दर्पण न्यूरॉन ध्वन्यात्मक मानचित्र के लिए काल्पनिक स्थान लाल रंग में दिए गए हैं। दोहरे तीर न्यूरोनल मैपिंग का संकेत देते हैं। न्यूरल मैपिंग न्यूरल मैप्स को जोड़ती है, जो दूसरे से बहुत दूर नहीं हैं (ऊपर देखें)। ध्वन्यात्मक मानचित्र के दो दर्पण न्यूरॉन स्थान तंत्रिका मार्ग (ऊपर देखें) के माध्यम से जुड़े हुए हैं, जिससे ध्वन्यात्मक मानचित्र के दोनों अहसासों के लिए वर्तमान सक्रियण पैटर्न का एक-से- प्रतिबिंब होता है। ध्वन्यात्मक मानचित्र के दो स्थानों के बीच यह तंत्रिका मार्ग पूलिका आर्कुएटस (AF, चित्र 5 और चित्र 6 देखें) का हिस्सा माना जाता है।

भाषण धारणा के लिए, मॉडल बाहरी ध्वनिक सिग्नल से शुरू होता है (उदाहरण के लिए बाहरी स्पीकर द्वारा उत्पादित)। यह संकेत पूर्व-संसाधित है, श्रवण मानचित्र को पार करता है, और श्रवण-ध्वन्यात्मक प्रसंस्करण मॉड्यूल (ES: बाहरी संकेत, चित्र 5 देखें) के स्तर पर प्रत्येक शब्दांश या शब्द के लिए सक्रियण पैटर्न की ओर जाता है। द वेंट्रल पाथ ऑफ़ स्पीच पर्सेप्शन (देखें हिकोक और पॉपेल 2007 ) सीधे लेक्सिकल आइटम को सक्रिय करेगा, लेकिन अधिनियम में लागू नहीं किया गया है। बल्कि, एसीटी में ध्वन्यात्मक स्थिति की सक्रियता फोनेमिक मानचित्र के माध्यम से होती है और इस प्रकार उस भाषण वस्तु के लिए मोटर अभ्यावेदन का संयोजन हो सकता है (यानी भाषण धारणा का पृष्ठीय मार्ग; ibid।)।

क्रिया भंडार
ध्वन्यात्मक नक्शा मोटर योजना राज्य मानचित्र, संवेदी राज्य मानचित्र (संवेदी-ध्वन्यात्मक प्रसंस्करण मॉड्यूल के भीतर होने वाला), और ध्वन्यात्मक (राज्य) मानचित्र के साथ क्रिया भंडार का निर्माण करता है। ध्वन्यात्मक मानचित्र एसीटी में स्व-संगठित मानचित्र के रूप में लागू किया गया है। स्व-संगठित तंत्रिका मानचित्र और विभिन्न भाषण वस्तुओं को इस मानचित्र के भीतर विभिन्न न्यूरॉन्स द्वारा दर्शाया गया है (समयनिष्ठ या स्थानीय प्रतिनिधित्व, ऊपर देखें: तंत्रिका प्रतिनिधित्व)। ध्वन्यात्मक मानचित्र तीन प्रमुख विशेषताओं को प्रदर्शित करता है: ध्वन्यात्मक मानचित्र क्रिया-विशिष्ट धारणा को लागू करता है। एसीटी मॉडल के भीतर क्रिया-धारणा-लिंक (चित्र 5 और चित्र 6 भी देखें: ललाट पालि में ध्वन्यात्मक मानचित्र का दोहरा तंत्रिका प्रतिनिधित्व और लौकिक लोब के चौराहे पर और पार्श्विक भाग)।
 * फोनेमिक के लिए ध्वन्यात्मक मानचित्र के भीतर से अधिक ध्वन्यात्मकता हो सकती है (चित्र 7 में ध्वन्यात्मक लिंक भार देखें: उदाहरण के लिए शब्दांश / डी: एम / ध्वन्यात्मक मानचित्र के भीतर तीन न्यूरॉन्स द्वारा दर्शाया गया है)
 * फोनेटोपी : ध्वन्यात्मक मानचित्र विभिन्न ध्वन्यात्मकता के संबंध में भाषण वस्तुओं का क्रम प्रदर्शित करता है (चित्र 7 में ध्वन्यात्मक लिंक भार देखें। तीन उदाहरण: (i) शब्दांश /p@/, /t@/, और /k@/ ध्वन्यात्मक मानचित्र के भीतर बाईं ओर ऊपर की ओर क्रम में होते हैं; (ii) शब्दांश-प्रारंभिक प्लोसिव ध्वन्यात्मक मानचित्र के ऊपरी बाएँ भाग में होते हैं जबकि शब्दांश प्रारंभिक फ्रिकेटिव निचले दाहिने आधे भाग में होते हैं; (iii) सीवी शब्दांश और सीवीसी शब्दांश ध्वन्यात्मक मानचित्र के विभिन्न क्षेत्रों में भी होते हैं।)
 * ध्वन्यात्मक मानचित्र हाइपरमोडल या मल्टीमॉडल इंटरेक्शन है: ध्वन्यात्मक मानचित्र के स्तर पर ध्वन्यात्मक आइटम की सक्रियता (i) ध्वन्यात्मक स्थिति (चित्र 7 में ध्वन्यात्मक लिंक भार देखें), (ii) मोटर योजना स्थिति (देखें) चित्र 7 में मोटर प्लान लिंक वज़न), (iii) श्रवण अवस्था (चित्र 7 में श्रवण लिंक भार देखें), और (iv) सोमैटोसेंसरी अवस्था (चित्र 7 में नहीं दिखाया गया है)। इन सभी अवस्थाओं को ध्वन्यात्मक मानचित्र के भीतर प्रत्येक न्यूरॉन के बीच सिनैप्टिक लिंक वेट को ट्यून करके भाषण अधिग्रहण के दौरान सीखा या प्रशिक्षित किया जाता है, जो विशेष ध्वन्यात्मक स्थिति का प्रतिनिधित्व करता है और संबंधित मोटर योजना और संवेदी राज्य मानचित्रों के भीतर सभी न्यूरॉन्स (चित्र 3 भी देखें)।

मोटर योजना
मोटर योजना भाषण वस्तुओं के उत्पादन और अभिव्यक्ति के लिए उच्च स्तरीय मोटर विवरण है (मोटर लक्ष्य, मोटर कौशल, आर्टिकुलेटरी ध्वन्यात्मकता, कलात्मक ध्वनि विज्ञान देखें)। हमारे न्यूरोकम्प्यूटेशनल मॉडल अधिनियम में मोटर प्लान को वोकल ट्रैक्ट एक्शन स्कोर के रूप में परिमाणित किया जाता है। वोकल ट्रैक्ट एक्शन स्कोर मात्रात्मक रूप से वोकल ट्रैक्ट एक्शन (जिसे आर्टिकुलेटरी जेस्चर भी कहा जाता है) की संख्या निर्धारित करते हैं, जिन्हें स्पीच आइटम, उनकी प्राप्ति की डिग्री और अवधि, और सभी वोकल ट्रैक्ट क्रियाओं के अस्थायी संगठन का निर्माण करने के लिए सक्रिय करने की आवश्यकता होती है। भाषण आइटम (वोकल ट्रैक्ट एक्शन स्कोर के विस्तृत विवरण के लिए उदाहरण के लिए क्रोगर और बिरखोलज़ 2007 देखें)। प्रत्येक वोकल ट्रैक्ट एक्शन (आर्टिक्यूलेटरी जेस्चर) का विस्तृत अहसास स्पीच आइटम और विशेष रूप से उनके टेम्पोरल ओवरलैप के निर्माण के सभी वोकल ट्रैक्ट एक्शन के अस्थायी संगठन पर निर्भर करता है। इस प्रकार भाषण आइटम के भीतर प्रत्येक वोकल ट्रैक्ट क्रिया का विस्तृत अहसास हमारे न्यूरोकंप्यूटेशनल मॉडल अधिनियम में मोटर योजना स्तर के नीचे निर्दिष्ट किया गया है (क्रॉगर एट अल। 2011 देखें)।

सेंसरिमोटर और संज्ञानात्मक पहलुओं को एकीकृत करना: एक्शन रिपॉजिटरी और मेंटल लेक्सिकॉन का युग्मन

भाषण प्रसंस्करण के ध्वन्यात्मक या सेंसरिमोटर मॉडल (जैसे दिवा या अधिनियम) की गंभीर समस्या यह है कि भाषण अधिग्रहण के दौरान ध्वन्यात्मक मानचित्र का विकास मॉडलिंग नहीं किया जाता है। इस समस्या का संभावित समाधान भाषण अधिग्रहण की शुरुआत में (यहां तक कि नकली प्रशिक्षण की शुरुआत में भी; क्रोगर एट अल देखें। 2011 राजपूत जर्नल ऑफ बिहेवियरल रोबोटिक्स) स्पष्ट रूप से ध्वन्यात्मक मानचित्र पेश किए बिना एक्शन रिपॉजिटरी और मानसिक शब्दकोष का सीधा युग्मन हो सकता है।

प्रयोग: भाषण अधिग्रहण
सभी न्यूरोसाइंटिफिक या न्यूरोकंप्यूटेशनल दृष्टिकोणों के लिए बहुत ही महत्वपूर्ण मुद्दा संरचना और ज्ञान को अलग करना है। जबकि मॉडल की संरचना (यानी मानव न्यूरोनल नेटवर्क की, जो भाषण प्रसंस्करण के लिए आवश्यक है) मुख्य रूप से विकास द्वारा निर्धारित की जाती है, ज्ञान मुख्य रूप से सीखने की प्रक्रियाओं द्वारा भाषा अधिग्रहण के दौरान एकत्र किया जाता है। (i) पांच-स्वर प्रणाली /इ, ई, ए, ओ, यू/ (क्रॉगर एट अल। 2009 देखें), (ii) छोटा व्यंजन प्रणाली सीखने के लिए मॉडल अधिनियम के साथ विभिन्न शिक्षण प्रयोग किए गए थे। वॉयस प्लोसिव्स /बी, डी, जी / सीवी सिलेबल्स (उक्त।) के रूप में पहले हासिल किए गए सभी पांच स्वरों के संयोजन में, (iii) छोटी मॉडल भाषा जिसमें पांच-स्वर प्रणाली शामिल है, वॉयस और अनवॉइस्ड प्लोसिव्स /बी, डी, जी, पी, टी, के/, नासाल /एम, एन/ और पार्श्व /l/ और तीन शब्दांश प्रकार (वी, सीवी,और सीसीवी ) (क्रॉगर एट अल देखें। 2011) और (iv) 6 साल के बच्चे के लिए मानक जर्मन के 200 सबसे अधिक बार आने वाले शब्दांश (क्रॉगर और अन्य 2011 देखें)। सभी मामलों में, विभिन्न ध्वन्यात्मक विशेषताओं के संबंध में ध्वन्यात्मक वस्तुओं का क्रम देखा जा सकता है।

प्रयोगः वाक् बोध
इस तथ्य के बावजूद कि इसके पहले के संस्करणों में एसीटी मॉडल को शुद्ध भाषण उत्पादन मॉडल (भाषण अधिग्रहण सहित) के रूप में डिजाइन किया गया था, मॉडल भाषण धारणा की महत्वपूर्ण बुनियादी घटनाओं, यानी श्रेणीबद्ध धारणा और मैकगर्क प्रभाव को प्रदर्शित करने में सक्षम है। स्पष्ट धारणा के मामले में, मॉडल यह प्रदर्शित करने में सक्षम है कि स्पष्ट धारणा स्वरों के मामले में प्लोसिव्स के मामले में अधिक मजबूत है (क्रॉगर एट अल। 2009 देखें)। इसके अलावा, मॉडल अधिनियम मैकगर्क प्रभाव को प्रदर्शित करने में सक्षम था, अगर ध्वन्यात्मक मानचित्र के स्तर के न्यूरॉन्स के निषेध का विशिष्ट तंत्र लागू किया गया था (क्रॉगर और कन्नमपुझा 2008 देखें)।

यह भी देखें

 * भाषण उत्पादन
 * वाक् धारणा
 * कम्प्यूटेशनल तंत्रिका विज्ञान
 * कलात्मक संश्लेषण
 * श्रवण प्रतिक्रिया

अग्रिम पठन

 * Iaroslav Blagouchine and Eric Moreau. Control of a Speech Robot via an Optimum Neural-Network-Based Internal Model with Constraints. IEEE Transactions on Robotics, vol. 26, no. 1, pp. 142—159, February 2010.