वाणी धारणा

भाषण धारणा (वाणी धारणा) वह प्रक्रिया है जिसके द्वारा भाषा की ध्वनियाँ सुनी, व्याख्या और समझी जाती हैं। भाषण धारणा का अध्ययन भाषाविज्ञान और संज्ञानात्मक मनोविज्ञान और मनोविज्ञान में धारणा में स्वर विज्ञान और ध्वन्यात्मकता के क्षेत्रों से निकटता से जुड़ा हुआ है। वाक् बोध में अनुसंधान यह समझने का प्रयास करता है कि मानव श्रोता वाक् ध्वनियों को कैसे पहचानते हैं और इस जानकारी का उपयोग बोली जाने वाली भाषा को समझने के लिए करते हैं। भाषण धारणा अनुसंधान में कंप्यूटर सिस्टम के निर्माण में अनुप्रयोग हैं जो भाषण को पहचान सकते हैं, श्रवण और भाषा-बाधित श्रोताओं के लिए स्पीच रिकग्निशन (वाक् पहचान) में सुधार करने और विदेशी भाषा शिक्षण में अनुप्रयोग है।

वाणी को समझने की प्रक्रिया ध्वनि संकेत के स्तर पर शुरू होती है और श्रवण की प्रक्रिया। (ऑडिशन की प्रक्रिया के पूर्ण विवरण के लिए हियरिंग देखें।) प्रारंभिक श्रवण संकेत को संसाधित करने के बाद, ध्वनिक संकेतों और ध्वन्यात्मक जानकारी निकालने के लिए भाषण ध्वनियों को और संसाधित किया जाता है। यह भाषण जानकारी तब उच्च-स्तरीय भाषा प्रक्रियाओं, जैसे शब्द पहचान के लिए उपयोग की जा सकती है।

ध्वनिक संकेत
ध्वनिक संकेत वाक् ध्वनि संकेत में निहित संवेदी संकेत होते हैं जिनका उपयोग विभिन्न ध्वन्यात्मक श्रेणियों से संबंधित वाक् ध्वनियों को अलग करने के लिए वाक् धारणा में किया जाता है। उदाहरण के लिए, भाषण में सबसे अधिक अध्ययन किए गए संकेतों में से एक आवाज शुरुआत समय या वीओटी है। वीओटी एक प्राथमिक संकेत है जो "b" और "p" जैसे आवाज वाले और आवाज रहित प्लोसिव्स के बीच अंतर को दर्शाता है। अन्य संकेत अलग-अलग ध्वनियों को अलग करते हैं जो अभिव्यक्ति के विभिन्न स्थानों या अभिव्यक्ति के शिष्टाचार में उत्पन्न होते हैं। भाषण प्रणाली को विशिष्ट भाषण ध्वनि की श्रेणी निर्धारित करने के लिए इन संकेतों को भी जोड़ना चाहिए। यह अक्सर स्वनिमों के अमूर्त निरूपण के संदर्भ में सोचा जाता है। इन अभ्यावेदनों को फिर शब्द पहचान और अन्य भाषा प्रक्रियाओं में उपयोग के लिए जोड़ा जा सकता है। यह पहचानना आसान नहीं है कि कौन से ध्वनिक संकेत श्रोता किसी विशेष भाषण ध्वनि को समझते समय संवेदनशील होते हैं:

पहली नज़र में, हम भाषण को कैसे देखते हैं, इस समस्या का हल भ्रामक रूप से सरल लगता है। यदि कोई ध्वनिक तरंग के विस्तार की पहचान कर सकता है जो धारणा की इकाइयों के अनुरूप है, तो ध्वनि से अर्थ तक का रास्ता स्पष्ट होगा।  हालाँकि, समस्या पर लगभग पैंतालीस वर्षों के शोध के बाद भी, इस पत्राचार या मानचित्रण को खोजना बेहद कठिन साबित हुआ है। 

यदि ध्वनिक तरंग के एक विशिष्ट पहलू ने एक भाषाई इकाई का संकेत दिया है, तो भाषण सिंथेसाइज़र का उपयोग करने वाले परीक्षणों की एक श्रृंखला इस तरह के संकेत या संकेत को निर्धारित करने के लिए पर्याप्त होगी। हालाँकि, इसमें दो महत्वपूर्ण बाधाएँ हैं:
 * 1) भाषण संकेत का एक ध्वनिक पहलू अलग-अलग भाषाई रूप से प्रासंगिक आयामों को इंगित कर सकता है। उदाहरण के लिए, अंग्रेजी में एक स्वर की अवधि इंगित कर सकती है कि स्वर पर जोर दिया गया है या नहीं, या क्या यह एक आवाज या ध्वनिहीन व्यंजन द्वारा बंद किए गए अक्षरों में है, और कुछ मामलों में (जैसे अमेरिकी अंग्रेजी  और ) यह स्वरों की पहचान में अंतर कर सकता है। कुछ विशेषज्ञों का यह भी तर्क है कि अंग्रेजी में पारंपरिक रूप से लघु और दीर्घ स्वर कहे जाने वाले स्वरों में अंतर करने में अवधि मदद कर सकती है।
 * 2) एक भाषाई इकाई को कई ध्वनिक गुणों से जोड़ा जा सकता है। उदाहरण के लिए, एक क्लासिक प्रयोग में, एल्विन लिबरमैन (1957) ने दिखाया कि के आरंभिक संक्रमण निम्नलिखित स्वरों के आधार पर भिन्न होते हैं (चित्र 1 देखें) लेकिन वे सभी श्रोताओं द्वारा फोनेमे  के रूप में व्याख्या किए जाते हैं।

रैखिकता और विभाजन की समस्या
हालांकि श्रोता भाषण को असतत इकाइयों (स्वर, शब्दांश और शब्द) की एक धारा के रूप में देखते हैं, भौतिक भाषण संकेत में इस रैखिकता को देखना मुश्किल है (उदाहरण के लिए चित्र 2 देखें)। वाक् ध्वनियाँ सख्ती से एक दूसरे का अनुसरण नहीं करती हैं, बल्कि, वे ओवरलैप करती हैं। एक भाषण ध्वनि उन लोगों से प्रभावित होती है जो पूर्ववर्ती हैं और जो अनुसरण करते हैं। यह प्रभाव दो या दो से अधिक खंडों (और शब्दांश और शब्द सीमाओं के पार) की दूरी पर भी लगाया जा सकता है।

क्योंकि वाक् (भाषण) संकेत रैखिक नहीं है, इसलिए विभाजन की समस्या है। एक एकल अवधारणात्मक इकाई से संबंधित भाषण संकेत के विस्तार को परिसीमित करना मुश्किल है। एक उदाहरण के रूप में, ध्वन्यात्मकता के ध्वनिक गुण निम्नलिखित स्वर के उत्पादन पर निर्भर करेंगे (कॉर्टिक्यूलेशन के कारण)।

निश्चरता का अभाव
भाषण धारणा के अनुसंधान और अनुप्रयोग को कई समस्याओं से निपटना चाहिए, जो कि अपरिवर्तनीयता की कमी का परिणाम है। किसी भाषा के स्वनिम और भाषण में उसकी ध्वनिक अभिव्यक्ति के बीच विश्वसनीय निरंतर संबंध खोजना मुश्किल होता है। इसके अनेक कारण हैं:

संदर्भ-प्रेरित भिन्नता
ध्वन्यात्मक वातावरण वाक् ध्वनियों के ध्वनिक गुणों को प्रभावित करता है। उदाहरण के लिए, अंग्रेजी में जब कोरोनल व्यंजन से घिरा होता है तो सामने होता है। या, वाणी और ध्वनिरहित प्लोसिव्स के बीच की सीमा को चिह्नित करने वाली आवाज शुरुआत का समय प्रयोगशाला, वायुकोशीय और वेलार प्लोसिव्स के लिए अलग है और वे तनाव के तहत या एक शब्दांश के भीतर स्थिति के आधार पर बदलते हैं।

अलग-अलग भाषण स्थितियों के कारण भिन्नता
भिन्नता का कारण बनने वाला एक महत्वपूर्ण कारक अलग-अलग भाषण दर है। कई ध्वन्यात्मक विरोधाभास लौकिक विशेषताओं (लघु बनाम दीर्घ स्वर या व्यंजन, एफ़्रीकेट्स बनाम फ्रिकेटिव्स, प्लोसिव्स बनाम ग्लाइड्स, वॉयस बनाम वॉयसलेस प्लोसिव्स, आदि) द्वारा गठित होते हैं और वे निश्चित रूप से बोलने की गति में बदलाव से प्रभावित होते हैं। भिन्नता का एक अन्य प्रमुख स्रोत कलात्मक सावधानी बनाम ढलान है जो जुड़े हुए भाषण के लिए विशिष्ट है (आर्टिक्यूलेटरी अंडरशूट स्पष्ट रूप से निर्मित ध्वनियों के ध्वनिक गुणों में परिलक्षित होता है)।

विभिन्न वक्ता पहचान के कारण भिन्नता
ठोस भाषण निर्माण की परिणामी ध्वनिक संरचना व्यक्तिगत वक्ताओं के भौतिक और मनोवैज्ञानिक गुणों पर निर्भर करती है। पुरुष, महिलाएं और बच्चे आम तौर पर अलग-अलग पिच वाली आवाजें निकालते हैं। क्योंकि वक्ताओं के पास विभिन्न आकारों के स्वर पथ होते हैं (विशेष रूप से लिंग और आयु के कारण) गुंजयमान आवृत्तियों (प्रारूप), जो भाषण ध्वनियों की पहचान के लिए महत्वपूर्ण हैं, व्यक्तियों में उनके पूर्ण मूल्यों में भिन्न होंगे (इसके उदाहरण के लिए चित्र 3 देखें)। अनुसंधान से पता चलता है कि 7.5 महीने की उम्र के शिशु विभिन्न लिंगों के वक्ताओं द्वारा प्रस्तुत जानकारी को पहचान नहीं सकते हैं; हालांकि, 10.5 महीने की उम्र तक वे समानता का पता लगा सकते हैं। बोली और विदेशी लहज़े भी भिन्नता का कारण बन सकते हैं, जैसा कि वक्ता और श्रोता की सामाजिक विशेषताओं में हो सकता है।

अवधारणात्मक स्थिरता और सामान्यीकरण
विभिन्न वक्ताओं और विभिन्न स्थितियों की महान विविधता के बावजूद, श्रोता स्वर और व्यंजन को निरंतर श्रेणियों के रूप में देखते हैं। यह प्रस्तावित किया गया है कि यह अवधारणात्मक सामान्यीकरण प्रक्रिया के माध्यम से प्राप्त किया जाता है जिसमें श्रोता अंतर्निहित श्रेणी तक पहुंचने के लिए शोर (अर्थात भिन्नता) को फ़िल्टर करते हैं। स्वर-पथ-आकार के अंतर के परिणामस्वरूप वक्ताओं में फॉर्मेंट-आवृत्ति भिन्नता होती है; इसलिए एक श्रोता को अपनी अवधारणात्मक प्रणाली को किसी विशेष वक्ता की ध्वनिक विशेषताओं के अनुसार समायोजित करना पड़ता है। इसे उनके निरपेक्ष मूल्यों के बजाय फॉर्मेंट्स के अनुपात पर विचार करके पूरा किया जा सकता है। इस प्रक्रिया को वोकल ट्रैक्ट नॉर्मलाइजेशन (उदाहरण के लिए चित्र 3 देखें) कहा गया है। इसी तरह, माना जाता है कि श्रोता अवधि की धारणा को उस भाषण की वर्तमान गति से समायोजित करते हैं जिसे वे सुन रहे हैं - इसे भाषण दर सामान्यीकरण के रूप में जाना जाता है।

सामान्यीकरण वास्तव में होता है या नहीं और इसकी सटीक प्रकृति क्या है, यह सैद्धांतिक विवाद का विषय है (नीचे सिद्धांत देखें)। अवधारणात्मक स्थिरता एक ऐसी घटना है जो केवल भाषण धारणा के लिए विशिष्ट नहीं है; यह अन्य प्रकार की धारणा में भी उपस्थित है।

स्पष्ट धारणा
अवधारणात्मक विभेदीकरण की प्रक्रियाओं में श्रेणीबद्ध धारणा शामिल है। लोग भाषण ध्वनियों को स्पष्ट रूप से समझते हैं, कहने का मतलब यह है कि वे श्रेणियों के भीतर की तुलना में श्रेणियों (फोनीम्स) के बीच के अंतर को नोटिस करने की अधिक संभावना रखते हैं। श्रेणियों के बीच अवधारणात्मक स्थान इसलिए विकृत हो गया है, आने वाली भाषण ध्वनियों के लिए श्रेणियों के केंद्र (या "प्रोटोटाइप") एक चलनी या चुंबक की तरह काम कर रहे हैं।

मूक और एक आवाज वाले द्विभाषी प्लोसिव के बीच एक कृत्रिम सातत्य में, प्रत्येक नया कदम वोट की मात्रा में पिछले एक से अलग होता है। पहली ध्वनि एक पूर्व-आवाज [बी] है, अर्थात इसमें नकारात्मक वीओटी है। फिर, वीओटी को बढ़ाते हुए, यह शून्य तक पहुँच जाता है, अर्थात प्लोसिव एक सादा अप्रेरित ध्वनिहीन है। धीरे-धीरे, एक समय में समान मात्रा में वीओटी जोड़ने पर, अंत में प्लोसिव एक जोरदार आकांक्षा रहित ध्वनिहीन द्विभाषी  बन जाता है। (1970 में लिस्कर और अब्रामसन द्वारा एक प्रयोग में इस तरह की निरंतरता का उपयोग किया गया था। उनके द्वारा उपयोग की जाने वाली ध्वनियाँ ऑनलाइन उपलब्ध हैं।) इस निरंतरता में, उदाहरण के लिए, सात ध्वनियाँ, मूल अंग्रेजी श्रोता पहली तीन ध्वनियों को /b/ और अंतिम तीन ध्वनियों को /p/ के रूप में दो श्रेणियों के बीच स्पष्ट सीमा के साथ पहचानेंगे। एक दो-वैकल्पिक पहचान (या वर्गीकरण) परीक्षण से एक असंतत वर्गीकरण फलन प्राप्त होगा (चित्र 4 में लाल वक्र देखें)।

अलग-अलग वीओटी मानों वाली दो ध्वनियों के बीच अंतर करने की क्षमता के परीक्षण में, लेकिन एक दूसरे से लगातार वीओटी दूरी (उदाहरण के लिए 20 एमएस) होने पर, यदि दोनों ध्वनियाँ एक ही श्रेणी में आती हैं और प्रत्येक ध्वनि एक अलग श्रेणी में आती है तो श्रोताओं के मौके के स्तर पर प्रदर्शन करने की संभावना है (चित्र 4 में नीला भेदभाव वक्र देखें)।

पहचान और भेदभाव परीक्षण दोनों से निष्कर्ष निकालने के लिए यह है कि श्रेणियों के बीच की सीमा को पार किया गया था या नहीं, इस पर निर्भर करते हुए श्रोताओं को वीओटी में समान सापेक्ष वृद्धि के लिए अलग संवेदनशीलता होगी। इसी तरह के अवधारणात्मक समायोजन को अन्य ध्वनिक संकेतों के साथ भी प्रमाणित किया गया है।

टॉप-डाउन प्रभाव
एक उत्कृष्ट प्रयोग में, रिचर्ड एम. वॉरेन (1970) ने एक शब्द के एक स्वर को खाँसी जैसी ध्वनि के साथ बदल दिया। अवधारणात्मक रूप से, उनके विषयों ने बिना किसी कठिनाई के लापता भाषण ध्वनि को बहाल कर दिया और सटीक रूप से यह पहचान नहीं कर सके कि कौन से फोनेम को परेशान किया गया था, एक घटना जिसे फोनेमिक बहाली प्रभाव के रूप में जाना जाता है। इसलिए, वाक् बोध की प्रक्रिया अनिवार्य रूप से एकदिशात्मक नहीं है।

एक अन्य बुनियादी प्रयोग ने वाक्यांश के भीतर स्वाभाविक रूप से बोले जाने वाले शब्दों की पहचान की तुलना अलगाव में समान शब्दों से की, यह पता लगाना कि धारणा सटीकता आमतौर पर बाद की स्थिति में गिर जाती है। धारणा पर सिमेंटिक ज्ञान के प्रभाव की जांच करने के लिए, गार्नेस एंड बॉन्ड (1976) ने इसी तरह के वाहक वाक्यों का इस्तेमाल किया, जहां लक्ष्य शब्द केवल एक फोनेम (बे / डे / गे, उदाहरण के लिए) में भिन्न थे, जिनकी गुणवत्ता निरंतरता के साथ बदल गई थी। जब अलग-अलग वाक्यों में डाल दिया जाता है कि प्रत्येक स्वाभाविक रूप से एक व्याख्या का कारण बनता है, तो श्रोता पूरे वाक्य के अर्थ के अनुसार अस्पष्ट शब्दों का न्याय करते हैं । अर्थात्, आकृति विज्ञान, वाक्य रचना, या शब्दार्थ से जुड़ी उच्च-स्तरीय भाषा प्रक्रियाएँ वाक् ध्वनियों की पहचान में सहायता के लिए मूल वाक् बोध प्रक्रियाओं के साथ परस्पर क्रिया कर सकती हैं।

यह मामला हो सकता है कि यह जरूरी नहीं है और यहां तक ​​कि श्रोता के लिए उच्च इकाइयों को पहचानने से पहले स्वरों को पहचानना भी संभव नहीं है, जैसे कि उदाहरण के लिए शब्द। ध्वनिक संकेत से कथित इकाई की ध्वन्यात्मक संरचना के बारे में कम से कम एक मूलभूत जानकारी प्राप्त करने के बाद, श्रोता बोली जाने वाली भाषा के अपने ज्ञान का उपयोग करके लापता या शोर-मुखौटे वाले स्वरों की भरपाई कर सकते हैं। प्रतिपूरक तंत्र वाक्य स्तर पर भी काम कर सकता है जैसे कि सीखे गए गीतों, वाक्यांशों और छंदों में, एक प्रभाव जो न्यूरल कोडिंग पैटर्न द्वारा समर्थित होता है, जो मिस्ड निरंतर भाषण अंशों के अनुरूप होता है, सभी प्रासंगिक नीचे-ऊपर संवेदी इनपुट की कमी के अलावा है।

अधिग्रहीत भाषा हानि
वाक् बोध की पहली परिकल्पना का उपयोग उन रोगियों के साथ किया गया था जिन्होंने श्रवण बोध की कमी प्राप्त की थी, जिसे ग्रहणशील वाचाघात के रूप में भी जाना जाता है। तब से कई अक्षमताओं को वर्गीकृत किया गया है, जिसके परिणामस्वरूप भाषण धारणा की सही परिभाषा हुई। शब्द 'भाषण धारणा' रुचि की प्रक्रिया का वर्णन करता है जो जांच प्रक्रिया के उप शाब्दिक संदर्भों को नियोजित करता है। इसमें कई अलग-अलग भाषा और व्याकरण संबंधी कार्य शामिल हैं, जैसे: विशेषताएं, खंड (स्वर), शब्दांश संरचना (उच्चारण की इकाई), ध्वन्यात्मक शब्द रूप (कैसे ध्वनियों को एक साथ समूहीकृत किया जाता है), व्याकरण संबंधी विशेषताएं, रूपात्मक (उपसर्ग और प्रत्यय), और अर्थपूर्ण जानकारी (शब्दों का अर्थ)। प्रारंभिक वर्षों में, वे भाषण के ध्वनिकी में अधिक रुचि रखते थे। उदाहरण के लिए, वे / बीए / या / डीए / के बीच के अंतरों को देख रहे थे, लेकिन अब शोध उत्तेजनाओं से मस्तिष्क में प्रतिक्रिया के लिए निर्देशित किया गया है। हाल के वर्षों में, भाषण धारणा कैसे काम करती है, इसकी भावना पैदा करने के लिए एक मॉडल विकसित किया गया है; इस मॉडल को डुअल स्ट्रीम मॉडल के रूप में जाना जाता है। मनोवैज्ञानिक धारणा को कैसे देखते हैं, यह मॉडल काफी हद तक बदल गया है। द्विधारा मॉडल का पहला भाग उदर मार्ग है। इस मार्ग में मध्य टेम्पोरल गाइरस, अवर टेम्पोरल सल्कस और शायद अवर टेम्पोरल गाइरस शामिल हैं। वेंट्रल पाथवे लेक्सिकल या वैचारिक अभ्यावेदन के ध्वन्यात्मक प्रतिनिधित्व को दर्शाता है, जो शब्दों का अर्थ है। दोहरी धारा मॉडल का दूसरा खंड पृष्ठीय मार्ग है। इस मार्ग में सिल्वियन पारिएटोटेम्पोरल, अवर ललाट गाइरस, पूर्वकाल इंसुला और प्रीमोटर कॉर्टेक्स शामिल हैं। इसका प्राथमिक कार्य संवेदी या ध्वन्यात्मक उत्तेजनाओं को लेना और इसे एक कलात्मक-मोटर प्रतिनिधित्व (भाषण का निर्माण) में स्थानांतरित करना है।

भाषाघात
वाचाघात मस्तिष्क को नुकसान के कारण मस्तिष्क में भाषा प्रसंस्करण की हानि है। क्षतिग्रस्त मस्तिष्क के क्षेत्र के आधार पर भाषा प्रसंस्करण के विभिन्न हिस्सों पर प्रभाव पड़ता है, और वाचाघात को चोट के स्थान या लक्षणों के नक्षत्र के आधार पर आगे वर्गीकृत किया जाता है। ब्रोका के मस्तिष्क के क्षेत्र को नुकसान अक्सर अभिव्यंजक वाचाघात का परिणाम होता है जो भाषण उत्पादन में हानि के रूप में प्रकट होता है। वर्निक के क्षेत्र को नुकसान अक्सर ग्रहणशील वाचाघात का परिणाम होता है जहां भाषण प्रसंस्करण बिगड़ा हुआ है। बिगड़ा हुआ वाक् बोध के साथ वाचाघात आमतौर पर बाएं टेम्पोरल लोब या पार्श्विका लोब में स्थित घावों या क्षति को दर्शाता है। लेक्सिकल और सिमेंटिक कठिनाइयाँ आम हैं, और समझ प्रभावित हो सकती है।

संवेदनलोप
एग्नोसिया "आम तौर पर मस्तिष्क क्षति के परिणामस्वरूप परिचित वस्तुओं या उत्तेजनाओं को पहचानने की क्षमता का नुकसान या कमी है"। कई अलग-अलग प्रकार के एग्नोसिया हैं जो हमारी हर एक इंद्रियों को प्रभावित करते हैं, लेकिन दो सबसे अधिक भाषण से संबंधित हैं, स्पीच एग्नोसिया और फोन एग्नोसिया हैं।

स्पीच एग्नोसिया: शुद्ध शब्द बहरापन, या स्पीच एग्नोसिया, एक विकार है जिसमें एक व्यक्ति सुनने, भाषण देने और यहां तक कि भाषण पढ़ने की क्षमता बनाए रखता है, फिर भी वे भाषण को समझने या ठीक से समझने में असमर्थ होते हैं। ऐसा लगता है कि इन रोगियों में भाषण को ठीक से संसाधित करने के लिए आवश्यक सभी कौशल हैं, फिर भी ऐसा प्रतीत होता है कि उनके पास भाषण उत्तेजनाओं से संबंधित कोई अनुभव नहीं है। मरीजों ने बताया है, "मैं आपको बात करते सुन सकता हूं, लेकिन मैं इसका अनुवाद नहीं कर सकता"। भले ही वे भाषण के अर्थ को निर्धारित करने की क्षमता के बिना भाषण की उत्तेजनाओं को शारीरिक रूप से प्राप्त और संसाधित कर रहे हों, वे अनिवार्य रूप से भाषण को बिल्कुल भी समझने में असमर्थ हैं। ऐसा कोई ज्ञात उपचार नहीं है जो पाया गया है, लेकिन मामले के अध्ययन और प्रयोगों से यह ज्ञात है कि वाक् एग्नोसिया बाएं गोलार्द्ध या दोनों में घावों से संबंधित है, विशेष रूप से सही अस्थाई दुष्क्रिया है।

फोनैग्नोसिया: फोनैग्नोसिया किसी भी परिचित आवाज को पहचानने में असमर्थता से जुड़ा हुआ है। इन मामलों में, भाषण उत्तेजनाओं को सुना जा सकता है और समझा भी जा सकता है लेकिन एक निश्चित आवाज के साथ भाषण का संबंध खो जाता है। यह "जटिल मुखर गुणों (टिम्ब्रे, आर्टिक्यूलेशन, और प्रोसोडी-तत्वों के असामान्य संस्करण) के कारण हो सकता है जो एक व्यक्तिगत आवाज को अलग करते हैं"। कोई ज्ञात उपचार नहीं है; हालाँकि, एक मिरगी की महिला की एक मामले की रिपोर्ट है जो अन्य दुर्बलताओं के साथ-साथ फोनाग्नोसिया का अनुभव करने लगी। उसके ईईजी और एमआरआई परिणामों ने दिखाया "एक सही कॉर्टिकल पैरिएटल टी2-इपरिंटेनस घाव गैडोलीनियम वृद्धि के बिना और पानी के अणु प्रसार के असतत हानि के साथ"। इसलिए हालांकि कोई इलाज नहीं खोजा गया है, फोनैग्नोसिया को पोस्टिक्टल पैरिटल कॉर्टिकल डिसफंक्शन से जोड़ा जा सकता है।

शिशु भाषण धारणा
शिशु भाषण ध्वनियों के बीच बहुत छोटे अंतरों का पता लगाने में सक्षम होकर भाषा अधिग्रहण की प्रक्रिया शुरू करते हैं। वे सभी संभव भाषण विरोधाभासों (स्वनिम) में भेदभाव कर सकते हैं। धीरे-धीरे, जैसे-जैसे वे अपनी मूल भाषा के संपर्क में आते हैं, उनकी धारणा भाषा-विशिष्ट होती जाती है, यानी वे सीखते हैं कि भाषा की ध्वन्यात्मक श्रेणियों के भीतर के अंतरों को कैसे अनदेखा किया जाए (अंतर जो अन्य भाषाओं में विपरीत हो सकते हैं - उदाहरण के लिए, अंग्रेजी दो स्वरों को अलग करती है प्लोसिव्स की श्रेणियां, जबकि थाई भाषा # व्यंजन; शिशुओं को यह सीखना चाहिए कि उनकी मूल भाषा के उपयोग में कौन से अंतर विशिष्ट हैं और कौन से नहीं हैं)। चूंकि शिशु आने वाली भाषण ध्वनियों को श्रेणियों में क्रमबद्ध करना सीखते हैं, अप्रासंगिक मतभेदों को अनदेखा करते हैं और विपरीत लोगों को मजबूत करते हैं, उनकी धारणा स्पष्ट धारणा बन जाती है। शिशु लगभग 6 महीने की उम्र तक अपनी मूल भाषा के विभिन्न स्वरों की तुलना करना सीख जाते हैं। देशी व्यंजन विरोधाभास 11 या 12 महीने की उम्र तक प्राप्त कर लिए जाते हैं। कुछ शोधकर्ताओं ने प्रस्तावित किया है कि भाषा अधिग्रहण में सांख्यिकीय शिक्षा नामक एक प्रक्रिया का उपयोग करके शिशु निष्क्रिय श्रवण के माध्यम से अपनी मूल भाषा की ध्वनि श्रेणियों को सीखने में सक्षम हो सकते हैं। अन्य लोग यह भी दावा करते हैं कि कुछ ध्वनि श्रेणियां सहज हैं, अर्थात, वे आनुवंशिक रूप से निर्दिष्ट हैं (श्रेणीबद्ध धारणा #अधिग्रहीत विशिष्टता के बारे में चर्चा देखें|जन्मजात बनाम अधिग्रहीत श्रेणीबद्ध विशिष्टता)।

यदि एक दिन के बच्चों को उनकी माँ की आवाज़ सामान्य रूप से, असामान्य रूप से (मोनोटोन में), और एक अजनबी की आवाज़ के साथ प्रस्तुत की जाती है, तो वे केवल अपनी माँ की सामान्य रूप से बोलने वाली आवाज़ पर प्रतिक्रिया करते हैं। जब एक मानव और एक गैर-मानव ध्वनि बजाई जाती है, तो बच्चे अपना सिर केवल मानव ध्वनि के स्रोत की ओर घुमाते हैं। यह सुझाव दिया गया है कि श्रवण सीखना प्रसव पूर्व अवधि में पहले से ही शुरू हो जाता है।

यह जांचने के लिए इस्तेमाल की जाने वाली तकनीकों में से एक है कि ऊपर उल्लिखित हेड-टर्न प्रक्रिया के अलावा शिशु भाषण को कैसे समझते हैं, उनकी चूसने की दर को मापना है। इस तरह के प्रयोग में एक बच्चा आवाज के साथ पेश करते हुए एक खास निप्पल को चूस रहा होता है। सबसे पहले, बच्चे की सामान्य चूसने की दर स्थापित की जाती है। फिर एक प्रोत्साहन बार-बार बजाया जाता है। जब बच्चा पहली बार उत्तेजना सुनता है तो चूसने की दर बढ़ जाती है लेकिन जैसे ही बच्चे को उत्तेजना की आदत हो जाती है, चूसने की दर कम हो जाती है और स्तर बंद हो जाता है। फिर, बच्चे के लिए एक नई उत्तेजना खेली जाती है। यदि बच्चा नई शुरू की गई उत्तेजना को पृष्ठभूमि उत्तेजना से अलग मानता है तो चूसने की दर में वृद्धि दिखाई देगी। सक्शन-रेट (मद्यपान दर)और हेड-टर्न (सिर घुमाना) विधि भाषण धारणा का अध्ययन करने के लिए कुछ अधिक पारंपरिक, व्यवहारिक तरीके हैं। भाषण धारणा का अध्ययन करने में हमारी मदद करने वाली नई विधियों (नीचे #अनुसंधान विधियों को देखें) में शिशुओं में निकट-अवरक्त स्पेक्ट्रोस्कोपी का व्यापक रूप से उपयोग किया जाता है।

यह भी पता चला है कि भले ही शिशुओं की विभिन्न भाषाओं के विभिन्न ध्वन्यात्मक गुणों के बीच अंतर करने की क्षमता नौ महीने की उम्र के आसपास कम होने लगती है, इस प्रक्रिया को पर्याप्त तरीके से नई भाषा में उजागर करके इस प्रक्रिया को उल्टा करना संभव है। पेट्रीसिया के. कुहल, फेंग-मिंग त्साओ और हुई-मेई लियू द्वारा किए गए एक शोध अध्ययन में, यह पता चला कि यदि शिशुओं से मंदारिन चीनी के एक मूल वक्ता द्वारा बात की जाती है और उनके साथ बातचीत की जाती है, तो उन्हें वास्तव में अपनी क्षमता बनाए रखने के लिए वातानुकूलित किया जा सकता है। मंदारिन के भीतर विभिन्न वाक् ध्वनियों में अंतर करने के लिए जो अंग्रेजी भाषा में पाई जाने वाली वाक् ध्वनियों से बहुत भिन्न हैं। इस प्रकार यह साबित करते हुए कि सही परिस्थितियों को देखते हुए, मूल भाषा में पाई जाने वाली भाषाओं के अलावा अन्य भाषाओं में भाषण ध्वनियों को अलग करने की क्षमता के नुकसान को रोकना संभव है।

पार भाषा और दूसरी भाषा
शोध की एक बड़ी मात्रा ने अध्ययन किया है कि एक भाषा के उपयोगकर्ता विदेशी भाषा भाषण (क्रॉस-भाषा भाषण धारणा के रूप में संदर्भित) या दूसरी भाषा | दूसरी भाषा भाषण (द्वितीय भाषा भाषण धारणा) को कैसे समझते हैं। उत्तरार्द्ध दूसरी भाषा अधिग्रहण के क्षेत्र में आता है।

भाषाएं उनके ध्वन्यात्मक सूची में भिन्न होती हैं। स्वाभाविक रूप से, जब एक विदेशी भाषा का सामना करना पड़ता है तो यह मुश्किलें पैदा करता है। उदाहरण के लिए, यदि दो विदेशी-भाषा ध्वनियाँ एक ही मातृभाषा श्रेणी में आत्मसात की जाती हैं, तो उनके बीच अंतर करना बहुत मुश्किल होगा। इस स्थिति का एक उत्कृष्ट उदाहरण यह अवलोकन है कि अंग्रेजी के जापानी शिक्षार्थियों को अंग्रेजी तरल व्यंजनों और /r/ की पहचान करने या उनमें अंतर करने में समस्या होगी (जापानी बोलने वालों द्वारा अंग्रेजी की धारणा /r/ और /l/ देखें)।

बेस्ट (1995) ने एक अवधारणात्मक आत्मसात मॉडल प्रस्तावित किया जो संभावित क्रॉस-लैंग्वेज श्रेणी आत्मसात पैटर्न का वर्णन करता है और उनके परिणामों की भविष्यवाणी करता है। फ्लेज (1995) ने एक स्पीच लर्निंग मॉडल तैयार किया जो दूसरी-भाषा (L2) भाषण अधिग्रहण के बारे में कई परिकल्पनाओं को जोड़ता है और जो सरल शब्दों में भविष्यवाणी करता है कि एक L2 ध्वनि जो मूल भाषा (L1) ध्वनि के समान नहीं है L2 ध्वनि की तुलना में प्राप्त करना आसान है जो अपेक्षाकृत L1 ध्वनि के समान है (क्योंकि इसे शिक्षार्थी द्वारा अधिक स्पष्ट रूप से भिन्न माना जाएगा)।

भाषा या श्रवण हानि में
भाषा या सुनने की अक्षमता वाले लोग भाषण को कैसे समझते हैं, इस पर शोध करना केवल संभावित उपचारों की खोज करना नहीं है। यह गैर-बिगड़ा हुआ वाक् बोध के सिद्धांतों में अंतर्दृष्टि प्रदान कर सकता है। शोध के दो क्षेत्र उदाहरण के रूप में काम कर सकते हैं:

वाचाघात वाले श्रोता
Aphasia भाषा की अभिव्यक्ति और ग्रहण दोनों को प्रभावित करता है। दो सबसे आम प्रकार, अभिव्यंजक वाचाघात और ग्रहणशील वाचाघात कुछ हद तक वाक् धारणा को प्रभावित करते हैं। अभिव्यंजक वाचाघात भाषा को समझने में मध्यम कठिनाई का कारण बनता है। समझ पर ग्रहणशील वाचाघात का प्रभाव बहुत अधिक गंभीर है। इस बात पर सहमति है, कि अफ़ासिक अवधारणात्मक घाटे से पीड़ित हैं। वे आमतौर पर मुखरता और आवाज के स्थान को पूरी तरह से अलग नहीं कर सकते हैं। जहां तक अन्य सुविधाओं का संबंध है, कठिनाइयां अलग-अलग हैं। यह अभी तक सिद्ध नहीं हुआ है कि वाचाघात पीड़ितों में निम्न-स्तरीय भाषण-धारणा कौशल प्रभावित होते हैं या क्या उनकी कठिनाइयाँ केवल उच्च-स्तर की हानि के कारण होती हैं।

कर्णावत प्रत्यारोपण के साथ श्रोता
कॉकलीयर इम्प्लांट (कर्णावत प्रत्यारोपण) सेंसरिनुरल हियरिंग लॉस वाले व्यक्तियों में ध्वनिक सिग्नल तक पहुंच को पुनर्स्थापित करता है। इम्प्लांट द्वारा बताई गई ध्वनिक जानकारी आमतौर पर इम्प्लांट उपयोगकर्ताओं के लिए पर्याप्त होती है कि वे उन लोगों के भाषण को ठीक से पहचान सकें जिन्हें वे बिना किसी दृश्य सुराग के जानते हैं। कर्णावत प्रत्यारोपण उपयोगकर्ताओं के लिए, अज्ञात वक्ताओं और ध्वनियों को समझना अधिक कठिन होता है। दो साल की उम्र के बाद इम्प्लांट प्राप्त करने वाले बच्चों की अवधारणात्मक क्षमता उन बच्चों की तुलना में काफी बेहतर है जिन्हें वयस्कता में प्रत्यारोपित किया गया था। अवधारणात्मक प्रदर्शन को प्रभावित करने के लिए कई कारक दिखाए गए हैं, विशेष रूप से: इम्प्लांटेशन से पहले बहरेपन की अवधि, बहरेपन की शुरुआत की उम्र, इम्प्लांटेशन पर उम्र (ऐसे उम्र के प्रभाव क्रिटिकल पीरियड परिकल्पना से संबंधित हो सकते हैं) और इम्प्लांट का उपयोग करने की अवधि. जन्मजात और उपार्जित बहरेपन वाले बच्चों में अंतर होता है। पहले से बधिर बच्चों की तुलना में पोस्टलिंगुअली बधिर बच्चों के बेहतर परिणाम होते हैं और कॉक्लियर इम्प्लांट के लिए तेजी से अनुकूल होते हैं। कर्णावत प्रत्यारोपण और सामान्य सुनवाई वाले दोनों बच्चों में, स्वर और आवाज की शुरुआत का समय अभिव्यक्ति के स्थान पर भेदभाव करने की क्षमता से पहले विकास में प्रचलित हो जाता है। आरोपण के कई महीने बाद, कर्णावत प्रत्यारोपण वाले बच्चे भाषण धारणा को सामान्य कर सकते हैं।

शोर (ध्वनि)
भाषण के अध्ययन में मौलिक समस्याओं में से एक यह है कि शोर से कैसे निपटा जाए। यह मानव भाषण को पहचानने में कठिनाई के द्वारा दिखाया गया है जो कि कंप्यूटर मान्यता प्रणाली के पास है। जबकि वे भाषण को पहचानने में अच्छा कर सकते हैं यदि एक विशिष्ट वक्ता की आवाज पर और शांत परिस्थितियों में प्रशिक्षित किया जाता है, तो ये सिस्टम अक्सर अधिक यथार्थवादी सुनने की स्थितियों में खराब प्रदर्शन करते हैं जहां मनुष्य बिना किसी कठिनाई के भाषण को समझेंगे। प्रसंस्करण पैटर्न का अनुकरण करने के लिए जो सामान्य परिस्थितियों में मस्तिष्क में आयोजित किया जाएगा, पूर्व ज्ञान एक महत्वपूर्ण तंत्रिका कारक है, क्योंकि एक मजबूत सीखने का इतिहास एक हद तक निरंतर भाषण संकेतों की पूर्ण अनुपस्थिति में शामिल चरम मास्किंग प्रभावों को ओवरराइड कर सकता है।

संगीत-भाषा संबंध
संगीत और अनुभूति के बीच संबंध में शोध भाषण धारणा के अध्ययन से संबंधित एक उभरता हुआ क्षेत्र है। मूल रूप से यह सिद्धांत था कि संगीत के लिए तंत्रिका संकेतों को मस्तिष्क के दाहिने गोलार्ध में एक विशेष "मॉड्यूल" में संसाधित किया जाता था। इसके विपरीत, भाषा के लिए तंत्रिका संकेतों को बाएं गोलार्ध में एक समान "मॉड्यूल" द्वारा संसाधित किया जाना था। हालांकि, fMRI मशीनों जैसी तकनीकों  का उपयोग करते हुए, अनुसंधान ने दिखाया है कि पारंपरिक रूप से मस्तिष्क के दो क्षेत्रों को विशेष रूप से भाषण को संसाधित करने के लिए माना जाता है, ब्रोका और वर्निक के क्षेत्र, संगीत की गतिविधियों के दौरान भी सक्रिय हो जाते हैं जैसे कि म्यूजिकल कॉर्ड के क्रम को सुनना। अन्य अध्ययन, जैसे कि मार्केस एट अल द्वारा किया गया एक अध्ययन। 2006 में दिखाया गया कि 8 साल के बच्चों को जिन्हें छह महीने का संगीत प्रशिक्षण दिया गया था, उनके पिच डिटेक्शन प्रदर्शन और उनके इलेक्ट्रोफिजियोलॉजिकल उपायों दोनों में वृद्धि देखी गई जब उन्हें एक अज्ञात विदेशी भाषा सुनने के लिए कहा गया।

इसके विपरीत, कुछ शोधों से यह पता चला है कि संगीत हमारी वाणी की धारणा को प्रभावित करने के बजाय, हमारी मूल भाषा संगीत की हमारी धारणा को प्रभावित कर सकती है। ट्राइटोन विरोधाभास इसका एक उदाहरण है। ट्राइटोन विरोधाभास वह जगह है जहां एक श्रोता को दो कंप्यूटर-जनित टोन (जैसे सी और एफ-शार्प) के साथ प्रस्तुत किया जाता है जो आधा सप्तक (या ट्राइटोन) अलग होते हैं और फिर यह निर्धारित करने के लिए कहा जाता है कि क्या अनुक्रम की पिच अवरोही है या आरोही। सुश्री डायना ड्यूश द्वारा किए गए इस तरह के एक अध्ययन में पाया गया कि श्रोता की आरोही या अवरोही पिच की व्याख्या श्रोता की भाषा या बोली से प्रभावित थी, जो इंग्लैंड के दक्षिण में और कैलिफोर्निया में या वियतनाम में उन लोगों के बीच भिन्नता दिखाती है। वे कैलिफ़ोर्निया में जिनकी मूल भाषा अंग्रेजी थी। दक्षिणी कैलिफोर्निया विश्वविद्यालय में अंग्रेजी बोलने वालों के एक समूह और पूर्वी एशियाई छात्रों के 3 समूहों पर 2006 में किए गए एक दूसरे अध्ययन में पता चला कि अंग्रेजी बोलने वालों ने 5 साल की उम्र में या उससे पहले संगीत प्रशिक्षण शुरू कर दिया था, उनके पास सही पिच होने का 8% मौका था।

वाणी का अनुभव
केसी ओ'कैलाघन ने अपने लेख अनुभवात्मक भाषण में विश्लेषण किया है कि क्या "भाषण सुनने का अवधारणात्मक अनुभव असाधारण चरित्र में भिन्न होता है" सुनी जा रही भाषा को समझने के संबंध में उनका तर्क है कि किसी भाषा को सुनते समय एक व्यक्ति का अनुभव जिसे वे समझते हैं, उनके अनुभव के विपरीत जब वे किसी ऐसी भाषा को सुनते हैं जिसके बारे में उन्हें कोई जानकारी नहीं है, तो वे अभूतपूर्व विशेषताओं में अंतर प्रदर्शित करते हैं जिसे वे परिभाषित करते हैं एक व्यक्ति के लिए "अनुभव कैसा होता है के पहलू" ।

यदि एक विषय जो एक भाषा बोलने वाला मूल अंग्रेजी वक्ता है, को जर्मन में भाषण की उत्तेजना के साथ प्रस्तुत किया जाता है, तो स्वरों की स्ट्रिंग केवल ध्वनि के रूप में दिखाई देगी और एक बहुत ही अलग अनुभव उत्पन्न करेगी, यदि वास्तव में एक ही उत्तेजना जर्मन बोलने वाले विषय को प्रस्तुत की गई थी।.

वह इस बात की भी जांच करता है कि जब कोई भाषा सीखता है तो भाषण की धारणा कैसे बदलती है। यदि जापानी भाषा के ज्ञान के बिना किसी विषय को जापानी भाषण की उत्तेजना के साथ प्रस्तुत किया गया था, और फिर जापानी भाषा सिखाए जाने के बाद ठीक वही उत्तेजना दी गई थी, तो इस एक ही व्यक्ति को एक अत्यंत अलग अनुभव होगा।

अनुसंधान के तरीके
वाक् बोध अनुसंधान में प्रयुक्त विधियों को मोटे तौर पर तीन समूहों में विभाजित किया जा सकता है: व्यवहारिक, कम्प्यूटेशनल और, हाल ही में, न्यूरोफिज़ियोलॉजिकल तरीके।

व्यवहार के तरीके
व्यवहार संबंधी प्रयोग एक प्रतिभागी की सक्रिय भूमिका पर आधारित होते हैं, यानी विषयों को उत्तेजना के साथ प्रस्तुत किया जाता है और उनके बारे में सचेत निर्णय लेने के लिए कहा जाता है। यह पहचान परीक्षण, भेदभाव परीक्षण, समानता रेटिंग आदि का रूप ले सकता है। इस प्रकार के प्रयोग मूल विवरण प्रदान करने में मदद करते हैं कि श्रोता कैसे वाक् ध्वनियों को देखते और वर्गीकृत करते हैं।

सिनेवेव वाणी
सिनवेव भाषण के माध्यम से भाषण धारणा का भी विश्लेषण किया गया है, सिंथेटिक भाषण का एक रूप जहां मानव आवाज को साइन लहरों द्वारा प्रतिस्थापित किया जाता है जो मूल भाषण में मौजूद आवृत्तियों और आयामों की नकल करते हैं। जब विषयों को पहली बार इस भाषण के साथ प्रस्तुत किया जाता है, तो साइनवेव भाषण को यादृच्छिक शोर के रूप में व्याख्यायित किया जाता है। लेकिन जब विषयों को सूचित किया जाता है कि उत्तेजना वास्तव में भाषण है और कहा जा रहा है कि क्या कहा जा रहा है, तो एक विशिष्ट, लगभग तत्काल बदलाव होता है साइनवेव भाषण को कैसे माना जाता है।

कम्प्यूटेशनल तरीके
कम्प्यूटेशनल मॉडलिंग का उपयोग यह अनुकरण करने के लिए भी किया गया है कि मस्तिष्क द्वारा देखे गए व्यवहारों को उत्पन्न करने के लिए भाषण को कैसे संसाधित किया जा सकता है। भाषण धारणा में कई प्रश्नों को हल करने के लिए कंप्यूटर मॉडल का उपयोग किया गया है, जिसमें भाषण में उपयोग किए जाने वाले ध्वनिक संकेतों को निकालने के लिए स्वयं ध्वनि संकेत को कैसे संसाधित किया जाता है, और उच्च-स्तरीय प्रक्रियाओं जैसे शब्द पहचान के लिए भाषण जानकारी का उपयोग कैसे किया जाता है।

न्यूरोफिज़ियोलॉजिकल तरीके
न्यूरोफिज़ियोलॉजिकल तरीके अधिक प्रत्यक्ष और आवश्यक रूप से सचेत (पूर्व-चौकस) प्रक्रियाओं से उपजी जानकारी के उपयोग पर निर्भर करते हैं। विषयों को विभिन्न प्रकार के कार्यों में भाषण उत्तेजनाओं के साथ प्रस्तुत किया जाता है और मस्तिष्क की प्रतिक्रियाओं को मापा जाता है। व्यवहारिक प्रतिक्रियाओं के माध्यम से ऐसा प्रतीत होता है कि मस्तिष्क स्वयं अधिक संवेदनशील हो सकता है। उदाहरण के लिए, विषय एक भेदभाव परीक्षण में दो वाक् ध्वनियों के बीच के अंतर के प्रति संवेदनशीलता नहीं दिखा सकता है, लेकिन मस्तिष्क की प्रतिक्रियाएँ इन अंतरों के प्रति संवेदनशीलता प्रकट कर सकती हैं। भाषण के लिए तंत्रिका प्रतिक्रियाओं को मापने के लिए उपयोग की जाने वाली विधियों में घटना से संबंधित क्षमताएं, मैग्नेटोएन्सेफलोग्राफी और निकट अवरक्त स्पेक्ट्रोस्कोपी शामिल हैं। घटना-संबंधी संभावनाओं के साथ उपयोग की जाने वाली एक महत्वपूर्ण प्रतिक्रिया बेमेल नकारात्मकता है, जो तब होती है जब भाषण उत्तेजना ध्वनिक रूप से उस उत्तेजना से भिन्न होती है जिसे विषय ने पहले सुना था।

न्यूरोफिज़ियोलॉजिकल तरीकों को कई कारणों से भाषण धारणा अनुसंधान में पेश किया गया: व्यवहार संबंधी प्रतिक्रियाएं देर से, सचेत प्रक्रियाओं को प्रतिबिंबित कर सकती हैं और ऑर्थोग्राफी जैसी अन्य प्रणालियों से प्रभावित हो सकती हैं, और इस प्रकार वे निचले स्तर के ध्वनिक वितरणों के आधार पर ध्वनि को पहचानने की वक्ता की क्षमता को छिपा सकती हैं।

परीक्षण में सक्रिय भाग लेने की आवश्यकता के बिना, शिशुओं का भी परीक्षण किया जा सकता है; अधिग्रहण प्रक्रियाओं में शोध में यह विशेषता महत्वपूर्ण है। निम्न-स्तरीय श्रवण प्रक्रियाओं को उच्च-स्तर से स्वतंत्र रूप से देखने की संभावना लंबे समय से चले आ रहे सैद्धांतिक मुद्दों को संबोधित करना संभव बनाती है जैसे कि मनुष्य के पास वाक् को समझने के लिए एक विशेष मॉड्यूल है या नहीं या वाक् ध्वनि की पहचान में कुछ जटिल ध्वनिक व्युत्क्रमण (उपरोक्त निश्चरता की कमी देखें) अंतर्निहित है या नहीं।

मोटर सिद्धांत
हास्किन्स लेबोरेटरीज में एल्विन लिबरमैन और उनके सहयोगियों द्वारा भाषण ध्वनियों का अनुभव कैसे किया जाता है, इस अध्ययन में कुछ शुरुआती काम किए गए थे। एक भाषण सिंथेसाइज़र का उपयोग करते हुए, उन्होंने भाषण ध्वनियों का निर्माण किया जो एक निरंतरता के साथ अभिव्यक्ति के स्थान पर भिन्न होती हैं को  को. श्रोताओं को यह पहचानने के लिए कहा गया कि उन्होंने कौन सी ध्वनि सुनी और दो अलग-अलग ध्वनियों के बीच भेदभाव किया। प्रयोग के परिणामों से पता चला कि श्रोताओं ने ध्वनियों को असतत श्रेणियों में समूहीकृत किया, भले ही वे जो ध्वनियाँ सुन रहे थे वे लगातार भिन्न थीं। इन परिणामों के आधार पर, उन्होंने स्पष्ट धारणा की धारणा को एक तंत्र के रूप में प्रस्तावित किया जिसके द्वारा मनुष्य भाषण ध्वनियों की पहचान कर सकते हैं।

विभिन्न प्रकार के कार्यों और विधियों का उपयोग करते हुए हाल के शोध से पता चलता है कि भाषण धारणा के सख्त श्रेणीबद्ध खाते के विपरीत, श्रोता ध्वनि संबंधी श्रेणी के भीतर ध्वनिक मतभेदों के प्रति अत्यधिक संवेदनशील होते हैं।

स्पष्ट धारणा डेटा का एक सैद्धांतिक खाता प्रदान करने के लिए, लिबरमैन और उनके सहयोगियों ने भाषण धारणा के मोटर सिद्धांत को तैयार किया, जहां "जटिल आर्टिकुलेटरी एन्कोडिंग को उत्पादन में शामिल समान प्रक्रियाओं द्वारा भाषण की धारणा में डिकोड किया गया था" (इसे विश्लेषण-दर-संश्लेषण के रूप में संदर्भित किया जाता है)। उदाहरण के लिए, अंग्रेजी व्यंजन /d/ विभिन्न ध्वन्यात्मक संदर्भों (ऊपर देखें) में इसके ध्वनिक विवरण में भिन्न हो सकते हैं, फिर भी एक श्रोता द्वारा माना गया सभी /d/s एक श्रेणी के अंतर्गत आते हैं (आवाज़ वाले वायुकोशीय प्लोसिव) और ऐसा इसलिए है क्योंकि " भाषाई निरूपण अमूर्त, विहित, ध्वन्यात्मक खंड या इशारों हैं जो इन खंडों के अंतर्गत आते हैं। धारणा की इकाइयों का वर्णन करते समय, लिबरमैन ने बाद में आर्टिकुलेटरी मूवमेंट को छोड़ दिया और आर्टिकुलेटर्स और यहां तक ​​कि बाद में आर्टिकुलेटरी जेस्चर के लिए न्यूरल कमांड के लिए आगे बढ़े, इस प्रकार "स्पीकर के उत्पादन को निर्धारित करने वाले उच्चारण का तंत्रिका प्रतिनिधित्व डिस्टल है वस्तु को श्रोता समझता है" सिद्धांत मॉड्यूलरिटी परिकल्पना से निकटता से संबंधित है, जो एक विशेष-उद्देश्य मॉड्यूल के अस्तित्व का प्रस्ताव करता है, जिसे सहज और शायद मानव-विशिष्ट माना जाता है।

श्रोताओं द्वारा "ध्वनिक संकेतों को लक्षित इशारों में कैसे अनुवादित किया जाता है, इसका विवरण प्रदान करने में सक्षम नहीं होने" के संदर्भ में इस सिद्धांत की आलोचना की गई है । इसके अलावा, यह स्पष्ट नहीं है कि भाषाई रूप से प्रासंगिक जानकारी के साथ इंडेक्सिकल जानकारी (जैसे बात करने वाले की पहचान) को कैसे एन्कोड/डीकोड किया जाता है।

अनुकरणीय सिद्धांत
भाषण धारणा के अनुकरणीय मॉडल ऊपर उल्लिखित चार सिद्धांतों से भिन्न होते हैं, जो मानते हैं कि शब्द- और बात करने वाले की पहचान के बीच कोई संबंध नहीं है और यह कि बात करने वालों में भिन्नता फ़िल्टर करने के लिए शोर है।

अनुकरणीय-आधारित दृष्टिकोण दावा करते हैं कि श्रोता शब्द और बोलने वाले की पहचान दोनों के लिए जानकारी संग्रहीत करते हैं। इस सिद्धांत के अनुसार, वाक् ध्वनियों के विशेष उदाहरण श्रोता की स्मृति में संचित होते हैं। भाषण धारणा की प्रक्रिया में, याद किए गए उदाहरण उदा। श्रोता की स्मृति में संग्रहीत एक शब्दांश की तुलना आने वाली उत्तेजना से की जाती है ताकि उत्तेजना को वर्गीकृत किया जा सके। इसी तरह, जब किसी बात करने वाले को पहचानते हैं, तो उस वक्ता द्वारा किए गए उच्चारणों के सभी स्मृति निशान सक्रिय हो जाते हैं और बात करने वाले की पहचान निर्धारित हो जाती है। जॉनसन द्वारा बताए गए कई प्रयोग इस सिद्धांत का समर्थन करते हैं यह सुझाव देता है कि जब हम बात करने वाले से परिचित होते हैं या जब हमारे पास बात करने वाले के लिंग का दृश्य प्रतिनिधित्व होता है तो हमारी संकेत पहचान अधिक सटीक होती है। जब बात करने वाला अप्रत्याशित होता है या लिंग की गलत पहचान होती है, तो शब्द-पहचान में त्रुटि दर बहुत अधिक होती है।

अनुकरणीय मॉडलों को कई आपत्तियों का सामना करना पड़ता है, जिनमें से दो हैं (1) कभी भी सुनी गई प्रत्येक वाणी को संग्रहीत करने के लिए अपर्याप्त स्मृति क्षमता और, जो सुना गया था उसे उत्पन्न करने की क्षमता के संबंध में, (2) क्या बात करने वाले के स्वयं के कलात्मक इशारों को भी संग्रहीत या गणना की जाती है श्रवण स्मृतियों के रूप में ध्वनि उत्पन्न करने वाले कथनों का निर्माण करते समय।

ध्वनिक स्थलचिह्न और विशिष्ट विशेषताएं
केनेथ एन स्टीवंस ने ध्वन्यात्मक सुविधाओं और श्रवण गुणों के बीच संबंध के रूप में ध्वनिक स्थलों और विशिष्ट विशेषताओं का प्रस्ताव रखा। इस दृष्टिकोण के अनुसार, श्रोता तथाकथित ध्वनिक स्थलों के लिए आने वाले सिग्नल का निरीक्षण कर रहे हैं जो स्पेक्ट्रम में विशेष घटनाएँ हैं जो इशारों के बारे में जानकारी देती हैं जो उन्हें उत्पन्न करती हैं। चूंकि ये इशारे मनुष्यों के आर्टिकुलेटर्स की क्षमता से सीमित हैं और श्रोता उनके श्रवण संबंधी संबंधों के प्रति संवेदनशील हैं, इस मॉडल में निश्चरता का अभाव बस मौजूद नहीं है। स्थलों के ध्वनिक गुण विशिष्ट विशेषताओं को स्थापित करने का आधार बनाते हैं। उनमें से बंडल विशिष्ट रूप से ध्वन्यात्मक खंड (स्वर, शब्दांश, शब्द) निर्दिष्ट करते हैं। इस मॉडल में, आने वाले ध्वनिक संकेत को पहले तथाकथित स्थलों को निर्धारित करने के लिए संसाधित माना जाता है जो सिग्नल में विशेष आवृत्ति स्पेक्ट्रम घटनाएँ हैं; उदाहरण के लिए, स्वरों को आमतौर पर पहले फॉर्मेंट की उच्च आवृत्ति द्वारा चिह्नित किया जाता है, व्यंजनों को संकेत में विच्छिन्नता के रूप में निर्दिष्ट किया जा सकता है और स्पेक्ट्रम के निचले और मध्य क्षेत्रों में कम आयाम होते हैं। ये ध्वनिक विशेषताएं अभिव्यक्ति से उत्पन्न होती हैं। वास्तव में, शोर जैसी बाहरी स्थितियों के कारण स्थलों को बढ़ाने की आवश्यकता होने पर द्वितीयक कलात्मक आंदोलनों का उपयोग किया जा सकता है। स्टीवंस का दावा है कि कॉर्टिक्यूलेशन केवल सीमित और इसके अलावा व्यवस्थित और इस प्रकार सिग्नल में अनुमानित भिन्नता का कारण बनता है जिससे श्रोता निपटने में सक्षम होता है। इस मॉडल के भीतर इसलिए, जिसे वाक् बोध कहा जाता है निश्चरता का अभाव केवल अस्तित्व में नहीं होने का दावा किया जाता है।

विशिष्ट कलात्मक घटनाओं (इशारों) को निर्धारित करने के लिए लैंडमार्क का विश्लेषण किया जाता है जो उनसे जुड़े होते हैं। अगले चरण में, ध्वनिक संकेतों को कुछ मापदंडों के मानसिक माप के माध्यम से स्थलों के आसपास के संकेत से निकाला जाता है जैसे कि वर्णक्रमीय चोटियों की आवृत्ति, कम आवृत्ति क्षेत्र में आयाम, या समय।

अगले प्रसंस्करण चरण में ध्वनिक-संकेत समेकन और विशिष्ट सुविधाओं की व्युत्पत्ति शामिल है। ये अभिव्यक्ति से संबंधित बाइनरी श्रेणियां हैं (उदाहरण के लिए [+/- उच्च], [+/- वापस], [+/- गोल होंठ] स्वरों के लिए; [+/- सोनोरेंट], [+/- पार्श्व], या[+/- नासिका] व्यंजन के लिए।

इन सुविधाओं के बंडल विशिष्ट रूप से भाषण खंडों (स्वर, शब्दांश, शब्द) की पहचान करते हैं। ये खंड श्रोता की स्मृति में संग्रहीत शब्दकोष का हिस्सा हैं। इसकी इकाइयाँ लेक्सिकल एक्सेस की प्रक्रिया में सक्रिय होती हैं और मूल सिग्नल पर मैप की जाती हैं ताकि यह पता लगाया जा सके कि वे मेल खाते हैं या नहीं। यदि नहीं, तो एक अलग उम्मीदवार पैटर्न के साथ एक और प्रयास किया जाता है। इस पुनरावृत्त फैशन में, श्रोता इस प्रकार कलात्मक घटनाओं का पुनर्निर्माण करते हैं जो कथित भाषण संकेत उत्पन्न करने के लिए आवश्यक थे। इसलिए इसे विश्लेषण-दर-संश्लेषण के रूप में वर्णित किया जा सकता है।

यह सिद्धांत इस प्रकार मानता है कि भाषण धारणा की धारणा प्रक्रिया और शब्दावली अंतर्निहित भाषण के कलात्मक इशारे हैं। श्रोता वाणी संकेत का बोध कराते हैं। मॉडल उन लोगों से संबंधित है जिन्हें विश्लेषण-दर-संश्लेषण कहा जाता है।

फ़ज़ी-लॉजिकल मॉडल
डोमिनिक डब्ल्यू मस्सारो द्वारा विकसित भाषण धारणा का अस्पष्ट तार्किक सिद्धांत प्रस्तावित करता है कि लोग संभाव्य, या श्रेणीबद्ध तरीके से भाषण ध्वनियों को याद करते हैं। यह सुझाव देता है कि लोग भाषा की अवधारणात्मक इकाइयों के विवरणों को याद रखते हैं, जिन्हें प्रोटोटाइप कहा जाता है। प्रत्येक प्रोटोटाइप के भीतर विभिन्न विशेषताओं का संयोजन हो सकता है। हालाँकि, सुविधाएँ केवल बाइनरी (सत्य या असत्य) नहीं हैं, एक फजी लॉजिक मान है जो इस बात की संभावना के अनुरूप है कि ध्वनि किसी विशेष भाषण श्रेणी से संबंधित है। इस प्रकार, जब एक भाषण संकेत को देखते हुए हम वास्तव में जो सुनते हैं, उसके बारे में हमारा निर्णय प्रोत्साहन की जानकारी और विशेष प्रोटोटाइप के मूल्यों के बीच मैच की सापेक्ष अच्छाई पर आधारित होता है। अंतिम निर्णय कई विशेषताओं या सूचना के स्रोतों, यहां तक ​​कि दृश्य जानकारी (यह मैकगर्क प्रभाव की व्याख्या करता है) पर आधारित है। फ़ज़ी लॉजिकल थ्योरी के कंप्यूटर मॉडल का उपयोग यह प्रदर्शित करने के लिए किया गया है कि थ्योरी की भविष्यवाणियाँ कैसे बोली जाती हैं, मानव श्रोताओं के व्यवहार के अनुरूप होती हैं।

भाषण मोड परिकल्पना
भाषण मोड परिकल्पना यह विचार है कि भाषण की धारणा के लिए विशेष मानसिक प्रसंस्करण के उपयोग की आवश्यकता होती है। स्पीच मोड परिकल्पना फोडर के मॉड्यूलरिटी सिद्धांत की एक शाखा है (दिमाग की मॉड्यूलरिटी देखें)। यह एक लंबवत प्रसंस्करण तंत्र का उपयोग करता है जहां सीमित उत्तेजनाओं को मस्तिष्क के विशेष-उद्देश्य वाले क्षेत्रों द्वारा संसाधित किया जाता है जो उत्तेजना विशिष्ट होते हैं।

भाषण विधा परिकल्पना के दो संस्करण:


 * कमजोर संस्करण - भाषण सुनने से भाषा का पिछला ज्ञान जुड़ जाता है।
 * मजबूत संस्करण - विशेष भाषण तंत्र भाषण सुनने के लिए भाषण को समझने में संलग्न है।

वाक् विधा परिकल्पना के प्रमाण खोजने के लिए खोज में तीन महत्वपूर्ण प्रयोगात्मक प्रतिमान विकसित हुए हैं। ये द्वैतिक श्रवण, श्रेणीबद्ध बोध और द्वैध बोध हैं। इन श्रेणियों में अनुसंधान के माध्यम से यह पाया गया है कि एक विशिष्ट भाषण मोड नहीं हो सकता है, बल्कि श्रवण कोड के लिए एक जटिल श्रवण प्रसंस्करण की आवश्यकता होती है। इसके अलावा ऐसा लगता है कि अवधारणात्मक प्रणालियों में प्रतिरूपकता सीखी जाती है। इसके बावजूद भाषण मोड परिकल्पना के लिए सबूत और प्रति-साक्ष्य अभी भी अस्पष्ट हैं और आगे के शोध की आवश्यकता है।

प्रत्यक्ष यथार्थवादी सिद्धांत
भाषण धारणा का प्रत्यक्ष यथार्थवादी सिद्धांत (ज्यादातर कैरोल फाउलर से जुड़ा हुआ है) प्रत्यक्ष यथार्थवाद के अधिक सामान्य सिद्धांत का एक हिस्सा है, जो उस धारणा को मानता है जिससे हमें दुनिया के प्रत्यक्ष जागरूकता की अनुमति मिलती है क्योंकि इसमें दूर के स्रोत की प्रत्यक्ष वसूली शामिल होती है जिस घटना का आभास होता है।भाषण धारणा के लिए, सिद्धांत का दावा है कि धारणा की वस्तुएं वास्तविक स्वर पथ आंदोलनों, या इशारों हैं, न कि अमूर्त स्वरों या (मोटर थ्योरी के रूप में) घटनाएं जो इन आंदोलनों के कारण पूर्ववर्ती हैं, अर्थात संकेत। श्रोता संकेतों को एक विशेष डिकोडर (मोटर थ्योरी के रूप में) के माध्यम से नहीं देखते हैं, बल्कि इसलिए कि ध्वनिक संकेत में जानकारी इशारों को निर्दिष्ट करती है जो इसे बनाते हैं। यह दावा करते हुए कि विभिन्न वाक् ध्वनियों को उत्पन्न करने वाले वास्तविक कलात्मक हाव-भाव स्वयं वाक् बोध की इकाइयाँ हैं, सिद्धांत अविच्छिन्नता की कमी की समस्या को दूर कर देता है।

यह भी देखें

 * जिनी (जंगली बच्चे) की केस स्टडी से संबंधित
 * न्यूरोकंप्यूटेशनल भाषण प्रसंस्करण
 * बहुसंवेदी एकीकरण
 * भाषण की उत्पत्ति
 * भाषण भाषा पैथोलॉजी
 * भाषण धारणा का मोटर सिद्धांत

बाहरी संबंध

 * Dedicated issue of Philosophical Transactions B on the Perception of Speech. Some articles are freely available.