कम्प्यूटेशनल श्रवण दृश्य विश्लेषण

कम्प्यूटेशनल श्रवण दृश्य विश्लेषण (CASA) कम्प्यूटेशनल साधनों द्वारा श्रवण दृश्य विश्लेषण का अध्ययन है। संक्षेप में, CASA सिस्टम मशीन सुनने वाली प्रणालियाँ हैं जिनका उद्देश्य ध्वनि स्रोतों के मिश्रण को उसी तरह अलग करना है जैसे मानव श्रोता करते हैं। CASA अंधा संकेत पृथक्करण के क्षेत्र से इस मायने में भिन्न है कि यह (कम से कम कुछ हद तक) मानव श्रवण प्रणाली के तंत्र पर आधारित है, और इस प्रकार ध्वनिक वातावरण की दो से अधिक माइक्रोफोन रिकॉर्डिंग का उपयोग नहीं करता है। यह कॉकटेल पार्टी समस्या से संबंधित है.

सिद्धांत
चूंकि CASA श्रवण प्रणाली के कार्यात्मक भागों को मॉडल करने का कार्य करता है, इसलिए ज्ञात भौतिक मॉडल के संदर्भ में जैविक श्रवण प्रणाली के भागों को देखना आवश्यक है। तीन क्षेत्रों, बाहरी, मध्य और आंतरिक कान से मिलकर, श्रवण परिधि एक जटिल ट्रांसड्यूसर के रूप में कार्य करती है जो श्रवण तंत्रिका में ध्वनि कंपन को क्रिया क्षमता में परिवर्तित करती है। बाहरी कान में बाह्य कान, कर्ण नलिका और कर्णपटह शामिल होते हैं। बाहरी कान, एक ध्वनिक फ़नल की तरह, ध्वनि स्रोत का पता लगाने में मदद करता है। कान नहर एक गुंजयमान ट्यूब (एक अंग पाइप की तरह) के रूप में कार्य करती है जो 2-5.5 किलोहर्ट्ज़ के बीच आवृत्तियों को बढ़ाती है और अधिकतम 11 डीबी का प्रवर्धन 4 किलोहर्ट्ज़ के आसपास होता है। सुनने के अंग के रूप में, कोक्लीअ में दो झिल्लियाँ होती हैं, रीस्नर और बेसिलर झिल्ली। बेसिलर झिल्ली विशिष्ट उत्तेजना आवृत्ति के माध्यम से ऑडियो उत्तेजनाओं की ओर बढ़ती है जो बेसिलर झिल्ली के एक विशेष क्षेत्र की गुंजयमान आवृत्ति से मेल खाती है। बेसिलर झिल्ली की गति आंतरिक बाल कोशिकाओं को एक दिशा में विस्थापित करती है, जो सर्पिल गैंग्लियन कोशिकाओं में एक्शन पोटेंशिअल के आधे-तरंग सुधारित सिग्नल को एनकोड करती है। इन कोशिकाओं के अक्षतंतु श्रवण तंत्रिका बनाते हैं, जो संशोधित उत्तेजना को कूटबद्ध करते हैं। श्रवण तंत्रिका प्रतिक्रियाएं बेसिलर झिल्ली के समान कुछ आवृत्तियों का चयन करती हैं। कम आवृत्तियों के लिए, फ़ाइबर चरण लॉकिंग प्रदर्शित करते हैं। उच्च श्रवण मार्ग केंद्रों में न्यूरॉन्स विशिष्ट उत्तेजना सुविधाओं, जैसे आवधिकता, ध्वनि तीव्रता, आयाम और आवृत्ति मॉड्यूलेशन के अनुरूप होते हैं। पश्च प्रांतस्था के माध्यम से एएसए के न्यूरोएनाटोमिकल एसोसिएशन भी हैं, जिनमें पोस्टीरियर सुपीरियर टेम्पोरल लोब और  पश्च सिंगुलेट  शामिल हैं। अध्ययनों में पाया गया है कि अल्जाइमर रोग के रोगियों में एएसए और पृथक्करण और समूह संचालन में हानि प्रभावित होती है।

कोक्लीग्राम
CASA प्रसंस्करण के पहले चरण के रूप में, कॉकलीग्राम इनपुट सिग्नल का समय-आवृत्ति प्रतिनिधित्व बनाता है। बाहरी और मध्य कान के घटकों की नकल करके, सिग्नल को विभिन्न आवृत्तियों में विभाजित किया जाता है जो स्वाभाविक रूप से कोक्लीअ और बाल कोशिकाओं द्वारा चुने जाते हैं। बेसिलर झिल्ली की आवृत्ति चयनात्मकता के कारण, झिल्ली को मॉडल करने के लिए एक फ़िल्टर बैंक  का उपयोग किया जाता है, जिसमें प्रत्येक फिल्टर बेसिलर झिल्ली पर एक विशिष्ट बिंदु से जुड़ा होता है।

चूंकि बाल कोशिकाएं स्पाइक पैटर्न उत्पन्न करती हैं, इसलिए मॉडल के प्रत्येक फ़िल्टर को भी आवेग प्रतिक्रिया में समान स्पाइक उत्पन्न करना चाहिए। गामाटोन फ़िल्टर का उपयोग गामा फ़ंक्शन और टोन के उत्पाद के रूप में एक आवेग प्रतिक्रिया प्रदान करता है। गैमाटोन फ़िल्टर के आउटपुट को बेसिलर झिल्ली विस्थापन के माप के रूप में माना जा सकता है। अधिकांश CASA प्रणालियाँ स्पाइक-आधारित के बजाय श्रवण तंत्रिका में फायरिंग दर का प्रतिनिधित्व करती हैं। इसे प्राप्त करने के लिए, फ़िल्टर बैंक आउटपुट को अर्ध-तरंग में सुधारा जाता है और उसके बाद वर्गमूल को सुधारा जाता है। (अन्य मॉडल, जैसे स्वचालित लाभ नियंत्रक लागू किए गए हैं)। अर्ध-सुधारित तरंग बाल कोशिकाओं के विस्थापन मॉडल के समान है। बाल कोशिकाओं के अतिरिक्त मॉडल में मेडीस हेयर सेल मॉडल शामिल है जो बाल कोशिका पारगमन को मॉडलिंग करके गैमाटोन फिल्टर बैंक के साथ जुड़ता है। इस धारणा के आधार पर कि प्रत्येक बाल कोशिका के भीतर ट्रांसमीटर पदार्थ के तीन भंडार होते हैं, और ट्रांसमीटरों को बेसिलर झिल्ली के विस्थापन की डिग्री के अनुपात में जारी किया जाता है, रिलीज को तंत्रिका फाइबर में उत्पन्न स्पाइक की संभावना के बराबर किया जाता है। यह मॉडल CASA प्रणालियों में कई तंत्रिका प्रतिक्रियाओं जैसे कि सुधार, संपीड़न, सहज फायरिंग और अनुकूलन को दोहराता है।

कोरलोग्राम
पिच सिद्धांत के 2 विद्यालयों को एकीकृत करके पिच धारणा का महत्वपूर्ण मॉडल:


 * स्थान सिद्धांत (समाधान हार्मोनिक्स की भूमिका पर जोर देना)
 * अस्थायी सिद्धांत (अनसुलझे हार्मोनिक्स की भूमिका पर जोर देते हुए)

कोरेलोग्राम की गणना आमतौर पर समय डोमेन में प्रत्येक फ़िल्टर चैनल के आउटपुट के लिए सिम्युलेटेड श्रवण तंत्रिका फायरिंग गतिविधि को स्वत: सहसंबद्ध करके की जाती है। आवृत्ति में स्वत:सहसंबंध को एकत्रित करके, सारांश सहसंबंध में चोटियों की स्थिति कथित पिच से मेल खाती है।

क्रॉस-कोरलोग्राम
क्योंकि कान अलग-अलग समय पर ऑडियो सिग्नल प्राप्त करते हैं, ध्वनि स्रोत को दोनों कानों से प्राप्त विलंब का उपयोग करके निर्धारित किया जा सकता है। बाएं और दाएं चैनलों (मॉडल के) से देरी को क्रॉस-सहसंबंधित करके, इनपुट सिग्नल में उनके अस्थायी स्थान के बावजूद, संयोगित चोटियों को समान स्थानीयकृत ध्वनि के रूप में वर्गीकृत किया जा सकता है। श्रवण मध्य मस्तिष्क में न्यूरॉन्स की व्यवस्था के समानांतर, शारीरिक अध्ययनों के माध्यम से इंटरऑरल क्रॉस-सहसंबंध तंत्र के उपयोग का समर्थन किया गया है।

समय-आवृत्ति मास्क
ध्वनि स्रोत को अलग करने के लिए, CASA सिस्टम कॉकलीग्राम को मास्क कर देता है। यह मास्क, कभी-कभी एक वियना फिल्टर, लक्ष्य स्रोत क्षेत्रों का वजन करता है और बाकी को दबा देता है। मुखौटे के पीछे की शारीरिक प्रेरणा श्रवण धारणा से उत्पन्न होती है जहां ध्वनि को तेज़ ध्वनि द्वारा अश्रव्य बना दिया जाता है।

पुनर्संश्लेषण
एक पुनर्संश्लेषण मार्ग खंडों के समूह से एक ऑडियो सिग्नल का पुनर्निर्माण करता है। कोक्लीग्राम को उल्टा करके, उच्च गुणवत्ता वाले पुनर्संश्लेषित भाषण संकेत प्राप्त किए जा सकते हैं।

मोनौरल कासा
मोनोरल ध्वनि पृथक्करण सबसे पहले आवृत्ति के आधार पर आवाजों को अलग करने से शुरू हुआ। आवृत्ति के माध्यम से विभिन्न भाषण संकेतों को विभाजित करने पर आधारित कई प्रारंभिक विकास हुए। राज्य अंतरिक्ष मॉडल, बैच प्रसंस्करण और भविष्यवाणी-संचालित वास्तुकला के माध्यम से अनुकूलन को जोड़कर, अन्य मॉडलों ने इस प्रक्रिया का अनुसरण किया। CASA के उपयोग से ASR और वाक् पृथक्करण प्रणालियों की मजबूती में सुधार हुआ है।

बिनाउरल CASA
चूँकि CASA मानव श्रवण पथों का मॉडलिंग कर रहा है, इसलिए binaural CASA प्रणालियाँ 2 स्थानिक रूप से अलग किए गए माइक्रोफोनों को शामिल करके ध्वनि स्थानीयकरण, श्रवण समूहन और प्रतिध्वनि की मजबूती प्रदान करके मानव मॉडल को बेहतर बनाती हैं। क्रॉस-सहसंबंध के समान तरीकों के साथ, सिस्टम दोनों इनपुट माइक्रोफोन से लक्ष्य सिग्नल निकालने में सक्षम हैं।

तंत्रिका कासा मॉडल
चूंकि जैविक श्रवण प्रणाली न्यूरॉन्स की गतिविधियों से गहराई से जुड़ी हुई है, CASA सिस्टम ने डिजाइन के भीतर तंत्रिका मॉडल को भी शामिल किया है। दो अलग-अलग मॉडल इस क्षेत्र के लिए आधार प्रदान करते हैं। माल्सबर्ग और श्नाइडर ने विभिन्न धाराओं (सिंक्रनाइज़ और डीसिंक्रोनाइज़्ड) की विशेषताओं का प्रतिनिधित्व करने के लिए ऑसिलेटर के साथ एक तंत्रिका नेटवर्क मॉडल का प्रस्ताव रखा। वांग ने समय-आवृत्ति के भीतर श्रवण दृश्य का प्रतिनिधित्व करने के लिए विलंब रेखाओं के साथ एक वैश्विक अवरोधक के साथ उत्तेजक इकाइयों के नेटवर्क का उपयोग करके एक मॉडल भी प्रस्तुत किया।

संगीतमय ऑडियो सिग्नल का विश्लेषण
CASA प्रणालियों में विशिष्ट दृष्टिकोण भौतिक श्रवण प्रणाली की नकल करने के प्रयासों में, ध्वनि-स्रोतों को अलग-अलग घटकों में विभाजित करने से शुरू होता है। हालाँकि, इस बात के प्रमाण हैं कि मस्तिष्क आवश्यक रूप से ऑडियो इनपुट को अलग से संसाधित नहीं करता है, बल्कि मिश्रण के रूप में संसाधित करता है। ऑडियो सिग्नल को अलग-अलग घटकों में तोड़ने के बजाय, इनपुट को उच्च स्तरीय विवरणकों, जैसे कि कॉर्ड, बास और मेलोडी, बीट संरचना, और कोरस और वाक्यांश दोहराव द्वारा तोड़ दिया जाता है। ये वर्णनकर्ता वास्तविक दुनिया के परिदृश्यों में मोनोरल और बाइन्यूरल संकेतों के साथ कठिनाइयों का सामना करते हैं। साथ ही, इन वर्णनकर्ताओं का अनुमान संगीत इनपुट के सांस्कृतिक प्रभाव पर अत्यधिक निर्भर है। उदाहरण के लिए, पश्चिमी संगीत में, राग और बास टुकड़े की पहचान को प्रभावित करते हैं, साथ ही राग से कोर बनता है। मेलोडी और बास की आवृत्ति प्रतिक्रियाओं को अलग करके, मौलिक आवृत्ति का अनुमान लगाया जा सकता है और अंतर के लिए फ़िल्टर किया जा सकता है। हार्मोनिक सामग्री का वर्णन करने वाली निम्न-स्तरीय विशेषताओं को निकालकर, पैटर्न पहचान के माध्यम से कॉर्ड डिटेक्शन को कार्यान्वित किया जा सकता है। संगीत दृश्य विश्लेषण में उपयोग की जाने वाली तकनीकों को वाक् पहचान और अन्य पर्यावरणीय ध्वनियों पर भी लागू किया जा सकता है। भविष्य के कार्यों में ऑडियो सिग्नल प्रोसेसिंग का टॉप-डाउन एकीकरण शामिल है, जैसे कि वास्तविक समय बीट-ट्रैकिंग प्रणाली और श्रवण मनोविज्ञान और शरीर विज्ञान के समावेश के साथ सिग्नल प्रोसेसिंग क्षेत्र से बाहर विस्तार करना।

तंत्रिका अवधारणात्मक मॉडलिंग
जबकि कई मॉडल ऑडियो सिग्नल को विभिन्न आवृत्तियों के एक जटिल संयोजन के रूप में मानते हैं, श्रवण प्रणाली के मॉडलिंग के लिए तंत्रिका घटकों पर भी विचार करने की आवश्यकता हो सकती है। एक समग्र प्रक्रिया अपनाकर, जहां एक धारा (फ़ीचर-आधारित ध्वनियों की) कई मस्तिष्क क्षेत्रों में वितरित न्यूरोनल गतिविधि के अनुरूप होती है, ध्वनि की धारणा को मैप और मॉडल किया जा सकता है। ऑडियो धारणा और मस्तिष्क के क्षेत्र को जोड़ने के लिए दो अलग-अलग समाधान प्रस्तावित किए गए हैं। श्रवण दृश्य में सुविधाओं और वस्तुओं के सभी संभावित संयोजनों को एन्कोड करने के लिए पदानुक्रमित कोडिंग कई कोशिकाओं को मॉडल करती है। अस्थायी या दोलन संबंधी सहसंबंध, श्रवण विशेषताओं के बीच बंधन की स्थिति को एनकोड करने के लिए तंत्रिका दोलनों के बीच समकालिकता और वंशानुक्रम पर ध्यान केंद्रित करके बंधन समस्या को संबोधित करता है। ये दो समाधान स्थान कोडिंग और टेम्पोरल कोडिंग के बीच की पराजय के समान हैं। तंत्रिका घटकों के मॉडलिंग से चित्रण करते समय, एएसए की एक और घटना CASA प्रणालियों के साथ खेल में आती है: तंत्रिका तंत्र के मॉडलिंग की सीमा। CASA प्रणालियों के अध्ययन में कुछ ज्ञात तंत्रों का मॉडलिंग शामिल है, जैसे कि कॉक्लियर फ़िल्टरिंग की बैंडपास प्रकृति और यादृच्छिक श्रवण तंत्रिका फायरिंग पैटर्न, हालांकि, ये मॉडल नए तंत्र खोजने की ओर नहीं ले जा सकते हैं, बल्कि ज्ञात तंत्रों के उद्देश्य की समझ प्रदान करते हैं।.

यह भी देखें

 * श्रवण दृश्य विश्लेषण
 * ब्लाइंड सिग्नल पृथक्करण
 * कॉकटेल पार्टी की समस्या
 * कम्प्यूटेशनल ऑडियोलॉजी
 * मशीन दृष्टि
 * वाक् पहचान

अग्रिम पठन
D. F. Rosenthal and H. G. Okuno (1998) Computational auditory scene analysis. Mahwah, NJ: Lawrence Erlbaum