कम्प्यूटेशनल श्रवण दृश्य विश्लेषण

कम्प्यूटेशनल श्रवण दृश्य विश्लेषण (सीएएसए) कम्प्यूटेशनल साधनों द्वारा श्रवण दृश्य विश्लेषण का अध्ययन करता है। संक्षेप में, सीएएसए प्रणाली मशीन श्रवण वाली प्रणालियाँ होती हैं जिनका उद्देश्य ध्वनि स्रोतों के मिश्रण को उसी अनुसार अलग करना होता है जैसे मानव श्रोता करते हैं। सीएएसए ब्लाइंड संकेत पृथक्करण के क्षेत्र से इस अर्थ में भिन्न होता है कि यह (कम से कम कुछ हद तक) मानव श्रवण प्रणाली के प्रणाली पर आधारित होता है, और इस प्रकार ध्वनिक वातावरण की दो से अधिक माइक्रोफोन रिकॉर्डिंग का उपयोग नहीं करता है। यह कॉकटेल पार्टी समस्या से संबंधित होता है।

सिद्धांत
चूंकि सीएएसए श्रवण प्रणाली के कार्यात्मक भागों को मॉडल करने का कार्य करता है, इसलिए ज्ञात भौतिक मॉडल के संदर्भ में जैविक श्रवण प्रणाली के भागों को देखना आवश्यक होता है। तीन क्षेत्रों, बाह्य, मध्य और आंतरिक कर्ण से मिलकर, श्रवण परिधि एक समष्टि ट्रांसड्यूसर के रूप में कार्य करती है जो श्रवण तंत्रिका में ध्वनि कंपन को क्रिया क्षमता में परिवर्तित करती है। बाह्य कर्ण में बाह्य कर्ण, कर्ण नलिका और कर्णपटह सम्मिलित होते हैं। बाह्य कर्ण, एक ध्वनिक फ़नल की तरह, ध्वनि स्रोत का पता लगाने में सहायता करता है। कर्ण नलिका एक गुंजयमान ट्यूब (एक अंग पाइप की तरह) के रूप में कार्य करती है जो 2-5.5 किलोहर्ट्ज़ के मध्य आवृत्तियों को बढ़ाती है और अधिकतम 11 डीबी का प्रवर्धन 4 किलोहर्ट्ज़ के आसपास होता है। श्रवण के अंग के रूप में, कोक्लीअ में दो मेम्ब्रेन होती हैं, रीस्नर और बेसिलर मेम्ब्रेन। बेसिलर मेम्ब्रेन विशिष्ट उत्तेजना आवृत्ति के माध्यम से ऑडियो उत्तेजनाओं की ओर बढ़ती है जो बेसिलर मेम्ब्रेन के एक विशेष क्षेत्र की गुंजयमान आवृत्ति के समरूप होती है। बेसिलर मेम्ब्रेन की गति आंतरिक रोम कोशिकाओं को एक दिशा में विस्थापित करती है, जो सर्पिल गैंग्लियन कोशिकाओं में एक्शन पोटेंशिअल के आधे-तरंग सुधारित संकेत को एनकोड करती है। इन कोशिकाओं के अक्षतंतु श्रवण तंत्रिका बनाते हैं, जो संशोधित उत्तेजना को कूटबद्ध करते हैं। श्रवण तंत्रिका प्रतिक्रियाएं बेसिलर मेम्ब्रेन के समान कुछ आवृत्तियों का चयन करती हैं। कम आवृत्तियों के लिए, फ़ाइबर चरण लॉकिंग प्रदर्शित करते हैं। उच्च श्रवण मार्ग केंद्रों में न्यूरॉन्स विशिष्ट उत्तेजना सुविधाओं, जैसे आवधिकता, ध्वनि तीव्रता, आयाम और आवृत्ति मॉड्यूलेशन के अनुरूप होते हैं। पश्च प्रांतस्था के माध्यम से एएसए के न्यूरोएनाटोमिकल संगठन भी होता हैं, जिनमें पोस्टीरियर श्रेष्ठतर टेम्पोरल लोब और पश्च सिंगुलेट सम्मिलित होता हैं। अध्ययनों में पाया गया है कि अल्जाइमर रोग के रोगियों में एएसए और पृथक्करण और समूह संचालन में हानि प्रभावित होती है।

कोक्लीग्राम
सीएएसए प्रसंस्करण के पहले चरण के रूप में, कॉकलीग्राम इनपुट संकेत का समय-आवृत्ति प्रतिनिधित्व बनाता है। बाह्य और मध्य कर्ण के घटकों की नकल करके, संकेत को विभिन्न आवृत्तियों में विभाजित किया जाता है जो स्वाभाविक रूप से कोक्लीअ और रोम कोशिकाओं द्वारा चयनित किये जाते हैं। बेसिलर मेम्ब्रेन की आवृत्ति चयनात्मकता के कारण, मेम्ब्रेन को मॉडल करने के लिए एक निस्पंदन बैंक का उपयोग किया जाता है, जिसमें प्रत्येक फिल्टर बेसिलर मेम्ब्रेन पर एक विशिष्ट बिंदु से जुड़ा होता है।

चूंकि रोम कोशिकाएं स्पाइक प्रतिरूप उत्पन्न करती हैं, इसलिए मॉडल के प्रत्येक निस्पंदन को भी आवेग प्रतिक्रिया में समान स्पाइक उत्पन्न करना चाहिए। गामाटोन निस्पंदन का उपयोग गामा फ़ंक्शन और टोन के उत्पाद के रूप में एक आवेग प्रतिक्रिया प्रदान करता है। गैमाटोन निस्पंदन के आउटपुट को बेसिलर मेम्ब्रेन विस्थापन के माप के रूप में माना जा सकता है। अधिकांश सीएएसए प्रणालियाँ स्पाइक-आधारित के अतिरिक्त श्रवण तंत्रिका में फायरिंग दर का प्रतिनिधित्व करती हैं। इसे प्राप्त करने के लिए, निस्पंदन बैंक आउटपुट को अर्ध-तरंग में सुधारा जाता है और उसके बाद वर्गमूल को सुधारा जाता है। (अन्य मॉडल, जैसे स्वचालित लाभ नियंत्रक प्रयुक्त किए गए हैं)। अर्ध-सुधारित तरंग रोम कोशिकाओं के विस्थापन मॉडल के समान होती है। रोम कोशिकाओं के अतिरिक्त मॉडल में मेडीस रोम सेल मॉडल सम्मिलित है जो रोम कोशिका पारगमन को मॉडलिंग करके गैमाटोन फिल्टर बैंक के साथ जुड़ता है। इस धारणा के आधार पर कि प्रत्येक रोम कोशिका के भीतर ट्रांसमीटर पदार्थ के तीन भंडार होते हैं, और ट्रांसमीटरों को बेसिलर मेम्ब्रेन के विस्थापन की डिग्री के अनुपात में उत्पन्न किया जाता है, रिलीज को तंत्रिका फाइबर में उत्पन्न स्पाइक की संभावना के समान किया जाता है। यह मॉडल सीएएसए प्रणालियों में कई तंत्रिका प्रतिक्रियाओं जैसे कि सुधार, संपीड़न, सहज फायरिंग और अनुकूलन को दोहराता है।

कोरलोग्राम
पिच सिद्धांत के 2 स्कूलों को एकीकृत करके पिच धारणा का महत्वपूर्ण मॉडल:


 * स्थान सिद्धांत (समाधान हार्मोनिक्स की भूमिका पर महत्व देना)
 * अस्थायी सिद्धांत (अनसुलझे हार्मोनिक्स की भूमिका पर महत्व देते हुए)

कोरेलोग्राम की गणना सामान्यतः समय डोमेन में प्रत्येक निस्पंदन चैनल के आउटपुट के लिए सिम्युलेटेड श्रवण तंत्रिका फायरिंग गतिविधि को स्वत: सहसंबद्ध करके की जाती है। आवृत्ति में स्वत:सहसंबंध को एकत्रित करके, सारांश सहसंबंध में चोटियों की स्थिति कथित पिच के समरूप होती है।

क्रॉस-कोरलोग्राम
क्योंकि कर्ण भिन्न-भिन्न समय पर ऑडियो संकेत प्राप्त करते हैं, ध्वनि स्रोत को दोनों कर्णों से प्राप्त विलंब का उपयोग करके निर्धारित किया जा सकता है। बाएं और दाएं चैनलों (मॉडल के) से देरी को क्रॉस-सहसंबंधित करके, इनपुट संकेत में उनके अस्थायी स्थान होने के पश्चात् भी, संयोगित चोटियों को समान स्थानीयकृत ध्वनि के रूप में वर्गीकृत किया जा सकता है। श्रवण मध्य मस्तिष्क में न्यूरॉन्स की व्यवस्था के समानांतर, शारीरिक अध्ययनों के माध्यम से इंटरऑरल क्रॉस-सहसंबंध तंत्र के उपयोग का समर्थन किया गया है।

समय-आवृत्ति मास्क
ध्वनि स्रोत को अलग करने के लिए, सीएएसए प्रणाली कॉकलीग्राम को मास्क कर देता है। यह मास्क, कभी-कभी एक वियना फिल्टर, लक्ष्य स्रोत क्षेत्रों का वजन करता है और अन्य को दबा देता है। मुखौटे के पीछे की शारीरिक प्रेरणा श्रवण धारणा से उत्पन्न होती है जहां ध्वनि को तेज़ ध्वनि द्वारा अश्रव्य बना दिया जाता है।

पुनर्संश्लेषण
एक पुनर्संश्लेषण मार्ग खंडों के समूह से एक ऑडियो संकेत का पुनर्निर्माण करता है। कोक्लीग्राम को उत्क्रम करके, उच्च गुणवत्ता वाले पुनर्संश्लेषित भाषण संकेत प्राप्त किए जा सकते हैं।

मोनौरल कासा
मोनोरल ध्वनि पृथक्करण सर्वप्रथम आवृत्ति के आधार पर ध्वनियों को अलग करने से प्रारम्भ हुआ। आवृत्ति के माध्यम से विभिन्न भाषण संकेतों को विभाजित करने पर आधारित कई प्रारंभिक विकास हुए। राज्य अंतरिक्ष मॉडल, बैच प्रसंस्करण और भविष्यवाणी-संचालित वास्तुकला के माध्यम से अनुकूलन को जोड़कर, अन्य मॉडलों ने इस प्रक्रिया का अनुसरण किया। सीएएसए के उपयोग से ASR और वाक् पृथक्करण प्रणालियों की कठोरता में सुधार हुआ है।

बिनाउरल सीएएसए
चूँकि सीएएसए मानव श्रवण पथों का मॉडलिंग कर रहा है, इसलिए बिनाउरल सीएएसए प्रणालियाँ 2 स्थानिक रूप से अलग किए गए माइक्रोफोनों को सम्मिलित करके ध्वनि स्थानीयकरण, श्रवण समूहन और प्रतिध्वनि की मजबूती प्रदान करके मानव मॉडल को बेहतर बनाती हैं। क्रॉस-सहसंबंध के समान विधियों के साथ, प्रणाली दोनों इनपुट माइक्रोफोन से लक्ष्य संकेत निकालने में सक्षम होता हैं।

तंत्रिका कासा मॉडल
चूंकि जैविक श्रवण प्रणाली न्यूरॉन्स की गतिविधियों से गहराई से जुड़ी हुई है, सीएएसए प्रणाली ने डिजाइन के भीतर तंत्रिका मॉडल को भी सम्मिलित किया है। दो भिन्न-भिन्न मॉडल इस क्षेत्र के लिए आधार प्रदान करते हैं। माल्सबर्ग और श्नाइडर ने विभिन्न धाराओं (सिंक्रनाइज़ और डीसिंक्रोनाइज़्ड) की विशेषताओं का प्रतिनिधित्व करने के लिए ऑसिलेटर के साथ एक तंत्रिका नेटवर्क मॉडल का प्रस्ताव रखा। वांग ने समय-आवृत्ति के भीतर श्रवण दृश्य का प्रतिनिधित्व करने के लिए विलंब रेखाओं के साथ एक वैश्विक अवरोधक के साथ उत्तेजक इकाइयों के नेटवर्क का उपयोग करके एक मॉडल भी प्रस्तुत किया।

संगीतमय ऑडियो संकेत का विश्लेषण
सीएएसए प्रणालियों में विशिष्ट दृष्टिकोण भौतिक श्रवण प्रणाली की अनुकृति करने के प्रयासों में, ध्वनि-स्रोतों को भिन्न-भिन्न घटकों में विभाजित करने से प्रारम्भ होता है। यद्यपि, इस बात के प्रमाण हैं कि मस्तिष्क आवश्यक रूप से ऑडियो इनपुट को अलग से संसाधित नहीं करता है, जबकि मिश्रण के रूप में संसाधित करता है। ऑडियो संकेत को भिन्न-भिन्न घटकों में तोड़ने के अतिरिक्त, इनपुट को उच्च स्तरीय विवरणकों, जैसे कि कॉर्ड, बास और मेलोडी, बीट संरचना, और कोरस और वाक्यांश दोहराव द्वारा तोड़ दिया जाता है। ये वर्णनकर्ता वास्तविक दुनिया के परिदृश्यों में मोनोरल और बाइन्यूरल संकेतों के साथ कठिनाइयों का सामना करते हैं। साथ ही, इन वर्णनकर्ताओं का प्राक्कलन संगीत इनपुट के सांस्कृतिक प्रभाव पर अत्यधिक निर्भर करता है। उदाहरण के लिए, पश्चिमी संगीत में, राग और बास टुकड़े की पहचान को प्रभावित करते हैं, साथ ही राग से कोर बनता है। मेलोडी और बास की आवृत्ति प्रतिक्रियाओं को अलग करके, मौलिक आवृत्ति का प्राक्कलन लगाया जा सकता है और अंतर के लिए निस्पंदन किया जा सकता है। हार्मोनिक सामग्री का वर्णन करने वाली निम्न-स्तरीय विशेषताओं को निकालकर, प्रतिरूप पहचान के माध्यम से कॉर्ड डिटेक्शन को कार्यान्वित किया जा सकता है। संगीत दृश्य विश्लेषण में उपयोग की जाने वाली तकनीकों को वाक् पहचान और अन्य पर्यावरणीय ध्वनियों पर भी प्रयुक्त किया जा सकता है। भविष्य के कार्यों में ऑडियो संकेत प्रोसेसिंग का टॉप-डाउन एकीकरण सम्मिलित है, जैसे कि वास्तविक समय बीट-ट्रैकिंग प्रणाली और श्रवण मनोविज्ञान और शरीर विज्ञान के समावेश के साथ संकेत प्रोसेसिंग क्षेत्र से बाहर विस्तार करना।

तंत्रिका अवधारणात्मक मॉडलिंग
जबकि कई मॉडल ऑडियो संकेत को विभिन्न आवृत्तियों के एक समष्टि संयोजन के रूप में मानते हैं, श्रवण प्रणाली के मॉडलिंग के लिए तंत्रिका घटकों पर भी विचार करने की आवश्यकता हो सकती है। एक समग्र प्रक्रिया अपनाकर, जहां एक धारा (फ़ीचर-आधारित ध्वनियों की) कई मस्तिष्क क्षेत्रों में वितरित न्यूरोनल गतिविधि के अनुरूप होती है, ध्वनि की धारणा को मैप और मॉडल किया जा सकता है। ऑडियो धारणा और मस्तिष्क के क्षेत्र को जोड़ने के लिए दो भिन्न-भिन्न समाधान प्रस्तावित किए गए हैं। श्रवण दृश्य में सुविधाओं और वस्तुओं के सभी संभावित संयोजनों को एन्कोड करने के लिए पदानुक्रमित कोडिंग कई कोशिकाओं को मॉडल करती है। अस्थायी या दोलन संबंधी सहसंबंध, श्रवण विशेषताओं के मध्य बंधन की स्थिति को एनकोड करने के लिए तंत्रिका दोलनों के मध्य समकालिकता और वंशानुक्रम पर ध्यान केंद्रित करके बंधन समस्या को संबोधित करता है। ये दो समाधान स्थान कोडिंग और टेम्पोरल कोडिंग के मध्य की पराजय के समान हैं। तंत्रिका घटकों के मॉडलिंग से चित्रण करते समय, एएसए की एक और घटना सीएएसए प्रणालियों के साथ खेल में आती है: तंत्रिका तंत्र के मॉडलिंग की सीमा। सीएएसए प्रणालियों के अध्ययन में कुछ ज्ञात तंत्रों का मॉडलिंग सम्मिलित है, जैसे कि कॉक्लियर निस्पंदनिंग की बैंडपास प्रकृति और यादृच्छिक श्रवण तंत्रिका फायरिंग प्रतिरूप, यद्यपि, ये मॉडल नए प्रणाली अन्वेषण की ओर नहीं ले जा सकते हैं, जबकि ज्ञात प्रणाली के उद्देश्य की समझ प्रदान करते हैं।

यह भी देखें

 * श्रवण दृश्य विश्लेषण
 * ब्लाइंड संकेत पृथक्करण
 * कॉकटेल पार्टी की समस्या
 * कम्प्यूटेशनल ऑडियोलॉजी
 * मशीन दृष्टि
 * वाक् पहचान

अग्रिम पठन
D. F. Rosenthal and H. G. Okuno (1998) Computational auditory scene analysis. Mahwah, NJ: Lawrence Erlbaum