कम्प्यूटेशनल श्रवण दृश्य विश्लेषण

कम्प्यूटेशनल श्रवण दृश्य विश्लेषण (सीएएसए) कम्प्यूटेशनल साधनों द्वारा श्रवण दृश्य विश्लेषण का अध्ययन करता है। संक्षेप में, सीएएसए प्रणाली मशीन श्रवण वाली प्रणालियाँ होती हैं जिनका उद्देश्य ध्वनि स्रोतों के मिश्रण को उसी अनुसार पृथक करना होता है जैसे मानव श्रोता करते हैं। सीएएसए ब्लाइंड संकेत पृथक्करण के क्षेत्र से इस अर्थ में भिन्न होता है कि यह (कम से कम कुछ हद तक) मानव श्रवण प्रणाली के प्रणाली पर आधारित होता है, और इस प्रकार ध्वनिक वातावरण की दो से अधिक माइक्रोफोन रिकॉर्डिंग का उपयोग नहीं करता है। यह कॉकटेल पार्टी समस्या से संबंधित होता है।

सिद्धांत
चूंकि सीएएसए श्रवण प्रणाली के कार्यात्मक भागों को मॉडल करने का कार्य करता है, इसलिए ज्ञात भौतिक मॉडल के संदर्भ में जैविक श्रवण प्रणाली के भागों को देखना आवश्यक होता है। तीन क्षेत्रों, बाह्य, मध्य और आंतरिक कर्ण से मिलकर, श्रवण परिधि एक समष्टि ट्रांसड्यूसर के रूप में कार्य करती है जो श्रवण तंत्रिका में ध्वनि कंपन को क्रिया क्षमता में परिवर्तित करती है। बाह्य कर्ण में बाह्य कर्ण, कर्ण नलिका और कर्णपटह सम्मिलित होते हैं। बाह्य कर्ण, एक ध्वनिक फ़नल की तरह, ध्वनि स्रोत का पता लगाने में सहायता करता है। कर्ण नलिका एक गुंजयमान ट्यूब (एक अंग पाइप की तरह) के रूप में कार्य करती है जो 2-5.5 किलोहर्ट्ज़ के मध्य आवृत्तियों को बढ़ाती है और अधिकतम 11 डीबी का प्रवर्धन 4 किलोहर्ट्ज़ के आसपास होता है। श्रवण के अंग के रूप में, कोक्लीअ में दो मेम्ब्रेन होती हैं, रीस्नर और बेसिलर मेम्ब्रेन। बेसिलर मेम्ब्रेन विशिष्ट उत्तेजना आवृत्ति के माध्यम से ऑडियो उत्तेजनाओं की ओर बढ़ती है जो बेसिलर मेम्ब्रेन के एक विशेष क्षेत्र की गुंजयमान आवृत्ति के समरूप होती है। बेसिलर मेम्ब्रेन की गति आंतरिक रोम कोशिकाओं को एक दिशा में विस्थापित करती है, जो सर्पिल गैंग्लियन कोशिकाओं में एक्शन पोटेंशिअल के आधे-तरंग संशोधित संकेत को एनकोड करती है। इन कोशिकाओं के अक्षतंतु श्रवण तंत्रिका बनाते हैं, जो संशोधित उत्तेजना को कूटबद्ध करते हैं। श्रवण तंत्रिका प्रतिक्रियाएं बेसिलर मेम्ब्रेन के समान कुछ आवृत्तियों का चयन करती हैं। कम आवृत्तियों के लिए, फ़ाइबर चरण लॉकिंग प्रदर्शित करते हैं। उच्च श्रवण मार्ग केंद्रों में न्यूरॉन्स विशिष्ट उत्तेजना सुविधाओं, जैसे आवधिकता, ध्वनि तीव्रता, आयाम और आवृत्ति मॉड्यूलेशन के अनुरूप होते हैं। पश्च प्रांतस्था के माध्यम से एएसए के न्यूरोएनाटोमिकल संगठन भी होता हैं, जिनमें पोस्टीरियर श्रेष्ठतर टेम्पोरल लोब और पश्च सिंगुलेट सम्मिलित होता हैं। अध्ययनों में पाया गया है कि अल्जाइमर रोग के रोगियों में एएसए और पृथक्करण और समूह संचालन में हानि प्रभावित होती है।

कोक्लीग्राम
सीएएसए प्रसंस्करण के पहले चरण के रूप में, कॉकलीग्राम इनपुट संकेत का समय-आवृत्ति प्रतिनिधित्व बनाता है। बाह्य और मध्य कर्ण के घटकों की अनुकृति करके, संकेत को विभिन्न आवृत्तियों में विभाजित किया जाता है जो स्वाभाविक रूप से कोक्लीअ और रोम कोशिकाओं द्वारा चयनित किये जाते हैं। बेसिलर मेम्ब्रेन की आवृत्ति चयनात्मकता के कारण, मेम्ब्रेन को मॉडल करने के लिए एक निस्पंदन बैंक का उपयोग किया जाता है, जिसमें प्रत्येक निस्पंदन बेसिलर मेम्ब्रेन पर एक विशिष्ट बिंदु से जुड़ा होता है।

चूंकि रोम कोशिकाएं स्पाइक प्रतिरूप उत्पन्न करती हैं, इसलिए मॉडल के प्रत्येक निस्पंदन को भी आवेग प्रतिक्रिया में समान स्पाइक उत्पन्न करना चाहिए। गामाटोन निस्पंदन का उपयोग गामा फलन और टोन के उत्पाद के रूप में एक आवेग प्रतिक्रिया प्रदान करता है। गैमाटोन निस्पंदन के आउटपुट को बेसिलर मेम्ब्रेन विस्थापन के माप के रूप में माना जा सकता है। अधिकांश सीएएसए प्रणालियाँ स्पाइक-आधारित के अतिरिक्त श्रवण तंत्रिका में फायरिंग दर का प्रतिनिधित्व करती हैं। इसे प्राप्त करने के लिए, निस्पंदन बैंक आउटपुट को अर्ध-तरंग में संशोधन किया जाता है और उसके पश्चात् वर्गमूल का संशोधन किया जाता है। (अन्य मॉडल, जैसे स्वचालित लाभ नियंत्रक प्रयुक्त किए गए हैं)। अर्ध-संशोधित तरंग रोम कोशिकाओं के विस्थापन मॉडल के समान होती है। रोम कोशिकाओं के अतिरिक्त मॉडल में मेडीस रोम सेल मॉडल सम्मिलित होता है जो रोम कोशिका पारगमन को मॉडलिंग करके गैमाटोन निस्पंदन बैंक के साथ जुड़ता है। इस धारणा के आधार पर कि प्रत्येक रोम कोशिका के भीतर ट्रांसमीटर पदार्थ के तीन जलाशय होते हैं, और ट्रांसमीटरों को बेसिलर मेम्ब्रेन के विस्थापन की डिग्री के अनुपात में उत्पन्न किया जाता है, रिलीज को तंत्रिका फाइबर में उत्पन्न स्पाइक की संभावना के समान किया जाता है। यह मॉडल सीएएसए प्रणालियों में कई तंत्रिका प्रतिक्रियाओं जैसे कि संशोधन, संपीड़न, सहज फायरिंग और अनुकूलन को दोहराता है।

कोरलोग्राम
पिच सिद्धांत के 2 स्कूलों को एकीकृत करके पिच धारणा का महत्वपूर्ण मॉडल:


 * स्थान संबंधी सिद्धांत (समाधान हार्मोनिक्स की भूमिका पर महत्व देना)
 * अस्थायी सिद्धांत (अनसुलझे हार्मोनिक्स की भूमिका पर महत्व देते हुए)

कोरेलोग्राम की गणना सामान्यतः समय डोमेन में प्रत्येक निस्पंदन चैनल के आउटपुट के लिए सिम्युलेटेड श्रवण तंत्रिका फायरिंग गतिविधि को स्वत: सहसंबद्ध करके की जाती है। आवृत्ति में स्वत:सहसंबंध को एकत्रित करके, सारांश सहसंबंध में पीक की स्थिति कथित पिच के समरूप होती है।

क्रॉस-कोरलोग्राम
क्योंकि कर्ण भिन्न-भिन्न समय पर ऑडियो संकेत प्राप्त करते हैं, ध्वनि स्रोत को दोनों कर्णों से प्राप्त विलंब का उपयोग करके निर्धारित किया जा सकता है। बाएं और दाएं चैनलों (मॉडल के) से देरी को क्रॉस-सहसंबंधित करके, इनपुट संकेत में उनके अस्थायी स्थान होने के पश्चात् भी, संयोगित पीक को समान स्थानीयकृत ध्वनि के रूप में वर्गीकृत किया जा सकता है। श्रवण मध्य मस्तिष्क में न्यूरॉन्स की व्यवस्था के समानांतर, शारीरिक अध्ययनों के माध्यम से इंटरऑरल क्रॉस-सहसंबंध तंत्र के उपयोग का समर्थन किया गया है।

समय-आवृत्ति मास्क
ध्वनि स्रोत को अलग करने के लिए, सीएएसए प्रणाली कॉकलीग्राम को मास्क कर देता है। यह मास्क, कभी-कभी एक वियना निस्पंदन, लक्ष्य स्रोत क्षेत्रों का वजन करता है और अन्य को दबा देता है। मास्क के पीछे की शारीरिक प्रेरणा श्रवण धारणा से उत्पन्न होती है जहां ध्वनि को तेज़ ध्वनि द्वारा अश्रव्य बना दिया जाता है।

पुनर्संश्लेषण
एक पुनर्संश्लेषण मार्ग सेगमेंट के समूह से एक ऑडियो संकेत का पुनर्निर्माण करता है। कोक्लीग्राम को उत्क्रम करके, उच्च गुणवत्ता वाले पुनर्संश्लेषित भाषण संकेत प्राप्त किए जा सकते हैं।

मोनौरल सीएएसए
मोनोरल ध्वनि पृथक्करण सर्वप्रथम आवृत्ति के आधार पर ध्वनियों को अलग करने से प्रारम्भ हुआ। आवृत्ति के माध्यम से विभिन्न भाषण संकेतों को विभाजित करने पर आधारित कई प्रारंभिक विकास हुए। राज्य अंतरिक्ष मॉडल, बैच प्रसंस्करण और भविष्यवाणी-संचालित वास्तुकला के माध्यम से अनुकूलन को जोड़कर, अन्य मॉडलों ने इस प्रक्रिया का अनुसरण किया। सीएएसए के उपयोग से एएसआर और वाक् पृथक्करण प्रणालियों की कठोरता में संशोधन करता है।

बिनाउरल सीएएसए
चूँकि सीएएसए मानव श्रवण पथों का मॉडलिंग कर रहा है, इसलिए बिनाउरल सीएएसए प्रणालियाँ 2 स्थानिक रूप से पृथक किए गए माइक्रोफोनों को सम्मिलित करके ध्वनि स्थानीयकरण, श्रवण समूहन और प्रतिध्वनि को दृढ़ता प्रदान करके मानव मॉडल को श्रेष्ठतर बनाती हैं। क्रॉस-सहसंबंध के समान विधियों के साथ, प्रणाली दोनों इनपुट माइक्रोफोन से लक्ष्य संकेत निकालने में सक्षम होता हैं।

तंत्रिका सीएएसए मॉडल
चूंकि जैविक श्रवण प्रणाली न्यूरॉन्स की गतिविधियों से गहराई से जुड़ी हुई है, सीएएसए प्रणाली ने डिजाइन के भीतर तंत्रिका मॉडल को भी सम्मिलित किया है। दो भिन्न-भिन्न मॉडल इस क्षेत्र के लिए आधार प्रदान करते हैं। माल्सबर्ग और श्नाइडर ने विभिन्न धाराओं (सिंक्रनाइज़ और डीसिंक्रोनाइज़्ड) की विशेषताओं का प्रतिनिधित्व करने के लिए दोलक के साथ एक तंत्रिका नेटवर्क मॉडल का प्रस्ताव रखा। वांग ने समय-आवृत्ति के भीतर श्रवण दृश्य का प्रतिनिधित्व करने के लिए विलंब रेखाओं के साथ एक वैश्विक अवरोधक के साथ उत्तेजक इकाइयों के नेटवर्क का उपयोग करके एक मॉडल भी प्रस्तुत किया था।

संगीतमय ऑडियो संकेत का विश्लेषण
सीएएसए प्रणालियों में विशिष्ट दृष्टिकोण भौतिक श्रवण प्रणाली की अनुकृति करने के प्रयासों में, ध्वनि-स्रोतों को भिन्न-भिन्न घटकों में विभाजित करने से प्रारम्भ होता है। यद्यपि, इस बात के प्रमाण हैं कि मस्तिष्क आवश्यक रूप से ऑडियो इनपुट को अलग से संसाधित नहीं करता है, जबकि मिश्रण के रूप में संसाधित करता है। ऑडियो संकेत को भिन्न-भिन्न घटकों में तोड़ने के अतिरिक्त, इनपुट को उच्च स्तरीय विवरणकों, जैसे कि कॉर्ड, बास और मेलोडी, बीट संरचना, और कोरस और वाक्यांश दोहराव द्वारा तोड़ दिया जाता है। ये वर्णनकर्ता वास्तविक दुनिया के परिदृश्यों में मोनोरल और बाइन्यूरल संकेतों के साथ कठिनाइयों का सामना करते हैं। साथ ही, इन वर्णनकर्ताओं का प्राक्कलन संगीत इनपुट के सांस्कृतिक प्रभाव पर अत्यधिक निर्भर करता है। उदाहरण के लिए, पश्चिमी संगीत में, राग और बास टुकड़े की पहचान को प्रभावित करते हैं, साथ ही राग से कोर बनता है। मेलोडी और बास की आवृत्ति प्रतिक्रियाओं को अलग करके, मौलिक आवृत्ति का प्राक्कलन लगाया जा सकता है और अंतर के लिए निस्पंदन किया जा सकता है। हार्मोनिक सामग्री का वर्णन करने वाली निम्न-स्तरीय विशेषताओं को निकालकर, प्रतिरूप पहचान के माध्यम से कॉर्ड डिटेक्शन को कार्यान्वित किया जा सकता है। संगीत दृश्य विश्लेषण में उपयोग की जाने वाली तकनीकों को वाक् पहचान और अन्य पर्यावरणीय ध्वनियों पर भी प्रयुक्त किया जा सकता है। भविष्य के कार्यों में ऑडियो संकेत प्रोसेसिंग का ऊपर से नीचे तक एकीकरण सम्मिलित है, जैसे कि वास्तविक समय बीट-ट्रैकिंग प्रणाली और श्रवण मनोविज्ञान और निकाय के समावेश के साथ संकेत प्रोसेसिंग क्षेत्र से बाहर विस्तार करता है।

तंत्रिका अवधारणात्मक मॉडलिंग
जबकि कई मॉडल ऑडियो संकेत को विभिन्न आवृत्तियों के एक समष्टि संयोजन के रूप में मानते हैं, श्रवण प्रणाली के मॉडलिंग के लिए तंत्रिका घटकों पर भी विचार करने की आवश्यकता हो सकती है। एक समग्र प्रक्रिया अपनाकर, जहां एक धारा (फ़ीचर-आधारित ध्वनियों की) कई मस्तिष्क क्षेत्रों में वितरित न्यूरोनल गतिविधि के अनुरूप होती है, ध्वनि की धारणा को मैप और मॉडल किया जा सकता है। ऑडियो धारणा और मस्तिष्क के क्षेत्र को जोड़ने के लिए दो भिन्न-भिन्न समाधान प्रस्तावित किए गए हैं। श्रवण दृश्य में सुविधाओं और वस्तुओं के सभी संभावित संयोजनों को एन्कोड करने के लिए पदानुक्रमित कूटलेखन कई कोशिकाओं को मॉडल करती है। अस्थायी या दोलन संबंधी सहसंबंध, श्रवण विशेषताओं के मध्य बंधन की स्थिति को एनकोड करने के लिए तंत्रिका दोलनों के मध्य समकालिकता और वंशानुक्रम पर ध्यान केंद्रित करके बंधन समस्या को संबोधित करता है। ये दो समाधान स्थान कूटलेखन और टेम्पोरल कूटलेखन के मध्य की पराजय के समान होता हैं। तंत्रिका घटकों के मॉडलिंग से चित्रण करते समय, एएसए की एक और घटना सीएएसए प्रणालियों के समरूप होता है: तंत्रिका तंत्र के मॉडलिंग की सीमा। सीएएसए प्रणालियों के अध्ययन में कुछ ज्ञात तंत्रों का मॉडलिंग सम्मिलित होता है, जैसे कि कॉक्लियर निस्पंदनिंग की बैंडपास प्रकृति और यादृच्छिक श्रवण तंत्रिका फायरिंग प्रतिरूप, यद्यपि, ये मॉडल नए प्रणाली अन्वेषण की ओर नहीं ले जा सकते हैं, जबकि ज्ञात प्रणाली के उद्देश्य की समझ प्रदान करते हैं।

यह भी देखें

 * श्रवण दृश्य विश्लेषण
 * ब्लाइंड संकेत पृथक्करण
 * कॉकटेल पार्टी की समस्या
 * कम्प्यूटेशनल ऑडियोलॉजी
 * मशीन दृष्टि
 * वाक् पहचान

अग्रिम पठन
डी. एफ. रोसेन्थल और एच. जी. ओकुनो (1998) कम्प्यूटेशनल श्रवण दृश्य विश्लेषण। महवाह, एनजे: लॉरेंस एर्लबौम