ऑडिटोरी मास्किंग

ऑडियो सिग्नल प्रोसेसिंग में, श्रवण मास्किंग तब होती है जब एक ध्वनि की धारणा दूसरी ध्वनि की उपस्थिति से प्रभावित होती है। आवृत्ति डोमेन में श्रवण मास्किंग को एक साथ मास्किंग, फ़्रीक्वेंसी मास्किंग या स्पेक्ट्रल मास्किंग के रूप में जाना जाता है। समय क्षेत्र  में श्रवण मास्किंग को टेम्पोरल मास्किंग या गैर-समकालिक मास्किंग के रूप में जाना जाता है।

नकाबपोश दहलीज
अनमास्क्ड थ्रेशोल्ड सिग्नल का सबसे शांत स्तर है जिसे बिना मास्किंग सिग्नल के मौजूद माना जा सकता है। एक विशिष्ट मास्किंग शोर के साथ संयुक्त होने पर नकाबपोश दहलीज सिग्नल का सबसे शांत स्तर माना जाता है। मास्किंग की मात्रा मास्क्ड और अनमास्क्ड थ्रेसहोल्ड के बीच का अंतर है।

गेलफैंड एक बुनियादी उदाहरण प्रदान करता है। बता दें कि किसी दिए गए व्यक्ति के लिए, अन्यथा शांत वातावरण में एक बिल्ली द्वारा खंभे को खरोंचने की आवाज पहले 10 डीबी एसपीएल के स्तर पर श्रव्य होती है। हालांकि, एक मास्किंग शोर (उदाहरण के लिए, एक वैक्यूम क्लीनर जो एक साथ चल रहा है) की उपस्थिति में वही व्यक्ति बिल्ली के खरोंचने की आवाज का पता नहीं लगा सकता है जब तक कि खरोंच ध्वनि का स्तर कम से कम 26 डीबी एसपीएल न हो। हम कहेंगे कि लक्षित ध्वनि के लिए उस व्यक्ति के लिए अनमास्क्ड थ्रेशोल्ड (यानी, कैट स्क्रैचिंग) 10 dB SPL है, जबकि मास्क्ड थ्रेशोल्ड 26 dB SPL है। मास्किंग की मात्रा केवल इन दो थ्रेसहोल्ड के बीच का अंतर है: 16 dB।

मास्किंग की मात्रा लक्ष्य सिग्नल और मास्कर दोनों की विशेषताओं के आधार पर अलग-अलग होगी, और यह एक व्यक्तिगत श्रोता के लिए भी विशिष्ट होगी। जबकि ऊपर के उदाहरण में व्यक्ति 26 डीबी एसपीएल पर बिल्ली के खरोंच का पता लगाने में सक्षम था, हो सकता है कि कोई अन्य व्यक्ति बिल्ली के खरोंच को सुनने में सक्षम न हो, जब तक कि बिल्ली के खरोंच का ध्वनि स्तर 30 डीबी एसपीएल तक नहीं बढ़ जाता ( जिससे दूसरे श्रोता के लिए मास्किंग की मात्रा 20 dB हो जाती है)।

एक साथ मास्किंग
एक साथ मास्किंग तब होता है जब ध्वनि को मूल ध्वनि के समान अवधि के शोर या अवांछित ध्वनि द्वारा अश्रव्य बना दिया जाता है। उदाहरण के लिए, 1 kHz पर एक शक्तिशाली स्पाइक 1.1 kHz पर एक निचले-स्तर के टोन को छुपा देगा। साथ ही, 440 और 450 हर्ट्ज पर दो साइन टोन को अलग करने पर स्पष्ट रूप से देखा जा सकता है। एक साथ प्रस्तुत करने पर उन्हें स्पष्ट रूप से नहीं देखा जा सकता है।

गंभीर बैंडविड्थ
यदि एक ही समय में दो अलग-अलग आवृत्तियों की दो ध्वनियाँ बजाई जाती हैं, तो संयोजन स्वर के बजाय दो अलग-अलग ध्वनियाँ अक्सर सुनी जा सकती हैं। आवृत्तियों को अलग-अलग सुनने की क्षमता को आवृत्ति संकल्प या आवृत्ति चयनात्मकता के रूप में जाना जाता है। जब संकेतों को संयोजन स्वर के रूप में माना जाता है, तो उन्हें उसी महत्वपूर्ण बैंडविड्थ में रहने के लिए कहा जाता है। ऐसा माना जाता है कि यह प्रभाव आंतरिक कान में श्रवण अंग कोक्लीअ के भीतर फ़िल्टरिंग के कारण होता है। एक जटिल ध्वनि को विभिन्न आवृत्ति घटकों में विभाजित किया जाता है और ये घटक कॉक्लिया के भीतर बेसिलर झिल्ली के अंदर सिलिया पर एक विशिष्ट स्थान पर कंपन के पैटर्न में शिखर का कारण बनते हैं। इन घटकों को तब श्रवण तंत्रिका पर स्वतंत्र रूप से कोडित किया जाता है जो ध्वनि की जानकारी मस्तिष्क तक पहुंचाती है। यह व्यक्तिगत कोडिंग तभी होती है जब आवृत्ति घटक आवृत्ति में पर्याप्त भिन्न होते हैं, अन्यथा वे एक ही महत्वपूर्ण बैंड में होते हैं और एक ही स्थान पर कोडित होते हैं और दो के बजाय एक ध्वनि के रूप में माने जाते हैं। फ़िल्टर जो एक ध्वनि को दूसरे से अलग करते हैं, श्रवण फ़िल्टर, श्रवण चैनल या क्रिटिकल बैंड कहलाते हैं। बेसिलर मेम्ब्रेन पर फ़्रीक्वेंसी रेज़ोल्यूशन तब होता है जब श्रोता एक फ़िल्टर चुनते हैं जो उस फ़्रीक्वेंसी पर केंद्रित होता है जिसे वे सुनने की उम्मीद करते हैं, सिग्नल फ़्रीक्वेंसी। एक तीव्र ट्यून किए गए फ़िल्टर में अच्छा आवृत्ति रिज़ॉल्यूशन होता है क्योंकि यह केंद्र आवृत्तियों को अनुमति देता है लेकिन अन्य आवृत्तियों को नहीं (अचार 1982)। कोक्लीअ और कोक्लीअ में बाहरी बालों की कोशिकाओं को नुकसान अलग-अलग ध्वनियों को बताने की क्षमता को क्षीण कर सकता है (मूर 1986)। यह बताता है कि कोक्लीअ क्षति के कारण सुनवाई हानि वाले किसी व्यक्ति को भाषण में विभिन्न व्यंजनों के बीच अंतर करने में सामान्य सुनने वाले व्यक्ति की तुलना में अधिक कठिनाई होगी। मास्किंग आवृत्ति चयनात्मकता की सीमा को दर्शाता है। यदि एक सिग्नल को एक अलग आवृत्ति के साथ एक मास्कर द्वारा मास्क किया जाता है, तो श्रवण प्रणाली दो आवृत्तियों के बीच अंतर करने में असमर्थ थी। ऐसी स्थितियों के साथ प्रयोग करके जहां एक ध्वनि पहले से सुने गए संकेत को छिपा सकती है, श्रवण प्रणाली की आवृत्ति चयनात्मकता का परीक्षण किया जा सकता है।

समान आवृत्तियाँ
सिग्नल की दहलीज को बढ़ाने में मास्कर कितना प्रभावी है यह सिग्नल की आवृत्ति और मास्कर की आवृत्ति पर निर्भर करता है। चित्रा बी में ग्राफ मास्किंग पैटर्न की एक श्रृंखला है, जिसे मास्किंग श्रवणलेख  भी कहा जाता है। प्रत्येक ग्राफ़ शीर्ष कोने, 250, 500, 1000 और 2000 हर्ट्ज पर दिखाए गए प्रत्येक मास्कर आवृत्ति पर उत्पादित मास्किंग की मात्रा को दर्शाता है। उदाहरण के लिए, पहले ग्राफ़ में मास्कर को सिग्नल के साथ-साथ 250 Hz की आवृत्ति पर दिखाया गया है। मास्कर जितनी मात्रा में सिग्नल की दहलीज बढ़ाता है, उसे प्लॉट किया जाता है और इसे अलग-अलग सिग्नल फ्रीक्वेंसी के लिए दोहराया जाता है, जिसे एक्स अक्ष पर दिखाया गया है। नकाबपोश की आवृत्ति स्थिर रखी जाती है। मास्किंग प्रभाव प्रत्येक ग्राफ में विभिन्न मास्कर ध्वनि स्तरों पर दिखाया गया है।

चित्रा बी वाई अक्ष के साथ मास्किंग की मात्रा दिखाता है। सबसे बड़ा मास्किंग तब होता है जब मास्कर और सिग्नल समान आवृत्ति होते हैं और यह कम हो जाता है क्योंकि सिग्नल फ्रीक्वेंसी मास्कर फ्रीक्वेंसी से आगे बढ़ जाती है। इस घटना को ऑन-फ़्रीक्वेंसी मास्किंग कहा जाता है और ऐसा इसलिए होता है क्योंकि मास्कर और सिग्नल एक ही श्रवण फ़िल्टर (चित्र C) के भीतर होते हैं। इसका मतलब यह है कि श्रोता उनके बीच अंतर नहीं कर सकते हैं और उन्हें एक ध्वनि के रूप में माना जाता है जिसमें शांत ध्वनि अधिक जोर से छिपी होती है (चित्र डी)।

ऑफ-फ्रीक्वेंसी मास्किंग में मास्कर सिग्नल की दहलीज को बढ़ाता है, लेकिन इसका कुछ मास्किंग प्रभाव होता है क्योंकि कुछ मास्कर सिग्नल के श्रवण फिल्टर (चित्रा ई) में ओवरलैप हो जाते हैं।

ऑफ-फ्रीक्वेंसी मास्किंग मास्किंग प्रभाव के लिए मास्कर का स्तर अधिक होना आवश्यक है; यह चित्र एफ में दिखाया गया है। ऐसा इसलिए है क्योंकि सिग्नल के श्रवण फिल्टर में मास्कर की केवल एक निश्चित मात्रा ओवरलैप होती है और सिग्नल को कवर करने के लिए अधिक मास्कर की आवश्यकता होती है।

कम आवृत्ति
मास्किंग पैटर्न मास्कर की आवृत्ति और तीव्रता (चित्रा बी) के आधार पर बदलता है। 1000 Hz ग्राफ़ पर निम्न स्तरों के लिए, जैसे कि 20–40 dB श्रेणी, वक्र अपेक्षाकृत समानांतर होता है। चूंकि नकाबपोश की तीव्रता घटता को अलग करती है, विशेष रूप से नकाबपोश की तुलना में अधिक आवृत्ति पर संकेतों के लिए। इससे पता चलता है कि मास्किंग प्रभाव का प्रसार आवृत्ति में ऊपर की ओर होता है क्योंकि मास्कर की तीव्रता बढ़ जाती है। निम्न आवृत्तियों की तुलना में उच्च आवृत्तियों में वक्र बहुत उथला होता है। इस चपटेपन को मास्किंग का ऊपर की ओर फैलाव कहा जाता है और यही कारण है कि एक दखल देने वाली ध्वनि उच्च आवृत्ति संकेतों को कम आवृत्ति संकेतों की तुलना में बहुत बेहतर बनाती है।

चित्रा बी यह भी दर्शाता है कि जैसे-जैसे मास्कर आवृत्ति बढ़ती है, मास्किंग पैटर्न तेजी से संकुचित होते जाते हैं। यह दर्शाता है कि उच्च आवृत्ति वाले मास्क केवल आवृत्तियों की एक संकीर्ण सीमा पर प्रभावी होते हैं, जो मास्कर आवृत्ति के करीब होते हैं। दूसरी ओर कम आवृत्ति वाले मास्कर्स व्यापक आवृत्ति रेंज पर प्रभावी होते हैं।

हार्वे फ्लेचर ने यह पता लगाने के लिए एक प्रयोग किया कि एक टोन के मास्किंग में शोर के एक बैंड का कितना योगदान होता है। प्रयोग में, एक निश्चित टोन सिग्नल पर शोर के विभिन्न बैंडविथ केंद्रित थे। प्रत्येक बैंडविड्थ के लिए नकाबपोश सीमा दर्ज की गई थी। उनके शोध से पता चला कि शोर की एक महत्वपूर्ण बैंडविड्थ है जो अधिकतम मास्किंग प्रभाव का कारण बनती है और उस बैंड के बाहर ऊर्जा मास्किंग को प्रभावित नहीं करती है। यह श्रवण प्रणाली द्वारा समझाया जा सकता है जिसमें श्रवण फ़िल्टर होता है जो स्वर की आवृत्ति पर केंद्रित होता है। इस श्रवण फिल्टर के भीतर मौजूद मास्कर की बैंडविड्थ प्रभावी रूप से टोन को मास्क कर देती है लेकिन फिल्टर के बाहर मास्कर का कोई प्रभाव नहीं पड़ता है (चित्र जी)।

इसका उपयोग बिका हुआ फाइलों में ऑडियो फाइलों के आकार को कम करने के लिए किया जाता है। महत्वपूर्ण बैंडविड्थ के बाहर के संकेतों के हिस्से कम सटीकता के साथ दर्शाए जाते हैं। श्रोता द्वारा देखे गए संकेतों के हिस्सों को उच्च निष्ठा के साथ पुन: प्रस्तुत किया जाता है।

तीव्रता का प्रभाव
अलग-अलग तीव्रता के स्तर का मास्किंग पर भी प्रभाव पड़ सकता है। फिल्टर का निचला सिरा बढ़ते डेसिबल स्तर के साथ सपाट हो जाता है, जबकि उच्च अंत थोड़ा तेज हो जाता है। तीव्रता के साथ फिल्टर के उच्च आवृत्ति पक्ष के ढलान में परिवर्तन कम आवृत्तियों की तुलना में कम सुसंगत हैं। मध्यम आवृत्तियों (1–4 kHz) पर तीव्रता बढ़ने पर ढलान बढ़ जाती है, लेकिन कम आवृत्तियों पर स्तर के साथ कोई स्पष्ट झुकाव नहीं होता है और उच्च केंद्र आवृत्तियों पर फिल्टर बढ़ते स्तर के साथ ढलान में थोड़ी कमी दिखाते हैं। फ़िल्टर की तीक्ष्णता इनपुट स्तर पर निर्भर करती है न कि फ़िल्टर के आउटपुट स्तर पर। श्रवण फिल्टर का निचला भाग भी बढ़ते स्तर के साथ चौड़ा होता है। ये प्रेक्षण चित्र H में दर्शाए गए हैं।

टेम्पोरल मास्किंग
टेम्पोरल मास्किंग या गैर-समकालिक मास्किंग तब होता है जब अचानक उत्तेजना ध्वनि अश्रव्य अन्य ध्वनियां बनाती है जो तुरंत उत्तेजना से पहले या बाद में मौजूद होती हैं। मास्किंग जो मास्कर से तुरंत पहले ध्वनि को अस्पष्ट करती है उसे पिछड़ा मास्किंग  या प्री-मास्किंग कहा जाता है और मास्किंग के तुरंत बाद ध्वनि को अस्पष्ट करने वाले मास्किंग को फॉरवर्ड मास्किंग या पोस्ट-मास्किंग कहा जाता है।  टेम्पोरल मास्किंग की प्रभावशीलता मास्कर की शुरुआत और ऑफसेट से तेजी से कम हो जाती है, जिसमें शुरुआत क्षीणन लगभग 20 एमएस और ऑफसेट क्षीणन लगभग 100 एमएस तक रहता है।

एक साथ मास्किंग के समान, टेम्पोरल मास्किंग श्रवण प्रणाली द्वारा किए गए आवृत्ति विश्लेषण को प्रकट करता है; जटिल हार्मोनिक टोन के लिए फॉरवर्ड मास्किंग थ्रेसहोल्ड (उदाहरण के लिए, 500 हर्ट्ज की मौलिक आवृत्ति के साथ एक सॉटूथ जांच) पहले कई हार्मोनिक्स पर केंद्रित आवृत्ति बैंड के लिए थ्रेसहोल्ड चोटियों (यानी, उच्च मास्किंग स्तर) प्रदर्शित करता है। वास्तव में, फ़ॉरवर्ड मास्किंग थ्रेसहोल्ड से मापी गई श्रवण बैंडविथ एक साथ मास्किंग का उपयोग करके मापी गई तुलना में संकरी और अधिक सटीक होती हैं।

टेम्पोरल मास्किंग को कान के ध्वनिक प्रतिवर्त के साथ भ्रमित नहीं होना चाहिए, मध्य कान में एक अनैच्छिक प्रतिक्रिया जो कान की नाजुक संरचनाओं को तेज आवाज़ से बचाने के लिए सक्रिय होती है।

अन्य मास्किंग स्थितियां
इप्सिलैटरल (एक ही तरफ) मास्किंग एकमात्र ऐसी स्थिति नहीं है जहां मास्किंग होती है। एक और स्थिति जहां मास्किंग होती है उसे कॉन्ट्रालेटरल (दूसरी तरफ) एक साथ मास्किंग कहा जाता है। इस मामले में, उदाहरण जहां संकेत एक कान में श्रव्य हो सकता है लेकिन दूसरे कान पर मास्क लगाने से जानबूझकर दूर हो जाता है।

अंतिम स्थिति जहां मास्किंग होती है उसे केंद्रीय मास्किंग कहा जाता है। यह उस मामले को संदर्भित करता है जहां एक नकाबपोश थ्रेसहोल्ड ऊंचाई का कारण बनता है। यह अनुपस्थिति में, या इसके अलावा, एक और प्रभाव हो सकता है और यह मास्कर और सिग्नल से प्राप्त अलग-अलग तंत्रिका इनपुट के बीच केंद्रीय तंत्रिका तंत्र के भीतर बातचीत के कारण हो सकता है।

विभिन्न प्रकार के उद्दीपन के प्रभाव
मास्कर का उपयोग करते समय विभिन्न मास्किंग प्रभावों को देखने के लिए प्रयोग किए गए हैं जो या तो एक संकीर्ण बैंड शोर या sinusoidal टोन के रूप में होते हैं।

जब एक साइनसोइडल सिग्नल और एक साइनसॉइडल मास्कर (टोन) एक साथ प्रस्तुत किए जाते हैं तो संयुक्त उत्तेजना का लिफाफा बीट्स के रूप में वर्णित एक नियमित पैटर्न में उतार-चढ़ाव करता है। उतार-चढ़ाव दो ध्वनियों की आवृत्तियों के बीच के अंतर से परिभाषित दर पर होता है। यदि आवृत्ति अंतर छोटा है तो ध्वनि को एक स्वर की तीव्रता में आवधिक परिवर्तन के रूप में माना जाता है। यदि धड़कन तेज हो तो इसे खुरदरेपन की अनुभूति के रूप में वर्णित किया जा सकता है। जब एक बड़ी आवृत्ति जुदाई होती है, तो दो घटकों को खुरदरापन या धड़कन के बिना अलग-अलग स्वरों के रूप में सुना जाता है। बीट्स सिग्नल की उपस्थिति के लिए एक संकेत हो सकता है, भले ही सिग्नल स्वयं श्रव्य न हो। सिग्नल या मास्कर के लिए एक साइनसॉइडल टोन के बजाय एक नैरोबैंड शोर का उपयोग करके बीट्स के प्रभाव को कम किया जा सकता है।

मास्किंग के तंत्र
मास्किंग के कई अलग-अलग तंत्र हैं, जिनमें से एक दमन है। यह तब होता है जब दूसरे की उपस्थिति के कारण सिग्नल की प्रतिक्रिया में कमी आती है। ऐसा इसलिए होता है क्योंकि पहले संकेत के कारण होने वाली मूल तंत्रिका गतिविधि दूसरी ध्वनि की तंत्रिका गतिविधि से कम हो जाती है। संयोजन टोन सिग्नल और मास्कर के उत्पाद हैं। ऐसा तब होता है जब दो ध्वनियाँ परस्पर क्रिया करती हैं जिससे नई ध्वनि उत्पन्न होती है, जो मूल संकेत की तुलना में अधिक श्रव्य हो सकती है। यह कान में होने वाली गैर रेखीय विकृति के कारण होता है। उदाहरण के लिए, दो मास्कर्स का संयोजन टोन अकेले दो मूल मास्कर्स की तुलना में बेहतर मास्कर हो सकता है।

ध्वनियाँ दो ध्वनियों के बीच आवृत्ति के अंतर के आधार पर कई तरह से परस्पर क्रिया करती हैं। सबसे महत्वपूर्ण दो घन अंतर स्वर हैं और द्विघात अंतर स्वर.

घन अंतर टोन की गणना योग द्वारा की जाती है।

2 एफ 1 - कक्षा (F1 पहली आवृत्ति होने के नाते, F2 दूसरी) ये ज्यादातर समय श्रव्य होते हैं और खासकर जब मूल स्वर का स्तर कम होता है। इसलिए वे द्विघात अंतर स्वरों की तुलना में मनोध्वनिक समस्वरण वक्रों पर अधिक प्रभाव डालते हैं।

द्विघात अंतर स्वर का परिणाम है

F2 - F1

यह अपेक्षाकृत उच्च स्तर पर होता है इसलिए साइकोकॉस्टिक ट्यूनिंग कर्व्स पर इसका कम प्रभाव पड़ता है।

संयोजन स्वर प्राथमिक स्वरों के साथ परस्पर क्रिया कर सकते हैं जिसके परिणामस्वरूप प्रकृति में उनके मूल प्राथमिक स्वरों की तरह होने के कारण द्वितीयक संयोजन स्वर होते हैं, उत्तेजना जैसे। इसका एक उदाहरण है

3F1 - 2F2

माध्यमिक संयोजन टोन फिर से प्राथमिक टोन के संयोजन टोन के समान होते हैं।

ऑफ फ्रीक्वेंसी सुनना
ऑफ फ्रिक्वेंसी सुनना तब होता है जब कोई श्रोता अपने श्रवण प्रदर्शन को बेहतर बनाने के लिए सिग्नल फ्रीक्वेंसी से ठीक कम फिल्टर चुनता है। यह "ऑफ फ़्रीक्वेंसी" फ़िल्टर फ़िल्टर के आउटपुट स्तर पर सिग्नल की तुलना में मास्कर के स्तर को कम करता है, जिसका अर्थ है कि वे सिग्नल को अधिक स्पष्ट रूप से सुन सकते हैं जिससे श्रवण प्रदर्शन में सुधार होता है।

अनुप्रयोग
श्रवण मास्किंग का उपयोग टिनिटस मास्कर्स में कष्टप्रद रिंगिंग, हिसिंग, या बज़िंग या टिनिटस को दबाने के लिए किया जाता है जो अक्सर सुनवाई हानि से जुड़ा होता है। इसका उपयोग विभिन्न प्रकार के ऑडियोमेट्री में भी किया जाता है, जिसमें शुद्ध स्वर ऑडियोमेट्री शामिल है, और प्रत्येक कान का एकतरफा परीक्षण करने के लिए और आंशिक रूप से मास्किंग शोर की उपस्थिति में वाक् पहचान का परीक्षण करने के लिए मानक श्रवण परीक्षण।

ध्वनि संकेतों (MP3) के लिए डेटा संपीड़न करने के लिए श्रवण मास्किंग का उपयोग किया जाता है।

यह भी देखें

 * कॉकटेल पार्टी प्रभाव
 * भ्रमपूर्ण असंतोष
 * मनोविश्लेषण
 * प्रतिक्रिया भड़काना

संदर्भ

 * Pickles, J.O. (1982) An Introduction to the Physiology of Hearing, London, Academic Press

बाहरी संबंध

 * "Addition of Simultaneous Masking" by B. Lincoln from Stanford University
 * Auditory Masking & Wideband Audio Coding – video lecture by Professor E. Ambikairajah