कंप्यूटर ऑडिशन

कंप्यूटर ऑडिशन (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए एल्गोरिदम और यह सिस्टम के अध्ययन का सामान्य क्षेत्र है। चूँकि किसी मशीन के "सुनने" के अर्थ की धारणा बहुत व्यापक और कुछ सीमा तक अस्पष्ट होते है, कंप्यूटर ऑडिशन अनेक विषयों को साथ लाने का प्रयास करता है जो मूल रूप से विशिष्ट समस्याओं से निपटते हैं या किसी ठोस अनुप्रयोग को ध्यान में रखते हैं। टेक्नॉलॉजी रिव्यू में इंटरव्यू लेने वाले इंजीनियर पेरिस स्मार्गडिस इन सिस्टम के बारे में बात करते हैं  "सॉफ़्टवेयर जो कमरों में घूम रहे व्यक्तिों का पता लगाने के लिए ध्वनि का उपयोग करता है, यह इममिनेन्ट ब्रेकडाउन के लिए मशीनरी को मॉनिटर करता हैं, यह दुर्घटनाओं को रिकॉर्ड करने के लिए ट्रैफ़िक कैमरों को सक्रिय करने के लिए ध्वनि का उपयोग करता है।"

ह्यूमन (ऑडिशन) के मॉडल से प्रेरित होकर, सीए कंप्यूटर द्वारा ऑडियो और म्यूजिक संकेतों पर इंटेलीजेंट ऑपरेशन्स करने के उद्देश्य से प्रतिनिधित्व, ट्रांसडक्शन, समूहीकरण, म्यूजिक ज्ञान के उपयोग और सामान्य ध्वनि शब्दार्थ के प्रश्नों से निपटता है। तकनीकी रूप से इसके लिए सिग्नल प्रोसेसिंग, ऑडिटरी मॉडलिंग, म्यूजिक परसेप्शन और कॉग्निटिव, पैटर्न रिकग्निशन और मशीन लर्निंग के क्षेत्रों के विधियों के संयोजन की आवश्यकता होती है, इसके साथ ही म्यूजिक ज्ञान प्रतिनिधित्व के लिए आर्टिफिशियल इंटेलिजेंस के अधिक पारंपरिक विधियों की भी आवश्यकता होती है।

अनुप्रयोग
कंप्यूटर विजन बनाम इमेज प्रोसेसिंग के अनुसार, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के अतिरिक्त ऑडियो की समझ से संबंधित है। यह वाक् पहचान की समस्याओं से भी भिन्न होते है क्योंकि यह सामान्य ऑडियो संकेतों, जैसे प्राकृतिक ध्वनियों और म्यूजिक रिकॉर्डिंग से संबंधित होते है।

कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, म्यूजिक शैली पहचान, ध्वनिक निगरानी, ​​​​म्यूजिक प्रतिलेखन, स्कोर अनुसरण, ऑडियो टेक्सचर, म्यूजिक इम्प्रोविजिशन, ऑडियो इमोशन आदि सम्मिलित होते हैं।

संबंधित अनुशासन
कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है
 * म्यूजिक इनफार्मेशन रिट्रीवल: म्यूजिक संकेतों के मध्य समानता की खोज और विश्लेषण की विधियाँ होती हैं।
 * ऑडिटरी सीन एनालिसिस : ऑडियो स्रोतों और घटनाओं की समझ और विवरण हैं।
 * कम्प्यूटेशनल म्यूजिकोलोजि: और गणितीय म्यूजिक सिद्धांत: एल्गोरिदम का उपयोग जो म्यूजिक डेटा के विश्लेषण के लिए म्यूजिक ज्ञान को नियोजित करता है।
 * कंप्यूटर म्यूजिक : रचनात्मक म्यूजिक अनुप्रयोगों में कंप्यूटर का उपयोग होता हैं।
 * मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक सिस्टम हैं।

अध्ययन के क्षेत्र
चूंकि ऑडियो संकेतों की व्याख्या मानव ईयर-ब्रेन सिस्टम द्वारा की जाती है, इसलिए उस सम्मिश्र अवधारणात्मक तंत्र को मशीन सुनने के लिए सॉफ़्टवेयर में किसी प्रकार से अनुकरण किया जाना चाहिए। दूसरे शब्दों में, ह्यूमन्स के सामान्य प्रदर्शन करने के लिए, कंप्यूटर को ह्यूमन्स के अनुसार ही ऑडियो कंटेंट को सुनना और समझना चाहिए। ऑडियो का स्पष्ट विश्लेषण करने के लिए इसमें अनेक क्षेत्र सम्मिलित होते हैं | इलेक्ट्रिकल इंजीनियरिंग (स्पेक्ट्रम एनालिसिस, फ़िल्टरिंग और ऑडियो ट्रांसफ़ॉर्म) होता हैं | आर्टिफिशियल इंटेलिजेंस (मशीन लर्निंग और साउंड क्लासिफिकेशन) होता हैं | इसमें मनोध्वनिकी (ध्वनि धारणा), संज्ञानात्मक विज्ञान (तंत्रिका विज्ञान और आर्टिफिशियल इंटेलिजेंस) भी सम्मिलित हैं | यह ध्वनिकी (ध्वनि उत्पादन की भौतिकी) हैं | और इसमें म्यूजिक (सद्भाव, लय और समय) होते हैं। इसके अतिरिक्त, यह ऑडियो परिवर्तन जैसे कि पिच शिफ्टिंग, टाइम स्ट्रेचिंग और साउंड ऑब्जेक्ट फ़िल्टरिंग, अवधारणात्मक और म्यूजिक की दृष्टि से सार्थक होने चाहिए। सर्वोत्तम परिणामों के लिए, इन परिवर्तनों के लिए वर्णक्रमीय मॉडल, उच्च-स्तरीय सुविधा निष्कर्षण और ध्वनि विश्लेषण/संश्लेषण की अवधारणात्मक समझ की आवश्यकता होती है। अंत में, ऑडियो फ़ाइल (ध्वनि और मेटाडेटा) की कंटेंट संरचना और कोडिंग कुशल संपीड़न योजनाओं से लाभान्वित हो सकती है, जो ध्वनि में अश्रव्य सूचना को हटा देती है। म्यूजिक और ध्वनि धारणा और अनुभूति के कम्प्यूटेशनल मॉडल अधिक सार्थक प्रतिनिधित्व, अधिक सरल डिजिटल परिचालन और संगीतमय मानव-मशीन इंटरफेस में ध्वनि और म्यूजिक की जनरेशन को उत्पन्न कर सकते हैं।

सीए के अध्ययन को सामान्यतःनिम्नलिखित उप-समस्याओं में विभाजित किया जा सकता है |
 * 1) प्रतिनिधित्व: सांकेतिक एवं सांकेतिक. यह पूर्व पैटर्न प्लेबैक और ऑडियो टेक्सचर सहित नोट्स और वर्णक्रमीय मॉडल दोनों के संदर्भ में समय-आवृत्ति प्रतिनिधित्व से संबंधित है।
 * 2) फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, प्रारंभ में, पिच और एनवलप का डिटेक्टर डिटेक्शन, क्रोमा और श्रवण प्रतिनिधित्व हैं।
 * 3) म्यूजिक ज्ञान संरचनाएं: स्वर, लय और सामंजस्य का विश्लेषण हैं।
 * 4) ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के मध्य तुलना करने की विधियाँ हैं।
 * 5) अनुक्रम मॉडलिंग: मैचिंग और नोट अनुक्रमों के मध्य मिलान और संरेखण हैं।
 * 6) स्रोत पृथक्करण: अनेक ध्वनियों को समूहीकृत करने की विधियाँ, जैसे मल्टीपल पिच डिटेक्शन और समय-आवृत्ति क्लस्टरिंग विधियाँ हैं।
 * 7) श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और म्यूजिक संरचना का विश्लेषण हैं।
 * 8) मल्टीमॉडल इंटरेक्शन मल्टी-मोडल विश्लेषण: पाठ्य, दृश्य और श्रव्य संकेतों के मध्य कॉरेस्पोंडेंस खोजना हैं।

प्रतिनिधित्व विवादों
कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल सामान्यतः एनालॉग रिकॉर्डिंग या डिजिटल डाटा रिकॉर्डिंग के रूप में दर्शाए जाते हैं। डिजिटल रिकॉर्डिंग ध्वनिक तरंग या ऑडियो कॉम्प्रेशन (डेटा) एल्गोरिदम के मापदंडों के प्रतिरूप होते हैं। म्यूजिक संकेतों के अद्वितीय गुणों में से यह है कि वह प्रायः विभिन्न प्रकार के प्रतिनिधित्व को जोड़ते हैं, जैसे ग्राफिकल स्कोर और प्रदर्शन क्रियाओं के अनुक्रम जो मिडी फ़ाइलों के रूप में एन्कोड किए जाते हैं।

चूंकि ऑडियो सिग्नल में सामान्यतः अनेक ध्वनि स्रोत सम्मिलित होते हैं, तब स्पीच सिग्नल के विपरीत जिन्हें विशिष्ट मॉडल (जैसे स्रोत-फ़िल्टर मॉडल) के संदर्भ में कुशलतापूर्वक वर्णित किया जा सकता है, सामान्य ऑडियो के लिए पैरामीटर प्रतिनिधित्व को तैयार करना कठिन है। पैरामीट्रिक ऑडियो प्रतिनिधित्व सामान्यतः अनेक ध्वनि मापदंडों को पकड़ने के लिए फ़िल्टर बैंक या साइनसॉइडल एकल मॉडल का उपयोग करते हैं, कभी-कभी यह सिग्नल में आंतरिक संरचना को पकड़ने के लिए प्रतिनिधित्व आकार को बढ़ाते हैं। इसमें अतिरिक्त प्रकार के डेटा जो कंप्यूटर ऑडिशन के लिए प्रासंगिक हैं, वह ऑडियो कंटेंट के टेक्स्टूअल विवरण हैं, जैसे एनोटेशन, समीक्षाएं और ऑडियो-विज़ुअल रिकॉर्डिंग की स्थितियों में दृश्य सूचना होती हैं।

विशेषताएँ
सामान्य ऑडियो सिग्नलों की कंटेंट के विवरण के लिए सामान्यतः उन विशेषताओं के निष्कर्षण की आवश्यकता होती है जो ऑडियो सिग्नल के विशिष्ट तथ्यों को पकड़ते हैं। सामान्यतः बोलते हुए, कोई विशेषताओं को सिग्नल या गणितीय विवरणकों में विभाजित कर सकता है जैसे इसमें ऊर्जा, वर्णक्रमीय आकार का विवरण आदि, सांख्यिकीय लक्षण वर्णन जैसे परिवर्तन या नवीनता का पता लगाना हैं, इसमें विशेष प्रतिनिधित्व जो म्यूजिक संकेतों या श्रवण सिस्टम की प्रकृति के लिए उत्तम अनुकूलित होते हैं, जैसे आवृत्ति या ऑक्टेव इनवेरिएंस (क्रोमा) में संवेदनशीलता (बैंडविड्थ (सिग्नल प्रोसेसिंग)) की लॉगरिदमिक वृद्धि होती हैं।

चूंकि ऑडियो में पैरामीट्रिक मॉडल को सामान्यतः अधिक पैरामीटर की आवश्यकता होती है, इसलिए सुविधाओं का उपयोग अधिक कॉम्पैक्ट या प्रमुख प्रतिनिधित्व में अनेक पैरामीटर के गुणों को सारांशित करने के लिए किया जाता है।

म्यूजिक ज्ञान
म्यूजिक ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के विधियों का उपयोग करके विशिष्ट म्यूजिक संरचनाएं खोजना संभव है। इसके उदाहरणों में म्यूजिक के मापदंडो में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट प्रारंभ समय का वितरण, म्यूजिक तारों का पता लगाने के लिए विभिन्न आवृत्तियों में ऊर्जा का वितरण इत्यादि सम्मिलित हैं।

ध्वनि समानता और अनुक्रम मॉडलिंग
ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ स्तिथियों में दो ध्वनियों के मध्य विशेषताओं के समीप मूल्यों से समग्र समानता का आकलन किया जा सकता है। अन्य स्तिथियों में जब लौकिक संरचना महत्वपूर्ण होती है, तब ध्वनिक घटनाओं के विभिन्न लौकिक मापदंडो को सही करने के लिए गतिशील समय परिवर्तन के विधियों को प्रयुक्त करने की आवश्यकता होती है। टेक्सचर सिंथेसिस और मशीन इमप्रोवेशन जैसे कार्यों के लिए ध्वनि घटनाओं की पुनरावृत्ति और उनके समान उप-अनुक्रम खोजना महत्वपूर्ण है।

स्रोत पृथक्करण
चूँकि यह सामान्य ऑडियो की मूलभूत विशेषताओं में से है कि इसके साथ बजने वाले अनेक स्रोत भी इसमें सम्मिलित होते हैं, जैसे कि इसमें अनेक म्यूजिक वाद्ययंत्र, वार्तालाप करते व्यक्ति, मशीन की ध्वनि या एनिमल्सों की वाइस़, व्यक्तिगत स्रोतों को पहचानने और भिन्न करने की क्षमता बहुत वांछनीय है। दुर्भाग्य से, ऐसी कोई विधियाँ नहीं हैं जो इस समस्या का दृढ़तापूर्वक समाधान कर सकें। स्रोत पृथक्करण की वर्तमान विधियाँ कभी-कभी मल्टी-चैनल रिकॉर्डिंग में विभिन्न ऑडियो चैनलों के मध्य सहसंबंध पर निर्भर करती हैं। स्टीरियो सिग्नलों से स्रोतों को भिन्न करने की क्षमता के लिए सामान्यतः संचार में प्रयुक्त होने वाली तकनीकों की तुलना में भिन्न तकनीकों की आवश्यकता होती है जहां अनेक सेंसर उपलब्ध होते हैं। अन्य स्रोत पृथक्करण विधियाँ मोनो रिकॉर्डिंग में सुविधाओं के प्रशिक्षण या क्लस्टरिंग पर निर्भर करती हैं, जैसे मल्टी पिच डिटेक्शन के लिए हार्मोनिक रूप से संबंधित आंशिक ट्रैकिंग होती हैं। कुछ विधियाँ, स्पष्ट पहचान से पूर्व, संरचनाओं को समझे बिना डेटा में संरचनाओं को प्रकट करने पर विश्वास करती हैं (जैसे अमूर्त चित्रों में वस्तुओं को सार्थक लेबल दिए बिना पहचानना) कम से कम सम्मिश्र डेटा प्रतिनिधित्व खोजकर, उदाहरण के लिए कुछ टोन पैटर्न और उनके प्रक्षेपवक्र (पॉलीफोनिक वाइस) और टोन (कॉर्ड्स) द्वारा खींची गई ध्वनिक आकृतियों द्वारा उत्पन्न ऑडियो दृश्यों का वर्णन करना हैं।

ऑडिटरी कॉग्निशन
म्यूजिक और सामान्य ऑडियो सुनना सामान्यतः कोई कार्य-निर्देशित गतिविधि नहीं है। व्यक्ति विभिन्न कम समझे जाने वाले कारणों से म्यूजिक का आनंद लेते हैं, जिन्हें सामान्यतः अपेक्षाओं के निर्माण और उनकी प्राप्ति या उल्लंघन के कारण म्यूजिक और भावना के रूप में संदर्भित किया जाता है। एनिमल्स ध्वनियों में खतरे के संकेतों पर ध्यान देते हैं, जो आश्चर्यजनक और अप्रत्याशित परिवर्तन की विशिष्ट या सामान्य धारणाएं हो सकती हैं। सामान्यतः, यह ऐसी स्थिति उत्पन्न करता है जहां कंप्यूटर ऑडिशन केवल विशिष्ट विशेषताओं या ध्वनि गुणों का पता लगाने पर विश्वास नहीं कर सकता है और परिवर्तित श्रवण वातावरण को अनुकूलित करने और इसकी संरचना को मॉनिटर करने के लिए इसको सामान्य विधियों के साथ आना पड़ता है। इसमें नवीकरण का पता लगाने के लिए ऑडियो में बड़े परिवर्तन और आत्म-समानता संरचनाओं का विश्लेषण सम्मिलित है, और इसके साथ ही इसमें स्थानीय फीचर गतिशीलता का पूर्वानुमान करने की क्षमता भी सम्मिलित है।

मल्टी-मोडल विश्लेषण
म्यूजिक का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण होते हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो कंटेंट का वर्णन करती हैं। अन्य स्तिथियों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की कंटेंट और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो कंटेंट के अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न प्रतिनिधित्व के मध्य संबंध खोजने का प्रयास करता है।

यह भी देखें

 * 3डी ध्वनि स्थानीयकरण
 * ऑडियो सिग्नल प्रोसेसिंग
 * इमर्जिंग टेक्नोलॉजी की सूची
 * मेडिकल इंटेलिजेंस और लैंग्वेज इंजीनियरिंग लैब
 * म्यूजिक और आर्टिफीसियल इन्टेलीजेंसर
 * साउंड रिकग्निशन

बाहरी संबंध

 * UCSD Computer Audition Lab
 * George Tzanetakis' Computer Audition Resources
 * Shlomo Dubnov's Tutorial on Computer Audition
 * Department of Electrical Engineering, IIT (Bangalore)
 * Sound and Music Computing, Aalborg University Copenhagen, Denmark