कंप्यूटर ऑडिशन

कंप्यूटर ऑडिशन (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए कलन विधि और सिस्टम के अध्ययन का सामान्य क्षेत्र है। चूँकि किसी मशीन के सुनने के अर्थ की धारणा बहुत व्यापक और कुछ हद तक अस्पष्ट है, कंप्यूटर ऑडिशन कई विषयों को एक साथ लाने का प्रयास करता है जो मूल रूप से विशिष्ट समस्याओं से निपटते हैं या किसी ठोस अनुप्रयोग को ध्यान में रखते हैं। एमआईटी प्रौद्योगिकी समीक्षा में साक्षात्कार लेने वाले इंजीनियर पेरिस स्मार्गडिस इन प्रणालियों के बारे में बात करते हैं  सॉफ़्टवेयर जो कमरों में घूम रहे लोगों का पता लगाने, आसन्न खराबी के लिए मशीनरी की निगरानी करने, या दुर्घटनाओं को रिकॉर्ड करने के लिए ट्रैफ़िक कैमरों को सक्रिय करने के लिए ध्वनि का उपयोग करता है। श्रवण (भावना) के मॉडल से प्रेरित होकर, सीए कंप्यूटर द्वारा ऑडियो और संगीत संकेतों पर बुद्धिमान संचालन करने के उद्देश्य से प्रतिनिधित्व, ट्रांसडक्शन ([[ यंत्र अधिगम )]], समूहीकरण, संगीत ज्ञान के उपयोग और सामान्य ध्वनि शब्दार्थ के प्रश्नों से निपटता है। तकनीकी रूप से इसके लिए संकेत आगे बढ़ाना, श्रवण मॉडलिंग, संगीत धारणा और अनुभूति, पैटर्न पहचान और मशीन लर्निंग के क्षेत्रों के तरीकों के संयोजन की आवश्यकता होती है, साथ ही संगीत ज्ञान प्रतिनिधित्व के लिए कृत्रिम बुद्धिमत्ता के अधिक पारंपरिक तरीकों की भी आवश्यकता होती है।

अनुप्रयोग
कंप्यूटर दृष्टि बनाम इमेज प्रोसेसिंग की तरह, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के बजाय ऑडियो की समझ से संबंधित है। यह वाक् पहचान की समस्याओं से भी भिन्न है क्योंकि यह सामान्य ऑडियो संकेतों, जैसे प्राकृतिक ध्वनियों और संगीत रिकॉर्डिंग से संबंधित है।

कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, संगीत शैली पहचान, ध्वनिक निगरानी, ​​​​संगीत प्रतिलेखन, स्कोर अनुसरण, ऑडियो बनावट, संगीत सुधार, भाषण भावना पहचान आदि शामिल हैं।

संबंधित अनुशासन
कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है:
 * संगीत सूचना पुनर्प्राप्ति: संगीत संकेतों के बीच समानता की खोज और विश्लेषण के तरीके।
 * श्रवण दृश्य विश्लेषण: ऑडियो स्रोतों और घटनाओं की समझ और विवरण।
 * कम्प्यूटेशनल संगीतशास्त्र और गणितीय संगीत सिद्धांत: एल्गोरिदम का उपयोग जो संगीत डेटा के विश्लेषण के लिए संगीत ज्ञान को नियोजित करता है।
 * कंप्यूटर संगीत: रचनात्मक संगीत अनुप्रयोगों में कंप्यूटर का उपयोग।
 * मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक सिस्टम।

अध्ययन के क्षेत्र
चूंकि ऑडियो संकेतों की व्याख्या मानव कान-मस्तिष्क प्रणाली द्वारा की जाती है, इसलिए उस जटिल अवधारणात्मक तंत्र को मशीन सुनने के लिए सॉफ़्टवेयर में किसी तरह अनुकरण किया जाना चाहिए। दूसरे शब्दों में, इंसानों के बराबर प्रदर्शन करने के लिए, कंप्यूटर को इंसानों की तरह ही ऑडियो सामग्री को सुनना और समझना चाहिए। ऑडियो का सटीक विश्लेषण करने में कई क्षेत्र शामिल होते हैं: इलेक्ट्रिकल इंजीनियरिंग (स्पेक्ट्रम विश्लेषण, फ़िल्टरिंग और ऑडियो ट्रांसफ़ॉर्म); कृत्रिम बुद्धिमत्ता (मशीन लर्निंग और ध्वनि वर्गीकरण); मनोध्वनिकी (ध्वनि धारणा); संज्ञानात्मक विज्ञान (तंत्रिका विज्ञान और कृत्रिम बुद्धिमत्ता); ध्वनिकी (ध्वनि उत्पादन की भौतिकी); और संगीत (सद्भाव, लय और समय)। इसके अलावा, ऑडियो परिवर्तन जैसे कि पिच शिफ्टिंग, टाइम स्ट्रेचिंग और ध्वनि ऑब्जेक्ट फ़िल्टरिंग, अवधारणात्मक और संगीत की दृष्टि से सार्थक होने चाहिए। सर्वोत्तम परिणामों के लिए, इन परिवर्तनों के लिए वर्णक्रमीय मॉडल, उच्च-स्तरीय सुविधा निष्कर्षण और ध्वनि विश्लेषण/संश्लेषण की अवधारणात्मक समझ की आवश्यकता होती है। अंत में, ऑडियो फ़ाइल (ध्वनि और मेटाडेटा) की सामग्री की संरचना और कोडिंग कुशल संपीड़न योजनाओं से लाभान्वित हो सकती है, जो ध्वनि में अश्रव्य जानकारी को हटा देती है। संगीत और ध्वनि धारणा और अनुभूति के कम्प्यूटेशनल मॉडल अधिक सार्थक प्रतिनिधित्व, अधिक सहज डिजिटल हेरफेर और संगीतमय मानव-मशीन इंटरफेस में ध्वनि और संगीत की पीढ़ी को जन्म दे सकते हैं।

सीए के अध्ययन को मोटे तौर पर निम्नलिखित उप-समस्याओं में विभाजित किया जा सकता है:
 * 1) प्रतिनिधित्व : सांकेतिक एवं सांकेतिक. यह पहलू पैटर्न प्लेबैक और ऑडियो बनावट सहित नोट्स और वर्णक्रमीय मॉडल दोनों के संदर्भ में समय-आवृत्ति प्रतिनिधित्व से संबंधित है।
 * 2) फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, शुरुआत, पिच का पता लगाने का एल्गोरिदम और लिफाफा डिटेक्टर डिटेक्शन, पिच क्लास और श्रवण प्रतिनिधित्व।
 * 3) संगीत ज्ञान संरचनाएं: स्वर, लय और सामंजस्य का विश्लेषण।
 * 4) ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के बीच तुलना के तरीके।
 * 5) अनुक्रम मॉडलिंग: संकेतों और नोट अनुक्रमों के बीच मिलान और संरेखण।
 * 6) स्रोत पृथक्करण: एक साथ ध्वनियों को समूहीकृत करने की विधियाँ, जैसे एकाधिक पिच पहचान और समय-आवृत्ति क्लस्टरिंग विधियाँ।
 * 7) श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और संगीत संरचना का विश्लेषण।
 * 8) मल्टीमॉडल इंटरेक्शन|मल्टी-मोडल विश्लेषण: पाठ्य, दृश्य और श्रव्य संकेतों के बीच पत्राचार ढूंढना।

प्रतिनिधित्व मुद्दे
कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल आमतौर पर एनालॉग रिकॉर्डिंग या डिजिटल डाटा रिकॉर्डिंग के रूप में दर्शाए जाते हैं। डिजिटल रिकॉर्डिंग ध्वनिक तरंग या ऑडियो संपीड़न (डेटा) एल्गोरिदम के मापदंडों के नमूने हैं। संगीत संकेतों के अनूठे गुणों में से एक यह है कि वे अक्सर विभिन्न प्रकार के अभ्यावेदन को जोड़ते हैं, जैसे ग्राफिकल स्कोर और प्रदर्शन क्रियाओं के अनुक्रम जो MIDI फ़ाइलों के रूप में एन्कोड किए जाते हैं।

चूंकि ऑडियो सिग्नल में आमतौर पर कई ध्वनि स्रोत शामिल होते हैं, तो भाषण सिग्नल के विपरीत जिन्हें विशिष्ट मॉडल (जैसे स्रोत-फ़िल्टर मॉडल) के संदर्भ में कुशलतापूर्वक वर्णित किया जा सकता है, सामान्य ऑडियो के लिए पैरामीटर प्रतिनिधित्व तैयार करना कठिन है। पैरामीट्रिक ऑडियो अभ्यावेदन आमतौर पर कई ध्वनि मापदंडों को पकड़ने के लिए फ़िल्टर बैंक  या  साइन लहर ल मॉडल का उपयोग करते हैं, कभी-कभी सिग्नल में आंतरिक संरचना को पकड़ने के लिए प्रतिनिधित्व आकार को बढ़ाते हैं। अतिरिक्त प्रकार के डेटा जो कंप्यूटर ऑडिशन के लिए प्रासंगिक हैं, वे ऑडियो सामग्री के पाठ्य विवरण हैं, जैसे एनोटेशन, समीक्षाएं और ऑडियो-विज़ुअल रिकॉर्डिंग के मामले में दृश्य जानकारी।

विशेषताएँ
सामान्य ऑडियो सिग्नलों की सामग्री के विवरण के लिए आमतौर पर उन विशेषताओं के निष्कर्षण की आवश्यकता होती है जो ऑडियो सिग्नल के विशिष्ट पहलुओं को पकड़ते हैं। आम तौर पर बोलते हुए, कोई विशेषताओं को सिग्नल या गणितीय विवरणकों में विभाजित कर सकता है जैसे ऊर्जा, वर्णक्रमीय आकार का विवरण आदि, सांख्यिकीय लक्षण वर्णन जैसे परिवर्तन या नवीनता का पता लगाना, विशेष प्रतिनिधित्व जो संगीत संकेतों या श्रवण प्रणाली की प्रकृति के लिए बेहतर अनुकूलित होते हैं, जैसे आवृत्ति या सप्टक  इनवेरिएंस (क्रोमा) में संवेदनशीलता (बैंडविड्थ (सिग्नल प्रोसेसिंग)) की लॉगरिदमिक वृद्धि।

चूंकि ऑडियो में पैरामीट्रिक मॉडल को आमतौर पर बहुत सारे पैरामीटर की आवश्यकता होती है, इसलिए सुविधाओं का उपयोग अधिक कॉम्पैक्ट या प्रमुख प्रतिनिधित्व में कई पैरामीटर के गुणों को सारांशित करने के लिए किया जाता है।

संगीत ज्ञान
संगीत ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के तरीकों का उपयोग करके विशिष्ट संगीत संरचनाएं ढूंढना संभव है। इसके उदाहरणों में संगीत के पैमाने में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट शुरुआत समय का वितरण, संगीत तारों का पता लगाने के लिए विभिन्न आवृत्तियों में ऊर्जा का वितरण इत्यादि शामिल हैं।

ध्वनि समानता और अनुक्रम मॉडलिंग
ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ मामलों में दो ध्वनियों के बीच विशेषताओं के करीबी मूल्यों से समग्र समानता का आकलन किया जा सकता है। अन्य मामलों में जब लौकिक संरचना महत्वपूर्ण होती है, तो ध्वनिक घटनाओं के विभिन्न लौकिक पैमानों को सही करने के लिए गतिशील समय परिवर्तन के तरीकों को लागू करने की आवश्यकता होती है। बनावट संश्लेषण और मशीन सुधार जैसे कार्यों के लिए ध्वनि घटनाओं की पुनरावृत्ति और समान उप-अनुक्रम ढूंढना महत्वपूर्ण है।

स्रोत पृथक्करण
चूँकि सामान्य ऑडियो की बुनियादी विशेषताओं में से एक यह है कि इसमें एक साथ बजने वाले कई स्रोत शामिल होते हैं, जैसे कि कई संगीत वाद्ययंत्र, बात करते लोग, मशीन का शोर या जानवरों की आवाज़, व्यक्तिगत स्रोतों को पहचानने और अलग करने की क्षमता बहुत वांछनीय है। दुर्भाग्य से, ऐसी कोई विधियाँ नहीं हैं जो इस समस्या को दृढ़तापूर्वक हल कर सकें। स्रोत पृथक्करण की मौजूदा विधियाँ कभी-कभी मल्टी-चैनल रिकॉर्डिंग में विभिन्न ऑडियो चैनलों के बीच सहसंबंध पर निर्भर करती हैं। स्टीरियो सिग्नलों से स्रोतों को अलग करने की क्षमता के लिए आमतौर पर संचार में लागू होने वाली तकनीकों की तुलना में अलग तकनीकों की आवश्यकता होती है जहां कई सेंसर उपलब्ध होते हैं। अन्य स्रोत पृथक्करण विधियाँ मोनो रिकॉर्डिंग में सुविधाओं के प्रशिक्षण या क्लस्टरिंग पर निर्भर करती हैं, जैसे एकाधिक पिच पहचान के लिए हार्मोनिक रूप से संबंधित आंशिक ट्रैकिंग। कुछ विधियाँ, स्पष्ट पहचान से पहले, संरचनाओं को जाने बिना डेटा में संरचनाओं को प्रकट करने पर भरोसा करती हैं (जैसे अमूर्त चित्रों में वस्तुओं को सार्थक लेबल दिए बिना पहचानना) कम से कम जटिल डेटा अभ्यावेदन ढूंढकर, उदाहरण के लिए कुछ टोन पैटर्न और उनके प्रक्षेपवक्र (पॉलीफोनिक आवाज) और एक टोन (कॉर्ड्स) द्वारा खींची गई ध्वनिक आकृतियों द्वारा उत्पन्न ऑडियो दृश्यों का वर्णन करना।

श्रवण संज्ञान
संगीत और सामान्य ऑडियो सुनना आमतौर पर कोई कार्य-निर्देशित गतिविधि नहीं है। लोग विभिन्न कम समझे जाने वाले कारणों से संगीत का आनंद लेते हैं, जिन्हें आम तौर पर अपेक्षाओं के निर्माण और उनकी प्राप्ति या उल्लंघन के कारण संगीत और भावना के रूप में संदर्भित किया जाता है। जानवर ध्वनियों में खतरे के संकेतों पर ध्यान देते हैं, जो आश्चर्यजनक और अप्रत्याशित परिवर्तन की विशिष्ट या सामान्य धारणाएं हो सकती हैं। आम तौर पर, यह एक ऐसी स्थिति पैदा करता है जहां कंप्यूटर ऑडिशन केवल विशिष्ट विशेषताओं या ध्वनि गुणों का पता लगाने पर भरोसा नहीं कर सकता है और बदलते श्रवण वातावरण को अनुकूलित करने और इसकी संरचना की निगरानी के सामान्य तरीकों के साथ आना पड़ता है। इसमें नवाचार का पता लगाने के लिए ऑडियो में बड़े दोहराव और आत्म-समानता संरचनाओं का विश्लेषण शामिल है, साथ ही स्थानीय फीचर गतिशीलता की भविष्यवाणी करने की क्षमता भी शामिल है।

मल्टी-मोडल विश्लेषण
संगीत का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो सामग्री का वर्णन करती हैं। अन्य मामलों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की सामग्री और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो सामग्री की अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न अभ्यावेदन के बीच संबंध खोजने का प्रयास करता है।

यह भी देखें

 * 3डी ध्वनि स्थानीयकरण
 * ऑडियो सिग्नल प्रोसेसिंग
 * उभरती प्रौद्योगिकियों की सूची
 * मेडिकल इंटेलिजेंस और भाषा इंजीनियरिंग प्रयोगशाला
 * संगीत और कृत्रिम बुद्धि
 * ध्वनि पहचान

बाहरी संबंध

 * UCSD Computer Audition Lab
 * George Tzanetakis' Computer Audition Resources
 * Shlomo Dubnov's Tutorial on Computer Audition
 * Department of Electrical Engineering, IIT (Bangalore)
 * Sound and Music Computing, Aalborg University Copenhagen, Denmark