ध्वनिक फिंगरप्रिंट

ध्वनिक फ़िंगरप्रिंट एक संघनित डिजिटल सारांश, एक फ़िंगरप्रिंट (कंप्यूटिंग), एक ऑडियो संकेत  से उत्पन्न नियतात्मक एल्गोरिथ्म है, जिसका उपयोग ऑडियो नमूने की पहचान करने या संगीत डेटाबेस में समान वस्तुओं का शीघ्र पता लगाने के लिए किया जा सकता है। ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गाने, राग, ट्यून (लोक संगीत) या विज्ञापन की पहचान करना शामिल है; ध्वनि प्रभाव पुस्तकालय प्रबंधन; और डिजिटल वीडियो पहचान। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग रेडियो प्रसारण, एल्बम, सीडी, स्ट्रीमिंग मीडिया और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की निगरानी के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य मुद्रीकरण योजनाओं में किया गया है।

गुण
एक मजबूत ध्वनिक फिंगरप्रिंट एल्गोरिदम को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, भले ही उनके द्विआधारी प्रतिनिधित्व काफी भिन्न हों। ध्वनिक फिंगरप्रिंट हैश फंकशन नहीं हैं, जो डेटा में किसी भी छोटे बदलाव के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं जहां छोटे बदलाव जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, को सहन किया जाता है। कोई भी मानव अंगुलियों के धब्बेदार निशान के मामले की कल्पना कर सकता है जिसे संदर्भ डेटाबेस में किसी अन्य फिंगरप्रिंट नमूने से सटीक रूप से मिलान किया जा सकता है; ध्वनिक उंगलियों के निशान इसी तरह काम करते हैं।

ऑडियो फ़िंगरप्रिंट द्वारा अक्सर उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत ऑडियो स्पेक्ट्रम, वर्णक्रमीय सपाटता, आवृत्ति बैंड के एक सेट में प्रमुख स्वर और बैंडविड्थ (सिग्नल प्रोसेसिंग) शामिल हैं।

अधिकांश ऑडियो डेटा संपीड़न तकनीक मानव कान द्वारा महसूस किए जाने वाले तरीके को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। एक मजबूत ध्वनिक फिंगरप्रिंट एक रिकॉर्डिंग को इस तरह के संपीड़न से गुजरने के बाद पहचानने की अनुमति देगा, भले ही ऑडियो गुणवत्ता काफी कम हो गई हो। रेडियो प्रसारण निगरानी में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग संकेत संचरण  आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।

spectrogram
ध्वनि द्वारा खोज के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। एक सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।

ऑडियो के किसी भी टुकड़े का एक स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ मामलों में आसन्न खंड एक सामान्य समय सीमा साझा करते हैं, अन्य मामलों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम एक ग्राफ है जो ऑडियो के तीन आयामों को प्लॉट करता है: आवृत्ति बनाम आयाम (तीव्रता) बनाम समय।

शाज़म
शाज़म (एप्लीकेशन) का एल्गोरिदम उन बिंदुओं को चुनता है जहां स्पेक्ट्रोग्राम में चोटियां होती हैं जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करती हैं। ऑडियो में चोटियों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि शोर का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को हैश तालिका  के रूप में बनाता है, जहाँ कुंजी फ़्रीक्वेंसी है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी को चिह्नित करते हैं: चरम तीव्रता और दूसरा एंकर बिंदु। तो उनकी डेटाबेस कुंजी केवल एक आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में सुधार के लिए कम हैश टकराव होता है।

यह भी देखें

 * क्रोमाप्रिंट
 * स्वचालित सामग्री पहचान
 * डिजिटल वीडियो फिंगरप्रिंटिंग
 * सुविधा निकालना
 * पार्सन्स कोड
 * अवधारणात्मक हैशिंग
 * ध्वनि द्वारा खोजें
 * ध्वनि पहचान

बाहरी संबंध

 * A Review of Algorithms for Audio Fingerprinting (P. Cano et al. In International Workshop on Multimedia Signal Processing, US Virgin Islands, December 2002)
 * Content-Based Retrieval of Music and Audio by Jonathan Foote, ISS, National University of Singapore.

Empremta digital multimèdia