ऑडियो बिट डेप्थ

डिजिटल ऑडियो में पल्स कोड मॉडुलेशन (पीसीएम) का उपयोग करते हुए, अंश डेप्थ प्रत्येक नमूनाकरण (सिग्नल प्रोसेसिंग) में सूचना के बिट्स की संख्या है, और यह सीधे प्रत्येक नमूने के रिज़ॉल्यूशन से मेल खाती है। बिट गहराई के उदाहरणों में कॉम्पैक्ट डिस्क डिजिटल ऑडियो सम्मिलित है, जो प्रति नमूना 16 बिट का उपयोग करता है, और DVD ऑडियो और ब्लू - रे डिस्क जो प्रति नमूना 24 बिट तक का समर्थन कर सकता है।

बुनियादी कार्यान्वयन में, बिट गहराई में भिन्नता मुख्य रूप से परिमाणीकरण त्रुटि से शोर स्तर को प्रभावित करती है - इस प्रकार सिग्नल-टू-शोर अनुपात (एसएनआर) और गतिशील रेंज। हालाँकि, तकनीकें जैसे कि तड़पना िंग, शोर को आकार देना और oversampling इन प्रभावों को थोड़ा सा गहराई बदले बिना कम कर सकते हैं। बिट गहराई भी बिट दर और फ़ाइल आकार को प्रभावित करती है।

पीसीएम डिजिटल सिग्नल (सिग्नल प्रोसेसिंग) का वर्णन करने के लिए बिट डेप्थ उपयोगी है। गैर-पीसीएम प्रारूप, जैसे हानिपूर्ण संपीड़न का उपयोग करने वाले, संबंधित बिट गहराई नहीं रखते हैं।

बाइनरी प्रतिनिधित्व
एक पीसीएम सिग्नल डिजिटल ऑडियो नमूनों का एक क्रम है जिसमें डेटा मूल एनालॉग संकेत के सिग्नल पुनर्निर्माण के लिए आवश्यक जानकारी प्रदान करता है। प्रत्येक नमूना समय में एक विशिष्ट बिंदु पर संकेत के आयाम का प्रतिनिधित्व करता है, और नमूने समय में समान रूप से स्थान पर होते हैं। आयाम एकमात्र जानकारी है जो स्पष्ट रूप से नमूने में संग्रहीत है, और यह सामान्यतः या तो एक पूर्णांक या एक तैरनेवाला स्थल नंबर के रूप में संग्रहीत होता है, जो अंकों की एक निश्चित संख्या के साथ बाइनरी संख्या के रूप में एन्कोड किया जाता है: नमूना की बिट गहराई, जिसे शब्द की लंबाई भी कहा जाता है या शब्द का आकार।

रिज़ॉल्यूशन असतत मानों की संख्या को इंगित करता है जिन्हें एनालॉग मानों की श्रेणी में प्रदर्शित किया जा सकता है। जैसे-जैसे शब्द की लंबाई बढ़ती है, बाइनरी पूर्णांकों का रिज़ॉल्यूशन घातांक बढ़ता है। एक बिट जोड़ने से रिज़ॉल्यूशन दोगुना हो जाता है, दो चौगुना जोड़ दिया जाता है, और इसी तरह। पूर्णांक बिट गहराई द्वारा प्रदर्शित किए जा सकने वाले संभावित मानों की संख्या की गणना दो की शक्ति का उपयोग करके की जा सकती है|2n, जहाँ n बिट डेप्थ है। इस प्रकार, एक 16-बिट सिस्टम का रिज़ॉल्यूशन 65,536 (216) संभावित मान।

पूर्णांक पीसीएम ऑडियो डेटा को सामान्यतः दो के पूरक प्रारूप में हस्ताक्षर संख्या के रूप में संग्रहीत किया जाता है।

आज, अधिकांश ऑडियो फ़ाइल स्वरूप और डिजिटल ऑडियो वर्कस्टेशन (DAWs) PCM स्वरूपों का समर्थन करते हैं, जिनमें फ़्लोटिंग पॉइंट नंबरों द्वारा दर्शाए गए नमूने हैं।   WAV फ़ाइल स्वरूप और ऑडियो इंटरचेंज फ़ाइल स्वरूप फ़ाइल स्वरूप दोनों फ़्लोटिंग पॉइंट प्रस्तुतियों का समर्थन करते हैं।  पूर्णांकों के विपरीत, जिसका बिट पैटर्न बिट्स की एकल श्रृंखला है, इसके अतिरिक्त एक फ्लोटिंग पॉइंट नंबर अलग-अलग क्षेत्रों से बना होता है जिसका गणितीय संबंध एक संख्या बनाता है। सबसे आम मानक IEEE 754 है जो तीन क्षेत्रों से बना है: एक साइन बिट जो दर्शाता है कि संख्या सकारात्मक है या नकारात्मक, एक एक्सपोनेंट, और एक महत्व जो एक्सपोनेंट द्वारा उठाया जाता है। मंटिसा को IEEE बेस-दो फ़्लोटिंग पॉइंट स्वरूपों में एक बाइनरी अंश के रूप में व्यक्त किया गया है।

परिमाणीकरण
बिट गहराई पुनर्निर्मित सिग्नल के सिग्नल-टू-शोर अनुपात (एसएनआर) को परिमाणीकरण त्रुटि द्वारा निर्धारित अधिकतम स्तर तक सीमित करती है। बिट गहराई का आवृत्ति प्रतिक्रिया पर कोई प्रभाव नहीं पड़ता है, जो नमूना दर से विवश है।

एनॉलॉग से डिजिटल परिवर्तित करने वाला उपकरण के दौरान शुरू की गई क्वांटिज़ेशन त्रुटि | एनालॉग-टू-डिजिटल रूपांतरण (एडीसी) क्वांटिज़ेशन शोर के रूप में मॉडल (सार) हो सकता है। यह एडीसी के अनुरूप इनपुट वोल्टेज और आउटपुट डिजीटल मान के बीच एक राउंडिंग त्रुटि है। शोर नॉनलाइनियर सिस्टम और सिग्नल पर निर्भर है।

एक आदर्श एडीसी में, जहां क्वांटिज़ेशन त्रुटि समान रूप से वितरित की जाती है $$\scriptstyle{\pm \frac{1}{2}}$$ कम से कम महत्वपूर्ण बिट (एलएसबी) और जहां सिग्नल में सभी मात्राकरण स्तरों को कवर करने वाला एक समान वितरण होता है, सिग्नल-टू-क्वांटिज़ेशन-शोर अनुपात (एसक्यूएनआर) की गणना की जा सकती है


 * $$\mathrm{SQNR} = 20 \log_{10}(\sqrt{1.5} \cdot 2^{\mathrm b}) \approx 1.76 + 6.02 {\mathrm b} \; \mathrm{dB} \,\!$$

जहाँ b परिमाणीकरण बिट्स की संख्या है और परिणाम डेसिबल (dB) में मापा जाता है। इसलिए, सीडी पर पाए जाने वाले 16-बिट डिजिटल ऑडियो में 98 dB का सैद्धांतिक अधिकतम SNR होता है, और पेशेवर 24-बिट डिजिटल ऑडियो 146 dB के रूप में सबसे ऊपर होता है।, डिजिटल ऑडियो कन्वर्टर तकनीक लगभग 123 dB के SNR तक सीमित है  (बिट्स 21-बिट्स की प्रभावी संख्या) एकीकृत सर्किट डिजाइन में वास्तविक दुनिया की सीमाओं के कारण। फिर भी, यह लगभग मानव श्रवण प्रणाली के प्रदर्शन से मेल खाता है।  एकाधिक कन्वर्टर्स का उपयोग एक ही सिग्नल की विभिन्न श्रेणियों को कवर करने के लिए किया जा सकता है, लंबी अवधि में एक व्यापक गतिशील रेंज रिकॉर्ड करने के लिए संयुक्त किया जा रहा है, जबकि अभी भी लघु अवधि में एकल कनवर्टर की गतिशील रेंज द्वारा सीमित किया जा रहा है, जिसे डायनेमिक रेंज एक्सटेंशन कहा जाता है।

फ़्लोटिंग पॉइंट
फ़्लोटिंग-पॉइंट नमूनों का रिज़ॉल्यूशन पूर्णांक नमूनों की तुलना में कम सीधा होता है क्योंकि फ़्लोटिंग-पॉइंट मान समान रूप से नहीं होते हैं। फ़्लोटिंग-पॉइंट प्रतिनिधित्व में, किन्हीं दो आसन्न मानों के बीच का स्थान मान के अनुपात में होता है। यह एक पूर्णांक प्रणाली की तुलना में SNR को बहुत बढ़ाता है क्योंकि उच्च-स्तरीय सिग्नल की सटीकता निम्न स्तर पर समान सिग्नल की सटीकता के समान होगी। फ़्लोटिंग पॉइंट्स और पूर्णांकों के बीच ट्रेड-ऑफ़ यह है कि बड़े फ़्लोटिंग-पॉइंट मानों के बीच का स्थान समान बिट गहराई के बड़े पूर्णांक मानों के बीच के स्थान से अधिक होता है। एक बड़ी फ़्लोटिंग-पॉइंट संख्या को राउंड करने से छोटी फ़्लोटिंग-पॉइंट संख्या को राउंड करने की तुलना में अधिक त्रुटि होती है, जबकि पूर्णांक संख्या को राउंड करने से हमेशा समान स्तर की त्रुटि होती है। दूसरे शब्दों में, पूर्णांक में एक राउंड-ऑफ होता है जो एकसमान होता है, हमेशा LSB को 0 या 1 पर गोल करता है, और फ़्लोटिंग पॉइंट में एक समान SNR होता है, परिमाणीकरण शोर स्तर हमेशा सिग्नल स्तर के एक निश्चित अनुपात का होता है। एक फ़्लोटिंग-पॉइंट नॉइज़ फ़्लोर सिग्नल के ऊपर उठेगा और सिग्नल के गिरते ही गिर जाएगा, जिसके परिणामस्वरूप श्रव्य विचरण होगा यदि बिट गहराई पर्याप्त कम है।

ऑडियो प्रोसेसिंग
डिजिटल ऑडियो पर अधिकांश प्रोसेसिंग ऑपरेशंस में नमूनों का पुनः परिमाणीकरण सम्मिलित होता है और इस प्रकार एनालॉग-टू-डिजिटल रूपांतरण के दौरान शुरू की गई मूल परिमाणीकरण त्रुटि के अनुरूप अतिरिक्त राउंडिंग त्रुटियां होती हैं। एडीसी के दौरान निहित त्रुटि से बड़ी गोलाई त्रुटियों को रोकने के लिए, प्रसंस्करण के दौरान गणना इनपुट नमूने की तुलना में उच्च सटीकता पर की जानी चाहिए। अंकीय संकेत प्रक्रिया (डीएसपी) संचालन फिक्स्ड-पॉइंट अंकगणितीय या फ़्लोटिंग-पॉइंट परिशुद्धता में किया जा सकता है। किसी भी मामले में, प्रत्येक ऑपरेशन की सटीकता प्रसंस्करण के प्रत्येक चरण को करने के लिए उपयोग किए जाने वाले हार्डवेयर संचालन की सटीकता से निर्धारित होती है, न कि इनपुट डेटा के रिज़ॉल्यूशन से। उदाहरण के लिए, x86 प्रोसेसर पर, फ्लोटिंग-पॉइंट ऑपरेशंस एकल-परिशुद्धता फ़्लोटिंग-पॉइंट प्रारूप या डबल-सटीक फ़्लोटिंग-पॉइंट प्रारूप और 16-, 32- या 64-बिट रेजोल्यूशन पर फिक्स्ड-पॉइंट ऑपरेशंस के साथ किए जाते हैं। परिणाम स्वरुप, इंटेल-आधारित हार्डवेयर पर किए गए सभी प्रसंस्करण इन बाधाओं के साथ स्रोत प्रारूप की परवाह किए बिना किए जाएंगे।

निश्चित बिंदु डिजिटल सिग्नल प्रोसेसर अधिकांशतः विशिष्ट सिग्नल रिज़ॉल्यूशन का समर्थन करने के लिए विशिष्ट शब्द लंबाई का समर्थन करते हैं। उदाहरण के लिए, मोटोरोला 56000 डीएसपी चिप 24-बिट मल्टीप्लायरों और 56-बिट संचायक का उपयोग दो 24-बिट नमूनों पर अतिप्रवाह या ट्रंकेशन के बिना बहु-संचित संचालन करने के लिए करता है। उन उपकरणों पर जो बड़े संचायक का समर्थन नहीं करते हैं, सटीकता को कम करते हुए निश्चित बिंदु परिणामों को छोटा किया जा सकता है। डीएसपी के कई चरणों के माध्यम से त्रुटियाँ एक दर पर मिश्रित होती हैं जो कि किए जा रहे संचालन पर निर्भर करती हैं। डीसी ऑफसेट के बिना ऑडियो डेटा पर असंबद्ध प्रसंस्करण चरणों के लिए, त्रुटियों को शून्य साधनों के साथ यादृच्छिक माना जाता है। इस धारणा के अनुसार, वितरण का मानक विचलन संचालन की संख्या के वर्गमूल के साथ त्रुटि संकेत और परिमाणीकरण त्रुटि पैमानों का प्रतिनिधित्व करता है। एल्गोरिदम के लिए उच्च स्तर की सटीकता आवश्यक है जिसमें बार-बार प्रसंस्करण सम्मिलित है, जैसे कि कनवल्शन। पुनरावर्ती एल्गोरिदम में उच्च स्तर की सटीकता भी आवश्यक है, जैसे कि अनंत आवेग प्रतिक्रिया (IIR) फ़िल्टर। IIR फ़िल्टर के विशेष मामले में, राउंडिंग त्रुटि आवृत्ति प्रतिक्रिया को कम कर सकती है और अस्थिरता पैदा कर सकती है।

झंझट
राउंडिंग एरर और ऑडियो प्रोसेसिंग के दौरान शुरू की गई परिशुद्धता के नुकसान सहित परिमाणीकरण त्रुटि द्वारा पेश किए गए शोर को परिमाणित करने से पहले सिग्नल में थोड़ी मात्रा में रैंडम शोर, जिसे डाइथर कहा जाता है, को जोड़कर कम किया जा सकता है। डिथरिंग गैर-रैखिक परिमाणीकरण त्रुटि व्यवहार को समाप्त करता है, बहुत कम विरूपण देता है, लेकिन थोड़ा ऊंचा शोर तल की कीमत पर। ITU-R 468 का उपयोग करके मापे गए 16-बिट डिजिटल ऑडियो के लिए अनुशंसित शोर भार संरेखण स्तर से लगभग 66 dB नीचे है, या डिजिटल पूर्ण पैमाने से 84 dB नीचे है, जो माइक्रोफ़ोन और कमरे के शोर स्तर के बराबर है, और इसलिए 16 में बहुत कम परिणाम है -बिट ऑडियो।

24-बिट और 32-बिट ऑडियो को डिथरिंग की आवश्यकता नहीं होती है, क्योंकि डिजिटल कन्वर्टर का शोर स्तर हमेशा लागू होने वाले किसी भी आवश्यक स्तर से अधिक होता है। सैद्धांतिक रूप से 24-बिट ऑडियो डायनामिक रेंज के 144 dB को एनकोड कर सकता है, और 32-बिट ऑडियो 192 dB प्राप्त कर सकता है, लेकिन वास्तविक दुनिया में इसे प्राप्त करना लगभग असंभव है, क्योंकि यहां तक ​​कि सबसे अच्छे सेंसर और माइक्रोफ़ोन भी शायद ही कभी 130 dB से अधिक होते हैं। प्रभावी गतिशील रेंज को बढ़ाने के लिए डाइथर का भी उपयोग किया जा सकता है। 16-बिट ऑडियो की कथित डायनामिक रेंज नॉइज़ शेपिंग|नॉइज़-शेप्ड डिथर के साथ 120 dB या उससे अधिक हो सकती है, जो मानव कान की आवृत्ति प्रतिक्रिया का लाभ उठाती है।

डायनेमिक रेंज और हेडरूम
डायनेमिक रेंज सबसे बड़े और सबसे छोटे सिग्नल के बीच का अंतर है जिसे एक सिस्टम रिकॉर्ड या पुन: पेश कर सकता है। बिना किसी कठिनाई के, डायनेमिक रेंज क्वांटिज़ेशन नॉइज़ फ्लोर से संबंधित है। उदाहरण के लिए, 16-बिट पूर्णांक रिज़ॉल्यूशन लगभग 96 dB की गतिशील सीमा की अनुमति देता है। डिथर के उचित आवेदन के साथ, डिजिटल सिस्टम उनके संकल्प से कम स्तर के संकेतों को पुन: पेश कर सकते हैं, सामान्य रूप से संकल्प द्वारा लगाए गए सीमा से अधिक प्रभावी गतिशील रेंज का विस्तार करते हैं। ओवरसैंपलिंग और नॉइज़ शेपिंग जैसी तकनीकों का उपयोग ब्याज की आवृत्ति बैंड से परिमाणीकरण त्रुटि को स्थानांतरित करके नमूना ऑडियो की गतिशील रेंज को और बढ़ा सकता है।

यदि सिग्नल का अधिकतम स्तर बिट गहराई द्वारा अनुमत स्तर से कम है, तो रिकॉर्डिंग में हेडरूम (ऑडियो सिग्नल प्रोसेसिंग) है। रिकॉर्डिंग स्टूडियो के दौरान उच्च बिट गहराई का उपयोग करने से समान गतिशील रेंज बनाए रखते हुए हेडरूम उपलब्ध हो सकता है। यह कम मात्रा में परिमाणीकरण त्रुटियों को बढ़ाए बिना क्लिपिंग (ऑडियो) के जोखिम को कम करता है।

ओवरसैंपलिंग
प्रति नमूना बिट्स की संख्या को बदले बिना पीसीएम ऑडियो की गतिशील रेंज को बढ़ाने के लिए ओवरसैंपलिंग एक वैकल्पिक तरीका है। ओवरसैंपलिंग में, वांछित नमूना दर के गुणकों पर ऑडियो नमूने प्राप्त किए जाते हैं। क्योंकि परिमाणीकरण त्रुटि को आवृत्ति के साथ समान रूप से वितरित माना जाता है, अधिकांश परिमाणीकरण त्रुटि को अल्ट्रासोनिक आवृत्तियों में स्थानांतरित कर दिया जाता है और प्लेबैक के दौरान डिज़िटल से एनालॉग कन्वर्टर द्वारा हटाया जा सकता है।

संकल्प के एन अतिरिक्त बिट्स के समतुल्य वृद्धि के लिए, सिग्नल को ओवरसैंपल किया जाना चाहिए


 * $$ \mathrm{number\ of\ samples} = (2^n)^2 = 2^{2n}.$$

उदाहरण के लिए, एक 14-बिट ADC 16× ओवरसैंपलिंग या 768 kHz पर संचालित होने पर 16-बिट 48 kHz ऑडियो उत्पन्न कर सकता है। ओवरसैंपल्ड पीसीएम, इसलिए समान रिज़ॉल्यूशन प्राप्त करने के लिए अधिक नमूनों के लिए प्रति नमूना कम बिट्स का आदान-प्रदान करता है।

सिग्नल पुनर्निर्माण पर ओवरसैंपलिंग, स्रोत पर अनुपस्थित ओवरसैंपलिंग के साथ डायनेमिक रेंज को भी बढ़ाया जा सकता है। पुनर्निर्माण के समय 16× ओवरसैंपलिंग पर विचार करें। पुनर्निर्माण पर प्रत्येक नमूना अद्वितीय होगा जिसमें मूल नमूना बिंदुओं में से प्रत्येक के लिए सोलह सम्मिलित किए गए हैं, सभी की गणना एक डिजिटल पुनर्निर्माण फ़िल्टर द्वारा की गई है। बढ़ी हुई प्रभावी बिट गहराई का तंत्र जैसा कि पहले चर्चा की गई है, अर्थात क्वांटिज़ेशन शोर शक्ति को कम नहीं किया गया है, लेकिन शोर स्पेक्ट्रम को 16 × ऑडियो बैंडविड्थ में फैलाया गया है।

ऐतिहासिक नोट—कॉम्पैक्ट डिस्क मानक सोनी और फिलिप्स के सहयोग से विकसित किया गया था। पहली सोनी उपभोक्ता इकाई में 16-बिट डीएसी था; पहली फिलिप्स इकाइयों में दोहरे 14-बिट डीएसी थे। इसने बाज़ार और यहां तक ​​कि पेशेवर हलकों में भी भ्रमित किया, क्योंकि 14-बिट पीसीएम 84 डीबी एसएनआर, 12 डीबी 16-बिट पीसीएम से कम की अनुमति देता है। फिलिप्स ने पहले क्रम के नॉइज़ शेपिंग के साथ 4× ओवरसैंपलिंग को लागू किया था जो सैद्धांतिक रूप से सीडी प्रारूप की पूर्ण 96 डीबी डायनेमिक रेंज को महसूस करता था। व्यावहारिक रूप से Philips CD100 को 20 Hz–20 kHz के ऑडियो बैंड में 90 dB SNR पर रेट किया गया था, जो Sony के CDP-101 के समान था।

शोर को आकार देना
किसी सिग्नल के ओवरसैंपलिंग से सभी फ्रीक्वेंसी पर बैंडविथ की प्रति यूनिट समान परिमाणीकरण शोर होता है और एक डायनेमिक रेंज होती है जो ओवरसैंपलिंग अनुपात के केवल वर्गमूल के साथ बेहतर होती है। नॉइज़ शेपिंग एक ऐसी तकनीक है जो उच्च आवृत्तियों पर अतिरिक्त शोर जोड़ती है जो कम आवृत्तियों पर कुछ त्रुटि को रद्द कर देती है, जिसके परिणामस्वरूप ओवरसैंपलिंग के दौरान गतिशील रेंज में बड़ी वृद्धि होती है। nवें क्रम के नॉइज़ शेपिंग के लिए, ओवरसैंपल्ड सिग्नल की डायनेमिक रेंज बिना नॉइज़ शेपिंग के ओवरसैंपलिंग की तुलना में अतिरिक्त 6n dB से बेहतर हो जाती है। उदाहरण के लिए, दूसरे क्रम के नॉइज़ शेपिंग के साथ 4× ओवरसैंपलिंग पर सैंपल लिए गए 20 kHz एनालॉग ऑडियो के लिए, डायनेमिक रेंज 30 dB बढ़ जाती है। इसलिए, 176 kHz पर सैंपल किए गए 16-बिट सिग्नल की थोड़ी गहराई 21-बिट सिग्नल के बराबर होती है, जो नॉइज़ शेपिंग के बिना 44.1 kHz पर सैंपल किया जाता है।

नॉइज़ शेपिंग को सामान्यतः डेल्टा-सिग्मा मॉड्यूलेशन के साथ लागू किया जाता है। डेल्टा-सिग्मा मॉड्यूलेशन का उपयोग करके, डायरेक्ट स्ट्रीम डिजिटल 64× ओवरसैंपलिंग के साथ 1-बिट ऑडियो का उपयोग करके ऑडियो फ़्रीक्वेंसी पर एक सैद्धांतिक 120 dB SNR प्राप्त करता है।

अनुप्रयोग
बिट डेप्थ डिजिटल ऑडियो कार्यान्वयन की एक मूलभूत संपत्ति है। आवेदन आवश्यकताओं और उपकरण क्षमताओं के आधार पर, अलग-अलग अनुप्रयोगों के लिए अलग-अलग बिट गहराई का उपयोग किया जाता है।

बिट दर और फ़ाइल का आकार
बिट गहराई बिट दर और फ़ाइल आकार को प्रभावित करती है। बिट्स कंप्यूटिंग और डिजिटल संचार में उपयोग की जाने वाली डेटा की मूल इकाई है। बिट दर डेटा की मात्रा को संदर्भित करती है, विशेष रूप से बिट्स, प्रेषित या प्रति सेकंड प्राप्त होती है। बिका हुआ और अन्य हानिकारक संपीड़ित ऑडियो प्रारूपों में, बिट दर ऑडियो सिग्नल को एन्कोड करने के लिए उपयोग की जाने वाली जानकारी की मात्रा का वर्णन करती है। इसे सामान्यतः kb/s में मापा जाता है।

यह भी देखें

 * ऑडियो सिस्टम माप
 * रंग गहराई, डिजिटल छवियों के लिए इसी अवधारणा
 * बिट्स की प्रभावी संख्या