ऑडियो बिट डेप्थ

डिजिटल ऑडियो में पल्स कोड मॉडुलेशन  (पीसीएम) का उपयोग करते हुए,  अंश  डेप्थ प्रत्येक  नमूनाकरण (सिग्नल प्रोसेसिंग)  में सूचना के बिट्स की संख्या है, और यह सीधे प्रत्येक नमूने के रिज़ॉल्यूशन से मेल खाती है। बिट गहराई के उदाहरणों में कॉम्पैक्ट डिस्क डिजिटल ऑडियो शामिल है, जो प्रति नमूना 16 बिट का उपयोग करता है, और  DVD ऑडियो  और ब्लू - रे डिस्क जो प्रति नमूना 24 बिट तक का समर्थन कर सकता है।

बुनियादी कार्यान्वयन में, बिट गहराई में भिन्नता मुख्य रूप से परिमाणीकरण त्रुटि से शोर स्तर को प्रभावित करती है - इस प्रकार सिग्नल-टू-शोर अनुपात (एसएनआर) और गतिशील रेंज। हालाँकि, तकनीकें जैसे कि तड़पना िंग, शोर को आकार देना और  oversampling  इन प्रभावों को थोड़ा सा गहराई बदले बिना कम कर सकते हैं। बिट गहराई भी बिट दर और फ़ाइल आकार को प्रभावित करती है।

पीसीएम डिजिटल सिग्नल (सिग्नल प्रोसेसिंग) का वर्णन करने के लिए बिट डेप्थ उपयोगी है। गैर-पीसीएम प्रारूप, जैसे हानिपूर्ण संपीड़न का उपयोग करने वाले, संबंधित बिट गहराई नहीं रखते हैं।

बाइनरी प्रतिनिधित्व
एक पीसीएम सिग्नल डिजिटल ऑडियो नमूनों का एक क्रम है जिसमें डेटा मूल एनालॉग संकेत  के सिग्नल पुनर्निर्माण के लिए आवश्यक जानकारी प्रदान करता है। प्रत्येक नमूना समय में एक विशिष्ट बिंदु पर संकेत के आयाम का प्रतिनिधित्व करता है, और नमूने समय में समान रूप से स्थान पर होते हैं। आयाम एकमात्र जानकारी है जो स्पष्ट रूप से नमूने में संग्रहीत है, और यह आमतौर पर या तो एक पूर्णांक या एक तैरनेवाला स्थल नंबर के रूप में संग्रहीत होता है, जो अंकों की एक निश्चित संख्या के साथ बाइनरी संख्या के रूप में एन्कोड किया जाता है: नमूना की बिट गहराई, जिसे शब्द की लंबाई भी कहा जाता है या शब्द का आकार।

रिज़ॉल्यूशन असतत मानों की संख्या को इंगित करता है जिन्हें एनालॉग मानों की श्रेणी में प्रदर्शित किया जा सकता है। जैसे-जैसे शब्द की लंबाई बढ़ती है, बाइनरी पूर्णांकों का रिज़ॉल्यूशन घातांक बढ़ता है। एक बिट जोड़ने से रिज़ॉल्यूशन दोगुना हो जाता है, दो चौगुना जोड़ दिया जाता है, और इसी तरह। पूर्णांक बिट गहराई द्वारा प्रदर्शित किए जा सकने वाले संभावित मानों की संख्या की गणना दो की शक्ति का उपयोग करके की जा सकती है|2n, जहाँ n बिट डेप्थ है। इस प्रकार, एक 16-बिट सिस्टम का रिज़ॉल्यूशन 65,536 (216) संभावित मान।

पूर्णांक पीसीएम ऑडियो डेटा को आमतौर पर दो के पूरक प्रारूप में हस्ताक्षर संख्या के रूप में संग्रहीत किया जाता है।

आज, अधिकांश ऑडियो फ़ाइल स्वरूप और डिजिटल ऑडियो वर्कस्टेशन (DAWs) PCM स्वरूपों का समर्थन करते हैं, जिनमें फ़्लोटिंग पॉइंट नंबरों द्वारा दर्शाए गए नमूने हैं।   WAV फ़ाइल स्वरूप और ऑडियो इंटरचेंज फ़ाइल स्वरूप फ़ाइल स्वरूप दोनों फ़्लोटिंग पॉइंट प्रस्तुतियों का समर्थन करते हैं।  पूर्णांकों के विपरीत, जिसका बिट पैटर्न बिट्स की एकल श्रृंखला है, इसके बजाय एक फ्लोटिंग पॉइंट नंबर अलग-अलग क्षेत्रों से बना होता है जिसका गणितीय संबंध एक संख्या बनाता है। सबसे आम मानक IEEE 754 है जो तीन क्षेत्रों से बना है: एक साइन बिट जो दर्शाता है कि संख्या सकारात्मक है या नकारात्मक, एक एक्सपोनेंट, और एक महत्व जो एक्सपोनेंट द्वारा उठाया जाता है। मंटिसा को IEEE बेस-दो फ़्लोटिंग पॉइंट स्वरूपों में एक बाइनरी अंश के रूप में व्यक्त किया गया है।

परिमाणीकरण
बिट गहराई पुनर्निर्मित सिग्नल के सिग्नल-टू-शोर अनुपात (एसएनआर) को परिमाणीकरण त्रुटि द्वारा निर्धारित अधिकतम स्तर तक सीमित करती है। बिट गहराई का आवृत्ति प्रतिक्रिया पर कोई प्रभाव नहीं पड़ता है, जो नमूना दर से विवश है।

एनॉलॉग से डिजिटल परिवर्तित करने वाला उपकरण के दौरान शुरू की गई क्वांटिज़ेशन त्रुटि | एनालॉग-टू-डिजिटल रूपांतरण (एडीसी) क्वांटिज़ेशन शोर के रूप में मॉडल (सार) हो सकता है। यह एडीसी के अनुरूप इनपुट वोल्टेज और आउटपुट डिजीटल मान के बीच एक राउंडिंग त्रुटि है। शोर नॉनलाइनियर सिस्टम और सिग्नल पर निर्भर है।

एक आदर्श एडीसी में, जहां क्वांटिज़ेशन त्रुटि समान रूप से वितरित की जाती है $$\scriptstyle{\pm \frac{1}{2}}$$ कम से कम महत्वपूर्ण बिट (एलएसबी) और जहां सिग्नल में सभी मात्राकरण स्तरों को कवर करने वाला एक समान वितरण होता है, सिग्नल-टू-क्वांटिज़ेशन-शोर अनुपात (एसक्यूएनआर) की गणना की जा सकती है


 * $$\mathrm{SQNR} = 20 \log_{10}(\sqrt{1.5} \cdot 2^{\mathrm b}) \approx 1.76 + 6.02 {\mathrm b} \; \mathrm{dB} \,\!$$

जहाँ b परिमाणीकरण बिट्स की संख्या है और परिणाम डेसिबल (dB) में मापा जाता है। इसलिए, सीडी पर पाए जाने वाले 16-बिट डिजिटल ऑडियो में 98 dB का सैद्धांतिक अधिकतम SNR होता है, और पेशेवर 24-बिट डिजिटल ऑडियो 146 dB के रूप में सबसे ऊपर होता है।, डिजिटल ऑडियो कन्वर्टर तकनीक लगभग 123 dB के SNR तक सीमित है  (बिट्स 21-बिट्स की प्रभावी संख्या) एकीकृत सर्किट डिजाइन में वास्तविक दुनिया की सीमाओं के कारण। फिर भी, यह लगभग मानव श्रवण प्रणाली के प्रदर्शन से मेल खाता है।  एकाधिक कन्वर्टर्स का उपयोग एक ही सिग्नल की विभिन्न श्रेणियों को कवर करने के लिए किया जा सकता है, लंबी अवधि में एक व्यापक गतिशील रेंज रिकॉर्ड करने के लिए संयुक्त किया जा रहा है, जबकि अभी भी लघु अवधि में एकल कनवर्टर की गतिशील रेंज द्वारा सीमित किया जा रहा है, जिसे डायनेमिक रेंज एक्सटेंशन कहा जाता है।

फ़्लोटिंग पॉइंट
फ़्लोटिंग-पॉइंट नमूनों का रिज़ॉल्यूशन पूर्णांक नमूनों की तुलना में कम सीधा होता है क्योंकि फ़्लोटिंग-पॉइंट मान समान रूप से नहीं होते हैं। फ़्लोटिंग-पॉइंट प्रतिनिधित्व में, किन्हीं दो आसन्न मानों के बीच का स्थान मान के अनुपात में होता है। यह एक पूर्णांक प्रणाली की तुलना में SNR को बहुत बढ़ाता है क्योंकि उच्च-स्तरीय सिग्नल की सटीकता निम्न स्तर पर समान सिग्नल की सटीकता के समान होगी। फ़्लोटिंग पॉइंट्स और पूर्णांकों के बीच ट्रेड-ऑफ़ यह है कि बड़े फ़्लोटिंग-पॉइंट मानों के बीच का स्थान समान बिट गहराई के बड़े पूर्णांक मानों के बीच के स्थान से अधिक होता है। एक बड़ी फ़्लोटिंग-पॉइंट संख्या को राउंड करने से छोटी फ़्लोटिंग-पॉइंट संख्या को राउंड करने की तुलना में अधिक त्रुटि होती है, जबकि पूर्णांक संख्या को राउंड करने से हमेशा समान स्तर की त्रुटि होती है। दूसरे शब्दों में, पूर्णांक में एक राउंड-ऑफ होता है जो एकसमान होता है, हमेशा LSB को 0 या 1 पर गोल करता है, और फ़्लोटिंग पॉइंट में एक समान SNR होता है, परिमाणीकरण शोर स्तर हमेशा सिग्नल स्तर के एक निश्चित अनुपात का होता है। एक फ़्लोटिंग-पॉइंट नॉइज़ फ़्लोर सिग्नल के ऊपर उठेगा और सिग्नल के गिरते ही गिर जाएगा, जिसके परिणामस्वरूप श्रव्य विचरण होगा यदि बिट गहराई पर्याप्त कम है।

ऑडियो प्रोसेसिंग
डिजिटल ऑडियो पर अधिकांश प्रोसेसिंग ऑपरेशंस में नमूनों का पुनः परिमाणीकरण शामिल होता है और इस प्रकार एनालॉग-टू-डिजिटल रूपांतरण के दौरान शुरू की गई मूल परिमाणीकरण त्रुटि के अनुरूप अतिरिक्त राउंडिंग त्रुटियां होती हैं। एडीसी के दौरान निहित त्रुटि से बड़ी गोलाई त्रुटियों को रोकने के लिए, प्रसंस्करण के दौरान गणना इनपुट नमूने की तुलना में उच्च सटीकता पर की जानी चाहिए। अंकीय संकेत प्रक्रिया (डीएसपी) संचालन फिक्स्ड-पॉइंट अंकगणितीय या फ़्लोटिंग-पॉइंट परिशुद्धता में किया जा सकता है। किसी भी मामले में, प्रत्येक ऑपरेशन की सटीकता प्रसंस्करण के प्रत्येक चरण को करने के लिए उपयोग किए जाने वाले हार्डवेयर संचालन की सटीकता से निर्धारित होती है, न कि इनपुट डेटा के रिज़ॉल्यूशन से। उदाहरण के लिए, x86 प्रोसेसर पर, फ्लोटिंग-पॉइंट ऑपरेशंस  एकल-परिशुद्धता फ़्लोटिंग-पॉइंट प्रारूप  या  डबल-सटीक फ़्लोटिंग-पॉइंट प्रारूप  और 16-, 32- या 64-बिट रेजोल्यूशन पर फिक्स्ड-पॉइंट ऑपरेशंस के साथ किए जाते हैं। नतीजतन, इंटेल-आधारित हार्डवेयर पर किए गए सभी प्रसंस्करण इन बाधाओं के साथ स्रोत प्रारूप की परवाह किए बिना किए जाएंगे।

निश्चित बिंदु डिजिटल सिग्नल प्रोसेसर अक्सर विशिष्ट सिग्नल रिज़ॉल्यूशन का समर्थन करने के लिए विशिष्ट शब्द लंबाई का समर्थन करते हैं। उदाहरण के लिए, मोटोरोला 56000 डीएसपी चिप 24-बिट मल्टीप्लायरों और 56-बिट संचायक का उपयोग दो 24-बिट नमूनों पर अतिप्रवाह या ट्रंकेशन के बिना बहु-संचित संचालन करने के लिए करता है। उन उपकरणों पर जो बड़े संचायक का समर्थन नहीं करते हैं, सटीकता को कम करते हुए निश्चित बिंदु परिणामों को छोटा किया जा सकता है। डीएसपी के कई चरणों के माध्यम से त्रुटियाँ एक दर पर मिश्रित होती हैं जो कि किए जा रहे संचालन पर निर्भर करती हैं। डीसी ऑफसेट के बिना ऑडियो डेटा पर असंबद्ध प्रसंस्करण चरणों के लिए, त्रुटियों को शून्य साधनों के साथ यादृच्छिक माना जाता है। इस धारणा के तहत, वितरण का मानक विचलन संचालन की संख्या के वर्गमूल के साथ त्रुटि संकेत और परिमाणीकरण त्रुटि पैमानों का प्रतिनिधित्व करता है। एल्गोरिदम के लिए उच्च स्तर की सटीकता आवश्यक है जिसमें बार-बार प्रसंस्करण शामिल है, जैसे कि कनवल्शन। पुनरावर्ती एल्गोरिदम में उच्च स्तर की सटीकता भी आवश्यक है, जैसे कि अनंत आवेग प्रतिक्रिया (IIR) फ़िल्टर। IIR फ़िल्टर के विशेष मामले में, राउंडिंग त्रुटि आवृत्ति प्रतिक्रिया को कम कर सकती है और अस्थिरता पैदा कर सकती है।

झंझट
राउंडिंग एरर और ऑडियो प्रोसेसिंग के दौरान शुरू की गई परिशुद्धता के नुकसान सहित परिमाणीकरण त्रुटि द्वारा पेश किए गए शोर को परिमाणित करने से पहले सिग्नल में थोड़ी मात्रा में रैंडम शोर, जिसे डाइथर कहा जाता है, को जोड़कर कम किया जा सकता है। डिथरिंग गैर-रैखिक परिमाणीकरण त्रुटि व्यवहार को समाप्त करता है, बहुत कम विरूपण देता है, लेकिन थोड़ा ऊंचा शोर तल की कीमत पर। ITU-R 468 का उपयोग करके मापे गए 16-बिट डिजिटल ऑडियो के लिए अनुशंसित शोर भार संरेखण स्तर से लगभग 66 dB नीचे है, या डिजिटल पूर्ण पैमाने से 84 dB नीचे है, जो माइक्रोफ़ोन और कमरे के शोर स्तर के बराबर है, और इसलिए 16 में बहुत कम परिणाम है -बिट ऑडियो।

24-बिट और 32-बिट ऑडियो को डिथरिंग की आवश्यकता नहीं होती है, क्योंकि डिजिटल कन्वर्टर का शोर स्तर हमेशा लागू होने वाले किसी भी आवश्यक स्तर से अधिक होता है। सैद्धांतिक रूप से 24-बिट ऑडियो डायनामिक रेंज के 144 dB को एनकोड कर सकता है, और 32-बिट ऑडियो 192 dB प्राप्त कर सकता है, लेकिन वास्तविक दुनिया में इसे प्राप्त करना लगभग असंभव है, क्योंकि यहां तक ​​कि सबसे अच्छे सेंसर और माइक्रोफ़ोन भी शायद ही कभी 130 dB से अधिक होते हैं। प्रभावी गतिशील रेंज को बढ़ाने के लिए डाइथर का भी उपयोग किया जा सकता है। 16-बिट ऑडियो की कथित डायनामिक रेंज नॉइज़ शेपिंग|नॉइज़-शेप्ड डिथर के साथ 120 dB या उससे अधिक हो सकती है, जो मानव कान की आवृत्ति प्रतिक्रिया का लाभ उठाती है।

डायनेमिक रेंज और हेडरूम
डायनेमिक रेंज सबसे बड़े और सबसे छोटे सिग्नल के बीच का अंतर है जिसे एक सिस्टम रिकॉर्ड या पुन: पेश कर सकता है। बिना किसी कठिनाई के, डायनेमिक रेंज क्वांटिज़ेशन नॉइज़ फ्लोर से संबंधित है। उदाहरण के लिए, 16-बिट पूर्णांक रिज़ॉल्यूशन लगभग 96 dB की गतिशील सीमा की अनुमति देता है। डिथर के उचित आवेदन के साथ, डिजिटल सिस्टम उनके संकल्प से कम स्तर के संकेतों को पुन: पेश कर सकते हैं, सामान्य रूप से संकल्प द्वारा लगाए गए सीमा से अधिक प्रभावी गतिशील रेंज का विस्तार करते हैं। ओवरसैंपलिंग और नॉइज़ शेपिंग जैसी तकनीकों का उपयोग ब्याज की आवृत्ति बैंड से परिमाणीकरण त्रुटि को स्थानांतरित करके नमूना ऑडियो की गतिशील रेंज को और बढ़ा सकता है।

यदि सिग्नल का अधिकतम स्तर बिट गहराई द्वारा अनुमत स्तर से कम है, तो रिकॉर्डिंग में हेडरूम (ऑडियो सिग्नल प्रोसेसिंग) है। रिकॉर्डिंग स्टूडियो के दौरान उच्च बिट गहराई का उपयोग करने से समान गतिशील रेंज बनाए रखते हुए हेडरूम उपलब्ध हो सकता है। यह कम मात्रा में परिमाणीकरण त्रुटियों को बढ़ाए बिना क्लिपिंग (ऑडियो) के जोखिम को कम करता है।

ओवरसैंपलिंग
प्रति नमूना बिट्स की संख्या को बदले बिना पीसीएम ऑडियो की गतिशील रेंज को बढ़ाने के लिए ओवरसैंपलिंग एक वैकल्पिक तरीका है। ओवरसैंपलिंग में, वांछित नमूना दर के गुणकों पर ऑडियो नमूने प्राप्त किए जाते हैं। क्योंकि परिमाणीकरण त्रुटि को आवृत्ति के साथ समान रूप से वितरित माना जाता है, अधिकांश परिमाणीकरण त्रुटि को अल्ट्रासोनिक आवृत्तियों में स्थानांतरित कर दिया जाता है और प्लेबैक के दौरान डिज़िटल से एनालॉग कन्वर्टर द्वारा हटाया जा सकता है।

संकल्प के एन अतिरिक्त बिट्स के समतुल्य वृद्धि के लिए, सिग्नल को ओवरसैंपल किया जाना चाहिए


 * $$ \mathrm{number\ of\ samples} = (2^n)^2 = 2^{2n}.$$

उदाहरण के लिए, एक 14-बिट ADC 16× ओवरसैंपलिंग या 768 kHz पर संचालित होने पर 16-बिट 48 kHz ऑडियो उत्पन्न कर सकता है। ओवरसैंपल्ड पीसीएम, इसलिए समान रिज़ॉल्यूशन प्राप्त करने के लिए अधिक नमूनों के लिए प्रति नमूना कम बिट्स का आदान-प्रदान करता है।

सिग्नल पुनर्निर्माण पर ओवरसैंपलिंग, स्रोत पर अनुपस्थित ओवरसैंपलिंग के साथ डायनेमिक रेंज को भी बढ़ाया जा सकता है। पुनर्निर्माण के समय 16× ओवरसैंपलिंग पर विचार करें। पुनर्निर्माण पर प्रत्येक नमूना अद्वितीय होगा जिसमें मूल नमूना बिंदुओं में से प्रत्येक के लिए सोलह सम्मिलित किए गए हैं, सभी की गणना एक डिजिटल पुनर्निर्माण फ़िल्टर द्वारा की गई है। बढ़ी हुई प्रभावी बिट गहराई का तंत्र जैसा कि पहले चर्चा की गई है, यानी क्वांटिज़ेशन शोर शक्ति को कम नहीं किया गया है, लेकिन शोर स्पेक्ट्रम को 16 × ऑडियो बैंडविड्थ में फैलाया गया है।

ऐतिहासिक नोट—कॉम्पैक्ट डिस्क मानक सोनी और फिलिप्स के सहयोग से विकसित किया गया था। पहली सोनी उपभोक्ता इकाई में 16-बिट डीएसी था; पहली फिलिप्स इकाइयों में दोहरे 14-बिट डीएसी थे। इसने बाज़ार और यहां तक ​​कि पेशेवर हलकों में भी भ्रमित किया, क्योंकि 14-बिट पीसीएम 84 डीबी एसएनआर, 12 डीबी 16-बिट पीसीएम से कम की अनुमति देता है। फिलिप्स ने पहले क्रम के नॉइज़ शेपिंग के साथ 4× ओवरसैंपलिंग को लागू किया था जो सैद्धांतिक रूप से सीडी प्रारूप की पूर्ण 96 डीबी डायनेमिक रेंज को महसूस करता था। व्यावहारिक रूप से Philips CD100 को 20 Hz–20 kHz के ऑडियो बैंड में 90 dB SNR पर रेट किया गया था, जो Sony के CDP-101 के समान था।

शोर को आकार देना
किसी सिग्नल के ओवरसैंपलिंग से सभी फ्रीक्वेंसी पर बैंडविथ की प्रति यूनिट समान परिमाणीकरण शोर होता है और एक डायनेमिक रेंज होती है जो ओवरसैंपलिंग अनुपात के केवल वर्गमूल के साथ बेहतर होती है। नॉइज़ शेपिंग एक ऐसी तकनीक है जो उच्च आवृत्तियों पर अतिरिक्त शोर जोड़ती है जो कम आवृत्तियों पर कुछ त्रुटि को रद्द कर देती है, जिसके परिणामस्वरूप ओवरसैंपलिंग के दौरान गतिशील रेंज में बड़ी वृद्धि होती है। nवें क्रम के नॉइज़ शेपिंग के लिए, ओवरसैंपल्ड सिग्नल की डायनेमिक रेंज बिना नॉइज़ शेपिंग के ओवरसैंपलिंग की तुलना में अतिरिक्त 6n dB से बेहतर हो जाती है। उदाहरण के लिए, दूसरे क्रम के नॉइज़ शेपिंग के साथ 4× ओवरसैंपलिंग पर सैंपल लिए गए 20 kHz एनालॉग ऑडियो के लिए, डायनेमिक रेंज 30 dB बढ़ जाती है। इसलिए, 176 kHz पर सैंपल किए गए 16-बिट सिग्नल की थोड़ी गहराई 21-बिट सिग्नल के बराबर होती है, जो नॉइज़ शेपिंग के बिना 44.1 kHz पर सैंपल किया जाता है।

नॉइज़ शेपिंग को आमतौर पर डेल्टा-सिग्मा मॉड्यूलेशन के साथ लागू किया जाता है। डेल्टा-सिग्मा मॉड्यूलेशन का उपयोग करके, डायरेक्ट स्ट्रीम डिजिटल 64× ओवरसैंपलिंग के साथ 1-बिट ऑडियो का उपयोग करके ऑडियो फ़्रीक्वेंसी पर एक सैद्धांतिक 120 dB SNR प्राप्त करता है।

अनुप्रयोग
बिट डेप्थ डिजिटल ऑडियो कार्यान्वयन की एक मूलभूत संपत्ति है। आवेदन आवश्यकताओं और उपकरण क्षमताओं के आधार पर, अलग-अलग अनुप्रयोगों के लिए अलग-अलग बिट गहराई का उपयोग किया जाता है।

बिट दर और फ़ाइल का आकार
बिट गहराई बिट दर और फ़ाइल आकार को प्रभावित करती है। बिट्स कंप्यूटिंग और डिजिटल संचार में उपयोग की जाने वाली डेटा की मूल इकाई है। बिट दर डेटा की मात्रा को संदर्भित करती है, विशेष रूप से बिट्स, प्रेषित या प्रति सेकंड प्राप्त होती है। बिका हुआ और अन्य हानिकारक संपीड़ित ऑडियो प्रारूपों में, बिट दर ऑडियो सिग्नल को एन्कोड करने के लिए उपयोग की जाने वाली जानकारी की मात्रा का वर्णन करती है। इसे आमतौर पर kb/s में मापा जाता है।

यह भी देखें

 * ऑडियो सिस्टम माप
 * रंग गहराई, डिजिटल छवियों के लिए इसी अवधारणा
 * बिट्स की प्रभावी संख्या