डेटा संपीड़न
सूचना सिद्धांत में, डेटा कम्प्रेशन, सोर्स कोडिंग,[1]या बिट -दर में कमी मूल प्रतिनिधित्व की तुलना में कम बिट्स का उपयोग करके जानकारी एन्कोड करने की प्रक्रिया है।[2]कोई विशेष कम्प्रेशन या तो लोस्सी या लॉसलेस होता है। लॉसलेस कम्प्रेशन सांख्यिकीय अतिरेक की पहचान करके और उसे समाप्त करके बिट्स को कम करता है। लॉसलेस कम्प्रेशन में कोई भी जानकारी नष्ट नहीं होती है। लॉसलेस कम्प्रेशन अनावश्यक या कम महत्वपूर्ण जानकारी को हटाकर बिट्स को कम करता है।[3]सामान्यतः, एक उपकरण जो डेटा कम्प्रेशन करता है, उसे एनकोडर के रूप में संदर्भित किया जाता है और जो प्रक्रिया को उलट देता है (डिकम्प्रेस) उसे डिकोडर के रूप में संदर्भित किया जाता है।
डेटा फ़ाइल के आकार को कम करने की प्रक्रिया को प्रायः डेटा कम्प्रेशन के रूप में संदर्भित किया जाता है। डेटा प्रेषण के संदर्भ में, इसे सोर्स कोडिंग कहा जाता है; डेटा को संग्रहीत या प्रसारित करने से पहले उसके सोर्स पर एन्कोडिंग की जाती है।[4]सोर्स कोडिंग को चैनल कोडिंग के साथ भ्रमित नहीं किया जाना चाहिए, एरर का पता लगाने और सुधार या लाइन कोडिंग के लिए, सिग्नल पर डेटा को मैप करने के लिए साधन है।
कम्प्रेशन उपयोगी है क्योंकि यह डेटा को संग्रहीत और प्रसारित करने के लिए आवश्यक संसाधनों को कम करता है। कम्प्यूटेशनल संसाधनों का उपभोग कम्प्रेशन और डिकम्प्रेस प्रक्रियाओं में किया जाता है। डेटा कम्प्रेशन स्पेस टाइम कम्प्लेक्सिटी ट्रेडऑफ के अधीन है। उदाहरण के लिए, वीडियो के लिए एक कम्प्रेशन योजना के लिए महंगे हार्डवेयर की आवश्यकता हो सकती है, ताकि वीडियो को तेजी से डिकम्प्रेस किया जा सके ताकि इसे डीकंप्रेस किया जा सके, और वीडियो को देखने से पहले पूर्णतया से डीकंप्रेस करने का विकल्प असुविधाजनक हो सकता है या अतिरिक्त भंडारण की आवश्यकता हो सकती है। डेटा कम्प्रेशन योजनाओं के डिजाइन में विभिन्न कारकों के मध्य दुविधा सम्मिलित हैं, जिनमें कम्प्रेशन की डिग्री, पुरःस्थापित विकृति की मात्रा (लॉसलेस डेटा कम्प्रेशन का उपयोग करते समय), और डेटा को कम्प्रेस और डिकम्प्रेस करने के लिए आवश्यक कम्प्यूटेशनल संसाधन सम्मिलित हैं।[5]
लॉसलेस
लॉसलेस डेटा कम्प्रेशन एल्गोरिदम सामान्यतः किसी भी जानकारी को खोए बिना डेटा का प्रतिनिधित्व करने के लिए सांख्यिकीय अतिरेक का उपयोग करते हैं, ताकि प्रक्रिया प्रतिवर्ती हो। लॉसलेस कम्प्रेशन संभव है क्योंकि अधिकांश वास्तविक जगत का डेटा सांख्यिकीय अतिरेक प्रदर्शित करता है। उदाहरण के लिए, एक इमेज में रंग के क्षेत्र हो सकते हैं जो कई पिक्सेल में नहीं बदलते हैं; लाल पिक्सेल को कोड करने के बजाय डेटा को "279 लाल पिक्सेल" के रूप में एन्कोड किया जा सकता है। यह रन-लेंथ एन्कोडिंग का एक बुनियादी उदाहरण है; अतिरेक को समाप्त करके फ़ाइल का आकार कम करने की कई योजनाएँ हैं।
लेम्पेल-ज़िव (LZ) कम्प्रेशन विधियाँ लॉसलेस भंडारण के लिए सबसे लोकप्रिय एल्गोरिदम में से एक हैं।[6] डीईएफएलएटीई डीकंप्रेसन गति और कम्प्रेशन अनुपात के लिए अनुकूलित एलजेड पर एक भिन्नता है, लेकिन कम्प्रेशन धीमा हो सकता है। 1980 के दशक के मध्य में, टेरी वेल्च के कार्य के बाद, लेम्पेल-ज़िव-वेल्च (LZW) एल्गोरिदम तेजी से अधिकांश सामान्य प्रयोजन कम्प्रेशन प्रणालियों के लिए चयन का तरीका बन गया।एलजेडडब्ल्यू का उपयोग जीआईएफ छवियों, पीकेजेडआईपी जैसे प्रोग्राम और मोडेम जैसे हार्डवेयर उपकरणों में किया जाता है।[7] एलजेड विधियाँ एक व्याकरण आधारित कोड मॉडल का उपयोग करती हैं जहां टेबल प्रविष्टियों को डेटा की दोहराई गई स्ट्रिंग के लिए प्रतिस्थापित किया जाता है। अधिकांश एलजेड विधियों के लिए, यह टेबल इनपुट में पहले के डेटा से गतिशील रूप से उत्पन्न होती है। टेबल स्वयं प्रायः हफ़मैन एन्कोडेड होती है। इस तरह के व्याकरण-आधारित कोड अत्यधिक दोहराव वाले इनपुट को बेहद प्रभावी ढंग से कम्प्रेस कर सकते हैं, उदाहरण के लिए, समान या निकट से संबंधित प्रजातियों का एक जैविक डेटा संग्रह, एक विशाल संस्करण दस्तावेज़ संग्रह, इंटरनेट संग्रह, आदि। व्याकरण-आधारित कोड का मूल कार्य निर्माण करना है एक एकल स्ट्रिंग प्राप्त करने वाला संदर्भ-मुक्त व्याकरण हैं। अन्य व्यावहारिक व्याकरण कम्प्रेशन एल्गोरिदम में सेक्विटुर और री-पेयर सम्मिलित हैं।
सबसे प्रबल आधुनिक लॉसलेस कम्प्रेसर संभाव्य मॉडल का उपयोग करते हैं, जैसे आंशिक मिलान द्वारा भविष्यवाणी हैं। बरोज़ -व्हीलर ट्रांसफॉर्म को सांख्यिकीय मॉडलिंग के अप्रत्यक्ष रूप के रूप में भी देखा जा सकता है।[8] संभाव्य मॉडलिंग के प्रत्यक्ष उपयोग को और अधिक परिष्कृत करने में, सांख्यिकीय अनुमानों को अंकगणित कोडिंग नामक एल्गोरिदम से जोड़ा जा सकता है। अंकगणित कोडिंग एक अधिक आधुनिक कोडिंग तकनीक है जो इनपुट डेटा प्रतीकों की एक श्रृंखला से एन्कोडेड बिट्स की एक स्ट्रिंग का उत्पादन करने के लिए एक परिमित अवस्था यंत्र की गणितीय गणना का उपयोग करती है। यह अन्य तकनीकों जैसे कि बेहतर ज्ञात हफ़मैन एल्गोरिदम की तुलना में श्रेष्ठतर कम्प्रेशन प्राप्त कर सकता है। यह बिट्स की पूर्णांक संख्या का उपयोग करने वाले अलग-अलग प्रतिनिधित्वों के लिए अलग-अलग इनपुट प्रतीकों की एक-से-एक मैपिंग करने की आवश्यकता से बचने के लिए एक आंतरिक मेमोरी स्थिति का उपयोग करता है, और यह डेटा प्रतीकों की सम्पूर्ण स्ट्रिंग को एन्कोड करने के बाद ही आंतरिक मेमोरी को साफ़ करता है। अंकगणित कोडिंग विशेष रूप से अनुकूली डेटा कम्प्रेशन कार्यों पर अनुप्रयुक्त होती है जहां डेटा भिन्न होते हैं और संदर्भ-निर्भर होते हैं, क्योंकि इसे इनपुट डेटा की संभाव्यता वितरण के अनुकूली मॉडल के साथ सरलता से जोड़ा जा सकता है। अंकगणित कोडिंग के उपयोग का एक प्रारंभिक उदाहरण जेपीईजी इमेज कोडिंग मानक की एक वैकल्पिक (लेकिन व्यापक रूप से उपयोग नहीं की जाने वाली) सुविधा में था।[9]तब से इसे वीडियो कोडिंग के लिए एच.263, एच.264/एमपीईजी-4 एवीसी और एचईवीसी सहित कई अन्य डिज़ाइनों में अनुप्रयुक्त किया गया है।[10]
पुरालेख सॉफ्टवेयर में सामान्यतः "शब्दकोश आकार" को समायोजित करने की क्षमता होती है, जहां एक बड़ा आकार कम्प्रेशन और डीकंप्रेसन के पर्यन्त अधिक रैंडम-एक्सेस मेमोरी की मांग करता है, लेकिन विशेष रूप से फ़ाइलों की सामग्री में पैटर्न को दोहराने पर प्रबल रूप से कम्प्रेस करता है।[11][12]
लोस्सी
1980 के दशक के उत्तरार्ध में, डिजिटल छवियां अधिक सामान्य हो गईं और लॉसलेस इमेज कम्प्रेशन के मानक सामने आए। 1990 के दशक के प्रारम्भ में, लोस्सी कम्प्रेशन विधियों का व्यापक रूप से उपयोग किया जाने लगा।[13]इन योजनाओं में, जानकारी के कुछ पातन को स्वीकार किया जाता है क्योंकि अनावश्यक विवरण छोड़ने से भंडारण स्थान बचाया जा सकता है। जानकारी को संरक्षित करने और आकार को कम करने के मध्य एक समान समझौता है। लोस्सी डेटा कम्प्रेशन योजनाएं इस शोध के आधार पर तैयार की जाती हैं कि लोग संबंधित डेटा को कैसे समझते हैं। उदाहरण के लिए, मानव नेत्र रंग में भिन्नता की तुलना में चमक में सूक्ष्म भिन्नता के प्रति अधिक संवेदनशील होती है। जेपीईजी इमेज कम्प्रेशन आंशिक रूप से सूचना के गैर-आवश्यक भागों को पूर्णांकित करके कार्य करता है।[14] कई लोकप्रिय कम्प्रेशन फॉर्मेट इन अवधारणात्मक अंतरों का लाभ उठाते हैं, जिनमें ध्वनि के लिए मनोध्वनिकी और छवियों और वीडियो के लिए मनोदृष्टिक सम्मिलित हैं।
लॉसलेस कम्प्रेशन के अधिकांश रूप ट्रांसफ़ॉर्म कोडिंग पर आधारित होते हैं, विशेष रूप से असतत कोसाइन ट्रांसफॉर्म (DCT) हैं। इसे पहली बार 1972 में नासिर अहमद द्वारा प्रस्तावित किया गया था, जिन्होंने जनवरी 1974 में इसे प्रस्तुत करने से पहले 1973 में टी. नटराजन और के.आर. राव के साथ एक कार्यशील एल्गोरिदम विकसित किया था।[15][16]डीसीटी सबसे व्यापक रूप से उपयोग की जाने वाली लॉसलेस कम्प्रेशन विधि है और इसका उपयोग छवियों (जैसे जेपीईजी और एचईआईएफ), [17] वीडियो (जैसे एमपीईजी, एवीसी और एचईवीसी) और ऑडियो (जैसे एमपी3, एएसी और वोरबिस) के लिए मल्टीमीडिया फॉरमॅटो में किया जाता है।[17]
भंडारण क्षमता बढ़ाने के लिए, डिजिटल कैमरों में लॉसलेस इमेज कम्प्रेशन का उपयोग किया जाता है। इसी तरह, डीवीडी, ब्लू-रे और स्ट्रीमिंग वीडियो लोस्सी वीडियो कोडिंग फॉरमॅटो का उपयोग करते हैं। वीडियो में लोस्सी कम्प्रेशन का बड़े पैमाने पर उपयोग किया जाता है।
लॉसलेस ऑडियो कम्प्रेशन में, ऑडियो सिग्नल के गैर-श्रव्य (या कम श्रव्य) घटकों को हटाने के लिए मनोध्वनिकी के तरीकों का उपयोग किया जाता है। मानव स्पीच का कम्प्रेशन प्रायः और भी अधिक विशिष्ट तकनीकों के साथ किया जाता है; स्पीच कोडिंग को सामान्य प्रयोजन ऑडियो कम्प्रेशन से एक अलग अनुशासन के रूप में प्रतिष्ठित किया गया है। स्पीच कोडिंग का उपयोग इंटरनेट टेलीफोनी में किया जाता है, उदाहरण के लिए, ऑडियो कम्प्रेशन का उपयोग सीडी रिपिंग के लिए किया जाता है और इसे ऑडियो प्लेयर्स द्वारा डिकोड किया जाता है।[8]
लॉसलेस कम्प्रेशन से पीढ़ी हानि हो सकती है।
सिद्धांत
कम्प्रेशन का सैद्धांतिक आधार सूचना सिद्धांत और, विशेष रूप से, शैनन के स्रोत कोडिंग प्रमेय द्वारा प्रदान किया जाता है; डोमेन-विशिष्ट सिद्धांतों में लॉसलेस कम्प्रेशन के लिए एल्गोरिथम सूचना सिद्धांत और लॉसलेस कम्प्रेशन के लिए दर-विरूपण सिद्धांत सम्मिलित हैं। अध्ययन के ये क्षेत्र अनिवार्य रूप से क्लाउड शैनन द्वारा बनाए गए थे, जिन्होंने 1940 के दशक के अंत और 1950 के दशक के प्रारम्भ में इस विषय पर मौलिक पत्र प्रकाशित किए थे। कम्प्रेशन से जुड़े अन्य विषयों में कोडिंग सिद्धांत और सांख्यिकीय अनुमान सम्मिलित हैं।[18]
मशीन लर्निंग
मशीन लर्निंग और कम्प्रेशन के मध्य घनिष्ठ संबंध है। एक प्रणाली जो किसी अनुक्रम के सम्पूर्ण इतिहास को देखते हुए उसकी पिछली संभावनाओं की भविष्यवाणी करती है, उसका उपयोग इष्टतम डेटा कम्प्रेशन (आउटपुट वितरण पर अंकगणितीय कोडिंग का उपयोग करके) के लिए किया जा सकता है। इसके विपरीत, पूर्वानुमान के लिए एक इष्टतम कंप्रेसर का उपयोग किया जा सकता है (पिछले इतिहास को देखते हुए, सबसे अच्छा कम्प्रेस्सेस करने वाले प्रतीक को ढूंढकर)। इस तुल्यता का उपयोग "सामान्य बुद्धिमत्ता" के लिए एक बेंचमार्क के रूप में डेटा कम्प्रेशन का उपयोग करने के औचित्य के रूप में किया गया है।[19][20][21]
एक वैकल्पिक दृश्य कम्प्रेशन एल्गोरिदम को अंतर्निहित फीचर स्पेस वैक्टर में स्ट्रिंग को मैप करके दिखा सकता है और कम्प्रेशन-आधारित समानता उपाय इन फीचर स्पेस के भीतर समानता की गणना करते हैं। प्रत्येक कंप्रेसर C(.) के लिए हम एक संबद्ध वेक्टर स्पेस ℵ को परिभाषित करते हैं, जैसे कि C(.) वेक्टर मानदंड ||~x|| के अनुरूप एक इनपुट स्ट्रिंग x को मैप करता है। सभी कम्प्रेशन एल्गोरिदम में अंतर्निहित फ़ीचर स्पेस की विस्तृत जांच को स्थान द्वारा वर्जित किया गया है; इसके बजाय, फीचर वैक्टर तीन प्रतिनिधि लॉसलेस कम्प्रेशन विधियों, एलजेडडब्ल्यू, एलजेड77, और पीपीएम की जांच करना चुनता है।[22]
एआईएक्सआई सिद्धांत के अनुसार, हटर प्राइज़ में एक कनेक्शन को अधिक सीधे समझाया गया है, x का सबसे अच्छा संभव कम्प्रेशन सबसे छोटा संभव सॉफ़्टवेयर है जो x उत्पन्न करता है। उदाहरण के लिए, उस मॉडल में, एक ज़िप फ़ाइल के कम्प्रेस आकार में ज़िप फ़ाइल और अनजिंग सॉफ्टवेयर दोनों सम्मिलित हैं, क्योंकि आप इसे दोनों के बिना अनज़िप नहीं कर सकते हैं, लेकिन इससे भी छोटा संयुक्त रूप हो सकता है।
डेटा डिफ्रेंसिंग
डेटा कम्प्रेशन को डेटा भिन्नता के एक विशेष स्थिति के रूप में देखा जा सकता है।[23][24]डेटा डिफ्रेंसिंग में एक सोर्स और एक लक्ष्य दिए गए अंतर को उत्पन्न करना सम्मिलित है, पैचिंग के साथ एक स्रोत और एक अंतर दिए गए लक्ष्य को पुन: उत्पन्न करना सम्मिलित है। चूंकि डेटा कम्प्रेशन में कोई भिन्न सोर्स और लक्ष्य नहीं है, इसलिए कोई भी डेटा कम्प्रेशन को रिक्त सोर्स डेटा के साथ अंतर करने वाले डेटा के रूप में मान सकता है, कम्प्रेस फ़ाइल कुछ भी नहीं से अंतर के अनुरूप है। यह बिना किसी प्रारंभिक डेटा के सापेक्ष एन्ट्रॉपी (डेटा भिन्नता के अनुरूप) के स्थिति के रूप में पूर्ण एन्ट्रॉपी (डेटा कम्प्रेशन के अनुरूप) पर विचार करने जैसा ही है।
डिफरेंशियल कम्प्रेशन शब्द का उपयोग डेटा डिफरेंसिंग कनेक्शन पर जोर देने के लिए किया जाता है।
उपयोग
इमेज
एन्ट्रॉपी कोडन की उत्पत्ति 1940 के दशक में शैनन -फानो कोडिंग की प्रस्तुति के साथ हुई,[25]जो हफ़मैन कोडिंग का आधार था जिसे 1950 में विकसित किया गया था।[26]ट्रांसफ़ॉर्म कोडिंग की उत्पत्ति 1960 के दशक के उत्तरार्ध में हुई, जिसमें 1968 में फास्ट फ़ोरियर ट्रांसफ़ॉर्म (FFT) कोडिंग और 1969 में हैडमार्ड ट्रांसफ़ॉर्म की प्रस्तुति हुई।[27]
एक महत्वपूर्ण इमेज कम्प्रेशन तकनीक असतत कोसाइन ट्रांसफ़ॉर्म (DCT) है, जो 1970 के दशक के प्रारम्भ में विकसित की गई तकनीक है।[15]डीसीटी जेपीईजी का आधार है, जो एक लॉसलेस कम्प्रेशन फॉर्मेट है जिसे 1992 में संयुक्त फोटोग्राफिक विशेषज्ञ समूह (JPEG) द्वारा प्रस्तुत किया गया था।[28] जेपीईजी इमेज गुणवत्ता में अपेक्षाकृत कम कमी की लागत पर एक इमेज का प्रतिनिधित्व करने के लिए आवश्यक डेटा की मात्रा को कम करता है और सबसे व्यापक रूप से उपयोग की जाने वाली इमेज फ़ाइल फॉर्मेट बन गई है।[29][30] इसका अत्यधिक कुशल डीसीटी-आधारित कम्प्रेशन कलनविधि एल्गोरिदम छवियों और डिजिटल तस्वीरों के व्यापक प्रसार के लिए काफी हद तक उत्तरदायी था।[31]
लेम्पेल-ज़िव-वेल्च (LZW) 1984 में विकसित एक लॉसलेस कम्प्रेशन एल्गोरिथ्म है। इसका उपयोग जीआईएफ फॉर्मेट में किया जाता है, जिसे 1987 में प्रस्तुत किया गया था।[32] डीईएफएलएटीई, 1996 में निर्दिष्ट एक लॉसलेस कम्प्रेशन एल्गोरिथ्म, पोर्टेबल नेटवर्क ग्राफ़िक्स (PNG) फॉर्मेट में उपयोग किया जाता है।[33]
वेवलेट कम्प्रेशन, इमेज कम्प्रेशन में वेवलेट्स का उपयोग, डीसीटी कोडिंग के विकास के बाद प्रारंभ हुआ।[34] जेपीईजी 2000 मानक 2000 में प्रस्तुत किया गया था।[35] मूल जेपीईजी फॉर्मेट द्वारा द्वारा उपयोग किए गए डीसीटी एल्गोरिदम के विपरीत, जेपीईजी 2000 इसके बजाय असतत तरंगिका रूपांतरण (DWT) एल्गोरिदम का उपयोग करता है।[36][37][38] जेपीईजी 2000 तकनीक, जिसमें मोशन जेपीईजी 2000 एक्सटेंशन सम्मिलित है, 2004 में डिजिटल सिनेमा के लिए वीडियो कोडिंग मानक के रूप में चुना गया था।[39]
ऑडियो
ऑडियो डेटा कम्प्रेशन, जिसे डायनामिक रेंज कम्प्रेशन के साथ भ्रमित नहीं किया जाना चाहिए, जिसमें ऑडियो डेटा की ट्रांसमिशन बैंडविड्थ और भंडारण आवश्यकताओं को कम करने की क्षमता है। ऑडियो कम्प्रेशन एल्गोरिदम को सॉफ़्टवेयर में ऑडियो कोडेक्स के रूप में कार्यान्वित किया जाता है। लॉसलेस और लॉसलेस कम्प्रेशन दोनों में, उनकप्रेस्सेड डेटा का प्रतिनिधित्व करने के लिए उपयोग की जाने वाली जानकारी की मात्रा को कम करने के लिए कोडिंग, परिमाणीकरण, डीसीटी और रैखिक भविष्यवाणी जैसी विधियों का उपयोग करके सूचना अतिरेक को कम किया जाता है।
लोस्सी ऑडियो कम्प्रेशन एल्गोरिदम उच्च कम्प्रेशन प्रदान करते हैं और वॉर्बिस और एमपी3 सहित कई ऑडियो एप्लीकेशनों में उपयोग किए जाते हैं। ये एल्गोरिदम लगभग सभी कम श्रव्य ध्वनियों की निष्ठा को खत्म करने या कम करने के लिए मनोध्वनिकी पर निर्भर करते हैं, जिससे उन्हें संग्रहीत करने या प्रसारित करने के लिए आवश्यक स्थान कम हो जाता है।[2][40]
ऑडियो गुणवत्ता की हानि और ट्रांसमिशन या भंडारण आकार के मध्य स्वीकार्य स्वीकार्य समझौता एप्लिकेशन पर निर्भर करता है। उदाहरण के लिए, एक 640 एमबी कॉम्पैक्ट डिस्क (सीडी) लगभग एक घंटे का उनकप्रेस्सेड उच्च निष्ठा वाला संगीत, लॉसलेस्ली तरीके से कंप्रेस्ड 2 घंटे से कम संगीत, या मध्यम बिट दर पर एमपी3 फॉर्मेट में कंप्रेस्ड 7 घंटे का संगीत रखती है। एक डिजिटल साउंड रिकॉर्डर सामान्यतः 640 एमबी में लगभग 200 घंटे के स्पष्ट रूप से समझने योग्य स्पीच को संग्रहीत कर सकता है।[41]
लॉसलेस ऑडियो कम्प्रेशन डिजिटल डेटा का प्रतिनिधित्व उत्पन्न करता है जिसे मूल के सटीक डिजिटल डुप्लिकेट में डिकोड किया जा सकता है। कम्प्रेशन अनुपात मूल आकार का लगभग 50-60% है,[42]जो जेनेरिक लॉसलेस डेटा कम्प्रेशन के लिए समान है। लॉसलेस कोडेक सिग्नल का अनुमान लगाने के आधार के रूप में वक्र फिटिंग या रैखिक भविष्यवाणी का उपयोग करते हैं। अनुमान और अनुमान और वास्तविक सिग्नल के बीच अंतर का वर्णन करने वाले पैरामीटर अलग से कोडित किए गए हैं।[43]
कई लॉसलेस ऑडियो कम्प्रेशन फॉर्मेट उपस्थित हैं। एक सूची के लिए लॉसलेस कोडेक्स की सूची देखें। कुछ फॉर्मेट एक विशिष्ट प्रणाली से जुड़े होते हैं, जैसे डायरेक्ट स्ट्रीम ट्रांसफर, सुपर ऑडियो सीडी और मेरिडियन लॉसलेस पैकिंग में उपयोग किया जाता है, डीवीडी-ऑडियो, डॉल्बी ट्रूएचडी, ब्लू-रे और एचडी डीवीडी में उपयोग किया जाता है।
कुछ ऑडियो फ़ाइल फोर्मेटो में एक लॉसलेस फॉर्मेट और एक लॉसलेस सुधार का संयोजन होता है; यह किसी लॉसलेस फ़ाइल को सरलता से प्राप्त करने के लिए सुधार को अलग करने की अनुमति देता है। ऐसे फॉरमॅटो में एमपीईजी-4 एसएलएस (स्केलेबल टू लॉसलेस), वेवपैक, और ऑप्टिमफ्रॉग डुअलस्ट्रीम सम्मिलित हैं।
जब ऑडियो फ़ाइलों को संसाधित किया जाना है, या तो आगे कम्प्रेशन द्वारा या संपादन के लिए, अपरिवर्तित मूल (उनकप्रेस्सेड या लॉसलेस कंप्रेस्ड) से कार्य करने के लिए वांछनीय है। किसी उद्देश्य के लिए हानिपूर्ण रूप से कंप्रेस्ड फ़ाइल का प्रसंस्करण सामान्यतः एक उनकप्रेस्सेड मूल से उसी कंप्रेस्ड फ़ाइल के निर्माण से कमतर अंतिम परिणाम उत्पन्न करता है। ध्वनि संपादन या मिश्रण के अतिरिक्त, लॉसलेस ऑडियो कम्प्रेशन का उपयोग प्रायः अभिलेखीय भंडारण के लिए, या मास्टर प्रतियों के रूप में किया जाता है।
लोस्सी ऑडियो कम्प्रेशन
लोस्सी ऑडियो कम्प्रेशन का उपयोग एप्लीकेशनों की एक विस्तृत श्रृंखला में किया जाता है। एमपी3 प्लेयर या कंप्यूटर में फ़ाइल प्लेबैक के स्टैंडअलोन ऑडियो-केवल एप्लिकेशनों के अतिरिक्त, डिजिटल रूप से कम्प्रेस ऑडियो स्ट्रीम का उपयोग अधिकांश वीडियो डीवीडी, डिजिटल टेलीविजन, इंटरनेट पर स्ट्रीमिंग मीडिया, सैटेलाइट, केबल रेडियो और तेजी से स्थलीय रेडियो प्रसारण में किया जाता है। मनोध्वनिक अनुकूलन के आधार पर कम-महत्वपूर्ण डेटा को छोड़कर, लोस्सी कम्प्रेशन सामान्यतः लॉसलेस कम्प्रेशन की तुलना में कहीं अधिक कम्प्रेशन प्राप्त करता है।[44]
मनोध्वनिकी यह मानती है कि ऑडियो स्ट्रीम के सभी डेटा को मानव श्रवण प्रणाली द्वारा नहीं देखा जा सकता है। अधिकांश लॉसलेस कम्प्रेशन पहले अवधारणात्मक रूप से अप्रासंगिक ध्वनियों की पहचान करके अतिरेक को कम कर देता है, अर्थात ऐसी ध्वनियाँ जिन्हें सुनना बहुत कठिन है। विशिष्ट उदाहरणों में उच्च आवृत्तियाँ या ध्वनियाँ सम्मिलित हैं जो तेज़ ध्वनि के साथ ही उत्पन्न होती हैं। उन अप्रासंगिक ध्वनियों को कम सटीकता के साथ कोडित किया जाता है या बिल्कुल नहीं।
लॉसलेस एल्गोरिदम की प्रकृति के कारण, जब किसी फ़ाइल को डीकंप्रेस किया जाता है और डीकंप्रेस्ड किया जाता है, तो ऑडियो गुणवत्ता में डिजिटल पीढ़ी की हानि होती है। यह ध्वनि संपादन और मल्टीट्रैक रिकॉर्डिंग जैसे पेशेवर ऑडियो इंजीनियरिंग एप्लीकेशनों में मध्यवर्ती परिणामों को संग्रहीत करने के लिए लोस्सी कम्प्रेशन को अनुपयुक्त बनाता है, हालाँकि, एमपी3 जैसे लॉसलेस फॉर्मेट अंत-उपयोगकर्ताओं के साथ बहुत लोकप्रिय हैं क्योंकि फ़ाइल का आकार मूल आकार के 5-20% तक कम हो जाता है और एक मेगाबाइट पर्याप्त गुणवत्ता में लगभग एक मिनट के संगीत को संग्रहीत कर सकता है।
कोडिंग विधियाँ
यह निर्धारित करने के लिए कि ऑडियो सिग्नल में कौन सी जानकारी अवधारणात्मक रूप से अप्रासंगिक है, अधिकांश लॉसलेस कम्प्रेशन एल्गोरिदम समय डोमेन नमूना तरंगों को ट्रांसफॉर्म डोमेन, सामान्यतः आवृत्ति डोमेन में परिवर्तित करने के लिए संशोधित असतत कोसाइन ट्रांसफॉर्म (एमडीसीटी) जैसे ट्रांसफॉर्म का उपयोग करते हैं। एक बार रूपांतरित होने के बाद, घटक आवृत्तियों को उनकी श्रव्यता के आधार पर प्राथमिकता दी जा सकती है। वर्णक्रमीय घटकों की श्रव्यता का मूल्यांकन सुनने की पूर्ण सीमा और एक साथ मास्किंग के सिद्धांतों का उपयोग करके किया जाता है - वह घटना जिसमें एक सिग्नल को आवृत्ति द्वारा अलग किए गए दूसरे सिग्नल द्वारा मास्क किया जाता है - और, कुछ स्थितियों में, टेम्पोरल मास्किंग - जहां एक सिग्नल को दूसरे सिग्नल द्वारा मास्क किया जाता है समय से अलग हो गए। घटकों के अवधारणात्मक महत्व को मापने के लिए समान-ज़ोर वाले आकृतियों का भी उपयोग किया जा सकता है। ऐसे प्रभावों को सम्मिलित करने वाले मानव कान-मस्तिष्क संयोजन के मॉडल को प्रायः मनोध्वनिक मॉडल कहा जाता है।[45]
अन्य प्रकार के लॉसलेस कम्प्रेसर, जैसे कि स्पीच के साथ उपयोग की जाने वाली लीनियर प्रेडिक्टिव कोडिंग (LPC), स्रोत-आधारित कोडर हैं। एलपीसी स्पीच ध्वनियों का विश्लेषण करने और उन्हें पल-पल उत्पन्न करने के लिए मॉडल द्वारा उपयोग किए जाने वाले मापदंडों का अनुमान लगाने के लिए मानव स्वर तंत्र के एक मॉडल का उपयोग करता है। इन बदलते मापदंडों को प्रसारित या संग्रहीत किया जाता है और डिकोडर में दूसरे मॉडल को चलाने के लिए उपयोग किया जाता है जो ध्वनि को पुन: उत्पन्न करता है।
घातक फॉरमॅटो का उपयोग प्रायः स्ट्रीमिंग ऑडियो या इंटरैक्टिव संचार (जैसे सेल फोन नेटवर्क में) के वितरण के लिए किया जाता है। ऐसे एप्लीकेशनों में, डेडेटा को संपूर्ण डेटा स्ट्रीम प्रसारित होने के बजाय डेटा प्रवाहित होने पर डीकंप्रेस किया जाना चाहिए। सभी ऑडियो कोडेक्स का उपयोग स्ट्रीमिंग एप्लीकेशनों के लिए नहीं किया जा सकता है।[44]
डेटा को एनकोड और डीकोड करने के लिए उपयोग की जाने वाली विधियों द्वारा विलंबता का परिचय दिया जाता है। कुछ कोडेक्स दक्षता को अनुकूलित करने के लिए डेटा के एक लंबे खंड, जिसे फ्रेम कहा जाता है, का विश्लेषण करेंगे और फिर इसे इस तरह से कोड करेंगे कि डीकोड करने के लिए एक समय में डेटा के एक बड़े खंड की आवश्यकता होगी। कोडिंग एल्गोरिदम की अंतर्निहित विलंबता महत्वपूर्ण हो सकती है; उदाहरण के लिए, जब डेटा का दोतरफा प्रसारण होता है, जैसे कि टेलीफोन पर बातचीत, तो महत्वपूर्ण देरी कथित गुणवत्ता को गंभीर रूप से ख़राब कर सकती है।
कम्प्रेशन की गति के विपरीत, जो एल्गोरिदम द्वारा आवश्यक संचालन की संख्या के लिए आनुपातिक है, यहां विलंबता उन नमूनों की संख्या को संदर्भित करती है जिन्हें ऑडियो के खंडो को संसाधित करने से पहले विश्लेषण किया जाना चाहिए। न्यूनतम स्थिति में, विलंबता शून्य नमूने है (उदाहरण के लिए, यदि कोडर/डिकोडर सिग्नल को मापने के लिए उपयोग किए जाने वाले बिट्स की संख्या को कम कर देता है)। एलपीसी जैसे टाइम डोमेन एल्गोरिदम में भी प्रायः कम विलंबता होती है, इसलिए टेलीफोनी के लिए स्पीच कोडिंग में उनकी लोकप्रियता होती है। हालाँकि, एमपी3 जैसे एल्गोरिदम में, आवृत्ति डोमेन में एक मनोध्वनिक मॉडल को अनुप्रयुक्त करने के लिए बड़ी संख्या में नमूनों का विश्लेषण करना पड़ता है और विलंबता 23 एमएस के क्रम पर होती है।
स्पीच कोडिंग
स्पीच कोडिंग ऑडियो डेटा कम्प्रेशन की एक महत्वपूर्ण श्रेणी है। मानव कान भाषण के किन पहलुओं को सुन सकता है, इसका अनुमान लगाने के लिए उपयोग किए जाने वाले अवधारणात्मक मॉडल सामान्यतः संगीत के लिए उपयोग किए जाने वाले मॉडल से कुछ अलग होते हैं। मानव आवाज़ की आवाज़ को व्यक्त करने के लिए आवश्यक आवृत्तियों की सीमा सामान्य रूप से संगीत के लिए आवश्यक आवृत्तियों की तुलना में बहुत संकीर्ण होती है, और ध्वनि सामान्य रूप से कम जटिल होती है। परिणामस्वरूप, अपेक्षाकृत कम बिट दर का उपयोग करके भाषण को उच्च गुणवत्ता पर एन्कोड किया जा सकता है।
यह सामान्य रूप से, दो दृष्टिकोणों के कुछ संयोजन द्वारा पूर्ण किया जाता है:
- केवल एन्कोडिंग ध्वनियाँ जो एक ही मानव आवाज़ द्वारा बनाई जा सकती हैं।
- सिग्नल में अधिक डेटा क्षेपण - मानव श्रवण की पूर्ण आवृत्ति सीमा के बजाय "समझदार" आवाज को फिर से बनाने के लिए पर्याप्त रखना।
स्पीच एन्कोडिंग (और सामान्य रूप से ऑडियो डेटा कम्प्रेशन) में उपयोग किए जाने वाले प्रारंभिक एल्गोरिदम ए-लॉ एल्गोरिदम और μ-लॉ एल्गोरिदम थे।
इतिहास
बेल लैब्स में प्रारंभिक ऑडियो अनुसंधान आयोजित किया गया था।वहां, 1950 में, सी। चैपिन कटलर ने विभेदक पल्स-कोड मॉड्यूलेशन (DPCM) पर पेटेंट दायर किया।[46]1973 में, अनुकूली DPCM (एडीपीसीएम) को पी। कमिसकी, निकिल जयंत | निकिल एस। जयंत और जेम्स एल। फ्लैगन द्वारा प्रस्तुत किया गया था।[47][48] रेखीय कोडिंग कम्प्रेशन के लिए सबसे पहले, रेखीय भविष्य कहनेवाला कोडिंग (एलपीसी) के साथ अवधारणात्मक कोडिंग का उपयोग किया गया था।[49] एलपीसी के लिए प्रारंभिक अवधारणाएं 1966 में फुमितादा इताकुरा (नागोया विश्वविद्यालय ) और शुजो सैटो (निप्पॉन टेलीग्राफ और टेलीफोन ) के काम के लिए वापस आ गईं।[50] 1970 के दशक के पर्यन्त, बेल लैब्स में बिशनू एस। अटल और मैनफ्रेड आर। श्रोएडर ने एलपीसी का एक रूप विकसित किया, जिसे अनुकूली भविष्य कहनेवाला कोडिंग (एपीसी) कहा जाता था, एक अवधारणात्मक कोडिंग कलनविधि जिसने मानव कान के मास्किंग गुणों का शोषण किया, 1980 के दशक की शुरुआत में 1980 के दशक में इसके बाद के साथ किया।कोड-उत्तेजित रैखिक भविष्यवाणी (CELP) कलनविधि जिसने अपने समय के लिए एक महत्वपूर्ण कम्प्रेशन अनुपात प्राप्त किया।[49]अवधारणात्मक कोडिंग का उपयोग आधुनिक ऑडियो कम्प्रेशन फॉरमॅटो जैसे एमपी 3 द्वारा किया जाता है[49]और उन्नत ऑडियो कोडेक ।
1974 में एन। अहमद, टी। नटराजन और के। आर। राव द्वारा विकसित असतत कोसाइन ट्रांसफॉर्म (डीसीटी),[16]आधुनिक ऑडियो कम्प्रेशन फॉरमॅटो जैसे एमपी 3 द्वारा उपयोग किए जाने वाले संशोधित असतत कोसाइन ट्रांसफॉर्म (एमडीसीटी) के लिए आधार प्रदान किया गया,[51] डॉल्बी डिजिटल ,[52][53] और एएसी।[54] एमडीसीटी को जे। पी। प्रिंसेन, ए। डब्ल्यू। जॉनसन और ए। बी। ब्रैडली ने 1987 में प्रस्तावित किया था,[55] 1986 में प्रिंसन और ब्रैडली द्वारा पहले के काम के बाद।[56] दुनिया का पहला वाणिज्यिक प्रसारण स्वचालन ऑडियो कम्प्रेशन प्रणाली ऑस्कर बोनेलो द्वारा विकसित की गई थी, जो ब्यूनस आयर्स विश्वविद्यालय में एक इंजीनियरिंग प्रोफेसर है।[57][failed verification] 1983 में, 1967 में पहली बार प्रकाशित क्रिटिकल बैंड के मास्किंग के मनोचिकित्सा सिद्धांत का उपयोग करते हुए,[58]उन्होंने हाल ही में विकसित आईबीएम पीसी कंप्यूटर के आधार पर एक व्यावहारिक अनुप्रयोग विकसित करना प्रारंभ कर दिया, और प्रसारण स्वचालन प्रणाली को 1987 में ऑडिकॉम के नाम से लॉन्च किया गया था।बीस साल बाद, दुनिया के लगभग सभी रेडियो स्टेशन कई कंपनियों द्वारा निर्मित समान तकनीक का उपयोग कर रहे थे।
ऑडियो कोडिंग सिस्टम की एक बड़ी विविधता के लिए एक साहित्य संकलन, फरवरी 1988 में IEEE's जर्नल ऑन चयने्टेड एरियाज इन कम्युनिकेशंस (JSAC) में प्रकाशित किया गया था। जबकि उस समय से पहले से कुछ पेपर थे, इस संग्रह ने पूर्णतया से समाप्त कर दिया, काम कर रहे थे, काम कर रहे थे, काम कर रहे थे।ऑडियो कोडर्स, उनमें से लगभग सभी अवधारण