डेटा संपीड़न
सूचना सिद्धांत में, डेटा संपीड़न, स्रोत कोडिंग,[1]या काटा -दर में कमी मूल प्रतिनिधित्व की तुलना में कम बिट्स का उपयोग करके जानकारी एन्कोडिंग की प्रक्रिया है।[2]कोई विशेष संपीड़न या तो हानिपूर्ण संपीड़न या दोषरहित संपीड़न है।दोषरहित संपीड़न अतिरेक (सूचना सिद्धांत) की पहचान और समाप्त करके बिट्स को कम करता है।दोषरहित संपीड़न में कोई जानकारी नहीं खो जाती है।हानि संपीड़न अनावश्यक या कम महत्वपूर्ण जानकारी को हटाकर बिट्स को कम कर देता है।[3]आमतौर पर, एक उपकरण जो डेटा संपीड़न करता है, उसे एनकोडर के रूप में संदर्भित किया जाता है, और एक जो प्रक्रिया के उलट को एक डिकोडर के रूप में करता है।
डेटा फ़ाइल के आकार को कम करने की प्रक्रिया को अक्सर डेटा संपीड़न के रूप में संदर्भित किया जाता है।डेटा ट्रांसमिशन के संदर्भ में, इसे स्रोत कोडिंग कहा जाता है;संग्रहीत या प्रेषित होने से पहले डेटा के स्रोत पर किए गए एन्कोडिंग।[4]स्रोत कोडिंग को चैनल कोडन के साथ भ्रमित नहीं किया जाना चाहिए, त्रुटि का पता लगाने और सुधार या लाइन कोडिंग के लिए, सिग्नल पर डेटा को मैप करने के लिए साधन।
संपीड़न उपयोगी है क्योंकि यह डेटा को स्टोर करने और प्रसारित करने के लिए आवश्यक संसाधनों को कम करता है।कम्प्यूटेशनल संसाधन ों को संपीड़न और अपघटन प्रक्रियाओं में खाया जाता है।डेटा संपीड़न एक अंतरिक्ष-समय ट्रेडऑफ के अधीन है। अंतरिक्ष-समय जटिलता व्यापार बंद।उदाहरण के लिए, #Video को वीडियो के लिए महंगे इलेक्ट्रॉनिक हार्डवेयर की आवश्यकता हो सकती है, जिसे देखने के लिए तेजी से विघटित किया जा सकता है क्योंकि इसे विघटित किया जा रहा है, और यह देखने से पहले वीडियो को पूरी तरह से विघटित करने का विकल्प असुविधाजनक हो सकता है या अतिरिक्त भंडारण की आवश्यकता हो सकती है।डेटा संपीड़न योजनाओं के डिजाइन में विभिन्न कारकों के बीच व्यापार-बंद शामिल हैं, जिनमें संपीड़न की डिग्री, शुरू की गई विकृति की मात्रा (हानि डेटा संपीड़न का उपयोग करते समय), और डेटा को संपीड़ित और विघटित करने के लिए आवश्यक कम्प्यूटेशनल संसाधनों सहित शामिल हैं[5]
दोषरहित
दोषरहित डेटा संपीड़न कलन विधि आमतौर पर किसी भी आत्म-सूचना को खोने के बिना डेटा का प्रतिनिधित्व करने के लिए अतिरेक (सूचना सिद्धांत) का शोषण करते हैं, ताकि प्रक्रिया प्रतिवर्ती हो।दोषरहित संपीड़न संभव है क्योंकि अधिकांश वास्तविक दुनिया डेटा सांख्यिकीय अतिरेक प्रदर्शित करता है।उदाहरण के लिए, एक छवि में रंग के क्षेत्र हो सकते हैं जो कई पिक्सेल में नहीं बदलते हैं;लाल पिक्सेल, लाल पिक्सेल को कोड करने के बजाय, ... डेटा को 279 लाल पिक्सेल के रूप में एन्कोड किया जा सकता है।यह रन-लंबाई एन्कोडिंग का एक मूल उदाहरण है;अतिरेक को समाप्त करके फ़ाइल के आकार को कम करने के लिए कई योजनाएं हैं।
Lempel -Ziv (LZ) संपीड़न विधियाँ दोषरहित भंडारण के लिए सबसे लोकप्रिय एल्गोरिदम में से हैं।[6] Deflate Decompression गति और संपीड़न अनुपात के लिए अनुकूलित LZ पर एक भिन्नता है, लेकिन संपीड़न धीमा हो सकता है।1980 के दशक के मध्य में, टेरी वेल्च के काम के बाद, लेम्पेल-ज़िव-वेल्च (एलजेडडब्ल्यू) एल्गोरिथ्म तेजी से अधिकांश सामान्य-उद्देश्य संपीड़न प्रणालियों के लिए पसंद की विधि बन गया।LZW का उपयोग ग्राफिक्स बदलाव प्रारूप छवियों, PKZIP जैसे प्रोग्राम और मोडेम जैसे हार्डवेयर डिवाइस में किया जाता है।[7] LZ विधियाँ एक तालिका-आधारित संपीड़न मॉडल का उपयोग करती हैं जहां तालिका प्रविष्टियों को डेटा के बार-बार तार के लिए प्रतिस्थापित किया जाता है।अधिकांश LZ विधियों के लिए, यह तालिका इनपुट में पहले के डेटा से गतिशील रूप से उत्पन्न होती है।तालिका ही अक्सर हफ़मैन कोडिंग होती है।इस तरह के व्याकरण-आधारित कोड अत्यधिक दोहरावदार इनपुट को बहुत प्रभावी ढंग से संपीड़ित कर सकते हैं, उदाहरण के लिए, समान या निकट से संबंधित प्रजातियों का एक जैविक डेटा संग्रह, एक विशाल संस्करण संग्रह संग्रह, इंटरनेट अभिलेखीय, आदि। व्याकरण-आधारित कोड का मूल कार्य निर्माण कर रहा हैएक संदर्भ-मुक्त व्याकरण एक एकल स्ट्रिंग प्राप्त करता है।अन्य व्यावहारिक व्याकरण संपीड़न एल्गोरिदम में अनुक्रमिक एल्गोरिथ्म और फिर से जोड़ी शामिल हैं।
सबसे मजबूत आधुनिक दोषरहित कंप्रेशर्स यादृच्छिक एल्गोरिथ्म मॉडल का उपयोग करते हैं, जैसे कि आंशिक मिलान द्वारा भविष्यवाणी ।बरोज़ -व्हीलर ट्रांसफॉर्म को सांख्यिकीय मॉडलिंग के अप्रत्यक्ष रूप के रूप में भी देखा जा सकता है।[8]संभाव्य मॉडल िंग के प्रत्यक्ष उपयोग के एक और शोधन में, सांख्यिकीय अनुमानों को अंकगणित कोडिंग नामक एक एल्गोरिथ्म के लिए युग्मित किया जा सकता है। अंकगणित कोडिंग एक अधिक आधुनिक कोडिंग तकनीक है जो इनपुट डेटा प्रतीकों की एक श्रृंखला से एन्कोडेड बिट्स की एक स्ट्रिंग का उत्पादन करने के लिए एक परिमित-राज्य मशीन की गणितीय गणना का उपयोग करती है। यह अन्य तकनीकों जैसे कि बेहतर-ज्ञात हफमैन एल्गोरिथ्म की तुलना में बेहतर संपीड़न प्राप्त कर सकता है। यह एक आंतरिक मेमोरी स्टेट का उपयोग करता है, जो अलग-अलग प्रतिनिधित्व के लिए व्यक्तिगत इनपुट प्रतीकों के एक-से-एक मैपिंग करने की आवश्यकता से बचता है जो बिट्स की एक पूर्णांक संख्या का उपयोग करते हैं, और यह डेटा प्रतीकों के पूरे स्ट्रिंग को एन्कोडिंग के बाद ही आंतरिक मेमोरी को साफ करता है । अंकगणित कोडिंग विशेष रूप से अनुकूली डेटा संपीड़न कार्यों पर लागू होती है जहां आँकड़े भिन्न होते हैं और संदर्भ-निर्भर होते हैं, क्योंकि इसे आसानी से इनपुट डेटा के संभाव्यता वितरण के एक अनुकूली मॉडल के साथ मिलाया जा सकता है। अंकगणित कोडिंग के उपयोग का एक प्रारंभिक उदाहरण JPEG छवि कोडिंग मानक के एक वैकल्पिक (लेकिन व्यापक रूप से उपयोग नहीं किया गया) सुविधा में था।[9]यह तब से विभिन्न अन्य डिजाइनों में लागू किया गया है जिसमें वीडियो कोडिंग के लिए H.263, H.264/MPEG-4 AVC और HEVC शामिल हैं।[10]
आर्काइव सॉफ्टवेयर में आमतौर पर शब्दकोश आकार को समायोजित करने की क्षमता होती है, जहां एक बड़ा आकार संपीड़न और विघटन के दौरान अधिक यादृच्छिक एक्सेस मेमोरी की मांग करता है, लेकिन मजबूत को संपीड़ित करता है, विशेष रूप से फ़ाइलों की सामग्री में पैटर्न को दोहराने पर।[11][12]
हानि
1980 के दशक के उत्तरार्ध में, डिजिटल छवियां अधिक सामान्य हो गईं, और दोषरहित छवि संपीड़न के लिए मानक उभरे।1990 के दशक की शुरुआत में, हानिपूर्ण संपीड़न विधियों का व्यापक रूप से उपयोग किया जाने लगा।[13]इन योजनाओं में, जानकारी के कुछ नुकसान को स्वीकार किया जाता है क्योंकि गैर -विस्तार को छोड़ने से भंडारण स्थान को बचा सकता है।जानकारी को संरक्षित करने और आकार को कम करने के बीच एक समान व्यापार बंद है।हानि डेटा संपीड़न योजनाओं को शोध द्वारा डिज़ाइन किया गया है कि लोग प्रश्न में डेटा को कैसे देखते हैं।उदाहरण के लिए, मानव आंख रंग में भिन्नता की तुलना में luminance में सूक्ष्म विविधताओं के लिए अधिक संवेदनशील है।JPEG छवि संपीड़न सूचना के गैर -बिट्स को गोल करके भाग में काम करता है।[14] कई लोकप्रिय संपीड़न प्रारूप इन अवधारणात्मक अंतरों का फायदा उठाते हैं, जिसमें ध्वनि के लिए मनो विश्लेषण, और छवियों और वीडियो के लिए मनोचिकित्सा शामिल हैं।
हानिपूर्ण संपीड़न के अधिकांश रूप ट्रांसफ़ॉर्म कोडिंग पर आधारित होते हैं, विशेष रूप से असतत कोसाइन परिवर्तन (डीसीटी)।यह पहली बार 1972 में एन। अहमद द्वारा प्रस्तावित किया गया था, जिन्होंने जनवरी 1974 में इसे शुरू करने से पहले 1973 में टी। नटराजन और के। आर। राव के साथ एक कामकाजी एल्गोरिथ्म विकसित किया था।[15][16]DCT सबसे व्यापक रूप से इस्तेमाल किया जाने वाला हानि संपीड़न विधि है, और इसका उपयोग छवि संपीड़न (जैसे JPEG और HEIF ) के लिए मल्टीमीडिया प्रारूपों में किया जाता है,[17]वीडियो संपीड़न (जैसे कि MPEG , H.264/AVC और HEVC) और ऑडियो (जैसे MP3 , उन्नत ऑडियो कोडिंग और VORBIS)।
भंडारण क्षमता बढ़ाने के लिए, डिजिटल कैमरा में हानिपूर्ण छवि संपीड़न का उपयोग किया जाता है।इसी तरह, डीवीडी , ब्लू-राई और स्ट्रीमिंग वीडियो हानि वीडियो कोडिंग प्रारूपों का उपयोग करते हैं।वीडियो में बड़े पैमाने पर संपीड़न का बड़े पैमाने पर उपयोग किया जाता है।
हानिपूर्ण ऑडियो संपीड़न में, श्रव्य संकेत के गैर-ऑडिबल (या कम श्रव्य) घटकों को हटाने के लिए मनोविश्लेषण के तरीकों का उपयोग किया जाता है।मानव भाषण का संपीड़न अक्सर और भी अधिक विशिष्ट तकनीकों के साथ किया जाता है;स्पीच कोडिंग को सामान्य-उद्देश्य ऑडियो संपीड़न से एक अलग अनुशासन के रूप में प्रतिष्ठित किया जाता है।स्पीच कोडिंग का उपयोग इंटरनेट टेलीफ़ोनी में किया जाता है, उदाहरण के लिए, ऑडियो संपीड़न का उपयोग सीडी रिपिंग के लिए किया जाता है और इसे ऑडियो खिलाड़ियों द्वारा डिकोड किया जाता है।[8]
हानिपूर्ण संपीड़न से पीढ़ी के नुकसान का कारण बन सकता है।
सिद्धांत
संपीड़न के लिए सैद्धांतिक आधार सूचना सिद्धांत द्वारा प्रदान किया जाता है और, विशेष रूप से, दोषरहित संपीड़न के लिए एल्गोरिथम सूचना सिद्धांत और हानि संपीड़न के लिए दर -विवाद सिद्धांत।अध्ययन के इन क्षेत्रों को अनिवार्य रूप से क्लाउड शैनन द्वारा बनाया गया था, जिन्होंने 1940 के दशक के अंत और 1950 के दशक की शुरुआत में इस विषय पर मौलिक पत्र प्रकाशित किए थे।संपीड़न से जुड़े अन्य विषयों में कोडिंग सिद्धांत और सांख्यिकीय अनुमान शामिल हैं।[18]
मशीन लर्निंग
मशीन लर्निंग और संपीड़न के बीच घनिष्ठ संबंध है।एक प्रणाली जो अपने पूरे इतिहास को दिए गए अनुक्रम की पोस्टीरियर संभावनाओं की भविष्यवाणी करती है, इसका उपयोग इष्टतम डेटा संपीड़न (आउटपुट वितरण पर अंकगणित कोडिंग का उपयोग करके) के लिए किया जा सकता है।इसके विपरीत, एक इष्टतम कंप्रेसर का उपयोग भविष्यवाणी के लिए किया जा सकता है (प्रतीक को खोजकर जो पिछले इतिहास को देखते हुए सबसे अच्छा संकुचित करता है)।इस तुल्यता का उपयोग सामान्य बुद्धि के लिए एक बेंचमार्क के रूप में डेटा संपीड़न का उपयोग करने के औचित्य के रूप में किया गया है।[19][20][21]
एक वैकल्पिक दृश्य संपीड़न एल्गोरिदम को निहित सुविधा अंतरिक्ष वैक्टर में स्पष्ट रूप से मैप स्ट्रिंग्स दिखा सकता है, और संपीड़न-आधारित समानता उपाय इन फीचर रिक्त स्थान के भीतर समानता की गणना करते हैं।प्रत्येक कंप्रेसर c (।) के लिए हम एक संबद्ध वेक्टर स्पेस को परिभाषित करते हैं, जैसे कि c (।) एक इनपुट स्ट्रिंग x को मैप करता है, वेक्टर मानदंड के अनुरूप || ~ x ||सभी संपीड़न एल्गोरिदम को अंतर्निहित सुविधा स्थानों की एक विस्तृत परीक्षा अंतरिक्ष द्वारा रोक दी गई है;इसके बजाय, फीचर वैक्टर तीन प्रतिनिधि दोषरहित संपीड़न विधियों, LZW, LZ77 और PPM की जांच करने के लिए चुनता है।[22]
Aixi थ्योरी के अनुसार, हटर पुरस्कार में सीधे एक कनेक्शन अधिक समझाया गया है, इस तरह का सबसे अच्छा संभव संपीड़न सबसे छोटा संभव सॉफ्टवेयर है जो एक्स उत्पन्न करता है।उदाहरण के लिए, उस मॉडल में, एक ज़िप फ़ाइल के संपीड़ित आकार में ज़िप फ़ाइल और अनजिंग सॉफ्टवेयर दोनों शामिल हैं, क्योंकि आप इसे दोनों के बिना अनजान नहीं कर सकते हैं, लेकिन एक भी छोटा संयुक्त रूप हो सकता है।
डेटा विभेदक
डेटा संपीड़न को डेटा भिन्नता के एक विशेष मामले के रूप में देखा जा सकता है।[23][24]डेटा डिफरेंसिंग में एक स्रोत और एक लक्ष्य को देखते हुए एक अंतर का उत्पादन होता है, जिसमें एक स्रोत और एक अंतर दिए गए लक्ष्य को पुन: पेश करने के साथ।चूंकि डेटा संपीड़न में कोई अलग स्रोत और लक्ष्य नहीं है, इसलिए कोई भी डेटा संपीड़न को खाली स्रोत डेटा के साथ डेटा विभेदन के रूप में मान सकता है, कुछ भी नहीं से अंतर के अनुरूप संपीड़ित फ़ाइल।यह पूर्ण एन्ट्रापी (सूचना सिद्धांत) (डेटा संपीड़न के अनुरूप) पर विचार करने के समान है, जो बिना किसी प्रारंभिक डेटा के सापेक्ष एन्ट्रापी (डेटा भिन्नता के अनुरूप) के एक विशेष मामले के रूप में है।
डेटा डिफरेंसिंग कनेक्शन पर जोर देने के लिए टर्म डिफरेंशियल कम्प्रेशन शब्द का उपयोग किया जाता है।
उपयोग
छवि
एन्ट्रॉपी कोडन की उत्पत्ति 1940 के दशक में शैनन -फानो कोडिंग की शुरूआत के साथ हुई,[25]हफमैन कोडिंग का आधार जो 1950 में विकसित किया गया था।[26]1960 के दशक के उत्तरार्ध में ट्रांसफॉर्म कोडिंग की तारीखें, 1968 में फास्ट फूरियर ट्रांसफॉर्म (एफएफटी) कोडिंग और 1969 में हदामार्ड ट्रांसफॉर्म की शुरूआत के साथ।[27]
एक महत्वपूर्ण छवि संपीड़न तकनीक 1970 के दशक की शुरुआत में विकसित की गई एक तकनीक है।[15]DCT JPEG के लिए आधार है, एक हानिपूर्ण संपीड़न प्रारूप जो 1992 में संयुक्त फोटोग्राफिक विशेषज्ञों समूह (JPEG) द्वारा पेश किया गया था।[28] JPEG छवि गुणवत्ता में अपेक्षाकृत कम कमी की लागत पर एक छवि का प्रतिनिधित्व करने के लिए आवश्यक डेटा की मात्रा को कम करता है और सबसे व्यापक रूप से उपयोग की जाने वाली छवि फ़ाइल प्रारूप बन गया है।[29][30] इसका अत्यधिक कुशल डीसीटी-आधारित संपीड़न एल्गोरिथ्म डिजिटल छवियों और डिजिटल तस्वीरों के व्यापक प्रसार के लिए काफी हद तक जिम्मेदार था।[31] Lempel -Ziv -Welch (LZW) 1984 में विकसित एक दोषरहित संपीड़न एल्गोरिथ्म है। इसका उपयोग GIF प्रारूप में किया जाता है, जिसे 1987 में पेश किया गया था।[32] 1996 में निर्दिष्ट एक दोषरहित संपीड़न एल्गोरिथ्म को हवा निकालना , पोर्टेबल नेटवर्क ग्राफ़िक्स (पीएनजी) प्रारूप में उपयोग किया जाता है।[33] वेवलेट संपीड़न, छवि संपीड़न में तरंगों का उपयोग, डीसीटी कोडिंग के विकास के बाद शुरू हुआ।[34]JPEG 2000 मानक 2000 में पेश किया गया था।[35] मूल JPEG प्रारूप द्वारा उपयोग किए जाने वाले DCT एल्गोरिथ्म के विपरीत, JPEG 2000 इसके बजाय असतत तरंग रूपांतरण (DWT) एल्गोरिदम का उपयोग करता है।[36][37][38] JPEG 2000 तकनीक, जिसमें मोशन JPEG 2000 एक्सटेंशन शामिल है, को 2004 में अंकीय सिनेमा के लिए वीडियो कोडिंग मानक के रूप में चुना गया था।[39]
ऑडियो
ऑडियो डेटा संपीड़न, गतिशील रेंज संपीड़न के साथ भ्रमित नहीं होने के लिए, ट्रांसमिशन बैंडविड्थ (कम्प्यूटिंग) और ऑडियो डेटा की भंडारण आवश्यकताओं को कम करने की क्षमता है।Codecs#ऑडियो की सूची ऑडियो कोडेक के रूप में सॉफ्टवेयर में लागू की जाती है।हानिपूर्ण और दोषरहित संपीड़न दोनों में, अतिरेक (सूचना सिद्धांत) को कम कर दिया जाता है, कोडिंग सिद्धांत, परिमाणीकरण (सिग्नल प्रोसेसिंग), असतत कोसाइन ट्रांसफॉर्म और रैखिक भविष्यवाणी जैसे तरीकों का उपयोग करते हुए, जो कि असम्पीडित डेटा का प्रतिनिधित्व करने के लिए उपयोग की जाने वाली जानकारी की मात्रा को कम करते हैं।
हानि ऑडियो संपीड़न एल्गोरिदम उच्च संपीड़न प्रदान करते हैं और वोरबिस और एमपी 3 सहित कई ऑडियो अनुप्रयोगों में उपयोग किए जाते हैं।ये एल्गोरिदम लगभग सभी कम श्रव्य ध्वनियों की निष्ठा को खत्म करने या कम करने के लिए मनोविश्लेषण पर भरोसा करते हैं, जिससे उन्हें स्टोर या संचारित करने के लिए आवश्यक स्थान को कम किया जाता है।[2][40] ऑडियो गुणवत्ता और संचरण या भंडारण आकार के नुकसान के बीच स्वीकार्य व्यापार-बंद आवेदन पर निर्भर करता है।उदाहरण के लिए, एक 640 एमबी कॉम्पैक्ट डिस्क (सीडी) लगभग एक घंटे का असम्पीडित उच्च निष्ठा संगीत, 2 घंटे से कम संगीत संपीड़ित हानिकारक, या 7 घंटे से कम संगीत एमपी 3 प्रारूप में एक मध्यम बिट दर पर संपीड़ित होता है।एक डिजिटल साउंड रिकॉर्डर आमतौर पर 640 एमबी में स्पष्ट रूप से समझदार भाषण के लगभग 200 घंटे स्टोर कर सकता है।[41]
दोषरहित ऑडियो संपीड़न डिजिटल डेटा का एक प्रतिनिधित्व करता है जिसे मूल के सटीक डिजिटल डुप्लिकेट के लिए डिकोड किया जा सकता है।संपीड़न अनुपात मूल आकार के लगभग 50-60% हैं,[42]जो कि जेनेरिक दोषरहित डेटा संपीड़न के लिए समान है।दोषरहित कोडेक सिग्नल का आकलन करने के लिए एक आधार के रूप में वक्र फिटिंग या रैखिक भविष्यवाणी का उपयोग करते हैं।अनुमान का वर्णन करने वाले पैरामीटर और अनुमान और वास्तविक संकेत के बीच अंतर को अलग से कोडित किया जाता है।[43]
कई दोषरहित ऑडियो संपीड़न प्रारूप मौजूद हैं। एक सूची के लिए कोडेक्स#दोषरहित संपीड़न की सूची देखें। कुछ प्रारूप एक अलग प्रणाली से जुड़े होते हैं, जैसे कि प्रत्यक्ष धारा अंतरण , सुपर ऑडियो सीडी और मेरिडियन दोषरहित पैकिंग में उपयोग किया जाता है, जिसका उपयोग DVD ऑडियो , डॉल्बी ट्रूहद , ब्लू-रे और एचडी डीवीडी में किया जाता है।
कुछ ऑडियो फ़ाइल स्वरूपों में एक हानिपूर्ण प्रारूप और एक दोषरहित सुधार का संयोजन होता है; यह सुधार को आसानी से एक हानिपूर्ण फ़ाइल प्राप्त करने की अनुमति देता है। इस तरह के प्रारूपों में MPEG-4 SLS (स्केलेबल टू लॉसलेस), WAVPACK और ITTEMFROG ड्यूलस्ट्रीम शामिल हैं।
जब ऑडियो फ़ाइलों को संसाधित किया जाना है, या तो आगे संपीड़न द्वारा या ऑडियो संपादन के लिए, यह एक अपरिवर्तित मूल (असम्पीडित या दोषरहित रूप से संपीड़ित) से काम करने के लिए वांछनीय है। किसी उद्देश्य के लिए एक हानिकारक संपीड़ित फ़ाइल का प्रसंस्करण आमतौर पर एक असम्पीडित मूल से एक ही संपीड़ित फ़ाइल के निर्माण के लिए एक अंतिम परिणाम हीन होता है। ध्वनि संपादन या मिश्रण के अलावा, दोषरहित ऑडियो संपीड़न का उपयोग अक्सर अभिलेखीय भंडारण के लिए, या मास्टर प्रतियों के रूप में किया जाता है।
हानि ऑडियो संपीड़न
हानि ऑडियो संपीड़न का उपयोग अनुप्रयोगों की एक विस्तृत श्रृंखला में किया जाता है।एमपी 3 खिलाड़ियों या कंप्यूटरों में फाइल प्लेबैक के केवल स्टैंडअलोन ऑडियो-केवल एप्लिकेशन के अलावा, डिजिटल रूप से संपीड़ित ऑडियो स्ट्रीम का उपयोग अधिकांश वीडियो डीवीडी, डिजिटल टेलीविजन, इंटरनेट पर स्ट्रीमिंग मीडिया, सैटेलाइट और केबल रेडियो में किया जाता है, और टेरस्ट्रियल रेडियो प्रसारण में तेजी से होता है।हानिपूर्ण संपीड़न आमतौर पर मनो विश्लेषण अनुकूलन के आधार पर कम-आलोचनात्मक डेटा को छोड़कर, दोषरहित संपीड़न की तुलना में कहीं अधिक संपीड़न प्राप्त करता है।[44]
मनोविश्लेषक मानता है कि ऑडियो स्ट्रीम में सभी डेटा मानव श्रवण प्रणाली द्वारा नहीं माना जा सकता है।अधिकांश हानिपूर्ण संपीड़न पहले अवधारणात्मक रूप से अप्रासंगिक ध्वनियों की पहचान करके अतिरेक को कम कर देता है, अर्थात लगता है कि सुनने में बहुत मुश्किल है।विशिष्ट उदाहरणों में उच्च आवृत्तियों या ध्वनियों को शामिल किया जाता है जो एक ही समय में लाउड साउंड्स के रूप में होते हैं।उन अप्रासंगिक ध्वनियों को कम सटीकता के साथ कोडित किया जाता है या बिल्कुल नहीं।
हानिपूर्ण एल्गोरिदम की प्रकृति के कारण, ऑडियो गुणवत्ता एक डिजिटल पीढ़ी के नुकसान का सामना करती है जब एक फ़ाइल को विघटित और पुन: व्यवस्थित किया जाता है।यह पेशेवर ऑडियो इंजीनियरिंग अनुप्रयोगों में मध्यवर्ती परिणामों को संग्रहीत करने के लिए हानिकारक संपीड़न को अनुपयुक्त बनाता है, जैसे कि साउंड एडिटिंग और मल्टीट्रैक रिकॉर्डिंग।हालांकि, एमपी 3 जैसे हानिपूर्ण प्रारूप अंत-उपयोगकर्ताओं के साथ बहुत लोकप्रिय हैं क्योंकि फ़ाइल का आकार मूल आकार के 5-20% तक कम हो जाता है और एक मेगाबाइट पर्याप्त गुणवत्ता पर एक मिनट के संगीत के बारे में एक मिनट के लायक हो सकता है।
कोडिंग विधियाँ
यह निर्धारित करने के लिए कि एक ऑडियो सिग्नल में क्या जानकारी अवधारणात्मक रूप से अप्रासंगिक है, अधिकांश हानि संपीड़न एल्गोरिदम परिवर्तन का उपयोग करते हैं जैसे कि संशोधित असतत कोसाइन ट्रांसफॉर्म (MDCT) समय डोमेन नमूना तरंगों को एक ट्रांसफ़ॉर्म डोमेन में परिवर्तित करने के लिए, आमतौर पर आवृत्ति डोमेन में।एक बार रूपांतरित होने के बाद, घटक आवृत्तियों को प्राथमिकता दी जा सकती है कि वे कितने श्रव्य हैं।वर्णक्रमीय घटकों की ऑडिबिलिटी का मूल्यांकन सुनने की पूर्ण सीमा और एक साथ मास्किंग के सिद्धांतों का उपयोग करके किया जाता है - घटना जिसमें एक संकेत आवृत्ति द्वारा अलग किए गए एक अन्य सिग्नल द्वारा मास्क किया जाता है - और, कुछ मामलों में, टेम्पोरल मास्किंग -जहां एक सिग्नल एक अन्य सिग्नल द्वारा मास्क किया जाता है।समय के साथ अलग हो गया।घटकों के अवधारणात्मक महत्व को तौलने के लिए समान-लाउडनेस आकृति का भी उपयोग किया जा सकता है।इस तरह के प्रभावों को शामिल करने वाले मानव कान-मस्तिष्क संयोजन के मॉडल को अक्सर मनोविश्लेषण मॉडल कहा जाता है।[45]
अन्य प्रकार के हानिपूर्ण कंप्रेशर्स, जैसे कि रैखिक भविष्य कहनेवाला कोडिंग (एलपीसी) का उपयोग भाषण के साथ किया जाता है, स्रोत-आधारित कोडर्स हैं।एलपीसी भाषण ध्वनियों का विश्लेषण करने के लिए मानव मुखर पथ के एक मॉडल का उपयोग करता है और मॉडल द्वारा उपयोग किए जाने वाले मापदंडों का अनुमान लगाता है ताकि उन्हें पल -पल का उत्पादन किया जा सके।ये बदलते मापदंडों को प्रेषित या संग्रहीत किया जाता है और डिकोडर में एक और मॉडल को चलाने के लिए उपयोग किया जाता है जो ध्वनि को पुन: पेश करता है।
घातक प्रारूपों का उपयोग अक्सर स्ट्रीमिंग ऑडियो या इंटरैक्टिव संचार (जैसे सेल फोन नेटवर्क में) के वितरण के लिए किया जाता है।ऐसे अनुप्रयोगों में, डेटा प्रवाह के रूप में डेटा को विघटित किया जाना चाहिए, बजाय इसके कि पूरे डेटा स्ट्रीम को प्रेषित किया गया है।सभी ऑडियो कोडेक का उपयोग स्ट्रीमिंग अनुप्रयोगों के लिए नहीं किया जा सकता है।[44]
विलंबता (इंजीनियरिंग) को डेटा को एनकोड और डिकोड करने के लिए उपयोग किए जाने वाले तरीकों से पेश किया जाता है। कुछ कोडेक एक लंबे खंड का विश्लेषण करेंगे, जो दक्षता का अनुकूलन करने के लिए डेटा का एक फ्रेम कहा जाता है, और फिर इसे इस तरह से कोडित करेगा कि डिकोड करने के लिए एक समय में डेटा के एक बड़े सेगमेंट की आवश्यकता होती है। कोडिंग एल्गोरिथ्म की अंतर्निहित विलंबता महत्वपूर्ण हो सकती है; उदाहरण के लिए, जब डेटा का दो-तरफ़ा ट्रांसमिशन होता है, जैसे कि टेलीफोन बातचीत के साथ, महत्वपूर्ण देरी कथित गुणवत्ता को गंभीरता से कम कर सकती है।
संपीड़न की गति के विपरीत, जो एल्गोरिथ्म द्वारा आवश्यक संचालन की संख्या के लिए आनुपातिक है, यहां विलंबता उन नमूनों की संख्या को संदर्भित करती है, जिन्हें ऑडियो के एक ब्लॉक से पहले विश्लेषण किया जाना चाहिए। न्यूनतम मामले में, विलंबता शून्य नमूने है (जैसे, यदि कोडर/डिकोडर सिग्नल को मात्राबद्ध करने के लिए उपयोग किए जाने वाले बिट्स की संख्या को कम कर देता है)। एलपीसी जैसे समय डोमेन एल्गोरिदम में भी अक्सर कम विलंबता होती है, इसलिए टेलीफोनी के लिए भाषण कोडिंग में उनकी लोकप्रियता। एमपी 3 जैसे एल्गोरिदम में, हालांकि, आवृत्ति डोमेन में एक मनोविश्लेषण मॉडल को लागू करने के लिए बड़ी संख्या में नमूनों का विश्लेषण किया जाना चाहिए, और विलंबता 23 & nbsp; एमएस के आदेश पर है।
भाषण एन्कोडिंग
भाषण एन्कोडिंग ऑडियो डेटा संपीड़न की एक महत्वपूर्ण श्रेणी है।अवधारणात्मक मॉडल यह अनुमान लगाने के लिए उपयोग किए जाते हैं कि एक मानव कान के भाषण के कौन से पहलू सुन सकते हैं, आमतौर पर संगीत के लिए उपयोग किए जाने वाले लोगों से कुछ अलग हैं।मानवीय आवाज की आवाज़ों को व्यक्त करने के लिए आवश्यक आवृत्तियों की सीमा सामान्य रूप से संगीत के लिए आवश्यक की तुलना में बहुत अधिक संकीर्ण है, और ध्वनि सामान्य रूप से कम जटिल है।नतीजतन, भाषण को अपेक्षाकृत कम बिट दर का उपयोग करके उच्च गुणवत्ता पर एन्कोड किया जा सकता है।
यह सामान्य रूप से, दो दृष्टिकोणों के कुछ संयोजन द्वारा पूरा किया जाता है:
- केवल एन्कोडिंग ध्वनियों को एक ही मानवीय आवाज द्वारा बनाया जा सकता है।
- सिग्नल में डेटा को और अधिक फेंकना - मानव सुनवाई (सेंस) की पूर्ण आवृत्ति रेंज के बजाय एक समझदार आवाज को फिर से बनाने के लिए पर्याप्त है।
भाषण एन्कोडिंग (और सामान्य रूप से ऑडियो डेटा संपीड़न) में उपयोग किए जाने वाले शुरुआती एल्गोरिदम ए-लॉ एल्गोरिथ्म और μ- कानून एल्गोरिथ्म थे।
इतिहास
बेल लैब्स में प्रारंभिक ऑडियो अनुसंधान आयोजित किया गया था।वहां, 1950 में, सी। चैपिन कटलर ने विभेदक पल्स-कोड मॉड्यूलेशन (DPCM) पर पेटेंट दायर किया।[46]1973 में, अनुकूली DPCM (एडीपीसीएम) को पी। कमिसकी, निकिल जयंत | निकिल एस। जयंत और जेम्स एल। फ्लैगन द्वारा पेश किया गया था।[47][48] रेखीय कोडिंग संपीड़न के लिए सबसे पहले, रेखीय भविष्य कहनेवाला कोडिंग (एलपीसी) के साथ अवधारणात्मक कोडिंग का उपयोग किया गया था।[49] एलपीसी के लिए प्रारंभिक अवधारणाएं 1966 में फुमितादा इताकुरा (नागोया विश्वविद्यालय ) और शुजो सैटो (निप्पॉन टेलीग्राफ और टेलीफोन ) के काम के लिए वापस आ गईं।[50] 1970 के दशक के दौरान, बेल लैब्स में बिशनू एस। अटल और मैनफ्रेड आर। श्रोएडर ने एलपीसी का एक रूप विकसित किया, जिसे अनुकूली भविष्य कहनेवाला कोडिंग (एपीसी) कहा जाता था, एक अवधारणात्मक कोडिंग एल्गोरिथ्म जिसने मानव कान के मास्किंग गुणों का शोषण किया, 1980 के दशक की शुरुआत में 1980 के दशक में इसके बाद के साथ किया।कोड-उत्तेजित रैखिक भविष्यवाणी (CELP) एल्गोरिथ्म जिसने अपने समय के लिए एक महत्वपूर्ण संपीड़न अनुपात प्राप्त किया।[49]अवधारणात्मक कोडिंग का उपयोग आधुनिक ऑडियो संपीड़न प्रारूपों जैसे एमपी 3 द्वारा किया जाता है[49]और उन्नत ऑडियो कोडेक ।
1974 में एन। अहमद, टी। नटराजन और के। आर। राव द्वारा विकसित असतत कोसाइन ट्रांसफॉर्म (डीसीटी),[16]आधुनिक ऑडियो संपीड़न प्रारूपों जैसे एमपी 3 द्वारा उपयोग किए जाने वाले संशोधित असतत कोसाइन ट्रांसफॉर्म (एमडीसीटी) के लिए आधार प्रदान किया गया,[51] डॉल्बी डिजिटल ,[52][53] और एएसी।[54] एमडीसीटी को जे। पी। प्रिंसेन, ए। डब्ल्यू। जॉनसन और ए। बी। ब्रैडली ने 1987 में प्रस्तावित किया था,[55] 1986 में प्रिंसन और ब्रैडली द्वारा पहले के काम के बाद।[56] दुनिया का पहला वाणिज्यिक प्रसारण स्वचालन ऑडियो संपीड़न प्रणाली ऑस्कर बोनेलो द्वारा विकसित की गई थी, जो ब्यूनस आयर्स विश्वविद्यालय में एक इंजीनियरिंग प्रोफेसर है।[57][failed verification] 1983 में, 1967 में पहली बार प्रकाशित क्रिटिकल बैंड के मास्किंग के मनोचिकित्सा सिद्धांत का उपयोग करते हुए,[58]उन्होंने हाल ही में विकसित आईबीएम पीसी कंप्यूटर के आधार पर एक व्यावहारिक अनुप्रयोग विकसित करना शुरू कर दिया, और प्रसारण स्वचालन प्रणाली को 1987 में ऑडिकॉम के नाम से लॉन्च किया गया था।बीस साल बाद, दुनिया के लगभग सभी रेडियो स्टेशन कई कंपनियों द्वारा निर्मित समान तकनीक का उपयोग कर रहे थे।
ऑडियो कोडिंग सिस्टम की एक बड़ी विविधता के लिए एक साहित्य संकलन, फरवरी 1988 में IEEE's जर्नल ऑन चयने्टेड एरियाज इन कम्युनिकेशंस (JSAC) में प्रकाशित किया गया था। जबकि उस समय से पहले से कुछ पेपर थे, इस संग्रह ने पूरी तरह से समाप्त कर दिया, काम कर रहे थे, काम कर रहे थे, काम कर रहे थे।ऑडियो कोडर्स, उनमें से लगभग सभी अवधारणात्मक तकनीकों और कुछ प्रकार के आवृत्ति विश्लेषण और बैक-एंड नीरव कोडिंग का उपयोग करते हैं।[59]
वीडियो
असम्पीडित वीडियो के ल