स्पीच कोडिंग

भाषण कोडिंग स्पीच वाले डिजिटल ऑडियो सिग्नल के आधार - सामग्री संकोचन का एक अनुप्रयोग है। स्पीच कोडिंग ऑडियो सिग्नल प्रोसेसिंग तकनीकों का उपयोग करके स्पीच सिग्नल को मॉडल करने के लिए स्पीच-विशिष्ट पैरामीटर अनुमान का उपयोग करती है, जो एक कॉम्पैक्ट बिटस्ट्रीम में परिणामी मॉडल किए गए मापदंडों का प्रतिनिधित्व करने के लिए जेनेरिक डेटा कम्प्रेशन एल्गोरिदम के साथ संयुक्त है। स्पीच कोडिंग के कुछ अनुप्रयोग मोबाइल टेलीफोनी और आईपी ​​पर आवाज (वीओआईपी) हैं। मोबाइल टेलीफोनी में सबसे व्यापक रूप से उपयोग की जाने वाली स्पीच कोडिंग तकनीक रैखिक भविष्य कहनेवाला कोडिंग  (LPC) है, जबकि वीओआईपी अनुप्रयोगों में सबसे व्यापक रूप से उपयोग की जाने वाली LPC और संशोधित संशोधित असतत कोसाइन परिवर्तनMDCT) तकनीकें हैं।

भाषण कोडिंग में नियोजित तकनीकें ऑडियो डेटा संपीड़न और ऑडियो कोडिंग में उपयोग की जाने वाली तकनीकों के समान होती हैं, जहां मनोविज्ञान में ज्ञान केवल मानव श्रवण प्रणाली के लिए प्रासंगिक डेटा संचारित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, वॉयसबैंड  स्पीच कोडिंग में, केवल 400 से 3500 Hz फ़्रीक्वेंसी बैंड में सूचना प्रसारित की जाती है, लेकिन फिर से निर्मित सिग्नल अभी भी इंटेलीजेंसी (संचार) के लिए पर्याप्त है।

स्पीच कोडिंग ऑडियो कोडिंग के अन्य रूपों से भिन्न होती है क्योंकि स्पीच अधिकांश अन्य ऑडियो सिग्नलों की तुलना में एक सरल संकेत है, और स्पीच के गुणों के बारे में बहुत अधिक सांख्यिकीय जानकारी उपलब्ध है। नतीजतन, ऑडियो कोडिंग में प्रासंगिक कुछ श्रवण जानकारी भाषण कोडिंग संदर्भ में अनावश्यक हो सकती है। भाषण कोडिंग में, सबसे महत्वपूर्ण मानदंड संचरित डेटा की सीमित मात्रा के साथ, भाषण की सुगमता और सुखदता का संरक्षण है। इसके अलावा, अधिकांश वाक् अनुप्रयोगों में कम कोडिंग विलंब की आवश्यकता होती है, क्योंकि लंबे कोडिंग विलंब वाक् अंतःक्रिया में हस्तक्षेप करते हैं।

श्रेणियां
स्पीच कोडर दो प्रकार के होते हैं:
 * 1) वेवफॉर्म कोडर
 * 2) * टाइम-डोमेन: पीसीएम, एडीपीसीएम
 * 3) * फ़्रीक्वेंसी-डोमेन: उप-बैंड कोडिंग, अनुकूली रूपांतरण ध्वनिक कोडिंग
 * 4)  vocoder ्स
 * 5) * लीनियर प्रेडिक्टिव कोडिंग (LPC)
 * 6) * फॉर्मेंट संश्लेषण

सैंपल कंपैंडिंग को स्पीच कोडिंग
के रूप में देखा जाता है पारंपरिक पल्स कोड मॉडुलेशन  डिजिटल टेलीफोनी में उपयोग किए जाने वाले ए-लॉ एल्गोरिद्म|ए-लॉ और ए-कानून एल्गोरिदम (जी.711) को स्पीच एन्कोडिंग के पहले के अग्रदूत के रूप में देखा जा सकता है, जिसके लिए प्रति नमूना केवल 8 बिट की आवश्यकता होती है लेकिन प्रभावी रूप से 12 बिट देता है। संकल्प का। लॉगरिदमिक कंपाउंडिंग कानून मानव श्रवण धारणा के अनुरूप हैं जिसमें एक कम-आयाम वाले शोर को कम-आयाम वाले भाषण संकेत के साथ सुना जाता है, लेकिन एक उच्च-आयाम वाले द्वारा नकाबपोश किया जाता है। यद्यपि यह एक संगीत संकेत में अस्वीकार्य विरूपण उत्पन्न करेगा, वाक् तरंगों की चरम प्रकृति, वाक् की सरल आवृत्ति संरचना के साथ मिलकर आवधिक कार्य के रूप में एकल मूलभूत आवृत्ति के साथ कभी-कभी जोड़े गए शोर फटने के साथ, इन बहुत ही सरल तात्कालिक संपीड़न एल्गोरिदम को स्वीकार्य बनाते हैं भाषण।

उस समय अन्य एल्गोरिदम की एक विस्तृत विविधता की कोशिश की गई थी, ज्यादातर डेल्टा मॉड्यूलेशन वेरिएंट, लेकिन सावधानीपूर्वक विचार करने के बाद, ए-लॉ/μ-लॉ एल्गोरिदम को शुरुआती डिजिटल टेलीफोनी सिस्टम के डिजाइनरों द्वारा चुना गया था। उनके डिजाइन के समय, बहुत कम जटिलता के लिए उनकी 33% बैंडविड्थ की कमी ने एक उत्कृष्ट इंजीनियरिंग समझौता किया। उनका ऑडियो प्रदर्शन स्वीकार्य रहता है, और स्थिर फ़ोन नेटवर्क में उन्हें बदलने की कोई आवश्यकता नहीं थी।

2008 में, G.711.1 कोडेक, जिसकी एक स्केलेबल संरचना है, ITU-T द्वारा मानकीकृत किया गया था। इनपुट सैंपलिंग रेट 16 kHz है।

आधुनिक भाषण संपीड़न
स्पीच कंप्रेशन में बाद के अधिकांश कार्य सुरक्षित आवाज के लिए डिजिटल संचार में सैन्य अनुसंधान से प्रेरित थे, जहां शत्रुतापूर्ण रेडियो वातावरण में प्रभावी संचालन प्राप्त करने के लिए बहुत कम डेटा दरों का उपयोग किया गया था। उसी समय, बहुत बड़े पैमाने पर एकीकरण के रूप में, पहले की संपीड़न तकनीकों की तुलना में कहीं अधिक प्रसंस्करण शक्ति उपलब्ध थी। नतीजतन, आधुनिक भाषण संपीड़न एल्गोरिदम 1960 के दशक में उपलब्ध उच्च संपीड़न अनुपात प्राप्त करने की तुलना में कहीं अधिक जटिल तकनीकों का उपयोग कर सकते थे।

ये तकनीकें नागरिक अनुप्रयोगों के लिए उपयोग किए जाने वाले खुले अनुसंधान साहित्य के माध्यम से उपलब्ध थीं, जिससे डिजिटल मोबाइल फोन नेटवर्क के निर्माण की अनुमति मिलती है, जो उनके पहले के एनालॉग सिस्टम की तुलना में काफी अधिक चैनल क्षमता वाले होते हैं।

सबसे व्यापक रूप से इस्तेमाल किया जाने वाला स्पीच कोडिंग एल्गोरिदम लीनियर प्रेडिक्टिव कोडिंग (LPC) पर आधारित है। विशेष रूप से, सबसे आम भाषण कोडिंग योजना एलपीसी-आधारित कोड-उत्साहित [[रैखिक भविष्यवाणी]] (सीईएलपी) कोडिंग है, जिसका प्रयोग जीएसएम मानक में उदाहरण के लिए किया जाता है। CELP में, मॉडलिंग को दो चरणों में विभाजित किया गया है, एक रेखीय भविष्यवाणी चरण जो वर्णक्रमीय आवरण और रेखीय भविष्य कहनेवाला मॉडल के अवशिष्ट का एक कोड-बुक-आधारित मॉडल है। CELP में, रैखिक भविष्यवाणी गुणांक (LPC) की गणना और मात्रा निर्धारित की जाती है, आमतौर पर रेखा वर्णक्रमीय जोड़े (LSPs) के रूप में। सिग्नल की वास्तविक स्पीच कोडिंग के अलावा, ट्रांसमिशन त्रुटियों के कारण होने वाले नुकसान से बचने के लिए, ट्रांसमिशन के लिए चैनल कोडिंग का उपयोग करना अक्सर आवश्यक होता है। सर्वोत्तम समग्र कोडिंग परिणाम प्राप्त करने के लिए, स्पीच कोडिंग और चैनल कोडिंग विधियों को जोड़े में चुना जाता है, स्पीच डेटा स्ट्रीम में अधिक महत्वपूर्ण बिट्स के साथ अधिक मजबूत चैनल कोडिंग द्वारा संरक्षित किया जाता है।

संशोधित असतत कोसाइन परिवर्तन (MDCT), एक प्रकार का असतत कोसाइन ट्रांसफ़ॉर्म (DCT) एल्गोरिथम, LD-MDCT नामक एक स्पीच कोडिंग एल्गोरिथम में अनुकूलित किया गया था, जिसका उपयोग 1999 में शुरू किए गए AAC-LD प्रारूप के लिए किया गया था। तब से एमडीसीटी को आईपी ​​पर आवाज (वीओआईपी) अनुप्रयोगों में व्यापक रूप से अपनाया गया है, जैसे कि 2006 में पेश किया गया G.729.1 वाइडबैंड ऑडियो कोडेक, Apple Inc. का फेस टाइम  (AAC-LD का उपयोग करके) 2010 में पेश किया गया, और CELT कोडेक 2011 में पेश किया गया। ओपस (ऑडियो प्रारूप) एक मुफ्त सॉफ्टवेयर ऑडियो कोडर है। यह एमडीसीटी (सीईएलटी) और एलपीसी (सिल्क) ऑडियो कम्प्रेशन एल्गोरिदम दोनों को जोड़ती है, भाषण के लिए पूर्व का उपयोग करती है। व्हाट्सप्प  में वीओआईपी कॉल के लिए इसका व्यापक रूप से उपयोग किया जाता है।   PlayStation 4 वीडियो गेम कंसोल भी अपने PlayStation नेटवर्क सिस्टम पार्टी चैट के लिए Opus का उपयोग करता है। इससे भी कम बिटरेट वाले कई कोडेक्स प्रदर्शित किए गए हैं। कोडेक2, जो 450 बिट/सेकंड जितनी कम बिट दर पर संचालित होता है, शौकिया रेडियो में इसका उपयोग देखता है। नाटो वर्तमान में मिश्रित-उत्तेजना रैखिक भविष्यवाणी का उपयोग करता है, सुपाठ्य भाषण 600 बिट/एस (एक गैर-मानक संस्करण संख्या को आधा करने के साथ) की पेशकश करता है। Google द्वारा लायरा (कोडेक) एक असामान्य मशीन लर्निंग दृष्टिकोण अपनाता है, जो लगभग 3 kbit/s पर भयानक गुणवत्ता देता है। Microsoft का साटन (कोडेक)  भी मशीन लर्निंग का उपयोग करता है, लेकिन उच्च ट्यून करने योग्य बिटरेट का उपयोग करता है और वाइडबैंड है।

उप-क्षेत्र

 * वाइडबैंड ऑडियो कोडिंग
 * लीनियर प्रेडिक्टिव कोडिंग (LPC)
 * WCDMA नेटवर्क के लिए AMR-WB
 * CDMA2000 नेटवर्क के लिए VMR-WB
 * वॉइस-ओवर-आईपी (वीओआईपी) और वीडियो कॉन्फ़्रेंसिंग के लिए स्पीक्स, आईपी-एमआर, रेशम  और ओपस (ऑडियो प्रारूप)
 * संशोधित असतत कोज्या परिवर्तन (एमडीसीटी)
 * AAC-LD, G.722.1, G.729.1, CELT और Opus VoIP और वीडियो कॉन्फ़्रेंसिंग के लिए
 * अनुकूली अंतर पल्स-कोड मॉड्यूलेशन (ADPCM)
 * वीओआईपी के लिए G.722


 * नैरोबैंड ऑडियो कोडिंग
 * एलपीसी
 * सैन्य अनुप्रयोगों के लिए एफएनबीडीटी
 * सीडीएमए नेटवर्क के लिए चयन योग्य मोड वोकोडर
 * जीएसएम नेटवर्क के लिए पूर्ण दर, आधी दर, बढ़ी हुई पूर्ण दर और अनुकूली बहु-दर
 * G.723.1, G.728, G.729, G.729.1 और iLBC वीओआईपी या वीडियो कॉन्फ़्रेंसिंग के लिए
 * एडीपीसीएम
 * वीओआईपी के लिए G.726
 * मल्टी-बैंड उत्तेजना (एमबीई)
 * मल्टी-बैंड एक्साइटमेंट | डिजिटल रेडियो मोबाइल रेडियो और उपग्रह टेलीफोन  के लिए AMBE+
 * कोडेक 2

यह भी देखें

 * अंकीय संकेत प्रक्रिया
 * भाषण इंटरफ़ेस दिशानिर्देश
 * भाषण प्रसंस्करण
 * भाषा संकलन
 * वेक्टर परिमाणीकरण

बाहरी संबंध

 * ITU-T Test Signals for Telecommunication Systems Test Samples
 * ITU-T Perceptual evaluation of speech quality (PESQ) tool Sources