स्पीच कोडिंग

स्पीच कोडिंग स्पीच वाले डिजिटल ऑडियो संकेत के डेटा कम्प्रेशन का अनुप्रयोग है। स्पीच कोडिंग, स्पीच संकेत को मॉडल करने के लिए ऑडियो संकेत प्रोसेसिंग तकनीकों का उपयोग करके स्पीच-विशिष्ट पैरामीटर अनुमान का उपयोग करती है, जो सघन बिटस्ट्रीम में परिणामी मॉडल में किए गए मापदंडों का प्रतिनिधित्व करने के लिए जेनेरिक डेटा कम्प्रेशन कलनविधि के साथ संयुक्त है।

स्पीच कोडिंग के कुछ अनुप्रयोग मोबाइल टेलीफोनी और वॉइस ओवर (वीओआईपी) हैं। मोबाइल टेलीफोनी में सबसे व्यापक रूप से उपयोग की जाने वाली स्पीच कोडिंग तकनीक रैखिक प्रेडिक्टिव कोडिंग (एलपीसी) है, जबकि वीओआईपी अनुप्रयोगों में सबसे व्यापक रूप से उपयोग की जाने वाली एलपीसी और संशोधित असतत कोसाइन परिवर्तन (एमडीसीटी) तकनीकें हैं।

स्पीच कोडिंग में नियोजित तकनीकें ऑडियो डेटा संपीड़न और ऑडियो कोडिंग में उपयोग की जाने वाली तकनीकों के समान होती हैं, जहां मनोविज्ञान में ज्ञान केवल मानव श्रवण प्रणाली के लिए प्रासंगिक डेटा संचारित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, वॉयसबैंड स्पीच कोडिंग में, केवल 400 से 3500 Hz आवृत्ति बैंड में सूचना प्रसारित की जाती है, लेकिन फिर से निर्मित संकेत अभी भी इंटेलीजेंसी (संचार) के लिए पर्याप्त है।

स्पीच कोडिंग ऑडियो कोडिंग के अन्य रूपों से भिन्न होती है क्योंकि स्पीच अधिकांश अन्य ऑडियो संकेतों की तुलना में सरल संकेत है, और स्पीच के गुणों के बारे में बहुत अधिक सांख्यिकीय जानकारी उपलब्ध है। परिणामस्वरूप, ऑडियो कोडिंग में प्रासंगिक कुछ श्रवण जानकारी स्पीच कोडिंग संदर्भ में अनावश्यक हो सकती है। स्पीच कोडिंग में, सबसे महत्वपूर्ण मानदंड संचरित डेटा की सीमित मात्रा के साथ, स्पीच की सुगमता और सुखदता का संरक्षण है। इसके अतिरिक्त, अधिकांश स्पीच अनुप्रयोगों में कम कोडिंग विलंब की आवश्यकता होती है, क्योंकि लंबे कोडिंग विलंब स्पीच अंतःक्रिया में हस्तक्षेप करते हैं।

श्रेणियां
स्पीच कोडर दो प्रकार के होते हैं:
 * 1) वेवफॉर्म कोडर
 * 2) * टाइम-डोमेन: पीसीएम, एडीपीसीएम
 * 3) * आवृत्ति-डोमेन: उप-बैंड कोडिंग, अनुकूली रूपांतरण ध्वनिक कोडिंग
 * 4)  वोकोडर्स
 * 5) * रैखिक प्रेडिक्टिव कोडिंग (एलपीसी)
 * 6) * फॉर्मेंट संश्लेषण

सैंपल कंपैंडिंग को स्पीच कोडिंग के रूप में देखा जाता है
पारंपरिक पल्स कोड मॉडुलेशन डिजिटल टेलीफोनी में उपयोग किए जाने वाले ए-नियम कलनविधि और ए-कानून कलनविधि (जी.711) को स्पीच एन्कोडिंग के पहले के अग्रदूत के रूप में देखा जा सकता है, जिसके लिए प्रति नमूना केवल 8 बिट की आवश्यकता होती है लेकिन प्रभावी रूप से 12 बिट देता है। संकल्प का। लॉगरिदमिक कंपाउंडिंग कानून मानव श्रवण धारणा के अनुरूप हैं जिसमें कम-आयाम वाले शोर को कम-आयाम वाले स्पीच संकेत के साथ सुना जाता है, लेकिन उच्च-आयाम वाले द्वारा नकाबपोश किया जाता है। यद्यपि यह संगीत संकेत में अस्वीकार्य विरूपण उत्पन्न करेगा, स्पीच तरंगों की चरम प्रकृति, स्पीच की सरल आवृत्ति संरचना के साथ मिलकर आवधिक कार्य के रूप में एकल मूलभूत आवृत्ति के साथ कभी-कभी जोड़े गए शोर फटने के साथ, इन बहुत ही सरल तात्कालिक संपीड़न कलनविधि को स्वीकार्य बनाते हैं स्पीच।

उस समय अन्य कलनविधि की विस्तृत विविधता का प्रयास किया गया था, अधिकतर डेल्टा मॉड्यूलेशन वेरिएंट, लेकिन सावधानीपूर्वक विचार करने के बाद, ए-नियम/μ-नियम कलनविधि को प्रारंभिक डिजिटल टेलीफोनी प्रणाली के डिजाइनरों द्वारा चुना गया था। उनके डिजाइन के समय, बहुत कम जटिलता के लिए उनकी 33% बैंडविड्थ की कमी ने उत्कृष्ट इंजीनियरिंग समझौता किया था। उनका ऑडियो प्रदर्शन स्वीकार्य रहता है, और स्थिर फ़ोन नेटवर्क में उन्हें परिवर्तन की कोई आवश्यकता नहीं थी।

2008 में, G.711.1 कोडेक, जिसकी स्केलेबल संरचना है, आईटीयू-टी द्वारा मानकीकृत किया गया था। इनपुट सैंपलिंग रेट 16 kHz है।

आधुनिक स्पीच संपीड़न
स्पीच कंप्रेशन में बाद के अधिकांश कार्य सुरक्षित ध्वनि के लिए डिजिटल संचार में सैन्य अनुसंधान से प्रेरित थे, जहां शत्रुतापूर्ण रेडियो वातावरण में प्रभावी संचालन प्राप्त करने के लिए बहुत कम डेटा दरों का उपयोग किया गया था। उसी समय, बहुत बड़े पैमाने पर एकीकरण के रूप में, पहले की संपीड़न तकनीकों की तुलना में कहीं अधिक प्रसंस्करण शक्ति उपलब्ध थी। परिणामस्वरूप, आधुनिक स्पीच संपीड़न कलनविधि 1960 के दशक में उपलब्ध उच्च संपीड़न अनुपात प्राप्त करने की तुलना में कहीं अधिक जटिल विधियों का उपयोग कर सकते थे।

ये तकनीकें नागरिक अनुप्रयोगों के लिए उपयोग किए जाने वाले खुले अनुसंधान साहित्य के माध्यम से उपलब्ध थीं, जिससे डिजिटल मोबाइल फोन नेटवर्क के निर्माण की अनुमति मिलती है, जो उनके पहले के एनालॉग प्रणाली की तुलना में अत्यधिक अधिक चैनल क्षमता वाले होते हैं।

सबसे व्यापक रूप से उपयोग किया जाने वाला स्पीच कोडिंग कलनविधि रैखिक प्रेडिक्टिव कोडिंग (एलपीसी) पर आधारित है। विशेष रूप से, सबसे सामान्य स्पीच कोडिंग योजना एलपीसी-आधारित कोड-उत्साहित रैखिक प्रेडिक्टिव (सीईएलपी) कोडिंग है, जिसका प्रयोग जीएसएम मानक में उदाहरण के लिए किया जाता है। सीईएलपी में, मॉडलिंग को दो चरणों में विभाजित किया गया है, रैखिक प्रेडिक्टिव चरण जो वर्णक्रमीय आवरण और रैखिक प्रेडिक्टिव मॉडल के अवशिष्ट का कोड-बुक-आधारित मॉडल है। सीईएलपी में, रैखिक प्रेडिक्टिव गुणांक (एलपीसी) की गणना और मात्रा निर्धारित की जाती है, सामान्यतः रेखा वर्णक्रमीय जोड़े (एलएसपी) के रूप में निर्धारित की जाती है। संकेत की वास्तविक स्पीच कोडिंग के अतिरिक्त, ट्रांसमिशन त्रुटियों के कारण होने वाली हानि से बचने के लिए, ट्रांसमिशन के लिए चैनल कोडिंग का उपयोग करना अधिकांशतः आवश्यक होता है। सर्वोत्तम समग्र कोडिंग परिणाम प्राप्त करने के लिए, स्पीच कोडिंग और चैनल कोडिंग विधियों को जोड़े में चुना जाता है, स्पीच डेटा स्ट्रीम में अधिक महत्वपूर्ण बिट्स के साथ अधिक दृढ़ चैनल कोडिंग द्वारा संरक्षित किया जाता है।

संशोधित असतत कोसाइन परिवर्तन (एमडीसीटी), एक प्रकार का असतत कोसाइन ट्रांसफ़ॉर्म (डीसीटी) कलनविधि, एलडी-एमडीसीटी नामक स्पीच कोडिंग कलनविधि में अनुकूलित किया गया था, जिसका उपयोग 1999 में प्रारंभ किए गए एएसी-एलडी प्रारूप के लिए किया गया था। तब से एमडीसीटी को आईपी ​​पर ध्वनि (वीओआईपी) अनुप्रयोगों में व्यापक रूप से अपनाया गया है, जैसे कि 2006 में प्रस्तुत किया गया G.729.1 वाइडबैंड ऑडियो कोडेक, एप्पल इंक. का फेस टाइम (एएसी-एलडी का उपयोग करके) 2010 में प्रस्तुत किया गया, और सीईएलटी कोडेक 2011 में प्रस्तुत किया गया था।

ओपस (ऑडियो प्रारूप) मुफ्त सॉफ्टवेयर ऑडियो कोडर है। यह एमडीसीटी (सीईएलटी) और एलपीसी (सिल्क) ऑडियो कम्प्रेशन कलनविधि दोनों को जोड़ती है, स्पीच के लिए पूर्व का उपयोग करती है। व्हाट्सप्प में वीओआईपी कॉल के लिए इसका व्यापक रूप से उपयोग किया जाता है।  प्लेस्टेशन 4 वीडियो गेम कंसोल भी अपने प्लेस्टेशन नेटवर्क प्रणाली पार्टी चैट के लिए ओपस का उपयोग करता है।

इससे भी कम बिटरेट वाले कई कोडेक्स प्रदर्शित किए गए हैं। कोडेक2, जो 450 bit/s जितनी कम बिट दर पर संचालित होता है, शौकिया रेडियो में इसका उपयोग देखता है। नाटो वर्तमान में मिश्रित-उत्तेजना रैखिक प्रेडिक्टिव का उपयोग करता है, सुपाठ्य स्पीच 600 bit/s (गैर-मानक संस्करण संख्या को आधा करने के साथ) की प्रस्तुति करता है। गूगल द्वारा लायरा (कोडेक) असामान्य मशीन लर्निंग दृष्टिकोण अपनाता है, जो लगभग 3 kbit/s पर भयानक गुणवत्ता देता है। माइक्रोसॉफ्ट का सैटिन भी मशीन लर्निंग का उपयोग करता है, लेकिन उच्च ट्यून करने योग्य बिटरेट का उपयोग करता है और वाइडबैंड है।

उप-क्षेत्र

 * वाइडबैंड ऑडियो कोडिंग
 * रैखिक प्रेडिक्टिव कोडिंग (एलपीसी)
 * डब्ल्यूसीडीएमए नेटवर्क के लिए एएमआर-डब्लूबी
 * सीडीएमए2000 नेटवर्क के लिए वीएमआर-डब्लूबी
 * वॉइस-ओवर-आईपी (वीओआईपी) और वीडियो कॉन्फ़्रेंसिंग के लिए स्पीक्स, आईपी-एमआर, सिल्क और ओपस (ऑडियो प्रारूप)
 * संशोधित असतत कोज्या परिवर्तन (एमडीसीटी)
 * एएसी-एलडी, G.722.1, G.729.1, सीईएलटी और ओपस वीओआईपी और वीडियो कॉन्फ़्रेंसिंग के लिए
 * अनुकूली अंतर पल्स-कोड मॉड्यूलेशन (एडीपीसीएम)
 * वीओआईपी के लिए G.722


 * नैरोबैंड ऑडियो कोडिंग
 * एलपीसी
 * सैन्य अनुप्रयोगों के लिए एफएनबीडीटी
 * सीडीएमए नेटवर्क के लिए एसएमवी
 * जीएसएम नेटवर्क के लिए पूर्ण दर, आधी दर, ईएफआर और एएमआर
 * वीओआईपी या वीडियो कॉन्फ़्रेंसिंग के लिए G.723.1, G.728, G.729, G.729.1 और आईएलबीसी
 * एडीपीसीएम
 * वीओआईपी के लिए G.726
 * मल्टी-बैंड एक्साइटमेंट (एमबीई)
 * डिजिटल मोबाइल रेडियो और उपग्रह टेलीफोन के लिए एएमबीई+
 * कोडेक 2

यह भी देखें

 * अंकीय संकेत प्रक्रिया
 * स्पीच इंटरफ़ेस दिशानिर्देश
 * स्पीच प्रसंस्करण
 * भाषा संकलन
 * वेक्टर परिमाणीकरण

बाहरी संबंध

 * आईटीयू-टी Test Signals for Telecommunication Systems Test Samples
 * आईटीयू-टी Perceptual evaluation of speech quality (PESQ) tool Sources