रैखिक भविष्य कोडिंग (लीनियर प्रेडिक्टिव कोडिंग)

रैखिक भविष्यवाणी कोडिंग (LPC) एक विधि है जिसका उपयोग ज्यादातर ऑडियो संकेत प्रोसेसिंग और भाषण प्रसंस्करण में किया जाता है, जो कि रैखिक भविष्य कहनेवाला मॉडल की जानकारी का उपयोग करते हुए संकुचित रूप में डिजिटल संकेत के वर्णक्रमीय आवरण का प्रतिनिधित्व करता है। LPC भाषण कोडिंग और भाषा संकलन में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह एक शक्तिशाली भाषण विश्लेषण प्रविधि है और कम बिट दर पर अच्छी गुणवत्ता वाले भाषण को एन्कोड करने के लिए एक उपयोगी विधि है।

सिंहावलोकन
एलपीसी इस धारणा के साथ प्रारंभ होता है कि एक नली के अंत में एक बजर द्वारा एक भाषण संकेत उत्पन्न होता है आवाज वाली आवाजों के लिए, कभी-कभी जोड़े जाने वाले हिसिंग और पॉपिंग ध्वनियों के साथ (ध्वनिहीनता के लिए सीटी बजानेवाला और स्पर्श जैसी आवाज़ें)। चूंकि स्पष्ट रूप से अपरिष्कृत, यह स्रोत-फ़िल्टर मॉडल वास्तव में भाषण उत्पादन की वास्तविकता का एक निकट सन्निकटन है। उपजिह्वा (मुखर सिलवटों के बीच का स्थान) भनभनाहट उत्पन्न करता है, जो इसकी तीव्रता (जोर) और आवृत्ति (पिच) की विशेषता है। मुखर पथ (गला और मुंह) नली बनाता है, जो इसके अनुनादों की विशेषता है; ये अनुनाद उत्पन्न ध्वनि में फार्मेंट या बढ़ी हुई आवृत्ति बैंड को जन्म देते हैं। सहोदर और स्पर्श के पर्यन्त जीभ, होंठ और गले की क्रिया से फुफकार और चबूतरे उत्पन्न होते हैं।

LPC फॉर्मेंट्स का अनुमान लगाकर, भाषण संकेत से उनके प्रभावों को हटाकर और शेष भनभनाहट की तीव्रता और आवृत्ति का अनुमान लगाकर भाषण संकेत का विश्लेषण करती है। फॉर्मेंट्स को हटाने की प्रक्रिया को व्युत्क्रम फ़िल्टरिंग कहा जाता है और फ़िल्टर्ड मॉडल्ड संकेत के घटाव के बाद शेष संकेत को अवशेष कहा जाता है।

वे संख्याएँ जो भनभनाहट की तीव्रता और आवृत्ति का वर्णन करती हैं, फॉर्मेंट्स और अवशेष संकेत, कहीं और संग्रहीत या प्रसारित किए जा सकते हैं। एलपीसी प्रक्रिया को उलट कर भाषण संकेत को संश्लेषित करता है, स्रोत संकेत बनाने के लिए बज़ पैरामीटर और अवशेष का उपयोग करें, फ़िल्टर बनाने के लिए फॉर्मेंट्स का उपयोग करें (जो नली का प्रतिनिधित्व करता है) और फ़िल्टर के माध्यम से स्रोत को चलाएं, जिसके परिणामस्वरूप भाषण होता है।

क्योंकि भाषण संकेत समय के साथ बदलते हैं, यह प्रक्रिया भाषण संकेत के छोटे टुकड़ों पर की जाती है, जिन्हें फ्रेम कहा जाता है; सामान्यतः प्रति सेकंड 30 से 50 फ्रेम अच्छे संपीड़न के साथ एक बुद्धिग्राह्य भाषण देते हैं।

प्रारंभिक इतिहास
रैखिक भविष्यवाणी (संकेत अनुमान) कम से कम 1940 के दशक में वापस चला जाता है जब नॉर्बर्ट वीनर ने शोर में छिपे संकेतों का पता लगाने के लिए सर्वश्रेष्ठ विनीज़ फ़िल्टर और भविष्यवक्ताओं की गणना के लिए एक गणितीय सिद्धांत विकसित किया। क्लाउड शैनन द्वारा संचार का एक गणितीय सिद्धांत की स्थापना के तुरंत बाद, सी. चैपिन कटलर द्वारा प्रेडिक्टिव कोडिंग पर काम किया गया था। बर्नार्ड एम ओलिवर और हेनरी सी. हैरिसन। 1955 में पीटर एलियास ने संकेतों की भविष्यवाणी कोडिंग पर दो पत्र प्रकाशित किए। 1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन के शूजो सैटो द्वारा और 1967 में बिष्णु एस. अटल, मैनफ्रेड आर. श्रोएडर और जॉन बर्ग द्वारा स्वतंत्र रूप से भाषण विश्लेषण के लिए रैखिक भविष्यवाणियों को लागू किया गया था। इटाकुरा और सैटो ने अधिकतम संभावना अनुमान के आधार पर एक सांख्यिकीय दृष्टिकोण का वर्णन किया; अटल और श्रोएडर ने एक अनुकूली फ़िल्टर दृष्टिकोण का वर्णन किया; बर्ग ने अधिकतम एन्ट्रॉपी स्पेक्ट्रल अनुमान के आधार पर एक दृष्टिकोण की रूपरेखा तैयार की। 1969 में, इटाकुरा और सैटो ने आंशिक सहसंबंध (PARCOR) पर आधारित विधि पेश की, ग्लेन कूलर ने रीयल-टाइम भाषण एन्कोडिंग प्रस्तावित की, और बिष्णु एस. अटल ने अमेरिका की ध्वनिक सोसायटी की वार्षिक बैठक में एक LPC भाषण कोडर प्रस्तुत किया। 1971 में, फ़िल्को-फोर्ड द्वारा 16-बिट LPC हार्डवेयर का उपयोग करके रीयलटाइम LPC का प्रदर्शन किया गया; चार इकाइयां बेची गईं। 1970 के दशक के दौरान बिष्णु अटल और मैनफ्रेड श्रोएडर द्वारा LPC प्रविधि को उन्नत किया गया था{{ndash}1980 के दशक। 1978 में, अटल और विश्वनाथ एट अल। BBN ने पहला चर बिटरेट | वेरिएबल-रेट LPC एल्गोरिथम विकसित किया। उसी वर्ष, बेल लैब्स में अटल और मैनफ़्रेड आर. श्रोएडर ने अनुकूली भविष्य कहनेवाला कोडिंग नामक एक एलपीसी भाषण कोडेक का प्रस्ताव रखा, जिसमें मानव कान के मास्किंग गुणों का उपयोग करते हुए एक मनोध्वनिक कोडिंग एल्गोरिथम का उपयोग किया गया। यह बाद में 1993 में पेश किए गए बिका हुआ ऑडियो संपीड़न (डेटा)डेटा) प्रारूप द्वारा उपयोग की जाने वाली अवधारणात्मक कोडिंग प्रविधि का आधार बन गया। 1985 में श्रोएडर और अटल द्वारा कोड-उत्तेजित रैखिक भविष्यवाणी (CELP) विकसित किया गया था। एलपीसी आईपी ​​पर आवाज (वीओआईपी) प्रविधि का आधार है। 1972 में, जिम फोर्गी (लिंकन लेबोरेटरी, एलएल) और डेव वाल्डेन (बीबीएन टेक्नोलॉजीज) के साथ रक्षा अग्रिम जाँच परियोजनाएं एजेंसी के बॉब क्हान ने पैकेटयुक्त भाषण में पहला विकास प्रारंभ किया, जो अंततः वॉइस-ओवर-आईपी प्रविधि का नेतृत्व करेगा। 1973 में, लिंकन प्रयोगशाला के अनौपचारिक इतिहास के अनुसार, एड हॉफस्टेटर द्वारा पहली वास्तविक समय 2400 बिट/एस एलपीसी लागू की गई थी। 1974 में, कुलर-हैरिसन और लिंकन प्रयोगशाला के बीच 3500 बिट/एस पर ARPANET पर पहला वास्तविक समय दो-तरफ़ा LPC पैकेट भाषण संचार पूरा किया गया था। 1976 में, 3500 बिट/एस पर कुलेर-हैरिसन, आईएसआई, एसआरआई, और एलएल के बीच नेटवर्क वॉयस प्रोटोकॉल का उपयोग करते हुए अरपानेट पर पहला एलपीसी सम्मेलन हुआ।

एलपीसी गुणांक प्रतिनिधित्व
एलपीसी अक्सर वर्णक्रमीय लिफाफा सूचना प्रसारित करने के लिए प्रयोग किया जाता है, और इस तरह इसे संचरण त्रुटियों के प्रति सहिष्णु होना पड़ता है। फ़िल्टर गुणांकों का सीधे प्रसारण (गुणांकों की परिभाषा के लिए रेखीय भविष्यवाणी देखें) अवांछनीय है, क्योंकि वे त्रुटियों के प्रति बहुत संवेदनशील हैं। दूसरे शब्दों में, एक बहुत छोटी त्रुटि पूरे स्पेक्ट्रम को विकृत कर सकती है, या इससे भी बदतर, एक छोटी सी त्रुटि भविष्यवाणी फ़िल्टर को अस्थिर कर सकती है।

लॉग एरिया अनुपात (एलएआर), रेखा वर्णक्रमीय जोड़े (एलएसपी) अपघटन और प्रतिबिंब गुणांक जैसे अधिक उन्नत प्रतिनिधित्व हैं। इनमें से, विशेष रूप से एलएसपी अपघटन ने लोकप्रियता हासिल की है क्योंकि यह भविष्यवक्ता की स्थिरता सुनिश्चित करता है, और छोटे गुणांक विचलन के लिए वर्णक्रमीय त्रुटियां स्थानीय हैं।

अनुप्रयोग
LPC भाषण कोडिंग और भाषण सिंथेसिस में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह सामान्यतः भाषण विश्लेषण और पुनरुत्थान के लिए प्रयोग किया जाता है। उदाहरण के लिए, जीएसएम मानक जैसे फोन कंपनियों द्वारा आवाज संपीड़न के रूप में इसका उपयोग किया जाता है। इसका उपयोग COMSEC वायरलेस के लिए भी किया जाता है, जहाँ आवाज को digitize ़ किया जाना चाहिए, कूटलेखन और एक संकीर्ण वॉयस चैनल पर भेजा जाना चाहिए; इसका एक प्रारंभिक उदाहरण अमेरिकी सरकार का नवाजो आई है।

एलपीसी संश्लेषण का उपयोग vocoder ्स बनाने के लिए किया जा सकता है जहां संगीत वाद्ययंत्र एक गायक के भाषण से अनुमानित समय-भिन्न फ़िल्टर के उत्तेजना संकेत के रूप में उपयोग किया जाता है। यह इलेक्ट्रॉनिक संगीत में कुछ हद तक लोकप्रिय है। पॉल लैंस्की ने लीनियर प्रेडिक्टिव कोडिंग का उपयोग करते हुए प्रसिद्ध कंप्यूटर म्यूजिक पीस को न केवल अधिक बेकार बकबक बनाया। बेकार की बातचीत से अधिक 1980 के लोकप्रिय स्पीक एंड स्पेल (गेम) | स्पीक एंड स्पेल एजुकेशनल टॉय में 10वें क्रम के एलपीसी का इस्तेमाल किया गया था।

LPC भविष्यवक्ताओं का उपयोग शॉर्टन (फ़ाइल स्वरूप), MPEG-4 ALS, FLAC, SILK ऑडियो कोडेक और अन्य दोषरहित संपीड़न ऑडियो कोडेक में किया जाता है।

एलपीसी ने वायलिन और अन्य कड़े संगीत वाद्ययंत्रों के टोनल विश्लेषण में उपयोग के लिए एक उपकरण के रूप में कुछ ध्यान आकर्षित किया।

यह भी देखें

 * एकाइके सूचना मानदंड
 * ऑडियो संपीड़न (डेटा)
 * कोड-उत्तेजित रैखिक भविष्यवाणी (सीईएलपी)
 * एफएस-1015
 * एफएस-1016
 * सामान्यीकृत फ़िल्टरिंग
 * रेखीय भविष्यवाणी
 * रेखीय भविष्य कहनेवाला विश्लेषण
 * पिच का अनुमान
 * विकृत रैखिक भविष्य कहनेवाला कोडिंग

संदर्भ

 * Robert M. Gray, IEEE Signal Processing Society, Distinguished Lecturer Program

बाहरी संबंध

 * real-time LPC analysis/synthesis learning software
 * 30 years later Dr Richard Wiggins Talks Speak & Spell development