रैखिक भविष्य कोडिंग (लीनियर प्रेडिक्टिव कोडिंग)

रैखिक भविष्यवाणी कोडिंग (LPC) एक विधि है जिसका उपयोग ज्यादातर ऑडियो सिग्नल प्रोसेसिंग और भाषण प्रसंस्करण  में आधार - सामग्री संकोचन फॉर्म में  भाषण संचार  के डिजिटल डाटा सिग्नल (सूचना सिद्धांत) के वर्णक्रमीय लिफाफे का प्रतिनिधित्व करने के लिए किया जाता है, जिसमें लीनियर  भविष्य कहनेवाला मॉडलिंग  की जानकारी का उपयोग किया जाता है।  LPC  भाषण कोडिंग  और  भाषा संकलन  में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह एक शक्तिशाली भाषण विश्लेषण तकनीक है, और कम बिट दर पर अच्छी गुणवत्ता वाले भाषण को एन्कोड करने के लिए एक उपयोगी तरीका है।

सिंहावलोकन
एलपीसी इस धारणा के साथ शुरू होता है कि एक ट्यूब के अंत में एक बजर द्वारा एक भाषण संकेत उत्पन्न होता है (आवाज (ध्वन्यात्मक) ध्वनियों के लिए), कभी-कभी जोड़े जाने वाले हिसिंग और पॉपिंग ध्वनियों के साथ (ध्वनिहीनता के लिए सीटी बजानेवाला ्स और  स्पर्श  जैसी आवाज़ें)। हालांकि स्पष्ट रूप से अपरिष्कृत, यह स्रोत-फ़िल्टर मॉडल वास्तव में भाषण उत्पादन की वास्तविकता का एक निकट सन्निकटन है। उपजिह्वा (मुखर सिलवटों के बीच का स्थान) भनभनाहट पैदा करता है, जो इसकी तीव्रता (जोर) और आवृत्ति (पिच) की विशेषता है। मुखर पथ (गला और मुंह) ट्यूब बनाता है, जो इसके अनुनादों की विशेषता है; ये अनुनाद उत्पन्न ध्वनि में  फार्मेंट ्स, या बढ़ी हुई आवृत्ति बैंड को जन्म देते हैं। सिबिलेंट्स और प्लोसिव्स के दौरान जीभ, होंठ और गले की क्रिया से फुफकार और चबूतरे उत्पन्न होते हैं।

LPC फॉर्मेंट्स का अनुमान लगाकर, स्पीच सिग्नल से उनके प्रभावों को हटाकर, और शेष भनभनाहट की तीव्रता और आवृत्ति का अनुमान लगाकर स्पीच सिग्नल का विश्लेषण करती है। फॉर्मेंट्स को हटाने की प्रक्रिया को व्युत्क्रम फ़िल्टरिंग कहा जाता है, और फ़िल्टर्ड मॉडल्ड सिग्नल के घटाव के बाद शेष सिग्नल को अवशेष कहा जाता है।

वे संख्याएँ जो भनभनाहट की तीव्रता और आवृत्ति का वर्णन करती हैं, फॉर्मेंट्स और अवशेष संकेत, कहीं और संग्रहीत या प्रसारित किए जा सकते हैं। एलपीसी प्रक्रिया को उलट कर भाषण संकेत को संश्लेषित करता है: स्रोत सिग्नल बनाने के लिए बज़ पैरामीटर और अवशेष का उपयोग करें, फ़िल्टर बनाने के लिए फॉर्मेंट्स का उपयोग करें (जो ट्यूब का प्रतिनिधित्व करता है), और फ़िल्टर के माध्यम से स्रोत को चलाएं, जिसके परिणामस्वरूप भाषण होता है।

क्योंकि वाक् संकेत समय के साथ बदलते हैं, यह प्रक्रिया वाक् संकेत के छोटे टुकड़ों पर की जाती है, जिन्हें फ्रेम कहा जाता है; आम तौर पर, प्रति सेकंड 30 से 50 फ्रेम अच्छे संपीड़न के साथ एक समझदार भाषण देते हैं।

प्रारंभिक इतिहास
रैखिक भविष्यवाणी (संकेत अनुमान) कम से कम 1940 के दशक में वापस चला जाता है जब नॉर्बर्ट वीनर ने शोर में छिपे संकेतों का पता लगाने के लिए सर्वश्रेष्ठ विनीज़ फ़िल्टर  और भविष्यवक्ताओं की गणना के लिए एक गणितीय सिद्धांत विकसित किया। क्लाउड शैनन द्वारा संचार का एक गणितीय सिद्धांत की स्थापना के तुरंत बाद, सी. चैपिन कटलर द्वारा प्रेडिक्टिव कोडिंग पर काम किया गया था। बर्नार्ड एम ओलिवर और हेनरी सी. हैरिसन। 1955 में पीटर एलियास ने संकेतों की भविष्यवाणी कोडिंग पर दो पत्र प्रकाशित किए। 1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन के शूजो सैटो द्वारा और 1967 में बिष्णु एस. अटल, मैनफ्रेड आर. श्रोएडर और जॉन बर्ग द्वारा स्वतंत्र रूप से भाषण विश्लेषण के लिए रैखिक भविष्यवाणियों को लागू किया गया था। इटाकुरा और सैटो ने अधिकतम संभावना अनुमान के आधार पर एक सांख्यिकीय दृष्टिकोण का वर्णन किया; अटल और श्रोएडर ने एक अनुकूली फ़िल्टर दृष्टिकोण का वर्णन किया; बर्ग ने अधिकतम एन्ट्रॉपी स्पेक्ट्रल अनुमान के आधार पर एक दृष्टिकोण की रूपरेखा तैयार की। 1969 में, इटाकुरा और सैटो ने आंशिक सहसंबंध (PARCOR) पर आधारित विधि पेश की, ग्लेन कूलर ने रीयल-टाइम स्पीच एन्कोडिंग प्रस्तावित की, और बिष्णु एस. अटल ने अमेरिका की ध्वनिक सोसायटी की वार्षिक बैठक में एक LPC स्पीच कोडर प्रस्तुत किया। 1971 में, फ़िल्को-फोर्ड  द्वारा 16-बिट LPC हार्डवेयर का उपयोग करके रीयलटाइम LPC का प्रदर्शन किया गया; चार इकाइयां बेची गईं। 1970 के दशक के दौरान बिष्णु अटल और मैनफ्रेड श्रोएडर द्वारा LPC तकनीक को उन्नत किया गया था{{ndash}1980 के दशक। 1978 में, अटल और विश्वनाथ एट अल। BBN ने पहला  चर बिटरेट  | वेरिएबल-रेट LPC एल्गोरिथम विकसित किया। उसी वर्ष, बेल लैब्स में अटल और मैनफ़्रेड आर. श्रोएडर ने अनुकूली भविष्य कहनेवाला कोडिंग  नामक एक एलपीसी स्पीच कोडेक का प्रस्ताव रखा, जिसमें मानव कान के मास्किंग गुणों का उपयोग करते हुए एक मनोध्वनिक कोडिंग एल्गोरिथम का उपयोग किया गया। यह बाद में 1993 में पेश किए गए बिका हुआ ऑडियो संपीड़न (डेटा)डेटा) प्रारूप द्वारा उपयोग की जाने वाली अवधारणात्मक कोडिंग तकनीक का आधार बन गया। 1985 में श्रोएडर और अटल द्वारा  कोड-उत्तेजित रैखिक भविष्यवाणी  (CELP) विकसित किया गया था। एलपीसी आईपी ​​पर आवाज (वीओआईपी) तकनीक का आधार है। 1972 में, जिम फोर्गी (लिंकन लेबोरेटरी, एलएल) और डेव वाल्डेन (बीबीएन टेक्नोलॉजीज) के साथ रक्षा अग्रिम जाँच परियोजनाएं एजेंसी के  बॉब क्हान  ने पैकेटयुक्त भाषण में पहला विकास शुरू किया, जो अंततः वॉइस-ओवर-आईपी तकनीक का नेतृत्व करेगा। 1973 में, लिंकन प्रयोगशाला के अनौपचारिक इतिहास के अनुसार, एड हॉफस्टेटर द्वारा पहली वास्तविक समय 2400 बिट/एस एलपीसी लागू की गई थी। 1974 में, कुलर-हैरिसन और लिंकन प्रयोगशाला के बीच 3500 बिट/एस पर ARPANET पर पहला वास्तविक समय दो-तरफ़ा LPC पैकेट भाषण संचार पूरा किया गया था। 1976 में, 3500 बिट/एस पर कुलेर-हैरिसन, आईएसआई, एसआरआई, और एलएल के बीच नेटवर्क वॉयस प्रोटोकॉल का उपयोग करते हुए अरपानेट पर पहला एलपीसी सम्मेलन हुआ।

एलपीसी गुणांक प्रतिनिधित्व
एलपीसी अक्सर वर्णक्रमीय लिफाफा सूचना प्रसारित करने के लिए प्रयोग किया जाता है, और इस तरह इसे संचरण त्रुटियों के प्रति सहिष्णु होना पड़ता है। फ़िल्टर गुणांकों का सीधे प्रसारण (गुणांकों की परिभाषा के लिए रेखीय भविष्यवाणी देखें) अवांछनीय है, क्योंकि वे त्रुटियों के प्रति बहुत संवेदनशील हैं। दूसरे शब्दों में, एक बहुत छोटी त्रुटि पूरे स्पेक्ट्रम को विकृत कर सकती है, या इससे भी बदतर, एक छोटी सी त्रुटि भविष्यवाणी फ़िल्टर को अस्थिर कर सकती है।

लॉग एरिया अनुपात (एलएआर), रेखा वर्णक्रमीय जोड़े (एलएसपी) अपघटन और प्रतिबिंब गुणांक जैसे अधिक उन्नत प्रतिनिधित्व हैं। इनमें से, विशेष रूप से एलएसपी अपघटन ने लोकप्रियता हासिल की है क्योंकि यह भविष्यवक्ता की स्थिरता सुनिश्चित करता है, और छोटे गुणांक विचलन के लिए वर्णक्रमीय त्रुटियां स्थानीय हैं।

अनुप्रयोग
LPC स्पीच कोडिंग और स्पीच सिंथेसिस में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह आम तौर पर भाषण विश्लेषण और पुनरुत्थान के लिए प्रयोग किया जाता है। उदाहरण के लिए, जीएसएम मानक जैसे फोन कंपनियों द्वारा आवाज संपीड़न के रूप में इसका उपयोग किया जाता है। इसका उपयोग COMSEC वायरलेस के लिए भी किया जाता है, जहाँ आवाज को digitize ़ किया जाना चाहिए,  कूटलेखन  और एक संकीर्ण वॉयस चैनल पर भेजा जाना चाहिए; इसका एक प्रारंभिक उदाहरण अमेरिकी सरकार का नवाजो आई है।

एलपीसी संश्लेषण का उपयोग vocoder ्स बनाने के लिए किया जा सकता है जहां संगीत वाद्ययंत्र एक गायक के भाषण से अनुमानित समय-भिन्न फ़िल्टर के उत्तेजना संकेत के रूप में उपयोग किया जाता है। यह इलेक्ट्रॉनिक संगीत में कुछ हद तक लोकप्रिय है। पॉल लैंस्की ने लीनियर प्रेडिक्टिव कोडिंग का उपयोग करते हुए प्रसिद्ध कंप्यूटर म्यूजिक पीस को न केवल अधिक बेकार बकबक बनाया। बेकार की बातचीत से अधिक 1980 के लोकप्रिय स्पीक एंड स्पेल (गेम) | स्पीक एंड स्पेल एजुकेशनल टॉय में 10वें क्रम के एलपीसी का इस्तेमाल किया गया था।

LPC भविष्यवक्ताओं का उपयोग शॉर्टन (फ़ाइल स्वरूप), MPEG-4 ALS, FLAC, SILK ऑडियो कोडेक और अन्य दोषरहित संपीड़न ऑडियो कोडेक में किया जाता है।

एलपीसी ने वायलिन और अन्य कड़े संगीत वाद्ययंत्रों के टोनल विश्लेषण में उपयोग के लिए एक उपकरण के रूप में कुछ ध्यान आकर्षित किया।

यह भी देखें

 * एकाइके सूचना मानदंड
 * ऑडियो संपीड़न (डेटा)
 * कोड-उत्तेजित रैखिक भविष्यवाणी (सीईएलपी)
 * एफएस-1015
 * एफएस-1016
 * सामान्यीकृत फ़िल्टरिंग
 * रेखीय भविष्यवाणी
 * रेखीय भविष्य कहनेवाला विश्लेषण
 * पिच का अनुमान
 * विकृत रैखिक भविष्य कहनेवाला कोडिंग

संदर्भ

 * Robert M. Gray, IEEE Signal Processing Society, Distinguished Lecturer Program

बाहरी संबंध

 * real-time LPC analysis/synthesis learning software
 * 30 years later Dr Richard Wiggins Talks Speak & Spell development