रैखिक भविष्य कोडिंग (लीनियर प्रेडिक्टिव कोडिंग)

From Vigyanwiki
Revision as of 09:40, 12 May 2023 by alpha>Indicwiki (Created page with "{{Short description|Speech analysis and encoding technique}} {{Use American English|date=June 2021}} रैखिक भविष्यवाणी कोडिंग (LP...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

रैखिक भविष्यवाणी कोडिंग (LPC) एक विधि है जिसका उपयोग ज्यादातर ऑडियो सिग्नल प्रोसेसिंग और भाषण प्रसंस्करण में आधार - सामग्री संकोचन फॉर्म में भाषण संचार के डिजिटल डाटा सिग्नल (सूचना सिद्धांत) के वर्णक्रमीय लिफाफे का प्रतिनिधित्व करने के लिए किया जाता है, जिसमें लीनियर भविष्य कहनेवाला मॉडलिंग की जानकारी का उपयोग किया जाता है।[1][2] LPC भाषण कोडिंग और भाषा संकलन में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह एक शक्तिशाली भाषण विश्लेषण तकनीक है, और कम बिट दर पर अच्छी गुणवत्ता वाले भाषण को एन्कोड करने के लिए एक उपयोगी तरीका है।

सिंहावलोकन

एलपीसी इस धारणा के साथ शुरू होता है कि एक ट्यूब के अंत में एक बजर द्वारा एक भाषण संकेत उत्पन्न होता है (आवाज (ध्वन्यात्मक) ध्वनियों के लिए), कभी-कभी जोड़े जाने वाले हिसिंग और पॉपिंग ध्वनियों के साथ (ध्वनिहीनता के लिए सीटी बजानेवाला ्स और स्पर्श जैसी आवाज़ें)। हालांकि स्पष्ट रूप से अपरिष्कृत, यह स्रोत-फ़िल्टर मॉडल वास्तव में भाषण उत्पादन की वास्तविकता का एक निकट सन्निकटन है। उपजिह्वा (मुखर सिलवटों के बीच का स्थान) भनभनाहट पैदा करता है, जो इसकी तीव्रता (जोर) और आवृत्ति (पिच) की विशेषता है। मुखर पथ (गला और मुंह) ट्यूब बनाता है, जो इसके अनुनादों की विशेषता है; ये अनुनाद उत्पन्न ध्वनि में फार्मेंट ्स, या बढ़ी हुई आवृत्ति बैंड को जन्म देते हैं। सिबिलेंट्स और प्लोसिव्स के दौरान जीभ, होंठ और गले की क्रिया से फुफकार और चबूतरे उत्पन्न होते हैं।

LPC फॉर्मेंट्स का अनुमान लगाकर, स्पीच सिग्नल से उनके प्रभावों को हटाकर, और शेष भनभनाहट की तीव्रता और आवृत्ति का अनुमान लगाकर स्पीच सिग्नल का विश्लेषण करती है। फॉर्मेंट्स को हटाने की प्रक्रिया को व्युत्क्रम फ़िल्टरिंग कहा जाता है, और फ़िल्टर्ड मॉडल्ड सिग्नल के घटाव के बाद शेष सिग्नल को अवशेष कहा जाता है।

वे संख्याएँ जो भनभनाहट की तीव्रता और आवृत्ति का वर्णन करती हैं, फॉर्मेंट्स और अवशेष संकेत, कहीं और संग्रहीत या प्रसारित किए जा सकते हैं। एलपीसी प्रक्रिया को उलट कर भाषण संकेत को संश्लेषित करता है: स्रोत सिग्नल बनाने के लिए बज़ पैरामीटर और अवशेष का उपयोग करें, फ़िल्टर बनाने के लिए फॉर्मेंट्स का उपयोग करें (जो ट्यूब का प्रतिनिधित्व करता है), और फ़िल्टर के माध्यम से स्रोत को चलाएं, जिसके परिणामस्वरूप भाषण होता है।

क्योंकि वाक् संकेत समय के साथ बदलते हैं, यह प्रक्रिया वाक् संकेत के छोटे टुकड़ों पर की जाती है, जिन्हें फ्रेम कहा जाता है; आम तौर पर, प्रति सेकंड 30 से 50 फ्रेम अच्छे संपीड़न के साथ एक समझदार भाषण देते हैं।

प्रारंभिक इतिहास

रैखिक भविष्यवाणी (संकेत अनुमान) कम से कम 1940 के दशक में वापस चला जाता है जब नॉर्बर्ट वीनर ने शोर में छिपे संकेतों का पता लगाने के लिए सर्वश्रेष्ठ विनीज़ फ़िल्टर और भविष्यवक्ताओं की गणना के लिए एक गणितीय सिद्धांत विकसित किया।[3][4] क्लाउड शैनन द्वारा संचार का एक गणितीय सिद्धांत की स्थापना के तुरंत बाद, सी. चैपिन कटलर द्वारा प्रेडिक्टिव कोडिंग पर काम किया गया था।[5] बर्नार्ड एम ओलिवर[6] और हेनरी सी. हैरिसन।[7] 1955 में पीटर एलियास ने संकेतों की भविष्यवाणी कोडिंग पर दो पत्र प्रकाशित किए।[8][9] 1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन के शूजो सैटो द्वारा और 1967 में बिष्णु एस. अटल, मैनफ्रेड आर. श्रोएडर और जॉन बर्ग द्वारा स्वतंत्र रूप से भाषण विश्लेषण के लिए रैखिक भविष्यवाणियों को लागू किया गया था। इटाकुरा और सैटो ने अधिकतम संभावना अनुमान के आधार पर एक सांख्यिकीय दृष्टिकोण का वर्णन किया; अटल और श्रोएडर ने एक अनुकूली फ़िल्टर दृष्टिकोण का वर्णन किया; बर्ग ने अधिकतम एन्ट्रॉपी स्पेक्ट्रल अनुमान के आधार पर एक दृष्टिकोण की रूपरेखा तैयार की।[4][10][11][12] 1969 में, इटाकुरा और सैटो ने आंशिक सहसंबंध (PARCOR) पर आधारित विधि पेश की, ग्लेन कूलर ने रीयल-टाइम स्पीच एन्कोडिंग प्रस्तावित की, और बिष्णु एस. अटल ने अमेरिका की ध्वनिक सोसायटी की वार्षिक बैठक में एक LPC स्पीच कोडर प्रस्तुत किया। 1971 में, फ़िल्को-फोर्ड द्वारा 16-बिट LPC हार्डवेयर का उपयोग करके रीयलटाइम LPC का प्रदर्शन किया गया; चार इकाइयां बेची गईं।[13] 1970 के दशक के दौरान बिष्णु अटल और मैनफ्रेड श्रोएडर द्वारा LPC तकनीक को उन्नत किया गया था{{ndash}1980 के दशक।[13]1978 में, अटल और विश्वनाथ एट अल। BBN ने पहला चर बिटरेट | वेरिएबल-रेट LPC एल्गोरिथम विकसित किया।[13]उसी वर्ष, बेल लैब्स में अटल और मैनफ़्रेड आर. श्रोएडर ने अनुकूली भविष्य कहनेवाला कोडिंग नामक एक एलपीसी स्पीच कोडेक का प्रस्ताव रखा, जिसमें मानव कान के मास्किंग गुणों का उपयोग करते हुए एक मनोध्वनिक कोडिंग एल्गोरिथम का उपयोग किया गया।[14][15] यह बाद में 1993 में पेश किए गए बिका हुआ ऑडियो संपीड़न (डेटा)डेटा) प्रारूप द्वारा उपयोग की जाने वाली अवधारणात्मक कोडिंग तकनीक का आधार बन गया।[14]1985 में श्रोएडर और अटल द्वारा कोड-उत्तेजित रैखिक भविष्यवाणी (CELP) विकसित किया गया था।[16] एलपीसी आईपी ​​पर आवाज (वीओआईपी) तकनीक का आधार है।[13]1972 में, जिम फोर्गी (लिंकन लेबोरेटरी, एलएल) और डेव वाल्डेन (बीबीएन टेक्नोलॉजीज) के साथ रक्षा अग्रिम जाँच परियोजनाएं एजेंसी के बॉब क्हान ने पैकेटयुक्त भाषण में पहला विकास शुरू किया, जो अंततः वॉइस-ओवर-आईपी तकनीक का नेतृत्व करेगा। 1973 में, लिंकन प्रयोगशाला के अनौपचारिक इतिहास के अनुसार, एड हॉफस्टेटर द्वारा पहली वास्तविक समय 2400 बिट/एस एलपीसी लागू की गई थी। 1974 में, कुलर-हैरिसन और लिंकन प्रयोगशाला के बीच 3500 बिट/एस पर ARPANET पर पहला वास्तविक समय दो-तरफ़ा LPC पैकेट भाषण संचार पूरा किया गया था। 1976 में, 3500 बिट/एस पर कुलेर-हैरिसन, आईएसआई, एसआरआई, और एलएल के बीच नेटवर्क वॉयस प्रोटोकॉल का उपयोग करते हुए अरपानेट पर पहला एलपीसी सम्मेलन हुआ।[citation needed]

एलपीसी गुणांक प्रतिनिधित्व

एलपीसी अक्सर वर्णक्रमीय लिफाफा सूचना प्रसारित करने के लिए प्रयोग किया जाता है, और इस तरह इसे संचरण त्रुटियों के प्रति सहिष्णु होना पड़ता है। फ़िल्टर गुणांकों का सीधे प्रसारण (गुणांकों की परिभाषा के लिए रेखीय भविष्यवाणी देखें) अवांछनीय है, क्योंकि वे त्रुटियों के प्रति बहुत संवेदनशील हैं। दूसरे शब्दों में, एक बहुत छोटी त्रुटि पूरे स्पेक्ट्रम को विकृत कर सकती है, या इससे भी बदतर, एक छोटी सी त्रुटि भविष्यवाणी फ़िल्टर को अस्थिर कर सकती है।

लॉग एरिया अनुपात (एलएआर), रेखा वर्णक्रमीय जोड़े (एलएसपी) अपघटन और प्रतिबिंब गुणांक जैसे अधिक उन्नत प्रतिनिधित्व हैं। इनमें से, विशेष रूप से एलएसपी अपघटन ने लोकप्रियता हासिल की है क्योंकि यह भविष्यवक्ता की स्थिरता सुनिश्चित करता है, और छोटे गुणांक विचलन के लिए वर्णक्रमीय त्रुटियां स्थानीय हैं।

अनुप्रयोग

LPC स्पीच कोडिंग और स्पीच सिंथेसिस में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है।[17] यह आम तौर पर भाषण विश्लेषण और पुनरुत्थान के लिए प्रयोग किया जाता है। उदाहरण के लिए, जीएसएम मानक जैसे फोन कंपनियों द्वारा आवाज संपीड़न के रूप में इसका उपयोग किया जाता है। इसका उपयोग COMSEC वायरलेस के लिए भी किया जाता है, जहाँ आवाज को digitize ़ किया जाना चाहिए, कूटलेखन और एक संकीर्ण वॉयस चैनल पर भेजा जाना चाहिए; इसका एक प्रारंभिक उदाहरण अमेरिकी सरकार का नवाजो आई है।

एलपीसी संश्लेषण का उपयोग vocoder ्स बनाने के लिए किया जा सकता है जहां संगीत वाद्ययंत्र एक गायक के भाषण से अनुमानित समय-भिन्न फ़िल्टर के उत्तेजना संकेत के रूप में उपयोग किया जाता है। यह इलेक्ट्रॉनिक संगीत में कुछ हद तक लोकप्रिय है। पॉल लैंस्की ने लीनियर प्रेडिक्टिव कोडिंग का उपयोग करते हुए प्रसिद्ध कंप्यूटर म्यूजिक पीस को न केवल अधिक बेकार बकबक बनाया। बेकार की बातचीत से अधिक 1980 के लोकप्रिय स्पीक एंड स्पेल (गेम) | स्पीक एंड स्पेल एजुकेशनल टॉय में 10वें क्रम के एलपीसी का इस्तेमाल किया गया था।

LPC भविष्यवक्ताओं का उपयोग शॉर्टन (फ़ाइल स्वरूप), MPEG-4 ALS, FLAC, SILK ऑडियो कोडेक और अन्य दोषरहित संपीड़न ऑडियो कोडेक में किया जाता है।

एलपीसी ने वायलिन और अन्य कड़े संगीत वाद्ययंत्रों के टोनल विश्लेषण में उपयोग के लिए एक उपकरण के रूप में कुछ ध्यान आकर्षित किया।[18]


यह भी देखें

संदर्भ

  1. Deng, Li; Douglas O'Shaughnessy (2003). Speech processing: a dynamic and optimization-oriented approach. Marcel Dekker. pp. 41–48. ISBN 978-0-8247-4040-5.
  2. Beigi, Homayoon (2011). स्पीकर मान्यता की बुनियादी बातों. Berlin: Springer-Verlag. ISBN 978-0-387-77591-3.
  3. B.S. Atal (2006). "रैखिक भविष्यवाणी का इतिहास". IEEE Signal Processing Magazine. 23 (2): 154–161. Bibcode:2006ISPM...23..154A. doi:10.1109/MSP.2006.1598091. S2CID 15601493.
  4. 4.0 4.1 Y. Sasahira; S. Hashimoto (1995). "गायक के व्यक्तिगत समय को बनाए रखने के लिए लीनियर प्रेडिक्टिव कोडिंग विधि द्वारा वॉयस पिच को बदलना" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
  5. US 2605361, C. C. Cutler, "संचार संकेतों का विभेदक परिमाणीकरण", published 1952-07-29 
  6. B. M. Oliver (1952). "कुशल कोडिंग". 31 (4). Nokia Bell Labs: 724–750. {{cite journal}}: Cite journal requires |journal= (help)
  7. H. C. Harrison (1952). "टेलीविजन में रैखिक भविष्यवाणी के साथ प्रयोग". 31. Bell System Technical Journal: 764–783. {{cite journal}}: Cite journal requires |journal= (help)
  8. P. Elias (1955). "भविष्य कहनेवाला कोडिंग I". IT-1 no. 1. IRE Trans. Inform.Theory: 16–24. {{cite journal}}: Cite journal requires |journal= (help)
  9. P. Elias (1955). "भविष्य कहनेवाला कोडिंग द्वितीय". IT-1 no. 1. IRE Trans. Inform. Theory: 24–33. {{cite journal}}: Cite journal requires |journal= (help)
  10. S. Saito; F. Itakura (Jan 1967). "भाषण के वर्णक्रमीय घनत्व की सांख्यिकीय इष्टतम मान्यता का सैद्धांतिक विचार". J. Acoust. Soc.Japan. {{cite journal}}: Cite journal requires |journal= (help)
  11. B.S. Atal; M.R. Schroeder (1967). "भाषण की भविष्य कहनेवाला कोडिंग". Conf. Communications and Proc. {{cite journal}}: Cite journal requires |journal= (help)
  12. J.P. Burg (1967). "अधिकतम एंट्रॉपी स्पेक्ट्रल विश्लेषण". Proceedings of 37th Meeting, Society of Exploration Geophysics, Oklahoma City. {{cite journal}}: Cite journal requires |journal= (help)
  13. 13.0 13.1 13.2 13.3 Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346. Archived (PDF) from the original on 2022-10-09.
  14. 14.0 14.1 Schroeder, Manfred R. (2014). "Bell Laboratories". Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder. Springer. p. 388. ISBN 9783319056609.
  15. Atal, B.; Schroeder, M. (1978). "भाषण संकेतों और व्यक्तिपरक त्रुटि मानदंड की भविष्यवाणी कोडिंग". ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing. 3: 573–576. doi:10.1109/ICASSP.1978.1170564.
  16. Schroeder, Manfred R.; Atal, Bishnu S. (1985). "Code-excited linear prediction (CELP): High-quality speech at very low bit rates". ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing. 10: 937–940. doi:10.1109/ICASSP.1985.1168147. S2CID 14803427.
  17. Gupta, Shipra (May 2016). "पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग" (PDF). International Journal of Advanced Research in Computer Science and Software Engineering. 6 (5): 805-810 (806). ISSN 2277-128X. S2CID 212485331. Archived from the original (PDF) on 2019-10-18. Retrieved 18 October 2019.
  18. Tai, Hwan-Ching; Chung, Dai-Ting (June 14, 2012). "स्ट्राडिवरी वायलिन महिलाओं द्वारा निर्मित स्वरों से मिलती-जुलती फॉर्मेंट फ्रीक्वेंसी प्रदर्शित करते हैं". Savart Journal. 1 (2).


अग्रिम पठन


बाहरी संबंध