वाक् प्रक्रमण

स्पीच प्रोसेसिंग भाषण संचार  सिग्नल (सूचना सिद्धांत) और सिग्नल की प्रोसेसिंग विधियों का अध्ययन है। संकेतों को आमतौर पर डिजिटल डाटा प्रतिनिधित्व में संसाधित किया जाता है, इसलिए भाषण प्रसंस्करण को  ऑडियो संकेत  पर लागू  अंकीय संकेत प्रक्रिया  का एक विशेष मामला माना जा सकता है। भाषण प्रसंस्करण के पहलुओं में भाषण संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में वाक् पहचान, वाक् संश्लेषण, वक्ता डायरीकरण, वाक् वृद्धि, वक्ता पहचान आदि शामिल हैं।

इतिहास
भाषण प्रसंस्करण और मान्यता के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता, स्टीफन। बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है। 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में अग्रणी कार्य रिपोर्ट किए गए थे। रैखिक भविष्य कहनेवाला कोडिंग (LPC), एक स्पीच प्रोसेसिंग एल्गोरिथम, पहली बार 1966 में  नागोया विश्वविद्यालय  के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था। 1970 के दशक के दौरान बेल लैब्स में बिष्णु एस. अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए। एलपीसी आईपी ​​पर आवाज (वीओआईपी) तकनीक का आधार था, साथ ही भाषण सिंथेसाइज़र चिप्स, जैसे कि टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है। 1978 से स्पीक एंड स्पेल टॉयज।

व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में जारी किया गया था। 1992 में, बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी। रेफरी>

2000 के दशक के प्रारंभ तक, प्रमुख भाषण प्रसंस्करण रणनीति छिपा हुआ मार्कोव मॉडल से अधिक आधुनिक कृत्रिम तंत्रिका नेटवर्क और गहन शिक्षा की ओर स्थानांतरित होने लगी।

डायनेमिक टाइम वारिंग
डायनामिक टाइम वार्पिंग (DTW) दो समय श्रृंखलाओं के बीच समानता को मापने के लिए एक कलन विधि है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच इष्टतम मिलान की गणना करती है। इष्टतम मैच को उस मैच से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।

छिपे हुए मार्कोव मॉडल
छिपे हुए मार्कोव मॉडल को सबसे सरल डायनेमिक बायेसियन नेटवर्क के रूप में प्रदर्शित किया जा सकता है। एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। मार्कोव संपत्ति को लागू करने से, समय टी पर छिपे हुए चर x(t) का सशर्त संभाव्यता वितरण, हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।

कृत्रिम तंत्रिका नेटवर्क
एक कृत्रिम तंत्रिका नेटवर्क (एएनएन) कनेक्टेड इकाइयों या कृत्रिम न्यूरॉन्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को ढीले ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में निष्कर्ष की तरह, एक कृत्रिम न्यूरॉन से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। आम एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक वास्तविक संख्या है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फ़ंक्शन द्वारा की जाती है।

चरण-जागरूक प्रसंस्करण
चरण को आमतौर पर यादृच्छिक वर्दी चर और इस प्रकार बेकार माना जाता है। यह चरण के लपेटने के कारण है: समय-समय पर छलांग लगाने के कारण चापस्पर्श फलन का परिणाम निरंतर नहीं होता है $$2 \pi$$. फेज अनरैपिंग के बाद (देखें, अध्याय 2.3; तात्कालिक चरण और आवृत्ति), इसे इस प्रकार व्यक्त किया जा सकता है: $$\phi(h,l) = \phi_{lin}(h,l) + \Psi(h,l)$$, कहाँ $$\phi_{lin}(h,l) = \omega_0(l') {}_\Delta t$$ रैखिक चरण है ($${}_\Delta t$$ विश्लेषण के प्रत्येक फ्रेम में अस्थायी बदलाव है), $$\Psi(h,l)$$ मुखर पथ और चरण स्रोत का चरण योगदान है। प्राप्त चरण अनुमानों का उपयोग शोर में कमी के लिए किया जा सकता है: तात्कालिक चरण का अस्थायी चौरसाई और इसके व्युत्पन्न समय (तात्कालिक चरण और आवृत्ति) और आवृत्ति (समूह विलंब और चरण विलंब) द्वारा, आवृत्ति भर में चरण का चौरसाई। जुड़े हुए आयाम और चरण अनुमानक चरण के वॉन माइस वितरण की धारणा के आधार पर भाषण को अधिक सटीक रूप से पुनर्प्राप्त कर सकते हैं।

अनुप्रयोग

 * इंटरएक्टिव वॉयस रिस्पांस
 * आभासी सहायक
 * अध्यक्ष की पहचान
 * भावना पहचान
 * कॉल सेंटर स्वचालन
 * रोबोटिक्स

यह भी देखें

 * न्यूरोकंप्यूटेशनल भाषण प्रसंस्करण
 * भाषण कोडिंग
 * भाषण प्रौद्योगिकी
 * प्राकृतिक भाषा प्रसंस्करण