वाक् प्रक्रमण

भाषा प्रक्रिया या वाक् प्रक्रमण, वाक् संकेतों और संकेतों की प्रक्रमण विधियों का अध्ययन है। संकेतों को सामान्यतः डिजिटल डाटा प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रक्रमण को ऑडियो संकेत पर लागू डिजिटल संकेत प्रक्रिया का एक विशेष विषय माना जा सकता है। वाक् प्रक्रमण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रक्रमण कार्यों में वाक् पहचान, वाक् संश्लेषण, वक्ता डायरीकरण, वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।

इतिहास
वाक् प्रक्रमण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है। 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।

लीनियर प्रेडिक्टिव कोडिंग (LPC), एक वाक् प्रक्रमण एल्गोरिथम, पहली बार 1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था। 1970 के दशक के दौरान बेल लैब्स में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए। एलपीसी, आईपी ​​पर आवाज (वीओआईपी) तकनीक का आधार है, साथ ही वाक् सिंथेसाइज़र चिप्स, जैसे कि टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।

व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।

2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रक्रमण रणनीति हिडन मार्कोव मॉडल्स से अधिक आधुनिक कृत्रिम तंत्रिका नेटवर्क और गहन शिक्षा की ओर स्थानांतरित होने लगी।

डायनेमिक टाइम वार्पिंग
डायनामिक टाइम वार्पिंग (DTW) दो समय श्रृंखलाओं के बीच समानता को मापने के लिए एक कलन विधि है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच इष्टतम मिलान की गणना करती है। इष्टतम मिलान को उस मिलान से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।

हिडन मार्कोव मॉडल्स
हिडन मार्कोव मॉडल्स को सबसे सरल डायनेमिक बायेसियन नेटवर्क के रूप में प्रदर्शित किया जा सकता है। इस एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। मार्कोव स्वभाव को लागू करने से, समय t पर छिपे हुए चर x(t) का सशर्त संभाव्यता वितरण, हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।

कृत्रिम तंत्रिका प्रणाली
एक कृत्रिम तंत्रिका प्रणाली (ANA) कनेक्टेड इकाइयों या कृत्रिम न्यूरॉन्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित

ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में निष्कर्ष की तरह, एक कृत्रिम न्यूरॉन से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक वास्तविक संख्या है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।

फेज-अवेयर प्रक्रमण
फेज को सामान्यतः यादृच्छिक वर्दी चर माना जाता है और इस प्रकार यह किसी काम का नहीं होता है । यह फेज-रैपिंग के कारण है: $$2 \pi$$ पर समय-समय पर छलांग लगाने के कारण चापस्पर्श फलन का परिणाम निरंतर नहीं होता है| फेज अनरैपिंग के बाद (देखें, अध्याय 2.3; तात्कालिक चरण और आवृत्ति), इसे इस प्रकार व्यक्त किया जा सकता है:

$$\phi(h,l) = \phi_{lin}(h,l) + \Psi(h,l)$$, जहाँ $$\phi_{lin}(h,l) = \omega_0(l') {}_\Delta t$$ रैखिक चरण है ($${}_\Delta t$$ विश्लेषण के प्रत्येक फ्रेम में अस्थायी बदलाव है), $$\Psi(h,l)$$ मुखर पथ और चरण स्रोत का चरण योगदान है।

प्राप्त चरण अनुमानों का उपयोग शोर में कमी : तात्कालिक चरण का अस्थायी समतलीकरण और इसके व्युत्पन्न समय (तात्कालिक चरण और आवृत्ति) और आवृत्ति (समूह विलंब और चरण विलंब) द्वारा, आवृत्ति भर में चरण के समतलीकरण के लिए किया जा सकता है। जुड़े हुए आयाम और चरण अनुमानक, चरण के वॉन माइस वितरण की धारणा के आधार पर भाषण को अधिक सटीक रूप से पुनर्प्राप्त कर सकते हैं।

अनुप्रयोग

 * इंटरएक्टिव वॉयस सिस्टम्स
 * आभासी सहायक
 * वाक् पहचान
 * भावना पहचान
 * कॉल सेंटर स्वचालन
 * रोबोटिक्स

यह भी देखें

 * न्यूरोकंप्यूटेशनल वाक् प्रक्रमण
 * वाक् कोडिंग
 * वाक् प्रौद्योगिकी
 * प्राकृतिक भाषा प्रक्रमण