वाक् पहचान

भाषण मान्यता कंप्यूटर विज्ञान और कम्प्यूटेशनल भाषाविज्ञान का एक अंतःविषय उपक्षेत्र है जो कार्यप्रणाली और प्रौद्योगिकियों को विकसित करता है जो पाठ खोज के मुख्य लाभ के साथ कंप्यूटर द्वारा पाठ में बोली जाने वाली भाषा की पहचान और अनुवाद को सक्षम बनाता है। इसे ऑटोमैटिक स्पीच रिकग्निशन (ASR), कंप्यूटर स्पीच रिकग्निशन या स्पीच टू पाठ्य खोजSTT) के रूप में भी जाना जाता है। यह कंप्यूटर विज्ञान, भाषाविज्ञान और कंप्यूटर इंजीनियरिंग क्षेत्रों में ज्ञान और अनुसंधान को शामिल करता है। रिवर्स प्रक्रिया भाषण संश्लेषण है।

कुछ भाषण पहचान प्रणालियों को प्रशिक्षण की आवश्यकता होती है (जिसे नामांकन भी कहा जाता है) जहां एक व्यक्तिगत वक्ता प्रणाली में पाठ या पृथक शब्दावली पढ़ता है। प्रणाली व्यक्ति की विशिष्ट आवाज का विश्लेषण करती है और इसका उपयोग उस व्यक्ति के भाषण की पहचान को ठीक करने के लिए करती है, जिसके परिणामस्वरूप सटीकता में वृद्धि होती है। सिस्टम जो प्रशिक्षण का उपयोग नहीं करते हैं उन्हें स्पीकर-स्वतंत्र कहा जाता है सिस्टम। प्रशिक्षण का उपयोग करने वाली प्रणालियाँ वक्ता आश्रित कहलाती हैं।

वाक् पहचान अनुप्रयोगों में वॉयस डायलिंग (जैसे घर पर कॉल करना), कॉल रूटिंग (जैसे मैं कलेक्ट कॉल करना चाहूंगा), domotic उपकरण नियंत्रण, खोज कुंजी शब्द (जैसे एक पॉडकास्ट खोजें जहां विशेष शब्द बोले गए थे) जैसे आवाज यूजर इंटरफेस शामिल हैं। सरल डेटा प्रविष्टि (जैसे, क्रेडिट कार्ड नंबर दर्ज करना), संरचित दस्तावेजों की तैयारी (जैसे रेडियोलॉजी रिपोर्ट), स्पीकर विशेषताओं का निर्धारण करना, स्पीच-टू-टेक्स्ट प्रोसेसिंग (जैसे, शब्द संसाधक या ईमेल), और विमान (आमतौर पर प्रत्यक्ष आवाज इनपुट कहा जाता है)।

शब्द आवाज पहचान  या वक्ता मान्यता   बोलने वाले की पहचान करने के लिए संदर्भित करता है, बजाय इसके कि वे क्या कह रहे हैं। स्पीकर रिकग्निशन सिस्टम में भाषण अनुवाद के कार्य को सरल बना सकता है जिसे किसी विशिष्ट व्यक्ति की आवाज पर प्रशिक्षित किया गया है या इसे सुरक्षा प्रक्रिया के हिस्से के रूप में प्रमाणीकरण या स्पीकर की पहचान को सत्यापित करने के लिए इस्तेमाल किया जा सकता है।

प्रौद्योगिकी के दृष्टिकोण से, प्रमुख नवाचारों की कई लहरों के साथ वाक् पहचान का एक लंबा इतिहास है। हाल ही में, क्षेत्र को गहन शिक्षा और बड़े डेटा में प्रगति से लाभ हुआ है। प्रगति न केवल क्षेत्र में प्रकाशित अकादमिक पत्रों की वृद्धि से प्रमाणित होती है, बल्कि विश्वव्यापी उद्योग द्वारा वाक् पहचान प्रणाली को डिजाइन करने और तैनात करने में विभिन्न गहन शिक्षण विधियों को अपनाने से भी महत्वपूर्ण है।

इतिहास
विकास के प्रमुख क्षेत्र थे: शब्दावली का आकार, वक्ता की स्वतंत्रता और प्रसंस्करण की गति।

1970 से पहले

 * 1952 - बेल लैब्स के तीन शोधकर्ता, स्टीफ़न बालाशेक, आर. बिडुल्फ और के.एच. डेविस ने ऑड्रे नामक एक प्रणाली का निर्माण किया एकल वक्ता अंक पहचान के लिए। उनकी प्रणाली प्रत्येक उच्चारण के पावर स्पेक्ट्रम में फार्मेंट्स को स्थित करती है। * 1960 - गुन्नार फंता ने भाषण उत्पादन के स्रोत-फ़िल्टर मॉडल को विकसित और प्रकाशित किया।
 * 1962 - आईबीएम ने 1962 के विश्व मेले में अपनी 16-शब्द वाली शोबॉक्स मशीन की वाक् पहचान क्षमता का प्रदर्शन किया।
 * 1966 - रैखिक भविष्य कहनेवाला कोडिंग (LPC), एक भाषण कोडिंग विधि, पहली बार वाक् पहचान पर काम करते हुए नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (NTT) के शुजो सैटो द्वारा प्रस्तावित की गई थी।
 * 1969 - बेल लैब्स में फंडिंग कई वर्षों तक रुकी रही, जब 1969 में, प्रभावशाली जॉन आर. पियर्स ने एक खुला पत्र लिखा, जो स्पीच रिकग्निशन रिसर्च के लिए आलोचनात्मक और निराधार था। यह डिफंडिंग पियर्स के सेवानिवृत्त होने और जेम्स एल। फ्लानागन के पदभार संभालने तक चली।

संतुष्ट हिला 1960 के दशक के अंत में स्टैनफोर्ड विश्वविद्यालय में स्नातक छात्र के रूप में निरंतर भाषण मान्यता लेने वाले पहले व्यक्ति थे। पिछली प्रणालियों में उपयोगकर्ताओं को प्रत्येक शब्द के बाद रुकने की आवश्यकता होती थी। रेड्डीज सिस्टम ने शतरंज खेलने के लिए स्पोकन कमांड जारी किया।

इस समय के आसपास सोवियत शोधकर्ताओं ने गतिशील समय वारिंग (DTW) एल्गोरिथम का आविष्कार किया और इसका उपयोग एक पहचानकर्ता बनाने के लिए किया जो 200-शब्द शब्दावली पर काम करने में सक्षम था। DTW ने भाषण को छोटे फ्रेम में विभाजित करके संसाधित किया, उदा। 10ms खंड, और प्रत्येक फ्रेम को एक इकाई के रूप में संसाधित करना। हालांकि DTW को बाद के एल्गोरिदम द्वारा हटा दिया जाएगा, तकनीक जारी रही। इस समय की अवधि में स्पीकर स्वतंत्रता प्राप्त करना अनसुलझा रहा।

1970–1990

 * 1971 - 1,000 शब्दों के न्यूनतम शब्दावली आकार की मांग करने वाले वाक् पहचान अनुसंधान के लिए 'वाक् समझ अनुसंधान' के लिए DARPA ने पांच साल का वित्त पोषण किया। उन्होंने सोचा कि प्राकृतिक-भाषा की समझ | वाक् समझ वाणी मान्यता में प्रगति करने के लिए महत्वपूर्ण होगी, लेकिन यह बाद में असत्य साबित हुई। बीबीएन टेक्नोलॉजीज, आईबीएम, कार्नेगी मेलॉन और स्टैनफोर्ड अनुसंधान संस्थान सभी ने कार्यक्रम में भाग लिया। जॉन पियर्स के पत्र के बाद इस वाक् पहचान अनुसंधान को पुनर्जीवित किया।

1960 के दशक के अंत में लियोनार्ड ई. बॉम ने रक्षा विश्लेषण संस्थान में मार्कोव श्रृंखलाओं का गणित विकसित किया। एक दशक बाद, CMU में, राज रेड्डी के छात्रों जेम्स के. बेकर और जेनेट एम. बेकर ने वाक् पहचान के लिए हिडन मार्कोव मॉडल (HMM) का उपयोग करना शुरू किया। जेम्स बेकर ने अपनी स्नातक शिक्षा के दौरान इंस्टीट्यूट ऑफ डिफेंस एनालिसिस में ग्रीष्मकालीन नौकरी से एचएमएम के बारे में सीखा था। एचएमएम के उपयोग ने शोधकर्ताओं को एक एकीकृत संभाव्य मॉडल में ध्वनिकी, भाषा और वाक्य रचना जैसे ज्ञान के विभिन्न स्रोतों को संयोजित करने की अनुमति दी।
 * 1972 - IEEE ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग समूह ने न्यूटन, मैसाचुसेट्स में एक सम्मेलन आयोजित किया।
 * 1976 - पहला ICASSP फ़िलाडेल्फ़िया में आयोजित किया गया था, जो तब से वाक् पहचान पर शोध के प्रकाशन के लिए एक प्रमुख स्थान रहा है।


 * 1980 के दशक के मध्य तक IBM के फ्रेडरिक जेलिनेक | फ्रेड जेलिनेक की टीम ने टैंगोरा नामक एक आवाज सक्रिय टाइपराइटर बनाया, जो 20,000 शब्दों की शब्दावली को संभाल सकता था जेलाइनेक के सांख्यिकीय दृष्टिकोण ने एचएमएम जैसी सांख्यिकीय मॉडलिंग तकनीकों का उपयोग करने के पक्ष में मानव मस्तिष्क की प्रक्रियाओं और भाषण को समझने के तरीके का अनुकरण करने पर कम जोर दिया। (जेलाइनेक के समूह ने स्वतंत्र रूप से भाषण में एचएमएम के अनुप्रयोग की खोज की। ) यह भाषाविदों के साथ विवादास्पद था क्योंकि एचएमएम मानव भाषाओं की कई सामान्य विशेषताओं को ध्यान में रखते हुए बहुत सरल हैं। हालांकि, एचएमएम मॉडलिंग भाषण के लिए एक अत्यधिक उपयोगी तरीका साबित हुआ और 1980 के दशक में प्रमुख भाषण मान्यता एल्गोरिदम बनने के लिए गतिशील समय परिवर्तन को बदल दिया।
 * 1982 - जेम्स और जेनेट एम. बेकर द्वारा स्थापित ड्रैगन सिस्टम, आईबीएम के कुछ प्रतियोगियों में से एक था।

व्यावहारिक वाक् पहचान
1980 के दशक में एन-ग्राम भाषा मॉडल की शुरुआत भी हुई।
 * 1987 - काट्ज़ का बैक-ऑफ़ मॉडल|बैक-ऑफ़ मॉडल ने भाषा मॉडल को कई लंबाई एन-ग्राम और सीएसईएलटी का उपयोग करने की अनुमति दी भाषाओं को पहचानने के लिए HMM का उपयोग किया (सॉफ्टवेयर और हार्डवेयर विशेष प्रोसेसर, जैसे RIPAC (माइक्रोप्रोसेसर) दोनों में)।

इस क्षेत्र में अधिकांश प्रगति कंप्यूटर की तेजी से बढ़ती क्षमताओं के कारण हुई है। 1976 में DARPA कार्यक्रम के अंत में, शोधकर्ताओं के लिए उपलब्ध सबसे अच्छा कंप्यूटर 4 एमबी रैम वाला PDP-10 था। केवल 30 सेकंड के भाषण को डिकोड करने में 100 मिनट तक का समय लग सकता है। दो व्यावहारिक उत्पाद थे:
 * 1984 - 4096 शब्दों के समर्थन के साथ खुबानी पोर्टेबल जारी किया गया था, जिसमें से केवल 64 को एक समय में रैंडम एक्सेस मेमोरी में रखा जा सकता था।
 * 1987 - कुर्ज़वील एप्लाइड इंटेलिजेंस से एक पहचानकर्ता
 * 1990 - ड्रैगन डिक्टेट, 1990 में जारी एक उपभोक्ता उत्पाद एटी एंड टी ने मानव ऑपरेटर के उपयोग के बिना टेलीफोन कॉल को रूट करने के लिए 1992 में वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा को तैनात किया। प्रौद्योगिकी को बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित किया गया था।

इस बिंदु तक, विशिष्ट व्यावसायिक वाक् पहचान प्रणाली की शब्दावली औसत मानव शब्दावली से बड़ी थी। राज रेड्डी के पूर्व छात्र, एक्स यूई हुआंग को समझता है ने सीएमयू स्फिंक्स|स्फिंक्स-II प्रणाली को सीएमयू में विकसित किया। स्फिंक्स-II प्रणाली स्पीकर-स्वतंत्र, बड़ी शब्दावली, निरंतर वाक् पहचान करने वाली पहली प्रणाली थी और इसका DARPA के 1992 के मूल्यांकन में सर्वश्रेष्ठ प्रदर्शन था। भाषण मान्यता के इतिहास में एक बड़ी शब्दावली के साथ निरंतर भाषण को संभालना एक प्रमुख मील का पत्थर था। हुआंग ने 1993 में विंडोज भाषण मान्यता की खोज की। राज रेड्डी के छात्र काई-फ यू ली एप्पल में शामिल हुए, जहां 1992 में, उन्होंने कैस्पर नामक एप्पल कंप्यूटर के लिए एक स्पीच इंटरफेस प्रोटोटाइप विकसित करने में मदद की।

बेल्जियम स्थित वाक् पहचान कंपनी, लर्नआउट एंड हॉस्पी ने 1997 में कुर्ज़वील एप्लाइड इंटेलिजेंस और 2000 में ड्रैगन सिस्टम्स सहित कई अन्य कंपनियों का अधिग्रहण किया। L&H वाक् प्रौद्योगिकी का उपयोग Windows XP ऑपरेटिंग सिस्टम में किया गया था। 2001 में एक लेखा घोटाले के समाप्त होने तक L&H एक उद्योग अग्रणी था। L&H की वाक् प्रौद्योगिकी को स्कैनसॉफ्ट द्वारा खरीदा गया था जो 2005 में Nuance Communications बन गया। Apple Inc. सहायक महोदय मै।

2000s
2000 के दशक में DARPA ने दो भाषण मान्यता कार्यक्रम प्रायोजित किए: 2002 में प्रभावी वहनीय पुन: प्रयोज्य भाषण-से-पाठ (EARS) और DARPA वैश्विक स्वायत्त भाषा शोषण कार्यक्रम (गेल)। ईएआरएस कार्यक्रम में चार टीमों ने भाग लिया: आईबीएम, एलआईएमएसआई और पिट्सबर्ग विश्वविद्यालय के साथ बीबीएन टेक्नोलॉजीज के नेतृत्व वाली एक टीम। पिट्सबर्ग, कैम्ब्रिज विश्वविद्यालय, और अंतर्राष्ट्रीय कंप्यूटर विज्ञान संस्थान, स्टैनफोर्ड अनुसंधान संस्थान और वाशिंगटन विश्वविद्यालय से बनी एक टीम। ईएआरएस ने स्विचबोर्ड टेलीफोन भाषण कोष के संग्रह को वित्त पोषित किया जिसमें 500 से अधिक वक्ताओं से 260 घंटे की रिकॉर्ड की गई बातचीत शामिल थी। गेल कार्यक्रम आधुनिक मानक अरबी और मानक चीनी प्रसारण समाचार भाषण पर केंद्रित था। वाक् पहचान में Google का पहला प्रयास 2007 में Nuance के कुछ शोधकर्ताओं को काम पर रखने के बाद आया। पहला उत्पाद GOOG-411 था, जो एक टेलीफोन आधारित निर्देशिका सेवा थी। GOOG-411 की रिकॉर्डिंग से मूल्यवान डेटा प्राप्त हुआ जिससे Google को अपनी पहचान प्रणाली को बेहतर बनाने में सहायता मिली. Google Voice Search अब 30 से अधिक भाषाओं में समर्थित है।

संयुक्त राज्य अमेरिका में, राष्ट्रीय सुरक्षा एजेंसी ने कम से कम 2006 से कीवर्ड स्पॉटिंग के लिए एक प्रकार की वाक् पहचान का उपयोग किया है। यह तकनीक विश्लेषकों को बड़ी मात्रा में रिकॉर्ड की गई बातचीत के माध्यम से खोज करने और कीवर्ड के उल्लेखों को अलग करने की अनुमति देती है। रिकॉर्डिंग को अनुक्रमित किया जा सकता है और विश्लेषक रुचि की बातचीत खोजने के लिए डेटाबेस पर प्रश्न चला सकते हैं। कुछ सरकारी अनुसंधान कार्यक्रम भाषण मान्यता के खुफिया अनुप्रयोगों पर केंद्रित हैं, उदा। DARPA का EARS प्रोग्राम और IARPA का बेबेल कार्यक्रम

2000 के दशक की शुरुआत में, फीडफॉरवर्ड कृत्रिम तंत्रिका प्रसार के साथ संयुक्त छिपे हुए मार्कोव मॉडल जैसे पारंपरिक दृष्टिकोणों में वाक् पहचान का अभी भी वर्चस्व था। हालांकि, आज, स्पीच रिकॉग्निशन के कई पहलुओं को लंबी अल्पकालिक स्मृति (LSTM) नामक एक गहन शिक्षण पद्धति द्वारा ले लिया गया है, जो 1997 में सेप होचराइटर और जुरगेन श्मिटुबर द्वारा प्रकाशित एक आवर्तक तंत्रिका नेटवर्क है। LSTM RNN लुप्त होती ढाल की समस्या से बचते हैं और बहुत गहन शिक्षण कार्य सीख सकते हैं जिसके लिए हज़ारों असतत समय पहले घटित घटनाओं की यादों की आवश्यकता होती है, जो भाषण के लिए महत्वपूर्ण है। 2007 के आसपास, LSTM कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC) द्वारा प्रशिक्षित किया गया कुछ अनुप्रयोगों में पारंपरिक वाक् पहचान को मात देना शुरू कर दिया है। 2015 में, Google की वाक् पहचान ने कथित तौर पर CTC-प्रशिक्षित LSTM के माध्यम से 49% की एक नाटकीय प्रदर्शन छलांग का अनुभव किया, जो अब सभी स्मार्टफोन उपयोगकर्ताओं के लिए Google Voice के माध्यम से उपलब्ध है। ध्वनिक मॉडलिंग के लिए डीप फीडफॉर्वर्ड (गैर-आवर्तक) नेटवर्क का उपयोग 2009 के उत्तरार्ध में जेफ्री हिंटन और उनके छात्रों द्वारा टोरंटो विश्वविद्यालय और ली डेंग द्वारा शुरू किया गया था। और माइक्रोसॉफ्ट रिसर्च में सहयोगियों, शुरुआत में माइक्रोसॉफ्ट और टोरंटो विश्वविद्यालय के बीच सहयोगी काम में जो बाद में आईबीएम और Google को शामिल करने के लिए विस्तारित किया गया था (इसलिए उनके 2012 समीक्षा पत्र में उपशीर्षक के चार शोध समूहों के साझा विचार)। एक Microsoft अनुसंधान कार्यकारी ने इस नवाचार को 1979 के बाद से सटीकता में सबसे नाटकीय परिवर्तन कहा। पिछले कुछ दशकों में लगातार वृद्धिशील सुधारों के विपरीत, गहन शिक्षण के प्रयोग से शब्द त्रुटि दर में 30% की कमी आई है। इस नवाचार को पूरे क्षेत्र में तेजी से अपनाया गया। शोधकर्ताओं ने भाषा मॉडलिंग के लिए भी गहन शिक्षण तकनीकों का उपयोग करना शुरू कर दिया है।

भाषण मान्यता के लंबे इतिहास में, 1980, 1990 के दशक और 2000 के दशक में कुछ वर्षों के दौरान कृत्रिम तंत्रिका नेटवर्क के उथले रूप और गहरे रूप (जैसे आवर्तक जाल) दोनों का पता लगाया गया था। लेकिन इन तरीकों ने गैर-समान आंतरिक-हैंडक्राफ्टिंग मिक्स्चर छिपा हुआ मार्कोव मॉडल (जीएमएम-एचएमएम) तकनीक पर कभी जीत हासिल नहीं की, जो भेदभावपूर्ण तरीके से प्रशिक्षित भाषण के जनरेटिव मॉडल पर आधारित है। 1990 के दशक में कई प्रमुख कठिनाइयों का पद्धतिगत रूप से विश्लेषण किया गया था, जिसमें धीरे-धीरे ह्रासमान भी शामिल था और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना। ये सभी कठिनाइयाँ इन शुरुआती दिनों में बड़े प्रशिक्षण डेटा और बड़ी कंप्यूटिंग शक्ति की कमी के अतिरिक्त थीं। अधिकांश भाषण मान्यता शोधकर्ता जो इस तरह की बाधाओं को समझते थे, इसलिए बाद में 2009-2010 के आसपास शुरू होने वाली गहरी शिक्षा के पुनरुत्थान तक जनरेटिव मॉडलिंग दृष्टिकोणों को आगे बढ़ाने के लिए तंत्रिका जाल से दूर चले गए, जिसने इन सभी कठिनाइयों को दूर कर दिया था। हिंटन एट अल। और डेंग एट अल। इस हालिया इतिहास के हिस्से की समीक्षा की कि कैसे एक दूसरे के साथ और फिर चार समूहों (टोरंटो विश्वविद्यालय, माइक्रोसॉफ्ट, गूगल और आईबीएम) के सहयोगियों के साथ उनके सहयोग ने वाक् पहचान के लिए गहरे फीडफॉरवर्ड न्यूरल नेटवर्क के अनुप्रयोगों के पुनर्जागरण को प्रज्वलित किया।

2010
2010 की शुरुआत में वाक् पहचान, जिसे ध्वनि पहचान भी कहा जाता है  तक सीमित थी वक्ता की मान्यता से स्पष्ट रूप से अलग था, और वक्ता की स्वतंत्रता को एक बड़ी सफलता माना गया था। तब तक, सिस्टम को प्रशिक्षण अवधि की आवश्यकता होती है। 1987 में एक डॉल के विज्ञापन में टैगलाइन दी गई थी फाइनली, डॉल जो आपको समझती है। - इस तथ्य के बावजूद कि यह वर्णन किया गया था कि कौन से बच्चे अपनी आवाज का जवाब देने के लिए प्रशिक्षित कर सकते हैं।

2017 में, Microsoft शोधकर्ता व्यापक रूप से बेंचमार्क किए गए स्विचबोर्ड कार्य पर संवादी टेलीफोनी भाषण को प्रसारित करने के एक ऐतिहासिक मानवीय समता मील के पत्थर पर पहुंच गए। भाषण पहचान सटीकता को अनुकूलित करने के लिए कई गहन शिक्षण मॉडल का उपयोग किया गया था। भाषण पहचान शब्द त्रुटि दर को एक ही बेंचमार्क पर एक साथ काम करने वाले 4 पेशेवर मानव प्रतिलेखकों के रूप में कम बताया गया था, जिसे आईबीएम वाटसन भाषण टीम द्वारा एक ही कार्य पर वित्त पोषित किया गया था।

मॉडल, तरीके और एल्गोरिदम
ध्वनिक मॉडलिंग और भाषा मॉडलिंग दोनों ही आधुनिक सांख्यिकीय आधारित वाक् पहचान एल्गोरिदम के महत्वपूर्ण भाग हैं। छिपे हुए मार्कोव मॉडल (एचएमएम) कई प्रणालियों में व्यापक रूप से उपयोग किए जाते हैं। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे दस्तावेज़ वर्गीकरण या सांख्यिकीय मशीन अनुवाद में भी किया जाता है।

छिपे हुए मार्कोव मॉडल
आधुनिक सामान्य-उद्देश्य वाक् पहचान प्रणालियाँ छिपे हुए मार्कोव मॉडल पर आधारित हैं। ये सांख्यिकीय मॉडल हैं जो प्रतीकों या मात्राओं के अनुक्रम का उत्पादन करते हैं। एचएमएम का उपयोग वाक् पहचान में किया जाता है क्योंकि एक वाक् संकेत को टुकड़े-टुकड़े स्थिर संकेत या लघु-समय स्थिर संकेत के रूप में देखा जा सकता है। थोड़े समय के पैमाने में (उदाहरण के लिए, 10 मिलीसेकंड), भाषण को स्थिर प्रक्रिया के रूप में अनुमानित किया जा सकता है। भाषण को कई स्टोकेस्टिक उद्देश्यों के लिए मार्कोव मॉडल के रूप में माना जा सकता है।

एचएमएम के लोकप्रिय होने का एक और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटेशनल रूप से व्यवहार्य हैं। वाक् पहचान में, छिपा हुआ मार्कोव मॉडल एन-डायमेंशनल रियल-वैल्यूड वैक्टर (एन के साथ एक छोटा पूर्णांक, जैसे 10) के अनुक्रम को आउटपुट करेगा, इनमें से प्रत्येक 10 मिलीसेकंड में से एक को आउटपुट करेगा। सदिशों में प्रभुत्व गुणांक शामिल होंगे, जो भाषण की एक छोटी समय की खिड़की के फूरियर रूपांतरण और कोसाइन परिवर्तन का उपयोग करके स्पेक्ट्रम को सजाने के द्वारा प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छिपे हुए मार्कोव मॉडल में प्रत्येक राज्य में एक सांख्यिकीय वितरण होता है जो विकर्ण सहप्रसरण गॉसियन का मिश्रण होता है, जो प्रत्येक मनाया वेक्टर के लिए संभावना देगा। प्रत्येक शब्द, या (अधिक सामान्य वाक् पहचान प्रणाली के लिए), प्रत्येक स्वनिम का एक अलग आउटपुट वितरण होगा; शब्दों या स्वरों के अनुक्रम के लिए एक छिपा हुआ मार्कोव मॉडल अलग-अलग शब्दों और स्वरों के लिए अलग-अलग प्रशिक्षित छिपे हुए मार्कोव मॉडल को जोड़कर बनाया गया है।

ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम-आधारित दृष्टिकोण के मूल तत्व हैं। ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को बेहतर बनाने के लिए आधुनिक वाक् पहचान प्रणालियाँ कई मानक तकनीकों के विभिन्न संयोजनों का उपयोग करती हैं। एक विशिष्ट बड़ी-शब्दावली प्रणाली को स्वरों के लिए संदर्भ निर्भरता की आवश्यकता होगी (इसलिए अलग-अलग बाएँ और दाएँ संदर्भ वाले स्वरों में HMM राज्यों के रूप में अलग-अलग अहसास होते हैं); यह एक अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्य करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे के स्पीकर सामान्यीकरण के लिए, यह पुरुष-महिला सामान्यीकरण के लिए वोकल ट्रैक्ट लेंथ नॉर्मलाइज़ेशन (VTLN) और अधिक सामान्य स्पीकर अनुकूलन के लिए अधिकतम संभावना रैखिक प्रतिगमन (MLLR) का उपयोग कर सकता है। भाषण की गतिशीलता को पकड़ने के लिए सुविधाओं में तथाकथित डेल्टा गुणांक और डेल्टा-डेल्टा गुणांक होंगे और इसके अलावा, विषमलैंगिक रैखिक विभेदक विश्लेषण (HLDA) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांकों को छोड़ सकते हैं और स्प्लिसिंग (वाक् पहचान) और एक रैखिक विभेदक विश्लेषण-आधारित प्रक्षेपण का उपयोग कर सकते हैं, जिसके बाद शायद विषमलैंगिक रैखिक विभेदक विश्लेषण या एक वैश्विक अर्ध-बंधे सह-प्रसरण परिवर्तन (जिसे अधिकतम संभावना रैखिक परिवर्तन के रूप में भी जाना जाता है) या एमएलएलटी)। कई प्रणालियाँ तथाकथित भेदभावपूर्ण प्रशिक्षण तकनीकों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए विशुद्ध रूप से सांख्यिकीय दृष्टिकोण से दूर होती हैं और इसके बजाय प्रशिक्षण डेटा के कुछ वर्गीकरण-संबंधित माप का अनुकूलन करती हैं। उदाहरण हैं अधिकतम आपसी जानकारी (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई), और न्यूनतम फोन त्रुटि (एमपीई)।

भाषण का डिकोडिंग (क्या होता है जब सिस्टम को एक नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे संभावित स्रोत वाक्य की गणना करनी चाहिए) शायद सबसे अच्छा रास्ता खोजने के लिए विटरबी एल्गोरिथ्म का उपयोग करेगा, और यहां गतिशील रूप से एक विकल्प बनाने के बीच एक विकल्प है संयोजन छिपा हुआ मार्कोव मॉडल, जिसमें ध्वनिक और भाषा दोनों मॉडल की जानकारी शामिल है और इसे पहले से स्थिर रूप से संयोजित करना (परिमित राज्य ट्रांसड्यूसर, या एफएसटी, दृष्टिकोण)।

डिकोडिंग में एक संभावित सुधार सिर्फ सर्वश्रेष्ठ उम्मीदवार को रखने के बजाय अच्छे उम्मीदवारों का एक सेट रखना है, और इन अच्छे उम्मीदवारों को रेट करने के लिए एक बेहतर स्कोरिंग फ़ंक्शन (पुनः स्कोरिंग (एएसआर)) का उपयोग करना है ताकि हम अपने अनुसार सर्वश्रेष्ठ उम्मीदवार चुन सकें। यह परिष्कृत स्कोर। उम्मीदवारों के सेट को या तो एक सूची के रूप में रखा जा सकता है (एन-सर्वश्रेष्ठ सूची अनुमोदनoach) या मॉडलों के एक सबसेट के रूप में (एक जाली (क्रम))। री स्कोरिंग आमतौर पर बेयस जोखिम को कम करने की कोशिश करके किया जाता है (या इसका एक सन्निकटन): स्रोत वाक्य को अधिकतम संभाव्यता के साथ लेने के बजाय, हम उस वाक्य को लेने की कोशिश करते हैं जो किसी दिए गए नुकसान फ़ंक्शन की प्रत्याशा को सभी संभावित ट्रांसक्रिप्शन के संबंध में कम करता है (यानी, हम उस वाक्य को लेते हैं जो औसत दूरी को कम करता है उनकी अनुमानित संभाव्यता द्वारा भारित अन्य संभावित वाक्यों के लिए)। नुकसान समारोह आमतौर पर लेवेनशेटिन दूरी है, हालांकि यह विशिष्ट कार्यों के लिए अलग-अलग दूरी हो सकती है; संभावित प्रतिलेखन का सेट, निश्चित रूप से, सुवाह्यता बनाए रखने के लिए छंटाई की जाती है। संपादित दूरी के साथ भारित परिमित राज्य ट्रांसड्यूसर के रूप में प्रस्तुत जालक (आदेश) को फिर से स्कोर करने के लिए कुशल एल्गोरिदम तैयार किए गए हैं, जो कुछ मान्यताओं की पुष्टि करने वाले एक परिमित राज्य ट्रांसड्यूसर के रूप में खुद का प्रतिनिधित्व करते हैं।

डायनामिक टाइम वार्पिंग (DTW)-आधारित स्पीच रिकग्निशन
डायनेमिक टाइम वारपिंग एक दृष्टिकोण है जो ऐतिहासिक रूप से वाक् पहचान के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण द्वारा विस्थापित कर दिया गया है।

डायनेमिक टाइम वारपिंग दो अनुक्रमों के बीच समानता को मापने के लिए एक एल्गोरिथ्म है जो समय या गति में भिन्न हो सकता है। उदाहरण के लिए, चलने के पैटर्न में समानता का पता लगाया जाएगा, भले ही एक वीडियो में व्यक्ति धीरे-धीरे चल रहा हो और अगर दूसरे वीडियो में वह अधिक तेज़ी से चल रहा हो, या भले ही एक अवलोकन के दौरान त्वरण और मंदी हो। DTW को वीडियो, ऑडियो और ग्राफ़िक्स पर लागू किया गया है - वास्तव में, कोई भी डेटा जिसे एक रेखीय प्रतिनिधित्व में बदला जा सकता है, उसका विश्लेषण DTW के साथ किया जा सकता है।

अलग-अलग बोलने की गति से निपटने के लिए एक प्रसिद्ध एप्लिकेशन स्वचालित वाक् पहचान है। सामान्य तौर पर, यह एक ऐसी विधि है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (जैसे, समय श्रृंखला) के बीच इष्टतम मिलान खोजने की अनुमति देती है। यही है, दृश्यों को एक दूसरे से मेल खाने के लिए गैर-रैखिक रूप से विकृत किया जाता है। यह अनुक्रम संरेखण विधि अक्सर छिपे हुए मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।

तंत्रिका नेटवर्क
1980 के दशक के अंत में एएसआर में तंत्रिका नेटवर्क एक आकर्षक ध्वनिक मॉडलिंग दृष्टिकोण के रूप में उभरा। तब से, भाषण मान्यता के कई पहलुओं में तंत्रिका नेटवर्क का उपयोग किया गया है जैसे कि ध्वनि वर्गीकरण, बहुउद्देश्यीय विकासवादी एल्गोरिदम के माध्यम से स्वनिम वर्गीकरण, दृश्य-श्रव्य भाषण पहचान, दृश्य-श्रव्य वक्ता पहचान और वक्ता अनुकूलन।

कृत्रिम तंत्रिका नेटवर्क एचएमएम की तुलना में फीचर सांख्यिकीय गुणों के बारे में कम स्पष्ट धारणाएं बनाते हैं और भाषण मान्यता के लिए उन्हें आकर्षक पहचान मॉडल बनाने वाले कई गुण हैं। जब एक भाषण सुविधा खंड की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तो तंत्रिका नेटवर्क स्वाभाविक और कुशल तरीके से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। हालांकि, कम समय की इकाइयों जैसे अलग-अलग स्वरों और पृथक शब्दों को वर्गीकृत करने में उनकी प्रभावशीलता के बावजूद, रेफरी> एस। ए. ज़होरियन, ए.एम. ज़िमर, और एफ. मेंग, (2002) श्रवणबाधित लोगों के लिए प्रशिक्षण, ICSLP 2002 में प्रारंभिक तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल रहे थे क्योंकि अस्थायी निर्भरताओं को मॉडल करने की उनकी सीमित क्षमता थी।

इस सीमा के लिए एक दृष्टिकोण तंत्रिका नेटवर्क को पूर्व-प्रसंस्करण, सुविधा परिवर्तन या आयामी कमी के रूप में उपयोग करना था, रेफरी> एचएमएम आधारित मान्यता से पहले का चरण। हालाँकि, हाल ही में, LSTM और संबंधित आवर्तक तंत्रिका नेटवर्क (RNNs) और समय विलंब तंत्रिका नेटवर्क (टीडीएनएन) इस क्षेत्र में बेहतर प्रदर्शन किया है।

डीप फीडफॉरवर्ड और रिकरंट न्यूरल नेटवर्क्स
डीप न्यूरल नेटवर्क और डीनोइज़िंग ऑटोएन्कोडर भी जांच के दायरे में हैं। डीप फीडफॉर्वर्ड न्यूरल नेटवर्क (डीएनएन) एक कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें होती हैं। उथले तंत्रिका नेटवर्क के समान, DNN जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। DNN आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं, जहाँ अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे एक बड़ी सीखने की क्षमता मिलती है और इस प्रकार भाषण डेटा के जटिल पैटर्न की मॉडलिंग की संभावना होती है।

शैक्षणिक शोधकर्ताओं के सहयोग से औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां डीएनएन की बड़ी आउटपुट परतें संदर्भ निर्भर एचएमएम राज्यों के आधार पर निर्णय वृक्षों द्वारा निर्मित की गईं। अक्टूबर 2014 तक इस विकास और अत्याधुनिक स्थिति की व्यापक समीक्षा Microsoft अनुसंधान से हाल ही में स्प्रिंगर पुस्तक में देखें। स्वचालित भाषण पहचान की संबंधित पृष्ठभूमि और विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें, विशेष रूप से इसमें डीप लर्निंग भी शामिल है। हाल के अवलोकन लेख। गहन शिक्षण का एक मूलभूत सिद्धांत हाथ से तैयार की गई फीचर इंजीनियरिंग को खत्म करना और कच्ची सुविधाओं का उपयोग करना है। कच्चे स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर के आर्किटेक्चर में इस सिद्धांत को पहली बार सफलतापूर्वक खोजा गया था, मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। स्पीच, वेवफॉर्म्स की असली अपरिष्कृत विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर वाक् पहचान परिणामों का उत्पादन करने के लिए दिखाया गया है।

एंड-टू-एंड स्वचालित भाषण पहचान
2014 के बाद से, एंड-टू-एंड एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक ध्वन्यात्मक-आधारित (यानी, सभी छिपे हुए मार्कोव मॉडल-आधारित मॉडल) दृष्टिकोणों को उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटकों और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से वाक् पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है क्योंकि यह प्रशिक्षण प्रक्रिया और परिनियोजन प्रक्रिया को सरल करता है। उदाहरण के लिए, सभी एचएमएम-आधारित प्रणालियों के लिए एक एन-ग्राम | एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और एक विशिष्ट एन-ग्राम भाषा मॉडल अक्सर स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर तैनात करना अव्यावहारिक हो जाता है। परिणामस्वरूप, Google और Apple Inc. के आधुनिक वाणिज्यिक ASR सिस्टम क्लाउड पर तैनात हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।

एंड-टू-एंड एएसआर का पहला प्रयास 2014 में डीपमाइंड के एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और टोरंटो विश्वविद्यालय के नवदीप जेटली द्वारा पेश किए गए संबंधवादी लौकिक वर्गीकरण (सीटीसी) आधारित सिस्टम के साथ था। मॉडल में आवर्तक तंत्रिका नेटवर्क और एक सीटीसी परत शामिल थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल उच्चारण और ध्वनिक मॉडल को एक साथ सीखता है, हालांकि यह एचएमएम के समान सशर्त स्वतंत्रता धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी वर्णों के लिए भाषण ध्वनिकी को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी की गलतियाँ करते हैं और प्रतिलेख को साफ करने के लिए एक अलग भाषा मॉडल पर भरोसा करना चाहिए। बाद में, Baidu ने अत्यधिक बड़े डेटासेट के साथ काम पर विस्तार किया और चीनी मंदारिन और अंग्रेजी में कुछ व्यावसायिक सफलता प्रदर्शित की। 2016 में, ऑक्सफोर्ड विश्वविद्यालय ने लिपनेट प्रस्तुत किया, आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैटियोटेम्पोरल कनवल्शन का उपयोग करते हुए पहला एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग मॉडल, एक प्रतिबंधित व्याकरण डेटासेट में मानव-स्तर के प्रदर्शन को पार करता है। दीपमाइंड द्वारा 2018 में बड़े पैमाने पर सीएनएन-आरएनएन-सीटीसी आर्किटेक्चर प्रस्तुत किया गया था, जिसने मानव विशेषज्ञों की तुलना में 6 गुना बेहतर प्रदर्शन हासिल किया। सीटीसी-आधारित मॉडलों के लिए एक वैकल्पिक दृष्टिकोण ध्यान-आधारित मॉडल हैं। चान एट अल द्वारा ध्यान-आधारित एएसआर मॉडल एक साथ पेश किए गए थे। कार्नेगी मेलन विश्वविद्यालय और गूगल ब्रेन और बहदानौ एट अल। 2016 में यूनिवर्सिटी डी मॉन्ट्रियल। लिसन, अटेंड एंड स्पेल (LAS) नाम का मॉडल, शाब्दिक रूप से ध्वनिक संकेत को सुनता है, संकेत के विभिन्न भागों पर ध्यान देता है और एक समय में एक वर्ण को प्रतिलेखित करता है। सीटीसी-आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता की धारणा नहीं होती है और उच्चारण, ध्वनिक और भाषा मॉडल सहित वाक् पहचानकर्ता के सभी घटकों को सीधे सीख सकते हैं। इसका मतलब है, परिनियोजन के दौरान, सीमित स्मृति वाले अनुप्रयोगों के लिए इसे बहुत व्यावहारिक बनाने के लिए भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडलों ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या उसके बिना) से बेहतर प्रदर्शन सहित काफी सफलता देखी है। मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन यूनिवर्सिटी, मेसाचुसेट्स प्रौद्योगिक संस्थान और गूगल ब्रेन द्वारा अव्यक्त अनुक्रम अपघटन (एलएसडी) का प्रस्ताव सीधे उप-शब्द इकाइयों को उत्सर्जित करने के लिए किया गया था जो अंग्रेजी वर्णों की तुलना में अधिक स्वाभाविक हैं; ऑक्सफोर्ड विश्वविद्यालय और डीपमाइंड ने LAS को मानव-स्तर के प्रदर्शन को पार करते हुए लिप रीडिंग को संभालने के लिए LAS को वॉच, लिसन, अटेंड और स्पेल (WLAS) तक बढ़ाया।

इन-कार सिस्टम
आमतौर पर एक मैनुअल कंट्रोल इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर फिंगर कंट्रोल के माध्यम से, स्पीच रिकग्निशन सिस्टम को सक्षम करता है और यह एक ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के बाद, सिस्टम में एक सुनने की खिड़की होती है जिसके दौरान यह पहचान के लिए एक भाषण इनपुट स्वीकार कर सकता है। फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या एक संगत स्मार्टफोन, एमपी3 प्लेयर या म्यूजिक-लोडेड फ्लैश ड्राइव से संगीत चलाने के लिए सरल वॉयस कमांड का उपयोग किया जा सकता है। कार बनाने और मॉडल के बीच आवाज पहचानने की क्षमता अलग-अलग होती है। कुछ सबसे हाल के कार मॉडल कमांड के एक निश्चित सेट के स्थान पर प्राकृतिक-भाषा वाक् पहचान प्रदान करते हैं, जिससे ड्राइवर को पूर्ण वाक्यों और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इस तरह की प्रणालियों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के एक सेट को याद रखने की कोई आवश्यकता नहीं है।

चिकित्सा दस्तावेज
स्वास्थ्य देखभाल क्षेत्र में, वाक् पहचान चिकित्सा प्रलेखन प्रक्रिया के फ्रंट-एंड या बैक-एंड में लागू की जा सकती है। फ्रंट-एंड स्पीच रिकग्निशन वह जगह है जहां प्रदाता स्पीच-रिकग्निशन इंजन में डिक्टेट करता है, पहचाने गए शब्दों को बोले जाने पर प्रदर्शित किया जाता है, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए जिम्मेदार होता है। बैक-एंड या डिफर्ड स्पीच रिकग्निशन वह जगह है जहां प्रदाता एक डिजिटल श्रुतलेख सिस्टम में डिक्टेट करता है, वॉयस को स्पीच-रिकग्निशन मशीन के माध्यम से रूट किया जाता है और मान्यता प्राप्त ड्राफ्ट डॉक्यूमेंट को मूल वॉयस फाइल के साथ एडिटर तक पहुंचाया जाता है, जहां ड्राफ्ट को एडिट किया जाता है। और रिपोर्ट को अंतिम रूप दिया। आस्थगित भाषण मान्यता वर्तमान में उद्योग में व्यापक रूप से उपयोग की जाती है।

स्वास्थ्य सेवा में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से एक यह है कि 2009 का अमेरिकी रिकवरी और पुनर्निवेश अधिनियम (2009 का अमेरिकी पुनर्प्राप्ति और पुनर्निवेश अधिनियम) सार्थक उपयोग मानकों के अनुसार EMR का उपयोग करने वाले चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है। इन मानकों के लिए आवश्यक है कि EMR द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब इसे आमतौर पर इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड या EHR के रूप में संदर्भित किया जाता है)। भाषण मान्यता का उपयोग रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के भाग के रूप में कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से अनुकूल है: संरचित असतत डेटा (जैसे, संख्यात्मक मान या कोड) दर्ज करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ एक सूची या एक नियंत्रित शब्दावली से) उन लोगों के लिए अपेक्षाकृत न्यूनतम हैं जिन्हें देखा जा सकता है और जो कीबोर्ड और माउस को संचालित कर सकते हैं।

एक अधिक महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को स्पष्ट रूप से आवाज-पहचान क्षमताओं का लाभ उठाने के लिए तैयार नहीं किया गया है। EHR के साथ चिकित्सक की बातचीत के एक बड़े हिस्से में मेनू, और टैब/बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन शामिल है, और कीबोर्ड और माउस पर बहुत अधिक निर्भर है: ध्वनि-आधारित नेविगेशन केवल मामूली एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी डिक्टेशन के लिए कई अत्यधिक अनुकूलित प्रणालियाँ वॉयस मैक्रोज़ को लागू करती हैं, जहाँ कुछ वाक्यांशों का उपयोग - उदाहरण के लिए, सामान्य रिपोर्ट, स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भर देगी और/या बॉयलरप्लेट उत्पन्न करेगी, जो प्रकार के साथ भिन्न होगी परीक्षा का - उदाहरण के लिए, रेडियोलॉजी सिस्टम के लिए छाती का एक्स-रे बनाम गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला।

चिकित्सीय उपयोग
वर्ड प्रोसेसर के साथ संयोजन के रूप में वाक् पहचान सॉफ़्टवेयर के लंबे समय तक उपयोग ने मस्तिष्क एवीएम रोगियों में अल्पावधि-स्मृति पुनर्संरचना के लिए लाभ दिखाया है, जिनका उपचार लकीर (सर्जरी) के साथ किया गया है। जिन व्यक्तियों के एवीएम का उपचार रेडियोलॉजिकल तकनीकों का उपयोग करके किया गया है, उनके लिए संज्ञानात्मक लाभों का निर्धारण करने के लिए और अनुसंधान किए जाने की आवश्यकता है।

उच्च प्रदर्शन लड़ाकू विमान
लड़ाकू विमानों में वाक् पहचान के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयास किए गए हैं। जनरल डायनेमिक्स F-16 फाइटिंग फाल्कन वेरिएंट#टेक्नोलॉजी डिमॉन्स्ट्रेटर्स, और टेस्ट वेरिएंट्स#फ्लाइट कंट्रोल वेरिएंट्स#F-16 एडवांस्ड फाइटर टेक्नोलॉजी इंटीग्रेशन|एडवांस्ड फाइटर टेक्नोलॉजी इंटीग्रेशन (AFTI)/F -16 विमान (F-16 VISTA), फ्रांस में मिराज (विमान) विमान के लिए कार्यक्रम, और ब्रिटेन में विभिन्न प्रकार के विमान प्लेटफार्मों से निपटने वाले अन्य कार्यक्रम। इन कार्यक्रमों में, रेडियो फ्रीक्वेंसी सेट करने, ऑटोपायलट सिस्टम को कमांड करने, स्टीयर-पॉइंट निर्देशांक सेट करने और हथियार रिलीज पैरामीटर, और उड़ान प्रदर्शन को नियंत्रित करने सहित अनुप्रयोगों के साथ, लड़ाकू विमानों में भाषण पहचानकर्ताओं को सफलतापूर्वक संचालित किया गया है।

जेएएस 39 ग्रिपेन मिलेगा|जेएएस-39 ग्रिपेन कॉकपिट, इंग्लैंड (2004) में उड़ान भरने वाले स्वीडिश पायलटों के साथ काम करते हुए पाया गया कि बढ़ती जी बल|जी-लोड के साथ मान्यता बिगड़ गई। रिपोर्ट ने यह भी निष्कर्ष निकाला कि अनुकूलन ने सभी मामलों में परिणामों में बहुत सुधार किया और यह कि सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में काफी सुधार करने के लिए दिखाया गया। अपेक्षा के विपरीत, बोलने वालों की टूटी-फूटी अंग्रेजी का कोई प्रभाव नहीं पाया गया। यह स्पष्ट था कि सहज भाषण पहचानकर्ता के लिए समस्याएँ पैदा करता है, जैसा कि उम्मीद की जा सकती थी। एक प्रतिबंधित शब्दावली, और सबसे बढ़कर, एक उचित सिंटैक्स, इस प्रकार मान्यता सटीकता में काफी सुधार की उम्मीद की जा सकती है। यूरोफाइटर टाइफून, वर्तमान में यूके आरएएफ के साथ सेवा में है, एक स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसके लिए प्रत्येक पायलट को एक टेम्पलेट बनाने की आवश्यकता होती है। सिस्टम का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों के लिए नहीं किया जाता है, जैसे कि हथियार छोड़ना या हवाई जहाज़ के पहिये को कम करना, लेकिन अन्य कॉकपिट कार्यों की एक विस्तृत श्रृंखला के लिए उपयोग किया जाता है। वॉयस कमांड की पुष्टि दृश्य और/या श्रव्य प्रतिक्रिया द्वारा की जाती है। पायलट कार्यभार को कम करने में प्रणाली को एक प्रमुख डिजाइन सुविधा के रूप में देखा जाता है, और यहां तक ​​​​कि पायलट को अपने विमान को दो सरल वॉयस कमांड या अपने किसी भी विंगमैन को केवल पांच कमांड के साथ लक्ष्य निर्धारित करने की अनुमति देता है। स्पीकर-इंडिपेंडेंट सिस्टम भी विकसित किए जा रहे हैं और लॉकहीड मार्टिन F-35 लाइटनिंग II (JSF) और Alenia Aermacchi M-346 मास्टर लीड-इन फाइटर ट्रेनर के लिए परीक्षण के अधीन हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता स्कोर का उत्पादन किया है।

हेलीकॉप्टर
तनाव और शोर के तहत उच्च पहचान सटीकता प्राप्त करने की समस्या विशेष रूप से हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण में भी प्रासंगिक है। हेलीकॉप्टर वातावरण में ध्वनिक शोर की समस्या वास्तव में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि इसलिए भी कि हेलीकॉप्टर पायलट, सामान्य रूप से लड़ाकू पायलट हेलमेट नहीं पहनता है, जिससे माइक्रोफ़ोन में ध्वनिक शोर कम हो जाता है। पिछले एक दशक में हेलीकाप्टरों में वाक् पहचान प्रणाली अनुप्रयोगों में पर्याप्त परीक्षण और मूल्यांकन कार्यक्रम किए गए हैं, विशेष रूप से यू.एस. आर्मी एवियोनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (AVRADA) और यूके में रॉयल एयरोस्पेस एस्टैब्लिशमेंट (शाही विमान प्रतिष्ठान) द्वारा। फ़्रांस में काम में प्यूमा हेलीकाप्टर में वाक् पहचान शामिल है। कनाडा में भी बहुत उपयोगी कार्य हुए हैं। परिणाम उत्साहजनक रहे हैं, और आवाज अनुप्रयोगों में शामिल हैं: संचार रेडियो का नियंत्रण, पथ प्रदर्शन सिस्टम की स्थापना, और एक स्वचालित लक्ष्य हस्तांतरण प्रणाली का नियंत्रण।

लड़ाकू अनुप्रयोगों के रूप में, हेलीकाप्टरों में आवाज के लिए प्रमुख मुद्दा पायलट प्रभावशीलता पर प्रभाव है। AVRADA परीक्षणों के लिए उत्साहजनक परिणाम रिपोर्ट किए गए हैं, हालांकि ये परीक्षण वातावरण में केवल एक व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। परिचालन सेटिंग्स में लगातार प्रदर्शन सुधार हासिल करने के लिए वाक् पहचान और समग्र वाक् प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।

प्रशिक्षण हवाई यातायात नियंत्रकों
वायु यातायात नियंत्रकों (एटीसी) के लिए प्रशिक्षण भाषण पहचान प्रणाली के लिए एक उत्कृष्ट अनुप्रयोग का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में एक व्यक्ति को एक छद्म-पायलट के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ एक आवाज संवाद में शामिल होता है, जो संवाद को अनुकरण करता है कि नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ आचरण करना होगा। भाषण पहचान और भाषण संश्लेषण तकनीक एक व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और सहायक कर्मियों को कम करती है। सिद्धांत रूप में, वायु नियंत्रक कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी वर्णित किया जाता है, इसलिए वाक् पहचान कार्य की कठिनाई को कम करना संभव होना चाहिए। व्यवहार में, ऐसा कम ही होता है। FAA दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। जबकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिम्युलेशन विक्रेताओं में से एक भाषण पहचान प्रणाली द्वारा समर्थित वाक्यांशों की संख्या 500,000 से अधिक है।

यूएसएएफ, यूएसएमसी, यूएस आर्मी, यूएस नेवी और एफएए के साथ-साथ कई अंतरराष्ट्रीय एटीसी प्रशिक्षण संगठन जैसे कि रॉयल ऑस्ट्रेलियाई वायु सेना और इटली, ब्राजील और कनाडा में नागरिक उड्डयन प्राधिकरण वर्तमान में एटीसी सिमुलेटर का उपयोग वाक् पहचान के साथ कर रहे हैं। कई अलग-अलग विक्रेता।

टेलीफ़ोनी और अन्य डोमेन
एएसआर अब टेलीफोनी के क्षेत्र में आम हो गया है और कंप्यूटर गेमिंग और सिमुलेशन के क्षेत्र में अधिक व्यापक होता जा रहा है। टेलीफोनी प्रणालियों में, एएसआर अब आईवीआर प्रणालियों के साथ एकीकृत करके मुख्य रूप से संपर्क केंद्रों में उपयोग किया जा रहा है। दस्तावेज़ उत्पादन के क्षेत्र में सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के बावजूद, एएसआर ने उपयोग में अपेक्षित वृद्धि नहीं देखी है।

मोबाइल प्रोसेसर की गति में सुधार ने स्मार्टफोन में वाक् पहचान को व्यावहारिक बना दिया है। पूर्वनिर्धारित या कस्टम स्पीच कमांड बनाने के लिए स्पीच का उपयोग ज्यादातर यूजर इंटरफेस के एक भाग के रूप में किया जाता है।

शिक्षा और दैनिक जीवन में उपयोग
भाषा सीखने के लिए, वाक् पहचान दूसरी भाषा सीखने के लिए उपयोगी हो सकती है। यह किसी व्यक्ति को उनके बोलने के कौशल के साथ प्रवाह विकसित करने में मदद करने के अलावा, उचित उच्चारण सिखा सकता है। जो छात्र अंधे हैं (दृष्टिहीनता और शिक्षा देखें) या बहुत कम दृष्टि वाले शब्दों को संप्रेषित करने के लिए प्रौद्योगिकी का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को उन्हें सुनाते हुए सुन सकते हैं, साथ ही अपनी आवाज के साथ कमांड करके कंप्यूटर का उपयोग कर सकते हैं, देखने के बजाय स्क्रीन और कीबोर्ड। जो छात्र शारीरिक रूप से अक्षम हैं, जिन्हें दोहरावदार तनाव की चोट/ऊपरी अंगों में अन्य चोटें हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके लिखावट, टाइपिंग, या स्कूल असाइनमेंट पर मुंशी के साथ काम करने की चिंता से मुक्त किया जा सकता है। वे माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करने का आनंद लेने के लिए वाक् पहचान तकनीक का भी उपयोग कर सकते हैं।

भाषण मान्यता सीखने की अक्षमता वाले छात्रों को बेहतर लेखक बनने की अनुमति दे सकती है। शब्दों को जोर से बोलकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को दूर कर सकते हैं। सीखने की अक्षमता भी देखें।

एक डिजिटल ऑडियो रिकॉर्डर और एक व्यक्तिगत कंप्यूटर चलाने वाले वर्ड-प्रोसेसिंग सॉफ़्टवेयर के संयोजन के साथ ध्वनि पहचान सॉफ़्टवेयर का उपयोग स्ट्रोक और क्रैनियोटॉमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म मेमोरी क्षमता को बहाल करने के लिए सकारात्मक साबित हुआ है।

विकलांग लोग
विकलांग लोग वाक् पहचान कार्यक्रमों से लाभान्वित हो सकते हैं। ऐसे व्यक्तियों के लिए जो बधिर हैं या सुनने में मुश्किल हैं, वाक् पहचान सॉफ़्टवेयर का उपयोग स्वचालित रूप से वार्तालापों का एक बंद-शीर्षक उत्पन्न करने के लिए किया जाता है जैसे सम्मेलन कक्ष, कक्षा व्याख्यान, और/या धार्मिक सेवाओं में चर्चा। वाक् पहचान उन लोगों के लिए भी बहुत उपयोगी है, जिन्हें अपने हाथों का उपयोग करने में कठिनाई होती है, हल्के दोहराव वाले तनाव की चोटों से लेकर ऐसी अक्षमताएं शामिल हैं जो पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। वास्तव में, जिन लोगों ने कीबोर्ड का बहुत उपयोग किया और दोहरावदार तनाव की चोट विकसित की, वे वाक् पहचान के लिए एक तत्काल प्रारंभिक बाजार बन गए। वाक् पहचान का उपयोग बधिर टेलीफोनी में किया जाता है, जैसे कि ध्वनि मेल से पाठ, रिले सेवाएं और दूरसंचार रिले सेवा # कैप्शन वाला टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिन्हें विचार-टू-पेपर संचार में समस्या है (अनिवार्य रूप से वे एक विचार के बारे में सोचते हैं लेकिन इसे गलत तरीके से संसाधित किया जाता है जिससे यह कागज पर अलग तरह से समाप्त हो जाता है) संभवतः सॉफ्टवेयर से लाभान्वित हो सकते हैं लेकिन तकनीक बग प्रूफ नहीं है। इसके अलावा पाठ से बात करने का पूरा विचार बौद्धिक रूप से अक्षम व्यक्ति के लिए कठिन हो सकता है क्योंकि ऐसा बहुत कम होता है कि कोई विकलांग व्यक्ति को पढ़ाने के लिए तकनीक सीखने की कोशिश करता है। इस प्रकार की तकनीक डिस्लेक्सिया वाले लोगों की मदद कर सकती है लेकिन अन्य विकलांग अभी भी सवालों के घेरे में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने से रोक रही है। हालांकि एक बच्चा एक शब्द कहने में सक्षम हो सकता है, यह इस बात पर निर्भर करता है कि वे इसे कितना स्पष्ट कहते हैं, तकनीक सोच सकती है कि वे एक और शब्द कह रहे हैं और गलत इनपुट कर सकते हैं। उन्हें ठीक करने के लिए और अधिक काम देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगना पड़ता है।

आगे के आवेदन

 * एयरोस्पेस (उदाहरण के लिए अंतरिक्ष अन्वेषण, अंतरिक्ष यान, आदि) नासा के मंगल ध्रुवीय लैंडर ने लैंडर पर मंगल माइक्रोफोन में संवेदी, इंक. से वाक् पहचान तकनीक का उपयोग किया
 * वाक् पहचान के साथ स्वचालित समान भाषा उपशीर्षक
 * स्वचालित भावना पहचान
 * ऑटोमैटिक शॉट (फिल्म निर्माण) ऑडियोविजुअल प्रोडक्शन में लिस्टिंग
 * स्वचालित अनुवाद
 * न्यायालय रिपोर्टिंग (वास्तविक समय भाषण लेखन)
 * ई खोज (कानूनी खोज)
 * हाथों से मुक्त कंप्यूटिंग: स्पीच रिकग्निशन कंप्यूटर प्रयोक्ता इंटरफ़ेस
 * घर स्वचालन
 * इंटरएक्टिव वॉयस रिस्पांस
 * मोबाइल टेलीफोनी, मोबाइल ईमेल सहित
 * मल्टीमॉडल इंटरेक्शन *कंप्यूटर-सहायता प्राप्त भाषा सीखने के अनुप्रयोगों में उच्चारण मूल्यांकन
 * रियल टाइम अनुशीर्षक
 * रोबोटिक्स
 * बहु-कारक प्रमाणीकरण के लिए अन्य बायोमेट्रिक स्कैनर के साथ उपयोग सहित सुरक्षा
 * भाषण से पाठ (पाठ में भाषण का प्रतिलेखन, वास्तविक समय वीडियो कैप्शनिंग, कोर्ट रिपोर्टिंग)
 * TELEMATICS (जैसे वाहन नेविगेशन सिस्टम)
 * प्रतिलेखन (भाषाविज्ञान) (डिजिटल भाषण-से-पाठ)
 * काम के उदाहरण के रूप में टॉम क्लेन्सी के एंडवार और लाइफलाइन (वीडियो गेम) के साथ वीडियो गेम
 * आभासी सहायक (आर्टिफिशियल इंटेलिजेंस) (उदाहरण के लिए Apple सिरी|Apple's सिरी)

प्रदर्शन
स्पीच रिकग्निशन सिस्टम के प्रदर्शन का मूल्यांकन आमतौर पर सटीकता और गति के संदर्भ में किया जाता है। सटीकता को आमतौर पर शब्द त्रुटि दर (WER) के साथ आंका जाता है, जबकि गति को वास्तविक समय कारक के साथ मापा जाता है। सटीकता के अन्य उपायों में एकल शब्द त्रुटि दर (SWER) और कमान सफलता दर (CSR) शामिल हैं।

हालाँकि, मशीन द्वारा वाक् पहचान एक बहुत ही जटिल समस्या है। लहजे, उच्चारण, मुखरता, खुरदरापन, अनुनासिकता, पिच, मात्रा और गति के संदर्भ में स्वर अलग-अलग होते हैं। भाषण एक पृष्ठभूमि शोर और गूँज, विद्युत विशेषताओं से विकृत है। वाक् पहचान की सटीकता निम्न के साथ भिन्न हो सकती है:
 * शब्दावली का आकार और भ्रम
 * वक्ता निर्भरता बनाम स्वतंत्रता
 * पृथक, असंतत या निरंतर वाणी
 * कार्य और भाषा की कमी
 * बनाम सहज भाषण पढ़ें
 * प्रतिकूल परिस्थितियां

सटीकता
जैसा कि इस लेख में पहले उल्लेख किया गया है, वाक् पहचान की सटीकता निम्नलिखित कारकों के आधार पर भिन्न हो सकती है:
 * शब्दावली का आकार बढ़ने पर त्रुटि दर बढ़ती है:
 * जैसे शून्य से नौ तक के 10 अंकों को अनिवार्य रूप से पूरी तरह से पहचाना जा सकता है, लेकिन 200, 5000 या 100000 के शब्दावली आकार में क्रमशः 3%, 7% या 45% की त्रुटि दर हो सकती है।


 * शब्दावली को पहचानना मुश्किल है अगर इसमें भ्रमित करने वाले शब्द हैं:
 * जैसे अंग्रेजी वर्णमाला के 26 अक्षरों में अंतर करना मुश्किल है क्योंकि वे भ्रमित करने वाले शब्द हैं (सबसे कुख्यात, ई-सेट: बी, सी, डी, ई, जी, पी, टी, वी, जेड - जब जेड का उच्चारण ज़ी के बजाय किया जाता है) जेड अंग्रेजी क्षेत्र के आधार पर); इस शब्दावली के लिए 8% त्रुटि दर अच्छी मानी जाती है।


 * वक्ता निर्भरता बनाम स्वतंत्रता:
 * एक स्पीकर-निर्भर प्रणाली एक स्पीकर द्वारा उपयोग के लिए अभिप्रेत है।
 * एक स्पीकर-स्वतंत्र प्रणाली किसी भी स्पीकर (अधिक कठिन) द्वारा उपयोग के लिए अभिप्रेत है।


 * पृथक, विच्छिन्न या निरंतर वाणी
 * एकाकी वाणी में एक शब्द का प्रयोग होता है, इसलिए वाणी को पहचानना आसान हो जाता है।

विच्छिन्न वाक् में मौन द्वारा अलग किए गए पूर्ण वाक्यों का प्रयोग किया जाता है, इसलिए वाक् के साथ-साथ विलग वाक् को पहचानना आसान हो जाता है।

निरंतर भाषण के साथ स्वाभाविक रूप से बोले जाने वाले वाक्यों का उपयोग किया जाता है, इसलिए भाषण को पहचानना कठिन हो जाता है, अलग-अलग और असंतत भाषण दोनों से अलग।


 * कार्य और भाषा की कमी
 * उदा. पूछताछ आवेदन परिकल्पना को खारिज कर सकता है सेब लाल है।
 * उदा. बाधाएं शब्दार्थ हो सकती हैं; अस्वीकार सेब नाराज है।
 * उदा. सिंटैक्टिक; लाल को अस्वीकार करना सेब है।

बाधाओं को अक्सर व्याकरण द्वारा दर्शाया जाता है। वाक् पहचान एक बहु-स्तरीय पैटर्न पहचान कार्य है। उदा. ज्ञात शब्द उच्चारण या कानूनी शब्द क्रम, जो निचले स्तर पर त्रुटियों या अनिश्चितताओं की भरपाई कर सकता है; टेलीफोन भाषण के लिए नमूनाकरण दर प्रति सेकंड 8000 नमूने हैं; प्रत्येक 10 मिलीसेकंड पर गणना की जाती है, जिसमें 10 मिलीमीटर का एक भाग होता है जिसे फ़्रेम कहा जाता है;
 * पढ़ें बनाम सहज भाषण - जब कोई व्यक्ति पढ़ता है तो यह आमतौर पर पहले से तैयार किए गए संदर्भ में होता है, लेकिन जब कोई व्यक्ति सहज भाषण का उपयोग करता है, तो भाषण को पहचानना मुश्किल होता है क्योंकि भाषण (जैसे उह और उम, झूठी शुरुआत, अधूरे वाक्य, हकलाना, खाँसी और हँसी) और सीमित शब्दावली।
 * प्रतिकूल परिस्थितियाँ - पर्यावरणीय शोर (जैसे कार या कारखाने में शोर)। ध्वनिक विकृतियाँ (जैसे गूँज, कक्ष ध्वनिकी)
 * ध्वनिक संकेतों को इकाइयों के पदानुक्रम में संरचित किया जाता है, उदा। स्वर, शब्द, वाक्यांश और वाक्य;
 * प्रत्येक स्तर अतिरिक्त प्रतिबंध प्रदान करता है;
 * बाधाओं के इस पदानुक्रम का शोषण किया जाता है। सभी निचले स्तरों पर संभाव्य रूप से निर्णयों को संयोजित करके, और केवल उच्चतम स्तर पर अधिक नियतात्मक निर्णय लेने से, मशीन द्वारा वाक् पहचान कई चरणों में विभाजित एक प्रक्रिया है। कम्प्यूटेशनल रूप से, यह एक समस्या है जिसमें एक ध्वनि पैटर्न को पहचाना जाना चाहिए या एक श्रेणी में वर्गीकृत किया जाना चाहिए जो मानव के लिए एक अर्थ का प्रतिनिधित्व करता है। प्रत्येक ध्वनिक संकेत को छोटे और अधिक बुनियादी उप-संकेतों में तोड़ा जा सकता है। जैसे-जैसे अधिक जटिल ध्वनि संकेत छोटे उप-ध्वनियों में टूटते हैं, विभिन्न स्तरों का निर्माण होता है, जहाँ शीर्ष स्तर पर हमारे पास जटिल ध्वनियाँ होती हैं, जो निचले स्तर पर सरल ध्वनियों से बनी होती हैं, और निचले स्तरों तक जाती हैं, और भी अधिक, हम अधिक बुनियादी और छोटी और सरल ध्वनियाँ बनाते हैं। निम्नतम स्तर पर, जहाँ ध्वनियाँ सबसे मौलिक हैं, एक मशीन सरल और अधिक संभाव्य नियमों की जाँच करेगी कि किस ध्वनि का प्रतिनिधित्व करना चाहिए। एक बार जब इन ध्वनियों को ऊपरी स्तर पर अधिक जटिल ध्वनियों में एक साथ रखा जाता है, तो अधिक नियतात्मक नियमों के एक नए सेट को भविष्यवाणी करनी चाहिए कि नई जटिल ध्वनि को क्या प्रदर्शित करना चाहिए। नियतात्मक नियम के सबसे ऊपरी स्तर को जटिल भावों के अर्थ का पता लगाना चाहिए। वाक् पहचान के बारे में अपने ज्ञान का विस्तार करने के लिए, हमें तंत्रिका नेटवर्क पर विचार करने की आवश्यकता है। तंत्रिका नेटवर्क दृष्टिकोण के चार चरण हैं:
 * उस भाषण को डिजिटाइज़ करें जिसे हम पहचानना चाहते हैं
 * भाषण के वर्णक्रमीय-डोमेन की गणना सुविधाएँ (फूरियर रूपांतरण के साथ);

फोर-स्टेप न्यूरल नेटवर्क एप्रोच का विश्लेषण आगे की जानकारी द्वारा समझाया जा सकता है। ध्वनि हवा (या किसी अन्य माध्यम) के कंपन से उत्पन्न होती है, जिसे हम कानों द्वारा रिकॉर्ड करते हैं, लेकिन रिसीवर द्वारा मशीनें। मूल ध्वनि एक तरंग बनाती है जिसके दो विवरण होते हैं: आयाम (यह कितना मजबूत है), और आवृत्ति (यह प्रति सेकंड कितनी बार कंपन करती है)। सटीकता की गणना शब्द त्रुटि दर (WER) की सहायता से की जा सकती है। शब्द त्रुटि दर की गणना गतिशील स्ट्रिंग संरेखण का उपयोग करके मान्यता प्राप्त शब्द और संदर्भित शब्द को संरेखित करके की जा सकती हैएनटी। मान्यता प्राप्त शब्द और संदर्भित शब्द की अनुक्रम लंबाई के बीच अंतर के कारण शब्द त्रुटि दर की गणना करते समय समस्या हो सकती है। होने देना एस प्रतिस्थापन की संख्या हो, D विलोपन की संख्या हो, मैं सम्मिलन की संख्या हो, N शब्द संदर्भों की संख्या हो। शब्द त्रुटि दर (WER) की गणना करने का सूत्र है डब्ल्यूईआर = (एस+डी+आई)÷एन शब्द पहचान दर (WRR) की गणना करते समय शब्द त्रुटि दर (WER) का उपयोग किया जाता है और सूत्र है WRR = 1- WER = (एन-एस-डी-आई)÷ एन = (एच-आई)÷एन यहाँ H सही ढंग से पहचाने जाने वाले शब्दों की संख्या है। एच = एन- (एस + डी)।

सुरक्षा चिंताएं
वाक् पहचान हमले, चोरी या आकस्मिक ऑपरेशन का साधन बन सकती है। उदाहरण के लिए, ऑडियो या वीडियो प्रसारण में बोले जाने वाले एलेक्सा जैसे सक्रियण शब्द घरों और कार्यालयों में उपकरणों को अनुचित तरीके से इनपुट के लिए सुनना शुरू कर सकते हैं, या संभवतः एक अवांछित कार्रवाई कर सकते हैं। ध्वनि-नियंत्रित उपकरण भवन के आगंतुकों के लिए या भवन के बाहर के लोगों के लिए भी सुलभ हैं यदि उन्हें अंदर सुना जा सकता है। हमलावर व्यक्तिगत जानकारी, जैसे कैलेंडर, पता पुस्तिका सामग्री, निजी संदेश और दस्तावेजों तक पहुंच प्राप्त करने में सक्षम हो सकते हैं। वे संदेश भेजने या ऑनलाइन खरीदारी करने के लिए उपयोगकर्ता का प्रतिरूपण करने में भी सक्षम हो सकते हैं।

कृत्रिम ध्वनियों का उपयोग करने वाले दो हमलों का प्रदर्शन किया गया है। एक अल्ट्रासाउंड प्रसारित करता है और आस-पास के लोगों को नोटिस किए बिना कमांड भेजने का प्रयास करता है। दूसरा अन्य भाषण या संगीत के लिए छोटे, अश्रव्य विकृतियों को जोड़ता है जो विशेष रूप से विशिष्ट भाषण मान्यता प्रणाली को संगीत को भाषण के रूप में पहचानने में भ्रमित करने के लिए तैयार किए जाते हैं, या सिस्टम के लिए एक अलग कमांड की तरह मानव ध्वनि के लिए एक कमांड की तरह लगता है।

सम्मेलन और पत्रिकाएँ
हर साल या दो साल में आयोजित लोकप्रिय भाषण मान्यता सम्मेलनों में स्पीचटेक और स्पीचटेक यूरोप, ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन, इंटरस्पीच/यूरोस्पीच और आईईईई एएसआरयू शामिल हैं। कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन, कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय, EMNLP, और HLT जैसे प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में सम्मेलनों में भाषण प्रसंस्करण पर पेपर शामिल होने लगे हैं। महत्वपूर्ण पत्रिकाओं में भाषण और ऑडियो प्रसंस्करण पर IEEE लेनदेन शामिल हैं (बाद में ऑडियो, भाषण और भाषा प्रसंस्करण पर IEEE लेनदेन का नाम बदल दिया गया और सितंबर 2014 से ऑडियो, भाषण और भाषा प्रसंस्करण पर IEEE / ACM लेनदेन का नाम बदल दिया गया - ACM प्रकाशन के साथ विलय के बाद), कंप्यूटर भाषण और भाषा, और भाषण संचार।

किताबें
लॉरेंस रैबिनर द्वारा लिखित बुनियादी ज्ञान की वाक् पहचान जैसी पुस्तकें बुनियादी ज्ञान प्राप्त करने के लिए उपयोगी हो सकती हैं लेकिन पूरी तरह से अद्यतित नहीं हो सकती हैं (1993)। एक अन्य अच्छा स्रोत हो सकता है फ्रेडरिक जेलिनेक द्वारा भाषण मान्यता के लिए सांख्यिकीय तरीके और जुडोंग हुआंग द्वारा स्पोकन लैंग्वेज प्रोसेसिंग (2001), कंप्यूटर भाषण, मैनफ्रेड आर श्रोएडर द्वारा, 2004 में प्रकाशित दूसरा संस्करण, और भाषण प्रसंस्करण: एक गतिशील और अनुकूलन- ओरिएंटेड एप्रोच 2003 में ली डेंग और डौग ओ'शॉघनेसी द्वारा प्रकाशित। डेनियल जुराफस्की और मार्टिन द्वारा अद्यतन पाठ्यपुस्तक भाषण और भाषा प्रसंस्करण (2008) एएसआर के लिए मूल बातें और कला की स्थिति प्रस्तुत करती है। स्पीकर की पहचान भी उन्हीं विशेषताओं का उपयोग करती है, जिनमें से अधिकांश समान फ्रंट-एंड प्रोसेसिंग और वर्गीकरण तकनीकों का उपयोग करती हैं जैसा कि भाषण मान्यता में किया जाता है। एक व्यापक पाठ्यपुस्तक, स्पीकर रिकॉग्निशन के फंडामेंटल्स सिद्धांत और व्यवहार पर अद्यतन विवरण के लिए एक गहन स्रोत है। सर्वोत्तम आधुनिक प्रणालियों में उपयोग की जाने वाली तकनीकों में एक अच्छी अंतर्दृष्टि सरकारी प्रायोजित मूल्यांकनों पर ध्यान देकर प्राप्त की जा सकती है जैसे कि DARPA द्वारा आयोजित (2007 तक चलने वाली सबसे बड़ी वाक् पहचान-संबंधित परियोजना गेल परियोजना है, जिसमें वाक् पहचान दोनों शामिल हैं) और अनुवाद घटक)।

वाक् पहचान प्रौद्योगिकी और इसके इतिहास का एक अच्छा और सुलभ परिचय सामान्य दर्शकों की पुस्तक द वॉयस इन द मशीन द्वारा प्रदान किया गया है। बिल्डिंग कंप्यूटर्स दैट अंडरस्टैंडिंग स्पीच रॉबर्ट पिएरासिनी (2012) द्वारा।

स्पीच रिकग्निशन पर सबसे हालिया किताब है ऑटोमैटिक स्पीच रिकॉग्निशन: ए डीप लर्निंग एप्रोच (प्रकाशक: स्प्रिंगर) जो माइक्रोसॉफ्ट के शोधकर्ताओं डी। यू और एल। डीएनएन और संबंधित गहन शिक्षण विधियों के आधार पर आधुनिक वाक् पहचान प्रणालियों में विधियों को व्युत्पन्न और कार्यान्वित किया जाता है। एक संबंधित पुस्तक, जो पहले 2014 में प्रकाशित हुई थी, डीप लर्निंग: मेथड्स एंड एप्लीकेशन बाय एल. डेंग और डी. यू 2009-2014 के दौरान डीएनएन-आधारित वाक् पहचान का एक कम तकनीकी लेकिन अधिक कार्यप्रणाली-केंद्रित अवलोकन प्रदान करती है, जिसे अधिक सामान्य संदर्भ में रखा गया है। न केवल भाषण मान्यता बल्कि छवि पहचान, प्राकृतिक भाषा प्रसंस्करण, सूचना पुनर्प्राप्ति, मल्टीमॉडल प्रसंस्करण और मल्टीटास्क सीखने सहित गहन शिक्षण अनुप्रयोगों की।

सॉफ्टवेयर
स्वतंत्र रूप से उपलब्ध संसाधनों के संदर्भ में, कार्नेगी मेलन विश्वविद्यालय का सीएमयू स्फिंक्स टूलकिट वाक् पहचान के बारे में सीखने और प्रयोग शुरू करने के लिए एक जगह है। एक अन्य संसाधन (मुफ्त लेकिन कॉपीराइट) एचटीके (सॉफ्टवेयर) किताब (और साथ में एचटीके टूलकिट) है। अधिक नवीनतम और अत्याधुनिक तकनीकों के लिए, कलदी (सॉफ्टवेयर) टूलकिट का उपयोग किया जा सकता है। 2017 में mozilla ने आम आवाज नामक ओपन सोर्स प्रोजेक्ट लॉन्च किया आवाजों के बड़े डेटाबेस को इकट्ठा करने के लिए जो मुफ्त वाक् पहचान परियोजना डीप स्पीच (GitHub पर मुफ्त उपलब्ध) बनाने में मदद करेगा, Google के ओपन सोर्स प्लेटफॉर्म TensorFlow का उपयोग करना। जब मोज़िला ने 2020 में परियोजना से फंडिंग को पुनर्निर्देशित किया, तो इसे इसके मूल डेवलपर्स द्वारा Coqui STT के रूप में फोर्क किया गया था। उसी ओपन-सोर्स लाइसेंस का उपयोग करना। व्यावसायिक क्लाउड आधारित वाक् पहचान API मोटे तौर पर उपलब्ध हैं।

अधिक सॉफ़्टवेयर संसाधनों के लिए, वाक् पहचान सॉफ़्टवेयर की सूची देखें।

यह भी देखें

 * एआई प्रभाव
 * अल्पाक
 * कृत्रिम बुद्धिमत्ता के अनुप्रयोग
 * कलात्मक भाषण मान्यता
 * ऑडियो खनन
 * ऑडियो-विजुअल भाषण मान्यता
 * स्वचालित भाषा अनुवादक
 * ऑटोमोटिव हेड यूनिट
 * कैश भाषा मॉडल
 * ड्रैगन नेचुरलीस्पीकिंग
 * प्रवाह आवाज प्रौद्योगिकी
 * गूगल वॉइस सर्च
 * आईबीएम वाया वॉयस
 * कीवर्ड स्पॉटिंग
 * किनेक्ट
 * मॉन्डग्रीन
 * मल्टीमीडिया सूचना पुनर्प्राप्ति
 * भाषण की उत्पत्ति
 * ध्वन्यात्मक खोज तकनीक
 * स्पीकर डायरीकरण
 * वक्ता पहचान
 * भाषण विश्लेषण
 * भाषण इंटरफ़ेस दिशानिर्देश
 * लिनक्स के लिए वाक् पहचान सॉफ्टवेयर
 * भाषा संकलन
 * भाषण सत्यापन
 * उपशीर्षक (कैप्शनिंग)
 * VoiceXML
 * वोक्सफोर्ज
 * विंडोज वाक् पहचान
 * सूचियों
 * उभरती प्रौद्योगिकियों की सूची
 * कृत्रिम बुद्धि की रूपरेखा
 * भाषण और आवाज पहचान की समयरेखा

इस पेज में लापता आंतरिक लिंक की सूची

 * क्रियाविधि
 * भाषा संकलन
 * भाषा विज्ञान
 * अभिकलनात्मक भाषाविज्ञान
 * हवाई जहाज
 * वक्ता की पहचान
 * बड़ा डेटा
 * ध्यान लगा के पढ़ना या सीखना
 * भाषण उत्पादन का स्रोत-फ़िल्टर मॉडल
 * धोखाधड़ी
 * आरआईपीएसी (माइक्रोप्रोसेसर)
 * लिमसी
 * राष्ट्रीय सुरक्षा अभिकरण
 * गायब ढाल समस्या
 * मिश्रण मॉडल
 * मस्तिष्क का सामान्यीकरण
 * जोड़ (भाषण पहचान)
 * वैश्विक अर्ध-बंधे सहप्रसरण
 * कोसाइन रूपांतरण
 * जाली (आदेश)
 * दूरी संपादित करें
 * दृश्य-श्रव्य भाषण मान्यता
 * एलेक्स कब्र (कंप्यूटर वैज्ञानिक)
 * करनेगी मेलों विश्वविद्याल
 * अमेरिकी रिकवरी और पुनर्निवेश अधिनियम 2009
 * भाषण प्रौद्योगिकी
 * भाषा सीखना
 * अंधापन और शिक्षा
 * दोहराई तनाव चोट
 * सीखने की विकलांगता
 * दोहराई तनाव चोट
 * बहरा
 * अंतरिक्ष की खोज
 * ईडिस्कवरी
 * कोर्ट रिपोर्टिंग
 * आभासी सहायक (कृत्रिम बुद्धि)
 * प्रतिलेखन (भाषा विज्ञान)
 * लाइफलाइन (वीडियो गेम)
 * भाषण पहचान सॉफ्टवेयर की सूची
 * Mondegreen
 * आर्टिफिशियल इंटेलिजेंस के अनुप्रयोग

बाहरी कड़ियाँ

 * Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-free Text Entry, In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013