वाक् पहचान

भाषण मान्यता कंप्यूटर विज्ञान और कम्प्यूटरीकृत भाषाविज्ञान का वह अंतःविषय उपक्षेत्र है जो कार्यप्रणाली और प्रौद्योगिकियों को विकसित करता है तथा पाठ में खोज के मुख्य लाभ के साथ कंप्यूटर द्वारा पाठ में बोली जाने वाली भाषा की पहचान और अनुवाद को सक्षम बनाता है। इसे स्वचालित वाक् पहचान (ASR), कंप्यूटर वाक् पहचान या स्पीच टू पाठ्य खोज के रूप में भी जाना जाता है। यह कंप्यूटर विज्ञान, भाषाविज्ञान और कंप्यूटर इंजीनियरिंग क्षेत्रों में ज्ञान और अनुसंधान को सम्मलित करता है। रिवर्स प्रक्रिया भाषण संश्लेषण है।

कुछ भाषण पहचान प्रणालियों को प्रशिक्षण की आवश्यकता होती है (जिसे नामांकन भी कहा जाता है) जहां व्यक्तिगत वक्ता प्रणाली में पाठ या पृथक शब्दावली पढ़ता है। प्रणाली व्यक्ति की विशिष्ट ध्वनि का विश्लेषण करती है और इसका उपयोग उस व्यक्ति के भाषण की पहचान को ठीक करने के लिए करती है, जिसके परिणामस्वरूप सटीकता में वृद्धि होती है। प्रणाली जो प्रशिक्षण का उपयोग नहीं करती हैं उन्हें स्पीकर-स्वतंत्र कहा जाता है प्रणाली प्रशिक्षण का उपयोग करने वाली प्रणालियाँ वक्ता पर आश्रित होती हैं।

वाक् पहचान अनुप्रयोगों में वॉयस डायलिंग (जैसे घर पर कॉल करना), कॉल रूटिंग (जैसे मैं कलेक्ट कॉल करना चाहूंगा), डोमोटिक उपकरण नियंत्रण, खोज कुंजी शब्द (जैसे पॉडकास्ट खोजें जहां विशेष शब्द बोले गए थे) जैसे ध्वनि उपयोगकर्ता मंच सम्मलित हैं। सरल डेटा प्रविष्टि (जैसे, क्रेडिट कार्ड नंबर दर्ज करना), संरचित दस्तावेजों की तैयारी (जैसे रेडियोलॉजी रिपोर्ट), स्पीकर विशेषताओं का निर्धारण करना, स्पीच-टू-टेक्स्ट प्रोसेसिंग (जैसे, शब्द संसाधक या ईमेल), और सामान्यत प्रत्यक्ष ध्वनि इनपुट कहा जाता है।

शब्द ध्वनि पहचान  या वक्ता मान्यता   बोलने वाले की पहचान करने के लिए संदर्भित करता है, इसके अतिरिक्त वे क्या कह रहे हैं। वाक् पहचान प्रणाली में भाषण अनुवाद के कार्य को सरल बना सकता है जिसे किसी विशिष्ट व्यक्ति की ध्वनि पर प्रशिक्षित किया गया है या इसे सुरक्षा प्रक्रिया के हिस्से के रूप में प्रमाणीकरण या स्पीकर की पहचान को सत्यापित करने के लिए उपयोग किया जा सकता है।

प्रौद्योगिकी के दृष्टिकोण से, प्रमुख नवाचारों की कई लहरों के साथ वाक् पहचान का लंबा इतिहास है। हाल ही में, क्षेत्र को गहन शिक्षा और बड़े डेटा में प्रगति से लाभ हुआ है। प्रगति न केवल क्षेत्र में प्रकाशित अकादमिक पत्रों की वृद्धि से प्रमाणित होती है, बल्कि विश्वव्यापी उद्योग द्वारा वाक् पहचान प्रणाली को डिजाइन करने और नियुक्त करने में विभिन्न गहन शिक्षण विधियों को अपनाने से भी महत्वपूर्ण है।

इतिहास
विकास के प्रमुख क्षेत्र थे: शब्दावली का आकार, वक्ता की स्वतंत्रता और प्रसंस्करण की गति।

1970 से पहले

 * 1952 - बेल लैब्स के तीन शोधकर्ता, स्टीफ़न बालाशेक, आर. बिडुल्फ और के.एच. डेविस ने ऑड्रे नामक प्रणाली का निर्माण किया एकल वक्ता अंक पहचान के लिए। उनकी प्रणाली प्रत्येक उच्चारण के पावर स्पेक्ट्रम में फार्मेंट्स को स्थित करती है। * 1960 - गुन्नार फंता ने भाषण उत्पादन के स्रोत-फ़िल्टर मॉडल को विकसित और प्रकाशित किया।
 * 1962 - आईबीएम ने 1962 के विश्व मेले में अपनी 16-शब्द वाली शोबॉक्स मशीन की वाक् पहचान क्षमता का प्रदर्शन किया।
 * 1966 - रैखिक भविष्य कहनेवाला कोडिंग (LPC), भाषण कोडिंग विधि, पहली बार वाक् पहचान पर काम करते हुए नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (NTT) के शुजो सैटो द्वारा प्रस्तावित की गई थी।
 * 1969 - बेल लैब्स में फंडिंग कई वर्षों तक रुकी रही, जब 1969 में, प्रभावशाली जॉन आर. पियर्स ने खुला पत्र लिखा, जो वाक् पहचान रिसर्च के लिए आलोचनात्मक और निराधार था। यह डिफंडिंग पियर्स और जेम्स एल के सेवानिवृत्त होने तथा फ्लानागन के पदभार संभालने तक चली।

संतुष्ट हिला 1960 के दशक के अंत में स्टैनफोर्ड विश्वविद्यालय में स्नातक छात्र के रूप में निरंतर भाषण मान्यता लेने वाले पहले व्यक्ति थे। पिछली प्रणालियों में उपयोगकर्ताओं को प्रत्येक शब्द के पश्चात रुकने की आवश्यकता होती थी। रेड्डीज प्रणाली ने शतरंज खेलने के लिए स्पोकन कमांड जारी किया।

इस समय के आसपास सोवियत शोधकर्ताओं ने गतिशील समय वारिंग (डीटीडब्ल्यू) एल्गोरिथम का आविष्कार किया और इसका उपयोग पहचानकर्ता बनाने के लिए किया जो 200-शब्द शब्दावली पर काम करने में सक्षम था। डीटीडब्ल्यू ने भाषण को छोटे फ्रेम में विभाजित करके संसाधित किया, उदाहरण के लिए 10 मिलीसेकेंड के भाग, और प्रत्येक फ्रेम को इकाई के रूप में संसाधित करना। चूंकि डीटीडब्ल्यू को बाद के एल्गोरिदम द्वारा हटा दिया जाएगा, तथा यह तकनीक जारी रही। इस समय की अवधि में स्पीकर स्वतंत्रता प्राप्त करना अनसुलझा रहा।

1970–1990

 * 1971 - 1,000 शब्दों के न्यूनतम शब्दावली आकार की मांग करने वाले वाक् पहचान अनुसंधान के लिए 'वाक् समझ अनुसंधान' के लिए डारपा ने पांच साल का वित्त पोषण किया। उन्होंने सोचा कि प्राकृतिक-भाषा की समझ या वाक् समझ वाणी मान्यता में प्रगति करने के लिए महत्वपूर्ण होगी, लेकिन यह बाद में असत्य सिद्ध हुई। बीबीएन टेक्नोलॉजीज, आईबीएम, कार्नेगी मेलॉन और स्टैनफोर्ड अनुसंधान संस्थान सभी ने कार्यक्रम में भाग लिया। जॉन पियर्स के पत्र के पश्चात इस वाक् पहचान अनुसंधान को पुनर्जीवित किया।

1960 के दशक के अंत में लियोनार्ड ई. बॉम ने रक्षा विश्लेषण संस्थान में मार्कोव श्रृंखलाओं का गणित विकसित किया। एक दशक पश्चात, सीएमयू में, राज रेड्डी के छात्रों जेम्स के. बेकर और जेनेट एम. बेकर ने वाक् पहचान के लिए हिडन मार्कोव मॉडल (एचएमएमएम) का उपयोग करना शुरू किया। जेम्स बेकर ने अपनी स्नातक शिक्षा के समय इंस्टीट्यूट ऑफ डिफेंस एनालिसिस में ग्रीष्मकालीन नौकरी से एचएमएम के बारे में सीखा था। एचएमएम के उपयोग ने शोधकर्ताओं को एकीकृत संभाव्य मॉडल में ध्वनिकी, भाषा और वाक्य रचना जैसे ज्ञान के विभिन्न स्रोतों को संयोजित करने की अनुमति दी।
 * 1972 - आईईईई ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग समूह ने न्यूटन, मैसाचुसेट्स में सम्मेलन आयोजित किया।
 * 1976 - पहला आईसीएएसएसपी फ़िलाडेल्फ़िया में आयोजित किया गया था, जो तब से वाक् पहचान पर शोध के प्रकाशन के लिए प्रमुख स्थान रहा है।


 * 1980 के दशक के मध्य तक आईबीएम के फ्रेडरिक जेलिनेक | फ्रेड जेलिनेक की टीम ने टैंगोरा नामक ध्वनि सक्रिय टाइपराइटर बनाया, जो 20,000 शब्दों की शब्दावली को संभाल सकता था जेलाइनेक के सांख्यिकीय दृष्टिकोण ने एचएमएम जैसी सांख्यिकीय मॉडलिंग तकनीकों का उपयोग करने के पक्ष में मानव मस्तिष्क की प्रक्रियाओं और भाषण को समझने के विधि का अनुकरण करने पर कम जोर दिया। (जेलाइनेक के समूह ने स्वतंत्र रूप से भाषण में एचएमएम के अनुप्रयोग की खोज की। ) यह भाषाविदों के साथ विवादास्पद था क्योंकि एचएमएम मानव भाषाओं की कई सामान्य विशेषताओं को ध्यान में रखते हुए बहुत सरल हैं। चूंकि, एचएमएम मॉडलिंग भाषण के लिए अत्यधिक उपयोगी तरीका सिद्ध हुआ और 1980 के दशक में प्रमुख भाषण मान्यता एल्गोरिदम बनने के लिए गतिशील समय परिवर्तन को बदल दिया।
 * 1982 - जेम्स और जेनेट एम. बेकर द्वारा स्थापित ड्रैगन प्रणाली, आईबीएम के कुछ प्रतियोगियों में से था।

व्यावहारिक वाक् पहचान
1980 के दशक में एन-ग्राम भाषा मॉडल का प्रारंभ भी हुआ। इस क्षेत्र में अधिकांश प्रगति कंप्यूटर की तेजी से बढ़ती क्षमताओं के कारण हुई है। 1976 में डारपा कार्यक्रम के अंत में, शोधकर्ताओं के लिए उपलब्ध सबसे अच्छा कंप्यूटर 4 एमबी रैम वाला पीडीपी-10 था। केवल 30 सेकंड के भाषण को डिकोड करने में 100 मिनट तक का समय लग सकता है। दो व्यावहारिक उत्पाद थे:
 * 1987 - काट्ज़ का बैक-ऑफ़ मॉडल|बैक-ऑफ़ मॉडल ने भाषा मॉडल को कई लंबाई एन-ग्राम और सीएसईएलटी का उपयोग करने की अनुमति दी भाषाओं को पहचानने के लिए एचएमएम का उपयोग किया (सॉफ्टवेयर और हार्डवेयर विशेष प्रोसेसर, जैसे रिपएसी (माइक्रोप्रोसेसर) दोनों में)।
 * 1984 - 4096 शब्दों के समर्थन के साथ खुबानी पोर्टेबल जारी किया गया था, जिसमें से केवल 64 को समय में रैंडम एक्सेस मेमोरी में रखा जा सकता था।
 * 1987 - कुर्ज़वील एप्लाइड इंटेलिजेंस से पहचानकर्ता
 * 1990 - ड्रैगन डिक्टेट, 1990 में जारी उपभोक्ता उत्पाद एटी एंड टी ने मानव ऑपरेटर के उपयोग के बिना टेलीफोन कॉल को रूट करने के लिए 1992 में वाक् पहचान कॉल प्रोसेसिंग सेवा को नियुक्त किया। प्रौद्योगिकी को बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित किया गया था।

इस बिंदु तक, विशिष्ट व्यावसायिक वाक् पहचान प्रणाली की शब्दावली औसत मानव शब्दावली से बड़ी थी। राज रेड्डी के पूर्व छात्र, एक्स यूई हुआंग को समझता है ने सीएमयू स्फिंक्स|स्फिंक्स-II प्रणाली को सीएमयू में विकसित किया। स्फिंक्स-II प्रणाली स्पीकर-स्वतंत्र, बड़ी शब्दावली, निरंतर वाक् पहचान करने वाली पहली प्रणाली थी और इसका डारपा के 1992 के मूल्यांकन में सर्वश्रेष्ठ प्रदर्शन था। भाषण मान्यता के इतिहास में बड़ी शब्दावली के साथ निरंतर भाषण को संभालना प्रमुख मील का पत्थर था। हुआंग ने 1993 में विंडोज भाषण मान्यता की खोज की। राज रेड्डी के छात्र काई-फ यू ली एप्पल में सम्मलित हुए, जहां 1992 में, उन्होंने कैस्पर नामक एप्पल कंप्यूटर के लिए स्पीच इंटरफेस प्रोटोटाइप विकसित करने में मदद की।

बेल्जियम स्थित वाक् पहचान कंपनी, लर्नआउट एंड हॉस्पी ने 1997 में कुर्ज़वील एप्लाइड इंटेलिजेंस और 2000 में ड्रैगन प्रणाली्स सहित कई अन्य कंपनियों का अधिग्रहण किया। एल एंड एच वाक् प्रौद्योगिकी का उपयोग विंडोज एक्सपी ऑपरेटिंग प्रणाली में किया गया था। 2001 में लेखा घोटाले के समाप्त होने तक एल एंड एच उद्योग अग्रणी था। एल एंड एच की वाक् प्रौद्योगिकी को स्कैनसॉफ्ट द्वारा खरीदा गया था जो 2005 में नौन्सी कम्यूनिकेशन तथा एप्पल इंक सहायक महोदय मै द्वारा बन गया।

2000s
2000 के दशक में डारपा ने दो भाषण मान्यता कार्यक्रम प्रायोजित किए: 2002 में प्रभावी वहनीय पुन: प्रयोज्य भाषण-से-पाठ (EARS) और डारपा वैश्विक स्वायत्त भाषा शोषण कार्यक्रम (गेल)। ईएआरएस कार्यक्रम में चार टीमों ने भाग लिया: आईबीएम, एलआईएमएसआई और पिट्सबर्ग विश्वविद्यालय के साथ बीबीएन टेक्नोलॉजीज के नेतृत्व वाली टीम। पिट्सबर्ग, कैम्ब्रिज विश्वविद्यालय, और अंतर्राष्ट्रीय कंप्यूटर विज्ञान संस्थान, स्टैनफोर्ड अनुसंधान संस्थान और वाशिंगटन विश्वविद्यालय से बनी टीम। ईएआरएस ने स्विचबोर्ड टेलीफोन भाषण कोष के संग्रह को वित्त पोषित किया जिसमें 500 से अधिक वक्ताओं से 260 घंटे की रिकॉर्ड की गई बातचीत सम्मलित थी। गेल कार्यक्रम आधुनिक मानक अरबी और मानक चीनी प्रसारण समाचार भाषण पर केंद्रित था। वाक् पहचान में गूगल का पहला प्रयास 2007 में Nuance के कुछ शोधकर्ताओं को काम पर रखने के पश्चात आया। पहला उत्पाद गूग-411 था, जो टेलीफोन आधारित निर्देशिका सेवा थी। गूग-411 की रिकॉर्डिंग से मूल्यवान डेटा प्राप्त हुआ जिससे गूगल को अपनी पहचान प्रणाली को बेहतर बनाने में सहायता मिली. गूगल वायस सर्च अब 30 से अधिक भाषाओं में समर्थित है।

संयुक्त राज्य अमेरिका में, राष्ट्रीय सुरक्षा एजेंसी ने कम से कम 2006 से कीवर्ड स्पॉटिंग के लिए प्रकार की वाक् पहचान का उपयोग किया है। यह तकनीक विश्लेषकों को बड़ी मात्रा में रिकॉर्ड की गई बातचीत के माध्यम से खोज करने और कीवर्ड के उल्लेखों को अलग करने की अनुमति देती है। रिकॉर्डिंग को अनुक्रमित किया जा सकता है और विश्लेषक रुचि की बातचीत खोजने के लिए डेटाबेस पर प्रश्न चला सकते हैं। कुछ सरकारी अनुसंधान कार्यक्रम भाषण मान्यता के खुफिया अनुप्रयोगों पर केंद्रित हैं, उदा। डारपा का ईएआरएस प्रोग्राम और आईआर्पा का बेबेल कार्यक्रम

2000 के दशक की प्रारंभ में, फीडफॉरवर्ड कृत्रिम तंत्रिका प्रसार के साथ संयुक्त छिपे हुए मार्कोव मॉडल जैसे पारंपरिक दृष्टिकोणों में वाक् पहचान का अभी भी वर्चस्व था। चूंकि, आज, स्पीच रिकॉग्निशन के कई पहलुओं को लंबी अल्पकालिक स्मृति (एलएसटीएम) नामक गहन शिक्षण पद्धति द्वारा ले लिया गया है, जो 1997 में सेप होचराइटर और जुरगेन श्मिटुबर द्वारा प्रकाशित आवर्तक तंत्रिका नेटवर्क है। एलएसटीएम आरएनएन लुप्त होती ढाल की समस्या से बचते हैं और बहुत गहन शिक्षण कार्य सीख सकते हैं जिसके लिए हज़ारों असतत समय पहले घटित घटनाओं की यादों की आवश्यकता होती है, जो भाषण के लिए महत्वपूर्ण है।

2007 के आसपास, एलएसटीएम कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) द्वारा प्रशिक्षित किया गया कुछ अनुप्रयोगों में पारंपरिक वाक् पहचान को मात देना शुरू कर दिया है। 2015 में, गूगल की वाक् पहचान ने कथित तौर पर सीटीसी-प्रशिक्षित एलएसटीएम के माध्यम से 49% की नाटकीय प्रदर्शन छलांग का अनुभव किया, जो अब सभी स्मार्टफोन उपयोगकर्ताओं के लिए गूगल वायस के माध्यम से उपलब्ध है।

ध्वनिक मॉडल के लिए डीप फीडफॉर्वर्ड (गैर-आवर्तक) नेटवर्क का उपयोग 2009 के उत्तरार्ध में जेफ्री हिंटन और उनके छात्रों द्वारा टोरंटो विश्वविद्यालय और ली डेंग द्वारा शुरू किया गया था। और माइक्रोसॉफ्ट रिसर्च में सहयोगियों, प्रारंभ में माइक्रोसॉफ्ट और टोरंटो विश्वविद्यालय के बीच सहयोगी काम में जो बाद में आईबीएम और गूगल को सम्मलित करने के लिए विस्तारित किया गया था (इसलिए उनके 2012 समीक्षा पत्र में उपशीर्षक के चार शोध समूहों के साझा विचार)। माइक्रोसाफ्ट अनुसंधान कार्यकारी ने इस नवाचार को 1979 के पश्चात से सटीकता में सबसे नाटकीय परिवर्तन कहा। पिछले कुछ दशकों में लगातार वृद्धिशील सुधारों के विपरीत, गहन शिक्षण के प्रयोग से शब्द त्रुटि दर में 30% की कमी आई है। इस नवाचार को पूरे क्षेत्र में तेजी से अपनाया गया। शोधकर्ताओं ने भाषा मॉडलिंग के लिए भी गहन शिक्षण तकनीकों का उपयोग करना शुरू कर दिया है।

भाषण मान्यता के लंबे इतिहास में, 1980, 1990 के दशक और 2000 के दशक में कुछ वर्षों के समय कृत्रिम तंत्रिका नेटवर्क के उथले रूप और गहरे रूप (जैसे आवर्तक जाल) दोनों का पता लगाया गया था।

लेकिन इन विधियों ने गैर-समान आंतरिक-हैंडक्राफ्टिंग मिक्स्चर छिपा हुआ मार्कोव मॉडल (जीएमएम-एचएमएम) तकनीक पर कभी जीत हासिल नहीं की, जो भेदभावपूर्ण विधि से प्रशिक्षित भाषण के जनरेटिव मॉडल पर आधारित है। 1990 के दशक में कई प्रमुख कठिनाइयों का पद्धतिगत रूप से विश्लेषण किया गया था, जिसमें धीरे-धीरे ह्रासमान भी सम्मलित था और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना हैं। ये सभी कठिनाइयाँ इन प्रारंभिकी दिनों में बड़े प्रशिक्षण डेटा और बड़ी कंप्यूटिंग शक्ति की कमी के अतिरिक्त थीं। अधिकांश भाषण मान्यता शोधकर्ता जो इस तरह की बाधाओं को समझते थे, इसलिए पश्चात में 2009-2010 के आसपास शुरू होने वाली डीप लर्निंग के पुनरुत्थान तक जनरेटिव मॉडलिंग दृष्टिकोणों को आगे बढ़ाने के लिए तंत्रिका जाल से दूर चले गए, जिसने इन सभी कठिनाइयों को दूर कर दिया था। हिंटन एट अल और डेंग एट अल ने इस इतिहास के इस भाग की समीक्षा की कि कैसे दूसरे के साथ और फिर चार समूहों (टोरंटो विश्वविद्यालय, माइक्रोसॉफ्ट, गूगल और आईबीएम) के सहयोगियों के साथ उनके सहयोग ने वाक् पहचान के लिए गहरे फीडफॉरवर्ड न्यूरल नेटवर्क के अनुप्रयोगों के पुनर्जागरण को प्रज्वलित किया।

2010
2010 की प्रारंभ में वाक् पहचान, जिसे ध्वनि पहचान भी कहा जाता है  तक सीमित थी वक्ता की मान्यता से स्पष्ट रूप से अलग था, और वक्ता की स्वतंत्रता को बड़ी सफलता माना गया था। तब तक, प्रणाली को प्रशिक्षण अवधि की आवश्यकता होती है। 1987 में डॉल के विज्ञापन में टैगलाइन दी गई थी फाइनली, डॉल जो आपको समझती है। - इस तथ्य के अतिरिक्त कि यह वर्णन किया गया था कि कौन से बच्चे अपनी ध्वनि का जवाब देने के लिए प्रशिक्षित कर सकते हैं।

2017 में, माइक्रोसाफ्ट शोधकर्ता व्यापक रूप से बेंचमार्क किए गए स्विचबोर्ड कार्य पर संवादी टेलीफोनी भाषण को प्रसारित करने के ऐतिहासिक मानवीय समता मील के पत्थर पर पहुंच गए। भाषण पहचान सटीकता को अनुकूलित करने के लिए कई गहन शिक्षण मॉडल का उपयोग किया गया था। भाषण पहचान शब्द त्रुटि दर को ही बेंचमार्क पर साथ काम करने वाले 4 विशेषज्ञ मानव प्रतिलेखकों के रूप में कम बताया गया था, जिसे आईबीएम वाटसन भाषण टीम द्वारा ही कार्य पर वित्त पोषित किया गया था।

मॉडल, विधि और एल्गोरिदम
ध्वनिक मॉडलिंग और भाषा मॉडल दोनों ही आधुनिक सांख्यिकीय आधारित वाक् पहचान एल्गोरिदम के महत्वपूर्ण भाग हैं। छिपे हुए मार्कोव मॉडल (एचएमएम) कई प्रणालियों में व्यापक रूप से उपयोग किए जाते हैं। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे दस्तावेज़ वर्गीकरण या सांख्यिकीय मशीन अनुवाद में भी किया जाता है।

छिपे हुए मार्कोव मॉडल
आधुनिक सामान्य-उद्देश्य वाक् पहचान प्रणालियाँ छिपे हुए मार्कोव मॉडल पर आधारित हैं। ये सांख्यिकीय मॉडल हैं जो प्रतीकों या मात्राओं के अनुक्रम का उत्पादन करते हैं। एचएमएम का उपयोग वाक् पहचान में किया जाता है क्योंकि वाक् संकेत को टुकड़े-टुकड़े स्थिर संकेत या लघु-समय स्थिर संकेत के रूप में देखा जा सकता है। थोड़े समय के पैमाने में (उदाहरण के लिए, 10 मिलीसेकंड), भाषण को स्थिर प्रक्रिया के रूप में अनुमानित किया जा सकता है। भाषण को कई स्टोकेस्टिक उद्देश्यों के लिए मार्कोव मॉडल के रूप में माना जा सकता है।

एचएमएम के लोकप्रिय होने का और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटरीकृत रूप से व्यवहार्य हैं। वाक् पहचान में, छिपा हुआ मार्कोव मॉडल एन-डायमेंशनल रियल-वैल्यूड वैक्टर (एन के साथ छोटा पूर्णांक, जैसे 10) के अनुक्रम को आउटपुट करेगा, इनमें से प्रत्येक 10 मिलीसेकंड में से को आउटपुट करेगा। सदिशों में प्रभुत्व गुणांक सम्मलित होंगे, जो भाषण की छोटी समय की खिड़की के फूरियर रूपांतरण और कोसाइन परिवर्तन का उपयोग करके स्पेक्ट्रम को सजाने के द्वारा प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छिपे हुए मार्कोव मॉडल में प्रत्येक राज्य में सांख्यिकीय वितरण होता है जो विकर्ण सहप्रसरण गॉसियन का मिश्रण होता है, जो प्रत्येक मनाया वेक्टर के लिए संभावना देगा। प्रत्येक शब्द, या (अधिक सामान्य वाक् पहचान प्रणाली के लिए), प्रत्येक स्वनिम का अलग आउटपुट वितरण होगा; शब्दों या स्वरों के अनुक्रम के लिए छिपा हुआ मार्कोव मॉडल अलग-अलग शब्दों और स्वरों के लिए अलग-अलग प्रशिक्षित छिपे हुए मार्कोव मॉडल को जोड़कर बनाया गया है।

ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम-आधारित दृष्टिकोण के मूल तत्व हैं। ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को बेहतर बनाने के लिए आधुनिक वाक् पहचान प्रणालियाँ कई मानक तकनीकों के विभिन्न संयोजनों का उपयोग करती हैं। विशिष्ट बड़ी-शब्दावली प्रणाली को स्वरों के लिए संदर्भ निर्भरता की आवश्यकता होगी (इसलिए अलग-अलग बाएँ और दाएँ संदर्भ वाले स्वरों में एचएमएम स्थितियों के रूप में अलग-अलग महसूस होते हैं); यह अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्य करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे के स्पीकर सामान्यीकरण के लिए, यह पुरुष-महिला सामान्यीकरण के लिए वोकल ट्रैक्ट लेंथ नॉर्मलाइज़ेशन (वीटीएलएन) और अधिक सामान्य स्पीकर अनुकूलन के लिए अधिकतम संभावना रैखिक प्रतिगमन (एमएलएलआर) का उपयोग कर सकता है। भाषण की गतिशीलता को पकड़ने के लिए सुविधाओं में तथाकथित डेल्टा गुणांक और डेल्टा-डेल्टा गुणांक होंगे और इसके अतिरिक्त, विषमलैंगिक रैखिक विभेदक विश्लेषण (एचएलडीए) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांकों को छोड़ सकते हैं और स्प्लिसिंग (वाक् पहचान) और रैखिक विभेदक विश्लेषण-आधारित प्रक्षेपण का उपयोग कर सकते हैं, जिसके पश्चात विषमलैंगिक रैखिक विभेदक विश्लेषण या वैश्विक अर्ध-बंधे सह-प्रसरण परिवर्तन (जिसे अधिकतम संभावना रैखिक परिवर्तन के रूप में भी जाना जाता है) या एमएलएलटी)। कई प्रणालियाँ तथाकथित भेदभावपूर्ण प्रशिक्षण तकनीकों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए विशुद्ध रूप से सांख्यिकीय दृष्टिकोण से दूर होती हैं और इसके अतिरिक्त प्रशिक्षण डेटा के कुछ वर्गीकरण-संबंधित माप का अनुकूलन करती हैं। इसका मुख्य उदाहरण अधिकतम आपसी जानकारी (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई), और न्यूनतम फोन त्रुटि (एमपीई) हैं।

भाषण का डिकोडिंग (क्या होता है जब प्रणाली को नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे संभावित स्रोत वाक्य की गणना करनी चाहिए) शायद सबसे अच्छा रास्ता खोजने के लिए विटरबी एल्गोरिथ्म का उपयोग करेगा, और यहां गतिशील रूप से विकल्प बनाने के बीच विकल्प है संयोजन छिपा हुआ मार्कोव मॉडल, जिसमें ध्वनिक और भाषा दोनों मॉडल की जानकारी सम्मलित है और इसे पहले से स्थिर रूप से संयोजित करना (परिमित राज्य ट्रांसड्यूसर, या एफएसटी, दृष्टिकोण) सम्मलित हैं।

डिकोडिंग में संभावित सुधार सिर्फ सर्वश्रेष्ठ उम्मीदवार को रखने के अतिरिक्त अच्छे उम्मीदवारों का सेट रखना है, और इन अच्छे उम्मीदवारों को रेट करने के लिए बेहतर स्कोरिंग फ़ंक्शन (पुनः स्कोरिंग (एएसआर)) का उपयोग करना है जिससे कि हम अपने अनुसार सर्वश्रेष्ठ उम्मीदवार चुन सकें। यह परिष्कृत स्कोर। उम्मीदवारों के सेट को या तो सूची के रूप में रखा जा सकता है (एन-सर्वश्रेष्ठ सूची अनुमोदन) या मॉडलों के सबसेट के रूप में (एक जाली (क्रम)) उपयोग किया जाता हैं। री स्कोरिंग सामान्यतः बेयस जोखिम को कम करने का प्रयास करके किया जाता है (या इसका सन्निकटन): स्रोत वाक्य को अधिकतम संभाव्यता के साथ लेने के अतिरिक्त, हम उस वाक्य को लेने का प्रयास करते हैं जो किसी दिए गए नुकसान फ़ंक्शन की प्रत्याशा को सभी संभावित ट्रांसक्रिप्शन के संबंध में कम करता है (अर्ताथ, हम उस वाक्य को लेते हैं जो औसत दूरी को कम करता है जिसमें उनकी अनुमानित संभाव्यता द्वारा भारित अन्य संभावित वाक्यों के लिए उपयोगी हैं। इससे होने वाली हानि फंक्शन सामान्यतः लेवेनशेटिन दूरी है, चूंकि यह विशिष्ट कार्यों के लिए अलग-अलग दूरी हो सकती है; संभावित प्रतिलेखन का सेट, निश्चित रूप से, सुवाह्यता बनाए रखने के लिए छंटाई की जाती है। संपादित दूरी के साथ भारित परिमित राज्य ट्रांसड्यूसर के रूप में प्रस्तुत जालक (आदेश) को फिर से स्कोर करने के लिए कुशल एल्गोरिदम तैयार किए गए हैं, जो कुछ मान्यताओं की पुष्टि करने वाले परिमित राज्य ट्रांसड्यूसर के रूप में खुद का प्रतिनिधित्व करते हैं।

डायनामिक टाइम वार्पिंग (डीटीडब्ल्यू)-आधारित वाक् पहचान
डायनेमिक टाइम वारपिंग दृष्टिकोण है जो ऐतिहासिक रूप से वाक् पहचान के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण द्वारा विस्थापित कर दिया गया है।

डायनेमिक टाइम वारपिंग दो अनुक्रमों के बीच समानता को मापने के लिए एल्गोरिथ्म है जो समय या गति में भिन्न हो सकता है। उदाहरण के लिए, चलने के पैटर्न में समानता का पता लगाया जाएगा, भले ही वीडियो में व्यक्ति धीरे-धीरे चल रहा हो और यदि दूसरे वीडियो में वह अधिक तेज़ी से चल रहा हो, या भले ही अवलोकन के समय त्वरण और मंदी हो जाती हैं। डीटीडब्ल्यू को वीडियो, ऑडियो और ग्राफ़िक्स पर लागू किया गया है - वास्तव में, कोई भी डेटा जिसे रेखीय प्रतिनिधित्व में बदला जा सकता है, उसका विश्लेषण डीटीडब्ल्यू के साथ किया जा सकता है।

अलग-अलग बोलने की गति से निपटने के लिए प्रसिद्ध एप्लिकेशन स्वचालित वाक् पहचान है। सामान्यतः, यह ऐसी विधि है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (जैसे, समय श्रृंखला) के बीच इष्टतम मिलान खोजने की अनुमति देती है। यही है, दृश्यों को दूसरे से मेल खाने के लिए गैर-रैखिक रूप से विकृत किया जाता है। यह अनुक्रम संरेखण विधि अधिकांशतः छिपे हुए मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।

तंत्रिका नेटवर्क
1980 के दशक के अंत में एएसआर में तंत्रिका नेटवर्क आकर्षक ध्वनिक मॉडलिंग दृष्टिकोण के रूप में उभरा। तब से, भाषण मान्यता के कई पहलुओं में तंत्रिका नेटवर्क का उपयोग किया गया है जैसे कि ध्वनि वर्गीकरण, बहुउद्देश्यीय विकासवादी एल्गोरिदम के माध्यम से स्वनिम वर्गीकरण, दृश्य-श्रव्य भाषण पहचान, दृश्य-श्रव्य वक्ता पहचान और वक्ता अनुकूलन।

कृत्रिम तंत्रिका नेटवर्क एचएमएम की तुलना में फीचर सांख्यिकीय गुणों के बारे में कम स्पष्ट धारणाएं बनाते हैं और भाषण मान्यता के लिए उन्हें आकर्षक पहचान मॉडल बनाने वाले कई गुण हैं। जब भाषण सुविधा भाग की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तो तंत्रिका नेटवर्क स्वाभाविक और कुशल विधि से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। चूंकि, कम समय की इकाइयों जैसे अलग-अलग स्वरों और पृथक शब्दों को वर्गीकृत करने में उनकी प्रभावशीलता के अतिरिक्त प्रारंभिक तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल रहे थे क्योंकि अस्थायी निर्भरताओं को मॉडल करने की उनकी सीमित क्षमता थी।

इस सीमा के लिए दृष्टिकोण तंत्रिका नेटवर्क को पूर्व-प्रसंस्करण, सुविधा परिवर्तन या आयामी कमी के रूप में उपयोग करना था, एचएमएम आधारित मान्यता से पहले का चरण हैं। चूंकि, हाल ही में, एलएसटीएम और संबंधित आवर्तक तंत्रिका नेटवर्क (आरएनएनs) और समय विलंब तंत्रिका नेटवर्क (टीडीएनएन) इस क्षेत्र में बेहतर प्रदर्शन किया है।

डीप फीडफॉरवर्ड और रिकरंट न्यूरल नेटवर्क्स
डीप न्यूरल नेटवर्क और डीनोइज़िंग ऑटोएन्कोडर भी जांच के सीमा में हैं। डीप फीडफॉर्वर्ड न्यूरल नेटवर्क (डीएनएन) कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें होती हैं। उथले तंत्रिका नेटवर्क के समान, डीएनएन जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। डीएनएन आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं, जहाँ अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे बड़ी सीखने की क्षमता मिलती है और इस प्रकार भाषण डेटा के जटिल पैटर्न की मॉडलिंग की संभावना होती है।

शैक्षणिक शोधकर्ताओं के सहयोग से औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां डीएनएन की बड़ी आउटपुट परतें संदर्भ निर्भर एचएमएम स्थितियों के आधार पर निर्णय वृक्षों द्वारा निर्मित की गईं। अक्टूबर 2014 तक इस विकास और अत्याधुनिक स्थिति की व्यापक समीक्षा माइक्रोसाफ्ट अनुसंधान से हाल ही में स्प्रिंगर पुस्तक में देखें। स्वचालित भाषण पहचान की संबंधित पृष्ठभूमि और विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें, विशेष रूप से हाल के अवलोकन लेख इसमें डीप लर्निंग भी सम्मलित है।

गहन शिक्षण का मूलभूत सिद्धांत हाथ से तैयार की गई फीचर इंजीनियरिंग को खत्म करना और कच्ची सुविधाओं का उपयोग करना है। कच्चे स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर के आर्किटेक्चर में इस सिद्धांत को पहली बार सफलतापूर्वक खोजा गया था, मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। स्पीच, वेवफॉर्म्स की असली अपरिष्कृत विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर वाक् पहचान परिणामों का उत्पादन करने के लिए दिखाया गया है।

एंड-टू-एंड स्वचालित भाषण पहचान
2014 के पश्चात से, एंड-टू-एंड एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक ध्वन्यात्मक-आधारित (अर्ताथ, सभी छिपे हुए मार्कोव मॉडल-आधारित मॉडल) दृष्टिकोणों को उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटकों और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से वाक् पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है क्योंकि यह प्रशिक्षण प्रक्रिया और परिनियोजन प्रक्रिया को सरल करता है। उदाहरण के लिए, सभी एचएमएम-आधारित प्रणालियों के लिए एन-ग्राम या एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और विशिष्ट एन-ग्राम भाषा मॉडल अधिकांशतः स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर नियुक्त करना अव्यावहारिक हो जाता है। परिणामस्वरूप, गूगल और एप्पल इंक के आधुनिक वाणिज्यिक एएसआर प्रणाली क्लाउड पर नियुक्त हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।

एंड-टू-एंड एएसआर का पहला प्रयास 2014 में डीपमाइंड के एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और टोरंटो विश्वविद्यालय के नवदीप जेटली द्वारा पेश किए गए संबंधवादी लौकिक वर्गीकरण (सीटीसी) आधारित प्रणाली के साथ था। मॉडल में आवर्तक तंत्रिका नेटवर्क और सीटीसी परत सम्मलित थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल उच्चारण और ध्वनिक मॉडल को साथ सीखता है, चूंकि यह एचएमएम के समान सशर्त स्वतंत्रता धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी वर्णों के लिए भाषण ध्वनिकी को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी की गलतियाँ करते हैं और प्रतिलेख को साफ करने के लिए अलग भाषा मॉडल पर भरोसा करना चाहिए। पश्चात में, Baidu ने अत्यधिक बड़े डेटासेट के साथ काम पर विस्तार किया और चीनी मंदारिन और अंग्रेजी में कुछ व्यावसायिक सफलता प्रदर्शित की। 2016 में, ऑक्सफोर्ड विश्वविद्यालय ने लिपनेट प्रस्तुत किया, आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैटियोटेम्पोरल कनवल्शन का उपयोग करते हुए पहला एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग मॉडल, प्रतिबंधित व्याकरण डेटासेट में मानव-स्तर के प्रदर्शन को पार करता है। दीपमाइंड द्वारा 2018 में बड़े पैमाने पर सीएनएन-आरएनएन-सीटीसी आर्किटेक्चर प्रस्तुत किया गया था, जिसने मानव विशेषज्ञों की तुलना में 6 गुना बेहतर प्रदर्शन हासिल किया। सीटीसी-आधारित मॉडलों के लिए वैकल्पिक दृष्टिकोण ध्यान-आधारित मॉडल हैं। चान एट अल द्वारा ध्यान-आधारित एएसआर मॉडल साथ पेश किए गए थे। कार्नेगी मेलन विश्वविद्यालय और गूगल ब्रेन और बहदानौ एट अल। 2016 में यूनिवर्सिटी डी मॉन्ट्रियल। लिसन, अटेंड एंड स्पेल (LAS) नाम का मॉडल, शाब्दिक रूप से ध्वनिक संकेत को सुनता है, संकेत के विभिन्न भागों पर ध्यान देता है और समय में वर्ण को प्रतिलेखित करता है। सीटीसी-आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता की धारणा नहीं होती है और उच्चारण, ध्वनिक और भाषा मॉडल सहित वाक् पहचानकर्ता के सभी घटकों को सीधे सीख सकते हैं। इसका मतलब है, परिनियोजन के समय, सीमित स्मृति वाले अनुप्रयोगों के लिए इसे बहुत व्यावहारिक बनाने के लिए भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडलों ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या उसके बिना) से बेहतर प्रदर्शन सहित काफी सफलता देखी है। मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन यूनिवर्सिटी, मेसाचुसेट्स प्रौद्योगिक संस्थान और गूगल ब्रेन द्वारा अव्यक्त अनुक्रम अपघटन (एलएसडी) का प्रस्ताव सीधे उप-शब्द इकाइयों को उत्सर्जित करने के लिए किया गया था जो अंग्रेजी वर्णों की तुलना में अधिक स्वाभाविक हैं; ऑक्सफोर्ड विश्वविद्यालय और डीपमाइंड ने LAS को मानव-स्तर के प्रदर्शन को पार करते हुए लिप रीडिंग को संभालने के लिए LAS को वॉच, लिसन, अटेंड और स्पेल (WLAS) तक बढ़ाया।

इन-कार प्रणाली
सामान्यतः मैनुअल कंट्रोल इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर फिंगर कंट्रोल के माध्यम से, वाक् पहचान प्रणाली को सक्षम करता है और यह ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के पश्चात, प्रणाली में सुनने की खिड़की होती है जिसके समय यह पहचान के लिए भाषण इनपुट स्वीकार कर सकता है। फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या संगत स्मार्टफोन, एमपी3 प्लेयर या म्यूजिक-लोडेड फ्लैश ड्राइव से संगीत चलाने के लिए सरल वॉयस कमांड का उपयोग किया जा सकता है। कार बनाने और मॉडल के बीच ध्वनि पहचानने की क्षमता अलग-अलग होती है। कुछ सबसे हाल के कार मॉडल कमांड के निश्चित सेट के स्थान पर प्राकृतिक-भाषा वाक् पहचान प्रदान करते हैं, जिससे ड्राइवर को पूर्ण वाक्यों और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इस तरह की प्रणालियों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के सेट को याद रखने की कोई आवश्यकता नहीं है।

चिकित्सा दस्तावेज
स्वास्थ्य देखभाल क्षेत्र में, वाक् पहचान चिकित्सा प्रलेखन प्रक्रिया के फ्रंट-एंड या बैक-एंड में लागू की जा सकती है। फ्रंट-एंड वाक् पहचान वह जगह है जहां प्रदाता स्पीच-रिकग्निशन इंजन में डिक्टेट करता है, पहचाने गए शब्दों को बोले जाने पर प्रदर्शित किया जाता है, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए जिम्मेदार होता है। बैक-एंड या डिफर्ड वाक् पहचान वह जगह है जहां प्रदाता डिजिटल श्रुतलेख प्रणाली में डिक्टेट करता है, वॉयस को स्पीच-रिकग्निशन मशीन के माध्यम से रूट किया जाता है और मान्यता प्राप्त ड्राफ्ट डॉक्यूमेंट को मूल वॉयस फाइल के साथ एडिटर तक पहुंचाया जाता है, जहां ड्राफ्ट को एडिट किया जाता है। और रिपोर्ट को अंतिम रूप दिया। आस्थगित भाषण मान्यता वर्तमान में उद्योग में व्यापक रूप से उपयोग की जाती है।

स्वास्थ्य सेवा में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से यह है कि 2009 का अमेरिकी रिकवरी और पुनर्निवेश अधिनियम (2009 का अमेरिकी पुनर्प्राप्ति और पुनर्निवेश अधिनियम) सार्थक उपयोग मानकों के अनुसार EMR का उपयोग करने वाले चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है। इन मानकों के लिए आवश्यक है कि EMR द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब इसे सामान्यतः इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड या EHR के रूप में संदर्भित किया जाता है)। भाषण मान्यता का उपयोग रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के भाग के रूप में कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से अनुकूल है: संरचित असतत डेटा (जैसे, संख्यात्मक मान या कोड) दर्ज करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ सूची या नियंत्रित शब्दावली से) उन लोगों के लिए अपेक्षाकृत न्यूनतम हैं जिन्हें देखा जा सकता है और जो कीबोर्ड और माउस को संचालित कर सकते हैं।

एक अधिक महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को स्पष्ट रूप से ध्वनि-पहचान क्षमताओं का लाभ उठाने के लिए तैयार नहीं किया गया है। EHR के साथ चिकित्सक की बातचीत के बड़े हिस्से में मेनू, और टैब/बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन सम्मलित है, और कीबोर्ड और माउस पर बहुत अधिक निर्भर है: ध्वनि-आधारित नेविगेशन केवल साधारण एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी डिक्टेशन के लिए कई अत्यधिक अनुकूलित प्रणालियाँ वॉयस मैक्रोज़ को लागू करती हैं, जहाँ कुछ वाक्यांशों का उपयोग - उदाहरण के लिए, सामान्य रिपोर्ट, स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भर देगी और/या बॉयलरप्लेट उत्पन्न करेगी, जो प्रकार के साथ भिन्न होगी परीक्षा का - उदाहरण के लिए, रेडियोलॉजी प्रणाली के लिए छाती का एक्स-रे बनाम गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला।

चिकित्सीय उपयोग
वर्ड प्रोसेसर के साथ संयोजन के रूप में वाक् पहचान सॉफ़्टवेयर के लंबे समय तक उपयोग ने मस्तिष्क एवीएम रोगियों में अल्पावधि-स्मृति पुनर्संरचना के लिए लाभ दिखाया है, जिनका उपचार लकीर (सर्जरी) के साथ किया गया है। जिन व्यक्तियों के एवीएम का उपचार रेडियोलॉजिकल तकनीकों का उपयोग करके किया गया है, उनके लिए संज्ञानात्मक लाभों का निर्धारण करने के लिए और अनुसंधान किए जाने की आवश्यकता है।

उच्च प्रदर्शन लड़ाकू विमान
लड़ाकू विमानों में वाक् पहचान के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयास किए गए हैं। जनरल डायनेमिक्स F-16 फाइटिंग फाल्कन वेरिएंट#टेक्नोलॉजी डिमॉन्स्ट्रेटर्स, और टेस्ट वेरिएंट्स#फ्लाइट कंट्रोल वेरिएंट्स#F-16 एडवांस्ड फाइटर टेक्नोलॉजी इंटीग्रेशन|एडवांस्ड फाइटर टेक्नोलॉजी इंटीग्रेशन (AFTI)/F -16 विमान (F-16 VISTA), फ्रांस में मिराज (विमान) विमान के लिए कार्यक्रम, और ब्रिटेन में विभिन्न प्रकार के विमान प्लेटफार्मों से निपटने वाले अन्य कार्यक्रम। इन कार्यक्रमों में, रेडियो फ्रीक्वेंसी सेट करने, ऑटोपायलट प्रणाली को कमांड करने, स्टीयर-पॉइंट निर्देशांक सेट करने और हथियार रिलीज पैरामीटर, और उड़ान प्रदर्शन को नियंत्रित करने सहित अनुप्रयोगों के साथ, लड़ाकू विमानों में भाषण पहचानकर्ताओं को सफलतापूर्वक संचालित किया गया है।

जेएएस 39 ग्रिपेन मिलेगा|जेएएस-39 ग्रिपेन कॉकपिट, इंग्लैंड (2004) में उड़ान भरने वाले स्वीडिश पायलटों के साथ काम करते हुए पाया गया कि बढ़ती जी बल|जी-लोड के साथ मान्यता बिगड़ गई। रिपोर्ट ने यह भी निष्कर्ष निकाला कि अनुकूलन ने सभी स्थितियों में परिणामों में बहुत सुधार किया और यह कि सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में काफी सुधार करने के लिए दिखाया गया। अपेक्षा के विपरीत, बोलने वालों की टूटी-फूटी अंग्रेजी का कोई प्रभाव नहीं पाया गया। यह स्पष्ट था कि सहज भाषण पहचानकर्ता के लिए समस्याएँ पैदा करता है, जैसा कि उम्मीद की जा सकती थी। प्रतिबंधित शब्दावली, और सबसे बढ़कर, उचित सिंटैक्स, इस प्रकार मान्यता सटीकता में काफी सुधार की उम्मीद की जा सकती है। यूरोफाइटर टाइफून, वर्तमान में यूके आरएएफ के साथ सेवा में है, स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसके लिए प्रत्येक पायलट को टेम्पलेट बनाने की आवश्यकता होती है। प्रणाली का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों के लिए नहीं किया जाता है, जैसे कि हथियार छोड़ना या हवाई जहाज़ के पहिये को कम करना, लेकिन अन्य कॉकपिट कार्यों की विस्तृत श्रृंखला के लिए उपयोग किया जाता है। वॉयस कमांड की पुष्टि दृश्य और/या श्रव्य प्रतिक्रिया द्वारा की जाती है। पायलट कार्यभार को कम करने में प्रणाली को प्रमुख डिजाइन सुविधा के रूप में देखा जाता है, और यहां तक ​​​​कि पायलट को अपने विमान को दो सरल वॉयस कमांड या अपने किसी भी विंगमैन को केवल पांच कमांड के साथ लक्ष्य निर्धारित करने की अनुमति देता है। स्पीकर-इंडिपेंडेंट प्रणाली भी विकसित किए जा रहे हैं और लॉकहीड मार्टिन F-35 लाइटनिंग II (JSF) और Alenia Aermacchi M-346 मास्टर लीड-इन फाइटर ट्रेनर के लिए परीक्षण के अधीन हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता स्कोर का उत्पादन किया है।

हेलीकॉप्टर
तनाव और शोर के अनुसार उच्च पहचान सटीकता प्राप्त करने की समस्या विशेष रूप से हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण में भी प्रासंगिक है। हेलीकॉप्टर वातावरण में ध्वनिक शोर की समस्या वास्तव में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि इसलिए भी कि हेलीकॉप्टर पायलट, सामान्य रूप से लड़ाकू पायलट हेलमेट नहीं पहनता है, जिससे माइक्रोफ़ोन में ध्वनिक शोर कम हो जाता है। पिछले दशक में हेलीकाप्टरों में वाक् पहचान प्रणाली अनुप्रयोगों में पर्याप्त परीक्षण और मूल्यांकन कार्यक्रम किए गए हैं, विशेष रूप से यू.एस. आर्मी एवियोनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (AVRADA) और यूके में रॉयल एयरोस्पेस एस्टैब्लिशमेंट (शाही विमान प्रतिष्ठान) द्वारा। फ़्रांस में काम में प्यूमा हेलीकाप्टर में वाक् पहचान सम्मलित है। कनाडा में भी बहुत उपयोगी कार्य हुए हैं। परिणाम उत्साहजनक रहे हैं, और ध्वनि अनुप्रयोगों में सम्मलित हैं: संचार रेडियो का नियंत्रण, पथ प्रदर्शन प्रणाली की स्थापना, और स्वचालित लक्ष्य हस्तांतरण प्रणाली का नियंत्रण।

लड़ाकू अनुप्रयोगों के रूप में, हेलीकाप्टरों में ध्वनि के लिए प्रमुख मुद्दा पायलट प्रभावशीलता पर प्रभाव है। AVRADA परीक्षणों के लिए उत्साहजनक परिणाम रिपोर्ट किए गए हैं, चूंकि ये परीक्षण वातावरण में केवल व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। परिचालन सेटिंग्स में लगातार प्रदर्शन सुधार हासिल करने के लिए वाक् पहचान और समग्र वाक् प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।

प्रशिक्षण हवाई यातायात नियंत्रकों
वायु यातायात नियंत्रकों (एटीसी) के लिए प्रशिक्षण भाषण पहचान प्रणाली के लिए उत्कृष्ट अनुप्रयोग का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ ध्वनि संवाद में सम्मलित होता है, जो संवाद को अनुकरण करता है कि नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ आचरण करना होगा। भाषण पहचान और भाषण संश्लेषण तकनीक व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और सहायक कर्मियों को कम करती है। सिद्धांत रूप में, वायु नियंत्रक कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी वर्णित किया जाता है, इसलिए वाक् पहचान कार्य की कठिनाई को कम करना संभव होना चाहिए। व्यवहार में, ऐसा कम ही होता है। FAA दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। जबकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिम्युलेशन विक्रेताओं में से भाषण पहचान प्रणाली द्वारा समर्थित वाक्यांशों की संख्या 500,000 से अधिक है।

यूएसएएफ, यूएसएमसी, यूएस आर्मी, यूएस नेवी और एफएए के साथ-साथ कई अंतरराष्ट्रीय एटीसी प्रशिक्षण संगठन जैसे कि रॉयल ऑस्ट्रेलियाई वायु सेना और इटली, ब्राजील और कनाडा में नागरिक उड्डयन प्राधिकरण वर्तमान में एटीसी सिमुलेटर का उपयोग वाक् पहचान के साथ कर रहे हैं। कई अलग-अलग विक्रेता।

टेलीफ़ोनी और अन्य डोमेन
एएसआर अब टेलीफोनी के क्षेत्र में आम हो गया है और कंप्यूटर गेमिंग और सिमुलेशन के क्षेत्र में अधिक व्यापक होता जा रहा है। टेलीफोनी प्रणालियों में, एएसआर अब आईवीआर प्रणालियों के साथ एकीकृत करके मुख्य रूप से संपर्क केंद्रों में उपयोग किया जा रहा है। दस्तावेज़ उत्पादन के क्षेत्र में सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के अतिरिक्त, एएसआर ने उपयोग में अपेक्षित वृद्धि नहीं देखी है।

मोबाइल प्रोसेसर की गति में सुधार ने स्मार्टफोन में वाक् पहचान को व्यावहारिक बना दिया है। पूर्वनिर्धारित या कस्टम स्पीच कमांड बनाने के लिए स्पीच का उपयोग ज्यादातर यूजर इंटरफेस के भाग के रूप में किया जाता है।

शिक्षा और दैनिक जीवन में उपयोग
भाषा सीखने के लिए, वाक् पहचान दूसरी भाषा सीखने के लिए उपयोगी हो सकती है। यह किसी व्यक्ति को उनके बोलने के कौशल के साथ प्रवाह विकसित करने में मदद करने के अतिरिक्त, उचित उच्चारण सिखा सकता है। जो छात्र अंधे हैं (दृष्टिहीनता और शिक्षा देखें) या बहुत कम दृष्टि वाले शब्दों को संप्रेषित करने के लिए प्रौद्योगिकी का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को उन्हें सुनाते हुए सुन सकते हैं, साथ ही अपनी ध्वनि के साथ कमांड करके कंप्यूटर का उपयोग कर सकते हैं, देखने के अतिरिक्त स्क्रीन और कीबोर्ड।

जो छात्र शारीरिक रूप से अक्षम हैं, जिन्हें दोहरावदार तनाव की चोट/ऊपरी अंगों में अन्य चोटें हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके लिखावट, टाइपिंग, या स्कूल असाइनमेंट पर मुंशी के साथ काम करने की चिंता से मुक्त किया जा सकता है। वे माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करने का आनंद लेने के लिए वाक् पहचान तकनीक का भी उपयोग कर सकते हैं।

भाषण मान्यता सीखने की अक्षमता वाले छात्रों को बेहतर लेखक बनने की अनुमति दे सकती है। शब्दों को जोर से बोलकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को दूर कर सकते हैं। सीखने की अक्षमता भी देखें।

एक डिजिटल ऑडियो रिकॉर्डर और व्यक्तिगत कंप्यूटर चलाने वाले वर्ड-प्रोसेसिंग सॉफ़्टवेयर के संयोजन के साथ ध्वनि पहचान सॉफ़्टवेयर का उपयोग स्ट्रोक और क्रैनियोटॉमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म मेमोरी क्षमता को बहाल करने के लिए सकारात्मक सिद्ध हुआ है।

विकलांग लोग
विकलांग लोग वाक् पहचान कार्यक्रमों से लाभान्वित हो सकते हैं। ऐसे व्यक्तियों के लिए जो बधिर हैं या सुनने में मुश्किल हैं, वाक् पहचान सॉफ़्टवेयर का उपयोग स्वचालित रूप से वार्तालापों का बंद-शीर्षक उत्पन्न करने के लिए किया जाता है जैसे सम्मेलन कक्ष, कक्षा व्याख्यान, और/या धार्मिक सेवाओं में चर्चा। वाक् पहचान उन लोगों के लिए भी बहुत उपयोगी है, जिन्हें अपने हाथों का उपयोग करने में कठिनाई होती है, हल्के दोहराव वाले तनाव की चोटों से लेकर ऐसी अक्षमताएं सम्मलित हैं जो पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। वास्तव में, जिन लोगों ने कीबोर्ड का बहुत उपयोग किया और दोहरावदार तनाव की चोट विकसित की, वे वाक् पहचान के लिए तत्काल प्रारंभिक बाजार बन गए। वाक् पहचान का उपयोग बधिर टेलीफोनी में किया जाता है, जैसे कि ध्वनि मेल से पाठ, रिले सेवाएं और दूरसंचार रिले सेवा # कैप्शन वाला टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिन्हें विचार-टू-पेपर संचार में समस्या है (अनिवार्य रूप से वे विचार के बारे में सोचते हैं लेकिन इसे गलत विधि से संसाधित किया जाता है जिससे यह कागज पर अलग तरह से समाप्त हो जाता है) संभवतः सॉफ्टवेयर से लाभान्वित हो सकते हैं लेकिन तकनीक बग प्रूफ नहीं है। इसके अतिरिक्त पाठ से बात करने का पूरा विचार बौद्धिक रूप से अक्षम व्यक्ति के लिए कठिन हो सकता है क्योंकि ऐसा बहुत कम होता है कि कोई विकलांग व्यक्ति को पढ़ाने के लिए तकनीक सीखने का प्रयास करता है। इस प्रकार की तकनीक डिस्लेक्सिया वाले लोगों की मदद कर सकती है लेकिन अन्य विकलांग अभी भी सवालों के घेरे में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने से रोक रही है। चूंकि बच्चा शब्द कहने में सक्षम हो सकता है, यह इस बात पर निर्भर करता है कि वे इसे कितना स्पष्ट कहते हैं, तकनीक सोच सकती है कि वे और शब्द कह रहे हैं और गलत इनपुट कर सकते हैं। उन्हें ठीक करने के लिए और अधिक काम देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगना पड़ता है।

आगे के आवेदन

 * एयरोस्पेस (उदाहरण के लिए अंतरिक्ष अन्वेषण, अंतरिक्ष यान, आदि) नासा के मंगल ध्रुवीय लैंडर ने लैंडर पर मंगल माइक्रोफोन में संवेदी, इंक. से वाक् पहचान तकनीक का उपयोग किया
 * वाक् पहचान के साथ स्वचालित समान भाषा उपशीर्षक
 * स्वचालित भावना पहचान
 * स्वचालित शॉट (फिल्म निर्माण) ऑडियोविजुअल प्रोडक्शन में लिस्टिंग
 * स्वचालित अनुवाद
 * न्यायालय रिपोर्टिंग (वास्तविक समय भाषण लेखन)
 * ई खोज (कानूनी खोज)
 * हाथों से मुक्त कंप्यूटिंग: वाक् पहचान कंप्यूटर प्रयोक्ता इंटरफ़ेस
 * घर स्वचालन
 * इंटरएक्टिव वॉयस रिस्पांस
 * मोबाइल टेलीफोनी, मोबाइल ईमेल सहित
 * मल्टीमॉडल इंटरेक्शन *कंप्यूटर-सहायता प्राप्त भाषा सीखने के अनुप्रयोगों में उच्चारण मूल्यांकन
 * रियल टाइम अनुशीर्षक
 * रोबोटिक्स
 * बहु-कारक प्रमाणीकरण के लिए अन्य बायोमेट्रिक स्कैनर के साथ उपयोग सहित सुरक्षा
 * भाषण से पाठ (पाठ में भाषण का प्रतिलेखन, वास्तविक समय वीडियो कैप्शनिंग, कोर्ट रिपोर्टिंग)
 * TELEMATICS (जैसे वाहन नेविगेशन प्रणाली)
 * प्रतिलेखन (भाषाविज्ञान) (डिजिटल भाषण-से-पाठ)
 * काम के उदाहरण के रूप में टॉम क्लेन्सी के एंडवार और लाइफलाइन (वीडियो गेम) के साथ वीडियो गेम
 * आभासी सहायक (आर्टिफिशियल इंटेलिजेंस) (उदाहरण के लिए Apple सिरी|Apple's सिरी)

प्रदर्शन
वाक् पहचान प्रणाली के प्रदर्शन का मूल्यांकन सामान्यतः सटीकता और गति के संदर्भ में किया जाता है। सटीकता को सामान्यतः शब्द त्रुटि दर (WER) के साथ आंका जाता है, जबकि गति को वास्तविक समय कारक के साथ मापा जाता है। सटीकता के अन्य उपायों में एकल शब्द त्रुटि दर (SWER) और कमान सफलता दर (CSR) सम्मलित हैं।

चूंकि, मशीन द्वारा वाक् पहचान बहुत ही जटिल समस्या है। लहजे, उच्चारण, मुखरता, खुरदरापन, अनुनासिकता, पिच, मात्रा और गति के संदर्भ में स्वर अलग-अलग होते हैं। भाषण पृष्ठभूमि शोर और गूँज, विद्युत विशेषताओं से विकृत है। वाक् पहचान की सटीकता निम्न के साथ भिन्न हो सकती है:
 * शब्दावली का आकार और भ्रम
 * वक्ता निर्भरता बनाम स्वतंत्रता
 * पृथक, असंतत या निरंतर वाणी
 * कार्य और भाषा की कमी
 * बनाम सहज भाषण पढ़ें
 * प्रतिकूल परिस्थितियां

सटीकता
जैसा कि इस लेख में पहले उल्लेख किया गया है, वाक् पहचान की सटीकता निम्नलिखित कारकों के आधार पर भिन्न हो सकती है:
 * शब्दावली का आकार बढ़ने पर त्रुटि दर बढ़ती है:
 * जैसे शून्य से नौ तक के 10 अंकों को अनिवार्य रूप से पूरी तरह से पहचाना जा सकता है, लेकिन 200, 5000 या 100000 के शब्दावली आकार में क्रमशः 3%, 7% या 45% की त्रुटि दर हो सकती है।


 * शब्दावली को पहचानना मुश्किल है यदि इसमें भ्रमित करने वाले शब्द हैं:
 * जैसे अंग्रेजी वर्णमाला के 26 अक्षरों में अंतर करना मुश्किल है क्योंकि वे भ्रमित करने वाले शब्द हैं (सबसे कुख्यात, ई-सेट: बी, सी, डी, ई, जी, पी, टी, वी, जेड - जब जेड का उच्चारण ज़ी के अतिरिक्त किया जाता है) जेड अंग्रेजी क्षेत्र के आधार पर); इस शब्दावली के लिए 8% त्रुटि दर अच्छी मानी जाती है।


 * वक्ता निर्भरता बनाम स्वतंत्रता:
 * एक स्पीकर-निर्भर प्रणाली स्पीकर द्वारा उपयोग के लिए अभिप्रेत है।
 * एक स्पीकर-स्वतंत्र प्रणाली किसी भी स्पीकर (अधिक कठिन) द्वारा उपयोग के लिए अभिप्रेत है।


 * पृथक, विच्छिन्न या निरंतर वाणी
 * एकाकी वाणी में शब्द का प्रयोग होता है, इसलिए वाणी को पहचानना आसान हो जाता है।

विच्छिन्न वाक् में मौन द्वारा अलग किए गए पूर्ण वाक्यों का प्रयोग किया जाता है, इसलिए वाक् के साथ-साथ विलग वाक् को पहचानना आसान हो जाता है।

निरंतर भाषण के साथ स्वाभाविक रूप से बोले जाने वाले वाक्यों का उपयोग किया जाता है, इसलिए भाषण को पहचानना कठिन हो जाता है, अलग-अलग और असंतत भाषण दोनों से अलग।


 * कार्य और भाषा की कमी
 * उदा. पूछताछ आवेदन परिकल्पना को खारिज कर सकता है सेब लाल है।
 * उदा. बाधाएं शब्दार्थ हो सकती हैं; अस्वीकार सेब नाराज है।
 * उदा. सिंटैक्टिक; लाल को अस्वीकार करना सेब है।

बाधाओं को अधिकांशतः व्याकरण द्वारा दर्शाया जाता है। वाक् पहचान बहु-स्तरीय पैटर्न पहचान कार्य है। उदा. ज्ञात शब्द उच्चारण या कानूनी शब्द क्रम, जो निचले स्तर पर त्रुटियों या अनिश्चितताओं की भरपाई कर सकता है; टेलीफोन भाषण के लिए नमूनाकरण दर प्रति सेकंड 8000 नमूने हैं; प्रत्येक 10 मिलीसेकंड पर गणना की जाती है, जिसमें 10 मिलीमीटर का भाग होता है जिसे फ़्रेम कहा जाता है;
 * पढ़ें बनाम सहज भाषण - जब कोई व्यक्ति पढ़ता है तो यह सामान्यतः पहले से तैयार किए गए संदर्भ में होता है, लेकिन जब कोई व्यक्ति सहज भाषण का उपयोग करता है, तो भाषण को पहचानना मुश्किल होता है क्योंकि भाषण (जैसे उह और उम, झूठी प्रारंभिक, अधूरे वाक्य, हकलाना, खाँसी और हँसी) और सीमित शब्दावली।
 * प्रतिकूल परिस्थितियाँ - पर्यावरणीय शोर (जैसे कार या कारखाने में शोर)। ध्वनिक विकृतियाँ (जैसे गूँज, कक्ष ध्वनिकी)
 * ध्वनिक संकेतों को इकाइयों के पदानुक्रम में संरचित किया जाता है, उदा। स्वर, शब्द, वाक्यांश और वाक्य;
 * प्रत्येक स्तर अतिरिक्त प्रतिबंध प्रदान करता है;
 * बाधाओं के इस पदानुक्रम का शोषण किया जाता है। सभी निचले स्तरों पर संभाव्य रूप से निर्णयों को संयोजित करके, और केवल उच्चतम स्तर पर अधिक नियतात्मक निर्णय लेने से, मशीन द्वारा वाक् पहचान कई चरणों में विभाजित प्रक्रिया है। कम्प्यूटरीकृत रूप से, यह समस्या है जिसमें ध्वनि पैटर्न को पहचाना जाना चाहिए या श्रेणी में वर्गीकृत किया जाना चाहिए जो मानव के लिए अर्थ का प्रतिनिधित्व करता है। प्रत्येक ध्वनिक संकेत को छोटे और अधिक बुनियादी उप-संकेतों में तोड़ा जा सकता है। जैसे-जैसे अधिक जटिल ध्वनि संकेत छोटे उप-ध्वनियों में टूटते हैं, विभिन्न स्तरों का निर्माण होता है, जहाँ शीर्ष स्तर पर हमारे पास जटिल ध्वनियाँ होती हैं, जो निचले स्तर पर सरल ध्वनियों से बनी होती हैं, और निचले स्तरों तक जाती हैं, और भी अधिक, हम अधिक बुनियादी और छोटी और सरल ध्वनियाँ बनाते हैं। निम्नतम स्तर पर, जहाँ ध्वनियाँ सबसे मौलिक हैं, मशीन सरल और अधिक संभाव्य नियमों की जाँच करेगी कि किस ध्वनि का प्रतिनिधित्व करना चाहिए। बार जब इन ध्वनियों को ऊपरी स्तर पर अधिक जटिल ध्वनियों में साथ रखा जाता है, तो अधिक नियतात्मक नियमों के नए सेट को भविष्यवाणी करनी चाहिए कि नई जटिल ध्वनि को क्या प्रदर्शित करना चाहिए। नियतात्मक नियम के सबसे ऊपरी स्तर को जटिल भावों के अर्थ का पता लगाना चाहिए। वाक् पहचान के बारे में अपने ज्ञान का विस्तार करने के लिए, हमें तंत्रिका नेटवर्क पर विचार करने की आवश्यकता है। तंत्रिका नेटवर्क दृष्टिकोण के चार चरण हैं:
 * उस भाषण को डिजिटाइज़ करें जिसे हम पहचानना चाहते हैं
 * भाषण के वर्णक्रमीय-डोमेन की गणना सुविधाएँ (फूरियर रूपांतरण के साथ);

फोर-स्टेप न्यूरल नेटवर्क एप्रोच का विश्लेषण आगे की जानकारी द्वारा समझाया जा सकता है। ध्वनि हवा (या किसी अन्य माध्यम) के कंपन से उत्पन्न होती है, जिसे हम कानों द्वारा रिकॉर्ड करते हैं, लेकिन रिसीवर द्वारा मशीनें। मूल ध्वनि तरंग बनाती है जिसके दो विवरण होते हैं: आयाम (यह कितना मजबूत है), और आवृत्ति (यह प्रति सेकंड कितनी बार कंपन करती है)। सटीकता की गणना शब्द त्रुटि दर (WER) की सहायता से की जा सकती है। शब्द त्रुटि दर की गणना गतिशील स्ट्रिंग संरेखण का उपयोग करके मान्यता प्राप्त शब्द और संदर्भित शब्द को संरेखित करके की जा सकती हैएनटी। मान्यता प्राप्त शब्द और संदर्भित शब्द की अनुक्रम लंबाई के बीच अंतर के कारण शब्द त्रुटि दर की गणना करते समय समस्या हो सकती है। होने देना एस प्रतिस्थापन की संख्या हो, D विलोपन की संख्या हो, मैं सम्मिलन की संख्या हो, N शब्द संदर्भों की संख्या हो। शब्द त्रुटि दर (WER) की गणना करने का सूत्र है डब्ल्यूईआर = (एस+डी+आई)÷एन शब्द पहचान दर (WRR) की गणना करते समय शब्द त्रुटि दर (WER) का उपयोग किया जाता है और सूत्र है WRR = 1- WER = (एन-एस-डी-आई)÷ एन = (एच-आई)÷एन यहाँ H सही ढंग से पहचाने जाने वाले शब्दों की संख्या है। एच = एन- (एस + डी)।

सुरक्षा चिंताएं
वाक् पहचान हमले, चोरी या आकस्मिक ऑपरेशन का साधन बन सकती है। उदाहरण के लिए, ऑडियो या वीडियो प्रसारण में बोले जाने वाले एलेक्सा जैसे सक्रियण शब्द घरों और कार्यालयों में उपकरणों को अनुचित विधि से इनपुट के लिए सुनना शुरू कर सकते हैं, या संभवतः अवांछित कार्रवाई कर सकते हैं। ध्वनि-नियंत्रित उपकरण भवन के आगंतुकों के लिए या भवन के बाहर के लोगों के लिए भी सुलभ हैं यदि उन्हें अंदर सुना जा सकता है। हमलावर व्यक्तिगत जानकारी, जैसे कैलेंडर, पता पुस्तिका सामग्री, निजी संदेश और दस्तावेजों तक पहुंच प्राप्त करने में सक्षम हो सकते हैं। वे संदेश भेजने या ऑनलाइन खरीदारी करने के लिए उपयोगकर्ता का प्रतिरूपण करने में भी सक्षम हो सकते हैं।

कृत्रिम ध्वनियों का उपयोग करने वाले दो हमलों का प्रदर्शन किया गया है। अल्ट्रासाउंड प्रसारित करता है और आस-पास के लोगों को नोटिस किए बिना कमांड भेजने का प्रयास करता है। दूसरा अन्य भाषण या संगीत के लिए छोटे, अश्रव्य विकृतियों को जोड़ता है जो विशेष रूप से विशिष्ट भाषण मान्यता प्रणाली को संगीत को भाषण के रूप में पहचानने में भ्रमित करने के लिए तैयार किए जाते हैं, या प्रणाली के लिए अलग कमांड की तरह मानव ध्वनि के लिए कमांड की तरह लगता है।

सम्मेलन और पत्रिकाएँ
हर साल या दो साल में आयोजित लोकप्रिय भाषण मान्यता सम्मेलनों में स्पीचटेक और स्पीचटेक यूरोप, ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन, इंटरस्पीच/यूरोस्पीच और आईईईई एएसआरयू सम्मलित हैं। कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन, कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय, EMNLP, और HLT जैसे प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में सम्मेलनों में भाषण प्रसंस्करण पर पेपर सम्मलित होने लगे हैं। महत्वपूर्ण पत्रिकाओं में भाषण और ऑडियो प्रसंस्करण पर आईईईई लेनदेन सम्मलित हैं (बाद में ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन का नाम बदल दिया गया और सितंबर 2014 से ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई / ACM लेनदेन का नाम बदल दिया गया - ACM प्रकाशन के साथ विलय के पश्चात), कंप्यूटर भाषण और भाषा, और भाषण संचार।

किताबें
लॉरेंस रैबिनर द्वारा लिखित बुनियादी ज्ञान की वाक् पहचान जैसी पुस्तकें बुनियादी ज्ञान प्राप्त करने के लिए उपयोगी हो सकती हैं लेकिन पूरी तरह से अद्यतित नहीं हो सकती हैं (1993)। अन्य अच्छा स्रोत हो सकता है फ्रेडरिक जेलिनेक द्वारा भाषण मान्यता के लिए सांख्यिकीय विधि और जुडोंग हुआंग द्वारा स्पोकन लैंग्वेज प्रोसेसिंग (2001), कंप्यूटर भाषण, मैनफ्रेड आर श्रोएडर द्वारा, 2004 में प्रकाशित दूसरा संस्करण, और भाषण प्रसंस्करण: गतिशील और अनुकूलन- ओरिएंटेड एप्रोच 2003 में ली डेंग और डौग ओ'शॉघनेसी द्वारा प्रकाशित। डेनियल जुराफस्की और मार्टिन द्वारा अद्यतन पाठ्यपुस्तक भाषण और भाषा प्रसंस्करण (2008) एएसआर के लिए मूल बातें और कला की स्थिति प्रस्तुत करती है। स्पीकर की पहचान भी उन्हीं विशेषताओं का उपयोग करती है, जिनमें से अधिकांश समान फ्रंट-एंड प्रोसेसिंग और वर्गीकरण तकनीकों का उपयोग करती हैं जैसा कि भाषण मान्यता में किया जाता है। व्यापक पाठ्यपुस्तक, स्पीकर रिकॉग्निशन के फंडामेंटल्स सिद्धांत और व्यवहार पर अद्यतन विवरण के लिए गहन स्रोत है। सर्वोत्तम आधुनिक प्रणालियों में उपयोग की जाने वाली तकनीकों में अच्छी अंतर्दृष्टि सरकारी प्रायोजित मूल्यांकनों पर ध्यान देकर प्राप्त की जा सकती है जैसे कि डारपा द्वारा आयोजित (2007 तक चलने वाली सबसे बड़ी वाक् पहचान-संबंधित परियोजना गेल परियोजना है, जिसमें वाक् पहचान दोनों सम्मलित हैं) और अनुवाद घटक)।

वाक् पहचान प्रौद्योगिकी और इसके इतिहास का अच्छा और सुलभ परिचय सामान्य दर्शकों की पुस्तक द वॉयस इन द मशीन द्वारा प्रदान किया गया है। बिल्डिंग कंप्यूटर्स दैट अंडरस्टैंडिंग स्पीच रॉबर्ट पिएरासिनी (2012) द्वारा।

वाक् पहचान पर सबसे हालिया किताब है स्वचालित स्पीच रिकॉग्निशन: ए डीप लर्निंग एप्रोच (प्रकाशक: स्प्रिंगर) जो माइक्रोसॉफ्ट के शोधकर्ताओं डी। यू और एल। डीएनएन और संबंधित गहन शिक्षण विधियों के आधार पर आधुनिक वाक् पहचान प्रणालियों में विधियों को व्युत्पन्न और कार्यान्वित किया जाता है। संबंधित पुस्तक, जो पहले 2014 में प्रकाशित हुई थी, डीप लर्निंग: मेथड्स एंड एप्लीकेशन बाय एल. डेंग और डी. यू 2009-2014 के समय डीएनएन-आधारित वाक् पहचान का कम तकनीकी लेकिन अधिक कार्यप्रणाली-केंद्रित अवलोकन प्रदान करती है, जिसे अधिक सामान्य संदर्भ में रखा गया है। न केवल भाषण मान्यता बल्कि छवि पहचान, प्राकृतिक भाषा प्रसंस्करण, सूचना पुनर्प्राप्ति, मल्टीमॉडल प्रसंस्करण और मल्टीटास्क सीखने सहित गहन शिक्षण अनुप्रयोगों की।

सॉफ्टवेयर
स्वतंत्र रूप से उपलब्ध संसाधनों के संदर्भ में, कार्नेगी मेलन विश्वविद्यालय का सीएमयू स्फिंक्स टूलकिट वाक् पहचान के बारे में सीखने और प्रयोग शुरू करने के लिए जगह है। अन्य संसाधन (मुफ्त लेकिन कॉपीराइट) एचटीके (सॉफ्टवेयर) किताब (और साथ में एचटीके टूलकिट) है। अधिक नवीनतम और अत्याधुनिक तकनीकों के लिए, कलदी (सॉफ्टवेयर) टूलकिट का उपयोग किया जा सकता है। 2017 में mozilla ने आम ध्वनि नामक ओपन सोर्स प्रोजेक्ट लॉन्च किया ध्वनिों के बड़े डेटाबेस को इकट्ठा करने के लिए जो मुफ्त वाक् पहचान परियोजना डीप स्पीच (GitHub पर मुफ्त उपलब्ध) बनाने में मदद करेगा, गूगल के ओपन सोर्स प्लेटफॉर्म TensorFlow का उपयोग करना। जब मोज़िला ने 2020 में परियोजना से फंडिंग को पुनर्निर्देशित किया, तो इसे इसके मूल डेवलपर्स द्वारा Coqui STT के रूप में फोर्क किया गया था। उसी ओपन-सोर्स लाइसेंस का उपयोग करना। व्यावसायिक क्लाउड आधारित वाक् पहचान API मोटे तौर पर उपलब्ध हैं।

अधिक सॉफ़्टवेयर संसाधनों के लिए, वाक् पहचान सॉफ़्टवेयर की सूची देखें।

यह भी देखें

 * एआई प्रभाव
 * अल्पाक
 * कृत्रिम बुद्धिमत्ता के अनुप्रयोग
 * कलात्मक भाषण मान्यता
 * ऑडियो खनन
 * ऑडियो-विजुअल भाषण मान्यता
 * स्वचालित भाषा अनुवादक
 * ऑटोमोटिव हेड यूनिट
 * कैश भाषा मॉडल
 * ड्रैगन नेचुरलीस्पीकिंग
 * प्रवाह आवाज प्रौद्योगिकी
 * गूगल वॉइस सर्च
 * आईबीएम वाया वॉयस
 * कीवर्ड स्पॉटिंग
 * किनेक्ट
 * मॉन्डग्रीन
 * मल्टीमीडिया सूचना पुनर्प्राप्ति
 * भाषण की उत्पत्ति
 * ध्वन्यात्मक खोज तकनीक
 * स्पीकर डायरीकरण
 * वक्ता पहचान
 * भाषण विश्लेषण
 * भाषण इंटरफ़ेस दिशानिर्देश
 * लिनक्स के लिए वाक् पहचान सॉफ्टवेयर
 * भाषा संकलन
 * भाषण सत्यापन
 * उपशीर्षक (कैप्शनिंग)
 * वायसएक्सएमएल
 * वोक्सफोर्ज
 * विंडोज वाक् पहचान
 * सूचियों
 * उभरती प्रौद्योगिकियों की सूची
 * कृत्रिम बुद्धि की रूपरेखा
 * भाषण और आवाज पहचान की समयरेखा

बाहरी कड़ियाँ

 * Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-free Text Entry, In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013