वाक् पहचान

भाषण मान्यता कंप्यूटर विज्ञान और कम्प्यूटरीकृत भाषाविज्ञान का वह अंतःविषय उपक्षेत्र है जो कार्यप्रणाली और प्रौद्योगिकियों को विकसित करता है तथा पाठ में खोज के मुख्य लाभ के साथ कंप्यूटर द्वारा पाठ में बोली जाने वाली भाषा की पहचान और अनुवाद को सक्षम बनाता है। इसे स्वचालित वाक् पहचान (ASR), कंप्यूटर वाक् पहचान या स्पीच टू पाठ्य खोज के रूप में भी जाना जाता है। यह कंप्यूटर विज्ञान, भाषाविज्ञान और कंप्यूटर अभियांत्रिकी क्षेत्रों में ज्ञान और अनुसंधान को सम्मलित करता है। व्युत्क्रम प्रक्रिया मुख्यतः भाषण संश्लेषण प्रक्रिया है।

कुछ भाषण पहचान प्रणालियों को प्रशिक्षण की आवश्यकता होती है (जिसे नामांकन भी कहा जाता है) जहां व्यक्तिगत वक्ता प्रणाली में पाठ या पृथक शब्दावली पढ़ता है। प्रणाली व्यक्ति की विशिष्ट ध्वनि का विश्लेषण करती है और इसका उपयोग उस व्यक्ति के भाषण की पहचान को ठीक करने के लिए करती है, जिसके परिणामस्वरूप सटीकता में वृद्धि होती है। प्रणाली जो प्रशिक्षण का उपयोग नहीं करती हैं उन्हें स्पीकर-स्वतंत्र कहा जाता है प्रणाली प्रशिक्षण का उपयोग करने वाली प्रणालियाँ वक्ता पर आश्रित होती हैं।

वाक् पहचान अनुप्रयोगों में वॉयस डायलिंग (जैसे घर पर कॉल करना), कॉल रूटिंग (जैसे मैं कलेक्ट कॉल करना चाहूंगा), डोमोटिक उपकरण नियंत्रण, खोज कुंजी शब्द (जैसे पॉडकास्ट खोजें जहां विशेष शब्द बोले गए थे) जैसे ध्वनि उपयोगकर्ता मंच सम्मलित हैं। सरल डेटा प्रविष्टि (जैसे, क्रेडिट कार्ड नंबर दर्ज करना), संरचित दस्तावेजों की तैयारी (जैसे रेडियोलॉजी रिपोर्ट), स्पीकर विशेषताओं का निर्धारण करना, स्पीच-टू-टेक्स्ट प्रोसेसिंग (जैसे, शब्द संसाधक या ईमेल), और सामान्यत प्रत्यक्ष ध्वनि इनपुट कहा जाता है।

शब्द ध्वनि पहचान  या वक्ता मान्यता   बोलने वाले की पहचान करने के लिए संदर्भित करता है, इसके अतिरिक्त वे क्या कह रहे हैं। वाक् पहचान प्रणाली में भाषण अनुवाद के कार्य को सरल बना सकता है जिसे किसी विशिष्ट व्यक्ति की ध्वनि पर प्रशिक्षित किया गया है या इसे सुरक्षा प्रक्रिया के हिस्से के रूप में प्रमाणीकरण या स्पीकर की पहचान को सत्यापित करने के लिए उपयोग किया जा सकता है।

प्रौद्योगिकी के दृष्टिकोण से, प्रमुख नवाचारों की कई लहरों के साथ वाक् पहचान का लंबा इतिहास है। हाल ही में, क्षेत्र को गहन शिक्षा और बड़े डेटा में प्रगति से लाभ हुआ है। प्रगति न केवल क्षेत्र में प्रकाशित अकादमिक पत्रों की वृद्धि से प्रमाणित होती है, बल्कि विश्वव्यापी उद्योग द्वारा वाक् पहचान प्रणाली को डिजाइन करने और नियुक्त करने में विभिन्न गहन शिक्षण विधियों को अपनाने से भी महत्वपूर्ण है।

इतिहास
विकास के प्रमुख क्षेत्र थे: शब्दावली का आकार, वक्ता की स्वतंत्रता और प्रसंस्करण की गति।

1970 से पहले

 * 1952 - बेल लैब्स के तीन शोधकर्ता, स्टीफ़न बालाशेक, आर. बिडुल्फ और के.एच. डेविस ने ऑड्रे नामक प्रणाली का निर्माण किया एकल वक्ता अंक पहचान के लिए। उनकी प्रणाली प्रत्येक उच्चारण के पावर स्पेक्ट्रम में फार्मेंट्स को स्थित करती है। 1960 - गुन्नार फंता ने भाषण उत्पादन के स्रोत-फ़िल्टर मॉडल को विकसित और प्रकाशित किया।
 * 1962 - आईबीएम ने 1962 के विश्व मेले में अपनी 16-शब्द वाली शोबॉक्स मशीन की वाक् पहचान क्षमता का प्रदर्शन किया।
 * 1966 - रैखिक भविष्य कहनेवाला कोडिंग (एलपीसी), भाषण कोडिंग विधि, पहली बार वाक् पहचान पर कार्य करते हुए नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (एनटीटी) के शुजो सैटो द्वारा प्रस्तावित की गई थी।
 * 1969 - बेल लैब्स में फंडिंग कई वर्षों तक रुकी रही, जब 1969 में, प्रभावशाली जॉन आर. पियर्स ने खुला पत्र लिखा, जो वाक् पहचान रिसर्च के लिए आलोचनात्मक और निराधार था। यह डिफंडिंग पियर्स और जेम्स एल के सेवानिवृत्त होने तथा फ्लानागन के पदभार संभालने तक चली।

संतुष्ट हिला 1960 के दशक के अंत में स्टैनफोर्ड विश्वविद्यालय में स्नातक छात्र के रूप में निरंतर भाषण मान्यता लेने वाले पहले व्यक्ति थे। पिछली प्रणालियों में उपयोगकर्ताओं को प्रत्येक शब्द के पश्चात रुकने की आवश्यकता होती थी। रेड्डीज प्रणाली ने शतरंज खेलने के लिए स्पोकन कमांड जारी किया।

इस समय के आसपास सोवियत शोधकर्ताओं ने गतिशील समय वारिंग (डीटीडब्ल्यू) एल्गोरिथम का आविष्कार किया और इसका उपयोग पहचानकर्ता बनाने के लिए किया जो 200-शब्द शब्दावली पर कार्य करने में सक्षम था। डीटीडब्ल्यू ने भाषण को छोटे फ्रेम में विभाजित करके संसाधित किया, उदाहरण के लिए 10 मिलीसेकेंड के भाग, और प्रत्येक फ्रेम को इकाई के रूप में संसाधित करना। चूंकि डीटीडब्ल्यू को बाद के एल्गोरिदम द्वारा हटा दिया जाएगा, तथा यह विधि जारी रही। इस समय की अवधि में स्पीकर स्वतंत्रता प्राप्त करना अनसुलझा रहा।

1970–1990

 * 1971 - 1,000 शब्दों के न्यूनतम शब्दावली आकार की मांग करने वाले वाक् पहचान अनुसंधान के लिए 'वाक् समझ अनुसंधान' के लिए डारपा ने पांच साल का वित्त पोषण किया। उन्होंने सोचा कि प्राकृतिक-भाषा की समझ या वाक् समझ वाणी मान्यता में प्रगति करने के लिए महत्वपूर्ण होगी, लेकिन यह बाद में असत्य सिद्ध हुई। बीबीएन प्रौद्योगिकीज, आईबीएम, कार्नेगी मेलॉन और स्टैनफोर्ड अनुसंधान संस्थान सभी ने कार्यक्रम में भाग लिया। जॉन पियर्स के पत्र के पश्चात इस वाक् पहचान अनुसंधान को पुनर्जीवित किया।

1960 के दशक के अंत में लियोनार्ड ई. बॉम ने रक्षा विश्लेषण संस्थान में मार्कोव श्रृंखलाओं का गणित विकसित किया। एक दशक पश्चात, सीएमयू में, राज रेड्डी के छात्रों जेम्स के. बेकर और जेनेट एम. बेकर ने वाक् पहचान के लिए हिडन मार्कोव मॉडल (एचएमएमएम) का उपयोग करना शुरू किया। जेम्स बेकर ने अपनी स्नातक शिक्षा के समय इंस्टीट्यूट ऑफ डिफेंस एनालिसिस में ग्रीष्मकालीन नौकरी से एचएमएम के बारे में सीखा था। एचएमएम के उपयोग ने शोधकर्ताओं को एकीकृत संभाव्य मॉडल में ध्वनिकी, भाषा और वाक्य रचना जैसे ज्ञान के विभिन्न स्रोतों को संयोजित करने की अनुमति दी।
 * 1972 - आईईईई ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग समूह ने न्यूटन, मैसाचुसेट्स में सम्मेलन आयोजित किया।
 * 1976 - पहला आईसीएएसएसपी फ़िलाडेल्फ़िया में आयोजित किया गया था, जो तब से वाक् पहचान पर शोध के प्रकाशन के लिए प्रमुख स्थान रहा है।


 * 1980 के दशक के मध्य तक आईबीएम के फ्रेडरिक जेलिनेक या फ्रेड जेलिनेक की टीम ने टैंगोरा नामक ध्वनि सक्रिय टाइपराइटर बनाया, जो 20,000 शब्दों की शब्दावली को संभाल सकता था जेलाइनेक के सांख्यिकीय दृष्टिकोण ने एचएमएम जैसी सांख्यिकीय मॉडलिंग विधिों का उपयोग करने के पक्ष में मानव मस्तिष्क की प्रक्रियाओं और भाषण को समझने के विधि का अनुकरण करने पर कम जोर दिया। (जेलाइनेक के समूह ने स्वतंत्र रूप से भाषण में एचएमएम के अनुप्रयोग की खोज की। ) यह भाषाविदों के साथ विवादास्पद था क्योंकि एचएमएम मानव भाषाओं की कई सामान्य विशेषताओं को ध्यान में रखते हुए बहुत सरल हैं। चूंकि, एचएमएम मॉडलिंग भाषण के लिए अत्यधिक उपयोगी तरीका सिद्ध हुआ और 1980 के दशक में प्रमुख भाषण मान्यता एल्गोरिदम बनने के लिए गतिशील समय परिवर्तन को बदल दिया।
 * 1982 - जेम्स और जेनेट एम. बेकर द्वारा स्थापित ड्रैगन प्रणाली, आईबीएम के कुछ प्रतियोगियों में से था।

व्यावहारिक वाक् पहचान
1980 के दशक में एन-ग्राम भाषा मॉडल का प्रारंभ भी हुआ। इस क्षेत्र में अधिकांश प्रगति कंप्यूटर की तेजी से बढ़ती क्षमताओं के कारण हुई है। 1976 में डारपा कार्यक्रम के अंत में, शोधकर्ताओं के लिए उपलब्ध सबसे अच्छा कंप्यूटर 4 एमबी रैम वाला पीडीपी-10 था। केवल 30 सेकंड के भाषण को डिकोड करने में 100 मिनट तक का समय लग सकता है। इसके दो व्यावहारिक उत्पाद थे:
 * 1987 - काट्ज़ का बैक-ऑफ़ मॉडल|बैक-ऑफ़ मॉडल ने भाषा मॉडल को कई लंबाई एन-ग्राम और सीएसईएलटी का उपयोग करने की अनुमति दी भाषाओं को पहचानने के लिए एचएमएम का उपयोग किया (सॉफ्टवेयर और हार्डवेयर विशेष प्रोसेसर, जैसे रिपएसी (माइक्रोप्रोसेसर) दोनों में)।
 * 1984 - 4096 शब्दों के समर्थन के साथ खुबानी पोर्टेबल जारी किया गया था, जिसमें से केवल 64 को समय में रैंडम एक्सेस मेमोरी में रखा जा सकता था।
 * 1987 - कुर्ज़वील एप्लाइड इंटेलिजेंस से पहचानकर्ता
 * 1990 - ड्रैगन डिक्टेट, 1990 में जारी उपभोक्ता उत्पाद एटी एंड टी ने मानव ऑपरेटर के उपयोग के बिना टेलीफोन कॉल को रूट करने के लिए 1992 में वाक् पहचान कॉल प्रोसेसिंग सेवा को नियुक्त किया। प्रौद्योगिकी को बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित किया गया था।

इस बिंदु तक, विशिष्ट व्यावसायिक वाक् पहचान प्रणाली की शब्दावली औसत मानव शब्दावली से बड़ी थी। राज रेड्डी के पूर्व छात्र, एक्स यूई हुआंग को समझता है ने सीएमयू स्फिंक्स|स्फिंक्स-II प्रणाली को सीएमयू में विकसित किया। स्फिंक्स-II प्रणाली स्पीकर-स्वतंत्र, बड़ी शब्दावली, निरंतर वाक् पहचान करने वाली पहली प्रणाली थी और इसका डारपा के 1992 के मूल्यांकन में सर्वश्रेष्ठ प्रदर्शन था। भाषण मान्यता के इतिहास में बड़ी शब्दावली के साथ निरंतर भाषण को संभालना प्रमुख मील का पत्थर था। हुआंग ने 1993 में विंडोज भाषण मान्यता की खोज की। राज रेड्डी के छात्र काई-फ यू ली एप्पल में सम्मलित हुए, जहां 1992 में, उन्होंने कैस्पर नामक एप्पल कंप्यूटर के लिए स्पीच इंटरफेस प्रोटोटाइप विकसित करने में सहायता की।

बेल्जियम स्थित वाक् पहचान कंपनी, लर्नआउट एंड हॉस्पी ने 1997 में कुर्ज़वील एप्लाइड इंटेलिजेंस और 2000 में ड्रैगन प्रणाली्स सहित कई अन्य कंपनियों का अधिग्रहण किया। एल एंड एच वाक् प्रौद्योगिकी का उपयोग विंडोज एक्सपी ऑपरेटिंग प्रणाली में किया गया था। 2001 में लेखा घोटाले के समाप्त होने तक एल एंड एच उद्योग अग्रणी था। एल एंड एच की वाक् प्रौद्योगिकी को स्कैनसॉफ्ट द्वारा खरीदा गया था जो 2005 में नौन्सी कम्यूनिकेशन तथा एप्पल इंक सहायक महोदय मै द्वारा बन गया।

2000s
2000 के दशक में डारपा ने दो भाषण मान्यता कार्यक्रम प्रायोजित किए: 2002 में प्रभावी वहनीय पुन: प्रयोज्य भाषण-से-पाठ (EARS) और डारपा वैश्विक स्वायत्त भाषा शोषण कार्यक्रम (गेल)। ईएआरएस कार्यक्रम में चार टीमों ने भाग लिया: आईबीएम, एलआईएमएसआई और पिट्सबर्ग विश्वविद्यालय के साथ बीबीएन प्रौद्योगिकीज के नेतृत्व वाली टीम। पिट्सबर्ग, कैम्ब्रिज विश्वविद्यालय, और अंतर्राष्ट्रीय कंप्यूटर विज्ञान संस्थान, स्टैनफोर्ड अनुसंधान संस्थान और वाशिंगटन विश्वविद्यालय से बनी टीम। ईएआरएस ने स्विचबोर्ड टेलीफोन भाषण कोष के संग्रह को वित्त पोषित किया जिसमें 500 से अधिक वक्ताओं से 260 घंटे की रिकॉर्ड की गई बातचीत सम्मलित थी। गेल कार्यक्रम आधुनिक मानक अरबी और मानक चीनी प्रसारण समाचार भाषण पर केंद्रित था। वाक् पहचान में गूगल का पहला प्रयास 2007 में Nuance के कुछ शोधकर्ताओं को कार्य पर रखने के पश्चात आया। पहला उत्पाद गूग-411 था, जो टेलीफोन आधारित निर्देशिका सेवा थी। गूग-411 की रिकॉर्डिंग से मूल्यवान डेटा प्राप्त हुआ जिससे गूगल को अपनी पहचान प्रणाली को उत्कृष्ट बनाने में सहायता मिली. गूगल वायस सर्च अब 30 से अधिक भाषाओं में समर्थित है।

संयुक्त राज्य अमेरिका में, राष्ट्रीय सुरक्षा एजेंसी ने कम से कम 2006 से कीवर्ड स्पॉटिंग के लिए प्रकार की वाक् पहचान का उपयोग किया है। यह विधि विश्लेषकों को बड़ी मात्रा में रिकॉर्ड की गई बातचीत के माध्यम से खोज करने और कीवर्ड के उल्लेखों को अलग करने की अनुमति देती है। रिकॉर्डिंग को अनुक्रमित किया जा सकता है और विश्लेषक रुचि की बातचीत खोजने के लिए डेटाबेस पर प्रश्न चला सकते हैं। कुछ सरकारी अनुसंधान कार्यक्रम भाषण मान्यता के खुफिया अनुप्रयोगों पर केंद्रित हैं, उदा। डारपा का ईएआरएस प्रोग्राम और आईआर्पा का बेबेल कार्यक्रम

2000 के दशक की प्रारंभ में, फीडफॉरवर्ड कृत्रिम तंत्रिका प्रसार के साथ संयुक्त छिपे हुए मार्कोव मॉडल जैसे पारंपरिक दृष्टिकोणों में वाक् पहचान का अभी भी वर्चस्व था।

चूंकि, आज, स्पीच रिकॉग्निशन के कई पहलुओं को लंबी अल्पकालिक स्मृति (एलएसटीएम) नामक गहन शिक्षण पद्धति द्वारा ले लिया गया है, जो 1997 में सेप होचराइटर और जुरगेन श्मिटुबर द्वारा प्रकाशित आवर्तक तंत्रिका नेटवर्क है। एलएसटीएम आरएनएन लुप्त होती ढाल की समस्या से बचते हैं और बहुत गहन शिक्षण कार्य सीख सकते हैं जिसके लिए हज़ारों असतत समय पहले घटित घटनाओं की यादों की आवश्यकता होती है, जो भाषण के लिए महत्वपूर्ण है।

2007 के आसपास, एलएसटीएम कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) द्वारा प्रशिक्षित किया गया कुछ अनुप्रयोगों में पारंपरिक वाक् पहचान को मात देना शुरू कर दिया है। 2015 में, गूगल की वाक् पहचान ने कथित तौर पर सीटीसी-प्रशिक्षित एलएसटीएम के माध्यम से 49% की नाटकीय प्रदर्शन छलांग का अनुभव किया, जो अब सभी स्मार्टफोन उपयोगकर्ताओं के लिए गूगल वायस के माध्यम से उपलब्ध है।

ध्वनिक मॉडल के लिए डीप फीडफॉर्वर्ड (गैर-आवर्तक) नेटवर्क का उपयोग 2009 के उत्तरार्ध में जेफ्री हिंटन और उनके छात्रों द्वारा टोरंटो विश्वविद्यालय और ली डेंग द्वारा शुरू किया गया था। और माइक्रोसॉफ्ट रिसर्च में सहयोगियों, प्रारंभ में माइक्रोसॉफ्ट और टोरंटो विश्वविद्यालय के बीच सहयोगी कार्य में जो बाद में आईबीएम और गूगल को सम्मलित करने के लिए विस्तारित किया गया था (इसलिए उनके 2012 समीक्षा पत्र में उपशीर्षक के चार शोध समूहों के साझा विचार)। माइक्रोसाफ्ट अनुसंधान कार्यकारी ने इस नवाचार को 1979 के पश्चात से सटीकता में सबसे नाटकीय परिवर्तन कहा। पिछले कुछ दशकों में लगातार वृद्धिशील सुधारों के विपरीत, गहन शिक्षण के प्रयोग से शब्द त्रुटि दर में 30% की कमी आई है। इस नवाचार को पूरे क्षेत्र में तेजी से अपनाया गया। शोधकर्ताओं ने भाषा मॉडलिंग के लिए भी गहन शिक्षण विधिों का उपयोग करना शुरू कर दिया है।

भाषण मान्यता के लंबे इतिहास में, 1980, 1990 के दशक और 2000 के दशक में कुछ वर्षों के समय कृत्रिम तंत्रिका नेटवर्क के उथले रूप और गहरे रूप (जैसे आवर्तक जाल) दोनों का पता लगाया गया था।

लेकिन इन विधियों ने गैर-समान आंतरिक-हैंडक्राफ्टिंग मिक्स्चर छिपा हुआ मार्कोव मॉडल (जीएमएम-एचएमएम) विधि पर कभी जीत प्राप्त नहीं की, जो भेदभावपूर्ण विधि से प्रशिक्षित भाषण के जनरेटिव मॉडल पर आधारित है। 1990 के दशक में कई प्रमुख कठिनाइयों का पद्धतिगत रूप से विश्लेषण किया गया था, जिसमें धीरे-धीरे ह्रासमान भी सम्मलित था और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना हैं। ये सभी कठिनाइयाँ इन प्रारंभिकी दिनों में बड़े प्रशिक्षण डेटा और बड़ी कंप्यूटिंग शक्ति की कमी के अतिरिक्त थीं। अधिकांश भाषण मान्यता शोधकर्ता जो इस तरह की बाधाओं को समझते थे, इसलिए पश्चात में 2009-2010 के आसपास शुरू होने वाली डीप लर्निंग के पुनरुत्थान तक जनरेटिव मॉडलिंग दृष्टिकोणों को आगे बढ़ाने के लिए तंत्रिका जाल से दूर चले गए, जिसने इन सभी कठिनाइयों को दूर कर दिया था। हिंटन एट अल और डेंग एट अल ने इस इतिहास के इस भाग की समीक्षा की कि कैसे दूसरे के साथ और फिर चार समूहों (टोरंटो विश्वविद्यालय, माइक्रोसॉफ्ट, गूगल और आईबीएम) के सहयोगियों के साथ उनके सहयोग ने वाक् पहचान के लिए गहरे फीडफॉरवर्ड न्यूरल नेटवर्क के अनुप्रयोगों के पुनर्जागरण को प्रज्वलित किया।

2010
2010 की प्रारंभ में वाक् पहचान, जिसे ध्वनि पहचान भी कहा जाता है  तक सीमित थी वक्ता की मान्यता से स्पष्ट रूप से अलग था, और वक्ता की स्वतंत्रता को बड़ी सफलता माना गया था। तब तक, प्रणाली को प्रशिक्षण अवधि की आवश्यकता होती है। 1987 में डॉल के विज्ञापन में टैगलाइन दी गई थी फाइनली, डॉल जो आपको समझती है। - इस तथ्य के अतिरिक्त कि यह वर्णन किया गया था कि कौन से बच्चे अपनी ध्वनि का जवाब देने के लिए प्रशिक्षित कर सकते हैं।

2017 में, माइक्रोसाफ्ट शोधकर्ता व्यापक रूप से बेंचमार्क किए गए स्विचबोर्ड कार्य पर संवादी टेलीफोनी भाषण को प्रसारित करने के ऐतिहासिक मानवीय समता मील के पत्थर पर पहुंच गए। भाषण पहचान सटीकता को अनुकूलित करने के लिए कई गहन शिक्षण मॉडल का उपयोग किया गया था। भाषण पहचान शब्द त्रुटि दर को ही बेंचमार्क पर साथ कार्य करने वाले 4 विशेषज्ञ मानव प्रतिलेखकों के रूप में कम बताया गया था, जिसे आईबीएम वाटसन भाषण टीम द्वारा ही कार्य पर वित्त पोषित किया गया था।

मॉडल, विधि और एल्गोरिदम
ध्वनिक मॉडलिंग और भाषा मॉडल दोनों ही आधुनिक सांख्यिकीय आधारित वाक् पहचान एल्गोरिदम के महत्वपूर्ण भाग हैं। छिपे हुए मार्कोव मॉडल (एचएमएम) कई प्रणालियों में व्यापक रूप से उपयोग किए जाते हैं। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे दस्तावेज़ वर्गीकरण या सांख्यिकीय मशीन अनुवाद में भी किया जाता है।

छिपे हुए मार्कोव मॉडल
आधुनिक सामान्य-उद्देश्य वाक् पहचान प्रणालियाँ छिपे हुए मार्कोव मॉडल पर आधारित हैं। ये सांख्यिकीय मॉडल हैं जो प्रतीकों या मात्राओं के अनुक्रम का उत्पादन करते हैं। एचएमएम का उपयोग वाक् पहचान में किया जाता है क्योंकि वाक् संकेत को टुकड़े-टुकड़े स्थिर संकेत या लघु-समय स्थिर संकेत के रूप में देखा जा सकता है। थोड़े समय के पैमाने में (उदाहरण के लिए, 10 मिलीसेकंड), भाषण को स्थिर प्रक्रिया के रूप में अनुमानित किया जा सकता है। भाषण को कई स्टोकेस्टिक उद्देश्यों के लिए मार्कोव मॉडल के रूप में माना जा सकता है।

एचएमएम के लोकप्रिय होने का और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटरीकृत रूप से व्यवहार्य हैं। वाक् पहचान में, छिपा हुआ मार्कोव मॉडल एन-डायमेंशनल रियल-वैल्यूड वैक्टर (एन के साथ छोटा पूर्णांक, जैसे 10) के अनुक्रम को आउटपुट करेगा, इनमें से प्रत्येक 10 मिलीसेकंड में से को आउटपुट करेगा। सदिशों में प्रभुत्व गुणांक सम्मलित होंगे, जो भाषण की छोटी समय की खिड़की के फूरियर रूपांतरण और कोसाइन परिवर्तन का उपयोग करके स्पेक्ट्रम को सजाने के द्वारा प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छिपे हुए मार्कोव मॉडल में प्रत्येक राज्य में सांख्यिकीय वितरण होता है जो विकर्ण सहप्रसरण गॉसियन का मिश्रण होता है, जो प्रत्येक मनाया वेक्टर के लिए संभावना देगा। प्रत्येक शब्द, या (अधिक सामान्य वाक् पहचान प्रणाली के लिए), प्रत्येक स्वनिम का अलग आउटपुट वितरण होगा; शब्दों या स्वरों के अनुक्रम के लिए छिपा हुआ मार्कोव मॉडल अलग-अलग शब्दों और स्वरों के लिए अलग-अलग प्रशिक्षित छिपे हुए मार्कोव मॉडल को जोड़कर बनाया गया है।

ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम-आधारित दृष्टिकोण के मूल तत्व हैं। ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को उत्कृष्ट बनाने के लिए आधुनिक वाक् पहचान प्रणालियाँ कई मानक विधिों के विभिन्न संयोजनों का उपयोग करती हैं। विशिष्ट बड़ी-शब्दावली प्रणाली को स्वरों के लिए संदर्भ निर्भरता की आवश्यकता होगी (इसलिए अलग-अलग बाएँ और दाएँ संदर्भ वाले स्वरों में एचएमएम स्थितियों के रूप में अलग-अलग महसूस होते हैं); यह अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्य करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे के स्पीकर सामान्यीकरण के लिए, यह पुरुष-महिला सामान्यीकरण के लिए वोकल ट्रैक्ट लेंथ नॉर्मलाइज़ेशन (वीटीएलएन) और अधिक सामान्य स्पीकर अनुकूलन के लिए अधिकतम संभावना रैखिक प्रतिगमन (एमएलएलआर) का उपयोग कर सकता है। भाषण की गतिशीलता को पकड़ने के लिए सुविधाओं में तथाकथित डेल्टा गुणांक और डेल्टा-डेल्टा गुणांक होंगे और इसके अतिरिक्त, विषमलैंगिक रैखिक विभेदक विश्लेषण (एचएलडीए) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांकों को छोड़ सकते हैं और स्प्लिसिंग (वाक् पहचान) और रैखिक विभेदक विश्लेषण-आधारित प्रक्षेपण का उपयोग कर सकते हैं, जिसके पश्चात विषमलैंगिक रैखिक विभेदक विश्लेषण या वैश्विक अर्ध-बंधे सह-प्रसरण परिवर्तन (जिसे अधिकतम संभावना रैखिक परिवर्तन के रूप में भी जाना जाता है) या एमएलएलटी)। कई प्रणालियाँ तथाकथित भेदभावपूर्ण प्रशिक्षण विधिों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए विशुद्ध रूप से सांख्यिकीय दृष्टिकोण से दूर होती हैं और इसके अतिरिक्त प्रशिक्षण डेटा के कुछ वर्गीकरण-संबंधित माप का अनुकूलन करती हैं। इसका मुख्य उदाहरण अधिकतम आपसी जानकारी (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई), और न्यूनतम फोन त्रुटि (एमपीई) हैं।

भाषण का डिकोडिंग (क्या होता है जब प्रणाली को नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे संभावित स्रोत वाक्य की गणना करनी चाहिए) शायद सबसे अच्छा रास्ता खोजने के लिए विटरबी एल्गोरिथ्म का उपयोग करेगा, और यहां गतिशील रूप से विकल्प बनाने के बीच विकल्प है संयोजन छिपा हुआ मार्कोव मॉडल, जिसमें ध्वनिक और भाषा दोनों मॉडल की जानकारी सम्मलित है और इसे पहले से स्थिर रूप से संयोजित करना (परिमित राज्य ट्रांसड्यूसर, या एफएसटी, दृष्टिकोण) सम्मलित हैं।

डिकोडिंग में संभावित सुधार सिर्फ सर्वश्रेष्ठ उम्मीदवार को रखने के अतिरिक्त अच्छे उम्मीदवारों का सेट रखना है, और इन अच्छे उम्मीदवारों को रेट करने के लिए उत्कृष्ट स्कोरिंग फ़ंक्शन (पुनः स्कोरिंग (एएसआर)) का उपयोग करना है जिससे कि हम अपने अनुसार सर्वश्रेष्ठ उम्मीदवार चुन सकें। यह परिष्कृत स्कोर। उम्मीदवारों के सेट को या तो सूची के रूप में रखा जा सकता है (एन-सर्वश्रेष्ठ सूची अनुमोदन) या मॉडलों के सबसेट के रूप में (एक जाली (क्रम)) उपयोग किया जाता हैं। री स्कोरिंग सामान्यतः बेयस जोखिम को कम करने का प्रयास करके किया जाता है (या इसका सन्निकटन): स्रोत वाक्य को अधिकतम संभाव्यता के साथ लेने के अतिरिक्त, हम उस वाक्य को लेने का प्रयास करते हैं जो किसी दिए गए नुकसान फ़ंक्शन की प्रत्याशा को सभी संभावित ट्रांसक्रिप्शन के संबंध में कम करता है (अर्ताथ, हम उस वाक्य को लेते हैं जो औसत दूरी को कम करता है जिसमें उनकी अनुमानित संभाव्यता द्वारा भारित अन्य संभावित वाक्यों के लिए उपयोगी हैं। इससे होने वाली हानि फंक्शन सामान्यतः लेवेनशेटिन दूरी है, चूंकि यह विशिष्ट कार्यों के लिए अलग-अलग दूरी हो सकती है; संभावित प्रतिलेखन का सेट, निश्चित रूप से, सुवाह्यता बनाए रखने के लिए छंटाई की जाती है। संपादित दूरी के साथ भारित परिमित राज्य ट्रांसड्यूसर के रूप में प्रस्तुत जालक (आदेश) को फिर से स्कोर करने के लिए कुशल एल्गोरिदम तैयार किए गए हैं, जो कुछ मान्यताओं की पुष्टि करने वाले परिमित राज्य ट्रांसड्यूसर के रूप में खुद का प्रतिनिधित्व करते हैं।

डायनामिक टाइम वार्पिंग (डीटीडब्ल्यू)-आधारित वाक् पहचान
डायनेमिक टाइम वारपिंग दृष्टिकोण है जो ऐतिहासिक रूप से वाक् पहचान के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण द्वारा विस्थापित कर दिया गया है।

डायनेमिक टाइम वारपिंग दो अनुक्रमों के बीच समानता को मापने के लिए एल्गोरिथ्म है जो समय या गति में भिन्न हो सकता है। उदाहरण के लिए, चलने के स्वरूप में समानता का पता लगाया जाएगा, भले ही वीडियो में व्यक्ति धीरे-धीरे चल रहा हो और यदि दूसरे वीडियो में वह अधिक तेज़ी से चल रहा हो, या भले ही अवलोकन के समय त्वरण और मंदी हो जाती हैं। डीटीडब्ल्यू को वीडियो, ऑडियो और ग्राफ़िक्स पर लागू किया गया है - वास्तव में, कोई भी डेटा जिसे रेखीय प्रतिनिधित्व में बदला जा सकता है, उसका विश्लेषण डीटीडब्ल्यू के साथ किया जा सकता है।

अलग-अलग बोलने की गति से निपटने के लिए प्रसिद्ध एप्लिकेशन स्वचालित वाक् पहचान है। सामान्यतः, यह ऐसी विधि है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (जैसे, समय श्रृंखला) के बीच इष्टतम मिलान खोजने की अनुमति देती है। यही है, दृश्यों को दूसरे से मेल खाने के लिए गैर-रैखिक रूप से विकृत किया जाता है। यह अनुक्रम संरेखण विधि अधिकांशतः छिपे हुए मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।

तंत्रिका नेटवर्क
1980 के दशक के अंत में एएसआर में तंत्रिका नेटवर्क आकर्षक ध्वनिक मॉडलिंग दृष्टिकोण के रूप में उभरा। तब से, भाषण मान्यता के कई पहलुओं में तंत्रिका नेटवर्क का उपयोग किया गया है जैसे कि ध्वनि वर्गीकरण, बहुउद्देश्यीय विकासवादी एल्गोरिदम के माध्यम से स्वनिम वर्गीकरण, दृश्य-श्रव्य भाषण पहचान, दृश्य-श्रव्य वक्ता पहचान और वक्ता अनुकूलन।

कृत्रिम तंत्रिका नेटवर्क एचएमएम की तुलना में फीचर सांख्यिकीय गुणों के बारे में कम स्पष्ट धारणाएं बनाते हैं और भाषण मान्यता के लिए उन्हें आकर्षक पहचान मॉडल बनाने वाले कई गुण हैं। जब भाषण सुविधा भाग की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तो तंत्रिका नेटवर्क स्वाभाविक और कुशल विधि से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। चूंकि, कम समय की इकाइयों जैसे अलग-अलग स्वरों और पृथक शब्दों को वर्गीकृत करने में उनकी प्रभावशीलता के अतिरिक्त प्रारंभिक तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल रहे थे क्योंकि अस्थायी निर्भरताओं को मॉडल करने की उनकी सीमित क्षमता थी।

इस सीमा के लिए दृष्टिकोण तंत्रिका नेटवर्क को पूर्व-प्रसंस्करण, सुविधा परिवर्तन या आयामी कमी के रूप में उपयोग करना था, एचएमएम आधारित मान्यता से पहले का चरण हैं। चूंकि, हाल ही में, एलएसटीएम और संबंधित आवर्तक तंत्रिका नेटवर्क (आरएनएनs) और समय विलंब तंत्रिका नेटवर्क (टीडीएनएन) इस क्षेत्र में उत्कृष्ट प्रदर्शन किया है।

डीप फीडफॉरवर्ड और रिकरंट न्यूरल नेटवर्क्स
डीप न्यूरल नेटवर्क और डीनोइज़िंग ऑटोएन्कोडर भी जांच के सीमा में हैं। डीप फीडफॉर्वर्ड न्यूरल नेटवर्क (डीएनएन) कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें होती हैं। उथले तंत्रिका नेटवर्क के समान, डीएनएन जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। डीएनएन आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं, जहाँ अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे बड़ी सीखने की क्षमता मिलती है और इस प्रकार भाषण डेटा के जटिल स्वरूप की मॉडलिंग की संभावना होती है।

शैक्षणिक शोधकर्ताओं के सहयोग से औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां डीएनएन की बड़ी आउटपुट परतें संदर्भ निर्भर एचएमएम स्थितियों के आधार पर निर्णय वृक्षों द्वारा निर्मित की गईं। अक्टूबर 2014 तक इस विकास और अत्याधुनिक स्थिति की व्यापक समीक्षा माइक्रोसाफ्ट अनुसंधान से हाल ही में स्प्रिंगर पुस्तक में देखें। स्वचालित भाषण पहचान की संबंधित पृष्ठभूमि और विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें, विशेष रूप से हाल के अवलोकन लेख इसमें डीप लर्निंग भी सम्मलित है।

गहन शिक्षण का मूलभूत सिद्धांत हाथ से तैयार की गई फीचर अभियांत्रिकी को खत्म करना और कच्ची सुविधाओं का उपयोग करना है। कच्चे स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर के आर्किटेक्चर में इस सिद्धांत को पहली बार सफलतापूर्वक खोजा गया था, मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। स्पीच, वेवफॉर्म्स की असली अपरिष्कृत विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर वाक् पहचान परिणामों का उत्पादन करने के लिए दिखाया गया है।

एंड-टू-एंड स्वचालित भाषण पहचान
2014 के पश्चात से, एंड-टू-एंड एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक ध्वन्यात्मक-आधारित (अर्ताथ, सभी छिपे हुए मार्कोव मॉडल-आधारित मॉडल) दृष्टिकोणों को उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटकों और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से वाक् पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है क्योंकि यह प्रशिक्षण प्रक्रिया और परिनियोजन प्रक्रिया को सरल करता है। उदाहरण के लिए, सभी एचएमएम-आधारित प्रणालियों के लिए एन-ग्राम या एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और विशिष्ट एन-ग्राम भाषा मॉडल अधिकांशतः स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर नियुक्त करना अव्यावहारिक हो जाता है। परिणामस्वरूप, गूगल और एप्पल इंक के आधुनिक वाणिज्यिक एएसआर प्रणाली क्लाउड पर नियुक्त हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।

एंड-टू-एंड एएसआर का पहला प्रयास 2014 में डीपमाइंड के एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और टोरंटो विश्वविद्यालय के नवदीप जेटली द्वारा पेश किए गए संबंधवादी लौकिक वर्गीकरण (सीटीसी) आधारित प्रणाली के साथ था। मॉडल में आवर्तक तंत्रिका नेटवर्क और सीटीसी परत सम्मलित थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल उच्चारण और ध्वनिक मॉडल को साथ सीखता है, चूंकि यह एचएमएम के समान सशर्त स्वतंत्रता धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी वर्णों के लिए भाषण ध्वनिकी को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी की गलतियाँ करते हैं और प्रतिलेख को साफ करने के लिए अलग भाषा मॉडल पर भरोसा करना चाहिए। पश्चात में, बायडू ने अत्यधिक बड़े डेटासेट के साथ कार्य पर विस्तार किया और चीनी मेंडारिन और अंग्रेजी में कुछ व्यावसायिक सफलता प्रदर्शित की। 2016 में, ऑक्सफोर्ड विश्वविद्यालय ने लिपनेट प्रस्तुत किया, आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैटियोटेम्पोरल कनवल्शन का उपयोग करते हुए पहला एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग मॉडल, प्रतिबंधित व्याकरण डेटासेट में मानव-स्तर के प्रदर्शन को पार करता है। दीपमाइंड द्वारा 2018 में बड़े पैमाने पर सीएनएन-आरएनएन-सीटीसी आर्किटेक्चर प्रस्तुत किया गया था, जिसने मानव विशेषज्ञों की तुलना में 6 गुना उत्कृष्ट प्रदर्शन प्राप्त किया।

सीटीसी-आधारित मॉडलों के लिए वैकल्पिक दृष्टिकोण ध्यान-आधारित मॉडल हैं। चान एट अल द्वारा ध्यान-आधारित एएसआर मॉडल साथ पेश किए गए थे। कार्नेगी मेलन विश्वविद्यालय और गूगल ब्रेन और बहदानौ एट अल। 2016 में यूनिवर्सिटी डी मॉन्ट्रियल। लिसन, अटेंड एंड स्पेल (एलएएस) नाम का मॉडल, शाब्दिक रूप से ध्वनिक संकेत को सुनता है, संकेत के विभिन्न भागों पर ध्यान देता है और समय में वर्ण को प्रतिलेखित करता है। सीटीसी-आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता की धारणा नहीं होती है और उच्चारण, ध्वनिक और भाषा मॉडल सहित वाक् पहचानकर्ता के सभी घटकों को सीधे सीख सकते हैं। इसका मतलब है, परिनियोजन के समय, सीमित स्मृति वाले अनुप्रयोगों के लिए इसे बहुत व्यावहारिक बनाने के लिए भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडलों ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या उसके बिना) से अच्छे प्रदर्शन सहित अच्छी सफलता देखी है। मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन यूनिवर्सिटी, मेसाचुसेट्स प्रौद्योगिक संस्थान और गूगल ब्रेन द्वारा अव्यक्त अनुक्रम अपघटन (एलएसडी) का प्रस्ताव सीधे उप-शब्द इकाइयों को उत्सर्जित करने के लिए किया गया था जो अंग्रेजी वर्णों की तुलना में अधिक स्वाभाविक हैं; ऑक्सफोर्ड विश्वविद्यालय और डीपमाइंड ने एलएएस को मानव-स्तर के प्रदर्शन को पार करते हुए लिप रीडिंग को संभालने के लिए एलएएस को वॉच, लिसन, अटेंड और स्पेल (डबल्यूएलएएस) तक बढ़ाया।

इन-कार प्रणाली
सामान्यतः मैनुअल कंट्रोल इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर फिंगर कंट्रोल के माध्यम से, वाक् पहचान प्रणाली को सक्षम करता है और यह ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के पश्चात, प्रणाली में सुनने की खिड़की होती है जिसके समय यह पहचान के लिए भाषण इनपुट स्वीकार कर सकता है। फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या संगत स्मार्टफोन, एमपी3 प्लेयर या म्यूजिक-लोडेड फ्लैश ड्राइव से संगीत चलाने के लिए सरल वॉयस कमांड का उपयोग किया जा सकता है। कार बनाने और मॉडल के बीच ध्वनि पहचानने की क्षमता अलग-अलग होती है। कुछ सबसे हाल के कार मॉडल कमांड के निश्चित सेट के स्थान पर प्राकृतिक-भाषा वाक् पहचान प्रदान करते हैं, जिससे ड्राइवर को पूर्ण वाक्यों और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इस तरह की प्रणालियों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के सेट को याद रखने की कोई आवश्यकता नहीं है।

चिकित्सा दस्तावेज
स्वास्थ्य देखभाल क्षेत्र में, वाक् पहचान चिकित्सा प्रलेखन प्रक्रिया के फ्रंट-एंड या बैक-एंड में लागू की जा सकती है। फ्रंट-एंड वाक् पहचान वह जगह है जहां प्रदाता वाक् पहचान इंजन में डिक्टेट करता है, पहचाने गए शब्दों को बोले जाने पर प्रदर्शित किया जाता है, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए जिम्मेदार होता है। बैक-एंड या डिफर्ड वाक् पहचान वह जगह है जहां प्रदाता डिजिटल श्रुतलेख प्रणाली में डिक्टेट करता है, वॉयस को वाक् पहचान मशीन के माध्यम से रूट किया जाता है और मान्यता प्राप्त ड्राफ्ट डॉक्यूमेंट को मूल वॉयस फाइल के साथ एडिटर तक पहुंचाया जाता है, जहां ड्राफ्ट को एडिट किया जाता है। और रिपोर्ट को अंतिम रूप दिया। आस्थगित भाषण मान्यता वर्तमान में उद्योग में व्यापक रूप से उपयोग की जाती है।

स्वास्थ्य सेवा में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से यह है कि 2009 का अमेरिकी रिकवरी और पुनर्निवेश अधिनियम (2009 का अमेरिकी पुनर्प्राप्ति और पुनर्निवेश अधिनियम) सार्थक उपयोग मानकों के अनुसार ईएमआर का उपयोग करने वाले चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है। इन मानकों के लिए आवश्यक है कि ईएमआर द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब इसे सामान्यतः इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड या ईएचआर के रूप में संदर्भित किया जाता है)। भाषण मान्यता का उपयोग रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के भाग के रूप में कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से अनुकूल है: संरचित असतत डेटा (जैसे, संख्यात्मक मान या कोड) दर्ज करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ सूची या नियंत्रित शब्दावली से) उन लोगों के लिए अपेक्षाकृत न्यूनतम हैं जिन्हें देखा जा सकता है और जो कीबोर्ड और माउस को संचालित कर सकते हैं।

एक अधिक महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को स्पष्ट रूप से ध्वनि-पहचान क्षमताओं का लाभ उठाने के लिए तैयार नहीं किया गया है। ईएचआर के साथ चिकित्सक की बातचीत के बड़े हिस्से में मेनू, और टैब/बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन सम्मलित है, और कीबोर्ड और माउस पर बहुत अधिक निर्भर है: ध्वनि-आधारित नेविगेशन केवल साधारण एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी डिक्टेशन के लिए कई अत्यधिक अनुकूलित प्रणालियाँ वॉयस मैक्रोज़ को लागू करती हैं, जहाँ कुछ वाक्यांशों का उपयोग - उदाहरण के लिए, सामान्य रिपोर्ट, स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भर देगी और/या बॉयलरप्लेट उत्पन्न करेगी, जो प्रकार के साथ भिन्न होगी परीक्षा का - उदाहरण के लिए, रेडियोलॉजी प्रणाली के लिए छाती का एक्स-रे बनाम गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला का उदाहरण हैं।

चिकित्सीय उपयोग
वर्ड प्रोसेसर के साथ संयोजन के रूप में वाक् पहचान सॉफ़्टवेयर के लंबे समय तक उपयोग ने मस्तिष्क एवीएम रोगियों में अल्पावधि-स्मृति पुनर्संरचना के लिए लाभ दिखाया है, जिनका उपचार लकीर (सर्जरी) के साथ किया गया है। जिन व्यक्तियों के एवीएम का उपचार रेडियोलॉजिकल विधिों का उपयोग करके किया गया है, उनके लिए संज्ञानात्मक लाभों का निर्धारण करने के लिए और अनुसंधान किए जाने की आवश्यकता है।

उच्च प्रदर्शन लड़ाकू विमान
लड़ाकू विमानों में वाक् पहचान के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयास किए गए हैं। जनरल डायनेमिक्स एफ-16 फाइटिंग फाल्कन वेरिएंट प्रौद्योगिकी प्रदर्शनकारियों, और टेस्ट संस्करण फ्लाइट कंट्रोल संस्करण F-16 एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन या एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन (आफ्टी)/एफ -16 विमान (एफ-16 विस्टा), फ्रांस में मिराज (विमान) विमान के लिए कार्यक्रम, और ब्रिटेन में विभिन्न प्रकार के विमान प्लेटफार्मों से निपटने वाले अन्य कार्यक्रम को उपयोग किया जाता है इन कार्यक्रमों में, रेडियो फ्रीक्वेंसी सेट करने, ऑटोपायलट प्रणाली को कमांड करने, स्टीयर-पॉइंट निर्देशांक सेट करने और हथियार रिलीज पैरामीटर, और उड़ान प्रदर्शन को नियंत्रित करने सहित अनुप्रयोगों के साथ, लड़ाकू विमानों में भाषण पहचानकर्ताओं को सफलतापूर्वक संचालित किया गया है।

जेएएस 39 ग्रिपेन मिलेगा या जेएएस-39 ग्रिपेन कॉकपिट, इंग्लैंड (2004) में उड़ान भरने वाले स्वीडिश पायलटों के साथ कार्य करते हुए पाया गया कि बढ़ती जी बल या जी-लोड के साथ मान्यता बिगड़ गई। रिपोर्ट ने यह भी निष्कर्ष निकाला कि अनुकूलन ने सभी स्थितियों में परिणामों में बहुत सुधार किया और यह कि सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में अधिकसुधार करने के लिए दिखाया गया। अपेक्षाकृत के विपरीत, बोलने वालों की टूटी-फूटी अंग्रेजी का कोई प्रभाव नहीं पाया गया। यह स्पष्ट था कि सहज भाषण पहचानकर्ता के लिए समस्याएँ पैदा करता है, जैसा कि उम्मीद की जा सकती थी। प्रतिबंधित शब्दावली, और सबसे बढ़कर, उचित सिंटैक्स, इस प्रकार मान्यता सटीकता में अधिकसुधार की उम्मीद की जा सकती है। यूरोफाइटर टाइफून, वर्तमान में यूके आरएएफ के साथ सेवा में है, स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसके लिए प्रत्येक पायलट को टेम्पलेट बनाने की आवश्यकता होती है। प्रणाली का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों के लिए नहीं किया जाता है, जैसे कि हथियार छोड़ना या हवाई जहाज़ के पहिये को कम करना, लेकिन अन्य कॉकपिट कार्यों की विस्तृत श्रृंखला के लिए उपयोग किया जाता है। वॉयस कमांड की पुष्टि दृश्य और/या श्रव्य प्रतिक्रिया द्वारा की जाती है। पायलट कार्यभार को कम करने में प्रणाली को प्रमुख डिजाइन सुविधा के रूप में देखा जाता है, और यहां तक ​​​​कि पायलट को अपने विमान को दो सरल वॉयस कमांड या अपने किसी भी विंगमैन को केवल पांच कमांड के साथ लक्ष्य निर्धारित करने की अनुमति देता है।

स्पीकर-इंडिपेंडेंट प्रणाली भी विकसित किए जा रहे हैं और लॉकहीड मार्टिन F-35 लाइटनिंग II (जेएसएफ) और अलीनिया एरमच्छी एम-346 मास्टर लीड-इन फाइटर ट्रेनर के लिए परीक्षण के अधीन हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता अवमूलन का उत्पादन किया है।

हेलीकॉप्टर
तनाव और शोर के अनुसार उच्च पहचान सटीकता प्राप्त करने की समस्या विशेष रूप से हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण में भी प्रासंगिक है। हेलीकॉप्टर वातावरण में ध्वनिक शोर की समस्या वास्तव में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि इसलिए भी कि हेलीकॉप्टर पायलट, सामान्य रूप से लड़ाकू पायलट हेलमेट नहीं पहनता है, जिससे माइक्रोफ़ोन में ध्वनिक शोर कम हो जाता है। पिछले दशक में हेलीकाप्टरों में वाक् पहचान प्रणाली अनुप्रयोगों में पर्याप्त परीक्षण और मूल्यांकन कार्यक्रम किए गए हैं, विशेष रूप से यू.एस. आर्मी एवियोनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (एवराडा) और यूके में रॉयल एयरोस्पेस एस्टैब्लिशमेंट (शाही विमान प्रतिष्ठान) द्वारा फ़्रांस में कार्य में प्यूमा हेलीकाप्टर में वाक् पहचान सम्मलित है। कनाडा में भी बहुत उपयोगी कार्य हुए हैं। परिणाम उत्साहजनक रहे हैं, और ध्वनि अनुप्रयोगों में सम्मलित हैं: संचार रेडियो का नियंत्रण, पथ प्रदर्शन प्रणाली की स्थापना, और स्वचालित लक्ष्य के हस्तांतरण की प्रणाली का नियंत्रण किया जाता हैं।

लड़ाकू अनुप्रयोगों के रूप में, हेलीकाप्टरों में ध्वनि के लिए प्रमुख मुद्दा पायलट प्रभावशीलता पर प्रभाव है। एवराडा परीक्षणों के लिए उत्साहजनक परिणाम रिपोर्ट किए गए हैं, चूंकि ये परीक्षण वातावरण में केवल व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। परिचालन सेटिंग्स में लगातार प्रदर्शन सुधार प्राप्त करने के लिए वाक् पहचान और समग्र वाक् प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।

प्रशिक्षण हवाई यातायात नियंत्रकों
वायु यातायात नियंत्रकों (एटीसी) के लिए प्रशिक्षण भाषण पहचान प्रणाली के लिए उत्कृष्ट अनुप्रयोग का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ ध्वनि संवाद में सम्मलित होता है, जो संवाद को अनुकरण करता है कि नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ आचरण करना होगा। भाषण पहचान और भाषण संश्लेषण विधि व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और सहायक कर्मियों को कम करती है। सिद्धांत रूप में, वायु नियंत्रक कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी वर्णित किया जाता है, इसलिए वाक् पहचान कार्य की कठिनाई को कम करना संभव होना चाहिए। व्यवहार में, ऐसा कम ही होता है। एफएए दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। जबकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिम्युलेशन विक्रेताओं में से भाषण पहचान प्रणाली द्वारा समर्थित वाक्यांशों की संख्या 500,000 से अधिक है।

यूएसएएफ, यूएसएमसी, यूएस आर्मी, यूएस नेवी और एफएए के साथ-साथ कई अंतरराष्ट्रीय एटीसी प्रशिक्षण संगठन जैसे कि रॉयल ऑस्ट्रेलियाई वायु सेना और इटली, ब्राजील और कनाडा में नागरिक उड्डयन प्राधिकरण वर्तमान में एटीसी सिमुलेटर का उपयोग वाक् पहचान के साथ कर रहे हैं। इसके कई अलग-अलग विक्रेता हैं।

टेलीफ़ोनी और अन्य डोमेन
एएसआर अब टेलीफोनी के क्षेत्र में आम हो गया है और कंप्यूटर गेमिंग और सिमुलेशन के क्षेत्र में अधिक व्यापक होता जा रहा है। टेलीफोनी प्रणालियों में, एएसआर अब आईवीआर प्रणालियों के साथ एकीकृत करके मुख्य रूप से संपर्क केंद्रों में उपयोग किया जा रहा है। दस्तावेज़ उत्पादन के क्षेत्र में सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के अतिरिक्त, एएसआर ने उपयोग में अपेक्षित वृद्धि नहीं देखी है।

मोबाइल प्रोसेसर की गति में सुधार ने स्मार्टफोन में वाक् पहचान को व्यावहारिक बना दिया है। पूर्वनिर्धारित या कस्टम स्पीच कमांड बनाने के लिए स्पीच का उपयोग अधिकतम यूजर इंटरफेस के भाग के रूप में किया जाता है।

शिक्षा और दैनिक जीवन में उपयोग
भाषा सीखने के लिए, वाक् पहचान दूसरी भाषा सीखने के लिए उपयोगी हो सकती है। यह किसी व्यक्ति को उनके बोलने के कौशल के साथ प्रवाह विकसित करने में सहायता करने के अतिरिक्त, उचित उच्चारण सिखा सकता है। जो छात्र अंधे हैं (दृष्टिहीनता और शिक्षा देखें) या बहुत कम दृष्टि वाले शब्दों को संप्रेषित करने के लिए प्रौद्योगिकी का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को उन्हें सुनाते हुए सुन सकते हैं, साथ ही अपनी ध्वनि के साथ कमांड करके देखने के अतिरिक्त स्क्रीन और कीबोर्ड का कंप्यूटर में उपयोग कर सकते हैं।

जो छात्र शारीरिक रूप से अक्षम हैं, जिन्हें दोहरावदार तनाव की चोट/ऊपरी अंगों में अन्य चोटें हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके लिखावट, टाइपिंग, या स्कूल असाइनमेंट पर मुंशी के साथ कार्य करने की चिंता से मुक्त किया जा सकता है। वे माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करने का आनंद लेने के लिए वाक् पहचान विधि का भी उपयोग कर सकते हैं।

भाषण मान्यता सीखने की अक्षमता वाले छात्रों को उत्कृष्ट लेखक बनने की अनुमति दे सकती है। शब्दों को जोर से बोलकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को दूर कर सकते हैं। इसके लिए सीखने की अक्षमता भी देखें।

डिजिटल ऑडियो रिकॉर्डर और व्यक्तिगत कंप्यूटर चलाने वाले वर्ड-प्रोसेसिंग सॉफ़्टवेयर के संयोजन के साथ ध्वनि पहचान सॉफ़्टवेयर का उपयोग स्ट्रोक और क्रैनियोटॉमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म मेमोरी क्षमता को निकालने के लिए धनात्मक सिद्ध हुआ है।

विकलांग लोग
विकलांग लोग वाक् पहचान कार्यक्रमों से लाभान्वित हो सकते हैं। ऐसे व्यक्तियों के लिए जो बधिर हैं या सुनने में मुश्किल हैं, वाक् पहचान सॉफ़्टवेयर का उपयोग स्वचालित रूप से वार्तालापों का बंद-शीर्षक उत्पन्न करने के लिए किया जाता है जैसे सम्मेलन कक्ष, कक्षा व्याख्यान, और/या धार्मिक सेवाओं में चर्चा। वाक् पहचान उन लोगों के लिए भी बहुत उपयोगी है, जिन्हें अपने हाथों का उपयोग करने में कठिनाई होती है, हल्के दोहराव वाले तनाव की चोटों से लेकर ऐसी अक्षमताएं सम्मलित हैं जो पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। वास्तव में, जिन लोगों ने कीबोर्ड का बहुत उपयोग किया और दोहरावदार तनाव की चोट विकसित की, वे वाक् पहचान के लिए तत्काल प्रारंभिक बाजार बन गए। वाक् पहचान का उपयोग बधिर टेलीफोनी में किया जाता है, जैसे कि ध्वनि मेल से पाठ, रिले सेवाएं और दूरसंचार रिले सेवा कैप्शन वाला टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिन्हें विचार-टू-पेपर संचार में समस्या है (अनिवार्य रूप से वे विचार के बारे में सोचते हैं लेकिन इसे गलत विधि से संसाधित किया जाता है जिससे यह कागज पर अलग तरह से समाप्त हो जाता है) संभवतः सॉफ्टवेयर से लाभान्वित हो सकते हैं लेकिन विधि बग प्रूफ नहीं है। इसके अतिरिक्त पाठ से बात करने का पूरा विचार बौद्धिक रूप से अक्षम व्यक्ति के लिए कठिन हो सकता है क्योंकि ऐसा बहुत कम होता है कि कोई विकलांग व्यक्ति को पढ़ाने के लिए विधि सीखने का प्रयास करता है। इस प्रकार की विधि डिस्लेक्सिया वाले लोगों की सहायता कर सकती है लेकिन अन्य विकलांग अभी भी सवालों के घेरे में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने से रोक रही है। चूंकि बच्चा शब्द कहने में सक्षम हो सकता है, यह इस बात पर निर्भर करता है कि वे इसे कितना स्पष्ट कहते हैं, विधि सोच सकती है कि वे और शब्द कह रहे हैं और गलत इनपुट कर सकते हैं। उन्हें ठीक करने के लिए और अधिक कार्य देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगना पड़ता है।

आगे के आवेदन

 * एयरोस्पेस (उदाहरण के लिए अंतरिक्ष अन्वेषण, अंतरिक्ष यान, आदि) नासा के मंगल ध्रुवीय लैंडर ने लैंडर पर मंगल माइक्रोफोन में संवेदी, इंक. से वाक् पहचान विधि का उपयोग किया
 * वाक् पहचान के साथ स्वचालित समान भाषा उपशीर्षक
 * स्वचालित भावना पहचान
 * स्वचालित शॉट (फिल्म निर्माण) ऑडियोविजुअल प्रोडक्शन में लिस्टिंग
 * स्वचालित अनुवाद
 * न्यायालय रिपोर्टिंग (वास्तविक समय भाषण लेखन)
 * ई खोज (कानूनी खोज)
 * हाथों से मुक्त कंप्यूटिंग: वाक् पहचान कंप्यूटर प्रयोक्ता इंटरफ़ेस
 * घर स्वचालन
 * इंटरएक्टिव वॉयस रिस्पांस
 * मोबाइल टेलीफोनी, मोबाइल ईमेल सहित
 * मल्टीमॉडल इंटरेक्शन *कंप्यूटर-सहायता प्राप्त भाषा सीखने के अनुप्रयोगों में उच्चारण मूल्यांकन
 * रियल टाइम अनुशीर्षक
 * रोबोटिक्स
 * बहु-कारक प्रमाणीकरण के लिए अन्य बायोमेट्रिक स्कैनर के साथ उपयोग सहित सुरक्षा
 * भाषण से पाठ (पाठ में भाषण का प्रतिलेखन, वास्तविक समय वीडियो कैप्शनिंग, कोर्ट रिपोर्टिंग)
 * टेलीमैटिक्स (जैसे वाहन नेविगेशन प्रणाली)
 * प्रतिलेखन (भाषाविज्ञान) (डिजिटल भाषण-से-पाठ)
 * कार्य के उदाहरण के रूप में टॉम क्लेन्सी के एंडवार और लाइफलाइन (वीडियो गेम) के साथ वीडियो गेम
 * आभासी सहायक (आर्टिफिशियल इंटेलिजेंस) (उदाहरण के लिए एप्पल सिरी)

प्रदर्शन
वाक् पहचान प्रणाली के प्रदर्शन का मूल्यांकन सामान्यतः सटीकता और गति के संदर्भ में किया जाता है। सटीकता को सामान्यतः शब्द त्रुटि दर (डब्ल्यूआर) के साथ आंका जाता है, जबकि गति को वास्तविक समय कारक के साथ मापा जाता है। सटीकता के अन्य उपायों में एकल शब्द त्रुटि दर (एसडब्ल्यूईआर) और कमान सफलता दर (सीएसआर) सम्मलित हैं।

चूंकि, मशीन द्वारा वाक् पहचान बहुत ही जटिल समस्या है। लहजे, उच्चारण, मुखरता, खुरदरापन, अनुनासिकता, पिच, मात्रा और गति के संदर्भ में स्वर अलग-अलग होते हैं। भाषण पृष्ठभूमि शोर और गूँज, विद्युत विशेषताओं से विकृत है। वाक् पहचान की सटीकता निम्न के साथ भिन्न हो सकती है:
 * शब्दावली का आकार और भ्रम
 * वक्ता निर्भरता बनाम स्वतंत्रता
 * पृथक, असंतत या निरंतर वाणी
 * कार्य और भाषा की कमी
 * बनाम सहज भाषण पढ़ें
 * प्रतिकूल परिस्थितियां

सटीकता
जैसा कि इस लेख में पहले उल्लेख किया गया है, वाक् पहचान की सटीकता निम्नलिखित कारकों के आधार पर भिन्न हो सकती है:
 * शब्दावली का आकार बढ़ने पर त्रुटि दर बढ़ती है:
 * जैसे शून्य से नौ तक के 10 अंकों को अनिवार्य रूप से पूरी तरह से पहचाना जा सकता है, लेकिन 200, 5000 या 100000 के शब्दावली आकार में क्रमशः 3%, 7% या 45% की त्रुटि दर हो सकती है।


 * शब्दावली को पहचानना मुश्किल है यदि इसमें भ्रमित करने वाले शब्द हैं:
 * जैसे अंग्रेजी वर्णमाला के 26 अक्षरों में अंतर करना मुश्किल है क्योंकि वे भ्रमित करने वाले शब्द हैं (सबसे कुख्यात, ई-सेट: बी, सी, डी, ई, जी, पी, टी, वी, जेड - जब जेड का उच्चारण ज़ी के अतिरिक्त किया जाता है) जेड अंग्रेजी क्षेत्र के आधार पर); इस शब्दावली के लिए 8% त्रुटि दर अच्छी मानी जाती है।


 * वक्ता निर्भरता बनाम स्वतंत्रता:
 * एक स्पीकर-निर्भर प्रणाली स्पीकर द्वारा उपयोग के लिए अभिप्रेत है।
 * एक स्पीकर-स्वतंत्र प्रणाली किसी भी स्पीकर (अधिक कठिन) द्वारा उपयोग के लिए अभिप्रेत है।


 * पृथक, विच्छिन्न या निरंतर वाणी
 * एकाकी वाणी में शब्द का प्रयोग होता है, इसलिए वाणी को पहचानना आसान हो जाता है।

विच्छिन्न वाक् में मौन द्वारा अलग किए गए पूर्ण वाक्यों का प्रयोग किया जाता है, इसलिए वाक् के साथ-साथ विलग वाक् को पहचानना आसान हो जाता है। निरंतर भाषण के साथ स्वाभाविक रूप से बोले जाने वाले वाक्यों का उपयोग किया जाता है, इसलिए भाषण को पहचानना कठिन हो जाता है, अलग-अलग और असंतत भाषण दोनों से अलग।


 * कार्य और भाषा की कमी
 * उदा. पूछताछ आवेदन परिकल्पना को खारिज कर सकता है सेब लाल है।
 * उदा. बाधाएं शब्दार्थ हो सकती हैं; अस्वीकार सेब नाराज है।
 * उदा. सिंटैक्टिक; लाल को अस्वीकार करना सेब है।

बाधाओं को अधिकांशतः व्याकरण द्वारा दर्शाया जाता है। वाक् पहचान बहु-स्तरीय स्वरूप पहचान कार्य है। उदा. ज्ञात शब्द उच्चारण या शब्द क्रम के नियम, जो निचले स्तर पर त्रुटियों या अनिश्चितताओं की भरपाई कर सकता है; टेलीफोन भाषण के लिए नमूनाकरण दर प्रति सेकंड 8000 नमूने हैं; प्रत्येक 10 मिलीसेकंड पर गणना की जाती है, जिसमें 10 मिलीमीटर का भाग होता है जिसे फ़्रेम कहा जाता है;
 * पढ़ें बनाम सहज भाषण - जब कोई व्यक्ति पढ़ता है तो यह सामान्यतः पहले से तैयार किए गए संदर्भ में होता है, लेकिन जब कोई व्यक्ति सहज भाषण का उपयोग करता है, तो भाषण को पहचानना मुश्किल होता है क्योंकि भाषण (जैसे उह और उम, झूठी प्रारंभिक, अधूरे वाक्य, हकलाना, खाँसी और हँसी) और सीमित शब्दावली।
 * प्रतिकूल परिस्थितियाँ - पर्यावरणीय शोर (जैसे कार या कारखाने में शोर)। ध्वनिक विकृतियाँ (जैसे गूँज, कक्ष ध्वनिकी)
 * ध्वनिक संकेतों को इकाइयों के पदानुक्रम में संरचित किया जाता है, उदा। स्वर, शब्द, वाक्यांश और वाक्य;
 * प्रत्येक स्तर अतिरिक्त प्रतिबंध प्रदान करता है;
 * बाधाओं के इस पदानुक्रम का शोषण किया जाता है। सभी निचले स्तरों पर संभाव्य रूप से निर्णयों को संयोजित करके, और केवल उच्चतम स्तर पर अधिक नियतात्मक निर्णय लेने से, मशीन द्वारा वाक् पहचान कई चरणों में विभाजित प्रक्रिया है। कम्प्यूटरीकृत रूप से, यह समस्या है जिसमें ध्वनि स्वरूप को पहचाना जाना चाहिए या श्रेणी में वर्गीकृत किया जाना चाहिए जो मानव के लिए अर्थ का प्रतिनिधित्व करता है। प्रत्येक ध्वनिक संकेत को छोटे और अधिक मौलिक उप-संकेतों में तोड़ा जा सकता है। जैसे-जैसे अधिक जटिल ध्वनि संकेत छोटे उप-ध्वनियों में टूटते हैं, विभिन्न स्तरों का निर्माण होता है, जहाँ शीर्ष स्तर पर हमारे पास जटिल ध्वनियाँ होती हैं, जो निचले स्तर पर सरल ध्वनियों से बनी होती हैं, और निचले स्तरों तक जाती हैं, और भी अधिक, हम अधिक मौलिक और छोटी और सरल ध्वनियाँ बनाते हैं। निम्नतम स्तर पर, जहाँ ध्वनियाँ सबसे मौलिक हैं, मशीन सरल और अधिक संभाव्य नियमों की जाँच करेगी कि किस ध्वनि का प्रतिनिधित्व करना चाहिए। बार जब इन ध्वनियों को ऊपरी स्तर पर अधिक जटिल ध्वनियों में साथ रखा जाता है, तो अधिक नियतात्मक नियमों के नए सेट को भविष्यवाणी करनी चाहिए कि नई जटिल ध्वनि को क्या प्रदर्शित करना चाहिए। नियतात्मक नियम के सबसे ऊपरी स्तर को जटिल भावों के अर्थ का पता लगाना चाहिए। वाक् पहचान के बारे में अपने ज्ञान का विस्तार करने के लिए, हमें तंत्रिका नेटवर्क पर विचार करने की आवश्यकता है। तंत्रिका नेटवर्क दृष्टिकोण के चार चरण हैं:
 * उस भाषण को डिजिटाइज़ करें जिसे हम पहचानना चाहते हैं
 * भाषण के वर्णक्रमीय-डोमेन की गणना सुविधाएँ (फूरियर रूपांतरण के साथ);

फोर-स्टेप न्यूरल नेटवर्क एप्रोच का विश्लेषण आगे की जानकारी द्वारा समझाया जा सकता है। ध्वनि हवा (या किसी अन्य माध्यम) के कंपन से उत्पन्न होती है, जिसे हम कानों द्वारा रिकॉर्ड करते हैं, लेकिन रिसीवर द्वारा मशीनें। मूल ध्वनि तरंग बनाती है जिसके दो विवरण होते हैं: आयाम (यह कितना मजबूत है), और आवृत्ति (यह प्रति सेकंड कितनी बार कंपन करती है)। सटीकता की गणना शब्द त्रुटि दर (WER) की सहायता से की जा सकती है। शब्द त्रुटि दर की गणना गतिशील स्ट्रिंग संरेखण का उपयोग करके मान्यता प्राप्त शब्द और संदर्भित शब्द को संरेखित करके की जा सकती हैएनटी। मान्यता प्राप्त शब्द और संदर्भित शब्द की अनुक्रम लंबाई के बीच अंतर के कारण शब्द त्रुटि दर की गणना करते समय समस्या हो सकती है। होने देना S प्रतिस्थापन की संख्या हो, D विलोपन की संख्या हो, I सम्मिलन की संख्या हो, N शब्द संदर्भों की संख्या हो। शब्द त्रुटि दर (WER) की गणना करने का सूत्र है WR = (S+D+I)÷N शब्द पहचान दर (WRR) की गणना करते समय शब्द त्रुटि दर (WER) का उपयोग किया जाता है और सूत्र है WRR = 1- WER = (N-S-D-I)÷ N = (H-I)÷N यहाँ H सही ढंग से पहचाने जाने वाले शब्दों की संख्या है। H = N- (S + D)।

सुरक्षा चिंताएं
वाक् पहचान हमले से चोरी या आकस्मिक ऑपरेशन का साधन बना सकती है। उदाहरण के लिए, ऑडियो या वीडियो प्रसारण में बोले जाने वाले एलेक्सा जैसे सक्रियण शब्द घरों और कार्यालयों में उपकरणों को अनुचित विधि से इनपुट के लिए सुनना शुरू कर सकते हैं, या संभवतः अवांछित कार्रवाई कर सकते हैं। ध्वनि-नियंत्रित उपकरण भवन के आगंतुकों के लिए या भवन के बाहर के लोगों के लिए भी सुलभ हैं यदि उन्हें अंदर सुना जा सकता है। हमलावर व्यक्तिगत जानकारी, जैसे कैलेंडर, पता पुस्तिका सामग्री, निजी संदेश और दस्तावेजों तक पहुंच प्राप्त करने में सक्षम हो सकते हैं। वे संदेश भेजने या ऑनलाइन खरीदारी करने के लिए उपयोगकर्ता का प्रतिरूपण करने में भी सक्षम हो सकते हैं।

कृत्रिम ध्वनियों का उपयोग करने वाले दो हमलों का प्रदर्शन किया गया है। अल्ट्रासाउंड प्रसारित करता है और आस-पास के लोगों को नोटिस किए बिना कमांड भेजने का प्रयास करता है। दूसरा अन्य भाषण या संगीत के लिए छोटे, अश्रव्य विकृतियों को जोड़ता है जो विशेष रूप से विशिष्ट भाषण मान्यता प्रणाली को संगीत को भाषण के रूप में पहचानने में भ्रमित करने के लिए तैयार किए जाते हैं, या प्रणाली के लिए अलग कमांड की तरह मानव ध्वनि के लिए कमांड की तरह लगता है।

सम्मेलन और पत्रिकाएँ
हर साल या दो साल में आयोजित लोकप्रिय भाषण मान्यता सम्मेलनों में स्पीचटेक और स्पीचटेक यूरोप, ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन, इंटरस्पीच/यूरोस्पीच और आईईईई एएसआरयू सम्मलित हैं। कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन, कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय, ईएमएनएलपी, और एचएलटी जैसे प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में सम्मेलनों में भाषण प्रसंस्करण पर पेपर सम्मलित होने लगे हैं। महत्वपूर्ण पत्रिकाओं में भाषण और ऑडियो प्रसंस्करण पर आईईईई लेनदेन सम्मलित हैं (बाद में ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन का नाम बदल दिया गया और सितंबर 2014 से ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई / एसीएम लेनदेन का नाम बदल दिया गया - एसीएम प्रकाशन के साथ विलय के पश्चात), कंप्यूटर भाषण और भाषा, और भाषण संचार को परिवर्तित कर दिया गया।

किताबें
लॉरेंस रैबिनर द्वारा लिखित मौलिक ज्ञान की वाक् पहचान जैसी पुस्तकें मौलिक ज्ञान प्राप्त करने के लिए उपयोगी हो सकती हैं लेकिन पूरी तरह से अद्यतित नहीं हो सकती हैं (1993)। अन्य अच्छा स्रोत हो सकता है, फ्रेडरिक जेलिनेक द्वारा भाषण मान्यता के लिए सांख्यिकीय विधि और जुडोंग हुआंग द्वारा स्पोकन लैंग्वेज प्रोसेसिंग (2001), कंप्यूटर भाषण, मैनफ्रेड आर श्रोएडर द्वारा, 2004 में प्रकाशित दूसरा संस्करण, और भाषण प्रसंस्करण: गतिशील और अनुकूलन- ओरिएंटेड एप्रोच 2003 में ली डेंग और डौग ओ'शॉघनेसी द्वारा प्रकाशित किया। डेनियल जुराफस्की और मार्टिन द्वारा अद्यतन पाठ्यपुस्तक भाषण और भाषा प्रसंस्करण (2008) एएसआर के लिए मूल बातें और कला की स्थिति प्रस्तुत करती है। स्पीकर की पहचान भी उन्हीं विशेषताओं का उपयोग करती है, जिनमें से अधिकांश समान फ्रंट-एंड प्रोसेसिंग और वर्गीकरण विधिों का उपयोग करती हैं जैसा कि भाषण मान्यता में किया जाता है। व्यापक पाठ्यपुस्तक, स्पीकर रिकॉग्निशन के फंडामेंटल्स सिद्धांत और व्यवहार पर अद्यतन विवरण के लिए गहन स्रोत है। सर्वोत्तम आधुनिक प्रणालियों में उपयोग की जाने वाली विधिों में अच्छी अंतर्दृष्टि सरकारी प्रायोजित मूल्यांकनों पर ध्यान देकर प्राप्त की जा सकती है जैसे कि डारपा द्वारा आयोजित 2007 तक चलने वाली सबसे बड़ी वाक् पहचान-संबंधित परियोजना गेल परियोजना है, जिसमें वाक् पहचान दोनों सम्मलित हैं और अनुवाद घटक हैं।

वाक् पहचान प्रौद्योगिकी और इसके इतिहास का अच्छा और सुलभ परिचय सामान्य दर्शकों की पुस्तक द वॉयस इन द मशीन द्वारा बिल्डिंग कंप्यूटर्स दैट अंडरस्टैंडिंग स्पीच रॉबर्ट पिएरासिनी (2012) के द्वारा प्रदान किया गया है।

वाक् पहचान पर स्वचालित वाक् पहचान ए डीप लर्निंग एप्रोच (प्रकाशक: स्प्रिंगर) जो माइक्रोसॉफ्ट के शोधकर्ताओं डी यू और एल या डीएनएन सबसे हालिया किताब है और संबंधित गहन शिक्षण विधियों के आधार पर आधुनिक वाक् पहचान प्रणालियों में विधियों को व्युत्पन्न और कार्यान्वित किया जाता है। संबंधित पुस्तक, जो पहले 2014 में प्रकाशित हुई थी, डीप लर्निंग: मेथड्स एंड एप्लीकेशन बाय एल डेंग और डी. यू 2009-2014 के समय डीएनएन-आधारित वाक् पहचान का कम विधिी लेकिन अधिक कार्यप्रणाली-केंद्रित अवलोकन प्रदान करती है, जिसे अधिक सामान्य संदर्भ में रखा गया है। इसमें न केवल भाषण मान्यता बल्कि छवि पहचान, प्राकृतिक भाषा प्रसंस्करण, सूचना पुनर्प्राप्ति, मल्टीमॉडल प्रसंस्करण और मल्टीटास्क सीखने सहित गहन शिक्षण अनुप्रयोगों किया गया हैं।

सॉफ्टवेयर
स्वतंत्र रूप से उपलब्ध संसाधनों के संदर्भ में, कार्नेगी मेलन विश्वविद्यालय का सीएमयू स्फिंक्स टूलकिट वाक् पहचान के बारे में सीखने और प्रयोग शुरू करने के लिए जगह है। अन्य संसाधन (मुफ्त लेकिन कॉपीराइट) एचटीके (सॉफ्टवेयर) किताब (और साथ में एचटीके टूलकिट) है। अधिक नवीनतम और अत्याधुनिक विधिों के लिए, कलदी (सॉफ्टवेयर) टूलकिट का उपयोग किया जा सकता है। 2017 में मौजिला ने साधारण ध्वनि नामक ओपन सोर्स प्रोजेक्ट लॉन्च किया ध्वनिों के बड़े डेटाबेस को इकट्ठा करने के लिए जो मुफ्त वाक् पहचान परियोजना डीप स्पीच (GitHub पर मुफ्त उपलब्ध) बनाने में सहायता करेगा, गूगल के ओपन सोर्स प्लेटफॉर्म टेंसर फ्लो का उपयोग करना। जब मोज़िला ने 2020 में परियोजना से फंडिंग को पुनर्निर्देशित किया, तो इसे इसके मूल डेवलपर्स द्वारा कोक्यू एसटीटी के रूप में फोर्क किया गया था। उसी ओपन-सोर्स लाइसेंस का उपयोग करना। व्यावसायिक क्लाउड आधारित वाक् पहचान एपीआई अधिकांशतः उपलब्ध हैं। अधिक सॉफ़्टवेयर संसाधनों के लिए, वाक् पहचान सॉफ़्टवेयर की सूची देखें।

यह भी देखें

 * एआई प्रभाव
 * अल्पाक
 * कृत्रिम बुद्धिमत्ता के अनुप्रयोग
 * कलात्मक भाषण मान्यता
 * ऑडियो खनन
 * ऑडियो-विजुअल भाषण मान्यता
 * स्वचालित भाषा अनुवादक
 * ऑटोमोटिव हेड यूनिट
 * कैश भाषा मॉडल
 * ड्रैगन नेचुरलीस्पीकिंग
 * प्रवाह आवाज प्रौद्योगिकी
 * गूगल वॉइस सर्च
 * आईबीएम वाया वॉयस
 * कीवर्ड स्पॉटिंग
 * किनेक्ट
 * मॉन्डग्रीन
 * मल्टीमीडिया सूचना पुनर्प्राप्ति
 * भाषण की उत्पत्ति
 * ध्वन्यात्मक खोज तकनीक
 * स्पीकर डायरीकरण
 * वक्ता पहचान
 * भाषण विश्लेषण
 * भाषण इंटरफ़ेस दिशानिर्देश
 * लिनक्स के लिए वाक् पहचान सॉफ्टवेयर
 * भाषा संकलन
 * भाषण सत्यापन
 * उपशीर्षक (कैप्शनिंग)
 * वायसएक्सएमएल
 * वोक्सफोर्ज
 * विंडोज वाक् पहचान
 * सूचियों
 * उभरती प्रौद्योगिकियों की सूची
 * कृत्रिम बुद्धि की रूपरेखा
 * भाषण और आवाज पहचान की समयरेखा

बाहरी कड़ियाँ

 * Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-free Text Entry, In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013