वाक् पहचान: Difference between revisions

From Vigyanwiki
No edit summary
 
(6 intermediate revisions by 4 users not shown)
Line 3: Line 3:
{{redirect|भाषण से पाठ|मानवीय भूमिका|स्पीच-टू-टेक्स्ट रिपोर्टर}}
{{redirect|भाषण से पाठ|मानवीय भूमिका|स्पीच-टू-टेक्स्ट रिपोर्टर}}


भाषण मान्यता [[कंप्यूटर विज्ञान]] और कम्प्यूटरीकृत भाषाविज्ञान का वह [[अंतःविषय]] उपक्षेत्र है जो कार्यप्रणाली और प्रौद्योगिकियों को विकसित करता है तथा पाठ में खोज के मुख्य लाभ के साथ कंप्यूटर द्वारा पाठ में बोली जाने वाली भाषा की पहचान और [[अनुवाद]] को सक्षम बनाता है। इसे स्वचालित '''वाक् पहचान''' (ASR), कंप्यूटर वाक् पहचान या स्पीच टू [[पाठ्य खोज]] के रूप में भी जाना जाता है। यह कंप्यूटर विज्ञान, भाषाविज्ञान और [[कंप्यूटर इंजीनियरिंग]] क्षेत्रों में ज्ञान और अनुसंधान को सम्मलित करता है। रिवर्स प्रक्रिया भाषण संश्लेषण है।
भाषण मान्यता [[कंप्यूटर विज्ञान]] और कम्प्यूटरीकृत भाषाविज्ञान का वह [[अंतःविषय]] उपक्षेत्र है जो कार्यप्रणाली और प्रौद्योगिकियों को विकसित करता है तथा पाठ में खोज के मुख्य लाभ के साथ कंप्यूटर द्वारा पाठ में बोली जाने वाली भाषा की पहचान और [[अनुवाद]] को सक्षम बनाता है। इसे स्वचालित '''वाक् पहचान''' (ASR), कंप्यूटर वाक् पहचान या स्पीच टू [[पाठ्य खोज]] के रूप में भी जाना जाता है। यह कंप्यूटर विज्ञान, भाषाविज्ञान और [[कंप्यूटर इंजीनियरिंग|कंप्यूटर अभियांत्रिकी]] क्षेत्रों में ज्ञान और अनुसंधान को सम्मलित करता है। व्युत्क्रम प्रक्रिया मुख्यतः भाषण संश्लेषण प्रक्रिया है।


कुछ भाषण पहचान प्रणालियों को प्रशिक्षण की आवश्यकता होती है (जिसे नामांकन भी कहा जाता है) जहां व्यक्तिगत वक्ता प्रणाली में पाठ या पृथक [[शब्दावली]] पढ़ता है। प्रणाली व्यक्ति की विशिष्ट ध्वनि का विश्लेषण करती है और इसका उपयोग उस व्यक्ति के भाषण की पहचान को ठीक करने के लिए करती है, जिसके परिणामस्वरूप सटीकता में वृद्धि होती है। प्रणाली जो प्रशिक्षण का उपयोग नहीं करती हैं उन्हें स्पीकर-स्वतंत्र कहा जाता है<ref>{{cite web |url=http://www.fifthgen.com/speaker-independent-connected-s-r.htm |title=स्पीकर इंडिपेंडेंट कनेक्टेड स्पीच रिकग्निशन- फिफ्थ जनरेशन कंप्यूटर कॉर्पोरेशन|publisher=Fifthgen.com |access-date=15 June 2013 |url-status=live |archive-url=https://web.archive.org/web/20131111101228/http://www.fifthgen.com/speaker-independent-connected-s-r.htm |archive-date=11 November 2013 |df=dmy-all }}</ref> प्रणाली प्रशिक्षण का उपयोग करने वाली प्रणालियाँ वक्ता पर आश्रित होती हैं।
कुछ भाषण पहचान प्रणालियों को प्रशिक्षण की आवश्यकता होती है (जिसे नामांकन भी कहा जाता है) जहां व्यक्तिगत वक्ता प्रणाली में पाठ या पृथक [[शब्दावली]] पढ़ता है। प्रणाली व्यक्ति की विशिष्ट ध्वनि का विश्लेषण करती है और इसका उपयोग उस व्यक्ति के भाषण की पहचान को ठीक करने के लिए करती है, जिसके परिणामस्वरूप सटीकता में वृद्धि होती है। प्रणाली जो प्रशिक्षण का उपयोग नहीं करती हैं उन्हें स्पीकर-स्वतंत्र कहा जाता है<ref>{{cite web |url=http://www.fifthgen.com/speaker-independent-connected-s-r.htm |title=स्पीकर इंडिपेंडेंट कनेक्टेड स्पीच रिकग्निशन- फिफ्थ जनरेशन कंप्यूटर कॉर्पोरेशन|publisher=Fifthgen.com |access-date=15 June 2013 |url-status=live |archive-url=https://web.archive.org/web/20131111101228/http://www.fifthgen.com/speaker-independent-connected-s-r.htm |archive-date=11 November 2013 |df=dmy-all }}</ref> प्रणाली प्रशिक्षण का उपयोग करने वाली प्रणालियाँ वक्ता पर आश्रित होती हैं।
Line 23: Line 23:


===1970 से पहले ===
===1970 से पहले ===
* 1952 - बेल लैब्स के तीन शोधकर्ता, स्टीफ़न बालाशेक,<ref>{{cite news |url=https://obits.nj.com/obituaries/starledger/obituary.aspx?page=lifestory&pid=158702138 |work=The Star-Ledger |title=मृत्युलेख: स्टीफन बालाशेक|date=22 July 2012}}</ref> आर. बिडुल्फ और के.एच. डेविस ने ऑड्रे नामक प्रणाली का निर्माण किया<ref>{{cite web | url=https://cdn57.androidauthority.net/wp-content/uploads/2012/04/IBM-Shoebox-front.jpg| title=IBM-Shoebox-front.jpg| publisher=androidauthority.net | access-date=4 April 2019 }}</ref> एकल वक्ता अंक पहचान के लिए। उनकी प्रणाली प्रत्येक उच्चारण के पावर स्पेक्ट्रम में [[फार्मेंट्स]] को स्थित करती है।<ref>{{cite journal|last1=Juang|first1=B. H.|last2=Rabiner|first2=Lawrence R.|title=स्वचालित भाषण पहचान-प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास|page=6|url=http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|access-date=17 January 2015|url-status=live|archive-url=https://web.archive.org/web/20140817193243/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|archive-date=17 August 2014|df=dmy-all}}</ref> * 1960 - [[गुन्नार फंता]] ने भाषण उत्पादन के स्रोत-फ़िल्टर मॉडल को विकसित और प्रकाशित किया।
* 1952 - बेल लैब्स के तीन शोधकर्ता, स्टीफ़न बालाशेक,<ref>{{cite news |url=https://obits.nj.com/obituaries/starledger/obituary.aspx?page=lifestory&pid=158702138 |work=The Star-Ledger |title=मृत्युलेख: स्टीफन बालाशेक|date=22 July 2012}}</ref> आर. बिडुल्फ और के.एच. डेविस ने ऑड्रे नामक प्रणाली का निर्माण किया<ref>{{cite web | url=https://cdn57.androidauthority.net/wp-content/uploads/2012/04/IBM-Shoebox-front.jpg| title=IBM-Shoebox-front.jpg| publisher=androidauthority.net | access-date=4 April 2019 }}</ref> एकल वक्ता अंक पहचान के लिए। उनकी प्रणाली प्रत्येक उच्चारण के पावर स्पेक्ट्रम में [[फार्मेंट्स]] को स्थित करती है।<ref>{{cite journal|last1=Juang|first1=B. H.|last2=Rabiner|first2=Lawrence R.|title=स्वचालित भाषण पहचान-प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास|page=6|url=http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|access-date=17 January 2015|url-status=live|archive-url=https://web.archive.org/web/20140817193243/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|archive-date=17 August 2014|df=dmy-all}}</ref> 1960 - [[गुन्नार फंता]] ने भाषण उत्पादन के स्रोत-फ़िल्टर मॉडल को विकसित और प्रकाशित किया।
* 1962 - [[आईबीएम]] ने 1962 के विश्व मेले में अपनी 16-शब्द वाली शोबॉक्स मशीन की वाक् पहचान क्षमता का प्रदर्शन किया।<ref name=PCW.Siri>{{cite magazine  |magazine=PC World  |access-date=22 October 2018
* 1962 - [[आईबीएम]] ने 1962 के विश्व मेले में अपनी 16-शब्द वाली शोबॉक्स मशीन की वाक् पहचान क्षमता का प्रदर्शन किया।<ref name=PCW.Siri>{{cite magazine  |magazine=PC World  |access-date=22 October 2018
   |url=https://www.pcworld.com/article/243060/speech_recognition_through_the_decades_how_we_ended_up_with_siri.html
   |url=https://www.pcworld.com/article/243060/speech_recognition_through_the_decades_how_we_ended_up_with_siri.html
   |title=दशक के माध्यम से वाक् पहचान: हम सिरी के साथ कैसे समाप्त हुए|author=Melanie Pinola |date=2 November 2011}}</ref>
   |title=दशक के माध्यम से वाक् पहचान: हम सिरी के साथ कैसे समाप्त हुए|author=Melanie Pinola |date=2 November 2011}}</ref>
* 1966 - [[रैखिक भविष्य कहनेवाला कोडिंग]] (LPC), [[भाषण कोडिंग]] विधि, पहली बार वाक् पहचान पर काम करते हुए [[नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (NTT) के शुजो सैटो द्वारा प्रस्तावित की गई थी।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=पैकेट नेटवर्क पर रीयलटाइम डिजिटल भाषण का इतिहास: लीनियर प्रेडिक्टिव कोडिंग और इंटरनेट प्रोटोकॉल का भाग II|journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref>
* 1966 - [[रैखिक भविष्य कहनेवाला कोडिंग]] (एलपीसी), [[भाषण कोडिंग]] विधि, पहली बार '''वाक् पहचान''' पर कार्य करते हुए [[नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (एनटीटी) के शुजो सैटो द्वारा प्रस्तावित की गई थी।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=पैकेट नेटवर्क पर रीयलटाइम डिजिटल भाषण का इतिहास: लीनियर प्रेडिक्टिव कोडिंग और इंटरनेट प्रोटोकॉल का भाग II|journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref>
* 1969 - [[बेल लैब्स]] में फंडिंग कई वर्षों तक रुकी रही, जब 1969 में, प्रभावशाली जॉन आर. पियर्स ने खुला पत्र लिखा, जो वाक् पहचान रिसर्च के लिए आलोचनात्मक और निराधार था।<ref name=jasapierce>{{cite journal  
* 1969 - [[बेल लैब्स]] में फंडिंग कई वर्षों तक रुकी रही, जब 1969 में, प्रभावशाली जॉन आर. पियर्स ने खुला पत्र लिखा, जो वाक् पहचान रिसर्च के लिए आलोचनात्मक और निराधार था।<ref name=jasapierce>{{cite journal  
   |title=कहाँ वाक् पहचान?|author=John R. Pierce |author-link=John R. Pierce  
   |title=कहाँ वाक् पहचान?|author=John R. Pierce |author-link=John R. Pierce  
Line 36: Line 36:
[[संतुष्ट हिला]] 1960 के दशक के अंत में [[स्टैनफोर्ड विश्वविद्यालय]] में स्नातक छात्र के रूप में निरंतर भाषण मान्यता लेने वाले पहले व्यक्ति थे। पिछली प्रणालियों में उपयोगकर्ताओं को प्रत्येक शब्द के पश्चात रुकने की आवश्यकता होती थी। रेड्डीज प्रणाली ने [[शतरंज]] खेलने के लिए स्पोकन कमांड जारी किया।
[[संतुष्ट हिला]] 1960 के दशक के अंत में [[स्टैनफोर्ड विश्वविद्यालय]] में स्नातक छात्र के रूप में निरंतर भाषण मान्यता लेने वाले पहले व्यक्ति थे। पिछली प्रणालियों में उपयोगकर्ताओं को प्रत्येक शब्द के पश्चात रुकने की आवश्यकता होती थी। रेड्डीज प्रणाली ने [[शतरंज]] खेलने के लिए स्पोकन कमांड जारी किया।


इस समय के आसपास सोवियत शोधकर्ताओं ने [[गतिशील समय वारिंग]] (डीटीडब्ल्यू) एल्गोरिथम का आविष्कार किया और इसका उपयोग पहचानकर्ता बनाने के लिए किया जो 200-शब्द शब्दावली पर काम करने में सक्षम था।<ref>{{cite book|last1=Benesty|first1=Jacob|last2=Sondhi|first2=M. M.|last3=Huang|first3=Yiteng|title=स्पीच प्रोसेसिंग की स्प्रिंगर हैंडबुक|date=2008|publisher=Springer Science & Business Media|isbn=978-3540491255}}</ref> डीटीडब्ल्यू ने भाषण को छोटे फ्रेम में विभाजित करके संसाधित किया, उदाहरण के लिए 10 मिलीसेकेंड के भाग, और प्रत्येक फ्रेम को इकाई के रूप में संसाधित करना। चूंकि डीटीडब्ल्यू को बाद के एल्गोरिदम द्वारा हटा दिया जाएगा, तथा यह तकनीक जारी रही। इस समय की अवधि में स्पीकर स्वतंत्रता प्राप्त करना अनसुलझा रहा।
इस समय के आसपास सोवियत शोधकर्ताओं ने [[गतिशील समय वारिंग]] (डीटीडब्ल्यू) एल्गोरिथम का आविष्कार किया और इसका उपयोग पहचानकर्ता बनाने के लिए किया जो 200-शब्द शब्दावली पर कार्य करने में सक्षम था।<ref>{{cite book|last1=Benesty|first1=Jacob|last2=Sondhi|first2=M. M.|last3=Huang|first3=Yiteng|title=स्पीच प्रोसेसिंग की स्प्रिंगर हैंडबुक|date=2008|publisher=Springer Science & Business Media|isbn=978-3540491255}}</ref> डीटीडब्ल्यू ने भाषण को छोटे फ्रेम में विभाजित करके संसाधित किया, उदाहरण के लिए 10 मिलीसेकेंड के भाग, और प्रत्येक फ्रेम को इकाई के रूप में संसाधित करना। चूंकि डीटीडब्ल्यू को बाद के एल्गोरिदम द्वारा हटा दिया जाएगा, तथा यह विधि जारी रही। इस समय की अवधि में स्पीकर स्वतंत्रता प्राप्त करना अनसुलझा रहा।


===1970–1990===
===1970–1990===
Line 43: Line 43:
   |title=आईएससीए पदक विजेता: भाषण और भाषा प्रसंस्करण में नेतृत्व और व्यापक योगदान के लिए|url=https://www.superlectures.com/interspeech2016/isca-medalist-for-leadership-and-extensive-contributions-to-speech-and-language-processing
   |title=आईएससीए पदक विजेता: भाषण और भाषा प्रसंस्करण में नेतृत्व और व्यापक योगदान के लिए|url=https://www.superlectures.com/interspeech2016/isca-medalist-for-leadership-and-extensive-contributions-to-speech-and-language-processing
   |access-date=23 January 2018    |url-status=live  
   |access-date=23 January 2018    |url-status=live  
   |archive-url=https://web.archive.org/web/20180124071005/https://www.superlectures.com/interspeech2016/isca-medalist-for-leadership-and-extensive-contributions-to-speech-and-language-processing|archive-date=24 January 2018|df=dmy-all}}</ref> [[बीबीएन टेक्नोलॉजीज]], आईबीएम, [[कार्नेगी मेलॉन]] और [[स्टैनफोर्ड अनुसंधान संस्थान]] सभी ने कार्यक्रम में भाग लिया।<ref>{{cite magazine|last1=Blechman|first1=R. O.|last2=Blechman|first2=Nicholas|title=हैलो, हैल|url=https://www.newyorker.com/magazine/2008/06/23/hello-hal|access-date=17 January 2015|magazine=The New Yorker|date=23 June 2008|url-status=live|archive-url=https://web.archive.org/web/20150120042048/http://www.newyorker.com/magazine/2008/06/23/hello-hal|archive-date=20 January 2015|df=dmy-all}}</ref><ref>{{cite journal|last=Klatt|first=Dennis H.|title=ARPA भाषण समझ परियोजना की समीक्षा|journal=The Journal of the Acoustical Society of America|volume=62|issue=6|year=1977|pages=1345–1366|doi=10.1121/1.381666|bibcode=1977ASAJ...62.1345K}}</ref> जॉन पियर्स के पत्र के पश्चात इस वाक् पहचान अनुसंधान को पुनर्जीवित किया।
   |archive-url=https://web.archive.org/web/20180124071005/https://www.superlectures.com/interspeech2016/isca-medalist-for-leadership-and-extensive-contributions-to-speech-and-language-processing|archive-date=24 January 2018|df=dmy-all}}</ref> [[बीबीएन टेक्नोलॉजीज|बीबीएन प्रौद्योगिकीज]], आईबीएम, [[कार्नेगी मेलॉन]] और [[स्टैनफोर्ड अनुसंधान संस्थान]] सभी ने कार्यक्रम में भाग लिया।<ref>{{cite magazine|last1=Blechman|first1=R. O.|last2=Blechman|first2=Nicholas|title=हैलो, हैल|url=https://www.newyorker.com/magazine/2008/06/23/hello-hal|access-date=17 January 2015|magazine=The New Yorker|date=23 June 2008|url-status=live|archive-url=https://web.archive.org/web/20150120042048/http://www.newyorker.com/magazine/2008/06/23/hello-hal|archive-date=20 January 2015|df=dmy-all}}</ref><ref>{{cite journal|last=Klatt|first=Dennis H.|title=ARPA भाषण समझ परियोजना की समीक्षा|journal=The Journal of the Acoustical Society of America|volume=62|issue=6|year=1977|pages=1345–1366|doi=10.1121/1.381666|bibcode=1977ASAJ...62.1345K}}</ref> जॉन पियर्स के पत्र के पश्चात इस वाक् पहचान अनुसंधान को पुनर्जीवित किया।


* 1972 - आईईईई ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग समूह ने न्यूटन, मैसाचुसेट्स में सम्मेलन आयोजित किया।
* 1972 - आईईईई ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग समूह ने न्यूटन, मैसाचुसेट्स में सम्मेलन आयोजित किया।
* 1976 - पहला [[ICASSP|आईसीएएसएसपी]] [[फ़िलाडेल्फ़िया]] में आयोजित किया गया था, जो तब से '''वाक् पहचान''' पर शोध के प्रकाशन के लिए प्रमुख स्थान रहा है।<ref>{{cite journal|last1=Rabiner|title=ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग सोसायटी। एक ऐतिहासिक परिप्रेक्ष्य|date=1984|url=http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/216_historical%20perspective.pdf|access-date=23 January 2018|url-status=live|archive-url=https://web.archive.org/web/20170809113828/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/216_historical%20perspective.pdf|archive-date=9 August 2017|df=dmy-all}}</ref>
* 1976 - पहला [[ICASSP|आईसीएएसएसपी]] [[फ़िलाडेल्फ़िया]] में आयोजित किया गया था, जो तब से '''वाक् पहचान''' पर शोध के प्रकाशन के लिए प्रमुख स्थान रहा है।<ref>{{cite journal|last1=Rabiner|title=ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग सोसायटी। एक ऐतिहासिक परिप्रेक्ष्य|date=1984|url=http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/216_historical%20perspective.pdf|access-date=23 January 2018|url-status=live|archive-url=https://web.archive.org/web/20170809113828/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/216_historical%20perspective.pdf|archive-date=9 August 2017|df=dmy-all}}</ref>
1960 के दशक के अंत में लियोनार्ड ई. बॉम ने [[रक्षा विश्लेषण संस्थान]] में [[मार्कोव श्रृंखला]]ओं का गणित विकसित किया। एक दशक पश्चात, सीएमयू में, राज रेड्डी के छात्रों जेम्स के. बेकर और जेनेट एम. बेकर ने वाक् पहचान के लिए [[हिडन मार्कोव मॉडल]] (एचएमएमएम) का उपयोग करना शुरू किया।<ref>{{cite web|url=http://ethw.org/First-Hand:The_Hidden_Markov_Model|title=फर्स्ट-हैंड: द हिडन मार्कोव मॉडल - इंजीनियरिंग एंड टेक्नोलॉजी हिस्ट्री विकी|website=ethw.org|date=12 January 2015 |access-date=1 May 2018|url-status=live|archive-url=https://web.archive.org/web/20180403191314/http://ethw.org/First-Hand:The_Hidden_Markov_Model|archive-date=3 April 2018|df=dmy-all}}</ref> जेम्स बेकर ने अपनी स्नातक शिक्षा के समय इंस्टीट्यूट ऑफ डिफेंस एनालिसिस में ग्रीष्मकालीन नौकरी से एचएमएम के बारे में सीखा था।<ref name="James Baker interview"/>एचएमएम के उपयोग ने शोधकर्ताओं को एकीकृत संभाव्य मॉडल में ध्वनिकी, भाषा और वाक्य रचना जैसे ज्ञान के विभिन्न स्रोतों को संयोजित करने की अनुमति दी।
1960 के दशक के अंत में लियोनार्ड ई. बॉम ने [[रक्षा विश्लेषण संस्थान]] में [[मार्कोव श्रृंखला]]ओं का गणित विकसित किया। एक दशक पश्चात, सीएमयू में, राज रेड्डी के छात्रों जेम्स के. बेकर और जेनेट एम. बेकर ने वाक् पहचान के लिए [[हिडन मार्कोव मॉडल]] (एचएमएमएम) का उपयोग करना शुरू किया।<ref>{{cite web|url=http://ethw.org/First-Hand:The_Hidden_Markov_Model|title=फर्स्ट-हैंड: द हिडन मार्कोव मॉडल - इंजीनियरिंग एंड टेक्नोलॉजी हिस्ट्री विकी|website=ethw.org|date=12 January 2015 |access-date=1 May 2018|url-status=live|archive-url=https://web.archive.org/web/20180403191314/http://ethw.org/First-Hand:The_Hidden_Markov_Model|archive-date=3 April 2018|df=dmy-all}}</ref> जेम्स बेकर ने अपनी स्नातक शिक्षा के समय इंस्टीट्यूट ऑफ डिफेंस एनालिसिस में ग्रीष्मकालीन नौकरी से एचएमएम के बारे में सीखा था।<ref name="James Baker interview"/> एचएमएम के उपयोग ने शोधकर्ताओं को एकीकृत संभाव्य मॉडल में ध्वनिकी, भाषा और वाक्य रचना जैसे ज्ञान के विभिन्न स्रोतों को संयोजित करने की अनुमति दी।


* 1980 के दशक के मध्य तक आईबीएम के फ्रेडरिक जेलिनेक | फ्रेड जेलिनेक की टीम ने टैंगोरा नामक ध्वनि सक्रिय टाइपराइटर बनाया, जो 20,000 शब्दों की शब्दावली को संभाल सकता था<ref>{{cite web
* 1980 के दशक के मध्य तक आईबीएम के फ्रेडरिक जेलिनेक या फ्रेड जेलिनेक की टीम ने टैंगोरा नामक ध्वनि सक्रिय टाइपराइटर बनाया, जो 20,000 शब्दों की शब्दावली को संभाल सकता था<ref>{{cite web
   |title=अग्रणी भाषण मान्यता|url=http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/ |access-date=18 January 2015
   |title=अग्रणी भाषण मान्यता|url=http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/ |access-date=18 January 2015
   |url-status=live
   |url-status=live
   |archive-url=https://web.archive.org/web/20150219080748/http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/
   |archive-url=https://web.archive.org/web/20150219080748/http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/
   |archive-date=19 February 2015  |df=dmy-all|date=2012-03-07 }}</ref> जेलाइनेक के सांख्यिकीय दृष्टिकोण ने एचएमएम जैसी सांख्यिकीय मॉडलिंग तकनीकों का उपयोग करने के पक्ष में मानव मस्तिष्क की प्रक्रियाओं और भाषण को समझने के विधि का अनुकरण करने पर कम जोर दिया। (जेलाइनेक के समूह ने स्वतंत्र रूप से भाषण में एचएमएम के अनुप्रयोग की खोज की।<ref name="James Baker interview">{{cite web  
   |archive-date=19 February 2015  |df=dmy-all|date=2012-03-07 }}</ref> जेलाइनेक के सांख्यिकीय दृष्टिकोण ने एचएमएम जैसी सांख्यिकीय मॉडलिंग विधिों का उपयोग करने के पक्ष में मानव मस्तिष्क की प्रक्रियाओं और भाषण को समझने के विधि का अनुकरण करने पर कम जोर दिया। (जेलाइनेक के समूह ने स्वतंत्र रूप से भाषण में एचएमएम के अनुप्रयोग की खोज की।<ref name="James Baker interview">{{cite web  
   |url=http://www.sarasinstitute.org/Audio/JimBaker(2006).mp3  
   |url=http://www.sarasinstitute.org/Audio/JimBaker(2006).mp3  
   |title=जेम्स बेकर साक्षात्कार|url-status=live |access-date=9 February 2017
   |title=जेम्स बेकर साक्षात्कार|url-status=live |access-date=9 February 2017
Line 76: Line 76:
   |author=Kevin McKean
   |author=Kevin McKean
   |title=जब कोल बात करता है, तो कंप्यूटर सुनते हैं|url=https://news.google.com/newspapers?nid=1798&dat=19800408&id=xgsdAAAAIBAJ&pg=6057,1141823|access-date=23 November 2015
   |title=जब कोल बात करता है, तो कंप्यूटर सुनते हैं|url=https://news.google.com/newspapers?nid=1798&dat=19800408&id=xgsdAAAAIBAJ&pg=6057,1141823|access-date=23 November 2015
   |agency=AP  |publisher=Sarasota Journal  |date=8 April 1980}}</ref>
   |agency=AP  |publisher=Sarasota Journal  |date=8 April 1980}}</ref> इसके दो व्यावहारिक उत्पाद थे:
दो व्यावहारिक उत्पाद थे:
* 1984 - 4096 शब्दों के समर्थन के साथ [[खुबानी पोर्टेबल]] जारी किया गया था, जिसमें से केवल 64 को समय में [[रैंडम एक्सेस मेमोरी]] में रखा जा सकता था।<ref name=":2">{{Cite web|title=अधिनियम/खुबानी - खुबानी इतिहास|url=http://actapricot.org/history/apricot_review_1.html|access-date=2016-02-02|website=actapricot.org}}</ref>
* 1984 - 4096 शब्दों के समर्थन के साथ [[खुबानी पोर्टेबल]] जारी किया गया था, जिसमें से केवल 64 को समय में [[रैंडम एक्सेस मेमोरी]] में रखा जा सकता था।<ref name=":2">{{Cite web|title=अधिनियम/खुबानी - खुबानी इतिहास|url=http://actapricot.org/history/apricot_review_1.html|access-date=2016-02-02|website=actapricot.org}}</ref>
*1987 - कुर्ज़वील एप्लाइड इंटेलिजेंस से पहचानकर्ता
*1987 - कुर्ज़वील एप्लाइड इंटेलिजेंस से पहचानकर्ता
Line 92: Line 91:
   |df=dmy-all }}</ref> एटी एंड टी ने मानव ऑपरेटर के उपयोग के बिना टेलीफोन कॉल को रूट करने के लिए 1992 में वाक् पहचान कॉल प्रोसेसिंग सेवा को नियुक्त किया।<ref>{{cite journal|last1=Juang|first1=B.H.|last2=Rabiner|first2=Lawrence|title=स्वचालित भाषण मान्यता - प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास|url=http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|access-date=28 July 2017|url-status=live|archive-url=https://web.archive.org/web/20170809211311/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|archive-date=9 August 2017|df=dmy-all}}</ref> प्रौद्योगिकी को बेल लैब्स में [[लॉरेंस राबिनर]] और अन्य द्वारा विकसित किया गया था।
   |df=dmy-all }}</ref> एटी एंड टी ने मानव ऑपरेटर के उपयोग के बिना टेलीफोन कॉल को रूट करने के लिए 1992 में वाक् पहचान कॉल प्रोसेसिंग सेवा को नियुक्त किया।<ref>{{cite journal|last1=Juang|first1=B.H.|last2=Rabiner|first2=Lawrence|title=स्वचालित भाषण मान्यता - प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास|url=http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|access-date=28 July 2017|url-status=live|archive-url=https://web.archive.org/web/20170809211311/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|archive-date=9 August 2017|df=dmy-all}}</ref> प्रौद्योगिकी को बेल लैब्स में [[लॉरेंस राबिनर]] और अन्य द्वारा विकसित किया गया था।


इस बिंदु तक, विशिष्ट व्यावसायिक वाक् पहचान प्रणाली की शब्दावली औसत मानव शब्दावली से बड़ी थी।<ref name="Communications of the ACM"/>राज रेड्डी के पूर्व छात्र, [[एक्स यूई हुआंग को समझता है]] ने [[सीएमयू स्फिंक्स]]|स्फिंक्स-II प्रणाली को सीएमयू में विकसित किया। स्फिंक्स-II प्रणाली स्पीकर-स्वतंत्र, बड़ी शब्दावली, निरंतर वाक् पहचान करने वाली पहली प्रणाली थी और इसका डारपा के 1992 के मूल्यांकन में सर्वश्रेष्ठ प्रदर्शन था। भाषण मान्यता के इतिहास में बड़ी शब्दावली के साथ निरंतर भाषण को संभालना प्रमुख मील का पत्थर था। हुआंग ने 1993 में [[विंडोज भाषण मान्यता]] की खोज की। राज रेड्डी के छात्र [[काई-फ यू ली]] एप्पल में सम्मलित हुए, जहां 1992 में, उन्होंने कैस्पर नामक एप्पल कंप्यूटर के लिए स्पीच इंटरफेस प्रोटोटाइप विकसित करने में मदद की।
इस बिंदु तक, विशिष्ट व्यावसायिक वाक् पहचान प्रणाली की शब्दावली औसत मानव शब्दावली से बड़ी थी।<ref name="Communications of the ACM"/> राज रेड्डी के पूर्व छात्र, [[एक्स यूई हुआंग को समझता है]] ने [[सीएमयू स्फिंक्स]]|स्फिंक्स-II प्रणाली को सीएमयू में विकसित किया। स्फिंक्स-II प्रणाली स्पीकर-स्वतंत्र, बड़ी शब्दावली, निरंतर वाक् पहचान करने वाली पहली प्रणाली थी और इसका डारपा के 1992 के मूल्यांकन में सर्वश्रेष्ठ प्रदर्शन था। भाषण मान्यता के इतिहास में बड़ी शब्दावली के साथ निरंतर भाषण को संभालना प्रमुख मील का पत्थर था। हुआंग ने 1993 में [[विंडोज भाषण मान्यता]] की खोज की। राज रेड्डी के छात्र [[काई-फ यू ली]] एप्पल में सम्मलित हुए, जहां 1992 में, उन्होंने कैस्पर नामक एप्पल कंप्यूटर के लिए स्पीच इंटरफेस प्रोटोटाइप विकसित करने में सहायता की।


बेल्जियम स्थित वाक् पहचान कंपनी, लर्नआउट एंड हॉस्पी ने 1997 में कुर्ज़वील एप्लाइड इंटेलिजेंस और 2000 में ड्रैगन प्रणाली्स सहित कई अन्य कंपनियों का अधिग्रहण किया। एल एंड एच वाक् प्रौद्योगिकी का उपयोग [[Windows XP|विंडोज एक्सपी]] ऑपरेटिंग प्रणाली में किया गया था। 2001 में लेखा घोटाले के समाप्त होने तक एल एंड एच उद्योग अग्रणी था। एल एंड एच की वाक् प्रौद्योगिकी को स्कैनसॉफ्ट द्वारा खरीदा गया था जो 2005 में [[Nuance Communications|नौन्सी कम्यूनिकेशन]] तथा एप्पल इंक सहायक [[महोदय मै]] द्वारा बन गया।<ref>{{cite web |url=http://techpinions.com/nuance-exec-on-iphone-4s-siri-and-the-future-of-speech/3307 |title=iPhone 4S, सिरी, और भाषण के भविष्य पर बारीकियों का निष्पादन|publisher=Tech.pinions |date=10 October 2011 |access-date=23 November 2011 |url-status=live |archive-url=https://web.archive.org/web/20111119211021/http://techpinions.com/nuance-exec-on-iphone-4s-siri-and-the-future-of-speech/3307 |archive-date=19 November 2011 |df=dmy-all }}</ref>
बेल्जियम स्थित वाक् पहचान कंपनी, लर्नआउट एंड हॉस्पी ने 1997 में कुर्ज़वील एप्लाइड इंटेलिजेंस और 2000 में ड्रैगन प्रणाली्स सहित कई अन्य कंपनियों का अधिग्रहण किया। एल एंड एच वाक् प्रौद्योगिकी का उपयोग [[Windows XP|विंडोज एक्सपी]] ऑपरेटिंग प्रणाली में किया गया था। 2001 में लेखा घोटाले के समाप्त होने तक एल एंड एच उद्योग अग्रणी था। एल एंड एच की वाक् प्रौद्योगिकी को स्कैनसॉफ्ट द्वारा खरीदा गया था जो 2005 में [[Nuance Communications|नौन्सी कम्यूनिकेशन]] तथा एप्पल इंक सहायक [[महोदय मै]] द्वारा बन गया।<ref>{{cite web |url=http://techpinions.com/nuance-exec-on-iphone-4s-siri-and-the-future-of-speech/3307 |title=iPhone 4S, सिरी, और भाषण के भविष्य पर बारीकियों का निष्पादन|publisher=Tech.pinions |date=10 October 2011 |access-date=23 November 2011 |url-status=live |archive-url=https://web.archive.org/web/20111119211021/http://techpinions.com/nuance-exec-on-iphone-4s-siri-and-the-future-of-speech/3307 |archive-date=19 November 2011 |df=dmy-all }}</ref>
====2000s====
====2000s====
2000 के दशक में डारपा ने दो भाषण मान्यता कार्यक्रम प्रायोजित किए: 2002 में प्रभावी वहनीय पुन: प्रयोज्य भाषण-से-पाठ (EARS) और [[DARPA वैश्विक स्वायत्त भाषा शोषण कार्यक्रम|डारपा वैश्विक स्वायत्त भाषा शोषण कार्यक्रम]] (गेल)। ईएआरएस कार्यक्रम में चार टीमों ने भाग लिया: आईबीएम, एलआईएमएसआई और पिट्सबर्ग विश्वविद्यालय के साथ बीबीएन टेक्नोलॉजीज के नेतृत्व वाली टीम। पिट्सबर्ग, [[कैम्ब्रिज विश्वविद्यालय]], और [[अंतर्राष्ट्रीय कंप्यूटर विज्ञान संस्थान]], स्टैनफोर्ड अनुसंधान संस्थान और [[वाशिंगटन विश्वविद्यालय]] से बनी टीम। ईएआरएस ने स्विचबोर्ड टेलीफोन [[भाषण कोष]] के संग्रह को वित्त पोषित किया जिसमें 500 से अधिक वक्ताओं से 260 घंटे की रिकॉर्ड की गई बातचीत सम्मलित थी।<ref>{{cite web
2000 के दशक में डारपा ने दो भाषण मान्यता कार्यक्रम प्रायोजित किए: 2002 में प्रभावी वहनीय पुन: प्रयोज्य भाषण-से-पाठ (EARS) और [[DARPA वैश्विक स्वायत्त भाषा शोषण कार्यक्रम|डारपा वैश्विक स्वायत्त भाषा शोषण कार्यक्रम]] (गेल)। ईएआरएस कार्यक्रम में चार टीमों ने भाग लिया: आईबीएम, एलआईएमएसआई और पिट्सबर्ग विश्वविद्यालय के साथ बीबीएन प्रौद्योगिकीज के नेतृत्व वाली टीम। पिट्सबर्ग, [[कैम्ब्रिज विश्वविद्यालय]], और [[अंतर्राष्ट्रीय कंप्यूटर विज्ञान संस्थान]], स्टैनफोर्ड अनुसंधान संस्थान और [[वाशिंगटन विश्वविद्यालय]] से बनी टीम। ईएआरएस ने स्विचबोर्ड टेलीफोन [[भाषण कोष]] के संग्रह को वित्त पोषित किया जिसमें 500 से अधिक वक्ताओं से 260 घंटे की रिकॉर्ड की गई बातचीत सम्मलित थी।<ref>{{cite web
   |title=स्विचबोर्ड -1 रिलीज 2|url=https://catalog.ldc.upenn.edu/LDC97S62  |access-date=26 July 2017
   |title=स्विचबोर्ड -1 रिलीज 2|url=https://catalog.ldc.upenn.edu/LDC97S62  |access-date=26 July 2017
   |url-status=live|archive-url=https://web.archive.org/web/20170711061225/https://catalog.ldc.upenn.edu/LDC97S62|archive-date=11 July 2017
   |url-status=live|archive-url=https://web.archive.org/web/20170711061225/https://catalog.ldc.upenn.edu/LDC97S62|archive-date=11 July 2017
   |df=dmy-all}}</ref> गेल कार्यक्रम [[आधुनिक मानक अरबी]] और [[मानक चीनी]] प्रसारण समाचार भाषण पर केंद्रित था। वाक् पहचान में [[Google|गूगल]] का पहला प्रयास 2007 में Nuance के कुछ शोधकर्ताओं को काम पर रखने के पश्चात आया।<ref>{{cite web
   |df=dmy-all}}</ref> गेल कार्यक्रम [[आधुनिक मानक अरबी]] और [[मानक चीनी]] प्रसारण समाचार भाषण पर केंद्रित था। वाक् पहचान में [[Google|गूगल]] का पहला प्रयास 2007 में Nuance के कुछ शोधकर्ताओं को कार्य पर रखने के पश्चात आया।<ref>{{cite web
   |author=Jason Kincaid
   |author=Jason Kincaid
   |title=आवाज की शक्ति: Google की भाषण प्रौद्योगिकी के प्रमुख के साथ बातचीत|url=https://techcrunch.com/2011/02/13/the-power-of-voice-a-conversation-with-the-head-of-googles-speech-technology/
   |title=आवाज की शक्ति: Google की भाषण प्रौद्योगिकी के प्रमुख के साथ बातचीत|url=https://techcrunch.com/2011/02/13/the-power-of-voice-a-conversation-with-the-head-of-googles-speech-technology/
   |website=Tech Crunch|date=13 February 2011
   |website=Tech Crunch|date=13 February 2011
  |access-date=21 July 2015    |url-status=live
  |access-date=21 July 2015    |url-status=live
   |archive-url=https://web.archive.org/web/20150721034447/http://techcrunch.com/2011/02/13/the-power-of-voice-a-conversation-with-the-head-of-googles-speech-technology/|archive-date=21 July 2015|df=dmy-all}}</ref> पहला उत्पाद [[GOOG-411|गूग-411]] था, जो टेलीफोन आधारित निर्देशिका सेवा थी। गूग-411 की रिकॉर्डिंग से मूल्यवान डेटा प्राप्त हुआ जिससे गूगल को अपनी पहचान प्रणाली को बेहतर बनाने में सहायता मिली. [[Google Voice Search|गूगल वायस सर्च]] अब 30 से अधिक भाषाओं में समर्थित है।
   |archive-url=https://web.archive.org/web/20150721034447/http://techcrunch.com/2011/02/13/the-power-of-voice-a-conversation-with-the-head-of-googles-speech-technology/|archive-date=21 July 2015|df=dmy-all}}</ref> पहला उत्पाद [[GOOG-411|गूग-411]] था, जो टेलीफोन आधारित निर्देशिका सेवा थी। गूग-411 की रिकॉर्डिंग से मूल्यवान डेटा प्राप्त हुआ जिससे गूगल को अपनी पहचान प्रणाली को उत्कृष्ट बनाने में सहायता मिली. [[Google Voice Search|गूगल वायस सर्च]] अब 30 से अधिक भाषाओं में समर्थित है।


संयुक्त राज्य अमेरिका में, राष्ट्रीय सुरक्षा एजेंसी ने कम से कम 2006 से [[कीवर्ड स्पॉटिंग]] के लिए प्रकार की वाक् पहचान का उपयोग किया है।<ref>{{cite web|last1=Froomkin|first1=Dan|title=कंप्यूटर सुन रहे हैं|url=https://firstlook.org/theintercept/2015/05/05/nsa-speech-recognition-snowden-searchable-text/|website=The Intercept|access-date=20 June 2015|url-status=live|archive-url=https://web.archive.org/web/20150627185007/https://firstlook.org/theintercept/2015/05/05/nsa-speech-recognition-snowden-searchable-text/|archive-date=27 June 2015|df=dmy-all|date=2015-05-05}}</ref> यह तकनीक विश्लेषकों को बड़ी मात्रा में रिकॉर्ड की गई बातचीत के माध्यम से खोज करने और कीवर्ड के उल्लेखों को अलग करने की अनुमति देती है। रिकॉर्डिंग को अनुक्रमित किया जा सकता है और विश्लेषक रुचि की बातचीत खोजने के लिए डेटाबेस पर प्रश्न चला सकते हैं। कुछ सरकारी अनुसंधान कार्यक्रम भाषण मान्यता के खुफिया अनुप्रयोगों पर केंद्रित हैं, उदा। डारपा का ईएआरएस प्रोग्राम और आईआर्पा का [[बेबेल कार्यक्रम]]
संयुक्त राज्य अमेरिका में, राष्ट्रीय सुरक्षा एजेंसी ने कम से कम 2006 से [[कीवर्ड स्पॉटिंग]] के लिए प्रकार की वाक् पहचान का उपयोग किया है।<ref>{{cite web|last1=Froomkin|first1=Dan|title=कंप्यूटर सुन रहे हैं|url=https://firstlook.org/theintercept/2015/05/05/nsa-speech-recognition-snowden-searchable-text/|website=The Intercept|access-date=20 June 2015|url-status=live|archive-url=https://web.archive.org/web/20150627185007/https://firstlook.org/theintercept/2015/05/05/nsa-speech-recognition-snowden-searchable-text/|archive-date=27 June 2015|df=dmy-all|date=2015-05-05}}</ref> यह विधि विश्लेषकों को बड़ी मात्रा में रिकॉर्ड की गई बातचीत के माध्यम से खोज करने और कीवर्ड के उल्लेखों को अलग करने की अनुमति देती है। रिकॉर्डिंग को अनुक्रमित किया जा सकता है और विश्लेषक रुचि की बातचीत खोजने के लिए डेटाबेस पर प्रश्न चला सकते हैं। कुछ सरकारी अनुसंधान कार्यक्रम भाषण मान्यता के खुफिया अनुप्रयोगों पर केंद्रित हैं, उदा। डारपा का ईएआरएस प्रोग्राम और आईआर्पा का [[बेबेल कार्यक्रम]]


2000 के दशक की प्रारंभ में, फीडफॉरवर्ड [[कृत्रिम तंत्रिका प्रसार]] के साथ संयुक्त [[छिपे हुए मार्कोव मॉडल]] जैसे पारंपरिक दृष्टिकोणों में वाक् पहचान का अभी भी वर्चस्व था।<ref name=bourlard1994>Herve Bourlard and [[Nelson Morgan]], Connectionist Speech Recognition: A Hybrid Approach, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.</ref>
2000 के दशक की प्रारंभ में, फीडफॉरवर्ड [[कृत्रिम तंत्रिका प्रसार]] के साथ संयुक्त [[छिपे हुए मार्कोव मॉडल]] जैसे पारंपरिक दृष्टिकोणों में वाक् पहचान का अभी भी वर्चस्व था।<ref name=bourlard1994>Herve Bourlard and [[Nelson Morgan]], Connectionist Speech Recognition: A Hybrid Approach, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.</ref>
चूंकि, आज, स्पीच रिकॉग्निशन के कई पहलुओं को [[लंबी अल्पकालिक स्मृति]] (एलएसटीएम) नामक गहन शिक्षण पद्धति द्वारा ले लिया गया है, जो 1997 में [[सेप होचराइटर]] और जुरगेन श्मिटुबर द्वारा प्रकाशित [[आवर्तक तंत्रिका नेटवर्क]] है।<ref name=lstm>{{cite journal
 
चूंकि, आज, स्पीच रिकॉग्निशन के कई पहलुओं को [[लंबी अल्पकालिक स्मृति]] (एलएसटीएम) नामक गहन शिक्षण पद्धति द्वारा ले लिया गया है, जो 1997 में [[सेप होचराइटर]] और जुरगेन श्मिटुबर द्वारा प्रकाशित [[आवर्तक तंत्रिका नेटवर्क]] है।<ref name="lstm">{{cite journal
   |author1=Sepp Hochreiter    |author-link1=Sepp Hochreiter
   |author1=Sepp Hochreiter    |author-link1=Sepp Hochreiter
   |author2=J. Schmidhuber  |author-link2=Jürgen Schmidhuber
   |author2=J. Schmidhuber  |author-link2=Jürgen Schmidhuber
Line 118: Line 118:
2007 के आसपास, एलएसटीएम कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) द्वारा प्रशिक्षित किया गया<ref name="graves2006">Alex Graves, Santiago Fernandez, Faustino Gomez, and [[Jürgen Schmidhuber]] (2006). [https://mediatum.ub.tum.de/doc/1292048/file.pdf Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets]. Proceedings of ICML'06, pp. 369–376.</ref> कुछ अनुप्रयोगों में पारंपरिक वाक् पहचान को मात देना शुरू कर दिया है।<ref name="fernandez2007keyword">Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). [http://www6.in.tum.de/pub/Main/Publications/Fernandez2007b.pdf An application of recurrent neural networks to discriminative keyword spotting]. Proceedings of ICANN (2), pp. 220–229.</ref> 2015 में, गूगल की वाक् पहचान ने कथित तौर पर सीटीसी-प्रशिक्षित एलएसटीएम के माध्यम से 49% की नाटकीय प्रदर्शन छलांग का अनुभव किया, जो अब सभी स्मार्टफोन उपयोगकर्ताओं के लिए [[Google Voice|गूगल वायस]] के माध्यम से उपलब्ध है।<ref name="sak2015">Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): "[http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html Google voice search: faster and more accurate]." {{webarchive|url=https://web.archive.org/web/20160309191532/http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html |date=9 March 2016 }}</ref>
2007 के आसपास, एलएसटीएम कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) द्वारा प्रशिक्षित किया गया<ref name="graves2006">Alex Graves, Santiago Fernandez, Faustino Gomez, and [[Jürgen Schmidhuber]] (2006). [https://mediatum.ub.tum.de/doc/1292048/file.pdf Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets]. Proceedings of ICML'06, pp. 369–376.</ref> कुछ अनुप्रयोगों में पारंपरिक वाक् पहचान को मात देना शुरू कर दिया है।<ref name="fernandez2007keyword">Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). [http://www6.in.tum.de/pub/Main/Publications/Fernandez2007b.pdf An application of recurrent neural networks to discriminative keyword spotting]. Proceedings of ICANN (2), pp. 220–229.</ref> 2015 में, गूगल की वाक् पहचान ने कथित तौर पर सीटीसी-प्रशिक्षित एलएसटीएम के माध्यम से 49% की नाटकीय प्रदर्शन छलांग का अनुभव किया, जो अब सभी स्मार्टफोन उपयोगकर्ताओं के लिए [[Google Voice|गूगल वायस]] के माध्यम से उपलब्ध है।<ref name="sak2015">Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): "[http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html Google voice search: faster and more accurate]." {{webarchive|url=https://web.archive.org/web/20160309191532/http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html |date=9 March 2016 }}</ref>


[[ध्वनिक मॉडल]] के लिए डीप फीडफॉर्वर्ड (गैर-आवर्तक) नेटवर्क का उपयोग 2009 के उत्तरार्ध में [[जेफ्री हिंटन]] और उनके छात्रों द्वारा टोरंटो विश्वविद्यालय और ली डेंग द्वारा शुरू किया गया था।<ref>{{cite web |title=ढक्कन इंजी|url=https://lidengsite.wordpress.com/ |publisher=ढक्कन इंजीSite}}</ref> और माइक्रोसॉफ्ट रिसर्च में सहयोगियों, प्रारंभ में माइक्रोसॉफ्ट और टोरंटो विश्वविद्यालय के बीच सहयोगी काम में जो बाद में आईबीएम और गूगल को सम्मलित करने के लिए विस्तारित किया गया था (इसलिए उनके 2012 समीक्षा पत्र में उपशीर्षक के चार शोध समूहों के साझा विचार)।<ref name="NIPS2009">NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).</ref><ref name="HintonDengYu2012" /><ref name="ReferenceICASSP2013" /> माइक्रोसाफ्ट अनुसंधान कार्यकारी ने इस नवाचार को 1979 के पश्चात से सटीकता में सबसे नाटकीय परिवर्तन कहा।<ref name="Scientists-see-advances">{{cite news|last1=Markoff|first1=John|title=डीप-लर्निंग प्रोग्राम में वैज्ञानिक संभावनाओं को देखते हैं|url=https://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html|access-date=20 January 2015|newspaper=New York Times|date=23 November 2012|url-status=live|archive-url=https://web.archive.org/web/20121130080314/http://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html|archive-date=30 November 2012|df=dmy-all}}</ref> पिछले कुछ दशकों में लगातार वृद्धिशील सुधारों के विपरीत, गहन शिक्षण के प्रयोग से शब्द त्रुटि दर में 30% की कमी आई है।<ref name="Scientists-see-advances" /> इस नवाचार को पूरे क्षेत्र में तेजी से अपनाया गया। शोधकर्ताओं ने भाषा मॉडलिंग के लिए भी गहन शिक्षण तकनीकों का उपयोग करना शुरू कर दिया है।
[[ध्वनिक मॉडल]] के लिए डीप फीडफॉर्वर्ड (गैर-आवर्तक) नेटवर्क का उपयोग 2009 के उत्तरार्ध में [[जेफ्री हिंटन]] और उनके छात्रों द्वारा टोरंटो विश्वविद्यालय और ली डेंग द्वारा शुरू किया गया था।<ref>{{cite web |title=ढक्कन इंजी|url=https://lidengsite.wordpress.com/ |publisher=ढक्कन इंजीSite}}</ref> और माइक्रोसॉफ्ट रिसर्च में सहयोगियों, प्रारंभ में माइक्रोसॉफ्ट और टोरंटो विश्वविद्यालय के बीच सहयोगी कार्य में जो बाद में आईबीएम और गूगल को सम्मलित करने के लिए विस्तारित किया गया था (इसलिए उनके 2012 समीक्षा पत्र में उपशीर्षक के चार शोध समूहों के साझा विचार)।<ref name="NIPS2009">NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).</ref><ref name="HintonDengYu2012" /><ref name="ReferenceICASSP2013" /> माइक्रोसाफ्ट अनुसंधान कार्यकारी ने इस नवाचार को 1979 के पश्चात से सटीकता में सबसे नाटकीय परिवर्तन कहा।<ref name="Scientists-see-advances">{{cite news|last1=Markoff|first1=John|title=डीप-लर्निंग प्रोग्राम में वैज्ञानिक संभावनाओं को देखते हैं|url=https://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html|access-date=20 January 2015|newspaper=New York Times|date=23 November 2012|url-status=live|archive-url=https://web.archive.org/web/20121130080314/http://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html|archive-date=30 November 2012|df=dmy-all}}</ref> पिछले कुछ दशकों में लगातार वृद्धिशील सुधारों के विपरीत, गहन शिक्षण के प्रयोग से शब्द त्रुटि दर में 30% की कमी आई है।<ref name="Scientists-see-advances" /> इस नवाचार को पूरे क्षेत्र में तेजी से अपनाया गया। शोधकर्ताओं ने भाषा मॉडलिंग के लिए भी गहन शिक्षण विधिों का उपयोग करना शुरू कर दिया है।


भाषण मान्यता के लंबे इतिहास में, 1980, 1990 के दशक और 2000 के दशक में कुछ वर्षों के समय कृत्रिम तंत्रिका नेटवर्क के उथले रूप और गहरे रूप (जैसे आवर्तक जाल) दोनों का पता लगाया गया था।<ref name="Morgan1993">Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"</ref><ref name="Robinson1992">{{cite book |doi=10.1109/ICASSP.1992.225833 |isbn=0-7803-0532-9 |author=T. Robinson |title=[कार्यवाही] ICASSP-92: 1992 ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन|chapter=A real-time recurrent error propagation network word recognition system |pages=617–620 vol.1 |chapter-url=https://www.researchgate.net/publication/3532171|author-link=Tony Robinson (speech recognition) |year=1992 |s2cid=62446313 }}</ref><ref name="Waibel1989">[[Alex Waibel|Waibel]], Hanazawa, Hinton, Shikano, Lang. (1989) "[http://www.inf.ufrgs.br/~engel/data/media/file/cmp121/waibel89_TDNN.pdf Phoneme recognition using time-delay neural networks]. IEEE Transactions on Acoustics, Speech, and Signal Processing."</ref>
भाषण मान्यता के लंबे इतिहास में, 1980, 1990 के दशक और 2000 के दशक में कुछ वर्षों के समय कृत्रिम तंत्रिका नेटवर्क के उथले रूप और गहरे रूप (जैसे आवर्तक जाल) दोनों का पता लगाया गया था।<ref name="Morgan1993">Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"</ref><ref name="Robinson1992">{{cite book |doi=10.1109/ICASSP.1992.225833 |isbn=0-7803-0532-9 |author=T. Robinson |title=[कार्यवाही] ICASSP-92: 1992 ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन|chapter=A real-time recurrent error propagation network word recognition system |pages=617–620 vol.1 |chapter-url=https://www.researchgate.net/publication/3532171|author-link=Tony Robinson (speech recognition) |year=1992 |s2cid=62446313 }}</ref><ref name="Waibel1989">[[Alex Waibel|Waibel]], Hanazawa, Hinton, Shikano, Lang. (1989) "[http://www.inf.ufrgs.br/~engel/data/media/file/cmp121/waibel89_TDNN.pdf Phoneme recognition using time-delay neural networks]. IEEE Transactions on Acoustics, Speech, and Signal Processing."</ref>


लेकिन इन विधियों ने गैर-समान आंतरिक-हैंडक्राफ्टिंग मिक्स्चर [[छिपा हुआ मार्कोव मॉडल]] (जीएमएम-एचएमएम) तकनीक पर कभी जीत हासिल नहीं की, जो भेदभावपूर्ण विधि से प्रशिक्षित भाषण के जनरेटिव मॉडल पर आधारित है।<ref name="Baker2009">{{cite journal|last1=Baker|first1=J.|last2=Li Deng|last3=Glass|first3=J.|last4=Khudanpur|first4=S.|last5=Chin-Hui Lee|author-link5=Chin-Hui Lee|last6=Morgan|first6=N.|last7=O'Shaughnessy|first7=D.|year=2009|title=वाक् पहचान और समझ में विकास और दिशाएं, भाग 1|journal=IEEE Signal Processing Magazine|volume=26|issue=3|pages=75–80|doi=10.1109/MSP.2009.932166|bibcode=2009ISPM...26...75B|s2cid=357467|hdl=1721.1/51891|hdl-access=free}}</ref> 1990 के दशक में कई प्रमुख कठिनाइयों का पद्धतिगत रूप से विश्लेषण किया गया था, जिसमें धीरे-धीरे ह्रासमान भी सम्मलित था<ref name="hochreiter1991">[[Sepp Hochreiter]] (1991), [http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen] {{webarchive|url=https://web.archive.org/web/20150306075401/http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf |date=6 March 2015 }}, Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber.</ref> और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना हैं।<ref name="Bengio1991">{{cite thesis |first=Y. |last=Bengio |year=1991 |title=कृत्रिम तंत्रिका नेटवर्क और भाषण/अनुक्रम पहचान के लिए उनका अनुप्रयोग|type=Ph.D. |publisher=McGill University|url=https://elibrary.ru/item.asp?id=5790854}}</ref><ref name="Deng1994">{{cite journal|last1=Deng|first1=L.|last2=Hassanein|first2=K.|last3=Elmasry|first3=M.|year=1994|title=भाषण मान्यता के लिए आवेदन के साथ एक तंत्रिका भविष्य कहनेवाला मॉडल के लिए सहसंबंध संरचना का विश्लेषण|journal=Neural Networks|volume=7|issue=2|pages=331–339|doi=10.1016/0893-6080(94)90027-2}}</ref> ये सभी कठिनाइयाँ इन प्रारंभिकी दिनों में बड़े प्रशिक्षण डेटा और बड़ी कंप्यूटिंग शक्ति की कमी के अतिरिक्त थीं। अधिकांश भाषण मान्यता शोधकर्ता जो इस तरह की बाधाओं को समझते थे, इसलिए पश्चात में 2009-2010 के आसपास शुरू होने वाली डीप लर्निंग के पुनरुत्थान तक जनरेटिव मॉडलिंग दृष्टिकोणों को आगे बढ़ाने के लिए तंत्रिका जाल से दूर चले गए, जिसने इन सभी कठिनाइयों को दूर कर दिया था। हिंटन एट अल और डेंग एट अल ने इस इतिहास के इस भाग की समीक्षा की कि कैसे दूसरे के साथ और फिर चार समूहों (टोरंटो विश्वविद्यालय, माइक्रोसॉफ्ट, गूगल और आईबीएम) के सहयोगियों के साथ उनके सहयोग ने वाक् पहचान के लिए गहरे फीडफॉरवर्ड न्यूरल नेटवर्क के अनुप्रयोगों के पुनर्जागरण को प्रज्वलित किया।<ref name="HintonDengYu2012">{{cite journal|last1=Hinton|first1=Geoffrey|last2=Deng|first2=Li|last3=Yu|first3=Dong|last4=Dahl|first4=George|last5=Mohamed|first5=Abdel-Rahman|last6=Jaitly|first6=Navdeep|last7=Senior|first7=Andrew|last8=Vanhoucke|first8=Vincent|last9=Nguyen|first9=Patrick|last10=Sainath|first10=Tara|last11=Kingsbury|first11=Brian|year=2012|title=वाक् पहचान में ध्वनिक मॉडलिंग के लिए डीप न्यूरल नेटवर्क: चार शोध समूहों के साझा विचार|journal=IEEE Signal Processing Magazine|volume=29|issue=6|pages=82–97|doi=10.1109/MSP.2012.2205597|bibcode=2012ISPM...29...82H|s2cid=206485943}}</ref><ref name="ReferenceICASSP2013">{{cite book|last1=Deng|first1=L.|title=ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर 2013 IEEE अंतर्राष्ट्रीय सम्मेलन: वाक् पहचान और संबंधित अनुप्रयोगों के लिए नए प्रकार के गहरे तंत्रिका नेटवर्क सीखना: एक सिंहावलोकन|pages=8599|last2=Hinton|first2=G.|last3=Kingsbury|first3=B.| date=2013|doi=10.1109/ICASSP.2013.6639344 |isbn=978-1-4799-0356-6|chapter=New types of deep neural network learning for speech recognition and related applications: An overview|s2cid=13953660}}</ref><ref name="HintonKeynoteICASSP2013">Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).</ref><ref name="interspeech2014Keynote">Keynote talk: "[https://www.isca-speech.org/archive/interspeech_2014/i14_3505.html Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing]," Interspeech, September 2014 (by [[Li Deng]]).</ref>
लेकिन इन विधियों ने गैर-समान आंतरिक-हैंडक्राफ्टिंग मिक्स्चर [[छिपा हुआ मार्कोव मॉडल]] (जीएमएम-एचएमएम) विधि पर कभी जीत प्राप्त नहीं की, जो भेदभावपूर्ण विधि से प्रशिक्षित भाषण के जनरेटिव मॉडल पर आधारित है।<ref name="Baker2009">{{cite journal|last1=Baker|first1=J.|last2=Li Deng|last3=Glass|first3=J.|last4=Khudanpur|first4=S.|last5=Chin-Hui Lee|author-link5=Chin-Hui Lee|last6=Morgan|first6=N.|last7=O'Shaughnessy|first7=D.|year=2009|title=वाक् पहचान और समझ में विकास और दिशाएं, भाग 1|journal=IEEE Signal Processing Magazine|volume=26|issue=3|pages=75–80|doi=10.1109/MSP.2009.932166|bibcode=2009ISPM...26...75B|s2cid=357467|hdl=1721.1/51891|hdl-access=free}}</ref> 1990 के दशक में कई प्रमुख कठिनाइयों का पद्धतिगत रूप से विश्लेषण किया गया था, जिसमें धीरे-धीरे ह्रासमान भी सम्मलित था<ref name="hochreiter1991">[[Sepp Hochreiter]] (1991), [http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen] {{webarchive|url=https://web.archive.org/web/20150306075401/http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf |date=6 March 2015 }}, Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber.</ref> और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना हैं।<ref name="Bengio1991">{{cite thesis |first=Y. |last=Bengio |year=1991 |title=कृत्रिम तंत्रिका नेटवर्क और भाषण/अनुक्रम पहचान के लिए उनका अनुप्रयोग|type=Ph.D. |publisher=McGill University|url=https://elibrary.ru/item.asp?id=5790854}}</ref><ref name="Deng1994">{{cite journal|last1=Deng|first1=L.|last2=Hassanein|first2=K.|last3=Elmasry|first3=M.|year=1994|title=भाषण मान्यता के लिए आवेदन के साथ एक तंत्रिका भविष्य कहनेवाला मॉडल के लिए सहसंबंध संरचना का विश्लेषण|journal=Neural Networks|volume=7|issue=2|pages=331–339|doi=10.1016/0893-6080(94)90027-2}}</ref> ये सभी कठिनाइयाँ इन प्रारंभिकी दिनों में बड़े प्रशिक्षण डेटा और बड़ी कंप्यूटिंग शक्ति की कमी के अतिरिक्त थीं। अधिकांश भाषण मान्यता शोधकर्ता जो इस तरह की बाधाओं को समझते थे, इसलिए पश्चात में 2009-2010 के आसपास शुरू होने वाली डीप लर्निंग के पुनरुत्थान तक जनरेटिव मॉडलिंग दृष्टिकोणों को आगे बढ़ाने के लिए तंत्रिका जाल से दूर चले गए, जिसने इन सभी कठिनाइयों को दूर कर दिया था। हिंटन एट अल और डेंग एट अल ने इस इतिहास के इस भाग की समीक्षा की कि कैसे दूसरे के साथ और फिर चार समूहों (टोरंटो विश्वविद्यालय, माइक्रोसॉफ्ट, गूगल और आईबीएम) के सहयोगियों के साथ उनके सहयोग ने वाक् पहचान के लिए गहरे फीडफॉरवर्ड न्यूरल नेटवर्क के अनुप्रयोगों के पुनर्जागरण को प्रज्वलित किया।<ref name="HintonDengYu2012">{{cite journal|last1=Hinton|first1=Geoffrey|last2=Deng|first2=Li|last3=Yu|first3=Dong|last4=Dahl|first4=George|last5=Mohamed|first5=Abdel-Rahman|last6=Jaitly|first6=Navdeep|last7=Senior|first7=Andrew|last8=Vanhoucke|first8=Vincent|last9=Nguyen|first9=Patrick|last10=Sainath|first10=Tara|last11=Kingsbury|first11=Brian|year=2012|title=वाक् पहचान में ध्वनिक मॉडलिंग के लिए डीप न्यूरल नेटवर्क: चार शोध समूहों के साझा विचार|journal=IEEE Signal Processing Magazine|volume=29|issue=6|pages=82–97|doi=10.1109/MSP.2012.2205597|bibcode=2012ISPM...29...82H|s2cid=206485943}}</ref><ref name="ReferenceICASSP2013">{{cite book|last1=Deng|first1=L.|title=ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर 2013 IEEE अंतर्राष्ट्रीय सम्मेलन: वाक् पहचान और संबंधित अनुप्रयोगों के लिए नए प्रकार के गहरे तंत्रिका नेटवर्क सीखना: एक सिंहावलोकन|pages=8599|last2=Hinton|first2=G.|last3=Kingsbury|first3=B.| date=2013|doi=10.1109/ICASSP.2013.6639344 |isbn=978-1-4799-0356-6|chapter=New types of deep neural network learning for speech recognition and related applications: An overview|s2cid=13953660}}</ref><ref name="HintonKeynoteICASSP2013">Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).</ref><ref name="interspeech2014Keynote">Keynote talk: "[https://www.isca-speech.org/archive/interspeech_2014/i14_3505.html Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing]," Interspeech, September 2014 (by [[Li Deng]]).</ref>
====2010 ====
====2010 ====
2010 की प्रारंभ में वाक् पहचान, जिसे ध्वनि पहचान भी कहा जाता है<ref>{{cite web
2010 की प्रारंभ में वाक् पहचान, जिसे ध्वनि पहचान भी कहा जाता है<ref>{{cite web
Line 135: Line 135:
   |quote=कुछ साल पहले, वाक् पहचान ...}}</ref> तक सीमित थी वक्ता की मान्यता से स्पष्ट रूप से अलग था, और वक्ता की स्वतंत्रता को बड़ी सफलता माना गया था। तब तक, प्रणाली को प्रशिक्षण अवधि की आवश्यकता होती है। 1987 में डॉल के विज्ञापन में टैगलाइन दी गई थी फाइनली, डॉल जो आपको समझती है। - इस तथ्य के अतिरिक्त कि यह वर्णन किया गया था कि कौन से बच्चे अपनी ध्वनि का जवाब देने के लिए प्रशिक्षित कर सकते हैं।<ref name=PCW.Siri/>
   |quote=कुछ साल पहले, वाक् पहचान ...}}</ref> तक सीमित थी वक्ता की मान्यता से स्पष्ट रूप से अलग था, और वक्ता की स्वतंत्रता को बड़ी सफलता माना गया था। तब तक, प्रणाली को प्रशिक्षण अवधि की आवश्यकता होती है। 1987 में डॉल के विज्ञापन में टैगलाइन दी गई थी फाइनली, डॉल जो आपको समझती है। - इस तथ्य के अतिरिक्त कि यह वर्णन किया गया था कि कौन से बच्चे अपनी ध्वनि का जवाब देने के लिए प्रशिक्षित कर सकते हैं।<ref name=PCW.Siri/>


2017 में, माइक्रोसाफ्ट शोधकर्ता व्यापक रूप से बेंचमार्क किए गए स्विचबोर्ड कार्य पर संवादी टेलीफोनी भाषण को प्रसारित करने के ऐतिहासिक मानवीय समता मील के पत्थर पर पहुंच गए। भाषण पहचान सटीकता को अनुकूलित करने के लिए कई गहन शिक्षण मॉडल का उपयोग किया गया था। भाषण पहचान शब्द त्रुटि दर को ही बेंचमार्क पर साथ काम करने वाले 4 विशेषज्ञ मानव प्रतिलेखकों के रूप में कम बताया गया था, जिसे आईबीएम वाटसन भाषण टीम द्वारा ही कार्य पर वित्त पोषित किया गया था।<ref>{{Cite web|url=https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/|title=Microsoft शोधकर्ताओं ने नई संवादी वाक् पहचान मील का पत्थर हासिल किया|website=[[Microsoft]]|date=21 August 2017}}</ref>
2017 में, माइक्रोसाफ्ट शोधकर्ता व्यापक रूप से बेंचमार्क किए गए स्विचबोर्ड कार्य पर संवादी टेलीफोनी भाषण को प्रसारित करने के ऐतिहासिक मानवीय समता मील के पत्थर पर पहुंच गए। भाषण पहचान सटीकता को अनुकूलित करने के लिए कई गहन शिक्षण मॉडल का उपयोग किया गया था। भाषण पहचान शब्द त्रुटि दर को ही बेंचमार्क पर साथ कार्य करने वाले 4 विशेषज्ञ मानव प्रतिलेखकों के रूप में कम बताया गया था, जिसे आईबीएम वाटसन भाषण टीम द्वारा ही कार्य पर वित्त पोषित किया गया था।<ref>{{Cite web|url=https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/|title=Microsoft शोधकर्ताओं ने नई संवादी वाक् पहचान मील का पत्थर हासिल किया|website=[[Microsoft]]|date=21 August 2017}}</ref>
== मॉडल, विधि और एल्गोरिदम ==
== मॉडल, विधि और एल्गोरिदम ==
ध्वनिक मॉडलिंग और [[भाषा मॉडल]] दोनों ही आधुनिक सांख्यिकीय आधारित वाक् पहचान एल्गोरिदम के महत्वपूर्ण भाग हैं। छिपे हुए मार्कोव मॉडल (एचएमएम) कई प्रणालियों में व्यापक रूप से उपयोग किए जाते हैं। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे [[दस्तावेज़ वर्गीकरण]] या [[सांख्यिकीय मशीन अनुवाद]] में भी किया जाता है।
ध्वनिक मॉडलिंग और [[भाषा मॉडल]] दोनों ही आधुनिक सांख्यिकीय आधारित वाक् पहचान एल्गोरिदम के महत्वपूर्ण भाग हैं। छिपे हुए मार्कोव मॉडल (एचएमएम) कई प्रणालियों में व्यापक रूप से उपयोग किए जाते हैं। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे [[दस्तावेज़ वर्गीकरण]] या [[सांख्यिकीय मशीन अनुवाद]] में भी किया जाता है।
Line 145: Line 145:
एचएमएम के लोकप्रिय होने का और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटरीकृत रूप से व्यवहार्य हैं। वाक् पहचान में, छिपा हुआ मार्कोव मॉडल एन-डायमेंशनल रियल-वैल्यूड वैक्टर (एन के साथ छोटा पूर्णांक, जैसे 10) के अनुक्रम को आउटपुट करेगा, इनमें से प्रत्येक 10 मिलीसेकंड में से को आउटपुट करेगा। सदिशों में [[प्रभुत्व]] गुणांक सम्मलित होंगे, जो भाषण की छोटी समय की खिड़की के [[फूरियर रूपांतरण]] और कोसाइन परिवर्तन का उपयोग करके स्पेक्ट्रम को सजाने के द्वारा प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छिपे हुए मार्कोव मॉडल में प्रत्येक राज्य में सांख्यिकीय वितरण होता है जो विकर्ण सहप्रसरण गॉसियन का मिश्रण होता है, जो प्रत्येक मनाया वेक्टर के लिए संभावना देगा। प्रत्येक शब्द, या (अधिक सामान्य वाक् पहचान प्रणाली के लिए), प्रत्येक [[स्वनिम]] का अलग आउटपुट वितरण होगा; शब्दों या स्वरों के अनुक्रम के लिए छिपा हुआ मार्कोव मॉडल अलग-अलग शब्दों और स्वरों के लिए अलग-अलग प्रशिक्षित छिपे हुए मार्कोव मॉडल को जोड़कर बनाया गया है।
एचएमएम के लोकप्रिय होने का और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटरीकृत रूप से व्यवहार्य हैं। वाक् पहचान में, छिपा हुआ मार्कोव मॉडल एन-डायमेंशनल रियल-वैल्यूड वैक्टर (एन के साथ छोटा पूर्णांक, जैसे 10) के अनुक्रम को आउटपुट करेगा, इनमें से प्रत्येक 10 मिलीसेकंड में से को आउटपुट करेगा। सदिशों में [[प्रभुत्व]] गुणांक सम्मलित होंगे, जो भाषण की छोटी समय की खिड़की के [[फूरियर रूपांतरण]] और कोसाइन परिवर्तन का उपयोग करके स्पेक्ट्रम को सजाने के द्वारा प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छिपे हुए मार्कोव मॉडल में प्रत्येक राज्य में सांख्यिकीय वितरण होता है जो विकर्ण सहप्रसरण गॉसियन का मिश्रण होता है, जो प्रत्येक मनाया वेक्टर के लिए संभावना देगा। प्रत्येक शब्द, या (अधिक सामान्य वाक् पहचान प्रणाली के लिए), प्रत्येक [[स्वनिम]] का अलग आउटपुट वितरण होगा; शब्दों या स्वरों के अनुक्रम के लिए छिपा हुआ मार्कोव मॉडल अलग-अलग शब्दों और स्वरों के लिए अलग-अलग प्रशिक्षित छिपे हुए मार्कोव मॉडल को जोड़कर बनाया गया है।


ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम-आधारित दृष्टिकोण के मूल तत्व हैं। ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को बेहतर बनाने के लिए आधुनिक वाक् पहचान प्रणालियाँ कई मानक तकनीकों के विभिन्न संयोजनों का उपयोग करती हैं। विशिष्ट बड़ी-शब्दावली प्रणाली को स्वरों के लिए [[संदर्भ निर्भरता]] की आवश्यकता होगी (इसलिए अलग-अलग बाएँ और दाएँ संदर्भ वाले स्वरों में एचएमएम स्थितियों के रूप में अलग-अलग महसूस होते हैं); यह अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्य करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे के स्पीकर सामान्यीकरण के लिए, यह पुरुष-महिला सामान्यीकरण के लिए वोकल ट्रैक्ट लेंथ नॉर्मलाइज़ेशन (वीटीएलएन) और अधिक सामान्य स्पीकर अनुकूलन के लिए [[अधिकतम संभावना रैखिक प्रतिगमन]] (एमएलएलआर) का उपयोग कर सकता है। भाषण की गतिशीलता को पकड़ने के लिए सुविधाओं में तथाकथित [[डेल्टा गुणांक]] और [[डेल्टा-डेल्टा गुणांक]] होंगे और इसके अतिरिक्त, [[विषमलैंगिक]] [[रैखिक विभेदक विश्लेषण]] (एचएलडीए) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांकों को छोड़ सकते हैं और स्प्लिसिंग (वाक् पहचान) और रैखिक विभेदक विश्लेषण-आधारित प्रक्षेपण का उपयोग कर सकते हैं, जिसके पश्चात [[विषमलैंगिक रैखिक विभेदक विश्लेषण]] या वैश्विक अर्ध-बंधे सह-प्रसरण परिवर्तन (जिसे [[अधिकतम संभावना रैखिक परिवर्तन]] के रूप में भी जाना जाता है) या एमएलएलटी)। कई प्रणालियाँ तथाकथित भेदभावपूर्ण प्रशिक्षण तकनीकों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए विशुद्ध रूप से सांख्यिकीय दृष्टिकोण से दूर होती हैं और इसके अतिरिक्त प्रशिक्षण डेटा के कुछ वर्गीकरण-संबंधित माप का अनुकूलन करती हैं। इसका मुख्य उदाहरण अधिकतम [[आपसी जानकारी]] (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई), और न्यूनतम फोन त्रुटि (एमपीई) हैं।
ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम-आधारित दृष्टिकोण के मूल तत्व हैं। ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को उत्कृष्ट बनाने के लिए आधुनिक वाक् पहचान प्रणालियाँ कई मानक विधिों के विभिन्न संयोजनों का उपयोग करती हैं। विशिष्ट बड़ी-शब्दावली प्रणाली को स्वरों के लिए [[संदर्भ निर्भरता]] की आवश्यकता होगी (इसलिए अलग-अलग बाएँ और दाएँ संदर्भ वाले स्वरों में एचएमएम स्थितियों के रूप में अलग-अलग महसूस होते हैं); यह अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्य करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे के स्पीकर सामान्यीकरण के लिए, यह पुरुष-महिला सामान्यीकरण के लिए वोकल ट्रैक्ट लेंथ नॉर्मलाइज़ेशन (वीटीएलएन) और अधिक सामान्य स्पीकर अनुकूलन के लिए [[अधिकतम संभावना रैखिक प्रतिगमन]] (एमएलएलआर) का उपयोग कर सकता है। भाषण की गतिशीलता को पकड़ने के लिए सुविधाओं में तथाकथित [[डेल्टा गुणांक]] और [[डेल्टा-डेल्टा गुणांक]] होंगे और इसके अतिरिक्त, [[विषमलैंगिक]] [[रैखिक विभेदक विश्लेषण]] (एचएलडीए) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांकों को छोड़ सकते हैं और स्प्लिसिंग (वाक् पहचान) और रैखिक विभेदक विश्लेषण-आधारित प्रक्षेपण का उपयोग कर सकते हैं, जिसके पश्चात [[विषमलैंगिक रैखिक विभेदक विश्लेषण]] या वैश्विक अर्ध-बंधे सह-प्रसरण परिवर्तन (जिसे [[अधिकतम संभावना रैखिक परिवर्तन]] के रूप में भी जाना जाता है) या एमएलएलटी)। कई प्रणालियाँ तथाकथित भेदभावपूर्ण प्रशिक्षण विधिों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए विशुद्ध रूप से सांख्यिकीय दृष्टिकोण से दूर होती हैं और इसके अतिरिक्त प्रशिक्षण डेटा के कुछ वर्गीकरण-संबंधित माप का अनुकूलन करती हैं। इसका मुख्य उदाहरण अधिकतम [[आपसी जानकारी]] (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई), और न्यूनतम फोन त्रुटि (एमपीई) हैं।


भाषण का डिकोडिंग (क्या होता है जब प्रणाली को नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे संभावित स्रोत वाक्य की गणना करनी चाहिए) शायद सबसे अच्छा रास्ता खोजने के लिए [[विटरबी एल्गोरिथ्म]] का उपयोग करेगा, और यहां गतिशील रूप से विकल्प बनाने के बीच विकल्प है संयोजन छिपा हुआ मार्कोव मॉडल, जिसमें ध्वनिक और भाषा दोनों मॉडल की जानकारी सम्मलित है और इसे पहले से स्थिर रूप से संयोजित करना ([[परिमित राज्य ट्रांसड्यूसर]], या एफएसटी, दृष्टिकोण) सम्मलित हैं।
भाषण का डिकोडिंग (क्या होता है जब प्रणाली को नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे संभावित स्रोत वाक्य की गणना करनी चाहिए) शायद सबसे अच्छा रास्ता खोजने के लिए [[विटरबी एल्गोरिथ्म]] का उपयोग करेगा, और यहां गतिशील रूप से विकल्प बनाने के बीच विकल्प है संयोजन छिपा हुआ मार्कोव मॉडल, जिसमें ध्वनिक और भाषा दोनों मॉडल की जानकारी सम्मलित है और इसे पहले से स्थिर रूप से संयोजित करना ([[परिमित राज्य ट्रांसड्यूसर]], या एफएसटी, दृष्टिकोण) सम्मलित हैं।


डिकोडिंग में संभावित सुधार सिर्फ सर्वश्रेष्ठ उम्मीदवार को रखने के अतिरिक्त अच्छे उम्मीदवारों का सेट रखना है, और इन अच्छे उम्मीदवारों को रेट करने के लिए बेहतर स्कोरिंग फ़ंक्शन ([[पुनः स्कोरिंग (एएसआर)]]) का उपयोग करना है जिससे कि हम अपने अनुसार सर्वश्रेष्ठ उम्मीदवार चुन सकें। यह परिष्कृत स्कोर। उम्मीदवारों के सेट को या तो सूची के रूप में रखा जा सकता है ([[एन-सर्वश्रेष्ठ सूची]] अनुमोदन) या मॉडलों के सबसेट के रूप में (एक जाली (क्रम)) उपयोग किया जाता हैं। री स्कोरिंग सामान्यतः [[बेयस जोखिम]] को कम करने का प्रयास करके किया जाता है<ref>{{cite journal
डिकोडिंग में संभावित सुधार सिर्फ सर्वश्रेष्ठ उम्मीदवार को रखने के अतिरिक्त अच्छे उम्मीदवारों का सेट रखना है, और इन अच्छे उम्मीदवारों को रेट करने के लिए उत्कृष्ट स्कोरिंग फ़ंक्शन ([[पुनः स्कोरिंग (एएसआर)]]) का उपयोग करना है जिससे कि हम अपने अनुसार सर्वश्रेष्ठ उम्मीदवार चुन सकें। यह परिष्कृत स्कोर। उम्मीदवारों के सेट को या तो सूची के रूप में रखा जा सकता है ([[एन-सर्वश्रेष्ठ सूची]] अनुमोदन) या मॉडलों के सबसेट के रूप में (एक जाली (क्रम)) उपयोग किया जाता हैं। री स्कोरिंग सामान्यतः [[बेयस जोखिम]] को कम करने का प्रयास करके किया जाता है<ref>{{cite journal
  |last1      = Goel
  |last1      = Goel
  |first1      = Vaibhava
  |first1      = Vaibhava
Line 189: Line 189:
डायनेमिक टाइम वारपिंग दृष्टिकोण है जो ऐतिहासिक रूप से वाक् पहचान के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण द्वारा विस्थापित कर दिया गया है।
डायनेमिक टाइम वारपिंग दृष्टिकोण है जो ऐतिहासिक रूप से वाक् पहचान के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण द्वारा विस्थापित कर दिया गया है।


डायनेमिक टाइम वारपिंग दो अनुक्रमों के बीच समानता को मापने के लिए एल्गोरिथ्म है जो समय या गति में भिन्न हो सकता है। उदाहरण के लिए, चलने के पैटर्न में समानता का पता लगाया जाएगा, भले ही वीडियो में व्यक्ति धीरे-धीरे चल रहा हो और यदि दूसरे वीडियो में वह अधिक तेज़ी से चल रहा हो, या भले ही अवलोकन के समय त्वरण और मंदी हो जाती हैं। डीटीडब्ल्यू को वीडियो, ऑडियो और ग्राफ़िक्स पर लागू किया गया है - वास्तव में, कोई भी डेटा जिसे रेखीय प्रतिनिधित्व में बदला जा सकता है, उसका विश्लेषण डीटीडब्ल्यू के साथ किया जा सकता है।
डायनेमिक टाइम वारपिंग दो अनुक्रमों के बीच समानता को मापने के लिए एल्गोरिथ्म है जो समय या गति में भिन्न हो सकता है। उदाहरण के लिए, चलने के स्वरूप में समानता का पता लगाया जाएगा, भले ही वीडियो में व्यक्ति धीरे-धीरे चल रहा हो और यदि दूसरे वीडियो में वह अधिक तेज़ी से चल रहा हो, या भले ही अवलोकन के समय त्वरण और मंदी हो जाती हैं। डीटीडब्ल्यू को वीडियो, ऑडियो और ग्राफ़िक्स पर लागू किया गया है - वास्तव में, कोई भी डेटा जिसे रेखीय प्रतिनिधित्व में बदला जा सकता है, उसका विश्लेषण डीटीडब्ल्यू के साथ किया जा सकता है।


अलग-अलग बोलने की गति से निपटने के लिए प्रसिद्ध एप्लिकेशन स्वचालित वाक् पहचान है। सामान्यतः, यह ऐसी विधि है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (जैसे, समय श्रृंखला) के बीच इष्टतम मिलान खोजने की अनुमति देती है। यही है, दृश्यों को दूसरे से मेल खाने के लिए गैर-रैखिक रूप से विकृत किया जाता है। यह अनुक्रम संरेखण विधि अधिकांशतः छिपे हुए मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।
अलग-अलग बोलने की गति से निपटने के लिए प्रसिद्ध एप्लिकेशन स्वचालित वाक् पहचान है। सामान्यतः, यह ऐसी विधि है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (जैसे, समय श्रृंखला) के बीच इष्टतम मिलान खोजने की अनुमति देती है। यही है, दृश्यों को दूसरे से मेल खाने के लिए गैर-रैखिक रूप से विकृत किया जाता है। यह अनुक्रम संरेखण विधि अधिकांशतः छिपे हुए मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।
Line 199: Line 199:
[[कृत्रिम तंत्रिका नेटवर्क]] एचएमएम की तुलना में फीचर सांख्यिकीय गुणों के बारे में कम स्पष्ट धारणाएं बनाते हैं और भाषण मान्यता के लिए उन्हें आकर्षक पहचान मॉडल बनाने वाले कई गुण हैं। जब भाषण सुविधा भाग की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तो तंत्रिका नेटवर्क स्वाभाविक और कुशल विधि से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। चूंकि, कम समय की इकाइयों जैसे अलग-अलग स्वरों और पृथक शब्दों को वर्गीकृत करने में उनकी प्रभावशीलता के अतिरिक्त <ref>एस। ए. ज़होरियन, ए.एम. ज़िमर, और एफ. मेंग, (2002) [https://www.researchgate.net/profile/Stephen_Zahorian/publication/221480228_Vowel_classification_for_computer-based_visual_feedback_for_speech_training_for_the_hearing_impaired/links/00b7d525d25f51c585000000 श्रवणबाधित लोगों के लिए प्रशिक्षण], ICSLP 2002</ref> प्रारंभिक तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल रहे थे क्योंकि अस्थायी निर्भरताओं को मॉडल करने की उनकी सीमित क्षमता थी।
[[कृत्रिम तंत्रिका नेटवर्क]] एचएमएम की तुलना में फीचर सांख्यिकीय गुणों के बारे में कम स्पष्ट धारणाएं बनाते हैं और भाषण मान्यता के लिए उन्हें आकर्षक पहचान मॉडल बनाने वाले कई गुण हैं। जब भाषण सुविधा भाग की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तो तंत्रिका नेटवर्क स्वाभाविक और कुशल विधि से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। चूंकि, कम समय की इकाइयों जैसे अलग-अलग स्वरों और पृथक शब्दों को वर्गीकृत करने में उनकी प्रभावशीलता के अतिरिक्त <ref>एस। ए. ज़होरियन, ए.एम. ज़िमर, और एफ. मेंग, (2002) [https://www.researchgate.net/profile/Stephen_Zahorian/publication/221480228_Vowel_classification_for_computer-based_visual_feedback_for_speech_training_for_the_hearing_impaired/links/00b7d525d25f51c585000000 श्रवणबाधित लोगों के लिए प्रशिक्षण], ICSLP 2002</ref> प्रारंभिक तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल रहे थे क्योंकि अस्थायी निर्भरताओं को मॉडल करने की उनकी सीमित क्षमता थी।


इस सीमा के लिए दृष्टिकोण तंत्रिका नेटवर्क को पूर्व-प्रसंस्करण, सुविधा परिवर्तन या आयामी कमी के रूप में उपयोग करना था, <ref>{{cite book|first1=Hongbing|last1=Hu|first2=Stephen A.|last2=Zahorian|year=2010|chapter-url=http://bingweb.binghamton.edu/~hhu1/paper/Hu2010Dimensionality.pdf|chapter=Dimensionality Reduction Methods for HMM Phonetic Recognition|title=आईसीएएसएसपी 2010|url-status=live|archive-url=http://archive.wikiwix.com/cache/20120706063756/http://bingweb.binghamton.edu/~hhu1/paper/Hu2010Dimensionality.pdf|archive-date=6 July 2012|df=dmy-all}}</ref> एचएमएम आधारित मान्यता से पहले का चरण हैं। चूंकि, हाल ही में, एलएसटीएम और संबंधित आवर्तक तंत्रिका नेटवर्क (आरएनएनs)<ref name="lstm"/><ref name="sak2015"/><ref name="fernandez2007">{{cite book|title=आईजेसीएआई की कार्यवाही|last2=Graves|first2=Alex|last3=Schmidhuber|first3=Jürgen|year=2007|chapter=Sequence labelling in structured domains with hierarchical recurrent neural networks|first1=Santiago|last1=Fernandez|author-link3=Jürgen Schmidhuber|chapter-url=http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-124.pdf|url-status=live|archive-url=https://web.archive.org/web/20170815003130/http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-124.pdf|archive-date=15 August 2017|df=dmy-all}}</ref><ref>{{cite arXiv | first1=Alex | last1=Graves | first2=Abdel-rahman | last2=Mohamed | first3=Geoffrey | last3=Hinton | title=गहरे आवर्तक तंत्रिका नेटवर्क के साथ वाक् पहचान| eprint=1303.5778 | class=cs.NE | year=2013}} ICASSP 2013.</ref> और समय विलंब तंत्रिका नेटवर्क (टीडीएनएन)<ref>{{cite journal|first=Alex|last=Waibel|year=1989|title=भाषण मान्यता के लिए समय-विलंब तंत्रिका नेटवर्क का मॉड्यूलर निर्माण|url=http://isl.anthropomatik.kit.edu/cmu-kit/Modular_Construction_of_Time-Delay_Neural_Networks_for_Speech_Recognition.pdf|journal=Neural Computation|volume=1|issue=1|pages=39–46|doi=10.1162/neco.1989.1.1.39|s2cid=236321|url-status=live|archive-url=https://web.archive.org/web/20160629180846/http://isl.anthropomatik.kit.edu/cmu-kit/Modular_Construction_of_Time-Delay_Neural_Networks_for_Speech_Recognition.pdf|archive-date=29 June 2016|df=dmy-all}}</ref> इस क्षेत्र में बेहतर प्रदर्शन किया है।
इस सीमा के लिए दृष्टिकोण तंत्रिका नेटवर्क को पूर्व-प्रसंस्करण, सुविधा परिवर्तन या आयामी कमी के रूप में उपयोग करना था, <ref>{{cite book|first1=Hongbing|last1=Hu|first2=Stephen A.|last2=Zahorian|year=2010|chapter-url=http://bingweb.binghamton.edu/~hhu1/paper/Hu2010Dimensionality.pdf|chapter=Dimensionality Reduction Methods for HMM Phonetic Recognition|title=आईसीएएसएसपी 2010|url-status=live|archive-url=http://archive.wikiwix.com/cache/20120706063756/http://bingweb.binghamton.edu/~hhu1/paper/Hu2010Dimensionality.pdf|archive-date=6 July 2012|df=dmy-all}}</ref> एचएमएम आधारित मान्यता से पहले का चरण हैं। चूंकि, हाल ही में, एलएसटीएम और संबंधित आवर्तक तंत्रिका नेटवर्क (आरएनएनs)<ref name="lstm"/><ref name="sak2015"/><ref name="fernandez2007">{{cite book|title=आईजेसीएआई की कार्यवाही|last2=Graves|first2=Alex|last3=Schmidhuber|first3=Jürgen|year=2007|chapter=Sequence labelling in structured domains with hierarchical recurrent neural networks|first1=Santiago|last1=Fernandez|author-link3=Jürgen Schmidhuber|chapter-url=http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-124.pdf|url-status=live|archive-url=https://web.archive.org/web/20170815003130/http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-124.pdf|archive-date=15 August 2017|df=dmy-all}}</ref><ref>{{cite arXiv | first1=Alex | last1=Graves | first2=Abdel-rahman | last2=Mohamed | first3=Geoffrey | last3=Hinton | title=गहरे आवर्तक तंत्रिका नेटवर्क के साथ वाक् पहचान| eprint=1303.5778 | class=cs.NE | year=2013}} ICASSP 2013.</ref> और समय विलंब तंत्रिका नेटवर्क (टीडीएनएन)<ref>{{cite journal|first=Alex|last=Waibel|year=1989|title=भाषण मान्यता के लिए समय-विलंब तंत्रिका नेटवर्क का मॉड्यूलर निर्माण|url=http://isl.anthropomatik.kit.edu/cmu-kit/Modular_Construction_of_Time-Delay_Neural_Networks_for_Speech_Recognition.pdf|journal=Neural Computation|volume=1|issue=1|pages=39–46|doi=10.1162/neco.1989.1.1.39|s2cid=236321|url-status=live|archive-url=https://web.archive.org/web/20160629180846/http://isl.anthropomatik.kit.edu/cmu-kit/Modular_Construction_of_Time-Delay_Neural_Networks_for_Speech_Recognition.pdf|archive-date=29 June 2016|df=dmy-all}}</ref> इस क्षेत्र में उत्कृष्ट प्रदर्शन किया है।


==== डीप फीडफॉरवर्ड और रिकरंट न्यूरल नेटवर्क्स ====
==== डीप फीडफॉरवर्ड और रिकरंट न्यूरल नेटवर्क्स ====
{{Main|डीप लर्निंग}}
{{Main|डीप लर्निंग}}
डीप न्यूरल नेटवर्क और डीनोइज़िंग [[ऑटोएन्कोडर]]<ref>{{cite book|first1=Andrew L.|last1=Maas|first2=Quoc V.|last2=Le|first3=Tyler M.|last3=O'Neil|first4=Oriol|last4=Vinyals|first5=Patrick|last5=Nguyen|first6=Andrew Y.|last6=Ng|author-link6=Andrew Ng|year=2012|chapter=Recurrent Neural Networks for Noise Reduction in Robust ASR|title=इंटरस्पीच 2012 की कार्यवाही}}</ref> भी जांच के सीमा में हैं। डीप फीडफॉर्वर्ड न्यूरल नेटवर्क (डीएनएन) कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें होती हैं।<ref name=HintonDengYu2012/> उथले तंत्रिका नेटवर्क के समान, डीएनएन जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। डीएनएन आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं, जहाँ अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे बड़ी सीखने की क्षमता मिलती है और इस प्रकार भाषण डेटा के जटिल पैटर्न की मॉडलिंग की संभावना होती है।<ref name=BOOK2014/>
डीप न्यूरल नेटवर्क और डीनोइज़िंग [[ऑटोएन्कोडर]]<ref>{{cite book|first1=Andrew L.|last1=Maas|first2=Quoc V.|last2=Le|first3=Tyler M.|last3=O'Neil|first4=Oriol|last4=Vinyals|first5=Patrick|last5=Nguyen|first6=Andrew Y.|last6=Ng|author-link6=Andrew Ng|year=2012|chapter=Recurrent Neural Networks for Noise Reduction in Robust ASR|title=इंटरस्पीच 2012 की कार्यवाही}}</ref> भी जांच के सीमा में हैं। डीप फीडफॉर्वर्ड न्यूरल नेटवर्क (डीएनएन) कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें होती हैं।<ref name=HintonDengYu2012/> उथले तंत्रिका नेटवर्क के समान, डीएनएन जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। डीएनएन आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं, जहाँ अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे बड़ी सीखने की क्षमता मिलती है और इस प्रकार भाषण डेटा के जटिल स्वरूप की मॉडलिंग की संभावना होती है।<ref name=BOOK2014/>


शैक्षणिक शोधकर्ताओं के सहयोग से औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां डीएनएन की बड़ी आउटपुट परतें संदर्भ निर्भर एचएमएम स्थितियों के आधार पर निर्णय वृक्षों द्वारा निर्मित की गईं।<ref name="Roles2010">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|last3=Dahl|first3=G.|title=वास्तविक-विश्व भाषण मान्यता के लिए संदर्भ-निर्भर DBN-HMMs में पूर्व-प्रशिक्षण और फ़ाइन-ट्यूनिंग की भूमिकाएँ|journal=NIPS Workshop on Deep Learning and Unsupervised Feature Learning|date=2010|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/dbn4asr-nips2010.pdf}}</ref><ref name="ref27">{{cite journal
शैक्षणिक शोधकर्ताओं के सहयोग से औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां डीएनएन की बड़ी आउटपुट परतें संदर्भ निर्भर एचएमएम स्थितियों के आधार पर निर्णय वृक्षों द्वारा निर्मित की गईं।<ref name="Roles2010">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|last3=Dahl|first3=G.|title=वास्तविक-विश्व भाषण मान्यता के लिए संदर्भ-निर्भर DBN-HMMs में पूर्व-प्रशिक्षण और फ़ाइन-ट्यूनिंग की भूमिकाएँ|journal=NIPS Workshop on Deep Learning and Unsupervised Feature Learning|date=2010|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/dbn4asr-nips2010.pdf}}</ref><ref name="ref27">{{cite journal
Line 223: Line 223:
<ref name="ICASSP2013">Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. [https://pdfs.semanticscholar.org/6bdc/cfe195bc49d218acc5be750aa49e41f408e4.pdf Recent Advances in Deep Learning for Speech Research at Microsoft]. ICASSP, 2013.</ref> अक्टूबर 2014 तक इस विकास और अत्याधुनिक स्थिति की व्यापक समीक्षा माइक्रोसाफ्ट अनुसंधान से हाल ही में स्प्रिंगर पुस्तक में देखें।<ref name="ReferenceA"/>स्वचालित भाषण पहचान की संबंधित पृष्ठभूमि और विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें, विशेष रूप से हाल के अवलोकन लेख इसमें डीप लर्निंग भी सम्मलित है।<ref>{{cite journal|last1=Deng|first1=L.|last2=Li|first2=Xiao|title=वाक् पहचान के लिए मशीन लर्निंग प्रतिमान: एक सिंहावलोकन|journal=IEEE Transactions on Audio, Speech, and Language Processing|volume=21|issue=5|pages=1060–1089|date=2013|url=http://cvsp.cs.ntua.gr/courses/patrec/slides_material2018/slides-2018/DengLi_MLParadigms-SpeechRecogn-AnOverview_TALSP13.pdf|doi=10.1109/TASL.2013.2244083|s2cid=16585863}}</ref><ref name="scholarpedia2015">{{cite journal | last1 = Schmidhuber | first1 = Jürgen | author-link = Jürgen Schmidhuber | year = 2015 | title = ध्यान लगा के पढ़ना या सीखना| journal = Scholarpedia | volume = 10 | issue = 11| page = 32832 | doi=10.4249/scholarpedia.32832| bibcode = 2015SchpJ..1032832S| doi-access = free }}</ref>  
<ref name="ICASSP2013">Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. [https://pdfs.semanticscholar.org/6bdc/cfe195bc49d218acc5be750aa49e41f408e4.pdf Recent Advances in Deep Learning for Speech Research at Microsoft]. ICASSP, 2013.</ref> अक्टूबर 2014 तक इस विकास और अत्याधुनिक स्थिति की व्यापक समीक्षा माइक्रोसाफ्ट अनुसंधान से हाल ही में स्प्रिंगर पुस्तक में देखें।<ref name="ReferenceA"/>स्वचालित भाषण पहचान की संबंधित पृष्ठभूमि और विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें, विशेष रूप से हाल के अवलोकन लेख इसमें डीप लर्निंग भी सम्मलित है।<ref>{{cite journal|last1=Deng|first1=L.|last2=Li|first2=Xiao|title=वाक् पहचान के लिए मशीन लर्निंग प्रतिमान: एक सिंहावलोकन|journal=IEEE Transactions on Audio, Speech, and Language Processing|volume=21|issue=5|pages=1060–1089|date=2013|url=http://cvsp.cs.ntua.gr/courses/patrec/slides_material2018/slides-2018/DengLi_MLParadigms-SpeechRecogn-AnOverview_TALSP13.pdf|doi=10.1109/TASL.2013.2244083|s2cid=16585863}}</ref><ref name="scholarpedia2015">{{cite journal | last1 = Schmidhuber | first1 = Jürgen | author-link = Jürgen Schmidhuber | year = 2015 | title = ध्यान लगा के पढ़ना या सीखना| journal = Scholarpedia | volume = 10 | issue = 11| page = 32832 | doi=10.4249/scholarpedia.32832| bibcode = 2015SchpJ..1032832S| doi-access = free }}</ref>  


गहन शिक्षण का मूलभूत सिद्धांत हाथ से तैयार की गई [[फीचर इंजीनियरिंग]] को खत्म करना और कच्ची सुविधाओं का उपयोग करना है। कच्चे स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर के आर्किटेक्चर में इस सिद्धांत को पहली बार सफलतापूर्वक खोजा गया था,<ref name="interspeech2010">L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.185.1908&rep=rep1&type=pdf Binary Coding of Speech Spectrograms Using a Deep Auto-encoder]. Interspeech.</ref> मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। स्पीच, वेवफॉर्म्स की असली अपरिष्कृत विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर वाक् पहचान परिणामों का उत्पादन करने के लिए दिखाया गया है।<ref name="interspeech2014">{{cite book|first1=Zoltán|last1=Tüske|first2=Pavel|last2=Golik|first3=Ralf|last3=Schlüter|first4=Hermann|last4=Ney|year=2014|chapter=Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR|title=इंटरस्पीच 2014|chapter-url=https://www-i6.informatik.rwth-aachen.de/publications/download/937/T%7Bu%7DskeZolt%7Ba%7DnGolikPavelSchl%7Bu%7DterRalfNeyHermann--AcousticModelingwithDeepNeuralNetworksUsingRawTimeSignalfor%7BLVCSR%7D--2014.pdf|url-status=live|archive-url=https://web.archive.org/web/20161221174753/https://www-i6.informatik.rwth-aachen.de/publications/download/937/T%7Bu%7DskeZolt%7Ba%7DnGolikPavelSchl%7Bu%7DterRalfNeyHermann--AcousticModelingwithDeepNeuralNetworksUsingRawTimeSignalfor%7BLVCSR%7D--2014.pdf|archive-date=21 December 2016|df=dmy-all}}</ref>
गहन शिक्षण का मूलभूत सिद्धांत हाथ से तैयार की गई [[फीचर इंजीनियरिंग|फीचर अभियांत्रिकी]] को खत्म करना और कच्ची सुविधाओं का उपयोग करना है। कच्चे स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर के आर्किटेक्चर में इस सिद्धांत को पहली बार सफलतापूर्वक खोजा गया था,<ref name="interspeech2010">L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.185.1908&rep=rep1&type=pdf Binary Coding of Speech Spectrograms Using a Deep Auto-encoder]. Interspeech.</ref> मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। स्पीच, वेवफॉर्म्स की असली अपरिष्कृत विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर वाक् पहचान परिणामों का उत्पादन करने के लिए दिखाया गया है।<ref name="interspeech2014">{{cite book|first1=Zoltán|last1=Tüske|first2=Pavel|last2=Golik|first3=Ralf|last3=Schlüter|first4=Hermann|last4=Ney|year=2014|chapter=Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR|title=इंटरस्पीच 2014|chapter-url=https://www-i6.informatik.rwth-aachen.de/publications/download/937/T%7Bu%7DskeZolt%7Ba%7DnGolikPavelSchl%7Bu%7DterRalfNeyHermann--AcousticModelingwithDeepNeuralNetworksUsingRawTimeSignalfor%7BLVCSR%7D--2014.pdf|url-status=live|archive-url=https://web.archive.org/web/20161221174753/https://www-i6.informatik.rwth-aachen.de/publications/download/937/T%7Bu%7DskeZolt%7Ba%7DnGolikPavelSchl%7Bu%7DterRalfNeyHermann--AcousticModelingwithDeepNeuralNetworksUsingRawTimeSignalfor%7BLVCSR%7D--2014.pdf|archive-date=21 December 2016|df=dmy-all}}</ref>
=== एंड-टू-एंड स्वचालित भाषण पहचान ===
=== एंड-टू-एंड स्वचालित भाषण पहचान ===
2014 के पश्चात से, एंड-टू-एंड एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक ध्वन्यात्मक-आधारित (अर्ताथ, सभी छिपे हुए मार्कोव मॉडल-आधारित मॉडल) दृष्टिकोणों को उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटकों और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से वाक् पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है '''क्योंकि यह प्रशिक्षण प्रक्रिया''' और परिनियोजन प्रक्रिया को सरल करता है। उदाहरण के लिए, सभी एचएमएम-आधारित प्रणालियों के लिए एन-ग्राम या एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और विशिष्ट एन-ग्राम भाषा मॉडल अधिकांशतः स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर नियुक्त करना अव्यावहारिक हो जाता है।<ref>{{Cite book|title=भाषण और भाषा प्रसंस्करण|last=Jurafsky|first=Daniel|year=2016}}</ref> परिणामस्वरूप, गूगल और एप्पल इंक के आधुनिक वाणिज्यिक एएसआर प्रणाली ({{as of|2017|lc=y}}) क्लाउड पर नियुक्त हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।
2014 के पश्चात से, एंड-टू-एंड एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक ध्वन्यात्मक-आधारित (अर्ताथ, सभी छिपे हुए मार्कोव मॉडल-आधारित मॉडल) दृष्टिकोणों को उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटकों और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से वाक् पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है क्योंकि यह प्रशिक्षण प्रक्रिया और परिनियोजन प्रक्रिया को सरल करता है। उदाहरण के लिए, सभी एचएमएम-आधारित प्रणालियों के लिए एन-ग्राम या एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और विशिष्ट एन-ग्राम भाषा मॉडल अधिकांशतः स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर नियुक्त करना अव्यावहारिक हो जाता है।<ref>{{Cite book|title=भाषण और भाषा प्रसंस्करण|last=Jurafsky|first=Daniel|year=2016}}</ref> परिणामस्वरूप, गूगल और एप्पल इंक के आधुनिक वाणिज्यिक एएसआर प्रणाली ({{as of|2017|lc=y}}) क्लाउड पर नियुक्त हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।
 
एंड-टू-एंड एएसआर का पहला प्रयास 2014 में [[डीपमाइंड]] के एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और [[टोरंटो विश्वविद्यालय]] के नवदीप जेटली द्वारा पेश किए गए [[संबंधवादी लौकिक वर्गीकरण]] (सीटीसी) आधारित प्रणाली के साथ था।<ref>{{Cite journal|last=Graves|first=Alex|year=2014|title=आवर्तक तंत्रिका नेटवर्क के साथ एंड-टू-एंड स्पीच रिकग्निशन की ओर|journal=ICML|url=http://www.jmlr.org/proceedings/papers/v32/graves14.pdf}}</ref> मॉडल में आवर्तक तंत्रिका नेटवर्क और सीटीसी परत सम्मलित थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल उच्चारण और ध्वनिक मॉडल को साथ सीखता है, चूंकि यह एचएमएम के समान [[सशर्त स्वतंत्रता]] धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी वर्णों के लिए भाषण ध्वनिकी को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी की गलतियाँ करते हैं और प्रतिलेख को साफ करने के लिए अलग भाषा मॉडल पर भरोसा करना चाहिए। पश्चात में, [[Baidu]] ने अत्यधिक बड़े डेटासेट के साथ काम पर विस्तार किया और चीनी मंदारिन और अंग्रेजी में कुछ व्यावसायिक सफलता प्रदर्शित की।<ref>{{cite arXiv|last=Amodei|first=Dario|year=2016|title=डीप स्पीच 2: अंग्रेजी और मंदारिन में एंड-टू-एंड स्पीच रिकग्निशन|eprint=1512.02595|class=cs.CL}}</ref> 2016 में, [[ऑक्सफोर्ड विश्वविद्यालय]] ने [[लिपनेट]] प्रस्तुत किया,<ref>{{cite web|title=लिपनेट: आपको क्या लगता है कि लिप पढ़ना कितना आसान है?|url=https://www.youtube.com/watch?v=fa5QGremQf8 |website=YouTube|access-date=5 May 2017 |url-status=live |archive-url=https://web.archive.org/web/20170427104009/https://www.youtube.com/watch?v=fa5QGremQf8|archive-date=27 April 2017| df=dmy-all}}</ref> आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैटियोटेम्पोरल कनवल्शन का उपयोग करते हुए पहला एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग मॉडल, प्रतिबंधित व्याकरण डेटासेट में मानव-स्तर के प्रदर्शन को पार करता है।<ref>{{cite arXiv|last1=Assael|first1=Yannis|last2=Shillingford|first2=Brendan|last3=Whiteson|first3=Shimon|last4=de Freitas|first4=Nando|date=5 November 2016 |title=लिपनेट: एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग|eprint=1611.01599|class=cs.CV}}</ref> दीपमाइंड द्वारा 2018 में बड़े पैमाने पर सीएनएन-आरएनएन-सीटीसी आर्किटेक्चर प्रस्तुत किया गया था, जिसने मानव विशेषज्ञों की तुलना में 6 गुना बेहतर प्रदर्शन हासिल किया।<ref name=":0">{{cite arXiv|last1=Shillingford|first1=Brendan|last2=Assael|first2=Yannis|last3=Hoffman|first3=Matthew W.|last4=Paine|first4=Thomas|last5=Hughes|first5=Cían|last6=Prabhu|first6=Utsav|last7=Liao|first7=Hank|last8=Sak|first8=Hasim|last9=Rao|first9=Kanishka|date=2018-07-13|title=बड़े पैमाने पर दृश्य वाक् पहचान|eprint=1807.05162|class=cs.CV}}</ref>
सीटीसी-आधारित मॉडलों के लिए वैकल्पिक दृष्टिकोण ध्यान-आधारित मॉडल हैं। चान एट अल द्वारा ध्यान-आधारित एएसआर मॉडल साथ पेश किए गए थे। कार्नेगी मेलन विश्वविद्यालय और [[गूगल ब्रेन]] और बहदानौ एट अल। 2016 में यूनिवर्सिटी डी मॉन्ट्रियल।<ref>{{Cite journal|last1=Chan|first1=William|last2=Jaitly|first2=Navdeep|last3=Le|first3=Quoc|last4=Vinyals|first4=Oriol|year=2016|title=सुनो, उपस्थित रहो और जादू करो: बड़ी शब्दावली संवादी वाक् पहचान के लिए एक तंत्रिका नेटवर्क|journal=ICASSP|url=https://storage.googleapis.com/pub-tools-public-publication-data/pdf/44926.pdf}}</ref><ref>{{cite arXiv|last=Bahdanau|first=Dzmitry|year=2016|title=एंड-टू-एंड ध्यान-आधारित बड़ी शब्दावली वाक् पहचान|eprint=1508.04395|class=cs.CL}}</ref> लिसन, अटेंड एंड स्पेल (LAS) नाम का मॉडल, शाब्दिक रूप से ध्वनिक संकेत को सुनता है, संकेत के विभिन्न भागों पर ध्यान देता है और समय में वर्ण को प्रतिलेखित करता है। सीटीसी-आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता की धारणा नहीं होती है और उच्चारण, ध्वनिक और भाषा मॉडल सहित वाक् पहचानकर्ता के सभी घटकों को सीधे सीख सकते हैं। इसका मतलब है, परिनियोजन के समय, सीमित स्मृति वाले अनुप्रयोगों के लिए इसे बहुत व्यावहारिक बनाने के लिए भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडलों ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या उसके बिना) से बेहतर प्रदर्शन सहित काफी सफलता देखी है।<ref>{{cite arXiv|last1=Chorowski|first1=Jan|last2=Jaitly|first2=Navdeep|date=8 December 2016 |title=अनुक्रम मॉडल के क्रम में बेहतर डिकोडिंग और भाषा मॉडल एकीकरण की ओर|eprint=1612.02695|class=cs.NE}}</ref> मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन यूनिवर्सिटी, [[मेसाचुसेट्स प्रौद्योगिक संस्थान]] और गूगल ब्रेन द्वारा अव्यक्त अनुक्रम अपघटन (एलएसडी) का प्रस्ताव सीधे उप-शब्द इकाइयों को उत्सर्जित करने के लिए किया गया था जो अंग्रेजी वर्णों की तुलना में अधिक स्वाभाविक हैं;<ref>{{cite arXiv|last1=Chan|first1=William|last2=Zhang|first2=Yu|last3=Le|first3=Quoc|last4=Jaitly|first4=Navdeep|date=10 October 2016 |title=अव्यक्त अनुक्रम अपघटन|eprint=1610.03035|class=stat.ML}}</ref> ऑक्सफोर्ड विश्वविद्यालय और डीपमाइंड ने LAS को मानव-स्तर के प्रदर्शन को पार करते हुए लिप रीडिंग को संभालने के लिए LAS को वॉच, लिसन, अटेंड और स्पेल (WLAS) तक बढ़ाया।<ref>{{Cite book|last1=Chung|first1=Joon Son|last2=Senior|first2=Andrew|last3=Vinyals|first3=Oriol|last4=Zisserman|first4=Andrew|title=कंप्यूटर विजन और पैटर्न पहचान (सीवीपीआर) पर 2017 आईईईई सम्मेलन|date=16 November 2016 |chapter=Lip Reading Sentences in the Wild|pages=3444–3453|doi=10.1109/CVPR.2017.367|arxiv=1611.05358|isbn=978-1-5386-0457-1|s2cid=1662180}}</ref>


एंड-टू-एंड एएसआर का पहला प्रयास 2014 में [[डीपमाइंड]] के एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और [[टोरंटो विश्वविद्यालय]] के नवदीप जेटली द्वारा पेश किए गए [[संबंधवादी लौकिक वर्गीकरण]] (सीटीसी) आधारित प्रणाली के साथ था।<ref>{{Cite journal|last=Graves|first=Alex|year=2014|title=आवर्तक तंत्रिका नेटवर्क के साथ एंड-टू-एंड स्पीच रिकग्निशन की ओर|journal=ICML|url=http://www.jmlr.org/proceedings/papers/v32/graves14.pdf}}</ref> मॉडल में आवर्तक तंत्रिका नेटवर्क और सीटीसी परत सम्मलित थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल उच्चारण और ध्वनिक मॉडल को साथ सीखता है, चूंकि यह एचएमएम के समान [[सशर्त स्वतंत्रता]] धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी वर्णों के लिए भाषण ध्वनिकी को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी की गलतियाँ करते हैं और प्रतिलेख को साफ करने के लिए अलग भाषा मॉडल पर भरोसा करना चाहिए। पश्चात में, [[Baidu|बायडू]] ने अत्यधिक बड़े डेटासेट के साथ कार्य पर विस्तार किया और चीनी मेंडारिन और अंग्रेजी में कुछ व्यावसायिक सफलता प्रदर्शित की।<ref>{{cite arXiv|last=Amodei|first=Dario|year=2016|title=डीप स्पीच 2: अंग्रेजी और मंदारिन में एंड-टू-एंड स्पीच रिकग्निशन|eprint=1512.02595|class=cs.CL}}</ref> 2016 में, [[ऑक्सफोर्ड विश्वविद्यालय]] ने [[लिपनेट]] प्रस्तुत किया,<ref>{{cite web|title=लिपनेट: आपको क्या लगता है कि लिप पढ़ना कितना आसान है?|url=https://www.youtube.com/watch?v=fa5QGremQf8 |website=YouTube|access-date=5 May 2017 |url-status=live |archive-url=https://web.archive.org/web/20170427104009/https://www.youtube.com/watch?v=fa5QGremQf8|archive-date=27 April 2017| df=dmy-all}}</ref> आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैटियोटेम्पोरल कनवल्शन का उपयोग करते हुए पहला एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग मॉडल, प्रतिबंधित व्याकरण डेटासेट में मानव-स्तर के प्रदर्शन को पार करता है।<ref>{{cite arXiv|last1=Assael|first1=Yannis|last2=Shillingford|first2=Brendan|last3=Whiteson|first3=Shimon|last4=de Freitas|first4=Nando|date=5 November 2016 |title=लिपनेट: एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग|eprint=1611.01599|class=cs.CV}}</ref> दीपमाइंड द्वारा 2018 में बड़े पैमाने पर सीएनएन-आरएनएन-सीटीसी आर्किटेक्चर प्रस्तुत किया गया था, जिसने मानव विशेषज्ञों की तुलना में 6 गुना उत्कृष्ट प्रदर्शन प्राप्त किया।<ref name=":0">{{cite arXiv|last1=Shillingford|first1=Brendan|last2=Assael|first2=Yannis|last3=Hoffman|first3=Matthew W.|last4=Paine|first4=Thomas|last5=Hughes|first5=Cían|last6=Prabhu|first6=Utsav|last7=Liao|first7=Hank|last8=Sak|first8=Hasim|last9=Rao|first9=Kanishka|date=2018-07-13|title=बड़े पैमाने पर दृश्य वाक् पहचान|eprint=1807.05162|class=cs.CV}}</ref>


सीटीसी-आधारित मॉडलों के लिए वैकल्पिक दृष्टिकोण ध्यान-आधारित मॉडल हैं। चान एट अल द्वारा ध्यान-आधारित एएसआर मॉडल साथ पेश किए गए थे। कार्नेगी मेलन विश्वविद्यालय और [[गूगल ब्रेन]] और बहदानौ एट अल। 2016 में यूनिवर्सिटी डी मॉन्ट्रियल।<ref>{{Cite journal|last1=Chan|first1=William|last2=Jaitly|first2=Navdeep|last3=Le|first3=Quoc|last4=Vinyals|first4=Oriol|year=2016|title=सुनो, उपस्थित रहो और जादू करो: बड़ी शब्दावली संवादी वाक् पहचान के लिए एक तंत्रिका नेटवर्क|journal=ICASSP|url=https://storage.googleapis.com/pub-tools-public-publication-data/pdf/44926.pdf}}</ref><ref>{{cite arXiv|last=Bahdanau|first=Dzmitry|year=2016|title=एंड-टू-एंड ध्यान-आधारित बड़ी शब्दावली वाक् पहचान|eprint=1508.04395|class=cs.CL}}</ref> लिसन, अटेंड एंड स्पेल (एलएएस) नाम का मॉडल, शाब्दिक रूप से ध्वनिक संकेत को सुनता है, संकेत के विभिन्न भागों पर ध्यान देता है और समय में वर्ण को प्रतिलेखित करता है। सीटीसी-आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता की धारणा नहीं होती है और उच्चारण, ध्वनिक और भाषा मॉडल सहित वाक् पहचानकर्ता के सभी घटकों को सीधे सीख सकते हैं। इसका मतलब है, परिनियोजन के समय, सीमित स्मृति वाले अनुप्रयोगों के लिए इसे बहुत व्यावहारिक बनाने के लिए भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडलों ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या उसके बिना) से अच्छे प्रदर्शन सहित अच्छी सफलता देखी है।<ref>{{cite arXiv|last1=Chorowski|first1=Jan|last2=Jaitly|first2=Navdeep|date=8 December 2016 |title=अनुक्रम मॉडल के क्रम में बेहतर डिकोडिंग और भाषा मॉडल एकीकरण की ओर|eprint=1612.02695|class=cs.NE}}</ref> मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन यूनिवर्सिटी, [[मेसाचुसेट्स प्रौद्योगिक संस्थान]] और गूगल ब्रेन द्वारा अव्यक्त अनुक्रम अपघटन (एलएसडी) का प्रस्ताव सीधे उप-शब्द इकाइयों को उत्सर्जित करने के लिए किया गया था जो अंग्रेजी वर्णों की तुलना में अधिक स्वाभाविक हैं;<ref>{{cite arXiv|last1=Chan|first1=William|last2=Zhang|first2=Yu|last3=Le|first3=Quoc|last4=Jaitly|first4=Navdeep|date=10 October 2016 |title=अव्यक्त अनुक्रम अपघटन|eprint=1610.03035|class=stat.ML}}</ref> ऑक्सफोर्ड विश्वविद्यालय और डीपमाइंड ने एलएएस को मानव-स्तर के प्रदर्शन को पार करते हुए लिप रीडिंग को संभालने के लिए एलएएस को वॉच, लिसन, अटेंड और स्पेल (डबल्यूएलएएस) तक बढ़ाया।<ref>{{Cite book|last1=Chung|first1=Joon Son|last2=Senior|first2=Andrew|last3=Vinyals|first3=Oriol|last4=Zisserman|first4=Andrew|title=कंप्यूटर विजन और पैटर्न पहचान (सीवीपीआर) पर 2017 आईईईई सम्मेलन|date=16 November 2016 |chapter=Lip Reading Sentences in the Wild|pages=3444–3453|doi=10.1109/CVPR.2017.367|arxiv=1611.05358|isbn=978-1-5386-0457-1|s2cid=1662180}}</ref>
== अनुप्रयोग ==
== अनुप्रयोग ==


Line 236: Line 235:
सामान्यतः मैनुअल कंट्रोल इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर फिंगर कंट्रोल के माध्यम से, वाक् पहचान प्रणाली को सक्षम करता है और यह ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के पश्चात, प्रणाली में सुनने की खिड़की होती है जिसके समय यह पहचान के लिए भाषण इनपुट स्वीकार कर सकता है। {{citation needed|date=March 2014}}
सामान्यतः मैनुअल कंट्रोल इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर फिंगर कंट्रोल के माध्यम से, वाक् पहचान प्रणाली को सक्षम करता है और यह ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के पश्चात, प्रणाली में सुनने की खिड़की होती है जिसके समय यह पहचान के लिए भाषण इनपुट स्वीकार कर सकता है। {{citation needed|date=March 2014}}
फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या संगत स्मार्टफोन, एमपी3 प्लेयर या म्यूजिक-लोडेड फ्लैश ड्राइव से संगीत चलाने के लिए सरल वॉयस कमांड का उपयोग किया जा सकता है। कार बनाने और मॉडल के बीच ध्वनि पहचानने की क्षमता अलग-अलग होती है। कुछ सबसे हाल के{{When|date=April 2014}} कार मॉडल कमांड के निश्चित सेट के स्थान पर प्राकृतिक-भाषा वाक् पहचान प्रदान करते हैं, जिससे ड्राइवर को पूर्ण वाक्यों और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इस तरह की प्रणालियों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के सेट को याद रखने की कोई आवश्यकता नहीं है।{{citation needed|date=March 2014}}
फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या संगत स्मार्टफोन, एमपी3 प्लेयर या म्यूजिक-लोडेड फ्लैश ड्राइव से संगीत चलाने के लिए सरल वॉयस कमांड का उपयोग किया जा सकता है। कार बनाने और मॉडल के बीच ध्वनि पहचानने की क्षमता अलग-अलग होती है। कुछ सबसे हाल के{{When|date=April 2014}} कार मॉडल कमांड के निश्चित सेट के स्थान पर प्राकृतिक-भाषा वाक् पहचान प्रदान करते हैं, जिससे ड्राइवर को पूर्ण वाक्यों और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इस तरह की प्रणालियों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के सेट को याद रखने की कोई आवश्यकता नहीं है।{{citation needed|date=March 2014}}
=== स्वास्थ्य देखभाल ===
=== स्वास्थ्य देखभाल ===


==== चिकित्सा दस्तावेज ====
==== चिकित्सा दस्तावेज ====
[[स्वास्थ्य देखभाल]] क्षेत्र में, वाक् पहचान चिकित्सा प्रलेखन प्रक्रिया के फ्रंट-एंड या बैक-एंड में लागू की जा सकती है। फ्रंट-एंड वाक् पहचान वह जगह है जहां प्रदाता स्पीच-रिकग्निशन इंजन में डिक्टेट करता है, पहचाने गए शब्दों को बोले जाने पर प्रदर्शित किया जाता है, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए जिम्मेदार होता है। बैक-एंड या डिफर्ड वाक् पहचान वह जगह है जहां प्रदाता [[डिजिटल श्रुतलेख]] प्रणाली में डिक्टेट करता है, वॉयस को स्पीच-रिकग्निशन मशीन के माध्यम से रूट किया जाता है और मान्यता प्राप्त ड्राफ्ट डॉक्यूमेंट को मूल वॉयस फाइल के साथ एडिटर तक पहुंचाया जाता है, जहां ड्राफ्ट को एडिट किया जाता है। और रिपोर्ट को अंतिम रूप दिया। आस्थगित भाषण मान्यता वर्तमान में उद्योग में व्यापक रूप से उपयोग की जाती है।
[[स्वास्थ्य देखभाल]] क्षेत्र में, वाक् पहचान चिकित्सा प्रलेखन प्रक्रिया के फ्रंट-एंड या बैक-एंड में लागू की जा सकती है। फ्रंट-एंड वाक् पहचान वह जगह है जहां प्रदाता वाक् पहचान इंजन में डिक्टेट करता है, पहचाने गए शब्दों को बोले जाने पर प्रदर्शित किया जाता है, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए जिम्मेदार होता है। बैक-एंड या डिफर्ड वाक् पहचान वह जगह है जहां प्रदाता [[डिजिटल श्रुतलेख]] प्रणाली में डिक्टेट करता है, वॉयस को वाक् पहचान मशीन के माध्यम से रूट किया जाता है और मान्यता प्राप्त ड्राफ्ट डॉक्यूमेंट को मूल वॉयस फाइल के साथ एडिटर तक पहुंचाया जाता है, जहां ड्राफ्ट को एडिट किया जाता है। और रिपोर्ट को अंतिम रूप दिया। आस्थगित भाषण मान्यता वर्तमान में उद्योग में व्यापक रूप से उपयोग की जाती है।


स्वास्थ्य सेवा में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से यह है कि 2009 का अमेरिकी रिकवरी और पुनर्निवेश अधिनियम (2009 का अमेरिकी पुनर्प्राप्ति और पुनर्निवेश अधिनियम) सार्थक उपयोग मानकों के अनुसार EMR का उपयोग करने वाले चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है। इन मानकों के लिए आवश्यक है कि EMR द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब इसे सामान्यतः [[इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड]] या EHR के रूप में संदर्भित किया जाता है)। भाषण मान्यता का उपयोग रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के भाग के रूप में कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से अनुकूल है: संरचित असतत डेटा (जैसे, संख्यात्मक मान या कोड) दर्ज करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ सूची या [[नियंत्रित शब्दावली]] से) उन लोगों के लिए अपेक्षाकृत न्यूनतम हैं जिन्हें देखा जा सकता है और जो कीबोर्ड और माउस को संचालित कर सकते हैं।
स्वास्थ्य सेवा में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से यह है कि 2009 का अमेरिकी रिकवरी और पुनर्निवेश अधिनियम (2009 का अमेरिकी पुनर्प्राप्ति और पुनर्निवेश अधिनियम) सार्थक उपयोग मानकों के अनुसार ईएमआर का उपयोग करने वाले चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है। इन मानकों के लिए आवश्यक है कि ईएमआर द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब इसे सामान्यतः [[इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड]] या ईएचआर के रूप में संदर्भित किया जाता है)। भाषण मान्यता का उपयोग रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के भाग के रूप में कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से अनुकूल है: संरचित असतत डेटा (जैसे, संख्यात्मक मान या कोड) दर्ज करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ सूची या [[नियंत्रित शब्दावली]] से) उन लोगों के लिए अपेक्षाकृत न्यूनतम हैं जिन्हें देखा जा सकता है और जो कीबोर्ड और माउस को संचालित कर सकते हैं।


एक अधिक महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को स्पष्ट रूप से ध्वनि-पहचान क्षमताओं का लाभ उठाने के लिए तैयार नहीं किया गया है। EHR के साथ चिकित्सक की बातचीत के बड़े हिस्से में मेनू, और टैब/बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन सम्मलित है, और कीबोर्ड और माउस पर बहुत अधिक निर्भर है: ध्वनि-आधारित नेविगेशन केवल साधारण एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी डिक्टेशन के लिए कई अत्यधिक अनुकूलित प्रणालियाँ वॉयस मैक्रोज़ को लागू करती हैं, जहाँ कुछ वाक्यांशों का उपयोग - उदाहरण के लिए, सामान्य रिपोर्ट, स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भर देगी और/या बॉयलरप्लेट उत्पन्न करेगी, जो प्रकार के साथ भिन्न होगी परीक्षा का - उदाहरण के लिए, रेडियोलॉजी प्रणाली के लिए छाती का एक्स-रे बनाम गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला।
एक अधिक महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को स्पष्ट रूप से ध्वनि-पहचान क्षमताओं का लाभ उठाने के लिए तैयार नहीं किया गया है। ईएचआर के साथ चिकित्सक की बातचीत के बड़े हिस्से में मेनू, और टैब/बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन सम्मलित है, और कीबोर्ड और माउस पर बहुत अधिक निर्भर है: ध्वनि-आधारित नेविगेशन केवल साधारण एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी डिक्टेशन के लिए कई अत्यधिक अनुकूलित प्रणालियाँ वॉयस मैक्रोज़ को लागू करती हैं, जहाँ कुछ वाक्यांशों का उपयोग - उदाहरण के लिए, सामान्य रिपोर्ट, स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भर देगी और/या बॉयलरप्लेट उत्पन्न करेगी, जो प्रकार के साथ भिन्न होगी परीक्षा का - उदाहरण के लिए, रेडियोलॉजी प्रणाली के लिए छाती का एक्स-रे बनाम गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला का उदाहरण हैं।


==== चिकित्सीय उपयोग ====
==== चिकित्सीय उपयोग ====
वर्ड प्रोसेसर के साथ संयोजन के रूप में वाक् पहचान सॉफ़्टवेयर के लंबे समय तक उपयोग ने [[मस्तिष्क एवीएम]] रोगियों में अल्पावधि-स्मृति पुनर्संरचना के लिए लाभ दिखाया है, जिनका उपचार [[लकीर (सर्जरी)]] के साथ किया गया है। जिन व्यक्तियों के एवीएम का उपचार रेडियोलॉजिकल तकनीकों का उपयोग करके किया गया है, उनके लिए संज्ञानात्मक लाभों का निर्धारण करने के लिए और अनुसंधान किए जाने की आवश्यकता है।{{citation needed|date=November 2016}}
वर्ड प्रोसेसर के साथ संयोजन के रूप में वाक् पहचान सॉफ़्टवेयर के लंबे समय तक उपयोग ने [[मस्तिष्क एवीएम]] रोगियों में अल्पावधि-स्मृति पुनर्संरचना के लिए लाभ दिखाया है, जिनका उपचार [[लकीर (सर्जरी)]] के साथ किया गया है। जिन व्यक्तियों के एवीएम का उपचार रेडियोलॉजिकल विधिों का उपयोग करके किया गया है, उनके लिए संज्ञानात्मक लाभों का निर्धारण करने के लिए और अनुसंधान किए जाने की आवश्यकता है।{{citation needed|date=November 2016}}
 
 
=== सैन्य ===
=== सैन्य ===


==== उच्च प्रदर्शन [[लड़ाकू विमान]] ====
==== उच्च प्रदर्शन [[लड़ाकू विमान]] ====
लड़ाकू विमानों में वाक् पहचान के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयास किए गए हैं। जनरल डायनेमिक्स [[F-16]] फाइटिंग फाल्कन वेरिएंट#टेक्नोलॉजी डिमॉन्स्ट्रेटर्स, और टेस्ट वेरिएंट्स#फ्लाइट कंट्रोल वेरिएंट्स#F-16 एडवांस्ड फाइटर टेक्नोलॉजी इंटीग्रेशन|एडवांस्ड फाइटर टेक्नोलॉजी इंटीग्रेशन (AFTI)/F -16 विमान ([[F-16 VISTA]]), फ्रांस में [[मिराज (विमान)]] विमान के लिए कार्यक्रम, और ब्रिटेन में विभिन्न प्रकार के विमान प्लेटफार्मों से निपटने वाले अन्य कार्यक्रम। इन कार्यक्रमों में, रेडियो फ्रीक्वेंसी सेट करने, ऑटोपायलट प्रणाली को कमांड करने, स्टीयर-पॉइंट निर्देशांक सेट करने और हथियार रिलीज पैरामीटर, और उड़ान प्रदर्शन को नियंत्रित करने सहित अनुप्रयोगों के साथ, लड़ाकू विमानों में भाषण पहचानकर्ताओं को सफलतापूर्वक संचालित किया गया है।
लड़ाकू विमानों में वाक् पहचान के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयास किए गए हैं। जनरल डायनेमिक्स [[F-16|एफ-16]] फाइटिंग फाल्कन वेरिएंट प्रौद्योगिकी प्रदर्शनकारियों, और टेस्ट संस्करण फ्लाइट कंट्रोल संस्करण F-16 एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन या एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन (आफ्टी)/एफ -16 विमान ([[F-16 VISTA|एफ-16 विस्टा]]), फ्रांस में [[मिराज (विमान)]] विमान के लिए कार्यक्रम, और ब्रिटेन में विभिन्न प्रकार के विमान प्लेटफार्मों से निपटने वाले अन्य कार्यक्रम को उपयोग किया जाता है इन कार्यक्रमों में, रेडियो फ्रीक्वेंसी सेट करने, ऑटोपायलट प्रणाली को कमांड करने, स्टीयर-पॉइंट निर्देशांक सेट करने और हथियार रिलीज पैरामीटर, और उड़ान प्रदर्शन को नियंत्रित करने सहित अनुप्रयोगों के साथ, लड़ाकू विमानों में भाषण पहचानकर्ताओं को सफलतापूर्वक संचालित किया गया है।


[[जेएएस 39 ग्रिपेन मिलेगा]]|जेएएस-39 ग्रिपेन कॉकपिट, इंग्लैंड (2004) में उड़ान भरने वाले स्वीडिश पायलटों के साथ काम करते हुए पाया गया कि बढ़ती [[जी बल]]|जी-लोड के साथ मान्यता बिगड़ गई। रिपोर्ट ने यह भी निष्कर्ष निकाला कि अनुकूलन ने सभी स्थितियों में परिणामों में बहुत सुधार किया और यह कि सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में काफी सुधार करने के लिए दिखाया गया। अपेक्षा के विपरीत, बोलने वालों की टूटी-फूटी अंग्रेजी का कोई प्रभाव नहीं पाया गया। यह स्पष्ट था कि सहज भाषण पहचानकर्ता के लिए समस्याएँ पैदा करता है, जैसा कि उम्मीद की जा सकती थी। प्रतिबंधित शब्दावली, और सबसे बढ़कर, उचित सिंटैक्स, इस प्रकार मान्यता सटीकता में काफी सुधार की उम्मीद की जा सकती है।<ref>{{cite thesis|url=http://www.speech.kth.se/prod/publications/files/1664.pdf|title=JAS 39 ग्रिपेन विमान में वाक् पहचान: विभिन्न G-लोड पर वाणी के लिए अनुकूलन|first=Christine |last=Englund |publisher=[[Stockholm University|Stockholm Royal Institute of Technology]] |type=Masters thesis |year=2004 |url-status=live |archive-url=https://web.archive.org/web/20081002002102/http://www.speech.kth.se/prod/publications/files/1664.pdf|archive-date=2 October 2008|df=dmy-all}}</ref>
[[जेएएस 39 ग्रिपेन मिलेगा]] या जेएएस-39 ग्रिपेन कॉकपिट, इंग्लैंड (2004) में उड़ान भरने वाले स्वीडिश पायलटों के साथ कार्य करते हुए पाया गया कि बढ़ती [[जी बल]] या जी-लोड के साथ मान्यता बिगड़ गई। रिपोर्ट ने यह भी निष्कर्ष निकाला कि अनुकूलन ने सभी स्थितियों में परिणामों में बहुत सुधार किया और यह कि सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में अधिकसुधार करने के लिए दिखाया गया। अपेक्षाकृत के विपरीत, बोलने वालों की टूटी-फूटी अंग्रेजी का कोई प्रभाव नहीं पाया गया। यह स्पष्ट था कि सहज भाषण पहचानकर्ता के लिए समस्याएँ पैदा करता है, जैसा कि उम्मीद की जा सकती थी। प्रतिबंधित शब्दावली, और सबसे बढ़कर, उचित सिंटैक्स, इस प्रकार मान्यता सटीकता में अधिकसुधार की उम्मीद की जा सकती है।<ref>{{cite thesis|url=http://www.speech.kth.se/prod/publications/files/1664.pdf|title=JAS 39 ग्रिपेन विमान में वाक् पहचान: विभिन्न G-लोड पर वाणी के लिए अनुकूलन|first=Christine |last=Englund |publisher=[[Stockholm University|Stockholm Royal Institute of Technology]] |type=Masters thesis |year=2004 |url-status=live |archive-url=https://web.archive.org/web/20081002002102/http://www.speech.kth.se/prod/publications/files/1664.pdf|archive-date=2 October 2008|df=dmy-all}}</ref>
[[यूरोफाइटर टाइफून]], वर्तमान में यूके [[आरएएफ]] के साथ सेवा में है, स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसके लिए प्रत्येक पायलट को टेम्पलेट बनाने की आवश्यकता होती है। प्रणाली का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों के लिए नहीं किया जाता है, जैसे कि हथियार छोड़ना या हवाई जहाज़ के पहिये को कम करना, लेकिन अन्य कॉकपिट कार्यों की विस्तृत श्रृंखला के लिए उपयोग किया जाता है। वॉयस कमांड की पुष्टि दृश्य और/या श्रव्य प्रतिक्रिया द्वारा की जाती है। पायलट [[कार्यभार]] को कम करने में प्रणाली को प्रमुख डिजाइन सुविधा के रूप में देखा जाता है,<ref>{{cite web|url=https://www.eurofighter.com/the-aircraft#cockpit|title=कॉकपिट|website=Eurofighter Typhoon |url-status=live |archive-url=https://web.archive.org/web/20170301222529/https://www.eurofighter.com/the-aircraft#cockpit |archive-date=1 March 2017|df=dmy-all}}</ref> और यहां तक ​​​​कि पायलट को अपने विमान को दो सरल वॉयस कमांड या अपने किसी भी विंगमैन को केवल पांच कमांड के साथ लक्ष्य निर्धारित करने की अनुमति देता है।<ref>{{cite web |url=http://www.eurofighter.com/capabilities/technology/voice-throttle-stick/direct-voice-input.html |title=यूरोफाइटर टाइफून - दुनिया का सबसे उन्नत लड़ाकू विमान|website=www.eurofighter.com |access-date=1 May 2018 |url-status=live |archive-url=https://web.archive.org/web/20130511025203/http://www.eurofighter.com/capabilities/technology/voice-throttle-stick/direct-voice-input.html |archive-date=11 May 2013|df=dmy-all}}</ref>
[[यूरोफाइटर टाइफून]], वर्तमान में यूके [[आरएएफ]] के साथ सेवा में है, स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसके लिए प्रत्येक पायलट को टेम्पलेट बनाने की आवश्यकता होती है। प्रणाली का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों के लिए नहीं किया जाता है, जैसे कि हथियार छोड़ना या हवाई जहाज़ के पहिये को कम करना, लेकिन अन्य कॉकपिट कार्यों की विस्तृत श्रृंखला के लिए उपयोग किया जाता है। वॉयस कमांड की पुष्टि दृश्य और/या श्रव्य प्रतिक्रिया द्वारा की जाती है। पायलट [[कार्यभार]] को कम करने में प्रणाली को प्रमुख डिजाइन सुविधा के रूप में देखा जाता है,<ref>{{cite web|url=https://www.eurofighter.com/the-aircraft#cockpit|title=कॉकपिट|website=Eurofighter Typhoon |url-status=live |archive-url=https://web.archive.org/web/20170301222529/https://www.eurofighter.com/the-aircraft#cockpit |archive-date=1 March 2017|df=dmy-all}}</ref> और यहां तक ​​​​कि पायलट को अपने विमान को दो सरल वॉयस कमांड या अपने किसी भी विंगमैन को केवल पांच कमांड के साथ लक्ष्य निर्धारित करने की अनुमति देता है।<ref>{{cite web |url=http://www.eurofighter.com/capabilities/technology/voice-throttle-stick/direct-voice-input.html |title=यूरोफाइटर टाइफून - दुनिया का सबसे उन्नत लड़ाकू विमान|website=www.eurofighter.com |access-date=1 May 2018 |url-status=live |archive-url=https://web.archive.org/web/20130511025203/http://www.eurofighter.com/capabilities/technology/voice-throttle-stick/direct-voice-input.html |archive-date=11 May 2013|df=dmy-all}}</ref>
स्पीकर-इंडिपेंडेंट प्रणाली भी विकसित किए जा रहे हैं और [[लॉकहीड मार्टिन F-35 लाइटनिंग II]] (JSF) और [[Alenia Aermacchi M-346 मास्टर]] लीड-इन फाइटर ट्रेनर के लिए परीक्षण के अधीन हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता स्कोर का उत्पादन किया है।<ref>{{cite web|url=http://www.af.mil/news/story.asp?id=123071861|url-status=dead|archive-url=https://web.archive.org/web/20071020030310/http://www.af.mil/news/story.asp?id=123071861|archive-date=20 October 2007|first=John|last=Schutte|title=शोधकर्ताओं ने F-35 पायलट-एयरक्राफ्ट स्पीच सिस्टम को फाइन-ट्यून किया|date=15 October 2007|publisher=United States Air Force}}</ref>


स्पीकर-इंडिपेंडेंट प्रणाली भी विकसित किए जा रहे हैं और [[लॉकहीड मार्टिन F-35 लाइटनिंग II]] (जेएसएफ) और [[Alenia Aermacchi M-346 मास्टर|अलीनिया एरमच्छी एम-346 मास्टर]] लीड-इन फाइटर ट्रेनर के लिए परीक्षण के अधीन हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता अवमूलन का उत्पादन किया है।<ref>{{cite web|url=http://www.af.mil/news/story.asp?id=123071861|url-status=dead|archive-url=https://web.archive.org/web/20071020030310/http://www.af.mil/news/story.asp?id=123071861|archive-date=20 October 2007|first=John|last=Schutte|title=शोधकर्ताओं ने F-35 पायलट-एयरक्राफ्ट स्पीच सिस्टम को फाइन-ट्यून किया|date=15 October 2007|publisher=United States Air Force}}</ref>
====[[हेलीकॉप्टर]]====
====[[हेलीकॉप्टर]]====
तनाव और शोर के अनुसार उच्च पहचान सटीकता प्राप्त करने की समस्या विशेष रूप से हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण में भी प्रासंगिक है। हेलीकॉप्टर वातावरण में ध्वनिक शोर की समस्या वास्तव में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि इसलिए भी कि हेलीकॉप्टर पायलट, सामान्य रूप से [[लड़ाकू पायलट हेलमेट]] नहीं पहनता है, जिससे [[माइक्रोफ़ोन]] में ध्वनिक शोर कम हो जाता है। पिछले दशक में हेलीकाप्टरों में वाक् पहचान प्रणाली अनुप्रयोगों में पर्याप्त परीक्षण और मूल्यांकन कार्यक्रम किए गए हैं, विशेष रूप से यू.एस. आर्मी एवियोनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (AVRADA) और यूके में रॉयल एयरोस्पेस एस्टैब्लिशमेंट ([[शाही विमान प्रतिष्ठान]]) द्वारा। फ़्रांस में काम में [[प्यूमा हेलीकाप्टर]] में वाक् पहचान सम्मलित है। [[कनाडा]] में भी बहुत उपयोगी कार्य हुए हैं। परिणाम उत्साहजनक रहे हैं, और ध्वनि अनुप्रयोगों में सम्मलित हैं: संचार रेडियो का नियंत्रण, [[पथ प्रदर्शन]] प्रणाली की स्थापना, और स्वचालित लक्ष्य हस्तांतरण प्रणाली का नियंत्रण।
तनाव और शोर के अनुसार उच्च पहचान सटीकता प्राप्त करने की समस्या विशेष रूप से हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण में भी प्रासंगिक है। हेलीकॉप्टर वातावरण में ध्वनिक शोर की समस्या वास्तव में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि इसलिए भी कि हेलीकॉप्टर पायलट, सामान्य रूप से [[लड़ाकू पायलट हेलमेट]] नहीं पहनता है, जिससे [[माइक्रोफ़ोन]] में ध्वनिक शोर कम हो जाता है। पिछले दशक में हेलीकाप्टरों में वाक् पहचान प्रणाली अनुप्रयोगों में पर्याप्त परीक्षण और मूल्यांकन कार्यक्रम किए गए हैं, विशेष रूप से यू.एस. आर्मी एवियोनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (एवराडा) और यूके में रॉयल एयरोस्पेस एस्टैब्लिशमेंट ([[शाही विमान प्रतिष्ठान]]) द्वारा फ़्रांस में कार्य में [[प्यूमा हेलीकाप्टर]] में वाक् पहचान सम्मलित है। [[कनाडा]] में भी बहुत उपयोगी कार्य हुए हैं। परिणाम उत्साहजनक रहे हैं, और ध्वनि अनुप्रयोगों में सम्मलित हैं: संचार रेडियो का नियंत्रण, [[पथ प्रदर्शन]] प्रणाली की स्थापना, और स्वचालित लक्ष्य के हस्तांतरण की प्रणाली का नियंत्रण किया जाता हैं।


लड़ाकू अनुप्रयोगों के रूप में, हेलीकाप्टरों में ध्वनि के लिए प्रमुख मुद्दा पायलट प्रभावशीलता पर प्रभाव है। AVRADA परीक्षणों के लिए उत्साहजनक परिणाम रिपोर्ट किए गए हैं, चूंकि ये परीक्षण वातावरण में केवल व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। परिचालन सेटिंग्स में लगातार प्रदर्शन सुधार हासिल करने के लिए वाक् पहचान और समग्र वाक् प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।
लड़ाकू अनुप्रयोगों के रूप में, हेलीकाप्टरों में ध्वनि के लिए प्रमुख मुद्दा पायलट प्रभावशीलता पर प्रभाव है। एवराडा परीक्षणों के लिए उत्साहजनक परिणाम रिपोर्ट किए गए हैं, चूंकि ये परीक्षण वातावरण में केवल व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। परिचालन सेटिंग्स में लगातार प्रदर्शन सुधार प्राप्त करने के लिए वाक् पहचान और समग्र वाक् प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।


==== प्रशिक्षण हवाई यातायात नियंत्रकों ====
==== प्रशिक्षण हवाई यातायात नियंत्रकों ====
वायु यातायात नियंत्रकों (एटीसी) के लिए प्रशिक्षण भाषण पहचान प्रणाली के लिए उत्कृष्ट अनुप्रयोग का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ ध्वनि संवाद में सम्मलित होता है, जो संवाद को अनुकरण करता है कि नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ आचरण करना होगा। भाषण पहचान और भाषण संश्लेषण तकनीक व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और सहायक कर्मियों को कम करती है। सिद्धांत रूप में, वायु नियंत्रक कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी वर्णित किया जाता है, इसलिए वाक् पहचान कार्य की कठिनाई को कम करना संभव होना चाहिए। व्यवहार में, ऐसा कम ही होता है। FAA दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। जबकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिम्युलेशन विक्रेताओं में से भाषण पहचान प्रणाली द्वारा समर्थित वाक्यांशों की संख्या 500,000 से अधिक है।
वायु यातायात नियंत्रकों (एटीसी) के लिए प्रशिक्षण भाषण पहचान प्रणाली के लिए उत्कृष्ट अनुप्रयोग का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ ध्वनि संवाद में सम्मलित होता है, जो संवाद को अनुकरण करता है कि नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ आचरण करना होगा। भाषण पहचान और भाषण संश्लेषण विधि व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और सहायक कर्मियों को कम करती है। सिद्धांत रूप में, वायु नियंत्रक कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी वर्णित किया जाता है, इसलिए वाक् पहचान कार्य की कठिनाई को कम करना संभव होना चाहिए। व्यवहार में, ऐसा कम ही होता है। एफएए दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। जबकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिम्युलेशन विक्रेताओं में से भाषण पहचान प्रणाली द्वारा समर्थित वाक्यांशों की संख्या 500,000 से अधिक है।
 
यूएसएएफ, यूएसएमसी, यूएस आर्मी, यूएस नेवी और एफएए के साथ-साथ कई अंतरराष्ट्रीय एटीसी प्रशिक्षण संगठन जैसे कि रॉयल ऑस्ट्रेलियाई वायु सेना और इटली, ब्राजील और कनाडा में नागरिक उड्डयन प्राधिकरण वर्तमान में एटीसी सिमुलेटर का उपयोग वाक् पहचान के साथ कर रहे हैं। कई अलग-अलग विक्रेता।{{citation needed|date=December 2012}}
 


यूएसएएफ, यूएसएमसी, यूएस आर्मी, यूएस नेवी और एफएए के साथ-साथ कई अंतरराष्ट्रीय एटीसी प्रशिक्षण संगठन जैसे कि रॉयल ऑस्ट्रेलियाई वायु सेना और इटली, ब्राजील और कनाडा में नागरिक उड्डयन प्राधिकरण वर्तमान में एटीसी सिमुलेटर का उपयोग वाक् पहचान के साथ कर रहे हैं। इसके कई अलग-अलग विक्रेता हैं।{{citation needed|date=December 2012}}
=== [[टेलीफ़ोनी]] और अन्य डोमेन ===
=== [[टेलीफ़ोनी]] और अन्य डोमेन ===
एएसआर अब टेलीफोनी के क्षेत्र में आम हो गया है और [[कंप्यूटर गेमिंग]] और सिमुलेशन के क्षेत्र में अधिक व्यापक होता जा रहा है। टेलीफोनी प्रणालियों में, एएसआर अब [[आईवीआर]] प्रणालियों के साथ एकीकृत करके मुख्य रूप से संपर्क केंद्रों में उपयोग किया जा रहा है। दस्तावेज़ उत्पादन के क्षेत्र में सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के अतिरिक्त, एएसआर ने उपयोग में अपेक्षित वृद्धि नहीं देखी है।
एएसआर अब टेलीफोनी के क्षेत्र में आम हो गया है और [[कंप्यूटर गेमिंग]] और सिमुलेशन के क्षेत्र में अधिक व्यापक होता जा रहा है। टेलीफोनी प्रणालियों में, एएसआर अब [[आईवीआर]] प्रणालियों के साथ एकीकृत करके मुख्य रूप से संपर्क केंद्रों में उपयोग किया जा रहा है। दस्तावेज़ उत्पादन के क्षेत्र में सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के अतिरिक्त, एएसआर ने उपयोग में अपेक्षित वृद्धि नहीं देखी है।


मोबाइल प्रोसेसर की गति में सुधार ने [[स्मार्टफोन]] में वाक् पहचान को व्यावहारिक बना दिया है। पूर्वनिर्धारित या कस्टम स्पीच कमांड बनाने के लिए स्पीच का उपयोग ज्यादातर यूजर इंटरफेस के भाग के रूप में किया जाता है।
मोबाइल प्रोसेसर की गति में सुधार ने [[स्मार्टफोन]] में वाक् पहचान को व्यावहारिक बना दिया है। पूर्वनिर्धारित या कस्टम स्पीच कमांड बनाने के लिए स्पीच का उपयोग अधिकतम यूजर इंटरफेस के भाग के रूप में किया जाता है।


=== शिक्षा और दैनिक जीवन में उपयोग ===
=== शिक्षा और दैनिक जीवन में उपयोग ===
भाषा सीखने के लिए, वाक् पहचान [[दूसरी भाषा]] सीखने के लिए उपयोगी हो सकती है। यह किसी व्यक्ति को उनके बोलने के कौशल के साथ प्रवाह विकसित करने में मदद करने के अतिरिक्त, उचित उच्चारण सिखा सकता है।<ref>{{cite web | last1 = Cerf | first1 = Vinton | last2 = Wrubel | first2 = Rob | last3 = Sherwood | first3 = Susan | title = क्या भाषण-पहचान सॉफ्टवेयर शैक्षिक भाषा बाधाओं को तोड़ सकता है?| url = http://curiosity.discovery.com/question/speech-recognition-software-language-barriers | url-status=dead |archive-url=https://web.archive.org/web/20140407065245/http://curiosity.discovery.com/question/speech-recognition-software-language-barriers | archive-date=7 April 2014 | website=Curiosity.com | publisher = Discovery Communications | access-date = 26 March 2014}}</ref>
भाषा सीखने के लिए, वाक् पहचान [[दूसरी भाषा]] सीखने के लिए उपयोगी हो सकती है। यह किसी व्यक्ति को उनके बोलने के कौशल के साथ प्रवाह विकसित करने में सहायता करने के अतिरिक्त, उचित उच्चारण सिखा सकता है।<ref>{{cite web | last1 = Cerf | first1 = Vinton | last2 = Wrubel | first2 = Rob | last3 = Sherwood | first3 = Susan | title = क्या भाषण-पहचान सॉफ्टवेयर शैक्षिक भाषा बाधाओं को तोड़ सकता है?| url = http://curiosity.discovery.com/question/speech-recognition-software-language-barriers | url-status=dead |archive-url=https://web.archive.org/web/20140407065245/http://curiosity.discovery.com/question/speech-recognition-software-language-barriers | archive-date=7 April 2014 | website=Curiosity.com | publisher = Discovery Communications | access-date = 26 March 2014}}</ref> जो छात्र अंधे हैं (दृष्टिहीनता और शिक्षा देखें) या बहुत कम दृष्टि वाले शब्दों को संप्रेषित करने के लिए प्रौद्योगिकी का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को उन्हें सुनाते हुए सुन सकते हैं, साथ ही अपनी ध्वनि के साथ कमांड करके देखने के अतिरिक्त स्क्रीन और कीबोर्ड का कंप्यूटर में उपयोग कर सकते हैं।<ref name=brainline>{{cite web|title=सीखने के लिए भाषण मान्यता|publisher=National Center for Technology Innovation|year=2010|url=http://www.brainline.org/content/2010/12/speech-recognition-for-learning_pageall.html|access-date=26 March 2014|url-status=live|archive-url=https://web.archive.org/web/20140413100513/http://www.brainline.org/content/2010/12/speech-recognition-for-learning_pageall.html|archive-date=13 April 2014|df=dmy-all}}</ref>
जो छात्र अंधे हैं (दृष्टिहीनता और शिक्षा देखें) या बहुत कम दृष्टि वाले शब्दों को संप्रेषित करने के लिए प्रौद्योगिकी का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को उन्हें सुनाते हुए सुन सकते हैं, साथ ही अपनी ध्वनि के साथ कमांड करके कंप्यूटर का उपयोग कर सकते हैं, देखने के अतिरिक्त स्क्रीन और कीबोर्ड।<ref name=brainline>{{cite web|title=सीखने के लिए भाषण मान्यता|publisher=National Center for Technology Innovation|year=2010|url=http://www.brainline.org/content/2010/12/speech-recognition-for-learning_pageall.html|access-date=26 March 2014|url-status=live|archive-url=https://web.archive.org/web/20140413100513/http://www.brainline.org/content/2010/12/speech-recognition-for-learning_pageall.html|archive-date=13 April 2014|df=dmy-all}}</ref>


जो छात्र शारीरिक रूप से अक्षम हैं, जिन्हें दोहरावदार तनाव की चोट/ऊपरी अंगों में अन्य चोटें हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके लिखावट, टाइपिंग, या स्कूल असाइनमेंट पर मुंशी के साथ काम करने की चिंता से मुक्त किया जा सकता है। वे माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करने का आनंद लेने के लिए वाक् पहचान तकनीक का भी उपयोग कर सकते हैं।<ref name="brainline" />
जो छात्र शारीरिक रूप से अक्षम हैं, जिन्हें दोहरावदार तनाव की चोट/ऊपरी अंगों में अन्य चोटें हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके लिखावट, टाइपिंग, या स्कूल असाइनमेंट पर मुंशी के साथ कार्य करने की चिंता से मुक्त किया जा सकता है। वे माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करने का आनंद लेने के लिए वाक् पहचान विधि का भी उपयोग कर सकते हैं।<ref name="brainline" />


भाषण मान्यता सीखने की अक्षमता वाले छात्रों को बेहतर लेखक बनने की अनुमति दे सकती है। शब्दों को जोर से बोलकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को दूर कर सकते हैं।<ref>{{cite web | last1 = Follensbee | first1 = Bob | first2 = Susan | last2 = McCloskey-Dale | title = स्कूलों में वाक् पहचान: क्षेत्र से एक अद्यतन| url = http://www.csun.edu/~hfdss006/conf/2000/proceedings/0219Follansbee.htm | website = Technology And Persons With Disabilities Conference 2000 | year = 2000 | access-date = 26 March 2014 | url-status = live | archive-url = https://web.archive.org/web/20060821213145/http://www.csun.edu/~hfdss006/conf/2000/proceedings/0219Follansbee.htm | archive-date = 21 August 2006 | df = dmy-all }}</ref> सीखने की अक्षमता भी देखें।
भाषण मान्यता सीखने की अक्षमता वाले छात्रों को उत्कृष्ट लेखक बनने की अनुमति दे सकती है। शब्दों को जोर से बोलकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को दूर कर सकते हैं।<ref>{{cite web | last1 = Follensbee | first1 = Bob | first2 = Susan | last2 = McCloskey-Dale | title = स्कूलों में वाक् पहचान: क्षेत्र से एक अद्यतन| url = http://www.csun.edu/~hfdss006/conf/2000/proceedings/0219Follansbee.htm | website = Technology And Persons With Disabilities Conference 2000 | year = 2000 | access-date = 26 March 2014 | url-status = live | archive-url = https://web.archive.org/web/20060821213145/http://www.csun.edu/~hfdss006/conf/2000/proceedings/0219Follansbee.htm | archive-date = 21 August 2006 | df = dmy-all }}</ref> इसके लिए सीखने की अक्षमता भी देखें।


एक डिजिटल ऑडियो रिकॉर्डर और व्यक्तिगत कंप्यूटर चलाने वाले वर्ड-प्रोसेसिंग सॉफ़्टवेयर के संयोजन के साथ ध्वनि पहचान सॉफ़्टवेयर का उपयोग स्ट्रोक और क्रैनियोटॉमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म मेमोरी क्षमता को बहाल करने के लिए सकारात्मक सिद्ध हुआ है।
डिजिटल ऑडियो रिकॉर्डर और व्यक्तिगत कंप्यूटर चलाने वाले वर्ड-प्रोसेसिंग सॉफ़्टवेयर के संयोजन के साथ ध्वनि पहचान सॉफ़्टवेयर का उपयोग स्ट्रोक और क्रैनियोटॉमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म मेमोरी क्षमता को निकालने के लिए धनात्मक सिद्ध हुआ है।


=== विकलांग लोग ===
=== विकलांग लोग ===
विकलांग लोग वाक् पहचान कार्यक्रमों से लाभान्वित हो सकते हैं। ऐसे व्यक्तियों के लिए जो बधिर हैं या सुनने में मुश्किल हैं, वाक् पहचान सॉफ़्टवेयर का उपयोग स्वचालित रूप से वार्तालापों का बंद-शीर्षक उत्पन्न करने के लिए किया जाता है जैसे सम्मेलन कक्ष, कक्षा व्याख्यान, और/या धार्मिक सेवाओं में चर्चा।<ref>{{cite web |url=http://www.massmatch.org/aboutus/listserv/2010/2010-03-31.html |title=कक्षा में संचार बाधाओं पर काबू पाना|publisher=MassMATCH |date=18 March 2010 |access-date=15 June 2013 |url-status=live |archive-url=https://web.archive.org/web/20130725024622/http://www.massmatch.org/aboutus/listserv/2010/2010-03-31.html |archive-date=25 July 2013 |df=dmy-all }}</ref>
विकलांग लोग वाक् पहचान कार्यक्रमों से लाभान्वित हो सकते हैं। ऐसे व्यक्तियों के लिए जो बधिर हैं या सुनने में मुश्किल हैं, '''वाक् पहचान''' सॉफ़्टवेयर का उपयोग स्वचालित रूप से वार्तालापों का बंद-शीर्षक उत्पन्न करने के लिए किया जाता है जैसे सम्मेलन कक्ष, कक्षा व्याख्यान, और/या धार्मिक सेवाओं में चर्चा।<ref>{{cite web |url=http://www.massmatch.org/aboutus/listserv/2010/2010-03-31.html |title=कक्षा में संचार बाधाओं पर काबू पाना|publisher=MassMATCH |date=18 March 2010 |access-date=15 June 2013 |url-status=live |archive-url=https://web.archive.org/web/20130725024622/http://www.massmatch.org/aboutus/listserv/2010/2010-03-31.html |archive-date=25 July 2013 |df=dmy-all }}</ref> वाक् पहचान उन लोगों के लिए भी बहुत उपयोगी है, जिन्हें अपने हाथों का उपयोग करने में कठिनाई होती है, हल्के दोहराव वाले तनाव की चोटों से लेकर ऐसी अक्षमताएं सम्मलित हैं जो पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। वास्तव में, जिन लोगों ने कीबोर्ड का बहुत उपयोग किया और दोहरावदार तनाव की चोट विकसित की, वे वाक् पहचान के लिए तत्काल प्रारंभिक बाजार बन गए।<ref>{{cite web|url=http://www.businessweek.com/1998/08/b3566022.htm|title=विकलांग लोगों के लिए भाषण मान्यता|url-status=live|archive-url=https://web.archive.org/web/20080404013302/http://www.businessweek.com/1998/08/b3566022.htm|archive-date=4 April 2008|df=dmy-all}}</ref><ref>[[Friends International Support Group]]</ref> वाक् पहचान का उपयोग बधिर टेलीफोनी में किया जाता है, जैसे कि ध्वनि मेल से पाठ, [[रिले सेवाएं]] और दूरसंचार रिले सेवा कैप्शन वाला टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिन्हें विचार-टू-पेपर संचार में समस्या है (अनिवार्य रूप से वे विचार के बारे में सोचते हैं लेकिन इसे गलत विधि से संसाधित किया जाता है जिससे यह कागज पर अलग तरह से समाप्त हो जाता है) संभवतः सॉफ्टवेयर से लाभान्वित हो सकते हैं लेकिन विधि बग प्रूफ नहीं है।<ref>{{cite journal | last1 = Garrett | first1 = Jennifer Tumlin | display-authors = etal | year = 2011 | title = शारीरिक अक्षमताओं वाले व्यक्तियों के लिए लेखन प्रवाह बढ़ाने के लिए वाक् पहचान सॉफ़्टवेयर का उपयोग करना| journal = Journal of Special Education Technology | volume = 26 | issue = 1| pages = 25–41 | doi = 10.1177/016264341102600104 | s2cid = 142730664 | url = https://scholarworks.gsu.edu/epse_diss/46 }}</ref> इसके अतिरिक्त पाठ से बात करने का पूरा विचार बौद्धिक रूप से अक्षम व्यक्ति के लिए कठिन हो सकता है क्योंकि ऐसा बहुत कम होता है कि कोई विकलांग व्यक्ति को पढ़ाने के लिए विधि सीखने का प्रयास करता है।<ref>Forgrave, Karen E. "Assistive Technology: Empowering Students with Disabilities." Clearing House 75.3 (2002): 122–6. Web.</ref> इस प्रकार की विधि डिस्लेक्सिया वाले लोगों की सहायता कर सकती है लेकिन अन्य विकलांग अभी भी सवालों के घेरे में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने से रोक रही है। चूंकि बच्चा शब्द कहने में सक्षम हो सकता है, यह इस बात पर निर्भर करता है कि वे इसे कितना स्पष्ट कहते हैं, विधि सोच सकती है कि वे और शब्द कह रहे हैं और गलत इनपुट कर सकते हैं। उन्हें ठीक करने के लिए और अधिक कार्य देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगना पड़ता है।<ref>{{cite journal | last1 = Tang | first1 = K. W. | last2 = Kamoua | first2 = Ridha | last3 = Sutan | first3 = Victor | year = 2004 | title = विकलांग शिक्षा के लिए भाषण मान्यता प्रौद्योगिकी| journal = Journal of Educational Technology Systems | volume = 33 | issue = 2| pages = 173–84 | doi = 10.2190/K6K8-78K2-59Y7-R9R2 | citeseerx = 10.1.1.631.3736 | s2cid = 143159997 }}</ref>
वाक् पहचान उन लोगों के लिए भी बहुत उपयोगी है, जिन्हें अपने हाथों का उपयोग करने में कठिनाई होती है, हल्के दोहराव वाले तनाव की चोटों से लेकर ऐसी अक्षमताएं सम्मलित हैं जो पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। वास्तव में, जिन लोगों ने कीबोर्ड का बहुत उपयोग किया और दोहरावदार तनाव की चोट विकसित की, वे वाक् पहचान के लिए तत्काल प्रारंभिक बाजार बन गए।<ref>{{cite web|url=http://www.businessweek.com/1998/08/b3566022.htm|title=विकलांग लोगों के लिए भाषण मान्यता|url-status=live|archive-url=https://web.archive.org/web/20080404013302/http://www.businessweek.com/1998/08/b3566022.htm|archive-date=4 April 2008|df=dmy-all}}</ref><ref>[[Friends International Support Group]]</ref> वाक् पहचान का उपयोग बधिर टेलीफोनी में किया जाता है, जैसे कि ध्वनि मेल से पाठ, [[रिले सेवाएं]] और दूरसंचार रिले सेवा # कैप्शन वाला टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिन्हें विचार-टू-पेपर संचार में समस्या है (अनिवार्य रूप से वे विचार के बारे में सोचते हैं लेकिन इसे गलत विधि से संसाधित किया जाता है जिससे यह कागज पर अलग तरह से समाप्त हो जाता है) संभवतः सॉफ्टवेयर से लाभान्वित हो सकते हैं लेकिन तकनीक बग प्रूफ नहीं है।<ref>{{cite journal | last1 = Garrett | first1 = Jennifer Tumlin | display-authors = etal | year = 2011 | title = शारीरिक अक्षमताओं वाले व्यक्तियों के लिए लेखन प्रवाह बढ़ाने के लिए वाक् पहचान सॉफ़्टवेयर का उपयोग करना| journal = Journal of Special Education Technology | volume = 26 | issue = 1| pages = 25–41 | doi = 10.1177/016264341102600104 | s2cid = 142730664 | url = https://scholarworks.gsu.edu/epse_diss/46 }}</ref> इसके अतिरिक्त पाठ से बात करने का पूरा विचार बौद्धिक रूप से अक्षम व्यक्ति के लिए कठिन हो सकता है क्योंकि ऐसा बहुत कम होता है कि कोई विकलांग व्यक्ति को पढ़ाने के लिए तकनीक सीखने का प्रयास करता है।<ref>Forgrave, Karen E. "Assistive Technology: Empowering Students with Disabilities." Clearing House 75.3 (2002): 122–6. Web.</ref>
इस प्रकार की तकनीक डिस्लेक्सिया वाले लोगों की मदद कर सकती है लेकिन अन्य विकलांग अभी भी सवालों के घेरे में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने से रोक रही है। चूंकि बच्चा शब्द कहने में सक्षम हो सकता है, यह इस बात पर निर्भर करता है कि वे इसे कितना स्पष्ट कहते हैं, तकनीक सोच सकती है कि वे और शब्द कह रहे हैं और गलत इनपुट कर सकते हैं। उन्हें ठीक करने के लिए और अधिक काम देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगना पड़ता है।<ref>{{cite journal | last1 = Tang | first1 = K. W. | last2 = Kamoua | first2 = Ridha | last3 = Sutan | first3 = Victor | year = 2004 | title = विकलांग शिक्षा के लिए भाषण मान्यता प्रौद्योगिकी| journal = Journal of Educational Technology Systems | volume = 33 | issue = 2| pages = 173–84 | doi = 10.2190/K6K8-78K2-59Y7-R9R2 | citeseerx = 10.1.1.631.3736 | s2cid = 143159997 }}</ref>
 
 
===आगे के आवेदन===
===आगे के आवेदन===
* [[एयरोस्पेस]] (उदाहरण के लिए अंतरिक्ष अन्वेषण, [[अंतरिक्ष यान]], आदि) नासा के [[मंगल ध्रुवीय लैंडर]] ने लैंडर पर मंगल माइक्रोफोन में संवेदी, इंक. से वाक् पहचान तकनीक का उपयोग किया<ref name="Planetary Society article">{{cite web | publisher=The Planetary Society | url=http://www.planetary.org/programs/projects/planetary_microphones/mars_microphone.html | url-status=dead |archive-url=https://web.archive.org/web/20120127161038/http://www.planetary.org/programs/projects/planetary_microphones/mars_microphone.html | archive-date=27 January 2012 |title=प्रोजेक्ट्स: प्लेनेटरी माइक्रोफ़ोन}}</ref>
* [[एयरोस्पेस]] (उदाहरण के लिए अंतरिक्ष अन्वेषण, [[अंतरिक्ष यान]], आदि) नासा के [[मंगल ध्रुवीय लैंडर]] ने लैंडर पर मंगल माइक्रोफोन में संवेदी, इंक. से वाक् पहचान विधि का उपयोग किया<ref name="Planetary Society article">{{cite web | publisher=The Planetary Society | url=http://www.planetary.org/programs/projects/planetary_microphones/mars_microphone.html | url-status=dead |archive-url=https://web.archive.org/web/20120127161038/http://www.planetary.org/programs/projects/planetary_microphones/mars_microphone.html | archive-date=27 January 2012 |title=प्रोजेक्ट्स: प्लेनेटरी माइक्रोफ़ोन}}</ref>
* वाक् पहचान के साथ स्वचालित [[समान भाषा उपशीर्षक]]
* वाक् पहचान के साथ स्वचालित [[समान भाषा उपशीर्षक]]
* स्वचालित [[भावना पहचान]]<ref>{{cite book |last1=Caridakis |first1=George |last2=Castellano |first2=Ginevra |last3=Kessous |first3=Loic |last4=Raouzaiou |first4=Amaryllis |last5=Malatesta |first5=Lori |last6=Asteriadis |first6=Stelios |last7=Karpouzis |first7=Kostas |title=अभिव्यंजक चेहरों, शरीर के इशारों और भाषण से मल्टीमॉडल इमोशन रिकग्निशन|journal=IFIP the International Federation for Information Processing |volume=247 |date=19 September 2007 |pages=375–388 |doi=10.1007/978-0-387-74161-1_41 |publisher=Springer US |language=en|isbn=978-0-387-74160-4 }}</ref>
* स्वचालित [[भावना पहचान]]<ref>{{cite book |last1=Caridakis |first1=George |last2=Castellano |first2=Ginevra |last3=Kessous |first3=Loic |last4=Raouzaiou |first4=Amaryllis |last5=Malatesta |first5=Lori |last6=Asteriadis |first6=Stelios |last7=Karpouzis |first7=Kostas |title=अभिव्यंजक चेहरों, शरीर के इशारों और भाषण से मल्टीमॉडल इमोशन रिकग्निशन|journal=IFIP the International Federation for Information Processing |volume=247 |date=19 September 2007 |pages=375–388 |doi=10.1007/978-0-387-74161-1_41 |publisher=Springer US |language=en|isbn=978-0-387-74160-4 }}</ref>
Line 310: Line 297:
*[[बहु-कारक प्रमाणीकरण]] के लिए अन्य बायोमेट्रिक स्कैनर के साथ उपयोग सहित सुरक्षा<ref>{{Cite book|last1=Zheng|first1=Thomas Fang|url=http://link.springer.com/10.1007/978-981-10-3238-7|title=रोबस्टनेस-रिलेटेड इश्यूज इन स्पीकर रिकग्निशन|last2=Li|first2=Lantian|date=2017|publisher=Springer Singapore|isbn=978-981-10-3237-0|series=SpringerBriefs in Electrical and Computer Engineering|location=Singapore|doi=10.1007/978-981-10-3238-7}}</ref>
*[[बहु-कारक प्रमाणीकरण]] के लिए अन्य बायोमेट्रिक स्कैनर के साथ उपयोग सहित सुरक्षा<ref>{{Cite book|last1=Zheng|first1=Thomas Fang|url=http://link.springer.com/10.1007/978-981-10-3238-7|title=रोबस्टनेस-रिलेटेड इश्यूज इन स्पीकर रिकग्निशन|last2=Li|first2=Lantian|date=2017|publisher=Springer Singapore|isbn=978-981-10-3237-0|series=SpringerBriefs in Electrical and Computer Engineering|location=Singapore|doi=10.1007/978-981-10-3238-7}}</ref>
* भाषण से पाठ (पाठ में भाषण का प्रतिलेखन, वास्तविक समय वीडियो कैप्शनिंग, कोर्ट रिपोर्टिंग)
* भाषण से पाठ (पाठ में भाषण का प्रतिलेखन, वास्तविक समय वीडियो कैप्शनिंग, कोर्ट रिपोर्टिंग)
*[[TELEMATICS]] (जैसे वाहन नेविगेशन प्रणाली)
*[[टेलीमैटिक्स]] (जैसे वाहन नेविगेशन प्रणाली)
*प्रतिलेखन (भाषाविज्ञान) (डिजिटल भाषण-से-पाठ)
*प्रतिलेखन (भाषाविज्ञान) (डिजिटल भाषण-से-पाठ)
*काम के उदाहरण के रूप में टॉम क्लेन्सी के एंडवार और लाइफलाइन ([[वीडियो गेम]]) के साथ वीडियो गेम
*कार्य के उदाहरण के रूप में टॉम क्लेन्सी के एंडवार और लाइफलाइन ([[वीडियो गेम]]) के साथ वीडियो गेम
*आभासी सहायक (आर्टिफिशियल इंटेलिजेंस) (उदाहरण के लिए Apple सिरी|Apple's सिरी)
*आभासी सहायक (आर्टिफिशियल इंटेलिजेंस) (उदाहरण के लिए एप्पल सिरी)


== प्रदर्शन ==
== प्रदर्शन ==
वाक् पहचान प्रणाली के प्रदर्शन का मूल्यांकन सामान्यतः सटीकता और गति के संदर्भ में किया जाता है।<ref>Ciaramella, Alberto. "A prototype performance evaluation report." Sundial workpackage 8000 (1993).</ref><ref>{{Cite book | doi=10.1109/ICASSP.1993.319250| isbn=0-7803-0946-4| chapter=Test and evaluation of a spoken dialogue system| title=ध्वनिकी भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन| year=1993| last1=Gerbino| first1=E.| last2=Baggia| first2=P.| last3=Ciaramella| first3=A.| last4=Rullent| first4=C.| pages=135–138 vol.2| s2cid=57374050}}</ref> सटीकता को सामान्यतः [[शब्द त्रुटि दर]] (WER) के साथ आंका जाता है, जबकि गति को [[वास्तविक समय कारक]] के साथ मापा जाता है। सटीकता के अन्य उपायों में [[एकल शब्द त्रुटि दर]] (SWER) और [[कमान सफलता दर]] (CSR) सम्मलित हैं।
वाक् पहचान प्रणाली के प्रदर्शन का मूल्यांकन सामान्यतः सटीकता और गति के संदर्भ में किया जाता है।<ref>Ciaramella, Alberto. "A prototype performance evaluation report." Sundial workpackage 8000 (1993).</ref><ref>{{Cite book | doi=10.1109/ICASSP.1993.319250| isbn=0-7803-0946-4| chapter=Test and evaluation of a spoken dialogue system| title=ध्वनिकी भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन| year=1993| last1=Gerbino| first1=E.| last2=Baggia| first2=P.| last3=Ciaramella| first3=A.| last4=Rullent| first4=C.| pages=135–138 vol.2| s2cid=57374050}}</ref> सटीकता को सामान्यतः [[शब्द त्रुटि दर]] (डब्ल्यूआर) के साथ आंका जाता है, जबकि गति को [[वास्तविक समय कारक]] के साथ मापा जाता है। सटीकता के अन्य उपायों में [[एकल शब्द त्रुटि दर]] (एसडब्ल्यूईआर) और [[कमान सफलता दर]] (सीएसआर) सम्मलित हैं।


चूंकि, मशीन द्वारा वाक् पहचान बहुत ही जटिल समस्या है। लहजे, उच्चारण, मुखरता, खुरदरापन, अनुनासिकता, पिच, मात्रा और गति के संदर्भ में स्वर अलग-अलग होते हैं। भाषण पृष्ठभूमि शोर और गूँज, विद्युत विशेषताओं से विकृत है। वाक् पहचान की सटीकता निम्न के साथ भिन्न हो सकती है:<ref>National Institute of Standards and Technology. "[http://www.itl.nist.gov/iad/mig/publications/ASRhistory/ The History of Automatic Speech Recognition Evaluation at NIST] {{webarchive|url=https://web.archive.org/web/20131008210040/http://www.itl.nist.gov/iad/mig/publications/ASRhistory/ |date=8 October 2013 }}".</ref>{{Citation needed|date=May 2013}}
चूंकि, मशीन द्वारा वाक् पहचान बहुत ही जटिल समस्या है। लहजे, उच्चारण, मुखरता, खुरदरापन, अनुनासिकता, पिच, मात्रा और गति के संदर्भ में स्वर अलग-अलग होते हैं। भाषण पृष्ठभूमि शोर और गूँज, विद्युत विशेषताओं से विकृत है। वाक् पहचान की सटीकता निम्न के साथ भिन्न हो सकती है:<ref>National Institute of Standards and Technology. "[http://www.itl.nist.gov/iad/mig/publications/ASRhistory/ The History of Automatic Speech Recognition Evaluation at NIST] {{webarchive|url=https://web.archive.org/web/20131008210040/http://www.itl.nist.gov/iad/mig/publications/ASRhistory/ |date=8 October 2013 }}".</ref>{{Citation needed|date=May 2013}}
Line 327: Line 314:


=== सटीकता ===
=== सटीकता ===
जैसा कि इस लेख में पहले उल्लेख किया गया है, वाक् पहचान की सटीकता निम्नलिखित कारकों के आधार पर भिन्न हो सकती है:
जैसा कि इस लेख में पहले उल्लेख किया गया है, '''वाक् पहचान''' की सटीकता निम्नलिखित कारकों के आधार पर भिन्न हो सकती है:
* शब्दावली का आकार बढ़ने पर त्रुटि दर बढ़ती है:
* शब्दावली का आकार बढ़ने पर त्रुटि दर बढ़ती है:
:: जैसे शून्य से नौ तक के 10 अंकों को अनिवार्य रूप से पूरी तरह से पहचाना जा सकता है, लेकिन 200, 5000 या 100000 के शब्दावली आकार में क्रमशः 3%, 7% या 45% की त्रुटि दर हो सकती है।
:: जैसे शून्य से नौ तक के 10 अंकों को अनिवार्य रूप से पूरी तरह से पहचाना जा सकता है, लेकिन 200, 5000 या 100000 के शब्दावली आकार में क्रमशः 3%, 7% या 45% की त्रुटि दर हो सकती है।
Line 337: Line 324:
* पृथक, विच्छिन्न या निरंतर वाणी
* पृथक, विच्छिन्न या निरंतर वाणी
:: एकाकी वाणी में शब्द का प्रयोग होता है, इसलिए वाणी को पहचानना आसान हो जाता है।
:: एकाकी वाणी में शब्द का प्रयोग होता है, इसलिए वाणी को पहचानना आसान हो जाता है।
विच्छिन्न वाक् में मौन द्वारा अलग किए गए पूर्ण वाक्यों का प्रयोग किया जाता है, इसलिए वाक् के साथ-साथ विलग वाक् को पहचानना आसान हो जाता है। <br />
विच्छिन्न वाक् में मौन द्वारा अलग किए गए पूर्ण वाक्यों का प्रयोग किया जाता है, इसलिए वाक् के साथ-साथ विलग वाक् को पहचानना आसान हो जाता है। <br />निरंतर भाषण के साथ स्वाभाविक रूप से बोले जाने वाले वाक्यों का उपयोग किया जाता है, इसलिए भाषण को पहचानना कठिन हो जाता है, अलग-अलग और असंतत भाषण दोनों से अलग।
निरंतर भाषण के साथ स्वाभाविक रूप से बोले जाने वाले वाक्यों का उपयोग किया जाता है, इसलिए भाषण को पहचानना कठिन हो जाता है, अलग-अलग और असंतत भाषण दोनों से अलग।


* कार्य और भाषा की कमी
* कार्य और भाषा की कमी
Line 348: Line 334:
* पढ़ें बनाम सहज भाषण - जब कोई व्यक्ति पढ़ता है तो यह सामान्यतः पहले से तैयार किए गए संदर्भ में होता है, लेकिन जब कोई व्यक्ति सहज भाषण का उपयोग करता है, तो भाषण को पहचानना मुश्किल होता है क्योंकि भाषण (जैसे उह और उम, झूठी प्रारंभिक, अधूरे वाक्य, हकलाना, खाँसी और हँसी) और सीमित शब्दावली।
* पढ़ें बनाम सहज भाषण - जब कोई व्यक्ति पढ़ता है तो यह सामान्यतः पहले से तैयार किए गए संदर्भ में होता है, लेकिन जब कोई व्यक्ति सहज भाषण का उपयोग करता है, तो भाषण को पहचानना मुश्किल होता है क्योंकि भाषण (जैसे उह और उम, झूठी प्रारंभिक, अधूरे वाक्य, हकलाना, खाँसी और हँसी) और सीमित शब्दावली।
* प्रतिकूल परिस्थितियाँ - पर्यावरणीय शोर (जैसे कार या कारखाने में शोर)। ध्वनिक विकृतियाँ (जैसे गूँज, कक्ष ध्वनिकी)
* प्रतिकूल परिस्थितियाँ - पर्यावरणीय शोर (जैसे कार या कारखाने में शोर)। ध्वनिक विकृतियाँ (जैसे गूँज, कक्ष ध्वनिकी)
वाक् पहचान बहु-स्तरीय पैटर्न पहचान कार्य है।
वाक् पहचान बहु-स्तरीय स्वरूप पहचान कार्य है।
* ध्वनिक संकेतों को इकाइयों के पदानुक्रम में संरचित किया जाता है, उदा। स्वर, शब्द, वाक्यांश और वाक्य;
* ध्वनिक संकेतों को इकाइयों के पदानुक्रम में संरचित किया जाता है, उदा। स्वर, शब्द, वाक्यांश और वाक्य;
* प्रत्येक स्तर अतिरिक्त प्रतिबंध प्रदान करता है;
* प्रत्येक स्तर अतिरिक्त प्रतिबंध प्रदान करता है;
उदा. ज्ञात शब्द उच्चारण या कानूनी शब्द क्रम, जो निचले स्तर पर त्रुटियों या अनिश्चितताओं की भरपाई कर सकता है;
उदा. ज्ञात शब्द उच्चारण या शब्द क्रम के नियम, जो निचले स्तर पर त्रुटियों या अनिश्चितताओं की भरपाई कर सकता है;
* बाधाओं के इस पदानुक्रम का शोषण किया जाता है। सभी निचले स्तरों पर संभाव्य रूप से निर्णयों को संयोजित करके, और केवल उच्चतम स्तर पर अधिक नियतात्मक निर्णय लेने से, मशीन द्वारा वाक् पहचान कई चरणों में विभाजित प्रक्रिया है। कम्प्यूटरीकृत रूप से, यह समस्या है जिसमें ध्वनि पैटर्न को पहचाना जाना चाहिए या श्रेणी में वर्गीकृत किया जाना चाहिए जो मानव के लिए अर्थ का प्रतिनिधित्व करता है। प्रत्येक ध्वनिक संकेत को छोटे और अधिक बुनियादी उप-संकेतों में तोड़ा जा सकता है। जैसे-जैसे अधिक जटिल ध्वनि संकेत छोटे उप-ध्वनियों में टूटते हैं, विभिन्न स्तरों का निर्माण होता है, जहाँ शीर्ष स्तर पर हमारे पास जटिल ध्वनियाँ होती हैं, जो निचले स्तर पर सरल ध्वनियों से बनी होती हैं, और निचले स्तरों तक जाती हैं, और भी अधिक, हम अधिक बुनियादी और छोटी और सरल ध्वनियाँ बनाते हैं। निम्नतम स्तर पर, जहाँ ध्वनियाँ सबसे मौलिक हैं, मशीन सरल और अधिक संभाव्य नियमों की जाँच करेगी कि किस ध्वनि का प्रतिनिधित्व करना चाहिए। बार जब इन ध्वनियों को ऊपरी स्तर पर अधिक जटिल ध्वनियों में साथ रखा जाता है, तो अधिक नियतात्मक नियमों के नए सेट को भविष्यवाणी करनी चाहिए कि नई जटिल ध्वनि को क्या प्रदर्शित करना चाहिए। नियतात्मक नियम के सबसे ऊपरी स्तर को जटिल भावों के अर्थ का पता लगाना चाहिए। वाक् पहचान के बारे में अपने ज्ञान का विस्तार करने के लिए, हमें तंत्रिका नेटवर्क पर विचार करने की आवश्यकता है। तंत्रिका नेटवर्क दृष्टिकोण के चार चरण हैं:
* बाधाओं के इस पदानुक्रम का शोषण किया जाता है। सभी निचले स्तरों पर संभाव्य रूप से निर्णयों को संयोजित करके, और केवल उच्चतम स्तर पर अधिक नियतात्मक निर्णय लेने से, मशीन द्वारा वाक् पहचान कई चरणों में विभाजित प्रक्रिया है। कम्प्यूटरीकृत रूप से, यह समस्या है जिसमें ध्वनि स्वरूप को पहचाना जाना चाहिए या श्रेणी में वर्गीकृत किया जाना चाहिए जो मानव के लिए अर्थ का प्रतिनिधित्व करता है। प्रत्येक ध्वनिक संकेत को छोटे और अधिक मौलिक उप-संकेतों में तोड़ा जा सकता है। जैसे-जैसे अधिक जटिल ध्वनि संकेत छोटे उप-ध्वनियों में टूटते हैं, विभिन्न स्तरों का निर्माण होता है, जहाँ शीर्ष स्तर पर हमारे पास जटिल ध्वनियाँ होती हैं, जो निचले स्तर पर सरल ध्वनियों से बनी होती हैं, और निचले स्तरों तक जाती हैं, और भी अधिक, हम अधिक मौलिक और छोटी और सरल ध्वनियाँ बनाते हैं। निम्नतम स्तर पर, जहाँ ध्वनियाँ सबसे मौलिक हैं, मशीन सरल और अधिक संभाव्य नियमों की जाँच करेगी कि किस ध्वनि का प्रतिनिधित्व करना चाहिए। बार जब इन ध्वनियों को ऊपरी स्तर पर अधिक जटिल ध्वनियों में साथ रखा जाता है, तो अधिक नियतात्मक नियमों के नए सेट को भविष्यवाणी करनी चाहिए कि नई जटिल ध्वनि को क्या प्रदर्शित करना चाहिए। नियतात्मक नियम के सबसे ऊपरी स्तर को जटिल भावों के अर्थ का पता लगाना चाहिए। वाक् पहचान के बारे में अपने ज्ञान का विस्तार करने के लिए, हमें तंत्रिका नेटवर्क पर विचार करने की आवश्यकता है। तंत्रिका नेटवर्क दृष्टिकोण के चार चरण हैं:
* उस भाषण को डिजिटाइज़ करें जिसे हम पहचानना चाहते हैं
* उस भाषण को डिजिटाइज़ करें जिसे हम पहचानना चाहते हैं
टेलीफोन भाषण के लिए नमूनाकरण दर प्रति सेकंड 8000 नमूने हैं;
टेलीफोन भाषण के लिए नमूनाकरण दर प्रति सेकंड 8000 नमूने हैं;
Line 361: Line 347:
सटीकता की गणना शब्द त्रुटि दर (WER) की सहायता से की जा सकती है। शब्द त्रुटि दर की गणना गतिशील स्ट्रिंग संरेखण का उपयोग करके मान्यता प्राप्त शब्द और संदर्भित शब्द को संरेखित करके की जा सकती हैएनटी। मान्यता प्राप्त शब्द और संदर्भित शब्द की अनुक्रम लंबाई के बीच अंतर के कारण शब्द त्रुटि दर की गणना करते समय समस्या हो सकती है।
सटीकता की गणना शब्द त्रुटि दर (WER) की सहायता से की जा सकती है। शब्द त्रुटि दर की गणना गतिशील स्ट्रिंग संरेखण का उपयोग करके मान्यता प्राप्त शब्द और संदर्भित शब्द को संरेखित करके की जा सकती हैएनटी। मान्यता प्राप्त शब्द और संदर्भित शब्द की अनुक्रम लंबाई के बीच अंतर के कारण शब्द त्रुटि दर की गणना करते समय समस्या हो सकती है।
होने देना
होने देना
   एस प्रतिस्थापन की संख्या हो,
   S प्रतिस्थापन की संख्या हो,
   D विलोपन की संख्या हो,
   D विलोपन की संख्या हो,
   मैं सम्मिलन की संख्या हो,
   I सम्मिलन की संख्या हो,
   N शब्द संदर्भों की संख्या हो।
   N शब्द संदर्भों की संख्या हो।
शब्द त्रुटि दर (WER) की गणना करने का सूत्र है
शब्द त्रुटि दर (WER) की गणना करने का सूत्र है
      डब्ल्यूईआर = (एस+डी+आई)÷एन
    WR = (S+D+I)÷N
शब्द पहचान दर (WRR) की गणना करते समय शब्द त्रुटि दर (WER) का उपयोग किया जाता है और सूत्र है
शब्द पहचान दर (WRR) की गणना करते समय शब्द त्रुटि दर (WER) का उपयोग किया जाता है और सूत्र है
      WRR = 1- WER
    WRR = 1- WER
          = (एन-एस-डी-आईएन = (एच-आई)÷एन
      = (N-S-D-IN = (H-I)÷N
यहाँ H सही ढंग से पहचाने जाने वाले शब्दों की संख्या है। एच = एन- (एस + डी)।
यहाँ H सही ढंग से पहचाने जाने वाले शब्दों की संख्या है। H = N- (S + D)।


===सुरक्षा चिंताएं===
===सुरक्षा चिंताएं===
वाक् पहचान हमले, चोरी या आकस्मिक ऑपरेशन का साधन बन सकती है। उदाहरण के लिए, ऑडियो या वीडियो प्रसारण में बोले जाने वाले एलेक्सा जैसे सक्रियण शब्द घरों और कार्यालयों में उपकरणों को अनुचित विधि से इनपुट के लिए सुनना शुरू कर सकते हैं, या संभवतः अवांछित कार्रवाई कर सकते हैं।<ref>{{cite news |url=https://www.npr.org/2016/03/06/469383361/listen-up-your-ai-assistant-goes-crazy-for-npr-too |title=सुनो: आपका एआई सहायक एनपीआर के लिए भी पागल हो गया है|work=[[NPR]] |date=6 March 2016 |url-status=live |archive-url=https://web.archive.org/web/20170723210358/http://www.npr.org/2016/03/06/469383361/listen-up-your-ai-assistant-goes-crazy-for-npr-too |archive-date=23 July 2017 |df=dmy-all }}</ref> ध्वनि-नियंत्रित उपकरण भवन के आगंतुकों के लिए या भवन के बाहर के लोगों के लिए भी सुलभ हैं यदि उन्हें अंदर सुना जा सकता है। हमलावर व्यक्तिगत जानकारी, जैसे कैलेंडर, पता पुस्तिका सामग्री, निजी संदेश और दस्तावेजों तक पहुंच प्राप्त करने में सक्षम हो सकते हैं। वे संदेश भेजने या ऑनलाइन खरीदारी करने के लिए उपयोगकर्ता का प्रतिरूपण करने में भी सक्षम हो सकते हैं।
वाक् पहचान हमले से चोरी या आकस्मिक ऑपरेशन का साधन बना सकती है। उदाहरण के लिए, ऑडियो या वीडियो प्रसारण में बोले जाने वाले एलेक्सा जैसे सक्रियण शब्द घरों और कार्यालयों में उपकरणों को अनुचित विधि से इनपुट के लिए सुनना शुरू कर सकते हैं, या संभवतः अवांछित कार्रवाई कर सकते हैं।<ref>{{cite news |url=https://www.npr.org/2016/03/06/469383361/listen-up-your-ai-assistant-goes-crazy-for-npr-too |title=सुनो: आपका एआई सहायक एनपीआर के लिए भी पागल हो गया है|work=[[NPR]] |date=6 March 2016 |url-status=live |archive-url=https://web.archive.org/web/20170723210358/http://www.npr.org/2016/03/06/469383361/listen-up-your-ai-assistant-goes-crazy-for-npr-too |archive-date=23 July 2017 |df=dmy-all }}</ref> ध्वनि-नियंत्रित उपकरण भवन के आगंतुकों के लिए या भवन के बाहर के लोगों के लिए भी सुलभ हैं यदि उन्हें अंदर सुना जा सकता है। हमलावर व्यक्तिगत जानकारी, जैसे कैलेंडर, पता पुस्तिका सामग्री, निजी संदेश और दस्तावेजों तक पहुंच प्राप्त करने में सक्षम हो सकते हैं। वे संदेश भेजने या ऑनलाइन खरीदारी करने के लिए उपयोगकर्ता का प्रतिरूपण करने में भी सक्षम हो सकते हैं।


कृत्रिम ध्वनियों का उपयोग करने वाले दो हमलों का प्रदर्शन किया गया है। अल्ट्रासाउंड प्रसारित करता है और आस-पास के लोगों को नोटिस किए बिना कमांड भेजने का प्रयास करता है।<ref>{{cite news |url=https://www.theregister.co.uk/2017/08/25/amazon_alexa_answers_inaudible_commands/?mt=1504024969000 |title=क्या अश्रव्य आदेशों का उपयोग करके अमेज़न एलेक्सा, Google नाओ को नियंत्रित करना संभव है? बिल्कुल|work=[[The Register]] |first=Thomas |last=Claburn |date=25 August 2017 |url-status=live |archive-url=https://web.archive.org/web/20170902051123/https://www.theregister.co.uk/2017/08/25/amazon_alexa_answers_inaudible_commands/?mt=1504024969000 |archive-date=2 September 2017 |df=dmy-all }}</ref> दूसरा अन्य भाषण या संगीत के लिए छोटे, अश्रव्य विकृतियों को जोड़ता है जो विशेष रूप से विशिष्ट भाषण मान्यता प्रणाली को संगीत को भाषण के रूप में पहचानने में भ्रमित करने के लिए तैयार किए जाते हैं, या प्रणाली के लिए अलग कमांड की तरह मानव ध्वनि के लिए कमांड की तरह लगता है।<ref>{{cite web|url=https://motherboard.vice.com/en_us/article/d34nnz/attack-targets-automatic-speech-recognition-systems|title=अटैक टारगेट ऑटोमैटिक स्पीच रिकॉग्निशन सिस्टम|date=31 January 2018|website=vice.com|access-date=1 May 2018|url-status=live|archive-url=https://web.archive.org/web/20180303050744/https://motherboard.vice.com/en_us/article/d34nnz/attack-targets-automatic-speech-recognition-systems|archive-date=3 March 2018|df=dmy-all}}</ref>
कृत्रिम ध्वनियों का उपयोग करने वाले दो हमलों का प्रदर्शन किया गया है। अल्ट्रासाउंड प्रसारित करता है और आस-पास के लोगों को नोटिस किए बिना कमांड भेजने का प्रयास करता है।<ref>{{cite news |url=https://www.theregister.co.uk/2017/08/25/amazon_alexa_answers_inaudible_commands/?mt=1504024969000 |title=क्या अश्रव्य आदेशों का उपयोग करके अमेज़न एलेक्सा, Google नाओ को नियंत्रित करना संभव है? बिल्कुल|work=[[The Register]] |first=Thomas |last=Claburn |date=25 August 2017 |url-status=live |archive-url=https://web.archive.org/web/20170902051123/https://www.theregister.co.uk/2017/08/25/amazon_alexa_answers_inaudible_commands/?mt=1504024969000 |archive-date=2 September 2017 |df=dmy-all }}</ref> दूसरा अन्य भाषण या संगीत के लिए छोटे, अश्रव्य विकृतियों को जोड़ता है जो विशेष रूप से विशिष्ट भाषण मान्यता प्रणाली को संगीत को भाषण के रूप में पहचानने में भ्रमित करने के लिए तैयार किए जाते हैं, या प्रणाली के लिए अलग कमांड की तरह मानव ध्वनि के लिए कमांड की तरह लगता है।<ref>{{cite web|url=https://motherboard.vice.com/en_us/article/d34nnz/attack-targets-automatic-speech-recognition-systems|title=अटैक टारगेट ऑटोमैटिक स्पीच रिकॉग्निशन सिस्टम|date=31 January 2018|website=vice.com|access-date=1 May 2018|url-status=live|archive-url=https://web.archive.org/web/20180303050744/https://motherboard.vice.com/en_us/article/d34nnz/attack-targets-automatic-speech-recognition-systems|archive-date=3 March 2018|df=dmy-all}}</ref>
== अधिक जानकारी ==
== अधिक जानकारी ==


=== सम्मेलन और पत्रिकाएँ ===
=== सम्मेलन और पत्रिकाएँ ===
हर साल या दो साल में आयोजित लोकप्रिय भाषण मान्यता सम्मेलनों में स्पीचटेक और स्पीचटेक यूरोप, ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन, [[इंटरस्पीच]]/यूरोस्पीच और [[आईईईई]] एएसआरयू सम्मलित हैं। [[कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन|कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन]], [[कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय|कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय]], EMNLP, और HLT जैसे [[प्राकृतिक भाषा प्रसंस्करण]] के क्षेत्र में सम्मेलनों में [[भाषण प्रसंस्करण]] पर पेपर सम्मलित होने लगे हैं। महत्वपूर्ण पत्रिकाओं में भाषण और ऑडियो प्रसंस्करण पर आईईईई लेनदेन सम्मलित हैं (बाद में ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन का नाम बदल दिया गया और सितंबर 2014 से ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई / ACM लेनदेन का नाम बदल दिया गया - ACM प्रकाशन के साथ विलय के पश्चात), कंप्यूटर भाषण और भाषा, और भाषण संचार।
हर साल या दो साल में आयोजित लोकप्रिय भाषण मान्यता सम्मेलनों में स्पीचटेक और स्पीचटेक यूरोप, ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन, [[इंटरस्पीच]]/यूरोस्पीच और [[आईईईई]] एएसआरयू सम्मलित हैं। [[कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन|कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन]], [[कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय|कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय]], ईएमएनएलपी, और एचएलटी जैसे [[प्राकृतिक भाषा प्रसंस्करण]] के क्षेत्र में सम्मेलनों में [[भाषण प्रसंस्करण]] पर पेपर सम्मलित होने लगे हैं। महत्वपूर्ण पत्रिकाओं में भाषण और ऑडियो प्रसंस्करण पर आईईईई लेनदेन सम्मलित हैं (बाद में ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन का नाम बदल दिया गया और सितंबर 2014 से ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई / एसीएम लेनदेन का नाम बदल दिया गया - एसीएम प्रकाशन के साथ विलय के पश्चात), कंप्यूटर भाषण और भाषा, और भाषण संचार को परिवर्तित कर दिया गया।


=== किताबें ===
=== किताबें ===
लॉरेंस रैबिनर द्वारा लिखित बुनियादी ज्ञान की वाक् पहचान जैसी पुस्तकें बुनियादी ज्ञान प्राप्त करने के लिए उपयोगी हो सकती हैं लेकिन पूरी तरह से अद्यतित नहीं हो सकती हैं (1993)। अन्य अच्छा स्रोत हो सकता है [[फ्रेडरिक जेलिनेक]] द्वारा भाषण मान्यता के लिए सांख्यिकीय विधि और जुडोंग हुआंग द्वारा स्पोकन लैंग्वेज प्रोसेसिंग (2001), कंप्यूटर भाषण, मैनफ्रेड आर श्रोएडर द्वारा, 2004 में प्रकाशित दूसरा संस्करण, और भाषण प्रसंस्करण: गतिशील और अनुकूलन- ओरिएंटेड एप्रोच 2003 में ली डेंग और डौग ओ'शॉघनेसी द्वारा प्रकाशित। [[डेनियल जुराफस्की]] और मार्टिन द्वारा अद्यतन पाठ्यपुस्तक भाषण और भाषा प्रसंस्करण (2008) एएसआर के लिए मूल बातें और कला की स्थिति प्रस्तुत करती है। स्पीकर की पहचान भी उन्हीं विशेषताओं का उपयोग करती है, जिनमें से अधिकांश समान फ्रंट-एंड प्रोसेसिंग और वर्गीकरण तकनीकों का उपयोग करती हैं जैसा कि भाषण मान्यता में किया जाता है। व्यापक पाठ्यपुस्तक, स्पीकर रिकॉग्निशन के फंडामेंटल्स सिद्धांत और व्यवहार पर अद्यतन विवरण के लिए गहन स्रोत है।<ref name="auto">{{cite book|last=Beigi|first=Homayoon|title=स्पीकर मान्यता की बुनियादी बातों|year=2011|publisher=Springer|location=New York|isbn=978-0-387-77591-3|url=http://www.fundamentalsofspeakerrecognition.org|url-status=live|archive-url=https://web.archive.org/web/20180131140911/http://www.fundamentalsofspeakerrecognition.org/|archive-date=31 January 2018|df=dmy-all}}</ref> सर्वोत्तम आधुनिक प्रणालियों में उपयोग की जाने वाली तकनीकों में अच्छी अंतर्दृष्टि सरकारी प्रायोजित मूल्यांकनों पर ध्यान देकर प्राप्त की जा सकती है जैसे कि डारपा द्वारा आयोजित (2007 तक चलने वाली सबसे बड़ी वाक् पहचान-संबंधित परियोजना गेल परियोजना है, जिसमें वाक् पहचान दोनों सम्मलित हैं) और अनुवाद घटक)।
लॉरेंस रैबिनर द्वारा लिखित मौलिक ज्ञान की वाक् पहचान जैसी पुस्तकें मौलिक ज्ञान प्राप्त करने के लिए उपयोगी हो सकती हैं लेकिन पूरी तरह से अद्यतित नहीं हो सकती हैं (1993)। अन्य अच्छा स्रोत हो सकता है, [[फ्रेडरिक जेलिनेक]] द्वारा भाषण मान्यता के लिए सांख्यिकीय विधि और जुडोंग हुआंग द्वारा स्पोकन लैंग्वेज प्रोसेसिंग (2001), कंप्यूटर भाषण, मैनफ्रेड आर श्रोएडर द्वारा, 2004 में प्रकाशित दूसरा संस्करण, और भाषण प्रसंस्करण: गतिशील और अनुकूलन- ओरिएंटेड एप्रोच 2003 में ली डेंग और डौग ओ'शॉघनेसी द्वारा प्रकाशित किया। [[डेनियल जुराफस्की]] और मार्टिन द्वारा अद्यतन पाठ्यपुस्तक भाषण और भाषा प्रसंस्करण (2008) एएसआर के लिए मूल बातें और कला की स्थिति प्रस्तुत करती है। स्पीकर की पहचान भी उन्हीं विशेषताओं का उपयोग करती है, जिनमें से अधिकांश समान फ्रंट-एंड प्रोसेसिंग और वर्गीकरण विधिों का उपयोग करती हैं जैसा कि भाषण मान्यता में किया जाता है। व्यापक पाठ्यपुस्तक, स्पीकर रिकॉग्निशन के फंडामेंटल्स सिद्धांत और व्यवहार पर अद्यतन विवरण के लिए गहन स्रोत है।<ref name="auto">{{cite book|last=Beigi|first=Homayoon|title=स्पीकर मान्यता की बुनियादी बातों|year=2011|publisher=Springer|location=New York|isbn=978-0-387-77591-3|url=http://www.fundamentalsofspeakerrecognition.org|url-status=live|archive-url=https://web.archive.org/web/20180131140911/http://www.fundamentalsofspeakerrecognition.org/|archive-date=31 January 2018|df=dmy-all}}</ref> सर्वोत्तम आधुनिक प्रणालियों में उपयोग की जाने वाली विधिों में अच्छी अंतर्दृष्टि सरकारी प्रायोजित मूल्यांकनों पर ध्यान देकर प्राप्त की जा सकती है जैसे कि डारपा द्वारा आयोजित 2007 तक चलने वाली सबसे बड़ी वाक् पहचान-संबंधित परियोजना गेल परियोजना है, जिसमें वाक् पहचान दोनों सम्मलित हैं और अनुवाद घटक हैं।


वाक् पहचान प्रौद्योगिकी और इसके इतिहास का अच्छा और सुलभ परिचय सामान्य दर्शकों की पुस्तक द वॉयस इन द मशीन द्वारा प्रदान किया गया है। बिल्डिंग कंप्यूटर्स दैट अंडरस्टैंडिंग स्पीच [[रॉबर्ट पिएरासिनी]] (2012) द्वारा।
'''वाक् पहचान''' प्रौद्योगिकी और इसके इतिहास का अच्छा और सुलभ परिचय सामान्य दर्शकों की पुस्तक द वॉयस इन द मशीन द्वारा बिल्डिंग कंप्यूटर्स दैट अंडरस्टैंडिंग स्पीच [[रॉबर्ट पिएरासिनी]] (2012) के द्वारा प्रदान किया गया है।


वाक् पहचान पर सबसे हालिया किताब है स्वचालित स्पीच रिकॉग्निशन: ए डीप लर्निंग एप्रोच (प्रकाशक: स्प्रिंगर) जो माइक्रोसॉफ्ट के शोधकर्ताओं डी। यू और एल। डीएनएन और संबंधित गहन शिक्षण विधियों के आधार पर आधुनिक वाक् पहचान प्रणालियों में विधियों को व्युत्पन्न और कार्यान्वित किया जाता है।<ref name="ReferenceA">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|title=स्वचालित भाषण मान्यता: एक गहन शिक्षण दृष्टिकोण (प्रकाशक: स्प्रिंगर)| date=2014}}</ref> संबंधित पुस्तक, जो पहले 2014 में प्रकाशित हुई थी, डीप लर्निंग: मेथड्स एंड एप्लीकेशन बाय एल. डेंग और डी. यू 2009-2014 के समय डीएनएन-आधारित वाक् पहचान का कम तकनीकी लेकिन अधिक कार्यप्रणाली-केंद्रित अवलोकन प्रदान करती है, जिसे अधिक सामान्य संदर्भ में रखा गया है। न केवल भाषण मान्यता बल्कि छवि पहचान, प्राकृतिक भाषा प्रसंस्करण, सूचना पुनर्प्राप्ति, मल्टीमॉडल प्रसंस्करण और मल्टीटास्क सीखने सहित गहन शिक्षण अनुप्रयोगों की।<ref name="BOOK2014">{{cite journal|first1=Li|last1=Deng|first2=Dong|last2=Yu|year=2014|title=डीप लर्निंग: तरीके और अनुप्रयोग|url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|doi=10.1561/2000000039|journal=Foundations and Trends in Signal Processing|volume=7|issue=3–4|pages=197–387|url-status=live|archive-url=https://web.archive.org/web/20141022161017/http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|archive-date=22 October 2014|df=dmy-all|citeseerx=10.1.1.691.3679}}</ref>
वाक् पहचान पर स्वचालित वाक् पहचान ए डीप लर्निंग एप्रोच (प्रकाशक: स्प्रिंगर) जो माइक्रोसॉफ्ट के शोधकर्ताओं डी यू और एल या डीएनएन सबसे हालिया किताब है और संबंधित गहन शिक्षण विधियों के आधार पर आधुनिक वाक् पहचान प्रणालियों में विधियों को व्युत्पन्न और कार्यान्वित किया जाता है।<ref name="ReferenceA">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|title=स्वचालित भाषण मान्यता: एक गहन शिक्षण दृष्टिकोण (प्रकाशक: स्प्रिंगर)| date=2014}}</ref> संबंधित पुस्तक, जो पहले 2014 में प्रकाशित हुई थी, डीप लर्निंग: मेथड्स एंड एप्लीकेशन बाय एल डेंग और डी. यू 2009-2014 के समय डीएनएन-आधारित वाक् पहचान का कम विधिी लेकिन अधिक कार्यप्रणाली-केंद्रित अवलोकन प्रदान करती है, जिसे अधिक सामान्य संदर्भ में रखा गया है। इसमें न केवल भाषण मान्यता बल्कि छवि पहचान, प्राकृतिक भाषा प्रसंस्करण, सूचना पुनर्प्राप्ति, मल्टीमॉडल प्रसंस्करण और मल्टीटास्क सीखने सहित गहन शिक्षण अनुप्रयोगों किया गया हैं।<ref name="BOOK2014">{{cite journal|first1=Li|last1=Deng|first2=Dong|last2=Yu|year=2014|title=डीप लर्निंग: तरीके और अनुप्रयोग|url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|doi=10.1561/2000000039|journal=Foundations and Trends in Signal Processing|volume=7|issue=3–4|pages=197–387|url-status=live|archive-url=https://web.archive.org/web/20141022161017/http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|archive-date=22 October 2014|df=dmy-all|citeseerx=10.1.1.691.3679}}</ref>
=== सॉफ्टवेयर ===
=== सॉफ्टवेयर ===
स्वतंत्र रूप से उपलब्ध संसाधनों के संदर्भ में, कार्नेगी मेलन विश्वविद्यालय का सीएमयू स्फिंक्स टूलकिट वाक् पहचान के बारे में सीखने और प्रयोग शुरू करने के लिए जगह है। अन्य संसाधन (मुफ्त लेकिन कॉपीराइट) [[एचटीके (सॉफ्टवेयर)]] किताब (और साथ में एचटीके टूलकिट) है। अधिक नवीनतम और अत्याधुनिक तकनीकों के लिए, [[कलदी (सॉफ्टवेयर)]] टूलकिट का उपयोग किया जा सकता है।<ref>Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.</ref> 2017 में [[mozilla]] ने [[आम आवाज|आम ध्वनि]] नामक ओपन सोर्स प्रोजेक्ट लॉन्च किया<ref>{{Cite web|url=https://voice.mozilla.org/|title=मोज़िला द्वारा कॉमन वॉइस|website=voice.mozilla.org}}</ref> ध्वनिों के बड़े डेटाबेस को इकट्ठा करने के लिए जो मुफ्त वाक् पहचान परियोजना [[डीप स्पीच]] ([[GitHub]] पर मुफ्त उपलब्ध) बनाने में मदद करेगा,<ref>{{Cite web|url=https://github.com/mozilla/DeepSpeech|title=Baidu के डीपस्पीच आर्किटेक्चर का एक टेंसरफ्लो कार्यान्वयन: मोज़िला/डीपस्पीच|date=9 November 2019|via=GitHub}}</ref> गूगल के ओपन सोर्स प्लेटफॉर्म [[TensorFlow]] का उपयोग करना।<ref>{{Cite web|url=https://github.com/tensorflow/docs|title=गिटहब - टेंसरफ़्लो/डॉक्स: टेंसरफ़्लो दस्तावेज़ीकरण|date=9 November 2019|via=GitHub}}</ref> जब मोज़िला ने 2020 में परियोजना से फंडिंग को पुनर्निर्देशित किया, तो इसे इसके मूल डेवलपर्स द्वारा Coqui STT के रूप में फोर्क किया गया था।<ref>{{cite web |url=https://github.com/coqui-ai |title=Coqui, सभी के लिए ओपन स्पीच तकनीक प्रदान करने वाला एक स्टार्टअप|website=GitHub |access-date=2022-03-07}}</ref> उसी ओपन-सोर्स लाइसेंस का उपयोग करना।<ref>{{Cite news|title=माओरी अपनी भाषा को बिग टेक से बचाने की कोशिश कर रहे हैं|language=en-GB|magazine=Wired UK|url=https://www.wired.co.uk/article/maori-language-tech |first=Donavyn |last=Coffey |date=2021-04-28 |access-date=2021-10-16|issn=1357-0978}}</ref><ref>{{Cite web|date=2021-07-07|title=आपको डीपस्पीच से coqui.ai पर क्यों जाना चाहिए|url=https://discourse.mozilla.org/t/why-you-should-move-from-deepspeech-to-coqui-ai/82798|access-date=2021-10-16|website=Mozilla Discourse|language=en-US}}</ref>
स्वतंत्र रूप से उपलब्ध संसाधनों के संदर्भ में, कार्नेगी मेलन विश्वविद्यालय का सीएमयू स्फिंक्स टूलकिट वाक् पहचान के बारे में सीखने और प्रयोग शुरू करने के लिए जगह है। अन्य संसाधन (मुफ्त लेकिन कॉपीराइट) [[एचटीके (सॉफ्टवेयर)]] किताब (और साथ में एचटीके टूलकिट) है। अधिक नवीनतम और अत्याधुनिक विधिों के लिए, [[कलदी (सॉफ्टवेयर)]] टूलकिट का उपयोग किया जा सकता है।<ref>Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.</ref> 2017 में [[mozilla|मौजिला]] ने [[आम आवाज|साधारण ध्वनि]] नामक ओपन सोर्स प्रोजेक्ट लॉन्च किया<ref>{{Cite web|url=https://voice.mozilla.org/|title=मोज़िला द्वारा कॉमन वॉइस|website=voice.mozilla.org}}</ref> ध्वनिों के बड़े डेटाबेस को इकट्ठा करने के लिए जो मुफ्त वाक् पहचान परियोजना [[डीप स्पीच]] ([[GitHub]] पर मुफ्त उपलब्ध) बनाने में सहायता करेगा,<ref>{{Cite web|url=https://github.com/mozilla/DeepSpeech|title=Baidu के डीपस्पीच आर्किटेक्चर का एक टेंसरफ्लो कार्यान्वयन: मोज़िला/डीपस्पीच|date=9 November 2019|via=GitHub}}</ref> गूगल के ओपन सोर्स प्लेटफॉर्म [[TensorFlow|टेंसर फ्लो]] का उपयोग करना।<ref>{{Cite web|url=https://github.com/tensorflow/docs|title=गिटहब - टेंसरफ़्लो/डॉक्स: टेंसरफ़्लो दस्तावेज़ीकरण|date=9 November 2019|via=GitHub}}</ref> जब मोज़िला ने 2020 में परियोजना से फंडिंग को पुनर्निर्देशित किया, तो इसे इसके मूल डेवलपर्स द्वारा कोक्यू एसटीटी के रूप में फोर्क किया गया था।<ref>{{cite web |url=https://github.com/coqui-ai |title=Coqui, सभी के लिए ओपन स्पीच तकनीक प्रदान करने वाला एक स्टार्टअप|website=GitHub |access-date=2022-03-07}}</ref> उसी ओपन-सोर्स लाइसेंस का उपयोग करना।<ref>{{Cite news|title=माओरी अपनी भाषा को बिग टेक से बचाने की कोशिश कर रहे हैं|language=en-GB|magazine=Wired UK|url=https://www.wired.co.uk/article/maori-language-tech |first=Donavyn |last=Coffey |date=2021-04-28 |access-date=2021-10-16|issn=1357-0978}}</ref><ref>{{Cite web|date=2021-07-07|title=आपको डीपस्पीच से coqui.ai पर क्यों जाना चाहिए|url=https://discourse.mozilla.org/t/why-you-should-move-from-deepspeech-to-coqui-ai/82798|access-date=2021-10-16|website=Mozilla Discourse|language=en-US}}</ref> व्यावसायिक क्लाउड आधारित वाक् पहचान एपीआई अधिकांशतः उपलब्ध हैं। अधिक सॉफ़्टवेयर संसाधनों के लिए, वाक् पहचान सॉफ़्टवेयर की सूची देखें।
व्यावसायिक क्लाउड आधारित वाक् पहचान API मोटे तौर पर उपलब्ध हैं।
 
अधिक सॉफ़्टवेयर संसाधनों के लिए, वाक् पहचान सॉफ़्टवेयर की सूची देखें।


== यह भी देखें ==
== यह भी देखें ==
Line 481: Line 462:
*{{curlie|Computers/Speech_Technology|Speech Technology}}
*{{curlie|Computers/Speech_Technology|Speech Technology}}


{{Natural Language Processing}}
[[Category:All articles containing potentially dated statements|Speech Recognition]]
{{Differentiable computing}}
[[Category:All articles with unsourced statements|Speech Recognition]]
 
[[Category:All articles with vague or ambiguous time|Speech Recognition]]
{{DEFAULTSORT:Speech Recognition}}
[[Category:Articles containing potentially dated statements from 2017|Speech Recognition]]
[[Category: Machine Translated Page]]
[[Category:Articles with Curlie links|Speech Recognition]]
[[Category:Created On 19/12/2022]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Speech Recognition]]
[[Category:Articles with invalid date parameter in template|Speech Recognition]]
[[Category:Articles with short description|Speech Recognition]]
[[Category:Articles with unsourced statements from December 2012|Speech Recognition]]
[[Category:Articles with unsourced statements from June 2012|Speech Recognition]]
[[Category:Articles with unsourced statements from March 2014|Speech Recognition]]
[[Category:Articles with unsourced statements from May 2013|Speech Recognition]]
[[Category:Articles with unsourced statements from November 2016|Speech Recognition]]
[[Category:CS1|Speech Recognition]]
[[Category:CS1 British English-language sources (en-gb)|Speech Recognition]]
[[Category:CS1 English-language sources (en)|Speech Recognition]]
[[Category:CS1 errors|Speech Recognition]]
[[Category:CS1 français-language sources (fr)|Speech Recognition]]
[[Category:CS1 maint|Speech Recognition]]
[[Category:CS1 Ελληνικά-language sources (el)|Speech Recognition]]
[[Category:Citation Style 1 templates|W]]
[[Category:Collapse templates|Speech Recognition]]
[[Category:Created On 19/12/2022|Speech Recognition]]
[[Category:Lua-based templates|Speech Recognition]]
[[Category:Machine Translated Page|Speech Recognition]]
[[Category:Missing redirects|Speech Recognition]]
[[Category:Multi-column templates|Speech Recognition]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Speech Recognition]]
[[Category:Pages using div col with small parameter|Speech Recognition]]
[[Category:Pages with script errors|Speech Recognition]]
[[Category:Short description with empty Wikidata description|Speech Recognition]]
[[Category:Sidebars with styles needing conversion|Speech Recognition]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Speech Recognition]]
[[Category:Templates based on the Citation/CS1 Lua module|Speech Recognition]]
[[Category:Templates generating COinS|Cite web]]
[[Category:Templates generating microformats|Speech Recognition]]
[[Category:Templates that add a tracking category|Speech Recognition]]
[[Category:Templates that are not mobile friendly|Speech Recognition]]
[[Category:Templates that generate short descriptions|Speech Recognition]]
[[Category:Templates used by AutoWikiBrowser|Cite web]]
[[Category:Templates using TemplateData|Speech Recognition]]
[[Category:Templates using under-protected Lua modules|Speech Recognition]]
[[Category:Vague or ambiguous time from April 2014|Speech Recognition]]
[[Category:Webarchive template wayback links|Speech Recognition]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:Wikipedia metatemplates|Speech Recognition]]

Latest revision as of 12:36, 14 September 2023

भाषण मान्यता कंप्यूटर विज्ञान और कम्प्यूटरीकृत भाषाविज्ञान का वह अंतःविषय उपक्षेत्र है जो कार्यप्रणाली और प्रौद्योगिकियों को विकसित करता है तथा पाठ में खोज के मुख्य लाभ के साथ कंप्यूटर द्वारा पाठ में बोली जाने वाली भाषा की पहचान और अनुवाद को सक्षम बनाता है। इसे स्वचालित वाक् पहचान (ASR), कंप्यूटर वाक् पहचान या स्पीच टू पाठ्य खोज के रूप में भी जाना जाता है। यह कंप्यूटर विज्ञान, भाषाविज्ञान और कंप्यूटर अभियांत्रिकी क्षेत्रों में ज्ञान और अनुसंधान को सम्मलित करता है। व्युत्क्रम प्रक्रिया मुख्यतः भाषण संश्लेषण प्रक्रिया है।

कुछ भाषण पहचान प्रणालियों को प्रशिक्षण की आवश्यकता होती है (जिसे नामांकन भी कहा जाता है) जहां व्यक्तिगत वक्ता प्रणाली में पाठ या पृथक शब्दावली पढ़ता है। प्रणाली व्यक्ति की विशिष्ट ध्वनि का विश्लेषण करती है और इसका उपयोग उस व्यक्ति के भाषण की पहचान को ठीक करने के लिए करती है, जिसके परिणामस्वरूप सटीकता में वृद्धि होती है। प्रणाली जो प्रशिक्षण का उपयोग नहीं करती हैं उन्हें स्पीकर-स्वतंत्र कहा जाता है[1] प्रणाली प्रशिक्षण का उपयोग करने वाली प्रणालियाँ वक्ता पर आश्रित होती हैं।

वाक् पहचान अनुप्रयोगों में वॉयस डायलिंग (जैसे घर पर कॉल करना), कॉल रूटिंग (जैसे मैं कलेक्ट कॉल करना चाहूंगा), डोमोटिक उपकरण नियंत्रण, खोज कुंजी शब्द (जैसे पॉडकास्ट खोजें जहां विशेष शब्द बोले गए थे) जैसे ध्वनि उपयोगकर्ता मंच सम्मलित हैं। सरल डेटा प्रविष्टि (जैसे, क्रेडिट कार्ड नंबर दर्ज करना), संरचित दस्तावेजों की तैयारी (जैसे रेडियोलॉजी रिपोर्ट), स्पीकर विशेषताओं का निर्धारण करना,[2] स्पीच-टू-टेक्स्ट प्रोसेसिंग (जैसे, शब्द संसाधक या ईमेल), और सामान्यत प्रत्यक्ष ध्वनि इनपुट कहा जाता है।

शब्द ध्वनि पहचान[3][4][5] या वक्ता मान्यता[6][7][8] बोलने वाले की पहचान करने के लिए संदर्भित करता है, इसके अतिरिक्त वे क्या कह रहे हैं। वाक् पहचान प्रणाली में भाषण अनुवाद के कार्य को सरल बना सकता है जिसे किसी विशिष्ट व्यक्ति की ध्वनि पर प्रशिक्षित किया गया है या इसे सुरक्षा प्रक्रिया के हिस्से के रूप में प्रमाणीकरण या स्पीकर की पहचान को सत्यापित करने के लिए उपयोग किया जा सकता है।

प्रौद्योगिकी के दृष्टिकोण से, प्रमुख नवाचारों की कई लहरों के साथ वाक् पहचान का लंबा इतिहास है। हाल ही में, क्षेत्र को गहन शिक्षा और बड़े डेटा में प्रगति से लाभ हुआ है। प्रगति न केवल क्षेत्र में प्रकाशित अकादमिक पत्रों की वृद्धि से प्रमाणित होती है, बल्कि विश्वव्यापी उद्योग द्वारा वाक् पहचान प्रणाली को डिजाइन करने और नियुक्त करने में विभिन्न गहन शिक्षण विधियों को अपनाने से भी महत्वपूर्ण है।

इतिहास

विकास के प्रमुख क्षेत्र थे: शब्दावली का आकार, वक्ता की स्वतंत्रता और प्रसंस्करण की गति।

1970 से पहले

  • 1952 - बेल लैब्स के तीन शोधकर्ता, स्टीफ़न बालाशेक,[9] आर. बिडुल्फ और के.एच. डेविस ने ऑड्रे नामक प्रणाली का निर्माण किया[10] एकल वक्ता अंक पहचान के लिए। उनकी प्रणाली प्रत्येक उच्चारण के पावर स्पेक्ट्रम में फार्मेंट्स को स्थित करती है।[11] 1960 - गुन्नार फंता ने भाषण उत्पादन के स्रोत-फ़िल्टर मॉडल को विकसित और प्रकाशित किया।
  • 1962 - आईबीएम ने 1962 के विश्व मेले में अपनी 16-शब्द वाली शोबॉक्स मशीन की वाक् पहचान क्षमता का प्रदर्शन किया।[12]
  • 1966 - रैखिक भविष्य कहनेवाला कोडिंग (एलपीसी), भाषण कोडिंग विधि, पहली बार वाक् पहचान पर कार्य करते हुए नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (एनटीटी) के शुजो सैटो द्वारा प्रस्तावित की गई थी।[13]
  • 1969 - बेल लैब्स में फंडिंग कई वर्षों तक रुकी रही, जब 1969 में, प्रभावशाली जॉन आर. पियर्स ने खुला पत्र लिखा, जो वाक् पहचान रिसर्च के लिए आलोचनात्मक और निराधार था।[14] यह डिफंडिंग पियर्स और जेम्स एल के सेवानिवृत्त होने तथा फ्लानागन के पदभार संभालने तक चली।

संतुष्ट हिला 1960 के दशक के अंत में स्टैनफोर्ड विश्वविद्यालय में स्नातक छात्र के रूप में निरंतर भाषण मान्यता लेने वाले पहले व्यक्ति थे। पिछली प्रणालियों में उपयोगकर्ताओं को प्रत्येक शब्द के पश्चात रुकने की आवश्यकता होती थी। रेड्डीज प्रणाली ने शतरंज खेलने के लिए स्पोकन कमांड जारी किया।

इस समय के आसपास सोवियत शोधकर्ताओं ने गतिशील समय वारिंग (डीटीडब्ल्यू) एल्गोरिथम का आविष्कार किया और इसका उपयोग पहचानकर्ता बनाने के लिए किया जो 200-शब्द शब्दावली पर कार्य करने में सक्षम था।[15] डीटीडब्ल्यू ने भाषण को छोटे फ्रेम में विभाजित करके संसाधित किया, उदाहरण के लिए 10 मिलीसेकेंड के भाग, और प्रत्येक फ्रेम को इकाई के रूप में संसाधित करना। चूंकि डीटीडब्ल्यू को बाद के एल्गोरिदम द्वारा हटा दिया जाएगा, तथा यह विधि जारी रही। इस समय की अवधि में स्पीकर स्वतंत्रता प्राप्त करना अनसुलझा रहा।

1970–1990

  • 1971 - 1,000 शब्दों के न्यूनतम शब्दावली आकार की मांग करने वाले वाक् पहचान अनुसंधान के लिए 'वाक् समझ अनुसंधान' के लिए डारपा ने पांच साल का वित्त पोषण किया। उन्होंने सोचा कि प्राकृतिक-भाषा की समझ या वाक् समझ वाणी मान्यता में प्रगति करने के लिए महत्वपूर्ण होगी, लेकिन यह बाद में असत्य सिद्ध हुई।[16] बीबीएन प्रौद्योगिकीज, आईबीएम, कार्नेगी मेलॉन और स्टैनफोर्ड अनुसंधान संस्थान सभी ने कार्यक्रम में भाग लिया।[17][18] जॉन पियर्स के पत्र के पश्चात इस वाक् पहचान अनुसंधान को पुनर्जीवित किया।
  • 1972 - आईईईई ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग समूह ने न्यूटन, मैसाचुसेट्स में सम्मेलन आयोजित किया।
  • 1976 - पहला आईसीएएसएसपी फ़िलाडेल्फ़िया में आयोजित किया गया था, जो तब से वाक् पहचान पर शोध के प्रकाशन के लिए प्रमुख स्थान रहा है।[19]

1960 के दशक के अंत में लियोनार्ड ई. बॉम ने रक्षा विश्लेषण संस्थान में मार्कोव श्रृंखलाओं का गणित विकसित किया। एक दशक पश्चात, सीएमयू में, राज रेड्डी के छात्रों जेम्स के. बेकर और जेनेट एम. बेकर ने वाक् पहचान के लिए हिडन मार्कोव मॉडल (एचएमएमएम) का उपयोग करना शुरू किया।[20] जेम्स बेकर ने अपनी स्नातक शिक्षा के समय इंस्टीट्यूट ऑफ डिफेंस एनालिसिस में ग्रीष्मकालीन नौकरी से एचएमएम के बारे में सीखा था।[21] एचएमएम के उपयोग ने शोधकर्ताओं को एकीकृत संभाव्य मॉडल में ध्वनिकी, भाषा और वाक्य रचना जैसे ज्ञान के विभिन्न स्रोतों को संयोजित करने की अनुमति दी।

  • 1980 के दशक के मध्य तक आईबीएम के फ्रेडरिक जेलिनेक या फ्रेड जेलिनेक की टीम ने टैंगोरा नामक ध्वनि सक्रिय टाइपराइटर बनाया, जो 20,000 शब्दों की शब्दावली को संभाल सकता था[22] जेलाइनेक के सांख्यिकीय दृष्टिकोण ने एचएमएम जैसी सांख्यिकीय मॉडलिंग विधिों का उपयोग करने के पक्ष में मानव मस्तिष्क की प्रक्रियाओं और भाषण को समझने के विधि का अनुकरण करने पर कम जोर दिया। (जेलाइनेक के समूह ने स्वतंत्र रूप से भाषण में एचएमएम के अनुप्रयोग की खोज की।[21]) यह भाषाविदों के साथ विवादास्पद था क्योंकि एचएमएम मानव भाषाओं की कई सामान्य विशेषताओं को ध्यान में रखते हुए बहुत सरल हैं।[23] चूंकि, एचएमएम मॉडलिंग भाषण के लिए अत्यधिक उपयोगी तरीका सिद्ध हुआ और 1980 के दशक में प्रमुख भाषण मान्यता एल्गोरिदम बनने के लिए गतिशील समय परिवर्तन को बदल दिया।[24]
  • 1982 - जेम्स और जेनेट एम. बेकर द्वारा स्थापित ड्रैगन प्रणाली,[25] आईबीएम के कुछ प्रतियोगियों में से था।

व्यावहारिक वाक् पहचान

1980 के दशक में एन-ग्राम भाषा मॉडल का प्रारंभ भी हुआ।

  • 1987 - काट्ज़ का बैक-ऑफ़ मॉडल|बैक-ऑफ़ मॉडल ने भाषा मॉडल को कई लंबाई एन-ग्राम और सीएसईएलटी का उपयोग करने की अनुमति दी[26] भाषाओं को पहचानने के लिए एचएमएम का उपयोग किया (सॉफ्टवेयर और हार्डवेयर विशेष प्रोसेसर, जैसे रिपएसी (माइक्रोप्रोसेसर) दोनों में)।

इस क्षेत्र में अधिकांश प्रगति कंप्यूटर की तेजी से बढ़ती क्षमताओं के कारण हुई है। 1976 में डारपा कार्यक्रम के अंत में, शोधकर्ताओं के लिए उपलब्ध सबसे अच्छा कंप्यूटर 4 एमबी रैम वाला पीडीपी-10 था।[23]केवल 30 सेकंड के भाषण को डिकोड करने में 100 मिनट तक का समय लग सकता है।[27] इसके दो व्यावहारिक उत्पाद थे:

  • 1984 - 4096 शब्दों के समर्थन के साथ खुबानी पोर्टेबल जारी किया गया था, जिसमें से केवल 64 को समय में रैंडम एक्सेस मेमोरी में रखा जा सकता था।[28]
  • 1987 - कुर्ज़वील एप्लाइड इंटेलिजेंस से पहचानकर्ता
  • 1990 - ड्रैगन डिक्टेट, 1990 में जारी उपभोक्ता उत्पाद[29][30] एटी एंड टी ने मानव ऑपरेटर के उपयोग के बिना टेलीफोन कॉल को रूट करने के लिए 1992 में वाक् पहचान कॉल प्रोसेसिंग सेवा को नियुक्त किया।[31] प्रौद्योगिकी को बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित किया गया था।

इस बिंदु तक, विशिष्ट व्यावसायिक वाक् पहचान प्रणाली की शब्दावली औसत मानव शब्दावली से बड़ी थी।[23] राज रेड्डी के पूर्व छात्र, एक्स यूई हुआंग को समझता है ने सीएमयू स्फिंक्स|स्फिंक्स-II प्रणाली को सीएमयू में विकसित किया। स्फिंक्स-II प्रणाली स्पीकर-स्वतंत्र, बड़ी शब्दावली, निरंतर वाक् पहचान करने वाली पहली प्रणाली थी और इसका डारपा के 1992 के मूल्यांकन में सर्वश्रेष्ठ प्रदर्शन था। भाषण मान्यता के इतिहास में बड़ी शब्दावली के साथ निरंतर भाषण को संभालना प्रमुख मील का पत्थर था। हुआंग ने 1993 में विंडोज भाषण मान्यता की खोज की। राज रेड्डी के छात्र काई-फ यू ली एप्पल में सम्मलित हुए, जहां 1992 में, उन्होंने कैस्पर नामक एप्पल कंप्यूटर के लिए स्पीच इंटरफेस प्रोटोटाइप विकसित करने में सहायता की।

बेल्जियम स्थित वाक् पहचान कंपनी, लर्नआउट एंड हॉस्पी ने 1997 में कुर्ज़वील एप्लाइड इंटेलिजेंस और 2000 में ड्रैगन प्रणाली्स सहित कई अन्य कंपनियों का अधिग्रहण किया। एल एंड एच वाक् प्रौद्योगिकी का उपयोग विंडोज एक्सपी ऑपरेटिंग प्रणाली में किया गया था। 2001 में लेखा घोटाले के समाप्त होने तक एल एंड एच उद्योग अग्रणी था। एल एंड एच की वाक् प्रौद्योगिकी को स्कैनसॉफ्ट द्वारा खरीदा गया था जो 2005 में नौन्सी कम्यूनिकेशन तथा एप्पल इंक सहायक महोदय मै द्वारा बन गया।[32]

2000s

2000 के दशक में डारपा ने दो भाषण मान्यता कार्यक्रम प्रायोजित किए: 2002 में प्रभावी वहनीय पुन: प्रयोज्य भाषण-से-पाठ (EARS) और डारपा वैश्विक स्वायत्त भाषा शोषण कार्यक्रम (गेल)। ईएआरएस कार्यक्रम में चार टीमों ने भाग लिया: आईबीएम, एलआईएमएसआई और पिट्सबर्ग विश्वविद्यालय के साथ बीबीएन प्रौद्योगिकीज के नेतृत्व वाली टीम। पिट्सबर्ग, कैम्ब्रिज विश्वविद्यालय, और अंतर्राष्ट्रीय कंप्यूटर विज्ञान संस्थान, स्टैनफोर्ड अनुसंधान संस्थान और वाशिंगटन विश्वविद्यालय से बनी टीम। ईएआरएस ने स्विचबोर्ड टेलीफोन भाषण कोष के संग्रह को वित्त पोषित किया जिसमें 500 से अधिक वक्ताओं से 260 घंटे की रिकॉर्ड की गई बातचीत सम्मलित थी।[33] गेल कार्यक्रम आधुनिक मानक अरबी और मानक चीनी प्रसारण समाचार भाषण पर केंद्रित था। वाक् पहचान में गूगल का पहला प्रयास 2007 में Nuance के कुछ शोधकर्ताओं को कार्य पर रखने के पश्चात आया।[34] पहला उत्पाद गूग-411 था, जो टेलीफोन आधारित निर्देशिका सेवा थी। गूग-411 की रिकॉर्डिंग से मूल्यवान डेटा प्राप्त हुआ जिससे गूगल को अपनी पहचान प्रणाली को उत्कृष्ट बनाने में सहायता मिली. गूगल वायस सर्च अब 30 से अधिक भाषाओं में समर्थित है।

संयुक्त राज्य अमेरिका में, राष्ट्रीय सुरक्षा एजेंसी ने कम से कम 2006 से कीवर्ड स्पॉटिंग के लिए प्रकार की वाक् पहचान का उपयोग किया है।[35] यह विधि विश्लेषकों को बड़ी मात्रा में रिकॉर्ड की गई बातचीत के माध्यम से खोज करने और कीवर्ड के उल्लेखों को अलग करने की अनुमति देती है। रिकॉर्डिंग को अनुक्रमित किया जा सकता है और विश्लेषक रुचि की बातचीत खोजने के लिए डेटाबेस पर प्रश्न चला सकते हैं। कुछ सरकारी अनुसंधान कार्यक्रम भाषण मान्यता के खुफिया अनुप्रयोगों पर केंद्रित हैं, उदा। डारपा का ईएआरएस प्रोग्राम और आईआर्पा का बेबेल कार्यक्रम

2000 के दशक की प्रारंभ में, फीडफॉरवर्ड कृत्रिम तंत्रिका प्रसार के साथ संयुक्त छिपे हुए मार्कोव मॉडल जैसे पारंपरिक दृष्टिकोणों में वाक् पहचान का अभी भी वर्चस्व था।[36]

चूंकि, आज, स्पीच रिकॉग्निशन के कई पहलुओं को लंबी अल्पकालिक स्मृति (एलएसटीएम) नामक गहन शिक्षण पद्धति द्वारा ले लिया गया है, जो 1997 में सेप होचराइटर और जुरगेन श्मिटुबर द्वारा प्रकाशित आवर्तक तंत्रिका नेटवर्क है।[37] एलएसटीएम आरएनएन लुप्त होती ढाल की समस्या से बचते हैं और बहुत गहन शिक्षण कार्य सीख सकते हैं[38] जिसके लिए हज़ारों असतत समय पहले घटित घटनाओं की यादों की आवश्यकता होती है, जो भाषण के लिए महत्वपूर्ण है।

2007 के आसपास, एलएसटीएम कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) द्वारा प्रशिक्षित किया गया[39] कुछ अनुप्रयोगों में पारंपरिक वाक् पहचान को मात देना शुरू कर दिया है।[40] 2015 में, गूगल की वाक् पहचान ने कथित तौर पर सीटीसी-प्रशिक्षित एलएसटीएम के माध्यम से 49% की नाटकीय प्रदर्शन छलांग का अनुभव किया, जो अब सभी स्मार्टफोन उपयोगकर्ताओं के लिए गूगल वायस के माध्यम से उपलब्ध है।[41]

ध्वनिक मॉडल के लिए डीप फीडफॉर्वर्ड (गैर-आवर्तक) नेटवर्क का उपयोग 2009 के उत्तरार्ध में जेफ्री हिंटन और उनके छात्रों द्वारा टोरंटो विश्वविद्यालय और ली डेंग द्वारा शुरू किया गया था।[42] और माइक्रोसॉफ्ट रिसर्च में सहयोगियों, प्रारंभ में माइक्रोसॉफ्ट और टोरंटो विश्वविद्यालय के बीच सहयोगी कार्य में जो बाद में आईबीएम और गूगल को सम्मलित करने के लिए विस्तारित किया गया था (इसलिए उनके 2012 समीक्षा पत्र में उपशीर्षक के चार शोध समूहों के साझा विचार)।[43][44][45] माइक्रोसाफ्ट अनुसंधान कार्यकारी ने इस नवाचार को 1979 के पश्चात से सटीकता में सबसे नाटकीय परिवर्तन कहा।[46] पिछले कुछ दशकों में लगातार वृद्धिशील सुधारों के विपरीत, गहन शिक्षण के प्रयोग से शब्द त्रुटि दर में 30% की कमी आई है।[46] इस नवाचार को पूरे क्षेत्र में तेजी से अपनाया गया। शोधकर्ताओं ने भाषा मॉडलिंग के लिए भी गहन शिक्षण विधिों का उपयोग करना शुरू कर दिया है।

भाषण मान्यता के लंबे इतिहास में, 1980, 1990 के दशक और 2000 के दशक में कुछ वर्षों के समय कृत्रिम तंत्रिका नेटवर्क के उथले रूप और गहरे रूप (जैसे आवर्तक जाल) दोनों का पता लगाया गया था।[47][48][49]

लेकिन इन विधियों ने गैर-समान आंतरिक-हैंडक्राफ्टिंग मिक्स्चर छिपा हुआ मार्कोव मॉडल (जीएमएम-एचएमएम) विधि पर कभी जीत प्राप्त नहीं की, जो भेदभावपूर्ण विधि से प्रशिक्षित भाषण के जनरेटिव मॉडल पर आधारित है।[50] 1990 के दशक में कई प्रमुख कठिनाइयों का पद्धतिगत रूप से विश्लेषण किया गया था, जिसमें धीरे-धीरे ह्रासमान भी सम्मलित था[51] और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना हैं।[52][53] ये सभी कठिनाइयाँ इन प्रारंभिकी दिनों में बड़े प्रशिक्षण डेटा और बड़ी कंप्यूटिंग शक्ति की कमी के अतिरिक्त थीं। अधिकांश भाषण मान्यता शोधकर्ता जो इस तरह की बाधाओं को समझते थे, इसलिए पश्चात में 2009-2010 के आसपास शुरू होने वाली डीप लर्निंग के पुनरुत्थान तक जनरेटिव मॉडलिंग दृष्टिकोणों को आगे बढ़ाने के लिए तंत्रिका जाल से दूर चले गए, जिसने इन सभी कठिनाइयों को दूर कर दिया था। हिंटन एट अल और डेंग एट अल ने इस इतिहास के इस भाग की समीक्षा की कि कैसे दूसरे के साथ और फिर चार समूहों (टोरंटो विश्वविद्यालय, माइक्रोसॉफ्ट, गूगल और आईबीएम) के सहयोगियों के साथ उनके सहयोग ने वाक् पहचान के लिए गहरे फीडफॉरवर्ड न्यूरल नेटवर्क के अनुप्रयोगों के पुनर्जागरण को प्रज्वलित किया।[44][45][54][55]

2010

2010 की प्रारंभ में वाक् पहचान, जिसे ध्वनि पहचान भी कहा जाता है[56][57][58] तक सीमित थी वक्ता की मान्यता से स्पष्ट रूप से अलग था, और वक्ता की स्वतंत्रता को बड़ी सफलता माना गया था। तब तक, प्रणाली को प्रशिक्षण अवधि की आवश्यकता होती है। 1987 में डॉल के विज्ञापन में टैगलाइन दी गई थी फाइनली, डॉल जो आपको समझती है। - इस तथ्य के अतिरिक्त कि यह वर्णन किया गया था कि कौन से बच्चे अपनी ध्वनि का जवाब देने के लिए प्रशिक्षित कर सकते हैं।[12]

2017 में, माइक्रोसाफ्ट शोधकर्ता व्यापक रूप से बेंचमार्क किए गए स्विचबोर्ड कार्य पर संवादी टेलीफोनी भाषण को प्रसारित करने के ऐतिहासिक मानवीय समता मील के पत्थर पर पहुंच गए। भाषण पहचान सटीकता को अनुकूलित करने के लिए कई गहन शिक्षण मॉडल का उपयोग किया गया था। भाषण पहचान शब्द त्रुटि दर को ही बेंचमार्क पर साथ कार्य करने वाले 4 विशेषज्ञ मानव प्रतिलेखकों के रूप में कम बताया गया था, जिसे आईबीएम वाटसन भाषण टीम द्वारा ही कार्य पर वित्त पोषित किया गया था।[59]

मॉडल, विधि और एल्गोरिदम

ध्वनिक मॉडलिंग और भाषा मॉडल दोनों ही आधुनिक सांख्यिकीय आधारित वाक् पहचान एल्गोरिदम के महत्वपूर्ण भाग हैं। छिपे हुए मार्कोव मॉडल (एचएमएम) कई प्रणालियों में व्यापक रूप से उपयोग किए जाते हैं। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे दस्तावेज़ वर्गीकरण या सांख्यिकीय मशीन अनुवाद में भी किया जाता है।

छिपे हुए मार्कोव मॉडल

आधुनिक सामान्य-उद्देश्य वाक् पहचान प्रणालियाँ छिपे हुए मार्कोव मॉडल पर आधारित हैं। ये सांख्यिकीय मॉडल हैं जो प्रतीकों या मात्राओं के अनुक्रम का उत्पादन करते हैं। एचएमएम का उपयोग वाक् पहचान में किया जाता है क्योंकि वाक् संकेत को टुकड़े-टुकड़े स्थिर संकेत या लघु-समय स्थिर संकेत के रूप में देखा जा सकता है। थोड़े समय के पैमाने में (उदाहरण के लिए, 10 मिलीसेकंड), भाषण को स्थिर प्रक्रिया के रूप में अनुमानित किया जा सकता है। भाषण को कई स्टोकेस्टिक उद्देश्यों के लिए मार्कोव मॉडल के रूप में माना जा सकता है।

एचएमएम के लोकप्रिय होने का और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटरीकृत रूप से व्यवहार्य हैं। वाक् पहचान में, छिपा हुआ मार्कोव मॉडल एन-डायमेंशनल रियल-वैल्यूड वैक्टर (एन के साथ छोटा पूर्णांक, जैसे 10) के अनुक्रम को आउटपुट करेगा, इनमें से प्रत्येक 10 मिलीसेकंड में से को आउटपुट करेगा। सदिशों में प्रभुत्व गुणांक सम्मलित होंगे, जो भाषण की छोटी समय की खिड़की के फूरियर रूपांतरण और कोसाइन परिवर्तन का उपयोग करके स्पेक्ट्रम को सजाने के द्वारा प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छिपे हुए मार्कोव मॉडल में प्रत्येक राज्य में सांख्यिकीय वितरण होता है जो विकर्ण सहप्रसरण गॉसियन का मिश्रण होता है, जो प्रत्येक मनाया वेक्टर के लिए संभावना देगा। प्रत्येक शब्द, या (अधिक सामान्य वाक् पहचान प्रणाली के लिए), प्रत्येक स्वनिम का अलग आउटपुट वितरण होगा; शब्दों या स्वरों के अनुक्रम के लिए छिपा हुआ मार्कोव मॉडल अलग-अलग शब्दों और स्वरों के लिए अलग-अलग प्रशिक्षित छिपे हुए मार्कोव मॉडल को जोड़कर बनाया गया है।

ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम-आधारित दृष्टिकोण के मूल तत्व हैं। ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को उत्कृष्ट बनाने के लिए आधुनिक वाक् पहचान प्रणालियाँ कई मानक विधिों के विभिन्न संयोजनों का उपयोग करती हैं। विशिष्ट बड़ी-शब्दावली प्रणाली को स्वरों के लिए संदर्भ निर्भरता की आवश्यकता होगी (इसलिए अलग-अलग बाएँ और दाएँ संदर्भ वाले स्वरों में एचएमएम स्थितियों के रूप में अलग-अलग महसूस होते हैं); यह अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्य करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे के स्पीकर सामान्यीकरण के लिए, यह पुरुष-महिला सामान्यीकरण के लिए वोकल ट्रैक्ट लेंथ नॉर्मलाइज़ेशन (वीटीएलएन) और अधिक सामान्य स्पीकर अनुकूलन के लिए अधिकतम संभावना रैखिक प्रतिगमन (एमएलएलआर) का उपयोग कर सकता है। भाषण की गतिशीलता को पकड़ने के लिए सुविधाओं में तथाकथित डेल्टा गुणांक और डेल्टा-डेल्टा गुणांक होंगे और इसके अतिरिक्त, विषमलैंगिक रैखिक विभेदक विश्लेषण (एचएलडीए) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांकों को छोड़ सकते हैं और स्प्लिसिंग (वाक् पहचान) और रैखिक विभेदक विश्लेषण-आधारित प्रक्षेपण का उपयोग कर सकते हैं, जिसके पश्चात विषमलैंगिक रैखिक विभेदक विश्लेषण या वैश्विक अर्ध-बंधे सह-प्रसरण परिवर्तन (जिसे अधिकतम संभावना रैखिक परिवर्तन के रूप में भी जाना जाता है) या एमएलएलटी)। कई प्रणालियाँ तथाकथित भेदभावपूर्ण प्रशिक्षण विधिों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए विशुद्ध रूप से सांख्यिकीय दृष्टिकोण से दूर होती हैं और इसके अतिरिक्त प्रशिक्षण डेटा के कुछ वर्गीकरण-संबंधित माप का अनुकूलन करती हैं। इसका मुख्य उदाहरण अधिकतम आपसी जानकारी (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई), और न्यूनतम फोन त्रुटि (एमपीई) हैं।

भाषण का डिकोडिंग (क्या होता है जब प्रणाली को नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे संभावित स्रोत वाक्य की गणना करनी चाहिए) शायद सबसे अच्छा रास्ता खोजने के लिए विटरबी एल्गोरिथ्म का उपयोग करेगा, और यहां गतिशील रूप से विकल्प बनाने के बीच विकल्प है संयोजन छिपा हुआ मार्कोव मॉडल, जिसमें ध्वनिक और भाषा दोनों मॉडल की जानकारी सम्मलित है और इसे पहले से स्थिर रूप से संयोजित करना (परिमित राज्य ट्रांसड्यूसर, या एफएसटी, दृष्टिकोण) सम्मलित हैं।

डिकोडिंग में संभावित सुधार सिर्फ सर्वश्रेष्ठ उम्मीदवार को रखने के अतिरिक्त अच्छे उम्मीदवारों का सेट रखना है, और इन अच्छे उम्मीदवारों को रेट करने के लिए उत्कृष्ट स्कोरिंग फ़ंक्शन (पुनः स्कोरिंग (एएसआर)) का उपयोग करना है जिससे कि हम अपने अनुसार सर्वश्रेष्ठ उम्मीदवार चुन सकें। यह परिष्कृत स्कोर। उम्मीदवारों के सेट को या तो सूची के रूप में रखा जा सकता है (एन-सर्वश्रेष्ठ सूची अनुमोदन) या मॉडलों के सबसेट के रूप में (एक जाली (क्रम)) उपयोग किया जाता हैं। री स्कोरिंग सामान्यतः बेयस जोखिम को कम करने का प्रयास करके किया जाता है[60] (या इसका सन्निकटन): स्रोत वाक्य को अधिकतम संभाव्यता के साथ लेने के अतिरिक्त, हम उस वाक्य को लेने का प्रयास करते हैं जो किसी दिए गए नुकसान फ़ंक्शन की प्रत्याशा को सभी संभावित ट्रांसक्रिप्शन के संबंध में कम करता है (अर्ताथ, हम उस वाक्य को लेते हैं जो औसत दूरी को कम करता है जिसमें उनकी अनुमानित संभाव्यता द्वारा भारित अन्य संभावित वाक्यों के लिए उपयोगी हैं। इससे होने वाली हानि फंक्शन सामान्यतः लेवेनशेटिन दूरी है, चूंकि यह विशिष्ट कार्यों के लिए अलग-अलग दूरी हो सकती है; संभावित प्रतिलेखन का सेट, निश्चित रूप से, सुवाह्यता बनाए रखने के लिए छंटाई की जाती है। संपादित दूरी के साथ भारित परिमित राज्य ट्रांसड्यूसर के रूप में प्रस्तुत जालक (आदेश) को फिर से स्कोर करने के लिए कुशल एल्गोरिदम तैयार किए गए हैं, जो कुछ मान्यताओं की पुष्टि करने वाले परिमित राज्य ट्रांसड्यूसर के रूप में खुद का प्रतिनिधित्व करते हैं।[61]

डायनामिक टाइम वार्पिंग (डीटीडब्ल्यू)-आधारित वाक् पहचान

डायनेमिक टाइम वारपिंग दृष्टिकोण है जो ऐतिहासिक रूप से वाक् पहचान के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण द्वारा विस्थापित कर दिया गया है।

डायनेमिक टाइम वारपिंग दो अनुक्रमों के बीच समानता को मापने के लिए एल्गोरिथ्म है जो समय या गति में भिन्न हो सकता है। उदाहरण के लिए, चलने के स्वरूप में समानता का पता लगाया जाएगा, भले ही वीडियो में व्यक्ति धीरे-धीरे चल रहा हो और यदि दूसरे वीडियो में वह अधिक तेज़ी से चल रहा हो, या भले ही अवलोकन के समय त्वरण और मंदी हो जाती हैं। डीटीडब्ल्यू को वीडियो, ऑडियो और ग्राफ़िक्स पर लागू किया गया है - वास्तव में, कोई भी डेटा जिसे रेखीय प्रतिनिधित्व में बदला जा सकता है, उसका विश्लेषण डीटीडब्ल्यू के साथ किया जा सकता है।

अलग-अलग बोलने की गति से निपटने के लिए प्रसिद्ध एप्लिकेशन स्वचालित वाक् पहचान है। सामान्यतः, यह ऐसी विधि है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (जैसे, समय श्रृंखला) के बीच इष्टतम मिलान खोजने की अनुमति देती है। यही है, दृश्यों को दूसरे से मेल खाने के लिए गैर-रैखिक रूप से विकृत किया जाता है। यह अनुक्रम संरेखण विधि अधिकांशतः छिपे हुए मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।

तंत्रिका नेटवर्क

1980 के दशक के अंत में एएसआर में तंत्रिका नेटवर्क आकर्षक ध्वनिक मॉडलिंग दृष्टिकोण के रूप में उभरा। तब से, भाषण मान्यता के कई पहलुओं में तंत्रिका नेटवर्क का उपयोग किया गया है जैसे कि ध्वनि वर्गीकरण,[62] बहुउद्देश्यीय विकासवादी एल्गोरिदम के माध्यम से स्वनिम वर्गीकरण,[63] दृश्य-श्रव्य भाषण पहचान, दृश्य-श्रव्य वक्ता पहचान और वक्ता अनुकूलन।

कृत्रिम तंत्रिका नेटवर्क एचएमएम की तुलना में फीचर सांख्यिकीय गुणों के बारे में कम स्पष्ट धारणाएं बनाते हैं और भाषण मान्यता के लिए उन्हें आकर्षक पहचान मॉडल बनाने वाले कई गुण हैं। जब भाषण सुविधा भाग की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तो तंत्रिका नेटवर्क स्वाभाविक और कुशल विधि से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। चूंकि, कम समय की इकाइयों जैसे अलग-अलग स्वरों और पृथक शब्दों को वर्गीकृत करने में उनकी प्रभावशीलता के अतिरिक्त [64] प्रारंभिक तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल रहे थे क्योंकि अस्थायी निर्भरताओं को मॉडल करने की उनकी सीमित क्षमता थी।

इस सीमा के लिए दृष्टिकोण तंत्रिका नेटवर्क को पूर्व-प्रसंस्करण, सुविधा परिवर्तन या आयामी कमी के रूप में उपयोग करना था, [65] एचएमएम आधारित मान्यता से पहले का चरण हैं। चूंकि, हाल ही में, एलएसटीएम और संबंधित आवर्तक तंत्रिका नेटवर्क (आरएनएनs)[37][41][66][67] और समय विलंब तंत्रिका नेटवर्क (टीडीएनएन)[68] इस क्षेत्र में उत्कृष्ट प्रदर्शन किया है।

डीप फीडफॉरवर्ड और रिकरंट न्यूरल नेटवर्क्स

डीप न्यूरल नेटवर्क और डीनोइज़िंग ऑटोएन्कोडर[69] भी जांच के सीमा में हैं। डीप फीडफॉर्वर्ड न्यूरल नेटवर्क (डीएनएन) कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें होती हैं।[44] उथले तंत्रिका नेटवर्क के समान, डीएनएन जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। डीएनएन आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं, जहाँ अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे बड़ी सीखने की क्षमता मिलती है और इस प्रकार भाषण डेटा के जटिल स्वरूप की मॉडलिंग की संभावना होती है।[70]

शैक्षणिक शोधकर्ताओं के सहयोग से औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां डीएनएन की बड़ी आउटपुट परतें संदर्भ निर्भर एचएमएम स्थितियों के आधार पर निर्णय वृक्षों द्वारा निर्मित की गईं।[71][72] [73] अक्टूबर 2014 तक इस विकास और अत्याधुनिक स्थिति की व्यापक समीक्षा माइक्रोसाफ्ट अनुसंधान से हाल ही में स्प्रिंगर पुस्तक में देखें।[74]स्वचालित भाषण पहचान की संबंधित पृष्ठभूमि और विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें, विशेष रूप से हाल के अवलोकन लेख इसमें डीप लर्निंग भी सम्मलित है।[75][76]

गहन शिक्षण का मूलभूत सिद्धांत हाथ से तैयार की गई फीचर अभियांत्रिकी को खत्म करना और कच्ची सुविधाओं का उपयोग करना है। कच्चे स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर के आर्किटेक्चर में इस सिद्धांत को पहली बार सफलतापूर्वक खोजा गया था,[77] मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। स्पीच, वेवफॉर्म्स की असली अपरिष्कृत विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर वाक् पहचान परिणामों का उत्पादन करने के लिए दिखाया गया है।[78]

एंड-टू-एंड स्वचालित भाषण पहचान

2014 के पश्चात से, एंड-टू-एंड एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक ध्वन्यात्मक-आधारित (अर्ताथ, सभी छिपे हुए मार्कोव मॉडल-आधारित मॉडल) दृष्टिकोणों को उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटकों और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से वाक् पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है क्योंकि यह प्रशिक्षण प्रक्रिया और परिनियोजन प्रक्रिया को सरल करता है। उदाहरण के लिए, सभी एचएमएम-आधारित प्रणालियों के लिए एन-ग्राम या एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और विशिष्ट एन-ग्राम भाषा मॉडल अधिकांशतः स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर नियुक्त करना अव्यावहारिक हो जाता है।[79] परिणामस्वरूप, गूगल और एप्पल इंक के आधुनिक वाणिज्यिक एएसआर प्रणाली (as of 2017) क्लाउड पर नियुक्त हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।

एंड-टू-एंड एएसआर का पहला प्रयास 2014 में डीपमाइंड के एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और टोरंटो विश्वविद्यालय के नवदीप जेटली द्वारा पेश किए गए संबंधवादी लौकिक वर्गीकरण (सीटीसी) आधारित प्रणाली के साथ था।[80] मॉडल में आवर्तक तंत्रिका नेटवर्क और सीटीसी परत सम्मलित थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल उच्चारण और ध्वनिक मॉडल को साथ सीखता है, चूंकि यह एचएमएम के समान सशर्त स्वतंत्रता धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी वर्णों के लिए भाषण ध्वनिकी को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी की गलतियाँ करते हैं और प्रतिलेख को साफ करने के लिए अलग भाषा मॉडल पर भरोसा करना चाहिए। पश्चात में, बायडू ने अत्यधिक बड़े डेटासेट के साथ कार्य पर विस्तार किया और चीनी मेंडारिन और अंग्रेजी में कुछ व्यावसायिक सफलता प्रदर्शित की।[81] 2016 में, ऑक्सफोर्ड विश्वविद्यालय ने लिपनेट प्रस्तुत किया,[82] आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैटियोटेम्पोरल कनवल्शन का उपयोग करते हुए पहला एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग मॉडल, प्रतिबंधित व्याकरण डेटासेट में मानव-स्तर के प्रदर्शन को पार करता है।[83] दीपमाइंड द्वारा 2018 में बड़े पैमाने पर सीएनएन-आरएनएन-सीटीसी आर्किटेक्चर प्रस्तुत किया गया था, जिसने मानव विशेषज्ञों की तुलना में 6 गुना उत्कृष्ट प्रदर्शन प्राप्त किया।[84]

सीटीसी-आधारित मॉडलों के लिए वैकल्पिक दृष्टिकोण ध्यान-आधारित मॉडल हैं। चान एट अल द्वारा ध्यान-आधारित एएसआर मॉडल साथ पेश किए गए थे। कार्नेगी मेलन विश्वविद्यालय और गूगल ब्रेन और बहदानौ एट अल। 2016 में यूनिवर्सिटी डी मॉन्ट्रियल।[85][86] लिसन, अटेंड एंड स्पेल (एलएएस) नाम का मॉडल, शाब्दिक रूप से ध्वनिक संकेत को सुनता है, संकेत के विभिन्न भागों पर ध्यान देता है और समय में वर्ण को प्रतिलेखित करता है। सीटीसी-आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता की धारणा नहीं होती है और उच्चारण, ध्वनिक और भाषा मॉडल सहित वाक् पहचानकर्ता के सभी घटकों को सीधे सीख सकते हैं। इसका मतलब है, परिनियोजन के समय, सीमित स्मृति वाले अनुप्रयोगों के लिए इसे बहुत व्यावहारिक बनाने के लिए भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडलों ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या उसके बिना) से अच्छे प्रदर्शन सहित अच्छी सफलता देखी है।[87] मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन यूनिवर्सिटी, मेसाचुसेट्स प्रौद्योगिक संस्थान और गूगल ब्रेन द्वारा अव्यक्त अनुक्रम अपघटन (एलएसडी) का प्रस्ताव सीधे उप-शब्द इकाइयों को उत्सर्जित करने के लिए किया गया था जो अंग्रेजी वर्णों की तुलना में अधिक स्वाभाविक हैं;[88] ऑक्सफोर्ड विश्वविद्यालय और डीपमाइंड ने एलएएस को मानव-स्तर के प्रदर्शन को पार करते हुए लिप रीडिंग को संभालने के लिए एलएएस को वॉच, लिसन, अटेंड और स्पेल (डबल्यूएलएएस) तक बढ़ाया।[89]

अनुप्रयोग

इन-कार प्रणाली

सामान्यतः मैनुअल कंट्रोल इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर फिंगर कंट्रोल के माध्यम से, वाक् पहचान प्रणाली को सक्षम करता है और यह ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के पश्चात, प्रणाली में सुनने की खिड़की होती है जिसके समय यह पहचान के लिए भाषण इनपुट स्वीकार कर सकता है।[citation needed] फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या संगत स्मार्टफोन, एमपी3 प्लेयर या म्यूजिक-लोडेड फ्लैश ड्राइव से संगीत चलाने के लिए सरल वॉयस कमांड का उपयोग किया जा सकता है। कार बनाने और मॉडल के बीच ध्वनि पहचानने की क्षमता अलग-अलग होती है। कुछ सबसे हाल के[when?] कार मॉडल कमांड के निश्चित सेट के स्थान पर प्राकृतिक-भाषा वाक् पहचान प्रदान करते हैं, जिससे ड्राइवर को पूर्ण वाक्यों और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इस तरह की प्रणालियों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के सेट को याद रखने की कोई आवश्यकता नहीं है।[citation needed]

स्वास्थ्य देखभाल

चिकित्सा दस्तावेज

स्वास्थ्य देखभाल क्षेत्र में, वाक् पहचान चिकित्सा प्रलेखन प्रक्रिया के फ्रंट-एंड या बैक-एंड में लागू की जा सकती है। फ्रंट-एंड वाक् पहचान वह जगह है जहां प्रदाता वाक् पहचान इंजन में डिक्टेट करता है, पहचाने गए शब्दों को बोले जाने पर प्रदर्शित किया जाता है, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए जिम्मेदार होता है। बैक-एंड या डिफर्ड वाक् पहचान वह जगह है जहां प्रदाता डिजिटल श्रुतलेख प्रणाली में डिक्टेट करता है, वॉयस को वाक् पहचान मशीन के माध्यम से रूट किया जाता है और मान्यता प्राप्त ड्राफ्ट डॉक्यूमेंट को मूल वॉयस फाइल के साथ एडिटर तक पहुंचाया जाता है, जहां ड्राफ्ट को एडिट किया जाता है। और रिपोर्ट को अंतिम रूप दिया। आस्थगित भाषण मान्यता वर्तमान में उद्योग में व्यापक रूप से उपयोग की जाती है।

स्वास्थ्य सेवा में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से यह है कि 2009 का अमेरिकी रिकवरी और पुनर्निवेश अधिनियम (2009 का अमेरिकी पुनर्प्राप्ति और पुनर्निवेश अधिनियम) सार्थक उपयोग मानकों के अनुसार ईएमआर का उपयोग करने वाले चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है। इन मानकों के लिए आवश्यक है कि ईएमआर द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब इसे सामान्यतः इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड या ईएचआर के रूप में संदर्भित किया जाता है)। भाषण मान्यता का उपयोग रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के भाग के रूप में कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से अनुकूल है: संरचित असतत डेटा (जैसे, संख्यात्मक मान या कोड) दर्ज करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ सूची या नियंत्रित शब्दावली से) उन लोगों के लिए अपेक्षाकृत न्यूनतम हैं जिन्हें देखा जा सकता है और जो कीबोर्ड और माउस को संचालित कर सकते हैं।

एक अधिक महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को स्पष्ट रूप से ध्वनि-पहचान क्षमताओं का लाभ उठाने के लिए तैयार नहीं किया गया है। ईएचआर के साथ चिकित्सक की बातचीत के बड़े हिस्से में मेनू, और टैब/बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन सम्मलित है, और कीबोर्ड और माउस पर बहुत अधिक निर्भर है: ध्वनि-आधारित नेविगेशन केवल साधारण एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी डिक्टेशन के लिए कई अत्यधिक अनुकूलित प्रणालियाँ वॉयस मैक्रोज़ को लागू करती हैं, जहाँ कुछ वाक्यांशों का उपयोग - उदाहरण के लिए, सामान्य रिपोर्ट, स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भर देगी और/या बॉयलरप्लेट उत्पन्न करेगी, जो प्रकार के साथ भिन्न होगी परीक्षा का - उदाहरण के लिए, रेडियोलॉजी प्रणाली के लिए छाती का एक्स-रे बनाम गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला का उदाहरण हैं।

चिकित्सीय उपयोग

वर्ड प्रोसेसर के साथ संयोजन के रूप में वाक् पहचान सॉफ़्टवेयर के लंबे समय तक उपयोग ने मस्तिष्क एवीएम रोगियों में अल्पावधि-स्मृति पुनर्संरचना के लिए लाभ दिखाया है, जिनका उपचार लकीर (सर्जरी) के साथ किया गया है। जिन व्यक्तियों के एवीएम का उपचार रेडियोलॉजिकल विधिों का उपयोग करके किया गया है, उनके लिए संज्ञानात्मक लाभों का निर्धारण करने के लिए और अनुसंधान किए जाने की आवश्यकता है।[citation needed]

सैन्य

उच्च प्रदर्शन लड़ाकू विमान

लड़ाकू विमानों में वाक् पहचान के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयास किए गए हैं। जनरल डायनेमिक्स एफ-16 फाइटिंग फाल्कन वेरिएंट प्रौद्योगिकी प्रदर्शनकारियों, और टेस्ट संस्करण फ्लाइट कंट्रोल संस्करण F-16 एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन या एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन (आफ्टी)/एफ -16 विमान (एफ-16 विस्टा), फ्रांस में मिराज (विमान) विमान के लिए कार्यक्रम, और ब्रिटेन में विभिन्न प्रकार के विमान प्लेटफार्मों से निपटने वाले अन्य कार्यक्रम को उपयोग किया जाता है इन कार्यक्रमों में, रेडियो फ्रीक्वेंसी सेट करने, ऑटोपायलट प्रणाली को कमांड करने, स्टीयर-पॉइंट निर्देशांक सेट करने और हथियार रिलीज पैरामीटर, और उड़ान प्रदर्शन को नियंत्रित करने सहित अनुप्रयोगों के साथ, लड़ाकू विमानों में भाषण पहचानकर्ताओं को सफलतापूर्वक संचालित किया गया है।

जेएएस 39 ग्रिपेन मिलेगा या जेएएस-39 ग्रिपेन कॉकपिट, इंग्लैंड (2004) में उड़ान भरने वाले स्वीडिश पायलटों के साथ कार्य करते हुए पाया गया कि बढ़ती जी बल या जी-लोड के साथ मान्यता बिगड़ गई। रिपोर्ट ने यह भी निष्कर्ष निकाला कि अनुकूलन ने सभी स्थितियों में परिणामों में बहुत सुधार किया और यह कि सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में अधिकसुधार करने के लिए दिखाया गया। अपेक्षाकृत के विपरीत, बोलने वालों की टूटी-फूटी अंग्रेजी का कोई प्रभाव नहीं पाया गया। यह स्पष्ट था कि सहज भाषण पहचानकर्ता के लिए समस्याएँ पैदा करता है, जैसा कि उम्मीद की जा सकती थी। प्रतिबंधित शब्दावली, और सबसे बढ़कर, उचित सिंटैक्स, इस प्रकार मान्यता सटीकता में अधिकसुधार की उम्मीद की जा सकती है।[90] यूरोफाइटर टाइफून, वर्तमान में यूके आरएएफ के साथ सेवा में है, स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसके लिए प्रत्येक पायलट को टेम्पलेट बनाने की आवश्यकता होती है। प्रणाली का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों के लिए नहीं किया जाता है, जैसे कि हथियार छोड़ना या हवाई जहाज़ के पहिये को कम करना, लेकिन अन्य कॉकपिट कार्यों की विस्तृत श्रृंखला के लिए उपयोग किया जाता है। वॉयस कमांड की पुष्टि दृश्य और/या श्रव्य प्रतिक्रिया द्वारा की जाती है। पायलट कार्यभार को कम करने में प्रणाली को प्रमुख डिजाइन सुविधा के रूप में देखा जाता है,[91] और यहां तक ​​​​कि पायलट को अपने विमान को दो सरल वॉयस कमांड या अपने किसी भी विंगमैन को केवल पांच कमांड के साथ लक्ष्य निर्धारित करने की अनुमति देता है।[92]

स्पीकर-इंडिपेंडेंट प्रणाली भी विकसित किए जा रहे हैं और लॉकहीड मार्टिन F-35 लाइटनिंग II (जेएसएफ) और अलीनिया एरमच्छी एम-346 मास्टर लीड-इन फाइटर ट्रेनर के लिए परीक्षण के अधीन हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता अवमूलन का उत्पादन किया है।[93]

हेलीकॉप्टर

तनाव और शोर के अनुसार उच्च पहचान सटीकता प्राप्त करने की समस्या विशेष रूप से हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण में भी प्रासंगिक है। हेलीकॉप्टर वातावरण में ध्वनिक शोर की समस्या वास्तव में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि इसलिए भी कि हेलीकॉप्टर पायलट, सामान्य रूप से लड़ाकू पायलट हेलमेट नहीं पहनता है, जिससे माइक्रोफ़ोन में ध्वनिक शोर कम हो जाता है। पिछले दशक में हेलीकाप्टरों में वाक् पहचान प्रणाली अनुप्रयोगों में पर्याप्त परीक्षण और मूल्यांकन कार्यक्रम किए गए हैं, विशेष रूप से यू.एस. आर्मी एवियोनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (एवराडा) और यूके में रॉयल एयरोस्पेस एस्टैब्लिशमेंट (शाही विमान प्रतिष्ठान) द्वारा फ़्रांस में कार्य में प्यूमा हेलीकाप्टर में वाक् पहचान सम्मलित है। कनाडा में भी बहुत उपयोगी कार्य हुए हैं। परिणाम उत्साहजनक रहे हैं, और ध्वनि अनुप्रयोगों में सम्मलित हैं: संचार रेडियो का नियंत्रण, पथ प्रदर्शन प्रणाली की स्थापना, और स्वचालित लक्ष्य के हस्तांतरण की प्रणाली का नियंत्रण किया जाता हैं।

लड़ाकू अनुप्रयोगों के रूप में, हेलीकाप्टरों में ध्वनि के लिए प्रमुख मुद्दा पायलट प्रभावशीलता पर प्रभाव है। एवराडा परीक्षणों के लिए उत्साहजनक परिणाम रिपोर्ट किए गए हैं, चूंकि ये परीक्षण वातावरण में केवल व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। परिचालन सेटिंग्स में लगातार प्रदर्शन सुधार प्राप्त करने के लिए वाक् पहचान और समग्र वाक् प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।

प्रशिक्षण हवाई यातायात नियंत्रकों

वायु यातायात नियंत्रकों (एटीसी) के लिए प्रशिक्षण भाषण पहचान प्रणाली के लिए उत्कृष्ट अनुप्रयोग का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ ध्वनि संवाद में सम्मलित होता है, जो संवाद को अनुकरण करता है कि नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ आचरण करना होगा। भाषण पहचान और भाषण संश्लेषण विधि व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और सहायक कर्मियों को कम करती है। सिद्धांत रूप में, वायु नियंत्रक कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी वर्णित किया जाता है, इसलिए वाक् पहचान कार्य की कठिनाई को कम करना संभव होना चाहिए। व्यवहार में, ऐसा कम ही होता है। एफएए दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। जबकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिम्युलेशन विक्रेताओं में से भाषण पहचान प्रणाली द्वारा समर्थित वाक्यांशों की संख्या 500,000 से अधिक है।

यूएसएएफ, यूएसएमसी, यूएस आर्मी, यूएस नेवी और एफएए के साथ-साथ कई अंतरराष्ट्रीय एटीसी प्रशिक्षण संगठन जैसे कि रॉयल ऑस्ट्रेलियाई वायु सेना और इटली, ब्राजील और कनाडा में नागरिक उड्डयन प्राधिकरण वर्तमान में एटीसी सिमुलेटर का उपयोग वाक् पहचान के साथ कर रहे हैं। इसके कई अलग-अलग विक्रेता हैं।[citation needed]

टेलीफ़ोनी और अन्य डोमेन

एएसआर अब टेलीफोनी के क्षेत्र में आम हो गया है और कंप्यूटर गेमिंग और सिमुलेशन के क्षेत्र में अधिक व्यापक होता जा रहा है। टेलीफोनी प्रणालियों में, एएसआर अब आईवीआर प्रणालियों के साथ एकीकृत करके मुख्य रूप से संपर्क केंद्रों में उपयोग किया जा रहा है। दस्तावेज़ उत्पादन के क्षेत्र में सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के अतिरिक्त, एएसआर ने उपयोग में अपेक्षित वृद्धि नहीं देखी है।

मोबाइल प्रोसेसर की गति में सुधार ने स्मार्टफोन में वाक् पहचान को व्यावहारिक बना दिया है। पूर्वनिर्धारित या कस्टम स्पीच कमांड बनाने के लिए स्पीच का उपयोग अधिकतम यूजर इंटरफेस के भाग के रूप में किया जाता है।

शिक्षा और दैनिक जीवन में उपयोग

भाषा सीखने के लिए, वाक् पहचान दूसरी भाषा सीखने के लिए उपयोगी हो सकती है। यह किसी व्यक्ति को उनके बोलने के कौशल के साथ प्रवाह विकसित करने में सहायता करने के अतिरिक्त, उचित उच्चारण सिखा सकता है।[94] जो छात्र अंधे हैं (दृष्टिहीनता और शिक्षा देखें) या बहुत कम दृष्टि वाले शब्दों को संप्रेषित करने के लिए प्रौद्योगिकी का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को उन्हें सुनाते हुए सुन सकते हैं, साथ ही अपनी ध्वनि के साथ कमांड करके देखने के अतिरिक्त स्क्रीन और कीबोर्ड का कंप्यूटर में उपयोग कर सकते हैं।[95]

जो छात्र शारीरिक रूप से अक्षम हैं, जिन्हें दोहरावदार तनाव की चोट/ऊपरी अंगों में अन्य चोटें हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके लिखावट, टाइपिंग, या स्कूल असाइनमेंट पर मुंशी के साथ कार्य करने की चिंता से मुक्त किया जा सकता है। वे माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करने का आनंद लेने के लिए वाक् पहचान विधि का भी उपयोग कर सकते हैं।[95]

भाषण मान्यता सीखने की अक्षमता वाले छात्रों को उत्कृष्ट लेखक बनने की अनुमति दे सकती है। शब्दों को जोर से बोलकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को दूर कर सकते हैं।[96] इसके लिए सीखने की अक्षमता भी देखें।

डिजिटल ऑडियो रिकॉर्डर और व्यक्तिगत कंप्यूटर चलाने वाले वर्ड-प्रोसेसिंग सॉफ़्टवेयर के संयोजन के साथ ध्वनि पहचान सॉफ़्टवेयर का उपयोग स्ट्रोक और क्रैनियोटॉमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म मेमोरी क्षमता को निकालने के लिए धनात्मक सिद्ध हुआ है।

विकलांग लोग

विकलांग लोग वाक् पहचान कार्यक्रमों से लाभान्वित हो सकते हैं। ऐसे व्यक्तियों के लिए जो बधिर हैं या सुनने में मुश्किल हैं, वाक् पहचान सॉफ़्टवेयर का उपयोग स्वचालित रूप से वार्तालापों का बंद-शीर्षक उत्पन्न करने के लिए किया जाता है जैसे सम्मेलन कक्ष, कक्षा व्याख्यान, और/या धार्मिक सेवाओं में चर्चा।[97] वाक् पहचान उन लोगों के लिए भी बहुत उपयोगी है, जिन्हें अपने हाथों का उपयोग करने में कठिनाई होती है, हल्के दोहराव वाले तनाव की चोटों से लेकर ऐसी अक्षमताएं सम्मलित हैं जो पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। वास्तव में, जिन लोगों ने कीबोर्ड का बहुत उपयोग किया और दोहरावदार तनाव की चोट विकसित की, वे वाक् पहचान के लिए तत्काल प्रारंभिक बाजार बन गए।[98][99] वाक् पहचान का उपयोग बधिर टेलीफोनी में किया जाता है, जैसे कि ध्वनि मेल से पाठ, रिले सेवाएं और दूरसंचार रिले सेवा कैप्शन वाला टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिन्हें विचार-टू-पेपर संचार में समस्या है (अनिवार्य रूप से वे विचार के बारे में सोचते हैं लेकिन इसे गलत विधि से संसाधित किया जाता है जिससे यह कागज पर अलग तरह से समाप्त हो जाता है) संभवतः सॉफ्टवेयर से लाभान्वित हो सकते हैं लेकिन विधि बग प्रूफ नहीं है।[100] इसके अतिरिक्त पाठ से बात करने का पूरा विचार बौद्धिक रूप से अक्षम व्यक्ति के लिए कठिन हो सकता है क्योंकि ऐसा बहुत कम होता है कि कोई विकलांग व्यक्ति को पढ़ाने के लिए विधि सीखने का प्रयास करता है।[101] इस प्रकार की विधि डिस्लेक्सिया वाले लोगों की सहायता कर सकती है लेकिन अन्य विकलांग अभी भी सवालों के घेरे में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने से रोक रही है। चूंकि बच्चा शब्द कहने में सक्षम हो सकता है, यह इस बात पर निर्भर करता है कि वे इसे कितना स्पष्ट कहते हैं, विधि सोच सकती है कि वे और शब्द कह रहे हैं और गलत इनपुट कर सकते हैं। उन्हें ठीक करने के लिए और अधिक कार्य देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगना पड़ता है।[102]

आगे के आवेदन

प्रदर्शन

वाक् पहचान प्रणाली के प्रदर्शन का मूल्यांकन सामान्यतः सटीकता और गति के संदर्भ में किया जाता है।[107][108] सटीकता को सामान्यतः शब्द त्रुटि दर (डब्ल्यूआर) के साथ आंका जाता है, जबकि गति को वास्तविक समय कारक के साथ मापा जाता है। सटीकता के अन्य उपायों में एकल शब्द त्रुटि दर (एसडब्ल्यूईआर) और कमान सफलता दर (सीएसआर) सम्मलित हैं।

चूंकि, मशीन द्वारा वाक् पहचान बहुत ही जटिल समस्या है। लहजे, उच्चारण, मुखरता, खुरदरापन, अनुनासिकता, पिच, मात्रा और गति के संदर्भ में स्वर अलग-अलग होते हैं। भाषण पृष्ठभूमि शोर और गूँज, विद्युत विशेषताओं से विकृत है। वाक् पहचान की सटीकता निम्न के साथ भिन्न हो सकती है:[109][citation needed]

  • शब्दावली का आकार और भ्रम
  • वक्ता निर्भरता बनाम स्वतंत्रता
  • पृथक, असंतत या निरंतर वाणी
  • कार्य और भाषा की कमी
  • बनाम सहज भाषण पढ़ें
  • प्रतिकूल परिस्थितियां

सटीकता

जैसा कि इस लेख में पहले उल्लेख किया गया है, वाक् पहचान की सटीकता निम्नलिखित कारकों के आधार पर भिन्न हो सकती है:

  • शब्दावली का आकार बढ़ने पर त्रुटि दर बढ़ती है:
जैसे शून्य से नौ तक के 10 अंकों को अनिवार्य रूप से पूरी तरह से पहचाना जा सकता है, लेकिन 200, 5000 या 100000 के शब्दावली आकार में क्रमशः 3%, 7% या 45% की त्रुटि दर हो सकती है।
  • शब्दावली को पहचानना मुश्किल है यदि इसमें भ्रमित करने वाले शब्द हैं:
जैसे अंग्रेजी वर्णमाला के 26 अक्षरों में अंतर करना मुश्किल है क्योंकि वे भ्रमित करने वाले शब्द हैं (सबसे कुख्यात, ई-सेट: बी, सी, डी, ई, जी, पी, टी, वी, जेड - जब जेड का उच्चारण ज़ी के अतिरिक्त किया जाता है) जेड अंग्रेजी क्षेत्र के आधार पर); इस शब्दावली के लिए 8% त्रुटि दर अच्छी मानी जाती है।[citation needed]
  • वक्ता निर्भरता बनाम स्वतंत्रता:
एक स्पीकर-निर्भर प्रणाली स्पीकर द्वारा उपयोग के लिए अभिप्रेत है।
एक स्पीकर-स्वतंत्र प्रणाली किसी भी स्पीकर (अधिक कठिन) द्वारा उपयोग के लिए अभिप्रेत है।
  • पृथक, विच्छिन्न या निरंतर वाणी
एकाकी वाणी में शब्द का प्रयोग होता है, इसलिए वाणी को पहचानना आसान हो जाता है।

विच्छिन्न वाक् में मौन द्वारा अलग किए गए पूर्ण वाक्यों का प्रयोग किया जाता है, इसलिए वाक् के साथ-साथ विलग वाक् को पहचानना आसान हो जाता है।
निरंतर भाषण के साथ स्वाभाविक रूप से बोले जाने वाले वाक्यों का उपयोग किया जाता है, इसलिए भाषण को पहचानना कठिन हो जाता है, अलग-अलग और असंतत भाषण दोनों से अलग।

  • कार्य और भाषा की कमी
    • उदा. पूछताछ आवेदन परिकल्पना को खारिज कर सकता है सेब लाल है।
    • उदा. बाधाएं शब्दार्थ हो सकती हैं; अस्वीकार सेब नाराज है।
    • उदा. सिंटैक्टिक; लाल को अस्वीकार करना सेब है।

बाधाओं को अधिकांशतः व्याकरण द्वारा दर्शाया जाता है।

  • पढ़ें बनाम सहज भाषण - जब कोई व्यक्ति पढ़ता है तो यह सामान्यतः पहले से तैयार किए गए संदर्भ में होता है, लेकिन जब कोई व्यक्ति सहज भाषण का उपयोग करता है, तो भाषण को पहचानना मुश्किल होता है क्योंकि भाषण (जैसे उह और उम, झूठी प्रारंभिक, अधूरे वाक्य, हकलाना, खाँसी और हँसी) और सीमित शब्दावली।
  • प्रतिकूल परिस्थितियाँ - पर्यावरणीय शोर (जैसे कार या कारखाने में शोर)। ध्वनिक विकृतियाँ (जैसे गूँज, कक्ष ध्वनिकी)

वाक् पहचान बहु-स्तरीय स्वरूप पहचान कार्य है।

  • ध्वनिक संकेतों को इकाइयों के पदानुक्रम में संरचित किया जाता है, उदा। स्वर, शब्द, वाक्यांश और वाक्य;
  • प्रत्येक स्तर अतिरिक्त प्रतिबंध प्रदान करता है;

उदा. ज्ञात शब्द उच्चारण या शब्द क्रम के नियम, जो निचले स्तर पर त्रुटियों या अनिश्चितताओं की भरपाई कर सकता है;

  • बाधाओं के इस पदानुक्रम का शोषण किया जाता है। सभी निचले स्तरों पर संभाव्य रूप से निर्णयों को संयोजित करके, और केवल उच्चतम स्तर पर अधिक नियतात्मक निर्णय लेने से, मशीन द्वारा वाक् पहचान कई चरणों में विभाजित प्रक्रिया है। कम्प्यूटरीकृत रूप से, यह समस्या है जिसमें ध्वनि स्वरूप को पहचाना जाना चाहिए या श्रेणी में वर्गीकृत किया जाना चाहिए जो मानव के लिए अर्थ का प्रतिनिधित्व करता है। प्रत्येक ध्वनिक संकेत को छोटे और अधिक मौलिक उप-संकेतों में तोड़ा जा सकता है। जैसे-जैसे अधिक जटिल ध्वनि संकेत छोटे उप-ध्वनियों में टूटते हैं, विभिन्न स्तरों का निर्माण होता है, जहाँ शीर्ष स्तर पर हमारे पास जटिल ध्वनियाँ होती हैं, जो निचले स्तर पर सरल ध्वनियों से बनी होती हैं, और निचले स्तरों तक जाती हैं, और भी अधिक, हम अधिक मौलिक और छोटी और सरल ध्वनियाँ बनाते हैं। निम्नतम स्तर पर, जहाँ ध्वनियाँ सबसे मौलिक हैं, मशीन सरल और अधिक संभाव्य नियमों की जाँच करेगी कि किस ध्वनि का प्रतिनिधित्व करना चाहिए। बार जब इन ध्वनियों को ऊपरी स्तर पर अधिक जटिल ध्वनियों में साथ रखा जाता है, तो अधिक नियतात्मक नियमों के नए सेट को भविष्यवाणी करनी चाहिए कि नई जटिल ध्वनि को क्या प्रदर्शित करना चाहिए। नियतात्मक नियम के सबसे ऊपरी स्तर को जटिल भावों के अर्थ का पता लगाना चाहिए। वाक् पहचान के बारे में अपने ज्ञान का विस्तार करने के लिए, हमें तंत्रिका नेटवर्क पर विचार करने की आवश्यकता है। तंत्रिका नेटवर्क दृष्टिकोण के चार चरण हैं:
  • उस भाषण को डिजिटाइज़ करें जिसे हम पहचानना चाहते हैं

टेलीफोन भाषण के लिए नमूनाकरण दर प्रति सेकंड 8000 नमूने हैं;

  • भाषण के वर्णक्रमीय-डोमेन की गणना सुविधाएँ (फूरियर रूपांतरण के साथ);

प्रत्येक 10 मिलीसेकंड पर गणना की जाती है, जिसमें 10 मिलीमीटर का भाग होता है जिसे फ़्रेम कहा जाता है;

फोर-स्टेप न्यूरल नेटवर्क एप्रोच का विश्लेषण आगे की जानकारी द्वारा समझाया जा सकता है। ध्वनि हवा (या किसी अन्य माध्यम) के कंपन से उत्पन्न होती है, जिसे हम कानों द्वारा रिकॉर्ड करते हैं, लेकिन रिसीवर द्वारा मशीनें। मूल ध्वनि तरंग बनाती है जिसके दो विवरण होते हैं: आयाम (यह कितना मजबूत है), और आवृत्ति (यह प्रति सेकंड कितनी बार कंपन करती है)। सटीकता की गणना शब्द त्रुटि दर (WER) की सहायता से की जा सकती है। शब्द त्रुटि दर की गणना गतिशील स्ट्रिंग संरेखण का उपयोग करके मान्यता प्राप्त शब्द और संदर्भित शब्द को संरेखित करके की जा सकती हैएनटी। मान्यता प्राप्त शब्द और संदर्भित शब्द की अनुक्रम लंबाई के बीच अंतर के कारण शब्द त्रुटि दर की गणना करते समय समस्या हो सकती है। होने देना

 S प्रतिस्थापन की संख्या हो,
 D विलोपन की संख्या हो,
 I सम्मिलन की संख्या हो,
 N शब्द संदर्भों की संख्या हो।

शब्द त्रुटि दर (WER) की गणना करने का सूत्र है

   WR = (S+D+I)÷N

शब्द पहचान दर (WRR) की गणना करते समय शब्द त्रुटि दर (WER) का उपयोग किया जाता है और सूत्र है

   WRR = 1- WER
     = (N-S-D-I)÷ N = (H-I)÷N

यहाँ H सही ढंग से पहचाने जाने वाले शब्दों की संख्या है। H = N- (S + D)।

सुरक्षा चिंताएं

वाक् पहचान हमले से चोरी या आकस्मिक ऑपरेशन का साधन बना सकती है। उदाहरण के लिए, ऑडियो या वीडियो प्रसारण में बोले जाने वाले एलेक्सा जैसे सक्रियण शब्द घरों और कार्यालयों में उपकरणों को अनुचित विधि से इनपुट के लिए सुनना शुरू कर सकते हैं, या संभवतः अवांछित कार्रवाई कर सकते हैं।[110] ध्वनि-नियंत्रित उपकरण भवन के आगंतुकों के लिए या भवन के बाहर के लोगों के लिए भी सुलभ हैं यदि उन्हें अंदर सुना जा सकता है। हमलावर व्यक्तिगत जानकारी, जैसे कैलेंडर, पता पुस्तिका सामग्री, निजी संदेश और दस्तावेजों तक पहुंच प्राप्त करने में सक्षम हो सकते हैं। वे संदेश भेजने या ऑनलाइन खरीदारी करने के लिए उपयोगकर्ता का प्रतिरूपण करने में भी सक्षम हो सकते हैं।

कृत्रिम ध्वनियों का उपयोग करने वाले दो हमलों का प्रदर्शन किया गया है। अल्ट्रासाउंड प्रसारित करता है और आस-पास के लोगों को नोटिस किए बिना कमांड भेजने का प्रयास करता है।[111] दूसरा अन्य भाषण या संगीत के लिए छोटे, अश्रव्य विकृतियों को जोड़ता है जो विशेष रूप से विशिष्ट भाषण मान्यता प्रणाली को संगीत को भाषण के रूप में पहचानने में भ्रमित करने के लिए तैयार किए जाते हैं, या प्रणाली के लिए अलग कमांड की तरह मानव ध्वनि के लिए कमांड की तरह लगता है।[112]

अधिक जानकारी

सम्मेलन और पत्रिकाएँ

हर साल या दो साल में आयोजित लोकप्रिय भाषण मान्यता सम्मेलनों में स्पीचटेक और स्पीचटेक यूरोप, ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन, इंटरस्पीच/यूरोस्पीच और आईईईई एएसआरयू सम्मलित हैं। कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन, कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय, ईएमएनएलपी, और एचएलटी जैसे प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में सम्मेलनों में भाषण प्रसंस्करण पर पेपर सम्मलित होने लगे हैं। महत्वपूर्ण पत्रिकाओं में भाषण और ऑडियो प्रसंस्करण पर आईईईई लेनदेन सम्मलित हैं (बाद में ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन का नाम बदल दिया गया और सितंबर 2014 से ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई / एसीएम लेनदेन का नाम बदल दिया गया - एसीएम प्रकाशन के साथ विलय के पश्चात), कंप्यूटर भाषण और भाषा, और भाषण संचार को परिवर्तित कर दिया गया।

किताबें

लॉरेंस रैबिनर द्वारा लिखित मौलिक ज्ञान की वाक् पहचान जैसी पुस्तकें मौलिक ज्ञान प्राप्त करने के लिए उपयोगी हो सकती हैं लेकिन पूरी तरह से अद्यतित नहीं हो सकती हैं (1993)। अन्य अच्छा स्रोत हो सकता है, फ्रेडरिक जेलिनेक द्वारा भाषण मान्यता के लिए सांख्यिकीय विधि और जुडोंग हुआंग द्वारा स्पोकन लैंग्वेज प्रोसेसिंग (2001), कंप्यूटर भाषण, मैनफ्रेड आर श्रोएडर द्वारा, 2004 में प्रकाशित दूसरा संस्करण, और भाषण प्रसंस्करण: गतिशील और अनुकूलन- ओरिएंटेड एप्रोच 2003 में ली डेंग और डौग ओ'शॉघनेसी द्वारा प्रकाशित किया। डेनियल जुराफस्की और मार्टिन द्वारा अद्यतन पाठ्यपुस्तक भाषण और भाषा प्रसंस्करण (2008) एएसआर के लिए मूल बातें और कला की स्थिति प्रस्तुत करती है। स्पीकर की पहचान भी उन्हीं विशेषताओं का उपयोग करती है, जिनमें से अधिकांश समान फ्रंट-एंड प्रोसेसिंग और वर्गीकरण विधिों का उपयोग करती हैं जैसा कि भाषण मान्यता में किया जाता है। व्यापक पाठ्यपुस्तक, स्पीकर रिकॉग्निशन के फंडामेंटल्स सिद्धांत और व्यवहार पर अद्यतन विवरण के लिए गहन स्रोत है।[113] सर्वोत्तम आधुनिक प्रणालियों में उपयोग की जाने वाली विधिों में अच्छी अंतर्दृष्टि सरकारी प्रायोजित मूल्यांकनों पर ध्यान देकर प्राप्त की जा सकती है जैसे कि डारपा द्वारा आयोजित 2007 तक चलने वाली सबसे बड़ी वाक् पहचान-संबंधित परियोजना गेल परियोजना है, जिसमें वाक् पहचान दोनों सम्मलित हैं और अनुवाद घटक हैं।

वाक् पहचान प्रौद्योगिकी और इसके इतिहास का अच्छा और सुलभ परिचय सामान्य दर्शकों की पुस्तक द वॉयस इन द मशीन द्वारा बिल्डिंग कंप्यूटर्स दैट अंडरस्टैंडिंग स्पीच रॉबर्ट पिएरासिनी (2012) के द्वारा प्रदान किया गया है।

वाक् पहचान पर स्वचालित वाक् पहचान ए डीप लर्निंग एप्रोच (प्रकाशक: स्प्रिंगर) जो माइक्रोसॉफ्ट के शोधकर्ताओं डी यू और एल या डीएनएन सबसे हालिया किताब है और संबंधित गहन शिक्षण विधियों के आधार पर आधुनिक वाक् पहचान प्रणालियों में विधियों को व्युत्पन्न और कार्यान्वित किया जाता है।[74] संबंधित पुस्तक, जो पहले 2014 में प्रकाशित हुई थी, डीप लर्निंग: मेथड्स एंड एप्लीकेशन बाय एल डेंग और डी. यू 2009-2014 के समय डीएनएन-आधारित वाक् पहचान का कम विधिी लेकिन अधिक कार्यप्रणाली-केंद्रित अवलोकन प्रदान करती है, जिसे अधिक सामान्य संदर्भ में रखा गया है। इसमें न केवल भाषण मान्यता बल्कि छवि पहचान, प्राकृतिक भाषा प्रसंस्करण, सूचना पुनर्प्राप्ति, मल्टीमॉडल प्रसंस्करण और मल्टीटास्क सीखने सहित गहन शिक्षण अनुप्रयोगों किया गया हैं।[70]

सॉफ्टवेयर

स्वतंत्र रूप से उपलब्ध संसाधनों के संदर्भ में, कार्नेगी मेलन विश्वविद्यालय का सीएमयू स्फिंक्स टूलकिट वाक् पहचान के बारे में सीखने और प्रयोग शुरू करने के लिए जगह है। अन्य संसाधन (मुफ्त लेकिन कॉपीराइट) एचटीके (सॉफ्टवेयर) किताब (और साथ में एचटीके टूलकिट) है। अधिक नवीनतम और अत्याधुनिक विधिों के लिए, कलदी (सॉफ्टवेयर) टूलकिट का उपयोग किया जा सकता है।[114] 2017 में मौजिला ने साधारण ध्वनि नामक ओपन सोर्स प्रोजेक्ट लॉन्च किया[115] ध्वनिों के बड़े डेटाबेस को इकट्ठा करने के लिए जो मुफ्त वाक् पहचान परियोजना डीप स्पीच (GitHub पर मुफ्त उपलब्ध) बनाने में सहायता करेगा,[116] गूगल के ओपन सोर्स प्लेटफॉर्म टेंसर फ्लो का उपयोग करना।[117] जब मोज़िला ने 2020 में परियोजना से फंडिंग को पुनर्निर्देशित किया, तो इसे इसके मूल डेवलपर्स द्वारा कोक्यू एसटीटी के रूप में फोर्क किया गया था।[118] उसी ओपन-सोर्स लाइसेंस का उपयोग करना।[119][120] व्यावसायिक क्लाउड आधारित वाक् पहचान एपीआई अधिकांशतः उपलब्ध हैं। अधिक सॉफ़्टवेयर संसाधनों के लिए, वाक् पहचान सॉफ़्टवेयर की सूची देखें।

यह भी देखें

सूचियों

संदर्भ

  1. "स्पीकर इंडिपेंडेंट कनेक्टेड स्पीच रिकग्निशन- फिफ्थ जनरेशन कंप्यूटर कॉर्पोरेशन". Fifthgen.com. Archived from the original on 11 November 2013. Retrieved 15 June 2013.
  2. P. Nguyen (2010). "Automatic classification of speaker characteristics". संचार और इलेक्ट्रॉनिक्स 2010 पर अंतर्राष्ट्रीय सम्मेलन. pp. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
  3. "वॉइस रिकग्निशन की ब्रिटिश अंग्रेजी मे मीनिंग". Macmillan Publishers Limited. Archived from the original on 16 September 2011. Retrieved 21 February 2012.
  4. "आवाज पहचान, की परिभाषा". WebFinance, Inc. Archived from the original on 3 December 2011. Retrieved 21 February 2012.
  5. "मेलबैग एलजी #114". Linuxgazette.net. Archived from the original on 19 February 2013. Retrieved 15 June 2013.
  6. Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "स्वचालित स्पीकर सत्यापन के लिए डेटा-संचालित फ़िल्टरबैंक का अनुकूलन". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
  7. Reynolds, Douglas; Rose, Richard (January 1995). "गॉसियन मिश्रण स्पीकर मॉडल का उपयोग करके मजबूत पाठ-स्वतंत्र वक्ता पहचान" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Archived (PDF) from the original on 8 March 2014. Retrieved 21 February 2014.
  8. "वक्ता पहचान (व्हिस्परआईडी)". Microsoft Research. Microsoft. Archived from the original on 25 February 2014. Retrieved 21 February 2014. जब आप किसी से बात करते हैं, तो वे केवल यह नहीं पहचानते कि आप क्या कहते हैं: वे पहचानते हैं कि आप कौन हैं। WhisperID कंप्यूटर को वह भी करने देगा, यह पता लगाने के लिए कि आप किस तरह से ध्वनि करते हैं।
  9. "मृत्युलेख: स्टीफन बालाशेक". The Star-Ledger. 22 July 2012.
  10. "IBM-Shoebox-front.jpg". androidauthority.net. Retrieved 4 April 2019.
  11. Juang, B. H.; Rabiner, Lawrence R. "स्वचालित भाषण पहचान-प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास" (PDF): 6. Archived (PDF) from the original on 17 August 2014. Retrieved 17 January 2015. {{cite journal}}: Cite journal requires |journal= (help)
  12. 12.0 12.1 Melanie Pinola (2 November 2011). "दशक के माध्यम से वाक् पहचान: हम सिरी के साथ कैसे समाप्त हुए". PC World. Retrieved 22 October 2018.
  13. Gray, Robert M. (2010). "पैकेट नेटवर्क पर रीयलटाइम डिजिटल भाषण का इतिहास: लीनियर प्रेडिक्टिव कोडिंग और इंटरनेट प्रोटोकॉल का भाग II" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  14. John R. Pierce (1969). "कहाँ वाक् पहचान?". Journal of the Acoustical Society of America. 46 (48): 1049–1051. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801.
  15. Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). स्पीच प्रोसेसिंग की स्प्रिंगर हैंडबुक. Springer Science & Business Media. ISBN 978-3540491255.
  16. John Makhoul. "आईएससीए पदक विजेता: भाषण और भाषा प्रसंस्करण में नेतृत्व और व्यापक योगदान के लिए". Archived from the original on 24 January 2018. Retrieved 23 January 2018.
  17. Blechman, R. O.; Blechman, Nicholas (23 June 2008). "हैलो, हैल". The New Yorker. Archived from the original on 20 January 2015. Retrieved 17 January 2015.
  18. Klatt, Dennis H. (1977). "ARPA भाषण समझ परियोजना की समीक्षा". The Journal of the Acoustical Society of America. 62 (6): 1345–1366. Bibcode:1977ASAJ...62.1345K. doi:10.1121/1.381666.
  19. Rabiner (1984). "ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग सोसायटी। एक ऐतिहासिक परिप्रेक्ष्य" (PDF). Archived (PDF) from the original on 9 August 2017. Retrieved 23 January 2018. {{cite journal}}: Cite journal requires |journal= (help)
  20. "फर्स्ट-हैंड: द हिडन मार्कोव मॉडल - इंजीनियरिंग एंड टेक्नोलॉजी हिस्ट्री विकी". ethw.org. 12 January 2015. Archived from the original on 3 April 2018. Retrieved 1 May 2018.
  21. 21.0 21.1 "जेम्स बेकर साक्षात्कार". Archived from the original on 28 August 2017. Retrieved 9 February 2017.
  22. "अग्रणी भाषण मान्यता". 7 March 2012. Archived from the original on 19 February 2015. Retrieved 18 January 2015.
  23. 23.0 23.1 23.2 Xuedong Huang; James Baker; Raj Reddy. "भाषण मान्यता का एक ऐतिहासिक परिप्रेक्ष्य". Communications of the ACM. Archived from the original on 20 January 2015. Retrieved 20 January 2015.
  24. Juang, B. H.; Rabiner, Lawrence R. "स्वचालित भाषण पहचान-प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास" (PDF): 10. Archived (PDF) from the original on 17 August 2014. Retrieved 17 January 2015. {{cite journal}}: Cite journal requires |journal= (help)
  25. "भाषण मान्यता का इतिहास". Dragon Medical Transcription. Archived from the original on 13 August 2015. Retrieved 17 January 2015.
  26. Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto; Nebbia, Luciano (1 November 1995). "काम पर इंटरएक्टिव आवाज प्रौद्योगिकी: सीएसईएलटी अनुभव". Speech Communication. 17 (3): 263–271. doi:10.1016/0167-6393(95)00030-R.
  27. Kevin McKean (8 April 1980). "जब कोल बात करता है, तो कंप्यूटर सुनते हैं". Sarasota Journal. AP. Retrieved 23 November 2015.
  28. "अधिनियम/खुबानी - खुबानी इतिहास". actapricot.org. Retrieved 2016-02-02.
  29. Melanie Pinola (2 November 2011). "दशक के माध्यम से वाक् पहचान: हम सिरी के साथ कैसे समाप्त हुए". PC World. Archived from the original on 13 January 2017. Retrieved 28 July 2017.
  30. "रे कुर्ज़वील जीवनी". KurzweilAINetwork. Archived from the original on 5 February 2014. Retrieved 25 September 2014.
  31. Juang, B.H.; Rabiner, Lawrence. "स्वचालित भाषण मान्यता - प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास" (PDF). Archived (PDF) from the original on 9 August 2017. Retrieved 28 July 2017. {{cite journal}}: Cite journal requires |journal= (help)
  32. "iPhone 4S, सिरी, और भाषण के भविष्य पर बारीकियों का निष्पादन". Tech.pinions. 10 October 2011. Archived from the original on 19 November 2011. Retrieved 23 November 2011.
  33. "स्विचबोर्ड -1 रिलीज 2". Archived from the original on 11 July 2017. Retrieved 26 July 2017.
  34. Jason Kincaid (13 February 2011). "आवाज की शक्ति: Google की भाषण प्रौद्योगिकी के प्रमुख के साथ बातचीत". Tech Crunch. Archived from the original on 21 July 2015. Retrieved 21 July 2015.
  35. Froomkin, Dan (5 May 2015). "कंप्यूटर सुन रहे हैं". The Intercept. Archived from the original on 27 June 2015. Retrieved 20 June 2015.
  36. Herve Bourlard and Nelson Morgan, Connectionist Speech Recognition: A Hybrid Approach, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.
  37. 37.0 37.1 Sepp Hochreiter; J. Schmidhuber (1997). "लॉन्ग शॉर्ट-टर्म मेमोरी". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
  38. Schmidhuber, Jürgen (2015). "तंत्रिका नेटवर्क में गहन शिक्षा: एक सिंहावलोकन". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
  39. Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets. Proceedings of ICML'06, pp. 369–376.
  40. Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN (2), pp. 220–229.
  41. 41.0 41.1 Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): "Google voice search: faster and more accurate." Archived 9 March 2016 at the Wayback Machine
  42. "ढक्कन इंजी". ढक्कन इंजीSite.
  43. NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
  44. 44.0 44.1 44.2 Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "वाक् पहचान में ध्वनिक मॉडलिंग के लिए डीप न्यूरल नेटवर्क: चार शोध समूहों के साझा विचार". IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
  45. 45.0 45.1 Deng, L.; Hinton, G.; Kingsbury, B. (2013). "New types of deep neural network learning for speech recognition and related applications: An overview". ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर 2013 IEEE अंतर्राष्ट्रीय सम्मेलन: वाक् पहचान और संबंधित अनुप्रयोगों के लिए नए प्रकार के गहरे तंत्रिका नेटवर्क सीखना: एक सिंहावलोकन. p. 8599. doi:10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. S2CID 13953660.
  46. 46.0 46.1 Markoff, John (23 November 2012). "डीप-लर्निंग प्रोग्राम में वैज्ञानिक संभावनाओं को देखते हैं". New York Times. Archived from the original on 30 November 2012. Retrieved 20 January 2015.
  47. Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"
  48. T. Robinson (1992). "A real-time recurrent error propagation network word recognition system". [कार्यवाही] ICASSP-92: 1992 ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन. pp. 617–620 vol.1. doi:10.1109/ICASSP.1992.225833. ISBN 0-7803-0532-9. S2CID 62446313.
  49. Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech, and Signal Processing."
  50. Baker, J.; Li Deng; Glass, J.; Khudanpur, S.; Chin-Hui Lee; Morgan, N.; O'Shaughnessy, D. (2009). "वाक् पहचान और समझ में विकास और दिशाएं, भाग 1". IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM...26...75B. doi:10.1109/MSP.2009.932166. hdl:1721.1/51891. S2CID 357467.
  51. Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Archived 6 March 2015 at the Wayback Machine, Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber.
  52. Bengio, Y. (1991). कृत्रिम तंत्रिका नेटवर्क और भाषण/अनुक्रम पहचान के लिए उनका अनुप्रयोग (Ph.D.). McGill University.
  53. Deng, L.; Hassanein, K.; Elmasry, M. (1994). "भाषण मान्यता के लिए आवेदन के साथ एक तंत्रिका भविष्य कहनेवाला मॉडल के लिए सहसंबंध संरचना का विश्लेषण". Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2.
  54. Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
  55. 55.0 55.1 Keynote talk: "Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014 (by Li Deng).
  56. "वॉयस रिकग्निशन सॉफ्टवेयर में सुधार बढ़ा है". TechRepublic.com. 27 August 2002. मैनर्स ने कहा कि IBM ने वाक् पहचान को आगे बढ़ाने पर काम किया है ... या शोर-शराबे वाले ट्रेड शो में काम किया है।
  57. "यात्रा बुकिंग को आसान बनाने के लिए आवाज की पहचान: व्यापार यात्रा समाचार". BusinessTravelNews.com. 3 March 1997. वाक् पहचान सॉफ़्टवेयर के शुरुआती अनुप्रयोग डिक्टेशन थे ... चार महीने पहले, IBM ने एक 'निरंतर श्रुतलेख उत्पाद' प्रस्तुत किया जिसे ... के लिए डिज़ाइन किया गया था ... जिसे 1994 में नेशनल बिज़नेस ट्रैवेल एसोसिएशन ट्रेड शो में प्रदर्शित किया गया था।
  58. Ellis Booker (14 March 1994). "आवाज पहचान मुख्यधारा में प्रवेश करती है". Computerworld. p. 45. कुछ साल पहले, वाक् पहचान ...
  59. "Microsoft शोधकर्ताओं ने नई संवादी वाक् पहचान मील का पत्थर हासिल किया". Microsoft. 21 August 2017.
  60. Goel, Vaibhava; Byrne, William J. (2000). "Minimum Bayes-risk automatic speech recognition". Computer Speech & Language. 14 (2): 115–135. doi:10.1006/csla.2000.0138. Archived from the original on 25 July 2011. Retrieved 28 March 2011.
  61. Mohri, M. (2002). "Edit-Distance of Weighted Automata: General Definitions and Algorithms" (PDF). International Journal of Foundations of Computer Science. 14 (6): 957–982. doi:10.1142/S0129054103002114. Archived (PDF) from the original on 18 March 2012. Retrieved 28 March 2011.
  62. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). "समय-विलंब तंत्रिका नेटवर्क का उपयोग करके फ़ोनीमी पहचान". IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. doi:10.1109/29.21701. hdl:10338.dmlcz/135496.
  63. Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "बहुउद्देश्यीय विकासवादी एल्गोरिदम के माध्यम से ध्वन्यात्मक जागरूक वाक् पहचान का अनुकूलन" (PDF). Expert Systems with Applications. Elsevier BV. 153: 113402. doi:10.1016/j.eswa.2020.113402. ISSN 0957-4174. S2CID 216472225.</रेफरी> पृथक शब्द पहचान, रेफरी>Wu, J.; Chan, C. (1993). "भाषण गतिशीलता के लिए क्रॉस-सहसंबंध गुणांक वाले तंत्रिका नेटवर्क मॉडल द्वारा पृथक शब्द पहचान". IEEE Transactions on Pattern Analysis and Machine Intelligence. 15 (11): 1174–1185. doi:10.1109/34.244678.
  64. एस। ए. ज़होरियन, ए.एम. ज़िमर, और एफ. मेंग, (2002) श्रवणबाधित लोगों के लिए प्रशिक्षण, ICSLP 2002
  65. Hu, Hongbing; Zahorian, Stephen A. (2010). "Dimensionality Reduction Methods for HMM Phonetic Recognition" (PDF). आईसीएएसएसपी 2010. Archived (PDF) from the original on 6 July 2012.
  66. Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks" (PDF). आईजेसीएआई की कार्यवाही. Archived (PDF) from the original on 15 August 2017.
  67. Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "गहरे आवर्तक तंत्रिका नेटवर्क के साथ वाक् पहचान". arXiv:1303.5778 [cs.NE]. ICASSP 2013.
  68. Waibel, Alex (1989). "भाषण मान्यता के लिए समय-विलंब तंत्रिका नेटवर्क का मॉड्यूलर निर्माण" (PDF). Neural Computation. 1 (1): 39–46. doi:10.1162/neco.1989.1.1.39. S2CID 236321. Archived (PDF) from the original on 29 June 2016.
  69. Maas, Andrew L.; Le, Quoc V.; O'Neil, Tyler M.; Vinyals, Oriol; Nguyen, Patrick; Ng, Andrew Y. (2012). "Recurrent Neural Networks for Noise Reduction in Robust ASR". इंटरस्पीच 2012 की कार्यवाही.
  70. 70.0 70.1 Deng, Li; Yu, Dong (2014). "डीप लर्निंग: तरीके और अनुप्रयोग" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679. doi:10.1561/2000000039. Archived (PDF) from the original on 22 October 2014.
  71. Yu, D.; Deng, L.; Dahl, G. (2010). "वास्तविक-विश्व भाषण मान्यता के लिए संदर्भ-निर्भर DBN-HMMs में पूर्व-प्रशिक्षण और फ़ाइन-ट्यूनिंग की भूमिकाएँ" (PDF). NIPS Workshop on Deep Learning and Unsupervised Feature Learning.
  72. Dahl, George E.; Yu, Dong; Deng, Li; Acero, Alex (2012). "बड़े-शब्दावली भाषण मान्यता के लिए संदर्भ-निर्भर पूर्व-प्रशिक्षित गहन तंत्रिका नेटवर्क". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30–42. doi:10.1109/TASL.2011.2134090. S2CID 14862572.
  73. Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Recent Advances in Deep Learning for Speech Research at Microsoft. ICASSP, 2013.
  74. 74.0 74.1 Yu, D.; Deng, L. (2014). "स्वचालित भाषण मान्यता: एक गहन शिक्षण दृष्टिकोण (प्रकाशक: स्प्रिंगर)". {{cite journal}}: Cite journal requires |journal= (help)
  75. Deng, L.; Li, Xiao (2013). "वाक् पहचान के लिए मशीन लर्निंग प्रतिमान: एक सिंहावलोकन" (PDF). IEEE Transactions on Audio, Speech, and Language Processing. 21 (5): 1060–1089. doi:10.1109/TASL.2013.2244083. S2CID 16585863.
  76. Schmidhuber, Jürgen (2015). "ध्यान लगा के पढ़ना या सीखना". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
  77. L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder. Interspeech.
  78. Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR" (PDF). इंटरस्पीच 2014. Archived (PDF) from the original on 21 December 2016.
  79. Jurafsky, Daniel (2016). भाषण और भाषा प्रसंस्करण.
  80. Graves, Alex (2014). "आवर्तक तंत्रिका नेटवर्क के साथ एंड-टू-एंड स्पीच रिकग्निशन की ओर" (PDF). ICML.
  81. Amodei, Dario (2016). "डीप स्पीच 2: अंग्रेजी और मंदारिन में एंड-टू-एंड स्पीच रिकग्निशन". arXiv:1512.02595 [cs.CL].
  82. "लिपनेट: आपको क्या लगता है कि लिप पढ़ना कितना आसान है?". YouTube. Archived from the original on 27 April 2017. Retrieved 5 May 2017.
  83. Assael, Yannis; Shillingford, Brendan; Whiteson, Shimon; de Freitas, Nando (5 November 2016). "लिपनेट: एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग". arXiv:1611.01599 [cs.CV].
  84. Shillingford, Brendan; Assael, Yannis; Hoffman, Matthew W.; Paine, Thomas; Hughes, Cían; Prabhu, Utsav; Liao, Hank; Sak, Hasim; Rao, Kanishka (2018-07-13). "बड़े पैमाने पर दृश्य वाक् पहचान". arXiv:1807.05162 [cs.CV].
  85. Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "सुनो, उपस्थित रहो और जादू करो: बड़ी शब्दावली संवादी वाक् पहचान के लिए एक तंत्रिका नेटवर्क" (PDF). ICASSP.
  86. Bahdanau, Dzmitry (2016). "एंड-टू-एंड ध्यान-आधारित बड़ी शब्दावली वाक् पहचान". arXiv:1508.04395 [cs.CL].
  87. Chorowski, Jan; Jaitly, Navdeep (8 December 2016). "अनुक्रम मॉडल के क्रम में बेहतर डिकोडिंग और भाषा मॉडल एकीकरण की ओर". arXiv:1612.02695 [cs.NE].
  88. Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 October 2016). "अव्यक्त अनुक्रम अपघटन". arXiv:1610.03035 [stat.ML].
  89. Chung, Joon Son; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 November 2016). "Lip Reading Sentences in the Wild". कंप्यूटर विजन और पैटर्न पहचान (सीवीपीआर) पर 2017 आईईईई सम्मेलन. pp. 3444–3453. arXiv:1611.05358. doi:10.1109/CVPR.2017.367. ISBN 978-1-5386-0457-1. S2CID 1662180.
  90. Englund, Christine (2004). JAS 39 ग्रिपेन विमान में वाक् पहचान: विभिन्न G-लोड पर वाणी के लिए अनुकूलन (PDF) (Masters thesis). Stockholm Royal Institute of Technology. Archived (PDF) from the original on 2 October 2008. {{cite thesis}}: no-break space character in |title= at position 4 (help)
  91. "कॉकपिट". Eurofighter Typhoon. Archived from the original on 1 March 2017.
  92. "यूरोफाइटर टाइफून - दुनिया का सबसे उन्नत लड़ाकू विमान". www.eurofighter.com. Archived from the original on 11 May 2013. Retrieved 1 May 2018.
  93. Schutte, John (15 October 2007). "शोधकर्ताओं ने F-35 पायलट-एयरक्राफ्ट स्पीच सिस्टम को फाइन-ट्यून किया". United States Air Force. Archived from the original on 20 October 2007.
  94. Cerf, Vinton; Wrubel, Rob; Sherwood, Susan. "क्या भाषण-पहचान सॉफ्टवेयर शैक्षिक भाषा बाधाओं को तोड़ सकता है?". Curiosity.com. Discovery Communications. Archived from the original on 7 April 2014. Retrieved 26 March 2014.
  95. 95.0 95.1 "सीखने के लिए भाषण मान्यता". National Center for Technology Innovation. 2010. Archived from the original on 13 April 2014. Retrieved 26 March 2014.
  96. Follensbee, Bob; McCloskey-Dale, Susan (2000). "स्कूलों में वाक् पहचान: क्षेत्र से एक अद्यतन". Technology And Persons With Disabilities Conference 2000. Archived from the original on 21 August 2006. Retrieved 26 March 2014.
  97. "कक्षा में संचार बाधाओं पर काबू पाना". MassMATCH. 18 March 2010. Archived from the original on 25 July 2013. Retrieved 15 June 2013.
  98. "विकलांग लोगों के लिए भाषण मान्यता". Archived from the original on 4 April 2008.
  99. Friends International Support Group
  100. Garrett, Jennifer Tumlin; et al. (2011). "शारीरिक अक्षमताओं वाले व्यक्तियों के लिए लेखन प्रवाह बढ़ाने के लिए वाक् पहचान सॉफ़्टवेयर का उपयोग करना". Journal of Special Education Technology. 26 (1): 25–41. doi:10.1177/016264341102600104. S2CID 142730664.
  101. Forgrave, Karen E. "Assistive Technology: Empowering Students with Disabilities." Clearing House 75.3 (2002): 122–6. Web.
  102. Tang, K. W.; Kamoua, Ridha; Sutan, Victor (2004). "विकलांग शिक्षा के लिए भाषण मान्यता प्रौद्योगिकी". Journal of Educational Technology Systems. 33 (2): 173–84. CiteSeerX 10.1.1.631.3736. doi:10.2190/K6K8-78K2-59Y7-R9R2. S2CID 143159997.
  103. "प्रोजेक्ट्स: प्लेनेटरी माइक्रोफ़ोन". The Planetary Society. Archived from the original on 27 January 2012.
  104. Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amaryllis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19 September 2007). अभिव्यंजक चेहरों, शरीर के इशारों और भाषण से मल्टीमॉडल इमोशन रिकग्निशन. pp. 375–388. doi:10.1007/978-0-387-74161-1_41. ISBN 978-0-387-74160-4. {{cite book}}: |journal= ignored (help)
  105. "रीयल-टाइम कैप्शनिंग क्या है? | कर दो". www.washington.edu. Retrieved 2021-04-11.
  106. Zheng, Thomas Fang; Li, Lantian (2017). रोबस्टनेस-रिलेटेड इश्यूज इन स्पीकर रिकग्निशन. SpringerBriefs in Electrical and Computer Engineering. Singapore: Springer Singapore. doi:10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0.
  107. Ciaramella, Alberto. "A prototype performance evaluation report." Sundial workpackage 8000 (1993).
  108. Gerbino, E.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). "Test and evaluation of a spoken dialogue system". ध्वनिकी भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन. pp. 135–138 vol.2. doi:10.1109/ICASSP.1993.319250. ISBN 0-7803-0946-4. S2CID 57374050.
  109. National Institute of Standards and Technology. "The History of Automatic Speech Recognition Evaluation at NIST Archived 8 October 2013 at the Wayback Machine".
  110. "सुनो: आपका एआई सहायक एनपीआर के लिए भी पागल हो गया है". NPR. 6 March 2016. Archived from the original on 23 July 2017.
  111. Claburn, Thomas (25 August 2017). "क्या अश्रव्य आदेशों का उपयोग करके अमेज़न एलेक्सा, Google नाओ को नियंत्रित करना संभव है? बिल्कुल". The Register. Archived from the original on 2 September 2017.
  112. "अटैक टारगेट ऑटोमैटिक स्पीच रिकॉग्निशन सिस्टम". vice.com. 31 January 2018. Archived from the original on 3 March 2018. Retrieved 1 May 2018.
  113. Beigi, Homayoon (2011). स्पीकर मान्यता की बुनियादी बातों. New York: Springer. ISBN 978-0-387-77591-3. Archived from the original on 31 January 2018.
  114. Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.
  115. "मोज़िला द्वारा कॉमन वॉइस". voice.mozilla.org.
  116. "Baidu के डीपस्पीच आर्किटेक्चर का एक टेंसरफ्लो कार्यान्वयन: मोज़िला/डीपस्पीच". 9 November 2019 – via GitHub.
  117. "गिटहब - टेंसरफ़्लो/डॉक्स: टेंसरफ़्लो दस्तावेज़ीकरण". 9 November 2019 – via GitHub.
  118. "Coqui, सभी के लिए ओपन स्पीच तकनीक प्रदान करने वाला एक स्टार्टअप". GitHub. Retrieved 2022-03-07.
  119. Coffey, Donavyn (2021-04-28). "माओरी अपनी भाषा को बिग टेक से बचाने की कोशिश कर रहे हैं". Wired UK (in British English). ISSN 1357-0978. Retrieved 2021-10-16.
  120. "आपको डीपस्पीच से coqui.ai पर क्यों जाना चाहिए". Mozilla Discourse (in English). 2021-07-07. Retrieved 2021-10-16.


आगे की पढाई

  • Pieraccini, Roberto (2012). The Voice in the Machine. Building Computers That Understand Speech. The MIT Press. ISBN 978-0262016858.
  • Woelfel, Matthias; McDonough, John (2009-05-26). Distant Speech Recognition. Wiley. ISBN 978-0470517048.
  • Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "Conversational Interface Technologies". In Sears, Andrew; Jacko, Julie A. (eds.). The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics). Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
  • Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, eds. (1997). Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. Vol. XII–XIII. Cambridge University Press. ISBN 978-0-521-59277-2.
  • Junqua, J.-C.; Haton, J.-P. (1995). Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
  • Pirani, Giancarlo, ed. (2013). Advanced algorithms and architectures for speech understanding. Springer Science & Business Media. ISBN 978-3-642-84341-9.

बाहरी कड़ियाँ