वाक् प्रक्रमण: Difference between revisions

From Vigyanwiki
No edit summary
Line 1: Line 1:
{{Short description|Study of speech signals and the processing methods of these signals}}
{{Short description|Study of speech signals and the processing methods of these signals}}
{{about|electronic speech processing|speech processing in the human brain|Language processing in the brain}}
'''भाषण या वाक् प्रसंस्करण''', [[ भाषण संचार |वाक्]] [[सिग्नल (सूचना सिद्धांत)|संकेतों]] और संकेतों की प्रसंस्करण विधियों का अध्ययन है। संकेतों को सामान्यतः [[डिजिटल डाटा]] प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रसंस्करण को [[ ऑडियो संकेत |ऑडियो संकेत]] पर लागू [[ अंकीय संकेत प्रक्रिया |डिजिटल संकेत प्रक्रिया]] का एक विशेष विषय माना जा सकता है। वाक् प्रसंस्करण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में [[वाक् पहचान]], वाक् संश्लेषण, [[वक्ता डायरीकरण]], वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref>
भाषण या वाक् प्रसंस्करण, [[ भाषण संचार |वाक्]] [[सिग्नल (सूचना सिद्धांत)|संकेतों]] और संकेतों की प्रसंस्करण विधियों का अध्ययन है। संकेतों को सामान्यतः [[डिजिटल डाटा]] प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रसंस्करण को [[ ऑडियो संकेत |ऑडियो संकेत]] पर लागू [[ अंकीय संकेत प्रक्रिया |डिजिटल संकेत प्रक्रिया]] का एक विशेष विषय माना जा सकता है। वाक् प्रसंस्करण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में [[वाक् पहचान]], वाक् संश्लेषण, [[वक्ता डायरीकरण]], वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref>
== इतिहास ==
== इतिहास ==
वाक् प्रसंस्करण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।<ref>{{Citation|last1=Juang|first1=B.-H.|title=Speech Recognition, Automatic: History|date=2006|encyclopedia=Encyclopedia of Language & Linguistics|pages=806–819|publisher=Elsevier|isbn=9780080448541|last2=Rabiner|first2=L.R.|doi=10.1016/b0-08-044854-2/00906-8}}</ref> 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।<ref>{{Cite book| publisher = Energiya| last1 = Myasnikov| first1 = L. L.| last2 = Myasnikova| first2 = Ye. N.| title = ध्वनि पैटर्न की स्वचालित पहचान| location = Leningrad| date = 1970|language=ru}}</ref>
वाक् प्रसंस्करण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।<ref>{{Citation|last1=Juang|first1=B.-H.|title=Speech Recognition, Automatic: History|date=2006|encyclopedia=Encyclopedia of Language & Linguistics|pages=806–819|publisher=Elsevier|isbn=9780080448541|last2=Rabiner|first2=L.R.|doi=10.1016/b0-08-044854-2/00906-8}}</ref> 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।<ref>{{Cite book| publisher = Energiya| last1 = Myasnikov| first1 = L. L.| last2 = Myasnikova| first2 = Ye. N.| title = ध्वनि पैटर्न की स्वचालित पहचान| location = Leningrad| date = 1970|language=ru}}</ref>


[[ रैखिक भविष्य कहनेवाला कोडिंग |लीनियर प्रेडिक्टिव कोडिंग]] (LPC), एक वाक् प्रसंस्करण एल्गोरिथम, पहली बार 1966 में [[ नागोया विश्वविद्यालय |नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के दौरान [[बेल लैब्स]] में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> एलपीसी, [[आईपी ​​पर आवाज]] (वीओआईपी) तकनीक का आधार है,<ref name="Gray" />साथ ही [[भाषण सिंथेसाइज़र|वाक् सिंथेसाइज़र]] चिप्स, जैसे कि [[टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स]] का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।<ref name="vintagecomputing_article">{{cite web|url=http://www.vintagecomputing.com/index.php/archives/528|title=वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट}}</ref>
लीनियर प्रेडिक्टिव कोडिंग (LPC), एक वाक् प्रसंस्करण एल्गोरिथम, पहली बार 1966 में [[ नागोया विश्वविद्यालय |नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के दौरान [[बेल लैब्स]] में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> एलपीसी, [[आईपी ​​पर आवाज]] (वीओआईपी) तकनीक का आधार है,<ref name="Gray" />साथ ही [[भाषण सिंथेसाइज़र|वाक् सिंथेसाइज़र]] चिप्स, जैसे कि [[टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स]] का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।<ref name="vintagecomputing_article">{{cite web|url=http://www.vintagecomputing.com/index.php/archives/528|title=वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट}}</ref>


व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में [[लॉरेंस राबिनर]] और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।
व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में [[लॉरेंस राबिनर]] और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।
रेफरी>{{Cite journal|last1=Huang|first1=Xuedong|last2=Baker|first2=James|last3=Reddy|first3=Raj|date=2014-01-01|title=भाषण मान्यता का एक ऐतिहासिक परिप्रेक्ष्य|journal=Communications of the ACM|volume=57|issue=1|pages=94–103|doi=10.1145/2500887|s2cid=6175701 |issn=0001-0782}}<nowiki></ref></nowiki>


2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रसंस्करण रणनीति [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] से अधिक आधुनिक [[कृत्रिम तंत्रिका नेटवर्क]] और गहन शिक्षा की ओर स्थानांतरित होने लगी।{{citation needed|date=December 2018}}
2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रसंस्करण रणनीति [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] से अधिक आधुनिक [[कृत्रिम तंत्रिका नेटवर्क]] और गहन शिक्षा की ओर स्थानांतरित होने लगी।{{citation needed|date=December 2018}}
Line 16: Line 13:


=== डायनेमिक टाइम वार्पिंग ===
=== डायनेमिक टाइम वार्पिंग ===
{{Main|Dynamic time warping}}डायनामिक टाइम वार्पिंग (DTW) दो [[समय श्रृंखला]]ओं के बीच समानता को मापने के लिए एक [[कलन विधि]] है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच [[इष्टतम मिलान]] की गणना करती है। इष्टतम [[इष्टतम मिलान|मिलान]] को उस [[इष्टतम मिलान|मिलान]] से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।{{citation needed|date=December 2018}}
{{Main|Dynamic time warping}}डायनामिक टाइम वार्पिंग (DTW) दो [[समय श्रृंखला]]ओं के बीच समानता को मापने के लिए एक [[कलन विधि]] है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच [[इष्टतम मिलान]] की गणना करती है। इष्टतम [[इष्टतम मिलान|मिलान]] को उस [[इष्टतम मिलान|मिलान]] से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।


=== [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] ===
=== [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] ===
{{Main|Hidden Markov model}}[[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] को सबसे सरल [[डायनेमिक बायेसियन नेटवर्क]] के रूप में प्रदर्शित किया जा सकता है। इस एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। [[मार्कोव संपत्ति|मार्कोव स्वभाव]] को लागू करने से, समय t पर छिपे हुए चर x(t) का [[सशर्त संभाव्यता वितरण]], हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।{{citation needed|date=December 2018}}
{{Main|अदृश्य मार्कोव मॉडल}}[[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] को सबसे सरल [[डायनेमिक बायेसियन नेटवर्क]] के रूप में प्रदर्शित किया जा सकता है। इस एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। [[मार्कोव संपत्ति|मार्कोव स्वभाव]] को लागू करने से, समय t पर छिपे हुए चर x(t) का [[सशर्त संभाव्यता वितरण]], हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।{{citation needed|date=December 2018}}


=== कृत्रिम तंत्रिका प्रणाली ===
=== कृत्रिम तंत्रिका प्रणाली ===
{{Main|Artificial neural network}}एक कृत्रिम तंत्रिका प्रणाली (ANA) कनेक्टेड इकाइयों या कृत्रिम [[न्यूरॉन]]्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित
{{Main|कृत्रिम तंत्रिका नेटवर्क}}एक कृत्रिम तंत्रिका प्रणाली (ANA) कनेक्टेड इकाइयों या कृत्रिम [[न्यूरॉन]]्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित


ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में [[निष्कर्ष]] की तरह, एक [[कृत्रिम न्यूरॉन]] से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक [[वास्तविक संख्या]] है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।{{citation needed|date=December 2018}}
ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में [[निष्कर्ष]] की तरह, एक [[कृत्रिम न्यूरॉन]] से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक [[वास्तविक संख्या]] है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।


=== फेज-अवेयर प्रसंस्करण ===
=== फेज-अवेयर प्रसंस्करण ===

Revision as of 14:34, 27 June 2023

भाषण या वाक् प्रसंस्करण, वाक् संकेतों और संकेतों की प्रसंस्करण विधियों का अध्ययन है। संकेतों को सामान्यतः डिजिटल डाटा प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रसंस्करण को ऑडियो संकेत पर लागू डिजिटल संकेत प्रक्रिया का एक विशेष विषय माना जा सकता है। वाक् प्रसंस्करण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में वाक् पहचान, वाक् संश्लेषण, वक्ता डायरीकरण, वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।[1]

इतिहास

वाक् प्रसंस्करण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।[2] 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।[3]

लीनियर प्रेडिक्टिव कोडिंग (LPC), एक वाक् प्रसंस्करण एल्गोरिथम, पहली बार 1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।[4] 1970 के दशक के दौरान बेल लैब्स में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।[4] एलपीसी, आईपी ​​पर आवाज (वीओआईपी) तकनीक का आधार है,[4]साथ ही वाक् सिंथेसाइज़र चिप्स, जैसे कि टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।[5]

व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।

2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रसंस्करण रणनीति हिडन मार्कोव मॉडल्स से अधिक आधुनिक कृत्रिम तंत्रिका नेटवर्क और गहन शिक्षा की ओर स्थानांतरित होने लगी।[citation needed]

तकनीक

डायनेमिक टाइम वार्पिंग

डायनामिक टाइम वार्पिंग (DTW) दो समय श्रृंखलाओं के बीच समानता को मापने के लिए एक कलन विधि है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच इष्टतम मिलान की गणना करती है। इष्टतम मिलान को उस मिलान से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।

हिडन मार्कोव मॉडल्स

हिडन मार्कोव मॉडल्स को सबसे सरल डायनेमिक बायेसियन नेटवर्क के रूप में प्रदर्शित किया जा सकता है। इस एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। मार्कोव स्वभाव को लागू करने से, समय t पर छिपे हुए चर x(t) का सशर्त संभाव्यता वितरण, हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।[citation needed]

कृत्रिम तंत्रिका प्रणाली

एक कृत्रिम तंत्रिका प्रणाली (ANA) कनेक्टेड इकाइयों या कृत्रिम न्यूरॉन्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित

ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में निष्कर्ष की तरह, एक कृत्रिम न्यूरॉन से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक वास्तविक संख्या है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।

फेज-अवेयर प्रसंस्करण

फेज को सामान्यतः यादृच्छिक वर्दी चर माना जाता है और इस प्रकार यह किसी काम का नहीं होता है । यह फेज-रैपिंग के कारण है:[6] पर समय-समय पर छलांग लगाने के कारण चापस्पर्श फलन का परिणाम निरंतर नहीं होता है| फेज अनरैपिंग के बाद (देखें,[7] अध्याय 2.3; तात्कालिक चरण और आवृत्ति), इसे इस प्रकार व्यक्त किया जा सकता है:[6][8]

, जहाँ रैखिक चरण है ( विश्लेषण के प्रत्येक फ्रेम में अस्थायी बदलाव है), मुखर पथ और चरण स्रोत का चरण योगदान है।[8]

प्राप्त चरण अनुमानों का उपयोग शोर में कमी : तात्कालिक चरण का अस्थायी समतलीकरण [9] और इसके व्युत्पन्न समय (तात्कालिक चरण और आवृत्ति) और आवृत्ति (समूह विलंब और चरण विलंब) द्वारा,[10] आवृत्ति भर में चरण के समतलीकरण के लिए किया जा सकता है।[10] जुड़े हुए आयाम और चरण अनुमानक, चरण के वॉन माइस वितरण की धारणा के आधार पर भाषण को अधिक सटीक रूप से पुनर्प्राप्त कर सकते हैं।[8]

अनुप्रयोग

यह भी देखें

संदर्भ

  1. Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
  2. Juang, B.-H.; Rabiner, L.R. (2006), "Speech Recognition, Automatic: History", Encyclopedia of Language & Linguistics, Elsevier, pp. 806–819, doi:10.1016/b0-08-044854-2/00906-8, ISBN 9780080448541
  3. Myasnikov, L. L.; Myasnikova, Ye. N. (1970). ध्वनि पैटर्न की स्वचालित पहचान (in русский). Leningrad: Energiya.
  4. 4.0 4.1 4.2 Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  5. "वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट".