प्राकृतिक भाषा प्रसंस्करण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 36: Line 36:
एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः  उपयोग किए जाते हैं:
एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः  उपयोग किए जाते हैं:
* जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे [[एपर्टियम]] प्रणाली द्वारा प्रदान की गई,
* जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे [[एपर्टियम]] प्रणाली द्वारा प्रदान की गई,
* एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या
* एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या
* एनएलपी पाइपलाइनों के निर्गम को पोस्ट प्रोसेसिंग और बदलने के लिए, उदाहरण के लिए, वाक्यगत पार्स से ज्ञान निकालने के लिए।
* एनएलपी पाइपलाइनों के निर्गम को पोस्ट संसाधन और बदलने के लिए, उदाहरण के लिए, वाक्यगत पार्स से ज्ञान निकालने के लिए।


=== सांख्यिकीय विधि ===
=== सांख्यिकीय विधि ===
तथाकथित सांख्यिकीय क्रांति के बाद से<ref name="johnson:eacl:ilcl09">[http://www.aclweb.org/anthology/W09-0103 Mark Johnson. How the statistical revolution changes (computational) linguistics.] Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.</ref><ref name="resnik:langlog11">[http://languagelog.ldc.upenn.edu/nll/?p=2946 Philip Resnik. Four revolutions.] Language Log, February 5, 2011.</ref> 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े टेक्स्ट कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।
तथाकथित सांख्यिकीय क्रांति के बाद से<ref name="johnson:eacl:ilcl09">[http://www.aclweb.org/anthology/W09-0103 Mark Johnson. How the statistical revolution changes (computational) linguistics.] Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.</ref><ref name="resnik:langlog11">[http://languagelog.ldc.upenn.edu/nll/?p=2946 Philip Resnik. Four revolutions.] Language Log, February 5, 2011.</ref> 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।


मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने [[सांख्यिकीय मॉडल]] पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान [[शब्द एम्बेडिंग|शब्द अंत: स्थापन)]] ,<ref>{{Cite web|title=एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना|url=https://wabyking.github.io/talks/mila-talk.pdf}}</ref> और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण<ref>{{cite arXiv|last1=Trabelsi|first1=Chiheb|last2=Bilaniuk|first2=Olexa|last3=Zhang|first3=Ying|last4=Serdyuk|first4=Dmitriy|last5=Subramanian|first5=Sandeep|last6=Santos|first6=João Felipe|last7=Mehri|first7=Soroush|last8=Rostamzadeh|first8=Negar|last9=Bengio|first9=Yoshua|last10=Pal|first10=Christopher J.|date=2018-02-25|title=डीप कॉम्प्लेक्स नेटवर्क|class=cs.NE|eprint=1705.09792}}</ref>). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में सम्मलित  किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।
मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने [[सांख्यिकीय मॉडल]] पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान [[शब्द एम्बेडिंग|शब्द अंत: स्थापन)]] ,<ref>{{Cite web|title=एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना|url=https://wabyking.github.io/talks/mila-talk.pdf}}</ref> और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण<ref>{{cite arXiv|last1=Trabelsi|first1=Chiheb|last2=Bilaniuk|first2=Olexa|last3=Zhang|first3=Ying|last4=Serdyuk|first4=Dmitriy|last5=Subramanian|first5=Sandeep|last6=Santos|first6=João Felipe|last7=Mehri|first7=Soroush|last8=Rostamzadeh|first8=Negar|last9=Bengio|first9=Yoshua|last10=Pal|first10=Christopher J.|date=2018-02-25|title=डीप कॉम्प्लेक्स नेटवर्क|class=cs.NE|eprint=1705.09792}}</ref>). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में सम्मलित  किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।
Line 57: Line 57:
चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।
चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।


=== टेक्स्ट और स्पीच प्रोसेसिंग ===
=== पाठ या भाषण संसाधन ===
; [[ऑप्टिकल कैरेक्टर मान्यता]] (ओसीआर)
; [[ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्नाइजेशन]] (ओसीआर)
: मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
: मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।


; भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह टेक्स्ट टू स्पीच के विपरीत है और बोलचाल की भाषा में [[एआई-पूर्ण]] (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। [[प्राकृतिक भाषण]] में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार [[भाषण विभाजन]] वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे [[कॉर्टिक्यूलेशन]] कहा जाता है, इसलिए [[एनालॉग संकेत]] को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
; भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में [[एआई-पूर्ण]] (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। [[प्राकृतिक भाषण]] में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार [[भाषण विभाजन]] वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे [[कॉर्टिक्यूलेशन]] कहा जाता है, इसलिए [[एनालॉग संकेत|अनुरूप संकेत]] को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
; भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और सामान्यतः  इसके साथ समूहीकृत।
; भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और सामान्यतः  इसके साथ समूहीकृत।


; [[[[लिखे हुए को बोलने में बदलना]]]]
; [[[[लिखे हुए को बोलने में बदलना]]]]
: एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए टेक्स्ट-टू-स्पीच का उपयोग किया जा सकता है।<ref>{{Citation|last1=Yi|first1=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|citeseerx=10.1.1.668.869|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli}}</ref>
: एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए भाषण के लिए पाठ का उपयोग किया जा सकता है।<ref>{{Citation|last1=Yi|first1=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|citeseerx=10.1.1.668.869|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli}}</ref>
; [[शब्द विभाजन]] (प्रतीकीकरण (शाब्दिक विश्लेषण))
; [[शब्द विभाजन]] (प्रतीकीकरण (शाब्दिक विश्लेषण))
: निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। [[अंग्रेजी भाषा]] जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः  रिक्त स्थान से अलग किया जाता है। चूंकि, [[चीनी भाषा]], [[जापानी भाषा]] और [[थाई भाषा]] जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की [[शब्दावली]] और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों माइनिंग में [[शब्दों का थैला]] (BOW) निर्माण जैसे स्थितियों में भी किया जाता है।
: निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। [[अंग्रेजी भाषा]] जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः  रिक्त स्थान से अलग किया जाता है। चूंकि, [[चीनी भाषा]], [[जापानी भाषा]] और [[थाई भाषा]] जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की [[शब्दावली]] और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों खनन में [[शब्दों का थैला]] (धनुष) निर्माण जैसे स्थितियों में भी किया जाता है।


=== रूपात्मक विश्लेषण ===
=== रूपात्मक विश्लेषण ===
; [[लेमैटाइजेशन]]: केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस मामले में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।<ref>{{Cite web|date=2020-12-06|title=प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय|url=https://www.gyansetu.in/what-is-natural-language-processing/|access-date=2021-01-09|website=GyanSetu!|language=en-US}}</ref>
; [[लेमैटाइजेशन]]: केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस संबंध में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।<ref>{{Cite web|date=2020-12-06|title=प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय|url=https://www.gyansetu.in/what-is-natural-language-processing/|access-date=2021-01-09|website=GyanSetu!|language=en-US}}</ref>
; आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग [[morpheme]]s में विभाजित करें और morphemes के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से [[विभक्ति आकृति विज्ञान]], और इस प्रकार यह अधिकांशतः  इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। [[तुर्की भाषा]] या मैतेई भाषा जैसी भाषाओं में,<ref>{{cite journal |last1=Kishorjit |first1=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=मणिपुरी रूपिम पहचान|journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> एक उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
; आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग [[morpheme|मॉर्फेम]] में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से [[विभक्ति आकृति विज्ञान]], और इस प्रकार यह अधिकांशतः  इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। [[तुर्की भाषा]] या मैतेई भाषा जैसी भाषाओं में,<ref>{{cite journal |last1=Kishorjit |first1=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=मणिपुरी रूपिम पहचान|journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> एक उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
; [[पार्ट-ऑफ-स्पीच टैगिंग]]: एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक [[संज्ञा]] (मेज पर किताब) या [[क्रिया]] (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या [[विशेषण]] हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।
; [[पार्ट-ऑफ-स्पीच टैगिंग]]: एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक [[संज्ञा]] (मेज पर किताब) या [[क्रिया]] (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या [[विशेषण]] हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।


Line 81: Line 81:
: एक औपचारिक [[व्याकरण]] उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
: एक औपचारिक [[व्याकरण]] उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
; [[वाक्य भंग]] (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
; [[वाक्य भंग]] (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
: टेक्स्ट का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः  [[पूर्ण विराम]] या अन्य [[विराम चिह्न]]ों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
: पाठ का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः  [[पूर्ण विराम]] या अन्य [[विराम चिह्न]]ों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
; [[पदच्छेद]]: किसी दिए गए वाक्य के [[पार्स पेड़]] (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण [[अस्पष्ट]] है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पार्स हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पार्सिंग के दो प्राथमिक प्रकार हैं: निर्भरता पार्सिंग और निर्वाचन क्षेत्र पार्सिंग। निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पार्स ट्री बनाने पर केंद्रित है ([[स्टोकेस्टिक व्याकरण]] भी देखें)।
; [[पदच्छेद]]: किसी दिए गए वाक्य के [[पार्स पेड़]] (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण [[अस्पष्ट]] है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पार्स हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पार्सिंग के दो प्राथमिक प्रकार हैं: निर्भरता पार्सिंग और निर्वाचन क्षेत्र पार्सिंग। निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पार्स ट्री बनाने पर केंद्रित है ([[स्टोकेस्टिक व्याकरण]] भी देखें)।


Line 87: Line 87:
; शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है?
; शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है?
; वितरण संबंधी शब्दार्थ: हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं?
; वितरण संबंधी शब्दार्थ: हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं?
; नामांकित इकाई पहचान (एनईआर): पाठ की एक धारा दी गई है, यह निर्धारित करें कि टेक्स्ट मैप में कौन से आइटम उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि [[पूंजीकरण]] अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी [[नामित इकाई]] के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी मामले में, अधिकांशतः  गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः  कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या [[अरबी भाषा]]) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, [[जर्मन भाषा]] सभी संज्ञाओं को कैपिटलाइज़ करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को कैपिटलाइज़ नहीं करती हैं जो विशेषण के रूप में काम करते हैं।
; नामांकित इकाई पहचान (एनईआर): पाठ की एक धारा दी गई है, यह निर्धारित करें कि पाठ मैप में कौन से आइटम उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि [[पूंजीकरण]] अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी [[नामित इकाई]] के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी मामले में, अधिकांशतः  गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः  कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या [[अरबी भाषा]]) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, [[जर्मन भाषा]] सभी संज्ञाओं को कैपिटलाइज़ करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को कैपिटलाइज़ नहीं करती हैं जो विशेषण के रूप में काम करते हैं।


; भावना विश्लेषण ([[मल्टीमॉडल भावना विश्लेषण]] भी देखें)
; भावना विश्लेषण ([[मल्टीमॉडल भावना विश्लेषण]] भी देखें)
Line 109: Line 109:
: एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , [[प्रो-ड्रॉप भाषा]]ओं के लिए कोरेफेरेंस संकल्प का विस्तार।
: एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , [[प्रो-ड्रॉप भाषा]]ओं के लिए कोरेफेरेंस संकल्प का विस्तार।


; [[पाठ्य आकर्षण]]: दो टेक्स्ट अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।<ref name="rte:11">PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>
; [[पाठ्य आकर्षण]]: दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।<ref name="rte:11">PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>
; [[विषय विभाजन]] और मान्यता
; [[विषय विभाजन]] और मान्यता
: पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
: पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
Line 131: Line 131:
; नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन<nowiki> (NLG):</nowiki>
; नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन<nowiki> (NLG):</nowiki>
: [[संगणक]] आंकड़ोंबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
: [[संगणक]] आंकड़ोंबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
; नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू): टेक्स्ट के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित  है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः  प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .<ref>{{cite journal|last1=Duan|first1=Yucong|last2=Cruz|first2=Christophe|year=2011|title=अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना|url=http://www.ijimt.org/abstract/100-E00187.htm|journal=International Journal of Innovation, Management and Technology|volume=2|issue=1|pages=37–42|archive-url=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm|archive-date=2011-10-09}}</ref>
; नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू): पाठ के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित  है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः  प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .<ref>{{cite journal|last1=Duan|first1=Yucong|last2=Cruz|first2=Christophe|year=2011|title=अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना|url=http://www.ijimt.org/abstract/100-E00187.htm|journal=International Journal of Innovation, Management and Technology|volume=2|issue=1|pages=37–42|archive-url=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm|archive-date=2011-10-09}}</ref>
; [[प्रश्न उत्तर]]: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
; [[प्रश्न उत्तर]]: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
; [[टेक्स्ट-टू-इमेज जेनरेशन]]: एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।<ref>{{Cite web |last=Robertson |first=Adi |date=2022-04-06 |title=OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है|url=https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing |access-date=2022-06-07 |website=The Verge |language=en}}</ref>
; [[टेक्स्ट-टू-इमेज जेनरेशन|पाठ-टू-इमेज जेनरेशन]]: एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।<ref>{{Cite web |last=Robertson |first=Adi |date=2022-04-06 |title=OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है|url=https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing |access-date=2022-06-07 |website=The Verge |language=en}}</ref>
; टेक्स्ट-टू-सीन पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का एक [[मॉडल की गिनती]] उत्पन्न करें।<ref>{{Cite web |title=स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप|url=https://nlp.stanford.edu/projects/text2scene.shtml |access-date=2022-06-07 |website=nlp.stanford.edu}}</ref><ref>{{Cite journal |last1=Coyne |first1=Bob |last2=Sproat |first2=Richard |date=2001-08-01 |title=WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली|url=https://doi.org/10.1145/383259.383316 |journal=Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques |series=SIGGRAPH '01 |location=New York, NY, USA |publisher=Association for Computing Machinery |pages=487–496 |doi=10.1145/383259.383316 |isbn=978-1-58113-374-5|s2cid=3842372 }}</ref>
; पाठ-टू-सीन पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का एक [[मॉडल की गिनती]] उत्पन्न करें।<ref>{{Cite web |title=स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप|url=https://nlp.stanford.edu/projects/text2scene.shtml |access-date=2022-06-07 |website=nlp.stanford.edu}}</ref><ref>{{Cite journal |last1=Coyne |first1=Bob |last2=Sproat |first2=Richard |date=2001-08-01 |title=WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली|url=https://doi.org/10.1145/383259.383316 |journal=Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques |series=SIGGRAPH '01 |location=New York, NY, USA |publisher=Association for Computing Machinery |pages=487–496 |doi=10.1145/383259.383316 |isbn=978-1-58113-374-5|s2cid=3842372 }}</ref>
; टेक्स्ट-टू-वीडियो: एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।<ref>{{Cite web |date=2022-11-02 |title=Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है|url=https://venturebeat.com/ai/google-announces-ai-advances-in-text-to-video-language-translation-more/ |access-date=2022-11-09 |website=VentureBeat |language=en-US}}</ref><ref>{{Cite web |last=Vincent |first=James |date=2022-09-29 |title=मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है|url=https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e |access-date=2022-11-09 |website=The Verge |language=en-US}}</ref>
; पाठ-टू-वीडियो: एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।<ref>{{Cite web |date=2022-11-02 |title=Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है|url=https://venturebeat.com/ai/google-announces-ai-advances-in-text-to-video-language-translation-more/ |access-date=2022-11-09 |website=VentureBeat |language=en-US}}</ref><ref>{{Cite web |last=Vincent |first=James |date=2022-09-29 |title=मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है|url=https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e |access-date=2022-11-09 |website=The Verge |language=en-US}}</ref>




Line 162: Line 162:
::कहाँ पे,
::कहाँ पे,
:::'RMM', अर्थ का सापेक्ष माप है
:::'RMM', अर्थ का सापेक्ष माप है
:::'token', टेक्स्ट, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
:::'token', पाठ, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
:::'एन', विश्लेषण किए जा रहे टोकन की संख्या है
:::'एन', विश्लेषण किए जा रहे टोकन की संख्या है
:::'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है
:::'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है

Revision as of 12:08, 17 December 2022

एक वेब पेज पर ग्राहक सेवा प्रदान करने वाला एक स्वचालित ऑनलाइन सहायक, एक ऐसे अनुप्रयोग का उदाहरण जहां प्राकृतिक भाषा प्रसंस्करण एक प्रमुख घटक है[1]

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) भाषाविज्ञान, संगणक विज्ञान और कृत्रिम बुद्धि का एक उपक्षेत्र है जो संगणक और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा आंकड़ों को संसाधित करने और विश्लेषण करने के लिए संगणक को कैसे प्रोग्राम किया जाए। लक्ष्य एक संगणक है जो दस्तावेजों की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की बारीकियों को सम्मलित किया गया है। प्रौद्योगिकी तब दस्तावेजों में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही दस्तावेजों को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।

प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः वाक् पहचान, प्राकृतिक-भाषा समझ और प्राकृतिक भाषा पीढ़ी| प्राकृतिक-भाषा पीढ़ी सम्मलित होती है।

इतिहास

प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने संगणन तंत्र और बुद्धिमत्ता नामक एक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब ट्यूरिंग परीक्षा कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में एक कार्य सम्मलित है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित है।

प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत)

प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, एक चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), संगणक प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले आंकड़ों के नियम।

  • 1950 का दशक: 1954 में जॉर्जटाउन-आईबीएम प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद सम्मलित था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद एक समस्या का समाधान हो जाएगा।[2] चूंकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में एलपीसी के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए निधिकरण नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
  • 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, एसएचआरडीएलयू , एक प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और एलिजा, एक रोजरियन मनोचिकित्सा का अनुकरण, जो 1964 और 1966 के बीच जोसेफ व्हीटबाउम द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, एलिजा ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा एक सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता प्रतिसाद है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? .
  • 1970 का दशक: 1970 के दशक के दौरान, कई प्रोग्रामरों ने वैचारिक सत्तामीमांसा (सूचना विज्ञान) लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को संगणक-समझने योग्य आंकड़ों में संरचित किया। उदाहरण हैं मार्गी (स्कैंक, 1975), सैम (कुलिंगफोर्ड, 1978), पाम (विलेंस्की, 1978), टेलस्पिन (Meehan, 1976), सन्देह (लहनर्ट, 1977), पॉलिटिक्स (कार्बोनेल, 1979), और षड्यंत्र इकाइयाँ (लहनर्ट 1981) ). इस समय के दौरान, पहला चैटरबॉट्स लिखा गया (जैसे, बचाव)।
  • 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के ध्यान केन्द्रित क्षेत्रों में नियम-आधारित पार्सिंग पर शोध सम्मलित था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास उत्पादक व्याकरण के संगणनात्मक संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)[3]), शब्दार्थ (जैसे, लेस्क कलन विधि), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर[4]) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, आलंकारिक संरचना सिद्धांत में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, रैक्टर और जबरवाकी के साथ चैटरबॉट्स का विकास। एक महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।[5]


सांख्यिकीय एनएलपी (1990-2010)

1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए मशीन शिक्षण कलन विधि की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति आई। यह संगणनात्मक शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के नोम चौमस्की सिद्धांतों (जैसे परिवर्तनकारी व्याकरण) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर कॉर्पस भाषाविज्ञान को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।[6] *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये प्रणाली उपस्थित बहुभाषी पाठ कोष का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप कनाडा की संसद और यूरोपीय संघ द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में एक प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप , सीमित मात्रा में आंकड़ों से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।

  • 2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अज्ञात) भाषा आंकड़ों की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण कलन विधि पर ध्यान केंद्रित कर रहा है। ऐसे कलन विधि उस आंकड़ों से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से सटीक नहीं किया गया है या सटीक और गैर-सटीक आंकड़ों के संयोजन का उपयोग कर रहा है। सामान्यतः, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और सामान्यतः निवेश आंकड़ों की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। चूंकि, बड़ी मात्रा में गैर-सटीक आंकड़ों उपलब्ध है (अन्य बातों के अतिरिक्त , वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए कलन विधि में कम समय की जटिलता हो व्यावहारिक बनो।

तंत्रिका एनएलपी (वर्तमान)

2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी[7][8] भाषा मॉडलिंग जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं[9] और विश्लेषण।[10][11] स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी इलेक्ट्रॉनिक स्वास्थ्य अभिलेख में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।[12]


विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क

शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से अभिकल्पना किया गया था, अर्थात, नियमों के एक सेट की हाथ से कोडिंग, एक शब्दकोश लुकअप के साथ मिलकर:[13][14] जैसे कि व्याकरण लिखकर या उत्पन्न के लिए अनुमानी नियम बनाकर।

मशीन-लर्निंग कलन विधि पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई फायदे हैं:

  • मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे सामान्य स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
  • स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान कलन विधि का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित निवेश (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत निवेश (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। सामान्यतः, ऐसे निवेश को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक सामान्यतः, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
  • स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक निवेश आंकड़ों की आपूर्ति करके अधिक सटीक बनाया जा सकता है। चूंकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग प्रणाली में निवेश करने के लिए अधिक आंकड़ों बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, सामान्यतः एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।

एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं:

  • जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे एपर्टियम प्रणाली द्वारा प्रदान की गई,
  • एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या
  • एनएलपी पाइपलाइनों के निर्गम को पोस्ट संसाधन और बदलने के लिए, उदाहरण के लिए, वाक्यगत पार्स से ज्ञान निकालने के लिए।

सांख्यिकीय विधि

तथाकथित सांख्यिकीय क्रांति के बाद से[15][16] 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।

मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान शब्द अंत: स्थापन) ,[17] और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण[18]). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।

सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग कलन विधि में से कुछ, जैसे कि निर्णय वृक्ष, उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, भाषण टैगिंग का हिस्सा| भाषण का हिस्सा टैगिंग ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। निवेश आंकड़ों बनाने वाली सुविधाएँ। कैश भाषा मॉडल जिस पर अब कई स्पीच रिकग्निशन प्रणाली भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित निवेश दिए जाने पर ऐसे मॉडल सामान्यतः अधिक मजबूत होते हैं, विशेष रूप से निवेश जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के आंकड़ों के लिए बहुत सामान्य है), और कई उप-कार्यों वाली एक बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।

तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। चूंकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।

तंत्रिका नेटवर्क

सांख्यिकीय विधियों की एक बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,[19] इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के सिमेंटिक गुणों को पकड़ने के लिए शब्द अंत: स्थापन का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए ,भाषण का हिस्सा टैगिंग और निर्भरता पार्सिंग)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी प्रणाली को कैसे अभिकल्पना किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग एक नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, तंत्रिका मशीन अनुवाद (एनएमटी) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे Seq2seq|अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता को कम करते हैं। सांख्यिकीय मशीन अनुवाद (एसएमटी) में।

सामान्य एनएलपी कार्य

निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।

चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।

पाठ या भाषण संसाधन

ऑप्टिकल कैरेक्टर रिकग्नाइजेशन (ओसीआर)
मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
भाषण मान्यता
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में एआई-पूर्ण (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार भाषण विभाजन वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे कॉर्टिक्यूलेशन कहा जाता है, इसलिए अनुरूप संकेत को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
भाषण विभाजन
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और सामान्यतः इसके साथ समूहीकृत।
[[लिखे हुए को बोलने में बदलना]]
एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए भाषण के लिए पाठ का उपयोग किया जा सकता है।[20]
शब्द विभाजन (प्रतीकीकरण (शाब्दिक विश्लेषण))
निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। अंग्रेजी भाषा जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। चूंकि, चीनी भाषा, जापानी भाषा और थाई भाषा जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की शब्दावली और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों खनन में शब्दों का थैला (धनुष) निर्माण जैसे स्थितियों में भी किया जाता है।

रूपात्मक विश्लेषण

लेमैटाइजेशन
केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस संबंध में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।[21]
आकृति विज्ञान (भाषाविज्ञान)
अलग-अलग शब्दों को अलग-अलग मॉर्फेम में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकृति विज्ञान, और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। तुर्की भाषा या मैतेई भाषा जैसी भाषाओं में,[22] एक उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
पार्ट-ऑफ-स्पीच टैगिंग
एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक संज्ञा (मेज पर किताब) या क्रिया (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या विशेषण हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।
स्टेमिंग
विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बंद, बंद, बंद, बंद, पास आदि के लिए जड़ होगी)। स्टेमिंग लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।

वाक्यात्मक विश्लेषण

व्याकरण प्रेरण[23]
एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
वाक्य भंग (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
पाठ का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः पूर्ण विराम या अन्य विराम चिह्नों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
पदच्छेद
किसी दिए गए वाक्य के पार्स पेड़ (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण अस्पष्ट है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पार्स हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पार्सिंग के दो प्राथमिक प्रकार हैं: निर्भरता पार्सिंग और निर्वाचन क्षेत्र पार्सिंग। निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पार्स ट्री बनाने पर केंद्रित है (स्टोकेस्टिक व्याकरण भी देखें)।

शाब्दिक शब्दार्थ (संदर्भ में अलग-अलग शब्दों का)

शाब्दिक शब्दार्थ
संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है?
वितरण संबंधी शब्दार्थ
हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं?
नामांकित इकाई पहचान (एनईआर)
पाठ की एक धारा दी गई है, यह निर्धारित करें कि पाठ मैप में कौन से आइटम उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी मामले में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या अरबी भाषा) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन भाषा सभी संज्ञाओं को कैपिटलाइज़ करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को कैपिटलाइज़ नहीं करती हैं जो विशेषण के रूप में काम करते हैं।
भावना विश्लेषण (मल्टीमॉडल भावना विश्लेषण भी देखें)
विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः दस्तावेजों के एक सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।
शब्दावली निष्कर्षण
शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
Word-sense disambiguation (WSD)
कई शब्दों के एक से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें सामान्यतः शब्दों और संबंधित शब्द इंद्रियों की एक सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे WordNet से।
निकाय लिंकिंग
कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, एक स्थान, एक कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।

संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ)

संबंध निष्कर्षण
पाठ का एक हिस्सा दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
सिमेंटिक पार्सिंग
पाठ का एक टुकड़ा (सामान्यतः एक वाक्य) दिया जाता है, या तो एक ग्राफ के रूप में (उदाहरण के लिए, सार अर्थ प्रतिनिधित्व में) या एक तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, प्रवचन प्रतिनिधित्व सिद्धांत में) इसके शब्दार्थ का एक औपचारिक प्रतिनिधित्व करता है। इस चुनौती में सामान्यतः शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित हैं (उदाहरण के लिए, सिमेंटिक रोल लेबलिंग, शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित करने के लिए बढ़ाया जा सकता है; नीचे #Natural भाषा समझ देखें ).
सिमेंटिक रोल लेबलिंग (नीचे अंतर्निहित सिमेंटिक रोल लेबलिंग भी देखें)
एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर फ्रेम एलिमेंट्स (शब्दार्थ भूमिकाएँ) को पहचानें और वर्गीकृत करें।

प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)

कोरेफरेंस
एक वाक्य या पाठ का बड़ा हिस्सा दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का एक विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें संदर्भ अभिव्यक्ति सम्मलित है। उदाहरण के लिए, एक वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा एक संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (बजाय किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
भाषण विश्लेषण
इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। एक कार्य प्रवचन विश्लेषण है, अर्थात, एक जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। एक अन्य संभावित कार्य भाषण क्रियाओं को पाठ के एक भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।
Implicit semantic role labelling
एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , प्रो-ड्रॉप भाषाओं के लिए कोरेफेरेंस संकल्प का विस्तार।
पाठ्य आकर्षण
दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।[24]
विषय विभाजन और मान्यता
पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
तर्क खनन
तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।[25] इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।[26][27]


उच्च स्तरीय एनएलपी अनुप्रयोग

स्वचालित सारांश (पाठ संक्षेप)
पाठ के एक हिस्से का एक पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
पुस्तक पीढ़ी
एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में एक नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।[28] एक तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, 1 सड़क, एक उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।[29] रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।
संवाद प्रणाली
संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है।
दस्तावेज़ एआई
एक दस्तावेज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न दस्तावेज़ प्रकारों से आवश्यक विशिष्ट आंकड़ों निकालने के लिए संगणक को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित दस्तावेज़ एआई गैर-तकनीकी टीमों को दस्तावेज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और एकाउंटेंट तक त्वरित रूप से पहुंचने में सक्षम बनाता है।[30]
Grammatical error correction
व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।[31][32][33] जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
मशीन अनुवाद
स्वचालित रूप से पाठ का एक मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से एक है, और समस्याओं के एक वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।
नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन (NLG):
संगणक आंकड़ोंबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू)
पाठ के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .[34]
प्रश्न उत्तर
मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
पाठ-टू-इमेज जेनरेशन
एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।[35]
पाठ-टू-सीन पीढ़ी
एक दृश्य के विवरण को देखते हुए, दृश्य का एक मॉडल की गिनती उत्पन्न करें।[36][37]
पाठ-टू-वीडियो
एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।[38][39]


सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ

क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, CoNLL साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:[40]

  • प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पार्सिंग, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 कोरेफरेंस, 2015-16: डिस्कोर्स पार्सिंग, 2019: सिमेंटिक पार्सिंग)।
  • बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
  • प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड प्रणाली के लिए नियम-आधारित पर्यवेक्षित)

अनुभूति और एनएलपी

अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से एक का प्रतिनिधित्व करता है (ऊपर CoNLL साझा कार्यों के बीच रुझान देखें)।

अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।[41] संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।[42] संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।[43] विशेष रूप से #प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के दौरान, संगणनात्मक भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।

एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कलन विधि बनाने के लिए एक पद्धति प्रदान करता है,[44] दो परिभाषित पहलुओं के साथ:

  1. एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए वैचारिक रूपक के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का एक विचार प्रदान करता है।[45] उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब एक तुलना में उपयोग किया जाता है (वह एक बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल एक बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह एक बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना एक व्यक्ति और एक संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
  2. किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, एक संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) के माध्यम से। ऐसे कलन विधि के लिए गणितीय समीकरण में प्रस्तुत किया गया है US patent 9269353 :
कहाँ पे,
'RMM', अर्थ का सापेक्ष माप है
'token', पाठ, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
'एन', विश्लेषण किए जा रहे टोकन की संख्या है
'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है
'd', 'N-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
'पीएफ', एक भाषा के लिए विशिष्ट संभाव्यता समारोह है

संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का हिस्सा हैं, लेकिन 1990 के दशक के दौरान सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,[46] कार्यात्मक व्याकरण,[47] निर्माण व्याकरण,[48] संगणनात्मक साइकोलिंग्विस्टिक्स और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, अधिनियम-आर), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)[49] संगणनात्मक भाषाविज्ञान के लिए एसोसिएशन)। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मक कृत्रिम बुद्धिमत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार ।[50] इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल इंटरेक्शन एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।[51]


यह भी देखें


संदर्भ

  1. Kongthon, Alisa; Sangkeettrakarn, Chatchawal; Kongyoung, Sarawoot; Haruechaiyasak, Choochart (October 27–30, 2009). "Implementing an online help desk system based on conversational agent". इमर्जेंट डिजिटल इको सिस्टम्स के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09. MEDES '09: The International Conference on Management of Emergent Digital EcoSystems. France: ACM. p. 450. doi:10.1145/1643823.1643908. ISBN 9781605588292.
  2. Hutchins, J. (2005). "संक्षेप में मशीनी अनुवाद का इतिहास" (PDF).Template:स्व-प्रकाशित स्रोत
  3. Koskenniemi, Kimmo (1983), Two-level morphology: A general computational model of word-form recognition and production (PDF), Department of General Linguistics, University of Helsinki
  4. Joshi, A. K., & Weinstein, S. (1981, August). Control of Inference: Role of Some Aspects of Discourse Structure-Centering. In IJCAI (pp. 385-387).
  5. Guida, G.; Mauri, G. (July 1986). "प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण". Proceedings of the IEEE. 74 (7): 1026–1035. doi:10.1109/PROC.1986.13580. ISSN 1558-2256. S2CID 30688575.
  6. Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics. The creation and use of such corpora of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "poverty of the stimulus" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.
  7. Goldberg, Yoav (2016). "प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर". Journal of Artificial Intelligence Research. 57: 345–420. arXiv:1807.10854. doi:10.1613/jair.4992. S2CID 8273530.
  8. Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press.
  9. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). भाषा मॉडलिंग की सीमाओं की खोज. arXiv:1602.02410. Bibcode:2016arXiv160202410J.
  10. Choe, Do Kook; Charniak, Eugene. "भाषा मॉडलिंग के रूप में पार्सिंग". Emnlp 2016. Archived from the original on 2018-10-23. Retrieved 2018-10-22.
  11. Vinyals, Oriol; et al. (2014). "एक विदेशी भाषा के रूप में व्याकरण" (PDF). Nips2015. arXiv:1412.7449. Bibcode:2014arXiv1412.7449V.
  12. Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा". Journal of Diabetes Science and Technology (in English). 15 (3): 553–560. doi:10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486.
  13. Winograd, Terry (1971). प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं (Thesis).
  14. Schank, Roger C.; Abelson, Robert P. (1977). लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच. Hillsdale: Erlbaum. ISBN 0-470-99033-3.
  15. Mark Johnson. How the statistical revolution changes (computational) linguistics. Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.
  16. Philip Resnik. Four revolutions. Language Log, February 5, 2011.
  17. "एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना" (PDF).
  18. Trabelsi, Chiheb; Bilaniuk, Olexa; Zhang, Ying; Serdyuk, Dmitriy; Subramanian, Sandeep; Santos, João Felipe; Mehri, Soroush; Rostamzadeh, Negar; Bengio, Yoshua; Pal, Christopher J. (2018-02-25). "डीप कॉम्प्लेक्स नेटवर्क". arXiv:1705.09792 [cs.NE].
  19. Socher, Richard. "एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग". www.socher.org. Retrieved 2020-08-17. This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]
  20. Yi, Chucai; Tian, Yingli (2012), "Assistive Text Reading from Complex Background for Blind Persons", Camera-Based Document Analysis and Recognition (in English), Springer Berlin Heidelberg, pp. 15–28, CiteSeerX 10.1.1.668.869, doi:10.1007/978-3-642-29364-1_2, ISBN 9783642293634
  21. "प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय". GyanSetu! (in English). 2020-12-06. Retrieved 2021-01-09.
  22. Kishorjit, N.; Vidya, Raj RK.; Nirmal, Y.; Sivaji, B. (2012). "मणिपुरी रूपिम पहचान" (PDF). Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP). COLING 2012, Mumbai, December 2012: 95–108.{{cite journal}}: CS1 maint: location (link)
  23. Klein, Dan; Manning, Christopher D. (2002). "एक घटक-संदर्भ मॉडल का उपयोग करके प्राकृतिक भाषा व्याकरण प्रेरण" (PDF). Advances in Neural Information Processing Systems.
  24. PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/
  25. Lippi, Marco; Torroni, Paolo (2016-04-20). "आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स". ACM Transactions on Internet Technology (in English). 16 (2): 1–25. doi:10.1145/2850417. hdl:11585/523460. ISSN 1533-5399. S2CID 9561587.
  26. "तर्क खनन - IJCAI2016 ट्यूटोरियल". www.i3s.unice.fr. Retrieved 2021-03-09.
  27. "कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन" (in British English). Retrieved 2021-03-09.
  28. "उबउउवबेब :: राक्टर". www.ubu.com. Retrieved 2020-08-17.
  29. Writer, Beta (2019). लिथियम आयन बैटरी (in British English). doi:10.1007/978-3-030-16800-1. ISBN 978-3-030-16799-8. S2CID 155818532.
  30. "Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube". www.youtube.com. Archived from the original on 2021-10-30. Retrieved 2021-01-11.
  31. Administration. "भाषा प्रौद्योगिकी केंद्र (सीएलटी)". Macquarie University (in English). Retrieved 2021-01-11.
  32. "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
  33. "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
  34. Duan, Yucong; Cruz, Christophe (2011). "अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना". International Journal of Innovation, Management and Technology. 2 (1): 37–42. Archived from the original on 2011-10-09.
  35. Robertson, Adi (2022-04-06). "OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है". The Verge (in English). Retrieved 2022-06-07.
  36. "स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप". nlp.stanford.edu. Retrieved 2022-06-07.
  37. Coyne, Bob; Sproat, Richard (2001-08-01). "WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली". Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. SIGGRAPH '01. New York, NY, USA: Association for Computing Machinery: 487–496. doi:10.1145/383259.383316. ISBN 978-1-58113-374-5. S2CID 3842372.
  38. "Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है". VentureBeat (in English). 2022-11-02. Retrieved 2022-11-09.
  39. Vincent, James (2022-09-29). "मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है". The Verge (in English). Retrieved 2022-11-09.
  40. "पिछले साझा कार्य | CoNLL". www.conll.org. Retrieved 2021-01-11.
  41. "अनुभूति". Lexico. Oxford University Press and Dictionary.com. Archived from the original on July 15, 2020. Retrieved 6 May 2020.
  42. "संज्ञानात्मक वैज्ञानिक से पूछें". American Federation of Teachers. 8 August 2014. संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।
  43. Robinson, Peter (2008). संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका. Routledge. pp. 3–8. ISBN 978-0-805-85352-0.
  44. Lakoff, George (1999). मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
  45. Strauss, Claudia (1999). सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत. Cambridge University Press. pp. 156–164. ISBN 978-0-521-59541-4.
  46. "यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)". यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए) (in English). Retrieved 2021-01-11.
  47. Rodríguez, F. C., & Mairal-Usón, R. (2016). Building an RRG computational grammar. Onomazein, (34), 86-117.
  48. "द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली" (in English). Retrieved 2021-01-11.
  49. "एसीएल सदस्य पोर्टल | संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल". www.aclweb.org. Retrieved 2021-01-11.
  50. "टुकड़े और नियम". www.w3.org (in English). Retrieved 2021-01-11.
  51. Socher, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; Ng, Andrew Y. (2014). "वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ". Transactions of the Association for Computational Linguistics. 2: 207–218. doi:10.1162/tacl_a_00177. S2CID 2317858.


अग्रिम पठन


इस पेज में लापता आंतरिक लिंक की सूची

  • भाषा विज्ञान
  • कृत्रिम होशियारी
  • संदर्भ (भाषा का प्रयोग)
  • प्राकृतिक भाषा की समझ
  • चीनी कमरा
  • सिर-संचालित वाक्यांश संरचना व्याकरण
  • दुनिया को ब्लॉक करता है
  • लेस्क एल्गोरिथ्म
  • अनियंत्रित शिक्षा
  • मशीन अनुवाद
  • पर्यवेक्षित अध्ययन
  • अर्ध-पर्यवेक्षित शिक्षा
  • समय जटिलता
  • ध्यान लगा के पढ़ना या सीखना
  • प्रतिनिधित्व सीखना
  • स्वास्थ्य सेवा में कृत्रिम बुद्धिमत्ता
  • ज्ञान निष्कर्षण
  • टोकनकरण (शाब्दिक विश्लेषण)
  • सांख्यिकीय निष्कर्ष
  • वास्तविक मूल्यवान
  • संभाव्य
  • आकृति विज्ञान (भाषा विज्ञान)
  • मुझे आईटी ईआई भाषा
  • शब्द भेद
  • भागों का जुड़ना
  • वाक्य सीमा विवाद
  • संक्षेपाक्षर
  • औपचारिक व्याकरण
  • संभाव्य संदर्भ मुक्त व्याकरण
  • नामित इकाई मान्यता
  • स्पेनिश भाषा
  • अर्थ (भाषाविज्ञान)
  • भावनाओं का विश्लेषण
  • इकाई लिंकिंग
  • फ्रान्सीसी भाषा
  • वितरणात्मक शब्दार्थ
  • फ़्रेम शब्दार्थ (भाषाविज्ञान)
  • वे देखभाल करते हैं
  • भाषण अधिनियम
  • भाषण का विश्लेषण
  • एआई दस्तावेज़
  • बंद दुनिया धारणा
  • खुली दुनिया की धारणा
  • पहले क्रम का तर्क
  • संज्ञात्मक विज्ञान
  • संशोधन (भाषाविज्ञान)

बाहरी संबंध