प्राकृतिक भाषा प्रसंस्करण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(13 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Field of linguistics and computer science}}
{{Short description|Field of linguistics and computer science}}
{{About|natural language processing done by computers|the natural language processing done by the human brain|Language processing in the brain}}
{{About|कंप्यूटर द्वारा किया जाने वाला प्राकृतिक भाषा प्रसंस्करण|मानव मस्तिष्क द्वारा किया गया प्राकृतिक भाषा प्रसंस्करण|मस्तिष्क में भाषा प्रसंस्करण}}
[[File:Automated online assistant.png|thumb| 200px |एक वेब पेज पर [[ग्राहक सेवा]] प्रदान करने वाला एक [[स्वचालित ऑनलाइन सहायक]], एक ऐसे अनुप्रयोग का उदाहरण जहां प्राकृतिक भाषा प्रसंस्करण एक प्रमुख घटक है<ref name=Kongthon>{{cite conference |doi = 10.1145/1643823.1643908|chapter = Implementing an online help desk system based on conversational agent |first1= Alisa |last1=Kongthon|first2= Chatchawal|last2= Sangkeettrakarn|first3= Sarawoot|last3= Kongyoung |first4= Choochart |last4 = Haruechaiyasak|title = इमर्जेंट डिजिटल इको ''सिस्टम्स'' के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09|publisher = ACM |date = October 27–30, 2009 |page = 450 |conference = MEDES '09: The International Conference on Management of Emergent Digital EcoSystems|location = France |isbn = 9781605588292 }}</ref>]][[प्राकृतिक भाषा]] प्रसंस्करण (एनएलपी) भाषाविज्ञान, [[कंप्यूटर विज्ञान]] और कृत्रिम बुद्धि का एक उपक्षेत्र है जो कंप्यूटर और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित करने और विश्लेषण करने के लिए कंप्यूटर को कैसे प्रोग्राम किया जाए। लक्ष्य एक कंप्यूटर है जो दस्तावेजों की सामग्री को समयदिझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की बारीकियों को सम्मलित किया गया है। प्रौद्योगिकी तब दस्तावेजों में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही दस्तावेजों को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।
[[File:Automated online assistant.png|thumb| 200px |एक वेब पेज पर [[ग्राहक सेवा]] प्रदान करने वाला [[स्वचालित ऑनलाइन सहायक]], ऐसे अनुप्रयोग का उदाहरण जहां प्राकृतिक भाषा प्रसंस्करण प्रमुख घटक है<ref name=Kongthon>{{cite conference |doi = 10.1145/1643823.1643908|chapter = Implementing an online help desk system based on conversational agent |first1= Alisa |last1=Kongthon|first2= Chatchawal|last2= Sangkeettrakarn|first3= Sarawoot|last3= Kongyoung |first4= Choochart |last4 = Haruechaiyasak|title = इमर्जेंट डिजिटल इको ''सिस्टम्स'' के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09|publisher = ACM |date = October 27–30, 2009 |page = 450 |conference = MEDES '09: The International Conference on Management of Emergent Digital EcoSystems|location = France |isbn = 9781605588292 }}</ref>]][[प्राकृतिक भाषा]] प्रसंस्करण (एनएलपी) भाषाविज्ञान, [[कंप्यूटर विज्ञान|संगणक विज्ञान]] और कृत्रिम बुद्धि का उपक्षेत्र है जो संगणक और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा आंकड़ों को संसाधित करने और विश्लेषण करने के लिए संगणक को कैसे प्रोग्राम किया जाए। लक्ष्य संगणक है जो कागजो की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की विशिष्टताओं को सम्मलित किया गया है। प्रौद्योगिकी तब कागजो में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही कागजो को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।


प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः [[वाक् पहचान]], प्राकृतिक-भाषा समझ और [[प्राकृतिक भाषा पीढ़ी]]|प्राकृतिक-भाषा पीढ़ी सम्मलित होती है।
प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः [[वाक् पहचान]], प्राकृतिक-भाषा समझ और [[प्राकृतिक भाषा पीढ़ी]]| प्राकृतिक-भाषा पीढ़ी सम्मलित होती है।


== इतिहास ==
== इतिहास ==
{{See|History of natural language processing}}
{{See|प्राकृतिक भाषा प्रसंस्करण का इतिहास}}
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, [[एलन ट्यूरिंग]] ने [[कंप्यूटिंग मशीनरी और इंटेलिजेंस]] नामक एक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब [[ट्यूरिंग टेस्ट]] कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में एक कार्य सम्मलित है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित है।
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, [[एलन ट्यूरिंग]] ने [[कंप्यूटिंग मशीनरी और इंटेलिजेंस|संगणन तंत्र और बुद्धिमत्ता]] नामक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब [[ट्यूरिंग टेस्ट|ट्यूरिंग परीक्षा]] कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में कार्य सम्मलित है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित है।


=== प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत) ===
=== प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत) ===
प्रतीकात्मक एनएलपी का आधार [[जॉन सियरल]] के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, एक चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), कंप्यूटर प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले डेटा के नियम।
प्रतीकात्मक एनएलपी का आधार [[जॉन सियरल]] के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), संगणक प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले आंकड़ों के नियम।
 
* 1950 का दशक: 1954 में [[जॉर्जटाउन-आईबीएम प्रयोग]] में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से [[स्वचालित अनुवाद]] सम्मलित  था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद एक समस्या का समाधान हो जाएगा।<ref>{{cite web|author=Hutchins, J.|year=2005|url=http://www.hutchinsweb.me.uk/Nutshell-2005.pdf|title=संक्षेप में मशीनी अनुवाद का इतिहास}}{{स्व-प्रकाशित स्रोत|date=December 2013}}</ref> हालाँकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में [[ALPAC]] के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए फंडिंग नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली [[सांख्यिकीय मशीन अनुवाद]] प्रणाली विकसित की गई थी।
* 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, [[SHRDLU]], एक प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और ELIZA, एक [[रोजरियन मनोचिकित्सा]] का अनुकरण, जो 1964 और 1966 के बीच [[जोसेफ व्हीटबाउम]] द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, [[एलिजा]] ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा एक सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? .
* 1970 का दशक: 1970 के दशक के दौरान, कई प्रोग्रामरों ने वैचारिक [[सत्तामीमांसा (सूचना विज्ञान)]] लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को कंप्यूटर-समझने योग्य डेटा में संरचित किया। उदाहरण हैं MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), टेलस्पिन (Meehan, 1976), QUALM (Lehnert, 1977), पॉलिटिक्स (Carbonell, 1979), और Plot Units (Lehnert 1981) ). इस समय के दौरान, पहला [[chatterbots]] लिखा गया (जैसे, [[बचाव]])।
* 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के फोकस क्षेत्रों में नियम-आधारित पार्सिंग पर शोध सम्मलित  था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास [[उत्पादक व्याकरण]] के कम्प्यूटेशनल संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)<ref>{{citation|last=Koskenniemi|first=Kimmo|title=Two-level morphology: A general computational model of word-form recognition and production|url=http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf|year=1983|publisher=Department of General Linguistics, [[University of Helsinki]]|author-link=Kimmo Koskenniemi}}</ref>), शब्दार्थ (जैसे, Lesk एल्गोरिथम), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर<ref>Joshi, A. K., & Weinstein, S. (1981, August). [https://www.ijcai.org/Proceedings/81-1/Papers/071.pdf Control of Inference: Role of Some Aspects of Discourse Structure-Centering]. In ''IJCAI'' (pp. 385-387).</ref>) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, [[आलंकारिक संरचना सिद्धांत]] में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, [[रैक्टर]] और [[जबरवाकी]] के साथ चैटरबॉट्स का विकास। एक महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।<ref>{{Cite journal|last1=Guida|first1=G.|last2=Mauri|first2=G.|date=July 1986|title=प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण|journal=Proceedings of the IEEE|volume=74|issue=7|pages=1026–1035|doi=10.1109/PROC.1986.13580|s2cid=30688575|issn=1558-2256}}</ref>
 


* 1950 का दशक: 1954 में [[जॉर्जटाउन-आईबीएम प्रयोग]] में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से [[स्वचालित अनुवाद]] सम्मलित था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद समस्या का समाधान हो जाएगा।<ref>{{cite web|author=Hutchins, J.|year=2005|url=http://www.hutchinsweb.me.uk/Nutshell-2005.pdf|title=संक्षेप में मशीनी अनुवाद का इतिहास}}{{स्व-प्रकाशित स्रोत|date=December 2013}}</ref> चूंकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में [[ALPAC|एलपीसी]] के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए निधिकरण नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली [[सांख्यिकीय मशीन अनुवाद]] प्रणाली विकसित की गई थी।
* 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, [[SHRDLU|एसएचआरडीएलयू]] , प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और एलिजा, [[रोजरियन मनोचिकित्सा]] का अनुकरण, जो 1964 और 1966 के बीच [[जोसेफ व्हीटबाउम]] द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, [[एलिजा]] ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता प्रतिसाद है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? .
* 1970 का दशक: 1970 के दशक के समय, कई प्रोग्रामरों ने वैचारिक [[सत्तामीमांसा (सूचना विज्ञान)]] लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को संगणक-समझने योग्य आंकड़ों में संरचित किया। उदाहरण हैं मार्गी (स्कैंक, 1975), सैम (कुलिंगफोर्ड, 1978), पाम (विलेंस्की, 1978), टेलस्पिन (मीहान, 1976), सन्देह (लहनर्ट, 1977), पॉलिटिक्स (कार्बोनेल, 1979), और षड्यंत्र इकाइयाँ (लहनर्ट 1981) ). इस समय के समय, पहला [[chatterbots|चैटरबॉट्स]] लिखा गया (जैसे, [[बचाव]])।
* 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के ध्यान केन्द्रित क्षेत्रों में नियम-आधारित पदनिरूपक पर शोध सम्मलित था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास [[उत्पादक व्याकरण]] के संगणनात्मक संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)<ref>{{citation|last=Koskenniemi|first=Kimmo|title=Two-level morphology: A general computational model of word-form recognition and production|url=http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf|year=1983|publisher=Department of General Linguistics, [[University of Helsinki]]|author-link=Kimmo Koskenniemi}}</ref>), शब्दार्थ (जैसे, लेस्क कलन विधि), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर<ref>Joshi, A. K., & Weinstein, S. (1981, August). [https://www.ijcai.org/Proceedings/81-1/Papers/071.pdf Control of Inference: Role of Some Aspects of Discourse Structure-Centering]. In ''IJCAI'' (pp. 385-387).</ref>) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, [[आलंकारिक संरचना सिद्धांत]] में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, [[रैक्टर]] और [[जबरवाकी]] के साथ चैटरबॉट्स का विकास। महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।<ref>{{Cite journal|last1=Guida|first1=G.|last2=Mauri|first2=G.|date=July 1986|title=प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण|journal=Proceedings of the IEEE|volume=74|issue=7|pages=1026–1035|doi=10.1109/PROC.1986.13580|s2cid=30688575|issn=1558-2256}}</ref>
=== सांख्यिकीय एनएलपी (1990-2010) ===
=== सांख्यिकीय एनएलपी (1990-2010) ===
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए [[मशीन लर्निंग]] एल्गोरिदम की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति आई। यह कम्प्यूटेशनल शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के [[नोम चौमस्की]] सिद्धांतों (जैसे [[परिवर्तनकारी व्याकरण]]) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर [[कॉर्पस भाषाविज्ञान]] को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।<ref>Chomskyan linguistics encourages the investigation of "[[corner case]]s" that stress the limits of its theoretical models (comparable to [[pathological (mathematics)|pathological]] phenomena in mathematics), typically created using [[thought experiment]]s, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in [[corpus linguistics]].  The creation and use of such [[text corpus|corpora]] of real-world data is a fundamental part of machine-learning algorithms for natural language processing.  In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "[[poverty of the stimulus]]" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing.  As a result, the Chomskyan paradigm discouraged the application of such models to language processing.</ref> *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये सिस्टम उपस्थित बहुभाषी [[पाठ कोष]] का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप [[कनाडा की संसद]] और [[यूरोपीय संघ]] द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में एक प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप , सीमित मात्रा में डेटा से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए [[मशीन लर्निंग|मशीन शिक्षण]] कलन विधि की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में क्रांति आई। यह संगणनात्मक शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के [[नोम चौमस्की]] सिद्धांतों (जैसे [[परिवर्तनकारी व्याकरण]]) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर [[कॉर्पस भाषाविज्ञान]] को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।<ref>Chomskyan linguistics encourages the investigation of "[[corner case]]s" that stress the limits of its theoretical models (comparable to [[pathological (mathematics)|pathological]] phenomena in mathematics), typically created using [[thought experiment]]s, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in [[corpus linguistics]].  The creation and use of such [[text corpus|corpora]] of real-world data is a fundamental part of machine-learning algorithms for natural language processing.  In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "[[poverty of the stimulus]]" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing.  As a result, the Chomskyan paradigm discouraged the application of such models to language processing.</ref> *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये प्रणाली उपस्थित बहुभाषी [[पाठ कोष]] का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप [[कनाडा की संसद]] और [[यूरोपीय संघ]] द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप , सीमित मात्रा में आंकड़ों से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।
*2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अनएनोटेटेड) भाषा डेटा की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण एल्गोरिदम पर ध्यान केंद्रित कर रहा है। ऐसे एल्गोरिदम उस डेटा से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से एनोटेट नहीं किया गया है या एनोटेटेड और गैर-एनोटेटेड डेटा के संयोजन का उपयोग कर रहा है। आम तौर पर, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और आम तौर पर इनपुट डेटा की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। हालाँकि, बड़ी मात्रा में गैर-एनोटेट डेटा उपलब्ध है (अन्य बातों के अतिरिक्त , [[वर्ल्ड वाइड वेब]] की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए एल्गोरिथ्म में कम समय की जटिलता हो व्यावहारिक बनो।
*2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अज्ञात) भाषा आंकड़ों की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण कलन विधि पर ध्यान केंद्रित कर रहा है। ऐसे कलन विधि उस आंकड़ों से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से सटीक नहीं किया गया है या सटीक और गैर-सटीक आंकड़ों के संयोजन का उपयोग कर रहा है। सामान्यतः, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और सामान्यतः निवेश आंकड़ों की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। चूंकि, बड़ी मात्रा में गैर-सटीक आंकड़ों उपलब्ध है (अन्य बातों के अतिरिक्त , [[वर्ल्ड वाइड वेब]] की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए कलन विधि में कम समय की जटिलता हो व्यावहारिक बनो।


=== तंत्रिका एनएलपी (वर्तमान) ===
=== तंत्रिका एनएलपी (वर्तमान) ===
2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी<ref name="goldberg:nnlp17">{{cite journal |last=Goldberg |first=Yoav |year=2016 |arxiv=1807.10854 |title=प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर|journal=Journal of Artificial Intelligence Research |volume=57 |pages=345–420 |doi=10.1613/jair.4992 |s2cid=8273530 }}</ref><ref name="goodfellow:book16">{{cite book |first1=Ian |last1=Goodfellow |first2=Yoshua |last2=Bengio |first3=Aaron |last3=Courville |url=http://www.deeplearningbook.org/ |title=ध्यान लगा के पढ़ना या सीखना|publisher=MIT Press |year=2016 }}</ref> [[भाषा मॉडलिंग]] जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं<ref name="jozefowicz:lm16">{{cite book |first1=Rafal |last1=Jozefowicz |first2=Oriol |last2=Vinyals |first3=Mike |last3=Schuster |first4=Noam |last4=Shazeer |first5=Yonghui |last5=Wu |year=2016 |arxiv=1602.02410 |title=भाषा मॉडलिंग की सीमाओं की खोज|bibcode=2016arXiv160202410J }}</ref> और विश्लेषण।<ref name="choe:emnlp16">{{cite journal |first1=Do Kook |last1=Choe |first2=Eugene |last2=Charniak |journal=Emnlp 2016 |url=https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |title=भाषा मॉडलिंग के रूप में पार्सिंग|access-date=2018-10-22 |archive-date=2018-10-23 |archive-url=https://web.archive.org/web/20181023034804/https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |url-status=dead }}</ref><ref name="vinyals:nips15">{{cite journal |last1=Vinyals |first1=Oriol |last2=Kaiser |first2=Lukasz |display-authors=1 |journal=Nips2015 |title=एक विदेशी भाषा के रूप में व्याकरण|year=2014 |arxiv=1412.7449 |bibcode=2014arXiv1412.7449V |url=https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf }}</ref> स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी [[इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड]] में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।<ref>{{Cite journal|last1=Turchin|first1=Alexander|last2=Florez Builes|first2=Luisa F.|date=2021-03-19|title=मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा|journal=Journal of Diabetes Science and Technology|volume=15|issue=3|language=en|pages=553–560|doi=10.1177/19322968211000831|pmid=33736486|pmc=8120048|issn=1932-2968}}</ref>
2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी<ref name="goldberg:nnlp17">{{cite journal |last=Goldberg |first=Yoav |year=2016 |arxiv=1807.10854 |title=प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर|journal=Journal of Artificial Intelligence Research |volume=57 |pages=345–420 |doi=10.1613/jair.4992 |s2cid=8273530 }}</ref><ref name="goodfellow:book16">{{cite book |first1=Ian |last1=Goodfellow |first2=Yoshua |last2=Bengio |first3=Aaron |last3=Courville |url=http://www.deeplearningbook.org/ |title=ध्यान लगा के पढ़ना या सीखना|publisher=MIT Press |year=2016 }}</ref> [[भाषा मॉडलिंग]] जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं<ref name="jozefowicz:lm16">{{cite book |first1=Rafal |last1=Jozefowicz |first2=Oriol |last2=Vinyals |first3=Mike |last3=Schuster |first4=Noam |last4=Shazeer |first5=Yonghui |last5=Wu |year=2016 |arxiv=1602.02410 |title=भाषा मॉडलिंग की सीमाओं की खोज|bibcode=2016arXiv160202410J }}</ref> और विश्लेषण।<ref name="choe:emnlp16">{{cite journal |first1=Do Kook |last1=Choe |first2=Eugene |last2=Charniak |journal=Emnlp 2016 |url=https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |title=भाषा मॉडलिंग के रूप में पार्सिंग|access-date=2018-10-22 |archive-date=2018-10-23 |archive-url=https://web.archive.org/web/20181023034804/https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |url-status=dead }}</ref><ref name="vinyals:nips15">{{cite journal |last1=Vinyals |first1=Oriol |last2=Kaiser |first2=Lukasz |display-authors=1 |journal=Nips2015 |title=एक विदेशी भाषा के रूप में व्याकरण|year=2014 |arxiv=1412.7449 |bibcode=2014arXiv1412.7449V |url=https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf }}</ref> स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी [[इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड|इलेक्ट्रॉनिक स्वास्थ्य अभिलेख]] में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।<ref>{{Cite journal|last1=Turchin|first1=Alexander|last2=Florez Builes|first2=Luisa F.|date=2021-03-19|title=मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा|journal=Journal of Diabetes Science and Technology|volume=15|issue=3|language=en|pages=553–560|doi=10.1177/19322968211000831|pmid=33736486|pmc=8120048|issn=1932-2968}}</ref>
 
== विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क ==
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से अभिकल्पना किया गया था, अर्थात, नियमों के सेट की हाथ से कोडिंग, शब्दकोश लुकअप के साथ मिलकर:<ref name=winograd:shrdlu71>{{cite thesis |last=Winograd |first=Terry |year=1971 |title=प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं|url=http://hci.stanford.edu/winograd/shrdlu/ }}</ref><ref name=schank77>{{cite book |first1=Roger C. |last1=Schank |first2=Robert P. |last2=Abelson |year=1977 |title=लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच|location=Hillsdale |publisher=Erlbaum |isbn=0-470-99033-3 }}</ref> जैसे कि व्याकरण लिखकर या [[उत्पन्न]] के लिए अनुमानी नियम बनाकर।


== विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क{{anchor|Statistical natural language processing (SNLP)}} ==
मशीन-लर्निंग कलन विधि पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई लाभ हैं:
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से डिजाइन किया गया था, अर्थात, नियमों के एक सेट की हाथ से कोडिंग, एक शब्दकोश लुकअप के साथ मिलकर:<ref name=winograd:shrdlu71>{{cite thesis |last=Winograd |first=Terry |year=1971 |title=प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं|url=http://hci.stanford.edu/winograd/shrdlu/ }}</ref><ref name=schank77>{{cite book |first1=Roger C. |last1=Schank |first2=Robert P. |last2=Abelson |year=1977 |title=लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच|location=Hillsdale |publisher=Erlbaum |isbn=0-470-99033-3 }}</ref> जैसे कि व्याकरण लिखकर या [[उत्पन्न]] के लिए अनुमानी नियम बनाकर।
* मशीन लर्निंग के समय उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे सामान्य स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
* स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान कलन विधि का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित निवेश (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत निवेश (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। सामान्यतः, ऐसे निवेश को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक सामान्यतः, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
* स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक निवेश आंकड़ों की आपूर्ति करके अधिक सटीक बनाया जा सकता है। चूंकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग प्रणाली में निवेश करने के लिए अधिक आंकड़ों बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, सामान्यतः एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।


मशीन लर्निंग|मशीन-लर्निंग एल्गोरिद्म पर आधारित हालिया सिस्टम के हाथ से बनाए गए नियमों की तुलना में कई फायदे हैं:
एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं:
* मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे आम स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
* जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे [[एपर्टियम]] प्रणाली द्वारा प्रदान की गई,
* स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान एल्गोरिदम का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित इनपुट (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत इनपुट (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। आम तौर पर, ऐसे इनपुट को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक आम तौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
* एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या
* स्वचालित रूप से नियमों को सीखने पर आधारित सिस्टम को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग सिस्टम में इनपुट करने के लिए अधिक डेटा बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, आम तौर पर एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।
* एनएलपी पाइपलाइनों के निर्गम को पोस्ट संसाधन और बदलने के लिए, उदाहरण के लिए, वाक्यगत पदनिरूपक से ज्ञान निकालने के लिए।
 
एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं:
* जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण डेटा की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे [[एपर्टियम]] सिस्टम द्वारा प्रदान की गई,
* एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल एनालिसिस), या
* एनएलपी पाइपलाइनों के आउटपुट को पोस्टप्रोसेसिंग और बदलने के लिए, उदाहरण के लिए, सिंटैक्टिक पार्स से ज्ञान निकालने के लिए।


=== सांख्यिकीय विधि ===
=== सांख्यिकीय विधि ===
तथाकथित सांख्यिकीय क्रांति के बाद से<ref name="johnson:eacl:ilcl09">[http://www.aclweb.org/anthology/W09-0103 Mark Johnson. How the statistical revolution changes (computational) linguistics.] Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.</ref><ref name="resnik:langlog11">[http://languagelog.ldc.upenn.edu/nll/?p=2946 Philip Resnik. Four revolutions.] Language Log, February 5, 2011.</ref> 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े टेक्स्ट कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या कंप्यूटर एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।
तथाकथित सांख्यिकीय क्रांति के बाद से<ref name="johnson:eacl:ilcl09">[http://www.aclweb.org/anthology/W09-0103 Mark Johnson. How the statistical revolution changes (computational) linguistics.] Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.</ref><ref name="resnik:langlog11">[http://languagelog.ldc.upenn.edu/nll/?p=2946 Philip Resnik. Four revolutions.] Language Log, February 5, 2011.</ref> 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ कागजो का सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।


मशीन-लर्निंग एल्गोरिदम के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये एल्गोरिदम इनपुट के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो इनपुट डेटा से उत्पन्न होते हैं। चूंकि, अनुसंधान ने [[सांख्यिकीय मॉडल]] पर ध्यान केंद्रित किया है, जो प्रत्येक इनपुट फीचर (जटिल-मूल्यवान [[शब्द एम्बेडिंग]],<ref>{{Cite web|title=एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना|url=https://wabyking.github.io/talks/mila-talk.pdf}}</ref> और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण<ref>{{cite arXiv|last1=Trabelsi|first1=Chiheb|last2=Bilaniuk|first2=Olexa|last3=Zhang|first3=Ying|last4=Serdyuk|first4=Dmitriy|last5=Subramanian|first5=Sandeep|last6=Santos|first6=João Felipe|last7=Mehri|first7=Soroush|last8=Rostamzadeh|first8=Negar|last9=Bengio|first9=Yoshua|last10=Pal|first10=Christopher J.|date=2018-02-25|title=डीप कॉम्प्लेक्स नेटवर्क|class=cs.NE|eprint=1705.09792}}</ref>). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के बजाय कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।
मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने [[सांख्यिकीय मॉडल]] पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान [[शब्द एम्बेडिंग|शब्द अंत: स्थापन)]] ,<ref>{{Cite web|title=एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना|url=https://wabyking.github.io/talks/mila-talk.pdf}}</ref> और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण<ref>{{cite arXiv|last1=Trabelsi|first1=Chiheb|last2=Bilaniuk|first2=Olexa|last3=Zhang|first3=Ying|last4=Serdyuk|first4=Dmitriy|last5=Subramanian|first5=Sandeep|last6=Santos|first6=João Felipe|last7=Mehri|first7=Soroush|last8=Rostamzadeh|first8=Negar|last9=Bengio|first9=Yoshua|last10=Pal|first10=Christopher J.|date=2018-02-25|title=डीप कॉम्प्लेक्स नेटवर्क|class=cs.NE|eprint=1705.09792}}</ref>). इस तरह के मॉडलों का लाभ यह है कि वे केवल के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।


सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग एल्गोरिदम में से कुछ, जैसे कि [[निर्णय वृक्ष]], उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, [[भाषण टैगिंग का हिस्सा]]|पार्ट-ऑफ-स्पीच टैगिंग ने प्राकृतिक भाषा प्रसंस्करण के लिए [[छिपे हुए मार्कोव मॉडल]] का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। इनपुट डेटा बनाने वाली सुविधाएँ। [[कैश भाषा मॉडल]] जिस पर अब कई स्पीच रिकग्निशन सिस्टम भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित इनपुट दिए जाने पर ऐसे मॉडल आम तौर पर अधिक मजबूत होते हैं, विशेष रूप से इनपुट जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के डेटा के लिए बहुत सामान्य है), और कई उप-कार्यों वाली एक बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।
सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग कलन विधि में से कुछ, जैसे कि [[निर्णय वृक्ष]], उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, [[भाषण टैगिंग का हिस्सा|भाषण अंकन का भाग]]| भाषण का भाग अंकन ने प्राकृतिक भाषा प्रसंस्करण के लिए [[छिपे हुए मार्कोव मॉडल]] का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। निवेश आंकड़ों बनाने वाली सुविधाएँ। [[कैश भाषा मॉडल]] जिस पर अब कई स्पीच रिकग्निशन प्रणाली भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित निवेश दिए जाने पर ऐसे मॉडल सामान्यतः अधिक मजबूत होते हैं, विशेष रूप से निवेश जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के आंकड़ों के लिए बहुत सामान्य है), और कई उप-कार्यों वाली बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।


तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। हालाँकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।
तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। चूंकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।


=== तंत्रिका नेटवर्क ===
=== तंत्रिका नेटवर्क ===
{{Further|Artificial neural network}}
{{Further|कृत्रिम तंत्रिका नेटवर्क}}
सांख्यिकीय विधियों की एक बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,<ref>{{Cite web |last=Socher |first=Richard |title=एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग|url=https://www.socher.org/index.php/Main/DeepLearningForNLP-ACL2012Tutorial |access-date=2020-08-17 |website=www.socher.org}} This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]</ref> इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए [[तंत्रिका नेटवर्क]] में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के सिमेंटिक गुणों को पकड़ने के लिए शब्द एम्बेडिंग का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए, पार्ट-ऑफ-स्पीच टैगिंग और डिपेंडेंसी पार्सिंग)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी सिस्टम को कैसे डिजाइन किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग एक नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, [[तंत्रिका मशीन अनुवाद]] (NMT) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे [[Seq2seq]]|अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता को कम करते हैं। सांख्यिकीय मशीन अनुवाद (एसएमटी) में।
सांख्यिकीय विधियों की बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,<ref>{{Cite web |last=Socher |first=Richard |title=एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग|url=https://www.socher.org/index.php/Main/DeepLearningForNLP-ACL2012Tutorial |access-date=2020-08-17 |website=www.socher.org}} This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]</ref> इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए [[तंत्रिका नेटवर्क]] में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के शब्दार्थ गुणों को पकड़ने के लिए शब्द अंत: स्थापन का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए ,भाषण का भाग अंकन और निर्भरता पदनिरूपक)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी प्रणाली को कैसे अभिकल्पना किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, [[तंत्रिका मशीन अनुवाद]] (एनएमटी) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे [[Seq2seq|श्रेणी से श्रेणी]] या अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता सांख्यिकीय मशीन अनुवाद (एसएमटी) को कम करते हैं।


== सामान्य एनएलपी कार्य ==
== सामान्य एनएलपी कार्य ==
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।


चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।
चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। मोटा विभाजन नीचे दिया गया है।


=== टेक्स्ट और स्पीच प्रोसेसिंग ===
=== पाठ या भाषण संसाधन ===
; [[ऑप्टिकल कैरेक्टर मान्यता]] (ओसीआर)
; [[ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्नाइजेशन]] (ओसीआर)
: मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
: मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।


; भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह टेक्स्ट टू स्पीच के विपरीत है और बोलचाल की भाषा में [[एआई-पूर्ण]] (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। [[प्राकृतिक भाषण]] में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार [[भाषण विभाजन]] वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे [[कॉर्टिक्यूलेशन]] कहा जाता है, इसलिए [[एनालॉग संकेत]] को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को इनपुट की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
; भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में [[एआई-पूर्ण]] (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से है। [[प्राकृतिक भाषण]] में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार [[भाषण विभाजन]] वाक् पहचान का आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ दूसरे में मिल जाती हैं, जिसे [[कॉर्टिक्यूलेशन]] कहा जाता है, इसलिए [[एनालॉग संकेत|अनुरूप संकेत]] को असतत वर्णों में बदलना बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में दूसरे के समान है।
; भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और सामान्यतः इसके साथ समूहीकृत।
; भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का उपकार्य और सामान्यतः इसके साथ समूहीकृत।


; [[[[लिखे हुए को बोलने में बदलना]]]]
; [[[[लिखे हुए को बोलने में बदलना|लिखे हुए को बोलने में परिवर्तित करना]]]]
: एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए टेक्स्ट-टू-स्पीच का उपयोग किया जा सकता है।<ref>{{Citation|last1=Yi|first1=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|citeseerx=10.1.1.668.869|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli}}</ref>
: एक पाठ दिया, उन इकाइयों को रूपांतरित करें और मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए भाषण के लिए पाठ का उपयोग किया जा सकता है।<ref>{{Citation|last1=Yi|first1=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|citeseerx=10.1.1.668.869|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli}}</ref>
; [[शब्द विभाजन]] (प्रतीकीकरण (शाब्दिक विश्लेषण))
; [[शब्द विभाजन]] (प्रतीकीकरण शाब्दिक विश्लेषण))
: निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। [[अंग्रेजी भाषा]] जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। हालाँकि, [[चीनी भाषा]], [[जापानी भाषा]] और [[थाई भाषा]] जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की [[शब्दावली]] और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग डेटा माइनिंग में [[शब्दों का थैला]] (BOW) निर्माण जैसे स्थितियों में भी किया जाता है।
: निरंतर पाठ के भाग को अलग-अलग शब्दों में अलग करें। [[अंग्रेजी भाषा]] जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। चूंकि, [[चीनी भाषा]], [[जापानी भाषा]] और [[थाई भाषा]] जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की [[शब्दावली]] और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों खनन में [[शब्दों का थैला]] (धनुष) निर्माण जैसे स्थितियों में भी किया जाता है।


=== रूपात्मक विश्लेषण ===
=== रूपात्मक विश्लेषण ===
; [[लेमैटाइजेशन]]: केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस मामले में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।<ref>{{Cite web|date=2020-12-06|title=प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय|url=https://www.gyansetu.in/what-is-natural-language-processing/|access-date=2021-01-09|website=GyanSetu!|language=en-US}}</ref>
; [[लेमैटाइजेशन]]: केवल विभक्तिपूर्ण अंत को हटाने का कार्य और शब्द के बेस शब्दकोश रूप को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन और तकनीक है। लेकिन इस संबंध में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए शब्दकोश का उपयोग करता है।<ref>{{Cite web|date=2020-12-06|title=प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय|url=https://www.gyansetu.in/what-is-natural-language-processing/|access-date=2021-01-09|website=GyanSetu!|language=en-US}}</ref>
; आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग [[morpheme]]s में विभाजित करें और morphemes के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से [[विभक्ति आकृति विज्ञान]], और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। [[तुर्की भाषा]] या मैतेई भाषा जैसी भाषाओं में,<ref>{{cite journal |last1=Kishorjit |first1=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=मणिपुरी रूपिम पहचान|journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> एक उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
; आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग [[morpheme|मॉर्फेम]] में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से [[विभक्ति आकृति विज्ञान]], और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और शब्द के सभी संभावित रूपों (जैसे, खोलना, खोलता, खोला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। [[तुर्की भाषा]] या मैतेई भाषा जैसी भाषाओं में,<ref>{{cite journal |last1=Kishorjit |first1=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=मणिपुरी रूपिम पहचान|journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
; [[पार्ट-ऑफ-स्पीच टैगिंग]]: एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक [[संज्ञा]] (मेज पर किताब) या [[क्रिया]] (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या [[विशेषण]] हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।
; [[पार्ट-ऑफ-स्पीच टैगिंग|  भाषण का भाग अंकन]]: एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का भाग (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक [[संज्ञा]] (मेज पर किताब) या [[क्रिया]] (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या [[विशेषण]] हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग भागों में से कोई भी हो सकता है।


; स्टेमिंग
; प्रघातन
: विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बंद, बंद, बंद, बंद, पास आदि के लिए जड़ होगी)। स्टेमिंग लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।
: विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बन्धा हुआ , समापन, बंद, निकट आदि के लिए "बंद" मूल होगा)। प्रघातन लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।


=== वाक्यात्मक विश्लेषण ===
=== वाक्यात्मक विश्लेषण ===
Line 81: Line 77:
: एक औपचारिक [[व्याकरण]] उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
: एक औपचारिक [[व्याकरण]] उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
; [[वाक्य भंग]] (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
; [[वाक्य भंग]] (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
: टेक्स्ट का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः [[पूर्ण विराम]] या अन्य [[विराम चिह्न]]ों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
: पाठ का भाग दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः [[पूर्ण विराम]] या अन्य [[विराम चिह्न]]ों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
; [[पदच्छेद]]: किसी दिए गए वाक्य के [[पार्स पेड़]] (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण [[अस्पष्ट]] है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पार्स हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पार्सिंग के दो प्राथमिक प्रकार हैं: निर्भरता पार्सिंग और निर्वाचन क्षेत्र पार्सिंग। निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पार्स ट्री बनाने पर केंद्रित है ([[स्टोकेस्टिक व्याकरण]] भी देखें)।
; [[पदच्छेद]]: किसी दिए गए वाक्य के [[पार्स पेड़|पदनिरूपक वृक्ष]] (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण [[अस्पष्ट]] है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, विशिष्ट वाक्य के लिए हजारों संभावित पदनिरूपक हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पदनिरूपक के दो प्राथमिक प्रकार हैं: निर्भरता पदनिरूपक और निर्वाचन क्षेत्र पदनिरूपक। निर्भरता पदनिरूपक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पदनिरूपक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पदनिरूपक [[पार्स पेड़|वृक्ष]] बनाने पर केंद्रित है ([[स्टोकेस्टिक व्याकरण]] भी देखें)।


=== [[शाब्दिक शब्दार्थ]] (संदर्भ में अलग-अलग शब्दों का) ===
=== [[शाब्दिक शब्दार्थ]] (संदर्भ में अलग-अलग शब्दों का) ===
; शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का कम्प्यूटेशनल अर्थ क्या है?
; शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है?
; वितरण संबंधी शब्दार्थ: हम डेटा से शब्दार्थ निरूपण कैसे सीख सकते हैं?
; वितरण संबंधी शब्दार्थ: हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं?
; नामांकित इकाई पहचान (एनईआर): पाठ की एक धारा दी गई है, यह निर्धारित करें कि टेक्स्ट मैप में कौन से आइटम उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि [[पूंजीकरण]] अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी [[नामित इकाई]] के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी मामले में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या [[अरबी भाषा]]) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, [[जर्मन भाषा]] सभी संज्ञाओं को कैपिटलाइज़ करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को कैपिटलाइज़ नहीं करती हैं जो विशेषण के रूप में काम करते हैं।
; नामांकित इकाई पहचान (एनईआर): पाठ की धारा दी गई है, यह निर्धारित करें कि पाठ मैप में कौन से वस्तु उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि [[पूंजीकरण]] अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी [[नामित इकाई]] के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी स्थितियों में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या [[अरबी भाषा]]) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, [[जर्मन भाषा]] सभी संज्ञाओं को बड़े अक्षरों में करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को बड़े अक्षरों में नहीं करती हैं जो विशेषण के रूप में काम करते हैं।


; भावना विश्लेषण ([[मल्टीमॉडल भावना विश्लेषण]] भी देखें)
; भावना विश्लेषण ([[मल्टीमॉडल भावना विश्लेषण]] भी देखें)
: विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः दस्तावेजों के एक सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।
: विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः कागजो के सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।
; [[शब्दावली निष्कर्षण]]
; [[शब्दावली निष्कर्षण]]
: शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
: शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
; [[Word-sense disambiguation]] (WSD): कई शब्दों के एक से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें आम तौर पर शब्दों और संबंधित शब्द इंद्रियों की एक सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे [[WordNet]] से।
; [[Word-sense disambiguation|शब्द-भाव भेद]] (डब्ल्यूएसडी): कई शब्दों के से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें सामान्यतः शब्दों और संबंधित शब्द इंद्रियों की सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे [[WordNet|शब्द नेट]] से।
; निकाय लिंकिंग: कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, एक स्थान, एक कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।
; निकाय जोड़: कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, स्थान, कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।


=== संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ) ===
=== संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ) ===
; [[संबंध निष्कर्षण]]: पाठ का एक हिस्सा दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
; [[संबंध निष्कर्षण]]: पाठ का भाग दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
; [[सिमेंटिक पार्सिंग]]: पाठ का एक टुकड़ा (सामान्यतः एक वाक्य) दिया जाता है, या तो एक ग्राफ के रूप में (उदाहरण के लिए, [[सार अर्थ प्रतिनिधित्व]] में) या एक तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, [[प्रवचन प्रतिनिधित्व सिद्धांत]] में) इसके शब्दार्थ का एक औपचारिक प्रतिनिधित्व करता है। इस चुनौती में आम तौर पर शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित हैं (उदाहरण के लिए, [[सिमेंटिक रोल लेबलिंग]], शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित करने के लिए बढ़ाया जा सकता है; नीचे #Natural भाषा समझ देखें ).
; [[सिमेंटिक पार्सिंग|शब्दार्थ पदनिरूपक]]: पाठ का टुकड़ा (सामान्यतः वाक्य) दिया जाता है, या तो ग्राफ के रूप में (उदाहरण के लिए, [[सार अर्थ प्रतिनिधित्व]] में) या तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, [[प्रवचन प्रतिनिधित्व सिद्धांत]] में) इसके शब्दार्थ का औपचारिक प्रतिनिधित्व करता है। इस चुनौती में सामान्यतः शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित हैं (उदाहरण के लिए, [[सिमेंटिक रोल लेबलिंग|शब्दार्थ रोल लेबलिंग]], शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित करने के लिए बढ़ाया जा सकता है; नीचे प्राकृतिक भाषा समझ देखें ).
; सिमेंटिक रोल लेबलिंग (नीचे अंतर्निहित सिमेंटिक रोल लेबलिंग भी देखें)
; शब्दार्थ रोल लेबलिंग (नीचे अंतर्निहित शब्दार्थ रोल लेबलिंग भी देखें)
: एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर फ्रेम एलिमेंट्स ([[शब्दार्थ भूमिकाएँ]]) को पहचानें और वर्गीकृत करें।
: एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर चौखटा तत्वों ([[शब्दार्थ भूमिकाएँ]]) को पहचानें और वर्गीकृत करें।


=== [[प्रवचन]] (व्यक्तिगत वाक्यों से परे शब्दार्थ) ===
=== [[प्रवचन]] (व्यक्तिगत वाक्यों से परे शब्दार्थ) ===
; कोरेफरेंस: एक वाक्य या पाठ का बड़ा हिस्सा दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को [[संदर्भ]]ित करते हैं। [[अनाफोरा संकल्प]] इस कार्य का एक विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें [[संदर्भ अभिव्यक्ति]] सम्मलित है। उदाहरण के लिए, एक वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा एक संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (बजाय किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
; सह-संदर्भ: एक वाक्य या पाठ का बड़ा भाग दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को [[संदर्भ]]ित करते हैं। [[अनाफोरा संकल्प]] इस कार्य का विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें [[संदर्भ अभिव्यक्ति]] सम्मलित है। उदाहरण के लिए, वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (अतिरिक्त किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
; भाषण विश्लेषण: इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। एक कार्य प्रवचन विश्लेषण है, अर्थात, एक जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। एक अन्य संभावित कार्य भाषण क्रियाओं को पाठ के एक भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।
; भाषण विश्लेषण: इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। कार्य प्रवचन विश्लेषण है, अर्थात, जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। अन्य संभावित कार्य भाषण क्रियाओं को पाठ के भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।


; {{visible anchor|Implicit semantic role labelling}}
; अंतर्निहित शब्दार्थ भूमिका लेबलिंग
: एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , [[प्रो-ड्रॉप भाषा]]ओं के लिए कोरेफेरेंस संकल्प का विस्तार।
: एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट शब्दार्थ भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर शब्दार्थ रोल लेबलिंग देखें)। फिर, शब्दार्थ भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , [[प्रो-ड्रॉप भाषा]]ओं के लिए सह-संदर्भ संकल्प का विस्तार।


; [[पाठ्य आकर्षण]]: दो टेक्स्ट अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।<ref name="rte:11">PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>
; [[पाठ्य आकर्षण]]: दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।<ref name="rte:11">PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>
; [[विषय विभाजन]] और मान्यता
; [[विषय विभाजन]] और मान्यता
: पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
: पाठ का भाग दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।


; [[तर्क खनन]]
; [[तर्क खनन]]
:तर्क खनन का लक्ष्य कंप्यूटर प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।<ref>{{Cite journal|last1=Lippi|first1=Marco|last2=Torroni|first2=Paolo|date=2016-04-20|title=आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स|url=https://dl.acm.org/doi/10.1145/2850417|journal=ACM Transactions on Internet Technology|language=en|volume=16|issue=2|pages=1–25|doi=10.1145/2850417|hdl=11585/523460|s2cid=9561587|issn=1533-5399}}</ref> इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, [[तर्क योजना]] और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।<ref>{{Cite web|title=तर्क खनन - IJCAI2016 ट्यूटोरियल|url=https://www.i3s.unice.fr/~villata/tutorialIJCAI2016.html|access-date=2021-03-09|website=www.i3s.unice.fr}}</ref><ref>{{Cite web|title=कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन|url=http://acl2016tutorial.arg.tech/|access-date=2021-03-09|language=en-GB}}</ref>
:तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।<ref>{{Cite journal|last1=Lippi|first1=Marco|last2=Torroni|first2=Paolo|date=2016-04-20|title=आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स|url=https://dl.acm.org/doi/10.1145/2850417|journal=ACM Transactions on Internet Technology|language=en|volume=16|issue=2|pages=1–25|doi=10.1145/2850417|hdl=11585/523460|s2cid=9561587|issn=1533-5399}}</ref> इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, [[तर्क योजना]] और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।<ref>{{Cite web|title=तर्क खनन - IJCAI2016 ट्यूटोरियल|url=https://www.i3s.unice.fr/~villata/tutorialIJCAI2016.html|access-date=2021-03-09|website=www.i3s.unice.fr}}</ref><ref>{{Cite web|title=कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन|url=http://acl2016tutorial.arg.tech/|access-date=2021-03-09|language=en-GB}}</ref>
 
 
=== उच्च स्तरीय एनएलपी अनुप्रयोग ===
=== उच्च स्तरीय एनएलपी अनुप्रयोग ===
; [[स्वचालित सारांश]] (पाठ संक्षेप): पाठ के एक हिस्से का एक पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
; [[स्वचालित सारांश]] (पाठ संक्षेप): पाठ के भाग का पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
; पुस्तक पीढ़ी
; पुस्तक पीढ़ी
: एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में एक नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।<ref>{{Cite web|title=उबउउवबेब :: राक्टर|url=http://www.ubu.com/historical/racter/index.html|access-date=2020-08-17|website=www.ubu.com}}</ref> एक तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, [[1 सड़क]], एक उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) [[भाषा मॉडल]] हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।<ref>{{Cite book|last=Writer|first=Beta|date=2019|title=लिथियम आयन बैटरी|language=en-gb|doi=10.1007/978-3-030-16800-1|isbn=978-3-030-16799-8|s2cid=155818532}}</ref> रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।
: एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।<ref>{{Cite web|title=उबउउवबेब :: राक्टर|url=http://www.ubu.com/historical/racter/index.html|access-date=2020-08-17|website=www.ubu.com}}</ref> तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, [[1 सड़क]], उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) [[भाषा मॉडल]] हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।<ref>{{Cite book|last=Writer|first=Beta|date=2019|title=लिथियम आयन बैटरी|language=en-gb|doi=10.1007/978-3-030-16800-1|isbn=978-3-030-16799-8|s2cid=155818532}}</ref> रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।
; [[संवाद प्रणाली]]
; [[संवाद प्रणाली]]
:कंप्यूटर सिस्टम का उद्देश्य मानव के साथ बातचीत करना है।
:संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है।
; दस्तावेज़ एआई
; कागज़ एआई
: एक दस्तावेज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न दस्तावेज़ प्रकारों से आवश्यक विशिष्ट डेटा निकालने के लिए कंप्यूटर को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित दस्तावेज़ एआई गैर-तकनीकी टीमों को दस्तावेज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और एकाउंटेंट तक त्वरित रूप से पहुंचने में सक्षम बनाता है।<ref>{{Cite web|title=Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube|url=https://www.youtube.com/watch?v=7dtl650D0y0| archive-url=https://ghostarchive.org/varchive/youtube/20211030/7dtl650D0y0| archive-date=2021-10-30|access-date=2021-01-11|website=www.youtube.com}}{{cbignore}}</ref>
: एक कागज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न कागज़ प्रकारों से आवश्यक विशिष्ट आंकड़ों निकालने के लिए संगणक को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित कागज़ एआई गैर-तकनीकी टीमों को कागज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और लेखाकार तक त्वरित रूप से पहुंचने में सक्षम बनाता है।<ref>{{Cite web|title=Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube|url=https://www.youtube.com/watch?v=7dtl650D0y0| archive-url=https://ghostarchive.org/varchive/youtube/20211030/7dtl650D0y0| archive-date=2021-10-30|access-date=2021-01-11|website=www.youtube.com}}{{cbignore}}</ref>
;{{visible anchor|Grammatical error correction}}
;  व्याकरण संबंधी त्रुटि सुधार
:व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।<ref>{{Cite web|last=Administration|title=भाषा प्रौद्योगिकी केंद्र (सीएलटी)|url=https://www.mq.edu.au/research/research-centres-groups-and-facilities/innovative-technologies/centres/centre-for-language-technology-clt|access-date=2021-01-11|website=Macquarie University|language=en-au}}</ref><ref>{{Cite web|title=साझा कार्य: व्याकरण संबंधी त्रुटि सुधार|url=https://www.comp.nus.edu.sg/~nlp/conll13st.html|access-date=2021-01-11|website=www.comp.nus.edu.sg}}</ref><ref>{{Cite web|title=साझा कार्य: व्याकरण संबंधी त्रुटि सुधार|url=https://www.comp.nus.edu.sg/~nlp/conll14st.html|access-date=2021-01-11|website=www.comp.nus.edu.sg}}</ref> जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और [[GPT-2]] जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
:व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।<ref>{{Cite web|last=Administration|title=भाषा प्रौद्योगिकी केंद्र (सीएलटी)|url=https://www.mq.edu.au/research/research-centres-groups-and-facilities/innovative-technologies/centres/centre-for-language-technology-clt|access-date=2021-01-11|website=Macquarie University|language=en-au}}</ref><ref>{{Cite web|title=साझा कार्य: व्याकरण संबंधी त्रुटि सुधार|url=https://www.comp.nus.edu.sg/~nlp/conll13st.html|access-date=2021-01-11|website=www.comp.nus.edu.sg}}</ref><ref>{{Cite web|title=साझा कार्य: व्याकरण संबंधी त्रुटि सुधार|url=https://www.comp.nus.edu.sg/~nlp/conll14st.html|access-date=2021-01-11|website=www.comp.nus.edu.sg}}</ref> जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और [[GPT-2]] जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
; मशीन अनुवाद
; मशीन अनुवाद
:स्वचालित रूप से पाठ का एक मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से एक है, और समस्याओं के एक वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।
:स्वचालित रूप से पाठ का मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से है, और समस्याओं के वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।
; नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन<nowiki> (NLG):</nowiki>
; <nowiki>प्राकृतिक भाषा उत्पादन (एनएलजी):</nowiki>
: [[संगणक]] डेटाबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
: [[संगणक]] आंकड़ोंबेस या शब्दार्थ इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
; नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू): टेक्स्ट के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो कंप्यूटर प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .<ref>{{cite journal|last1=Duan|first1=Yucong|last2=Cruz|first2=Christophe|year=2011|title=अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना|url=http://www.ijimt.org/abstract/100-E00187.htm|journal=International Journal of Innovation, Management and Technology|volume=2|issue=1|pages=37–42|archive-url=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm|archive-date=2011-10-09}}</ref>
; प्राकृतिक भाषा की समझ (एनएलयू): पाठ के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं।   बंद दुनिया धारणा (सीडब्ल्यूए) बनाम खुली दुनिया धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .<ref>{{cite journal|last1=Duan|first1=Yucong|last2=Cruz|first2=Christophe|year=2011|title=अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना|url=http://www.ijimt.org/abstract/100-E00187.htm|journal=International Journal of Innovation, Management and Technology|volume=2|issue=1|pages=37–42|archive-url=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm|archive-date=2011-10-09}}</ref>
; [[प्रश्न उत्तर]]: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
; [[प्रश्न उत्तर]]: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
; [[टेक्स्ट-टू-इमेज जेनरेशन]]: एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।<ref>{{Cite web |last=Robertson |first=Adi |date=2022-04-06 |title=OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है|url=https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing |access-date=2022-06-07 |website=The Verge |language=en}}</ref>
; [[टेक्स्ट-टू-इमेज जेनरेशन|पाठ से छवि तक पीढ़ी]]: एक [[टेक्स्ट-टू-इमेज जेनरेशन|छवि]] के विवरण को देखते हुए, ऐसी [[टेक्स्ट-टू-इमेज जेनरेशन|छवि]] उत्पन्न करें जो विवरण से मेल खाती हो।<ref>{{Cite web |last=Robertson |first=Adi |date=2022-04-06 |title=OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है|url=https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing |access-date=2022-06-07 |website=The Verge |language=en}}</ref>
; टेक्स्ट-टू-सीन पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का एक [[मॉडल की गिनती]] उत्पन्न करें।<ref>{{Cite web |title=स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप|url=https://nlp.stanford.edu/projects/text2scene.shtml |access-date=2022-06-07 |website=nlp.stanford.edu}}</ref><ref>{{Cite journal |last1=Coyne |first1=Bob |last2=Sproat |first2=Richard |date=2001-08-01 |title=WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली|url=https://doi.org/10.1145/383259.383316 |journal=Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques |series=SIGGRAPH '01 |location=New York, NY, USA |publisher=Association for Computing Machinery |pages=487–496 |doi=10.1145/383259.383316 |isbn=978-1-58113-374-5|s2cid=3842372 }}</ref>
; पाठ से दृश्य तक पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का [[मॉडल की गिनती]] उत्पन्न करें।<ref>{{Cite web |title=स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप|url=https://nlp.stanford.edu/projects/text2scene.shtml |access-date=2022-06-07 |website=nlp.stanford.edu}}</ref><ref>{{Cite journal |last1=Coyne |first1=Bob |last2=Sproat |first2=Richard |date=2001-08-01 |title=WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली|url=https://doi.org/10.1145/383259.383316 |journal=Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques |series=SIGGRAPH '01 |location=New York, NY, USA |publisher=Association for Computing Machinery |pages=487–496 |doi=10.1145/383259.383316 |isbn=978-1-58113-374-5|s2cid=3842372 }}</ref>
; टेक्स्ट-टू-वीडियो: एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।<ref>{{Cite web |date=2022-11-02 |title=Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है|url=https://venturebeat.com/ai/google-announces-ai-advances-in-text-to-video-language-translation-more/ |access-date=2022-11-09 |website=VentureBeat |language=en-US}}</ref><ref>{{Cite web |last=Vincent |first=James |date=2022-09-29 |title=मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है|url=https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e |access-date=2022-11-09 |website=The Verge |language=en-US}}</ref>
; पाठ-से-वीडियो: एक वीडियो के विवरण को देखते हुए, वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।<ref>{{Cite web |date=2022-11-02 |title=Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है|url=https://venturebeat.com/ai/google-announces-ai-advances-in-text-to-video-language-translation-more/ |access-date=2022-11-09 |website=VentureBeat |language=en-US}}</ref><ref>{{Cite web |last=Vincent |first=James |date=2022-09-29 |title=मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है|url=https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e |access-date=2022-11-09 |website=The Verge |language=en-US}}</ref>
 
 
== सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ ==
== सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ ==
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, CoNLL साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:<ref>{{Cite web|title=पिछले साझा कार्य {{!}} CoNLL|url=https://www.conll.org/previous-tasks|access-date=2021-01-11|website=www.conll.org}}</ref>
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, कोनल साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:<ref>{{Cite web|title=पिछले साझा कार्य {{!}} CoNLL|url=https://www.conll.org/previous-tasks|access-date=2021-01-11|website=www.conll.org}}</ref>
* प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पार्सिंग, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 कोरेफरेंस, 2015-16: डिस्कोर्स पार्सिंग, 2019: सिमेंटिक पार्सिंग)।
* प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पदनिरूपक, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 सह-संदर्भ, 2015-16: डिस्कोर्स पदनिरूपक, 2019: शब्दार्थ पदनिरूपक)।
* बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
* बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
* प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड सिस्टम के लिए नियम-आधारित पर्यवेक्षित)
* प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड प्रणाली के लिए नियम-आधारित पर्यवेक्षित)


=== [[अनुभूति]] और एनएलपी ===
=== [[अनुभूति]] और एनएलपी ===
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से एक का प्रतिनिधित्व करता है (ऊपर CoNLL साझा कार्यों के बीच रुझान देखें)।
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से का प्रतिनिधित्व करता है (ऊपर कोनल साझा कार्यों के बीच रुझान देखें)।


अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।<ref>{{Cite web|title=अनुभूति|url=https://www.lexico.com/definition/cognition|archive-url=https://web.archive.org/web/20200715113427/https://www.lexico.com/definition/cognition|url-status=dead|archive-date=July 15, 2020|website=Lexico|publisher=[[Oxford University Press]] and [[Dictionary.com]]|access-date=6 May 2020}}</ref> संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।<ref>{{cite web|quote=संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।|url = http://www.aft.org/newspubs/periodicals/ae/summer2002/willingham.cfm |title= संज्ञानात्मक वैज्ञानिक से पूछें|website = American Federation of Teachers|date = 8 August 2014 }}</ref> [[संज्ञानात्मक भाषाविज्ञान]] भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।<ref>{{Cite book|title=संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका|last=Robinson|first=Peter|publisher=Routledge|year=2008|isbn=978-0-805-85352-0|pages=3–8}}</ref> विशेष रूप से #प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के दौरान, कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।
अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।<ref>{{Cite web|title=अनुभूति|url=https://www.lexico.com/definition/cognition|archive-url=https://web.archive.org/web/20200715113427/https://www.lexico.com/definition/cognition|url-status=dead|archive-date=July 15, 2020|website=Lexico|publisher=[[Oxford University Press]] and [[Dictionary.com]]|access-date=6 May 2020}}</ref> संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।<ref>{{cite web|quote=संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।|url = http://www.aft.org/newspubs/periodicals/ae/summer2002/willingham.cfm |title= संज्ञानात्मक वैज्ञानिक से पूछें|website = American Federation of Teachers|date = 8 August 2014 }}</ref> [[संज्ञानात्मक भाषाविज्ञान]] भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।<ref>{{Cite book|title=संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका|last=Robinson|first=Peter|publisher=Routledge|year=2008|isbn=978-0-805-85352-0|pages=3–8}}</ref> विशेष रूप से प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के समय, संगणनात्मक भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।


एक उदाहरण के रूप में, [[जॉर्ज लैकॉफ]] संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एल्गोरिदम बनाने के लिए एक पद्धति प्रदान करता है,<ref>{{Cite book|title=मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत|last= Lakoff |first= George |publisher= New York Basic Books|year=1999|isbn=978-0-465-05674-3|pages=569–583}}</ref> दो परिभाषित पहलुओं के साथ:
एक उदाहरण के रूप में, [[जॉर्ज लैकॉफ]] संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कलन विधि  बनाने के लिए पद्धति प्रदान करता है,<ref>{{Cite book|title=मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत|last= Lakoff |first= George |publisher= New York Basic Books|year=1999|isbn=978-0-465-05674-3|pages=569–583}}</ref> दो परिभाषित पहलुओं के साथ:


# एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए [[वैचारिक रूपक]] के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का एक विचार प्रदान करता है।<ref>{{Cite book|title=सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत|last= Strauss |first= Claudia |publisher= Cambridge University Press|year=1999|isbn=978-0-521-59541-4|pages=156–164}}</ref> उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब एक तुलना में उपयोग किया जाता है (वह एक बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल एक बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह एक बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना एक व्यक्ति और एक संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
# एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए [[वैचारिक रूपक]] के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का विचार प्रदान करता है।<ref>{{Cite book|title=सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत|last= Strauss |first= Claudia |publisher= Cambridge University Press|year=1999|isbn=978-0-521-59541-4|pages=156–164}}</ref> उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब तुलना में उपयोग किया जाता है (वह बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना व्यक्ति और संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
# किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, एक संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) के माध्यम से। ऐसे एल्गोरिदम के लिए गणितीय समीकरण में प्रस्तुत किया गया है {{cite patent |country=US |number=9269353|status=patent}}:
# किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, संभाव्य संदर्भ-मुक्त व्याकरण (पीडीएफजी) के माध्यम से। ऐसे कलन विधि  के लिए गणितीय समीकरण में प्रस्तुत किया गया है {{cite patent |country=US |number=9269353|status=patent}}:
::<math> {RMM(token_N)}
::<math> {RMM(token_N)}
=
=
Line 160: Line 152:
\left (\sum_{i=-d}^d {((PMM(token_{N-1})} \times {PF(token_N,token_{N-1}))_i}\right )
\left (\sum_{i=-d}^d {((PMM(token_{N-1})} \times {PF(token_N,token_{N-1}))_i}\right )
</math>
</math>
::कहाँ पे,
::जहां पर,
:::'RMM', अर्थ का सापेक्ष माप है
:::'आरएमएम', अर्थ का सापेक्ष माप है
:::'token', टेक्स्ट, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
:::'टोकन', पाठ, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
:::'एन', विश्लेषण किए जा रहे टोकन की संख्या है
:::'एन', विश्लेषण किए जा रहे टोकन की संख्या है
:::'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है
:::'पीएमएम', निगम पर आधारित अर्थ का संभावित उपाय है
:::'d', 'N-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
:::'डी', 'एन-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
:::'पीएफ', एक भाषा के लिए विशिष्ट संभाव्यता समारोह है
:::'पीएफ', भाषा के लिए विशिष्ट संभाव्यता समारोह है


संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का हिस्सा हैं, लेकिन 1990 के दशक के दौरान सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,<ref>{{Cite web|title=यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)|url=https://universalconceptualcognitiveannotation.github.io/|access-date=2021-01-11|website=यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)|language=en-US}}</ref> कार्यात्मक व्याकरण,<ref>Rodríguez, F. C., & Mairal-Usón, R. (2016). [https://www.redalyc.org/pdf/1345/134549291020.pdf Building an RRG computational grammar]. ''Onomazein'', (34), 86-117.</ref> निर्माण व्याकरण,<ref>{{Cite web|title=द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली|url=https://www.fcg-net.org/|access-date=2021-01-11|language=en-US}}</ref> कम्प्यूटेशनल साइकोलिंग्विस्टिक्स और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, [[अधिनियम-आर]]), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)<ref>{{Cite web|title=एसीएल सदस्य पोर्टल {{!}} संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल|url=https://www.aclweb.org/portal/|access-date=2021-01-11|website=www.aclweb.org}}</ref> [[कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन]])। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को [[व्याख्यात्मक कृत्रिम बुद्धि]]मत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार ।<ref>{{Cite web|title=टुकड़े और नियम|url=https://www.w3.org/Data/demos/chunks/chunks.html|access-date=2021-01-11|website=www.w3.org|language=en}}</ref> इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल [[मल्टीमॉडल इंटरेक्शन]] एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।<ref>{{Cite journal|doi=10.1162/tacl_a_00177|title=वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ|year=2014|last1=Socher|first1=Richard|last2=Karpathy|first2=Andrej|last3=Le|first3=Quoc V.|last4=Manning|first4=Christopher D.|last5=Ng|first5=Andrew Y.|journal=Transactions of the Association for Computational Linguistics|volume=2|pages=207–218|s2cid=2317858|doi-access=free}}</ref>
संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का भाग हैं, लेकिन 1990 के दशक के समय सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,<ref>{{Cite web|title=यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)|url=https://universalconceptualcognitiveannotation.github.io/|access-date=2021-01-11|website=यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)|language=en-US}}</ref> कार्यात्मक व्याकरण,<ref>Rodríguez, F. C., & Mairal-Usón, R. (2016). [https://www.redalyc.org/pdf/1345/134549291020.pdf Building an RRG computational grammar]. ''Onomazein'', (34), 86-117.</ref> निर्माण व्याकरण,<ref>{{Cite web|title=द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली|url=https://www.fcg-net.org/|access-date=2021-01-11|language=en-US}}</ref> संगणनात्मक मनोविज्ञान और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, [[अधिनियम-आर]]), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)<ref>{{Cite web|title=एसीएल सदस्य पोर्टल {{!}} संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल|url=https://www.aclweb.org/portal/|access-date=2021-01-11|website=www.aclweb.org}}</ref> [[कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन|संगणनात्मक भाषाविज्ञान के लिए एसोसिएशन]])। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को [[व्याख्यात्मक कृत्रिम बुद्धि]]मत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार ।<ref>{{Cite web|title=टुकड़े और नियम|url=https://www.w3.org/Data/demos/chunks/chunks.html|access-date=2021-01-11|website=www.w3.org|language=en}}</ref> इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल [[मल्टीमॉडल इंटरेक्शन|मल्टीमॉडल अवरोध]] एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।<ref>{{Cite journal|doi=10.1162/tacl_a_00177|title=वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ|year=2014|last1=Socher|first1=Richard|last2=Karpathy|first2=Andrej|last3=Le|first3=Quoc V.|last4=Manning|first4=Christopher D.|last5=Ng|first5=Andrew Y.|journal=Transactions of the Association for Computational Linguistics|volume=2|pages=207–218|s2cid=2317858|doi-access=free}}</ref>




Line 205: Line 197:
* [[ट्रूकेसिंग]]
* [[ट्रूकेसिंग]]
* प्रश्न उत्तर
* प्रश्न उत्तर
* [[Word2vec]]
* [[वर्ड2वेक]]
{{Div col end}}
{{Div col end}}


Line 214: Line 206:


== अग्रिम पठन ==
== अग्रिम पठन ==
<!-- In alphabetical order of by last name -->
{{Refbegin}}
{{Refbegin}}
* {{Cite journal |last1=Bates |first1=M|year=1995|title=Models of natural language understanding|journal=Proceedings of the National Academy of Sciences of the United States of America|volume=92|issue=22|pages=9977–9982|doi=10.1073/pnas.92.22.9977|pmid=7479812|pmc=40721|bibcode=1995PNAS...92.9977B|doi-access=free}}
* {{Cite journal |last1=Bates |first1=M|year=1995|title=Models of natural language understanding|journal=Proceedings of the National Academy of Sciences of the United States of America|volume=92|issue=22|pages=9977–9982|doi=10.1073/pnas.92.22.9977|pmid=7479812|pmc=40721|bibcode=1995PNAS...92.9977B|doi-access=free}}
Line 226: Line 217:
{{Refend}}
{{Refend}}


==इस पेज में लापता आंतरिक लिंक की सूची==
*भाषा विज्ञान
*कृत्रिम होशियारी
*संदर्भ (भाषा का प्रयोग)
*प्राकृतिक भाषा की समझ
*चीनी कमरा
*सिर-संचालित वाक्यांश संरचना व्याकरण
*दुनिया को ब्लॉक करता है
*लेस्क एल्गोरिथ्म
*अनियंत्रित शिक्षा
*मशीन अनुवाद
*पर्यवेक्षित अध्ययन
*अर्ध-पर्यवेक्षित शिक्षा
*समय जटिलता
*ध्यान लगा के पढ़ना या सीखना
*प्रतिनिधित्व सीखना
*स्वास्थ्य सेवा में कृत्रिम बुद्धिमत्ता
*ज्ञान निष्कर्षण
*टोकनकरण (शाब्दिक विश्लेषण)
*सांख्यिकीय निष्कर्ष
*वास्तविक मूल्यवान
*संभाव्य
*आकृति विज्ञान (भाषा विज्ञान)
*मुझे आईटी ईआई भाषा
*शब्द भेद
*भागों का जुड़ना
*वाक्य सीमा विवाद
*संक्षेपाक्षर
*औपचारिक व्याकरण
*संभाव्य संदर्भ मुक्त व्याकरण
*नामित इकाई मान्यता
*स्पेनिश भाषा
*अर्थ (भाषाविज्ञान)
*भावनाओं का विश्लेषण
*इकाई लिंकिंग
*फ्रान्सीसी भाषा
*वितरणात्मक शब्दार्थ
*फ़्रेम शब्दार्थ (भाषाविज्ञान)
*वे देखभाल करते हैं
*भाषण अधिनियम
*भाषण का विश्लेषण
*एआई दस्तावेज़
*बंद दुनिया धारणा
*खुली दुनिया की धारणा
*पहले क्रम का तर्क
*संज्ञात्मक विज्ञान
*संशोधन (भाषाविज्ञान)
==बाहरी संबंध==
==बाहरी संबंध==
* {{Commonscatinline}}
* {{Commonscatinline}}


{{Natural Language Processing}}
{{Natural Language Processing}}
{{Portal bar|Language}}
{{DEFAULTSORT:Natural Language Processing}}
{{Authority control}}
 
{{DEFAULTSORT:Natural Language Processing}}[[Category:प्राकृतिक भाषा संसाधन| ]]
[[Category:कृत्रिम बुद्धिमत्ता]]
[[Category: अध्ययन के कम्प्यूटेशनल क्षेत्र]]
[[Category: कम्प्यूटेशनल भाषाविज्ञान]]
[[Category:भाषण पहचान]]
 


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Natural Language Processing]]
[[Category:Created On 06/12/2022]]
[[Category:CS1 British English-language sources (en-gb)]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 maint]]
[[Category:Collapse templates|Natural Language Processing]]
[[Category:Lua-based templates|Natural Language Processing]]
[[Category:Machine Translated Page|Natural Language Processing]]
[[Category:Multi-column templates|Natural Language Processing]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Natural Language Processing]]
[[Category:Pages using div col with small parameter|Natural Language Processing]]
[[Category:Pages with script errors|Natural Language Processing]]
[[Category:Short description with empty Wikidata description|Natural Language Processing]]
[[Category:Sidebars with styles needing conversion|Natural Language Processing]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Natural Language Processing]]
[[Category:Templates generating microformats|Natural Language Processing]]
[[Category:Templates that add a tracking category|Natural Language Processing]]
[[Category:Templates that are not mobile friendly|Natural Language Processing]]
[[Category:Templates that generate short descriptions|Natural Language Processing]]
[[Category:Templates using TemplateData|Natural Language Processing]]
[[Category:Templates using under-protected Lua modules|Natural Language Processing]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:Wikipedia metatemplates|Natural Language Processing]]

Latest revision as of 19:01, 31 January 2023

एक वेब पेज पर ग्राहक सेवा प्रदान करने वाला स्वचालित ऑनलाइन सहायक, ऐसे अनुप्रयोग का उदाहरण जहां प्राकृतिक भाषा प्रसंस्करण प्रमुख घटक है[1]

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) भाषाविज्ञान, संगणक विज्ञान और कृत्रिम बुद्धि का उपक्षेत्र है जो संगणक और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा आंकड़ों को संसाधित करने और विश्लेषण करने के लिए संगणक को कैसे प्रोग्राम किया जाए। लक्ष्य संगणक है जो कागजो की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की विशिष्टताओं को सम्मलित किया गया है। प्रौद्योगिकी तब कागजो में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही कागजो को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।

प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः वाक् पहचान, प्राकृतिक-भाषा समझ और प्राकृतिक भाषा पीढ़ी| प्राकृतिक-भाषा पीढ़ी सम्मलित होती है।

इतिहास

प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने संगणन तंत्र और बुद्धिमत्ता नामक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब ट्यूरिंग परीक्षा कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में कार्य सम्मलित है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित है।

प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत)

प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), संगणक प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले आंकड़ों के नियम।

  • 1950 का दशक: 1954 में जॉर्जटाउन-आईबीएम प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद सम्मलित था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद समस्या का समाधान हो जाएगा।[2] चूंकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में एलपीसी के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए निधिकरण नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
  • 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, एसएचआरडीएलयू , प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और एलिजा, रोजरियन मनोचिकित्सा का अनुकरण, जो 1964 और 1966 के बीच जोसेफ व्हीटबाउम द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, एलिजा ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता प्रतिसाद है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? .
  • 1970 का दशक: 1970 के दशक के समय, कई प्रोग्रामरों ने वैचारिक सत्तामीमांसा (सूचना विज्ञान) लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को संगणक-समझने योग्य आंकड़ों में संरचित किया। उदाहरण हैं मार्गी (स्कैंक, 1975), सैम (कुलिंगफोर्ड, 1978), पाम (विलेंस्की, 1978), टेलस्पिन (मीहान, 1976), सन्देह (लहनर्ट, 1977), पॉलिटिक्स (कार्बोनेल, 1979), और षड्यंत्र इकाइयाँ (लहनर्ट 1981) ). इस समय के समय, पहला चैटरबॉट्स लिखा गया (जैसे, बचाव)।
  • 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के ध्यान केन्द्रित क्षेत्रों में नियम-आधारित पदनिरूपक पर शोध सम्मलित था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास उत्पादक व्याकरण के संगणनात्मक संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)[3]), शब्दार्थ (जैसे, लेस्क कलन विधि), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर[4]) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, आलंकारिक संरचना सिद्धांत में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, रैक्टर और जबरवाकी के साथ चैटरबॉट्स का विकास। महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।[5]

सांख्यिकीय एनएलपी (1990-2010)

1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए मशीन शिक्षण कलन विधि की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में क्रांति आई। यह संगणनात्मक शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के नोम चौमस्की सिद्धांतों (जैसे परिवर्तनकारी व्याकरण) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर कॉर्पस भाषाविज्ञान को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।[6] *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये प्रणाली उपस्थित बहुभाषी पाठ कोष का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप कनाडा की संसद और यूरोपीय संघ द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप , सीमित मात्रा में आंकड़ों से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।

  • 2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अज्ञात) भाषा आंकड़ों की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण कलन विधि पर ध्यान केंद्रित कर रहा है। ऐसे कलन विधि उस आंकड़ों से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से सटीक नहीं किया गया है या सटीक और गैर-सटीक आंकड़ों के संयोजन का उपयोग कर रहा है। सामान्यतः, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और सामान्यतः निवेश आंकड़ों की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। चूंकि, बड़ी मात्रा में गैर-सटीक आंकड़ों उपलब्ध है (अन्य बातों के अतिरिक्त , वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए कलन विधि में कम समय की जटिलता हो व्यावहारिक बनो।

तंत्रिका एनएलपी (वर्तमान)

2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी[7][8] भाषा मॉडलिंग जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं[9] और विश्लेषण।[10][11] स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी इलेक्ट्रॉनिक स्वास्थ्य अभिलेख में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।[12]

विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क

शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से अभिकल्पना किया गया था, अर्थात, नियमों के सेट की हाथ से कोडिंग, शब्दकोश लुकअप के साथ मिलकर:[13][14] जैसे कि व्याकरण लिखकर या उत्पन्न के लिए अनुमानी नियम बनाकर।

मशीन-लर्निंग कलन विधि पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई लाभ हैं:

  • मशीन लर्निंग के समय उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे सामान्य स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
  • स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान कलन विधि का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित निवेश (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत निवेश (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। सामान्यतः, ऐसे निवेश को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक सामान्यतः, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
  • स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक निवेश आंकड़ों की आपूर्ति करके अधिक सटीक बनाया जा सकता है। चूंकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग प्रणाली में निवेश करने के लिए अधिक आंकड़ों बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, सामान्यतः एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।

एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं:

  • जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे एपर्टियम प्रणाली द्वारा प्रदान की गई,
  • एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या
  • एनएलपी पाइपलाइनों के निर्गम को पोस्ट संसाधन और बदलने के लिए, उदाहरण के लिए, वाक्यगत पदनिरूपक से ज्ञान निकालने के लिए।

सांख्यिकीय विधि

तथाकथित सांख्यिकीय क्रांति के बाद से[15][16] 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ कागजो का सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।

मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान शब्द अंत: स्थापन) ,[17] और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण[18]). इस तरह के मॉडलों का लाभ यह है कि वे केवल के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।

सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग कलन विधि में से कुछ, जैसे कि निर्णय वृक्ष, उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, भाषण अंकन का भाग| भाषण का भाग अंकन ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। निवेश आंकड़ों बनाने वाली सुविधाएँ। कैश भाषा मॉडल जिस पर अब कई स्पीच रिकग्निशन प्रणाली भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित निवेश दिए जाने पर ऐसे मॉडल सामान्यतः अधिक मजबूत होते हैं, विशेष रूप से निवेश जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के आंकड़ों के लिए बहुत सामान्य है), और कई उप-कार्यों वाली बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।

तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। चूंकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।

तंत्रिका नेटवर्क

सांख्यिकीय विधियों की बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,[19] इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के शब्दार्थ गुणों को पकड़ने के लिए शब्द अंत: स्थापन का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए ,भाषण का भाग अंकन और निर्भरता पदनिरूपक)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी प्रणाली को कैसे अभिकल्पना किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, तंत्रिका मशीन अनुवाद (एनएमटी) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे श्रेणी से श्रेणी या अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता सांख्यिकीय मशीन अनुवाद (एसएमटी) को कम करते हैं।

सामान्य एनएलपी कार्य

निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।

चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। मोटा विभाजन नीचे दिया गया है।

पाठ या भाषण संसाधन

ऑप्टिकल कैरेक्टर रिकग्नाइजेशन (ओसीआर)
मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
भाषण मान्यता
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में एआई-पूर्ण (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से है। प्राकृतिक भाषण में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार भाषण विभाजन वाक् पहचान का आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ दूसरे में मिल जाती हैं, जिसे कॉर्टिक्यूलेशन कहा जाता है, इसलिए अनुरूप संकेत को असतत वर्णों में बदलना बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में दूसरे के समान है।
भाषण विभाजन
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का उपकार्य और सामान्यतः इसके साथ समूहीकृत।
[[लिखे हुए को बोलने में परिवर्तित करना]]
एक पाठ दिया, उन इकाइयों को रूपांतरित करें और मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए भाषण के लिए पाठ का उपयोग किया जा सकता है।[20]
शब्द विभाजन (प्रतीकीकरण शाब्दिक विश्लेषण))
निरंतर पाठ के भाग को अलग-अलग शब्दों में अलग करें। अंग्रेजी भाषा जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। चूंकि, चीनी भाषा, जापानी भाषा और थाई भाषा जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की शब्दावली और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों खनन में शब्दों का थैला (धनुष) निर्माण जैसे स्थितियों में भी किया जाता है।

रूपात्मक विश्लेषण

लेमैटाइजेशन
केवल विभक्तिपूर्ण अंत को हटाने का कार्य और शब्द के बेस शब्दकोश रूप को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन और तकनीक है। लेकिन इस संबंध में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए शब्दकोश का उपयोग करता है।[21]
आकृति विज्ञान (भाषाविज्ञान)
अलग-अलग शब्दों को अलग-अलग मॉर्फेम में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकृति विज्ञान, और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और शब्द के सभी संभावित रूपों (जैसे, खोलना, खोलता, खोला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। तुर्की भाषा या मैतेई भाषा जैसी भाषाओं में,[22] उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
  भाषण का भाग अंकन
एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का भाग (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक संज्ञा (मेज पर किताब) या क्रिया (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या विशेषण हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग भागों में से कोई भी हो सकता है।
प्रघातन
विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बन्धा हुआ , समापन, बंद, निकट आदि के लिए "बंद" मूल होगा)। प्रघातन लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।

वाक्यात्मक विश्लेषण

व्याकरण प्रेरण[23]
एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
वाक्य भंग (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
पाठ का भाग दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः पूर्ण विराम या अन्य विराम चिह्नों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
पदच्छेद
किसी दिए गए वाक्य के पदनिरूपक वृक्ष (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण अस्पष्ट है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, विशिष्ट वाक्य के लिए हजारों संभावित पदनिरूपक हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पदनिरूपक के दो प्राथमिक प्रकार हैं: निर्भरता पदनिरूपक और निर्वाचन क्षेत्र पदनिरूपक। निर्भरता पदनिरूपक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पदनिरूपक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पदनिरूपक वृक्ष बनाने पर केंद्रित है (स्टोकेस्टिक व्याकरण भी देखें)।

शाब्दिक शब्दार्थ (संदर्भ में अलग-अलग शब्दों का)

शाब्दिक शब्दार्थ
संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है?
वितरण संबंधी शब्दार्थ
हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं?
नामांकित इकाई पहचान (एनईआर)
पाठ की धारा दी गई है, यह निर्धारित करें कि पाठ मैप में कौन से वस्तु उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी स्थितियों में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या अरबी भाषा) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन भाषा सभी संज्ञाओं को बड़े अक्षरों में करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को बड़े अक्षरों में नहीं करती हैं जो विशेषण के रूप में काम करते हैं।
भावना विश्लेषण (मल्टीमॉडल भावना विश्लेषण भी देखें)
विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः कागजो के सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।
शब्दावली निष्कर्षण
शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
शब्द-भाव भेद (डब्ल्यूएसडी)
कई शब्दों के से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें सामान्यतः शब्दों और संबंधित शब्द इंद्रियों की सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे शब्द नेट से।
निकाय जोड़
कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, स्थान, कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।

संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ)

संबंध निष्कर्षण
पाठ का भाग दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
शब्दार्थ पदनिरूपक
पाठ का टुकड़ा (सामान्यतः वाक्य) दिया जाता है, या तो ग्राफ के रूप में (उदाहरण के लिए, सार अर्थ प्रतिनिधित्व में) या तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, प्रवचन प्रतिनिधित्व सिद्धांत में) इसके शब्दार्थ का औपचारिक प्रतिनिधित्व करता है। इस चुनौती में सामान्यतः शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित हैं (उदाहरण के लिए, शब्दार्थ रोल लेबलिंग, शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित करने के लिए बढ़ाया जा सकता है; नीचे प्राकृतिक भाषा समझ देखें ).
शब्दार्थ रोल लेबलिंग (नीचे अंतर्निहित शब्दार्थ रोल लेबलिंग भी देखें)
एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर चौखटा तत्वों (शब्दार्थ भूमिकाएँ) को पहचानें और वर्गीकृत करें।

प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)

सह-संदर्भ
एक वाक्य या पाठ का बड़ा भाग दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें संदर्भ अभिव्यक्ति सम्मलित है। उदाहरण के लिए, वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (अतिरिक्त किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
भाषण विश्लेषण
इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। कार्य प्रवचन विश्लेषण है, अर्थात, जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। अन्य संभावित कार्य भाषण क्रियाओं को पाठ के भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।
अंतर्निहित शब्दार्थ भूमिका लेबलिंग
एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट शब्दार्थ भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर शब्दार्थ रोल लेबलिंग देखें)। फिर, शब्दार्थ भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , प्रो-ड्रॉप भाषाओं के लिए सह-संदर्भ संकल्प का विस्तार।
पाठ्य आकर्षण
दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।[24]
विषय विभाजन और मान्यता
पाठ का भाग दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
तर्क खनन
तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।[25] इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।[26][27]

उच्च स्तरीय एनएलपी अनुप्रयोग

स्वचालित सारांश (पाठ संक्षेप)
पाठ के भाग का पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
पुस्तक पीढ़ी
एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।[28] तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, 1 सड़क, उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।[29] रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।
संवाद प्रणाली
संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है।
कागज़ एआई
एक कागज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न कागज़ प्रकारों से आवश्यक विशिष्ट आंकड़ों निकालने के लिए संगणक को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित कागज़ एआई गैर-तकनीकी टीमों को कागज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और लेखाकार तक त्वरित रूप से पहुंचने में सक्षम बनाता है।[30]
  व्याकरण संबंधी त्रुटि सुधार
व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।[31][32][33] जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
मशीन अनुवाद
स्वचालित रूप से पाठ का मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से है, और समस्याओं के वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।
प्राकृतिक भाषा उत्पादन (एनएलजी):
संगणक आंकड़ोंबेस या शब्दार्थ इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
प्राकृतिक भाषा की समझ (एनएलयू)
पाठ के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं।   बंद दुनिया धारणा (सीडब्ल्यूए) बनाम खुली दुनिया धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .[34]
प्रश्न उत्तर
मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
पाठ से छवि तक पीढ़ी
एक छवि के विवरण को देखते हुए, ऐसी छवि उत्पन्न करें जो विवरण से मेल खाती हो।[35]
पाठ से दृश्य तक पीढ़ी
एक दृश्य के विवरण को देखते हुए, दृश्य का मॉडल की गिनती उत्पन्न करें।[36][37]
पाठ-से-वीडियो
एक वीडियो के विवरण को देखते हुए, वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।[38][39]

सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ

क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, कोनल साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:[40]

  • प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पदनिरूपक, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 सह-संदर्भ, 2015-16: डिस्कोर्स पदनिरूपक, 2019: शब्दार्थ पदनिरूपक)।
  • बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
  • प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड प्रणाली के लिए नियम-आधारित पर्यवेक्षित)

अनुभूति और एनएलपी

अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से का प्रतिनिधित्व करता है (ऊपर कोनल साझा कार्यों के बीच रुझान देखें)।

अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।[41] संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।[42] संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।[43] विशेष रूप से प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के समय, संगणनात्मक भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।

एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कलन विधि बनाने के लिए पद्धति प्रदान करता है,[44] दो परिभाषित पहलुओं के साथ:

  1. एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए वैचारिक रूपक के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का विचार प्रदान करता है।[45] उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब तुलना में उपयोग किया जाता है (वह बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना व्यक्ति और संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
  2. किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, संभाव्य संदर्भ-मुक्त व्याकरण (पीडीएफजी) के माध्यम से। ऐसे कलन विधि के लिए गणितीय समीकरण में प्रस्तुत किया गया है US patent 9269353 :
जहां पर,
'आरएमएम', अर्थ का सापेक्ष माप है
'टोकन', पाठ, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
'एन', विश्लेषण किए जा रहे टोकन की संख्या है
'पीएमएम', निगम पर आधारित अर्थ का संभावित उपाय है
'डी', 'एन-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
'पीएफ', भाषा के लिए विशिष्ट संभाव्यता समारोह है

संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का भाग हैं, लेकिन 1990 के दशक के समय सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,[46] कार्यात्मक व्याकरण,[47] निर्माण व्याकरण,[48] संगणनात्मक मनोविज्ञान और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, अधिनियम-आर), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)[49] संगणनात्मक भाषाविज्ञान के लिए एसोसिएशन)। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मक कृत्रिम बुद्धिमत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार ।[50] इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल अवरोध एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।[51]


यह भी देखें


संदर्भ

  1. Kongthon, Alisa; Sangkeettrakarn, Chatchawal; Kongyoung, Sarawoot; Haruechaiyasak, Choochart (October 27–30, 2009). "Implementing an online help desk system based on conversational agent". इमर्जेंट डिजिटल इको सिस्टम्स के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09. MEDES '09: The International Conference on Management of Emergent Digital EcoSystems. France: ACM. p. 450. doi:10.1145/1643823.1643908. ISBN 9781605588292.
  2. Hutchins, J. (2005). "संक्षेप में मशीनी अनुवाद का इतिहास" (PDF).Template:स्व-प्रकाशित स्रोत
  3. Koskenniemi, Kimmo (1983), Two-level morphology: A general computational model of word-form recognition and production (PDF), Department of General Linguistics, University of Helsinki
  4. Joshi, A. K., & Weinstein, S. (1981, August). Control of Inference: Role of Some Aspects of Discourse Structure-Centering. In IJCAI (pp. 385-387).
  5. Guida, G.; Mauri, G. (July 1986). "प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण". Proceedings of the IEEE. 74 (7): 1026–1035. doi:10.1109/PROC.1986.13580. ISSN 1558-2256. S2CID 30688575.
  6. Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics. The creation and use of such corpora of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "poverty of the stimulus" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.
  7. Goldberg, Yoav (2016). "प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर". Journal of Artificial Intelligence Research. 57: 345–420. arXiv:1807.10854. doi:10.1613/jair.4992. S2CID 8273530.
  8. Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press.
  9. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). भाषा मॉडलिंग की सीमाओं की खोज. arXiv:1602.02410. Bibcode:2016arXiv160202410J.
  10. Choe, Do Kook; Charniak, Eugene. "भाषा मॉडलिंग के रूप में पार्सिंग". Emnlp 2016. Archived from the original on 2018-10-23. Retrieved 2018-10-22.
  11. Vinyals, Oriol; et al. (2014). "एक विदेशी भाषा के रूप में व्याकरण" (PDF). Nips2015. arXiv:1412.7449. Bibcode:2014arXiv1412.7449V.
  12. Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा". Journal of Diabetes Science and Technology (in English). 15 (3): 553–560. doi:10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486.
  13. Winograd, Terry (1971). प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं (Thesis).
  14. Schank, Roger C.; Abelson, Robert P. (1977). लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच. Hillsdale: Erlbaum. ISBN 0-470-99033-3.
  15. Mark Johnson. How the statistical revolution changes (computational) linguistics. Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.
  16. Philip Resnik. Four revolutions. Language Log, February 5, 2011.
  17. "एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना" (PDF).
  18. Trabelsi, Chiheb; Bilaniuk, Olexa; Zhang, Ying; Serdyuk, Dmitriy; Subramanian, Sandeep; Santos, João Felipe; Mehri, Soroush; Rostamzadeh, Negar; Bengio, Yoshua; Pal, Christopher J. (2018-02-25). "डीप कॉम्प्लेक्स नेटवर्क". arXiv:1705.09792 [cs.NE].
  19. Socher, Richard. "एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग". www.socher.org. Retrieved 2020-08-17. This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]
  20. Yi, Chucai; Tian, Yingli (2012), "Assistive Text Reading from Complex Background for Blind Persons", Camera-Based Document Analysis and Recognition (in English), Springer Berlin Heidelberg, pp. 15–28, CiteSeerX 10.1.1.668.869, doi:10.1007/978-3-642-29364-1_2, ISBN 9783642293634
  21. "प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय". GyanSetu! (in English). 2020-12-06. Retrieved 2021-01-09.
  22. Kishorjit, N.; Vidya, Raj RK.; Nirmal, Y.; Sivaji, B. (2012). "मणिपुरी रूपिम पहचान" (PDF). Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP). COLING 2012, Mumbai, December 2012: 95–108.{{cite journal}}: CS1 maint: location (link)
  23. Klein, Dan; Manning, Christopher D. (2002). "एक घटक-संदर्भ मॉडल का उपयोग करके प्राकृतिक भाषा व्याकरण प्रेरण" (PDF). Advances in Neural Information Processing Systems.
  24. PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/
  25. Lippi, Marco; Torroni, Paolo (2016-04-20). "आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स". ACM Transactions on Internet Technology (in English). 16 (2): 1–25. doi:10.1145/2850417. hdl:11585/523460. ISSN 1533-5399. S2CID 9561587.
  26. "तर्क खनन - IJCAI2016 ट्यूटोरियल". www.i3s.unice.fr. Retrieved 2021-03-09.
  27. "कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन" (in British English). Retrieved 2021-03-09.
  28. "उबउउवबेब :: राक्टर". www.ubu.com. Retrieved 2020-08-17.
  29. Writer, Beta (2019). लिथियम आयन बैटरी (in British English). doi:10.1007/978-3-030-16800-1. ISBN 978-3-030-16799-8. S2CID 155818532.
  30. "Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube". www.youtube.com. Archived from the original on 2021-10-30. Retrieved 2021-01-11.
  31. Administration. "भाषा प्रौद्योगिकी केंद्र (सीएलटी)". Macquarie University (in English). Retrieved 2021-01-11.
  32. "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
  33. "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
  34. Duan, Yucong; Cruz, Christophe (2011). "अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना". International Journal of Innovation, Management and Technology. 2 (1): 37–42. Archived from the original on 2011-10-09.
  35. Robertson, Adi (2022-04-06). "OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है". The Verge (in English). Retrieved 2022-06-07.
  36. "स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप". nlp.stanford.edu. Retrieved 2022-06-07.
  37. Coyne, Bob; Sproat, Richard (2001-08-01). "WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली". Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. SIGGRAPH '01. New York, NY, USA: Association for Computing Machinery: 487–496. doi:10.1145/383259.383316. ISBN 978-1-58113-374-5. S2CID 3842372.
  38. "Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है". VentureBeat (in English). 2022-11-02. Retrieved 2022-11-09.
  39. Vincent, James (2022-09-29). "मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है". The Verge (in English). Retrieved 2022-11-09.
  40. "पिछले साझा कार्य | CoNLL". www.conll.org. Retrieved 2021-01-11.
  41. "अनुभूति". Lexico. Oxford University Press and Dictionary.com. Archived from the original on July 15, 2020. Retrieved 6 May 2020.
  42. "संज्ञानात्मक वैज्ञानिक से पूछें". American Federation of Teachers. 8 August 2014. संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।
  43. Robinson, Peter (2008). संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका. Routledge. pp. 3–8. ISBN 978-0-805-85352-0.
  44. Lakoff, George (1999). मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
  45. Strauss, Claudia (1999). सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत. Cambridge University Press. pp. 156–164. ISBN 978-0-521-59541-4.
  46. "यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)". यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए) (in English). Retrieved 2021-01-11.
  47. Rodríguez, F. C., & Mairal-Usón, R. (2016). Building an RRG computational grammar. Onomazein, (34), 86-117.
  48. "द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली" (in English). Retrieved 2021-01-11.
  49. "एसीएल सदस्य पोर्टल | संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल". www.aclweb.org. Retrieved 2021-01-11.
  50. "टुकड़े और नियम". www.w3.org (in English). Retrieved 2021-01-11.
  51. Socher, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; Ng, Andrew Y. (2014). "वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ". Transactions of the Association for Computational Linguistics. 2: 207–218. doi:10.1162/tacl_a_00177. S2CID 2317858.


अग्रिम पठन

बाहरी संबंध