प्राकृतिक भाषा प्रसंस्करण

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) भाषाविज्ञान, कंप्यूटर विज्ञान और कृत्रिम बुद्धि का एक उपक्षेत्र है जो कंप्यूटर और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित करने और विश्लेषण करने के लिए कंप्यूटर को कैसे प्रोग्राम किया जाए। लक्ष्य एक कंप्यूटर है जो दस्तावेजों की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की बारीकियों को शामिल किया गया है। प्रौद्योगिकी तब दस्तावेजों में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही दस्तावेजों को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।

प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अक्सर वाक् पहचान, प्राकृतिक-भाषा समझ और प्राकृतिक भाषा पीढ़ी|प्राकृतिक-भाषा पीढ़ी शामिल होती है।

इतिहास
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने कंप्यूटिंग मशीनरी और इंटेलिजेंस नामक एक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब ट्यूरिंग टेस्ट कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, हालांकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में एक कार्य शामिल है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण शामिल है।

प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत)
प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, एक चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), कंप्यूटर प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले डेटा के नियम।


 * 1950 का दशक: 1954 में जॉर्जटाउन-आईबीएम प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद शामिल था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद एक समस्या का समाधान हो जाएगा। हालाँकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में ALPAC के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए फंडिंग नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
 * 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, SHRDLU, एक प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और ELIZA, एक रोजरियन मनोचिकित्सा का अनुकरण, जो 1964 और 1966 के बीच जोसेफ व्हीटबाउम द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, एलिजा ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा एक सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है?.
 * 1970 का दशक: 1970 के दशक के दौरान, कई प्रोग्रामरों ने वैचारिक सत्तामीमांसा (सूचना विज्ञान) लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को कंप्यूटर-समझने योग्य डेटा में संरचित किया। उदाहरण हैं MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), टेलस्पिन (Meehan, 1976), QUALM (Lehnert, 1977), पॉलिटिक्स (Carbonell, 1979), और Plot Units (Lehnert 1981) ). इस समय के दौरान, पहला chatterbots लिखा गया (जैसे, बचाव)।
 * 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के फोकस क्षेत्रों में नियम-आधारित पार्सिंग पर शोध शामिल था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास उत्पादक व्याकरण के कम्प्यूटेशनल संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान) ), शब्दार्थ (जैसे, Lesk एल्गोरिथम), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर ) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, आलंकारिक संरचना सिद्धांत में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, रैक्टर और जबरवाकी के साथ चैटरबॉट्स का विकास। एक महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।

सांख्यिकीय एनएलपी (1990-2010)
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। हालांकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए मशीन लर्निंग एल्गोरिदम की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति आई। यह कम्प्यूटेशनल शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के नोम चौमस्की सिद्धांतों (जैसे परिवर्तनकारी व्याकरण) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर कॉर्पस भाषाविज्ञान को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण। *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये सिस्टम मौजूदा बहुभाषी पाठ कोष का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप कनाडा की संसद और यूरोपीय संघ द्वारा तैयार किए गए थे। हालांकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में एक प्रमुख सीमा थी (और अक्सर बनी हुई है)। नतीजतन, सीमित मात्रा में डेटा से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।
 * 2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अनएनोटेटेड) भाषा डेटा की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण एल्गोरिदम पर ध्यान केंद्रित कर रहा है। ऐसे एल्गोरिदम उस डेटा से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से एनोटेट नहीं किया गया है या एनोटेटेड और गैर-एनोटेटेड डेटा के संयोजन का उपयोग कर रहा है। आम तौर पर, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और आम तौर पर इनपुट डेटा की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। हालाँकि, बड़ी मात्रा में गैर-एनोटेट डेटा उपलब्ध है (अन्य बातों के अलावा, वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित), जो अक्सर निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए एल्गोरिथ्म में कम समय की जटिलता हो व्यावहारिक बनो।

तंत्रिका एनएलपी (वर्तमान)
2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के तरीके व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी भाषा मॉडलिंग जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं और विश्लेषण।  स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।

तरीके: नियम, सांख्यिकी, तंत्रिका नेटवर्क
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से डिजाइन किया गया था, अर्थात, नियमों के एक सेट की हाथ से कोडिंग, एक शब्दकोश लुकअप के साथ मिलकर: जैसे कि व्याकरण लिखकर या उत्पन्न के लिए अनुमानी नियम बनाकर।

मशीन लर्निंग|मशीन-लर्निंग एल्गोरिद्म पर आधारित हालिया सिस्टम के हाथ से बनाए गए नियमों की तुलना में कई फायदे हैं:
 * मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे आम मामलों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
 * स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान एल्गोरिदम का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित इनपुट (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत इनपुट (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। आम तौर पर, ऐसे इनपुट को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक आम तौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
 * स्वचालित रूप से नियमों को सीखने पर आधारित सिस्टम को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। हालांकि, मशीन-लर्निंग सिस्टम में इनपुट करने के लिए अधिक डेटा बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, आम तौर पर एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।

एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के बावजूद, प्रतीकात्मक तरीके अभी भी (2020) आमतौर पर उपयोग किए जाते हैं:
 * जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण डेटा की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे एपर्टियम सिस्टम द्वारा प्रदान की गई,
 * एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल एनालिसिस), या
 * एनएलपी पाइपलाइनों के आउटपुट को पोस्टप्रोसेसिंग और बदलने के लिए, उदाहरण के लिए, सिंटैक्टिक पार्स से ज्ञान निकालने के लिए।

सांख्यिकीय तरीके
तथाकथित सांख्यिकीय क्रांति के बाद से 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े टेक्स्ट कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या कंप्यूटर एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।

मशीन-लर्निंग एल्गोरिदम के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये एल्गोरिदम इनपुट के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो इनपुट डेटा से उत्पन्न होते हैं। हालांकि, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो प्रत्येक इनपुट फीचर (जटिल-मूल्यवान शब्द एम्बेडिंग, और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण ). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के बजाय कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में शामिल किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।

सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग एल्गोरिदम में से कुछ, जैसे कि निर्णय वृक्ष, मौजूदा हाथ से लिखे नियमों के समान सख्त अगर-फिर नियमों का उत्पादन करते हैं। हालांकि, भाषण टैगिंग का हिस्सा|पार्ट-ऑफ-स्पीच टैगिंग ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। इनपुट डेटा बनाने वाली सुविधाएँ। कैश भाषा मॉडल जिस पर अब कई स्पीच रिकग्निशन सिस्टम भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित इनपुट दिए जाने पर ऐसे मॉडल आम तौर पर अधिक मजबूत होते हैं, विशेष रूप से इनपुट जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के डेटा के लिए बहुत सामान्य है), और कई उप-कार्यों वाली एक बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।

तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। हालाँकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।

तंत्रिका नेटवर्क
सांख्यिकीय विधियों की एक बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से, इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के सिमेंटिक गुणों को पकड़ने के लिए शब्द एम्बेडिंग का उपयोग शामिल है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए, पार्ट-ऑफ-स्पीच टैगिंग और डिपेंडेंसी पार्सिंग)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी सिस्टम को कैसे डिजाइन किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग एक नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, तंत्रिका मशीन अनुवाद (NMT) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे Seq2seq|अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता को कम करते हैं। सांख्यिकीय मशीन अनुवाद (एसएमटी) में।

सामान्य एनएलपी कार्य
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य आमतौर पर उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।

हालांकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।

टेक्स्ट और स्पीच प्रोसेसिंग

 * ऑप्टिकल कैरेक्टर मान्यता (ओसीआर)
 * मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।


 * भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह टेक्स्ट टू स्पीच के विपरीत है और बोलचाल की भाषा में एआई-पूर्ण (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार भाषण विभाजन वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे कॉर्टिक्यूलेशन कहा जाता है, इसलिए एनालॉग संकेत को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अलावा, यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को इनपुट की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
 * भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और आमतौर पर इसके साथ समूहीकृत।


 * [[लिखे हुए को बोलने में बदलना]]
 * एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए टेक्स्ट-टू-स्पीच का उपयोग किया जा सकता है।


 * शब्द विभाजन (प्रतीकीकरण (शाब्दिक विश्लेषण))
 * निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। अंग्रेजी भाषा जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को आमतौर पर रिक्त स्थान से अलग किया जाता है। हालाँकि, चीनी भाषा, जापानी भाषा और थाई भाषा जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की शब्दावली और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग डेटा माइनिंग में शब्दों का थैला (BOW) निर्माण जैसे मामलों में भी किया जाता है।

रूपात्मक विश्लेषण

 * लेमैटाइजेशन: केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस मामले में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।
 * आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग morphemes में विभाजित करें और morphemes के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (यानी, शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकृति विज्ञान, और इस प्रकार यह अक्सर इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। तुर्की भाषा या मैतेई भाषा जैसी भाषाओं में, एक उच्च समूहन वाली भारतीय भाषा, हालांकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
 * पार्ट-ऑफ-स्पीच टैगिंग: एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक संज्ञा (मेज पर किताब) या क्रिया (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या विशेषण हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।


 * स्टेमिंग
 * विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बंद, बंद, बंद, बंद, करीब आदि के लिए जड़ होगी)। स्टेमिंग लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।

वाक्यात्मक विश्लेषण

 * व्याकरण प्रेरण
 * एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।


 * वाक्य भंग (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
 * टेक्स्ट का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अक्सर पूर्ण विराम या अन्य विराम चिह्नों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।


 * पदच्छेद: किसी दिए गए वाक्य के पार्स पेड़ (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण अस्पष्ट है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पार्स हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पार्सिंग के दो प्राथमिक प्रकार हैं: निर्भरता पार्सिंग और निर्वाचन क्षेत्र पार्सिंग। निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पार्स ट्री बनाने पर केंद्रित है (स्टोकेस्टिक व्याकरण भी देखें)।

शाब्दिक शब्दार्थ (संदर्भ में अलग-अलग शब्दों का)

 * शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का कम्प्यूटेशनल अर्थ क्या है?
 * वितरण संबंधी शब्दार्थ: हम डेटा से शब्दार्थ निरूपण कैसे सीख सकते हैं?
 * नामांकित इकाई पहचान (एनईआर): पाठ की एक धारा दी गई है, यह निर्धारित करें कि टेक्स्ट मैप में कौन से आइटम उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। हालांकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी मामले में, अक्सर गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अक्सर कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अलावा, गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या अरबी भाषा) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन भाषा सभी संज्ञाओं को कैपिटलाइज़ करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को कैपिटलाइज़ नहीं करती हैं जो विशेषण के रूप में काम करते हैं।


 * भावना विश्लेषण (मल्टीमॉडल भावना विश्लेषण भी देखें)
 * विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अक्सर ऑनलाइन समीक्षाओं का उपयोग करते हुए, आमतौर पर दस्तावेजों के एक सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।


 * शब्दावली निष्कर्षण
 * शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।


 * Word-sense disambiguation (WSD): कई शब्दों के एक से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें आम तौर पर शब्दों और संबंधित शब्द इंद्रियों की एक सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे WordNet से।
 * निकाय लिंकिंग: कई शब्द—आमतौर पर उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, एक स्थान, एक कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।

संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ)

 * संबंध निष्कर्षण: पाठ का एक हिस्सा दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
 * सिमेंटिक पार्सिंग: पाठ का एक टुकड़ा (आमतौर पर एक वाक्य) दिया जाता है, या तो एक ग्राफ के रूप में (उदाहरण के लिए, सार अर्थ प्रतिनिधित्व में) या एक तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, प्रवचन प्रतिनिधित्व सिद्धांत में) इसके शब्दार्थ का एक औपचारिक प्रतिनिधित्व करता है। इस चुनौती में आम तौर पर शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू शामिल हैं (उदाहरण के लिए, सिमेंटिक रोल लेबलिंग, शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को शामिल करने के लिए बढ़ाया जा सकता है; नीचे #Natural भाषा समझ देखें ).
 * सिमेंटिक रोल लेबलिंग (नीचे अंतर्निहित सिमेंटिक रोल लेबलिंग भी देखें)
 * एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर फ्रेम एलिमेंट्स (शब्दार्थ भूमिकाएँ) को पहचानें और वर्गीकृत करें।

प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)

 * कोरेफरेंस: एक वाक्य या पाठ का बड़ा हिस्सा दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का एक विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी शामिल है जिसमें संदर्भ अभिव्यक्ति शामिल है। उदाहरण के लिए, एक वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा एक संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (बजाय किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
 * भाषण विश्लेषण: इस रूब्रिक में कई संबंधित कार्य शामिल हैं। एक कार्य प्रवचन विश्लेषण है, अर्थात, एक जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। एक अन्य संभावित कार्य भाषण क्रियाओं को पाठ के एक भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।


 * एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक करीबी से संबंधित कार्य शून्य अनाफोरा संकल्प है, यानी, प्रो-ड्रॉप भाषाओं के लिए कोरेफेरेंस संकल्प का विस्तार।
 * एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक करीबी से संबंधित कार्य शून्य अनाफोरा संकल्प है, यानी, प्रो-ड्रॉप भाषाओं के लिए कोरेफेरेंस संकल्प का विस्तार।


 * पाठ्य आकर्षण: दो टेक्स्ट अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।
 * विषय विभाजन और मान्यता
 * पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।


 * तर्क खनन
 * तर्क खनन का लक्ष्य कंप्यूटर प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है। इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद शामिल हैं।

उच्च स्तरीय एनएलपी अनुप्रयोग

 * स्वचालित सारांश (पाठ संक्षेप): पाठ के एक हिस्से का एक पठनीय सारांश तैयार करें। अक्सर किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
 * पुस्तक पीढ़ी
 * एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में एक नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)। एक तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, 1 सड़क, एक उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द शामिल हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी। रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।


 * संवाद प्रणाली
 * कंप्यूटर सिस्टम का उद्देश्य मानव के साथ बातचीत करना है।


 * दस्तावेज़ एआई
 * एक दस्तावेज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न दस्तावेज़ प्रकारों से आवश्यक विशिष्ट डेटा निकालने के लिए कंप्यूटर को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित दस्तावेज़ एआई गैर-तकनीकी टीमों को दस्तावेज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और एकाउंटेंट तक त्वरित रूप से पहुंचने में सक्षम बनाता है।


 * व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई शामिल है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।  जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
 * व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई शामिल है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।  जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।


 * मशीन अनुवाद
 * स्वचालित रूप से पाठ का एक मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से एक है, और समस्याओं के एक वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, यानी इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।


 * नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन (NLG):
 * संगणक डेटाबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।


 * नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू): टेक्स्ट के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो कंप्यूटर प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान शामिल है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो आमतौर पर प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है.
 * प्रश्न उत्तर: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
 * टेक्स्ट-टू-इमेज जेनरेशन: एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।
 * टेक्स्ट-टू-सीन पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का एक मॉडल की गिनती उत्पन्न करें।
 * टेक्स्ट-टू-वीडियो: एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।

सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, CoNLL साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:
 * प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पार्सिंग, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 कोरेफरेंस, 2015-16: डिस्कोर्स पार्सिंग, 2019: सिमेंटिक पार्सिंग)।
 * बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
 * प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड सिस्टम के लिए नियम-आधारित पर्यवेक्षित)

अनुभूति और एनएलपी
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू शामिल होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से एक का प्रतिनिधित्व करता है (ऊपर CoNLL साझा कार्यों के बीच रुझान देखें)।

अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है। संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है। संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है। विशेष रूप से #प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के दौरान, कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।

एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एल्गोरिदम बनाने के लिए एक पद्धति प्रदान करता है, दो परिभाषित पहलुओं के साथ:


 * 1) एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए वैचारिक रूपक के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का एक विचार प्रदान करता है। उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब एक तुलना में उपयोग किया जाता है (वह एक बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल एक बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह एक बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना एक व्यक्ति और एक संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
 * 2) किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, एक संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) के माध्यम से। ऐसे एल्गोरिदम के लिए गणितीय समीकरण में प्रस्तुत किया गया है :
 * $$ {RMM(token_N)}

= {PMM(token_N)} \times \frac{1}{2d} \left (\sum_{i=-d}^d {((PMM(token_{N-1})} \times {PF(token_N,token_{N-1}))_i}\right ) $$
 * कहाँ पे,
 * 'RMM', अर्थ का सापेक्ष माप है
 * 'token', टेक्स्ट, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
 * 'एन', विश्लेषण किए जा रहे टोकन की संख्या है
 * 'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है
 * 'd', 'N-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
 * 'पीएफ', एक भाषा के लिए विशिष्ट संभाव्यता समारोह है

संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का हिस्सा हैं, लेकिन 1990 के दशक के दौरान सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण, कार्यात्मक व्याकरण, निर्माण व्याकरण, कम्प्यूटेशनल साइकोलिंग्विस्टिक्स और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, अधिनियम-आर), हालांकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है) कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन)। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मक कृत्रिम बुद्धिमत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के तहत। इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल इंटरेक्शन एनएलपी (हालांकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।

यह भी देखें

 * 1 सड़क
 * स्वचालित निबंध स्कोरिंग
 * बायोमेडिकल टेक्स्ट माइनिंग
 * कंपाउंड टर्म प्रोसेसिंग
 * अभिकलनात्मक भाषाविज्ञान
 * कंप्यूटर की सहायता से समीक्षा
 * नियंत्रित प्राकृतिक भाषा
 * ध्यान लगा के पढ़ना या सीखना
 * गहन भाषाई प्रसंस्करण
 * वितरण शब्दार्थ
 * विदेशी भाषा पठन सहायता
 * विदेशी भाषा लेखन सहायता
 * सूचना निष्कर्षण
 * सूचना की पुनर्प्राप्ति
 * भाषा और संचार प्रौद्योगिकी
 * भाषा प्रौद्योगिकी
 * अव्यक्त सिमेंटिक इंडेक्सिंग
 * मूल भाषा की पहचान
 * प्राकृतिक-भाषा प्रोग्रामिंग
 * प्राकृतिक-भाषा की समझ
 * प्राकृतिक भाषा यूजर इंटरफेस|नेचुरल-लैंग्वेज सर्च
 * प्राकृतिक भाषा प्रसंस्करण की रूपरेखा
 * क्वेरी विस्तार
 * क्वेरी समझ
 * संशोधन (भाषा विज्ञान)
 * भाषण प्रसंस्करण
 * बोली जाने वाली संवाद प्रणाली
 * टेक्स्ट-प्रूफिंग
 * पाठ सरलीकरण
 * ट्रांसफार्मर (मशीन लर्निंग मॉडल)
 * ट्रूकेसिंग
 * प्रश्न उत्तर
 * Word2vec

अग्रिम पठन

 * Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
 * Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
 * Mohamed Zakaria Kurdi (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
 * Mohamed Zakaria Kurdi (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.
 * Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
 * Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
 * David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
 * David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.

इस पेज में लापता आंतरिक लिंक की सूची

 * भाषा विज्ञान
 * कृत्रिम होशियारी
 * संदर्भ (भाषा का प्रयोग)
 * प्राकृतिक भाषा की समझ
 * चीनी कमरा
 * सिर-संचालित वाक्यांश संरचना व्याकरण
 * दुनिया को ब्लॉक करता है
 * लेस्क एल्गोरिथ्म
 * अनियंत्रित शिक्षा
 * मशीन अनुवाद
 * पर्यवेक्षित अध्ययन
 * अर्ध-पर्यवेक्षित शिक्षा
 * समय जटिलता
 * ध्यान लगा के पढ़ना या सीखना
 * प्रतिनिधित्व सीखना
 * स्वास्थ्य सेवा में कृत्रिम बुद्धिमत्ता
 * ज्ञान निष्कर्षण
 * टोकनकरण (शाब्दिक विश्लेषण)
 * सांख्यिकीय निष्कर्ष
 * वास्तविक मूल्यवान
 * संभाव्य
 * आकृति विज्ञान (भाषा विज्ञान)
 * मुझे आईटी ईआई भाषा
 * शब्द भेद
 * भागों का जुड़ना
 * वाक्य सीमा विवाद
 * संक्षेपाक्षर
 * औपचारिक व्याकरण
 * संभाव्य संदर्भ मुक्त व्याकरण
 * नामित इकाई मान्यता
 * स्पेनिश भाषा
 * अर्थ (भाषाविज्ञान)
 * भावनाओं का विश्लेषण
 * इकाई लिंकिंग
 * फ्रान्सीसी भाषा
 * वितरणात्मक शब्दार्थ
 * फ़्रेम शब्दार्थ (भाषाविज्ञान)
 * वे देखभाल करते हैं
 * भाषण अधिनियम
 * भाषण का विश्लेषण
 * एआई दस्तावेज़
 * बंद दुनिया धारणा
 * खुली दुनिया की धारणा
 * पहले क्रम का तर्क
 * संज्ञात्मक विज्ञान
 * संशोधन (भाषाविज्ञान)