प्राकृतिक भाषा प्रसंस्करण

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) भाषाविज्ञान, संगणक विज्ञान और कृत्रिम बुद्धि का एक उपक्षेत्र है जो संगणक और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा आंकड़ों को संसाधित करने और विश्लेषण करने के लिए संगणक को कैसे प्रोग्राम किया जाए। लक्ष्य एक संगणक है जो दस्तावेजों की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की बारीकियों को सम्मलित किया गया है। प्रौद्योगिकी तब दस्तावेजों में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही दस्तावेजों को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।

प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः वाक् पहचान, प्राकृतिक-भाषा समझ और प्राकृतिक भाषा पीढ़ी| प्राकृतिक-भाषा पीढ़ी सम्मलित  होती है।

इतिहास
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने संगणन तंत्र और बुद्धिमत्ता नामक एक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब ट्यूरिंग परीक्षा कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में एक कार्य सम्मलित  है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित  है।

प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत)
प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, एक चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), संगणक प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले आंकड़ों के नियम।


 * 1950 का दशक: 1954 में जॉर्जटाउन-आईबीएम प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद सम्मलित था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद एक समस्या का समाधान हो जाएगा। चूंकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में एलपीसी के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए निधिकरण नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
 * 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, एसएचआरडीएलयू, एक प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और एलिजा, एक रोजरियन मनोचिकित्सा का अनुकरण, जो 1964 और 1966 के बीच जोसेफ व्हीटबाउम द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, एलिजा ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा एक सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता प्रतिसाद है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है?.
 * 1970 का दशक: 1970 के दशक के दौरान, कई प्रोग्रामरों ने वैचारिक सत्तामीमांसा (सूचना विज्ञान) लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को संगणक-समझने योग्य आंकड़ों में संरचित किया। उदाहरण हैं मार्गी (स्कैंक, 1975), सैम (कुलिंगफोर्ड, 1978), पाम (विलेंस्की, 1978), टेलस्पिन (Meehan, 1976), सन्देह (लहनर्ट, 1977), पॉलिटिक्स (कार्बोनेल, 1979), और षड्यंत्र इकाइयाँ (लहनर्ट 1981) ). इस समय के दौरान, पहला चैटरबॉट्स लिखा गया (जैसे, बचाव)।
 * 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के ध्यान केन्द्रित क्षेत्रों में नियम-आधारित पदनिरूपक पर शोध सम्मलित  था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास उत्पादक व्याकरण के संगणनात्मक संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान) ), शब्दार्थ (जैसे, लेस्क कलन विधि), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर ) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, आलंकारिक संरचना सिद्धांत में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, रैक्टर और जबरवाकी के साथ चैटरबॉट्स का विकास। एक महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।

सांख्यिकीय एनएलपी (1990-2010)
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए मशीन शिक्षण कलन विधि की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति आई। यह संगणनात्मक शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के नोम चौमस्की सिद्धांतों (जैसे परिवर्तनकारी व्याकरण) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर कॉर्पस भाषाविज्ञान को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण। *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये प्रणाली उपस्थित बहुभाषी पाठ कोष का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप कनाडा की संसद और यूरोपीय संघ द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में एक प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप, सीमित मात्रा में आंकड़ों से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।
 * 2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अज्ञात) भाषा आंकड़ों की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण कलन विधि पर ध्यान केंद्रित कर रहा है। ऐसे कलन विधि उस आंकड़ों से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से सटीक नहीं किया गया है या सटीक और गैर-सटीक आंकड़ों के संयोजन का उपयोग कर रहा है। सामान्यतः, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और सामान्यतः निवेश आंकड़ों की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। चूंकि, बड़ी मात्रा में गैर-सटीक आंकड़ों उपलब्ध है (अन्य बातों के अतिरिक्त, वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए कलन विधि में कम समय की जटिलता हो व्यावहारिक बनो।

तंत्रिका एनएलपी (वर्तमान)
2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी भाषा मॉडलिंग जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं और विश्लेषण।  स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी इलेक्ट्रॉनिक स्वास्थ्य अभिलेख में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।

विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से अभिकल्पना किया गया था, अर्थात, नियमों के एक सेट की हाथ से कोडिंग, एक शब्दकोश लुकअप के साथ मिलकर: जैसे कि व्याकरण लिखकर या उत्पन्न के लिए अनुमानी नियम बनाकर।

मशीन-लर्निंग कलन विधि पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई फायदे हैं:
 * मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे सामान्य स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
 * स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान कलन विधि का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित निवेश (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत निवेश (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। सामान्यतः, ऐसे निवेश को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक सामान्यतः, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
 * स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक निवेश आंकड़ों की आपूर्ति करके अधिक सटीक बनाया जा सकता है। चूंकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग प्रणाली में निवेश करने के लिए अधिक आंकड़ों बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, सामान्यतः एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।

एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं:
 * जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे एपर्टियम प्रणाली द्वारा प्रदान की गई,
 * एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या
 * एनएलपी पाइपलाइनों के निर्गम को पोस्ट संसाधन और बदलने के लिए, उदाहरण के लिए, वाक्यगत पदनिरूपक से ज्ञान निकालने के लिए।

सांख्यिकीय विधि
तथाकथित सांख्यिकीय क्रांति के बाद से 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।

मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान शब्द अंत: स्थापन), और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण ). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।

सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग कलन विधि में से कुछ, जैसे कि निर्णय वृक्ष, उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, भाषण अंकन का हिस्सा| भाषण का हिस्सा अंकन ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। निवेश आंकड़ों बनाने वाली सुविधाएँ। कैश भाषा मॉडल जिस पर अब कई स्पीच रिकग्निशन प्रणाली भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित निवेश दिए जाने पर ऐसे मॉडल सामान्यतः अधिक मजबूत होते हैं, विशेष रूप से निवेश जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के आंकड़ों के लिए बहुत सामान्य है), और कई उप-कार्यों वाली एक बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।

तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। चूंकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।

तंत्रिका नेटवर्क
सांख्यिकीय विधियों की एक बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से, इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के सिमेंटिक गुणों को पकड़ने के लिए शब्द अंत: स्थापन का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए ,भाषण का हिस्सा अंकन और निर्भरता पदनिरूपक)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी प्रणाली को कैसे अभिकल्पना किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग एक नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, तंत्रिका मशीन अनुवाद (एनएमटी) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे Seq2seq|अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता को कम करते हैं। सांख्यिकीय मशीन अनुवाद (एसएमटी) में।

सामान्य एनएलपी कार्य
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।

चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।

पाठ या भाषण संसाधन

 * ऑप्टिकल कैरेक्टर रिकग्नाइजेशन (ओसीआर)
 * मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।


 * भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में एआई-पूर्ण (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार भाषण विभाजन वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे कॉर्टिक्यूलेशन कहा जाता है, इसलिए अनुरूप संकेत को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त, यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
 * भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और सामान्यतः इसके साथ समूहीकृत।


 * [[लिखे हुए को बोलने में बदलना]]
 * एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए भाषण के लिए पाठ का उपयोग किया जा सकता है।


 * शब्द विभाजन (प्रतीकीकरण (शाब्दिक विश्लेषण))
 * निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। अंग्रेजी भाषा जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। चूंकि, चीनी भाषा, जापानी भाषा और थाई भाषा जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की शब्दावली और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों खनन में शब्दों का थैला (धनुष) निर्माण जैसे स्थितियों में भी किया जाता है।

रूपात्मक विश्लेषण

 * लेमैटाइजेशन: केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस संबंध में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।
 * आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग मॉर्फेम में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात, शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकृति विज्ञान, और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। तुर्की भाषा या मैतेई भाषा जैसी भाषाओं में, एक उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
 * भाषण का हिस्सा अंकन: एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक संज्ञा (मेज पर किताब) या क्रिया (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या विशेषण हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।


 * प्रघातन
 * विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बन्धा हुआ, समापन, बंद, निकट आदि के लिए "बंद" मूल होगा)। प्रघातन लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।

वाक्यात्मक विश्लेषण

 * व्याकरण प्रेरण
 * एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।


 * वाक्य भंग (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
 * पाठ का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः पूर्ण विराम या अन्य विराम चिह्नों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।


 * पदच्छेद: किसी दिए गए वाक्य के पदनिरूपक वृक्ष (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण अस्पष्ट है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पदनिरूपक हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पदनिरूपक के दो प्राथमिक प्रकार हैं: निर्भरता पदनिरूपक और निर्वाचन क्षेत्र पदनिरूपक। निर्भरता पदनिरूपक एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पदनिरूपक एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पदनिरूपक वृक्ष बनाने पर केंद्रित है (स्टोकेस्टिक व्याकरण भी देखें)।

शाब्दिक शब्दार्थ (संदर्भ में अलग-अलग शब्दों का)

 * शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है?
 * वितरण संबंधी शब्दार्थ: हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं?
 * नामांकित इकाई पहचान (एनईआर): पाठ की एक धारा दी गई है, यह निर्धारित करें कि पाठ मैप में कौन से वस्तु उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी स्थितियों में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः  कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त, गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या अरबी भाषा) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन भाषा सभी संज्ञाओं को बड़े अक्षरों में करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को बड़े अक्षरों में नहीं करती हैं जो विशेषण के रूप में काम करते हैं।


 * भावना विश्लेषण (मल्टीमॉडल भावना विश्लेषण भी देखें)
 * विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः  दस्तावेजों के एक सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।


 * शब्दावली निष्कर्षण
 * शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।


 * Word-sense disambiguation ([ शब्द-अर्थ विसंदिग्धीकरण ](डब्ल्यूएसडी): कई शब्दों के एक से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें सामान्यतः शब्दों और संबंधित शब्द इंद्रियों की एक सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे शब्द नेट से।
 * निकाय जोड़: कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, एक स्थान, एक कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।

संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ)

 * संबंध निष्कर्षण: पाठ का एक हिस्सा दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
 * सिमेंटिक पदनिरूपक: पाठ का एक टुकड़ा (सामान्यतः एक वाक्य) दिया जाता है, या तो एक ग्राफ के रूप में (उदाहरण के लिए, सार अर्थ प्रतिनिधित्व में) या एक तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, प्रवचन प्रतिनिधित्व सिद्धांत में) इसके शब्दार्थ का एक औपचारिक प्रतिनिधित्व करता है। इस चुनौती में सामान्यतः शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित  हैं (उदाहरण के लिए, सिमेंटिक रोल लेबलिंग, शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित  करने के लिए बढ़ाया जा सकता है; नीचे #Natural भाषा समझ देखें ).
 * सिमेंटिक रोल लेबलिंग (नीचे अंतर्निहित सिमेंटिक रोल लेबलिंग भी देखें)
 * एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर फ्रेम एलिमेंट्स (शब्दार्थ भूमिकाएँ) को पहचानें और वर्गीकृत करें।

प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)

 * कोरेफरेंस: एक वाक्य या पाठ का बड़ा हिस्सा दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का एक विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें संदर्भ अभिव्यक्ति सम्मलित  है। उदाहरण के लिए, एक वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा एक संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (बजाय किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
 * भाषण विश्लेषण: इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। एक कार्य प्रवचन विश्लेषण है, अर्थात, एक जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। एक अन्य संभावित कार्य भाषण क्रियाओं को पाठ के एक भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।


 * एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात, प्रो-ड्रॉप भाषाओं के लिए कोरेफेरेंस संकल्प का विस्तार।
 * एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात, प्रो-ड्रॉप भाषाओं के लिए कोरेफेरेंस संकल्प का विस्तार।


 * पाठ्य आकर्षण: दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।
 * विषय विभाजन और मान्यता
 * पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।


 * तर्क खनन
 * तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है। इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।

उच्च स्तरीय एनएलपी अनुप्रयोग

 * स्वचालित सारांश (पाठ संक्षेप): पाठ के एक हिस्से का एक पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
 * पुस्तक पीढ़ी
 * एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में एक नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)। एक तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, 1 सड़क, एक उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी। रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।


 * संवाद प्रणाली
 * संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है।


 * दस्तावेज़ एआई
 * एक दस्तावेज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न दस्तावेज़ प्रकारों से आवश्यक विशिष्ट आंकड़ों निकालने के लिए संगणक को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित दस्तावेज़ एआई गैर-तकनीकी टीमों को दस्तावेज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और एकाउंटेंट तक त्वरित रूप से पहुंचने में सक्षम बनाता है।


 * व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।   जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
 * व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।   जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।


 * मशीन अनुवाद
 * स्वचालित रूप से पाठ का एक मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से एक है, और समस्याओं के एक वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।


 * नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन (NLG):
 * संगणक आंकड़ोंबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।


 * नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू): पाठ के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः  प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है.
 * प्रश्न उत्तर: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
 * पाठ-टू-इमेज जेनरेशन: एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।
 * पाठ-टू-सीन पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का एक मॉडल की गिनती उत्पन्न करें।
 * पाठ-टू-वीडियो: एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।

सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, CoNLL साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:
 * प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पदनिरूपक, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 कोरेफरेंस, 2015-16: डिस्कोर्स पदनिरूपक, 2019: सिमेंटिक पदनिरूपक)।
 * बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
 * प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड प्रणाली के लिए नियम-आधारित पर्यवेक्षित)

अनुभूति और एनएलपी
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से एक का प्रतिनिधित्व करता है (ऊपर CoNLL साझा कार्यों के बीच रुझान देखें)।

अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है। संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है। संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है। विशेष रूप से #प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के दौरान, संगणनात्मक भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।

एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कलन विधि     बनाने के लिए एक पद्धति प्रदान करता है, दो परिभाषित पहलुओं के साथ:


 * 1) एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए वैचारिक रूपक के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का एक विचार प्रदान करता है। उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब एक तुलना में उपयोग किया जाता है (वह एक बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल एक बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह एक बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना एक व्यक्ति और एक संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
 * 2) किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, एक संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) के माध्यम से। ऐसे कलन विधि      के लिए गणितीय समीकरण में प्रस्तुत किया गया है :
 * $$ {RMM(token_N)}

= {PMM(token_N)} \times \frac{1}{2d} \left (\sum_{i=-d}^d {((PMM(token_{N-1})} \times {PF(token_N,token_{N-1}))_i}\right ) $$
 * कहाँ पे,
 * 'RMM', अर्थ का सापेक्ष माप है
 * 'token', पाठ, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
 * 'एन', विश्लेषण किए जा रहे टोकन की संख्या है
 * 'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है
 * 'd', 'N-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
 * 'पीएफ', एक भाषा के लिए विशिष्ट संभाव्यता समारोह है

संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का हिस्सा हैं, लेकिन 1990 के दशक के दौरान सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण, कार्यात्मक व्याकरण, निर्माण व्याकरण, संगणनात्मक साइकोलिंग्विस्टिक्स और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, अधिनियम-आर), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है) संगणनात्मक भाषाविज्ञान के लिए एसोसिएशन)। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मक कृत्रिम बुद्धिमत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार । इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल इंटरेक्शन एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।

यह भी देखें

 * 1 सड़क
 * स्वचालित निबंध स्कोरिंग
 * बायोमेडिकल टेक्स्ट माइनिंग
 * कंपाउंड टर्म प्रोसेसिंग
 * अभिकलनात्मक भाषाविज्ञान
 * कंप्यूटर की सहायता से समीक्षा
 * नियंत्रित प्राकृतिक भाषा
 * ध्यान लगा के पढ़ना या सीखना
 * गहन भाषाई प्रसंस्करण
 * वितरण शब्दार्थ
 * विदेशी भाषा पठन सहायता
 * विदेशी भाषा लेखन सहायता
 * सूचना निष्कर्षण
 * सूचना की पुनर्प्राप्ति
 * भाषा और संचार प्रौद्योगिकी
 * भाषा प्रौद्योगिकी
 * अव्यक्त सिमेंटिक इंडेक्सिंग
 * मूल भाषा की पहचान
 * प्राकृतिक-भाषा प्रोग्रामिंग
 * प्राकृतिक-भाषा की समझ
 * प्राकृतिक भाषा यूजर इंटरफेस|नेचुरल-लैंग्वेज सर्च
 * प्राकृतिक भाषा प्रसंस्करण की रूपरेखा
 * क्वेरी विस्तार
 * क्वेरी समझ
 * संशोधन (भाषा विज्ञान)
 * भाषण प्रसंस्करण
 * बोली जाने वाली संवाद प्रणाली
 * टेक्स्ट-प्रूफिंग
 * पाठ सरलीकरण
 * ट्रांसफार्मर (मशीन लर्निंग मॉडल)
 * ट्रूकेसिंग
 * प्रश्न उत्तर
 * Word2vec

अग्रिम पठन

 * Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
 * Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
 * Mohamed Zakaria Kurdi (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
 * Mohamed Zakaria Kurdi (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.
 * Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
 * Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
 * David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
 * David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.

इस पेज में लापता आंतरिक लिंक की सूची

 * भाषा विज्ञान
 * कृत्रिम होशियारी
 * संदर्भ (भाषा का प्रयोग)
 * प्राकृतिक भाषा की समझ
 * चीनी कमरा
 * सिर-संचालित वाक्यांश संरचना व्याकरण
 * दुनिया को ब्लॉक करता है
 * लेस्क एल्गोरिथ्म
 * अनियंत्रित शिक्षा
 * मशीन अनुवाद
 * पर्यवेक्षित अध्ययन
 * अर्ध-पर्यवेक्षित शिक्षा
 * समय जटिलता
 * ध्यान लगा के पढ़ना या सीखना
 * प्रतिनिधित्व सीखना
 * स्वास्थ्य सेवा में कृत्रिम बुद्धिमत्ता
 * ज्ञान निष्कर्षण
 * टोकनकरण (शाब्दिक विश्लेषण)
 * सांख्यिकीय निष्कर्ष
 * वास्तविक मूल्यवान
 * संभाव्य
 * आकृति विज्ञान (भाषा विज्ञान)
 * मुझे आईटी ईआई भाषा
 * शब्द भेद
 * भागों का जुड़ना
 * वाक्य सीमा विवाद
 * संक्षेपाक्षर
 * औपचारिक व्याकरण
 * संभाव्य संदर्भ मुक्त व्याकरण
 * नामित इकाई मान्यता
 * स्पेनिश भाषा
 * अर्थ (भाषाविज्ञान)
 * भावनाओं का विश्लेषण
 * इकाई लिंकिंग
 * फ्रान्सीसी भाषा
 * वितरणात्मक शब्दार्थ
 * फ़्रेम शब्दार्थ (भाषाविज्ञान)
 * वे देखभाल करते हैं
 * भाषण अधिनियम
 * भाषण का विश्लेषण
 * एआई दस्तावेज़
 * बंद दुनिया धारणा
 * खुली दुनिया की धारणा
 * पहले क्रम का तर्क
 * संज्ञात्मक विज्ञान
 * संशोधन (भाषाविज्ञान)