प्राकृतिक भाषा प्रसंस्करण

From Vigyanwiki
Revision as of 10:57, 6 December 2022 by alpha>Indicwiki (Created page with "{{Short description|Field of linguistics and computer science}} {{About|natural language processing done by computers|the natural language processing done by the human brain|L...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
एक वेब पेज पर ग्राहक सेवा प्रदान करने वाला एक स्वचालित ऑनलाइन सहायक, एक ऐसे अनुप्रयोग का उदाहरण जहां प्राकृतिक भाषा प्रसंस्करण एक प्रमुख घटक है[1]

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) भाषाविज्ञान, कंप्यूटर विज्ञान और कृत्रिम बुद्धि का एक उपक्षेत्र है जो कंप्यूटर और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित करने और विश्लेषण करने के लिए कंप्यूटर को कैसे प्रोग्राम किया जाए। लक्ष्य एक कंप्यूटर है जो दस्तावेजों की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की बारीकियों को शामिल किया गया है। प्रौद्योगिकी तब दस्तावेजों में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही दस्तावेजों को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।

प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अक्सर वाक् पहचान, प्राकृतिक-भाषा समझ और प्राकृतिक भाषा पीढ़ी|प्राकृतिक-भाषा पीढ़ी शामिल होती है।

इतिहास

प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने कंप्यूटिंग मशीनरी और इंटेलिजेंस नामक एक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब ट्यूरिंग टेस्ट कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, हालांकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में एक कार्य शामिल है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण शामिल है।

प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत)

प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, एक चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), कंप्यूटर प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले डेटा के नियम।

  • 1950 का दशक: 1954 में जॉर्जटाउन-आईबीएम प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद शामिल था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद एक समस्या का समाधान हो जाएगा।[2] हालाँकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में ALPAC के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए फंडिंग नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
  • 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, SHRDLU, एक प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और ELIZA, एक रोजरियन मनोचिकित्सा का अनुकरण, जो 1964 और 1966 के बीच जोसेफ व्हीटबाउम द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, एलिजा ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा एक सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? .
  • 1970 का दशक: 1970 के दशक के दौरान, कई प्रोग्रामरों ने वैचारिक सत्तामीमांसा (सूचना विज्ञान) लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को कंप्यूटर-समझने योग्य डेटा में संरचित किया। उदाहरण हैं MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), टेलस्पिन (Meehan, 1976), QUALM (Lehnert, 1977), पॉलिटिक्स (Carbonell, 1979), और Plot Units (Lehnert 1981) ). इस समय के दौरान, पहला chatterbots लिखा गया (जैसे, बचाव)।
  • 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के फोकस क्षेत्रों में नियम-आधारित पार्सिंग पर शोध शामिल था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास उत्पादक व्याकरण के कम्प्यूटेशनल संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)[3]), शब्दार्थ (जैसे, Lesk एल्गोरिथम), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर[4]) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, आलंकारिक संरचना सिद्धांत में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, रैक्टर और जबरवाकी के साथ चैटरबॉट्स का विकास। एक महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।[5]


सांख्यिकीय एनएलपी (1990-2010)

1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। हालांकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए मशीन लर्निंग एल्गोरिदम की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति आई। यह कम्प्यूटेशनल शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के नोम चौमस्की सिद्धांतों (जैसे परिवर्तनकारी व्याकरण) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर कॉर्पस भाषाविज्ञान को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।[6] *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये सिस्टम मौजूदा बहुभाषी पाठ कोष का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप कनाडा की संसद और यूरोपीय संघ द्वारा तैयार किए गए थे। हालांकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में एक प्रमुख सीमा थी (और अक्सर बनी हुई है)। नतीजतन, सीमित मात्रा में डेटा से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।

  • 2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अनएनोटेटेड) भाषा डेटा की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण एल्गोरिदम पर ध्यान केंद्रित कर रहा है। ऐसे एल्गोरिदम उस डेटा से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से एनोटेट नहीं किया गया है या एनोटेटेड और गैर-एनोटेटेड डेटा के संयोजन का उपयोग कर रहा है। आम तौर पर, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और आम तौर पर इनपुट डेटा की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। हालाँकि, बड़ी मात्रा में गैर-एनोटेट डेटा उपलब्ध है (अन्य बातों के अलावा, वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित), जो अक्सर निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए एल्गोरिथ्म में कम समय की जटिलता हो व्यावहारिक बनो।

तंत्रिका एनएलपी (वर्तमान)

2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के तरीके व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी[7][8] भाषा मॉडलिंग जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं[9] और विश्लेषण।[10][11] स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।[12]


तरीके: नियम, सांख्यिकी, तंत्रिका नेटवर्क

शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से डिजाइन किया गया था, अर्थात, नियमों के एक सेट की हाथ से कोडिंग, एक शब्दकोश लुकअप के साथ मिलकर:[13][14] जैसे कि व्याकरण लिखकर या उत्पन्न के लिए अनुमानी नियम बनाकर।

मशीन लर्निंग|मशीन-लर्निंग एल्गोरिद्म पर आधारित हालिया सिस्टम के हाथ से बनाए गए नियमों की तुलना में कई फायदे हैं:

  • मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे आम मामलों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
  • स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान एल्गोरिदम का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित इनपुट (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत इनपुट (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। आम तौर पर, ऐसे इनपुट को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक आम तौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
  • स्वचालित रूप से नियमों को सीखने पर आधारित सिस्टम को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। हालांकि, मशीन-लर्निंग सिस्टम में इनपुट करने के लिए अधिक डेटा बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, आम तौर पर एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।

एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के बावजूद, प्रतीकात्मक तरीके अभी भी (2020) आमतौर पर उपयोग किए जाते हैं:

  • जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण डेटा की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे एपर्टियम सिस्टम द्वारा प्रदान की गई,
  • एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल एनालिसिस), या
  • एनएलपी पाइपलाइनों के आउटपुट को पोस्टप्रोसेसिंग और बदलने के लिए, उदाहरण के लिए, सिंटैक्टिक पार्स से ज्ञान निकालने के लिए।

सांख्यिकीय तरीके

तथाकथित सांख्यिकीय क्रांति के बाद से[15][16] 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े टेक्स्ट कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या कंप्यूटर एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।

मशीन-लर्निंग एल्गोरिदम के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये एल्गोरिदम इनपुट के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो इनपुट डेटा से उत्पन्न होते हैं। हालांकि, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो प्रत्येक इनपुट फीचर (जटिल-मूल्यवान शब्द एम्बेडिंग,[17] और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण[18]). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के बजाय कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में शामिल किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।

सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग एल्गोरिदम में से कुछ, जैसे कि निर्णय वृक्ष, मौजूदा हाथ से लिखे नियमों के समान सख्त अगर-फिर नियमों का उत्पादन करते हैं। हालांकि, भाषण टैगिंग का हिस्सा|पार्ट-ऑफ-स्पीच टैगिंग ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। इनपुट डेटा बनाने वाली सुविधाएँ। कैश भाषा मॉडल जिस पर अब कई स्पीच रिकग्निशन सिस्टम भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित इनपुट दिए जाने पर ऐसे मॉडल आम तौर पर अधिक मजबूत होते हैं, विशेष रूप से इनपुट जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के डेटा के लिए बहुत सामान्य है), और कई उप-कार्यों वाली एक बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।

तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। हालाँकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।

तंत्रिका नेटवर्क

सांख्यिकीय विधियों की एक बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,[19] इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के सिमेंटिक गुणों को पकड़ने के लिए शब्द एम्बेडिंग का उपयोग शामिल है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए, पार्ट-ऑफ-स्पीच टैगिंग और डिपेंडेंसी पार्सिंग)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी सिस्टम को कैसे डिजाइन किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग एक नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, तंत्रिका मशीन अनुवाद (NMT) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे Seq2seq|अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता को कम करते हैं। सांख्यिकीय मशीन अनुवाद (एसएमटी) में।

सामान्य एनएलपी कार्य

निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य आमतौर पर उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।

हालांकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।

टेक्स्ट और स्पीच प्रोसेसिंग

ऑप्टिकल कैरेक्टर मान्यता (ओसीआर)
मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
भाषण मान्यता
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह टेक्स्ट टू स्पीच के विपरीत है और बोलचाल की भाषा में एआई-पूर्ण (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार भाषण विभाजन वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे कॉर्टिक्यूलेशन कहा जाता है, इसलिए एनालॉग संकेत को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अलावा, यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को इनपुट की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
भाषण विभाजन
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और आमतौर पर इसके साथ समूहीकृत।
[[लिखे हुए को बोलने में बदलना]]
एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए टेक्स्ट-टू-स्पीच का उपयोग किया जा सकता है।[20]
शब्द विभाजन (प्रतीकीकरण (शाब्दिक विश्लेषण))
निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। अंग्रेजी भाषा जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को आमतौर पर रिक्त स्थान से अलग किया जाता है। हालाँकि, चीनी भाषा, जापानी भाषा और थाई भाषा जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की शब्दावली और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग डेटा माइनिंग में शब्दों का थैला (BOW) निर्माण जैसे मामलों में भी किया जाता है।

रूपात्मक विश्लेषण

लेमैटाइजेशन
केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस मामले में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।[21]
आकृति विज्ञान (भाषाविज्ञान)
अलग-अलग शब्दों को अलग-अलग morphemes में विभाजित करें और morphemes के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (यानी, शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकृति विज्ञान, और इस प्रकार यह अक्सर इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। तुर्की भाषा या मैतेई भाषा जैसी भाषाओं में,[22] एक उच्च समूहन वाली भारतीय भाषा, हालांकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
पार्ट-ऑफ-स्पीच टैगिंग
एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक संज्ञा (मेज पर किताब) या क्रिया (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या विशेषण हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।
स्टेमिंग
विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बंद, बंद, बंद, बंद, करीब आदि के लिए जड़ होगी)। स्टेमिंग लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।

वाक्यात्मक विश्लेषण

व्याकरण प्रेरण[23]
एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
वाक्य भंग (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
टेक्स्ट का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अक्सर पूर्ण विराम या अन्य विराम चिह्नों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
पदच्छेद
किसी दिए गए वाक्य के पार्स पेड़ (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण अस्पष्ट है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पार्स हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पार्सिंग के दो प्राथमिक प्रकार हैं: निर्भरता पार्सिंग और निर्वाचन क्षेत्र पार्सिंग। निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पार्स ट्री बनाने पर केंद्रित है (स्टोकेस्टिक व्याकरण भी देखें)।

शाब्दिक शब्दार्थ (संदर्भ में अलग-अलग शब्दों का)

शाब्दिक शब्दार्थ
संदर्भ में अलग-अलग शब्दों का कम्प्यूटेशनल अर्थ क्या है?
वितरण संबंधी शब्दार्थ
हम डेटा से शब्दार्थ निरूपण कैसे सीख सकते हैं?
नामांकित इकाई पहचान (एनईआर)
पाठ की एक धारा दी गई है, यह निर्धारित करें कि टेक्स्ट मैप में कौन से आइटम उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। हालांकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी मामले में, अक्सर गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अक्सर कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अलावा, गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या अरबी भाषा) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक ​​कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन भाषा सभी संज्ञाओं को कैपिटलाइज़ करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को कैपिटलाइज़ नहीं करती हैं जो विशेषण के रूप में काम करते हैं।
भावना विश्लेषण (मल्टीमॉडल भावना विश्लेषण भी देखें)
विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अक्सर ऑनलाइन समीक्षाओं का उपयोग करते हुए, आमतौर पर दस्तावेजों के एक सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।
शब्दावली निष्कर्षण
शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
Word-sense disambiguation (WSD)
कई शब्दों के एक से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें आम तौर पर शब्दों और संबंधित शब्द इंद्रियों की एक सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे WordNet से।
निकाय लिंकिंग
कई शब्द—आमतौर पर उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, एक स्थान, एक कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।

संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ)

संबंध निष्कर्षण
पाठ का एक हिस्सा दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
सिमेंटिक पार्सिंग
पाठ का एक टुकड़ा (आमतौर पर एक वाक्य) दिया जाता है, या तो एक ग्राफ के रूप में (उदाहरण के लिए, सार अर्थ प्रतिनिधित्व में) या एक तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, प्रवचन प्रतिनिधित्व सिद्धांत में) इसके शब्दार्थ का एक औपचारिक प्रतिनिधित्व करता है। इस चुनौती में आम तौर पर शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू शामिल हैं (उदाहरण के लिए, सिमेंटिक रोल लेबलिंग, शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को शामिल करने के लिए बढ़ाया जा सकता है; नीचे #Natural भाषा समझ देखें ).
सिमेंटिक रोल लेबलिंग (नीचे अंतर्निहित सिमेंटिक रोल लेबलिंग भी देखें)
एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर फ्रेम एलिमेंट्स (शब्दार्थ भूमिकाएँ) को पहचानें और वर्गीकृत करें।

प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)

कोरेफरेंस
एक वाक्य या पाठ का बड़ा हिस्सा दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का एक विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी शामिल है जिसमें संदर्भ अभिव्यक्ति शामिल है। उदाहरण के लिए, एक वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा एक संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (बजाय किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
भाषण विश्लेषण
इस रूब्रिक में कई संबंधित कार्य शामिल हैं। एक कार्य प्रवचन विश्लेषण है, अर्थात, एक जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। एक अन्य संभावित कार्य भाषण क्रियाओं को पाठ के एक भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।
Implicit semantic role labelling
एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक करीबी से संबंधित कार्य शून्य अनाफोरा संकल्प है, यानी, प्रो-ड्रॉप भाषाओं के लिए कोरेफेरेंस संकल्प का विस्तार।
पाठ्य आकर्षण
दो टेक्स्ट अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।[24]
विषय विभाजन और मान्यता
पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
तर्क खनन
तर्क खनन का लक्ष्य कंप्यूटर प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।[25] इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद शामिल हैं।[26][27]


उच्च स्तरीय एनएलपी अनुप्रयोग

स्वचालित सारांश (पाठ संक्षेप)
पाठ के एक हिस्से का एक पठनीय सारांश तैयार करें। अक्सर किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
पुस्तक पीढ़ी
एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में एक नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।[28] एक तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, 1 सड़क, एक उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द शामिल हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।[29] रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।
संवाद प्रणाली
कंप्यूटर सिस्टम का उद्देश्य मानव के साथ बातचीत करना है।
दस्तावेज़ एआई
एक दस्तावेज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न दस्तावेज़ प्रकारों से आवश्यक विशिष्ट डेटा निकालने के लिए कंप्यूटर को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित दस्तावेज़ एआई गैर-तकनीकी टीमों को दस्तावेज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और एकाउंटेंट तक त्वरित रूप से पहुंचने में सक्षम बनाता है।[30]
Grammatical error correction
व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई शामिल है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।[31][32][33] जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
मशीन अनुवाद
स्वचालित रूप से पाठ का एक मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से एक है, और समस्याओं के एक वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, यानी इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।
नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन (NLG):
संगणक डेटाबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू)
टेक्स्ट के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो कंप्यूटर प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान शामिल है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो आमतौर पर प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .[34]
प्रश्न उत्तर
मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
टेक्स्ट-टू-इमेज जेनरेशन
एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।[35]
टेक्स्ट-टू-सीन पीढ़ी
एक दृश्य के विवरण को देखते हुए, दृश्य का एक मॉडल की गिनती उत्पन्न करें।[36][37]
टेक्स्ट-टू-वीडियो
एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।[38][39]


सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ

क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, CoNLL साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:[40]

  • प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पार्सिंग, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 कोरेफरेंस, 2015-16: डिस्कोर्स पार्सिंग, 2019: सिमेंटिक पार्सिंग)।
  • बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
  • प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड सिस्टम के लिए नियम-आधारित पर्यवेक्षित)

अनुभूति और एनएलपी

अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू शामिल होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से एक का प्रतिनिधित्व करता है (ऊपर CoNLL साझा कार्यों के बीच रुझान देखें)।

अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।[41] संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।[42] संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।[43] विशेष रूप से #प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के दौरान, कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।

एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एल्गोरिदम बनाने के लिए एक पद्धति प्रदान करता है,[44] दो परिभाषित पहलुओं के साथ:

  1. एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए वैचारिक रूपक के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का एक विचार प्रदान करता है।[45] उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब एक तुलना में उपयोग किया जाता है (वह एक बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल एक बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह एक बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना एक व्यक्ति और एक संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
  2. किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, एक संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) के माध्यम से। ऐसे एल्गोरिदम के लिए गणितीय समीकरण में प्रस्तुत किया गया है US patent 9269353 :
कहाँ पे,
'RMM', अर्थ का सापेक्ष माप है
'token', टेक्स्ट, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
'एन', विश्लेषण किए जा रहे टोकन की संख्या है
'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है
'd', 'N-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
'पीएफ', एक भाषा के लिए विशिष्ट संभाव्यता समारोह है

संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का हिस्सा हैं, लेकिन 1990 के दशक के दौरान सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,[46] कार्यात्मक व्याकरण,[47] निर्माण व्याकरण,[48] कम्प्यूटेशनल साइकोलिंग्विस्टिक्स और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, अधिनियम-आर), हालांकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)[49] कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन)। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मक कृत्रिम बुद्धिमत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के तहत।[50] इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल इंटरेक्शन एनएलपी (हालांकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।[51]


यह भी देखें


संदर्भ

  1. Kongthon, Alisa; Sangkeettrakarn, Chatchawal; Kongyoung, Sarawoot; Haruechaiyasak, Choochart (October 27–30, 2009). "Implementing an online help desk system based on conversational agent". इमर्जेंट डिजिटल इको सिस्टम्स के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09. MEDES '09: The International Conference on Management of Emergent Digital EcoSystems. France: ACM. p. 450. doi:10.1145/1643823.1643908. ISBN 9781605588292.
  2. Hutchins, J. (2005). "संक्षेप में मशीनी अनुवाद का इतिहास" (PDF).Template:स्व-प्रकाशित स्रोत
  3. Koskenniemi, Kimmo (1983), Two-level morphology: A general computational model of word-form recognition and production (PDF), Department of General Linguistics, University of Helsinki
  4. Joshi, A. K., & Weinstein, S. (1981, August). Control of Inference: Role of Some Aspects of Discourse Structure-Centering. In IJCAI (pp. 385-387).
  5. Guida, G.; Mauri, G. (July 1986). "प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण". Proceedings of the IEEE. 74 (7): 1026–1035. doi:10.1109/PROC.1986.13580. ISSN 1558-2256. S2CID 30688575.
  6. Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics. The creation and use of such corpora of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "poverty of the stimulus" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.
  7. Goldberg, Yoav (2016). "प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर". Journal of Artificial Intelligence Research. 57: 345–420. arXiv:1807.10854. doi:10.1613/jair.4992. S2CID 8273530.
  8. Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press.
  9. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). भाषा मॉडलिंग की सीमाओं की खोज. arXiv:1602.02410. Bibcode:2016arXiv160202410J.
  10. Choe, Do Kook; Charniak, Eugene. "भाषा मॉडलिंग के रूप में पार्सिंग". Emnlp 2016. Archived from the original on 2018-10-23. Retrieved 2018-10-22.
  11. Vinyals, Oriol; et al. (2014). "एक विदेशी भाषा के रूप में व्याकरण" (PDF). Nips2015. arXiv:1412.7449. Bibcode:2014arXiv1412.7449V.
  12. Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा". Journal of Diabetes Science and Technology (in English). 15 (3): 553–560. doi:10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486.
  13. Winograd, Terry (1971). प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं (Thesis).
  14. Schank, Roger C.; Abelson, Robert P. (1977). लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच. Hillsdale: Erlbaum. ISBN 0-470-99033-3.
  15. Mark Johnson. How the statistical revolution changes (computational) linguistics. Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.
  16. Philip Resnik. Four revolutions. Language Log, February 5, 2011.
  17. "एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना" (PDF).
  18. Trabelsi, Chiheb; Bilaniuk, Olexa; Zhang, Ying; Serdyuk, Dmitriy; Subramanian, Sandeep; Santos, João Felipe; Mehri, Soroush; Rostamzadeh, Negar; Bengio, Yoshua; Pal, Christopher J. (2018-02-25). "डीप कॉम्प्लेक्स नेटवर्क". arXiv:1705.09792 [cs.NE].
  19. Socher, Richard. "एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग". www.socher.org. Retrieved 2020-08-17. This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]
  20. Yi, Chucai; Tian, Yingli (2012), "Assistive Text Reading from Complex Background for Blind Persons", Camera-Based Document Analysis and Recognition (in English), Springer Berlin Heidelberg, pp. 15–28, CiteSeerX 10.1.1.668.869, doi:10.1007/978-3-642-29364-1_2, ISBN 9783642293634
  21. "प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय". GyanSetu! (in English). 2020-12-06. Retrieved 2021-01-09.
  22. Kishorjit, N.; Vidya, Raj RK.; Nirmal, Y.; Sivaji, B. (2012). "मणिपुरी रूपिम पहचान" (PDF). Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP). COLING 2012, Mumbai, December 2012: 95–108.{{cite journal}}: CS1 maint: location (link)
  23. Klein, Dan; Manning, Christopher D. (2002). "एक घटक-संदर्भ मॉडल का उपयोग करके प्राकृतिक भाषा व्याकरण प्रेरण" (PDF). Advances in Neural Information Processing Systems.
  24. PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/
  25. Lippi, Marco; Torroni, Paolo (2016-04-20). "आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स". ACM Transactions on Internet Technology (in English). 16 (2): 1–25. doi:10.1145/2850417. hdl:11585/523460. ISSN 1533-5399. S2CID 9561587.
  26. "तर्क खनन - IJCAI2016 ट्यूटोरियल". www.i3s.unice.fr. Retrieved 2021-03-09.
  27. "कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन" (in British English). Retrieved 2021-03-09.
  28. "उबउउवबेब :: राक्टर". www.ubu.com. Retrieved 2020-08-17.
  29. Writer, Beta (2019). लिथियम आयन बैटरी (in British English). doi:10.1007/978-3-030-16800-1. ISBN 978-3-030-16799-8. S2CID 155818532.
  30. "Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube". www.youtube.com. Archived from the original on 2021-10-30. Retrieved 2021-01-11.
  31. Administration. "भाषा प्रौद्योगिकी केंद्र (सीएलटी)". Macquarie University (in English). Retrieved 2021-01-11.
  32. "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
  33. "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
  34. Duan, Yucong; Cruz, Christophe (2011). "अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना". International Journal of Innovation, Management and Technology. 2 (1): 37–42. Archived from the original on 2011-10-09.
  35. Robertson, Adi (2022-04-06). "OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है". The Verge (in English). Retrieved 2022-06-07.
  36. "स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप". nlp.stanford.edu. Retrieved 2022-06-07.
  37. Coyne, Bob; Sproat, Richard (2001-08-01). "WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली". Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. SIGGRAPH '01. New York, NY, USA: Association for Computing Machinery: 487–496. doi:10.1145/383259.383316. ISBN 978-1-58113-374-5. S2CID 3842372.
  38. "Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है". VentureBeat (in English). 2022-11-02. Retrieved 2022-11-09.
  39. Vincent, James (2022-09-29). "मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है". The Verge (in English). Retrieved 2022-11-09.
  40. "पिछले साझा कार्य | CoNLL". www.conll.org. Retrieved 2021-01-11.
  41. "अनुभूति". Lexico. Oxford University Press and Dictionary.com. Archived from the original on July 15, 2020. Retrieved 6 May 2020.
  42. "संज्ञानात्मक वैज्ञानिक से पूछें". American Federation of Teachers. 8 August 2014. संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।
  43. Robinson, Peter (2008). संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका. Routledge. pp. 3–8. ISBN 978-0-805-85352-0.
  44. Lakoff, George (1999). मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
  45. Strauss, Claudia (1999). सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत. Cambridge University Press. pp. 156–164. ISBN 978-0-521-59541-4.
  46. "यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)". यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए) (in English). Retrieved 2021-01-11.
  47. Rodríguez, F. C., & Mairal-Usón, R. (2016). Building an RRG computational grammar. Onomazein, (34), 86-117.
  48. "द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली" (in English). Retrieved 2021-01-11.
  49. "एसीएल सदस्य पोर्टल | संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल". www.aclweb.org. Retrieved 2021-01-11.
  50. "टुकड़े और नियम". www.w3.org (in English). Retrieved 2021-01-11.
  51. Socher, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; Ng, Andrew Y. (2014). "वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ". Transactions of the Association for Computational Linguistics. 2: 207–218. doi:10.1162/tacl_a_00177. S2CID 2317858.


अग्रिम पठन


इस पेज में लापता आंतरिक लिंक की सूची

  • भाषा विज्ञान
  • कृत्रिम होशियारी
  • संदर्भ (भाषा का प्रयोग)
  • प्राकृतिक भाषा की समझ
  • चीनी कमरा
  • सिर-संचालित वाक्यांश संरचना व्याकरण
  • दुनिया को ब्लॉक करता है
  • लेस्क एल्गोरिथ्म
  • अनियंत्रित शिक्षा
  • मशीन अनुवाद
  • पर्यवेक्षित अध्ययन
  • अर्ध-पर्यवेक्षित शिक्षा
  • समय जटिलता
  • ध्यान लगा के पढ़ना या सीखना
  • प्रतिनिधित्व सीखना
  • स्वास्थ्य सेवा में कृत्रिम बुद्धिमत्ता
  • ज्ञान निष्कर्षण
  • टोकनकरण (शाब्दिक विश्लेषण)
  • सांख्यिकीय निष्कर्ष
  • वास्तविक मूल्यवान
  • संभाव्य
  • आकृति विज्ञान (भाषा विज्ञान)
  • मुझे आईटी ईआई भाषा
  • शब्द भेद
  • भागों का जुड़ना
  • वाक्य सीमा विवाद
  • संक्षेपाक्षर
  • औपचारिक व्याकरण
  • संभाव्य संदर्भ मुक्त व्याकरण
  • नामित इकाई मान्यता
  • स्पेनिश भाषा
  • अर्थ (भाषाविज्ञान)
  • भावनाओं का विश्लेषण
  • इकाई लिंकिंग
  • फ्रान्सीसी भाषा
  • वितरणात्मक शब्दार्थ
  • फ़्रेम शब्दार्थ (भाषाविज्ञान)
  • वे देखभाल करते हैं
  • भाषण अधिनियम
  • भाषण का विश्लेषण
  • एआई दस्तावेज़
  • बंद दुनिया धारणा
  • खुली दुनिया की धारणा
  • पहले क्रम का तर्क
  • संज्ञात्मक विज्ञान
  • संशोधन (भाषाविज्ञान)

बाहरी संबंध