प्राकृतिक-भाषा की समझ

प्राकृतिक भाषा की समझ (एनएलयू) या प्राकृतिक भाषा की व्याख्या (एनएलआई) कृत्रिम बुद्धि में प्राकृतिक भाषा प्रसंस्करण का  एक उप-विषय है, जो मशीन के   समझबूझ कर पढने  से संबंधित है। प्राकृतिक भाषा की समझ को एआई-कठिन समस्या माना जाता है।

स्वचालित तर्क, मशीन अनुवाद, प्रश्न उत्तर, समाचार-एकत्रीकरण, पाठ वर्गीकरण, आवाज उपभोक्ता अभिकलन | आवाज सक्रियण, संग्रह और बड़े पैमाने पर सामग्री विश्लेषण के कारण इस क्षेत्र में काफी व्यावसायिक रुचि है।

कार्यक्रम छात्र (कंप्यूटर प्रोग्राम), 1964 में डेनियल बोब्रो द्वारा एमआईटी में पीएचडी शोध प्रबंध के लिए लिखा गया था, कि कंप्यूटर द्वारा प्राकृतिक भाषा को समझने के प्रारंभिक ज्ञात प्रयासों में से एक है।    जॉन मैक्कार्थी (कंप्यूटर वैज्ञानिक) द्वारा कृत्रिम बुद्धिमत्ता शब्द गढ़े जाने के आठ साल बाद, बोब्रो के शोध प्रबंध कंप्यूटर समस्या समाधान प्रणाली के लिए प्राकृतिक भाषा इनपुट शीर्षक ने दिखाया कि कैसे एक कंप्यूटर बीजगणित शब्द समस्याओं को हल करने के लिए सरल प्राकृतिक भाषा इनपुट को समझ सकता है।

एक साल बाद, 1965 में, MIT में जोसेफ वीज़ेनबाम ने एलिज़ा लिखा, एक इंटरैक्टिव प्रोग्राम जो किसी भी विषय पर अंग्रेजी में संवाद करता था, सबसे लोकप्रिय मनोचिकित्सा था। एलिजा ने डिब्बाबंद वाक्यांशों में प्रमुख शब्दों के सरल पार्सिंग और प्रतिस्थापन द्वारा काम किया और वीज़ेनबाम ने कार्यक्रम को वास्तविक दुनिया के ज्ञान या एक समृद्ध शब्दकोश का डेटाबेस देने की समस्या को दरकिनार कर दिया। फिर भी एलिजा ने एक खिलौना परियोजना के रूप में आश्चर्यजनक लोकप्रियता प्राप्त की और इसे आस्क कॉम द्वारा उपयोग की जाने वाली उपस्थित व्यावसायिक प्रणालियों के लिए एक बहुत ही प्रारंभिक अग्रदूत के रूप में देखा जा सकता है।

1969 में, स्टैनफोर्ड विश्वविद्यालय में रोजर शंक ने प्राकृतिक-भाषा की समझ के लिए वैचारिक निर्भरता सिद्धांत प्रस्तुत किया। सिडनी लैम्ब के काम से आंशिक रूप से प्रभावित यह मॉडल, येल विश्वविद्यालय में शैंक के छात्रों, जैसे रॉबर्ट विलेंस्की, वेंडी लेहर्ट और जेनेट कोलोडनर द्वारा व्यापक रूप से उपयोग किया गया था।

1970 में विलियम ए वुड्स ने प्राकृतिक भाषा इनपुट का प्रतिनिधित्व करने के लिए संवर्धित संक्रमण नेटवर्क एटीएन की शुरुआत की। वाक्यांश संरचना नियमों के बजाय एटीएन ने परिमित राज्य ऑटोमेटा के समतुल्य सेट का उपयोग किया जिसे पुनरावर्ती रूप कहा जाता था। एटीएन और उनके अधिक सामान्य प्रारूप जिन्हें सामान्यीकृत एटीएन कहा जाता है, का उपयोग कई वर्षों तक किया जाता रहा है।

1971 में, टेरी विनोग्रैड ने एमआईटी में अपनी पीएचडी थीसिस के लिए एसएचआरडीएलयू  लिखना समाप्त किया। एसएचआरडीएलयू वस्तुओं को स्थानांतरित करने के लिए एक रोबोटिक हाथ को निर्देशित करने के लिए बच्चों के ब्लॉक की प्रतिबंधित दुनिया में सरल अंग्रेजी वाक्यों को समझ सकता है। एसएचआरडीएलयू के सफल प्रदर्शन ने क्षेत्र में निरंतर अनुसंधान के लिए महत्वपूर्ण गति प्रदान की।  संज्ञानात्मक प्रक्रिया के रूप में अपनी पुस्तक लैंग्वेज के प्रकाशन के साथ विनोग्रैड ने क्षेत्र में एक बड़ा प्रभाव जारी रखा। स्टैनफोर्ड में, विनोग्राड बाद में  लेरी पेज  को सलाह देंगे, जिन्होंने गूगल की सह-स्थापना की थी।

1970 और 1980 के दशक में, श्री इंटरनेशनल ने प्राकृतिक भाषा प्रसंस्करण समूह के क्षेत्र में अनुसंधान और विकास के रूप में जारी रखा। अनुसंधान पर आधारित कई व्यावसायिक प्रयास किए गए, उदाहरण के लिए, 1982 में गैरी हेंड्रिक्स ने व्यक्तिगत कंप्यूटरों पर डेटाबेस प्रश्नों के लिए एक प्राकृतिक भाषा इंटरफ़ेस विकसित करने के लिए मूल रूप से एक कंपनी के रूप में सिमेंटेक कॉर्पोरेशन का गठन किया।चूंकि माउस संचालित ग्राफिकल यूज़र इंटरफ़ेस के आगमन के साथ सिमेंटेक ने दिशा बदल दी। उसी समय के आसपास कई अन्य व्यावसायिक प्रयास प्रारंभ किए गए थे, उदाहरण के लिए, आर्टिफिशियल इंटेलिजेंस कॉरपोरेशन में लैरी आर हैरिस और कॉग्निटिव सिस्टम्स कॉर्प में रोजर शैंक और उनके छात्र।  1983 में, माइकल डायर ने येल में  बओहआरआईएश  सिस्टम विकसित किया, जो रोजर शैंक और डब्लू .जी  लेहर्ट के काम के समान था।

तीसरी सहस्राब्दी में आईबीएम वाटसन (कंप्यूटर) जैसे टेक्स्ट वर्गीकरण के लिए मशीन लर्निंग का उपयोग करने वाली प्रणालियों की प्रांरभ देखी गई।चूंकि विशेषज्ञ इस बात पर बहस करते हैं कि ऐसी प्रणालियाँ कितनी समझ प्रदर्शित करती हैं। उदाहरण के लिए, जॉन सियरल के अनुसार, वॉटसन प्रश्नों को समझ भी नहीं पाए थे।

जॉन बॉल, संज्ञानात्मक वैज्ञानिक और पेटोम थ्योरी के आविष्कारक, इस आकलन का समर्थन करते हैं कि प्राकृतिक भाषा प्रसंस्करण ने सेवा और ई-कॉमर्स में मानव उत्पादकता का समर्थन करने के लिए अनुप्रयोगों के लिए पैठ बना ली है, लेकिन आवेदन के दायरे को कम करके  इसे काफी हद तक संभव बनाया गया है।  मानव भाषा में कुछ अनुरोध करने के हजारों विधि हैं जो अभी भी पारंपरिक प्राकृतिक भाषा प्रसंस्करण को चुनौती देते हैं। मशीनों के साथ एक सार्थक बातचीत तभी संभव है जब हम वाक्य के दूसरे शब्दों के अर्थ के आधार पर हर शब्द का सही अर्थ से मिलान करें, ठीक उसी प्रकार जैसे एक 3 साल का बच्चा बिना अनुमान लगाए करता है।

क्षेत्र और संदर्भ
छत्र शब्द प्राकृतिक-भाषा की समझ को कंप्यूटर अनुप्रयोगों के विविध सेट पर लागू किया जा सकता है, जिसमें छोटे अपेक्षाकृत सरल कार्य जैसे कि रोबोट को जारी किए गए है, छोटे आदेश, अत्यधिक जटिल प्रयास जैसे समाचार पत्रों के लेखों या कविता अंशों की पूर्ण समझ सम्मलित हैं। कई वास्तविक दुनिया के अनुप्रयोग दो चरम सीमाओं के बीच आते हैं, उदाहरण के लिए ईमेल के स्वचालित विश्लेषण के लिए दस्तावेज़ वर्गीकरण और एक निगम में एक उपयुक्त विभाग के लिए उनके मार्ग को पाठ की गहन समझ की आवश्यकता नहीं होती है, लेकिन निश्चित स्कीमाटा के साथ डेटाबेस तालिकाओं के लिए सरल प्रश्नों के प्रबंधन की तुलना में बहुत बड़ी शब्दावली और अधिक विविध सिंटैक्स से निपटने की आवश्यकता है।

वर्षों के समय प्राकृतिक भाषा या अंग्रेजी जैसे वाक्यों को कंप्यूटर पर संसाधित करने के विभिन्न प्रयास जटिलता के भिन्न-भिन्न अंशों पर हुए हैं। कुछ प्रयासों के परिणाम स्वरूप गहरी समझ वाली प्रणालियाँ नहीं बन पाई हैं, लेकिन समग्र प्रणाली उपयोगिता में सहायता मिली है। उदाहरण के लिए,  वेन रेटलिफ़  ने मूल रूप से स्टार ट्रेक में अंग्रेजी बोलने वाले कंप्यूटर की नकल करने के लिए अंग्रेजी जैसे सिंटैक्स के साथ वल्कन प्रोग्राम विकसित किया था। वल्कन बाद में डीबीएएशइ   सिस्टम बन गया, जिसके उपयोग में आसान सिंटैक्स ने व्यक्तिगत कंप्यूटर डेटाबेस उद्योग को प्रभावी ढंग से लॉन्च किया।  उपयोग में आसान या अंग्रेजी जैसे सिंटैक्स वाली प्रणालियाँ, चूंकि  उन प्रणालियों से काफी भिन्न हैं जो एक समृद्ध शब्दकोश का उपयोग करती हैं और इसमें प्राकृतिक भाषा के वाक्यों के शब्दार्थों का एक आंतरिक ज्ञान प्रतिनिधित्व और तर्क अक्सर पहले क्रम तर्क के रूप में सम्मलित होता है।

इसलिए एक प्रणाली द्वारा लक्षित समझ की चौड़ाई और गहराई प्रणाली की जटिलता और निहित चुनौतियों और इसके साथ निपटने वाले अनुप्रयोगों के प्रकार दोनों को निर्धारित करती है। एक प्रणाली की चौड़ाई इसकी शब्दावली व्याकरण के आकार से मापी जाती है। गहराई को उस डिग्री से मापा जाता है जिस तक इसकी समझ एक धाराप्रवाह देशी समय की समझ के बराबर होती है। सबसे संकीर्ण और सतही तौर पर,अंग्रेजी जैसे कमांड दुभाषियों को न्यूनतम जटिलता की आवश्यकता होती है, लेकिन अनुप्रयोगों की एक छोटी श्रृंखला होती है। संकीर्ण लेकिन गहरी प्रणालियाँ समझने के तंत्र का पता लगाती हैं और मॉडल बनाती हैं, लेकिन उनका अभी भी सीमित उपयोग है। सिस्टम जो किसी दस्तावेज़ की सामग्री को समझने का प्रयास करते हैं जैसे कि साधारण कीवर्ड मिलान से परे एक समाचार रिलीज़ और एक उपयोगकर्ता के लिए इसकी उपयुक्तता का न्याय करने के लिए व्यापक हैं और महत्वपूर्ण जटिलता की आवश्यकता होती है, लेकिन वे अभी भी कुछ उथली ऐसी प्रणालियाँ  हैं जो बहुत व्यापक और बहुत गहरी दोनों हैं, कला की वर्तमान स्थिति से परे हैं।

अवयव और वास्तुकला
उपयोग किए गए दृष्टिकोण के अतिरिक्त, अधिकांश प्राकृतिक-भाषा-समझ प्रणालियाँ कुछ सामान्य घटकों को साझा करती हैं। आंतरिक प्रतिनिधित्व में वाक्यों को तोड़ने के लिए प्रणाली को भाषा के एक शब्दकोष और एक पार्सर और व्याकरण के नियमों की आवश्यकता होती है। एक उपयुक्त सत्तामीमांसा (सूचना विज्ञान) के साथ एक समृद्ध शब्दकोश के निर्माण के लिए महत्वपूर्ण प्रयास की आवश्यकता होती है, उदाहरण के लिए, शब्दतंत्र  शब्दकोष के लिए कई व्यक्ति वर्षों के प्रयास की आवश्यकता होती है।

समझ को निर्देशित करने के लिए प्रणाली को शब्दार्थ से सिद्धांत की भी आवश्यकता होती है। किसी भाषा-समझ प्रणाली की व्याख्या क्षमता उसके द्वारा उपयोग किए जाने वाले सिमेंटिक सिद्धांत पर निर्भर करती है। कंप्यूटर-स्वचालित सिमेंटिक व्याख्या के आधार के रूप में भाषा के प्रतिस्पर्धी सिमेंटिक सिद्धांतों में उनकी उपयुक्तता में विशिष्ट ट्रेड-ऑफ हैं। ये भोले-भाले शब्दार्थ या स्टोकेस्टिक सिमेंटिक विश्लेषण से लेकर संदर्भ से अर्थ निकालने के लिए व्यावहारिकता के उपयोग तक हैं।  सिमेंटिक पार्सर प्राकृतिक-भाषा के ग्रंथों को औपचारिक अर्थ के प्रतिनिधित्व में परिवर्तित करते हैं।

प्राकृतिक-भाषा समझ के उन्नत अनुप्रयोग भी उनके ढांचे के भीतर तार्किक निष्कर्ष को सम्मलित करने का प्रयास करते हैं। यह आमतौर पर व्युत्पन्न अर्थ को विधेय तर्क में अभिकथनों के एक सेट में मैप करके प्राप्त किया जाता है, फिर निष्कर्ष पर पहुंचने के लिए तार्किक कटौती का उपयोग किया जाता है। इसलिए, लिस्प (प्रोग्रामिंग भाषा) जैसी कार्यात्मक भाषाओं पर आधारित प्रणालियों को तार्किक अभिकथनों का प्रतिनिधित्व करने के लिए एक उपप्रणाली को सम्मलित करने की आवश्यकता होती है, जबकि तर्क-उन्मुख प्रणालियाँ जैसे कि भाषा प्रोलॉग का उपयोग करने वाले आमतौर पर अंतर्निहित तार्किक प्रतिनिधित्व ढांचे के विस्तार पर भरोसा करते हैं।

प्राकृतिक भाषा की समझ में संदर्भ (भाषा का प्रयोग) का प्रबंधन विशेष चुनौतियां प्रस्तुत कर सकता है। उदाहरणों और काउंटर उदाहरणों की एक बड़ी विविधता के परिणामस्वरूप संदर्भ के औपचारिक शब्दार्थ (प्राकृतिक भाषा) के लिए कई दृष्टिकोण हैं, प्रत्येक विशिष्ट ताकत और कमजोरियों के साथ औपचारिक मॉडलिंग के लिए कई दृष्टिकोण सामने आए हैं।

यह भी देखें

 * कम्प्यूटेशनल शब्दार्थ
 * अभिकलनात्मक भाषाविज्ञान
 * प्रवचन प्रतिनिधित्व सिद्धांत
 * गहन भाषाई प्रसंस्करण
 * प्राकृतिक भाषा प्रसंस्करण का इतिहास
 * सूचना निष्कर्षण
 * गणित
 * प्राकृतिक भाषा प्रसंस्करण |नेचुरल-लैंग्वेज प्रोसेसिंग
 * प्राकृतिक भाषा प्रोग्रामिंग
 * प्राकृतिक-भाषा यूजर इंटरफेस
 * सिरी (सॉफ्टवेयर)
 * वोल्फरम अल्फा
 * खुली जानकारी निष्कर्षण
 * पार्ट-ऑफ-स्पीच टैगिंग
 * वाक् पहचान

टिप्पणियाँ
[Category:Natural language processi