प्राकृतिक-भाषा की समझ

प्राकृतिक लैंग्वेज की समझ (एनएलयू) या प्राकृतिक लैंग्वेज की व्याख्या (एनएलआई) आर्टिफिशियल इंटेलिजेंस में प्राकृतिक लैंग्वेज प्रोसेसिंग का एक उप-विषय है, जो मशीनी अध्ययन से संबंधित है और इस प्रकार प्राकृतिक लैंग्वेज की समझ को एआई-कठिन समस्या के रूप में माना जाता है।

स्वचालित तर्क, मशीनी अनुवाद, प्रश्न उत्तर, समाचार-एकत्रीकरण, पाठ वर्गीकरण, वॉइस एक्टिवेशन, आर्काइव और बड़े पैमाने पर कान्टेन्ट अनैलिसिस के कारण इस क्षेत्र में काफी व्यावसायिक रुचि हुई है।

डेनियल बोब्रो द्वारा 1964 में एमआईटी में पीएचडी शोध-प्रबन्ध के लिए लिखा गया प्रोग्राम छात्र, कंप्यूटर द्वारा प्राकृतिक लैंग्वेज को समझने के प्रारंभिक ज्ञात प्रयासों में से एक है।    जॉन मैक्कार्थी द्वारा आर्टिफिशियल इंटेलिजेंस शब्द गढ़े जाने के आठ साल बाद, बोब्रो के शोध प्रबंध कंप्यूटर समस्या समाधान प्रणाली के लिए प्राकृतिक लैंग्वेज को समझने की विधि बताई कि इनपुट शीर्षक कैसे कंप्यूटर बीजगणित शब्द समस्याओं को हल करने के लिए सरल प्राकृतिक लैंग्वेज इनपुट को समझ सकता है।

एक साल बाद, 1965 में, एमआईटी में जोसेफ वीज़ेनबाम ने एलिज़ा को एक इंटरैक्टिव प्रोग्राम लिखा था, जिसमें मनोचिकित्सा की दृष्टि से किसी भी विषय पर अंग्रेजी में संवाद होता था। एलिजा ने साधारण पद-व्याख्या तथा मुख्य शब्दों के स्थान पर कैंड वाक्यांशों में स्थान दिया और वीज़ेनबाम ने प्रोग्राम को वास्तविक दुनिया के ज्ञान का डेटाबेस या समृद्ध शब्दकोश देने की समस्या को दरकिनार कर दिया था। फिर भी एलिजा ने टॉय प्रोजेक्ट के रूप में आश्चर्यजनक लोकप्रियता प्राप्त की और इस प्रकार इसे आस्क कॉम द्वारा उपयोग की जाने वाली उपस्थित व्यावसायिक प्रणालियों के लिए बहुत ही प्रारंभिक प्रीकर्सर के रूप में देखा जा सकता है।

1969 में, स्टैनफोर्ड विश्वविद्यालय में रोजर शंक ने प्राकृतिक-लैंग्वेज की समझ के लिए वैचारिक निर्भरता सिद्धांत प्रस्तुत किया। सिडनी लैम्ब के काम से आंशिक रूप से प्रभावित यह मॉडल, येल विश्वविद्यालय में शैंक के छात्रों, जैसे रॉबर्ट विलेंस्की, वेंडी लेहर्ट और जेनेट कोलोडनर द्वारा व्यापक रूप से उपयोग किया गया था।

1970 में विलियम ए वुड्स ने प्राकृतिक लैंग्वेज इनपुट का प्रतिनिधित्व करने के लिए ऑगमेंटेड ट्रांजीशन नेटवर्क एटीएन की शुरुआत की। और इस प्रकार वाक्यांश संरचना नियमों के अतिरिक्त एटीएन ने परिमित स्टेट ऑटोमेटा के समतुल्य सेट का उपयोग किया है। एटीएन और उनके अधिक सामान्य प्रारूप जिन्हें सामान्यीकृत एटीएन कहा जाता है, सामान्यीकृत एटीएन का उपयोग कई वर्षों तक किया जाता रहा है।

1971 में, टेरी विनोग्रैड ने एमआईटी में अपनी पीएचडी थीसिस के लिए एसएचआरडीएलयू लिखना समाप्त किया। एसएचआरडीएलयू वस्तुओं को स्थानांतरित करने के लिए एक रोबोटिक हाथ को निर्देशित करने के लिए बच्चों के ब्लॉक की प्रतिबंधित दुनिया में सरल अंग्रेजी वाक्यों को समझ सकता है। एसएचआरडीएलयू के सफल प्रदर्शन ने क्षेत्र में निरंतर अनुसंधान के लिए महत्वपूर्ण गति प्रदान की। संज्ञानात्मक प्रक्रिया के रूप में अपनी पुस्तक लैंग्वेज के प्रकाशन के साथ विनोग्रैड ने क्षेत्र में एक बड़ा प्रभाव जारी रखा था। स्टैनफोर्ड में, विनोग्राड बाद में लेरी पेज को सलाह दिया जिन्होंने गूगल की सह-स्थापना की थी।

1970 और 1980 के दशक में, श्री इंटरनेशनल ने प्राकृतिक लैंग्वेज प्रोसेसिंग समूह के क्षेत्र में अनुसंधान और विकास के रूप में जारी रखा था और इस प्रकार अनुसंधान पर आधारित कई व्यावसायिक प्रयास किए गए, उदाहरण के लिए 1982 में गैरी हेंड्रिक्स ने व्यक्तिगत कंप्यूटरों पर डेटाबेस प्रश्नों के लिए एक प्राकृतिक लैंग्वेज इंटरफ़ेस विकसित करने के लिए मूल रूप से एक कंपनी के रूप में सिमेंटेक कॉर्पोरेशन का गठन किया। चूंकि माउस संचालित ग्राफिकल यूज़र इंटरफ़ेस के आगमन के साथ सिमेंटेक ने दिशा बदल दी थी और उसी समय के आसपास कई अन्य व्यावसायिक प्रयास प्रारंभ किए गए थे, उदाहरण के लिए आर्टिफिशियल इंटेलिजेंस कॉरपोरेशन में लैरी आर हैरिस और कॉग्निटिव प्रणाली कॉर्प में रोजर शैंक और उनके छात्र के रूप में है। 1983 में, माइकल डायर ने येल में बोरिस प्रणाली विकसित किया, जो रोजर शैंक और डब्लू .जी लेहर्ट के काम के समान था।

तीसरी सहस्राब्दी में आईबीएम वाटसन (कंप्यूटर) जैसे टेक्स्ट वर्गीकरण के लिए मशीन लर्निंग का उपयोग करने वाली प्रणालियों के रूप में देखी गई थी। चूंकि विशेषज्ञ इस बात पर बहस करते हैं कि ऐसी प्रणालियाँ कितनी समझ प्रदर्शित करती हैं। उदाहरण के लिए जॉन सियरल के अनुसार वॉटसन प्रश्नों को समझ भी नहीं पाए थे।

जॉन बॉल, संज्ञानात्मक वैज्ञानिक और पेटोम थ्योरी के आविष्कारक इस आकलन का समर्थन करते हैं कि प्राकृतिक लैंग्वेज प्रोसेसिंग ने सेवा और ई-कॉमर्स में मानव उत्पादकता का समर्थन करने के लिए अनुप्रयोगों के लिए पैठ बना ली है, लेकिन अनुप्रयोग के क्षेत्र को कम करके इसे काफी सीमा तक संभव बनाया गया है। मानव लैंग्वेज में कुछ अनुरोध करने के हजारों विधि हैं, जो अभी भी पारंपरिक प्राकृतिक लैंग्वेज प्रोसेसिंग को चुनौती देते हैं। मशीनों के साथ एक सार्थक बातचीत तभी संभव होती है जब हम वाक्य के दूसरे शब्दों के अर्थ के आधार पर हर शब्द का सही अर्थ से मिलान करते है और ठीक उसी प्रकार जैसे एक 3 साल का बच्चा बिना अनुमान लगाए करता है।

क्षेत्र और संदर्भ
छत्र शब्द प्राकृतिक-लैंग्वेज की समझ को कंप्यूटर अनुप्रयोगों के विविध सेट पर लागू किया जा सकता है, जिसमें छोटे अपेक्षाकृत सरल कार्य जैसे कि रोबोट को जारी किए गए है, छोटे आदेश, अत्यधिक जटिल प्रयास जैसे समाचार पत्रों के लेखों या कविता अंशों की पूर्ण समझ सम्मलित हैं। कई वास्तविक दुनिया के अनुप्रयोग दो चरम सीमाओं के बीच आते हैं, उदाहरण के लिए ईमेल के स्वचालित विश्लेषण के लिए दस्तावेज़ वर्गीकरण और एक निगम में एक उपयुक्त विभाग के लिए उनके मार्ग को पाठ की गहन समझ की आवश्यकता नहीं होती है, लेकिन निश्चित स्कीमाटा के साथ डेटाबेस तालिकाओं के लिए सरल प्रश्नों के प्रबंधन की तुलना में बहुत बड़ी शब्दावली और अधिक विविध सिंटैक्स से निपटने की आवश्यकता है।

वर्षों के समय प्राकृतिक लैंग्वेज या अंग्रेजी जैसे वाक्यों को कंप्यूटर पर संसाधित करने के विभिन्न प्रयास जटिलता के भिन्न-भिन्न अंशों पर हुए हैं। कुछ प्रयासों के परिणाम स्वरूप गहरी समझ वाली प्रणालियाँ नहीं बन पाई हैं, लेकिन समग्र प्रणाली उपयोगिता में सहायता मिली है। उदाहरण के लिए, वेन रेटलिफ़ ने मूल रूप से स्टार ट्रेक में अंग्रेजी बोलने वाले कंप्यूटर की नकल करने के लिए अंग्रेजी जैसे सिंटैक्स के साथ वल्कन प्रोग्राम विकसित किया था। वल्कन बाद में डीबीएएशइ प्रणाली बन गया, जिसके उपयोग में आसान सिंटैक्स ने व्यक्तिगत कंप्यूटर डेटाबेस उद्योग को प्रभावी ढंग से लॉन्च किया। उपयोग में आसान या अंग्रेजी जैसे सिंटैक्स वाली प्रणालियाँ, चूंकि उन प्रणालियों से काफी भिन्न हैं जो एक समृद्ध शब्दकोश का उपयोग करती हैं और इसमें प्राकृतिक लैंग्वेज के वाक्यों के शब्दार्थों का एक आंतरिक ज्ञान प्रतिनिधित्व और तर्क अक्सर पहले क्रम तर्क के रूप में सम्मलित होता है।

इसलिए एक प्रणाली द्वारा लक्षित समझ की चौड़ाई और गहराई प्रणाली की जटिलता और निहित चुनौतियों और इसके साथ निपटने वाले अनुप्रयोगों के प्रकार दोनों को निर्धारित करती है। एक प्रणाली की चौड़ाई इसकी शब्दावली व्याकरण के आकार से मापी जाती है। गहराई को उस डिग्री से मापा जाता है जिस तक इसकी समझ एक धाराप्रवाह देशी समय की समझ के बराबर होती है। सबसे संकीर्ण और सतही तौर पर,अंग्रेजी जैसे कमांड दुभाषियों को न्यूनतम जटिलता की आवश्यकता होती है, लेकिन अनुप्रयोगों की एक छोटी श्रृंखला होती है। संकीर्ण लेकिन गहरी प्रणालियाँ समझने के तंत्र का पता लगाती हैं और मॉडल बनाती हैं, लेकिन उनका अभी भी सीमित उपयोग है। प्रणाली जो किसी दस्तावेज़ की सामग्री को समझने का प्रयास करते हैं जैसे कि साधारण कीवर्ड मिलान से परे एक समाचार रिलीज़ और एक उपयोगकर्ता के लिए इसकी उपयुक्तता का न्याय करने के लिए व्यापक हैं और महत्वपूर्ण जटिलता की आवश्यकता होती है, लेकिन वे अभी भी कुछ उथली ऐसी प्रणालियाँ हैं जो बहुत व्यापक और बहुत गहरी दोनों हैं, कला की वर्तमान स्थिति से परे हैं।

अवयव और वास्तुकला
उपयोग किए गए दृष्टिकोण के अतिरिक्त, अधिकांश प्राकृतिक-भाषा-समझ प्रणालियाँ कुछ सामान्य घटकों को साझा करती हैं। आंतरिक प्रतिनिधित्व में वाक्यों को तोड़ने के लिए प्रणाली को लैंग्वेज के एक शब्दकोष और एक पार्सर और व्याकरण के नियमों की आवश्यकता होती है। एक उपयुक्त सत्तामीमांसा (सूचना विज्ञान) के साथ एक समृद्ध शब्दकोश के निर्माण के लिए महत्वपूर्ण प्रयास की आवश्यकता होती है, उदाहरण के लिए, शब्दतंत्र शब्दकोष के लिए कई व्यक्ति वर्षों के प्रयास की आवश्यकता होती है।

समझ को निर्देशित करने के लिए प्रणाली को शब्दार्थ से सिद्धांत की भी आवश्यकता होती है। किसी भाषा-समझ प्रणाली की व्याख्या क्षमता उसके द्वारा उपयोग किए जाने वाले सिमेंटिक सिद्धांत पर निर्भर करती है। कंप्यूटर-स्वचालित सिमेंटिक व्याख्या के आधार के रूप में लैंग्वेज के प्रतिस्पर्धी सिमेंटिक सिद्धांतों में उनकी उपयुक्तता में विशिष्ट ट्रेड-ऑफ हैं। ये भोले-भाले शब्दार्थ या स्टोकेस्टिक सिमेंटिक विश्लेषण से लेकर संदर्भ से अर्थ निकालने के लिए व्यावहारिकता के उपयोग तक हैं।  सिमेंटिक पार्सर प्राकृतिक-लैंग्वेज के ग्रंथों को औपचारिक अर्थ के प्रतिनिधित्व में परिवर्तित करते हैं।

प्राकृतिक-लैंग्वेज समझ के उन्नत अनुप्रयोग भी उनके ढांचे के भीतर तार्किक निष्कर्ष को सम्मलित करने का प्रयास करते हैं। यह आमतौर पर व्युत्पन्न अर्थ को विधेय तर्क में अभिकथनों के एक सेट में मैप करके प्राप्त किया जाता है, फिर निष्कर्ष पर पहुंचने के लिए तार्किक कटौती का उपयोग किया जाता है। इसलिए, लिस्प (प्रोग्रामिंग भाषा) जैसी कार्यात्मक भाषाओं पर आधारित प्रणालियों को तार्किक अभिकथनों का प्रतिनिधित्व करने के लिए एक उपप्रणाली को सम्मलित करने की आवश्यकता होती है, जबकि तर्क-उन्मुख प्रणालियाँ जैसे कि लैंग्वेज प्रोलॉग का उपयोग करने वाले आमतौर पर अंतर्निहित तार्किक प्रतिनिधित्व ढांचे के विस्तार पर भरोसा करते हैं।

प्राकृतिक लैंग्वेज की समझ में संदर्भ (लैंग्वेज का प्रयोग) का प्रबंधन विशेष चुनौतियां प्रस्तुत कर सकता है। विभिन्न प्रकार के उदाहरणों और प्रतिउदाहरणों में बड़ी विविधता के परिणामस्वरूप संदर्भ के औपचारिक शब्दार्थ (प्राकृतिक भाषा) के कई दृष्टिकोण के रूप में सामने आया है।

यह भी देखें

 * कम्प्यूटेशनल शब्दार्थ
 * अभिकलनात्मक भाषाविज्ञान
 * डिस्कोर्स प्रतिनिधित्व सिद्धांत
 * गहन लिंगुइस्तिंग प्रोसेसिंग
 * प्राकृतिक लैंग्वेज प्रोसेसिंग का इतिहास
 * सूचना निष्कर्षण
 * गणित
 * प्राकृतिक लैंग्वेज प्रोसेसिंग
 * प्राकृतिक लैंग्वेज प्रोग्रामिंग
 * प्राकृतिक-लैंग्वेज यूजर इंटरफेस
 * सिरी (सॉफ्टवेयर)
 * वोल्फरम अल्फा
 * खुली जानकारी निष्कर्षण
 * पार्ट-ऑफ-स्पीच टैगिंग
 * वाक् पहचान

टिप्पणियाँ
[Category:Natural language processi