प्राकृतिक-भाषा की समझ

प्राकृतिक-भाषा समझ (NLU) या प्राकृतिक-भाषा व्याख्या (NLI) कृत्रिम होशियारी  में  प्राकृतिक भाषा प्रसंस्करण  का एक सबटॉपिक है जो मशीन  समझबूझ कर पढ़ना  से संबंधित है। प्राकृतिक-भाषा की समझ को एआई-कठिन समस्या माना जाता है। स्वचालित तर्क के लिए इसके आवेदन के कारण इस क्षेत्र में काफी व्यावसायिक हित हैं, मशीन अनुवाद, सवाल जवाब, समाचार-एकत्रीकरण, पाठ वर्गीकरण, वॉयस यूजर इंटरफेस | वॉयस-एक्टिवेशन, आर्काइविंग और बड़े पैमाने पर सामग्री विश्लेषण।

इतिहास
कार्यक्रम छात्र (कंप्यूटर प्रोग्राम), 1964 में डेनियल बोब्रो द्वारा एमआईटी में पीएचडी शोध प्रबंध के लिए लिखा गया, कंप्यूटर द्वारा प्राकृतिक भाषा को समझने के शुरुआती ज्ञात प्रयासों में से एक है।    जॉन मैक्कार्थी (कंप्यूटर वैज्ञानिक) द्वारा कृत्रिम बुद्धिमत्ता शब्द गढ़े जाने के आठ साल बाद, बोब्रो के शोध प्रबंध (कंप्यूटर समस्या समाधान प्रणाली के लिए प्राकृतिक भाषा इनपुट शीर्षक) ने दिखाया कि कैसे एक कंप्यूटर बीजगणित शब्द समस्याओं को हल करने के लिए सरल प्राकृतिक भाषा इनपुट को समझ सकता है।

एक साल बाद, 1965 में, MIT में जोसेफ व्हीटबाउम ने एलिज़ा लिखा, एक इंटरैक्टिव प्रोग्राम जो किसी भी विषय पर अंग्रेजी में संवाद करता था, सबसे लोकप्रिय मनोचिकित्सा थी। ELIZA ने डिब्बाबंद वाक्यांशों में प्रमुख शब्दों के सरल पार्सिंग और प्रतिस्थापन द्वारा काम किया और वेइज़ेनबाम ने कार्यक्रम को वास्तविक दुनिया के ज्ञान या एक समृद्ध शब्दकोश का डेटाबेस देने की समस्या को दरकिनार कर दिया। फिर भी ELIZA ने एक खिलौना परियोजना के रूप में आश्चर्यजनक लोकप्रियता हासिल की और इसे Ask.com द्वारा उपयोग की जाने वाली मौजूदा व्यावसायिक प्रणालियों के लिए एक बहुत ही प्रारंभिक अग्रदूत के रूप में देखा जा सकता है। 1969 में, स्टैनफोर्ड विश्वविद्यालय में रोजर शंक  ने प्राकृतिक-भाषा की समझ के लिए वैचारिक निर्भरता सिद्धांत पेश किया। सिडनी लैम्ब के काम से आंशिक रूप से प्रभावित यह मॉडल, येल विश्वविद्यालय में शैंक के छात्रों, जैसे रॉबर्ट विलेंस्की, वेंडी लेहर्ट और जेनेट कोलोडनर द्वारा व्यापक रूप से उपयोग किया गया था।

1970 में, विलियम आरोन वुड्स | विलियम ए। वुड्स ने प्राकृतिक भाषा इनपुट का प्रतिनिधित्व करने के लिए संवर्धित संक्रमण नेटवर्क (एटीएन) की शुरुआत की। वाक्यांश संरचना नियमों के बजाय एटीएन ने परिमित राज्य ऑटोमेटा के समतुल्य सेट का उपयोग किया जिसे पुनरावर्ती रूप से कहा जाता था। एटीएन और उनके अधिक सामान्य प्रारूप जिन्हें सामान्यीकृत एटीएन कहा जाता है, का उपयोग कई वर्षों तक किया जाता रहा।

1971 में, टेरी विनोग्रैड ने MIT में अपनी PhD थीसिस के लिए SHRDLU लिखना समाप्त किया। SHRDLU वस्तुओं को स्थानांतरित करने के लिए एक रोबोटिक हाथ को निर्देशित करने के लिए बच्चों के ब्लॉक की प्रतिबंधित दुनिया में सरल अंग्रेजी वाक्यों को समझ सकता है। SHRDLU के सफल प्रदर्शन ने क्षेत्र में निरंतर अनुसंधान के लिए महत्वपूर्ण गति प्रदान की। संज्ञानात्मक प्रक्रिया के रूप में अपनी पुस्तक लैंग्वेज के प्रकाशन के साथ विनोग्रैड ने क्षेत्र में एक बड़ा प्रभाव जारी रखा। स्टैनफोर्ड में, विनोग्राड बाद में  लेरी पेज  को सलाह देंगे, जिन्होंने Google की सह-स्थापना की थी। 1970 और 1980 के दशक में, श्री इंटरनेशनल में प्राकृतिक भाषा प्रसंस्करण समूह ने क्षेत्र में अनुसंधान और विकास जारी रखा। अनुसंधान पर आधारित कई व्यावसायिक प्रयास किए गए, उदाहरण के लिए, 1982 में गैरी हेंड्रिक्स ने व्यक्तिगत कंप्यूटरों पर डेटाबेस प्रश्नों के लिए एक प्राकृतिक भाषा इंटरफ़ेस विकसित करने के लिए मूल रूप से एक कंपनी के रूप में सिमेंटेक कॉर्पोरेशन का गठन किया। हालाँकि, माउस-चालित ग्राफिकल यूज़र इंटरफ़ेस  के आगमन के साथ, सिमेंटेक ने दिशा बदल दी। उसी समय के आसपास कई अन्य व्यावसायिक प्रयास शुरू किए गए, उदाहरण के लिए, आर्टिफिशियल इंटेलिजेंस कॉरपोरेशन में लैरी आर हैरिस और कॉग्निटिव सिस्टम्स कॉर्प में रोजर शैंक और उनके छात्र।  1983 में, माइकल डायर ने येल में BORIS सिस्टम विकसित किया, जो रोजर शैंक और W. G. लेहर्ट के काम के समान था। तीसरी सहस्राब्दी में आईबीएम वाटसन (कंप्यूटर) जैसे टेक्स्ट वर्गीकरण के लिए मशीन लर्निंग का उपयोग करने वाली प्रणालियों की शुरूआत देखी गई। हालाँकि, विशेषज्ञ इस बात पर बहस करते हैं कि ऐसी प्रणालियाँ कितनी समझ प्रदर्शित करती हैं: उदाहरण के लिए, जॉन सियरल के अनुसार, वाटसन ने प्रश्नों को समझा भी नहीं। जॉन बॉल (संज्ञानात्मक वैज्ञानिक) | जॉन बॉल, संज्ञानात्मक वैज्ञानिक और पेटोम थ्योरी के आविष्कारक, इस आकलन का समर्थन करते हैं. सेवा और ई-कॉमर्स में मानव उत्पादकता का समर्थन करने के लिए प्राकृतिक भाषा प्रसंस्करण ने अनुप्रयोगों के लिए पैठ बना ली है, लेकिन आवेदन के दायरे को कम करके यह काफी हद तक संभव हो गया है। मानव भाषा में कुछ अनुरोध करने के हजारों तरीके हैं जो अभी भी पारंपरिक प्राकृतिक भाषा प्रसंस्करण को चुनौती देते हैं। मशीनों के साथ एक सार्थक बातचीत तभी संभव है जब हम वाक्य के दूसरे शब्दों के अर्थ के आधार पर हर शब्द का सही अर्थ से मिलान करें - ठीक उसी तरह जैसे एक 3 साल का बच्चा बिना अनुमान लगाए करता है।

क्षेत्र और संदर्भ
छत्र शब्द प्राकृतिक-भाषा की समझ को कंप्यूटर अनुप्रयोगों के विविध सेट पर लागू किया जा सकता है, जिसमें छोटे, अपेक्षाकृत सरल कार्य जैसे कि रोबोट को जारी किए गए छोटे आदेश, अत्यधिक जटिल प्रयास जैसे समाचार पत्रों के लेखों या कविता अंशों की पूर्ण समझ शामिल हैं। कई वास्तविक दुनिया के अनुप्रयोग दो चरम सीमाओं के बीच आते हैं, उदाहरण के लिए ईमेल के स्वचालित विश्लेषण के लिए दस्तावेज़ वर्गीकरण और एक निगम में एक उपयुक्त विभाग के लिए उनके मार्ग को पाठ की गहन समझ की आवश्यकता नहीं होती है, लेकिन निश्चित स्कीमाटा के साथ डेटाबेस तालिकाओं के लिए सरल प्रश्नों के प्रबंधन की तुलना में बहुत बड़ी शब्दावली और अधिक विविध सिंटैक्स से निपटने की आवश्यकता है।

वर्षों के दौरान प्राकृतिक भाषा या कंप्यूटरों को प्रस्तुत अंग्रेजी जैसे वाक्यों को संसाधित करने के विभिन्न प्रयास जटिलता के अलग-अलग अंशों पर हुए हैं। कुछ प्रयासों के परिणामस्वरूप गहरी समझ वाली प्रणालियाँ नहीं बन पाई हैं, लेकिन समग्र प्रणाली उपयोगिता में मदद मिली है। उदाहरण के लिए, वेन रेटलिफ़  ने मूल रूप से स्टार ट्रेक में अंग्रेजी बोलने वाले कंप्यूटर की नकल करने के लिए अंग्रेजी जैसे सिंटैक्स के साथ वल्कन प्रोग्राम विकसित किया था। वल्कन बाद में dBase सिस्टम बन गया, जिसके उपयोग में आसान सिंटैक्स ने व्यक्तिगत कंप्यूटर डेटाबेस उद्योग को प्रभावी ढंग से लॉन्च किया।  उपयोग में आसान या अंग्रेजी जैसे सिंटैक्स वाली प्रणालियाँ, हालांकि, उन प्रणालियों से काफी अलग हैं जो एक समृद्ध शब्दकोश का उपयोग करती हैं और इसमें प्राकृतिक भाषा के वाक्यों के शब्दार्थों का एक आंतरिक ज्ञान प्रतिनिधित्व और तर्क (अक्सर पहले क्रम तर्क के रूप में) शामिल होता है।

इसलिए एक प्रणाली द्वारा लक्षित समझ की चौड़ाई और गहराई प्रणाली की जटिलता (और निहित चुनौतियों) और इसके साथ निपटने वाले अनुप्रयोगों के प्रकार दोनों को निर्धारित करती है। एक प्रणाली की चौड़ाई इसकी शब्दावली और व्याकरण के आकार से मापी जाती है। गहराई को उस डिग्री से मापा जाता है जिस तक इसकी समझ एक धाराप्रवाह देशी वक्ता की समझ के बराबर होती है। सबसे संकीर्ण और सतही तौर पर, अंग्रेजी जैसे कमांड दुभाषियों को न्यूनतम जटिलता की आवश्यकता होती है, लेकिन अनुप्रयोगों की एक छोटी श्रृंखला होती है। संकीर्ण लेकिन गहरी प्रणालियाँ समझ के तंत्र का पता लगाती हैं और मॉडल बनाती हैं, लेकिन उनका अभी भी सीमित उपयोग है। सिस्टम जो किसी दस्तावेज़ की सामग्री को समझने का प्रयास करते हैं जैसे कि साधारण कीवर्ड मिलान से परे एक समाचार रिलीज़ और एक उपयोगकर्ता के लिए इसकी उपयुक्तता का न्याय करने के लिए व्यापक हैं और महत्वपूर्ण जटिलता की आवश्यकता होती है, लेकिन वे अभी भी कुछ उथले हैं। ऐसी प्रणालियाँ जो बहुत व्यापक और बहुत गहरी दोनों हैं, कला की वर्तमान स्थिति से परे हैं।

अवयव और वास्तुकला
उपयोग किए गए दृष्टिकोण के बावजूद, अधिकांश प्राकृतिक-भाषा-समझ प्रणालियाँ कुछ सामान्य घटकों को साझा करती हैं। आंतरिक प्रतिनिधित्व में वाक्यों को तोड़ने के लिए प्रणाली को भाषा के एक शब्दकोष और एक पार्सर और व्याकरण के नियमों की आवश्यकता होती है। एक उपयुक्त सत्तामीमांसा (सूचना विज्ञान) के साथ एक समृद्ध शब्दकोश के निर्माण के लिए महत्वपूर्ण प्रयास की आवश्यकता होती है, उदाहरण के लिए, शब्दतंत्र  शब्दकोष के लिए कई व्यक्ति-वर्षों के प्रयास की आवश्यकता होती है। समझ को निर्देशित करने के लिए प्रणाली को शब्दार्थ से सिद्धांत की भी आवश्यकता होती है। किसी भाषा-समझ प्रणाली की व्याख्या क्षमता उसके द्वारा उपयोग किए जाने वाले सिमेंटिक सिद्धांत पर निर्भर करती है। कंप्यूटर-स्वचालित सिमेंटिक व्याख्या के आधार के रूप में भाषा के प्रतिस्पर्धी सिमेंटिक सिद्धांतों में उनकी उपयुक्तता में विशिष्ट ट्रेड-ऑफ हैं। ये भोले-भाले शब्दार्थ या स्टोकेस्टिक सिमेंटिक विश्लेषण से लेकर संदर्भ से अर्थ निकालने के लिए व्यावहारिकता के उपयोग तक हैं।  सिमेंटिक पार्सर प्राकृतिक-भाषा के ग्रंथों को औपचारिक अर्थ के प्रतिनिधित्व में परिवर्तित करते हैं। प्राकृतिक-भाषा समझ के उन्नत अनुप्रयोग भी उनके ढांचे के भीतर तार्किक निष्कर्ष को शामिल करने का प्रयास करते हैं। यह आमतौर पर व्युत्पन्न अर्थ को विधेय तर्क में अभिकथनों के एक सेट में मैप करके प्राप्त किया जाता है, फिर निष्कर्ष पर पहुंचने के लिए तार्किक कटौती का उपयोग किया जाता है। इसलिए, लिस्प (प्रोग्रामिंग भाषा) जैसी कार्यात्मक भाषाओं पर आधारित प्रणालियों को तार्किक अभिकथनों का प्रतिनिधित्व करने के लिए एक उपप्रणाली को शामिल करने की आवश्यकता होती है, जबकि तर्क-उन्मुख प्रणालियाँ जैसे कि भाषा प्रोलॉग का उपयोग करने वाले आम तौर पर अंतर्निहित तार्किक प्रतिनिधित्व ढांचे के विस्तार पर भरोसा करते हैं। प्राकृतिक भाषा की समझ में संदर्भ (भाषा का प्रयोग) का प्रबंधन विशेष चुनौतियां पेश कर सकता है। उदाहरणों और काउंटर उदाहरणों की एक बड़ी विविधता के परिणामस्वरूप संदर्भ के औपचारिक शब्दार्थ (प्राकृतिक भाषा) के लिए कई दृष्टिकोण हैं, प्रत्येक विशिष्ट ताकत और कमजोरियों के साथ।

यह भी देखें

 * कम्प्यूटेशनल शब्दार्थ
 * अभिकलनात्मक भाषाविज्ञान
 * प्रवचन प्रतिनिधित्व सिद्धांत
 * गहन भाषाई प्रसंस्करण
 * प्राकृतिक भाषा प्रसंस्करण का इतिहास
 * सूचना निष्कर्षण
 * गणित
 * प्राकृतिक भाषा प्रसंस्करण |नेचुरल-लैंग्वेज प्रोसेसिंग
 * प्राकृतिक भाषा प्रोग्रामिंग
 * प्राकृतिक-भाषा यूजर इंटरफेस
 * सिरी (सॉफ्टवेयर)
 * वोल्फरम अल्फा
 * खुली जानकारी निष्कर्षण
 * पार्ट-ऑफ-स्पीच टैगिंग
 * वाक् पहचान

टिप्पणियाँ
[Category:Natural language processi