संगणकीय भाषाविज्ञान

कम्प्यूटेशनल भाषाविज्ञान 2020 के दशक से प्राकृतिक भाषा प्रसंस्करण या भाषा प्रौद्योगिकी का लगभग पर्याय बन गया है, जिसमें बड़े भाषा मॉडल जैसे गहन शिक्षण दृष्टिकोण सम्मिलित हैं, जिन्होंने इस क्षेत्र में पहले उपयोग किए गए अधिकांश विशिष्ट दृष्टिकोणों को प्रतिस्थापित कर दिया है।

इतिहास
सामान्यतः आर्टिफिशियल इंटेलिजेंस (एआई ) और विशेष रूप से मशीनी अनुवाद में नियम-आधारित दृष्टिकोण की विफलता के बाद, डेविड हेज़ ने इस क्षेत्र को एआई से अलग करने के लिए इस शब्द को गढ़ा और एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एसीएल) और दोनों की सह-स्थापना की। 1970 और 1980 के दशक में कम्प्यूटेशनल भाषाविज्ञान पर अंतर्राष्ट्रीय समिति (आईसीसीएल) की संस्थापन की।

उत्पत्ति
1950 के दशक में संयुक्त राज्य अमेरिका में विदेशी भाषाओं, विशेष रूप से रूसी वैज्ञानिक पत्रिकाओं के पाठों को स्वचालित रूप से अंग्रेजी में अनुवाद करने के लिए कंप्यूटर का उपयोग करने के प्रयासों के बाद से यह क्षेत्र कृत्रिम बुद्धिमत्ता के साथ ओवरलैप हो गया। चूंकि नियम-आधारित दृष्टिकोण मनुष्यों की तुलना में अंकगणितीय (व्यवस्थित) गणनाओं को बहुत तेज़ और अधिक सटीक बनाने में सक्षम थे, इसलिए यह सोचा गया कि यह भाषा को संसाधित करने से पहले केवल कुछ ही समय की बात थी।

उस समय ऐसा लगता था कि पहले दोनों भाषाओं की व्याकरण, समास विशेषक या शब्द रूपों की व्याकरण और वाक्य संरचना को सीखना आवश्यक है, जिससे आप उन दोनों के बीच अनुवाद कर सकें। वाक्यविन्यास को समझने के लिए, किसी को शब्दार्थ और शब्दकोष या 'शब्दावली' को भी समझना होगा, और यहां तक ​​कि भाषा के उपयोग की व्यावहारिकता को भी समझना होगा। भाषाओं के बीच अनुवाद के प्रयास के रूप में जो प्रारंभ हुआ वह प्राकृतिक भाषा प्रसंस्करण के बहुत व्यापक क्षेत्र में विकसित हुआ।

मॉडलिंग भाषा अधिग्रहण
तथ्य यह है कि भाषा अधिग्रहण के समय, बच्चों को बड़े पैमाने पर केवल सकारात्मक साक्ष्य से अवगत कराया जाता है, जिसका अर्थ है कि जो सही रूप है उसके लिए केवल साक्ष्य प्रदान किया जाता है, और जो सही नहीं है उसके लिए कोई प्रमाण नहीं दिया जाता है, यह एक सीमा थी। उस समय के मॉडल के लिए यह एक सीमा थी क्योंकि अब उपलब्ध गहन शिक्षण मॉडल 1980 के दशक के अंत में उपलब्ध नहीं थे

यह दिखाया गया है कि भाषाओं को सरल इनपुट के संयोजन से सीखा जा सकता है, क्योंकि बच्चे में बेहतर स्मृति और लंबी ध्यान अवधि विकसित होती है, जिसने मानव शिशुओं और बच्चों में भाषा अधिग्रहण की लंबी अवधि को समझाया।

भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है। बच्चों की तरह सीखने की सक्षमता के साथ, मॉडल्स का निर्माण उपलब्धि मॉडल पर आधारित किया गया था, जिसमें क्रियाओं, प्रतिदृश्यों, और प्रभावों के बीच मैपिंग बनाए गए थे और उन्हें बोली गई शब्दों से जोड़ा गया था। महत्वपूर्ण बात यह थी कि ये रोबोट बिना व्याकरणिक संरचना की आवश्यकता के कार्यकारी शब्द-से-अर्थ मैपिंग्स प्राप्त कर सकते थे।

भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है। बच्चों को यथासंभव सीखने में सक्षम बनाने के लिए, एक किफायती मॉडल के आधार पर मॉडल बनाए गए जिसमें कार्यों, धारणाओं और प्रभावों के बीच मानचित्रण बनाया गया और बोले गए शब्दों से जोड़ा गया। महत्वपूर्ण रूप से, ये रोबोट व्याकरणिक संरचना की आवश्यकता के बिना कार्यशील शब्द-से-अर्थ मैपिंग प्राप्त करने में सक्षम थे।

मूल्य समीकरण और पॉलिया अर्ण गतिकी का उपयोग करके, शोधकर्ताओं ने एक प्रणाली बनाई है जो न केवल भविष्य में भाषाई विकास की पूर्वानुमान करती है, बल्कि मॉडर्न-डे भाषाओं के पूर्वानुमान में भी दर्शाने में सहायक होती है।

एनोटेट निगम
अंग्रेजी भाषा का सावधानीपूर्वक अध्ययन करने में सक्षम होने के लिए, एक एनोटेटेड टेक्स्ट कॉर्पस की बहुत आवश्यकता थी। पेन ट्रीबैंक[ सबसे अधिक प्रयोग किए जाने वाले निगमों में से एक था। इसमें आईबीएम कंप्यूटर मैनुअल, लिखित टेलीफोन वार्तालाप और अन्य पाठ सम्मिलित थे, जिसमें अमेरिकी अंग्रेजी के 4.5 मिलियन से अधिक शब्द सम्मिलित थे, जिन्हें पार्ट-ऑफ-स्पीच टैगिंग और सिंटैक्टिक ब्रैकेटिंग दोनों का उपयोग करके एनोटेट किया गया था।

कम्प्यूटेशनल विधियों का उपयोग करते हुए, जापानी वाक्य कॉर्पोरा का विश्लेषण किया गया और वाक्य की लंबाई के संबंध में लॉग-सामान्यता का एक पैटर्न पाया गया

चॉम्स्की के सिद्धांत
यह पता लगाने का प्रयास किया गया है कि एक शिशु "अतिसामान्यीकृत संस्करण" सीखे बिना और "अटकाए हुए" चॉम्स्की के सामान्य रूप में सिद्धांतित "गैर-सामान्य व्याकरण" कैसे सीखता है।

यह भी देखें

 * कथा साहित्य में कृत्रिम बुद्धिमत्ता
 * कोलोस्ट्रक्शनल विश्लेषण
 * कम्प्यूटेशनल शब्दावली
 * कम्प्यूटेशनल भाषाविज्ञान (पत्रिका)
 * भाषा अधिग्रहण के कम्प्यूटेशनल मॉडल
 * कम्प्यूटेशनल शब्दार्थ
 * कम्प्यूटेशनल सांकेतिकता
 * कंप्यूटर सहायता प्राप्त समीक्षा
 * संवाद प्रणाली
 * ग्लोटोक्रोनोलॉजी
 * व्याकरण प्रेरण
 * मानव भाषण परियोजना
 * इंटरनेट भाषाविज्ञान
 * लेक्सिकोसांख्यिकी
 * प्राकृतिक भाषा प्रसंस्करण
 * प्राकृतिक भाषा उपयोगकर्ता इंटरफ़ेस
 * मात्रात्मक भाषाविज्ञान
 * शब्दार्थ संबंधितता
 * सिमेंटोमेट्रिक्स
 * प्रणालीगत कार्यात्मक भाषाविज्ञान
 * अनुवाद स्मृति
 * यूनिवर्सल नेटवर्किंग लैंग्वेज

अग्रिम पठन

 * Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
 * Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
 * Mohamed Zakaria KURDI (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
 * Mohamed Zakaria KURDI (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.
 * Mohamed Zakaria KURDI (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.

बाहरी संबंध

 * Association for Computational Linguistics (ACL)
 * ACL Anthology of research papers
 * ACL Wiki for Computational Linguistics
 * CICLing annual conferences on Computational Linguistics
 * Computational Linguistics – Applications workshop
 * Language Technology World
 * Resources for Text, Speech and Language Processing
 * The Research Group in Computational Linguistics
 * The Research Group in Computational Linguistics