संगणकीय भाषाविज्ञान

कम्प्यूटेशनल भाषाविज्ञान 2020 के बाद से या तो प्राकृतिक भाषा प्रसंस्करण या भाषा प्रौद्योगिकी का लगभग पर्याय बन गया है, जिसमें बड़े भाषा मॉडल जैसे गहन शिक्षण दृष्टिकोण शामिल हैं, जिन्होंने इस क्षेत्र में पहले उपयोग किए गए अधिकांश विशिष्ट दृष्टिकोणों को प्रतिस्थापित कर दिया है।

इतिहास
ऐ सर्दी के बाद| सामान्य तौर पर एआई में और विशेष रूप से मशीनी अनुवाद में नियम-आधारित दृष्टिकोण की विफलता, डेविड जी. हेज़ इस क्षेत्र को एआई से अलग करने के लिए इस शब्द को गढ़ा और 1970 और 1980 के दशक में कम्प्यूटेशनल भाषाविज्ञान एसोसिएशन|एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एसीएल) और कम्प्यूटेशनल भाषाविज्ञान पर अंतर्राष्ट्रीय समिति (आईसीसीएल) दोनों की सह-स्थापना की।

उत्पत्ति
1950 के दशक में संयुक्त राज्य अमेरिका में विदेशी भाषाओं, विशेष रूप से रूसी वैज्ञानिक पत्रिकाओं के पाठों को स्वचालित रूप से अंग्रेजी में अनुवाद करने के लिए कंप्यूटर का उपयोग करने के प्रयासों के बाद से यह क्षेत्र कृत्रिम बुद्धिमत्ता के साथ ओवरलैप हो गया। चूँकि नियम-आधारित दृष्टिकोण मनुष्यों की तुलना में अंकगणितीय (व्यवस्थित) गणनाओं को बहुत तेज़ और अधिक सटीक बनाने में सक्षम थे, इसलिए यह सोचा गया कि भाषा को संसाधित करना शुरू करने से पहले यह केवल कुछ ही समय की बात थी। उस समय, ऐसा लगता था कि दोनों भाषाओं के व्याकरण, जिसमें दोनों भाषाओं की आकृति विज्ञान (भाषाविज्ञान) (शब्द रूपों का व्याकरण) और वाक्यविन्यास (वाक्य संरचना का व्याकरण) शामिल हैं, को दोनों के बीच अनुवाद करने में सक्षम होने से पहले सीखने की आवश्यकता है। वाक्यविन्यास को समझने के लिए, किसी को शब्दार्थ और शब्दकोष (या 'शब्दावली') को भी समझना होगा, और यहां तक ​​कि भाषा के उपयोग की व्यावहारिकता को भी समझना होगा। भाषाओं के बीच अनुवाद के प्रयास के रूप में जो शुरू हुआ वह प्राकृतिक भाषा प्रसंस्करण के बहुत व्यापक क्षेत्र में विकसित हुआ।

मॉडलिंग भाषा अधिग्रहण
तथ्य यह है कि भाषा अधिग्रहण के दौरान, बच्चे बड़े पैमाने पर केवल सकारात्मक साक्ष्य के संपर्क में आते हैं, इसका अर्थ यह है कि जो सही रूप है उसके लिए केवल साक्ष्य प्रदान किया जाता है, और जो सही नहीं है उसके लिए कोई प्रमाण नहीं दिया जाता है, उस समय के मॉडलों के लिए यह एक सीमा थी क्योंकि अब उपलब्ध गहन शिक्षण मॉडल 1980 के दशक के अंत में उपलब्ध नहीं थे। यह दिखाया गया है कि भाषाओं को क्रमिक रूप से प्रस्तुत किए गए सरल इनपुट के संयोजन से सीखा जा सकता है क्योंकि बच्चे में बेहतर स्मृति और लंबे समय तक ध्यान केंद्रित करने की क्षमता विकसित होती है, जिसने मानव शिशुओं और बच्चों में भाषा अधिग्रहण की लंबी अवधि की व्याख्या की।

भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है। बच्चों को यथासंभव सीखने में सक्षम बनाने के लिए, एक किफायती मॉडल के आधार पर मॉडल बनाए गए जिसमें कार्यों, धारणाओं और प्रभावों के बीच मानचित्रण बनाया गया और बोले गए शब्दों से जोड़ा गया। महत्वपूर्ण रूप से, ये रोबोट व्याकरणिक संरचना की आवश्यकता के बिना कार्यशील शब्द-से-अर्थ मैपिंग प्राप्त करने में सक्षम थे।

प्राइस समीकरण और पोल्या कलश गतिशीलता का उपयोग करते हुए, शोधकर्ताओं ने एक प्रणाली बनाई है जो न केवल भविष्य के भाषाई विकास की भविष्यवाणी करती है बल्कि आधुनिक भाषाओं के विकासवादी इतिहास की जानकारी भी देती है।

एनोटेट निगम
अंग्रेजी भाषा का सावधानीपूर्वक अध्ययन करने में सक्षम होने के लिए, एक एनोटेटेड टेक्स्ट कॉर्पस की बहुत आवश्यकता थी। पेन ट्रीबैंक सबसे अधिक उपयोग किए जाने वाले कॉर्पोरा में से एक था। इसमें आईबीएम कंप्यूटर मैनुअल, लिखित टेलीफोन वार्तालाप और अन्य पाठ शामिल थे, जिसमें अमेरिकी अंग्रेजी के 4.5 मिलियन से अधिक शब्द शामिल थे, जिन्हें शब्द भेद टैगिंग और सिंटैक्टिक ब्रैकेटिंग दोनों का उपयोग करके एनोटेट किया गया था। कम्प्यूटेशनल तरीकों का उपयोग करते हुए, जापानी वाक्य कॉर्पोरा का विश्लेषण किया गया और वाक्य की लंबाई के संबंध में लॉग-सामान्यता का एक पैटर्न पाया गया।

चॉम्स्की के सिद्धांत
यह पता लगाने का प्रयास किया गया है कि एक शिशु अत्यधिक सामान्यीकृत संस्करण को सीखे बिना और अटके हुए चॉम्स्की के सामान्य रूप में बताए गए गैर-सामान्य व्याकरण को कैसे सीखता है।

यह भी देखें

 * कथा साहित्य में कृत्रिम बुद्धिमत्ता
 * कोलोस्ट्रक्शनल विश्लेषण
 * कम्प्यूटेशनल शब्दावली
 * कम्प्यूटेशनल भाषाविज्ञान (पत्रिका)|कम्प्यूटेशनल भाषाविज्ञान (पत्रिका)
 * भाषा अधिग्रहण के कम्प्यूटेशनल मॉडल
 * कम्प्यूटेशनल शब्दार्थ
 * कम्प्यूटेशनल सांकेतिकता
 * कंप्यूटर सहायता प्राप्त समीक्षा
 * संवाद प्रणाली
 * ग्लोटोक्रोनोलॉजी
 * व्याकरण प्रेरण
 * मानव भाषण परियोजना
 * इंटरनेट भाषाविज्ञान
 * लेक्सिकोसांख्यिकी
 * प्राकृतिक भाषा प्रसंस्करण
 * प्राकृतिक भाषा उपयोगकर्ता इंटरफ़ेस
 * मात्रात्मक भाषाविज्ञान
 * शब्दार्थ संबंधितता
 * सिमेंटोमेट्रिक्स
 * प्रणालीगत कार्यात्मक भाषाविज्ञान
 * अनुवाद स्मृति
 * यूनिवर्सल नेटवर्किंग लैंग्वेज

अग्रिम पठन

 * Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
 * Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
 * Mohamed Zakaria KURDI (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
 * Mohamed Zakaria KURDI (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.
 * Mohamed Zakaria KURDI (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.

बाहरी संबंध

 * Association for Computational Linguistics (ACL)
 * ACL Anthology of research papers
 * ACL Wiki for Computational Linguistics
 * CICLing annual conferences on Computational Linguistics
 * Computational Linguistics – Applications workshop
 * Language Technology World
 * Resources for Text, Speech and Language Processing
 * The Research Group in Computational Linguistics
 * The Research Group in Computational Linguistics