व्याकरण प्रेरण

व्याकरण प्रेरण (या व्याकरणिक अनुमान) यंत्र अधिगम  में अवलोकनों के एक सेट से एक औपचारिक व्याकरण (आमतौर पर फिर से लिखने वाले नियमों या प्रस्तुतियों (कंप्यूटर विज्ञान) के संग्रह के रूप में या वैकल्पिक रूप से एक परिमित राज्य मशीन या किसी प्रकार की ऑटोमेटन के रूप में) सीखने की प्रक्रिया है, इस प्रकार एक मॉडल का निर्माण होता है जो प्रेक्षित वस्तुओं की विशेषताओं का वर्णन करता है। अधिक आम तौर पर, व्याकरणिक अनुमान मशीन लर्निंग की वह शाखा है जहां इंस्टेंस स्पेस में स्ट्रिंग, पेड़ और ग्राफ़ जैसी अलग-अलग संयोजक वस्तुएं होती हैं।

व्याकरण कक्षाएं
व्याकरणिक अनुमान अक्सर विभिन्न प्रकार की परिमित राज्य मशीनों को सीखने की समस्या पर केंद्रित रहा है (इन दृष्टिकोणों पर विवरण के लिए नियमित भाषाओं का प्रेरण लेख देखें), क्योंकि 1980 के दशक से इस समस्या के लिए कुशल एल्गोरिदम मौजूद हैं।

सदी की शुरुआत के बाद से, इन दृष्टिकोणों को संदर्भ-मुक्त व्याकरण और समृद्ध औपचारिकताओं, जैसे एकाधिक संदर्भ-मुक्त व्याकरण और समानांतर एकाधिक संदर्भ-मुक्त व्याकरण, के अनुमान की समस्या तक विस्तारित किया गया है। व्याकरण के अन्य वर्ग जिनके लिए व्याकरणिक अनुमान का अध्ययन किया गया है, संयोजनात्मक श्रेणीबद्ध व्याकरण हैं, स्टोकेस्टिक संदर्भ-मुक्त व्याकरण, प्रासंगिक व्याकरण और पैटर्न भाषाएँ।

सीखने के मॉडल
सीखने का सबसे सरल रूप वह है जहां सीखने का एल्गोरिदम केवल संबंधित भाषा से लिए गए उदाहरणों का एक सेट प्राप्त करता है: इसका उद्देश्य भाषा को इसके उदाहरणों से सीखना है (और, शायद ही कभी, काउंटर-उदाहरणों से, यानी उदाहरण जो ऐसा करते हैं) भाषा से संबंधित नहीं) हालाँकि, अन्य शिक्षण मॉडलों का अध्ययन किया गया है। अक्सर अध्ययन किया जाने वाला एक विकल्प वह मामला है जहां शिक्षार्थी सटीक क्वेरी लर्निंग मॉडल या एंग्लुइन द्वारा पेश किए गए न्यूनतम पर्याप्त शिक्षक मॉडल के रूप में सदस्यता प्रश्न पूछ सकता है।

तरीके
व्याकरणिक अनुमान के लिए अनेक प्रकार की विधियाँ हैं। दो क्लासिक स्रोत हैं और. समस्या के लिए एक संक्षिप्त अनुभाग भी समर्पित करें, और कई संदर्भ उद्धृत करें। उनके द्वारा प्रस्तुत बुनियादी परीक्षण-और-त्रुटि विधि की चर्चा नीचे की गई है। विशेष रूप से नियमित भाषाओं के उपवर्गों का अनुमान लगाने के तरीकों के लिए, नियमित भाषाओं का प्रेरण देखें। एक और हालिया पाठ्यपुस्तक डे ला हिगुएरा (2010) है, जो नियमित भाषाओं और परिमित राज्य ऑटोमेटा के व्याकरणिक अनुमान के सिद्धांत को शामिल करता है। डी'उलिज़िया, फ़ेरी और ग्रिफ़ोनी एक सर्वेक्षण प्रदान करें जो प्राकृतिक भाषाओं के लिए व्याकरणिक अनुमान विधियों की खोज करता है।

परीक्षण-और-त्रुटि द्वारा व्याकरणिक अनुमान
की धारा 8.7 में प्रस्तावित विधि व्याकरण के नियमों (प्रस्तुतियों) का क्रमिक रूप से अनुमान लगाने और उन्हें सकारात्मक और नकारात्मक टिप्पणियों के विरुद्ध परीक्षण करने का सुझाव देता है। नियम सेट का विस्तार किया गया है ताकि प्रत्येक सकारात्मक उदाहरण उत्पन्न किया जा सके, लेकिन यदि कोई दिया गया नियम सेट भी नकारात्मक उदाहरण उत्पन्न करता है, तो इसे छोड़ दिया जाना चाहिए। इस विशेष दृष्टिकोण को परिकल्पना परीक्षण के रूप में वर्णित किया जा सकता है और मिशेल के संस्करण अंतरिक्ष एल्गोरिदम में कुछ समानता है। वह  पाठ एक सरल उदाहरण प्रदान करता है जो प्रक्रिया को अच्छी तरह से चित्रित करता है, लेकिन अधिक महत्वपूर्ण समस्याओं के लिए इस तरह के एक अनियंत्रित परीक्षण-और-त्रुटि दृष्टिकोण की व्यवहार्यता संदिग्ध है।

आनुवंशिक कलन विधि द्वारा व्याकरणिक अनुमान
विकासवादी एल्गोरिदम का उपयोग करके व्याकरणिक प्रेरण कुछ विकासवादी प्रक्रिया के माध्यम से लक्ष्य भाषा के व्याकरण का प्रतिनिधित्व विकसित करने की प्रक्रिया है। औपचारिक व्याकरण को आसानी से उत्पादन नियमों के वृक्ष (डेटा संरचना) के रूप में दर्शाया जा सकता है जिसे विकासवादी ऑपरेटरों के अधीन किया जा सकता है। इस प्रकार के एल्गोरिदम जॉन बकरी द्वारा प्रवर्तित आनुवंशिक प्रोग्रामिंग प्रतिमान से उत्पन्न होते हैं। सरल औपचारिक भाषाओं पर अन्य प्रारंभिक कार्यों में आनुवंशिक एल्गोरिदम के बाइनरी स्ट्रिंग प्रतिनिधित्व का उपयोग किया गया था, लेकिन विस्तारित बैकस-नौर फॉर्म भाषा में निहित व्याकरणों की अंतर्निहित पदानुक्रमित संरचना ने पेड़ों को अधिक लचीला दृष्टिकोण बना दिया।

कोज़ा ने लिस्प (प्रोग्रामिंग भाषा) कार्यक्रमों को पेड़ों के रूप में दर्शाया। वह वृक्ष संचालकों के मानक सेट के भीतर आनुवंशिक संचालकों के अनुरूप खोजने में सक्षम थे। उदाहरण के लिए, उप-वृक्षों की अदला-बदली आनुवंशिक क्रॉसओवर की संबंधित प्रक्रिया के बराबर है, जहां आनुवंशिक कोड के उप-स्ट्रिंग्स को अगली पीढ़ी के एक व्यक्ति में प्रत्यारोपित किया जाता है। फिटनेस को लिस्प कोड के व्याकरणिक फ़ंक्शन से आउटपुट स्कोर करके मापा जाता है। वृक्ष संरचित लिस्प प्रतिनिधित्व और वृक्षों के रूप में व्याकरण के प्रतिनिधित्व के बीच समान अनुरूपता ने व्याकरण प्रेरण के लिए आनुवंशिक प्रोग्रामिंग तकनीकों के अनुप्रयोग को संभव बना दिया।

व्याकरण प्रेरण के मामले में, उप-वृक्षों का प्रत्यारोपण उत्पादन नियमों की अदला-बदली से मेल खाता है जो कुछ भाषा से वाक्यांशों के विश्लेषण को सक्षम बनाता है। व्याकरण के लिए फिटनेस ऑपरेटर कुछ माप पर आधारित है कि लक्ष्य भाषा से वाक्यों के कुछ समूह को पार्स करने में उसने कितना अच्छा प्रदर्शन किया है। व्याकरण के वृक्ष प्रतिनिधित्व में, उत्पादन नियम का एक टर्मिनल प्रतीक पेड़ के एक पत्ती नोड से मेल खाता है। इसके मूल नोड्स नियम सेट में एक गैर-टर्मिनल प्रतीक (उदाहरण के लिए एक संज्ञा वाक्यांश या एक क्रिया वाक्यांश) से मेल खाते हैं। अंततः, रूट नोड एक वाक्य गैर-टर्मिनल के अनुरूप हो सकता है।

लालची एल्गोरिदम द्वारा व्याकरणिक अनुमान
सभी लालची एल्गोरिदम की तरह, लालची व्याकरण अनुमान एल्गोरिदम, पुनरावृत्त तरीके से, ऐसे निर्णय लेते हैं जो उस स्तर पर सबसे अच्छे लगते हैं। लिए गए निर्णय आम तौर पर नए नियमों के निर्माण, मौजूदा नियमों को हटाने, लागू किए जाने वाले नियम के चुनाव या कुछ मौजूदा नियमों के विलय जैसी चीजों से संबंधित होते हैं। चूँकि 'मंच' और 'सर्वश्रेष्ठ' को परिभाषित करने के कई तरीके हैं, इसलिए कई लालची व्याकरण अनुमान एल्गोरिदम भी हैं।

ये संदर्भ-मुक्त व्याकरण उत्पन्न करने वाले एल्गोरिदम प्रत्येक पढ़े गए प्रतीक के बाद निर्णय लेते हैं:
 * LZW|लेम्पेल-ज़िव-वेल्च एल्गोरिथ्म एक नियतात्मक तरीके से एक संदर्भ-मुक्त व्याकरण बनाता है जैसे कि उत्पन्न व्याकरण के केवल प्रारंभ नियम को संग्रहीत करना आवश्यक है।
 * एल्गोरिथ्म इस प्रकार है और इसके संशोधन।

ये संदर्भ-मुक्त व्याकरण उत्पन्न करने वाले एल्गोरिदम पहले दिए गए पूरे प्रतीक-अनुक्रम को पढ़ते हैं और फिर निर्णय लेना शुरू करते हैं:
 * बाइट जोड़ी एन्कोडिंग और इसके अनुकूलन।

वितरणात्मक शिक्षा
एक और हालिया दृष्टिकोण वितरणात्मक शिक्षा पर आधारित है। इन दृष्टिकोणों का उपयोग करने वाले एल्गोरिदम को संदर्भ-मुक्त व्याकरण और हल्के संदर्भ-संवेदनशील भाषाओं को सीखने के लिए लागू किया गया है और इन व्याकरणों के बड़े उपवर्गों के लिए सही और कुशल साबित हुए हैं।

पैटर्न भाषा (औपचारिक भाषाएं) सीखना
एंग्लुइन एक पैटर्न को Σ से स्थिर प्रतीकों की एक स्ट्रिंग और एक असंयुक्त सेट से 'परिवर्तनीय प्रतीकों' के रूप में परिभाषित करता है। इस तरह के पैटर्न की भाषा इसके सभी गैर-रिक्त ग्राउंड उदाहरणों का सेट है यानी सभी स्ट्रिंग्स जो निरंतर प्रतीकों के गैर-रिक्त स्ट्रिंग्स द्वारा इसके चर प्रतीकों के लगातार प्रतिस्थापन से उत्पन्न होती हैं। एक पैटर्न को स्ट्रिंग्स के एक सीमित इनपुट सेट के लिए वर्णनात्मक कहा जाता है यदि इसकी भाषा इनपुट सेट को शामिल करने वाली सभी पैटर्न भाषाओं के बीच न्यूनतम (सेट समावेशन के संबंध में) है।

एंग्लुइन किसी दिए गए इनपुट स्ट्रिंग सेट के लिए, एक चर x में सभी वर्णनात्मक पैटर्न की गणना करने के लिए एक बहुपद एल्गोरिथ्म देता है। इस प्रयोजन के लिए, वह सभी संभावित प्रासंगिक पैटर्न का प्रतिनिधित्व करने वाला एक ऑटोमेटन बनाती है; शब्द की लंबाई के बारे में परिष्कृत तर्कों का उपयोग करते हुए, जो x के एकमात्र चर होने पर निर्भर करते हैं, राज्य गणना को काफी हद तक कम किया जा सकता है। एर्लेबैक एट अल. एंग्लुइन के पैटर्न लर्निंग एल्गोरिदम का अधिक कुशल संस्करण, साथ ही एक समानांतर संस्करण भी दें। अरिमुरा एट अल. दिखाएँ कि पैटर्न के सीमित संघों से प्राप्त भाषा वर्ग को बहुपद समय में सीखा जा सकता है।

पैटर्न सिद्धांत
उल्फ ग्रेनेंडर द्वारा प्रतिपादित पैटर्न सिद्धांत, दुनिया के ज्ञान को पैटर्न के रूप में वर्णित करने के लिए एक गणितीय औपचारिकता (गणित) है। यह कृत्रिम बुद्धिमत्ता के अन्य दृष्टिकोणों से इस मायने में भिन्न है कि यह पैटर्न को पहचानने और वर्गीकृत करने के लिए एल्गोरिदम और मशीनरी निर्धारित करने से शुरू नहीं होता है; बल्कि, यह पैटर्न अवधारणाओं को सटीक भाषा में व्यक्त करने और पुनर्गठित करने के लिए एक शब्दावली निर्धारित करता है।

नई बीजगणितीय शब्दावली के अलावा, इसका सांख्यिकीय दृष्टिकोण अपने उद्देश्य में नया था: अपने गणितीय कवरेज में व्यापक, पैटर्न सिद्धांत बीजगणित और सांख्यिकी के साथ-साथ स्थानीय टोपोलॉजिकल और वैश्विक एन्ट्रोपिक गुणों तक फैला हुआ है।
 * कृत्रिम उत्तेजनाओं के बजाय वास्तविक दुनिया डेटा का उपयोग करके डेटा सेट के अव्यक्त चर की पहचान करें, जो उस समय आम बात थी।
 * छिपे हुए चरों के लिए पूर्व वितरण तैयार करें और देखे गए चरों के लिए मॉडल बनाएं जो गिब्स-जैसे ग्राफ के शीर्ष बनाते हैं।
 * इन ग्राफ़ों की यादृच्छिकता और परिवर्तनशीलता का अध्ययन करें।
 * पैटर्न की विकृतियों को सूचीबद्ध करके लागू स्टोकेस्टिक मॉडल की बुनियादी कक्षाएं बनाएं।
 * मॉडलों से संश्लेषण (नमूना) करें, न कि केवल इसके साथ संकेतों का विश्लेषण करें।

अनुप्रयोग
व्याकरण प्रेरण के सिद्धांत को प्राकृतिक भाषा प्रसंस्करण के अन्य पहलुओं पर लागू किया गया है, और इसे (कई अन्य समस्याओं के बीच) अर्थपूर्ण विश्लेषण पर भी लागू किया गया है, प्राकृतिक भाषा समझ, उदाहरण-आधारित अनुवाद, भाषा अधिग्रहण के संभाव्य मॉडल, व्याकरण-आधारित कोड|व्याकरण-आधारित संपीड़न, और विसंगति का पता लगाना।

यह भी देखें

 * कृत्रिम व्याकरण सीखना#कृत्रिम बुद्धिमत्ता
 * उदाहरण-आधारित मशीनी अनुवाद
 * आगमनात्मक प्रोग्रामिंग
 * कोलमोगोरोव जटिलता
 * सीमा में भाषा की पहचान
 * सीधी-रेखा व्याकरण
 * वाक्यात्मक पैटर्न पहचान

स्रोत


श्रेणी:आनुवंशिक प्रोग्रामिंग श्रेणी:प्राकृतिक भाषा प्रसंस्करण श्रेणी:कम्प्यूटेशनल भाषाविज्ञान श्रेणी:व्याकरण श्रेणी:अनुमान