व्याकरण प्रेरण

व्याकरण प्रेरण या व्याकरणिक अनुमान मशीन लर्निंग में अवलोकनों के सेट से औपचारिक व्याकरण (सामान्यतः फिर से लिखने वाले नियमों या प्रस्तुतियों कंप्यूटर विज्ञान के संग्रह के रूप में या वैकल्पिक रूप से परिमित स्तर मशीन या किसी प्रकार की ऑटोमेटन के रूप में) सीखने की प्रक्रिया है, इस प्रकार मॉडल का निर्माण होता है जो प्रेक्षित वस्तुओं की विशेषताओं का वर्णन करता है। इस प्रकार अधिक सामान्यतः, व्याकरणिक अनुमान मशीन लर्निंग की वह शाखा है जहां इंस्टेंस स्पेस में स्ट्रिंग, ट्री और ग्राफ़ जैसी अलग-अलग संयोजक वस्तुएं होती हैं।

व्याकरण कक्षाएं
व्याकरणिक अनुमान अधिकांशतः विभिन्न प्रकार की परिमित स्तर मशीनों को सीखने की समस्या पर केंद्रित रहा है (इन दृष्टिकोणों पर विवरण के लिए नियमित भाषाओं का प्रेरण लेख देखें), क्योंकि 1980 के दशक से इस समस्या के लिए कुशल एल्गोरिदम उपस्थित हैं।

शताब्दी की प्रारंभ के पश्चात्, इन दृष्टिकोणों को संदर्भ-मुक्त व्याकरण और समृद्ध औपचारिकताओं, जैसे एकाधिक संदर्भ-मुक्त व्याकरण और समानांतर एकाधिक संदर्भ-मुक्त व्याकरण, अनुमान की समस्या तक विस्तारित किया गया है। इस प्रकार व्याकरण के अन्य वर्ग जिनके लिए व्याकरणिक अनुमान का अध्ययन किया गया है, इस प्रकार संयोजनात्मक श्रेणीबद्ध व्याकरण हैं, स्टोकेस्टिक संदर्भ-मुक्त व्याकरण, प्रासंगिक व्याकरण और क्रम भाषाएँ होती है।

शिक्षण मॉडल
सीखने का सबसे सरल रूप वह है जहां सीखने का एल्गोरिदम केवल संबंधित भाषा से लिए गए उदाहरणों का सेट प्राप्त करता है: इसका उद्देश्य भाषा को इसके उदाहरणों से सीखना है (और, संभवतः ही कभी, काउंटर-उदाहरणों से, अर्थात उदाहरण जो ऐसा करते हैं) भाषा से संबंधित नहीं)

चूँकि, अन्य शिक्षण मॉडलों का अध्ययन किया गया है। इस प्रकार अधिकांशतः अध्ययन किया जाने वाला विकल्प वह स्थिति है जहां शिक्षार्थी स्पष्ट क्वेरी लर्निंग मॉडल या एंग्लुइन द्वारा प्रस्तुत किए गए न्यूनतम पर्याप्त शिक्षक मॉडल के रूप में सदस्यता प्रश्न पूछ सकता है।

पद्धतियाँ
व्याकरणिक अनुमान के लिए अनेक प्रकार की विधियाँ हैं। दो क्लासिक स्रोत हैं और. समस्या के लिए संक्षिप्त अनुभाग भी समर्पित करें, और इस प्रकार कई संदर्भ उद्धृत करें। इस प्रकार उनके द्वारा प्रस्तुत मूलभूत परीक्षण-और-त्रुटि विधि की चर्चा नीचे की गई है। विशेष रूप से नियमित भाषाओं के उपवर्गों का अनुमान लगाने के विधियों के लिए, नियमित भाषाओं का प्रेरण देखें। और वर्तमान पाठ्यपुस्तक डे ला हिगुएरा (2010) है, जो नियमित भाषाओं और परिमित स्तर ऑटोमेटा के व्याकरणिक अनुमान के सिद्धांत को सम्मिलित करता है। इस प्रकार डी'उलिज़िया, फ़ेरी और ग्रिफ़ोनी सर्वेक्षण प्रदान करें जो प्राकृतिक भाषाओं के लिए व्याकरणिक अनुमान विधियों की खोज करता है।

परीक्षण-और-त्रुटि द्वारा व्याकरणिक अनुमान
की धारा 8.7 में प्रस्तावित विधि व्याकरण के नियमों (प्रस्तुतियों) का क्रमिक रूप से अनुमान लगाने और उन्हें सकारात्मक और नकारात्मक टिप्पणियों के विरुद्ध परीक्षण करने का सुझाव देता है। इस प्रकार नियम सेट का विस्तार किया गया है जिससे प्रत्येक सकारात्मक उदाहरण उत्पन्न किया जा सके, किन्तु यदि कोई दिया गया नियम सेट भी नकारात्मक उदाहरण उत्पन्न करता है, जिससे इसे छोड़ दिया जाना चाहिए। इस विशेष दृष्टिकोण को परिकल्पना परीक्षण के रूप में वर्णित किया जा सकता है और मिशेल के संस्करण अंतरिक्ष एल्गोरिदम में कुछ समानता है। इस प्रकार वह  टेक्स्ट सरल उदाहरण प्रदान करता है जो प्रक्रिया को अच्छी तरह से चित्रित करता है, किन्तु अधिक महत्वपूर्ण समस्याओं के लिए इस तरह के अनियंत्रित परीक्षण-और-त्रुटि दृष्टिकोण की व्यवहार्यता संदिग्ध है।

आनुवंशिक कलन विधि द्वारा व्याकरणिक अनुमान
विकासवादी एल्गोरिदम का उपयोग करके व्याकरणिक प्रेरण कुछ विकासवादी प्रक्रिया के माध्यम से लक्ष्य भाषा के व्याकरण का प्रतिनिधित्व विकसित करने की प्रक्रिया है। औपचारिक व्याकरण को सरलता से उत्पादन नियमों के ट्री (डेटा संरचना) के रूप में दर्शाया जा सकता है इस प्रकार जिसे विकासवादी संचालको के अधीन किया जा सकता है। इस प्रकार के एल्गोरिदम जॉन कोज़ा द्वारा प्रवर्तित आनुवंशिक प्रोग्रामिंग प्रतिमान से उत्पन्न होते हैं। इस प्रकार सरल औपचारिक भाषाओं पर अन्य प्रारंभिक कार्यों में आनुवंशिक एल्गोरिदम के बाइनरी स्ट्रिंग प्रतिनिधित्व का उपयोग किया गया था, किन्तु विस्तारित बैकस-नौर फॉर्म भाषा में निहित व्याकरणों की अंतर्निहित पदानुक्रमित संरचना ने ट्री को अधिक लचीला दृष्टिकोण बना दिया था।

कोज़ा ने लिस्प (प्रोग्रामिंग भाषा) प्रोग्राम को ट्री के रूप में दर्शाया था। वह ट्री संचालकों के मानक सेट के अन्दर आनुवंशिक संचालकों के अनुरूप खोजने में सक्षम थे। उदाहरण के लिए, उप-ट्री की विनिमय आनुवंशिक क्रॉसओवर की संबंधित प्रक्रिया के सामान्य है, इस प्रकार जहां आनुवंशिक कोड के उप-स्ट्रिंग्स को अगली पीढ़ी के व्यक्ति में प्रत्यारोपित किया जाता है। इस प्रकार फिटनेस को लिस्प कोड के व्याकरणिक फ़ंक्शन से आउटपुट स्कोर करके मापा जाता है। ट्री संरचित लिस्प प्रतिनिधित्व और ट्री के रूप में व्याकरण के प्रतिनिधित्व के बीच समान अनुरूपता ने व्याकरण प्रेरण के लिए आनुवंशिक प्रोग्रामिंग तकनीकों के अनुप्रयोग को संभव बना दिया था।

व्याकरण प्रेरण के स्थिति में, उप-ट्री का प्रत्यारोपण उत्पादन नियमों की विनिमय से मेल खाता है जो कुछ भाषा से वाक्यांशों के विश्लेषण को सक्षम बनाता है। व्याकरण के लिए फिटनेस संचालक कुछ माप पर आधारित है कि लक्ष्य भाषा से वाक्यों के कुछ समूह को पार्स करने में उसने कितना अच्छा प्रदर्शन किया है। इस प्रकार व्याकरण के ट्री प्रतिनिधित्व में, उत्पादन नियम का टर्मिनल प्रतीक ट्री के पत्ती नोड से मेल खाता है। इसके मूल नोड्स नियम सेट में गैर-टर्मिनल प्रतीक (उदाहरण के लिए संज्ञा वाक्यांश या क्रिया वाक्यांश) से मेल खाते हैं। अंततः, रूट नोड वाक्य गैर-टर्मिनल के अनुरूप हो सकता है।

ग्रीडी एल्गोरिदम द्वारा व्याकरणिक अनुमान
सभी ग्रीडी एल्गोरिदम की तरह, ग्रीडी व्याकरण अनुमान एल्गोरिदम, पुनरावृत्त विधि से, ऐसे निर्णय लेते हैं जो उस स्तर पर सबसे अच्छे लगते हैं। लिए गए निर्णय सामान्यतः नए नियमों के निर्माण, उपस्थिता नियमों को हटाने, प्रयुक्त किए जाने वाले नियम के चुनाव या कुछ उपस्थिता नियमों के विलय जैसी चीजों से संबंधित होते हैं।

चूँकि 'फोरम' और 'सर्वश्रेष्ठ' को परिभाषित करने के कई विधि हैं, इसलिए कई ग्रीडी व्याकरण अनुमान एल्गोरिदम भी हैं।

ये संदर्भ-मुक्त व्याकरण उत्पन्न करने वाले एल्गोरिदम प्रत्येक पढ़े गए प्रतीक के बाद निर्णय लेते हैं:
 * एलजेडडब्ल्यू या लेम्पेल-ज़िव-वेल्च एल्गोरिथ्म नियतात्मक विधि से संदर्भ-मुक्त व्याकरण बनाता है जैसे कि उत्पन्न व्याकरण के केवल प्रारंभ नियम को संग्रहीत करना आवश्यक है।
 * सेक्विटुर और इसके संशोधन।

ये संदर्भ-मुक्त व्याकरण उत्पन्न करने वाले एल्गोरिदम पहले दिए गए पूरे प्रतीक-अनुक्रम को पढ़ते हैं और फिर निर्णय लेना प्रारंभ करते हैं:
 * बाइट जोड़ी एन्कोडिंग और इसके अनुकूलन।

वितरणात्मक शिक्षा
एक और वर्तमान दृष्टिकोण वितरणात्मक शिक्षा पर आधारित है। इन दृष्टिकोणों का उपयोग करने वाले एल्गोरिदम को संदर्भ-मुक्त व्याकरण और इस प्रकार हल्के संदर्भ-संवेदनशील भाषाओं को सीखने के लिए प्रयुक्त किया गया है और इन व्याकरणों के बड़े उपवर्गों के लिए सही और कुशल सिद्ध हुए हैं।

क्रम भाषा (औपचारिक भाषाएं) सीखना
एंग्लुइन क्रम को Σ से स्थिर प्रतीकों की स्ट्रिंग और असंयुक्त सेट से 'परिवर्तनीय प्रतीकों' के रूप में परिभाषित करता है। इस तरह के क्रम की भाषा इसके सभी गैर-रिक्त ग्राउंड उदाहरणों का सेट है अर्थात सभी स्ट्रिंग्स जो निरंतर प्रतीकों के गैर-रिक्त स्ट्रिंग्स द्वारा इसके चर प्रतीकों के निरंतर प्रतिस्थापन से उत्पन्न होती हैं।

एक क्रम को स्ट्रिंग्स के सीमित इनपुट सेट के लिए वर्णनात्मक कहा जाता है इस प्रकार यदि इसकी भाषा इनपुट सेट को सम्मिलित करने वाली सभी क्रम भाषाओं के बीच न्यूनतम (सेट समावेशन के संबंध में) है।

एंग्लुइन किसी दिए गए इनपुट स्ट्रिंग सेट के लिए, चर x में सभी वर्णनात्मक क्रम की गणना करने के लिए बहुपद एल्गोरिथ्म देता है। इस प्रयोजन के लिए, वह सभी संभावित प्रासंगिक क्रम का प्रतिनिधित्व करने वाला ऑटोमेटन बनाती है; इस प्रकार शब्द की लंबाई के बारे में परिष्कृत तर्कों का उपयोग करते हुए, जो x के एकमात्र चर होने पर निर्भर करते हैं, इस प्रकार स्तर गणना को अधिक सीमा तक कम किया जा सकता है।

एर्लेबैक एट अल. एंग्लुइन के क्रम लर्निंग एल्गोरिदम का अधिक कुशल संस्करण, साथ ही समानांतर संस्करण भी दें। इस प्रकार अरिमुरा एट अल. दिखाएँ कि क्रम के सीमित संघों से प्राप्त भाषा वर्ग को बहुपद समय में सीखा जा सकता है।

क्रम सिद्धांत
उल्फ ग्रेनेंडर द्वारा प्रतिपादित क्रम सिद्धांत, संसार के ज्ञान को क्रम के रूप में वर्णित करने के लिए गणितीय औपचारिकता (गणित) है। इस प्रकार यह कृत्रिम बुद्धिमत्ता के अन्य दृष्टिकोणों से इस तथ्य में भिन्न है कि यह क्रम को पहचानने और वर्गीकृत करने के लिए एल्गोरिदम और मशीनरी निर्धारित करने से प्रारंभ नहीं होता है; किन्तु, यह क्रम अवधारणाओं को स्पष्ट भाषा में व्यक्त करने और पुनर्गठित करने के लिए शब्दावली निर्धारित करता है।

नई बीजगणितीय शब्दावली के अतिरिक्त, इसका सांख्यिकीय दृष्टिकोण अपने उद्देश्य में नया था: अपने गणितीय कवरेज में व्यापक, क्रम सिद्धांत बीजगणित और सांख्यिकी के साथ-साथ स्थानीय टोपोलॉजिकल और वैश्विक एन्ट्रोपिक गुणों तक फैला हुआ है।
 * कृत्रिम उत्तेजनाओं के अतिरिक्त वास्तविक संसार डेटा का उपयोग करके डेटा सेट के अव्यक्त चर की पहचान करें, जो उस समय सामान्य बात थी।
 * छिपे हुए चरों के लिए पूर्व वितरण तैयार करें और देखे गए चरों के लिए मॉडल बनाएं जो गिब्स-जैसे ग्राफ के शीर्ष बनाते हैं।
 * इन ग्राफ़ों की यादृच्छिकता और परिवर्तनशीलता का अध्ययन करें।
 * क्रम की विकृतियों को सूचीबद्ध करके प्रयुक्त स्टोकेस्टिक मॉडल की मूलभूत कक्षाएं बनाएं।
 * मॉडलों से संश्लेषण (नमूना) करें, न कि केवल इसके साथ संकेतों का विश्लेषण करें।

अनुप्रयोग
व्याकरण प्रेरण के सिद्धांत को प्राकृतिक भाषा प्रसंस्करण के अन्य तथ्यों पर प्रयुक्त किया गया है, और इसे (कई अन्य समस्याओं के बीच) अर्थपूर्ण विश्लेषण पर भी प्रयुक्त किया गया है, इस प्रकार प्राकृतिक भाषा समझ, उदाहरण-आधारित अनुवाद, भाषा अधिग्रहण के संभाव्य मॉडल, व्याकरण-आधारित कोड या व्याकरण-आधारित संपीड़न, और विसंगति का पता लगाना है।

यह भी देखें

 * कृत्रिम व्याकरण सीखना कृत्रिम बुद्धिमत्ता
 * उदाहरण-आधारित मशीनी अनुवाद
 * आगमनात्मक प्रोग्रामिंग
 * कोलमोगोरोव जटिलता
 * सीमा में भाषा की पहचान
 * सीधी-रेखा व्याकरण
 * वाक्यात्मक क्रम पहचान

स्रोत


श्रेणी:आनुवंशिक प्रोग्रामिंग श्रेणी:प्राकृतिक भाषा प्रसंस्करण श्रेणी:कम्प्यूटेशनल भाषाविज्ञान श्रेणी:व्याकरण श्रेणी:अनुमान