सूचना निष्कर्षण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(6 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Machine reading of unstructured documents}}
{{Short description|Machine reading of unstructured documents}}
सूचना निष्कर्षण(आईई) [[असंरचित डेटा]] और/या अर्ध-संरचित [[मशीन-पठनीय दस्तावेजों]] और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश स्थितियों में यह गतिविधि [[प्राकृतिक भाषा प्रसंस्करण]](एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। [[मल्टीमीडिया]] दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे स्वचालित टिप्पणी और छवियों/श्रव्य/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।  
सूचना निष्कर्षण (आईई) [[असंरचित डेटा]] और/या अर्ध-संरचित [[मशीन-पठनीय दस्तावेजों]] और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश स्थितियों में यह गतिविधि [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। [[मल्टीमीडिया]] दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे स्वचालित टिप्पणी और छवियों/श्रव्य/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।  


समस्या की कठिनाई के कारण, आईई(2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। इसका एक उदाहरण है निगमित विलयन की ताजा रिपोर्टों से निष्कर्षण, जैसे कि औपचारिक संबंध द्वारा दर्शाया जाता है:
समस्या की कठिनाई के कारण, आईई (2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। एक उदाहरण है कॉर्पोरेट विलय की न्यूज़वायर रिपोर्ट से निष्कर्षण, जैसे औपचारिक संबंध द्वारा निरूपित:  
:<math>\mathrm{MergerBetween}(company_1, company_2, date)</math>,  
:<math>\mathrm{MergerBetween}(company_1, company_2, date)</math>,  
एक ऑनलाइन समाचार वाक्य से जैसे:
एक ऑनलाइन समाचार वाक्य से जैसे:
: "कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"
: "कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"


आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य यह है कि इनपुट डेटा के तार्किक अंतर्वस्तु के आधार पर तार्किक तर्क से निष्कर्ष निकालने की अनुमति दी जाए। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ के संबंध में व्याख्या किया गया है।
आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य तार्किक तर्क को इनपुट डेटा की तार्किक सामग्री के आधार पर अनुमान लगाने की अनुमति देना है। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ के संबंध में व्याख्या किया गया हो।


सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए इसके प्रसारण, भंडारण और प्रदर्शन के अलावा स्वचालित विधियां बनाने के संबंध में काम आता है। सूचना पुनर्प्राप्ति का अनुशासन(आईआर)<ref>{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = अनौपचारिक डोमेन में सूचना निष्कर्षण के लिए मशीन लर्निंग|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref> बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, सामान्यतः एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण(एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और जोर दोनों के संदर्भ में, आईई आईआर और एनएलपी दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम(एस) का एक(या एक सेट) है। आतंकवाद के उदाहरण के लिए, एक टेम्पलेट में अपराधी, शिकार, और आतंकवादी कृत्य के हथियार, और जिस दिन घटना हुई थी, के अनुरूप स्लॉट होंगे। इस समस्या के लिए एक आईई प्रणाली को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।
सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए इसके प्रसारण, भंडारण और प्रदर्शन के अलावा स्वचालित विधियां बनाने के संबंध में काम आता है। सूचना पुनर्प्राप्ति (आईआर) के अनुशासन<ref>{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = अनौपचारिक डोमेन में सूचना निष्कर्षण के लिए मशीन लर्निंग|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref> बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, सामान्यतः एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और महत्व दोनों के संदर्भ में, आईइ जो है आईआर और एनएलपी दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए टेम्पलेट में अपराधियों, शिकार और आतंकवादी अधिनियम के हथियार के अनुसार स्लॉट मिलते और घटना के घटित होने की तिथि होती है।इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।


== इतिहास ==
== इतिहास ==
सूचना निष्कर्षण 1970 के दशक के अंत में एनएलपी के शुरुआती दिनों में हुआ।<ref>{{cite book|chapter-url=https://www.aclweb.org/anthology/A92-1024|chapter=Automatic Extraction of Facts from Press Releases to Generate News Stories|last1=Andersen|first1=Peggy M.|last2=Hayes|first2=Philip J.|citeseerx=10.1.1.14.7943|last3=Huettner|first3=Alison K.|last4=Schmandt|first4=Linda M.|last5=Nirenburg|first5=Irene B.|last6=Weinstein|first6=Steven P.|title=एप्लाइड नेचुरल लैंग्वेज प्रोसेसिंग पर तीसरे सम्मेलन की कार्यवाही -|year=1992|pages=170–177|doi=10.3115/974499.974531|s2cid=14746386}}</ref> 1980 के दशक के मध्य से एक प्रारंभिक वाणिज्यिक प्रणाली वित्तीय व्यापारियों को वास्तविक समय की वित्तीय समाचार प्रदान करने के उद्देश्य से कार्नेगी ग्रुप इंक द्वारा [[रॉयटर्स]] के लिए बनाई गई जेस्पर थी।<ref>{{cite book|url=http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|archive-url=https://web.archive.org/web/20190220184608/http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|url-status=dead|archive-date=2019-02-20|title=सूचना निष्कर्षण|last1=Cowie|first1=Jim|last2=Wilks|first2=Yorick|page=3|year=1996|citeseerx=10.1.1.61.6480|s2cid=10237124}}</ref>
सूचना सारांशित की तारीख से 1970 के उत्तरार्ध तक एनएलपी के प्रारंभिक दिनों में होती है।<ref>{{cite book|chapter-url=https://www.aclweb.org/anthology/A92-1024|chapter=Automatic Extraction of Facts from Press Releases to Generate News Stories|last1=Andersen|first1=Peggy M.|last2=Hayes|first2=Philip J.|citeseerx=10.1.1.14.7943|last3=Huettner|first3=Alison K.|last4=Schmandt|first4=Linda M.|last5=Nirenburg|first5=Irene B.|last6=Weinstein|first6=Steven P.|title=एप्लाइड नेचुरल लैंग्वेज प्रोसेसिंग पर तीसरे सम्मेलन की कार्यवाही -|year=1992|pages=170–177|doi=10.3115/974499.974531|s2cid=14746386}}</ref> 1980 के दशक के मध्य से शुरुआत की गई एक वाणिज्यिक प्रणाली कार्नेगी समूह इंक ने [[रायटर्स]] के लिए वित्तीय व्यापारियों को वास्तविक वित्तीय समाचार उपलब्ध कराने के उद्देश्य से बनाया था।<ref>{{cite book|url=http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|archive-url=https://web.archive.org/web/20190220184608/http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|url-status=dead|archive-date=2019-02-20|title=सूचना निष्कर्षण|last1=Cowie|first1=Jim|last2=Wilks|first2=Yorick|page=3|year=1996|citeseerx=10.1.1.61.6480|s2cid=10237124}}</ref>


1987 की शुरुआत में, आईई को [[संदेश समझ सम्मेलनों]] की एक श्रृंखला द्वारा प्रेरित किया गया था। एमयूसी एक प्रतियोगिता-आधारित सम्मेलन है<ref>Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. {{ISBN|978-1-84564-146-7}}</ref> जो निम्नलिखित डोमेन पर केंद्रित है:
1987 की शुरुआत में, आईई को [[संदेश समझ सम्मेलनों]] की एक श्रृंखला द्वारा प्रेरित किया गया था। एमयूसी एक प्रतिस्पर्धा आधारित सम्मेलन है<ref>Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. {{ISBN|978-1-84564-146-7}}</ref> जो निम्न डोमेन पर केंद्रित है:
*एमयूसी-1(1987), एमयूसी-3(1989): नौसेना संचालन संदेश।
*एमयूसी-1(1987), एमयूसी-3(1989): नौसेना संचालन संदेश।
*एमयूसी-3(1991), एमयूसी-4(1992): लैटिन अमेरिकी देशों में आतंकवाद।
*एमयूसी-3(1991), एमयूसी-4(1992): लैटिन अमेरिकी देशों में आतंकवाद।
Line 21: Line 21:
*एमयूसी-7(1998): उपग्रह प्रक्षेपण रिपोर्ट।
*एमयूसी-7(1998): उपग्रह प्रक्षेपण रिपोर्ट।


यूएस डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी(डीएआरपीए) से काफी समर्थन मिला, जो सरकारी विश्लेषकों द्वारा किए गए सांसारिक कार्यों को स्वचालित करना चाहते थे, जैसे आतंकवाद के संभावित सम्बन्ध के लिए समाचार पत्रों को स्कैन करना।{{citation needed|date=March 2017}}
यूएस डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी (डीएआरपीए) से काफी समर्थन मिला, जो सरकारी विश्लेषकों, जैसे कि आतंकवाद के संभावित संबंधों के लिए समाचार पत्रों को स्कैनिंग जैसे सांसारिक कार्यों को स्वचालित बनाना चाहते हैं।{{citation needed|date=March 2017}}
 
== वर्तमान महत्व ==
== वर्तमान महत्व ==
आईई का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। [[टिम बेर्नर्स-ली]], [[वर्ल्ड वाइड वेब]] के आविष्कारक, वर्तमान [[इंटरनेट]] को दस्तावेजों के वेब के रूप में संदर्भित करता है<ref>{{cite web|url=http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf|title=लिंक्ड डेटा - द स्टोरी सो फार}}</ref> और यह वकालत करता है कि डेटा के वेब के रूप में अधिक सामग्री उपलब्ध कराई जाए।<ref>{{cite web|url=http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html|title=अगले वेब पर टिम बर्नर्स-ली}}</ref> जब तक यह पारदर्शी नहीं हो जाता, तब तक वेब बड़े पैमाने पर असंरचित दस्तावेजों से युक्त होता है जिसमें सिमेंटिक [[मेटा डेटा]] की कमी होती है। इन दस्तावेजों में निहित ज्ञान, [[संबंधपरक]] रूप में परिवर्तन के माध्यम से या [[एक्सएमएल]] टैग के साथ मार्क-अप के द्वारा मशीन संसाधन के लिए अधिक सुलभ बनाया जा सकता है। समाचार डेटा फ़ीड के अनुवीक्षण के लिए किसी बुद्धिमान अभिकर्ता को असंरचित डेटा में ऐसे परिवर्तन की आवश्यकता होती है जिसके साथ तर्क किया जा सके। आईई का एक विशिष्ट अनुप्रयोग [[प्राकृतिक भाषा]] में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।<ref>[[Rohini Kesavan Srihari|R. K. Srihari]], W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",[https://web.archive.org/web/20080507153920/http://journals.cambridge.org/action/displayIssue?iid=359643 Journal of Natural Language Engineering],{{dead link|date=September 2020}} Cambridge U. Press, 14(1), 2008, pp.33-69.</ref>
आईई का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। [[टिम बेर्नर्स-ली]], [[वर्ल्ड वाइड वेब]] के आविष्कारक, वर्तमान [[इंटरनेट]] को दस्तावेजों के वेब के रूप में संदर्भित करता है<ref>{{cite web|url=http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf|title=लिंक्ड डेटा - द स्टोरी सो फार}}</ref> और यह वकालत करता है कि डेटा के वेब के रूप में अधिक सामग्री उपलब्ध कराई जाए।<ref>{{cite web|url=http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html|title=अगले वेब पर टिम बर्नर्स-ली}}</ref> जब तक यह पारदर्शी नहीं हो जाता तब तक वेब में अधिकांश रूप से असंरचित दस्तावेज़ होते हैं जिसमें अर्थ [[मेटा डेटा]] का अभाव है। इन दस्तावेजों में निहित ज्ञान को मशीन संसाधन के लिए [[संबंधपरक]] रूप में परिवर्तन के माध्यम से, या [[एक्सएमएल]] टैग के साथ मार्क-अप द्वारा अधिक उपयोगी बनाया जा सकता है। समाचार डेटा फ़ीड के अनुवीक्षण के लिए किसी बुद्धिमान अभिकर्ता को असंरचित डेटा में ऐसे परिवर्तन की आवश्यकता होती है जिसके साथ तर्क किया जा सके। आईई का एक विशिष्ट अनुप्रयोग [[प्राकृतिक भाषा]] में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।<ref>[[Rohini Kesavan Srihari|R. K. Srihari]], W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",[https://web.archive.org/web/20080507153920/http://journals.cambridge.org/action/displayIssue?iid=359643 Journal of Natural Language Engineering],{{dead link|date=September 2020}} Cambridge U. Press, 14(1), 2008, pp.33-69.</ref>
== कार्य और उप-कार्य ==
== कार्य और उप-कार्य ==
मुक्त पाठ में उपलब्ध जानकारी का एक संरचित दृश्य बनाने के लिए पाठ में सूचना निष्कर्षण लागू करना [[पाठ सरलीकरण]] की समस्या से जुड़ा हुआ है। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में सम्मिलित हैं:
पाठ्य में सूचना निष्कर्षण को [[पाठ्य सरलीकरण]] की समस्या से जुड़ा हुआ है ताकि मुक्त पाठ में मौजूद सूचनाओं का संरचित दृष्टिकोण निर्मित किया जा सके। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में सम्मिलित हैं:


*टेम्पलेट फिलिंग: किसी दस्तावेज़ से क्षेत्र का एक निश्चित सेट निकालना, उदा। एक आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
*टेम्पलेट फिलिंग: दस्तावेज़ो में से निश्चित क्षेत्रों का समूह निकालना, उदाहरण के लिए, आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
** घटना सारांशन: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार के लेख में कई आतंकवादी हमलों का वर्णन हो सकता है।
** घटना सारांशन: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार के लेख में कई आतंकवादी हमलों का वर्णन हो सकता है।                                                                                
* [[ज्ञान आधारित जनसंख्या]]: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। साधारणतया यह डेटाबेस तीन प्रकार का होता है(निकाय 1, संबंध, संस्था 2), जैसे([[बराक ओबामा]], पत्नी, [[मिशेल ओबामा]])
* [[ज्ञान आधारित जनसंख्या]]: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। साधारणतया यह डेटाबेस तीन प्रकार का होता है (इकाई 1, संबंध, इकाई 2), जैसे ([[बराक ओबामा]], पत्नी, [[मिशेल ओबामा]])  
**[[नामित इकाई मान्यता]]: डोमेन के उपलब्ध ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों(लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान।<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor  | title=डीप बायफिन ध्यान का उपयोग करके एंड-टू-एंड न्यूरल रिलेशन एक्सट्रैक्शन| book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> सामान्यतया पहचान कार्य में, निकाले गए इकाई को विशिष्ट पहचान प्रदान करना सम्मिलित होता है। एक सरल कार्य का नाम इकाई पहचान है, जिसका उद्देश्य सत्ता के उदाहरणों के बारे में किसी उपलब्ध ज्ञान के बिना संस्थाओं का पता लगाने पर होता है। उदाहरण के लिए, "एम. स्मिथ को मछली पकड़ना पसंद है" वाक्य की प्रक्रिया करने में, एंटिटी डिटेक्शन नाम का मतलब यह पता लगाना होगा कि वाक्यांश "एम. स्मिथ" एक व्यक्ति को संदर्भित करता है, लेकिन बिना किसी निश्चित एम के बारे में कोई ज्ञान(या उपयोग) किए। स्मिथ जो(या, "हो सकता है") वह विशिष्ट व्यक्ति है जिसके बारे में वह वाक्य बात कर रहा है।
**[[नामित इकाई मान्यता]]: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान।<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor  | title=डीप बायफिन ध्यान का उपयोग करके एंड-टू-एंड न्यूरल रिलेशन एक्सट्रैक्शन| book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> सामान्यतया पहचान कार्य में, निकाले गए इकाई को विशिष्ट पहचान प्रदान करना सम्मिलित होता है। एक सरल कार्य का नाम इकाई पहचान है, जिसका उद्देश्य सत्ता के उदाहरणों के बारे में किसी मौजूदा ज्ञान के बिना संस्थाओं का पता लगाना होता है। उदाहरण के लिए, "एम. स्मिथ को मछली पकड़ना पसंद है" वाक्य की प्रक्रिया करने में, इकाई डिटेक्शन नाम का मतलब यह पता लगाना होगा कि वाक्यांश "एम. स्मिथ" एक व्यक्ति को संदर्भित करता है, लेकिन बिना किसी निश्चित एम के बारे में कोई ज्ञान (या उपयोग) किए। स्मिथ जो (या, "हो सकता है") वह विशिष्ट व्यक्ति है जिसके बारे में वह वाक्य बात कर रहा है।
**[[सहसंदर्भ]] समाधान: पाठ संस्थाओं के बीच सह-संदर्भ और एनाफोरिक सम्बन्ध का पता लगाना। यानी कार्यों में, सामान्यतः पहले से निकाले जाने वाली संस्थाओं के बीच कोई न कोई सम्बन्ध होता है। उदाहरण के लिए, "अंतर्राष्ट्रीय व्यापार मशीनें" और "आईबीएम" एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य "एम. स्मिथ मछली पकड़ने पसंद करते हैं लेकिन उसे बाइकिंग पसंद नहीं है, यह पता लगाना लाभकारी होगा कि "वह" पहले से पकड़े गए व्यक्ति "एम. स्मिथ" से संदर्भित है।
**[[सहसंदर्भ]] समाधान: पाठ संस्थाओं के बीच सह-संदर्भ और एनाफोरिक सम्बन्ध का पता लगाना। यानी कार्यों में, सामान्यतः पहले से निकाले जाने वाली संस्थाओं के बीच कोई न कोई सम्बन्ध होता है। उदाहरण के लिए, "अंतर्राष्ट्रीय व्यापार मशीनें" और "आईबीएम" एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य "एम. स्मिथ मछली पकड़ने पसंद करते हैं लेकिन उसे बाइकिंग पसंद नहीं है, यह पता लगाना लाभकारी होगा कि "वह" पहले से पकड़े गए व्यक्ति "एम. स्मिथ" से संदर्भित है।
**[[संबंध निष्कर्षण]]: संस्थाओं के बीच संबंधों की पहचान,<ref name="ecir2019" /> जैसे:  
**[[संबंध निष्कर्षण]]: संस्थाओं के बीच संबंधों की पहचान,<ref name="ecir2019" /> जैसे:  
***व्यक्ति संगठन के लिए काम करता है(वाक्य से निकाला गया "बिल आईबीएम के लिए काम करता है।")
***व्यक्ति संगठन के लिए काम करता है (वाक्य "बिल आईबीएम के लिए काम करता है" से लिया गया है।)
*** स्थान में स्थित व्यक्ति(वाक्य से निकाला गया "बिल फ्रांस में है।")
***स्थान में स्थित व्यक्ति (वाक्य "बिल फ्रांस में है" से लिया गया है।)
* अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
* अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
** तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।<ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।<ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। तालिका निष्कर्षण की तुलना में यह अधिक जटिल कार्य है, क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझना, तालिका के अंदर जानकारी को जोड़ना और तालिका में प्रस्तुत जानकारी को समझना तालिका के लिए आवश्यक अतिरिक्त कार्य हैं। सूचना निष्कर्षण।<ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = वैज्ञानिक साहित्य में तालिकाओं की संरचना को अलग करना| journal = 21st International Conference on Applications of Natural Language to Information Systems | series = Lecture Notes in Computer Science | volume = 21  | date = June 2016 | pages = 162–174 | doi = 10.1007/978-3-319-41754-7_14 | isbn = 978-3-319-41753-0 | s2cid = 19538141 | url = https://www.research.manchester.ac.uk/portal/en/publications/disentangling-the-structure-of-tables-in-scientific-literature(473111c2-52e9-493a-be8c-1a78c5b7ce36).html }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। यह सारणी निष्कर्षण की तुलना में अधिक जटिल कार्य है क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि तालिका निष्कर्षण कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझते हुए सारणी के अंदर सूचना को जोड़ते हैं तथा सारणी सूचना निष्कर्षण के लिए आवश्यक अतिरिक्त कार्य हैं।<ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = वैज्ञानिक साहित्य में तालिकाओं की संरचना को अलग करना| journal = 21st International Conference on Applications of Natural Language to Information Systems | series = Lecture Notes in Computer Science | volume = 21  | date = June 2016 | pages = 162–174 | doi = 10.1007/978-3-319-41754-7_14 | isbn = 978-3-319-41753-0 | s2cid = 19538141 | url = https://www.research.manchester.ac.uk/portal/en/publications/disentangling-the-structure-of-tables-in-scientific-literature(473111c2-52e9-493a-be8c-1a78c5b7ce36).html }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच सम्बन्ध को पुनर्स्थापित करने के लिए आलेख की वास्तविक सामग्री से टिप्पणियां निकालना
** टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच सम्बन्ध को पुनर्स्थापित करने के लिए आलेख की वास्तविक सामग्री से टिप्पणियां निकालना
* भाषा और शब्दावली विश्लेषण
* भाषा और शब्दावली विश्लेषण
**[[शब्दावली निष्कर्षण]]: किसी दिए गए [[पाठ कोष]] के लिए प्रासंगिक शब्द ढूँढना
**[[शब्दावली निष्कर्षण]]: किसी दिए गए [[पाठ कोष]] के लिए प्रासंगिक शर्तें खोजना
* श्रव्य निष्कर्षण
* श्रव्य निष्कर्षण
** टेम्पलेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए श्रव्य संकेत में प्रासंगिक विशेषता खोजना; उदाहरण के लिए<ref>A.Zils, F.Pachet, O.Delerue and F. Gouyon, [http://www.csl.sony.fr/downloads/papers/2002/ZilsMusic.pdf Automatic Extraction of Drum Tracks from Polyphonic Music Signals], Proceedings of WedelMusic, Darmstadt, Germany, 2002.</ref> किसी संगीत के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं के समय सूचकांक निकाले जा सकते हैं।
** टेम्पलेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए श्रव्य संकेत में प्रासंगिक विशेषता खोजना; उदाहरण के लिए<ref>A.Zils, F.Pachet, O.Delerue and F. Gouyon, [http://www.csl.sony.fr/downloads/papers/2002/ZilsMusic.pdf Automatic Extraction of Drum Tracks from Polyphonic Music Signals], Proceedings of WedelMusic, Darmstadt, Germany, 2002.</ref> किसी संगीत के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं के समय सूचकांक निकाले जा सकते हैं।
Line 46: Line 47:
ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ सामान्यतः स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। आईई में अधिकांशतः मशीन अधिगम, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।
ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ सामान्यतः स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। आईई में अधिकांशतः मशीन अधिगम, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।


गैर-पाठ दस्तावेज़ों पर आईई शोध में एक तेजी से दिलचस्प विषय बनता जा रहा है{{when|date=March 2017}} अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं{{when|date=March 2017}} एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। इससे अनेक प्रकार के दस्तावेजों तथा स्रोतों से निकाली गई जानकारी एकत्र होती है।
गैर-पाठ दस्तावेज़ों पर आईई शोध में तेजी से दिलचस्प विषय बनता जा रहा है{{when|date=March 2017}} अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं{{when|date=March 2017}} एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। इससे अनेक प्रकार के दस्तावेजों तथा स्रोतों से निकाली गई जानकारी एकत्र होती है।


== वर्ल्ड वाइड वेब एप्लिकेशन ==
== वर्ल्ड वाइड वेब एप्लिकेशन ==
आईई एमयूसी सम्मेलनों का मुख्य केंद्र रहा है। चूंकि, वेब के प्रसार ने आईई प्रणाली विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध भारी मात्रा में [[डेटा]] से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाली प्रणाली को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी प्रणाली उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण एचटीएमएल/एक्सएमएल टैग और ऑनलाइन टेक्स्ट में उपलब्ध नक़्शा स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, वेब पर आईई के लिए रैपर का उपयोग करके कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। इस तरह के नियमों को अपने आप प्रेरित करने के लिए [[मशीन लर्निंग]] तकनीक का प्रयोग या तो [[पर्यवेक्षित]] या [[अनुपर्यवेक्षित]] किया गया है।
आईई जो है एमयूसी सम्मेलनों का मुख्य केंद्र रहा है। चूंकि, वेब के प्रसार ने आईई प्रणाली विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध भारी मात्रा में [[डेटा]] से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाली प्रणाली को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी प्रणाली उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण एचटीएमएल/एक्सएमएल टैग और ऑनलाइन टेक्स्ट में उपलब्ध नक़्शा स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, वेब पर आईई के लिए रैपर का उपयोग करके कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। इस तरह के नियमों को अपने आप प्रेरित करने के लिए [[मशीन लर्निंग]] तकनीक का प्रयोग या तो [[पर्यवेक्षित]] या [[अनुपर्यवेक्षित]] किया गया है।


रैपरर्स, सामान्यतया वेब पृष्ठों जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं के उच्च संरचित संसंग्रहों को संभालती हैं। चूंकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई प्रणाली के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। इस प्रकार की प्रणालियां उथले प्राकृतिक भाषा के ज्ञान का लाभ उठा सकती हैं और इस तरह कम संरचित ग्रंथों पर भी इसे लागू किया जा सकता है।
रैपरर्स, सामान्यतया वेब पृष्ठों जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं के उच्च संरचित संसंग्रहों को संभालती हैं। चूंकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई प्रणाली के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। इस प्रकार की प्रणालियां उथले प्राकृतिक भाषा के ज्ञान का लाभ उठा सकती हैं और इस तरह कम संरचित ग्रंथों पर भी इसे लागू किया जा सकता है।
Line 57: Line 58:
== दृष्टिकोण ==
== दृष्टिकोण ==
निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं:
निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं:
* हस्तलिखित नियमित अभिव्यक्तियाँ(या नियमित अभिव्यक्तियों का नेस्टेड समूह)
* हस्तलिखित नियमित अभिव्यक्तियाँ (या नियमित अभिव्यक्तियों का नेस्टेड समूह)
* क्लासिफायर का उपयोग करना
* क्लासिफायर का उपयोग करना
** उत्पादक: नैव बेयस क्लासिफायरियर
** उत्पादक: नैव बेयस क्लासिफायरियर
Line 64: Line 65:
** [[आवर्तक तंत्रिका नेटवर्क]]
** [[आवर्तक तंत्रिका नेटवर्क]]
** [[छिपा हुआ मार्कोव मॉडल]]
** [[छिपा हुआ मार्कोव मॉडल]]
** सशर्त मार्कोव मॉडल(सीएमएम) / [[अधिकतम-एन्ट्रॉपी मार्कोव मॉडल]](एमईएमएम)
** सशर्त मार्कोव मॉडल(सीएमएम) / [[अधिकतम-एन्ट्रॉपी मार्कोव मॉडल]] (एमईएमएम)
** [[सशर्त यादृच्छिक क्षेत्र]](सीआरएफ) सामान्यतः आईई के संयोजन में शोध पत्रों से जानकारी निकालने जैसे विविध कार्यों के लिए उपयोग किए जाते हैं<ref>{{Cite journal | doi = 10.1016/j.ipm.2005.09.002 | title = सशर्त यादृच्छिक क्षेत्रों का उपयोग करके शोध पत्रों से सूचना निष्कर्षण ☆| year = 2006 | last1 = Peng | first1 = F. | last2 = McCallum | first2 = A. | journal = Information Processing & Management | volume = 42 | issue = 4 | pages = 963}}</ref> नेविगेशन निर्देश निकालने के लिए।<ref>{{cite web|title=मार्ग निर्देशों से फ़्रेम-आधारित ज्ञान प्रतिनिधित्व निकालना|last1=Shimizu|first1=Nobuyuki|last2=Hass|first2=Andrew|url=http://www.cs.albany.edu/~shimizu/shimizu+haas2006frame.pdf|year=2006|access-date=2010-03-27|archive-url=https://web.archive.org/web/20060901085639/http://www.cs.albany.edu/~shimizu/shimizu+haas2006frame.pdf|archive-date=2006-09-01|url-status=dead}}</ref>
** [[सशर्त यादृच्छिक क्षेत्र]] (सीआरएफ) सामान्यतः आईई के संयोजन में शोध पत्रों से जानकारी निकालने जैसे विविध कार्यों के लिए उपयोग किए जाते हैं<ref>{{Cite journal | doi = 10.1016/j.ipm.2005.09.002 | title = सशर्त यादृच्छिक क्षेत्रों का उपयोग करके शोध पत्रों से सूचना निष्कर्षण ☆| year = 2006 | last1 = Peng | first1 = F. | last2 = McCallum | first2 = A. | journal = Information Processing & Management | volume = 42 | issue = 4 | pages = 963}}</ref> नेविगेशन निर्देश निकालने के लिए।<ref>{{cite web|title=मार्ग निर्देशों से फ़्रेम-आधारित ज्ञान प्रतिनिधित्व निकालना|last1=Shimizu|first1=Nobuyuki|last2=Hass|first2=Andrew|url=http://www.cs.albany.edu/~shimizu/shimizu+haas2006frame.pdf|year=2006|access-date=2010-03-27|archive-url=https://web.archive.org/web/20060901085639/http://www.cs.albany.edu/~shimizu/shimizu+haas2006frame.pdf|archive-date=2006-09-01|url-status=dead}}</ref>
आईई के लिए कई अन्य दृष्टिकोण उपलब्ध हैं जिनमें हाइब्रिड दृष्टिकोण सम्मिलित हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।
आईई के लिए कई अन्य दृष्टिकोण उपलब्ध हैं जिनमें हाइब्रिड दृष्टिकोण सम्मिलित हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।


==मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं==
==मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं==
*टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला(गेट) को एक निःशुल्क सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
*टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला (गेट) को एक निःशुल्क सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
*अपाचे [[ओपनएनएलपी]], प्राकृतिक भाषा संसाधन के लिए जावा मशीन अधिगम उपकरण-किट है।
*अपाचे [[ओपनएनएलपी]], प्राकृतिक भाषा संसाधन के लिए जावा मशीन अधिगम उपकरण-किट है।
*[[ओपन कैलाइस थॉमसन रॉयटर्स]] से एक स्वचालित सूचना निष्कर्षण वेब सेवा है(मुफ्त सीमित संस्करण)
*[[ओपन कैलाइस थॉमसन रॉयटर्स]] से एक स्वचालित सूचना निष्कर्षण वेब सेवा है (मुफ्त सीमित संस्करण)
*मशीन लर्निंग फॉर लैंग्वेज उपकरणकिट([[मैलेट]]) एक जावा-आधारित पैकेज है, जिसमें विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए सूचना निष्कर्षण सम्मिलित है।
*मशीन लर्निंग फॉर लैंग्वेज उपकरणकिट ([[मैलेट]]) एक जावा-आधारित पैकेज है, जिसमें विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए सूचना निष्कर्षण सम्मिलित है।
*[[डीबीपीडिया स्पॉटलाइट]] जावा/स्कैला(और मुफ्त वेब सेवा) में एक ओपन सोर्स उपकरण है जिसका उपयोग नामित इकाई पहचान और [[नाम संकल्प (शब्दार्थ और पाठ निष्कर्षण)|नाम संकल्प(शब्दार्थ और पाठ निष्कर्षण)]] के लिए किया जा सकता है।
*[[डीबीपीडिया स्पॉटलाइट]] जावा/स्कैला(और मुफ्त वेब सेवा) में एक ओपन सोर्स उपकरण है जिसका उपयोग नामित इकाई पहचान और [[नाम संकल्प (शब्दार्थ और पाठ निष्कर्षण)|नाम संकल्प(शब्दार्थ और पाठ निष्कर्षण)]] के लिए किया जा सकता है।
*[[प्राकृतिक भाषा टूलकिट|प्राकृतिक भाषा उपकरणकिट]] पाइथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा संसाधन(एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक समूह है
*[[प्राकृतिक भाषा टूलकिट|प्राकृतिक भाषा उपकरणकिट]] पाइथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा संसाधन(एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक समूह है
Line 121: Line 122:
{{Natural Language Processing}}
{{Natural Language Processing}}


{{DEFAULTSORT:Information extraction}}[[Category: प्राकृतिक भाषा प्रसंस्करण]]
{{DEFAULTSORT:Information extraction}}
[[Category:कृत्रिम बुद्धिमत्ता]]
 


[[Category: Machine Translated Page]]
[[Category:All articles needing additional references|Information extraction]]
[[Category:Created On 05/12/2022]]
[[Category:All articles with dead external links|Information extraction]]
[[Category:All articles with unsourced statements|Information extraction]]
[[Category:All articles with vague or ambiguous time|Information extraction]]
[[Category:Articles needing additional references from March 2017|Information extraction]]
[[Category:Articles with dead external links from September 2020|Information extraction]]
[[Category:Articles with invalid date parameter in template|Information extraction]]
[[Category:Articles with short description|Information extraction]]
[[Category:Articles with unsourced statements from March 2017|Information extraction]]
[[Category:CS1 errors|Information extraction]]
[[Category:CS1 français-language sources (fr)]]
[[Category:CS1 maint]]
[[Category:CS1 Ελληνικά-language sources (el)]]
[[Category:Citation Style 1 templates|W]]
[[Category:Collapse templates|Information extraction]]
[[Category:Created On 05/12/2022|Information extraction]]
[[Category:Lua-based templates|Information extraction]]
[[Category:Machine Translated Page|Information extraction]]
[[Category:Multi-column templates|Information extraction]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Information extraction]]
[[Category:Pages using div col with small parameter|Information extraction]]
[[Category:Pages with script errors|Information extraction]]
[[Category:Short description with empty Wikidata description|Information extraction]]
[[Category:Sidebars with styles needing conversion|Information extraction]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Information extraction]]
[[Category:Templates based on the Citation/CS1 Lua module]]
[[Category:Templates generating COinS|Cite web]]
[[Category:Templates generating microformats|Information extraction]]
[[Category:Templates that add a tracking category|Information extraction]]
[[Category:Templates that are not mobile friendly|Information extraction]]
[[Category:Templates used by AutoWikiBrowser|Cite web]]
[[Category:Templates using TemplateData|Information extraction]]
[[Category:Templates using under-protected Lua modules|Information extraction]]
[[Category:Vague or ambiguous time from March 2017|Information extraction]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:Wikipedia metatemplates|Information extraction]]
[[Category:कृत्रिम बुद्धिमत्ता|Information extraction]]
[[Category:प्राकृतिक भाषा प्रसंस्करण|Information extraction]]

Latest revision as of 17:52, 22 December 2022

सूचना निष्कर्षण (आईई) असंरचित डेटा और/या अर्ध-संरचित मशीन-पठनीय दस्तावेजों और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश स्थितियों में यह गतिविधि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। मल्टीमीडिया दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे स्वचालित टिप्पणी और छवियों/श्रव्य/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।

समस्या की कठिनाई के कारण, आईई (2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। एक उदाहरण है कॉर्पोरेट विलय की न्यूज़वायर रिपोर्ट से निष्कर्षण, जैसे औपचारिक संबंध द्वारा निरूपित:

,

एक ऑनलाइन समाचार वाक्य से जैसे:

"कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"

आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य तार्किक तर्क को इनपुट डेटा की तार्किक सामग्री के आधार पर अनुमान लगाने की अनुमति देना है। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ के संबंध में व्याख्या किया गया हो।

सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए इसके प्रसारण, भंडारण और प्रदर्शन के अलावा स्वचालित विधियां बनाने के संबंध में काम आता है। सूचना पुनर्प्राप्ति (आईआर) के अनुशासन[1] बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, सामान्यतः एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और महत्व दोनों के संदर्भ में, आईइ जो है आईआर और एनएलपी दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए टेम्पलेट में अपराधियों, शिकार और आतंकवादी अधिनियम के हथियार के अनुसार स्लॉट मिलते और घटना के घटित होने की तिथि होती है।इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।

इतिहास

सूचना सारांशित की तारीख से 1970 के उत्तरार्ध तक एनएलपी के प्रारंभिक दिनों में होती है।[2] 1980 के दशक के मध्य से शुरुआत की गई एक वाणिज्यिक प्रणाली कार्नेगी समूह इंक ने रायटर्स के लिए वित्तीय व्यापारियों को वास्तविक वित्तीय समाचार उपलब्ध कराने के उद्देश्य से बनाया था।[3]

1987 की शुरुआत में, आईई को संदेश समझ सम्मेलनों की एक श्रृंखला द्वारा प्रेरित किया गया था। एमयूसी एक प्रतिस्पर्धा आधारित सम्मेलन है[4] जो निम्न डोमेन पर केंद्रित है:

  • एमयूसी-1(1987), एमयूसी-3(1989): नौसेना संचालन संदेश।
  • एमयूसी-3(1991), एमयूसी-4(1992): लैटिन अमेरिकी देशों में आतंकवाद।
  • एमयूसी-5(1993): संयुक्त उद्यम और माइक्रोइलेक्ट्रॉनिक डोमेन।
  • एमयूसी-6(1995): प्रबंधन परिवर्तन पर समाचार लेख।
  • एमयूसी-7(1998): उपग्रह प्रक्षेपण रिपोर्ट।

यूएस डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी (डीएआरपीए) से काफी समर्थन मिला, जो सरकारी विश्लेषकों, जैसे कि आतंकवाद के संभावित संबंधों के लिए समाचार पत्रों को स्कैनिंग जैसे सांसारिक कार्यों को स्वचालित बनाना चाहते हैं।[citation needed]

वर्तमान महत्व

आईई का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। टिम बेर्नर्स-ली, वर्ल्ड वाइड वेब के आविष्कारक, वर्तमान इंटरनेट को दस्तावेजों के वेब के रूप में संदर्भित करता है[5] और यह वकालत करता है कि डेटा के वेब के रूप में अधिक सामग्री उपलब्ध कराई जाए।[6] जब तक यह पारदर्शी नहीं हो जाता तब तक वेब में अधिकांश रूप से असंरचित दस्तावेज़ होते हैं जिसमें अर्थ मेटा डेटा का अभाव है। इन दस्तावेजों में निहित ज्ञान को मशीन संसाधन के लिए संबंधपरक रूप में परिवर्तन के माध्यम से, या एक्सएमएल टैग के साथ मार्क-अप द्वारा अधिक उपयोगी बनाया जा सकता है। समाचार डेटा फ़ीड के अनुवीक्षण के लिए किसी बुद्धिमान अभिकर्ता को असंरचित डेटा में ऐसे परिवर्तन की आवश्यकता होती है जिसके साथ तर्क किया जा सके। आईई का एक विशिष्ट अनुप्रयोग प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।[7]

कार्य और उप-कार्य

पाठ्य में सूचना निष्कर्षण को पाठ्य सरलीकरण की समस्या से जुड़ा हुआ है ताकि मुक्त पाठ में मौजूद सूचनाओं का संरचित दृष्टिकोण निर्मित किया जा सके। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में सम्मिलित हैं:

  • टेम्पलेट फिलिंग: दस्तावेज़ो में से निश्चित क्षेत्रों का समूह निकालना, उदाहरण के लिए, आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
    • घटना सारांशन: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार के लेख में कई आतंकवादी हमलों का वर्णन हो सकता है।
  • ज्ञान आधारित जनसंख्या: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। साधारणतया यह डेटाबेस तीन प्रकार का होता है (इकाई 1, संबंध, इकाई 2), जैसे (बराक ओबामा, पत्नी, मिशेल ओबामा)
    • नामित इकाई मान्यता: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान।[8] सामान्यतया पहचान कार्य में, निकाले गए इकाई को विशिष्ट पहचान प्रदान करना सम्मिलित होता है। एक सरल कार्य का नाम इकाई पहचान है, जिसका उद्देश्य सत्ता के उदाहरणों के बारे में किसी मौजूदा ज्ञान के बिना संस्थाओं का पता लगाना होता है। उदाहरण के लिए, "एम. स्मिथ को मछली पकड़ना पसंद है" वाक्य की प्रक्रिया करने में, इकाई डिटेक्शन नाम का मतलब यह पता लगाना होगा कि वाक्यांश "एम. स्मिथ" एक व्यक्ति को संदर्भित करता है, लेकिन बिना किसी निश्चित एम के बारे में कोई ज्ञान (या उपयोग) किए। स्मिथ जो (या, "हो सकता है") वह विशिष्ट व्यक्ति है जिसके बारे में वह वाक्य बात कर रहा है।
    • सहसंदर्भ समाधान: पाठ संस्थाओं के बीच सह-संदर्भ और एनाफोरिक सम्बन्ध का पता लगाना। यानी कार्यों में, सामान्यतः पहले से निकाले जाने वाली संस्थाओं के बीच कोई न कोई सम्बन्ध होता है। उदाहरण के लिए, "अंतर्राष्ट्रीय व्यापार मशीनें" और "आईबीएम" एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य "एम. स्मिथ मछली पकड़ने पसंद करते हैं लेकिन उसे बाइकिंग पसंद नहीं है, यह पता लगाना लाभकारी होगा कि "वह" पहले से पकड़े गए व्यक्ति "एम. स्मिथ" से संदर्भित है।
    • संबंध निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान,[8] जैसे:
      • व्यक्ति संगठन के लिए काम करता है (वाक्य "बिल आईबीएम के लिए काम करता है" से लिया गया है।)
      • स्थान में स्थित व्यक्ति (वाक्य "बिल फ्रांस में है" से लिया गया है।)
  • अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
    • तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।[9][10]
    • तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। यह सारणी निष्कर्षण की तुलना में अधिक जटिल कार्य है क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि तालिका निष्कर्षण कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझते हुए सारणी के अंदर सूचना को जोड़ते हैं तथा सारणी सूचना निष्कर्षण के लिए आवश्यक अतिरिक्त कार्य हैं।[11][12][13]
    • टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच सम्बन्ध को पुनर्स्थापित करने के लिए आलेख की वास्तविक सामग्री से टिप्पणियां निकालना
  • भाषा और शब्दावली विश्लेषण
  • श्रव्य निष्कर्षण
    • टेम्पलेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए श्रव्य संकेत में प्रासंगिक विशेषता खोजना; उदाहरण के लिए[14] किसी संगीत के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं के समय सूचकांक निकाले जा सकते हैं।

ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ सामान्यतः स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। आईई में अधिकांशतः मशीन अधिगम, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।

गैर-पाठ दस्तावेज़ों पर आईई शोध में तेजी से दिलचस्प विषय बनता जा रहा है[when?] अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं[when?] एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। इससे अनेक प्रकार के दस्तावेजों तथा स्रोतों से निकाली गई जानकारी एकत्र होती है।

वर्ल्ड वाइड वेब एप्लिकेशन

आईई जो है एमयूसी सम्मेलनों का मुख्य केंद्र रहा है। चूंकि, वेब के प्रसार ने आईई प्रणाली विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध भारी मात्रा में डेटा से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाली प्रणाली को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी प्रणाली उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण एचटीएमएल/एक्सएमएल टैग और ऑनलाइन टेक्स्ट में उपलब्ध नक़्शा स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, वेब पर आईई के लिए रैपर का उपयोग करके कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। इस तरह के नियमों को अपने आप प्रेरित करने के लिए मशीन लर्निंग तकनीक का प्रयोग या तो पर्यवेक्षित या अनुपर्यवेक्षित किया गया है।

रैपरर्स, सामान्यतया वेब पृष्ठों जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं के उच्च संरचित संसंग्रहों को संभालती हैं। चूंकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई प्रणाली के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। इस प्रकार की प्रणालियां उथले प्राकृतिक भाषा के ज्ञान का लाभ उठा सकती हैं और इस तरह कम संरचित ग्रंथों पर भी इसे लागू किया जा सकता है।

हाल ही में[when?] विकास दृश्य सूचना निष्कर्षण है,[15][16] जो एक ब्राउज़र में एक वेबपेज को रेंडर करने और रेंडर किए गए वेब पेज में क्षेत्रों की निकटता के आधार पर नियम बनाने पर निर्भर करता है। यह जटिल वेब पृष्ठों से ऐसी संस्थाओं को निकालने में मदद करता है जो दृश्य पैटर्न को प्रदर्शित करती हैं, लेकिन एचटीएमएल स्रोत कोड में अधिक स्पष्ट पैटर्न का अभाव है।

दृष्टिकोण

निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं:

आईई के लिए कई अन्य दृष्टिकोण उपलब्ध हैं जिनमें हाइब्रिड दृष्टिकोण सम्मिलित हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।

मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं

  • टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला (गेट) को एक निःशुल्क सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
  • अपाचे ओपनएनएलपी, प्राकृतिक भाषा संसाधन के लिए जावा मशीन अधिगम उपकरण-किट है।
  • ओपन कैलाइस थॉमसन रॉयटर्स से एक स्वचालित सूचना निष्कर्षण वेब सेवा है (मुफ्त सीमित संस्करण)
  • मशीन लर्निंग फॉर लैंग्वेज उपकरणकिट (मैलेट) एक जावा-आधारित पैकेज है, जिसमें विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए सूचना निष्कर्षण सम्मिलित है।
  • डीबीपीडिया स्पॉटलाइट जावा/स्कैला(और मुफ्त वेब सेवा) में एक ओपन सोर्स उपकरण है जिसका उपयोग नामित इकाई पहचान और नाम संकल्प(शब्दार्थ और पाठ निष्कर्षण) के लिए किया जा सकता है।
  • प्राकृतिक भाषा उपकरणकिट पाइथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा संसाधन(एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक समूह है
  • सीआरएफ कार्यान्वयन भी देखें

यह भी देखें

निष्कर्षण
खनन, क्रॉलिंग, स्क्रैपिंग और मान्यता
खोज और अनुवाद
सामान्य
सूचियों


संदर्भ

  1. FREITAG, DAYNE. "अनौपचारिक डोमेन में सूचना निष्कर्षण के लिए मशीन लर्निंग" (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.
  2. Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). "Automatic Extraction of Facts from Press Releases to Generate News Stories". एप्लाइड नेचुरल लैंग्वेज प्रोसेसिंग पर तीसरे सम्मेलन की कार्यवाही -. pp. 170–177. CiteSeerX 10.1.1.14.7943. doi:10.3115/974499.974531. S2CID 14746386.
  3. Cowie, Jim; Wilks, Yorick (1996). सूचना निष्कर्षण (PDF). p. 3. CiteSeerX 10.1.1.61.6480. S2CID 10237124. Archived from the original (PDF) on 2019-02-20.
  4. Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. ISBN 978-1-84564-146-7
  5. "लिंक्ड डेटा - द स्टोरी सो फार" (PDF).
  6. "अगले वेब पर टिम बर्नर्स-ली".
  7. R. K. Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",Journal of Natural Language Engineering,[dead link] Cambridge U. Press, 14(1), 2008, pp.33-69.
  8. 8.0 8.1 Dat Quoc Nguyen and Karin Verspoor (2019). "डीप बायफिन ध्यान का उपयोग करके एंड-टू-एंड न्यूरल रिलेशन एक्सट्रैक्शन". Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
  9. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  10. Milosevic, Nikola (2018). बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण (PDF) (PhD). University of Manchester.
  11. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  12. Milosevic N, Gregson C, Hernandez R, Nenadic G (June 2016). "वैज्ञानिक साहित्य में तालिकाओं की संरचना को अलग करना". 21st International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. 21: 162–174. doi:10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0. S2CID 19538141.
  13. Milosevic, Nikola (2018). बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण (PDF) (PhD). University of Manchester.
  14. A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt, Germany, 2002.
  15. Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: सूचना निष्कर्षण के लिए स्थानिक और शाब्दिक नियमों को व्यक्त करने के लिए एक बीजगणित". arXiv:1506.08454 [cs.CL].
  16. Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "लिक्स्टो के साथ विजुअल वेब इंफॉर्मेशन एक्सट्रैक्शन": 119–128. CiteSeerX 10.1.1.21.8236. {{cite journal}}: Cite journal requires |journal= (help)
  17. Peng, F.; McCallum, A. (2006). "सशर्त यादृच्छिक क्षेत्रों का उपयोग करके शोध पत्रों से सूचना निष्कर्षण ☆". Information Processing & Management. 42 (4): 963. doi:10.1016/j.ipm.2005.09.002.
  18. Shimizu, Nobuyuki; Hass, Andrew (2006). "मार्ग निर्देशों से फ़्रेम-आधारित ज्ञान प्रतिनिधित्व निकालना" (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.


बाहरी संबंध