सूचना निष्कर्षण

सूचना निष्कर्षण (IE) असंरचित डेटा और/या अर्ध-संरचित मशीन-पठनीय डेटा | मशीन-पठनीय दस्तावेज़ और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। ज्यादातर मामलों में यह गतिविधि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से मानव भाषा ग्रंथों को संसाधित करने से संबंधित है। छवियों/ऑडियो/वीडियो/दस्तावेजों से स्वचालित एनोटेशन और सामग्री निष्कर्षण जैसी मल्टीमीडिया दस्तावेज़ प्रसंस्करण में हाल की गतिविधियों को सूचना निष्कर्षण के रूप में देखा जा सकता है

सूचना निष्कर्षण (IE) असंरचित और/या अर्ध-संरचित मशीन-पठनीय दस्तावेजों और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश मामलों में यह गतिविधि प्राकृतिक भाषा संसाधन (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। मल्टी मीडिया दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे ऑटोमैटिक एनोटेशन और छवियों/ऑडियो/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।

समस्या की कठिनाई के कारण, आईई (2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। इसका एक उदाहरण है कॉर्पोरेट विलयन की ताजा रिपोर्टों से निष्कर्षण, जैसे कि औपचारिक संबंध द्वारा दर्शाया जाता है:
 * $$\mathrm{MergerBetween}(company_1, company_2, date)$$,

एक ऑनलाइन समाचार वाक्य से जैसे:
 * कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।

आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य तार्किक तर्क को इनपुट डेटा की तार्किक सामग्री के आधार पर अनुमान लगाने की अनुमति देना है। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ (भाषा उपयोग) के संबंध में व्याख्या किया गया है।

अभिकलन की अनुमति देना इसका उद्देश्य पहले असंरचित डेटा पर होना है।

सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए स्वचालित तरीकों को तैयार करने की समस्या से संबंधित है, इसके प्रसारण, भंडारण और प्रदर्शन से परे। सूचना पुनर्प्राप्ति का अनुशासन (आईआर) बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, आमतौर पर एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और जोर दोनों के संदर्भ में, IE IR और NLP दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए, एक टेम्पलेट में अपराधी, शिकार, और आतंकवादी कृत्य के हथियार, और जिस दिन घटना हुई थी, के अनुरूप स्लॉट होंगे। इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।

इतिहास
सूचना निष्कर्षण 1970 के दशक के अंत में एनएलपी के शुरुआती दिनों में हुआ। 1980 के दशक के मध्य से एक प्रारंभिक वाणिज्यिक प्रणाली कार्नेगी ग्रुप इंक द्वारा रॉयटर्स के लिए बनाई गई JASPER थी, जिसका उद्देश्य वित्तीय व्यापारियों को वास्तविक समय डेटा | वास्तविक समय वित्तीय समाचार प्रदान करना था। 1987 की शुरुआत में, IE को संदेश समझ सम्मेलनों की एक श्रृंखला द्वारा प्रेरित किया गया था। MUC एक प्रतियोगिता-आधारित सम्मेलन है जो निम्नलिखित डोमेन पर केंद्रित है:
 * एमयूसी-1 (1987), एमयूसी-3 (1989): नौसेना संचालन संदेश।
 * एमयूसी-3 (1991), एमयूसी-4 (1992): लैटिन अमेरिकी देशों में आतंकवाद।
 * एमयूसी-5 (1993): संयुक्त उद्यम और माइक्रोइलेक्ट्रॉनिक डोमेन।
 * एमयूसी-6 (1995): प्रबंधन परिवर्तन पर समाचार लेख।
 * एमयूसी-7 (1998): उपग्रह प्रक्षेपण रिपोर्ट।

अमेरिकी रक्षा उन्नत अनुसंधान परियोजना एजेंसी (डीएआरपीए) से काफी समर्थन मिला, जो आतंकवाद के संभावित लिंक के लिए समाचार पत्रों को स्कैन करने जैसे सरकारी विश्लेषकों द्वारा किए गए सांसारिक कार्यों को स्वचालित करना चाहते थे।

वर्तमान महत्व
IE का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। वर्ल्ड वाइड वेब के आविष्कारक टिक बैरनर्स - ली मौजूदा इंटरनेट को दस्तावेजों के वेब के रूप में संदर्भित करते हैं और वकालत करता है कि अधिक सामग्री को सिमेंटिक वेब के रूप में उपलब्ध कराया जाए। जब तक यह पारदर्शी नहीं हो जाता, तब तक वेब बड़े पैमाने पर असंरचित दस्तावेजों से युक्त होता है जिसमें सिमेंटिक मेटा डेटा की कमी होती है। इन दस्तावेज़ों में निहित ज्ञान को संबंध का डेटाबेस में रूपांतरण के माध्यम से या XML टैग्स के साथ मार्क-अप करके मशीन प्रोसेसिंग के लिए अधिक सुलभ बनाया जा सकता है। एक समाचार डेटा फ़ीड की निगरानी करने वाले एक बुद्धिमान एजेंट को असंरचित डेटा को किसी ऐसी चीज़ में बदलने के लिए IE की आवश्यकता होती है जिसके साथ तर्क किया जा सकता है। IE का एक विशिष्ट अनुप्रयोग प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।

कार्य और उप-कार्य
मुक्त पाठ में मौजूद जानकारी का एक संरचित दृश्य बनाने के लिए पाठ में सूचना निष्कर्षण लागू करना पाठ सरलीकरण की समस्या से जुड़ा हुआ है। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में शामिल हैं:


 * टेम्प्लेट भरना: किसी दस्तावेज़ से फ़ील्ड का एक निश्चित सेट निकालना, उदा। एक आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
 * घटना निष्कर्षण: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार का लेख कई आतंकवादी हमलों का वर्णन कर सकता है।
 * ज्ञान आधारित जनसंख्या: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। आमतौर पर डेटाबेस ट्रिपल के रूप में होता है, (इकाई 1, संबंध, इकाई 2), उदा। (बराक ओबामा, पति, मिशेल ओबामा)
 * नामित इकाई मान्यता: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान। आम तौर पर मान्यता कार्य में निकाली गई इकाई को एक अद्वितीय पहचानकर्ता निर्दिष्ट करना शामिल होता है। एक सरल कार्य को एंटिटी डिटेक्शन नाम दिया गया है, जिसका उद्देश्य एंटिटी इंस्टेंसेस के बारे में कोई मौजूदा ज्ञान न होने पर एंटिटीज का पता लगाना है। उदाहरण के लिए, वाक्य को संसाधित करने में एम. स्मिथ को फिशिंग पसंद है, एंटिटी डिटेक्शन नाम 'पता लगाने' को इंगित करेगा कि वाक्यांश एम. स्मिथ एक व्यक्ति को संदर्भित करता है, लेकिन आवश्यक रूप से बिना किसी एम. स्मिथ के बारे में कोई ज्ञान (या उपयोग) किए जो वह विशिष्ट व्यक्ति है (या, हो सकता है) जिसके बारे में वह वाक्य बात कर रहा है।
 * सहसंदर्भ रेजोल्यूशन: टेक्स्ट एंटिटीज के बीच कोररेंस और अनाफोरा (भाषाविज्ञान) लिंक का पता लगाना। आईई कार्यों में, यह आमतौर पर पहले से निकाली गई नामित संस्थाओं के बीच लिंक खोजने तक सीमित है। उदाहरण के लिए, इंटरनेशनल बिजनेस मशीन और आईबीएम एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य लें तो एम. स्मिथ को मछली पकड़ना पसंद है। लेकिन उसे बाइक चलाना पसंद नहीं है, यह पता लगाना फायदेमंद होगा कि वह पहले से पहचाने गए व्यक्ति एम. स्मिथ की बात कर रहा है।
 * संबंध निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान, जैसे कि:
 * व्यक्ति संगठन के लिए काम करता है (वाक्य से निकाला गया बिल आईबीएम के लिए काम करता है।)
 * स्थान में स्थित व्यक्ति (वाक्य बिल फ्रांस में है से निकाला गया।)
 * अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
 * तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।
 * तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। तालिका निष्कर्षण की तुलना में यह अधिक जटिल कार्य है, क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझना, तालिका के अंदर जानकारी को जोड़ना और तालिका में प्रस्तुत जानकारी को समझना तालिका के लिए आवश्यक अतिरिक्त कार्य हैं। सूचना निष्कर्षण।
 * टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच लिंक को पुनर्स्थापित करने के लिए लेख की वास्तविक सामग्री से टिप्पणियां निकालना
 * भाषा और शब्दावली विश्लेषण
 * शब्दावली निष्कर्षण: किसी दिए गए पाठ कोष के लिए प्रासंगिक शब्द खोजना
 * ऑडियो निष्कर्षण
 * टेम्प्लेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए ऑडियो सिग्नल में प्रासंगिक विशेषता खोजना; उदाहरण के लिए एक संगीत टुकड़े के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं का समय सूचकांक निकाला जा सकता है।

ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ आमतौर पर स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। IE में अक्सर मशीन लर्निंग, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।

गैर-पाठ दस्तावेज़ों पर आईई एक तेजी से दिलचस्प विषय बनता जा रहा है अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। यह स्वाभाविक रूप से कई प्रकार के दस्तावेजों और स्रोतों से निकाली गई जानकारी के संलयन की ओर जाता है।

वर्ल्ड वाइड वेब एप्लिकेशन
आईई एमयूसी सम्मेलनों का फोकस रहा है। हालाँकि, वर्ल्ड वाइड वेब के प्रसार ने IE सिस्टम विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध डेटा बाढ़ से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाले सिस्टम को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी सिस्टम उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण HTML/XML टैग और ऑनलाइन टेक्स्ट में उपलब्ध लेआउट स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, रैपर (डेटा माइनिंग) का उपयोग करके वेब पर IE के लिए कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। मशीन लर्निंग तकनीक, या तो पर्यवेक्षित अध्ययन या अनियंत्रित शिक्षा, ऐसे नियमों को स्वचालित रूप से प्रेरित करने के लिए उपयोग की जाती है।

रैपर आमतौर पर वेब पेजों के अत्यधिक संरचित संग्रह जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं को संभालते हैं। हालांकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई सिस्टम के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। ऐसी प्रणालियाँ उथले प्राकृतिक भाषा ज्ञान का दोहन कर सकती हैं और इस प्रकार इसे कम संरचित पाठों पर भी लागू किया जा सकता है।

हाल ही में विकास दृश्य सूचना निष्कर्षण है, जो एक ब्राउज़र में एक वेबपेज को रेंडर करने और रेंडर किए गए वेब पेज में क्षेत्रों की निकटता के आधार पर नियम बनाने पर निर्भर करता है। यह उन जटिल वेब पेजों से संस्थाओं को निकालने में मदद करता है जो एक विज़ुअल पैटर्न प्रदर्शित कर सकते हैं, लेकिन HTML स्रोत कोड में एक स्पष्ट पैटर्न की कमी है।

दृष्टिकोण
निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं: आईई के लिए कई अन्य दृष्टिकोण मौजूद हैं जिनमें हाइब्रिड दृष्टिकोण शामिल हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।
 * हस्तलिखित नियमित अभिव्यक्तियाँ (या नियमित अभिव्यक्तियों का नेस्टेड समूह)
 * क्लासिफायर का उपयोग करना
 * जनरेटिव: नैवे बेयस क्लासिफायरियर
 * भेदभावपूर्ण: अधिकतम एन्ट्रापी का सिद्धांत#अधिकतम एन्ट्रापी मॉडल जैसे बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन
 * अनुक्रम मॉडल
 * आवर्तक तंत्रिका नेटवर्क
 * छिपा हुआ मार्कोव मॉडल
 * सशर्त मार्कोव मॉडल (सीएमएम) / अधिकतम-एन्ट्रॉपी मार्कोव मॉडल (एमईएमएम)
 * सशर्त यादृच्छिक क्षेत्र (CRF) आमतौर पर IE के संयोजन में शोध पत्रों से जानकारी निकालने जैसे विविध कार्यों के लिए उपयोग किए जाते हैं नेविगेशन निर्देश निकालने के लिए।

मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं

 * टेक्स्ट इंजीनियरिंग के लिए सामान्य आर्किटेक्चर (गेट) को मुफ्त सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
 * अपाचे ओपनएनएलपी प्राकृतिक भाषा प्रसंस्करण के लिए जावा मशीन लर्निंग टूलकिट है
 * ClearForest थॉमसन रॉयटर्स से एक स्वचालित सूचना निष्कर्षण वेब सेवा है (मुफ्त सीमित संस्करण)
 * मैलेट (सॉफ्टवेयर परियोजना) | मशीन लर्निंग फॉर लैंग्वेज टूलकिट (मैलेट) विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए एक जावा-आधारित पैकेज है, जिसमें सूचना निष्कर्षण भी शामिल है।
 * डीबीपीडिया स्पॉटलाइट जावा/स्कैला (और मुफ्त वेब सेवा) में एक ओपन सोर्स टूल है जिसका उपयोग नामित इकाई पहचान और नाम संकल्प (शब्दार्थ और पाठ निष्कर्षण) के लिए किया जा सकता है।
 * प्राकृतिक भाषा टूलकिट पायथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट है
 * सशर्त रैंडम फील्ड#सॉफ्टवेयर भी देखें

यह भी देखें

 * निष्कर्षण
 * डेटा निकालना
 * कीवर्ड निष्कर्षण
 * ज्ञान निष्कर्षण
 * सत्तामीमांसा निष्कर्षण
 * ओपन सूचना निष्कर्षण
 * टेबल निष्कर्षण
 * शब्दावली निष्कर्षण


 * खनन, क्रॉलिंग, स्क्रैपिंग और मान्यता
 * अपाचे नच, वेब क्रॉलर
 * अवधारणा खनन
 * नामित इकाई मान्यता
 * टेक्स्ट खनन
 * वेब स्क्रेपिंग


 * खोज और अनुवाद
 * उद्यम खोज
 * पहलू खोज
 * शब्दार्थ अनुवाद


 * सामान्य
 * आर्टिफिशियल इंटेलिजेंस के अनुप्रयोग
 * डार्पा टिपस्टर कार्यक्रम


 * सूचियों
 * उभरती प्रौद्योगिकियों की सूची
 * कृत्रिम बुद्धि की रूपरेखा

इस पेज में लापता आंतरिक लिंक की सूची

 * सूचना की पुनर्प्राप्ति
 * तार्किक विचार
 * संदर्भ (भाषा का प्रयोग)
 * दरपा
 * ज्ञानधार
 * अनाफोरा (भाषा विज्ञान)
 * रैपर (डाटा माइनिंग)
 * बहुराष्ट्रीय रसद प्रतिगमन
 * टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला
 * ओन्टोलॉजी निष्कर्षण
 * सूचना निष्कर्षण खोलें

बाहरी संबंध

 * Alias-I "competition" page A listing of academic toolkits and industrial toolkits for natural language information extraction.
 * Gabor Melli's page on IE Detailed description of the information extraction task.