सूचना निष्कर्षण

सूचना निष्कर्षण (IE) असंरचित डेटा और/या अर्ध-संरचित मशीन-पठनीय दस्तावेजों और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश मामलों में यह गतिविधि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। मल्टीमीडिया दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे ऑटोमैटिक एनोटेशन और छवियों/ऑडियो/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।

समस्या की कठिनाई के कारण, आईई (2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। इसका एक उदाहरण है कॉर्पोरेट विलयन की ताजा रिपोर्टों से निष्कर्षण, जैसे कि औपचारिक संबंध द्वारा दर्शाया जाता है:
 * $$\mathrm{MergerBetween}(company_1, company_2, date)$$,

एक ऑनलाइन समाचार वाक्य से जैसे:
 * "कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"

आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य तार्किक तर्क को इनपुट डेटा की तार्किक सामग्री के आधार पर अनुमान लगाने की अनुमति देना है। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ (भाषा उपयोग) के संबंध में व्याख्या किया गया है।

आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य यह है कि इनपुट डेटा के तार्किक अंतर्वस्तु के आधार पर तार्किक तर्क से निष्कर्ष निकालने की अनुमति दी जाए।

अभिकलन की अनुमति देना इसका उद्देश्य पहले असंरचित डेटा पर होना है।

सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए स्वचालित तरीकों को तैयार करने की समस्या से संबंधित है, इसके प्रसारण, भंडारण और प्रदर्शन से परे। सूचना पुनर्प्राप्ति का अनुशासन (आईआर) बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, आमतौर पर एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और जोर दोनों के संदर्भ में, IE IR और NLP दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए, एक टेम्पलेट में अपराधी, शिकार, और आतंकवादी कृत्य के हथियार, और जिस दिन घटना हुई थी, के अनुरूप स्लॉट होंगे। इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।

इतिहास
सूचना निष्कर्षण 1970 के दशक के अंत में एनएलपी के शुरुआती दिनों में हुआ। 1980 के दशक के मध्य से एक प्रारंभिक वाणिज्यिक प्रणाली कार्नेगी ग्रुप इंक द्वारा रॉयटर्स के लिए बनाई गई JASPER थी, जिसका उद्देश्य वित्तीय व्यापारियों को वास्तविक समय डेटा | वास्तविक समय वित्तीय समाचार प्रदान करना था। 1987 की शुरुआत में, IE को संदेश समझ सम्मेलनों की एक श्रृंखला द्वारा प्रेरित किया गया था। MUC एक प्रतियोगिता-आधारित सम्मेलन है जो निम्नलिखित डोमेन पर केंद्रित है:
 * एमयूसी-1 (1987), एमयूसी-3 (1989): नौसेना संचालन संदेश।
 * एमयूसी-3 (1991), एमयूसी-4 (1992): लैटिन अमेरिकी देशों में आतंकवाद।
 * एमयूसी-5 (1993): संयुक्त उद्यम और माइक्रोइलेक्ट्रॉनिक डोमेन।
 * एमयूसी-6 (1995): प्रबंधन परिवर्तन पर समाचार लेख।
 * एमयूसी-7 (1998): उपग्रह प्रक्षेपण रिपोर्ट।

अमेरिकी रक्षा उन्नत अनुसंधान परियोजना एजेंसी (डीएआरपीए) से काफी समर्थन मिला, जो आतंकवाद के संभावित लिंक के लिए समाचार पत्रों को स्कैन करने जैसे सरकारी विश्लेषकों द्वारा किए गए सांसारिक कार्यों को स्वचालित करना चाहते थे।

वर्तमान महत्व
IE का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। वर्ल्ड वाइड वेब के आविष्कारक टिक बैरनर्स - ली मौजूदा इंटरनेट को दस्तावेजों के वेब के रूप में संदर्भित करते हैं और वकालत करता है कि अधिक सामग्री को सिमेंटिक वेब के रूप में उपलब्ध कराया जाए। जब तक यह पारदर्शी नहीं हो जाता, तब तक वेब बड़े पैमाने पर असंरचित दस्तावेजों से युक्त होता है जिसमें सिमेंटिक मेटा डेटा की कमी होती है। इन दस्तावेज़ों में निहित ज्ञान को संबंध का डेटाबेस में रूपांतरण के माध्यम से या XML टैग्स के साथ मार्क-अप करके मशीन प्रोसेसिंग के लिए अधिक सुलभ बनाया जा सकता है। एक समाचार डेटा फ़ीड की निगरानी करने वाले एक बुद्धिमान एजेंट को असंरचित डेटा को किसी ऐसी चीज़ में बदलने के लिए IE की आवश्यकता होती है जिसके साथ तर्क किया जा सकता है। IE का एक विशिष्ट अनुप्रयोग प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।

कार्य और उप-कार्य
मुक्त पाठ में मौजूद जानकारी का एक संरचित दृश्य बनाने के लिए पाठ में सूचना निष्कर्षण लागू करना पाठ सरलीकरण की समस्या से जुड़ा हुआ है। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में शामिल हैं:


 * टेम्प्लेट भरना: किसी दस्तावेज़ से फ़ील्ड का एक निश्चित सेट निकालना, उदा। एक आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
 * घटना निष्कर्षण: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार का लेख कई आतंकवादी हमलों का वर्णन कर सकता है।
 * ज्ञान आधारित जनसंख्या: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। आमतौर पर डेटाबेस ट्रिपल के रूप में होता है, (इकाई 1, संबंध, इकाई 2), उदा। (बराक ओबामा, पति, मिशेल ओबामा)
 * नामित इकाई मान्यता: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान। आम तौर पर मान्यता कार्य में निकाली गई इकाई को एक अद्वितीय पहचानकर्ता निर्दिष्ट करना शामिल होता है। एक सरल कार्य को एंटिटी डिटेक्शन नाम दिया गया है, जिसका उद्देश्य एंटिटी इंस्टेंसेस के बारे में कोई मौजूदा ज्ञान न होने पर एंटिटीज का पता लगाना है। उदाहरण के लिए, वाक्य को संसाधित करने में एम. स्मिथ को फिशिंग पसंद है, एंटिटी डिटेक्शन नाम 'पता लगाने' को इंगित करेगा कि वाक्यांश एम. स्मिथ एक व्यक्ति को संदर्भित करता है, लेकिन आवश्यक रूप से बिना किसी एम. स्मिथ के बारे में कोई ज्ञान (या उपयोग) किए जो वह विशिष्ट व्यक्ति है (या, हो सकता है) जिसके बारे में वह वाक्य बात कर रहा है।
 * सहसंदर्भ रेजोल्यूशन: टेक्स्ट एंटिटीज के बीच कोररेंस और अनाफोरा (भाषाविज्ञान) लिंक का पता लगाना। आईई कार्यों में, यह आमतौर पर पहले से निकाली गई नामित संस्थाओं के बीच लिंक खोजने तक सीमित है। उदाहरण के लिए, इंटरनेशनल बिजनेस मशीन और आईबीएम एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य लें तो एम. स्मिथ को मछली पकड़ना पसंद है। लेकिन उसे बाइक चलाना पसंद नहीं है, यह पता लगाना फायदेमंद होगा कि वह पहले से पहचाने गए व्यक्ति एम. स्मिथ की बात कर रहा है।
 * संबंध निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान, जैसे कि:
 * व्यक्ति संगठन के लिए काम करता है (वाक्य से निकाला गया बिल आईबीएम के लिए काम करता है।)
 * स्थान में स्थित व्यक्ति (वाक्य बिल फ्रांस में है से निकाला गया।)
 * अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
 * तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।
 * तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। तालिका निष्कर्षण की तुलना में यह अधिक जटिल कार्य है, क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझना, तालिका के अंदर जानकारी को जोड़ना और तालिका में प्रस्तुत जानकारी को समझना तालिका के लिए आवश्यक अतिरिक्त कार्य हैं। सूचना निष्कर्षण।
 * टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच लिंक को पुनर्स्थापित करने के लिए लेख की वास्तविक सामग्री से टिप्पणियां निकालना
 * भाषा और शब्दावली विश्लेषण
 * शब्दावली निष्कर्षण: किसी दिए गए पाठ कोष के लिए प्रासंगिक शब्द खोजना
 * ऑडियो निष्कर्षण
 * टेम्प्लेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए ऑडियो सिग्नल में प्रासंगिक विशेषता खोजना; उदाहरण के लिए एक संगीत टुकड़े के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं का समय सूचकांक निकाला जा सकता है।

ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ आमतौर पर स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। IE में अक्सर मशीन लर्निंग, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।

गैर-पाठ दस्तावेज़ों पर आईई एक तेजी से दिलचस्प विषय बनता जा रहा है अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। यह स्वाभाविक रूप से कई प्रकार के दस्तावेजों और स्रोतों से निकाली गई जानकारी के संलयन की ओर जाता है।

वर्ल्ड वाइड वेब एप्लिकेशन
आईई एमयूसी सम्मेलनों का फोकस रहा है। हालाँकि, वर्ल्ड वाइड वेब के प्रसार ने IE सिस्टम विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध डेटा बाढ़ से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाले सिस्टम को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी सिस्टम उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण HTML/XML टैग और ऑनलाइन टेक्स्ट में उपलब्ध लेआउट स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, रैपर (डेटा माइनिंग) का उपयोग करके वेब पर IE के लिए कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। मशीन लर्निंग तकनीक, या तो पर्यवेक्षित अध्ययन या अनियंत्रित शिक्षा, ऐसे नियमों को स्वचालित रूप से प्रेरित करने के लिए उपयोग की जाती है।

रैपर आमतौर पर वेब पेजों के अत्यधिक संरचित संग्रह जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं को संभालते हैं। हालांकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई सिस्टम के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। ऐसी प्रणालियाँ उथले प्राकृतिक भाषा ज्ञान का दोहन कर सकती हैं और इस प्रकार इसे कम संरचित पाठों पर भी लागू किया जा सकता है।

हाल ही में विकास दृश्य सूचना निष्कर्षण है, जो एक ब्राउज़र में एक वेबपेज को रेंडर करने और रेंडर किए गए वेब पेज में क्षेत्रों की निकटता के आधार पर नियम बनाने पर निर्भर करता है। यह उन जटिल वेब पेजों से संस्थाओं को निकालने में मदद करता है जो एक विज़ुअल पैटर्न प्रदर्शित कर सकते हैं, लेकिन HTML स्रोत कोड में एक स्पष्ट पैटर्न की कमी है।

दृष्टिकोण
निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं: आईई के लिए कई अन्य दृष्टिकोण मौजूद हैं जिनमें हाइब्रिड दृष्टिकोण शामिल हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।
 * हस्तलिखित नियमित अभिव्यक्तियाँ (या नियमित अभिव्यक्तियों का नेस्टेड समूह)
 * क्लासिफायर का उपयोग करना
 * जनरेटिव: नैवे बेयस क्लासिफायरियर
 * भेदभावपूर्ण: अधिकतम एन्ट्रापी का सिद्धांत#अधिकतम एन्ट्रापी मॉडल जैसे बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन
 * अनुक्रम मॉडल
 * आवर्तक तंत्रिका नेटवर्क
 * छिपा हुआ मार्कोव मॉडल
 * सशर्त मार्कोव मॉडल (सीएमएम) / अधिकतम-एन्ट्रॉपी मार्कोव मॉडल (एमईएमएम)
 * सशर्त यादृच्छिक क्षेत्र (CRF) आमतौर पर IE के संयोजन में शोध पत्रों से जानकारी निकालने जैसे विविध कार्यों के लिए उपयोग किए जाते हैं नेविगेशन निर्देश निकालने के लिए।

मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं

 * टेक्स्ट इंजीनियरिंग के लिए सामान्य आर्किटेक्चर (गेट) को मुफ्त सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
 * अपाचे ओपनएनएलपी प्राकृतिक भाषा प्रसंस्करण के लिए जावा मशीन लर्निंग टूलकिट है
 * ClearForest थॉमसन रॉयटर्स से एक स्वचालित सूचना निष्कर्षण वेब सेवा है (मुफ्त सीमित संस्करण)
 * मैलेट (सॉफ्टवेयर परियोजना) | मशीन लर्निंग फॉर लैंग्वेज टूलकिट (मैलेट) विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए एक जावा-आधारित पैकेज है, जिसमें सूचना निष्कर्षण भी शामिल है।
 * डीबीपीडिया स्पॉटलाइट जावा/स्कैला (और मुफ्त वेब सेवा) में एक ओपन सोर्स टूल है जिसका उपयोग नामित इकाई पहचान और नाम संकल्प (शब्दार्थ और पाठ निष्कर्षण) के लिए किया जा सकता है।
 * प्राकृतिक भाषा टूलकिट पायथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट है
 * सशर्त रैंडम फील्ड#सॉफ्टवेयर भी देखें

यह भी देखें

 * निष्कर्षण
 * डेटा निकालना
 * कीवर्ड निष्कर्षण
 * ज्ञान निष्कर्षण
 * सत्तामीमांसा निष्कर्षण
 * ओपन सूचना निष्कर्षण
 * टेबल निष्कर्षण
 * शब्दावली निष्कर्षण


 * खनन, क्रॉलिंग, स्क्रैपिंग और मान्यता
 * अपाचे नच, वेब क्रॉलर
 * अवधारणा खनन
 * नामित इकाई मान्यता
 * टेक्स्ट खनन
 * वेब स्क्रेपिंग


 * खोज और अनुवाद
 * उद्यम खोज
 * पहलू खोज
 * शब्दार्थ अनुवाद


 * सामान्य
 * आर्टिफिशियल इंटेलिजेंस के अनुप्रयोग
 * डार्पा टिपस्टर कार्यक्रम


 * सूचियों
 * उभरती प्रौद्योगिकियों की सूची
 * कृत्रिम बुद्धि की रूपरेखा

इस पेज में लापता आंतरिक लिंक की सूची

 * सूचना की पुनर्प्राप्ति
 * तार्किक विचार
 * संदर्भ (भाषा का प्रयोग)
 * दरपा
 * ज्ञानधार
 * अनाफोरा (भाषा विज्ञान)
 * रैपर (डाटा माइनिंग)
 * बहुराष्ट्रीय रसद प्रतिगमन
 * टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला
 * ओन्टोलॉजी निष्कर्षण
 * सूचना निष्कर्षण खोलें

बाहरी संबंध

 * Alias-I "competition" page A listing of academic toolkits and industrial toolkits for natural language information extraction.
 * Gabor Melli's page on IE Detailed description of the information extraction task.