सूचना निष्कर्षण

सूचना निष्कर्षण(आईई) असंरचित डेटा और/या अर्ध-संरचित मशीन-पठनीय दस्तावेजों और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश स्थितियों में यह गतिविधि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। मल्टीमीडिया दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे स्वचालित टिप्पणी और छवियों/श्रव्य/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।

समस्या की कठिनाई के कारण, आईई (2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। इसका एक उदाहरण है निगमित विलयन की ताजा रिपोर्टों से निष्कर्षण, जैसे कि औपचारिक संबंध द्वारा दर्शाया जाता है:
 * $$\mathrm{MergerBetween}(company_1, company_2, date)$$,

एक ऑनलाइन समाचार वाक्य से जैसे:
 * "कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"

आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य यह है कि इनपुट डेटा के तार्किक अंतर्वस्तु के आधार पर तार्किक तर्क से निष्कर्ष निकालने की अनुमति दी जाए। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ के संबंध में व्याख्या किया गया है।

सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए इसके प्रसारण, भंडारण और प्रदर्शन के अलावा स्वचालित विधियां बनाने के संबंध में काम आता है। सूचना पुनर्प्राप्ति का अनुशासन(आईआर) बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, सामान्यतः एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण(एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और जोर दोनों के संदर्भ में, आईई आईआर और एनएलपी दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए, एक टेम्पलेट में अपराधी, शिकार, और आतंकवादी कृत्य के हथियार, और जिस दिन घटना हुई थी, के अनुरूप स्लॉट होंगे। इस समस्या के लिए एक आईई प्रणाली को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।

इतिहास
सूचना निष्कर्षण 1970 के दशक के अंत में एनएलपी के शुरुआती दिनों में हुआ। 1980 के दशक के मध्य से एक प्रारंभिक वाणिज्यिक प्रणाली वित्तीय व्यापारियों को वास्तविक समय की वित्तीय समाचार प्रदान करने के उद्देश्य से कार्नेगी ग्रुप इंक द्वारा रॉयटर्स के लिए बनाई गई जेस्पर थी।

1987 की शुरुआत में, आईई को संदेश समझ सम्मेलनों की एक श्रृंखला द्वारा प्रेरित किया गया था। एमयूसी एक प्रतियोगिता-आधारित सम्मेलन है जो निम्नलिखित डोमेन पर केंद्रित है:
 * एमयूसी-1(1987), एमयूसी-3(1989): नौसेना संचालन संदेश।
 * एमयूसी-3(1991), एमयूसी-4(1992): लैटिन अमेरिकी देशों में आतंकवाद।
 * एमयूसी-5(1993): संयुक्त उद्यम और माइक्रोइलेक्ट्रॉनिक डोमेन।
 * एमयूसी-6(1995): प्रबंधन परिवर्तन पर समाचार लेख।
 * एमयूसी-7(1998): उपग्रह प्रक्षेपण रिपोर्ट।

यूएस डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी(डीएआरपीए) से काफी समर्थन मिला, जो सरकारी विश्लेषकों द्वारा किए गए सांसारिक कार्यों को स्वचालित करना चाहते थे, जैसे आतंकवाद के संभावित लिंक के लिए समाचार पत्रों को स्कैन करना।

वर्तमान महत्व
आईई का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। टिम बेर्नर्स-ली, वर्ल्ड वाइड वेब के आविष्कारक, वर्तमान इंटरनेट को दस्तावेजों के वेब के रूप में संदर्भित करता है और यह वकालत करता है कि डेटा के वेब के रूप में अधिक सामग्री उपलब्ध कराई जाए। जब तक यह पारदर्शी नहीं हो जाता, तब तक वेब बड़े पैमाने पर असंरचित दस्तावेजों से युक्त होता है जिसमें सिमेंटिक मेटा डेटा की कमी होती है। इन दस्तावेजों में निहित ज्ञान, संबंधपरक रूप में परिवर्तन के माध्यम से या एक्सएमएल टैग के साथ मार्क-अप के द्वारा मशीन संसाधन के लिए अधिक सुलभ बनाया जा सकता है। समाचार डेटा फ़ीड के अनुवीक्षण के लिए किसी बुद्धिमान अभिकर्ता को असंरचित डेटा में ऐसे परिवर्तन की आवश्यकता होती है जिसके साथ तर्क किया जा सके। आईई का एक विशिष्ट अनुप्रयोग प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।

कार्य और उप-कार्य
मुक्त पाठ में मौजूद जानकारी का एक संरचित दृश्य बनाने के लिए पाठ में सूचना निष्कर्षण लागू करना पाठ सरलीकरण की समस्या से जुड़ा हुआ है। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में शामिल हैं:


 * टेम्पलेट फिलिंग: किसी दस्तावेज़ से क्षेत्र का एक निश्चित सेट निकालना, उदा। एक आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
 * घटना सारांशन: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार के लेख में कई आतंकवादी हमलों का वर्णन हो सकता है।
 * ज्ञान आधारित जनसंख्या: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। साधारणतया यह डेटाबेस तीन प्रकार का होता है(निकाय 1, संबंध, संस्था 2), जैसे(बराक ओबामा, पत्नी, मिशेल ओबामा)
 * नामित इकाई मान्यता: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों(लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान। सामान्यतया पहचान कार्य में, निकाले गए इकाई को विशिष्ट पहचान प्रदान करना सम्मिलित होता है। एक सरल कार्य का नाम इकाई पहचान है, जिसका उद्देश्य सत्ता के उदाहरणों के बारे में किसी मौजूदा ज्ञान के बिना संस्थाओं का पता लगाने पर होता है। उदाहरण के लिए, "एम. स्मिथ को मछली पकड़ना पसंद है" वाक्य की प्रक्रिया करने में, एंटिटी डिटेक्शन नाम का मतलब यह पता लगाना होगा कि वाक्यांश "एम. स्मिथ" एक व्यक्ति को संदर्भित करता है, लेकिन बिना किसी निश्चित एम के बारे में कोई ज्ञान(या उपयोग) किए। स्मिथ जो(या, "हो सकता है") वह विशिष्ट व्यक्ति है जिसके बारे में वह वाक्य बात कर रहा है।
 * सहसंदर्भ समाधान: पाठ संस्थाओं के बीच सह-संदर्भ और एनाफोरिक लिंक का पता लगाना। यानी कार्यों में, सामान्यतः पहले से निकाले जाने वाली संस्थाओं के बीच कोई न कोई लिंक होता है। उदाहरण के लिए, "अंतर्राष्ट्रीय व्यापार मशीनें" और "आईबीएम" एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य "एम. स्मिथ मछली पकड़ने पसंद करते हैं लेकिन उसे बाइकिंग पसंद नहीं है, यह पता लगाना लाभकारी होगा कि "वह" पहले से पकड़े गए व्यक्ति "एम. स्मिथ" से संदर्भित है।
 * संबंध निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान, जैसे:
 * व्यक्ति संगठन के लिए काम करता है(वाक्य से निकाला गया "बिल आईबीएम के लिए काम करता है।")
 * स्थान में स्थित व्यक्ति(वाक्य से निकाला गया "बिल फ्रांस में है।")
 * अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
 * तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।
 * तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। तालिका निष्कर्षण की तुलना में यह अधिक जटिल कार्य है, क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझना, तालिका के अंदर जानकारी को जोड़ना और तालिका में प्रस्तुत जानकारी को समझना तालिका के लिए आवश्यक अतिरिक्त कार्य हैं। सूचना निष्कर्षण।
 * टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच लिंक को पुनर्स्थापित करने के लिए आलेख की वास्तविक सामग्री से टिप्पणियां निकालना
 * भाषा और शब्दावली विश्लेषण
 * शब्दावली निष्कर्षण: किसी दिए गए पाठ कोष के लिए प्रासंगिक शब्द ढूँढना
 * श्रव्य निष्कर्षण
 * टेम्पलेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए श्रव्य संकेत में प्रासंगिक विशेषता खोजना; उदाहरण के लिए किसी संगीत के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं के समय सूचकांक निकाले जा सकते हैं।

ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ सामान्यतः स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। आईई में अधिकांशतः मशीन अधिगम, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।

गैर-पाठ दस्तावेज़ों पर आईई शोध में एक तेजी से दिलचस्प विषय बनता जा रहा है अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। इससे अनेक प्रकार के दस्तावेजों तथा स्रोतों से निकाली गई जानकारी एकत्र होती है।

वर्ल्ड वाइड वेब एप्लिकेशन
आईई एमयूसी सम्मेलनों का फोकस रहा है। चूंकि, वेब के प्रसार ने आईई प्रणाली विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध भारी मात्रा में डेटा से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाली प्रणाली को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी प्रणाली उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण एचटीएमएल/एक्सएमएल टैग और ऑनलाइन टेक्स्ट में उपलब्ध नक़्शा स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, वेब पर आईई के लिए रैपर का उपयोग करके कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। इस तरह के नियमों को अपने आप प्रेरित करने के लिए मशीन लर्निंग तकनीक का प्रयोग या तो पर्यवेक्षित या अनुपर्यवेक्षित किया गया है।

रैपरर्स, सामान्यतया वेब पृष्ठों जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं के उच्च संरचित संसंग्रहों को संभालती हैं। चूंकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई प्रणाली के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। इस प्रकार की प्रणालियां उथले प्राकृतिक भाषा के ज्ञान का लाभ उठा सकती हैं और इस तरह कम संरचित ग्रंथों पर भी इसे लागू किया जा सकता है।

हाल ही में विकास दृश्य सूचना निष्कर्षण है, जो एक ब्राउज़र में एक वेबपेज को रेंडर करने और रेंडर किए गए वेब पेज में क्षेत्रों की निकटता के आधार पर नियम बनाने पर निर्भर करता है। यह जटिल वेब पृष्ठों से ऐसी संस्थाओं को निकालने में मदद करता है जो दृश्य पैटर्न को प्रदर्शित करती हैं, लेकिन एचटीएमएल स्रोत कोड में अधिक स्पष्ट पैटर्न का अभाव है।

दृष्टिकोण
निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं: आईई के लिए कई अन्य दृष्टिकोण मौजूद हैं जिनमें हाइब्रिड दृष्टिकोण शामिल हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।
 * हस्तलिखित नियमित अभिव्यक्तियाँ(या नियमित अभिव्यक्तियों का नेस्टेड समूह)
 * क्लासिफायर का उपयोग करना
 * उत्पादक: नैव बेयस क्लासिफायरियर
 * भेदभावपूर्ण: अधिकतम एन्ट्रापी मॉडल जैसे बहुराष्ट्रीय उपस्कर प्रतिगमन
 * अनुक्रम मॉडल
 * आवर्तक तंत्रिका नेटवर्क
 * छिपा हुआ मार्कोव मॉडल
 * सशर्त मार्कोव मॉडल(सीएमएम) / अधिकतम-एन्ट्रॉपी मार्कोव मॉडल(एमईएमएम)
 * सशर्त यादृच्छिक क्षेत्र(सीआरएफ) सामान्यतः आईई के संयोजन में शोध पत्रों से जानकारी निकालने जैसे विविध कार्यों के लिए उपयोग किए जाते हैं नेविगेशन निर्देश निकालने के लिए।

मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं

 * टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला(गेट) को एक निःशुल्क सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
 * अपाचे ओपनएनएलपी, प्राकृतिक भाषा संसाधन के लिए जावा मशीन अधिगम उपकरण-किट है।
 * ओपन कैलाइस थॉमसन रॉयटर्स से एक स्वचालित सूचना निष्कर्षण वेब सेवा है(मुफ्त सीमित संस्करण)
 * मशीन लर्निंग फॉर लैंग्वेज उपकरणकिट(मैलेट) एक जावा-आधारित पैकेज है, जिसमें विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए सूचना निष्कर्षण शामिल है।
 * डीबीपीडिया स्पॉटलाइट जावा/स्कैला(और मुफ्त वेब सेवा) में एक ओपन सोर्स उपकरण है जिसका उपयोग नामित इकाई पहचान और नाम संकल्प(शब्दार्थ और पाठ निष्कर्षण) के लिए किया जा सकता है।
 * प्राकृतिक भाषा उपकरणकिट पायथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा संसाधन(एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक समूह है
 * सीआरएफ कार्यान्वयन भी देखें

यह भी देखें

 * निष्कर्षण
 * डेटा निकालना
 * कीवर्ड निष्कर्षण
 * ज्ञान निष्कर्षण
 * सत्तामीमांसा निष्कर्षण
 * ओपन सूचना निष्कर्षण
 * टेबल निष्कर्षण
 * शब्दावली निष्कर्षण


 * खनन, क्रॉलिंग, स्क्रैपिंग और मान्यता
 * अपाचे नच, वेब क्रॉलर
 * अवधारणा खनन
 * नामित इकाई मान्यता
 * टेक्स्ट खनन
 * वेब स्क्रेपिंग


 * खोज और अनुवाद
 * उद्यम खोज
 * पहलू खोज
 * शब्दार्थ अनुवाद


 * सामान्य
 * आर्टिफिशियल इंटेलिजेंस के अनुप्रयोग
 * डार्पा टिपस्टर कार्यक्रम


 * सूचियों
 * उभरती प्रौद्योगिकियों की सूची
 * कृत्रिम बुद्धि की रूपरेखा

इस पेज में लापता आंतरिक लिंक की सूची

 * सूचना की पुनर्प्राप्ति
 * तार्किक विचार
 * संदर्भ(भाषा का प्रयोग)
 * दरपा
 * ज्ञानधार
 * अनाफोरा(भाषा विज्ञान)
 * रैपर(डाटा माइनिंग)
 * बहुराष्ट्रीय रसद प्रतिगमन
 * टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला
 * ओन्टोलॉजी निष्कर्षण
 * सूचना निष्कर्षण खोलें

बाहरी संबंध

 * Alias-I "competition" page A listing of academic toolkits and industrial toolkits for natural language information extraction.
 * Gabor Melli's page on IE Detailed description of the information extraction task.