टेक्स्ट खनन

टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनिंग (टीडीएम) या टेक्स्ट विश्लेषण टेक्स्ट से उच्च-गुणवत्ता वाली जानकारी प्राप्त करने की प्रक्रिया है। इसमें सम्प्रेषण किए गए विभिन्न लिखित संसाधनों से स्वचालित रूप से जानकारी निकालकर, कंप्यूटर द्वारा नई, पहले से अज्ञात जानकारी की खोज होती है। लिखित संसाधनों में वेबसाइट, पुस्तकें, ईमेल, समीक्षाएं और लेख सम्मिलित हो सकते हैं। उच्च-गुणवत्ता जानकारी सामान्यतः आंकड़ों और रुझानों की मदद से पैटर्न और ट्रेंड्स तैयार करके प्राप्त की जाती है। होथो एटअल के अनुसार (2005) के अनुसार, हम टेक्स्ट माइनिंग के तीन विभिन्न परिप्रेक्ष्यों के बीच भेद कर सकते हैं: जानकारी प्राप्ति, डेटा माइनिंग, और डेटाबेस में ज्ञान खोज (केडीडी) प्रक्रिया। टेक्स्ट माइनिंग सामान्यतः प्रविष्टि टेक्स्ट को संरचित करने की प्रक्रिया को सम्मिलित करता है सामान्यतः पार्सिंग के साथ, कुछ उत्पन्न भाषात्मक विशेषताओं की जोड़-गणन और अन्यों की हटाने के साथ, और इसके बाद डेटाबेस में सम्मिलन, संरचित डेटा में पैटर्न निकालना, और अंत में आउटपुट का मूल्यांकन और व्याख्यान करना। टेक्स्ट माइनिंग में 'उच्च गुणवत्ता' सामान्यतः प्रासंगिकता, नवीनता, और रुचि के कुछ संयोजन को संकेत करती है। सामान्य टेक्स्ट माइनिंग कार्यों में टेक्स्ट श्रेणीबद्धीकरण, टेक्स्ट समूहीकरण, अवधारणा / संस्करण निकालना, विस्तृत श्रेणियां बनाना, भावना विश्लेषण, दस्तावेज़  संक्षेपण, और एंटिटी संबंध मॉडेलिंग सम्मिलित होते हैं।

टेक्स्ट विश्लेषण में सूचना प्राप्ति, शब्दिक विश्लेषण के लिए शब्द आवृत्ति वितरण का अध्ययन, पैटर्न पहचानी, टैगिंग/टिप्पणी, सूचना प्राप्ति, लिंक और संबंध विश्लेषण सहित डेटा माइनिंग तकनीकें, दृश्यीकरण, और पूर्वानुमानात्मक विश्लेषण सम्मिलित होते हैं। सार्वभौमिक लक्ष्य, सामान्य रूप से, संसाधन पर आधारित विश्लेषण के लिए टेक्स्ट को डेटा में बदलना है, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), विभिन्न प्रकार के कलनविधि और विश्लेषणिक विधियों के उपयोग के माध्यम से इस प्रक्रिया का महत्वपूर्ण चरण संग्रहित जानकारी की व्याख्या है।

एक विशिष्ट एप्लिकेशन प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना है और या तो पूर्वानुमानित वर्गीकरण उद्देश्यों के लिए दस्तावेज़ सेट को मॉडल करना है या निकाली गई जानकारी के साथ डेटाबेस या खोज सूचकांक को पॉप्युलेट करना है। टेक्स्ट माइनिंग से शुरुआत करते समय दस्तावेज़ मूल तत्व होता है। यहां, हम एक दस्तावेज़ को पाठ्य डेटा की एक इकाई के रूप में परिभाषित करते हैं, जो सामान्यतः कई प्रकार के संग्रहों में उपस्थित होता है।

टेक्स्टविश्लेषण
टेक्स्ट विश्लेषण भाषाविज्ञान, सांख्यिकीय और यंत्र अधिगम  तकनीकों के एक सेट का वर्णन करता है जो अन्वेषणात्मक डेटा विश्लेषण, खोजपूर्ण डेटा विश्लेषण, अनुसंधान या जांच के लिए पाठ्य स्रोतों की सूचना सामग्री को मॉडल और संरचना करता है। यह शब्द मोटे तौर पर टेक्स्ट माइनिंग का पर्याय है; वास्तव में, रॉन फेल्डमैन ने टेक्स्ट माइनिंग के 2000 विवरण को संशोधित किया 2004 में टेक्स्ट विश्लेषण का वर्णन करने के लिए। बाद वाला शब्द अब व्यावसायिक सेटिंग्स में अधिक बार उपयोग किया जाता है, जबकि टेक्स्ट माइनिंग का उपयोग 1980 के दशक के कुछ शुरुआती अनुप्रयोग क्षेत्रों में किया जाता है, विशेष रूप से जीवन-विज्ञान अनुसंधान और सरकारी सूचना के क्षेत्रों में किया जाता है।

टेक्स्ट विश्लेषण शब्द उस अनुप्रयोग को भी वर्णित करता है जो व्यापार समस्याओं का समाधान करने के लिए टेक्स्ट विश्लेषण का उपयोग करता है, चाहे यह स्वतंत्र रूप से हो या क्षेत्रीय, संख्यात्मक डेटा के प्रश्न और विश्लेषण के साथ संयोजित हो। यह सत्य है कि व्यापार संबंधी जानकारी का 80 प्रतिशत असंरचित डेटा में, मुख्य रूप से टेक्स्टके रूप में उत्पन्न होता है। ये तकनीकें और प्रक्रियाएं तत्वों, व्यापार नियमों और संबंधों को खोजती हैं और प्रस्तुत करती हैं - जो अन्यथा पाठिक रूप में बंद होते हैं और स्वचालित प्रसंस्करण के लिए अप्रवेश्य होते हैं।

टेक्स्ट विश्लेषण प्रक्रियाएँ
उपकार्य—बड़े पाठ-विश्लेषण प्रयास के घटक—सामान्यतः सम्मिलित होते हैं:


 * पूर्व-प्रसंस्करण डेटा के लिए आयामीता में कमी महत्वपूर्ण तकनीक है। तकनीक का उपयोग वास्तविक शब्दों के मूल शब्द की पहचान करने और टेक्स्ट डेटा के आकार को कम करने के लिए किया जाता है।
 * सूचना पुनर्प्राप्ति या टेक्स्टकोष की पहचान एक प्रारंभिक चरण है: विश्लेषण के लिए वेब पर या फाइल सिस्टम, डेटाबेस, या सामग्री कॉर्पस प्रबंधक में रखी गई पाठ्य सामग्री के एक सेट को इकट्ठा करना या पहचानना।
 * कुछ टेक्स्ट विश्लेषण प्रणालियाँ विशेष रूप से उन्नत सांख्यिकीय तरीकों को लागू करती हैं, कई अन्य अधिक व्यापक प्राकृतिक भाषा प्रसंस्करण को लागू करते हैं, जैसे कि भाषण टैगिंग का भाग, वाक्यविन्यास पार्सिंग और अन्य प्रकार के भाषाई विश्लेषण।
 * नामित इकाई पहचान नामित टेक्स्टसुविधाओं की पहचान करने के लिए गजेटियर्स या सांख्यिकीय तकनीकों का उपयोग है: लोग, संगठन, स्थान के नाम, स्टॉक टिकर प्रतीक, कुछ संक्षिप्ताक्षर, इत्यादि।
 * असंबद्धता - संदर्भ सुरागों का उपयोग - यह तय करने के लिए आवश्यक हो सकता है कि, उदाहरण के लिए, फोर्ड पूर्व अमेरिकी राष्ट्रपति, एक वाहन निर्माता, एक फिल्म स्टार, एक नदी पार करने वाले, या किसी अन्य इकाई का उल्लेख कर सकता है।
 * पैटर्न पहचानी गई संस्थाओं की पहचान: टेलीफोन नंबर, ई-मेल पते, मात्रा (इकाइयों के साथ) जैसी विशेषताओं को नियमित अभिव्यक्ति या अन्य पैटर्न मिलान के माध्यम से पहचाना जा सकता है।
 * दस्तावेज़ क्लस्टरिंग: समान टेक्स्टदस्तावेज़ों के सेट की पहचान।
 * सहसंदर्भ: संज्ञा वाक्यांश और अन्य शब्दों की पहचान जो एक ही वस्तु को संदर्भित करते हैं।
 * संबंध, तथ्य और घटना निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान और ग्रंथों में अन्य जानकारी।
 * भावना विश्लेषण में समझदार व्यक्तिपरक सामग्री और व्यवहारिक जानकारी के विभिन्न रूपों को निकालना सम्मिलित  है: भावना, राय, मनोदशा और भावना। टेक्स्ट विश्लेषण तकनीक इकाई, अवधारणा या विषय स्तर पर भावनाओं का विश्लेषण करने और राय धारकों और वस्तुओं को अलग करने में मदद करती है।
 * मात्रात्मक टेक्स्टविश्लेषण सामाजिक विज्ञान से उपजी तकनीकों का एक सेट है जहां या तो एक मानव न्यायाधीश या एक कंप्यूटर शब्दों के बीच अर्थ या व्याकरणिक संबंधों को निकालता है ताकिसामान्यतः  इस उद्देश्य के लिए एक आकस्मिक व्यक्तिगत  टेक्स्टके अर्थ या शैलीगत पैटर्न का पता लगाया जा सके। मनोवैज्ञानिक प्रोफाइलिंग आदि की।
 * प्री-प्रोसेसिंग में सामान्यतः टोकनाइजेशन, फ़िल्टरिंग और स्टेमिंग जैसे कार्य सम्मिलित होते हैं।

अनुप्रयोग
टेक्स्ट माइनिंग तकनीक अब व्यापक रूप से विभिन्न प्रकार की सरकारी, अनुसंधान और व्यावसायिक आवश्यकताओं के लिए लागू की जाती है। ये सभी समूह रिकॉर्ड प्रबंधन और अपनी दैनिक गतिविधियों से संबंधित दस्तावेज़ों की खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। उदाहरण के लिए, कानूनी पेशेवर ई-खोज  के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। सरकारें और सैन्य समूह राष्ट्रीय सुरक्षा और खुफिया उद्देश्यों के लिए टेक्स्ट माइनिंग का उपयोग करते हैं। वैज्ञानिक शोधकर्ता टेक्स्ट डेटा के बड़े सेट को व्यवस्थित करने (यानी, असंरचित डेटा की समस्या को संबोधित करने) के प्रयासों में टेक्स्ट माइनिंग दृष्टिकोण को सम्मिलित  करते हैं, ताकि टेक्स्ट के माध्यम से संप्रेषित विचारों को निर्धारित किया जा सके (उदाहरण के लिए,  सामाजिक मीडिया  में भावना विश्लेषण)   ) और जीवन विज्ञान और जैव सूचना विज्ञान जैसे क्षेत्रों में वैज्ञानिक खोज का समर्थन करना। व्यवसाय में, कई अन्य गतिविधियों के अतिरिक्त, प्रतिस्पर्धी बुद्धिमत्ता और स्वचालित विज्ञापन सेवा का समर्थन करने के लिए एप्लिकेशन का उपयोग किया जाता है।

सुरक्षा अनुप्रयोग
कई टेक्स्ट माइनिंग सॉफ़्टवेयर पैकेज सुरक्षा उपकरण के लिए विपणन किए जाते हैं, विशेष रूप से राष्ट्रीय सुरक्षा उद्देश्यों के लिए ऑनलाइन सादे टेक्स्टस्रोतों जैसे इंटरनेट समाचार, ब्लॉग इत्यादि की निगरानी और विश्लेषण। यह टेक्स्ट  कूटलेखन /डिक्रिप्शन के अध्ययन में भी सम्मिलित है।

बायोमेडिकल अनुप्रयोग
बायोमेडिकल साहित्य में टेक्स्ट माइनिंग अनुप्रयोगों की एक श्रृंखला का वर्णन किया गया है, प्रोटीन डॉकिंग में अध्ययन में सहायता के लिए कम्प्यूटेशनल दृष्टिकोण सहित, प्रोटीन अंतःक्रिया, और प्रोटीन-रोग संघ। इसके अतिरिक्त, नैदानिक ​​क्षेत्र में बड़े रोगी पाठ्य डेटासेट, जनसंख्या अध्ययन में जनसांख्यिकीय जानकारी के डेटासेट और प्रतिकूल घटना रिपोर्ट के साथ,  टेक्स्टमाइनिंग  नैदानिक ​​​​अध्ययन और सटीक चिकित्सा की सुविधा प्रदान कर सकता है। टेक्स्ट माइनिंग एल्गोरिदम इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड, घटना रिपोर्ट और विशिष्ट नैदानिक ​​​​परीक्षणों की रिपोर्ट से लक्षणों, दुष्प्रभावों और सह-रुग्णताओं के बड़े रोगी पाठ्य डेटासेट में विशिष्ट नैदानिक ​​​​घटनाओं के स्तरीकरण और अनुक्रमण की सुविधा प्रदान कर सकते हैं। बायोमेडिकल साहित्य में एक ऑनलाइन टेक्स्ट माइनिंग एप्लिकेशन पबजीन है, जो एक सार्वजनिक रूप से सुलभ खोज इंजन है जो बायोमेडिकल टेक्स्ट माइनिंग को नेटवर्क विज़ुअलाइज़ेशन के साथ जोड़ता है।  बायोमेडिकल ग्रंथों के लिए एक ज्ञान-आधारित खोज इंजन है। टेक्स्ट माइनिंग तकनीक हमें क्लिनिकल डोमेन में असंरचित दस्तावेज़ों से अज्ञात ज्ञान निकालने में भी सक्षम बनाती है

सॉफ्टवेयर अनुप्रयोग
टेक्स्ट माइनिंग विधि और विश्लेषण प्रक्रियाओं को और अधिक स्वचालित करने के लिए आईबीएम और माइक्रोसॉफ्ट सहित प्रमुख कंपनियों द्वारा टेक्स्ट माइनिंग विधियों और सॉफ्टवेयर पर भी शोध और विकास किया जा रहा है, और सामान्य रूप से खोज और अनुक्रमण के क्षेत्र में काम करने वाली विभिन्न कंपनियां अपने परिणामों को बेहतर बनाने के विधियों के रूप में काम कर रही हैं।. सार्वजनिक क्षेत्र के भीतर, सूचना जागरूकता कार्यालय की ट्रैकिंग और निगरानी के लिए सॉफ्टवेयर बनाने पर बहुत प्रयास केंद्रित किया गया है। अध्ययन उद्देश्यों के लिए, वेका (मशीन लर्निंग) वैज्ञानिक दुनिया में सबसे लोकप्रिय विकल्पों में से एक है, जो शुरुआती लोगों के लिए एक उत्कृष्ट प्रवेश बिंदु के रूप में कार्य करता है। पायथन प्रोग्रामर्स के लिए, अधिक सामान्य उद्देश्यों के लिए प्राकृतिक भाषा टूलकिट  नामक एक उत्कृष्ट टूलकिट है। अधिक उन्नत प्रोग्रामर के लिए, जनरल लाइब्रेरी भी है, जो शब्द एम्बेडिंग-आधारित टेक्स्ट प्रस्तुतियों पर केंद्रित है।

ऑनलाइन मीडिया अनुप्रयोग
टेक्स्ट माइनिंग का उपयोग ट्रिब्यून कंपनी जैसी बड़ी मीडिया कंपनियों द्वारा जानकारी को स्पष्ट करने और पाठकों को बेहतर खोज अनुभव प्रदान करने के लिए किया जा रहा है, जिससे साइट की चिपचिपाहट और राजस्व में वृद्धि होती है। इसके अतिरिक्त, अंत में, संपादकों को सभी संपत्तियों में समाचारों को साझा करने, संबद्ध करने और पैकेज करने में सक्षम होने से लाभ हो रहा है, जिससे सामग्री से मुद्रीकरण के अवसर काफी बढ़ रहे हैं।

व्यवसाय और विपणन अनुप्रयोग
टेक्स्ट विश्लेषण का उपयोग व्यवसाय में किया जा रहा है, विशेष रूप से मार्केटिंग में, जैसे कि ग्राहक संबंध प्रबंधन में। कूसेमेंट और वैन डेन पोएल (2008) ग्राहक मंथन (ग्राहक क्षरण) के लिए पूर्वानुमानित विश्लेषण मॉडल को बेहतर बनाने के लिए इसे लागू करें। स्टॉक रिटर्न भविष्यवाणी में टेक्स्ट माइनिंग भी लागू किया जा रहा है।

भावना विश्लेषण
भावना विश्लेषण में यह अनुमान लगाने के लिए फिल्म समीक्षाओं का विश्लेषण सम्मिलित हो सकता है कि किसी फिल्म के लिए समीक्षा कितनी अनुकूल है। इस तरह के विश्लेषण के लिए लेबल किए गए डेटा सेट या शब्दों के प्रभाव की लेबलिंग की आवश्यकता हो सकती है। शब्दतंत्र  के लिए शब्दों और अवधारणाओं की प्रभावकारिता के लिए संसाधन बनाए गए हैं और कॉन्सेप्टनेट, क्रमश।भावात्मक कंप्यूटिंग के संबंधित क्षेत्र में भावनाओं का पता लगाने के लिए टेक्स्ट का उपयोग किया गया है। प्रभावशाली कंप्यूटिंग के लिए  टेक्स्ट आधारित दृष्टिकोण का उपयोग कई कॉर्पोरा जैसे छात्रों के मूल्यांकन, बच्चों की कहानियों और समाचार कहानियों पर किया गया है।

वैज्ञानिक साहित्य माइनिंग और शैक्षणिक अनुप्रयोग
टेक्स्ट माइनिंग का मुद्दा उन प्रकाशकों के लिए महत्वपूर्ण है जिनके पास सूचना के बड़े डेटाबेस हैं जिन्हें पुनर्प्राप्ति के लिए सूचकांक की आवश्यकता होती है। यह वैज्ञानिक विषयों में विशेष रूप से सच है, जिसमें अत्यधिक विशिष्ट जानकारी प्रायः  लिखित  टेक्स्टमें निहित होती है। इसलिए, ओपन टेक्स्ट माइनिंग इंटरफेस (ओटीएमआई) के लिए नेचर (जर्नल)|नेचर का प्रस्ताव और नेशनल इंस्टीट्यूट ऑफ हेल्थ के कॉमन जर्नल पब्लिशिंग दस्तावेज़ प्रकार परिभाषा  (डीटीडी) जैसी पहल की गई है, जो विशिष्ट प्रश्नों के उत्तर देने के लिए मशीनों को सिमेंटिक संकेत प्रदान करेगा। सार्वजनिक पहुंच में प्रकाशक की बाधाओं को दूर किए बिना  टेक्स्टके भीतर समाहित किया गया।

शैक्षणिक संस्थान भी टेक्स्ट माइनिंग पहल में सम्मिलित हो गए हैं:


 * टेक्स्ट माइनिंग के लिए राष्ट्रीय केंद्र दुनिया का पहला सार्वजनिक रूप से वित्त पोषित टेक्स्ट माइनिंग केंद्र है। NaCTeM मैनचेस्टर विश्वविद्यालय द्वारा संचालित है त्सुजी लैब के निकट सहयोग से, टोक्यो विश्वविद्यालय. NaCTeM अनुकूलित उपकरण, अनुसंधान सुविधाएं प्रदान करता है और अकादमिक समुदाय को सलाह प्रदान करता है। इन्हें संयुक्त सूचना प्रणाली समिति (जेआईएससी) और यूके अनुसंधान परिषद (यूनाइटेड किंगडम) के दो (ईपीएसआरसी और बीबीएसआरसी) द्वारा वित्त पोषित किया जाता है। जीव विज्ञान और जैव चिकित्सा विज्ञान में टेक्स्ट माइनिंग पर प्रारंभिक फोकस के साथ, अनुसंधान का बाद में सामाजिक विज्ञान के क्षेत्रों में विस्तार हुआ है।
 * संयुक्त राज्य अमेरिका में, कैलिफोर्निया विश्वविद्यालय, बर्कले में यूसी बर्कले स्कूल ऑफ इंफॉर्मेशन, टेक्स्ट माइनिंग और विश्लेषण में जीवविज्ञान शोधकर्ताओं की सहायता के लिए बायोटेक्स्ट नामक एक कार्यक्रम विकसित कर रहा है।
 * रिसर्च के लिए टेक्स्ट एनालिसिस पोर्टल (टीएपीओआर), जो वर्तमान में अलबर्टा विश्वविद्यालय में स्थित है, टेक्स्ट विश्लेषण अनुप्रयोगों को सूचीबद्ध करने और अभ्यास में नए शोधकर्ताओं के लिए प्रवेश द्वार अनुसंधान के लिए टेक्स्टविश्लेषण पोर्टल है।

वैज्ञानिक साहित्य माइनिंग की विधियाँ
वैज्ञानिक साहित्य से जानकारी पुनर्प्राप्ति में सहायता के लिए अभिकलनात्मक विधियाँ विकसित किए गए हैं। प्रकाशित दृष्टिकोणों में खोज के तरीके,नवीनता का निर्धारण, और तकनीकी रिपोर्टों के बीच समानार्थी शब्दों को स्पष्ट करना सम्मिलित हैं।

डिजिटल मानविकी और कम्प्यूटेशनल समाजशास्त्र
विशाल पाठ्य संग्रह के स्वचालित विश्लेषण ने विद्वानों के लिए बहुत ही सीमित मैन्युअल हस्तक्षेप के साथ कई भाषाओं में लाखों दस्तावेजों का विश्लेषण करने की संभावना पैदा की है। प्रमुख सक्षम प्रौद्योगिकियाँ पार्सिंग, मशीन अनुवाद, विषय वर्गीकरण और मशीन लर्निंग रही हैं।

टेक्स्टुअल कॉर्पोरा के स्वचालित पार्सिंग ने बड़े पैमाने पर अभिनेताओं और उनके संबंधपरक नेटवर्क के निष्कर्षण को सक्षम किया है, जिससे टेक्स्टुअल डेटा नेटवर्क डेटा में बदल गया है। परिणामी नेटवर्क, जिसमें हजारों नोड हो सकते हैं, फिर प्रमुख अभिनेताओं, प्रमुख समुदायों या पार्टियों और सामान्य गुणों जैसे समग्र नेटवर्क की मजबूती या संरचनात्मक स्थिरता, या कुछ की केंद्रीयता की पहचान करने के लिए नेटवर्क सिद्धांत के उपकरणों का उपयोग करके विश्लेषण किया जाता है। नोड्स. यह मात्रात्मक कथा विश्लेषण द्वारा प्रस्तुत दृष्टिकोण को स्वचालित करता है, जिससे विषय-क्रिया-वस्तु त्रिक की पहचान किसी क्रिया से जुड़े अभिनेताओं के जोड़े, या अभिनेता-वस्तु द्वारा गठित जोड़े से की जाती है।

सामग्री विश्लेषण लंबे समय से सामाजिक विज्ञान और मीडिया अध्ययन का एक पारंपरिक हिस्सा रहा है। सामग्री विश्लेषण के स्वचालन ने उस क्षेत्र में एक बड़ी डेटा क्रांति लाने की अनुमति दी है, सोशल मीडिया और समाचार पत्र सामग्री में अध्ययन के साथ जिसमें लाखों समाचार आइटम सम्मिलित हैं। लाखों दस्तावेजों में टेक्स्ट माइनिंग विधियों के आधार पर लिंग पूर्वाग्रह, पठनीयता, सामग्री समानता, पाठक प्राथमिकताएं और यहां तक ​​कि मनोदशा का विश्लेषण किया गया है।     फ़्लौनास एट अल में पठनीयता, लिंग पूर्वाग्रह और विषय पूर्वाग्रह का विश्लेषण प्रदर्शित किया गया था। यह दर्शाना कि कैसे अलग-अलग विषयों में अलग-अलग लैंगिक पूर्वाग्रह और पठनीयता के स्तर होते हैं; ट्विटर सामग्री का विश्लेषण करके एक विशाल आबादी में मूड पैटर्न का पता लगाने की संभावना का भी प्रदर्शन किया गया।

सॉफ्टवेयर
टेक्स्ट माइनिंग कंप्यूटर प्रोग्राम कई व्यावसायिक सॉफ्टवेयर और ओपन स्त्रोत कंपनियों और स्रोतों से उपलब्ध हैं। टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची देखें।

यूरोप में स्थिति
FixCopyright- Copyright & Research - Text & Data Mining (TDM) Explained.webmयूरोपीय कॉपीराइट और डेटाबेस कानून के तहत, कॉपीराइट संरक्षित कार्यों (जैसे कि वेब माइनिंग द्वारा) की माइनिंग, कॉपीराइट के मालिक की अनुमति के बिना, अवैध है। 2014 में यूके में, हरग्रीव्स समीक्षा की सिफारिश पर, सरकार ने कॉपीराइट कानून में संशोधन किया जिससे टेक्स्ट माइनिंग को सीमाबद्धता और अपवाद के रूप में अनुमति मिली। यह दूसरा देश था जो ऐसा करने वाला था, जबकि जापान ने 2009 में एक माइनिंग-विशिष्ट अपवाद पेश किया था।

यद्यपि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल सामग्री माइनिंग की अनुमति देता है गैर-व्यावसायिक उद्देश्यों के लिए. यूके कॉपीराइट कानून इस प्रावधान को अनुबंध संबंधी नियमों और शर्तों से परे जाने की अनुमति नहीं देता है।

यूरोपीय आयोग ने 2013 में "लाइसेंसेस फॉर यूरोप" के नामक तहत टेक्स्ट और डेटा माइनिंग पर हितधारक चर्चा को सुविधाजनक बनाया। इस कानूनी मुद्दे का समाधान लाइसेंसों पर ही केंद्रित होने के कारण, यूनिवर्सिटीज, शोधकर्ता, पुस्तकालय, सिविल समाज समूह और ओपन एक्सेस प्रकाशकों के प्रतिनिधि मई 2013 में हितधारक संवाद से अलग हो गए।

संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका के कॉपीराइट कानून, और विशेष रूप से इसके उचित उपयोग प्रावधानों का अर्थ है कि अमेरिका, साथ ही इज़राइल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों में टेक्स्ट माइनिंग को कानूनी माना जाता है। चूंकि टेक्स्ट माइनिंग परिवर्तनकारी है, जिसका अर्थ है कि यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के अंतर्गत   वैध माना जाता है। उदाहरण के लिए, Google पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने फैसला सुनाया कि Google की इन-कॉपीराइट पुस्तकों का डिजिटलीकरण प्रोजेक्ट वैध था, आंशिक रूप से डिजिटलीकरण प्रोजेक्ट द्वारा प्रदर्शित परिवर्तनकारी उपयोगों के कारण - ऐसा ही एक उपयोग टेक्स्ट और है डेटा माइनिंग ।

ऑस्ट्रेलिया में स्थिति
कॉपीराइट अधिनियम 1968 के अंतर्गत टेक्स्ट या डेटा माइनिंग के लिए ऑस्ट्रेलियाई कॉपीराइट कानून में कोई अपवाद नहीं है। ऑस्ट्रेलियाई कानून सुधार आयोग ने नोट किया है कि यह संभावना नहीं है कि शोध और अध्ययन निष्पक्ष व्यवहार अपवाद ऐसे विषय को कवर करने के लिए विस्तारित होगा, बशर्ते कि ऐसा हो। उचित भाग की आवश्यकता से परे हो।

निहितार्थ
हाल तक, वेबसाइटें प्रायः टेक्स्ट-आधारित खोजों का उपयोग करती थीं, जिनमें केवल विशिष्ट उपयोगकर्ता-परिभाषित शब्दों या वाक्यांशों वाले दस्तावेज़ ही मिलते थे। अब, सेमांटिक वेब के उपयोग के माध्यम से, टेक्स्ट माइनिंग अर्थ और संदर्भ के आधार पर सामग्री पा सकता है (केवल किसी विशिष्ट शब्द के बजाय)। इसके अतिरिक्त, टेक्स्ट माइनिंग सॉफ़्टवेयर का उपयोग विशिष्ट लोगों और घटनाओं के बारे में जानकारी के बड़े दस्तावेज़ बनाने के लिए किया जा सकता है। उदाहरण के लिए, सामाजिक नेटवर्क विश्लेषण या  प्रति-बुद्धिमत्ता  की सुविधा के लिए समाचार रिपोर्टों से निकाले गए डेटा पर आधारित बड़े डेटासेट बनाए जा सकते हैं। वास्तव में, टेक्स्ट माइनिंग सॉफ्टवेयर एक खुफिया विश्लेषक या अनुसंधान लाइब्रेरियन के समान क्षमता में कार्य कर सकता है, भले ही विश्लेषण का दायरा अधिक सीमित हो। टेक्स्ट माइनिंग का उपयोग कुछ ईमेल स्पैम छांटना में उन संदेशों की विशेषताओं को निर्धारित करने के तरीके के रूप में भी किया जाता है जिनमें विज्ञापन या अन्य अवांछित सामग्री होने की संभावना होती है। टेक्स्ट माइनिंग वित्तीय बाज़ार धारणा को निर्धारित करने में महत्वपूर्ण भूमिका निभाता है।

भविष्य
बहुभाषी डेटा माइनिंग में बढ़ती रुचि दी जा रही है: विभिन्न भाषाओं में जानकारी प्राप्त करने और विभिन्न भाषाई स्रोतों से समान वस्तुओं को उनके अर्थ के अनुसार क्लस्टर करने की क्षमता।

असंरचित रूप में उत्पन्न होने वाली उद्यम जानकारी के बड़े हिस्से का दोहन करने की चुनौती को दशकों से मान्यता दी गई है। अक्टूबर 1958 में एच.पी. द्वारा आईबीएम जर्नल लेख में इसे बिजनेस इंटेलिजेंस (बीआई) की प्रारंभिक परिभाषा में मान्यता दी गई है। लुहान, एक बिजनेस इंटेलिजेंस सिस्टम, जो एक ऐसी प्रणाली का वर्णन करता है जो:

...दस्तावेज़ों के ऑटो-एब्स्ट्रक्शन और ऑटो-एन्कोडिंग के लिए और किसी संगठन में प्रत्येक 'एक्शन पॉइंट' के लिए रुचि प्रोफ़ाइल बनाने के लिए डेटा-प्रोसेसिंग मशीनों का उपयोग करें। आने वाले और आंतरिक रूप से तैयार किए गए दोनों दस्तावेज़ स्वचालित रूप से सारगर्भित होते हैं, एक शब्द पैटर्न द्वारा चित्रित होते हैं, और स्वचालित रूप से उचित कार्रवाई बिंदुओं पर भेजे जाते हैं।

फिर भी 1960 के दशक में प्रबंधन सूचना प्रणालियाँ विकसित हुईं, और 80 और 90 के दशक में बीआई एक सॉफ्टवेयर श्रेणी और अभ्यास के क्षेत्र के रूप में उभरा, रिलेशनल डेटाबेस में संग्रहीत संख्यात्मक डेटा पर जोर दिया गया। यह आश्चर्य की बात नहीं है: असंरचित दस्तावेज़ों में टेक्स्टको संसाधित करना कठिन है। अपने वर्तमान स्वरूप में टेक्स्ट विश्लेषण का उद्भव 1990 के दशक के उत्तरार्ध में एल्गोरिदम विकास से लेकर अनुप्रयोग तक अनुसंधान पर फिर से ध्यान केंद्रित करने से हुआ, जैसा कि प्रो. मार्टी हर्स्ट|मार्टी ए. हर्स्ट ने पेपर अनटैंगलिंग टेक्स्ट डेटा माइनिंग में वर्णित किया है।

लगभग एक दशक से कम्प्यूटेशनल भाषाविज्ञान समुदाय ने बड़े टेक्स्ट संग्रह को बेहतर टेक्स्ट विश्लेषण एल्गोरिदम तैयार करने के लिए उपयोग किए जाने वाले संसाधन के रूप में देखा है। इस पेपर में, मैंने एक नए जोर का सुझाव देने का प्रयास किया है: दुनिया के बारे में नए तथ्यों और रुझानों की खोज के लिए बड़े ऑनलाइन  टेक्स्टसंग्रह का उपयोग। मेरा सुझाव है कि प्रगति करने के लिए हमें पूरी तरह से कृत्रिम बुद्धिमान  टेक्स्टविश्लेषण की आवश्यकता नहीं है; बल्कि, कम्प्यूटेशनल रूप से संचालित और उपयोगकर्ता-निर्देशित विश्लेषण का मिश्रण रोमांचक नए परिणामों का द्वार खोल सकता है।

हर्स्ट का 1999 का आवश्यकता संबंधी कथन एक दशक बाद टेक्स्ट विश्लेषण तकनीक और अभ्यास की स्थिति का अच्छी तरह से वर्णन करता है।

यह भी देखें

 * संकल्पना खनन
 * दस्तावेज़ प्रसंस्करण
 * पूरा पाठ खोजें
 * अवधारणा खनन सॉफ्टवेयर की सूची
 * बाजार की धारणा
 * नाम समाधान (शब्दार्थ और पाठ निष्कर्षण)
 * नामित इकाई मान्यता
 * समाचार विश्लेषण
 * ओन्टोलॉजी सीखना
 * रिकॉर्ड लिंकेज
 * अनुक्रमिक पैटर्न खनन (स्ट्रिंग और अनुक्रम खनन)
 * डब्ल्यू-शिंगलिंग
 * वेब माइनिंग, एक कार्य जिसमें टेक्स्ट माइनिंग शामिल हो सकती है (उदाहरण के लिए पहले क्रॉल किए गए वेब पेजों को वर्गीकृत करके उपयुक्त वेब पेज ढूंढें, फिर प्रासंगिक माने जाने वाले इन पेजों की टेक्स्ट सामग्री से वांछित जानकारी निकालें)

स्रोत

 * अनानियाडौ, एस. और मैकनॉट, जे. (संपादक) (2006)। जीव विज्ञान और बायोमेडिसिन के लिए टेक्स्ट माइनिंग। आर्टेक हाउस बुक्स। ISBN 978-1-58053-984-5
 * बिलिसोली, आर. (2008). पर्ल के साथ प्रैक्टिकल टेक्स्ट माइनिंग। न्यूयॉर्क: जॉन विली एंड संस। ISBN 978-0-470-17643-6
 * फेल्डमैन, आर., और सेंगर, जे. (2006)। टेक्स्ट माइनिंग हैंडबुक। न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस. ISBN 978-0-521-83657-9
 * होथो, ए., नूर्नबर्गर, ए. और पास, जी. (2005)। टेक्स्ट माइनिंग का एक संक्षिप्त सर्वेक्षण। एलडीवी फोरम में, वॉल्यूम। 20(1), पृ. 19-62
 * इंदुर्ख्या, एन., और डेमेरौ, एफ. (2010)। प्राकृतिक भाषा प्रसंस्करण की पुस्तिका, दूसरा संस्करण। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-8592-1
 * काओ, ए., और पोटेट, एस. (संपादक)। प्राकृतिक भाषा प्रसंस्करण और टेक्स्टमाइनिंग । स्प्रिंगर. ISBN 1-84628-175-X
 * कोंचडी, एम. टेक्स्ट माइनिंग एप्लीकेशन प्रोग्रामिंग (प्रोग्रामिंग सीरीज)। चार्ल्स रिवर मीडिया। ISBN 1-58450-460-9
 * मैनिंग, सी., और शुट्ज़, एच. (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। कैम्ब्रिज, एमए: एमआईटी प्रेस। ISBN 978-0-262-13360-9
 * माइनर, जी., एल्डर, जे., हिल। टी, निस्बेट, आर., डेलेन, डी. और फास्ट, ए. (2012)। गैर-संरचित टेक्स्टडेटा अनुप्रयोगों के लिए व्यावहारिक  टेक्स्टमाइनिंग  और सांख्यिकीय विश्लेषण। एल्सेवियर अकादमिक प्रेस। ISBN 978-0-12-386979-1
 * मैकनाइट, डब्ल्यू. (2005). बिजनेस इंटेलिजेंस का निर्माण: बिजनेस इंटेलिजेंस में टेक्स्ट डेटा माइनिंग। डीएम समीक्षा, 21-22.
 * श्रीवास्तव, ए., और सहामी। एम. (2009). टेक्स्ट माइनिंग: वर्गीकरण, क्लस्टरिंग और अनुप्रयोग। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-5940-3
 * ज़ानासी, ए. (संपादक) (2007)। टेक्स्ट माइनिंग और इंटेलिजेंस, सीआरएम और नॉलेज मैनेजमेंट में इसके अनुप्रयोग। WIT प्रेस. ISBN 978-1-84564-131-3

बाहरी संबंध

 * Marti Hearst: What Is Text Mining? (October, 2003)
 * Automatic Content Extraction, Linguistic Data Consortium
 * Automatic Content Extraction, NIST