टेक्स्ट खनन

टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनिंग (टीडीएम) या टेक्स्ट एनालिटिक्स टेक्स्ट से उच्च-गुणवत्ता वाली जानकारी प्राप्त करने की प्रक्रिया है। इसमें सम्प्रेषण किए गए विभिन्न लिखित संसाधनों से स्वचालित रूप से जानकारी निकालकर, कंप्यूटर द्वारा नई, पहले से अज्ञात जानकारी की खोज होती है। लिखित संसाधनों में वेबसाइट, पुस्तकें, ईमेल, समीक्षाएं और लेख सम्मिलित हो सकते हैं। उच्च-गुणवत्ता जानकारी सामान्यतः आंकड़ों और रुझानों की मदद से पैटर्न और ट्रेंड्स तैयार करके प्राप्त की जाती है। होथो एटअल के अनुसार (2005) के अनुसार, हम टेक्स्ट माइनिंग के तीन विभिन्न परिप्रेक्ष्यों के बीच भेद कर सकते हैं: जानकारी प्राप्ति, डेटा माइनिंग, और डेटाबेस में ज्ञान खोज (केडीडी) प्रक्रिया। टेक्स्ट माइनिंग सामान्यतः प्रविष्टि टेक्स्ट को संरचित करने की प्रक्रिया को सम्मिलित करता है सामान्यतः पार्सिंग के साथ, कुछ उत्पन्न भाषात्मक विशेषताओं की जोड़-गणन और अन्यों की हटाने के साथ, और इसके बाद डेटाबेस में सम्मिलन, संरचित डेटा में पैटर्न निकालना, और अंत में आउटपुट का मूल्यांकन और व्याख्यान करना। टेक्स्ट माइनिंग में 'उच्च गुणवत्ता' सामान्यतः प्रासंगिकता, नवीनता, और रुचि के कुछ संयोजन को संकेत करती है। सामान्य टेक्स्ट माइनिंग कार्यों में टेक्स्ट श्रेणीबद्धीकरण, टेक्स्ट समूहीकरण, अवधारणा / संस्करण निकालना, विस्तृत श्रेणियां बनाना, भावना विश्लेषण, दस्तावेज़  संक्षेपण, और एंटिटी संबंध मॉडेलिंग सम्मिलित होते हैं।

टेक्स्ट विश्लेषण में सूचना प्राप्ति, शब्दिक विश्लेषण के लिए शब्द आवृत्ति वितरण का अध्ययन, पैटर्न पहचानी, टैगिंग/टिप्पणी, सूचना प्राप्ति, लिंक और संबंध विश्लेषण सहित डेटा माइनिंग तकनीकें, दृश्यीकरण, और पूर्वानुमानात्मक विश्लेषण सम्मिलित होते हैं। सार्वभौमिक लक्ष्य, सामान्य रूप से, संसाधन पर आधारित विश्लेषण के लिए टेक्स्ट को डेटा में बदलना है, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), विभिन्न प्रकार के कलनविधि और विश्लेषणिक विधियों के उपयोग के माध्यम से इस प्रक्रिया का महत्वपूर्ण चरण संग्रहित जानकारी की व्याख्या है।

एक विशिष्ट एप्लिकेशन प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना है और या तो पूर्वानुमानित वर्गीकरण उद्देश्यों के लिए दस्तावेज़ सेट को मॉडल करना है या निकाली गई जानकारी के साथ डेटाबेस या खोज सूचकांक को पॉप्युलेट करना है। टेक्स्ट माइनिंग से शुरुआत करते समय दस्तावेज़ मूल तत्व होता है। यहां, हम एक दस्तावेज़ को पाठ्य डेटा की एक इकाई के रूप में परिभाषित करते हैं, जो सामान्यतः कई प्रकार के संग्रहों में उपस्थित होता है।

पाठ विश्लेषण
टेक्स्ट एनालिटिक्स भाषाविज्ञान, सांख्यिकीय और यंत्र अधिगम  तकनीकों के एक सेट का वर्णन करता है जो व्यावसायिक खुफिया, खोजपूर्ण डेटा विश्लेषण, अनुसंधान या जांच के लिए पाठ्य स्रोतों की सूचना सामग्री को मॉडल और संरचना करता है। यह शब्द मोटे तौर पर टेक्स्ट माइनिंग का पर्याय है; वास्तव में,  रॉन फेल्डमैन  ने टेक्स्ट माइनिंग के 2000 विवरण को संशोधित किया 2004 में टेक्स्ट एनालिटिक्स का वर्णन करने के लिए। बाद वाला शब्द अब व्यावसायिक सेटिंग्स में अधिक बार उपयोग किया जाता है, जबकि टेक्स्ट माइनिंग का उपयोग 1980 के दशक के कुछ शुरुआती अनुप्रयोग क्षेत्रों में किया जाता है, विशेष रूप से जीवन-विज्ञान अनुसंधान और सरकारी खुफिया।

टेक्स्ट एनालिटिक्स शब्द व्यावसायिक समस्याओं का जवाब देने के लिए टेक्स्ट एनालिटिक्स के अनुप्रयोग का भी वर्णन करता है, चाहे स्वतंत्र रूप से या फ़ील्ड किए गए संख्यात्मक डेटा की क्वेरी और विश्लेषण के संयोजन में। यह सत्य है कि व्यवसाय-प्रासंगिक जानकारी का 80 प्रतिशत असंरचित डेटा रूप में उत्पन्न होता है, मुख्य रूप से पाठ। ये तकनीकें और प्रक्रियाएं ज्ञान - तथ्यों, व्यावसायिक नियमों और रिश्तों को खोजती हैं और प्रस्तुत करती हैं - जो अन्यथा पाठ्य रूप में बंद है, स्वचालित प्रसंस्करण के लिए अभेद्य है।

पाठ विश्लेषण प्रक्रियाएँ
उपकार्य—बड़े पाठ-विश्लेषण प्रयास के घटक—आम तौर पर सम्मिलित होते हैं:


 * पूर्व-प्रसंस्करण डेटा के लिए आयामीता में कमी महत्वपूर्ण तकनीक है। तकनीक का उपयोग वास्तविक शब्दों के मूल शब्द की पहचान करने और टेक्स्ट डेटा के आकार को कम करने के लिए किया जाता है।
 * सूचना पुनर्प्राप्ति या पाठ कोष  की पहचान एक प्रारंभिक चरण है: विश्लेषण के लिए वेब पर या फाइल सिस्टम, डेटाबेस, या सामग्री कॉर्पस प्रबंधक में रखी गई पाठ्य सामग्री के एक सेट को इकट्ठा करना या पहचानना।
 * हालाँकि कुछ पाठ विश्लेषण प्रणालियाँ विशेष रूप से उन्नत सांख्यिकीय तरीकों को लागू करती हैं, कई अन्य अधिक व्यापक प्राकृतिक भाषा प्रसंस्करण को लागू करते हैं, जैसे कि भाषण टैगिंग का हिस्सा, वाक्यविन्यास पार्सिंग और अन्य प्रकार के भाषाई विश्लेषण।
 * नामित इकाई पहचान नामित पाठ सुविधाओं की पहचान करने के लिए गजेटियर्स या सांख्यिकीय तकनीकों का उपयोग है: लोग, संगठन, स्थान के नाम, स्टॉक टिकर प्रतीक, कुछ संक्षिप्ताक्षर, इत्यादि।
 * असंबद्धता - संदर्भ (भाषा उपयोग) सुरागों का उपयोग - यह तय करने के लिए आवश्यक हो सकता है कि, उदाहरण के लिए, फोर्ड पूर्व अमेरिकी राष्ट्रपति, एक वाहन निर्माता, एक फिल्म स्टार, एक नदी पार करने वाले, या किसी अन्य इकाई का उल्लेख कर सकता है।
 * पैटर्न पहचानी गई संस्थाओं की पहचान: टेलीफोन नंबर, ई-मेल पते, मात्रा (इकाइयों के साथ) जैसी विशेषताओं को नियमित अभिव्यक्ति या अन्य पैटर्न मिलान के माध्यम से पहचाना जा सकता है।
 * दस्तावेज़ क्लस्टरिंग: समान पाठ दस्तावेज़ों के सेट की पहचान।
 * सहसंदर्भ: संज्ञा वाक्यांशों और अन्य शब्दों की पहचान जो एक ही वस्तु को संदर्भित करते हैं।
 * संबंध, तथ्य और घटना निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान और ग्रंथों में अन्य जानकारी।
 * भावना विश्लेषण में समझदार व्यक्तिपरक (तथ्यात्मक के विपरीत) सामग्री और व्यवहारिक जानकारी के विभिन्न रूपों को निकालना सम्मिलित है: भावना, राय, मनोदशा और भावना। टेक्स्ट एनालिटिक्स तकनीक इकाई, अवधारणा या विषय स्तर पर भावनाओं का विश्लेषण करने और राय धारकों और वस्तुओं को अलग करने में मदद करती है।
 * मात्रात्मक पाठ विश्लेषण सामाजिक विज्ञान से उपजी तकनीकों का एक सेट है जहां या तो एक मानव न्यायाधीश या एक कंप्यूटर शब्दों के बीच अर्थ या व्याकरणिक संबंधों को निकालता है ताकिसामान्यतः इस उद्देश्य के लिए एक आकस्मिक व्यक्तिगत पाठ के अर्थ या शैलीगत पैटर्न का पता लगाया जा सके। मनोवैज्ञानिक प्रोफाइलिंग आदि की।
 * प्री-प्रोसेसिंग में सामान्यतः टोकनाइजेशन, फ़िल्टरिंग और स्टेमिंग जैसे कार्य सम्मिलित होते हैं।

अनुप्रयोग
टेक्स्ट माइनिंग तकनीक अब व्यापक रूप से विभिन्न प्रकार की सरकारी, अनुसंधान और व्यावसायिक आवश्यकताओं के लिए लागू की जाती है। ये सभी समूह रिकॉर्ड प्रबंधन और अपनी दैनिक गतिविधियों से संबंधित दस्तावेज़ों की खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। उदाहरण के लिए, कानूनी पेशेवर ई-खोज  के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। सरकारें और सैन्य समूह राष्ट्रीय सुरक्षा और खुफिया उद्देश्यों के लिए टेक्स्ट माइनिंग का उपयोग करते हैं। वैज्ञानिक शोधकर्ता टेक्स्ट डेटा के बड़े सेट को व्यवस्थित करने (यानी, असंरचित डेटा की समस्या को संबोधित करने) के प्रयासों में टेक्स्ट माइनिंग दृष्टिकोण को सम्मिलित  करते हैं, ताकि टेक्स्ट के माध्यम से संप्रेषित विचारों को निर्धारित किया जा सके (उदाहरण के लिए,  सामाजिक मीडिया  में भावना विश्लेषण)   ) और जीवन विज्ञान और जैव सूचना विज्ञान जैसे क्षेत्रों में वैज्ञानिक खोज का समर्थन करना। व्यवसाय में, कई अन्य गतिविधियों के अलावा, प्रतिस्पर्धी बुद्धिमत्ता और स्वचालित विज्ञापन सेवा का समर्थन करने के लिए एप्लिकेशन का उपयोग किया जाता है।

सुरक्षा अनुप्रयोग
कई टेक्स्ट माइनिंग सॉफ़्टवेयर पैकेज सुरक्षा उपकरण के लिए विपणन किए जाते हैं, विशेष रूप से राष्ट्रीय सुरक्षा उद्देश्यों के लिए ऑनलाइन सादे पाठ स्रोतों जैसे इंटरनेट समाचार, ब्लॉग इत्यादि की निगरानी और विश्लेषण। यह टेक्स्ट कूटलेखन /डिक्रिप्शन के अध्ययन में भी सम्मिलित  है।

बायोमेडिकल अनुप्रयोग
बायोमेडिकल साहित्य में टेक्स्ट माइनिंग अनुप्रयोगों की एक श्रृंखला का वर्णन किया गया है, प्रोटीन डॉकिंग में अध्ययन में सहायता के लिए कम्प्यूटेशनल दृष्टिकोण सहित, प्रोटीन अंतःक्रिया, और प्रोटीन-रोग संघ। इसके अलावा, नैदानिक ​​क्षेत्र में बड़े रोगी पाठ्य डेटासेट, जनसंख्या अध्ययन में जनसांख्यिकीय जानकारी के डेटासेट और प्रतिकूल घटना रिपोर्ट के साथ, पाठ खनन नैदानिक ​​​​अध्ययन और सटीक चिकित्सा की सुविधा प्रदान कर सकता है। टेक्स्ट माइनिंग एल्गोरिदम इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड, घटना रिपोर्ट और विशिष्ट नैदानिक ​​​​परीक्षणों की रिपोर्ट से लक्षणों, दुष्प्रभावों और सह-रुग्णताओं के बड़े रोगी पाठ्य डेटासेट में विशिष्ट नैदानिक ​​​​घटनाओं के स्तरीकरण और अनुक्रमण की सुविधा प्रदान कर सकते हैं। बायोमेडिकल साहित्य में एक ऑनलाइन टेक्स्ट माइनिंग एप्लिकेशन पबजीन है, जो एक सार्वजनिक रूप से सुलभ खोज इंजन है जो बायोमेडिकल टेक्स्ट माइनिंग को नेटवर्क विज़ुअलाइज़ेशन के साथ जोड़ता है।  GoPubMed बायोमेडिकल ग्रंथों के लिए एक ज्ञान-आधारित खोज इंजन है। टेक्स्ट माइनिंग तकनीक हमें क्लिनिकल डोमेन में असंरचित दस्तावेज़ों से अज्ञात ज्ञान निकालने में भी सक्षम बनाती है

सॉफ्टवेयर अनुप्रयोग
खनन और विश्लेषण प्रक्रियाओं को और अधिक स्वचालित करने के लिए आईबीएम और माइक्रोसॉफ्ट सहित प्रमुख कंपनियों द्वारा टेक्स्ट माइनिंग विधियों और सॉफ्टवेयर पर भी शोध और विकास किया जा रहा है, और सामान्य रूप से खोज और अनुक्रमण के क्षेत्र में काम करने वाली विभिन्न कंपनियां अपने परिणामों को बेहतर बनाने के तरीके के रूप में काम कर रही हैं।. सार्वजनिक क्षेत्र के भीतर, सूचना जागरूकता कार्यालय की ट्रैकिंग और निगरानी के लिए सॉफ्टवेयर बनाने पर बहुत प्रयास केंद्रित किया गया है। अध्ययन उद्देश्यों के लिए, वेका (मशीन लर्निंग) वैज्ञानिक दुनिया में सबसे लोकप्रिय विकल्पों में से एक है, जो शुरुआती लोगों के लिए एक उत्कृष्ट प्रवेश बिंदु के रूप में कार्य करता है। पायथन प्रोग्रामर्स के लिए, अधिक सामान्य उद्देश्यों के लिए प्राकृतिक भाषा टूलकिट  नामक एक उत्कृष्ट टूलकिट है। अधिक उन्नत प्रोग्रामर के लिए, जनरल लाइब्रेरी भी है, जो शब्द एम्बेडिंग-आधारित टेक्स्ट प्रस्तुतियों पर केंद्रित है।

ऑनलाइन मीडिया अनुप्रयोग
टेक्स्ट माइनिंग का उपयोग ट्रिब्यून कंपनी जैसी बड़ी मीडिया कंपनियों द्वारा जानकारी को स्पष्ट करने और पाठकों को बेहतर खोज अनुभव प्रदान करने के लिए किया जा रहा है, जिससे साइट की चिपचिपाहट और राजस्व में वृद्धि होती है। इसके अतिरिक्त, अंत में, संपादकों को सभी संपत्तियों में समाचारों को साझा करने, संबद्ध करने और पैकेज करने में सक्षम होने से लाभ हो रहा है, जिससे सामग्री से मुद्रीकरण के अवसर काफी बढ़ रहे हैं।

व्यवसाय और विपणन अनुप्रयोग
टेक्स्ट एनालिटिक्स का उपयोग व्यवसाय में किया जा रहा है, विशेष रूप से मार्केटिंग में, जैसे कि ग्राहक संबंध प्रबंधन में। कूसेमेंट और वैन डेन पोएल (2008) ग्राहक मंथन (ग्राहक क्षरण) के लिए पूर्वानुमानित विश्लेषण मॉडल को बेहतर बनाने के लिए इसे लागू करें। स्टॉक रिटर्न भविष्यवाणी में टेक्स्ट माइनिंग भी लागू किया जा रहा है।

भावना विश्लेषण
भावना विश्लेषण में यह अनुमान लगाने के लिए फिल्म समीक्षाओं का विश्लेषण सम्मिलित हो सकता है कि किसी फिल्म के लिए समीक्षा कितनी अनुकूल है। इस तरह के विश्लेषण के लिए लेबल किए गए डेटा सेट या शब्दों के प्रभाव (मनोविज्ञान) की लेबलिंग की आवश्यकता हो सकती है। शब्दतंत्र के लिए शब्दों और अवधारणाओं की प्रभावकारिता के लिए संसाधन बनाए गए हैं और कॉन्सेप्टनेट, क्रमश।

भावात्मक कंप्यूटिंग के संबंधित क्षेत्र में भावनाओं का पता लगाने के लिए पाठ का उपयोग किया गया है। प्रभावशाली कंप्यूटिंग के लिए पाठ आधारित दृष्टिकोण का उपयोग कई कॉर्पोरा जैसे छात्रों के मूल्यांकन, बच्चों की कहानियों और समाचार कहानियों पर किया गया है।

वैज्ञानिक साहित्य खनन और शैक्षणिक अनुप्रयोग
टेक्स्ट माइनिंग का मुद्दा उन प्रकाशकों के लिए महत्वपूर्ण है जिनके पास सूचना के बड़े डेटाबेस हैं जिन्हें पुनर्प्राप्ति के लिए सूचकांक (डेटाबेस) की आवश्यकता होती है। यह वैज्ञानिक विषयों में विशेष रूप से सच है, जिसमें अत्यधिक विशिष्ट जानकारी अक्सर लिखित पाठ में निहित होती है। इसलिए, ओपन टेक्स्ट माइनिंग इंटरफेस (ओटीएमआई) के लिए नेचर (जर्नल)|नेचर का प्रस्ताव और नेशनल इंस्टीट्यूट ऑफ हेल्थ के कॉमन जर्नल पब्लिशिंग दस्तावेज़ प्रकार परिभाषा  (डीटीडी) जैसी पहल की गई है, जो विशिष्ट प्रश्नों के उत्तर देने के लिए मशीनों को सिमेंटिक संकेत प्रदान करेगा। सार्वजनिक पहुंच में प्रकाशक की बाधाओं को दूर किए बिना पाठ के भीतर समाहित किया गया।

शैक्षणिक संस्थान भी टेक्स्ट माइनिंग पहल में सम्मिलित हो गए हैं:


 * टेक्स्ट माइनिंग के लिए राष्ट्रीय केंद्र (NaCTeM), दुनिया का पहला सार्वजनिक रूप से वित्त पोषित टेक्स्ट माइनिंग केंद्र है। NaCTeM मैनचेस्टर विश्वविद्यालय द्वारा संचालित है त्सुजी लैब के निकट सहयोग से, टोक्यो विश्वविद्यालय. NaCTeM अनुकूलित उपकरण, अनुसंधान सुविधाएं प्रदान करता है और अकादमिक समुदाय को सलाह प्रदान करता है। इन्हें संयुक्त सूचना प्रणाली समिति (जेआईएससी) और यूके अनुसंधान परिषद (यूनाइटेड किंगडम) के दो (ईपीएसआरसी और बीबीएसआरसी) द्वारा वित्त पोषित किया जाता है। जीव विज्ञान और जैव चिकित्सा विज्ञान में टेक्स्ट माइनिंग पर प्रारंभिक फोकस के साथ, अनुसंधान का बाद में सामाजिक विज्ञान के क्षेत्रों में विस्तार हुआ है।
 * संयुक्त राज्य अमेरिका में, कैलिफोर्निया विश्वविद्यालय, बर्कले में यूसी बर्कले स्कूल ऑफ इंफॉर्मेशन, टेक्स्ट माइनिंग और विश्लेषण में जीवविज्ञान शोधकर्ताओं की सहायता के लिए बायोटेक्स्ट नामक एक कार्यक्रम विकसित कर रहा है।
 * रिसर्च के लिए टेक्स्ट एनालिसिस पोर्टल (टीएपीओआर), जो वर्तमान में अलबर्टा विश्वविद्यालय में स्थित है, टेक्स्ट विश्लेषण अनुप्रयोगों को सूचीबद्ध करने और अभ्यास में नए शोधकर्ताओं के लिए प्रवेश द्वार अनुसंधान के लिए पाठ विश्लेषण पोर्टल है।

वैज्ञानिक साहित्य खनन के तरीके
वैज्ञानिक साहित्य से जानकारी पुनर्प्राप्ति में सहायता के लिए कम्प्यूटेशनल तरीके विकसित किए गए हैं। प्रकाशित दृष्टिकोणों में खोज के तरीके सम्मिलित हैं, नवीनता का निर्धारण, और समानार्थी शब्दों को स्पष्ट करना तकनीकी रिपोर्टों के बीच.

डिजिटल मानविकी और कम्प्यूटेशनल समाजशास्त्र
विशाल पाठ्य कोष के स्वचालित विश्लेषण ने विद्वानों के लिए विश्लेषण करने की संभावना पैदा की है बहुत ही सीमित मैन्युअल हस्तक्षेप के साथ कई भाषाओं में लाखों दस्तावेज़। प्रमुख सक्षम प्रौद्योगिकियाँ पार्सिंग, मशीन अनुवाद, विषय वर्गीकरण और मशीन लर्निंग रही हैं।

टेक्स्टुअल कॉर्पोरा के स्वचालित पार्सिंग ने बड़े पैमाने पर अभिनेताओं और उनके संबंधपरक नेटवर्क के निष्कर्षण को सक्षम किया है, जिससे टेक्स्टुअल डेटा नेटवर्क डेटा में बदल गया है। परिणामी नेटवर्क, जिसमें हजारों नोड हो सकते हैं, फिर प्रमुख अभिनेताओं, प्रमुख समुदायों या पार्टियों और सामान्य गुणों जैसे समग्र नेटवर्क की मजबूती या संरचनात्मक स्थिरता, या कुछ की केंद्रीयता की पहचान करने के लिए नेटवर्क सिद्धांत के उपकरणों का उपयोग करके विश्लेषण किया जाता है। नोड्स. यह मात्रात्मक कथा विश्लेषण द्वारा प्रस्तुत दृष्टिकोण को स्वचालित करता है, जिससे विषय-क्रिया-वस्तु त्रिक की पहचान किसी क्रिया से जुड़े अभिनेताओं के जोड़े, या अभिनेता-वस्तु द्वारा गठित जोड़े से की जाती है।

सामग्री विश्लेषण लंबे समय से सामाजिक विज्ञान और मीडिया अध्ययन का एक पारंपरिक हिस्सा रहा है। सामग्री विश्लेषण के स्वचालन ने उस क्षेत्र में एक बड़ी डेटा क्रांति लाने की अनुमति दी है, सोशल मीडिया और समाचार पत्र सामग्री में अध्ययन के साथ जिसमें लाखों समाचार आइटम सम्मिलित हैं। लाखों दस्तावेजों में टेक्स्ट माइनिंग विधियों के आधार पर लिंग पूर्वाग्रह, पठनीयता, सामग्री समानता, पाठक प्राथमिकताएं और यहां तक ​​कि मनोदशा का विश्लेषण किया गया है।     फ़्लौनास एट अल में पठनीयता, लिंग पूर्वाग्रह और विषय पूर्वाग्रह का विश्लेषण प्रदर्शित किया गया था। यह दर्शाना कि कैसे अलग-अलग विषयों में अलग-अलग लैंगिक पूर्वाग्रह और पठनीयता के स्तर होते हैं; ट्विटर सामग्री का विश्लेषण करके एक विशाल आबादी में मूड पैटर्न का पता लगाने की संभावना का भी प्रदर्शन किया गया।

सॉफ्टवेयर
टेक्स्ट माइनिंग कंप्यूटर प्रोग्राम कई व्यावसायिक सॉफ्टवेयर और खुला स्त्रोत  कंपनियों और स्रोतों से उपलब्ध हैं। टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची देखें।

यूरोप में स्थिति
यूरोपीय संघ के कॉपीराइट कानून और डेटाबेस निर्देश के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों (जैसे वेब खनन द्वारा) का खनन अवैध है। यूके में 2014 में, हरग्रीव्स समीक्षा की सिफारिश पर, सरकार ने कॉपीराइट कानून में संशोधन किया कॉपीराइट की सीमाओं और अपवादों के रूप में टेक्स्ट माइनिंग की अनुमति देना। जापान के कॉपीराइट कानून के बाद ऐसा करने वाला यह दुनिया का दूसरा देश था, जिसने 2009 में खनन-विशिष्ट अपवाद पेश किया था। हालांकि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल सामग्री खनन की अनुमति देता है गैर-व्यावसायिक उद्देश्यों के लिए. यूके कॉपीराइट कानून इस प्रावधान को अनुबंध संबंधी नियमों और शर्तों से परे जाने की अनुमति नहीं देता है।

यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की। तथ्य यह है कि इस कानूनी मुद्दे के समाधान पर ध्यान लाइसेंस पर था, न कि कॉपीराइट कानून की सीमाओं और अपवादों पर, विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और खुला एक्सेस  प्रकाशकों के प्रतिनिधियों ने मई 2013 में हितधारक संवाद को छोड़ दिया।

संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका के कॉपीराइट कानून, और विशेष रूप से इसके उचित उपयोग प्रावधानों का मतलब है कि अमेरिका, साथ ही इज़राइल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों में टेक्स्ट खनन को कानूनी माना जाता है। चूंकि टेक्स्ट माइनिंग परिवर्तनकारी है, जिसका अर्थ है कि यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के तहत वैध माना जाता है। उदाहरण के लिए, Google पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने फैसला सुनाया कि Google की इन-कॉपीराइट पुस्तकों का डिजिटलीकरण प्रोजेक्ट वैध था, आंशिक रूप से डिजिटलीकरण प्रोजेक्ट द्वारा प्रदर्शित परिवर्तनकारी उपयोगों के कारण - ऐसा ही एक उपयोग टेक्स्ट और है डेटा खनन।

ऑस्ट्रेलिया में स्थिति
कॉपीराइट अधिनियम 1968 के अंतर्गत टेक्स्ट या डेटा माइनिंग के लिए ऑस्ट्रेलियाई कॉपीराइट कानून में कोई अपवाद नहीं है। ऑस्ट्रेलियाई कानून सुधार आयोग ने नोट किया है कि यह संभावना नहीं है कि शोध और अध्ययन निष्पक्ष व्यवहार अपवाद ऐसे विषय को कवर करने के लिए विस्तारित होगा, बशर्ते कि ऐसा हो। उचित भाग की आवश्यकता से परे हो।

निहितार्थ
हाल तक, वेबसाइटें अक्सर टेक्स्ट-आधारित खोजों का उपयोग करती थीं, जिनमें केवल विशिष्ट उपयोगकर्ता-परिभाषित शब्दों या वाक्यांशों वाले दस्तावेज़ ही मिलते थे। अब, सेमांटिक वेब के उपयोग के माध्यम से, टेक्स्ट माइनिंग अर्थ और संदर्भ के आधार पर सामग्री पा सकता है (केवल किसी विशिष्ट शब्द के बजाय)। इसके अतिरिक्त, टेक्स्ट माइनिंग सॉफ़्टवेयर का उपयोग विशिष्ट लोगों और घटनाओं के बारे में जानकारी के बड़े दस्तावेज़ बनाने के लिए किया जा सकता है। उदाहरण के लिए, सामाजिक नेटवर्क विश्लेषण या प्रति-बुद्धिमत्ता  की सुविधा के लिए समाचार रिपोर्टों से निकाले गए डेटा पर आधारित बड़े डेटासेट बनाए जा सकते हैं। वास्तव में, टेक्स्ट माइनिंग सॉफ्टवेयर एक खुफिया विश्लेषक या अनुसंधान लाइब्रेरियन के समान क्षमता में कार्य कर सकता है, भले ही विश्लेषण का दायरा अधिक सीमित हो। टेक्स्ट माइनिंग का उपयोग कुछ ईमेल स्पैम छांटना में उन संदेशों की विशेषताओं को निर्धारित करने के तरीके के रूप में भी किया जाता है जिनमें विज्ञापन या अन्य अवांछित सामग्री होने की संभावना होती है। टेक्स्ट माइनिंग वित्तीय बाज़ार धारणा को निर्धारित करने में महत्वपूर्ण भूमिका निभाता है।

भविष्य
बहुभाषी डेटा माइनिंग में बढ़ती रुचि दी जा रही है: विभिन्न भाषाओं में जानकारी प्राप्त करने और विभिन्न भाषाई स्रोतों से समान वस्तुओं को उनके अर्थ के अनुसार क्लस्टर करने की क्षमता।

असंरचित रूप में उत्पन्न होने वाली उद्यम जानकारी के बड़े हिस्से का दोहन करने की चुनौती को दशकों से मान्यता दी गई है। अक्टूबर 1958 में एच.पी. द्वारा आईबीएम जर्नल लेख में इसे बिजनेस इंटेलिजेंस (बीआई) की प्रारंभिक परिभाषा में मान्यता दी गई है। लुहान, एक बिजनेस इंटेलिजेंस सिस्टम, जो एक ऐसी प्रणाली का वर्णन करता है जो:

 ...दस्तावेज़ों के ऑटो-एब्स्ट्रक्शन और ऑटो-एन्कोडिंग के लिए और किसी संगठन में प्रत्येक 'एक्शन पॉइंट' के लिए रुचि प्रोफ़ाइल बनाने के लिए डेटा-प्रोसेसिंग मशीनों का उपयोग करें। आने वाले और आंतरिक रूप से तैयार किए गए दोनों दस्तावेज़ स्वचालित रूप से सारगर्भित होते हैं, एक शब्द पैटर्न द्वारा चित्रित होते हैं, और स्वचालित रूप से उचित कार्रवाई बिंदुओं पर भेजे जाते हैं। 

फिर भी 1960 के दशक में प्रबंधन सूचना प्रणालियाँ विकसित हुईं, और 80 और 90 के दशक में बीआई एक सॉफ्टवेयर श्रेणी और अभ्यास के क्षेत्र के रूप में उभरा, रिलेशनल डेटाबेस में संग्रहीत संख्यात्मक डेटा पर जोर दिया गया। यह आश्चर्य की बात नहीं है: असंरचित दस्तावेज़ों में पाठ को संसाधित करना कठिन है। अपने वर्तमान स्वरूप में टेक्स्ट एनालिटिक्स का उद्भव 1990 के दशक के उत्तरार्ध में एल्गोरिदम विकास से लेकर अनुप्रयोग तक अनुसंधान पर फिर से ध्यान केंद्रित करने से हुआ, जैसा कि प्रो. मार्टी हर्स्ट|मार्टी ए. हर्स्ट ने पेपर अनटैंगलिंग टेक्स्ट डेटा माइनिंग में वर्णित किया है: लगभग एक दशक से कम्प्यूटेशनल भाषाविज्ञान समुदाय ने बड़े पाठ संग्रह को बेहतर पाठ विश्लेषण एल्गोरिदम तैयार करने के लिए उपयोग किए जाने वाले संसाधन के रूप में देखा है। इस पेपर में, मैंने एक नए जोर का सुझाव देने का प्रयास किया है: दुनिया के बारे में नए तथ्यों और रुझानों की खोज के लिए बड़े ऑनलाइन पाठ संग्रह का उपयोग। मेरा सुझाव है कि प्रगति करने के लिए हमें पूरी तरह से कृत्रिम बुद्धिमान पाठ विश्लेषण की आवश्यकता नहीं है; बल्कि, कम्प्यूटेशनल रूप से संचालित और उपयोगकर्ता-निर्देशित विश्लेषण का मिश्रण रोमांचक नए परिणामों का द्वार खोल सकता है। 

हर्स्ट का 1999 का आवश्यकता संबंधी बयान एक दशक बाद टेक्स्ट एनालिटिक्स तकनीक और अभ्यास की स्थिति का अच्छी तरह से वर्णन करता है।

यह भी देखें

 * संकल्पना खनन
 * दस्तावेज़ प्रसंस्करण
 * पूरा पाठ खोजें
 * अवधारणा खनन सॉफ्टवेयर की सूची
 * बाजार की धारणा
 * नाम समाधान (शब्दार्थ और पाठ निष्कर्षण)
 * नामित इकाई मान्यता
 * समाचार विश्लेषण
 * ओन्टोलॉजी सीखना
 * रिकॉर्ड लिंकेज
 * अनुक्रमिक पैटर्न खनन (स्ट्रिंग और अनुक्रम खनन)
 * डब्ल्यू-शिंगलिंग
 * वेब माइनिंग, एक कार्य जिसमें टेक्स्ट माइनिंग शामिल हो सकती है (उदाहरण के लिए पहले क्रॉल किए गए वेब पेजों को वर्गीकृत करके उपयुक्त वेब पेज ढूंढें, फिर प्रासंगिक माने जाने वाले इन पेजों की टेक्स्ट सामग्री से वांछित जानकारी निकालें)

स्रोत

 * अनानियाडौ, एस. और मैकनॉट, जे. (संपादक) (2006)। जीव विज्ञान और बायोमेडिसिन के लिए टेक्स्ट माइनिंग। आर्टेक हाउस बुक्स। ISBN 978-1-58053-984-5
 * बिलिसोली, आर. (2008). पर्ल के साथ प्रैक्टिकल टेक्स्ट माइनिंग। न्यूयॉर्क: जॉन विली एंड संस। ISBN 978-0-470-17643-6
 * फेल्डमैन, आर., और सेंगर, जे. (2006)। टेक्स्ट माइनिंग हैंडबुक। न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस. ISBN 978-0-521-83657-9
 * होथो, ए., नूर्नबर्गर, ए. और पास, जी. (2005)। टेक्स्ट माइनिंग का एक संक्षिप्त सर्वेक्षण। एलडीवी फोरम में, वॉल्यूम। 20(1), पृ. 19-62
 * इंदुर्ख्या, एन., और डेमेरौ, एफ. (2010)। प्राकृतिक भाषा प्रसंस्करण की पुस्तिका, दूसरा संस्करण। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-8592-1
 * काओ, ए., और पोटेट, एस. (संपादक)। प्राकृतिक भाषा प्रसंस्करण और पाठ खनन। स्प्रिंगर. ISBN 1-84628-175-X
 * कोंचडी, एम. टेक्स्ट माइनिंग एप्लीकेशन प्रोग्रामिंग (प्रोग्रामिंग सीरीज)। चार्ल्स रिवर मीडिया। ISBN 1-58450-460-9
 * मैनिंग, सी., और शुट्ज़, एच. (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। कैम्ब्रिज, एमए: एमआईटी प्रेस। ISBN 978-0-262-13360-9
 * माइनर, जी., एल्डर, जे., हिल। टी, निस्बेट, आर., डेलेन, डी. और फास्ट, ए. (2012)। गैर-संरचित पाठ डेटा अनुप्रयोगों के लिए व्यावहारिक पाठ खनन और सांख्यिकीय विश्लेषण। एल्सेवियर अकादमिक प्रेस। ISBN 978-0-12-386979-1
 * मैकनाइट, डब्ल्यू. (2005). बिजनेस इंटेलिजेंस का निर्माण: बिजनेस इंटेलिजेंस में टेक्स्ट डेटा माइनिंग। डीएम समीक्षा, 21-22.
 * श्रीवास्तव, ए., और सहामी। एम. (2009). टेक्स्ट माइनिंग: वर्गीकरण, क्लस्टरिंग और अनुप्रयोग। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-5940-3
 * ज़ानासी, ए. (संपादक) (2007)। टेक्स्ट माइनिंग और इंटेलिजेंस, सीआरएम और नॉलेज मैनेजमेंट में इसके अनुप्रयोग। WIT प्रेस. ISBN 978-1-84564-131-3

बाहरी संबंध

 * Marti Hearst: What Is Text Mining? (October, 2003)
 * Automatic Content Extraction, Linguistic Data Consortium
 * Automatic Content Extraction, NIST