टेक्स्ट खनन

From Vigyanwiki

टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनिंग (टीडीएम) या टेक्स्ट एनालिटिक्स टेक्स्ट से उच्च-गुणवत्ता वाली जानकारी प्राप्त करने की प्रक्रिया है। इसमें सम्प्रेषण किए गए विभिन्न लिखित संसाधनों से स्वचालित रूप से जानकारी निकालकर, कंप्यूटर द्वारा नई, पहले से अज्ञात जानकारी की खोज होती है। लिखित संसाधनों में वेबसाइट, पुस्तकें, ईमेल, समीक्षाएं और लेख सम्मिलित हो सकते हैं। उच्च-गुणवत्ता जानकारी सामान्यतः आंकड़ों और रुझानों की मदद से पैटर्न और ट्रेंड्स तैयार करके प्राप्त की जाती है। होथो एटअल के अनुसार (2005) के अनुसार, हम टेक्स्ट माइनिंग के तीन विभिन्न परिप्रेक्ष्यों के बीच भेद कर सकते हैं: जानकारी प्राप्ति, डेटा माइनिंग, और डेटाबेस में ज्ञान खोज (केडीडी) प्रक्रिया। टेक्स्ट माइनिंग सामान्यतः प्रविष्टि टेक्स्ट को संरचित करने की प्रक्रिया को सम्मिलित करता है सामान्यतः पार्सिंग के साथ, कुछ उत्पन्न भाषात्मक विशेषताओं की जोड़-गणन और अन्यों की हटाने के साथ, और इसके बाद डेटाबेस में सम्मिलन, संरचित डेटा में पैटर्न निकालना, और अंत में आउटपुट का मूल्यांकन और व्याख्यान करना। टेक्स्ट माइनिंग में 'उच्च गुणवत्ता' सामान्यतः प्रासंगिकता, नवीनता, और रुचि के कुछ संयोजन को संकेत करती है। सामान्य टेक्स्ट माइनिंग कार्यों में टेक्स्ट श्रेणीबद्धीकरण, टेक्स्ट समूहीकरण, अवधारणा / संस्करण निकालना, विस्तृत श्रेणियां बनाना, भावना विश्लेषण, दस्तावेज़ संक्षेपण, और एंटिटी संबंध मॉडेलिंग सम्मिलित होते हैं।

टेक्स्ट विश्लेषण में सूचना प्राप्ति, शब्दिक विश्लेषण के लिए शब्द आवृत्ति वितरण का अध्ययन, पैटर्न पहचानी, टैगिंग/टिप्पणी, सूचना प्राप्ति, लिंक और संबंध विश्लेषण सहित डेटा माइनिंग तकनीकें, दृश्यीकरण, और पूर्वानुमानात्मक विश्लेषण सम्मिलित होते हैं। सार्वभौमिक लक्ष्य, सामान्य रूप से, संसाधन पर आधारित विश्लेषण के लिए टेक्स्ट को डेटा में बदलना है, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), विभिन्न प्रकार के कलनविधि और विश्लेषणिक विधियों के उपयोग के माध्यम से इस प्रक्रिया का महत्वपूर्ण चरण संग्रहित जानकारी की व्याख्या है।

एक विशिष्ट एप्लिकेशन प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना है और या तो पूर्वानुमानित वर्गीकरण उद्देश्यों के लिए दस्तावेज़ सेट को मॉडल करना है या निकाली गई जानकारी के साथ डेटाबेस या खोज सूचकांक को पॉप्युलेट करना है। टेक्स्ट माइनिंग से शुरुआत करते समय दस्तावेज़ मूल तत्व होता है। यहां, हम एक दस्तावेज़ को पाठ्य डेटा की एक इकाई के रूप में परिभाषित करते हैं, जो सामान्यतः कई प्रकार के संग्रहों में उपस्थित होता है।[1]


पाठ विश्लेषण

टेक्स्ट एनालिटिक्स भाषाविज्ञान, सांख्यिकीय और यंत्र अधिगम तकनीकों के एक सेट का वर्णन करता है जो व्यावसायिक खुफिया, खोजपूर्ण डेटा विश्लेषण, अनुसंधान या जांच के लिए पाठ्य स्रोतों की सूचना सामग्री को मॉडल और संरचना करता है।[2] यह शब्द मोटे तौर पर टेक्स्ट माइनिंग का पर्याय है; वास्तव में, रॉन फेल्डमैन ने टेक्स्ट माइनिंग के 2000 विवरण को संशोधित किया[3] 2004 में टेक्स्ट एनालिटिक्स का वर्णन करने के लिए।[4] बाद वाला शब्द अब व्यावसायिक सेटिंग्स में अधिक बार उपयोग किया जाता है, जबकि टेक्स्ट माइनिंग का उपयोग 1980 के दशक के कुछ शुरुआती अनुप्रयोग क्षेत्रों में किया जाता है,[5] विशेष रूप से जीवन-विज्ञान अनुसंधान और सरकारी खुफिया।

टेक्स्ट एनालिटिक्स शब्द व्यावसायिक समस्याओं का जवाब देने के लिए टेक्स्ट एनालिटिक्स के अनुप्रयोग का भी वर्णन करता है, चाहे स्वतंत्र रूप से या फ़ील्ड किए गए संख्यात्मक डेटा की क्वेरी और विश्लेषण के संयोजन में। यह सत्य है कि व्यवसाय-प्रासंगिक जानकारी का 80 प्रतिशत असंरचित डेटा रूप में उत्पन्न होता है, मुख्य रूप से पाठ।[6] ये तकनीकें और प्रक्रियाएं ज्ञान - तथ्यों, व्यावसायिक नियमों और रिश्तों को खोजती हैं और प्रस्तुत करती हैं - जो अन्यथा पाठ्य रूप में बंद है, स्वचालित प्रसंस्करण के लिए अभेद्य है।

पाठ विश्लेषण प्रक्रियाएँ

उपकार्य—बड़े पाठ-विश्लेषण प्रयास के घटक—आम तौर पर सम्मिलित होते हैं:

  • पूर्व-प्रसंस्करण डेटा के लिए आयामीता में कमी महत्वपूर्ण तकनीक है। तकनीक का उपयोग वास्तविक शब्दों के मूल शब्द की पहचान करने और टेक्स्ट डेटा के आकार को कम करने के लिए किया जाता है।[citation needed]
  • सूचना पुनर्प्राप्ति या पाठ कोष की पहचान एक प्रारंभिक चरण है: विश्लेषण के लिए वेब पर या फाइल सिस्टम, डेटाबेस, या सामग्री कॉर्पस प्रबंधक में रखी गई पाठ्य सामग्री के एक सेट को इकट्ठा करना या पहचानना।
  • हालाँकि कुछ पाठ विश्लेषण प्रणालियाँ विशेष रूप से उन्नत सांख्यिकीय तरीकों को लागू करती हैं, कई अन्य अधिक व्यापक प्राकृतिक भाषा प्रसंस्करण को लागू करते हैं, जैसे कि भाषण टैगिंग का हिस्सा, वाक्यविन्यास पार्सिंग और अन्य प्रकार के भाषाई विश्लेषण।[7]
  • नामित इकाई पहचान नामित पाठ सुविधाओं की पहचान करने के लिए गजेटियर्स या सांख्यिकीय तकनीकों का उपयोग है: लोग, संगठन, स्थान के नाम, स्टॉक टिकर प्रतीक, कुछ संक्षिप्ताक्षर, इत्यादि।
  • असंबद्धता - संदर्भ (भाषा उपयोग) सुरागों का उपयोग - यह तय करने के लिए आवश्यक हो सकता है कि, उदाहरण के लिए, फोर्ड पूर्व अमेरिकी राष्ट्रपति, एक वाहन निर्माता, एक फिल्म स्टार, एक नदी पार करने वाले, या किसी अन्य इकाई का उल्लेख कर सकता है।[8]
  • पैटर्न पहचानी गई संस्थाओं की पहचान: टेलीफोन नंबर, ई-मेल पते, मात्रा (इकाइयों के साथ) जैसी विशेषताओं को नियमित अभिव्यक्ति या अन्य पैटर्न मिलान के माध्यम से पहचाना जा सकता है।
  • दस्तावेज़ क्लस्टरिंग: समान पाठ दस्तावेज़ों के सेट की पहचान।[9]
  • सहसंदर्भ: संज्ञा वाक्यांशों और अन्य शब्दों की पहचान जो एक ही वस्तु को संदर्भित करते हैं।
  • संबंध, तथ्य और घटना निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान और ग्रंथों में अन्य जानकारी।
  • भावना विश्लेषण में समझदार व्यक्तिपरक (तथ्यात्मक के विपरीत) सामग्री और व्यवहारिक जानकारी के विभिन्न रूपों को निकालना सम्मिलित है: भावना, राय, मनोदशा और भावना। टेक्स्ट एनालिटिक्स तकनीक इकाई, अवधारणा या विषय स्तर पर भावनाओं का विश्लेषण करने और राय धारकों और वस्तुओं को अलग करने में मदद करती है।[10]
  • मात्रात्मक पाठ विश्लेषण सामाजिक विज्ञान से उपजी तकनीकों का एक सेट है जहां या तो एक मानव न्यायाधीश या एक कंप्यूटर शब्दों के बीच अर्थ या व्याकरणिक संबंधों को निकालता है ताकिसामान्यतः इस उद्देश्य के लिए एक आकस्मिक व्यक्तिगत पाठ के अर्थ या शैलीगत पैटर्न का पता लगाया जा सके। मनोवैज्ञानिक प्रोफाइलिंग आदि की।[11]
  • प्री-प्रोसेसिंग में सामान्यतः टोकनाइजेशन, फ़िल्टरिंग और स्टेमिंग जैसे कार्य सम्मिलित होते हैं।

अनुप्रयोग

टेक्स्ट माइनिंग तकनीक अब व्यापक रूप से विभिन्न प्रकार की सरकारी, अनुसंधान और व्यावसायिक आवश्यकताओं के लिए लागू की जाती है। ये सभी समूह रिकॉर्ड प्रबंधन और अपनी दैनिक गतिविधियों से संबंधित दस्तावेज़ों की खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। उदाहरण के लिए, कानूनी पेशेवर ई-खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। सरकारें और सैन्य समूह राष्ट्रीय सुरक्षा और खुफिया उद्देश्यों के लिए टेक्स्ट माइनिंग का उपयोग करते हैं। वैज्ञानिक शोधकर्ता टेक्स्ट डेटा के बड़े सेट को व्यवस्थित करने (यानी, असंरचित डेटा की समस्या को संबोधित करने) के प्रयासों में टेक्स्ट माइनिंग दृष्टिकोण को सम्मिलित करते हैं, ताकि टेक्स्ट के माध्यम से संप्रेषित विचारों को निर्धारित किया जा सके (उदाहरण के लिए, सामाजिक मीडिया में भावना विश्लेषण)[12][13][14]) और जीवन विज्ञान और जैव सूचना विज्ञान जैसे क्षेत्रों में वैज्ञानिक खोज का समर्थन करना। व्यवसाय में, कई अन्य गतिविधियों के अलावा, प्रतिस्पर्धी बुद्धिमत्ता और स्वचालित विज्ञापन सेवा का समर्थन करने के लिए एप्लिकेशन का उपयोग किया जाता है।

सुरक्षा अनुप्रयोग

कई टेक्स्ट माइनिंग सॉफ़्टवेयर पैकेज सुरक्षा उपकरण के लिए विपणन किए जाते हैं, विशेष रूप से राष्ट्रीय सुरक्षा उद्देश्यों के लिए ऑनलाइन सादे पाठ स्रोतों जैसे इंटरनेट समाचार, ब्लॉग इत्यादि की निगरानी और विश्लेषण।[15] यह टेक्स्ट कूटलेखन /डिक्रिप्शन के अध्ययन में भी सम्मिलित है।

बायोमेडिकल अनुप्रयोग

प्रोटीन-प्रोटीन कॉम्प्लेक्स, या प्रोटीन डॉकिंग के अध्ययन में उपयोग किए जाने वाले टेक्स्ट माइनिंग प्रोटोकॉल का एक उदाहरण।[16]बायोमेडिकल साहित्य में टेक्स्ट माइनिंग अनुप्रयोगों की एक श्रृंखला का वर्णन किया गया है,[17] प्रोटीन डॉकिंग में अध्ययन में सहायता के लिए कम्प्यूटेशनल दृष्टिकोण सहित,[18] प्रोटीन अंतःक्रिया,[19][20] और प्रोटीन-रोग संघ।[21] इसके अलावा, नैदानिक ​​क्षेत्र में बड़े रोगी पाठ्य डेटासेट, जनसंख्या अध्ययन में जनसांख्यिकीय जानकारी के डेटासेट और प्रतिकूल घटना रिपोर्ट के साथ, पाठ खनन नैदानिक ​​​​अध्ययन और सटीक चिकित्सा की सुविधा प्रदान कर सकता है। टेक्स्ट माइनिंग एल्गोरिदम इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड, घटना रिपोर्ट और विशिष्ट नैदानिक ​​​​परीक्षणों की रिपोर्ट से लक्षणों, दुष्प्रभावों और सह-रुग्णताओं के बड़े रोगी पाठ्य डेटासेट में विशिष्ट नैदानिक ​​​​घटनाओं के स्तरीकरण और अनुक्रमण की सुविधा प्रदान कर सकते हैं।[22] बायोमेडिकल साहित्य में एक ऑनलाइन टेक्स्ट माइनिंग एप्लिकेशन पबजीन है, जो एक सार्वजनिक रूप से सुलभ खोज इंजन है जो बायोमेडिकल टेक्स्ट माइनिंग को नेटवर्क विज़ुअलाइज़ेशन के साथ जोड़ता है।[23][24] GoPubMed बायोमेडिकल ग्रंथों के लिए एक ज्ञान-आधारित खोज इंजन है। टेक्स्ट माइनिंग तकनीक हमें क्लिनिकल डोमेन में असंरचित दस्तावेज़ों से अज्ञात ज्ञान निकालने में भी सक्षम बनाती है[25]


सॉफ्टवेयर अनुप्रयोग

खनन और विश्लेषण प्रक्रियाओं को और अधिक स्वचालित करने के लिए आईबीएम और माइक्रोसॉफ्ट सहित प्रमुख कंपनियों द्वारा टेक्स्ट माइनिंग विधियों और सॉफ्टवेयर पर भी शोध और विकास किया जा रहा है, और सामान्य रूप से खोज और अनुक्रमण के क्षेत्र में काम करने वाली विभिन्न कंपनियां अपने परिणामों को बेहतर बनाने के तरीके के रूप में काम कर रही हैं। . सार्वजनिक क्षेत्र के भीतर, सूचना जागरूकता कार्यालय की ट्रैकिंग और निगरानी के लिए सॉफ्टवेयर बनाने पर बहुत प्रयास केंद्रित किया गया है।[26] अध्ययन उद्देश्यों के लिए, वेका (मशीन लर्निंग) वैज्ञानिक दुनिया में सबसे लोकप्रिय विकल्पों में से एक है, जो शुरुआती लोगों के लिए एक उत्कृष्ट प्रवेश बिंदु के रूप में कार्य करता है। पायथन प्रोग्रामर्स के लिए, अधिक सामान्य उद्देश्यों के लिए प्राकृतिक भाषा टूलकिट नामक एक उत्कृष्ट टूलकिट है। अधिक उन्नत प्रोग्रामर के लिए, जनरल लाइब्रेरी भी है, जो शब्द एम्बेडिंग-आधारित टेक्स्ट प्रस्तुतियों पर केंद्रित है।

ऑनलाइन मीडिया अनुप्रयोग

टेक्स्ट माइनिंग का उपयोग ट्रिब्यून कंपनी जैसी बड़ी मीडिया कंपनियों द्वारा जानकारी को स्पष्ट करने और पाठकों को बेहतर खोज अनुभव प्रदान करने के लिए किया जा रहा है, जिससे साइट की चिपचिपाहट और राजस्व में वृद्धि होती है। इसके अतिरिक्त, अंत में, संपादकों को सभी संपत्तियों में समाचारों को साझा करने, संबद्ध करने और पैकेज करने में सक्षम होने से लाभ हो रहा है, जिससे सामग्री से मुद्रीकरण के अवसर काफी बढ़ रहे हैं।

व्यवसाय और विपणन अनुप्रयोग

टेक्स्ट एनालिटिक्स का उपयोग व्यवसाय में किया जा रहा है, विशेष रूप से मार्केटिंग में, जैसे कि ग्राहक संबंध प्रबंधन में। [27] कूसेमेंट और वैन डेन पोएल (2008)[28][29] ग्राहक मंथन (ग्राहक क्षरण) के लिए पूर्वानुमानित विश्लेषण मॉडल को बेहतर बनाने के लिए इसे लागू करें। [28] स्टॉक रिटर्न भविष्यवाणी में टेक्स्ट माइनिंग भी लागू किया जा रहा है।[30]


भावना विश्लेषण

भावना विश्लेषण में यह अनुमान लगाने के लिए फिल्म समीक्षाओं का विश्लेषण सम्मिलित हो सकता है कि किसी फिल्म के लिए समीक्षा कितनी अनुकूल है।[31] इस तरह के विश्लेषण के लिए लेबल किए गए डेटा सेट या शब्दों के प्रभाव (मनोविज्ञान) की लेबलिंग की आवश्यकता हो सकती है। शब्दतंत्र के लिए शब्दों और अवधारणाओं की प्रभावकारिता के लिए संसाधन बनाए गए हैं[32] और कॉन्सेप्टनेट,[33] क्रमश।

भावात्मक कंप्यूटिंग के संबंधित क्षेत्र में भावनाओं का पता लगाने के लिए पाठ का उपयोग किया गया है।[34] प्रभावशाली कंप्यूटिंग के लिए पाठ आधारित दृष्टिकोण का उपयोग कई कॉर्पोरा जैसे छात्रों के मूल्यांकन, बच्चों की कहानियों और समाचार कहानियों पर किया गया है।

वैज्ञानिक साहित्य खनन और शैक्षणिक अनुप्रयोग

टेक्स्ट माइनिंग का मुद्दा उन प्रकाशकों के लिए महत्वपूर्ण है जिनके पास सूचना के बड़े डेटाबेस हैं जिन्हें पुनर्प्राप्ति के लिए सूचकांक (डेटाबेस) की आवश्यकता होती है। यह वैज्ञानिक विषयों में विशेष रूप से सच है, जिसमें अत्यधिक विशिष्ट जानकारी अक्सर लिखित पाठ में निहित होती है। इसलिए, ओपन टेक्स्ट माइनिंग इंटरफेस (ओटीएमआई) के लिए नेचर (जर्नल)|नेचर का प्रस्ताव और नेशनल इंस्टीट्यूट ऑफ हेल्थ के कॉमन जर्नल पब्लिशिंग दस्तावेज़ प्रकार परिभाषा (डीटीडी) जैसी पहल की गई है, जो विशिष्ट प्रश्नों के उत्तर देने के लिए मशीनों को सिमेंटिक संकेत प्रदान करेगा। सार्वजनिक पहुंच में प्रकाशक की बाधाओं को दूर किए बिना पाठ के भीतर समाहित किया गया।

शैक्षणिक संस्थान भी टेक्स्ट माइनिंग पहल में सम्मिलित हो गए हैं:

वैज्ञानिक साहित्य खनन के तरीके

वैज्ञानिक साहित्य से जानकारी पुनर्प्राप्ति में सहायता के लिए कम्प्यूटेशनल तरीके विकसित किए गए हैं। प्रकाशित दृष्टिकोणों में खोज के तरीके सम्मिलित हैं,[38] नवीनता का निर्धारण,[39] और समानार्थी शब्दों को स्पष्ट करना[40] तकनीकी रिपोर्टों के बीच.

डिजिटल मानविकी और कम्प्यूटेशनल समाजशास्त्र

विशाल पाठ्य कोष के स्वचालित विश्लेषण ने विद्वानों के लिए विश्लेषण करने की संभावना पैदा की है बहुत ही सीमित मैन्युअल हस्तक्षेप के साथ कई भाषाओं में लाखों दस्तावेज़। प्रमुख सक्षम प्रौद्योगिकियाँ पार्सिंग, मशीन अनुवाद, विषय वर्गीकरण और मशीन लर्निंग रही हैं।

File:Tripletsnew2012.png
अमेरिकी चुनाव 2012 का वर्णनात्मक नेटवर्क[41]

टेक्स्टुअल कॉर्पोरा के स्वचालित पार्सिंग ने बड़े पैमाने पर अभिनेताओं और उनके संबंधपरक नेटवर्क के निष्कर्षण को सक्षम किया है, जिससे टेक्स्टुअल डेटा नेटवर्क डेटा में बदल गया है। परिणामी नेटवर्क, जिसमें हजारों नोड हो सकते हैं, फिर प्रमुख अभिनेताओं, प्रमुख समुदायों या पार्टियों और सामान्य गुणों जैसे समग्र नेटवर्क की मजबूती या संरचनात्मक स्थिरता, या कुछ की केंद्रीयता की पहचान करने के लिए नेटवर्क सिद्धांत के उपकरणों का उपयोग करके विश्लेषण किया जाता है। नोड्स.[42] यह मात्रात्मक कथा विश्लेषण द्वारा प्रस्तुत दृष्टिकोण को स्वचालित करता है,[43] जिससे विषय-क्रिया-वस्तु त्रिक की पहचान किसी क्रिया से जुड़े अभिनेताओं के जोड़े, या अभिनेता-वस्तु द्वारा गठित जोड़े से की जाती है।[41]

सामग्री विश्लेषण लंबे समय से सामाजिक विज्ञान और मीडिया अध्ययन का एक पारंपरिक हिस्सा रहा है। सामग्री विश्लेषण के स्वचालन ने उस क्षेत्र में एक बड़ी डेटा क्रांति लाने की अनुमति दी है, सोशल मीडिया और समाचार पत्र सामग्री में अध्ययन के साथ जिसमें लाखों समाचार आइटम सम्मिलित हैं। लाखों दस्तावेजों में टेक्स्ट माइनिंग विधियों के आधार पर लिंग पूर्वाग्रह, पठनीयता, सामग्री समानता, पाठक प्राथमिकताएं और यहां तक ​​कि मनोदशा का विश्लेषण किया गया है।[44][45][46][47][48] फ़्लौनास एट अल में पठनीयता, लिंग पूर्वाग्रह और विषय पूर्वाग्रह का विश्लेषण प्रदर्शित किया गया था।[49] यह दर्शाना कि कैसे अलग-अलग विषयों में अलग-अलग लैंगिक पूर्वाग्रह और पठनीयता के स्तर होते हैं; ट्विटर सामग्री का विश्लेषण करके एक विशाल आबादी में मूड पैटर्न का पता लगाने की संभावना का भी प्रदर्शन किया गया।[50][51]


सॉफ्टवेयर

टेक्स्ट माइनिंग कंप्यूटर प्रोग्राम कई व्यावसायिक सॉफ्टवेयर और खुला स्त्रोत कंपनियों और स्रोतों से उपलब्ध हैं। टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची देखें।

बौद्धिक संपदा कानून

यूरोप में स्थिति

File:FixCopyright- Copyright & Research - Text & Data Mining (TDM) Explained.webm
ईयू में टीडीएम और इसके कॉपीराइट मुद्दों को समझाते हुए फिक्स कॉपीराइट अभियान द्वारा वीडियो, 2016 [3:51]

यूरोपीय संघ के कॉपीराइट कानून और डेटाबेस निर्देश के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों (जैसे वेब खनन द्वारा) का खनन अवैध है। यूके में 2014 में, हरग्रीव्स समीक्षा की सिफारिश पर, सरकार ने कॉपीराइट कानून में संशोधन किया[52] कॉपीराइट की सीमाओं और अपवादों के रूप में टेक्स्ट माइनिंग की अनुमति देना। जापान के कॉपीराइट कानून के बाद ऐसा करने वाला यह दुनिया का दूसरा देश था, जिसने 2009 में खनन-विशिष्ट अपवाद पेश किया था। हालांकि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल सामग्री खनन की अनुमति देता है गैर-व्यावसायिक उद्देश्यों के लिए. यूके कॉपीराइट कानून इस प्रावधान को अनुबंध संबंधी नियमों और शर्तों से परे जाने की अनुमति नहीं देता है।

यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की।[53] तथ्य यह है कि इस कानूनी मुद्दे के समाधान पर ध्यान लाइसेंस पर था, न कि कॉपीराइट कानून की सीमाओं और अपवादों पर, विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और खुला एक्सेस प्रकाशकों के प्रतिनिधियों ने मई 2013 में हितधारक संवाद को छोड़ दिया।[54]


संयुक्त राज्य अमेरिका में स्थिति

संयुक्त राज्य अमेरिका के कॉपीराइट कानून, और विशेष रूप से इसके उचित उपयोग प्रावधानों का मतलब है कि अमेरिका, साथ ही इज़राइल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों में टेक्स्ट खनन को कानूनी माना जाता है। चूंकि टेक्स्ट माइनिंग परिवर्तनकारी है, जिसका अर्थ है कि यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के तहत वैध माना जाता है। उदाहरण के लिए, Google पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने फैसला सुनाया कि Google की इन-कॉपीराइट पुस्तकों का डिजिटलीकरण प्रोजेक्ट वैध था, आंशिक रूप से डिजिटलीकरण प्रोजेक्ट द्वारा प्रदर्शित परिवर्तनकारी उपयोगों के कारण - ऐसा ही एक उपयोग टेक्स्ट और है डेटा खनन।[55]


ऑस्ट्रेलिया में स्थिति

कॉपीराइट अधिनियम 1968 के अंतर्गत टेक्स्ट या डेटा माइनिंग के लिए ऑस्ट्रेलियाई कॉपीराइट कानून में कोई अपवाद नहीं है। ऑस्ट्रेलियाई कानून सुधार आयोग ने नोट किया है कि यह संभावना नहीं है कि शोध और अध्ययन निष्पक्ष व्यवहार अपवाद ऐसे विषय को कवर करने के लिए विस्तारित होगा, बशर्ते कि ऐसा हो। उचित भाग की आवश्यकता से परे हो।[56]


निहितार्थ

हाल तक, वेबसाइटें अक्सर टेक्स्ट-आधारित खोजों का उपयोग करती थीं, जिनमें केवल विशिष्ट उपयोगकर्ता-परिभाषित शब्दों या वाक्यांशों वाले दस्तावेज़ ही मिलते थे। अब, सेमांटिक वेब के उपयोग के माध्यम से, टेक्स्ट माइनिंग अर्थ और संदर्भ के आधार पर सामग्री पा सकता है (केवल किसी विशिष्ट शब्द के बजाय)। इसके अतिरिक्त, टेक्स्ट माइनिंग सॉफ़्टवेयर का उपयोग विशिष्ट लोगों और घटनाओं के बारे में जानकारी के बड़े दस्तावेज़ बनाने के लिए किया जा सकता है। उदाहरण के लिए, सामाजिक नेटवर्क विश्लेषण या प्रति-बुद्धिमत्ता की सुविधा के लिए समाचार रिपोर्टों से निकाले गए डेटा पर आधारित बड़े डेटासेट बनाए जा सकते हैं। वास्तव में, टेक्स्ट माइनिंग सॉफ्टवेयर एक खुफिया विश्लेषक या अनुसंधान लाइब्रेरियन के समान क्षमता में कार्य कर सकता है, भले ही विश्लेषण का दायरा अधिक सीमित हो। टेक्स्ट माइनिंग का उपयोग कुछ ईमेल स्पैम छांटना में उन संदेशों की विशेषताओं को निर्धारित करने के तरीके के रूप में भी किया जाता है जिनमें विज्ञापन या अन्य अवांछित सामग्री होने की संभावना होती है। टेक्स्ट माइनिंग वित्तीय बाज़ार धारणा को निर्धारित करने में महत्वपूर्ण भूमिका निभाता है।

भविष्य

बहुभाषी डेटा माइनिंग में बढ़ती रुचि दी जा रही है: विभिन्न भाषाओं में जानकारी प्राप्त करने और विभिन्न भाषाई स्रोतों से समान वस्तुओं को उनके अर्थ के अनुसार क्लस्टर करने की क्षमता।

असंरचित रूप में उत्पन्न होने वाली उद्यम जानकारी के बड़े हिस्से का दोहन करने की चुनौती को दशकों से मान्यता दी गई है।[57] अक्टूबर 1958 में एच.पी. द्वारा आईबीएम जर्नल लेख में इसे बिजनेस इंटेलिजेंस (बीआई) की प्रारंभिक परिभाषा में मान्यता दी गई है। लुहान, एक बिजनेस इंटेलिजेंस सिस्टम, जो एक ऐसी प्रणाली का वर्णन करता है जो:

<ब्लॉककोट>

...दस्तावेज़ों के ऑटो-एब्स्ट्रक्शन और ऑटो-एन्कोडिंग के लिए और किसी संगठन में प्रत्येक 'एक्शन पॉइंट' के लिए रुचि प्रोफ़ाइल बनाने के लिए डेटा-प्रोसेसिंग मशीनों का उपयोग करें। आने वाले और आंतरिक रूप से तैयार किए गए दोनों दस्तावेज़ स्वचालित रूप से सारगर्भित होते हैं, एक शब्द पैटर्न द्वारा चित्रित होते हैं, और स्वचालित रूप से उचित कार्रवाई बिंदुओं पर भेजे जाते हैं।

</ब्लॉककोट>

फिर भी 1960 के दशक में प्रबंधन सूचना प्रणालियाँ विकसित हुईं, और 80 और 90 के दशक में बीआई एक सॉफ्टवेयर श्रेणी और अभ्यास के क्षेत्र के रूप में उभरा, रिलेशनल डेटाबेस में संग्रहीत संख्यात्मक डेटा पर जोर दिया गया। यह आश्चर्य की बात नहीं है: असंरचित दस्तावेज़ों में पाठ को संसाधित करना कठिन है। अपने वर्तमान स्वरूप में टेक्स्ट एनालिटिक्स का उद्भव 1990 के दशक के उत्तरार्ध में एल्गोरिदम विकास से लेकर अनुप्रयोग तक अनुसंधान पर फिर से ध्यान केंद्रित करने से हुआ, जैसा कि प्रो. मार्टी हर्स्ट|मार्टी ए. हर्स्ट ने पेपर अनटैंगलिंग टेक्स्ट डेटा माइनिंग में वर्णित किया है:[58] <ब्लॉककोट>लगभग एक दशक से कम्प्यूटेशनल भाषाविज्ञान समुदाय ने बड़े पाठ संग्रह को बेहतर पाठ विश्लेषण एल्गोरिदम तैयार करने के लिए उपयोग किए जाने वाले संसाधन के रूप में देखा है। इस पेपर में, मैंने एक नए जोर का सुझाव देने का प्रयास किया है: दुनिया के बारे में नए तथ्यों और रुझानों की खोज के लिए बड़े ऑनलाइन पाठ संग्रह का उपयोग। मेरा सुझाव है कि प्रगति करने के लिए हमें पूरी तरह से कृत्रिम बुद्धिमान पाठ विश्लेषण की आवश्यकता नहीं है; बल्कि, कम्प्यूटेशनल रूप से संचालित और उपयोगकर्ता-निर्देशित विश्लेषण का मिश्रण रोमांचक नए परिणामों का द्वार खोल सकता है। </ब्लॉककोट>

हर्स्ट का 1999 का आवश्यकता संबंधी बयान एक दशक बाद टेक्स्ट एनालिटिक्स तकनीक और अभ्यास की स्थिति का अच्छी तरह से वर्णन करता है।

यह भी देखें

संदर्भ

उद्धरण

  1. Feldman, R. and Sanger, J. (2007). The text mining handbook. Cambridge University Press. New York
  2. [1] Archived November 29, 2009, at the Wayback Machine
  3. "KDD-2000 Workshop on Text Mining – Call for Papers". Cs.cmu.edu. Retrieved 2015-02-23.
  4. [2] Archived March 3, 2012, at the Wayback Machine
  5. Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Natural language access to structured text". Proceedings of the 9th conference on Computational linguistics. Vol. 1. pp. 127–32. doi:10.3115/991813.991833. S2CID 6433117.
  6. "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis. August 2008. Retrieved 2015-02-23.
  7. Antunes, João (2018-11-14). Exploração de informações contextuais para enriquecimento semântico em representações de textos (Mestrado em Ciências de Computação e Matemática Computacional thesis) (in português). São Carlos: Universidade de São Paulo. doi:10.11606/d.55.2019.tde-03012019-103253.
  8. Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (December 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transactions of the Association for Computational Linguistics. 2: 231–244. doi:10.1162/tacl_a_00179. ISSN 2307-387X.
  9. Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (2017-02-06). "दस्तावेज़ क्लस्टरिंग और विज़ुअलाइज़ेशन के लिए स्थानीय पुनः सीखने के साथ एक नया विकसित वृक्ष-आधारित मॉडल". Neural Processing Letters. 46 (2): 379–409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
  10. Benchimol, Jonathan; Kazinnik, Sophia; Saadon, Yossi (2022). "Text mining methodologies with R: An application to central bank texts". Machine Learning with Applications. 8: 100286. doi:10.1016/j.mlwa.2022.100286. S2CID 243798160.
  11. Mehl, Matthias R. (2006). "Quantitative Text Analysis". मनोविज्ञान में बहुपद्धति माप की पुस्तिका. p. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
  12. Pang, Bo; Lee, Lillian (2008). "राय खनन और भावना विश्लेषण". Foundations and Trends in Information Retrieval. 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
  13. Paltoglou, Georgios; Thelwall, Mike (2012-09-01). "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media". ACM Transactions on Intelligent Systems and Technology. 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
  14. "Sentiment Analysis in Twitter < SemEval-2017 Task 4". alt.qcri.org. Retrieved 2018-10-02.
  15. Zanasi, Alessandro (2009). "Virtual Weapons for Real Wars: Text Mining for National Security". Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  16. Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (2015-12-09). "प्रोटीन डॉकिंग के लिए टेक्स्ट माइनिंग". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. ISSN 1553-7358. PMC 4674139. PMID 26650466.
  17. Cohen, K. Bretonnel; Hunter, Lawrence (2008). "टेक्स्ट माइनिंग में शुरुआत करना". PLOS Computational Biology. 4 (1): e20. Bibcode:2008PLSCB...4...20C. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.
  18. Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "प्रोटीन डॉकिंग के लिए टेक्स्ट माइनिंग". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
  19. Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Protein–protein interaction predictions using text mining methods". Methods. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
  20. Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (2016-10-18). "The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible". Nucleic Acids Research. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
  21. Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (2018-10-01). "हृदय रोग में बाह्य कोशिकीय मैट्रिक्स प्रोटीन पैटर्न का विश्लेषण करने के लिए पाठ्य डेटा का वाक्यांश खनन". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
  22. Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 August 2018). "एक इनपेशेंट फोरेंसिक मनोचिकित्सा सेटिंग में इलेक्ट्रॉनिक मानसिक स्वास्थ्य रिकॉर्ड्स की प्राकृतिक भाषा प्रसंस्करण का उपयोग करके जोखिम की भविष्यवाणी।". Journal of Biomedical Informatics. 86: 49–58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
  23. Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). "जीन अभिव्यक्ति के उच्च-थ्रूपुट विश्लेषण के लिए मानव जीन का एक साहित्य नेटवर्क". Nature Genetics. 28 (1): 21–8. doi:10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
  24. Masys, Daniel R. (2001). "माइक्रोएरे डेटा को साहित्य से जोड़ना". Nature Genetics. 28 (1): 9–10. doi:10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
  25. Renganathan, Vinaitheerthan (2017). "दस्तावेज़ क्लस्टरिंग पर जोर के साथ बायोमेडिकल डोमेन में टेक्स्ट माइनिंग". Healthcare Informatics Research. 23 (3): 141–146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.
  26. [3] Archived October 4, 2013, at the Wayback Machine
  27. "पाठ विश्लेषण". Medallia. Retrieved 2015-02-23.
  28. 28.0 28.1 Coussement, Kristof; Van Den Poel, Dirk (2008). "मंथन पूर्वानुमान के लिए निर्णय समर्थन प्रणाली में कॉल सेंटर ईमेल के माध्यम से ग्राहकों की आवाज़ को एकीकृत करना". Information & Management. 45 (3): 164–74. CiteSeerX 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005.
  29. Coussement, Kristof; Van Den Poel, Dirk (2008). "भविष्यवक्ताओं के रूप में भाषाई शैली सुविधाओं का उपयोग करके स्वचालित ईमेल वर्गीकरण द्वारा ग्राहक शिकायत प्रबंधन में सुधार करना". Decision Support Systems. 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
  30. Ramiro H. Gálvez; Agustín Gravano (2017). "स्वचालित स्टॉक भविष्यवाणी प्रणालियों में ऑनलाइन संदेश बोर्ड खनन की उपयोगिता का आकलन करना". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  31. Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up?". Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol. 10. pp. 79–86. doi:10.3115/1118693.1118704. S2CID 7105713.
  32. Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Developing Affective Lexical Resources" (PDF). PsychNology Journal. 2 (1): 61–83.
  33. Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). "SenticNet: a Publicly Available Semantic Resource for Opinion Mining" (PDF). Proceedings of AAAI CSK. pp. 14–18.
  34. Calvo, Rafael A; d'Mello, Sidney (2010). "Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications". IEEE Transactions on Affective Computing. 1 (1): 18–37. doi:10.1109/T-AFFC.2010.1. S2CID 753606.
  35. "मैनचेस्टर विश्वविद्यालय". Manchester.ac.uk. Retrieved 2015-02-23.
  36. "त्सुजी अबोरा और रय". Tsujii.is.s.u-tokyo.ac.jp. Retrieved 2015-02-23.
  37. "टोक्यो विश्वविद्यालय". UTokyo. Retrieved 2015-02-23.
  38. Shen, Jiaming; Xiao, Jinfeng; He, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (2018-06-27). Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach. ACM. pp. 565–574. doi:10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID 13748283.
  39. Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (2017-02-06). "The beauty of brimstone butterfly: novelty of patents identified by near environment analysis based on text mining". Scientometrics. 111 (1): 103–115. doi:10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
  40. Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (2018-03-10). "बड़े टेक्स्ट कॉर्पोरा में समानार्थी शब्दों को सुलझाने के लिए मशीन लर्निंग का उपयोग करना". Conservation Biology. 32 (3): 716–724. doi:10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
  41. 41.0 41.1 Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
  42. Network analysis of narrative content in large corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
  43. Quantitative Narrative Analysis; Roberto Franzosi; Emory University © 2010
  44. Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Team, FindMyPast Newspaper; Cristianini, Nello (2017-01-09). "Content analysis of 150 years of British periodicals". Proceedings of the National Academy of Sciences. 114 (4): E457–E465. Bibcode:2017PNAS..114E.457L. doi:10.1073/pnas.1606380114. ISSN 0027-8424. PMC 5278459. PMID 28069962.
  45. I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, The Structure of EU Mediasphere, PLoS ONE, Vol. 5(12), pp. e14243, 2010.
  46. Nowcasting Events from the Social Web with Statistical Learning V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
  47. NOAM: news outlets analysis and monitoring system; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. of the 2011 ACM SIGMOD international conference on Management of data
  48. Automatic discovery of patterns in media content, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
  49. I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, RESEARCH METHODS IN THE AGE OF DIGITAL JOURNALISM, Digital Journalism, Routledge, 2012
  50. Circadian Mood Variations in Twitter Content; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.
  51. Effects of the Recession on Public Mood in the UK; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) session on Social Media Applications
  52. Researchers given data mining right under new UK copyright laws Archived June 9, 2014, at the Wayback Machine
  53. "Licences for Europe – Structured Stakeholder Dialogue 2013". European Commission. Retrieved 14 November 2014.
  54. "Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. 2013-04-25. Retrieved 14 November 2014.
  55. "Judge grants summary judgment in favor of Google Books — a fair use victory". Lexology. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.
  56. "टेक्स्ट और डेटा माइनिंग". Australian Law Reform Commission. 4 June 2013. Retrieved 10 February 2023.
  57. "सेठ ग्रिम्स द्वारा टेक्स्ट एनालिटिक्स का एक संक्षिप्त इतिहास". Beyenetwork. 2007-10-30. Retrieved 2015-02-23.
  58. Hearst, Marti A. (1999). "Untangling text data mining". Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. pp. 3–10. doi:10.3115/1034678.1034679. ISBN 978-1-55860-609-8. S2CID 2340683.


स्रोत

  • अनानियाडौ, एस. और मैकनॉट, जे. (संपादक) (2006)। जीव विज्ञान और बायोमेडिसिन के लिए टेक्स्ट माइनिंग। आर्टेक हाउस बुक्स। ISBN 978-1-58053-984-5
  • बिलिसोली, आर. (2008). पर्ल के साथ प्रैक्टिकल टेक्स्ट माइनिंग। न्यूयॉर्क: जॉन विली एंड संस। ISBN 978-0-470-17643-6
  • फेल्डमैन, आर., और सेंगर, जे. (2006)। टेक्स्ट माइनिंग हैंडबुक। न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस. ISBN 978-0-521-83657-9
  • होथो, ए., नूर्नबर्गर, ए. और पास, जी. (2005)। टेक्स्ट माइनिंग का एक संक्षिप्त सर्वेक्षण। एलडीवी फोरम में, वॉल्यूम। 20(1), पृ. 19-62
  • इंदुर्ख्या, एन., और डेमेरौ, एफ. (2010)। प्राकृतिक भाषा प्रसंस्करण की पुस्तिका, दूसरा संस्करण। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-8592-1
  • काओ, ए., और पोटेट, एस. (संपादक)। प्राकृतिक भाषा प्रसंस्करण और पाठ खनन। स्प्रिंगर. ISBN 1-84628-175-X
  • कोंचडी, एम. टेक्स्ट माइनिंग एप्लीकेशन प्रोग्रामिंग (प्रोग्रामिंग सीरीज)। चार्ल्स रिवर मीडिया। ISBN 1-58450-460-9
  • मैनिंग, सी., और शुट्ज़, एच. (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। कैम्ब्रिज, एमए: एमआईटी प्रेस। ISBN 978-0-262-13360-9
  • माइनर, जी., एल्डर, जे., हिल। टी, निस्बेट, आर., डेलेन, डी. और फास्ट, ए. (2012)। गैर-संरचित पाठ डेटा अनुप्रयोगों के लिए व्यावहारिक पाठ खनन और सांख्यिकीय विश्लेषण। एल्सेवियर अकादमिक प्रेस। ISBN 978-0-12-386979-1
  • मैकनाइट, डब्ल्यू. (2005). बिजनेस इंटेलिजेंस का निर्माण: बिजनेस इंटेलिजेंस में टेक्स्ट डेटा माइनिंग। डीएम समीक्षा, 21-22.
  • श्रीवास्तव, ए., और सहामी। एम. (2009). टेक्स्ट माइनिंग: वर्गीकरण, क्लस्टरिंग और अनुप्रयोग। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-5940-3
  • ज़ानासी, ए. (संपादक) (2007)। टेक्स्ट माइनिंग और इंटेलिजेंस, सीआरएम और नॉलेज मैनेजमेंट में इसके अनुप्रयोग। WIT प्रेस. ISBN 978-1-84564-131-3

बाहरी संबंध