टेक्स्ट खनन: Difference between revisions
(Created page with "{{Short description|Process of analysing text to extract information from it}} टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनि...") |
No edit summary |
||
| Line 1: | Line 1: | ||
{{Short description|Process of analysing text to extract information from it}} | {{Short description|Process of analysing text to extract information from it}} | ||
टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनिंग (टीडीएम) या टेक्स्ट एनालिटिक्स | टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनिंग (टीडीएम) या टेक्स्ट एनालिटिक्स टेक्स्ट से उच्च-गुणवत्ता वाली जानकारी प्राप्त करने की प्रक्रिया है। इसमें सम्प्रेषण किए गए विभिन्न लिखित संसाधनों से स्वचालित रूप से जानकारी निकालकर, कंप्यूटर द्वारा नई, पहले से अज्ञात जानकारी की खोज होती है। लिखित संसाधनों में वेबसाइट, पुस्तकें, ईमेल, समीक्षाएं और लेख सम्मिलित हो सकते हैं। उच्च-गुणवत्ता जानकारी सामान्यतः आंकड़ों और रुझानों की मदद से पैटर्न और ट्रेंड्स तैयार करके प्राप्त की जाती है। होथो एटअल के अनुसार (2005) के अनुसार, हम टेक्स्ट माइनिंग के तीन विभिन्न परिप्रेक्ष्यों के बीच भेद कर सकते हैं: जानकारी प्राप्ति, डेटा माइनिंग, और डेटाबेस में ज्ञान खोज (केडीडी) प्रक्रिया। टेक्स्ट माइनिंग सामान्यतः प्रविष्टि टेक्स्ट को संरचित करने की प्रक्रिया को सम्मिलित करता है सामान्यतः पार्सिंग के साथ, कुछ उत्पन्न भाषात्मक विशेषताओं की जोड़-गणन और अन्यों की हटाने के साथ, और इसके बाद डेटाबेस में सम्मिलन, संरचित डेटा में पैटर्न निकालना, और अंत में आउटपुट का मूल्यांकन और व्याख्यान करना। टेक्स्ट माइनिंग में 'उच्च गुणवत्ता' सामान्यतः [[प्रासंगिकता (सूचना पुनर्प्राप्ति)|प्रासंगिकता]], [[नवीनता (पेटेंट)|नवीनता]], और रुचि के कुछ संयोजन को संकेत करती है। सामान्य टेक्स्ट माइनिंग कार्यों में टेक्स्ट श्रेणीबद्धीकरण, टेक्स्ट समूहीकरण, अवधारणा / संस्करण निकालना, विस्तृत श्रेणियां बनाना, भावना विश्लेषण, [[दस्तावेज़]] संक्षेपण, और एंटिटी संबंध मॉडेलिंग सम्मिलित होते हैं। | ||
टेक्स्ट विश्लेषण में [[सूचना विज़ुअलाइज़ेशन|सूचना]] प्राप्ति, शब्दिक विश्लेषण के लिए शब्द आवृत्ति वितरण का अध्ययन, पैटर्न पहचानी, टैगिंग/टिप्पणी, सूचना प्राप्ति, लिंक और संबंध विश्लेषण सहित डेटा माइनिंग तकनीकें, दृश्यीकरण, और पूर्वानुमानात्मक विश्लेषण सम्मिलित होते हैं। सार्वभौमिक लक्ष्य, सामान्य रूप से, संसाधन पर आधारित विश्लेषण के लिए टेक्स्ट को डेटा में बदलना है, [[प्राकृतिक भाषा]] प्रसंस्करण (एनएलपी), विभिन्न प्रकार के कलनविधि और विश्लेषणिक विधियों के उपयोग के माध्यम से इस प्रक्रिया का महत्वपूर्ण चरण संग्रहित जानकारी की व्याख्या है। | |||
एक विशिष्ट एप्लिकेशन प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना है और या तो [[पूर्वानुमानित वर्गीकरण]] उद्देश्यों के लिए दस्तावेज़ सेट को मॉडल करना है या निकाली गई जानकारी के साथ डेटाबेस या खोज सूचकांक को पॉप्युलेट करना है। टेक्स्ट माइनिंग से शुरुआत करते समय दस्तावेज़ मूल तत्व होता है। यहां, हम एक दस्तावेज़ को पाठ्य डेटा की एक इकाई के रूप में परिभाषित करते हैं, जो | एक विशिष्ट एप्लिकेशन प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना है और या तो [[पूर्वानुमानित वर्गीकरण]] उद्देश्यों के लिए दस्तावेज़ सेट को मॉडल करना है या निकाली गई जानकारी के साथ डेटाबेस या खोज सूचकांक को पॉप्युलेट करना है। टेक्स्ट माइनिंग से शुरुआत करते समय दस्तावेज़ मूल तत्व होता है। यहां, हम एक दस्तावेज़ को पाठ्य डेटा की एक इकाई के रूप में परिभाषित करते हैं, जो सामान्यतः कई प्रकार के संग्रहों में उपस्थित होता है।<ref>Feldman, R. and Sanger, J. (2007). The text mining handbook. Cambridge University Press. New York</ref> | ||
| Line 13: | Line 13: | ||
== पाठ विश्लेषण प्रक्रियाएँ == | == पाठ विश्लेषण प्रक्रियाएँ == | ||
उपकार्य—बड़े पाठ-विश्लेषण प्रयास के घटक—आम तौर पर | उपकार्य—बड़े पाठ-विश्लेषण प्रयास के घटक—आम तौर पर सम्मिलित होते हैं: | ||
* पूर्व-प्रसंस्करण डेटा के लिए [[आयामीता में कमी]] महत्वपूर्ण तकनीक है। तकनीक का उपयोग वास्तविक शब्दों के मूल शब्द की पहचान करने और टेक्स्ट डेटा के आकार को कम करने के लिए किया जाता है।{{cn|date=October 2022}} | * पूर्व-प्रसंस्करण डेटा के लिए [[आयामीता में कमी]] महत्वपूर्ण तकनीक है। तकनीक का उपयोग वास्तविक शब्दों के मूल शब्द की पहचान करने और टेक्स्ट डेटा के आकार को कम करने के लिए किया जाता है।{{cn|date=October 2022}} | ||
| Line 24: | Line 24: | ||
* सह[[संदर्भ]]: [[संज्ञा वाक्यांश]]ों और अन्य शब्दों की पहचान जो एक ही वस्तु को संदर्भित करते हैं। | * सह[[संदर्भ]]: [[संज्ञा वाक्यांश]]ों और अन्य शब्दों की पहचान जो एक ही वस्तु को संदर्भित करते हैं। | ||
* संबंध, तथ्य और घटना निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान और ग्रंथों में अन्य जानकारी। | * संबंध, तथ्य और घटना निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान और ग्रंथों में अन्य जानकारी। | ||
* भावना विश्लेषण में समझदार व्यक्तिपरक (तथ्यात्मक के विपरीत) सामग्री और व्यवहारिक जानकारी के विभिन्न रूपों को निकालना | * भावना विश्लेषण में समझदार व्यक्तिपरक (तथ्यात्मक के विपरीत) सामग्री और व्यवहारिक जानकारी के विभिन्न रूपों को निकालना सम्मिलित है: भावना, राय, मनोदशा और भावना। टेक्स्ट एनालिटिक्स तकनीक इकाई, अवधारणा या विषय स्तर पर भावनाओं का विश्लेषण करने और राय धारकों और वस्तुओं को अलग करने में मदद करती है।<ref>{{cite journal |last1=Benchimol |first1=Jonathan |last2=Kazinnik |first2=Sophia |last3=Saadon |first3=Yossi |date=2022 |title=Text mining methodologies with R: An application to central bank texts |url=https://paperswithcode.com/paper/text-mining-methodologies-with-r-an |journal=Machine Learning with Applications |volume=8 |pages=100286 |doi=10.1016/j.mlwa.2022.100286|s2cid=243798160 }}</ref> | ||
* मात्रात्मक पाठ विश्लेषण सामाजिक विज्ञान से उपजी तकनीकों का एक सेट है जहां या तो एक मानव न्यायाधीश या एक कंप्यूटर शब्दों के बीच अर्थ या व्याकरणिक संबंधों को निकालता है | * मात्रात्मक पाठ विश्लेषण सामाजिक विज्ञान से उपजी तकनीकों का एक सेट है जहां या तो एक मानव न्यायाधीश या एक कंप्यूटर शब्दों के बीच अर्थ या व्याकरणिक संबंधों को निकालता है ताकिसामान्यतः इस उद्देश्य के लिए एक आकस्मिक व्यक्तिगत पाठ के अर्थ या शैलीगत पैटर्न का पता लगाया जा सके। [[मनोवैज्ञानिक प्रोफाइलिंग]] आदि की।<ref>{{cite book|doi=10.1037/11383-011 |title=मनोविज्ञान में बहुपद्धति माप की पुस्तिका|year=2006 |last1=Mehl |first1=Matthias R. |isbn=978-1-59147-318-3 |page=141|chapter=Quantitative Text Analysis }}</ref> | ||
* प्री-प्रोसेसिंग में | * प्री-प्रोसेसिंग में सामान्यतः टोकनाइजेशन, फ़िल्टरिंग और स्टेमिंग जैसे कार्य सम्मिलित होते हैं। | ||
== अनुप्रयोग == | == अनुप्रयोग == | ||
टेक्स्ट माइनिंग तकनीक अब व्यापक रूप से विभिन्न प्रकार की सरकारी, अनुसंधान और व्यावसायिक आवश्यकताओं के लिए लागू की जाती है। ये सभी समूह रिकॉर्ड प्रबंधन और अपनी दैनिक गतिविधियों से संबंधित दस्तावेज़ों की खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। उदाहरण के लिए, कानूनी पेशेवर [[ ई-खोज ]] के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। सरकारें और सैन्य समूह [[राष्ट्रीय सुरक्षा]] और खुफिया उद्देश्यों के लिए टेक्स्ट माइनिंग का उपयोग करते हैं। वैज्ञानिक शोधकर्ता टेक्स्ट डेटा के बड़े सेट को व्यवस्थित करने (यानी, असंरचित डेटा की समस्या को संबोधित करने) के प्रयासों में टेक्स्ट माइनिंग दृष्टिकोण को | टेक्स्ट माइनिंग तकनीक अब व्यापक रूप से विभिन्न प्रकार की सरकारी, अनुसंधान और व्यावसायिक आवश्यकताओं के लिए लागू की जाती है। ये सभी समूह रिकॉर्ड प्रबंधन और अपनी दैनिक गतिविधियों से संबंधित दस्तावेज़ों की खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। उदाहरण के लिए, कानूनी पेशेवर [[ ई-खोज ]] के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। सरकारें और सैन्य समूह [[राष्ट्रीय सुरक्षा]] और खुफिया उद्देश्यों के लिए टेक्स्ट माइनिंग का उपयोग करते हैं। वैज्ञानिक शोधकर्ता टेक्स्ट डेटा के बड़े सेट को व्यवस्थित करने (यानी, असंरचित डेटा की समस्या को संबोधित करने) के प्रयासों में टेक्स्ट माइनिंग दृष्टिकोण को सम्मिलित करते हैं, ताकि टेक्स्ट के माध्यम से संप्रेषित विचारों को निर्धारित किया जा सके (उदाहरण के लिए, [[ सामाजिक मीडिया ]] में भावना विश्लेषण)<ref>{{Cite journal|last1=Pang|first1=Bo|last2=Lee|first2=Lillian|author2-link=Lillian Lee (computer scientist)|date=2008|title=राय खनन और भावना विश्लेषण|journal=Foundations and Trends in Information Retrieval|volume=2|issue=1–2|pages=1–135|doi=10.1561/1500000011|issn=1554-0669|citeseerx=10.1.1.147.2755|s2cid=207178694 }}</ref><ref>{{Cite journal|last1=Paltoglou|first1=Georgios|last2=Thelwall|first2=Mike|date=2012-09-01|title=Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media|journal=ACM Transactions on Intelligent Systems and Technology |volume=3|issue=4|pages=66|doi=10.1145/2337542.2337551|s2cid=16600444|issn=2157-6904|url=https://www.semanticscholar.org/paper/7194d28bdff2aae64600e1c1c4cbf379cdf42d42}}</ref><ref>{{Cite web|url=http://alt.qcri.org/semeval2017/task4/|title=Sentiment Analysis in Twitter < SemEval-2017 Task 4|website=alt.qcri.org|access-date=2018-10-02}}</ref>) और [[जीवन विज्ञान]] और जैव सूचना विज्ञान जैसे क्षेत्रों में [[वैज्ञानिक खोज]] का समर्थन करना। व्यवसाय में, कई अन्य गतिविधियों के अलावा, प्रतिस्पर्धी बुद्धिमत्ता और स्वचालित विज्ञापन सेवा का समर्थन करने के लिए एप्लिकेशन का उपयोग किया जाता है। | ||
=== सुरक्षा अनुप्रयोग === | === सुरक्षा अनुप्रयोग === | ||
कई टेक्स्ट माइनिंग सॉफ़्टवेयर पैकेज [[सुरक्षा उपकरण]] के लिए विपणन किए जाते हैं, विशेष रूप से राष्ट्रीय सुरक्षा उद्देश्यों के लिए ऑनलाइन सादे पाठ स्रोतों जैसे [[इंटरनेट समाचार]], [[ब्लॉग]] इत्यादि की निगरानी और विश्लेषण।<ref>{{cite book |doi=10.1007/978-3-540-88181-0_7 |title=Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08 |series=Advances in Soft Computing |year=2009 |last1=Zanasi |first1=Alessandro |isbn=978-3-540-88180-3 |volume=53 |page=53|chapter=Virtual Weapons for Real Wars: Text Mining for National Security }}</ref> यह टेक्स्ट [[ कूटलेखन ]]/[[डिक्रिप्शन]] के अध्ययन में भी | कई टेक्स्ट माइनिंग सॉफ़्टवेयर पैकेज [[सुरक्षा उपकरण]] के लिए विपणन किए जाते हैं, विशेष रूप से राष्ट्रीय सुरक्षा उद्देश्यों के लिए ऑनलाइन सादे पाठ स्रोतों जैसे [[इंटरनेट समाचार]], [[ब्लॉग]] इत्यादि की निगरानी और विश्लेषण।<ref>{{cite book |doi=10.1007/978-3-540-88181-0_7 |title=Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08 |series=Advances in Soft Computing |year=2009 |last1=Zanasi |first1=Alessandro |isbn=978-3-540-88180-3 |volume=53 |page=53|chapter=Virtual Weapons for Real Wars: Text Mining for National Security }}</ref> यह टेक्स्ट [[ कूटलेखन ]]/[[डिक्रिप्शन]] के अध्ययन में भी सम्मिलित है। | ||
=== बायोमेडिकल अनुप्रयोग === | === बायोमेडिकल अनुप्रयोग === | ||
| Line 50: | Line 50: | ||
=== भावना विश्लेषण === | === भावना विश्लेषण === | ||
भावना विश्लेषण में यह अनुमान लगाने के लिए फिल्म समीक्षाओं का विश्लेषण | भावना विश्लेषण में यह अनुमान लगाने के लिए फिल्म समीक्षाओं का विश्लेषण सम्मिलित हो सकता है कि किसी फिल्म के लिए समीक्षा कितनी अनुकूल है।<ref>{{cite book |doi=10.3115/1118693.1118704 |title=Proceedings of the ACL-02 conference on Empirical methods in natural language processing |year=2002 |last1=Pang |first1=Bo |last2=Lee |first2=Lillian |last3=Vaithyanathan |first3=Shivakumar |volume=10 |pages=79–86|chapter=Thumbs up? |s2cid=7105713 }}</ref> | ||
इस तरह के विश्लेषण के लिए लेबल किए गए डेटा सेट या शब्दों के [[प्रभाव (मनोविज्ञान)]] की लेबलिंग की आवश्यकता हो सकती है। | इस तरह के विश्लेषण के लिए लेबल किए गए डेटा सेट या शब्दों के [[प्रभाव (मनोविज्ञान)]] की लेबलिंग की आवश्यकता हो सकती है। | ||
[[ शब्दतंत्र ]] के लिए शब्दों और अवधारणाओं की प्रभावकारिता के लिए संसाधन बनाए गए हैं<ref>{{cite journal | [[ शब्दतंत्र ]] के लिए शब्दों और अवधारणाओं की प्रभावकारिता के लिए संसाधन बनाए गए हैं<ref>{{cite journal | ||
| Line 74: | Line 74: | ||
टेक्स्ट माइनिंग का मुद्दा उन प्रकाशकों के लिए महत्वपूर्ण है जिनके पास सूचना के बड़े डेटाबेस हैं जिन्हें पुनर्प्राप्ति के लिए [[सूचकांक (डेटाबेस)]] की आवश्यकता होती है। यह वैज्ञानिक विषयों में विशेष रूप से सच है, जिसमें अत्यधिक विशिष्ट जानकारी अक्सर लिखित पाठ में निहित होती है। इसलिए, ओपन टेक्स्ट माइनिंग इंटरफेस (ओटीएमआई) के लिए नेचर (जर्नल)|नेचर का प्रस्ताव और [[नेशनल इंस्टीट्यूट ऑफ हेल्थ]] के कॉमन जर्नल पब्लिशिंग [[ दस्तावेज़ प्रकार परिभाषा ]] (डीटीडी) जैसी पहल की गई है, जो विशिष्ट प्रश्नों के उत्तर देने के लिए मशीनों को सिमेंटिक संकेत प्रदान करेगा। सार्वजनिक पहुंच में प्रकाशक की बाधाओं को दूर किए बिना पाठ के भीतर समाहित किया गया। | टेक्स्ट माइनिंग का मुद्दा उन प्रकाशकों के लिए महत्वपूर्ण है जिनके पास सूचना के बड़े डेटाबेस हैं जिन्हें पुनर्प्राप्ति के लिए [[सूचकांक (डेटाबेस)]] की आवश्यकता होती है। यह वैज्ञानिक विषयों में विशेष रूप से सच है, जिसमें अत्यधिक विशिष्ट जानकारी अक्सर लिखित पाठ में निहित होती है। इसलिए, ओपन टेक्स्ट माइनिंग इंटरफेस (ओटीएमआई) के लिए नेचर (जर्नल)|नेचर का प्रस्ताव और [[नेशनल इंस्टीट्यूट ऑफ हेल्थ]] के कॉमन जर्नल पब्लिशिंग [[ दस्तावेज़ प्रकार परिभाषा ]] (डीटीडी) जैसी पहल की गई है, जो विशिष्ट प्रश्नों के उत्तर देने के लिए मशीनों को सिमेंटिक संकेत प्रदान करेगा। सार्वजनिक पहुंच में प्रकाशक की बाधाओं को दूर किए बिना पाठ के भीतर समाहित किया गया। | ||
शैक्षणिक संस्थान भी टेक्स्ट माइनिंग पहल में | शैक्षणिक संस्थान भी टेक्स्ट माइनिंग पहल में सम्मिलित हो गए हैं: | ||
* [[टेक्स्ट माइनिंग के लिए राष्ट्रीय केंद्र]] (NaCTeM), दुनिया का पहला सार्वजनिक रूप से वित्त पोषित टेक्स्ट माइनिंग केंद्र है। NaCTeM [[मैनचेस्टर विश्वविद्यालय]] द्वारा संचालित है<ref>{{cite web|url=http://www.manchester.ac.uk |title=मैनचेस्टर विश्वविद्यालय|publisher=Manchester.ac.uk |access-date=2015-02-23}}</ref> त्सुजी लैब के निकट सहयोग से,<ref>{{cite web|url=http://www-tsujii.is.s.u-tokyo.ac.jp/index.html |title=त्सुजी अबोरा और रय|publisher=Tsujii.is.s.u-tokyo.ac.jp |access-date=2015-02-23}}</ref> [[टोक्यो विश्वविद्यालय]].<ref>{{cite web|url=http://www.u-tokyo.ac.jp/index_e.html |title=टोक्यो विश्वविद्यालय|publisher=UTokyo |access-date=2015-02-23}}</ref> NaCTeM अनुकूलित उपकरण, अनुसंधान सुविधाएं प्रदान करता है और अकादमिक समुदाय को सलाह प्रदान करता है। इन्हें [[संयुक्त सूचना प्रणाली समिति]] (जेआईएससी) और यूके [[अनुसंधान परिषद (यूनाइटेड किंगडम)]] के दो ([[ईपीएसआरसी]] और [[बीबीएसआरसी]]) द्वारा वित्त पोषित किया जाता है। जीव विज्ञान और [[जैव चिकित्सा]] विज्ञान में टेक्स्ट माइनिंग पर प्रारंभिक फोकस के साथ, अनुसंधान का बाद में [[सामाजिक विज्ञान]] के क्षेत्रों में विस्तार हुआ है। | * [[टेक्स्ट माइनिंग के लिए राष्ट्रीय केंद्र]] (NaCTeM), दुनिया का पहला सार्वजनिक रूप से वित्त पोषित टेक्स्ट माइनिंग केंद्र है। NaCTeM [[मैनचेस्टर विश्वविद्यालय]] द्वारा संचालित है<ref>{{cite web|url=http://www.manchester.ac.uk |title=मैनचेस्टर विश्वविद्यालय|publisher=Manchester.ac.uk |access-date=2015-02-23}}</ref> त्सुजी लैब के निकट सहयोग से,<ref>{{cite web|url=http://www-tsujii.is.s.u-tokyo.ac.jp/index.html |title=त्सुजी अबोरा और रय|publisher=Tsujii.is.s.u-tokyo.ac.jp |access-date=2015-02-23}}</ref> [[टोक्यो विश्वविद्यालय]].<ref>{{cite web|url=http://www.u-tokyo.ac.jp/index_e.html |title=टोक्यो विश्वविद्यालय|publisher=UTokyo |access-date=2015-02-23}}</ref> NaCTeM अनुकूलित उपकरण, अनुसंधान सुविधाएं प्रदान करता है और अकादमिक समुदाय को सलाह प्रदान करता है। इन्हें [[संयुक्त सूचना प्रणाली समिति]] (जेआईएससी) और यूके [[अनुसंधान परिषद (यूनाइटेड किंगडम)]] के दो ([[ईपीएसआरसी]] और [[बीबीएसआरसी]]) द्वारा वित्त पोषित किया जाता है। जीव विज्ञान और [[जैव चिकित्सा]] विज्ञान में टेक्स्ट माइनिंग पर प्रारंभिक फोकस के साथ, अनुसंधान का बाद में [[सामाजिक विज्ञान]] के क्षेत्रों में विस्तार हुआ है। | ||
| Line 81: | Line 81: | ||
==== वैज्ञानिक साहित्य खनन के तरीके ==== | ==== वैज्ञानिक साहित्य खनन के तरीके ==== | ||
वैज्ञानिक साहित्य से जानकारी पुनर्प्राप्ति में सहायता के लिए कम्प्यूटेशनल तरीके विकसित किए गए हैं। प्रकाशित दृष्टिकोणों में खोज के तरीके | वैज्ञानिक साहित्य से जानकारी पुनर्प्राप्ति में सहायता के लिए कम्प्यूटेशनल तरीके विकसित किए गए हैं। प्रकाशित दृष्टिकोणों में खोज के तरीके सम्मिलित हैं,<ref>{{Cite book|last1=Shen|first1=Jiaming|last2=Xiao|first2=Jinfeng|last3=He|first3=Xinwei|last4=Shang|first4=Jingbo|last5=Sinha|first5=Saurabh|last6=Han|first6=Jiawei|date=2018-06-27|title=Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach|publisher=ACM|pages=565–574|doi=10.1145/3209978.3210055|isbn=978-1-4503-5657-2|s2cid=13748283}}</ref> नवीनता का निर्धारण,<ref>{{Cite journal|last1=Walter|first1=Lothar|last2=Radauer|first2=Alfred|last3=Moehrle|first3=Martin G.|date=2017-02-06|title=The beauty of brimstone butterfly: novelty of patents identified by near environment analysis based on text mining|journal=Scientometrics|volume=111|issue=1|pages=103–115|doi=10.1007/s11192-017-2267-4|s2cid=11174676|issn=0138-9130|url=https://www.semanticscholar.org/paper/6dfa73c01bb17374f0464179df5fa78d3b05956a}}</ref> और समानार्थी शब्दों को स्पष्ट करना<ref>{{Cite journal|last1=Roll|first1=Uri|last2=Correia|first2=Ricardo A.|last3=Berger-Tal|first3=Oded|date=2018-03-10|title=बड़े टेक्स्ट कॉर्पोरा में समानार्थी शब्दों को सुलझाने के लिए मशीन लर्निंग का उपयोग करना|journal=Conservation Biology|volume=32|issue=3|pages=716–724|doi=10.1111/cobi.13044|pmid=29086438|s2cid=3783779|issn=0888-8892|url=https://www.semanticscholar.org/paper/6b00e77c4c42a6000c05db5f5eb6150863ff31ab}}</ref> तकनीकी रिपोर्टों के बीच. | ||
=== डिजिटल मानविकी और कम्प्यूटेशनल समाजशास्त्र === | === डिजिटल मानविकी और कम्प्यूटेशनल समाजशास्त्र === | ||
| Line 89: | Line 89: | ||
[[File:Tripletsnew2012.png|thumb|right|अमेरिकी चुनाव 2012 का वर्णनात्मक नेटवर्क<ref name="ReferenceA">Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015</ref>]]टेक्स्टुअल कॉर्पोरा के स्वचालित पार्सिंग ने बड़े पैमाने पर अभिनेताओं और उनके संबंधपरक नेटवर्क के निष्कर्षण को सक्षम किया है, जिससे टेक्स्टुअल डेटा नेटवर्क डेटा में बदल गया है। परिणामी नेटवर्क, जिसमें हजारों नोड हो सकते हैं, फिर प्रमुख अभिनेताओं, प्रमुख समुदायों या पार्टियों और सामान्य गुणों जैसे समग्र नेटवर्क की मजबूती या संरचनात्मक स्थिरता, या कुछ की केंद्रीयता की पहचान करने के लिए नेटवर्क सिद्धांत के उपकरणों का उपयोग करके विश्लेषण किया जाता है। नोड्स.<ref>Network analysis of narrative content in large corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013</ref> यह मात्रात्मक कथा विश्लेषण द्वारा प्रस्तुत दृष्टिकोण को स्वचालित करता है,<ref>Quantitative Narrative Analysis; Roberto Franzosi; Emory University © 2010</ref> जिससे विषय-क्रिया-वस्तु त्रिक की पहचान किसी क्रिया से जुड़े अभिनेताओं के जोड़े, या अभिनेता-वस्तु द्वारा गठित जोड़े से की जाती है।<ref name="ReferenceA" /> | [[File:Tripletsnew2012.png|thumb|right|अमेरिकी चुनाव 2012 का वर्णनात्मक नेटवर्क<ref name="ReferenceA">Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015</ref>]]टेक्स्टुअल कॉर्पोरा के स्वचालित पार्सिंग ने बड़े पैमाने पर अभिनेताओं और उनके संबंधपरक नेटवर्क के निष्कर्षण को सक्षम किया है, जिससे टेक्स्टुअल डेटा नेटवर्क डेटा में बदल गया है। परिणामी नेटवर्क, जिसमें हजारों नोड हो सकते हैं, फिर प्रमुख अभिनेताओं, प्रमुख समुदायों या पार्टियों और सामान्य गुणों जैसे समग्र नेटवर्क की मजबूती या संरचनात्मक स्थिरता, या कुछ की केंद्रीयता की पहचान करने के लिए नेटवर्क सिद्धांत के उपकरणों का उपयोग करके विश्लेषण किया जाता है। नोड्स.<ref>Network analysis of narrative content in large corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013</ref> यह मात्रात्मक कथा विश्लेषण द्वारा प्रस्तुत दृष्टिकोण को स्वचालित करता है,<ref>Quantitative Narrative Analysis; Roberto Franzosi; Emory University © 2010</ref> जिससे विषय-क्रिया-वस्तु त्रिक की पहचान किसी क्रिया से जुड़े अभिनेताओं के जोड़े, या अभिनेता-वस्तु द्वारा गठित जोड़े से की जाती है।<ref name="ReferenceA" /> | ||
[[सामग्री विश्लेषण]] लंबे समय से सामाजिक विज्ञान और मीडिया अध्ययन का एक पारंपरिक हिस्सा रहा है। सामग्री विश्लेषण के स्वचालन ने उस क्षेत्र में एक बड़ी डेटा क्रांति लाने की अनुमति दी है, सोशल मीडिया और समाचार पत्र सामग्री में अध्ययन के साथ जिसमें लाखों समाचार आइटम | [[सामग्री विश्लेषण]] लंबे समय से सामाजिक विज्ञान और मीडिया अध्ययन का एक पारंपरिक हिस्सा रहा है। सामग्री विश्लेषण के स्वचालन ने उस क्षेत्र में एक बड़ी डेटा क्रांति लाने की अनुमति दी है, सोशल मीडिया और समाचार पत्र सामग्री में अध्ययन के साथ जिसमें लाखों समाचार आइटम सम्मिलित हैं। लाखों दस्तावेजों में टेक्स्ट माइनिंग विधियों के आधार पर लिंग पूर्वाग्रह, [[पठनीयता]], सामग्री समानता, पाठक प्राथमिकताएं और यहां तक कि मनोदशा का विश्लेषण किया गया है।<ref>{{Cite journal|last1=Lansdall-Welfare|first1=Thomas|last2=Sudhahar|first2=Saatviga|last3=Thompson|first3=James|last4=Lewis|first4=Justin|last5=Team|first5=FindMyPast Newspaper|last6=Cristianini|first6=Nello|date=2017-01-09|title=Content analysis of 150 years of British periodicals|journal=Proceedings of the National Academy of Sciences|volume=114|issue=4|pages=E457–E465|doi=10.1073/pnas.1606380114|issn=0027-8424|pmid=28069962|pmc=5278459|bibcode=2017PNAS..114E.457L |doi-access=free}}</ref><ref>I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, The Structure of EU Mediasphere, PLoS ONE, Vol. 5(12), pp. e14243, 2010.</ref><ref>Nowcasting Events from the Social Web with Statistical Learning | ||
V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72</ref><ref>NOAM: news outlets analysis and monitoring system; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. of the 2011 ACM SIGMOD international conference on Management of data</ref><ref>Automatic discovery of patterns in media content, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011</ref> फ़्लौनास एट अल में पठनीयता, लिंग पूर्वाग्रह और विषय पूर्वाग्रह का विश्लेषण प्रदर्शित किया गया था।<ref>I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, RESEARCH METHODS IN THE AGE OF DIGITAL JOURNALISM, Digital Journalism, Routledge, 2012</ref> यह दर्शाना कि कैसे अलग-अलग विषयों में अलग-अलग लैंगिक पूर्वाग्रह और पठनीयता के स्तर होते हैं; ट्विटर सामग्री का विश्लेषण करके एक विशाल आबादी में मूड पैटर्न का पता लगाने की संभावना का भी प्रदर्शन किया गया।<ref>Circadian Mood Variations in Twitter Content; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.</ref><ref>Effects of the Recession on Public Mood in the UK; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) session on Social Media Applications</ref> | V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72</ref><ref>NOAM: news outlets analysis and monitoring system; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. of the 2011 ACM SIGMOD international conference on Management of data</ref><ref>Automatic discovery of patterns in media content, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011</ref> फ़्लौनास एट अल में पठनीयता, लिंग पूर्वाग्रह और विषय पूर्वाग्रह का विश्लेषण प्रदर्शित किया गया था।<ref>I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, RESEARCH METHODS IN THE AGE OF DIGITAL JOURNALISM, Digital Journalism, Routledge, 2012</ref> यह दर्शाना कि कैसे अलग-अलग विषयों में अलग-अलग लैंगिक पूर्वाग्रह और पठनीयता के स्तर होते हैं; ट्विटर सामग्री का विश्लेषण करके एक विशाल आबादी में मूड पैटर्न का पता लगाने की संभावना का भी प्रदर्शन किया गया।<ref>Circadian Mood Variations in Twitter Content; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.</ref><ref>Effects of the Recession on Public Mood in the UK; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) session on Social Media Applications</ref> | ||
Revision as of 13:51, 13 July 2023
टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनिंग (टीडीएम) या टेक्स्ट एनालिटिक्स टेक्स्ट से उच्च-गुणवत्ता वाली जानकारी प्राप्त करने की प्रक्रिया है। इसमें सम्प्रेषण किए गए विभिन्न लिखित संसाधनों से स्वचालित रूप से जानकारी निकालकर, कंप्यूटर द्वारा नई, पहले से अज्ञात जानकारी की खोज होती है। लिखित संसाधनों में वेबसाइट, पुस्तकें, ईमेल, समीक्षाएं और लेख सम्मिलित हो सकते हैं। उच्च-गुणवत्ता जानकारी सामान्यतः आंकड़ों और रुझानों की मदद से पैटर्न और ट्रेंड्स तैयार करके प्राप्त की जाती है। होथो एटअल के अनुसार (2005) के अनुसार, हम टेक्स्ट माइनिंग के तीन विभिन्न परिप्रेक्ष्यों के बीच भेद कर सकते हैं: जानकारी प्राप्ति, डेटा माइनिंग, और डेटाबेस में ज्ञान खोज (केडीडी) प्रक्रिया। टेक्स्ट माइनिंग सामान्यतः प्रविष्टि टेक्स्ट को संरचित करने की प्रक्रिया को सम्मिलित करता है सामान्यतः पार्सिंग के साथ, कुछ उत्पन्न भाषात्मक विशेषताओं की जोड़-गणन और अन्यों की हटाने के साथ, और इसके बाद डेटाबेस में सम्मिलन, संरचित डेटा में पैटर्न निकालना, और अंत में आउटपुट का मूल्यांकन और व्याख्यान करना। टेक्स्ट माइनिंग में 'उच्च गुणवत्ता' सामान्यतः प्रासंगिकता, नवीनता, और रुचि के कुछ संयोजन को संकेत करती है। सामान्य टेक्स्ट माइनिंग कार्यों में टेक्स्ट श्रेणीबद्धीकरण, टेक्स्ट समूहीकरण, अवधारणा / संस्करण निकालना, विस्तृत श्रेणियां बनाना, भावना विश्लेषण, दस्तावेज़ संक्षेपण, और एंटिटी संबंध मॉडेलिंग सम्मिलित होते हैं।
टेक्स्ट विश्लेषण में सूचना प्राप्ति, शब्दिक विश्लेषण के लिए शब्द आवृत्ति वितरण का अध्ययन, पैटर्न पहचानी, टैगिंग/टिप्पणी, सूचना प्राप्ति, लिंक और संबंध विश्लेषण सहित डेटा माइनिंग तकनीकें, दृश्यीकरण, और पूर्वानुमानात्मक विश्लेषण सम्मिलित होते हैं। सार्वभौमिक लक्ष्य, सामान्य रूप से, संसाधन पर आधारित विश्लेषण के लिए टेक्स्ट को डेटा में बदलना है, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), विभिन्न प्रकार के कलनविधि और विश्लेषणिक विधियों के उपयोग के माध्यम से इस प्रक्रिया का महत्वपूर्ण चरण संग्रहित जानकारी की व्याख्या है।
एक विशिष्ट एप्लिकेशन प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना है और या तो पूर्वानुमानित वर्गीकरण उद्देश्यों के लिए दस्तावेज़ सेट को मॉडल करना है या निकाली गई जानकारी के साथ डेटाबेस या खोज सूचकांक को पॉप्युलेट करना है। टेक्स्ट माइनिंग से शुरुआत करते समय दस्तावेज़ मूल तत्व होता है। यहां, हम एक दस्तावेज़ को पाठ्य डेटा की एक इकाई के रूप में परिभाषित करते हैं, जो सामान्यतः कई प्रकार के संग्रहों में उपस्थित होता है।[1]
पाठ विश्लेषण
टेक्स्ट एनालिटिक्स भाषाविज्ञान, सांख्यिकीय और यंत्र अधिगम तकनीकों के एक सेट का वर्णन करता है जो व्यावसायिक खुफिया, खोजपूर्ण डेटा विश्लेषण, अनुसंधान या जांच के लिए पाठ्य स्रोतों की सूचना सामग्री को मॉडल और संरचना करता है।[2] यह शब्द मोटे तौर पर टेक्स्ट माइनिंग का पर्याय है; वास्तव में, रॉन फेल्डमैन ने टेक्स्ट माइनिंग के 2000 विवरण को संशोधित किया[3] 2004 में टेक्स्ट एनालिटिक्स का वर्णन करने के लिए।[4] बाद वाला शब्द अब व्यावसायिक सेटिंग्स में अधिक बार उपयोग किया जाता है, जबकि टेक्स्ट माइनिंग का उपयोग 1980 के दशक के कुछ शुरुआती अनुप्रयोग क्षेत्रों में किया जाता है,[5] विशेष रूप से जीवन-विज्ञान अनुसंधान और सरकारी खुफिया।
टेक्स्ट एनालिटिक्स शब्द व्यावसायिक समस्याओं का जवाब देने के लिए टेक्स्ट एनालिटिक्स के अनुप्रयोग का भी वर्णन करता है, चाहे स्वतंत्र रूप से या फ़ील्ड किए गए संख्यात्मक डेटा की क्वेरी और विश्लेषण के संयोजन में। यह सत्य है कि व्यवसाय-प्रासंगिक जानकारी का 80 प्रतिशत असंरचित डेटा रूप में उत्पन्न होता है, मुख्य रूप से पाठ।[6] ये तकनीकें और प्रक्रियाएं ज्ञान - तथ्यों, व्यावसायिक नियमों और रिश्तों को खोजती हैं और प्रस्तुत करती हैं - जो अन्यथा पाठ्य रूप में बंद है, स्वचालित प्रसंस्करण के लिए अभेद्य है।
पाठ विश्लेषण प्रक्रियाएँ
उपकार्य—बड़े पाठ-विश्लेषण प्रयास के घटक—आम तौर पर सम्मिलित होते हैं:
- पूर्व-प्रसंस्करण डेटा के लिए आयामीता में कमी महत्वपूर्ण तकनीक है। तकनीक का उपयोग वास्तविक शब्दों के मूल शब्द की पहचान करने और टेक्स्ट डेटा के आकार को कम करने के लिए किया जाता है।[citation needed]
- सूचना पुनर्प्राप्ति या पाठ कोष की पहचान एक प्रारंभिक चरण है: विश्लेषण के लिए वेब पर या फाइल सिस्टम, डेटाबेस, या सामग्री कॉर्पस प्रबंधक में रखी गई पाठ्य सामग्री के एक सेट को इकट्ठा करना या पहचानना।
- हालाँकि कुछ पाठ विश्लेषण प्रणालियाँ विशेष रूप से उन्नत सांख्यिकीय तरीकों को लागू करती हैं, कई अन्य अधिक व्यापक प्राकृतिक भाषा प्रसंस्करण को लागू करते हैं, जैसे कि भाषण टैगिंग का हिस्सा, वाक्यविन्यास पार्सिंग और अन्य प्रकार के भाषाई विश्लेषण।[7]
- नामित इकाई पहचान नामित पाठ सुविधाओं की पहचान करने के लिए गजेटियर्स या सांख्यिकीय तकनीकों का उपयोग है: लोग, संगठन, स्थान के नाम, स्टॉक टिकर प्रतीक, कुछ संक्षिप्ताक्षर, इत्यादि।
- असंबद्धता - संदर्भ (भाषा उपयोग) सुरागों का उपयोग - यह तय करने के लिए आवश्यक हो सकता है कि, उदाहरण के लिए, फोर्ड पूर्व अमेरिकी राष्ट्रपति, एक वाहन निर्माता, एक फिल्म स्टार, एक नदी पार करने वाले, या किसी अन्य इकाई का उल्लेख कर सकता है।[8]
- पैटर्न पहचानी गई संस्थाओं की पहचान: टेलीफोन नंबर, ई-मेल पते, मात्रा (इकाइयों के साथ) जैसी विशेषताओं को नियमित अभिव्यक्ति या अन्य पैटर्न मिलान के माध्यम से पहचाना जा सकता है।
- दस्तावेज़ क्लस्टरिंग: समान पाठ दस्तावेज़ों के सेट की पहचान।[9]
- सहसंदर्भ: संज्ञा वाक्यांशों और अन्य शब्दों की पहचान जो एक ही वस्तु को संदर्भित करते हैं।
- संबंध, तथ्य और घटना निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान और ग्रंथों में अन्य जानकारी।
- भावना विश्लेषण में समझदार व्यक्तिपरक (तथ्यात्मक के विपरीत) सामग्री और व्यवहारिक जानकारी के विभिन्न रूपों को निकालना सम्मिलित है: भावना, राय, मनोदशा और भावना। टेक्स्ट एनालिटिक्स तकनीक इकाई, अवधारणा या विषय स्तर पर भावनाओं का विश्लेषण करने और राय धारकों और वस्तुओं को अलग करने में मदद करती है।[10]
- मात्रात्मक पाठ विश्लेषण सामाजिक विज्ञान से उपजी तकनीकों का एक सेट है जहां या तो एक मानव न्यायाधीश या एक कंप्यूटर शब्दों के बीच अर्थ या व्याकरणिक संबंधों को निकालता है ताकिसामान्यतः इस उद्देश्य के लिए एक आकस्मिक व्यक्तिगत पाठ के अर्थ या शैलीगत पैटर्न का पता लगाया जा सके। मनोवैज्ञानिक प्रोफाइलिंग आदि की।[11]
- प्री-प्रोसेसिंग में सामान्यतः टोकनाइजेशन, फ़िल्टरिंग और स्टेमिंग जैसे कार्य सम्मिलित होते हैं।
अनुप्रयोग
टेक्स्ट माइनिंग तकनीक अब व्यापक रूप से विभिन्न प्रकार की सरकारी, अनुसंधान और व्यावसायिक आवश्यकताओं के लिए लागू की जाती है। ये सभी समूह रिकॉर्ड प्रबंधन और अपनी दैनिक गतिविधियों से संबंधित दस्तावेज़ों की खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। उदाहरण के लिए, कानूनी पेशेवर ई-खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। सरकारें और सैन्य समूह राष्ट्रीय सुरक्षा और खुफिया उद्देश्यों के लिए टेक्स्ट माइनिंग का उपयोग करते हैं। वैज्ञानिक शोधकर्ता टेक्स्ट डेटा के बड़े सेट को व्यवस्थित करने (यानी, असंरचित डेटा की समस्या को संबोधित करने) के प्रयासों में टेक्स्ट माइनिंग दृष्टिकोण को सम्मिलित करते हैं, ताकि टेक्स्ट के माध्यम से संप्रेषित विचारों को निर्धारित किया जा सके (उदाहरण के लिए, सामाजिक मीडिया में भावना विश्लेषण)[12][13][14]) और जीवन विज्ञान और जैव सूचना विज्ञान जैसे क्षेत्रों में वैज्ञानिक खोज का समर्थन करना। व्यवसाय में, कई अन्य गतिविधियों के अलावा, प्रतिस्पर्धी बुद्धिमत्ता और स्वचालित विज्ञापन सेवा का समर्थन करने के लिए एप्लिकेशन का उपयोग किया जाता है।
सुरक्षा अनुप्रयोग
कई टेक्स्ट माइनिंग सॉफ़्टवेयर पैकेज सुरक्षा उपकरण के लिए विपणन किए जाते हैं, विशेष रूप से राष्ट्रीय सुरक्षा उद्देश्यों के लिए ऑनलाइन सादे पाठ स्रोतों जैसे इंटरनेट समाचार, ब्लॉग इत्यादि की निगरानी और विश्लेषण।[15] यह टेक्स्ट कूटलेखन /डिक्रिप्शन के अध्ययन में भी सम्मिलित है।
बायोमेडिकल अनुप्रयोग
बायोमेडिकल साहित्य में टेक्स्ट माइनिंग अनुप्रयोगों की एक श्रृंखला का वर्णन किया गया है,[17] प्रोटीन डॉकिंग में अध्ययन में सहायता के लिए कम्प्यूटेशनल दृष्टिकोण सहित,[18] प्रोटीन अंतःक्रिया,[19][20] और प्रोटीन-रोग संघ।[21] इसके अलावा, नैदानिक क्षेत्र में बड़े रोगी पाठ्य डेटासेट, जनसंख्या अध्ययन में जनसांख्यिकीय जानकारी के डेटासेट और प्रतिकूल घटना रिपोर्ट के साथ, पाठ खनन नैदानिक अध्ययन और सटीक चिकित्सा की सुविधा प्रदान कर सकता है। टेक्स्ट माइनिंग एल्गोरिदम इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड, घटना रिपोर्ट और विशिष्ट नैदानिक परीक्षणों की रिपोर्ट से लक्षणों, दुष्प्रभावों और सह-रुग्णताओं के बड़े रोगी पाठ्य डेटासेट में विशिष्ट नैदानिक घटनाओं के स्तरीकरण और अनुक्रमण की सुविधा प्रदान कर सकते हैं।[22] बायोमेडिकल साहित्य में एक ऑनलाइन टेक्स्ट माइनिंग एप्लिकेशन पबजीन है, जो एक सार्वजनिक रूप से सुलभ खोज इंजन है जो बायोमेडिकल टेक्स्ट माइनिंग को नेटवर्क विज़ुअलाइज़ेशन के साथ जोड़ता है।[23][24] GoPubMed बायोमेडिकल ग्रंथों के लिए एक ज्ञान-आधारित खोज इंजन है। टेक्स्ट माइनिंग तकनीक हमें क्लिनिकल डोमेन में असंरचित दस्तावेज़ों से अज्ञात ज्ञान निकालने में भी सक्षम बनाती है[25]
सॉफ्टवेयर अनुप्रयोग
खनन और विश्लेषण प्रक्रियाओं को और अधिक स्वचालित करने के लिए आईबीएम और माइक्रोसॉफ्ट सहित प्रमुख कंपनियों द्वारा टेक्स्ट माइनिंग विधियों और सॉफ्टवेयर पर भी शोध और विकास किया जा रहा है, और सामान्य रूप से खोज और अनुक्रमण के क्षेत्र में काम करने वाली विभिन्न कंपनियां अपने परिणामों को बेहतर बनाने के तरीके के रूप में काम कर रही हैं। . सार्वजनिक क्षेत्र के भीतर, सूचना जागरूकता कार्यालय की ट्रैकिंग और निगरानी के लिए सॉफ्टवेयर बनाने पर बहुत प्रयास केंद्रित किया गया है।[26] अध्ययन उद्देश्यों के लिए, वेका (मशीन लर्निंग) वैज्ञानिक दुनिया में सबसे लोकप्रिय विकल्पों में से एक है, जो शुरुआती लोगों के लिए एक उत्कृष्ट प्रवेश बिंदु के रूप में कार्य करता है। पायथन प्रोग्रामर्स के लिए, अधिक सामान्य उद्देश्यों के लिए प्राकृतिक भाषा टूलकिट नामक एक उत्कृष्ट टूलकिट है। अधिक उन्नत प्रोग्रामर के लिए, जनरल लाइब्रेरी भी है, जो शब्द एम्बेडिंग-आधारित टेक्स्ट प्रस्तुतियों पर केंद्रित है।
ऑनलाइन मीडिया अनुप्रयोग
टेक्स्ट माइनिंग का उपयोग ट्रिब्यून कंपनी जैसी बड़ी मीडिया कंपनियों द्वारा जानकारी को स्पष्ट करने और पाठकों को बेहतर खोज अनुभव प्रदान करने के लिए किया जा रहा है, जिससे साइट की चिपचिपाहट और राजस्व में वृद्धि होती है। इसके अतिरिक्त, अंत में, संपादकों को सभी संपत्तियों में समाचारों को साझा करने, संबद्ध करने और पैकेज करने में सक्षम होने से लाभ हो रहा है, जिससे सामग्री से मुद्रीकरण के अवसर काफी बढ़ रहे हैं।
व्यवसाय और विपणन अनुप्रयोग
टेक्स्ट एनालिटिक्स का उपयोग व्यवसाय में किया जा रहा है, विशेष रूप से मार्केटिंग में, जैसे कि ग्राहक संबंध प्रबंधन में। [27] कूसेमेंट और वैन डेन पोएल (2008)[28][29] ग्राहक मंथन (ग्राहक क्षरण) के लिए पूर्वानुमानित विश्लेषण मॉडल को बेहतर बनाने के लिए इसे लागू करें। [28] स्टॉक रिटर्न भविष्यवाणी में टेक्स्ट माइनिंग भी लागू किया जा रहा है।[30]
भावना विश्लेषण
भावना विश्लेषण में यह अनुमान लगाने के लिए फिल्म समीक्षाओं का विश्लेषण सम्मिलित हो सकता है कि किसी फिल्म के लिए समीक्षा कितनी अनुकूल है।[31] इस तरह के विश्लेषण के लिए लेबल किए गए डेटा सेट या शब्दों के प्रभाव (मनोविज्ञान) की लेबलिंग की आवश्यकता हो सकती है। शब्दतंत्र के लिए शब्दों और अवधारणाओं की प्रभावकारिता के लिए संसाधन बनाए गए हैं[32] और कॉन्सेप्टनेट,[33] क्रमश।
भावात्मक कंप्यूटिंग के संबंधित क्षेत्र में भावनाओं का पता लगाने के लिए पाठ का उपयोग किया गया है।[34] प्रभावशाली कंप्यूटिंग के लिए पाठ आधारित दृष्टिकोण का उपयोग कई कॉर्पोरा जैसे छात्रों के मूल्यांकन, बच्चों की कहानियों और समाचार कहानियों पर किया गया है।
वैज्ञानिक साहित्य खनन और शैक्षणिक अनुप्रयोग
टेक्स्ट माइनिंग का मुद्दा उन प्रकाशकों के लिए महत्वपूर्ण है जिनके पास सूचना के बड़े डेटाबेस हैं जिन्हें पुनर्प्राप्ति के लिए सूचकांक (डेटाबेस) की आवश्यकता होती है। यह वैज्ञानिक विषयों में विशेष रूप से सच है, जिसमें अत्यधिक विशिष्ट जानकारी अक्सर लिखित पाठ में निहित होती है। इसलिए, ओपन टेक्स्ट माइनिंग इंटरफेस (ओटीएमआई) के लिए नेचर (जर्नल)|नेचर का प्रस्ताव और नेशनल इंस्टीट्यूट ऑफ हेल्थ के कॉमन जर्नल पब्लिशिंग दस्तावेज़ प्रकार परिभाषा (डीटीडी) जैसी पहल की गई है, जो विशिष्ट प्रश्नों के उत्तर देने के लिए मशीनों को सिमेंटिक संकेत प्रदान करेगा। सार्वजनिक पहुंच में प्रकाशक की बाधाओं को दूर किए बिना पाठ के भीतर समाहित किया गया।
शैक्षणिक संस्थान भी टेक्स्ट माइनिंग पहल में सम्मिलित हो गए हैं:
- टेक्स्ट माइनिंग के लिए राष्ट्रीय केंद्र (NaCTeM), दुनिया का पहला सार्वजनिक रूप से वित्त पोषित टेक्स्ट माइनिंग केंद्र है। NaCTeM मैनचेस्टर विश्वविद्यालय द्वारा संचालित है[35] त्सुजी लैब के निकट सहयोग से,[36] टोक्यो विश्वविद्यालय.[37] NaCTeM अनुकूलित उपकरण, अनुसंधान सुविधाएं प्रदान करता है और अकादमिक समुदाय को सलाह प्रदान करता है। इन्हें संयुक्त सूचना प्रणाली समिति (जेआईएससी) और यूके अनुसंधान परिषद (यूनाइटेड किंगडम) के दो (ईपीएसआरसी और बीबीएसआरसी) द्वारा वित्त पोषित किया जाता है। जीव विज्ञान और जैव चिकित्सा विज्ञान में टेक्स्ट माइनिंग पर प्रारंभिक फोकस के साथ, अनुसंधान का बाद में सामाजिक विज्ञान के क्षेत्रों में विस्तार हुआ है।
- संयुक्त राज्य अमेरिका में, कैलिफोर्निया विश्वविद्यालय, बर्कले में यूसी बर्कले स्कूल ऑफ इंफॉर्मेशन, टेक्स्ट माइनिंग और विश्लेषण में जीवविज्ञान शोधकर्ताओं की सहायता के लिए बायोटेक्स्ट नामक एक कार्यक्रम विकसित कर रहा है।
- रिसर्च के लिए टेक्स्ट एनालिसिस पोर्टल (टीएपीओआर), जो वर्तमान में अलबर्टा विश्वविद्यालय में स्थित है, टेक्स्ट विश्लेषण अनुप्रयोगों को सूचीबद्ध करने और अभ्यास में नए शोधकर्ताओं के लिए प्रवेश द्वार अनुसंधान के लिए पाठ विश्लेषण पोर्टल है।
वैज्ञानिक साहित्य खनन के तरीके
वैज्ञानिक साहित्य से जानकारी पुनर्प्राप्ति में सहायता के लिए कम्प्यूटेशनल तरीके विकसित किए गए हैं। प्रकाशित दृष्टिकोणों में खोज के तरीके सम्मिलित हैं,[38] नवीनता का निर्धारण,[39] और समानार्थी शब्दों को स्पष्ट करना[40] तकनीकी रिपोर्टों के बीच.
डिजिटल मानविकी और कम्प्यूटेशनल समाजशास्त्र
विशाल पाठ्य कोष के स्वचालित विश्लेषण ने विद्वानों के लिए विश्लेषण करने की संभावना पैदा की है बहुत ही सीमित मैन्युअल हस्तक्षेप के साथ कई भाषाओं में लाखों दस्तावेज़। प्रमुख सक्षम प्रौद्योगिकियाँ पार्सिंग, मशीन अनुवाद, विषय वर्गीकरण और मशीन लर्निंग रही हैं।
टेक्स्टुअल कॉर्पोरा के स्वचालित पार्सिंग ने बड़े पैमाने पर अभिनेताओं और उनके संबंधपरक नेटवर्क के निष्कर्षण को सक्षम किया है, जिससे टेक्स्टुअल डेटा नेटवर्क डेटा में बदल गया है। परिणामी नेटवर्क, जिसमें हजारों नोड हो सकते हैं, फिर प्रमुख अभिनेताओं, प्रमुख समुदायों या पार्टियों और सामान्य गुणों जैसे समग्र नेटवर्क की मजबूती या संरचनात्मक स्थिरता, या कुछ की केंद्रीयता की पहचान करने के लिए नेटवर्क सिद्धांत के उपकरणों का उपयोग करके विश्लेषण किया जाता है। नोड्स.[42] यह मात्रात्मक कथा विश्लेषण द्वारा प्रस्तुत दृष्टिकोण को स्वचालित करता है,[43] जिससे विषय-क्रिया-वस्तु त्रिक की पहचान किसी क्रिया से जुड़े अभिनेताओं के जोड़े, या अभिनेता-वस्तु द्वारा गठित जोड़े से की जाती है।[41]
सामग्री विश्लेषण लंबे समय से सामाजिक विज्ञान और मीडिया अध्ययन का एक पारंपरिक हिस्सा रहा है। सामग्री विश्लेषण के स्वचालन ने उस क्षेत्र में एक बड़ी डेटा क्रांति लाने की अनुमति दी है, सोशल मीडिया और समाचार पत्र सामग्री में अध्ययन के साथ जिसमें लाखों समाचार आइटम सम्मिलित हैं। लाखों दस्तावेजों में टेक्स्ट माइनिंग विधियों के आधार पर लिंग पूर्वाग्रह, पठनीयता, सामग्री समानता, पाठक प्राथमिकताएं और यहां तक कि मनोदशा का विश्लेषण किया गया है।[44][45][46][47][48] फ़्लौनास एट अल में पठनीयता, लिंग पूर्वाग्रह और विषय पूर्वाग्रह का विश्लेषण प्रदर्शित किया गया था।[49] यह दर्शाना कि कैसे अलग-अलग विषयों में अलग-अलग लैंगिक पूर्वाग्रह और पठनीयता के स्तर होते हैं; ट्विटर सामग्री का विश्लेषण करके एक विशाल आबादी में मूड पैटर्न का पता लगाने की संभावना का भी प्रदर्शन किया गया।[50][51]
सॉफ्टवेयर
टेक्स्ट माइनिंग कंप्यूटर प्रोग्राम कई व्यावसायिक सॉफ्टवेयर और खुला स्त्रोत कंपनियों और स्रोतों से उपलब्ध हैं। टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची देखें।
बौद्धिक संपदा कानून
यूरोप में स्थिति
यूरोपीय संघ के कॉपीराइट कानून और डेटाबेस निर्देश के तहत, कॉपीराइट स्वामी की अनुमति के बिना इन-कॉपीराइट कार्यों (जैसे वेब खनन द्वारा) का खनन अवैध है। यूके में 2014 में, हरग्रीव्स समीक्षा की सिफारिश पर, सरकार ने कॉपीराइट कानून में संशोधन किया[52] कॉपीराइट की सीमाओं और अपवादों के रूप में टेक्स्ट माइनिंग की अनुमति देना। जापान के कॉपीराइट कानून के बाद ऐसा करने वाला यह दुनिया का दूसरा देश था, जिसने 2009 में खनन-विशिष्ट अपवाद पेश किया था। हालांकि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल सामग्री खनन की अनुमति देता है गैर-व्यावसायिक उद्देश्यों के लिए. यूके कॉपीराइट कानून इस प्रावधान को अनुबंध संबंधी नियमों और शर्तों से परे जाने की अनुमति नहीं देता है।
यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के शीर्षक के तहत 2013 में पाठ और डेटा खनन पर हितधारक चर्चा की सुविधा प्रदान की।[53] तथ्य यह है कि इस कानूनी मुद्दे के समाधान पर ध्यान लाइसेंस पर था, न कि कॉपीराइट कानून की सीमाओं और अपवादों पर, विश्वविद्यालयों, शोधकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों और खुला एक्सेस प्रकाशकों के प्रतिनिधियों ने मई 2013 में हितधारक संवाद को छोड़ दिया।[54]
संयुक्त राज्य अमेरिका में स्थिति
संयुक्त राज्य अमेरिका के कॉपीराइट कानून, और विशेष रूप से इसके उचित उपयोग प्रावधानों का मतलब है कि अमेरिका, साथ ही इज़राइल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों में टेक्स्ट खनन को कानूनी माना जाता है। चूंकि टेक्स्ट माइनिंग परिवर्तनकारी है, जिसका अर्थ है कि यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के तहत वैध माना जाता है। उदाहरण के लिए, Google पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने फैसला सुनाया कि Google की इन-कॉपीराइट पुस्तकों का डिजिटलीकरण प्रोजेक्ट वैध था, आंशिक रूप से डिजिटलीकरण प्रोजेक्ट द्वारा प्रदर्शित परिवर्तनकारी उपयोगों के कारण - ऐसा ही एक उपयोग टेक्स्ट और है डेटा खनन।[55]
ऑस्ट्रेलिया में स्थिति
कॉपीराइट अधिनियम 1968 के अंतर्गत टेक्स्ट या डेटा माइनिंग के लिए ऑस्ट्रेलियाई कॉपीराइट कानून में कोई अपवाद नहीं है। ऑस्ट्रेलियाई कानून सुधार आयोग ने नोट किया है कि यह संभावना नहीं है कि शोध और अध्ययन निष्पक्ष व्यवहार अपवाद ऐसे विषय को कवर करने के लिए विस्तारित होगा, बशर्ते कि ऐसा हो। उचित भाग की आवश्यकता से परे हो।[56]
निहितार्थ
हाल तक, वेबसाइटें अक्सर टेक्स्ट-आधारित खोजों का उपयोग करती थीं, जिनमें केवल विशिष्ट उपयोगकर्ता-परिभाषित शब्दों या वाक्यांशों वाले दस्तावेज़ ही मिलते थे। अब, सेमांटिक वेब के उपयोग के माध्यम से, टेक्स्ट माइनिंग अर्थ और संदर्भ के आधार पर सामग्री पा सकता है (केवल किसी विशिष्ट शब्द के बजाय)। इसके अतिरिक्त, टेक्स्ट माइनिंग सॉफ़्टवेयर का उपयोग विशिष्ट लोगों और घटनाओं के बारे में जानकारी के बड़े दस्तावेज़ बनाने के लिए किया जा सकता है। उदाहरण के लिए, सामाजिक नेटवर्क विश्लेषण या प्रति-बुद्धिमत्ता की सुविधा के लिए समाचार रिपोर्टों से निकाले गए डेटा पर आधारित बड़े डेटासेट बनाए जा सकते हैं। वास्तव में, टेक्स्ट माइनिंग सॉफ्टवेयर एक खुफिया विश्लेषक या अनुसंधान लाइब्रेरियन के समान क्षमता में कार्य कर सकता है, भले ही विश्लेषण का दायरा अधिक सीमित हो। टेक्स्ट माइनिंग का उपयोग कुछ ईमेल स्पैम छांटना में उन संदेशों की विशेषताओं को निर्धारित करने के तरीके के रूप में भी किया जाता है जिनमें विज्ञापन या अन्य अवांछित सामग्री होने की संभावना होती है। टेक्स्ट माइनिंग वित्तीय बाज़ार धारणा को निर्धारित करने में महत्वपूर्ण भूमिका निभाता है।
भविष्य
बहुभाषी डेटा माइनिंग में बढ़ती रुचि दी जा रही है: विभिन्न भाषाओं में जानकारी प्राप्त करने और विभिन्न भाषाई स्रोतों से समान वस्तुओं को उनके अर्थ के अनुसार क्लस्टर करने की क्षमता।
असंरचित रूप में उत्पन्न होने वाली उद्यम जानकारी के बड़े हिस्से का दोहन करने की चुनौती को दशकों से मान्यता दी गई है।[57] अक्टूबर 1958 में एच.पी. द्वारा आईबीएम जर्नल लेख में इसे बिजनेस इंटेलिजेंस (बीआई) की प्रारंभिक परिभाषा में मान्यता दी गई है। लुहान, एक बिजनेस इंटेलिजेंस सिस्टम, जो एक ऐसी प्रणाली का वर्णन करता है जो:
<ब्लॉककोट>
...दस्तावेज़ों के ऑटो-एब्स्ट्रक्शन और ऑटो-एन्कोडिंग के लिए और किसी संगठन में प्रत्येक 'एक्शन पॉइंट' के लिए रुचि प्रोफ़ाइल बनाने के लिए डेटा-प्रोसेसिंग मशीनों का उपयोग करें। आने वाले और आंतरिक रूप से तैयार किए गए दोनों दस्तावेज़ स्वचालित रूप से सारगर्भित होते हैं, एक शब्द पैटर्न द्वारा चित्रित होते हैं, और स्वचालित रूप से उचित कार्रवाई बिंदुओं पर भेजे जाते हैं।
</ब्लॉककोट>
फिर भी 1960 के दशक में प्रबंधन सूचना प्रणालियाँ विकसित हुईं, और 80 और 90 के दशक में बीआई एक सॉफ्टवेयर श्रेणी और अभ्यास के क्षेत्र के रूप में उभरा, रिलेशनल डेटाबेस में संग्रहीत संख्यात्मक डेटा पर जोर दिया गया। यह आश्चर्य की बात नहीं है: असंरचित दस्तावेज़ों में पाठ को संसाधित करना कठिन है। अपने वर्तमान स्वरूप में टेक्स्ट एनालिटिक्स का उद्भव 1990 के दशक के उत्तरार्ध में एल्गोरिदम विकास से लेकर अनुप्रयोग तक अनुसंधान पर फिर से ध्यान केंद्रित करने से हुआ, जैसा कि प्रो. मार्टी हर्स्ट|मार्टी ए. हर्स्ट ने पेपर अनटैंगलिंग टेक्स्ट डेटा माइनिंग में वर्णित किया है:[58] <ब्लॉककोट>लगभग एक दशक से कम्प्यूटेशनल भाषाविज्ञान समुदाय ने बड़े पाठ संग्रह को बेहतर पाठ विश्लेषण एल्गोरिदम तैयार करने के लिए उपयोग किए जाने वाले संसाधन के रूप में देखा है। इस पेपर में, मैंने एक नए जोर का सुझाव देने का प्रयास किया है: दुनिया के बारे में नए तथ्यों और रुझानों की खोज के लिए बड़े ऑनलाइन पाठ संग्रह का उपयोग। मेरा सुझाव है कि प्रगति करने के लिए हमें पूरी तरह से कृत्रिम बुद्धिमान पाठ विश्लेषण की आवश्यकता नहीं है; बल्कि, कम्प्यूटेशनल रूप से संचालित और उपयोगकर्ता-निर्देशित विश्लेषण का मिश्रण रोमांचक नए परिणामों का द्वार खोल सकता है। </ब्लॉककोट>
हर्स्ट का 1999 का आवश्यकता संबंधी बयान एक दशक बाद टेक्स्ट एनालिटिक्स तकनीक और अभ्यास की स्थिति का अच्छी तरह से वर्णन करता है।
यह भी देखें
- संकल्पना खनन
- दस्तावेज़ प्रसंस्करण
- पूरा पाठ खोजें
- अवधारणा खनन सॉफ्टवेयर की सूची
- बाजार की धारणा
- नाम समाधान (शब्दार्थ और पाठ निष्कर्षण)
- नामित इकाई मान्यता
- समाचार विश्लेषण
- ओन्टोलॉजी सीखना
- रिकॉर्ड लिंकेज
- अनुक्रमिक पैटर्न खनन (स्ट्रिंग और अनुक्रम खनन)
- डब्ल्यू-शिंगलिंग
- वेब माइनिंग, एक कार्य जिसमें टेक्स्ट माइनिंग शामिल हो सकती है (उदाहरण के लिए पहले क्रॉल किए गए वेब पेजों को वर्गीकृत करके उपयुक्त वेब पेज ढूंढें, फिर प्रासंगिक माने जाने वाले इन पेजों की टेक्स्ट सामग्री से वांछित जानकारी निकालें)
संदर्भ
उद्धरण
- ↑ Feldman, R. and Sanger, J. (2007). The text mining handbook. Cambridge University Press. New York
- ↑ [1] Archived November 29, 2009, at the Wayback Machine
- ↑ "KDD-2000 Workshop on Text Mining – Call for Papers". Cs.cmu.edu. Retrieved 2015-02-23.
- ↑ [2] Archived March 3, 2012, at the Wayback Machine
- ↑ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Natural language access to structured text". Proceedings of the 9th conference on Computational linguistics. Vol. 1. pp. 127–32. doi:10.3115/991813.991833. S2CID 6433117.
- ↑ "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis. August 2008. Retrieved 2015-02-23.
- ↑ Antunes, João (2018-11-14). Exploração de informações contextuais para enriquecimento semântico em representações de textos (Mestrado em Ciências de Computação e Matemática Computacional thesis) (in português). São Carlos: Universidade de São Paulo. doi:10.11606/d.55.2019.tde-03012019-103253.
- ↑ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (December 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transactions of the Association for Computational Linguistics. 2: 231–244. doi:10.1162/tacl_a_00179. ISSN 2307-387X.
- ↑ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (2017-02-06). "दस्तावेज़ क्लस्टरिंग और विज़ुअलाइज़ेशन के लिए स्थानीय पुनः सीखने के साथ एक नया विकसित वृक्ष-आधारित मॉडल". Neural Processing Letters. 46 (2): 379–409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
- ↑ Benchimol, Jonathan; Kazinnik, Sophia; Saadon, Yossi (2022). "Text mining methodologies with R: An application to central bank texts". Machine Learning with Applications. 8: 100286. doi:10.1016/j.mlwa.2022.100286. S2CID 243798160.
- ↑ Mehl, Matthias R. (2006). "Quantitative Text Analysis". मनोविज्ञान में बहुपद्धति माप की पुस्तिका. p. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
- ↑ Pang, Bo; Lee, Lillian (2008). "राय खनन और भावना विश्लेषण". Foundations and Trends in Information Retrieval. 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
- ↑ Paltoglou, Georgios; Thelwall, Mike (2012-09-01). "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media". ACM Transactions on Intelligent Systems and Technology. 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
- ↑ "Sentiment Analysis in Twitter < SemEval-2017 Task 4". alt.qcri.org. Retrieved 2018-10-02.
- ↑ Zanasi, Alessandro (2009). "Virtual Weapons for Real Wars: Text Mining for National Security". Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
- ↑ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (2015-12-09). "प्रोटीन डॉकिंग के लिए टेक्स्ट माइनिंग". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. ISSN 1553-7358. PMC 4674139. PMID 26650466.
- ↑ Cohen, K. Bretonnel; Hunter, Lawrence (2008). "टेक्स्ट माइनिंग में शुरुआत करना". PLOS Computational Biology. 4 (1): e20. Bibcode:2008PLSCB...4...20C. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.
- ↑ Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "प्रोटीन डॉकिंग के लिए टेक्स्ट माइनिंग". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
- ↑ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Protein–protein interaction predictions using text mining methods". Methods. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
- ↑ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (2016-10-18). "The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible". Nucleic Acids Research. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
- ↑ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (2018-10-01). "हृदय रोग में बाह्य कोशिकीय मैट्रिक्स प्रोटीन पैटर्न का विश्लेषण करने के लिए पाठ्य डेटा का वाक्यांश खनन". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
- ↑ Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 August 2018). "एक इनपेशेंट फोरेंसिक मनोचिकित्सा सेटिंग में इलेक्ट्रॉनिक मानसिक स्वास्थ्य रिकॉर्ड्स की प्राकृतिक भाषा प्रसंस्करण का उपयोग करके जोखिम की भविष्यवाणी।". Journal of Biomedical Informatics. 86: 49–58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
- ↑ Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). "जीन अभिव्यक्ति के उच्च-थ्रूपुट विश्लेषण के लिए मानव जीन का एक साहित्य नेटवर्क". Nature Genetics. 28 (1): 21–8. doi:10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
- ↑ Masys, Daniel R. (2001). "माइक्रोएरे डेटा को साहित्य से जोड़ना". Nature Genetics. 28 (1): 9–10. doi:10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
- ↑ Renganathan, Vinaitheerthan (2017). "दस्तावेज़ क्लस्टरिंग पर जोर के साथ बायोमेडिकल डोमेन में टेक्स्ट माइनिंग". Healthcare Informatics Research. 23 (3): 141–146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.
- ↑ [3] Archived October 4, 2013, at the Wayback Machine
- ↑ "पाठ विश्लेषण". Medallia. Retrieved 2015-02-23.
- ↑ 28.0 28.1 Coussement, Kristof; Van Den Poel, Dirk (2008). "मंथन पूर्वानुमान के लिए निर्णय समर्थन प्रणाली में कॉल सेंटर ईमेल के माध्यम से ग्राहकों की आवाज़ को एकीकृत करना". Information & Management. 45 (3): 164–74. CiteSeerX 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005.
- ↑ Coussement, Kristof; Van Den Poel, Dirk (2008). "भविष्यवक्ताओं के रूप में भाषाई शैली सुविधाओं का उपयोग करके स्वचालित ईमेल वर्गीकरण द्वारा ग्राहक शिकायत प्रबंधन में सुधार करना". Decision Support Systems. 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
- ↑ Ramiro H. Gálvez; Agustín Gravano (2017). "स्वचालित स्टॉक भविष्यवाणी प्रणालियों में ऑनलाइन संदेश बोर्ड खनन की उपयोगिता का आकलन करना". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
- ↑ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up?". Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol. 10. pp. 79–86. doi:10.3115/1118693.1118704. S2CID 7105713.
- ↑ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Developing Affective Lexical Resources" (PDF). PsychNology Journal. 2 (1): 61–83.
- ↑ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). "SenticNet: a Publicly Available Semantic Resource for Opinion Mining" (PDF). Proceedings of AAAI CSK. pp. 14–18.
- ↑ Calvo, Rafael A; d'Mello, Sidney (2010). "Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications". IEEE Transactions on Affective Computing. 1 (1): 18–37. doi:10.1109/T-AFFC.2010.1. S2CID 753606.
- ↑ "मैनचेस्टर विश्वविद्यालय". Manchester.ac.uk. Retrieved 2015-02-23.
- ↑ "त्सुजी अबोरा और रय". Tsujii.is.s.u-tokyo.ac.jp. Retrieved 2015-02-23.
- ↑ "टोक्यो विश्वविद्यालय". UTokyo. Retrieved 2015-02-23.
- ↑ Shen, Jiaming; Xiao, Jinfeng; He, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (2018-06-27). Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach. ACM. pp. 565–574. doi:10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID 13748283.
- ↑ Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (2017-02-06). "The beauty of brimstone butterfly: novelty of patents identified by near environment analysis based on text mining". Scientometrics. 111 (1): 103–115. doi:10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
- ↑ Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (2018-03-10). "बड़े टेक्स्ट कॉर्पोरा में समानार्थी शब्दों को सुलझाने के लिए मशीन लर्निंग का उपयोग करना". Conservation Biology. 32 (3): 716–724. doi:10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
- ↑ 41.0 41.1 Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
- ↑ Network analysis of narrative content in large corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
- ↑ Quantitative Narrative Analysis; Roberto Franzosi; Emory University © 2010
- ↑ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Team, FindMyPast Newspaper; Cristianini, Nello (2017-01-09). "Content analysis of 150 years of British periodicals". Proceedings of the National Academy of Sciences. 114 (4): E457–E465. Bibcode:2017PNAS..114E.457L. doi:10.1073/pnas.1606380114. ISSN 0027-8424. PMC 5278459. PMID 28069962.
- ↑ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, The Structure of EU Mediasphere, PLoS ONE, Vol. 5(12), pp. e14243, 2010.
- ↑ Nowcasting Events from the Social Web with Statistical Learning V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
- ↑ NOAM: news outlets analysis and monitoring system; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. of the 2011 ACM SIGMOD international conference on Management of data
- ↑ Automatic discovery of patterns in media content, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
- ↑ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, RESEARCH METHODS IN THE AGE OF DIGITAL JOURNALISM, Digital Journalism, Routledge, 2012
- ↑ Circadian Mood Variations in Twitter Content; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.
- ↑ Effects of the Recession on Public Mood in the UK; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) session on Social Media Applications
- ↑ Researchers given data mining right under new UK copyright laws Archived June 9, 2014, at the Wayback Machine
- ↑ "Licences for Europe – Structured Stakeholder Dialogue 2013". European Commission. Retrieved 14 November 2014.
- ↑ "Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. 2013-04-25. Retrieved 14 November 2014.
- ↑ "Judge grants summary judgment in favor of Google Books — a fair use victory". Lexology. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.
- ↑ "टेक्स्ट और डेटा माइनिंग". Australian Law Reform Commission. 4 June 2013. Retrieved 10 February 2023.
- ↑ "सेठ ग्रिम्स द्वारा टेक्स्ट एनालिटिक्स का एक संक्षिप्त इतिहास". Beyenetwork. 2007-10-30. Retrieved 2015-02-23.
- ↑ Hearst, Marti A. (1999). "Untangling text data mining". Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. pp. 3–10. doi:10.3115/1034678.1034679. ISBN 978-1-55860-609-8. S2CID 2340683.
स्रोत
- अनानियाडौ, एस. और मैकनॉट, जे. (संपादक) (2006)। जीव विज्ञान और बायोमेडिसिन के लिए टेक्स्ट माइनिंग। आर्टेक हाउस बुक्स। ISBN 978-1-58053-984-5
- बिलिसोली, आर. (2008). पर्ल के साथ प्रैक्टिकल टेक्स्ट माइनिंग। न्यूयॉर्क: जॉन विली एंड संस। ISBN 978-0-470-17643-6
- फेल्डमैन, आर., और सेंगर, जे. (2006)। टेक्स्ट माइनिंग हैंडबुक। न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस. ISBN 978-0-521-83657-9
- होथो, ए., नूर्नबर्गर, ए. और पास, जी. (2005)। टेक्स्ट माइनिंग का एक संक्षिप्त सर्वेक्षण। एलडीवी फोरम में, वॉल्यूम। 20(1), पृ. 19-62
- इंदुर्ख्या, एन., और डेमेरौ, एफ. (2010)। प्राकृतिक भाषा प्रसंस्करण की पुस्तिका, दूसरा संस्करण। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-8592-1
- काओ, ए., और पोटेट, एस. (संपादक)। प्राकृतिक भाषा प्रसंस्करण और पाठ खनन। स्प्रिंगर. ISBN 1-84628-175-X
- कोंचडी, एम. टेक्स्ट माइनिंग एप्लीकेशन प्रोग्रामिंग (प्रोग्रामिंग सीरीज)। चार्ल्स रिवर मीडिया। ISBN 1-58450-460-9
- मैनिंग, सी., और शुट्ज़, एच. (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। कैम्ब्रिज, एमए: एमआईटी प्रेस। ISBN 978-0-262-13360-9
- माइनर, जी., एल्डर, जे., हिल। टी, निस्बेट, आर., डेलेन, डी. और फास्ट, ए. (2012)। गैर-संरचित पाठ डेटा अनुप्रयोगों के लिए व्यावहारिक पाठ खनन और सांख्यिकीय विश्लेषण। एल्सेवियर अकादमिक प्रेस। ISBN 978-0-12-386979-1
- मैकनाइट, डब्ल्यू. (2005). बिजनेस इंटेलिजेंस का निर्माण: बिजनेस इंटेलिजेंस में टेक्स्ट डेटा माइनिंग। डीएम समीक्षा, 21-22.
- श्रीवास्तव, ए., और सहामी। एम. (2009). टेक्स्ट माइनिंग: वर्गीकरण, क्लस्टरिंग और अनुप्रयोग। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-5940-3
- ज़ानासी, ए. (संपादक) (2007)। टेक्स्ट माइनिंग और इंटेलिजेंस, सीआरएम और नॉलेज मैनेजमेंट में इसके अनुप्रयोग। WIT प्रेस. ISBN 978-1-84564-131-3