असंरचित डेटा: Difference between revisions
No edit summary |
(TEXT) |
||
| Line 8: | Line 8: | ||
== पृष्ठभूमि == | == पृष्ठभूमि == | ||
[[ व्यापारिक सूचना |व्यापारिक सूचना]] में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। <ref name="History">{{cite web|last1=Grimes|first1=Seth|title=टेक्स्ट एनालिटिक्स का संक्षिप्त इतिहास|url=http://www.b-eye-network.com/view/6311|website=B Eye Network|access-date=June 24, 2016}}</ref> 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे [[कंप्यूटर विज्ञान]] शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे।<ref name="History" /> हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, [[एसएएस संस्थान]] ने [[एसएएस (सॉफ्टवेयर)]] टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए [[ आयामी विश्लेषण |आयामी विश्लेषण]] हाइपर- | [[ व्यापारिक सूचना |व्यापारिक सूचना]] में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। <ref name="History">{{cite web|last1=Grimes|first1=Seth|title=टेक्स्ट एनालिटिक्स का संक्षिप्त इतिहास|url=http://www.b-eye-network.com/view/6311|website=B Eye Network|access-date=June 24, 2016}}</ref> 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे [[कंप्यूटर विज्ञान]] शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे।<ref name="History" /> हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, [[एसएएस संस्थान]] ने [[एसएएस (सॉफ्टवेयर)]] टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए [[ आयामी विश्लेषण |आयामी विश्लेषण]] हाइपर-डायमेंशनल टेक्स्टुअल स्पेस (गणित) को छोटे आयामों में कम करने के लिए [[विलक्षण मान अपघटन]] (एसवीडी) का उपयोग करता है। <ref name="SVD">{{cite web|last1=Albright|first1=Russ|title=एसवीडी के साथ पाठ को नियंत्रित करना|url=http://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf|archive-url=https://web.archive.org/web/20160930182157/http://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf|url-status=dead|archive-date=2016-09-30|website=SAS|access-date=June 24, 2016}}</ref> [[ यंत्र अधिगम |यंत्र अधिगम]] टेक्स्ट विश्लेषण से उत्पन्न गणितीय और तकनीकी प्रगति ने कई व्यवसायों को अनुप्रयोगों पर शोध करने के लिए प्रेरित किया, जिससे भावना विश्लेषण, [[ग्राहक की आवाज|VOC]] खनन और कॉल सेंटर अनुकूलन जैसे क्षेत्रों का विकास हुआ। <ref name="Applications">{{cite web|last1=Desai|first1=Manish|title=टेक्स्ट एनालिटिक्स के अनुप्रयोग|url=http://mybusinessanalytics.blogspot.com/2009/08/applications-of-text-analytics.html|website=My Business Analytics @ Blogspot|access-date=June 24, 2016|date=2009-08-09}}</ref> 2000 के दशक के उत्तरार्ध में [[बड़ा डेटा|बिग डाटा]] के उद्भव के कारण भविष्य कहने वाला विश्लेषण और [[मूल कारण विश्लेषण]] जैसे समकालीन क्षेत्रों में असंरचित डेटा विश्लेषण के अनुप्रयोगों में रुचि बढ़ गई। <ref>{{cite web|last1=Chakraborty|first1=Goutam|title=Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining|url=https://support.sas.com/resources/papers/proceedings14/1288-2014.pdf|website=SAS|access-date=June 24, 2016}}</ref> | ||
== शब्दावली के | == शब्दावली के विषय == | ||
यह शब्द कई कारणों से सटीक नहीं है: | यह शब्द कई कारणों से सटीक नहीं है: | ||
#[[संरचना]], हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है। | #[[संरचना]], हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है। | ||
# किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना | # किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना उपस्थिता प्रसंस्करण कार्य के लिए सहायक नहीं है। | ||
# असंरचित जानकारी में कुछ संरचना ([[अर्ध-संरचित डेटा]] | # असंरचित जानकारी में कुछ संरचना ([[अर्ध-संरचित डेटा]]) हो सकती है या अत्यधिक संरचित भी हो सकती है, लेकिन अप्रत्याशित या अघोषित तरीके से हो सकती है। | ||
== असंरचित डेटा से निपटना == | == असंरचित डेटा से निपटना == | ||
[[डेटा खनन]], [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी), और [[ पाठ विश्लेषण ]] जैसी तकनीकें इस जानकारी में | [[डेटा खनन]], [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी), और [[ पाठ विश्लेषण |पाठ विश्लेषण]] जैसी तकनीकें इस जानकारी में प्रतिरूप पहचानने या अन्यथा व्याख्या करने के लिए अलग-अलग तरीके प्रदान करती हैं। टेक्स्ट को संरचित करने की सामान्य तकनीकों में सामान्यतः आगे के [[ टेक्स्ट खनन |टेक्स्ट माइनिंग]]-आधारित संरचना के लिए मैन्युअल टैग (मेटाडेटा) या [[भाषण का भाग टैगिंग|पार्ट-ऑफ़-स्पीच टैगिंग]] सम्मिलित होती है। यूआईएमए (यूआईएमए) मानक ने अर्थ निकालने और जानकारी के बारे में संरचित डेटा बनाने के लिए इस जानकारी को संसाधित करने के लिए एक सामान्य ढांचा प्रदान किया है। <ref name = "IBMContentAnalytics">{{cite book |first1=Andreas |last1=Holzinger |first2=Christof |last2=Stocker |first3=Bernhard |last3=Ofner |first4=Gottfried |last4=Prohaska |first5=Alberto |last5=Brabenetz |first6=Rainer |last6=Hofmann-Wellenhof |year=2013 |chapter=Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field |doi=10.1007/978-3-642-39146-0_2 |pages=13–24 |editor1-first=Andreas |editor1-last=Holzinger |editor2-first=Gabriella |editor2-last=Pasi |title=जटिल, असंरचित, बड़े डेटा में मानव-कंप्यूटर इंटरैक्शन और ज्ञान की खोज|series=Lecture Notes in Computer Science |publisher=Springer |isbn=978-3-642-39146-0|s2cid=39461100 |chapter-url=https://semanticscholar.org/paper/6a81bb782a68c72ec26e79463cd2aec1d0cd917c }}</ref> | ||
चूंकि असंरचित डेटा | सॉफ्टवेयर जो मशीन-प्रक्रिया योग्य संरचना बनाता है, वह भाषाई, श्रवण और दृश्य संरचना का उपयोग कर सकता है जो मानव संचार के सभी रूपों में उपस्थित है। <ref name="IntelligentEnterprise">{{cite web |title=Structure, Models and Meaning: Is "unstructured" data merely unmodeled? |url=http://www.intelligententerprise.com/showArticle.jhtml?articleID=59301538 |website=InformationWeek |language=en |date=March 1, 2005}}</ref> कलन विधि पाठ से इस अंतर्निहित संरचना का अनुमान लगा सकते हैं, उदाहरण के लिए, शब्द आकृति विज्ञान (भाषाविज्ञान), वाक्य वाक्यविन्यास और अन्य छोटे और बड़े मापक्रम के प्रतिरूप की जांच करके अनुमान लगा सकते हैं। फिर असंरचित जानकारी को समृद्ध किया जा सकता है और अस्पष्टताओं और प्रासंगिकता-आधारित तकनीकों को संबोधित करने के लिए टैग किया जा सकता है और फिर खोज को सुविधाजनक बनाने के लिए उपयोग किया जा सकता है। असंरचित डेटा के उदाहरणों में किताबें, जर्नल, डॉक्यूमेंट, [[ मेटा डेटा |मेटा डेटा]], [[स्वास्थ्य रिकॉर्ड]], ध्वनि, [[वीडियो]], [[एनालॉग डिवाइस]], छवियां, फ़ाइलें और असंरचित पाठ जैसे [[ ईमेल |ईमेल]] संदेश का मुख्य भाग, [[ वेब पृष्ठ |वेब पृष्ठ]] या [[ शब्द संसाधक |शब्द संसाधक]] डॉक्यूमेंट सम्मिलित हो सकते हैं। हालाँकि संप्रेषित की जाने वाली मुख्य विषय सूची में कोई परिभाषित संरचना नहीं होती है, यह सामान्यतः वस्तुओं में संविष्ट की जाती है (उदाहरण के लिए फ़ाइलों या दस्तावेजों में, ...) जिनकी स्वयं संरचना होती है और इस प्रकार संरचित और असंरचित डेटा का मिश्रण होता है, लेकिन सामूहिक रूप से यह अभी भी है असंरचित डेटा के रूप में जाना जाता है। <ref>{{cite web |last1=Malone |first1=Robert |title=असंरचित डेटा की संरचना करना|url=https://www.forbes.com/2007/04/04/teradata-solution-software-biz-logistics-cx_rm_0405data.html |website=Forbes |language=en |date=April 5, 2007}}</ref> उदाहरण के लिए, एक एचटीएमएल वेब पेज टैग किया गया है, लेकिन एचटीएमएल मार्क-अप सामान्यतः केवल रेंडरिंग के लिए काम करता है। यह टैग किए गए तत्वों के अर्थ या कार्य को उन तरीकों से कैप्चर नहीं करता है जो पृष्ठ की सूचना विषय सूची के स्वचालित प्रसंस्करण का समर्थन करते हैं। एक्स[[एचटीएमएल]] टैगिंग तत्वों की मशीन प्रसंस्करण की अनुमति देती है, हालांकि यह सामान्यतः टैग किए गए शब्दों के अर्थपूर्ण अर्थ को कैप्चर या व्यक्त नहीं करती है। | ||
चूंकि असंरचित डेटा सामान्यतः [[इलेक्ट्रॉनिक दस्तावेज़|इलेक्ट्रॉनिक]] डॉक्यूमेंट में होता है, इसलिए [[सामग्री प्रबंधन|विषय सूची प्रबंधन]] या [[दस्तावेज़ प्रबंधन|डॉक्यूमेंट प्रबंधन]] प्रणाली का उपयोग जो संपूर्ण डॉक्यूमेंट को वर्गीकृत कर सकता है, प्रायः डॉक्यूमेंट के भीतर से डेटा स्थानांतरण और हेरफेर की तुलना में पसंद किया जाता है। डॉक्यूमेंट प्रबंधन इस प्रकार संरचना को [[पाठ कोष]] पर संप्रेषित करने का साधन प्रदान करता है। | |||
[[खोज इंजन]] ऐसे डेटा, विशेषकर पाठ को अनुक्रमित करने और खोजने के लिए लोकप्रिय उपकरण बन गए हैं। | [[खोज इंजन]] ऐसे डेटा, विशेषकर पाठ को अनुक्रमित करने और खोजने के लिए लोकप्रिय उपकरण बन गए हैं। | ||
=== प्राकृतिक भाषा प्रसंस्करण में दृष्टिकोण === | === प्राकृतिक भाषा प्रसंस्करण में दृष्टिकोण === | ||
पाठ डॉक्यूमेंट में | पाठ डॉक्यूमेंट में उपस्थित असंरचित डेटा पर संरचना थोपने के लिए विशिष्ट कम्प्यूटेशनल वर्कफ़्लो विकसित किए गए हैं। ये वर्कफ़्लो सामान्यतः हजारों या लाखों डॉक्यूमेंट के सम्मुच्चय को संभालने के लिए अभिकल्पित किए जाते हैं, या टिप्पणी के लिए मैन्युअल दृष्टिकोण की अनुमति से कहीं अधिक हो सकता है। इनमें से कई दृष्टिकोण ऑनलाइन विश्लेषणात्मक प्रसंस्करण, या ओएलएपी की अवधारणा पर आधारित हैं, और टेक्स्ट क्यूब्स जैसे डेटा प्रतिरूप द्वारा समर्थित हो सकते हैं। <ref>{{Cite book|last1=Lin|first1=Cindy Xide|last2=Ding|first2=Bolin|last3=Han|first3=Jiawei|last4=Zhu|first4=Feida|last5=Zhao|first5=Bo|date=December 2008|title=Text Cube: Computing IR Measures for Multidimensional Text Database Analysis|journal=2008 Eighth IEEE International Conference on Data Mining|language=en-US|publisher=IEEE|doi=10.1109/icdm.2008.135|isbn=9780769535029|citeseerx=10.1.1.215.3177|s2cid=1522480}}</ref> एक बार जब डॉक्यूमेंट मेटाडेटा डेटा प्रतिरूप के माध्यम से उपलब्ध हो जाता है, तो डॉक्यूमेंट के उपसम्मुच्चय (यानी, टेक्स्ट क्यूब के भीतर कोशिकाएं) का सारांश उत्पन्न करना वाक्यांश-आधारित दृष्टिकोण के साथ किया जा सकता है। <ref name = "textcubes">{{cite web |title=टेक्स्ट क्यूब्स में बहु-आयामी, वाक्यांश-आधारित सारांश|url=http://sites.computer.org/debull/A16sept/p74.pdf |last1=Tao|first1=Fangbo | last2=Zhuang|first2=Honglei | last3=Yu|first3=Chi Wang| first4=Qi|last4=Wang | first5=Taylor|last5=Cassidy | first6=Lance|last6=Kaplan | first7=Clare|last7=Voss| last8=Han | first8=Jiawei | date=2016}}</ref> | ||
=== चिकित्सा और | === चिकित्सा और जैव चिकित्सा अनुसंधान में दृष्टिकोण === | ||
जैव चिकित्सा अनुसंधान असंरचित डेटा का एक प्रमुख स्रोत उत्पन्न करता है क्योंकि शोधकर्ता प्रायः विद्वान पत्रिकाओं में अपने निष्कर्ष प्रकाशित करते हैं। यद्यपि इन दस्तावेजों में भाषा से संरचनात्मक तत्वों को प्राप्त करना चुनौतीपूर्ण है (उदाहरण के लिए, इसमें उपस्थित जटिल तकनीकी शब्दावली और टिप्पणियों को पूरी तरह से प्रासंगिक बनाने के लिए आवश्यक कार्यछेत्र ज्ञान के कारण), इन गतिविधियों के परिणाम तकनीकी और चिकित्सा अध्ययनों के बीच संबंध और नए रोग उपचारों के संबंध में प्रमाण उत्पन्न कर सकते हैं। <ref>{{Cite journal|last1=Collier|first1=Nigel|last2=Nazarenko|first2=Adeline|last3=Baud|first3=Robert|last4=Ruch|first4=Patrick|date=June 2006|title=बायोमेडिकल अनुप्रयोगों के लिए प्राकृतिक भाषा प्रसंस्करण में हालिया प्रगति|journal=International Journal of Medical Informatics|volume=75|issue=6|pages=413–417|doi=10.1016/j.ijmedinf.2005.06.008|issn=1386-5056|pmid=16139564|s2cid=31449783 }}</ref> <ref>{{Cite journal|last1=Gonzalez|first1=Graciela H.|last2=Tahsin|first2=Tasnia|last3=Goodale|first3=Britton C.|last4=Greene|first4=Anna C.|last5=Greene|first5=Casey S.|date=January 2016|title=बायोमेडिकल डिस्कवरी के लिए टेक्स्ट और डेटा माइनिंग में हालिया प्रगति और उभरते अनुप्रयोग|journal=Briefings in Bioinformatics|volume=17|issue=1|pages=33–42|doi=10.1093/bib/bbv087|issn=1477-4054|pmc=4719073|pmid=26420781}}</ref> जैव चिकित्सा डॉक्यूमेंट पर संरचना लागू करने के हालिया प्रयासों में डॉक्यूमेंट के बीच विषयों की पहचान करने के लिए [[स्व-संगठित मानचित्र]] दृष्टिकोण सम्मिलित हैं, <ref>{{Cite journal|last1=Skupin|first1=André|last2=Biberstine|first2=Joseph R.|last3=Börner|first3=Katy|date=2013|title=Visualizing the topical structure of the medical sciences: a self-organizing map approach|journal=PLOS ONE|volume=8|issue=3|pages=e58779|doi=10.1371/journal.pone.0058779|issn=1932-6203|pmc=3595294|pmid=23554924|bibcode=2013PLoSO...858779S|doi-access=free}}</ref> सामान्य प्रयोजन अप्रशिक्षित शिक्षा, <ref>{{Cite journal|last1=Kiela|first1=Douwe|last2=Guo|first2=Yufan|last3=Stenius|first3=Ulla|last4=Korhonen|first4=Anna|date=2015-04-01|title=बायोमेडिकल दस्तावेज़ों में सूचना संरचना की अनियंत्रित खोज|journal=Bioinformatics|volume=31|issue=7|pages=1084–1092|doi=10.1093/bioinformatics/btu758|issn=1367-4811|pmid=25411329|doi-access=free}}</ref> और साहित्य में प्रोटीन नामों और हृदय रोग विषयों के बीच संबंध निर्धारित करने के लिए केसओएलएपी वर्कफ़्लो का एक अनुप्रयोग है।<ref name = "textcubes" /> <ref name="caseolapCV">{{Cite journal|last1=Liem|first1=David A.|last2=Murali|first2=Sanjana|last3=Sigdel|first3=Dibakar|last4=Shi|first4=Yu|last5=Wang|first5=Xuan|last6=Shen|first6=Jiaming|last7=Choi|first7=Howard|last8=Caufield|first8=John H.|last9=Wang|first9=Wei|last10=Ping|first10=Peipei|last11=Han|first11=Jiawei|date=Oct 1, 2018|title=हृदय रोग में बाह्य कोशिकीय मैट्रिक्स प्रोटीन पैटर्न का विश्लेषण करने के लिए पाठ्य डेटा का वाक्यांश खनन|journal=American Journal of Physiology. Heart and Circulatory Physiology|volume=315|issue=4|pages=H910–H924|doi=10.1152/ajpheart.00175.2018|issn=1522-1539|pmid=29775406|pmc=6230912}}</ref> केसओएलएपी वाक्यांश-श्रेणी संबंधों को सटीक (रिश्तों की पहचान करता है), सुसंगत (अत्यधिक प्रतिलिपि प्रस्तुत करने योग्य) और कुशल तरीके से परिभाषित करता है। यह प्लेटफ़ॉर्म उन्नत पहुंच प्रदान करता है और व्यापक जैव चिकित्सा अनुसंधान अनुप्रयोगों के लिए वाक्यांश-खनन उपकरणों के साथ जैव चिकित्सा समुदाय को सशक्त बनाता है। <ref name="caseolapCV" /> | |||
== डेटा गोपनीयता नियमों में असंरचित का उपयोग == | == डेटा गोपनीयता नियमों में असंरचित का उपयोग == | ||
स्वीडन (ईयू) में, 2018 से पहले, कुछ डेटा गोपनीयता नियम लागू नहीं होते थे यदि प्रश्न में डेटा को असंरचित के रूप में पुष्टि की गई थी।<ref>{{Cite web|url=https://sverigeskommunikatorer.se/kunskap/nyheter/gdpr-del-3--missbruksregeln-upphor-vad-innebar-det-for-kommunikatoren/#:~:text=Vad%20inneb%C3%A4r%20Missbruksregeln%3F,men%20%C3%A4ven%20publicering%20av%20bilder|title=Swedish data privacy regulations discontinue separation of "unstructured" and "structured"}}</ref> यह शब्दावली, असंरचित डेटा, 2018 में [[जीडीपीआर]] लागू होने के बाद यूरोपीय संघ में | स्वीडन (ईयू) में, 2018 से पहले, कुछ डेटा गोपनीयता नियम लागू नहीं होते थे यदि प्रश्न में डेटा को असंरचित के रूप में पुष्टि की गई थी। <ref>{{Cite web|url=https://sverigeskommunikatorer.se/kunskap/nyheter/gdpr-del-3--missbruksregeln-upphor-vad-innebar-det-for-kommunikatoren/#:~:text=Vad%20inneb%C3%A4r%20Missbruksregeln%3F,men%20%C3%A4ven%20publicering%20av%20bilder|title=Swedish data privacy regulations discontinue separation of "unstructured" and "structured"}}</ref> यह शब्दावली, असंरचित डेटा, 2018 में [[जीडीपीआर]] लागू होने के बाद यूरोपीय संघ में संभवतः ही कभी उपयोग की जाती है। जीडीपीआर असंरचित डेटा का न तो उल्लेख करता है और न ही उसे परिभाषित करता है। यह संरचित शब्द का उपयोग इस प्रकार करता है (इसे परिभाषित किए बिना); | ||
* जीडीपीआर रिसिटल 15 के भाग, प्राकृतिक व्यक्तियों की सुरक्षा व्यक्तिगत डेटा के प्रसंस्करण पर लागू होनी चाहिए ... यदि ... एक फाइलिंग सिस्टम में निहित है। | * जीडीपीआर रिसिटल 15 के भाग, प्राकृतिक व्यक्तियों की सुरक्षा व्यक्तिगत डेटा के प्रसंस्करण पर लागू होनी चाहिए ... यदि ... एक फाइलिंग सिस्टम में निहित है। | ||
* जीडीपीआर अनुच्छेद 4, 'फाइलिंग सिस्टम' का अर्थ व्यक्तिगत डेटा का कोई भी संरचित | * जीडीपीआर अनुच्छेद 4, 'फाइलिंग सिस्टम' का अर्थ व्यक्तिगत डेटा का कोई भी संरचित सम्मुच्चय है जो विशिष्ट मानदंडों के अनुसार पहुंच योग्य है ... | ||
फाइलिंग सिस्टम को क्या परिभाषित करता है उस पर जीडीपीआर केस-कानून; विशिष्ट मानदंड और विशिष्ट रूप जिसमें उपदेश देने वाले प्रत्येक सदस्य द्वारा एकत्र किए गए व्यक्तिगत डेटा का | फाइलिंग सिस्टम को क्या परिभाषित करता है उस पर जीडीपीआर केस-कानून; विशिष्ट मानदंड और विशिष्ट रूप जिसमें उपदेश देने वाले प्रत्येक सदस्य द्वारा एकत्र किए गए व्यक्तिगत डेटा का सम्मुच्चय वास्तव में संरचित है, अप्रासंगिक है, जब तक कि डेटा का वह सम्मुच्चय किसी विशिष्ट व्यक्ति से संबंधित डेटा के लिए इसे संभव बनाता है जिसके पास है आसानी से पुनर्प्राप्त करने के लिए संपर्क किया गया है, हालांकि मुख्य कार्यवाही में मामले की सभी परिस्थितियों के आलोक में यह पता लगाना संबंधित अदालत का काम है।'' (कोर्ट_ऑफ_जस्टिस_ऑफ_द_यूरोपियन_यूनियन, [https://curia.europa.eu/juris/document/document.jsf?docid=203822&doclang=EN|जेहोवन टोडिस्टाजट बनाम टिएटोसुओजावल्टुटेट्टू, जेहोवन, पैराग्राफ 61])। | ||
यदि व्यक्तिगत डेटा आसानी से पुनर्प्राप्त किया जाता है - तो यह एक फाइलिंग सिस्टम है और - फिर यह संरचित या असंरचित होने की परवाह किए बिना जीडीपीआर के दायरे में है। आज अधिकांश इलेक्ट्रॉनिक सिस्टम, एक्सेस और एप्लाइड सॉफ़्टवेयर के अधीन, डेटा की आसान पुनर्प्राप्ति की अनुमति दे सकते हैं। | यदि व्यक्तिगत डेटा आसानी से पुनर्प्राप्त किया जाता है - तो यह एक फाइलिंग सिस्टम है और - फिर यह संरचित या असंरचित होने की परवाह किए बिना जीडीपीआर के दायरे में है। आज अधिकांश इलेक्ट्रॉनिक सिस्टम, एक्सेस और एप्लाइड सॉफ़्टवेयर के अधीन, डेटा की आसान पुनर्प्राप्ति की अनुमति दे सकते हैं। | ||
| Line 44: | Line 45: | ||
== यह भी देखें == | == यह भी देखें == | ||
*[[क्लस्टर विश्लेषण]] | *[[क्लस्टर विश्लेषण]] | ||
* | *प्रतिरूप मान्यता | ||
*[[टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची]] | *[[टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची]] | ||
*अर्ध-[[संरचित डेटा]] | *अर्ध-[[संरचित डेटा]] | ||
Revision as of 04:56, 13 July 2023
असंरचित डेटा (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित डेटा प्रतिरूप नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और अस्पष्टताएं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में एनोटेट (शब्दार्थतः चिन्हित) में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।
1998 में, मेरिल लिंच ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। [1] यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। [2] अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है। [3][4][5]
As of 2012[update], अंतर्राष्ट्रीय डेटा निगम और डेल ईएमसी का अनुमान है कि 2020 तक डेटा 40 ज़ेटाबाइट्स तक बढ़ जाएगा, जिसके परिणामस्वरूप 2010 के प्रारम्भ से 50 गुना वृद्धि होगी। [6] अभी हाल ही में, आईडीसी और सीगेट प्रौद्योगिकी ने भविष्यवाणी की है कि वैश्विक डेटास्फेयर 2025 तक 163 ज़ेटाबाइट्स तक बढ़ जाएगा [7] और उसका अधिकांश भाग असंरचित होगा। कंप्यूटर वर्ल्ड मैगज़ीन का कहना है कि असंरचित जानकारी संगठनों के सभी डेटा का 70-80% से अधिक हो सकती है। [1]
पृष्ठभूमि
व्यापारिक सूचना में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। [8] 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे कंप्यूटर विज्ञान शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे।[8] हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, एसएएस संस्थान ने एसएएस (सॉफ्टवेयर) टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए आयामी विश्लेषण हाइपर-डायमेंशनल टेक्स्टुअल स्पेस (गणित) को छोटे आयामों में कम करने के लिए विलक्षण मान अपघटन (एसवीडी) का उपयोग करता है। [9] यंत्र अधिगम टेक्स्ट विश्लेषण से उत्पन्न गणितीय और तकनीकी प्रगति ने कई व्यवसायों को अनुप्रयोगों पर शोध करने के लिए प्रेरित किया, जिससे भावना विश्लेषण, VOC खनन और कॉल सेंटर अनुकूलन जैसे क्षेत्रों का विकास हुआ। [10] 2000 के दशक के उत्तरार्ध में बिग डाटा के उद्भव के कारण भविष्य कहने वाला विश्लेषण और मूल कारण विश्लेषण जैसे समकालीन क्षेत्रों में असंरचित डेटा विश्लेषण के अनुप्रयोगों में रुचि बढ़ गई। [11]
शब्दावली के विषय
यह शब्द कई कारणों से सटीक नहीं है:
- संरचना, हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है।
- किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना उपस्थिता प्रसंस्करण कार्य के लिए सहायक नहीं है।
- असंरचित जानकारी में कुछ संरचना (अर्ध-संरचित डेटा) हो सकती है या अत्यधिक संरचित भी हो सकती है, लेकिन अप्रत्याशित या अघोषित तरीके से हो सकती है।
असंरचित डेटा से निपटना
डेटा खनन, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), और पाठ विश्लेषण जैसी तकनीकें इस जानकारी में प्रतिरूप पहचानने या अन्यथा व्याख्या करने के लिए अलग-अलग तरीके प्रदान करती हैं। टेक्स्ट को संरचित करने की सामान्य तकनीकों में सामान्यतः आगे के टेक्स्ट माइनिंग-आधारित संरचना के लिए मैन्युअल टैग (मेटाडेटा) या पार्ट-ऑफ़-स्पीच टैगिंग सम्मिलित होती है। यूआईएमए (यूआईएमए) मानक ने अर्थ निकालने और जानकारी के बारे में संरचित डेटा बनाने के लिए इस जानकारी को संसाधित करने के लिए एक सामान्य ढांचा प्रदान किया है। [12]
सॉफ्टवेयर जो मशीन-प्रक्रिया योग्य संरचना बनाता है, वह भाषाई, श्रवण और दृश्य संरचना का उपयोग कर सकता है जो मानव संचार के सभी रूपों में उपस्थित है। [13] कलन विधि पाठ से इस अंतर्निहित संरचना का अनुमान लगा सकते हैं, उदाहरण के लिए, शब्द आकृति विज्ञान (भाषाविज्ञान), वाक्य वाक्यविन्यास और अन्य छोटे और बड़े मापक्रम के प्रतिरूप की जांच करके अनुमान लगा सकते हैं। फिर असंरचित जानकारी को समृद्ध किया जा सकता है और अस्पष्टताओं और प्रासंगिकता-आधारित तकनीकों को संबोधित करने के लिए टैग किया जा सकता है और फिर खोज को सुविधाजनक बनाने के लिए उपयोग किया जा सकता है। असंरचित डेटा के उदाहरणों में किताबें, जर्नल, डॉक्यूमेंट, मेटा डेटा, स्वास्थ्य रिकॉर्ड, ध्वनि, वीडियो, एनालॉग डिवाइस, छवियां, फ़ाइलें और असंरचित पाठ जैसे ईमेल संदेश का मुख्य भाग, वेब पृष्ठ या शब्द संसाधक डॉक्यूमेंट सम्मिलित हो सकते हैं। हालाँकि संप्रेषित की जाने वाली मुख्य विषय सूची में कोई परिभाषित संरचना नहीं हो