असंरचित डेटा: Difference between revisions

From Vigyanwiki
(TEXT)
No edit summary
 
(3 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Information without a formal data model}}
{{short description|Information without a formal data model}}
असंरचित डेटा (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित [[डेटा मॉडल|डेटा प्रतिरूप]] नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और [[अस्पष्टता]]एं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में[[ टिप्पणी | एनोटेट]] ([[टैग (मेटाडेटा)|शब्दार्थतः चिन्हित)]] में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।
'''असंरचित डेटा''' (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित [[डेटा मॉडल|डेटा प्रतिरूप]] नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और [[अस्पष्टता]]एं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में[[ टिप्पणी | एनोटेट]] ([[टैग (मेटाडेटा)|शब्दार्थतः चिन्हित)]] में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।


1998 में, [[मेरिल लिंच]] ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। <ref>{{cite web |last1=Shilakes |first1=Christopher C. |last2=Tylman |first2=Julie |title=उद्यम सूचना पोर्टल|url=http://ikt.hia.no/perep/eip_ind.pdf |archive-url=https://web.archive.org/web/20110724175845/http://ikt.hia.no/perep/eip_ind.pdf |url-status=dead |archive-date=24 July 2011 |website=Merrill Lynch |date=16 Nov 1998}}</ref> यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। <ref name="Clarabridge">{{cite web |last1=Grimes |first1=Seth |title=Unstructured Data and the 80 Percent Rule |url=http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule |website=Breakthrough Analysis - Bridgepoints |publisher=Clarabridge |date=1 August 2008}}</ref> अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है। <ref>{{Cite journal|last1=Gandomi|first1=Amir|last2=Haider|first2=Murtaza|date=April 2015|title=Beyond the hype: Big data concepts, methods, and analytics|journal=International Journal of Information Management|volume=35|issue=2|pages=137–144|doi=10.1016/j.ijinfomgt.2014.10.007|issn=0268-4012|doi-access=free}}</ref><ref>{{Cite news|url=https://www.ibm.com/blogs/watson/2016/05/biggest-data-challenges-might-not-even-know/|title=सबसे बड़ी डेटा चुनौतियाँ जिनके बारे में आपको शायद पता भी न हो - वॉटसन|date=2016-05-25|work=Watson|access-date=2018-10-02|language=en-US}}</ref><ref>{{Cite web|url=https://www.datamation.com/big-data/structured-vs-unstructured-data.html|title=संरचित बनाम असंरचित डेटा|website=www.datamation.com|language=en|access-date=2018-10-02}}</ref>
1998 में, [[मेरिल लिंच]] ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। <ref>{{cite web |last1=Shilakes |first1=Christopher C. |last2=Tylman |first2=Julie |title=उद्यम सूचना पोर्टल|url=http://ikt.hia.no/perep/eip_ind.pdf |archive-url=https://web.archive.org/web/20110724175845/http://ikt.hia.no/perep/eip_ind.pdf |url-status=dead |archive-date=24 July 2011 |website=Merrill Lynch |date=16 Nov 1998}}</ref> यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। <ref name="Clarabridge">{{cite web |last1=Grimes |first1=Seth |title=Unstructured Data and the 80 Percent Rule |url=http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule |website=Breakthrough Analysis - Bridgepoints |publisher=Clarabridge |date=1 August 2008}}</ref> अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है। <ref>{{Cite journal|last1=Gandomi|first1=Amir|last2=Haider|first2=Murtaza|date=April 2015|title=Beyond the hype: Big data concepts, methods, and analytics|journal=International Journal of Information Management|volume=35|issue=2|pages=137–144|doi=10.1016/j.ijinfomgt.2014.10.007|issn=0268-4012|doi-access=free}}</ref><ref>{{Cite news|url=https://www.ibm.com/blogs/watson/2016/05/biggest-data-challenges-might-not-even-know/|title=सबसे बड़ी डेटा चुनौतियाँ जिनके बारे में आपको शायद पता भी न हो - वॉटसन|date=2016-05-25|work=Watson|access-date=2018-10-02|language=en-US}}</ref><ref>{{Cite web|url=https://www.datamation.com/big-data/structured-vs-unstructured-data.html|title=संरचित बनाम असंरचित डेटा|website=www.datamation.com|language=en|access-date=2018-10-02}}</ref>
Line 63: Line 63:
*[https://securiti.ai/unstructured-data-101-definition-examples-benefits-challenges/ Unstructured Data Definition, Examples, Benefits & Challenges]
*[https://securiti.ai/unstructured-data-101-definition-examples-benefits-challenges/ Unstructured Data Definition, Examples, Benefits & Challenges]


{{Data}}[[Category: आंकड़े]] [[Category: सूचना प्रौद्योगिकी प्रबंधन]] [[Category: व्यापार खुफिया शर्तें]]
{{Data}}


 
[[Category:All articles containing potentially dated statements]]
 
[[Category:Articles containing potentially dated statements from 2012]]
[[Category: Machine Translated Page]]
[[Category:CS1 English-language sources (en)]]
[[Category:Collapse templates]]
[[Category:Created On 06/07/2023]]
[[Category:Created On 06/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:आंकड़े]]
[[Category:व्यापार खुफिया शर्तें]]
[[Category:सूचना प्रौद्योगिकी प्रबंधन]]

Latest revision as of 10:25, 15 July 2023

असंरचित डेटा (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित डेटा प्रतिरूप नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और अस्पष्टताएं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में एनोटेट (शब्दार्थतः चिन्हित) में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।

1998 में, मेरिल लिंच ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। [1] यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। [2] अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है। [3][4][5]

As of 2012, अंतर्राष्ट्रीय डेटा निगम और डेल ईएमसी का अनुमान है कि 2020 तक डेटा 40 ज़ेटाबाइट्स तक बढ़ जाएगा, जिसके परिणामस्वरूप 2010 के प्रारम्भ से 50 गुना वृद्धि होगी। [6] अभी हाल ही में, आईडीसी और सीगेट प्रौद्योगिकी ने भविष्यवाणी की है कि वैश्विक डेटास्फेयर 2025 तक 163 ज़ेटाबाइट्स तक बढ़ जाएगा [7] और उसका अधिकांश भाग असंरचित होगा। कंप्यूटर वर्ल्ड मैगज़ीन का कहना है कि असंरचित जानकारी संगठनों के सभी डेटा का 70-80% से अधिक हो सकती है। [1]

पृष्ठभूमि

व्यापारिक सूचना में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। [8] 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे कंप्यूटर विज्ञान शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे।[8] हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, एसएएस संस्थान ने एसएएस (सॉफ्टवेयर) टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए आयामी विश्लेषण हाइपर-डायमेंशनल टेक्स्टुअल स्पेस (गणित) को छोटे आयामों में कम करने के लिए विलक्षण मान अपघटन (एसवीडी) का उपयोग करता है। [9] यंत्र अधिगम टेक्स्ट विश्लेषण से उत्पन्न गणितीय और तकनीकी प्रगति ने कई व्यवसायों को अनुप्रयोगों पर शोध करने के लिए प्रेरित किया, जिससे भावना विश्लेषण, VOC खनन और कॉल सेंटर अनुकूलन जैसे क्षेत्रों का विकास हुआ। [10] 2000 के दशक के उत्तरार्ध में बिग डाटा के उद्भव के कारण भविष्य कहने वाला विश्लेषण और मूल कारण विश्लेषण जैसे समकालीन क्षेत्रों में असंरचित डेटा विश्लेषण के अनुप्रयोगों में रुचि बढ़ गई। [11]


शब्दावली के विषय

यह शब्द कई कारणों से सटीक नहीं है:

  1. संरचना, हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है।
  2. किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना उपस्थिता प्रसंस्करण कार्य के लिए सहायक नहीं है।
  3. असंरचित जानकारी में कुछ संरचना (अर्ध-संरचित डेटा) हो सकती है या अत्यधिक संरचित भी हो सकती है, लेकिन अप्रत्याशित या अघोषित तरीके से हो सकती है।

असंरचित डेटा से निपटना

डेटा खनन, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), और पाठ विश्लेषण जैसी तकनीकें इस जानकारी में प्रतिरूप पहचानने या अन्यथा व्याख्या करने के लिए अलग-अलग तरीके प्रदान करती हैं। टेक्स्ट को संरचित करने की सामान्य तकनीकों में सामान्यतः आगे के टेक्स्ट माइनिंग-आधारित संरचना के लिए मैन्युअल टैग (मेटाडेटा) या पार्ट-ऑफ़-स्पीच टैगिंग सम्मिलित होती है। यूआईएमए (यूआईएमए) मानक ने अर्थ निकालने और जानकारी के बारे में संरचित डेटा बनाने के लिए इस जानकारी को संसाधित करने के लिए एक सामान्य ढांचा प्रदान किया है। [12]

सॉफ्टवेयर जो मशीन-प्रक्रिया योग्य संरचना बनाता है, वह भाषाई, श्रवण और दृश्य संरचना का उपयोग कर सकता है जो मानव संचार के सभी रूपों में उपस्थित है। [13] कलन विधि पाठ से इस अंतर्निहित संरचना का अनुमान लगा सकते हैं, उदाहरण के लिए, शब्द आकृति विज्ञान (भाषाविज्ञान), वाक्य वाक्यविन्यास और अन्य छोटे और बड़े मापक्रम के प्रतिरूप की जांच करके अनुमान लगा सकते हैं। फिर असंरचित जानकारी को समृद्ध किया जा सकता है और अस्पष्टताओं और प्रासंगिकता-आधारित तकनीकों को संबोधित करने के लिए टैग किया जा सकता है और फिर खोज को सुविधाजनक बनाने के लिए उपयोग किया जा सकता है। असंरचित डेटा के उदाहरणों में किताबें, जर्नल, डॉक्यूमेंट, मेटा डेटा, स्वास्थ्य रिकॉर्ड, ध्वनि, वीडियो, एनालॉग डिवाइस, छवियां, फ़ाइलें और असंरचित पाठ जैसे ईमेल संदेश का मुख्य भाग, वेब पृष्ठ या शब्द संसाधक डॉक्यूमेंट सम्मिलित हो सकते हैं। हालाँकि संप्रेषित की जाने वाली मुख्य विषय सूची में कोई परिभाषित संरचना नहीं होती है, यह सामान्यतः वस्तुओं में संविष्ट की जाती है (उदाहरण के लिए फ़ाइलों या दस्तावेजों में, ...) जिनकी स्वयं संरचना होती है और इस प्रकार संरचित और असंरचित डेटा का मिश्रण होता है, लेकिन सामूहिक रूप से यह अभी भी है असंरचित डेटा के रूप में जाना जाता है। [14] उदाहरण के लिए, एक एचटीएमएल वेब पेज टैग किया गया है, लेकिन एचटीएमएल मार्क-अप सामान्यतः केवल रेंडरिंग के लिए काम करता है। यह टैग किए गए तत्वों के अर्थ या कार्य को उन तरीकों से कैप्चर नहीं करता है जो पृष्ठ की सूचना विषय सूची के स्वचालित प्रसंस्करण का समर्थन करते हैं। एक्सएचटीएमएल टैगिंग तत्वों की मशीन प्रसंस्करण की अनुमति देती है, हालांकि यह सामान्यतः टैग किए गए शब्दों के अर्थपूर्ण अर्थ को कैप्चर या व्यक्त नहीं करती है।

चूंकि असंरचित डेटा सामान्यतः इलेक्ट्रॉनिक डॉक्यूमेंट में होता है, इसलिए विषय सूची प्रबंधन या डॉक्यूमेंट प्रबंधन प्रणाली का उपयोग जो संपूर्ण डॉक्यूमेंट को वर्गीकृत कर सकता है, प्रायः डॉक्यूमेंट के भीतर से डेटा स्थानांतरण और हेरफेर की तुलना में पसंद किया जाता है। डॉक्यूमेंट प्रबंधन इस प्रकार संरचना को पाठ कोष पर संप्रेषित करने का साधन प्रदान करता है।

खोज इंजन ऐसे डेटा, विशेषकर पाठ को अनुक्रमित करने और खोजने के लिए लोकप्रिय उपकरण बन गए हैं।

प्राकृतिक भाषा प्रसंस्करण में दृष्टिकोण

पाठ डॉक्यूमेंट में उपस्थित असंरचित डेटा पर संरचना थोपने के लिए विशिष्ट कम्प्यूटेशनल वर्कफ़्लो विकसित किए गए हैं। ये वर्कफ़्लो सामान्यतः हजारों या लाखों डॉक्यूमेंट के सम्मुच्चय को संभालने के लिए अभिकल्पित किए जाते हैं, या टिप्पणी के लिए मैन्युअल दृष्टिकोण की अनुमति से कहीं अधिक हो सकता है। इनमें से कई दृष्टिकोण ऑनलाइन विश्लेषणात्मक प्रसंस्करण, या ओएलएपी की अवधारणा पर आधारित हैं, और टेक्स्ट क्यूब्स जैसे डेटा प्रतिरूप द्वारा समर्थित हो सकते हैं। [15] एक बार जब डॉक्यूमेंट मेटाडेटा डेटा प्रतिरूप के माध्यम से उपलब्ध हो जाता है, तो डॉक्यूमेंट के उपसम्मुच्चय (यानी, टेक्स्ट क्यूब के भीतर कोशिकाएं) का सारांश उत्पन्न करना वाक्यांश-आधारित दृष्टिकोण के साथ किया जा सकता है। [16]


चिकित्सा और जैव चिकित्सा अनुसंधान में दृष्टिकोण

जैव चिकित्सा अनुसंधान असंरचित डेटा का एक प्रमुख स्रोत उत्पन्न करता है क्योंकि शोधकर्ता प्रायः विद्वान पत्रिकाओं में अपने निष्कर्ष प्रकाशित करते हैं। यद्यपि इन दस्तावेजों में भाषा से संरचनात्मक तत्वों को प्राप्त करना चुनौतीपूर्ण है (उदाहरण के लिए, इसमें उपस्थित जटिल तकनीकी शब्दावली और टिप्पणियों को पूरी तरह से प्रासंगिक बनाने के लिए आवश्यक कार्यछेत्र ज्ञान के कारण), इन गतिविधियों के परिणाम तकनीकी और चिकित्सा अध्ययनों के बीच संबंध और नए रोग उपचारों के संबंध में प्रमाण उत्पन्न कर सकते हैं। [17] [18] जैव चिकित्सा डॉक्यूमेंट पर संरचना लागू करने के हालिया प्रयासों में डॉक्यूमेंट के बीच विषयों की पहचान करने के लिए स्व-संगठित मानचित्र दृष्टिकोण सम्मिलित हैं, [19] सामान्य प्रयोजन अप्रशिक्षित शिक्षा, [20] और साहित्य में प्रोटीन नामों और हृदय रोग विषयों के बीच संबंध निर्धारित करने के लिए केसओएलएपी वर्कफ़्लो का एक अनुप्रयोग है।[16] [21] केसओएलएपी वाक्यांश-श्रेणी संबंधों को सटीक (रिश्तों की पहचान करता है), सुसंगत (अत्यधिक प्रतिलिपि प्रस्तुत करने योग्य) और कुशल तरीके से परिभाषित करता है। यह प्लेटफ़ॉर्म उन्नत पहुंच प्रदान करता है और व्यापक जैव चिकित्सा अनुसंधान अनुप्रयोगों के लिए वाक्यांश-खनन उपकरणों के साथ जैव चिकित्सा समुदाय को सशक्त बनाता है। [21]


डेटा गोपनीयता नियमों में असंरचित का उपयोग

स्वीडन (ईयू) में, 2018 से पहले, कुछ डेटा गोपनीयता नियम लागू नहीं होते थे यदि प्रश्न में डेटा को असंरचित के रूप में पुष्टि की गई थी। [22] यह शब्दावली, असंरचित डेटा, 2018 में जीडीपीआर लागू होने के बाद यूरोपीय संघ में संभवतः ही कभी उपयोग की जाती है। जीडीपीआर असंरचित डेटा का न तो उल्लेख करता है और न ही उसे परिभाषित करता है। यह संरचित शब्द का उपयोग इस प्रकार करता है (इसे परिभाषित किए बिना);

  • जीडीपीआर रिसिटल 15 के भाग, प्राकृतिक व्यक्तियों की सुरक्षा व्यक्तिगत डेटा के प्रसंस्करण पर लागू होनी चाहिए ... यदि ... एक फाइलिंग सिस्टम में निहित है।
  • जीडीपीआर अनुच्छेद 4, 'फाइलिंग सिस्टम' का अर्थ व्यक्तिगत डेटा का कोई भी संरचित सम्मुच्चय है जो विशिष्ट मानदंडों के अनुसार पहुंच योग्य है ...

फाइलिंग सिस्टम को क्या परिभाषित करता है उस पर जीडीपीआर केस-कानून; विशिष्ट मानदंड और विशिष्ट रूप जिसमें उपदेश देने वाले प्रत्येक सदस्य द्वारा एकत्र किए गए व्यक्तिगत डेटा का सम्मुच्चय वास्तव में संरचित है, अप्रासंगिक है, जब तक कि डेटा का वह सम्मुच्चय किसी विशिष्ट व्यक्ति से संबंधित डेटा के लिए इसे संभव बनाता है जिसके पास है आसानी से पुनर्प्राप्त करने के लिए संपर्क किया गया है, हालांकि मुख्य कार्यवाही में मामले की सभी परिस्थितियों के आलोक में यह पता लगाना संबंधित अदालत का काम है। (कोर्ट_ऑफ_जस्टिस_ऑफ_द_यूरोपियन_यूनियन, टोडिस्टाजट बनाम टिएटोसुओजावल्टुटेट्टू, जेहोवन, पैराग्राफ 61)।

यदि व्यक्तिगत डेटा आसानी से पुनर्प्राप्त किया जाता है - तो यह एक फाइलिंग सिस्टम है और - फिर यह संरचित या असंरचित होने की परवाह किए बिना जीडीपीआर के दायरे में है। आज अधिकांश इलेक्ट्रॉनिक सिस्टम, एक्सेस और एप्लाइड सॉफ़्टवेयर के अधीन, डेटा की आसान पुनर्प्राप्ति की अनुमति दे सकते हैं।

यह भी देखें

टिप्पणियाँ

  1. ^ Today's Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn't An Option, Noel Yuhanna, Principal Analyst, Forrester Research, Nov 2010


संदर्भ

  1. Shilakes, Christopher C.; Tylman, Julie (16 Nov 1998). "उद्यम सूचना पोर्टल" (PDF). Merrill Lynch. Archived from the original (PDF) on 24 July 2011.
  2. Grimes, Seth (1 August 2008). "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis - Bridgepoints. Clarabridge.