असंरचित डेटा

असंरचित डेटा (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित डेटा प्रतिरूप नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और अस्पष्टताएं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में एनोटेट (शब्दार्थतः चिन्हित) में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।

1998 में, मेरिल लिंच ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है।

, अंतर्राष्ट्रीय डेटा निगम और डेल ईएमसी का अनुमान है कि 2020 तक डेटा 40 ज़ेटाबाइट्स तक बढ़ जाएगा, जिसके परिणामस्वरूप 2010 के प्रारम्भ से 50 गुना वृद्धि होगी। अभी हाल ही में, आईडीसी और सीगेट प्रौद्योगिकी ने भविष्यवाणी की है कि वैश्विक डेटास्फेयर 2025 तक 163 ज़ेटाबाइट्स तक बढ़ जाएगा और उसका अधिकांश भाग असंरचित होगा। कंप्यूटर वर्ल्ड मैगज़ीन का कहना है कि असंरचित जानकारी संगठनों के सभी डेटा का 70-80% से अधिक हो सकती है।

पृष्ठभूमि
व्यापारिक सूचना में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे कंप्यूटर विज्ञान शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे। हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, एसएएस संस्थान ने एसएएस (सॉफ्टवेयर) टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए आयामी विश्लेषण हाइपर-डायमेंशनल टेक्स्टुअल स्पेस (गणित) को छोटे आयामों में कम करने के लिए विलक्षण मान अपघटन (एसवीडी) का उपयोग करता है। यंत्र अधिगम  टेक्स्ट विश्लेषण से उत्पन्न गणितीय और तकनीकी प्रगति ने कई व्यवसायों को अनुप्रयोगों पर शोध करने के लिए प्रेरित किया, जिससे भावना विश्लेषण, ग्राहक की आवाज खनन और कॉल सेंटर अनुकूलन जैसे क्षेत्रों का विकास हुआ। 2000 के दशक के उत्तरार्ध में बड़ा डेटा के उद्भव के कारण भविष्य कहनेवाला विश्लेषण और मूल कारण विश्लेषण जैसे समकालीन क्षेत्रों में असंरचित डेटा विश्लेषण के अनुप्रयोगों में रुचि बढ़ गई।

शब्दावली के मुद्दे
यह शब्द कई कारणों से सटीक नहीं है:
 * 1) संरचना, हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है।
 * 2) किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना मौजूदा प्रसंस्करण कार्य के लिए सहायक नहीं है।
 * 3) असंरचित जानकारी में कुछ संरचना (अर्ध-संरचित डेटा|अर्ध-संरचित) हो सकती है या अत्यधिक संरचित भी हो सकती है, लेकिन अप्रत्याशित या अघोषित तरीके से।

असंरचित डेटा से निपटना
डेटा खनन, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), और पाठ विश्लेषण  जैसी तकनीकें इस जानकारी में पैटर्न पहचानने या अन्यथा व्याख्या करने के लिए अलग-अलग तरीके प्रदान करती हैं। टेक्स्ट को संरचित करने की सामान्य तकनीकों में आमतौर पर आगे के  टेक्स्ट खनन -आधारित संरचना के लिए मैन्युअल टैग (मेटाडेटा) या भाषण का भाग टैगिंग सम्मिलित होती है। यूआईएमए (यूआईएमए) मानक ने अर्थ निकालने और जानकारी के बारे में संरचित डेटा बनाने के लिए इस जानकारी को संसाधित करने के लिए एक सामान्य ढांचा प्रदान किया है। सॉफ्टवेयर जो मशीन-प्रक्रिया योग्य संरचना बनाता है, वह भाषाई, श्रवण और दृश्य संरचना का उपयोग कर सकता है जो मानव संचार के सभी रूपों में मौजूद है। एल्गोरिदम पाठ से इस अंतर्निहित संरचना का अनुमान लगा सकते हैं, उदाहरण के लिए, शब्द आकृति विज्ञान (भाषाविज्ञान), वाक्य वाक्यविन्यास और अन्य छोटे और बड़े पैमाने के पैटर्न की जांच करके। फिर असंरचित जानकारी को समृद्ध किया जा सकता है और अस्पष्टताओं और प्रासंगिकता-आधारित तकनीकों को संबोधित करने के लिए टैग किया जा सकता है और फिर खोज और खोज को सुविधाजनक बनाने के लिए उपयोग किया जा सकता है। असंरचित डेटा के उदाहरणों में किताबें, जर्नल, दस्तावेज़, मेटा डेटा, स्वास्थ्य रिकॉर्ड, ध्वनि, वीडियो, एनालॉग डिवाइस, छवियां, फ़ाइलें और असंरचित पाठ जैसे  ईमेल  संदेश का मुख्य भाग,  वेब पृष्ठ  या  शब्द संसाधक  दस्तावेज़ सम्मिलित हो सकते हैं।. हालाँकि संप्रेषित की जाने वाली मुख्य सामग्री में कोई परिभाषित संरचना नहीं होती है, यह सामान्यतः वस्तुओं में पैक की जाती है (उदाहरण के लिए फ़ाइलों या दस्तावेजों में, ...) जिनकी स्वयं संरचना होती है और इस प्रकार संरचित और असंरचित डेटा का मिश्रण होता है, लेकिन सामूहिक रूप से यह अभी भी है असंरचित डेटा के रूप में जाना जाता है। उदाहरण के लिए, एक HTML वेब पेज टैग किया गया है, लेकिन HTML मार्क-अप आमतौर पर केवल रेंडरिंग के लिए काम करता है। यह टैग किए गए तत्वों के अर्थ या कार्य को उन तरीकों से कैप्चर नहीं करता है जो पृष्ठ की सूचना सामग्री के स्वचालित प्रसंस्करण का समर्थन करते हैं। एक्सएचटीएमएल टैगिंग तत्वों की मशीन प्रसंस्करण की अनुमति देती है, हालांकि यह सामान्यतः टैग किए गए शब्दों के अर्थपूर्ण अर्थ को कैप्चर या व्यक्त नहीं करती है।

चूंकि असंरचित डेटा आमतौर पर इलेक्ट्रॉनिक डॉक्यूमेंट में होता है, इसलिए सामग्री प्रबंधन या दस्तावेज़ प्रबंधन प्रणाली का उपयोग जो संपूर्ण डॉक्यूमेंट को वर्गीकृत कर सकता है, अक्सर डॉक्यूमेंट के भीतर से डेटा स्थानांतरण और हेरफेर की तुलना में पसंद किया जाता है। दस्तावेज़ प्रबंधन इस प्रकार संरचना को पाठ कोष पर संप्रेषित करने का साधन प्रदान करता है।

खोज इंजन ऐसे डेटा, विशेषकर पाठ को अनुक्रमित करने और खोजने के लिए लोकप्रिय उपकरण बन गए हैं।

प्राकृतिक भाषा प्रसंस्करण में दृष्टिकोण
पाठ डॉक्यूमेंट में मौजूद असंरचित डेटा पर संरचना थोपने के लिए विशिष्ट कम्प्यूटेशनल वर्कफ़्लो विकसित किए गए हैं। ये वर्कफ़्लो सामान्यतः हजारों या लाखों डॉक्यूमेंट के सेट को संभालने के लिए डिज़ाइन किए जाते हैं, या एनोटेशन के लिए मैन्युअल दृष्टिकोण की अनुमति से कहीं अधिक हो सकता है। इनमें से कई दृष्टिकोण ऑनलाइन विश्लेषणात्मक प्रसंस्करण|ऑनलाइन विश्लेषणात्मक प्रसंस्करण, या ओएलएपी की अवधारणा पर आधारित हैं, और टेक्स्ट क्यूब्स जैसे डेटा प्रतिरूप द्वारा समर्थित हो सकते हैं। एक बार जब दस्तावेज़ मेटाडेटा डेटा प्रतिरूप के माध्यम से उपलब्ध हो जाता है, तो डॉक्यूमेंट के सबसेट (यानी, टेक्स्ट क्यूब के भीतर कोशिकाएं) का सारांश उत्पन्न करना वाक्यांश-आधारित दृष्टिकोण के साथ किया जा सकता है।

चिकित्सा और बायोमेडिकल अनुसंधान में दृष्टिकोण
बायोमेडिकल अनुसंधान असंरचित डेटा का एक प्रमुख स्रोत उत्पन्न करता है क्योंकि शोधकर्ता अक्सर विद्वान पत्रिकाओं में अपने निष्कर्ष प्रकाशित करते हैं। यद्यपि इन दस्तावेजों में भाषा से संरचनात्मक तत्वों को प्राप्त करना चुनौतीपूर्ण है (उदाहरण के लिए, इसमें मौजूद जटिल तकनीकी शब्दावली और टिप्पणियों को पूरी तरह से प्रासंगिक बनाने के लिए आवश्यक डोमेन ज्ञान के कारण), इन गतिविधियों के परिणाम तकनीकी और चिकित्सा अध्ययनों के बीच संबंध उत्पन्न कर सकते हैं। और नए रोग उपचारों के संबंध में सुराग। बायोमेडिकल डॉक्यूमेंट पर संरचना लागू करने के हालिया प्रयासों में डॉक्यूमेंट के बीच विषयों की पहचान करने के लिए स्व-संगठित मानचित्र दृष्टिकोण सम्मिलित हैं, सामान्य प्रयोजन अप्रशिक्षित शिक्षा, और CaseOLAP वर्कफ़्लो का एक अनुप्रयोग साहित्य में प्रोटीन के नाम और हृदय रोग विषयों के बीच संबंध निर्धारित करना। CaseOLAP वाक्यांश-श्रेणी संबंधों को सटीक (रिश्तों की पहचान करता है), सुसंगत (अत्यधिक प्रतिलिपि प्रस्तुत करने योग्य) और कुशल तरीके से परिभाषित करता है। यह प्लेटफ़ॉर्म उन्नत पहुंच प्रदान करता है और व्यापक बायोमेडिकल अनुसंधान अनुप्रयोगों के लिए वाक्यांश-खनन उपकरणों के साथ बायोमेडिकल समुदाय को सशक्त बनाता है।

डेटा गोपनीयता नियमों में असंरचित का उपयोग
स्वीडन (ईयू) में, 2018 से पहले, कुछ डेटा गोपनीयता नियम लागू नहीं होते थे यदि प्रश्न में डेटा को असंरचित के रूप में पुष्टि की गई थी। यह शब्दावली, असंरचित डेटा, 2018 में जीडीपीआर लागू होने के बाद यूरोपीय संघ में शायद ही कभी उपयोग की जाती है। जीडीपीआर असंरचित डेटा का न तो उल्लेख करता है और न ही उसे परिभाषित करता है। यह संरचित शब्द का उपयोग इस प्रकार करता है (इसे परिभाषित किए बिना);
 * जीडीपीआर रिसिटल 15 के भाग, प्राकृतिक व्यक्तियों की सुरक्षा व्यक्तिगत डेटा के प्रसंस्करण पर लागू होनी चाहिए ... यदि ... एक फाइलिंग सिस्टम में निहित है।
 * जीडीपीआर अनुच्छेद 4, 'फाइलिंग सिस्टम' का अर्थ व्यक्तिगत डेटा का कोई भी संरचित सेट है जो विशिष्ट मानदंडों के अनुसार पहुंच योग्य है ...

फाइलिंग सिस्टम को क्या परिभाषित करता है उस पर जीडीपीआर केस-कानून; विशिष्ट मानदंड और विशिष्ट रूप जिसमें उपदेश देने वाले प्रत्येक सदस्य द्वारा एकत्र किए गए व्यक्तिगत डेटा का सेट वास्तव में संरचित है, अप्रासंगिक है, जब तक कि डेटा का वह सेट किसी विशिष्ट व्यक्ति से संबंधित डेटा के लिए इसे संभव बनाता है जिसके पास है आसानी से पुनर्प्राप्त करने के लिए संपर्क किया गया है, हालांकि मुख्य कार्यवाही में मामले की सभी परिस्थितियों के आलोक में यह पता लगाना संबंधित अदालत का काम है।'' (कोर्ट_ऑफ_जस्टिस_ऑफ_द_यूरोपियन_यूनियन, |जेहोवन टोडिस्टाजट बनाम टिएटोसुओजावल्टुटेट्टू, जेहोवन, पैराग्राफ 61)।

यदि व्यक्तिगत डेटा आसानी से पुनर्प्राप्त किया जाता है - तो यह एक फाइलिंग सिस्टम है और - फिर यह संरचित या असंरचित होने की परवाह किए बिना जीडीपीआर के दायरे में है। आज अधिकांश इलेक्ट्रॉनिक सिस्टम, एक्सेस और एप्लाइड सॉफ़्टवेयर के अधीन, डेटा की आसान पुनर्प्राप्ति की अनुमति दे सकते हैं।

यह भी देखें

 * क्लस्टर विश्लेषण
 * पैटर्न मान्यता
 * टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची
 * अर्ध-संरचित डेटा
 * संरचित डेटा

टिप्पणियाँ

 * 1) Today's Challenge in Government:  What to do with Unstructured Information and Why Doing Nothing Isn't An Option,  Noel Yuhanna, Principal Analyst, Forrester Research, Nov 2010

बाहरी संबंध

 * Matching Unstructured Data and Structured Data
 * a brief description for Structured Data
 * Unstructured Data Definition, Examples, Benefits & Challenges