डेटा रूपांतरण

From Vigyanwiki

डेटा रूपांतरण कंप्यूटर डेटा का एक फ़ाइल स्वरूप से दूसरे फ़ाइल स्वरूप में रूपांतरण है। कंप्यूटर वातावरण में डेटा को विभिन्न विधियों से अक्षरों को सांकेतिक अक्षरों में परिवर्तित या एन्कोड किया जाता है। उदाहरण के लिए कंप्यूटर हार्डवेयर कुछ मानकों के आधार पर इस प्रकार बनाया गया हैं जिसके लिए यह आवश्यक होता हैं कि डेटा में उदाहरण के लिए, पैरिटी अंश चेक सम्मिलित होती है। इसी तरह, ऑपरेटिंग सिस्टम डेटा और फाइल हैंडलिंग के लिए कुछ मानकों पर आधारित किया जाता है। इसके अतिरिक्त, प्रत्येक कंप्यूटर प्रोग्राम डेटा को अलग विधियों से संभाला जा सकता है। इस प्रकार जब भी इनमें से किसी वेरिएबल को परिवर्तित किया जाता हैं, इस प्रकार डेटा को किसी भिन्न कंप्यूटर ऑपरेटिंग सिस्टम या प्रोग्राम द्वारा उपयोग किए जाने से पहले किसी प्रकार से परिवर्तित किया जाना चाहिए। यहां तक ​​कि इन तत्वों के विभिन्न संस्करणों में सामान्य रूप से अलग-अलग डेटा संरचनाएं सम्मिलित होती हैं। उदाहरण के लिए, बिट्स को प्रारूप से दूसरे प्रारूप में परिवर्तित करना,सामान्यतः इस प्रकार एप्लिकेशन इंटरऑपरेबिलिटी या नई सुविधाओं का उपयोग करने की क्षमता के उद्देश्य से, केवल डेटा रूपांतरण होता है। डेटा रूपांतरण उतना ही सरल हो सकता है जितना डाटा फ़ाइल का वर्ड एन्कोडिंग प्रणाली से दूसरे में रूपांतरण; या अधिक जटिल, जैसे कार्यालय फ़ाइल स्वरूपों का रूपांतरण, या इमेज रूपांतरण और ऑडियो फ़ाइल स्वरूपों का रूपांतरण होता है।

कंप्यूटर वातावरण में डेटा को परिवर्तित करने के कई नए तरीके होते हैं। इस प्रकार यह सहज हो सकता है, जैसा कि कंप्यूटर प्रोग्राम के नए संस्करण में अपग्रेड करने की स्थिति में होता है। वैकल्पिक रूप से, रूपांतरण को विशेष रूपांतरण फंक्शन के उपयोग से प्रसंस्करण की आवश्यकता हो सकती है, या इसमें मध्यवर्ती चरणों से गुजरने की जटिल प्रक्रिया सम्मिलित हो सकती है, या जटिल "निर्यात" और "आयात" प्रक्रियाओं को सम्मिलित हो सकता है, जिसमें टैब के सीमांकित या अल्पविराम से अलग पाठ फाइलों में सम्मिलित किया जाता है। इस प्रकार कुछ स्थितियों में, प्रोग्राम डेटा इनपुट चरण में कई डेटा फ़ाइल स्वरूपों को पहचाना जा सकता है और फिर आउटपुट डेटा को कई अलग-अलग स्वरूपों में संग्रहीत करने में भी सक्षम होता है। इस प्रकार के प्रोग्राम का उपयोग फ़ाइल स्वरूप को परिवर्तित करने के लिए किया जा सकता है। यदि स्रोत प्रारूप या लक्ष्य प्रारूप को मान्यता नहीं दी जाती है, तो कई बार तीसरा फंक्शन में उपलब्ध हो सकता है जो मध्यवर्ती प्रारूप में रूपांतरण की अनुमति देता है, जिसे पहले फंक्शन का कई संभावित परिदृश्य उपयोग करके पुन: स्वरूपित किया जा सकता है।

सूचना मूल बातें

कोई भी डेटा रूपांतरण करने से पहले, उपयोगकर्ता या एप्लिकेशन प्रोग्रामर को कंप्यूटिंग और सूचना सिद्धांत की कुछ मौलिक बातों को ध्यान में रखना चाहिए। इसमे सम्मिलित है:

  • सूचना को कंप्यूटर द्वारा सरलता से निरस्त किया जा सकता है, किन्तु जानकारी जोड़ने में श्रम लगता है।
  • कंप्यूटर केवल नियम-आधारित फैशन में जानकारी जोड़ सकता है।
  • डेटा को अपसैंपलिंग करने या अधिक सुविधा-संपन्न प्रारूप में परिवर्तित करने से जानकारी नहीं जुड़ती है, यह केवल उस जोड़ के लिए जगह बनाता है, जो सामान्यतः मानव को करना चाहिए।
  • इलेक्ट्रॉनिक प्रारूप में संग्रहीत डेटा को जल्दी से संशोधित और विश्लेषित किया जा सकता है।

इस प्रकार उदाहरण के लिए, 24-बिट रंग के इमेज को सरलता से ग्रेस्केल में परिवर्तित किया जा सकता है, जबकि विपरीत रूपांतरण श्रमसाध्य प्रक्रिया है। यूनिक्स टेक्स्ट फ़ाइल को माइक्रोसाॅफ्ट (डाॅस/विंडोज) टेक्स्ट फ़ाइल में परिवर्तित करने में वर्ड जोड़ना सम्मिलित है, किन्तु इस प्रकार यह एन्ट्रापी (सूचना सिद्धांत) को अग्रेषित नहीं करता है क्योंकि इस प्रकार यह नियम-आधारित है; जबकि ग्रेस्केल इमेज में रंग जानकारी को जोड़ना प्रोग्रामेटिक रूप से मज़बूती से नहीं किया जा सकता है, क्योंकि इसमें नई जानकारी जोड़ने की आवश्यकता होती है, इसलिए रंग जोड़ने के किसी भी प्रयास के लिए कंप्यूटर द्वारा पिछले ज्ञान के आधार पर कंप्यूटर दृष्टि की आवश्यकता होगी। इस प्रकार 24-बिट पोर्टेबल नेटवर्क ग्राफ़िक्स को 48-बिट में परिवर्तित करने से इसमें जानकारी नहीं जुड़ती है, यह केवल वर्तमान समय का आरजीबी पिक्सेल मानों को शून्य से पैड करता है, जिससे कि एफएफ सी3 56 के मान वाला पिक्सेल, उदाहरण के लिए एफएफ00 सी300 5600 बन जाता हैं। इस प्रकार रूपांतरण पिक्सेल के मान के लिए परिवर्तन करना संभव बनाता है, उदाहरण के लिए, एफएफ80 सी340 56ए0 इसके भाग हैं किन्तु रूपांतरण स्वयं ऐसा नहीं करता वह केवल इमेज का भाग कर सकता हैं। इस प्रकार हानिपूर्ण संपीड़न प्रारूप (जैसे जेपीईजी या वार्बिस) में इमेज या ऑडियो फ़ाइल को दोषरहित डेटा संपीड़न (जैसे पोर्टेबल नेटवर्क ग्राफ़िक्स या फ्लैक) या असम्पीडित (जैसे विंडोज बिटमैप या वेव) प्रारूप में परिवर्तित करने से केवल स्थान बर्बाद होता है, क्योंकि उसी इमेज के साथ मूल जानकारी की हानी (हानिपूर्ण संपीड़न की संरचना) लक्ष्य बन जाता है। जेपीईजी इमेज को कभी भी उस मूल इमेज की गुणवत्ता में पुनर्स्थापित नहीं किया जा सकता है जिससे इसे बनाया गया था, इस प्रकार चाहे उपयोगकर्ता अपने इमेज परिवर्तन के फंक्शन की संपीड़न विरूपण साक्ष्य हटाने की सुविधा का कितना भी प्रयास करना चाहे कर सकता हैं।

इस प्रकार हानिपूर्ण संपीड़न प्रक्रिया के माध्यम से खो गई जानकारी की स्वत: निकालने के लिए संभवतः कृत्रिम बुद्धि में महत्वपूर्ण प्रगति की आवश्यकता होती हैं।

कंप्यूटिंग और सूचना सिद्धांत की इन वास्तविकताओं के कारण, डेटा रूपांतरण प्रायःएक जटिल और त्रुटि-प्रवण प्रक्रिया होती है जिसके लिए विशेषज्ञों की सहायता की आवश्यकता होती है।

निर्णायक रूपांतरण

डेटा रूपांतरण सीधे प्रारूप से दूसरे प्रारूप में हो सकता है, किन्तु इस प्रकार कई अनुप्रयोग जो कई प्रारूपों के बीच परिवर्तित होते हैं, मध्यवर्ती प्रतिनिधित्व का उपयोग करते हैं जिसके माध्यम से कोई भी स्रोत प्रारूप अपने लक्ष्य में परिवर्तित हो जाता है।[1] उदाहरण के लिए, दो एनकोडिंग के बीच लुकअप टेबल का उपयोग करके सिरिलिक लिपि टेक्स्ट को कोओआई8-आर से विंडोज-1251 में परिवर्तित करना संभव है, किन्तु आधुनिक दृष्टिकोण KOI8-R फ़ाइल को पहले यूनिकोड में और उसके बाद विंडोज-1251 में परिवर्तित करना है। इस प्रकार यह अधिक प्रबंधनीय दृष्टिकोण है; चरित्र एन्कोडिंग के सभी संभावित जोड़े के लिए लुकअप टेबल की आवश्यकता के अतिरिक्त, एप्लिकेशन को प्रत्येक वर्ड सेट के लिए केवल लुकअप टेबल की आवश्यकता होती है, जिसका उपयोग वह यूनिकोड से और में परिवर्तित करने के लिए करता है, जिससे तालिकाओं की संख्या सैकड़ों से कुछ दसियों तक कम हो जाती है।[citation needed]

निर्णायक रूपांतरण इसी प्रकार अन्य क्षेत्रों में उपयोग किया जाता है। कार्यालय अनुप्रयोग, जब कार्यालय फ़ाइल स्वरूपों के बीच परिवर्तित करने के लिए नियोजित होते हैं, तो उनके आंतरिक, डिफ़ॉल्ट फ़ाइल स्वरूप को धुरी के रूप में उपयोग करते हैं। उदाहरण के लिए, शब्द संसाधक आरटीएफ को ओपेन डाॅक्यूमेंट में और फिर उसे वर्ड पर्फेक्ट फॉर्मेट में परिवर्तित करके रिच टेक्स्ट फ़ॉर्मैट फ़ाइल को वर्ड पर्फेक्ट फ़ाइल में परिवर्तित किया जा सकता है। इस प्रकार इमेज रूपांतरण फंक्शन पीसीएक्स इमेज को सीधे पोर्टेबल नेटवर्क ग्राफिक्स में परिवर्तित नहीं करता है, इसके अतिरिक्त, पीसीएक्स इमेज को लोड करते समय, यह स्मृति में आंतरिक उपयोग के लिए इसे साधारण बिटमैप प्रारूप में डीकोड करता है, और जब पीएनजी में परिवर्तित करने का आदेश दिया जाता है, तो उस मेमोरी इमेज को लक्षित प्रारूप में परिवर्तित कर दिया जाता है। इस प्रकार ऑडियो परिवर्तक जो फ्लैक से उन्नत ऑडियो कोडिंग में परिवर्तित होता है, स्रोत फ़ाइल को पहले मेमोरी में अपरिष्कृत पल्स कोड मॉडुलेशन डेटा में डिकोड करता है, और इस प्रकार पुनः लक्ष्य फ़ाइल बनाने के लिए उस मेमोरी इमेज पर हानिपूर्ण एएसी संपीड़न करता है।

खोया हुआ और अचूक डेटा रूपांतरण

डेटा रूपांतरण का उद्देश्य सभी डेटा को बनाए रखना है, और इस प्रकार जितना संभव हो उतना एम्बेड की गई जानकारी को बनाए रखना है। यह केवल तभी किया जा सकता है जब लक्ष्य प्रारूप स्रोत फ़ाइल में उपस्तिथ समान सुविधाओं और डेटा संरचनाओं का समर्थन करता हो। इस प्रकार वर्ड प्रोसेसिंग दस्तावेज़ को सादे पाठ फ़ाइल में परिवर्तित करने में आवश्यक रूप से स्वरूपण जानकारी की हानि सम्मिलित है, क्योंकि सादा पाठ प्रारूप वर्ड प्रोसेसिंग निर्माणों का समर्थन नहीं करता है जैसे किसी शब्द को बोल्डफेस के रूप में चिह्नित करना होता हैं। इस कारणवश इस प्रारूप से दूसरे प्रारूप में रूपांतरण जो उपयोगकर्ता के लिए महत्वपूर्ण विशेषता का समर्थन नहीं करता है, संभवतः ही कभी किया जाता है, चूंकि यह इंटरऑपरेबिलिटी के लिए आवश्यक हो सकता है, इस प्रकार उदाहरण के लिए किसी फ़ाइल को माइक्रोसाॅफ्ट वर्ड के संस्करण से प्राचीन संस्करण में परिवर्तित करना जिससे कि अन्य उपयोगकर्ताओं द्वारा स्थानांतरण और उपयोग को सक्षम किया जा सके जिनके पास अपने कंप्यूटर पर वर्ड का वही बाद का संस्करण स्थापित नहीं होता है।

लक्ष्य प्रारूप में सन्निकटन द्वारा सूचना की हानि को कम किया जा सकता है। इस प्रकार ä जैसे वर्ड को ASCII में परिवर्तित करने का कोई विधि नहीं है, क्योंकि ASCII मानक में इसका अभाव है, किन्तु वर्ड को ae के रूप में अनुमानित करके जानकारी को बनाए रखा जा सकता है। बेशक, यह इष्टतम समाधान नहीं है, और खोज और प्रतिलिपि बनाने जैसे कार्यों को प्रभावित कर सकता है; और इस प्रकार यदि कोई भाषा ä और ae के बीच अंतर करती है, तो उस सन्निकटन में जानकारी की हानि सम्मिलित है।

डेटा रूपांतरण भी अशुद्धि से पीड़ित हो सकता है, जो वैचारिक रूप से भिन्न स्वरूपों के बीच रूपांतरण का परिणाम है। इस प्रकार WYSIWYG प्रतिमान, वर्ड प्रोसेसर और डेस्कटॉप प्रकाशन अनुप्रयोगों में उपस्तिथ है, बनाम संरचनात्मक-वर्णनात्मक प्रतिमान, जो एसजीएमएल, एक्सएमएल और उनसे प्राप्त कई अनुप्रयोगों में पाया जाता है, जैसे एचटीएमएल और मैथ एमएल इसका मुख्य उदाहरण है। इस प्रकार WYSIWYG एचटीएमएल संपादक का उपयोग करने से दो प्रतिमानों का मेल होता है, और इस प्रकार इसके परिणाम को एचटीएमएल फ़ाइलों के साथ क्रियान्वित किया जाता है, और यदि अमानक नहीं है, तो कोड WYSIWYG प्रतिमान में डबल लाइनब्रेक नए पैराग्राफ को दर्शाता है, क्योंकि यह इस तरह के निर्माण के लिए दृश्य संकेत है, किन्तु WYSIWYG एचटीएमएल संपादक सामान्यतः ऐसे अनुक्रम को <BR><BR> में बदल देगा, जो संरचनात्मक रूप से कोई नया पैराग्राफ नहीं है। अन्य उदाहरण के रूप में, पोर्टेबल दस्तावेज़ प्रारूप से संपादन योग्य वर्ड प्रोसेसर प्रारूप में परिवर्तित करना कठिन कार्य है, क्योंकि पीडीएफ पत्थर पर उत्कीर्णन जैसी पाठ्य सूचना को रिकॉर्ड करता है, जिसमें प्रत्येक वर्ड को निश्चित स्थिति दी जाती है और हार्ड-कोडेड लाइनब्रेक करता है, जबकि वर्ड प्रोसेसर प्रारूप पाठ को समायोजित करता है। इस प्रकार पुनः इसे उपयोग किया जाता हैं। इस प्रकार पीडीएफ शब्द स्थान वर्ड के बारे में नहीं जानता है - दो अक्षरों के बीच का स्थान और दो शब्दों के बीच का स्थान केवल मात्रा में भिन्न होता है। इसलिए, प्रभाव के लिए पर्याप्त अक्षर-रिक्ति वाला शीर्षक सामान्यतः वर्ड प्रोसेसर फ़ाइल में रिक्त स्थान के साथ समाप्त होगा, उदाहरण के लिए वर्ड प्रोसेसर पर इंटरोडक्शन के रूप में 1 ईएम (टाइपोग्राफी) की रिक्ति के साथ परिचित किया जाता हैं।

ओपेन व क्लोज्ड विनिर्देश

सफल डेटा रूपांतरण के लिए स्रोत और लक्ष्य दोनों स्वरूपों की कार्यप्रणाली का संपूर्ण ज्ञान आवश्यक है। इस प्रकार ऐसी स्थितियोंमें जहां प्रारूप का विनिर्देश अज्ञात है, इस प्रकार रूपांतरण करने के लिए रिवर्स इंजीनियरिंग की आवश्यकता होगी। रिवर्स इंजीनियरिंग मूल विनिर्देशों के समीप सन्निकटन प्राप्त कर सकता है, किन्तु त्रुटियों और विलुप्त सुविधाओं का अभी भी परिणाम हो सकता है।

इलेक्ट्रॉनिक्स

इलेक्ट्रॉनिक संचार प्रणाली की भौतिक परत पर डेटा प्रारूप रूपांतरण भी हो सकता है। गैर-गैर वापसी करने वाली शून्य और वापसी-टू-जीरो जैसे लाइन कोड के बीच रूपांतरण आवश्यक होने पर पूरा किया जा सकता है।

यह भी देखें

संदर्भ

  1. Dragos-Anton Manolescu; Markus Voelter; James Noble (2006). Pattern Languages of Program Design 5. Addison-Wesley Professional. pp. 271–. ISBN 978-0-321-32194-7.

Manolescu, FirstName (2006). Pattern Languages of Program Design 5. Upper Saddle River, NJ: Addison-Wesley. ISBN 0321321944.