कैलगरी कॉर्पस

From Vigyanwiki

कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।

विषय-सूची

इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।

माप(बाइट्स) फ़ाइल का नाम विवरण
111,261 बीआईबी एएससीआईआई टेक्स्ट in यूनिक्स "रेफेर" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ।
768,771 बुक1 अनन्फोर्मेटेड एएससीआईआई टेक्स्ट – थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड.
610,856 बुक2 एएससीआईआई टेक्स्ट in यूनिक्स "troff" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत.
102,400 जियो आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ – सिस्मिक डाटा.
377,109 न्यूज़ एएससीआईआई टेक्स्ट – विभिन्न विषयों पर यूज़नेट बैच फ़ाइल.
21,504 ओ.बी.जे1 वैक्स निष्पादन योग्य प्रोग्राम – पीआरओजेपी का संकलन.
246,814 ओ.बी.जे2 मैकिंटोश निष्पादन योग्य प्रोग्राम – बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस.
53,161 पेपर1 यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग.
82,199 पेपर2 यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा।
513,216 पीआईसी 1728 x 2376 बिटमैप इमेज (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र।
39,611 पीआरओजीसी सी में सोर्स कोड – यूनिक्स कंप्रेस v4.0.
71,646 प्रोजीएल लिस्प में सोर्स कोड – सिस्टम सॉफ्ट्वेयर.
49,379 पीआरओजीपी पास्कल में सोर्स कोड – पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम.
93,695 ट्रांस एस्किसोई और नियंत्रण वर्ण – एक टर्मिनल सत्र की प्रतिलेख.

अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]

बेंचमार्क

कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे वेटेड एवरेज कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।

कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4]

नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।

कंप्रेसर विकल्प 14 अलग फ़ाइलों के रूप में टार फ़ाइल के रूप में
अनकॉम्प्रेस्सेड 3,141,622 3,152,896
कंप्रेस 1,272,772 1,319,521
इन्फो-ज़िप 2.32 -9 1,020,781 1,023,042
जीज़िप 1.3.5 -9 1,017,624 1,022,810
बीज़िप2 1.0.3 -9 828,347 860,097
7-ज़िप 9.12b 848,687 824,573
बीज़िप3 1.1.8 765,939 779,795
पीपीएमडी Jr1 -m256 -o16 740,737 754,243
पीपीमोंस्ट्र J 675,485 669,497
ज़ेडपीएक्यू v7.15 -method 5 659,709 659,853

कम्प्रेशन आक्षेप

कैलगरी कॉर्पस कंप्रेशन और एसएचए-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा प्रारंभ की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।

प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है।

पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.

माप(बाइट्स) महीने/वर्ष लेखक
759,881 09/1997 मैल्कम टेलर
692,154 08/2001 मैक्सिम स्मिरनोव
680,558 09/2001 मैक्सिम स्मिरनोव
653,720 11/2002 सर्ज वोस्कोबॉयनिकोव
645,667 01/2004 मैट महोनी
637,116 04/2004 अलेक्जेंडर रतुश्न्याक
608,980 12/2004 अलेक्जेंडर रतुश्न्याक
603,416 04/2005 प्रेज़ेमिस्लाव स्किबिंस्की
596,314 10/2005 अलेक्जेंडर रतुश्न्याक
593,620 12/2005 अलेक्जेंडर रतुश्न्याक
589,863 05/2006 अलेक्जेंडर रतुश्न्याक
580,170 07/2010 अलेक्जेंडर रतुश्न्याक

यह भी देखें

संदर्भ

  1. Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
  2. "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
  3. "यूसी लर्निंग सेंटर". 6 January 2023.
  4. "डेटा संपीड़न समझाया गया". mattmahoney.net.
  5. "The Compression/SHA-1 Challenge". mailcom.com.

बाहरी संबंध