संक्षिप्त डेटा संरचना

From Vigyanwiki

कंप्यूटर विज्ञान में, संक्षिप्त डेटा संरचना वह डेटा संरचना है जो अन्तराल की मात्रा का उपयोग करती है, जो सूचना-सैद्धांतिक निचली सीमा के निकट है, लेकिन (अन्य संपीड़ित अभ्यावेदन के विपरीत) अभी भी प्रभावशाली क्वेरी संचालन की अनुमति देता है। अवधारणा मूल रूप से जैकबसन द्वारा पेश की गई थी[1]बिट वेक्टर, (लेबल रहित) ट्री (डेटा संरचना), और प्लेनर ग्राफ को एन्कोड करने के लिए सामान्य दोषरहित डेटा कम्प्रेशन एल्गोरिदम के विपरीत, संक्षिप्त डेटा संरचनाएँ पहले उन्हें विघटित किए बिना, उन्हें इन-प्लेस उपयोग करने की क्षमता बनाए रखती हैं। एक संबंधित धारणा एक संकुचित डेटा संरचना की है, जिसमें डेटा संरचना का आकार प्रतिनिधित्व किए जा रहे विशेष डेटा पर निर्भर करता है।

माना कि कुछ डेटा को स्टोर करने के लिए आवश्यक बिट्स की सूचना-सैद्धांतिक इष्टतम संख्या है। इस डेटा का एक प्रतिनिधित्व कहा जाता है:

  • निहित डेटा संरचना यदि यह लेता है अन्तराल के बिट्स,
  • यदि लगे तो संक्षिप्त करें अन्तराल के बिट्स, और
  • कॉम्पैक्ट अगर यह लेता है अन्तराल के बिट्स।

उदाहरण के लिए, एक डेटा संरचना जो उपयोग करती है भंडारण के बिट्स कॉम्पैक्ट हैं, बिट संक्षिप्त है, बिट भी संक्षिप्त है, और बिट्स निहित है।

इस प्रकार अंतर्निहित संरचनाएं सामान्यतः इनपुट डेटा के कुछ क्रमपरिवर्तन का उपयोग करके जानकारी संग्रहीत करने के लिए कम हो जाती हैं; इसका सबसे प्रसिद्ध उदाहरण हीप (डेटा संरचना) है।

संक्षिप्त शब्दकोश

सक्सेस इंडेक्सेबल डिक्शनरी, जिसे रैंक/सिलेक्ट डिक्शनरी भी कहा जाता है, बाइनरी ट्री सहित कई सक्सेसफुल रिप्रेजेंटेशन तकनीकों का आधार बनता है, -एरी ट्री और मल्टीसेट,[2]साथ ही प्रत्यय ट्री और प्रत्यय सरणी[3]मूल समस्या एक सबसेट को स्टोर करना है एक अंतराल का , सामान्यतः एक बिट सरणी के रूप में दर्शाया जाता है कहाँ आईएफएफ एक इंडेक्सेबल डिक्शनरी (क्वेरी, और डायनामिक केस में इंसर्शन/डिलीशन) के साथ-साथ निम्नलिखित ऑपरेशंस पर सामान्य तरीकों का समर्थन करता है:

के लिए .

दूसरे शब्दों में, के बराबर तत्वों की संख्या देता है स्थिति तक जबकि की स्थिति लौटाता है -वीं घटना है।

एक साधारण प्रतिनिधित्व है[4]जो उपयोग करता है भंडारण स्थान के बिट्स (मूल बिट सरणी और a सहायक संरचना) और रैंक का समर्थन करता है और निरंतर समय में चयन करता है। यह रेंज न्यूनतम क्वेरी रेंज-मिनिमम क्वेरीज; सीमित आकार की उप-समस्या पर रुकने से पहले निरंतर संख्या में पुनरावर्तन होते हैं। बिट सरणी आकार के बड़े ब्लॉकों में बांटा गया है बिट्स और आकार के छोटे ब्लॉक बिट्स प्रत्येक बड़े ब्लॉक के लिए, उसके पहले बिट का रैंक एक अलग तालिका में संग्रहीत किया जाता है ; प्रत्येक ऐसी प्रविष्टि लेता है कुल के लिए बिट्स भंडारण के बिट्स एक बड़े ब्लॉक के भीतर, दूसरी निर्देशिका प्रत्येक के रैंक को स्टोर करता है इसमें छोटे ब्लॉक होते हैं। यहाँ अंतर यह है कि इसकी केवल आवश्यकता है प्रत्येक प्रविष्टि के लिए बिट्स, क्योंकि बड़े ब्लॉक वाले पहले बिट के रैंक से केवल अंतर को संग्रहीत करने की आवश्यकता होती है। इस प्रकार, यह तालिका कुल बिट्स लेती है। एक लुकअप टेबल तब उपयोग किया जा सकता है जो हर संभव रैंक क्वेरी के उत्तर को लंबाई के एक बिट स्ट्रिंग पर संग्रहीत करता है के लिए ; इस आवश्यकता है भंडारण स्थान के बिट्स इस प्रकार, चूंकि इनमें से प्रत्येक सहायक तालिका लेती है अन्तराल, यह डेटा संरचना रैंक प्रश्नों का समर्थन करती है समय और अन्तराल के बिट्स एक स्थिर समय एल्गोरिथम गणना करता है,

एक प्रश्न का उत्तर देने के लिए निरंतर समय में, एक स्थिर समय एल्गोरिथम गणना करता है:

व्यवहार में, लुकअप तालिका बिटवाइज़ ऑपरेशंस और छोटी तालिकाओं द्वारा प्रतिस्थापित किया जा सकता है जिनका उपयोग छोटे ब्लॉकों में सेट बिट्स की संख्या का पता लगाने के लिए किया जा सकता है। यह अक्सर फायदेमंद होता है, क्योंकि संक्षिप्त डेटा संरचनाएं बड़े डेटा सेट में अपना उपयोग ढूंढती हैं, इस मामले में कैश की कमी बहुत अधिक हो जाती है और लुकअप टेबल को करीबी सीपीयू कैश से बेदखल करने की संभावना अधिक हो जाती है।[5]रैंक के लिए उपयोग की जाने वाली समान सहायक संरचना पर बाइनरी खोज करके चुनिंदा प्रश्नों का आसानी से समर्थन किया जा सकता है; हालाँकि, यह लेता है सबसे खराब स्थिति में समय। एक अधिक जटिल संरचना का उपयोग करना निरंतर समय में चयन का समर्थन करने के लिए अतिरिक्त संग्रहण के बिट्स का उपयोग किया जा सकता है।[6]व्यवहार में, इनमें से कई समाधानों में छिपे हुए स्थिरांक हैं संकेतन जो किसी भी स्पर्शोन्मुख लाभ के स्पष्ट होने से पहले हावी हो जाता है; व्यापक शब्द संचालन और शब्द-संरेखित ब्लॉक का उपयोग करने वाले कार्यान्वयन अक्सर अभ्यास में बेहतर प्रदर्शन करते हैं।[7]


एंट्रॉपी-संपीड़ित शब्दकोश

h> अन्तराल दृष्टिकोण को ध्यान में रखते हुए सुधार किया जा सकता है अलग -उपसमुच्चय (या लंबाई के बाइनरी तार साथ बिल्कुल 1), और इस प्रकार एक सूचना सिद्धांत है जो स्टोर करने के लिए आवश्यक बिट्स की संख्या पर कम है . एक संक्षिप्त (स्थैतिक) शब्दकोश है जो इस सीमा को प्राप्त करता है, अर्थात् उपयोग करना अन्तराल।[8]इस संरचना को रैंक का समर्थन करने और प्रश्नों का चयन करने और लेने के लिए बढ़ाया जा सकता है अन्तराल।[2]इस संरचना में सही रैंक प्रश्न हालांकि सेट में निहित तत्वों तक सीमित हैं, जो न्यूनतम पूर्ण हैशिंग फ़ंक्शन के काम करने के अनुरूप है। डिक्शनरी के स्टोरेज स्पेस को कम करके इस बाउंड को स्पेस/टाइम ट्रेडऑफ़ में कम किया जा सकता है, डेटा संरचना किसी कंप्यूटर सिस्टम में डेटा को स्टोर तथा व्यवस्थित करने का एक तरीका होता है। जिससे कि हम डेटा का आसानी से इस्तेमाल कर सकें, अर्थात डेटा को इस प्रकार स्टोर तथा व्यवस्थित किया जाता है कि उसको बाद में किसी भी समय आसानी से एक्सेस किया जा सकें।[9]


उदाहरण

एक अशक्त-समाप्त स्ट्रिंग (सी स्ट्रिंग) Z + 1 स्थान लेती है, और इस प्रकार निहित है। मनमाना लंबाई (पास्कल स्ट्रिंग) के साथ एक स्ट्रिंग Z + लॉग (Z) स्थान लेती है, और इस प्रकार संक्षिप्त होती है। यदि अधिकतम लंबाई है - जो व्यवहार में मामला है, चूंकि 232 = 4 GiB डेटा एक बहुत लंबी स्ट्रिंग है, और 264 = 16 EiB डेटा व्यवहार में किसी भी स्ट्रिंग से बड़ा है - फिर लंबाई के साथ एक स्ट्रिंग भी निहित है, Z + k स्पेस लेते हुए, जहाँ k अधिकतम लंबाई का प्रतिनिधित्व करने के लिए डेटा की संख्या है (जैसे, 64 बिट्स)।

जब चर-लंबाई वाली वस्तुओं (जैसे तार) के अनुक्रम को एन्कोड करने की आवश्यकता होती है, तो विभिन्न संभावनाएँ होती हैं। एक सीधा तरीका प्रत्येक रिकॉर्ड में एक लंबाई और एक आइटम को स्टोर करना है - फिर इन्हें एक के बाद एक रखा जा सकता है। यह प्रभावशाली अगले की अनुमति देता है, लेकिन kth आइटम नहीं ढूंढता है। एक विकल्प यह है कि वस्तुओं को एक सीमांकक के साथ क्रम में रखा जाए (उदाहरण के लिए, अशक्त-समाप्त स्ट्रिंग) यह एक लंबाई के बजाय एक सीमांकक का उपयोग करता है, और काफी धीमा है, क्योंकि पूरे अनुक्रम को सीमांकक के लिए स्कैन किया जाना चाहिए। ये दोनों अन्तराल-प्रभावशाली हैं। एक वैकल्पिक दृष्टिकोण आउट-ऑफ़-बैंड अलगाव है: वस्तुओं को बिना किसी सीमांकक के एक के बाद एक रखा जा सकता है। आइटम सीमाओं को इस क्रम में लंबाई, या बेहतर, ऑफ़सेट के अनुक्रम के रूप में संग्रहीत किया जा सकता है। वैकल्पिक रूप से, एक अलग बाइनरी स्ट्रिंग जिसमें आइटम शुरू होने वाले स्थान पर 1s होता है, और 0s हर जगह इसके साथ एन्कोड किया जाता है। इस स्ट्रिंग को देखते हुए, फ़ंक्शन जल्दी से यह निर्धारित कर सकता है कि प्रत्येक आइटम कहाँ से शुरू होता है, इसकी अनुक्रमणिका दी गई है।[10] यह कॉम्पैक्ट है लेकिन संक्षिप्त नहीं है, क्योंकि यह 2Z स्थान लेता है, जो O(Z) है।

एक अन्य उदाहरण एक बाइनरी ट्री का प्रतिनिधित्व है: एक मनमाना बाइनरी ट्री ऑन नोड्स में प्रदर्शित किया जा सकता है बिट्स किसी भी नोड पर विभिन्न प्रकार के संचालन का समर्थन करते हुए, जिसमें इसके माता-पिता, इसके बाएं और दाएं बच्चे को ढूंढना और इसके सबट्री के आकार को वापस करना शामिल है, प्रत्येक निरंतर समय में। विभिन्न बाइनरी ट्रीों की संख्या नोड्स है . बड़े के लिए , इस बारे में है ; इस प्रकार हमें कम से कम चाहिए इसे एनकोड करने के लिए बिट्स। एक संक्षिप्त बाइनरी ट्री इसलिए केवल कब्जा करेगा बिट्स प्रति नोड।

यह भी देखें

संदर्भ

  1. Jacobson, G. J (1988). Succinct static data structures (Ph.D. thesis). Pittsburgh, PA: Carnegie Mellon University.
  2. 2.0 2.1 Raman, R.; V. Raman; S. S Rao (2002). "Succinct indexable dictionaries with applications to encoding k-ary trees and multisets". Proceedings of the thirteenth annual ACM-SIAM symposium on Discrete algorithms. pp. 233–242. arXiv:0705.0552. CiteSeerX 10.1.1.246.3123. doi:10.1145/1290672.1290680. ISBN 0-89871-513-X.
  3. Sadakane, K.; R. Grossi (2006). "Squeezing succinct data structures into entropy bounds" (PDF). Proceedings of the seventeenth annual ACM-SIAM symposium on Discrete algorithm. pp. 1230–1239. ISBN 0-89871-605-5. Archived from the original (PDF) on 2011-09-29.
  4. Jacobson, G. (1 November 1989). Space-efficient static trees and graphs (PDF). 30th IEEE Symposium on Foundations of Computer Science. doi:10.1109/SFCS.1989.63533. Archived from the original (PDF) on 2016-03-12.
  5. González, R.; S. Grabowski; V. Mäkinen; G. Navarro (2005). "Practical implementation of rank and select queries" (PDF). Poster Proceedings Volume of 4th Workshop on Efficient and Experimental Algorithms (WEA). pp. 27–38.
  6. Clark, David (1996). Compact pat trees (PDF) (Ph.D. thesis). University of Waterloo.
  7. Vigna, S. (2008). Broadword implementation of rank/select queries (PDF). pp. 154–168. CiteSeerX 10.1.1.649.8950. doi:10.1007/978-3-540-68552-4_12. ISBN 978-3-540-68548-7. {{cite book}}: |journal= ignored (help)
  8. Brodnik, A.; J. I Munro (1999). "Membership in constant time and almost-minimum space" (PDF). SIAM J. Comput. 28 (5): 1627–1640. CiteSeerX 10.1.1.530.9223. doi:10.1137/S0097539795294165.
  9. Pătraşcu, M. (2008). "Succincter" (PDF). Foundations of Computer Science, 2008. FOCS'08. IEEE 49th Annual IEEE Symposium on. pp. 305–313.
  10. Belazzougui, Djamal. "हैश, विस्थापित और संपीड़ित करें" (PDF).