पी.ए.क्यू.: Difference between revisions

(10 intermediate revisions by 3 users not shown)

Line 1:

{{For|~~the unrelated~~ <code>PAQ.EXE</code> ~~compressor for DOS~~|~~Quantum compression~~ (~~disambiguation~~){{!}}~~Quantum compression}}~~

{{For|डीओएस के लिए असंबंधित <code>PAQ.EXE</code> कंप्रेसर|क्वांटम संपीड़न (बहुविकल्पी){{!}}क्वांटम कंप्रेशन}}

~~{{More footnotes needed|date=March 2011~~}}

[[Image:Paq8o Sample Session.png|thumb|500px|पी.ए.क्यू.8O का नमूना सत्र]]'''पी.ए.क्यू.''' [[दोषरहित डेटा संपीड़न|लॉसलेस डेटा कंप्रेशन]] अभिलेखों की श्रृंखला है जो सहयोगात्मक विकास के माध्यम से कंप्रेशन अनुपात को मापने वाले अनेक बेंचमार्क पर शीर्ष रैंकिंग तक पहुंच गई है (चूँकि गति और मेमोरी उपयोग की मूल्य पर)। पीएक्यू के विशिष्ट वर्जनो ने [[हटर पुरस्कार]] और [[ कैलगरी चुनौती |कैलगरी चुनौती]] जीता है।<ref>{{cite web|url=http://mailcom.com/challenge/ |title=The Compression/SHA-1 Challenge |publisher=Mailcom.com |access-date=2010-05-19}}</ref> पीएक्यू [[जीएनयू जनरल पब्लिक लाइसेंस]] के अनुसार वितरित [[मुफ्त सॉफ्टवेयर]] है।<ref>{{cite web

[[Image:Paq8o Sample Session.png|thumb|500px|~~PAQ8O~~ का एक नमूना सत्र]]~~PAQ~~ [[दोषरहित डेटा संपीड़न]] अभिलेखों की एक श्रृंखला है जो सहयोगात्मक विकास के माध्यम से ~~संपीड़न~~ अनुपात को मापने वाले कई बेंचमार्क पर शीर्ष रैंकिंग तक पहुंच गई है (~~हालांकि~~ गति और मेमोरी उपयोग की ~~कीमत~~ पर)। पीएक्यू के विशिष्ट ~~संस्करणों~~ ने [[हटर पुरस्कार]] और [[ कैलगरी चुनौती ]] जीता है।<ref>{{cite web|url=http://mailcom.com/challenge/ |title=The Compression/SHA-1 Challenge |publisher=Mailcom.com |access-date=2010-05-19}}</ref> पीएक्यू [[जीएनयू जनरल पब्लिक लाइसेंस]] के ~~तहत~~ वितरित [[मुफ्त सॉफ्टवेयर]] है।<ref>{{cite web

|url=http://mattmahoney.net/dc/

|title=Homepage of the PAQ compressors

Line 7:

Line 6:

|access-date=2007-07-10

}}</ref>

==एल्गोरिदम==

पी.ए.क्यू. संदर्भ मिश्रण एल्गोरिथ्म का उपयोग करता है। संदर्भ मिश्रण आंशिक मिलान (पीपीएम) द्वारा पूर्वानुमान से संबंधित है जिसमें कंप्रेसर को भविष्यवक्ता और अंकगणितीय कोडर में विभाजित किया गया है, किन्तु इसमें भिन्नता है कि अगले-प्रतीक पूर्वानुमान की गणना बड़ी संख्या में मॉडल से संभाव्यता अनुमानों के भारित संयोजन का उपयोग करके की जाती है। विभिन्न सन्दर्भों पर आधारित पीपीएम के विपरीत, किसी संदर्भ को सन्निहित होने की आवश्यकता नहीं है। अधिकांश पी.ए.क्यू. वर्जन निम्नलिखित संदर्भों के लिए अगले-प्रतीक आँकड़े एकत्र करते हैं:

* ''n'' -ग्राम ; संदर्भअनुमानित प्रतीक से पहले <var>अंतिम '''''n''''' बाइट्स है (जैसा कि पीपीएम में है);</var>

~~==एल्गोरिदम==~~

*संपूर्ण-शब्द ''n''-ग्राम, केस और गैर-वर्णमाला वर्णों को अनदेखा करना (टेक्स्ट फ़ाइलों में उपयोगी);

PAQ एक संदर्भ मिश्रण एल्गोरिथ्म का उपयोग करता है। संदर्भ मिश्रण आंशिक मिलान (पीपीएम) द्वारा भविष्यवाणी से संबंधित है जिसमें कंप्रेसर को एक भविष्यवक्ता और एक अंकगणितीय कोडर में विभाजित किया गया है, लेकिन इसमें भिन्नता है कि अगले-प्रतीक भविष्यवाणी की गणना बड़ी संख्या में मॉडल से संभाव्यता अनुमानों के भारित संयोजन का उपयोग करके की जाती है। विभिन्न सन्दर्भों पर आधारित। पीपीएम के विपरीत, किसी संदर्भ को सन्निहित होने की आवश्यकता नहीं है। अधिकांश PAQ संस्करण निम्नलिखित संदर्भों के लिए अगले-प्रतीक आँकड़े एकत्र करते हैं:

* ~~एन-ग्राम|एन~~-ग्राम; ~~प्रसंग अंतिम है {{Var|n}} पूर्वानुमानित~~ प्रतीक से पहले बाइट्स (जैसा कि पीपीएम में);

* संपूर्ण-शब्द एन-ग्राम, केस और गैर-वर्णमाला वर्णों को अनदेखा करना (~~पाठ~~ फ़ाइलों में उपयोगी);

* विरल संदर्भ, उदाहरण के लिए, अनुमानित प्रतीक से पहले के दूसरे और चौथे बाइट्स (कुछ बाइनरी प्रारूपों में उपयोगी);

* एनालॉग संदर्भ, जिसमें पिछले 8- या 16-बिट शब्दों के उच्च-क्रम बिट्स ~~शामिल~~ हैं (मल्टीमीडिया फ़ाइलों के लिए उपयोगी);

* एनालॉग संदर्भ, जिसमें पिछले 8- या 16-बिट शब्दों के उच्च-क्रम बिट्स सम्मिलित हैं (मल्टीमीडिया फ़ाइलों के लिए उपयोगी);

* द्वि-आयामी संदर्भ (छवियों, तालिकाओं और स्प्रेडशीट के लिए उपयोगी); पंक्ति की लंबाई दोहराए जाने वाले बाइट पैटर्न की स्ट्राइड लंबाई ज्ञात करके निर्धारित की जाती है;

* विशेष मॉडल, जैसे x[[86]] निष्पादन योग्य, [[ विंडोज़ बिटमैप ]], टीआईएफएफ, या [[जेपीईजी]] छवियां; ये मॉडल केवल तभी सक्रिय होते हैं जब विशेष फ़ाइल प्रकार का पता लगाया जाता है।

* विशेष मॉडल, जैसे x[[86]] निष्पादन योग्य, [[ विंडोज़ बिटमैप |विंडोज़ बिटमैप]] , टीआईएफएफ, या [[जेपीईजी]] छवियां; ये मॉडल केवल तभी सक्रिय होते हैं जब विशेष फ़ाइल प्रकार का पता लगाया जाता है।

सभी ~~PAQ संस्करण एक~~ समय में एक बिट की ~~भविष्यवाणी~~ करते हैं और ~~संपीड़ित~~ करते हैं, ~~लेकिन~~ मॉडल के विवरण और ~~भविष्यवाणियों~~ को संयुक्त और पोस्टप्रोसेस करने के ~~तरीके~~ में भिन्नता होती है। एक बार जब अगली-बिट संभावना निर्धारित हो जाती है, तो इसे [[अंकगणितीय कोडिंग]] द्वारा एन्कोड किया जाता है। ~~संस्करण~~ के आधार पर ~~भविष्यवाणियों~~ के संयोजन की तीन विधियाँ हैं:

सभी पी.ए.क्यू. वर्जन समय में बिट की पूर्वानुमान करते हैं और कंप्रेस करते हैं, किन्तु मॉडल के विवरण और पूर्वानुमानो को संयुक्त और पोस्टप्रोसेस करने के विधियों में भिन्नता होती है। एक बार जब अगली-बिट संभावना निर्धारित हो जाती है, तो इसे [[अंकगणितीय कोडिंग]] द्वारा एन्कोड किया जाता है। वर्जन के आधार पर पूर्वानुमानो के संयोजन की तीन विधियाँ हैं:

* ~~PAQ1~~ से ~~PAQ3~~ तक, प्रत्येक पूर्वानुमान को बिट ~~गणनाओं की एक जोड़ी के रूप में दर्शाया जाता है~~ <math>(n_0, n_1)</math>. इन गणनाओं को भारित योग द्वारा संयोजित किया जाता है, जिसमें लंबे संदर्भों को अधिक महत्व दिया जाता है।

*पी.ए.क्यू.1 से पी.ए.क्यू.3 तक, प्रत्येक पूर्वानुमान को बिट गणना <math>(n_0, n_1)</math> की एक जोड़ी के रूप में दर्शाया जाता है। इन गणनाओं को भारित योग द्वारा संयोजित किया जाता है, जिसमें लंबे संदर्भों को अधिक महत्व दिया जाता है।

* ~~PAQ4~~ से ~~PAQ6~~ में, पूर्वानुमानों को पहले की तरह संयोजित किया जाता है, ~~लेकिन~~ प्रत्येक मॉडल को दिए गए भार को अधिक ~~सटीक~~ मॉडल के पक्ष में समायोजित किया जाता है।

* पी.ए.क्यू.4 से पी.ए.क्यू.6 में, पूर्वानुमानों को पहले की तरह संयोजित किया जाता है, किन्तु प्रत्येक मॉडल को दिए गए भार को अधिक स्पष्ट मॉडल के पक्ष में समायोजित किया जाता है।

* ~~PAQ7~~ और ~~बाद~~ में, प्रत्येक मॉडल गिनती की एक जोड़ी के ~~बजाय एक~~ संभावना को आउटपुट करता है। संभावनाओं को एक [[कृत्रिम तंत्रिका नेटवर्क]] का उपयोग करके संयोजित किया जाता है।

* पी.ए.क्यू.7 और पश्चात् में, प्रत्येक मॉडल गिनती की जोड़ी के अतिरिक्त संभावना को आउटपुट करता है। संभावनाओं को [[कृत्रिम तंत्रिका नेटवर्क|आर्टिफिशल न्यूरल नेटवर्क]] का उपयोग करके संयोजित किया जाता है।

~~PAQ1SSE~~ और ~~बाद~~ के ~~संस्करण~~ द्वितीयक प्रतीक अनुमान (~~SSE~~) का उपयोग करके ~~भविष्यवाणी~~ को पोस्टप्रोसेस करते हैं। किसी तालिका में नई ~~भविष्यवाणी~~ देखने के लिए संयुक्त ~~भविष्यवाणी~~ और एक छोटे संदर्भ का उपयोग किया जाता है। बिट एन्कोड होने के ~~बाद~~, पूर्वानुमान त्रुटि को कम करने के लिए तालिका प्रविष्टि को समायोजित किया जाता है। एसएसई चरणों को विभिन्न संदर्भों के साथ पाइपलाइन किया जा सकता है या औसत आउटपुट के साथ समानांतर में गणना की जा सकती है।

पी.ए.क्यू.1एसएसई और पश्चात् के वर्जन द्वितीयक प्रतीक अनुमान (एसएसई) का उपयोग करके पूर्वानुमान को पोस्टप्रोसेस करते हैं। किसी तालिका में नई पूर्वानुमान देखने के लिए संयुक्त पूर्वानुमान और छोटे संदर्भ का उपयोग किया जाता है। बिट एन्कोड होने के पश्चात् , पूर्वानुमान त्रुटि को कम करने के लिए तालिका प्रविष्टि को समायोजित किया जाता है। एसएसई चरणों को विभिन्न संदर्भों के साथ पाइपलाइन किया जा सकता है या औसत आउटपुट के साथ समानांतर में गणना की जा सकती है।

===अंकगणित कोडिंग===

एक स्ट्रिंग s को सबसे छोटी बाइट स्ट्रिंग में ~~संपीड़ित~~ किया जाता है जो कि [0, 1] रेंज में बेस-256 ~~[[बड़े~~ एंडियन~~]] संख्या~~ x का प्रतिनिधित्व करता है जैसे कि P(r < s) ≤ x < P(r ≤ s), जहां P(r < s) संभावना है कि एक ~~यादृच्छिक~~ स्ट्रिंग r जिसकी लंबाई s के समान है, ~~[[शब्दकोषीय क्रम]] में~~ s से कम होगी। ऐसा x खोजना ~~हमेशा~~ संभव है कि x की लंबाई ~~[[शोर-चैनल कोडिंग प्रमेय]] से अधिकतम एक बाइट लंबी हो~~, ~~-लॉग~~2पी(आर = एस) बिट्स. एस की लंबाई संग्रह शीर्षलेख में संग्रहीत है।

एक स्ट्रिंग s को सबसे छोटी बाइट स्ट्रिंग में कंप्रेस किया जाता है जो [0, 1] रेंज में बेस-256 बिग-एंडियन नंबर x का प्रतिनिधित्व करता है जैसे कि P(r < s) ≤ x < P(r ≤ s), जहां P(r < s) संभावना है कि एक रैंडम स्ट्रिंग r जिसकी लंबाई s के समान है, शब्दकोष की दृष्टि से s से कम होगी। ऐसा x खोजना सदैव संभव है कि x की लंबाई शैनन सीमा, −log2P(''r'' = ''s'') बिट्स से अधिक से अधिक एक बाइट अधिक हो। एस की लंबाई संग्रह शीर्षलेख में संग्रहीत है।

~~PAQ~~ में अंकगणित कोडिंग प्रत्येक ~~भविष्यवाणी~~ के लिए x पर निचली और ऊपरी सीमा को बनाए रखते हुए कार्यान्वित की जाती है, प्रारंभ में [0, 1]। प्रत्येक ~~भविष्यवाणी~~ के ~~बाद~~, वर्तमान सीमा को P(0) और P(1) के अनुपात में दो भागों में विभाजित किया जाता है, संभावना है कि s का अगला बिट क्रमशः 0 या 1 होगा, s के पिछले बिट्स को देखते हुए। फिर अगली बिट को नई श्रेणी के लिए संबंधित उपश्रेणी का चयन करके एन्कोड किया जाता है।

पी.ए.क्यू. में अंकगणित कोडिंग प्रत्येक पूर्वानुमान के लिए x पर निचली और ऊपरी सीमा को बनाए रखते हुए कार्यान्वित की जाती है, प्रारंभ में [0, 1]। प्रत्येक पूर्वानुमान के पश्चात् , वर्तमान सीमा को P(0) और P(1) के अनुपात में दो भागों में विभाजित किया जाता है, संभावना है कि s का अगला बिट क्रमशः 0 या 1 होगा, s के पिछले बिट्स को देखते हुए। फिर अगली बिट को नई श्रेणी के लिए संबंधित उपश्रेणी का चयन करके एन्कोड किया जाता है।

संख्या x को बिट ~~भविष्यवाणियों~~ की एक समान श्रृंखला बनाकर वापस स्ट्रिंग s में विघटित किया जाता है (चूंकि s के पिछले बिट्स ज्ञात हैं)। ~~संपीड़न~~ के साथ सीमा को विभाजित किया गया है। x वाला भाग नई श्रेणी बन जाता है, और संबंधित बिट को s से जोड़ दिया जाता है।

संख्या x को बिट पूर्वानुमानो की समान श्रृंखला बनाकर वापस स्ट्रिंग s में विघटित किया जाता है (चूंकि s के पिछले बिट्स ज्ञात हैं)। कंप्रेशन के साथ सीमा को विभाजित किया गया है। जो कि x वाला भाग नई श्रेणी बन जाता है, और संबंधित बिट को s से जोड़ दिया जाता है।

~~PAQ~~ में, सीमा की निचली और ऊपरी सीमा को 3 भागों में दर्शाया गया है। सबसे महत्वपूर्ण आधार-256 अंक समान हैं, इसलिए उन्हें x के अग्रणी बाइट्स के रूप में लिखा जा सकता है। अगले 4 बाइट्स को मेमोरी में रखा जाता है, ~~ताकि~~ प्रमुख बाइट अलग हो। अनुगामी बिट्स को निचली सीमा के लिए सभी शून्य और ऊपरी सीमा के लिए सभी शून्य माना जाता है। निचली सीमा से एक और बाइट लिखकर ~~संपीड़न~~ समाप्त किया जाता है।

पी.ए.क्यू. में, सीमा की निचली और ऊपरी सीमा को 3 भागों में दर्शाया गया है। सबसे महत्वपूर्ण आधार-256 अंक समान हैं, इसलिए उन्हें x के अग्रणी बाइट्स के रूप में लिखा जा सकता है। अगले 4 बाइट्स को मेमोरी में रखा जाता है, जिससे प्रमुख बाइट अलग हो। अनुगामी बिट्स को निचली सीमा के लिए सभी शून्य और ऊपरी सीमा के लिए सभी शून्य माना जाता है। निचली सीमा से और बाइट लिखकर कंप्रेशन समाप्त किया जाता है।

===अनुकूली मॉडल भार===

~~PAQ6~~ के माध्यम से ~~PAQ संस्करणों~~ में, प्रत्येक मॉडल ~~अलग-अलग संदर्भों के एक सेट को~~ गिनती की एक जोड़ी ~~में मैप करता है~~, <math>n_0</math>, शून्य बिट्स की गिनती, और <math>n_1</math>, 1 ~~बिट~~ की ~~गिनती। हाल~~ के इतिहास का पक्ष लेने के लिए, विपरीत बिट देखे जाने पर 2 से अधिक की आधी गिनती को छोड़ दिया जाता है। उदाहरण के लिए, यदि किसी संदर्भ से जुड़ी वर्तमान स्थिति है <math>(n_0,n_1) = (12,3)</math> और 1 देखा जाता है, तो गिनती (7, 4) में अपडेट हो जाती है।

पी.ए.क्यू.6 के माध्यम से पी.ए.क्यू. वर्जनो में, प्रत्येक मॉडल गिनती की एक जोड़ी, <math>n_0</math>, शून्य बिट्स की गिनती, और <math>n_1</math>, 1 बिट्स की गिनती के लिए अलग-अलग संदर्भों का एक सेट मैप करता है। वर्तमान के इतिहास का पक्ष लेने के लिए, विपरीत बिट देखे जाने पर 2 से अधिक की आधी गिनती को छोड़ दिया जाता है। उदाहरण के लिए, यदि किसी संदर्भ से जुड़ी वर्तमान स्थिति <math>(n_0,n_1) = (12,3)</math> है और 1 देखा जाता है, तो गिनती (7, 4) में अपडेट की जाती है।

एक बिट को अंकगणितीय रूप से उसकी संभाव्यता के आनुपातिक स्थान के साथ कोडित किया जाता है, या तो P(1) या P(0) = 1 - P(1)। संभावनाओं की गणना 0 और 1 की गणना के भारित योग द्वारा की जाती है:

* एस0 = एस''i'' wiएन0''i'',

*''S''0 = Σ''i'' ''wi'' ''n''0''i'',

* एस1 = एस''i'' wiएन1''i'',

*''S''1 = Σ''i'' ''wi'' ''n''1''i'',

* एस = एस0 + एस1,

*''S'' = ''S''0 + ''S''1,

* पी(0) = एस0 / एस,

*P(0) = ''S''0 / ''S'',

* पी(1) = एस1 / एस,

*P(1) = ''S''1 / ''S'',

~~कहाँ डब्ल्यू~~ii-वें मॉडल का ~~वजन~~ है। ~~PAQ3~~ के माध्यम से, ~~वजन~~ तय किया गया और तदर्थ ~~तरीके~~ से सेट किया गया। (~~आदेश~~-एन संदर्भों का भार ~~एन था2~~.~~) PAQ4~~ से ~~शुरुआत~~ करते हुए, ~~वज़न~~ को उस दिशा में अनुकूल रूप से समायोजित किया गया था जो समान संदर्भ सेट में भविष्य की त्रुटियों को कम करेगा। यदि कोड किया जाने वाला बिट y है, तो ~~वजन~~ समायोजन है:

जहां ''wi'' ''i''-वें मॉडल का भार है। पी.ए.क्यू.3 के माध्यम से, भार तय किया गया और तदर्थ विधियों से सेट किया गया। (ऑर्डर-''n'' संदर्भों का भार n2 था।) पी.ए.क्यू.4 से प्रारंभ करते हुए, भार को उस दिशा में अनुकूल रूप से समायोजित किया गया था जो समान संदर्भ सेट में भविष्य की त्रुटियों को कम करेगा। यदि कोड किया जाने वाला बिट y है, तो भार समायोजन है:

* एनi= एन0''i'' + एन1''i'',

*''ni'' = ''n''0''i'' + ''n''1''i'',

*त्रुटि = y – P(1),

** त्रुटि = ''y'' – P(1),

* ~~डब्ल्यू~~i← वीi+ [(~~एस एन~~1''i'' − एस1 ni) / (एस0 S1)] ~~गलती।~~

** ''wi'' ← ''wi'' + [(''S'' ''n''1''i'' − ''S''1 ''ni'') / (''S''0 ''S''1)] त्रुटि.

===~~तंत्रिका~~-नेटवर्क मिश्रण===

===न्यूरल-नेटवर्क मिश्रण===

~~PAQ7~~ से ~~शुरू~~ होकर, प्रत्येक मॉडल ~~एक भविष्यवाणी~~ आउटपुट करता है (गिनती की एक जोड़ी के ~~बजाय~~)। ये ~~भविष्यवाणियाँ~~ लॉजिस्टिक डोमेन में औसत हैं:

पी.ए.क्यू.7 से प्रारंभ होकर, प्रत्येक मॉडल पूर्वानुमान आउटपुट करता है (गिनती की जोड़ी के अतिरिक्त )। ये पूर्वानुमान लॉजिस्टिक डोमेन में औसत हैं:

* ~~एक्स~~i= खिंचाव(पी''i''(1)),

* ''xi'' = खिंचाव (P''i''(1)),

* पी(1) = स्क्वैश(Σ''i'' wi~~एक्स~~i),

* P(1) = स्क्वैश (Σ''i'' ''wi'' ''xi''),

जहां P(1) संभावना है कि अगला बिट 1, P होगा''i''(1) आई-वें मॉडल द्वारा अनुमानित संभावना है, और

जहां P(1) संभावना है कि अगला बिट 1, P होगा''i''(1) i -वें मॉडल द्वारा अनुमानित संभावना है, और

* खिंचाव(x) = ln(x / (1 − x)),

* स्क्वैश(x) = 1 / (1 + ई−x) (खिंचाव का ~~उलटा~~)।

* स्क्वैश(x) = 1 / (1 + ''e''−''x'') (खिंचाव का व्युत्क्रम)।

**

प्रत्येक ~~भविष्यवाणी~~ के ~~बाद~~, कोडिंग ~~लागत~~ को कम करने के लिए ~~वजन~~ को समायोजित करके मॉडल को अपडेट किया जाता है:

प्रत्येक पूर्वानुमान के पश्चात् , कोडिंग कास्ट को कम करने के लिए भार को समायोजित करके मॉडल को अपडेट किया जाता है:

* ~~डब्ल्यू~~i← वीi+ ~~एक्स~~i(~~वाई - पी~~(1)),

*''wi'' ← ''wi'' + η ''xi'' (''y'' − P(1)),

जहां η [[सीखने की दर]] है (~~आमतौर पर~~ 0.002 से 0.01), y अनुमानित बिट है, और (y − P(1)) ~~भविष्यवाणी~~ त्रुटि है। वेट अपडेट एल्गोरिदम ~~[[पश्चप्रचार]]~~ से अलग है जिसमें P(1)P(0) शब्द हटा दिए जाते हैं। ऐसा इसलिए है क्योंकि ~~तंत्रिका~~ नेटवर्क का लक्ष्य कोडिंग ~~लागत~~ को कम करना है, न कि मूल माध्य वर्ग ~~त्रुटि।~~

जहां η सीखने की दर है (समान्य रूप से 0.002 से 0.01), y अनुमानित बिट है, और (y − P(1)) पूर्वानुमान त्रुटि है। वेट अपडेट एल्गोरिदम बैकप्रॉपैगेशन से अलग है जिसमें P(1)P(0) शब्द हटा दिए जाते हैं। ऐसा इसलिए है क्योंकि न्यूरल नेटवर्क का लक्ष्य कोडिंग कास्ट को कम करना है, न कि मूल माध्य वर्ग त्रुटि है।

पीएक्यू के अधिकांश ~~संस्करण तंत्रिका~~ नेटवर्क के लिए ~~वजन~~ के सेट के बीच चयन करने के लिए एक छोटे संदर्भ का उपयोग करते हैं। कुछ ~~संस्करण~~ एकाधिक नेटवर्क का उपयोग करते हैं जिनके आउटपुट एसएसई चरणों से पहले एक और नेटवर्क के साथ संयुक्त होते हैं। इसके ~~अलावा~~, प्रत्येक इनपुट ~~भविष्यवाणी~~ के लिए कई इनपुट हो सकते हैं जो ~~पी के गैर-रेखीय कार्य हैं~~''i''(1) ~~खिंचाव~~ के अतिरिक्त (पी(1))।

पीएक्यू के अधिकांश वर्जन न्यूरल नेटवर्क के लिए भार के सेट के बीच चयन करने के लिए एक छोटे संदर्भ का उपयोग करते हैं। कुछ वर्जन एकाधिक नेटवर्क का उपयोग करते हैं जिनके आउटपुट एसएसई चरणों से पहले एक और नेटवर्क के साथ संयुक्त होते हैं। इसके अतिरिक्त , प्रत्येक इनपुट पूर्वानुमान के लिए कई इनपुट हो सकते हैं जो स्ट्रेच P''i''(1) के अतिरिक्त (P(1)) के गैर-रेखीय कार्य हैं।

===संदर्भ मॉडलिंग===

प्रत्येक मॉडल एस के ज्ञात बिट्स को संदर्भों के एक सेट में विभाजित करता है और प्रत्येक संदर्भ को 8-बिट स्थिति द्वारा दर्शाए गए बिट इतिहास में मैप करता है। ~~PAQ6~~ के माध्यम से ~~संस्करणों~~ में, ~~राज्य~~ काउंटरों की एक जोड़ी ~~का प्रतिनिधित्व करता है~~ (एन0, एन1). ~~PAQ7~~ और बाद के ~~संस्करणों~~ में कुछ ~~शर्तों~~ के ~~तहत~~, स्थिति अंतिम बिट या संपूर्ण अनुक्रम के मूल्य का भी प्रतिनिधित्व करती है। प्रत्येक मॉडल के लिए 256-प्रविष्टि तालिका का उपयोग करके ~~राज्यों~~ को संभावनाओं के आधार पर मैप किया जाता है। मॉडल द्वारा ~~भविष्यवाणी~~ के बाद, ~~भविष्यवाणी~~ त्रुटि को कम करने के लिए तालिका प्रविष्टि को थोड़ा (~~आमतौर पर~~ 0.4%) समायोजित किया जाता है।

प्रत्येक मॉडल एस के ज्ञात बिट्स को संदर्भों के एक सेट में विभाजित करता है और प्रत्येक संदर्भ को 8-बिट स्थिति द्वारा दर्शाए गए बिट इतिहास में मैप करता है। पी.ए.क्यू.6 के माध्यम से वर्जनो में, स्टेट काउंटरों की एक जोड़ी (''n''0, ''n''1) का प्रतिनिधित्व करता है। पी.ए.क्यू.7 और बाद के वर्जनो में कुछ नियमो के अनुसार , स्थिति अंतिम बिट या संपूर्ण अनुक्रम के मूल्य का भी प्रतिनिधित्व करती है। प्रत्येक मॉडल के लिए 256-प्रविष्टि तालिका का उपयोग करके स्टेट को संभावनाओं के आधार पर मैप किया जाता है। मॉडल द्वारा पूर्वानुमान के बाद, पूर्वानुमान त्रुटि को कम करने के लिए तालिका प्रविष्टि को थोड़ा (समान्य रूप से 0.4%) समायोजित किया जाता है।

सभी ~~PAQ8 संस्करणों~~ में, प्रतिनिधित्व योग्य स्थितियाँ इस प्रकार हैं:

सभी पी.ए.क्यू.8 वर्जनो में, प्रतिनिधित्व योग्य स्थितियाँ इस प्रकार हैं:

* 4 बिट तक के लिए ~~सटीक~~ बिट अनुक्रम।

* 4 बिट तक के लिए स्पष्ट बिट अनुक्रम।

* 5 से 15 बिट्स के अनुक्रमों के लिए गिनती की एक जोड़ी और नवीनतम बिट का एक संकेतक।

* 5 से 15 बिट्स के अनुक्रमों के लिए गिनती की जोड़ी और नवीनतम बिट का संकेतक।

* 16 से 41 बिट्स के अनुक्रमों के लिए गिनती की एक जोड़ी।

* 16 से 41 बिट्स के अनुक्रमों के लिए गिनती की जोड़ी।

~~राज्यों~~ की संख्या 256 तक रखने के लिए, प्रतिनिधित्व योग्य गणनाओं पर निम्नलिखित सीमाएँ रखी गई हैं: (41, 0), (40, 1), (12, 2), (5, 3), (4, 4), ( 3, 5), (2, 12), (1, 40), (0, 41)। यदि कोई गिनती इस सीमा से अधिक हो जाती है, तो अगला ~~राज्य~~ n ~~के समान अनुपात के लिए चुना जाता है~~0 से एन1. इस प्रकार, यदि वर्तमान स्थिति (n0 = 4, एन1 = 4, अंतिम बिट = 0) और 1 देखा जाता है, तो नई स्थिति (~~एन) नहीं है~~0 = 4, एन1 = 5, अंतिम बिट = 1)~~. बल्कि~~, यह (एन0 = 3, एन1 = 4, अंतिम बिट = 1).

स्टेट की संख्या 256 तक रखने के लिए, प्रतिनिधित्व योग्य गणनाओं पर निम्नलिखित सीमाएँ रखी गई हैं: (41, 0), (40, 1), (12, 2), (5, 3), (4, 4), ( 3, 5), (2, 12), (1, 40), (0, 41)। यदि कोई गिनती इस सीमा से अधिक हो जाती है, तो अगला स्टेट ''n''0 से ''n''1 के समान अनुपात वाला चुना जाता है। इस प्रकार, यदि वर्तमान स्थिति (''n''0 = 4, ''n''1 = 4, अंतिम बिट = 0) है और 1 देखा जाता है, तो नई स्थिति (''n''0 = 4, ''n''1 = 5, अंतिम बिट = 1) नहीं है। चूँकि , यह (''n''0 = 3, n1 = 4, अंतिम बिट = 1) है।

अधिकांश संदर्भ मॉडल [[हैश तालिका]]ओं के रूप में कार्यान्वित किए जाते हैं। कुछ छोटे संदर्भों को प्रत्यक्ष लुकअप तालिकाओं के रूप में कार्यान्वित किया जाता है।

===~~पाठ~~ प्रीप्रोसेसिंग===

===टेक्स्ट प्रीप्रोसेसिंग===

~~PAQ~~ के कुछ ~~संस्करण~~, विशेष रूप से ~~PAsQDa~~, ~~PAQAR~~ (दोनों ~~PAQ6~~ डेरिवेटिव), और ~~PAQ8HP1~~ से ~~PAQ8HP8~~ (~~PAQ8~~ डेरिवेटिव और [[हटर पुरस्कार]] प्राप्तकर्ता) बाहरी शब्दकोश में शब्दों को देखकर और उन्हें 1- से 3-बाइट कोड के साथ बदलकर टेक्स्ट फ़ाइलों को प्रीप्रोसेस करते हैं। . इसके ~~अलावा~~, अपरकेस अक्षरों को एक विशेष वर्ण के साथ एन्कोड किया जाता है जिसके ~~बाद~~ लोअरकेस अक्षर आते हैं। ~~PAQ8HP~~ श्रृंखला में, शब्दकोश को वाक्यात्मक और शब्दार्थ संबंधी शब्दों को एक साथ समूहित करके व्यवस्थित किया जाता है। यह मॉडलों को संदर्भ के रूप में शब्दकोश कोड के सबसे महत्वपूर्ण बिट्स का उपयोग करने की अनुमति देता है।

पी.ए.क्यू. के कुछ वर्जन, विशेष रूप से पीए क्यूडीए, पी.ए.क्यू.एआर (दोनों पी.ए.क्यू.6 डेरिवेटिव), और पी.ए.क्यू.8एच.पी1 से पी.ए.क्यू.8एच.पी8 (पी.ए.क्यू.8 डेरिवेटिव और [[हटर पुरस्कार]] प्राप्तकर्ता) बाहरी शब्दकोश में शब्दों को देखकर और उन्हें 1- से 3-बाइट कोड के साथ बदलकर टेक्स्ट फ़ाइलों को प्रीप्रोसेस करते हैं। . इसके अतिरिक्त, अपरकेस अक्षरों को विशेष वर्ण के साथ एन्कोड किया जाता है जिसके पश्चात् लोअरकेस अक्षर आते हैं। पी.ए.क्यू.8एच.पी श्रृंखला में, शब्दकोश को वाक्यात्मक और शब्दार्थ संबंधी शब्दों को साथ समूहित करके व्यवस्थित किया जाता है। यह मॉडलों को संदर्भ के रूप में शब्दकोश कोड के सबसे महत्वपूर्ण बिट्स का उपयोग करने की अनुमति देता है।

==तुलना==

निम्नलिखित तालिका मैट महोनी द्वारा ~~[http://mattmahoney.net/dc/text.html~~ बड़े टेक्स्ट ~~संपीड़न~~ बेंचमार्क~~] से~~ एक नमूना है जिसमें ~~10 वाली फ़ाइल शामिल है[[~~अंग्रेजी विकिपीडिया~~]] पाठ~~ के ~~9~~ बाइट्स (1 ~~[[गीगाबाइट]]~~, या 0.931 ~~[[GiB]]~~)।

निम्नलिखित तालिका मैट महोनी द्वारा बड़े टेक्स्ट कंप्रेशन बेंचमार्क का एक नमूना है जिसमें अंग्रेजी विकिपीडिया टेक्स्ट के 109 बाइट्स (1 जीबी, या 0.931 जीबी) वाली फ़ाइल सम्मिलित है।

~~~~

{| class="wikitable"

!कार्यक्रम

!कंप्रेस आकार (बाइट्स)

!मूल आकार का %

!कंप्रेशन समय ( एनएस / बी )

!मेमोरी (एमआईबी)

|-

~~! Program~~

|पीएक्यू8एचपी8

~~! Compressed size (bytes)~~

|133,423,109

~~! % of original size~~

|13.34

~~! Compression time ([[nanosecond~~|~~ns]]/[[byte~~|~~B]])~~

|64 639

~~! Memory (MiB)~~

|1849

|-

| ~~PAQ8HP8~~

|पी.पी.एम.डी

| ~~133~~,~~423~~,~~109 ~~

|183,976,014

| ~~{{#expr: ((133423109/1000000000)*100) round 2}}~~

|18.4

| ~~64 639~~

|880

| ~~1849~~

|256

|-

| ~~[[Prediction by partial matching#PPMd|PPMd]]~~

|बीजेआईपी 2

| ~~183~~,~~976~~,~~014 ~~

|254,007,875

| ~~{{#expr: ((183976014/1000000000)*100) round 2}}~~

|25.4

| ~~880~~

|379

| ~~256~~

|8

|-

Anonymous

Search

पी.ए.क्यू.: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
-{{For|the unrelated <code>PAQ.EXE</code> compressor for DOS|Quantum compression (disambiguation){{!}}Quantum compression}}
+{{For|डीओएस के लिए असंबंधित <code>PAQ.EXE</code> कंप्रेसर|क्वांटम संपीड़न (बहुविकल्पी){{!}}क्वांटम कंप्रेशन}}
-{{More footnotes needed|date=March 2011}}
+[[Image:Paq8o Sample Session.png|thumb|500px|पी.ए.क्यू.8O का नमूना सत्र]]'''पी.ए.क्यू.''' [[दोषरहित डेटा संपीड़न|लॉसलेस डेटा कंप्रेशन]] अभिलेखों की श्रृंखला है जो सहयोगात्मक विकास के माध्यम से कंप्रेशन अनुपात को मापने वाले अनेक बेंचमार्क पर शीर्ष रैंकिंग तक पहुंच गई है (चूँकि गति और मेमोरी उपयोग की मूल्य पर)। पीएक्यू के विशिष्ट वर्जनो ने [[हटर पुरस्कार]] और [[ कैलगरी चुनौती |कैलगरी चुनौती]] जीता है।<ref>{{cite web|url=http://mailcom.com/challenge/ |title=The Compression/SHA-1 Challenge |publisher=Mailcom.com |access-date=2010-05-19}}</ref> पीएक्यू [[जीएनयू जनरल पब्लिक लाइसेंस]] के अनुसार वितरित [[मुफ्त सॉफ्टवेयर]] है।<ref>{{cite web
-[[Image:Paq8o Sample Session.png|thumb|500px|PAQ8O का एक नमूना सत्र]]PAQ [[दोषरहित डेटा संपीड़न]] अभिलेखों की एक श्रृंखला है जो सहयोगात्मक विकास के माध्यम से संपीड़न अनुपात को मापने वाले कई बेंचमार्क पर शीर्ष रैंकिंग तक पहुंच गई है (हालांकि गति और मेमोरी उपयोग की कीमत पर)। पीएक्यू के विशिष्ट संस्करणों ने [[हटर पुरस्कार]] और [[ कैलगरी चुनौती ]] जीता है।<ref>{{cite web|url=http://mailcom.com/challenge/ |title=The Compression/SHA-1 Challenge |publisher=Mailcom.com |access-date=2010-05-19}}</ref> पीएक्यू [[जीएनयू जनरल पब्लिक लाइसेंस]] के तहत वितरित [[मुफ्त सॉफ्टवेयर]] है।<ref>{{cite web
 |url=http://mattmahoney.net/dc/
 |title=Homepage of the PAQ compressors
@@ Line 7: / Line 6: @@
 |access-date=2007-07-10
 }}</ref>
+==एल्गोरिदम==
+पी.ए.क्यू. संदर्भ मिश्रण एल्गोरिथ्म का उपयोग करता है। संदर्भ मिश्रण आंशिक मिलान (पीपीएम) द्वारा पूर्वानुमान से संबंधित है जिसमें कंप्रेसर को भविष्यवक्ता और अंकगणितीय कोडर में विभाजित किया गया है, किन्तु इसमें भिन्नता है कि अगले-प्रतीक पूर्वानुमान की गणना बड़ी संख्या में मॉडल से संभाव्यता अनुमानों के भारित संयोजन का उपयोग करके की जाती है। विभिन्न सन्दर्भों पर आधारित पीपीएम के विपरीत, किसी संदर्भ को सन्निहित होने की आवश्यकता नहीं है। अधिकांश पी.ए.क्यू. वर्जन निम्नलिखित संदर्भों के लिए अगले-प्रतीक आँकड़े एकत्र करते हैं:
+* ''n'' -ग्राम ; संदर्भअनुमानित प्रतीक से पहले <var>अंतिम '''''n''''' बाइट्स है (जैसा कि पीपीएम में है);</var>
-==एल्गोरिदम==
+*संपूर्ण-शब्द ''n''-ग्राम, केस और गैर-वर्णमाला वर्णों को अनदेखा करना (टेक्स्ट फ़ाइलों में उपयोगी);
-PAQ एक संदर्भ मिश्रण एल्गोरिथ्म का उपयोग करता है। संदर्भ मिश्रण आंशिक मिलान (पीपीएम) द्वारा भविष्यवाणी से संबंधित है जिसमें कंप्रेसर को एक भविष्यवक्ता और एक अंकगणितीय कोडर में विभाजित किया गया है, लेकिन इसमें भिन्नता है कि अगले-प्रतीक भविष्यवाणी की गणना बड़ी संख्या में मॉडल से संभाव्यता अनुमानों के भारित संयोजन का उपयोग करके की जाती है। विभिन्न सन्दर्भों पर आधारित। पीपीएम के विपरीत, किसी संदर्भ को सन्निहित होने की आवश्यकता नहीं है। अधिकांश PAQ संस्करण निम्नलिखित संदर्भों के लिए अगले-प्रतीक आँकड़े एकत्र करते हैं:
-* एन-ग्राम|एन-ग्राम; प्रसंग अंतिम है {{Var|n}} पूर्वानुमानित प्रतीक से पहले बाइट्स (जैसा कि पीपीएम में);
-* संपूर्ण-शब्द एन-ग्राम, केस और गैर-वर्णमाला वर्णों को अनदेखा करना (पाठ फ़ाइलों में उपयोगी);
 * विरल संदर्भ, उदाहरण के लिए, अनुमानित प्रतीक से पहले के दूसरे और चौथे बाइट्स (कुछ बाइनरी प्रारूपों में उपयोगी);
-* एनालॉग संदर्भ, जिसमें पिछले 8- या 16-बिट शब्दों के उच्च-क्रम बिट्स शामिल हैं (मल्टीमीडिया फ़ाइलों के लिए उपयोगी);
+* एनालॉग संदर्भ, जिसमें पिछले 8- या 16-बिट शब्दों के उच्च-क्रम बिट्स सम्मिलित हैं (मल्टीमीडिया फ़ाइलों के लिए उपयोगी);
 * द्वि-आयामी संदर्भ (छवियों, तालिकाओं और स्प्रेडशीट के लिए उपयोगी); पंक्ति की लंबाई दोहराए जाने वाले बाइट पैटर्न की स्ट्राइड लंबाई ज्ञात करके निर्धारित की जाती है;
-* विशेष मॉडल, जैसे x[[86]] निष्पादन योग्य, [[ विंडोज़ बिटमैप ]], टीआईएफएफ, या [[जेपीईजी]] छवियां; ये मॉडल केवल तभी सक्रिय होते हैं जब विशेष फ़ाइल प्रकार का पता लगाया जाता है।
+* विशेष मॉडल, जैसे x[[86]] निष्पादन योग्य, [[ विंडोज़ बिटमैप |विंडोज़ बिटमैप]] , टीआईएफएफ, या [[जेपीईजी]] छवियां; ये मॉडल केवल तभी सक्रिय होते हैं जब विशेष फ़ाइल प्रकार का पता लगाया जाता है।
-सभी PAQ संस्करण एक समय में एक बिट की भविष्यवाणी करते हैं और संपीड़ित करते हैं, लेकिन मॉडल के विवरण और भविष्यवाणियों को संयुक्त और पोस्टप्रोसेस करने के तरीके में भिन्नता होती है। एक बार जब अगली-बिट संभावना निर्धारित हो जाती है, तो इसे [[अंकगणितीय कोडिंग]] द्वारा एन्कोड किया जाता है। संस्करण के आधार पर भविष्यवाणियों के संयोजन की तीन विधियाँ हैं:
+सभी पी.ए.क्यू. वर्जन समय में बिट की पूर्वानुमान करते हैं और कंप्रेस करते हैं, किन्तु मॉडल के विवरण और पूर्वानुमानो को संयुक्त और पोस्टप्रोसेस करने के विधियों में भिन्नता होती है। एक बार जब अगली-बिट संभावना निर्धारित हो जाती है, तो इसे [[अंकगणितीय कोडिंग]] द्वारा एन्कोड किया जाता है। वर्जन के आधार पर पूर्वानुमानो के संयोजन की तीन विधियाँ हैं:
-* PAQ1 से PAQ3 तक, प्रत्येक पूर्वानुमान को बिट गणनाओं की एक जोड़ी के रूप में दर्शाया जाता है <math>(n_0, n_1)</math>. इन गणनाओं को भारित योग द्वारा संयोजित किया जाता है, जिसमें लंबे संदर्भों को अधिक महत्व दिया जाता है।
+*पी.ए.क्यू.1 से पी.ए.क्यू.3 तक, प्रत्येक पूर्वानुमान को बिट गणना <math>(n_0, n_1)</math> की एक जोड़ी के रूप में दर्शाया जाता है। इन गणनाओं को भारित योग द्वारा संयोजित किया जाता है, जिसमें लंबे संदर्भों को अधिक महत्व दिया जाता है।
-* PAQ4 से PAQ6 में, पूर्वानुमानों को पहले की तरह संयोजित किया जाता है, लेकिन प्रत्येक मॉडल को दिए गए भार को अधिक सटीक मॉडल के पक्ष में समायोजित किया जाता है।
+* पी.ए.क्यू.4 से पी.ए.क्यू.6 में, पूर्वानुमानों को पहले की तरह संयोजित किया जाता है, किन्तु प्रत्येक मॉडल को दिए गए भार को अधिक स्पष्ट मॉडल के पक्ष में समायोजित किया जाता है।
-* PAQ7 और बाद में, प्रत्येक मॉडल गिनती की एक जोड़ी के बजाय एक संभावना को आउटपुट करता है। संभावनाओं को एक [[कृत्रिम तंत्रिका नेटवर्क]] का उपयोग करके संयोजित किया जाता है।
+* पी.ए.क्यू.7 और पश्चात् में, प्रत्येक मॉडल गिनती की जोड़ी के अतिरिक्त संभावना को आउटपुट करता है। संभावनाओं को [[कृत्रिम तंत्रिका नेटवर्क|आर्टिफिशल न्यूरल नेटवर्क]] का उपयोग करके संयोजित किया जाता है।
-PAQ1SSE और बाद के संस्करण द्वितीयक प्रतीक अनुमान (SSE) का उपयोग करके भविष्यवाणी को पोस्टप्रोसेस करते हैं। किसी तालिका में नई भविष्यवाणी देखने के लिए संयुक्त भविष्यवाणी और एक छोटे संदर्भ का उपयोग किया जाता है। बिट एन्कोड होने के बाद, पूर्वानुमान त्रुटि को कम करने के लिए तालिका प्रविष्टि को समायोजित किया जाता है। एसएसई चरणों को विभिन्न संदर्भों के साथ पाइपलाइन किया जा सकता है या औसत आउटपुट के साथ समानांतर में गणना की जा सकती है।
+पी.ए.क्यू.1एसएसई और पश्चात् के वर्जन द्वितीयक प्रतीक अनुमान (एसएसई) का उपयोग करके पूर्वानुमान को पोस्टप्रोसेस करते हैं। किसी तालिका में नई पूर्वानुमान देखने के लिए संयुक्त पूर्वानुमान और छोटे संदर्भ का उपयोग किया जाता है। बिट एन्कोड होने के पश्चात् , पूर्वानुमान त्रुटि को कम करने के लिए तालिका प्रविष्टि को समायोजित किया जाता है। एसएसई चरणों को विभिन्न संदर्भों के साथ पाइपलाइन किया जा सकता है या औसत आउटपुट के साथ समानांतर में गणना की जा सकती है।
 ===अंकगणित कोडिंग===
-एक स्ट्रिंग s को सबसे छोटी बाइट स्ट्रिंग में संपीड़ित किया जाता है जो कि [0, 1] रेंज में बेस-256 [[बड़े एंडियन]] संख्या x का प्रतिनिधित्व करता है जैसे कि P(r < s) ≤ x < P(r ≤ s), जहां P(r < s) संभावना है कि एक यादृच्छिक स्ट्रिंग r जिसकी लंबाई s के समान है, [[शब्दकोषीय क्रम]] में s से कम होगी। ऐसा x खोजना हमेशा संभव है कि x की लंबाई [[शोर-चैनल कोडिंग प्रमेय]] से अधिकतम एक बाइट लंबी हो, -लॉग<sub>2</sub>पी(आर = एस) बिट्स. एस की लंबाई संग्रह शीर्षलेख में संग्रहीत है।
+एक स्ट्रिंग s को सबसे छोटी बाइट स्ट्रिंग में कंप्रेस किया जाता है जो [0, 1] रेंज में बेस-256 बिग-एंडियन नंबर x का प्रतिनिधित्व करता है जैसे कि P(r < s) ≤ x < P(r ≤ s), जहां P(r < s) संभावना है कि एक रैंडम स्ट्रिंग r जिसकी लंबाई s के समान है, शब्दकोष की दृष्टि से s से कम होगी। ऐसा x खोजना सदैव संभव है कि x की लंबाई शैनन सीमा, −log<sub>2</sub>P(''r'' = ''s'') बिट्स से अधिक से अधिक एक बाइट अधिक हो। एस की लंबाई संग्रह शीर्षलेख में संग्रहीत है।
-PAQ में अंकगणित कोडिंग प्रत्येक भविष्यवाणी के लिए x पर निचली और ऊपरी सीमा को बनाए रखते हुए कार्यान्वित की जाती है, प्रारंभ में [0, 1]। प्रत्येक भविष्यवाणी के बाद, वर्तमान सीमा को P(0) और P(1) के अनुपात में दो भागों में विभाजित किया जाता है, संभावना है कि s का अगला बिट क्रमशः 0 या 1 होगा, s के पिछले बिट्स को देखते हुए। फिर अगली बिट को नई श्रेणी के लिए संबंधित उपश्रेणी का चयन करके एन्कोड किया जाता है।
+पी.ए.क्यू. में अंकगणित कोडिंग प्रत्येक पूर्वानुमान के लिए x पर निचली और ऊपरी सीमा को बनाए रखते हुए कार्यान्वित की जाती है, प्रारंभ में [0, 1]। प्रत्येक पूर्वानुमान के पश्चात् , वर्तमान सीमा को P(0) और P(1) के अनुपात में दो भागों में विभाजित किया जाता है, संभावना है कि s का अगला बिट क्रमशः 0 या 1 होगा, s के पिछले बिट्स को देखते हुए। फिर अगली बिट को नई श्रेणी के लिए संबंधित उपश्रेणी का चयन करके एन्कोड किया जाता है।
-संख्या x को बिट भविष्यवाणियों की एक समान श्रृंखला बनाकर वापस स्ट्रिंग s में विघटित किया जाता है (चूंकि s के पिछले बिट्स ज्ञात हैं)। संपीड़न के साथ सीमा को विभाजित किया गया है। x वाला भाग नई श्रेणी बन जाता है, और संबंधित बिट को s से जोड़ दिया जाता है।
+संख्या x को बिट पूर्वानुमानो की समान श्रृंखला बनाकर वापस स्ट्रिंग s में विघटित किया जाता है (चूंकि s के पिछले बिट्स ज्ञात हैं)। कंप्रेशन के साथ सीमा को विभाजित किया गया है। जो कि x वाला भाग नई श्रेणी बन जाता है, और संबंधित बिट को s से जोड़ दिया जाता है।
-PAQ में, सीमा की निचली और ऊपरी सीमा को 3 भागों में दर्शाया गया है। सबसे महत्वपूर्ण आधार-256 अंक समान हैं, इसलिए उन्हें x के अग्रणी बाइट्स के रूप में लिखा जा सकता है। अगले 4 बाइट्स को मेमोरी में रखा जाता है, ताकि प्रमुख बाइट अलग हो। अनुगामी बिट्स को निचली सीमा के लिए सभी शून्य और ऊपरी सीमा के लिए सभी शून्य माना जाता है। निचली सीमा से एक और बाइट लिखकर संपीड़न समाप्त किया जाता है।
+पी.ए.क्यू. में, सीमा की निचली और ऊपरी सीमा को 3 भागों में दर्शाया गया है। सबसे महत्वपूर्ण आधार-256 अंक समान हैं, इसलिए उन्हें x के अग्रणी बाइट्स के रूप में लिखा जा सकता है। अगले 4 बाइट्स को मेमोरी में रखा जाता है, जिससे प्रमुख बाइट अलग हो। अनुगामी बिट्स को निचली सीमा के लिए सभी शून्य और ऊपरी सीमा के लिए सभी शून्य माना जाता है। निचली सीमा से और बाइट लिखकर कंप्रेशन समाप्त किया जाता है।
 ===अनुकूली मॉडल भार===
-PAQ6 के माध्यम से PAQ संस्करणों में, प्रत्येक मॉडल अलग-अलग संदर्भों के एक सेट को गिनती की एक जोड़ी में मैप करता है, <math>n_0</math>, शून्य बिट्स की गिनती, और <math>n_1</math>, 1 बिट की गिनती। हाल के इतिहास का पक्ष लेने के लिए, विपरीत बिट देखे जाने पर 2 से अधिक की आधी गिनती को छोड़ दिया जाता है। उदाहरण के लिए, यदि किसी संदर्भ से जुड़ी वर्तमान स्थिति है <math>(n_0,n_1) = (12,3)</math> और 1 देखा जाता है, तो गिनती (7, 4) में अपडेट हो जाती है।
+पी.ए.क्यू.6 के माध्यम से पी.ए.क्यू. वर्जनो में, प्रत्येक मॉडल गिनती की एक जोड़ी, <math>n_0</math>, शून्य बिट्स की गिनती, और <math>n_1</math>, 1 बिट्स की गिनती के लिए अलग-अलग संदर्भों का एक सेट मैप करता है। वर्तमान के इतिहास का पक्ष लेने के लिए, विपरीत बिट देखे जाने पर 2 से अधिक की आधी गिनती को छोड़ दिया जाता है। उदाहरण के लिए, यदि किसी संदर्भ से जुड़ी वर्तमान स्थिति <math>(n_0,n_1) = (12,3)</math> है और 1 देखा जाता है, तो गिनती (7, 4) में अपडेट की जाती है।
 एक बिट को अंकगणितीय रूप से उसकी संभाव्यता के आनुपातिक स्थान के साथ कोडित किया जाता है, या तो P(1) या P(0) = 1 - P(1)। संभावनाओं की गणना 0 और 1 की गणना के भारित योग द्वारा की जाती है:
-* एस<sub>0</sub> = एस<sub>''i''</sub> w<sub>i</sub>एन<sub>0''i''</sub>,
+*''S''<sub>0</sub> = Σ<sub>''i''</sub> ''w<sub>i</sub>'' ''n''<sub>0''i''</sub>,
-* एस<sub>1</sub> = एस<sub>''i''</sub> w<sub>i</sub>एन<sub>1''i''</sub>,
+*''S''<sub>1</sub> = Σ<sub>''i''</sub> ''w<sub>i</sub>'' ''n''<sub>1''i''</sub>,
-* एस = एस<sub>0</sub> + एस<sub>1</sub>,
+*''S'' = ''S''<sub>0</sub> + ''S''<sub>1</sub>,
-* पी(0) = एस<sub>0</sub> / एस,
+*P(0) = ''S''<sub>0</sub> / ''S'',
-* पी(1) = एस<sub>1</sub> / एस,
+*P(1) = ''S''<sub>1</sub> / ''S'',
-कहाँ डब्ल्यू<sub>i</sub>i-वें मॉडल का वजन है। PAQ3 के माध्यम से, वजन तय किया गया और तदर्थ तरीके से सेट किया गया। (आदेश-एन संदर्भों का भार एन था<sup>2</sup>.) PAQ4 से शुरुआत करते हुए, वज़न को उस दिशा में अनुकूल रूप से समायोजित किया गया था जो समान संदर्भ सेट में भविष्य की त्रुटियों को कम करेगा। यदि कोड किया जाने वाला बिट y है, तो वजन समायोजन है:
+जहां ''w<sub>i</sub>'' ''i''-वें मॉडल का भार है। पी.ए.क्यू.3 के माध्यम से, भार तय किया गया और तदर्थ विधियों से सेट किया गया। (ऑर्डर-''n'' संदर्भों का भार n2 था।) पी.ए.क्यू.4 से प्रारंभ करते हुए, भार को उस दिशा में अनुकूल रूप से समायोजित किया गया था जो समान संदर्भ सेट में भविष्य की त्रुटियों को कम करेगा। यदि कोड किया जाने वाला बिट y है, तो भार समायोजन है:
-* एन<sub>i</sub>= एन<sub>0''i''</sub> + एन<sub>1''i''</sub>,
+*''n<sub>i</sub>'' = ''n''<sub>0''i''</sub> + ''n''<sub>1''i''</sub>,
-*त्रुटि = y – P(1),
+** त्रुटि = ''y'' – P(1),
-* डब्ल्यू<sub>i</sub>← वी<sub>i</sub>+ [(एस एन<sub>1''i''</sub> − एस<sub>1</sub> n<sub>i</sub>) / (एस<sub>0</sub> S<sub>1</sub>)] गलती।
+** ''w<sub>i</sub>'' ← ''w<sub>i</sub>'' + [(''S'' ''n''<sub>1''i''</sub> − ''S''<sub>1</sub> ''n<sub>i</sub>'') / (''S''<sub>0</sub> ''S''<sub>1</sub>)] त्रुटि.
-===तंत्रिका-नेटवर्क मिश्रण===
+===न्यूरल-नेटवर्क मिश्रण===
-PAQ7 से शुरू होकर, प्रत्येक मॉडल एक भविष्यवाणी आउटपुट करता है (गिनती की एक जोड़ी के बजाय)। ये भविष्यवाणियाँ लॉजिस्टिक डोमेन में औसत हैं:
+पी.ए.क्यू.7 से प्रारंभ होकर, प्रत्येक मॉडल पूर्वानुमान आउटपुट करता है (गिनती की जोड़ी के अतिरिक्त )। ये पूर्वानुमान लॉजिस्टिक डोमेन में औसत हैं:
-* एक्स<sub>i</sub>= खिंचाव(पी<sub>''i''</sub>(1)),
+* ''x<sub>i</sub>'' = खिंचाव (P<sub>''i''</sub>(1)),
-* पी(1) = स्क्वैश(Σ<sub>''i''</sub> w<sub>i</sub>एक्स<sub>i</sub>),
+* P(1) = स्क्वैश (Σ<sub>''i''</sub> ''w<sub>i</sub>'' ''x<sub>i</sub>''),
-जहां P(1) संभावना है कि अगला बिट 1, P होगा<sub>''i''</sub>(1) आई-वें मॉडल द्वारा अनुमानित संभावना है, और
+जहां P(1) संभावना है कि अगला बिट 1, P होगा<sub>''i''</sub>(1) i -वें मॉडल द्वारा अनुमानित संभावना है, और
 * खिंचाव(x) = ln(x / (1 − x)),
-* स्क्वैश(x) = 1 / (1 + ई<sup>−x</sup>) (खिंचाव का उलटा)।
+* स्क्वैश(x) = 1 / (1 + ''e''<sup>−''x''</sup>) (खिंचाव का व्युत्क्रम)।
+**
+**
-प्रत्येक भविष्यवाणी के बाद, कोडिंग लागत को कम करने के लिए वजन को समायोजित करके मॉडल को अपडेट किया जाता है:
+प्रत्येक पूर्वानुमान के पश्चात् , कोडिंग कास्ट को कम करने के लिए भार को समायोजित करके मॉडल को अपडेट किया जाता है:
-* डब्ल्यू<sub>i</sub>← वी<sub>i</sub>+ एक्स<sub>i</sub>(वाई - पी(1)),
+*''w<sub>i</sub>'' ← ''w<sub>i</sub>'' + η ''x<sub>i</sub>'' (''y'' − P(1)),
-जहां η [[सीखने की दर]] है (आमतौर पर 0.002 से 0.01), y अनुमानित बिट है, और (y − P(1)) भविष्यवाणी त्रुटि है। वेट अपडेट एल्गोरिदम [[पश्चप्रचार]] से अलग है जिसमें P(1)P(0) शब्द हटा दिए जाते हैं। ऐसा इसलिए है क्योंकि तंत्रिका नेटवर्क का लक्ष्य कोडिंग लागत को कम करना है, न कि मूल माध्य वर्ग त्रुटि।
+जहां η सीखने की दर है (समान्य रूप से 0.002 से 0.01), y अनुमानित बिट है, और (y − P(1)) पूर्वानुमान त्रुटि है। वेट अपडेट एल्गोरिदम बैकप्रॉपैगेशन से अलग है जिसमें P(1)P(0) शब्द हटा दिए जाते हैं। ऐसा इसलिए है क्योंकि न्यूरल नेटवर्क का लक्ष्य कोडिंग कास्ट को कम करना है, न कि मूल माध्य वर्ग त्रुटि है।
-पीएक्यू के अधिकांश संस्करण तंत्रिका नेटवर्क के लिए वजन के सेट के बीच चयन करने के लिए एक छोटे संदर्भ का उपयोग करते हैं। कुछ संस्करण एकाधिक नेटवर्क का उपयोग करते हैं जिनके आउटपुट एसएसई चरणों से पहले एक और नेटवर्क के साथ संयुक्त होते हैं। इसके अलावा, प्रत्येक इनपुट भविष्यवाणी के लिए कई इनपुट हो सकते हैं जो पी के गैर-रेखीय कार्य हैं<sub>''i''</sub>(1) खिंचाव के अतिरिक्त (पी(1))।
+पीएक्यू के अधिकांश वर्जन न्यूरल नेटवर्क के लिए भार के सेट के बीच चयन करने के लिए एक छोटे संदर्भ का उपयोग करते हैं। कुछ वर्जन एकाधिक नेटवर्क का उपयोग करते हैं जिनके आउटपुट एसएसई चरणों से पहले एक और नेटवर्क के साथ संयुक्त होते हैं। इसके अतिरिक्त , प्रत्येक इनपुट पूर्वानुमान के लिए कई इनपुट हो सकते हैं जो स्ट्रेच P<sub>''i''</sub>(1) के अतिरिक्त (P(1)) के गैर-रेखीय कार्य हैं।
 ===संदर्भ मॉडलिंग===
-प्रत्येक मॉडल एस के ज्ञात बिट्स को संदर्भों के एक सेट में विभाजित करता है और प्रत्येक संदर्भ को 8-बिट स्थिति द्वारा दर्शाए गए बिट इतिहास में मैप करता है। PAQ6 के माध्यम से संस्करणों में, राज्य काउंटरों की एक जोड़ी का प्रतिनिधित्व करता है (एन<sub>0</sub>, एन<sub>1</sub>). PAQ7 और बाद के संस्करणों में कुछ शर्तों के तहत, स्थिति अंतिम बिट या संपूर्ण अनुक्रम के मूल्य का भी प्रतिनिधित्व करती है। प्रत्येक मॉडल के लिए 256-प्रविष्टि तालिका का उपयोग करके राज्यों को संभावनाओं के आधार पर मैप किया जाता है। मॉडल द्वारा भविष्यवाणी के बाद, भविष्यवाणी त्रुटि को कम करने के लिए तालिका प्रविष्टि को थोड़ा (आमतौर पर 0.4%) समायोजित किया जाता है।
+प्रत्येक मॉडल एस के ज्ञात बिट्स को संदर्भों के एक सेट में विभाजित करता है और प्रत्येक संदर्भ को 8-बिट स्थिति द्वारा दर्शाए गए बिट इतिहास में मैप करता है। पी.ए.क्यू.6 के माध्यम से वर्जनो में, स्टेट काउंटरों की एक जोड़ी (''n''<sub>0</sub>, ''n''<sub>1</sub>) का प्रतिनिधित्व करता है। पी.ए.क्यू.7 और बाद के वर्जनो में कुछ नियमो के अनुसार , स्थिति अंतिम बिट या संपूर्ण अनुक्रम के मूल्य का भी प्रतिनिधित्व करती है। प्रत्येक मॉडल के लिए 256-प्रविष्टि तालिका का उपयोग करके स्टेट को संभावनाओं के आधार पर मैप किया जाता है। मॉडल द्वारा पूर्वानुमान के बाद, पूर्वानुमान त्रुटि को कम करने के लिए तालिका प्रविष्टि को थोड़ा (समान्य रूप से 0.4%) समायोजित किया जाता है।
-सभी PAQ8 संस्करणों में, प्रतिनिधित्व योग्य स्थितियाँ इस प्रकार हैं:
+सभी पी.ए.क्यू.8 वर्जनो में, प्रतिनिधित्व योग्य स्थितियाँ इस प्रकार हैं:
-* 4 बिट तक के लिए सटीक बिट अनुक्रम।
+* 4 बिट तक के लिए स्पष्ट बिट अनुक्रम।
-* 5 से 15 बिट्स के अनुक्रमों के लिए गिनती की एक जोड़ी और नवीनतम बिट का एक संकेतक।
+* 5 से 15 बिट्स के अनुक्रमों के लिए गिनती की जोड़ी और नवीनतम बिट का संकेतक।
-* 16 से 41 बिट्स के अनुक्रमों के लिए गिनती की एक जोड़ी।
+* 16 से 41 बिट्स के अनुक्रमों के लिए गिनती की जोड़ी।
-राज्यों की संख्या 256 तक रखने के लिए, प्रतिनिधित्व योग्य गणनाओं पर निम्नलिखित सीमाएँ रखी गई हैं: (41, 0), (40, 1), (12, 2), (5, 3), (4, 4), ( 3, 5), (2, 12), (1, 40), (0, 41)। यदि कोई गिनती इस सीमा से अधिक हो जाती है, तो अगला राज्य n के समान अनुपात के लिए चुना जाता है<sub>0</sub> से एन<sub>1</sub>. इस प्रकार, यदि वर्तमान स्थिति (n<sub>0</sub> = 4, एन<sub>1</sub> = 4, अंतिम बिट = 0) और 1 देखा जाता है, तो नई स्थिति (एन) नहीं है<sub>0</sub> = 4, एन<sub>1</sub> = 5, अंतिम बिट = 1). बल्कि, यह (एन<sub>0</sub> = 3, एन<sub>1</sub> = 4, अंतिम बिट = 1).
+स्टेट की संख्या 256 तक रखने के लिए, प्रतिनिधित्व योग्य गणनाओं पर निम्नलिखित सीमाएँ रखी गई हैं: (41, 0), (40, 1), (12, 2), (5, 3), (4, 4), ( 3, 5), (2, 12), (1, 40), (0, 41)। यदि कोई गिनती इस सीमा से अधिक हो जाती है, तो अगला स्टेट ''n''<sub>0</sub> से ''n''<sub>1</sub> के समान अनुपात वाला चुना जाता है। इस प्रकार, यदि वर्तमान स्थिति (''n''<sub>0</sub> = 4, ''n''<sub>1</sub> = 4, अंतिम बिट = 0) है और 1 देखा जाता है, तो नई स्थिति (''n''<sub>0</sub> = 4, ''n''<sub>1</sub> = 5, अंतिम बिट = 1) नहीं है। चूँकि , यह (''n''<sub>0</sub> = 3, n<sub>1</sub> = 4, अंतिम बिट = 1) है।
 अधिकांश संदर्भ मॉडल [[हैश तालिका]]ओं के रूप में कार्यान्वित किए जाते हैं। कुछ छोटे संदर्भों को प्रत्यक्ष लुकअप तालिकाओं के रूप में कार्यान्वित किया जाता है।
-===पाठ प्रीप्रोसेसिंग===
+===टेक्स्ट प्रीप्रोसेसिंग===
-PAQ के कुछ संस्करण, विशेष रूप से PAsQDa, PAQAR (दोनों PAQ6 डेरिवेटिव), और PAQ8HP1 से PAQ8HP8 (PAQ8 डेरिवेटिव और [[हटर पुरस्कार]] प्राप्तकर्ता) बाहरी शब्दकोश में शब्दों को देखकर और उन्हें 1- से 3-बाइट कोड के साथ बदलकर टेक्स्ट फ़ाइलों को प्रीप्रोसेस करते हैं। . इसके अलावा, अपरकेस अक्षरों को एक विशेष वर्ण के साथ एन्कोड किया जाता है जिसके बाद लोअरकेस अक्षर आते हैं। PAQ8HP श्रृंखला में, शब्दकोश को वाक्यात्मक और शब्दार्थ संबंधी शब्दों को एक साथ समूहित करके व्यवस्थित किया जाता है। यह मॉडलों को संदर्भ के रूप में शब्दकोश कोड के सबसे महत्वपूर्ण बिट्स का उपयोग करने की अनुमति देता है।
+पी.ए.क्यू. के कुछ वर्जन, विशेष रूप से पीए क्यूडीए, पी.ए.क्यू.एआर (दोनों पी.ए.क्यू.6 डेरिवेटिव), और पी.ए.क्यू.8एच.पी1 से पी.ए.क्यू.8एच.पी8 (पी.ए.क्यू.8 डेरिवेटिव और [[हटर पुरस्कार]] प्राप्तकर्ता) बाहरी शब्दकोश में शब्दों को देखकर और उन्हें 1- से 3-बाइट कोड के साथ बदलकर टेक्स्ट फ़ाइलों को प्रीप्रोसेस करते हैं। . इसके अतिरिक्त, अपरकेस अक्षरों को विशेष वर्ण के साथ एन्कोड किया जाता है जिसके पश्चात् लोअरकेस अक्षर आते हैं। पी.ए.क्यू.8एच.पी श्रृंखला में, शब्दकोश को वाक्यात्मक और शब्दार्थ संबंधी शब्दों को साथ समूहित करके व्यवस्थित किया जाता है। यह मॉडलों को संदर्भ के रूप में शब्दकोश कोड के सबसे महत्वपूर्ण बिट्स का उपयोग करने की अनुमति देता है।
 ==तुलना==
-निम्नलिखित तालिका मैट महोनी द्वारा [http://mattmahoney.net/dc/text.html बड़े टेक्स्ट संपीड़न बेंचमार्क] से एक नमूना है जिसमें 10 वाली फ़ाइल शामिल है<sup>[[अंग्रेजी विकिपीडिया]] पाठ के 9</sup> बाइट्स (1 [[गीगाबाइट]], या 0.931 [[GiB]])।
+निम्नलिखित तालिका मैट महोनी द्वारा बड़े टेक्स्ट कंप्रेशन बेंचमार्क का एक नमूना है जिसमें अंग्रेजी विकिपीडिया टेक्स्ट के 109 बाइट्स (1 जीबी, या 0.931 जीबी) वाली फ़ाइल सम्मिलित है।
-<!-- note - verbose calculations in this table "(x/1000000000)*100" instead of just "x/10000000", are intentional as I think they aid reader understanding. -->
 {| class="wikitable"
+!कार्यक्रम
+!कंप्रेस आकार (बाइट्स)
+!मूल आकार का %
+!कंप्रेशन समय ( एनएस / बी )
+!मेमोरी (एमआईबी)
 |-
-! Program
+|पीएक्यू8एचपी8
-! Compressed size (bytes)
+|133,423,109
-! % of original size
+|13.34
-! Compression time ([[nanosecond|ns]]/[[byte|B]])
+|64 639
-! Memory (MiB)
+|1849
 |-
-| PAQ8HP8
+|पी.पी.एम.डी
-| 133,423,109 <!-- if you edit this number - also update the copy in the calculation below -->
+|183,976,014
-| {{#expr: ((133423109/1000000000)*100) round 2}}
+|18.4
-| 64 639
+|880
-| 1849
+|256
 |-
-| [[Prediction by partial matching#PPMd|PPMd]]
+|बीजेआईपी 2
-| 183,976,014 <!-- if you edit this number - also update the copy in the calculation below -->
+|254,007,875
-| {{#expr: ((183976014/1000000000)*100) round 2}}
+|25.4
-| 880
+|379
-| 256
+|8
-|-