चौगुनी-परिशुद्धता फ़्लोटिंग-पॉइंट प्रारूप

कम्प्यूटिंग में, क्वाड्रुपल प्रिसिजन (या क्वाड प्रिसिजन) एक बाइनरी तैरनेवाला स्थल -आधारित कंप्यूटर नंबर प्रारूप है, जो 53-बिट डबल-परिशुद्धता फ़्लोटिंग-पॉइंट प्रारूप से कम से कम दोगुनी सटीकता के साथ 16 बाइट्स (128 बिट्स) पर कब्जा करता है।

यह 128-बिट चौगुनी परिशुद्धता न केवल उन अनुप्रयोगों के लिए डिज़ाइन की गई है, जिनके परिणामों की दोगुनी से अधिक परिशुद्धता की आवश्यकता होती है,^[1] बल्कि, एक प्राथमिक कार्य के रूप में, मध्यवर्ती गणनाओं और स्क्रैच वेरिएबल्स में अतिप्रवाह और राउंड-ऑफ त्रुटियों को कम करके दोहरे परिशुद्धता परिणामों की गणना को अधिक विश्वसनीय और सटीक रूप से अनुमति देना है। मूल आईईईई-754 फ़्लोटिंग पॉइंट मानक के प्राथमिक वास्तुकार विलियम कहाँ ने कहा, अभी के लिए विस्तारित परिशुद्धता#x86 आर्किटेक्चर विस्तारित परिशुद्धता प्रारूप|10-बाइट विस्तारित प्रारूप अतिरिक्त-सटीक अंकगणित के मूल्य और इसे तेजी से चलाने के लिए लागू करने की कीमत के बीच एक सहनीय समझौता है; बहुत जल्द परिशुद्धता के दो और बाइट्स सहनीय हो जाएंगे, और अंततः 16-बाइट प्रारूप ... व्यापक परिशुद्धता की ओर उस तरह का क्रमिक विकास पहले से ही देखने में था जब IEEE 754|फ़्लोटिंग-पॉइंट अंकगणित के लिए IEEE मानक 754 तैयार किया गया था।^[2] IEEE 754-2008 में 128-बिट बेस-2 प्रारूप को आधिकारिक तौर पर बाइनरी128 कहा जाता है।

आईईईई 754 चौगुनी-परिशुद्धता बाइनरी फ़्लोटिंग-पॉइंट प्रारूप: बाइनरी128

IEEE 754 मानक एक बाइनरी128 को इस प्रकार निर्दिष्ट करता है:

साइन बिट: 1 बिट
घातांक चौड़ाई: 15 बिट्स
महत्वपूर्ण परिशुद्धता (अंकगणित): 113 बिट्स (112 स्पष्ट रूप से संग्रहीत)

यह 33 से 36 महत्वपूर्ण दशमलव अंकों तक सटीकता देता है। यदि अधिकतम 33 महत्वपूर्ण अंकों वाली एक दशमलव स्ट्रिंग को सामान्य संख्या देते हुए IEEE 754 चतुर्गुण-सटीक प्रारूप में परिवर्तित किया जाता है, और फिर समान अंकों की संख्या के साथ दशमलव स्ट्रिंग में परिवर्तित किया जाता है, तो अंतिम परिणाम मूल स्ट्रिंग से मेल खाना चाहिए। यदि IEEE 754 चौगुनी-सटीक संख्या को कम से कम 36 महत्वपूर्ण अंकों के साथ दशमलव स्ट्रिंग में परिवर्तित किया जाता है, और फिर वापस चौगुनी-सटीक प्रतिनिधित्व में परिवर्तित किया जाता है, तो अंतिम परिणाम मूल संख्या से मेल खाना चाहिए।^[3] जब तक घातांक को सभी शून्यों के साथ संग्रहीत नहीं किया जाता है तब तक प्रारूप को मान 1 के साथ एक अंतर्निहित लीड बिट के साथ लिखा जाता है। इस प्रकार मेमोरी फॉर्मेट में महत्व के केवल 112 बिट्स दिखाई देते हैं, लेकिन कुल परिशुद्धता 113 बिट्स (लगभग 34 दशमलव अंक) है: log₁₀(2¹¹³) ≈ 34.016). बिट्स को इस प्रकार रखा गया है:

घातांक एन्कोडिंग

चौगुनी-सटीक बाइनरी फ़्लोटिंग-पॉइंट एक्सपोनेंट को ऑफसेट बाइनरी प्रतिनिधित्व का उपयोग करके एन्कोड किया गया है, जिसमें शून्य ऑफसेट 16383 है; इसे IEEE 754 मानक में प्रतिपादक पूर्वाग्रह के रूप में भी जाना जाता है।

इ_min = 0001₁₆ - 3एफएफएफ₁₆ = −16382
और_max = 7एफएफई₁₆ - 3एफएफएफ₁₆ = 16383
घातांक पूर्वाग्रह = 3एफएफएफ₁₆ = 16383

इस प्रकार, जैसा कि ऑफसेट बाइनरी प्रतिनिधित्व द्वारा परिभाषित किया गया है, वास्तविक घातांक प्राप्त करने के लिए, 16383 के ऑफसेट को संग्रहीत घातांक से घटाना होगा।

संग्रहित घातांक 0000₁₆ और 7एफएफएफ₁₆ विशेष रूप से व्याख्या की जाती है।

Exponent	Significand zero	Significand non-zero	Equation
0000₁₆	0, −0	subnormal numbers	(−1)^signbit × 2⁻¹⁶³⁸² × 0.significandbits₂
0001₁₆, ..., 7FFE₁₆	normalized value		(−1)^signbit × 2^{exponentbits₂ − 16383} × 1.significandbits₂
7FFF₁₆	±∞	NaN (quiet, signalling)

न्यूनतम सख्ती से सकारात्मक (असामान्य) मान 2 है⁻¹⁶⁴⁹⁴ ≈10⁻⁴⁹⁶⁵ और इसमें केवल एक बिट की सटीकता है। न्यूनतम सकारात्मक सामान्य मान 2 है⁻¹⁶³⁸² ≈ 3.3621 × 10⁻⁴⁹³² और इसकी सटीकता 113 बिट यानी ±2 है⁻¹⁶⁴⁹⁴भी। अधिकतम प्रतिनिधित्वयोग्य मान है 2¹⁶³⁸⁴ − 2¹⁶²⁷¹ ≈ 1.1897 × 10⁴⁹³².

चौगुनी परिशुद्धता उदाहरण

ये उदाहरण हेक्साडेसिमल में बिट प्रतिनिधित्व में दिए गए हैं, फ़्लोटिंग-पॉइंट मान का। इसमें संकेत, (पक्षपातपूर्ण) प्रतिपादक और महत्व शामिल हैं।

0000 0000 0000 0000 0000 0000 0000 0001₁₆ = 2⁻¹⁶³⁸²×2⁻¹¹²=2⁻¹⁶⁴⁹⁴
                                          ≈ 6.4751751194380251109244389582276465525 × 10⁻⁴⁹⁶⁶
                                            (सबसे छोटी धनात्मक उपसामान्य संख्या)

0000 उफफफफफफफफफफफफफफफफफफफफफ₁₆ = 2⁻¹⁶³⁸² × (1 − 2⁻¹¹²)
                                          ≈ 3.3621031431120935062626778173217519551 × 10⁻⁴⁹³²
                                            (सबसे बड़ी असामान्य संख्या)

0001 0000 0000 0000 0000 0000 0000 0000₁₆ = 2⁻¹⁶³⁸²
                                          ≈ 3.3621031431120935062626778173217526026 × 10⁻⁴⁹³²
                                            (सबसे छोटी सकारात्मक सामान्य संख्या)

7एफएफ फ्फ्फ फ्फ्फ फ्फ्फ फ्फ्फ फ्फ्फ फ्फ्फ₁₆ = 2¹⁶³⁸³ × (2 − 2⁻¹¹²)
                                          ≈ 1.1897314953572317650857593266280070162 × 10⁴⁹³²
                                            (सबसे बड़ी सामान्य संख्या)

3एफएफ फ्फ्फ फ्फ्फ फ्फ्फ फ्फ्फ फ्फ्फ फ्फ्फ₁₆ = 1 − 2⁻¹¹³
                                          ≈ 0.999999999999999999999999999999999999037
                                            (एक से कम सबसे बड़ी संख्या)

3fff 0000 0000 0000 0000 0000 0000 0000₁₆ = 1 (एक)

3fff 0000 0000 0000 0000 0000 0000 0001₁₆ = 1 + 2⁻¹¹²
                                          ≈ 1.000000000000000000000000000001926
                                            (एक से बड़ी सबसे छोटी संख्या)

सी000 0000 0000 0000 0000 0000 0000 0000₁₆ = −2

0000 0000 0000 0000 0000 0000 0000 0000₁₆ = 0
8000 0000 0000 0000 0000 0000 0000 0000₁₆ = −0

7fff 0000 0000 0000 0000 0000 0000 0000₁₆ = अनंत
ffff 0000 0000 0000 0000 0000 0000 0000₁₆ = −अनंत

4000 921f b544 42d1 8469 898c c517 01b8₁₆ ≈ पी

3ffd 5555 5555 5555 5555 5555 5555 5555₁₆ ≈ 1/3

डिफ़ॉल्ट रूप से, महत्व में बिट्स की विषम संख्या के कारण, 1/3 राउंड दोहरी परिशुद्धता की तरह नीचे आते हैं। तो गोलाई बिंदु से परे बिट्स हैं 0101... जो अंतिम स्थान पर एक इकाई के 1/2 से भी कम है।

डबल-डबल अंकगणित

दोहरे-परिशुद्धता मानों के जोड़े का उपयोग करके लगभग चौगुनी परिशुद्धता को लागू करने की एक सामान्य सॉफ़्टवेयर तकनीक को कभी-कभी 'डबल-डबल अंकगणित' कहा जाता है।^[4]^[5]^[6] 53-बिट महत्व के साथ आईईईई डबल-सटीक मानों के जोड़े का उपयोग करते हुए, डबल-डबल अंकगणित कम से कम महत्व वाले संख्याओं पर संचालन प्रदान करता है^[4] 2 × 53 = 106 bits (वास्तव में 107 बिट्स^[7] कुछ सबसे बड़े मानों को छोड़कर, सीमित घातांक सीमा के कारण), IEEE बाइनरी128 चौगुनी परिशुद्धता के 113-बिट महत्व से केवल थोड़ा कम सटीक। डबल-डबल की सीमा अनिवार्य रूप से डबल-सटीक प्रारूप के समान ही रहती है क्योंकि घातांक में अभी भी 11 बिट हैं,^[4]आईईईई चौगुनी परिशुद्धता (की एक सीमा) के 15-बिट प्रतिपादक से काफी कम है 1.8 × 10³⁰⁸डबल-डबल बनाम के लिए 1.2 × 10⁴⁹³² बाइनरी128 के लिए)।

विशेष रूप से, डबल-डबल तकनीक में एक डबल-डबल/चौगुना-सटीक मान q को योग के रूप में दर्शाया जाता है q = x + y दो दोहरे परिशुद्धता मान x और y, जिनमें से प्रत्येक q के महत्व का आधा हिस्सा प्रदान करता है।^[5] यानी जोड़ी (x, y) को q के स्थान पर संग्रहीत किया जाता है, और q मानों पर संचालन किया जाता है (+, −, ×, ...) को x और y मानों पर समतुल्य (लेकिन अधिक जटिल) संचालन में बदल दिया जाता है। इस प्रकार, इस तकनीक में अंकगणित दोहरे-परिशुद्धता संचालन के अनुक्रम में कम हो जाता है; चूंकि डबल-प्रिसिजन अंकगणित आमतौर पर हार्डवेयर में लागू किया जाता है, डबल-डबल अंकगणित आम तौर पर अधिक सामान्य मनमानी-सटीक अंकगणित तकनीकों की तुलना में काफी तेज होता है।^[4]^[5]

ध्यान दें कि डबल-डबल अंकगणित में निम्नलिखित विशेष विशेषताएं हैं:^[8]

जैसे-जैसे मूल्य का परिमाण घटता है, अतिरिक्त परिशुद्धता की मात्रा भी घटती जाती है। इसलिए, सामान्यीकृत सीमा में सबसे छोटी संख्या दोगुनी परिशुद्धता से संकीर्ण है। पूर्ण परिशुद्धता के साथ सबसे छोटी संख्या है 1000...0₂ (106 zeros) × 2⁻¹⁰⁷⁴, या 1.000...0₂ (106 zeros) × 2⁻⁹⁶⁸. वे संख्याएँ जिनका परिमाण 2 से छोटा है⁻¹⁰²¹ में दोहरी परिशुद्धता की तुलना में अतिरिक्त परिशुद्धता नहीं होगी।
परिशुद्धता के बिट्स की वास्तविक संख्या भिन्न हो सकती है। सामान्य तौर पर, संख्या के निम्न-क्रम वाले भाग का परिमाण उच्च-क्रम वाले भाग के आधे यूएलपी से अधिक नहीं होता है। यदि निम्न-क्रम वाला भाग उच्च-क्रम वाले भाग के आधे यूएलपी से कम है, तो उच्च-क्रम और निम्न-क्रम संख्याओं के महत्वपूर्ण के बीच महत्वपूर्ण बिट्स (या तो सभी 0 या सभी 1) निहित हैं। कुछ एल्गोरिदम जो महत्व में बिट्स की एक निश्चित संख्या पर भरोसा करते हैं, 128-बिट लंबी दोहरी संख्याओं का उपयोग करते समय विफल हो सकते हैं।
उपरोक्त कारण से, जैसे मूल्यों का प्रतिनिधित्व करना संभव है 1 + 2⁻¹⁰⁷⁴, जो 1 से बड़ी सबसे छोटी प्रतिनिधित्व योग्य संख्या है।

डबल-डबल अंकगणित के अलावा, यदि किसी उच्च परिशुद्धता फ़्लोटिंग-पॉइंट लाइब्रेरी के बिना उच्च परिशुद्धता की आवश्यकता होती है, तो ट्रिपल-डबल या क्वाड-डबल अंकगणित उत्पन्न करना भी संभव है। उन्हें क्रमशः तीन (या चार) दोहरे-सटीक मानों के योग के रूप में दर्शाया जाता है। वे क्रमशः कम से कम 159/161 और 212/215 बिट्स के साथ संचालन का प्रतिनिधित्व कर सकते हैं।

एक समान तकनीक का उपयोग डबल-क्वाड अंकगणित का उत्पादन करने के लिए किया जा सकता है, जिसे दो चौगुनी-सटीक मानों के योग के रूप में दर्शाया जाता है। वे कम से कम 226 (या 227) बिट्स के साथ संचालन का प्रतिनिधित्व कर सकते हैं।^[9]

कार्यान्वयन

चौगुनी परिशुद्धता को अक्सर सॉफ्टवेयर में विभिन्न तकनीकों द्वारा लागू किया जाता है (जैसे कि उपरोक्त डबल-डबल तकनीक, हालांकि वह तकनीक आईईईई चौगुनी परिशुद्धता को लागू नहीं करती है), क्योंकि 2016 तक चौगुनी परिशुद्धता के लिए प्रत्यक्ष हार्डवेयर समर्थन कम आम है (नीचे #हार्डवेयर समर्थन देखें)। चौगुनी (या उच्चतर) परिशुद्धता प्राप्त करने के लिए कोई सामान्य मनमाना-सटीक अंकगणितीय पुस्तकालयों का उपयोग कर सकता है, लेकिन विशेष चौगुनी-परिशुद्धता कार्यान्वयन उच्च प्रदर्शन प्राप्त कर सकता है।

कंप्यूटर-भाषा समर्थन

एक अलग प्रश्न यह है कि किस हद तक चौगुनी-सटीक प्रकारों को सीधे कंप्यूटर प्रोग्रामिंग भाषाओं में शामिल किया जाता है।

फोरट्रान में चौगुनी परिशुद्धता निर्दिष्ट की गई है real(real128) (मापांक iso_fortran_env फोरट्रान 2008 से, स्थिरांक का उपयोग किया जाना चाहिए real128 अधिकांश प्रोसेसर पर 16 के बराबर है), या जैसा real(selected_real_kind(33, 4931)), या गैर-मानक तरीके से REAL*16. (चौगुनी-सटीकता REAL*16 इंटेल फोरट्रान कंपाइलर द्वारा समर्थित है^[10] और जीएनयू फोरट्रान कंपाइलर द्वारा^[11] उदाहरण के लिए, x86, x86-64 और इटेनियम आर्किटेक्चर पर।)

सी (प्रोग्रामिंग भाषा) के लिए, आईएसओ/आईईसी टीएस 18661-3 (सी, इंटरचेंज और विस्तारित प्रकारों के लिए फ़्लोटिंग-पॉइंट एक्सटेंशन) निर्दिष्ट करता है _Float128 आईईईई 754 चतुर्गुण-सटीक प्रारूप (बाइनरी128) को लागू करने वाले प्रकार के रूप में।^[12] वैकल्पिक रूप से, कुछ प्रणालियों और कंपाइलरों के साथ C (प्रोग्रामिंग भाषा)/C++ में, चौगुनी परिशुद्धता को लंबे डबल प्रकार द्वारा निर्दिष्ट किया जा सकता है, लेकिन यह भाषा के लिए आवश्यक नहीं है (जिसके लिए केवल इसकी आवश्यकता होती है) long double कम से कम इतना सटीक होना double), न ही यह आम है.

x86 और x86-64 पर, सबसे आम C/C++ कंपाइलर लागू होते हैं long double या तो 80-बिट विस्तारित परिशुद्धता के रूप में (उदाहरण के लिए जीएनयू सी कंपाइलर जीसीसी^[13] और Intel C++ कंपाइलर के साथ /Qlong‑double बदलना^[14]) या बस दोहरी परिशुद्धता के पर्याय के रूप में (उदाहरण के लिए माइक्रोसॉफ्ट विजुअल सी++)।^[15]), चौगुनी परिशुद्धता के बजाय। ARM आर्किटेक्चर#AArch64|ARM 64-बिट आर्किटेक्चर (AArch64) के लिए प्रक्रिया कॉल मानक निर्दिष्ट करता है कि long double IEEE 754 चतुर्गुण-सटीक प्रारूप से मेल खाता है।^[16] कुछ अन्य आर्किटेक्चर पर, कुछ C/C++ कंपाइलर लागू होते हैं long double चौगुनी परिशुद्धता के रूप में, उदा. पावरपीसी पर जीसीसी (डबल-डबल के रूप में)।^[17]^[18]^[19]) और SPARC,^[20] या SPARC पर सन स्टूडियो (सॉफ़्टवेयर)।^[21] भले ही long double चौगुनी परिशुद्धता नहीं है, हालाँकि, कुछ C/C++ कंपाइलर एक विस्तार के रूप में एक गैरमानक चौगुनी-परिशुद्धता प्रकार प्रदान करते हैं। उदाहरण के लिए, जीसीसी एक चौगुनी-परिशुद्धता प्रकार प्रदान करता है जिसे कहा जाता है __float128 x86, x86-64 और इटेनियम सीपीयू के लिए,^[22] और पावरपीसी पर -mfloat128-हार्डवेयर या -mfloat128 विकल्पों का उपयोग करके IEEE 128-बिट फ़्लोटिंग-पॉइंट के रूप में;^[23] और x86 और x86-64 के लिए Intel के C/C++ कंपाइलर के कुछ संस्करण एक गैर-मानक चौगुनी-परिशुद्धता प्रकार की आपूर्ति करते हैं जिसे कहा जाता है _Quad.^[24] Google की कार्य-प्रगति वाली भाषा कार्बन (प्रोग्रामिंग भाषा) 'f128' नामक प्रकार के साथ इसके लिए समर्थन प्रदान करती है।^[25]

पुस्तकालय और टूलबॉक्स

जीएनयू कंपाइलर संग्रह क्वाड-प्रिसिजन गणित लाइब्रेरी, libquadmath, प्रदान करता है __float128 और __complex128 परिचालन.
बूस्ट (सी++ लाइब्रेरी) मल्टीप्रिसिजन लाइब्रेरी बूस्ट.मल्टीप्रिसिजन के लिए एकीकृत क्रॉस-प्लेटफ़ॉर्म सी++ इंटरफ़ेस प्रदान करता है __float128 और _Quad प्रकार, और इसमें मानक गणित लाइब्रेरी का एक कस्टम कार्यान्वयन शामिल है।^[26]
MATLAB के लिए मल्टीप्रिसिजन कंप्यूटिंग टूलबॉक्स MATLAB में चौगुनी-परिशुद्धता गणना की अनुमति देता है। इसमें बुनियादी अंकगणितीय कार्यक्षमता के साथ-साथ संख्यात्मक विधियाँ, सघन और विरल रैखिक बीजगणित भी शामिल हैं।^[27]
डबलफ्लोट्स^[28] पैकेज जूलिया प्रोग्रामिंग भाषा के लिए डबल-डबल संगणना के लिए समर्थन प्रदान करता है।
Doubledouble.py^[29] लाइब्रेरी पायथन में डबल-डबल गणनाओं को सक्षम बनाती है।^{[citation needed]}

मैथमेटिका आईईईई क्वाड-प्रिसिजन संख्याओं का समर्थन करता है: 128-बिट फ़्लोटिंग-पॉइंट मान (Real128), और 256-बिट जटिल मान (कॉम्प्लेक्स256)।^{[citation needed]}

हार्डवेयर समर्थन

IEEE चतुर्भुज परिशुद्धता को 1998 में IBM सिस्टम/390 G5 में जोड़ा गया था,^[30] और बाद के z/आर्किटेक्चर प्रोसेसर में हार्डवेयर में समर्थित है।^[31]^[32] IBM POWER9 CPU (पावर ISA#पावर ISA v.3.0|पावर ISA 3.0) में मूल 128-बिट हार्डवेयर समर्थन है।^[23]

IEEE 128-बिट फ़्लोट का मूल समर्थन PA-RISC 1.0 में परिभाषित किया गया है,^[33] और SPARC V8 में^[34] और वी9^[35] आर्किटेक्चर (उदाहरण के लिए 16 क्वाड-प्रिसिजन रजिस्टर %q0, %q4, ... हैं), लेकिन कोई भी SPARC CPU हार्डवेयर में क्वाड-प्रिसिजन ऑपरेशन लागू नहीं करता है as of 2004^[update].^[36] आईबीएम हेक्साडेसिमल फ्लोटिंग-पॉइंट#एक्सटेंडेड-प्रिसिजन 128-बिट|नॉन-आईईईई एक्सटेंडेड-प्रिसिजन (128 बिट्स ऑफ स्टोरेज, 1 साइन बिट, 7 एक्सपोनेंट बिट्स, 112 फ्रैक्शन बिट्स, 8 बिट्स अप्रयुक्त) को आईबीएम सिस्टम/370 सीरीज (1970-1980 के दशक) में जोड़ा गया था और 196 में कुछ आईबीएम सिस्टम/360|सिस्टम/360 मॉडल पर उपलब्ध था। 0एस (सिस्टम/360-85,^[37] -195, और अन्य विशेष अनुरोध द्वारा या ओएस सॉफ़्टवेयर द्वारा सिम्युलेटेड)।

सीमेंस 7.700 और 7.500 श्रृंखला मेनफ्रेम और उनके उत्तराधिकारी आईबीएम सिस्टम/360 और सिस्टम/370 के समान फ़्लोटिंग-पॉइंट प्रारूप और निर्देशों का समर्थन करते हैं।

VAX प्रोसेसर ने गैर-आईईईई क्वाड्रपल-प्रिसिजन फ़्लोटिंग पॉइंट को अपने H फ़्लोटिंग-पॉइंट प्रारूप के रूप में कार्यान्वित किया। इसमें एक साइन बिट, एक 15-बिट एक्सपोनेंट और 112-फ़्रेक्शन बिट्स थे, हालांकि मेमोरी में लेआउट आईईईई क्वाड्रुपल प्रिसिजन से काफी अलग था और एक्सपोनेंट पूर्वाग्रह भी भिन्न था। शुरुआती VAX प्रोसेसरों में से केवल कुछ ने हार्डवेयर में H फ़्लोटिंग-पॉइंट निर्देशों को लागू किया, अन्य सभी ने सॉफ़्टवेयर में H फ़्लोटिंग-पॉइंट का अनुकरण किया।

NEC SX-Aurora TSUBASA आर्किटेक्चर 128-बिट बाइनरी IEEE754 क्वाड सटीक संख्याओं को जोड़ने, घटाने, गुणा करने और तुलना करने का समर्थन करता है।^[38] दो पड़ोसी 64-बिट रजिस्टर का उपयोग किया जाता है। क्वाडप्रिसिजन अंकगणित वेक्टर रजिस्टर में समर्थित नहीं है।^[39] RISC-वी ी आर्किटेक्चर 128-बिट बाइनरी आईईईई 754-2008 फ्लोटिंग पॉइंट अंकगणित के लिए क्यू (क्वाड-प्रिसिजन) एक्सटेंशन निर्दिष्ट करता है।^[40] एल एक्सटेंशन (अभी तक प्रमाणित नहीं) 64-बिट और 128-बिट दशमलव फ़्लोटिंग पॉइंट निर्दिष्ट करेगा।^[41] क्वाड्रपल-प्रिसिजन (128-बिट) हार्डवेयर कार्यान्वयन को 128-बिट एफपीयू के साथ भ्रमित नहीं किया जाना चाहिए जो एकल निर्देश, कई डेटा निर्देशों को लागू करता है, जैसे कि स्ट्रीमिंग SIMD एक्सटेंशन या AltiVec, जो चार 32-बिट सिंगल-प्रिसिजन या दो 64-बिट डबल-प्रिसिजन मानों के 128-बिट वेक्टर प्रोसेसर को संदर्भित करता है जो एक साथ संचालित होते हैं।

यह भी देखें

आईईईई 754, फ्लोटिंग-पॉइंट अंकगणित के लिए आईईईई मानक
आईएसओ/आईईसी 10967, भाषा स्वतंत्र अंकगणित
आदिम डेटा प्रकार
क्यू संकेतन (वैज्ञानिक संकेतन)

संदर्भ

↑ David H. Bailey; Jonathan M. Borwein (July 6, 2009). "उच्च परिशुद्धता संगणना और गणितीय भौतिकी" (PDF).
↑ Higham, Nicholas (2002). "Designing stable algorithms" in Accuracy and Stability of Numerical Algorithms (2 ed). SIAM. p. 43.
↑ William Kahan (1 October 1987). "Lecture Notes on the Status of IEEE Standard 754 for Binary Floating-Point Arithmetic" (PDF).
↑ ^4.0 ^4.1 ^4.2 ^4.3 Yozo Hida, X. Li, and D. H. Bailey, Quad-Double Arithmetic: Algorithms, Implementation, and Application, Lawrence Berkeley National Laboratory Technical Report LBNL-46996 (2000). Also Y. Hida et al., Library for double-double and quad-double arithmetic (2007).
↑ ^5.0 ^5.1 ^5.2 J. R. Shewchuk, Adaptive Precision Floating-Point Arithmetic and Fast Robust Geometric Predicates, Discrete & Computational Geometry 18:305–363, 1997.
↑ Knuth, D. E. कंप्यूटर प्रोग्रामिंग की कला (2nd ed.). chapter 4.2.3. problem 9.
↑ Robert Munafo F107 and F161 High-Precision Floating-Point Data Types (2011).
↑ 128-Bit Long Double Floating-Point Data Type
↑ sourceware.org Re: The state of glibc libm
↑ "इंटेल फोरट्रान कंपाइलर उत्पाद संक्षिप्त (web.archive.org पर संग्रहीत प्रति)" (PDF). Su. Archived from the original on October 25, 2008. Retrieved 2010-01-23.{{cite web}}: CS1 maint: unfit URL (link)
↑ "GCC 4.6 Release Series - Changes, New Features, and Fixes". Retrieved 2010-02-06.
↑ "ISO/IEC TS 18661-3" (PDF). 2015-06-10. Retrieved 2019-09-22.
↑ i386 and x86-64 Options (archived copy on web.archive.org), Using the GNU Compiler Collection.
↑ Intel Developer Site
↑ MSDN homepage, about Visual C++ compiler
↑ "Procedure Call Standard for the ARM 64-bit Architecture (AArch64)" (PDF). 2013-05-22. Archived from the original (PDF) on 2019-10-16. Retrieved 2019-09-22.
↑ RS/6000 and PowerPC Options, Using the GNU Compiler Collection.
↑ Inside Macintosh - PowerPC Numerics Archived October 9, 2012, at the Wayback Machine
↑ 128-bit long double support routines for Darwin
↑ SPARC Options, Using the GNU Compiler Collection.
↑ The Math Libraries, Sun Studio 11 Numerical Computation Guide (2005).
↑ Additional Floating Types, Using the GNU Compiler Collection
↑ ^23.0 ^23.1 "GCC 6 Release Series - Changes, New Features, and Fixes". Retrieved 2016-09-13.
↑ Intel C++ Forums (2007).
↑ "कार्बन भाषा का मुख्य भंडार - भाषा डिज़ाइन". GitHub. 2022-08-09. Retrieved 2022-09-22.
↑ "Boost.Multiprecision - float128". Retrieved 2015-06-22.
↑ Pavel Holoborodko (2013-01-20). "MATLAB में तेज़ चौगुनी परिशुद्धता संगणनाएँ". Retrieved 2015-06-22.
↑ "DoubleFloats.jl". GitHub.
↑ "डॉबलेडोउब्ले.पी". GitHub.
↑ Schwarz, E. M.; Krygowski, C. A. (September 1999). "The S/390 G5 floating-point unit". IBM Journal of Research and Development. 43 (5/6): 707–721. CiteSeerX 10.1.1.117.6711. doi:10.1147/rd.435.0707.
↑ Gerwig, G. and Wetter, H. and Schwarz, E. M. and Haess, J. and Krygowski, C. A. and Fleischer, B. M. and Kroener, M. (May 2004). "The IBM eServer z990 floating-point unit. IBM J. Res. Dev. 48; pp. 311-322".{{cite news}}: CS1 maint: multiple names: authors list (link)
↑ Eric Schwarz (June 22, 2015). "The IBM z13 SIMD Accelerators for Integer, String, and Floating-Point" (PDF). Retrieved July 13, 2015.
↑ "बाइनरी इंटरचेंज प्रारूपों के लिए कार्यान्वयनकर्ता समर्थन". grouper.ieee.org. Archived from the original on 2017-10-27. Retrieved 2021-07-15.
↑ The SPARC Architecture Manual: Version 8 (archived copy on web.archive.org) (PDF). SPARC International, Inc. 1992. Archived from the original (PDF) on 2005-02-04. Retrieved 2011-09-24. SPARC is an instruction set architecture (ISA) with 32-bit integer and 32-, 64-, and 128-bit IEEE Standard 754 floating-point as its principal data types.
↑ David L. Weaver; Tom Germond, eds. (1994). The SPARC Architecture Manual: Version 9 (archived copy on web.archive.org) (PDF). SPARC International, Inc. Archived from the original (PDF) on 2012-01-18. Retrieved 2011-09-24. Floating-point: The architecture provides an IEEE 754-compatible floating-point instruction set, operating on a separate register file that provides 32 single-precision (32-bit), 32 double-precision (64-bit), 16 quad-precision (128-bit) registers, or a mixture thereof.
↑ "SPARC Behavior and Implementation". Numerical Computation Guide — Sun Studio 10. Sun Microsystems, Inc. 2004. Retrieved 2011-09-24. There are four situations, however, when the hardware will not successfully complete a floating-point instruction: ... The instruction is not implemented by the hardware (such as ... quad-precision instructions on any SPARC FPU).
↑ Padegs A (1968). "Structural aspects of the System/360 Model 85, III: Extensions to floating-point architecture". IBM Systems Journal. 7: 22–29. doi:10.1147/sj.71.0022.
↑ Vector Engine AssemblyLanguage Reference Manual, Chapter4 Assembler Syntax page 23.
↑ SX-Aurora TSUBASA Architecture Guide Revision 1.1 (p. 38, 60).
↑ RISC-V ISA Specification v. 20191213, Chapter 13, “Q” Standard Extension for Quad-Precision Floating-Point, page 79.
↑ [1] Chapter 15 (p. 95).

बाहरी संबंध

High-Precision Software Directory
QPFloat, a free software (GPL) software library for quadruple-precision arithmetic
HPAlib, a free software (LGPL) software library for quad-precision arithmetic
libquadmath, the GCC quad-precision math library
IEEE-754 Analysis, Interactive web page for examining Binary32, Binary64, and Binary128 floating-point values

[1] David H. Bailey; Jonathan M. Borwein (July 6, 2009). "उच्च परिशुद्धता संगणना और गणितीय भौतिकी" (PDF).

[2] Higham, Nicholas (2002). "Designing stable algorithms" in Accuracy and Stability of Numerical Algorithms (2 ed). SIAM. p. 43.

[whyieee-3] William Kahan (1 October 1987). "Lecture Notes on the Status of IEEE Standard 754 for Binary Floating-Point Arithmetic" (PDF).

[Hida-4] 4.0 ^4.1 ^4.2 ^4.3 Yozo Hida, X. Li, and D. H. Bailey, Quad-Double Arithmetic: Algorithms, Implementation, and Application, Lawrence Berkeley National Laboratory Technical Report LBNL-46996 (2000). Also Y. Hida et al., Library for double-double and quad-double arithmetic (2007).

[Shewchuk-5] 5.0 ^5.1 ^5.2 J. R. Shewchuk, Adaptive Precision Floating-Point Arithmetic and Fast Robust Geometric Predicates, Discrete & Computational Geometry 18:305–363, 1997.

[Knuth-4.2.3-pr9-6] Knuth, D. E. कंप्यूटर प्रोग्रामिंग की कला (2nd ed.). chapter 4.2.3. problem 9.

[7] Robert Munafo F107 and F161 High-Precision Floating-Point Data Types (2011).

[8] 128-Bit Long Double Floating-Point Data Type

[9] sourceware.org Re: The state of glibc libm

[10] "इंटेल फोरट्रान कंपाइलर उत्पाद संक्षिप्त (web.archive.org पर संग्रहीत प्रति)" (PDF). Su. Archived from the original on October 25, 2008. Retrieved 2010-01-23.{{cite web}}: CS1 maint: unfit URL (link)

[11] "GCC 4.6 Release Series - Changes, New Features, and Fixes". Retrieved 2010-02-06.

[12] "ISO/IEC TS 18661-3" (PDF). 2015-06-10. Retrieved 2019-09-22.

[13] 386 and x86-64 Options (archived copy on web.archive.org), Using the GNU Compiler Collection.

[14] Intel Developer Site

[15] MSDN homepage, about Visual C++ compiler

[16] "Procedure Call Standard for the ARM 64-bit Architecture (AArch64)" (PDF). 2013-05-22. Archived from the original (PDF) on 2019-10-16. Retrieved 2019-09-22.

[17] RS/6000 and PowerPC Options, Using the GNU Compiler Collection.

[18] Inside Macintosh - PowerPC Numerics Archived October 9, 2012, at the Wayback Machine

[19] 128-bit long double support routines for Darwin

[20] SPARC Options, Using the GNU Compiler Collection.

[21] The Math Libraries, Sun Studio 11 Numerical Computation Guide (2005).

[22] Additional Floating Types, Using the GNU Compiler Collection

[gcc6changes-23] 23.0 ^23.1 "GCC 6 Release Series - Changes, New Features, and Fixes". Retrieved 2016-09-13.

[24] Intel C++ Forums (2007).

[25] "कार्बन भाषा का मुख्य भंडार - भाषा डिज़ाइन". GitHub. 2022-08-09. Retrieved 2022-09-22.

[26] "Boost.Multiprecision - float128". Retrieved 2015-06-22.

[27] Pavel Holoborodko (2013-01-20). "MATLAB में तेज़ चौगुनी परिशुद्धता संगणनाएँ". Retrieved 2015-06-22.

[28] "DoubleFloats.jl". GitHub.

[29] "डॉबलेडोउब्ले.पी". GitHub.

[30] Schwarz, E. M.; Krygowski, C. A. (September 1999). "The S/390 G5 floating-point unit". IBM Journal of Research and Development. 43 (5/6): 707–721. CiteSeerX 10.1.1.117.6711. doi:10.1147/rd.435.0707.

[31] Gerwig, G. and Wetter, H. and Schwarz, E. M. and Haess, J. and Krygowski, C. A. and Fleischer, B. M. and Kroener, M. (May 2004). "The IBM eServer z990 floating-point unit. IBM J. Res. Dev. 48; pp. 311-322".{{cite news}}: CS1 maint: multiple names: authors list (link)

[32] Eric Schwarz (June 22, 2015). "The IBM z13 SIMD Accelerators for Integer, String, and Floating-Point" (PDF). Retrieved July 13, 2015.

[33] "बाइनरी इंटरचेंज प्रारूपों के लिए कार्यान्वयनकर्ता समर्थन". grouper.ieee.org. Archived from the original on 2017-10-27. Retrieved 2021-07-15.

[34] The SPARC Architecture Manual: Version 8 (archived copy on web.archive.org) (PDF). SPARC International, Inc. 1992. Archived from the original (PDF) on 2005-02-04. Retrieved 2011-09-24. SPARC is an instruction set architecture (ISA) with 32-bit integer and 32-, 64-, and 128-bit IEEE Standard 754 floating-point as its principal data types.

[35] David L. Weaver; Tom Germond, eds. (1994). The SPARC Architecture Manual: Version 9 (archived copy on web.archive.org) (PDF). SPARC International, Inc. Archived from the original (PDF) on 2012-01-18. Retrieved 2011-09-24. Floating-point: The architecture provides an IEEE 754-compatible floating-point instruction set, operating on a separate register file that provides 32 single-precision (32-bit), 32 double-precision (64-bit), 16 quad-precision (128-bit) registers, or a mixture thereof.

[36] "SPARC Behavior and Implementation". Numerical Computation Guide — Sun Studio 10. Sun Microsystems, Inc. 2004. Retrieved 2011-09-24. There are four situations, however, when the hardware will not successfully complete a floating-point instruction: ... The instruction is not implemented by the hardware (such as ... quad-precision instructions on any SPARC FPU).

[37] Padegs A (1968). "Structural aspects of the System/360 Model 85, III: Extensions to floating-point architecture". IBM Systems Journal. 7: 22–29. doi:10.1147/sj.71.0022.

[38] Vector Engine AssemblyLanguage Reference Manual, Chapter4 Assembler Syntax page 23.

[39] SX-Aurora TSUBASA Architecture Guide Revision 1.1 (p. 38, 60).

[40] RISC-V ISA Specification v. 20191213, Chapter 13, “Q” Standard Extension for Quad-Precision Floating-Point, page 79.

[41] [1] Chapter 15 (p. 95).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

v t e Data types
Uninterpreted	Bit Byte Trit Tryte Word Bit array
Numeric	Arbitrary-precision or bignum Complex Decimal Fixed point Floating point Reduced precision Minifloat Half precision bfloat16 Single precision Double precision Quadruple precision Octuple precision Extended precision Long double Integer signedness Interval Rational
Pointer	Address physical virtual Reference
Text	Character String null-terminated
Composite	Algebraic data type generalized Array Associative array Class Dependent Equality Inductive Intersection List Object metaobject Option type Product Record or Struct Refinement Set Union tagged
Other	Boolean Bottom type Collection Enumerated type Exception Function type Opaque data type Recursive data type Semaphore Stream Top type Type class Unit type Void
Related topics	Abstract data type Boxing Data structure Generic Kind metaclass Parametric polymorphism Primitive data type Interface Subtyping Type constructor Type conversion Type system Type theory Variable

Anonymous

Search

चौगुनी-परिशुद्धता फ़्लोटिंग-पॉइंट प्रारूप

Namespaces

More

Page actions

Contents

आईईईई 754 चौगुनी-परिशुद्धता बाइनरी फ़्लोटिंग-पॉइंट प्रारूप: बाइनरी128

घातांक एन्कोडिंग

चौगुनी परिशुद्धता उदाहरण

डबल-डबल अंकगणित

कार्यान्वयन

कंप्यूटर-भाषा समर्थन

पुस्तकालय और टूलबॉक्स

हार्डवेयर समर्थन

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Computer architecture bit widths
Bit
1 4 8 12 16 18 24 26 28 30 31 32 36 45 48 60 64 128 256 512 bit slicing
Application
8 16 32 64
Binary floating-point precision
16 (×½) 24 32 (×1) 40 64 (×2) 80 128 (×4) 256 (×8)
Decimal floating-point precision
32 64 128
v t e

Anonymous

Search

चौगुनी-परिशुद्धता फ़्लोटिंग-पॉइंट प्रारूप

आईईईई 754 चौगुनी-परिशुद्धता बाइनरी फ़्लोटिंग-पॉइंट प्रारूप: बाइनरी128

घातांक एन्कोडिंग

चौगुनी परिशुद्धता उदाहरण

डबल-डबल अंकगणित

कार्यान्वयन

कंप्यूटर-भाषा समर्थन

पुस्तकालय और टूलबॉक्स

हार्डवेयर समर्थन

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories