यूनिसिटी दूरी

क्रिप्टोग्राफी में, यूनिसिटी दूरी एक मूल कूटलिखित आँकड़े की लंबाई होती है जो एक प्रवृति के आवेग में संभावित अवांछित कुंजियों की संख्या को शून्य तक कम करके सिफ़र को ब्रेक करने के लिए आवश्यक होता है। अर्थात, प्रत्येक संभव कुंजी का प्रयास करने के बाद, केवल एक डिक्रिप्शन होना चाहिए जो समझ में आता है, अर्थात कुंजी को पूरी तरह से निर्धारित करने के लिए आवश्यक कूटलिखित आँकड़े की अपेक्षित मात्रा मे, यह मानते हुए कि अंतर्निहित संदेश में अतिरेक होता है।

क्लाउड शैनन ने अपने 1949 के पेपर "कम्युनिकेशन थ्योरी ऑफ सीक्रेसी सिस्टम्स" में यूनिसिटी दूरी को परिभाषित किया था।

पांच अक्षर वाली कुंजी के साथ विगेनियर सिफर का उपयोग करके एन्क्रिप्टेड कूटलिखित आँकड़े स्ट्रिंग WNAIW हमले पर विचार करें। संभवतः, इस स्ट्रिंग को किसी अन्य स्ट्रिंग में समझा जा सकता है - नदी और पानी दोनों कुछ कुंजियों के लिए संभावनाएं होती हैं। यह क्रिप्टोएनालिसिस का एक सामान्य नियम है: जो बिना किसी अतिरिक्त जानकारी के इस संदेश को डिकोड करना असंभव होता है।

निःसंदेह, इस स्थिति में भी, अंग्रेजी शब्दों में केवल पांच अक्षर वाली कुंजियों की एक निश्चित संख्या ही परिणामित होती है। सभी संभावित कुंजियाँ प्रयास से हमें न केवल नदी और पानी मिलेगा, जबकि SXOOS और KHDOP भी मिलेंगे। "कार्यशील" कुंजियों की संख्या संभवतः सभी संभावित कुंजियों के समुच्चय से बहुत कम होती है। समस्या यह जानने की है कि इनमें से कौन सी "कार्यशील" कुंजी सही है; बाकी सब नकली होते हैं।

कुंजी आकार और संभावित सादेपाठ के साथ संबंध
सामान्यतः, कुंजी के आकार और संभावित संदेशों की संख्या के बारे में विशेष धारणाओं को देखते हुए, एक औसत सिफरटेक्स्ट लंबाई होती है जहां केवल एक कुंजी होती है (औसतन) जो एक पढ़ने योग्य संदेश उत्पन्न करती है। उपरोक्त उदाहरण में हम केवल अपरकेस अंग्रेजी वर्ण देखते हैं, इसलिए यदि हम मान लें कि प्लेनटेक्स्ट का यह रूप है, तो स्ट्रिंग में प्रत्येक स्थिति के लिए 26 संभावित अक्षर होते हैं। इसी तरह यदि हम पाँच-वर्ण वाली अपर केस कुंजियाँ मान लें, तो K=265 संभावित कुंजियाँ हैं, जिनमें से अधिकांश "काम" नहीं करती है।

वर्णों के इस सीमित समुच्चय का उपयोग करके भी भारी संख्या में संभावित संदेश, N उत्पन्न किए जा सकते हैं: N = 26L, जहां L संदेश की लंबाई होती है। चूँकि, भाषा के नियमों के कारण उनमें से केवल एक छोटा समुच्चय ही पठनीय होता है, संभवतः उनमें से M, जहां M N की तुलना में बहुत छोटे होने की संभावना होती है। इसके अतिरिक्त, M का काम करने वाली कुंजियों की संख्या के साथ एक-से-एक संबंध होता है, इसलिए K संभावित कुंजियाँ दी गई हैं, उनमें से केवल K × (M/N) ही "काम" करते हैं। इनमें से एक सही कुंजी है, बाकी सब नकली होती हैं।

चूंकि संदेश की लंबाई L बढ़ने पर M/N यादृच्छिक रूप से छोटे हो जाते है, अंततः कुछ L होते है जो इतना बड़ा होता है कि नकली कुंजियों की संख्या शून्य के बराबर हो जाती है। सामान्यतः कहें तो, यह वह L है जो KM/N=1 बनाता है। यह L यूनिसिटी दूरी होती है।

कुंजी एन्ट्रापी और प्लेनटेक्स्ट अतिरेक के साथ संबंध
यूनिसिटी दूरी को समान रूप से अद्वितीय एन्क्रिप्शन कुंजी को पुनर्प्राप्त करने के लिए संगणनात्मक रूप से असीमित प्रतिद्वंद्वी को अनुमति देने के लिए आवश्यक कूटलिखित आँकड़े की न्यूनतम मात्रा के रूप में परिभाषित किया जा सकता है।

तब अपेक्षित यूनिसिटी दूरी को इस प्रकार दिखाया जा सकता है:


 * $$U = H(k) / D$$

जहां U यूनिसिटी दूरी होती है, H(k) मुख्य स्थान की एन्ट्रापी है (उदाहरण के लिए 2128 समसंभाव्य कुंजियों के लिए 128, यदि कुंजी एक स्मरण किया गया संकेत- वाक्यांश होता है)। D को प्रति वर्ण बिट्स में प्लेनटेक्स्ट आँकड़ा अतिरिक्तता के रूप में परिभाषित किया गया है।

अब 32 अक्षरों की एक वर्णमाला में प्रति अक्षर 5 बिट जानकारी हो सकती है (जैसे 32 = 25)। सामान्यतः प्रति वर्ण सूचना के बिट्स की संख्या log2(N) है, जहां N वर्णमाला में वर्णों की संख्या है और log2 बाइनरी लघुगणक होता है। तो अंग्रेजी के लिए प्रत्येक अक्षर log2(26) = 4.7 बिट संप्रेषित कर सकता है।

चूँकि, सार्थक अंग्रेजी पाठ में प्रति वर्ण वास्तविक जानकारी की औसत मात्रा केवल 1.5 बिट प्रति वर्ण है। तो प्लेनटेक्स्ट अतिरेक D = 4.7 − 1.5 = 3.2 होता है।

मूलतः यूनिसिटी दूरी जितनी बड़ी होगी उतना ही बेहतर होता है। असीमित आकार के वन टाइम पैड के लिए, मुख्य स्थान की असीमित एन्ट्रॉपी को देखते हुए, हमारे पास $$U = \infty$$, जो वन-टाइम पैड ने के अनुरूप होते है।

प्रतिस्थापन सिफर की यूनिसिटी दूरी
एक साधारण प्रतिस्थापन सिफर के लिए, संभावित कुंजियों की संख्या है $26! = 4.0329 × 10^{26} = 2^{88.4}$ होती है, उन विधियों की संख्या जिनसे वर्णमाला को क्रमबद्ध किया जा सकता है। यह मानते हुए कि सभी कुंजियाँ समान रूप से संभावित होती हैं, $H(k) = log_{2}(26!) = 88.4$ बिट्स होती है। अंग्रेजी पाठ के लिए $D = 3.2$, इस प्रकार $U = 88.4/3.2 = 28$ होते है।

इसलिए कूटलिखित आँकड़े के 28 अक्षरों को देखते हुए एक अंग्रेजी प्लेनटेक्स्ट और कुंजी पर काम करना सैद्धांतिक रूप से संभव होना चाहिए।

व्यावहारिक अनुप्रयोग
यूनिसिटी दूरी एक उपयोगी सैद्धांतिक माप है, किन्तु दुनिया (सीमित) संसाधनों वाले किसी प्रतिद्वंद्वी द्वारा हमला किए जाने पर यह ब्लॉक सिफर की सुरक्षा के बारे में बहुत कुछ नहीं कहता है। तीन सिफरटेक्स्ट ब्लॉकों की यूनिसिटी दूरी वाले एक ब्लॉक सिफर पर विचार करें। यद्यपि सही कुंजी (सरल विस्तृत खोज) खोजने के लिए संगणनात्मक रूप से असीमित प्रतिद्वंद्वी के लिए स्पष्ट रूप से पर्याप्त जानकारी है, यह व्यवहार में संगणनात्मक रूप से असंभव हो सकता है।

प्लेनटेक्स्ट अतिरेक को कम करके यूनिसिटी दूरी को बढ़ाया जा सकता है। ऐसा करने की एक विधि एन्क्रिप्शन से पहले डेटा संपीड़न तकनीकों को परिनियोजित करती है, उदाहरण के लिए पठनीयता बनाए रखते हुए अनावश्यक स्वरों को हटाकर। वैसे भी यह एक अच्छा विचार है, क्योंकि यह एन्क्रिप्ट किए जाने वाले डेटा की मात्रा को कम कर देता है।

यूनिसिटी दूरी से अधिक कूटलिखित आँकड़े को केवल एक सार्थक डिक्रिप्शन माना जा सकता है। यूनिसिटी दूरी से छोटे कूटलिखित आँकड़े में कई प्रशंसनीय डिक्रिप्शन हो सकते हैं। यूनिसिटी दूरी इस बात का मापता नहीं है कि क्रिप्टोएनालिसिस के लिए कितना कूटलिखित आँकड़े की आवश्यकता होती है, जबकि क्रिप्टोएनालिसिस के लिए केवल एक उचित समाधान होने के लिए कितने कूटलिखित आँकड़े की आवश्यकता होती है।

बाप्रत्येक ी संबंध

 * Bruce Schneier: How to Recognize Plaintext (Crypto-Gram Newsletter December 15, 1998)
 * Unicity Distance computed for common ciphers