आवृत्ति विश्लेषण

क्रिप्ट एनालिसिस में, आवृत्ति विश्लेषण (गिनती अक्षरों के रूप में भी जाना जाता है) एक सिफरटेक्स्ट में अक्षर आवृत्तियों या अक्षरों के समूह का अध्ययन है। विधि का उपयोग शास्त्रीय सिफर को तोड़ने में सहायता के रूप में किया जाता है।

बारंबारता विश्लेषण इस तथ्य पर आधारित है कि, लिखित भाषा के किसी भी खंड में, कुछ अक्षर और अक्षरों के संयोजन अलग-अलग आवृत्तियों के साथ होते हैं। इसके अलावा, अक्षरों का एक विशिष्ट वितरण है जो उस भाषा के लगभग सभी नमूनों के लिए लगभग समान है। उदाहरण के लिए, अंग्रेजी भाषा के एक खंड को देखते हुए, E, T, A और O सबसे आम हैं, जबकि Z, Q, X और J दूर्लभ हैं। वैसे ही, TH, ER, ON, और AN अक्षरों के सबसे आम जोड़े हैं (जिन्हें बाइग्राम या डिग्राफ कहा जाता है), और SS, EE, TT, और FF सबसे आम दोहराव हैं। बकवास वाक्यांश ETAOIN SHRDLU ठेठ अंग्रेजी भाषा के पाठ में 12 सबसे अधिक बार आने वाले अक्षरों का प्रतिनिधित्व करता है।

कुछ सिफर में, प्राकृतिक भाषा के प्लेनटेक्स्ट के ऐसे गुणों को सिफरटेक्स्ट में संरक्षित किया जाता है, और इन पैटर्नों में सिफरटेक्स्ट-ओनली अटैक में शोषण किए जाने की क्षमता होती है।

सरल प्रतिस्थापन सिफर
के लिए आवृत्ति विश्लेषण एक साधारण प्रतिस्थापन सिफर में, सादे पाठ के प्रत्येक अक्षर को दूसरे से बदल दिया जाता है, और प्लेनटेक्स्ट में कोई भी विशेष अक्षर हमेशा सिफरटेक्स्ट में उसी अक्षर में रूपांतरित हो जाएगा। उदाहरण के लिए, यदि पत्र की सभी घटनाएँ e अक्षर में बदलें X, एक सिफरटेक्स्ट संदेश जिसमें पत्र के कई उदाहरण हैं X एक क्रिप्ट एनालिस्ट को सुझाव देगा कि X प्रतिनिधित्व करता है e.

आवृत्ति विश्लेषण का मूल उपयोग पहले सिफरटेक्स्ट अक्षरों की आवृत्ति को गिनना है और फिर उनके साथ अनुमानित सादे टेक्स्ट अक्षरों को जोड़ना है। अधिक Xs सिफरटेक्स्ट में है जो किसी और चीज से पता चलता है X से मेल खाती है e सादा पाठ में, लेकिन यह निश्चित नहीं है; t और a अंग्रेजी में भी बहुत आम हैं, इसलिए X उनमें से कोई भी हो सकता है। यह एक सादा पाठ होने की संभावना नहीं है z या q जो कम आम हैं। इस प्रकार क्रिप्ट एनालिस्ट को सिफरटेक्स्ट और प्लेनटेक्स्ट अक्षरों के बीच मैपिंग के कई संयोजनों को आज़माने की आवश्यकता हो सकती है।

आँकड़ों के अधिक जटिल उपयोग की कल्पना की जा सकती है, जैसे कि अक्षरों के जोड़े (बिग्राम), ट्रिपल (ट्रिग्राम), और इसी तरह की गिनती पर विचार करना। यह क्रिप्ट एनालिस्ट को अधिक जानकारी प्रदान करने के लिए किया जाता है, उदाहरण के लिए, Q और U अंग्रेजी में लगभग हमेशा उसी क्रम में एक साथ होते हैं, भले ही Q ही दुर्लभ है।

एक उदाहरण
मान लीजिए कि ऐलिस और बॉब ने नीचे बीज लेख  को इंटरसेप्ट किया है, और इसे एक साधारण प्रतिस्थापन सिफर का उपयोग करके एन्क्रिप्ट किया जाना जाना जाता है: LIVITCSWPIYVEWHEVSRIQMXLEYVEOIEWHRXEXIPFEMVEWHKVSTYLXZIXLIKIIXPIJVSZEYPERRGERIM WQLMGLMXQERIWGPSRIHMXQEREKIETXMJTPRGEVEKEITREWHEXXLEXXMZITWAWSQWXSWEXTVEPMRXRSJ GSTVRIEYVIEXCVMUIMWERGMIWXMJMGCSMWXSJOMIQXLIVIQIVIXQSVSTWHKPEGARCSXRWIEVSWIIBXV IZMXFSJXLIKEGAEWHEPSWYSWIWIEVXLISXLIVXLIRGEPIRQIVIIBGIIHMWYPFLEVHEWHYPSRRFQMXLE PPXLIECCIEVEWGISJKTVWMRLIHYSPHXLIQIMYLXSJXLIMWRIGXQEROIVFVIZEVAEKPIEWHXEAMWYEPP XLMWYRMWXSGSWRMHIVEXMSWMGSTPHLEVHPFKPEZINTCMXIVJSVLMRSCMWMSWVIRCIGXMWYMX इस उदाहरण के लिए, अपरकेस अक्षरों का उपयोग सिफरटेक्स्ट को निरूपित करने के लिए किया जाता है, लोअरकेस अक्षरों का उपयोग प्लेनटेक्स्ट (या अनुमान लगाने) के लिए किया जाता है, और X~t का उपयोग उस सिफरटेक्स्ट अक्षर के अनुमान को व्यक्त करने के लिए किया जाता है X सादे पाठ पत्र का प्रतिनिधित्व करता है t.

ईव निम्नलिखित पंक्तियों के साथ संदेश को हल करने में सहायता के लिए आवृत्ति विश्लेषण का उपयोग कर सकता है: क्रिप्टोग्राम में अक्षरों की संख्या यह दर्शाती है I सबसे आम एकल अक्षर है, XL सबसे आम बिग्राम, और XLI सबसे आम trigram है। e अंग्रेजी भाषा का सबसे आम अक्षर है, th सबसे आम बिग्राम है, और the सबसे आम ट्रिग्राम है। यह दृढ़ता से सुझाव देता है X~t, L~h और I~e. क्रिप्टोग्राम में दूसरा सबसे आम अक्षर है E; चूंकि अंग्रेजी भाषा में पहले और दूसरे सबसे अधिक बार आने वाले अक्षर, e और t का हिसाब है, ईव का अनुमान है E~a, तीसरा सबसे अधिक बार आने वाला अक्षर। इन धारणाओं को अस्थायी रूप से बनाते हुए, निम्न आंशिक डिक्रिप्टेड संदेश प्राप्त होता है।

heVeTCSWPeYVaWHaVSReQMthaYVaOeaWHRtatePFaMVaWHKVSTYhtZetheKeetPeJVSZaYPaRRGaReM WQhMGhMtQaReWGPSReHMtQaRaKeaTtMJTPRGaVaKaeTRaWHatthattMZeTWAWSQWtSWatTVaPMRtRSJ GSTVReaYVeatCVMUeMWaRGMeWtMJMGCSMWtSJOMeQtheVeQeVetQSVSTWHKPaGARCStRWeaVSWeeBtV eZMtFSJtheKaGAaWHaPSWYSWeWeaVtheStheVtheRGaPeRQeVeeBGeeHMWYPFhaVHaWHYPSRRFQMtha PPtheaCCeaVaWGeSJKTVWMRheHYSPHtheQeMYhtSJtheMWReGtQaROeVFVeZaVAaKPeaWHtaAMWYaPP thMWYRMWtSGSWRMHeVatMSWMGSTPHhaVHPFKPaZeNTCMteVJSVhMRSCMWMSWVeRCeGtMWYMt

इन प्रारंभिक अनुमानों का उपयोग करते हुए, हव्वा उन पैटर्नों को खोज सकती है जो उसकी पसंद की पुष्टि करते हैं, जैसेthat. इसके अलावा, अन्य पैटर्न आगे के अनुमानों का सुझाव देते हैं।Rtate हो सकता हैstate, जिसका अर्थ होगा R~s. उसी प्रकारatthattMZe के रूप में अनुमान लगाया जा सकता हैatthattime, देने वाला M~i और Z~m. आगे,heVe हो सकता हैhere, दे रहा है V~r. इन अनुमानों को भरते हुए ईव को मिलता है:

hereTCSWPeYraWHarSseQithaYraOeaWHstatePFairaWHKrSTYhtmetheKeetPeJrSmaYPassGasei WQhiGhitQaseWGPSseHitQasaKeaTtiJTPsGaraKaeTsaWHatthattimeTWAWSQWtSWatTraPistsSJ GSTrseaYreatCriUeiWasGieWtiJiGCSiWtSJOieQthereQeretQSrSTWHKPaGAsCStsWearSWeeBtr emitFSJtheKaGAaWHaPSWYSWeWeartheStherthesGaPesQereeBGeeHiWYPFharHaWHYPSssFQitha PPtheaCCearaWGeSJKTrWisheHYSPHtheQeiYhtSJtheiWseGtQasOerFremarAaKPeaWHtaAiWYaPP thiWYsiWtSGSWsiHeratiSWiGSTPHharHPFKPameNTCiterJSrhisSCiWiSWresCeGtiWYit

बदले में, ये अनुमान अभी भी दूसरों का सुझाव देते हैं (उदाहरण के लिए,remarA हो सकता हैremark, मतलब A~k) और इसी तरह, और बाकी के अक्षरों को निकालना अपेक्षाकृत सरल है, अंततः सादे पाठ की उपज।

hereuponlegrandarosewithagraveandstatelyairandbroughtmethebeetlefromaglasscasei nwhichitwasencloseditwasabeautifulscarabaeusandatthattimeunknowntonaturalistsof courseagreatprizeinascientificpointofviewthereweretworoundblackspotsnearoneextr emityofthebackandalongoneneartheotherthescaleswereexceedinglyhardandglossywitha lltheappearanceofburnishedgoldtheweightoftheinsectwasveryremarkableandtakingall thingsintoconsiderationicouldhardlyblamejupiterforhisopinionrespectingit

इस बिंदु पर, ईव के लिए रिक्त स्थान और विराम चिह्न सम्मिलित करना एक अच्छा विचार होगा:

इसके बाद लेग्रैंड गंभीर और आलीशान हवा के साथ उठे, और मुझे बीटल लाए एक कांच के मामले से जिसमें यह संलग्न था। यह एक सुंदर स्कारबियस था, और, पर उस समय, प्रकृतिवादियों के लिए अज्ञात-बेशक एक वैज्ञानिक बिंदु में एक बड़ा पुरस्कार मानना ​​है कि। पीठ के एक सिरे के पास दो गोल काले धब्बे थे, और a एक दूसरे के पास लंबा। तराजू अत्यधिक कठोर और चमकदार थे, सभी के साथ जले हुए सोने की उपस्थिति। कीट का वजन बहुत ही उल्लेखनीय था, और, सभी बातों को ध्यान में रखते हुए, मैं शायद ही बृहस्पति को उनकी राय के लिए दोष दे सकूं इसका सम्मान करना।

द गोल्ड-बग के इस उदाहरण में ईव के सभी अनुमान सही थे। हालांकि, हमेशा ऐसा नहीं होगा; अलग-अलग सादे पाठों के आंकड़ों में भिन्नता का मतलब यह हो सकता है कि प्रारंभिक अनुमान गलत हैं। उपरोक्त उदाहरण में दिए गए कुछ सरलीकृत औचित्य की तुलना में गलत अनुमानों को पीछे हटाना या उपलब्ध आंकड़ों का अधिक गहराई से विश्लेषण करना आवश्यक हो सकता है।

यह भी संभव है कि सादा पाठ अक्षर आवृत्तियों के अपेक्षित वितरण को प्रदर्शित न करे। छोटे संदेशों में अधिक भिन्नता दिखाने की संभावना होती है। कृत्रिम रूप से टेढ़े-मेढ़े ग्रंथों का निर्माण भी संभव है। उदाहरण के लिए, पूरे उपन्यास लिखे गए हैं जो अक्षर को छोड़ देते हैंe कुल मिलाकर — साहित्य का एक रूप लिपोग्राम के रूप में जाना जाता है।

इतिहास और उपयोग


फ़्रीक्वेंसी एनालिसिस (वास्तव में, किसी भी प्रकार के क्रिप्ट एनालिसिस) का पहला ज्ञात रिकॉर्ड किया गया स्पष्टीकरण 9वीं शताब्दी में अल-किंडी, एक अरब बहुश्रुत द्वारा ए मैनुस्क्रिप्ट ऑन डिक्रिफ़रिंग क्रिप्टोग्राफ़िक मैसेज में दिया गया था। यह सुझाव दिया गया है कि कुरान के करीबी पाठ्य अध्ययन ने पहली बार प्रकाश में लाया कि अरबी भाषा में एक विशिष्ट अक्षर आवृत्ति है। इसका उपयोग फैल गया, और पुनर्जागरण के समय तक यूरोपीय राज्यों में समान प्रणालियों का व्यापक रूप से उपयोग किया जाने लगा। 1474 तक, Cicco Simonetta ने लैटिन भाषा और इतालवी भाषा के पाठ के गूढ़ रहस्य पर एक मैनुअल लिखा था। सरल प्रतिस्थापन एन्क्रिप्शन में इस कमजोरी को दूर करने के लिए क्रिप्टोग्राफ़रों द्वारा कई योजनाओं का आविष्कार किया गया था। इनमें शामिल हैं:


 * होमोफोनिक प्रतिस्थापन सिफर: होमोफोन का उपयोग - अन्यथा मोनोअल्फाबेटिक प्रतिस्थापन सिफर में सबसे आम अक्षरों के लिए कई विकल्प। उदाहरण के लिए, अंग्रेजी के लिए, X और Y सिफरटेक्स्ट दोनों का अर्थ प्लेनटेक्स्ट E हो सकता है।
 * पॉलीअल्फाबेटिक सिफर, यानी, कई अक्षरों का उपयोग - मिश्रित, कम या ज्यादा कुटिल तरीकों से चुना गया (लियो अल्बर्टी इसे प्रस्तावित करने वाले पहले व्यक्ति थे); और
 * पॉलीग्राफिक प्रतिस्थापन, योजनाएँ जहाँ सादे पाठ अक्षरों के जोड़े या ट्रिपल को एकल अक्षरों के बजाय प्रतिस्थापन के लिए इकाइयों के रूप में माना जाता है, उदाहरण के लिए, 19 वीं शताब्दी के मध्य में चार्ल्स व्हीटस्टोन द्वारा आविष्कार किया गया प्लेफेयर सिफर।

फ़्रीक्वेंसी काउंटिंग हमलों को विफल करने के इन सभी प्रयासों का एक नुकसान यह है कि यह कूटलेखन और गूढ़लेख दोनों की जटिलता को बढ़ाता है, जिससे गलतियाँ होती हैं। कहा जाता है कि एक ब्रिटिश विदेश सचिव ने प्लेफेयर सिफर को अस्वीकार कर दिया था, क्योंकि भले ही स्कूल के लड़के व्हीटस्टोन और प्लेफेयर के रूप में सफलतापूर्वक सामना कर सकते थे, हमारे अटैची इसे कभी नहीं सीख सकते थे! .

20वीं शताब्दी के पूर्वार्द्ध की रोटर मशीनें (उदाहरण के लिए, पहेली मशीन ) स्पष्ट आवृत्ति विश्लेषण के लिए अनिवार्य रूप से प्रतिरक्षित थीं। हालांकि, अन्य प्रकार के विश्लेषण (हमलों) ने उनमें से कुछ मशीनों से संदेशों को सफलतापूर्वक डिकोड किया।

बारंबारता विश्लेषण के लिए सादे पाठ भाषा के आंकड़ों की बुनियादी समझ और कुछ समस्या सुलझाने के कौशल की आवश्यकता होती है, और यदि हाथ से किया जाता है, तो व्यापक पत्र बहीखाता पद्धति के लिए सहिष्णुता की आवश्यकता होती है। द्वितीय विश्व युद्ध (द्वितीय विश्व युद्ध) के दौरान, यूनाइटेड किंगडम और संयुक्त राज्य अमेरिका दोनों ने प्रमुख समाचार पत्रों में क्रॉसवर्ड पहेली डालकर और उन्हें सबसे तेजी से हल करने वाले लोगों के लिए प्रतियोगिता चलाकर कोडब्रेकर्स की भर्ती की। एक्सिस शक्तियों द्वारा उपयोग किए जाने वाले कई सिफर आवृत्ति विश्लेषण का उपयोग करके भंग करने योग्य थे, उदाहरण के लिए, जापानी द्वारा उपयोग किए जाने वाले कुछ कॉन्सुलर सिफर। पत्र गणना और सांख्यिकीय विश्लेषण के यांत्रिक तरीकों (आमतौर पर आईबीएम कार्ड प्रकार मशीनरी) का उपयोग द्वितीय विश्व युद्ध में संभवतः अमेरिकी सेना की सिग्नल इंटेलिजेंस सर्विस द्वारा किया गया था। आज अक्षरों की गिनती और विश्लेषण की कड़ी मेहनत की जगह कंप्यूटर सॉफ़्टवेयर  ने ले ली है, जो सेकंडों में इस तरह के विश्लेषण को अंजाम दे सकता है। आधुनिक कंप्यूटिंग शक्ति के साथ, शास्त्रीय सिफर गोपनीय डेटा के लिए कोई वास्तविक सुरक्षा प्रदान करने की संभावना नहीं है।

कल्पना में आवृत्ति विश्लेषण
कल्पना में आवृत्ति विश्लेषण का वर्णन किया गया है। एडगर एलन पो की द गोल्ड-बग और आर्थर कॉनन डॉयल | सर आर्थर कॉनन डॉयल की शर्लक होम्स की कहानी द एडवेंचर ऑफ़ द डांसिंग मेन उन कहानियों के उदाहरण हैं जो सरल प्रतिस्थापन सिफर पर हमला करने के लिए आवृत्ति विश्लेषण के उपयोग का वर्णन करती हैं। पो कहानी में सिफर कई धोखे के उपायों से घिरा हुआ है, लेकिन क्रिप्टोग्राफिक रूप से महत्वपूर्ण किसी भी चीज़ की तुलना में यह एक साहित्यिक उपकरण है।

यह भी देखें

 * एटाओइन श्रदलू
 * पत्र आवृत्तियों
 * अरबी पत्र आवृत्ति
 * संयोग का सूचकांक
 * क्रिप्टोग्राफी में विषय
 * जिपफ का नियम
 * ए वॉयड, जॉर्ज पेरेक  का उपन्यास। मूल फ्रांसीसी पाठ ई अक्षर के बिना लिखा गया है, जैसा कि अंग्रेजी अनुवाद है। स्पैनिश संस्करण में कोई नहीं है।
 * गडस्बी (उपन्यास), अर्नेस्ट विन्सेंट राइट का एक उपन्यास। उपन्यास लिपोग्राम के रूप में लिखा गया है, जिसमें ई अक्षर वाले शब्द शामिल नहीं हैं।

अग्रिम पठन

 * Helen Fouché Gaines, "Cryptanalysis", 1939, Dover. ISBN 0-486-20097-3
 * Abraham Sinkov, "Elementary Cryptanalysis: A Mathematical Approach", The Mathematical Association of America, 1966. ISBN 0-88385-622-0.

बाहरी संबंध

 * Online frequency analysis tool
 * Character and syllable frequencies of 41 languages and a portable tool to create frequency and syllable distributions
 * Arabic letter frequency analysis
 * Conditional probabilities for characters in English text
 * Czech letter/bigram/trigram frequency